原文:小沛長輩之「網路廣告商怎麼知道你是誰? 從 ClickStream 來判斷用戶資料」
前面罵了兩篇不精準廣告 ( Yahoo 不精準廣告, 不精準的是廣告,還是我?),大家可能會覺得網路廣告本來就是隨機輪播居多,本來就應該不會太精準。鳥毅的 comment 也點出了計算資源的問題。到底網路廣告可能做到什麼程度呢?這篇就來介紹一下這學期學到的 clickstream 分析。
(本篇計算的部份需要基本的統計和機率概念,另外本篇文章數據資料引用或截圖自 「Applying Quantitative Marketing Techniques to the Internet, Montgomery 2001」,以下僅用 「[Montgomery 2001]」 來代表)
為什麼網路廣告要做個人化?效益何在?
網路廣告有兩個主要計價法: CPM 是不管用戶有沒有點選,廣告播一千次收固定的錢;CPC 是用戶每點一次要多少錢。兩者沒有誰比較好比較壞,取決於產品的特性而定,但如果採用 CPM 而點閱率很低的話,廣告主倒楣;採用 CPC 而點閱率很低,是廣告商吃虧。
不管採用哪一種方式,如果可以得知用戶的資料,並依據這些資料來播放適當廣告,雖然在後端資料庫可能需要多花一點計算資源,但是網路廣告成效比較高,而且沒有效益的廣告乾脆就不要播還可以節省頻寬錢。
如何推測個人資料
問題是蒐集個人資料並不容易,除非是註冊會員並且已經登入。但是,如果幾個主要網站都聯合起來,大家互相交流某甲是否來過這個網站,這樣就可以得到一份某甲瀏覽網站的歷史資料;這份資料不一定是完整的,但光是這些資料就已經能夠作為判斷的依據。例如,假如有個使用者他先去看 Yahoo 新聞中的體育消息,再來看了中時電子報的體育板,又去看聯合新聞網的王建民新聞,這時候你對於這個使用者就會有完全不同於先前的推測了吧?「嘴巴不說,瀏覽行為倒是挺誠實的」 就是這個道理…(喂喂…)
最近被 Google 併購的 DoubleClick,不只是賣廣告而已,最重要的是它因為同時和許多網站合作輪播廣告,所以它可以知道哪些使用者造訪了哪些網站。透過這些資料,它可以分析出使用者的特性,進而播出更精準的廣告。
問題是,從瀏覽行為推測使用者特性,不會很難嗎?事實上,沒有想像中這麼難。
從統計資料出發
[Montgomery 2001] 這篇論文利用很簡單的貝式定理和條件機率來展示如何判斷用戶是男是女,資料請參考這個表格。基本上需要兩個資料,一個是使用者上過的網站歷史資料,另一個是各網站的造訪者男女比例。首先從當時 Internet 使用者有 45% 是女性出發。當我們知道這個使用者上過 aol.com,而 aol.com 的用戶又有 48% 是女性,我們就可以更新這個用戶是女性的機率為:
一個上網且上 AOL 網站的使用者為女性的機率 = ( 已知上網女性機率 * 上 AOL 網站女性比例 ) / [ ( 已知上網女性機率 * 上 AOL 網站女性比例 ) + ( 已知上網男性機率 * 上 AOL 網站男性比例) ]
用這個方式,我們可以把所有造訪過的網站都推算一次,最後發現如果我們可以知道這些網站的男女分佈,我們可以推測出這個使用者是女性的機率高達 99.97%! (請參考試算表)
但是 DoubleClick 當然沒有掌握所有的網站資料。事實上它們只有掌握 23 個網站中的 5 個而已。但是光是從這五個網站,就可以推出這個使用者是女性的機率為 95.36%!
計算這些資料並不困難,也不需要即時計算,只要定時更新,接下來每次遇到這個使用者,就播出專屬於他的廣告,這樣廣告不但效益高,也不會太耗費系統資源。
這就是我質疑為什麼 Yahoo! 不精準的緣故。首先,這技術既不難,也不新。唯一的困難點就是必須掌握多個網站的瀏覽行為,但這對 Yahoo!TW 來說根本不是問題,另一個比較難取得的網友資料分佈對 Y! 也相對不是問題,所以我想問的是,為什麼不做呢?還是說,台灣市場真的太好混了?
參考:
- Applying Quantitative Marketing Techniques to the Internet, Alan L. Montgomery, 2001
- Click Stream 試算表 on Google Docs & Spreadsheets
- Yahoo 不精準廣告
- DoubleClick 在 Wikipedia 的介紹
沒有留言:
張貼留言