2009年8月23日

Detecting Online Commercial Intention (OCI)

本篇文章 (Detecting Online Commercial Intention (OCI)) 出自於WWW'06, 主要的作者為微軟研究團隊.
如果可以瞭解或預測使用者的網路行為, 則可以進一步給予個人化內容, 例如: 呈現使用者喜愛的產品或新聞內容給使用者. 因此對資訊服務提供者 (Information Service Provider) 而言能夠精確的預測使用者行為, 係一項很重要的任務. 本論文主要探討使用者在網路上面的行為是否具有商業意圖, 稱為 Online Commercial Intention (OCI), 作者將網路行為主要分成使用者正在瀏覽的網頁 (web) 和使用者所搜尋的查詢 (query), 因此將線上商業意圖偵測議題分成網頁商業意圖偵測 (Web Page Online Commercial Intention Detection) 及查詢商業意圖偵測 (Query Online Commercial Intention Detection).
Web Page OCI Detector: 作者透過機器學習的方式產生網頁商業意圖偵測器, 此偵測器為二元分類器, 主要任務係將一般網頁分成商業 (commercial) 或是非商業 (non-commercial), 所採用的特徵 (feature) 除了使網頁中所有的文字之外, 也使用feature selection方法挑選了額外較具有鑑別力的特徵, 關於機器學習演算法則為SVM (Support Vector Machine).
Query OCI Detector: 一般查詢均會有相對應的網頁, 例如: 搜尋引擎回傳的網頁. 因此作者將先前訓練好的Web Page OCI Detector對這些網頁進行分類, 判斷所回傳的網頁是否屬於commercial. 由於搜尋引擎所回傳的網頁具有順序性, 為了將rank因素考量在內, 作者採用第二種分類器 (Query OCI Detector), 將查詢判斷成具有商業意圖或者非商業意圖.
實驗部份, 在Web Page OCI部分, 平均F-measure可達92%, 同時也比較了不同的feature size對於結果的影響. 關於Query OCI, 平均 F-measure可達85%, 並且實驗出有趣的發現, 查詢的頻率越高越有可能具有商業意圖, 相對的頻率越短的查詢越不具有商業意圖.
本論文對於欲探討使用者行為除了做個一個基本的介紹外, 亦使用了機器學習演算法來判斷網頁及查詢的意圖, 可讓讀者了解機器學習如何實際應用到網頁領域的基本知識.
以下附上, 閱讀過後所整理的投影片.

沒有留言: