2008年5月19日

Automatic Identification of Pro and Con Reason in Online Reviews

Automatic Identification of Pro and Con Reason in Online Reviews 這篇論文主要出自於COLING' 06, 其目的是將線上評價中的語句辨識出是否有含主觀意見, 進而將含主觀意見的句子分成pros 和 cons 兩個類別.

因此, 給定一句使用者評論中的句子, 系統架構主要可以分為兩個階對進行, 分別為subjectivity identification and polarity classification phases:
--subjectivity identification 將關於具有主觀意見的句子辨識出來.
--polarity classification 將主觀意見的句子進行分類.
subjectivity identification和polarity classification均採用supervised machine learning algorithm (Maximum Entropy), 類別主要分為三種 (Neither, Pro and Con), neither類別可視為客觀的類別(即一般的事實描述), 其內容不屬於pros and cons. 而分類時所使用的特徵屬性可分為三大類別:
1. Lexical (uni-gram, bi-gram and tri-gram)
2. Position (該sentence是否出現在review中的首兩句或末兩句)
3. Opinion-bearing words (是先選定好的情緒字集)

此外, 為了簡化標準答案的標註, 本論文提出了一套自動標註系統, 主要係透過目前某些評論網站含有特定的欄位來描述pro和con. 作者假設, 使用者在撰寫評論的時亦會使用相同的字詞(包含在pro's和con's feild) 來描述他對於該產品的優缺點, 藉由此特性, 來建立所需的標準答案.

實驗部份: 透過epinions.com(含有pro and con field)來建立訓練資料, 並且將建立好的model除了應用在此網站之外, 同樣也在Compliant.com上進行實驗, 最後實驗結果顯示, 平均precision 可達66%, recall 可達到76%.

利用目前些評論網站均含有描述pro和con的欄位. 假設user撰寫的pro's and con's所使用的字詞, 也會出現在撰寫整體評論中來描述他對於該產品的優缺點, 我們即可以pro's and con's的資料做為參考答案, 藉由此來建立所需的training data.

附上此論文投影片:

2008年5月7日

Image Classification for Mobile Web Browsing

這次報告的paper題目是"Image Classification for Mobile Web Browsing",出處是"Proceedings of the 15th international conference on World Wide Web"。不難想像的是,作者是日本人,畢竟在日本,使用手機已經成為非常高頻率的一種活動。底下是摘要部份:

對於只有小畫面的行動裝置使用者來說,瀏覽專為桌上型PC的大畫面所設計的網頁是不方便的。然而,隨著網路技術的提升與行動裝置的普及,這方面的需求也越來越多。目前已經有一些研究與商業產品正嘗試解決這方面的問題,其中,能夠正確地分辨網頁中image的種類是很有用的。舉例來說,去除網頁中某些image來簡化網頁內容以達到更符合小畫面瀏覽的程度。

在這篇paper中,作者們將web imgaes分成11個種類。接著,從40個網站中收集到的3901個images以手動方式分類。其中,選取了能夠有效分類的37個image features。這些image features的擷取方式總共有4種:
1.use HTML source file analysis
2.query web servers
3.exploit the layout information of DOM trees when rendering the pages
4.use image processing

根據這37個image features,作者們使用C4.5演算法來建立Decision Tree Classification。

實驗部份,總共執行40次,每一次選擇其中一個網站的images當作test set而其餘39個網站的images當作training set。結果顯示,採用作者們的分類方式可以達到83.1%的正確率。最後,作者們還實作了一個automatic web page scrolling system作為展示利用image classification方法的一種應用。

最後是這次報告的投影片: