2008年5月19日

Automatic Identification of Pro and Con Reason in Online Reviews

Automatic Identification of Pro and Con Reason in Online Reviews 這篇論文主要出自於COLING' 06, 其目的是將線上評價中的語句辨識出是否有含主觀意見, 進而將含主觀意見的句子分成pros 和 cons 兩個類別.

因此, 給定一句使用者評論中的句子, 系統架構主要可以分為兩個階對進行, 分別為subjectivity identification and polarity classification phases:
--subjectivity identification 將關於具有主觀意見的句子辨識出來.
--polarity classification 將主觀意見的句子進行分類.
subjectivity identification和polarity classification均採用supervised machine learning algorithm (Maximum Entropy), 類別主要分為三種 (Neither, Pro and Con), neither類別可視為客觀的類別(即一般的事實描述), 其內容不屬於pros and cons. 而分類時所使用的特徵屬性可分為三大類別:
1. Lexical (uni-gram, bi-gram and tri-gram)
2. Position (該sentence是否出現在review中的首兩句或末兩句)
3. Opinion-bearing words (是先選定好的情緒字集)

此外, 為了簡化標準答案的標註, 本論文提出了一套自動標註系統, 主要係透過目前某些評論網站含有特定的欄位來描述pro和con. 作者假設, 使用者在撰寫評論的時亦會使用相同的字詞(包含在pro's和con's feild) 來描述他對於該產品的優缺點, 藉由此特性, 來建立所需的標準答案.

實驗部份: 透過epinions.com(含有pro and con field)來建立訓練資料, 並且將建立好的model除了應用在此網站之外, 同樣也在Compliant.com上進行實驗, 最後實驗結果顯示, 平均precision 可達66%, recall 可達到76%.

利用目前些評論網站均含有描述pro和con的欄位. 假設user撰寫的pro's and con's所使用的字詞, 也會出現在撰寫整體評論中來描述他對於該產品的優缺點, 我們即可以pro's and con's的資料做為參考答案, 藉由此來建立所需的training data.

附上此論文投影片: