2007年2月14日

Opinion Extraction and Polarity Identification

這篇論文出自 2003年 ACM Empirical methods in natural language processing,原始的動機跟目的其實是為了應用在QA 系統上,希望藉由正確分辨opinion跟fact的句子來幫助回答一些更複雜的問題,像是"為什麼會發生伊拉克戰爭?" 等.

這裡主要的問題是判斷一個文件(或是一個句子)是一個事實的報導或是一個意見的表逹,次要的問題則是判斷一個句子是一個正向意見或是一個反向意見. 本篇採用的方法則包括相似度, Naive Bayes及Boosting三種方式,使用的特性(features)則包括字本身,Bigram,Trigram, 詞性,以及oritented words當作feature,使得判斷一個句子是否為意見表達的有相當高的準確率0.70及招回率0.92,但是判斷一個句子是否為事實陳述則準確率 0.13及招回率0.42相對較差.

這篇有個特點是他們的訓練資料為了避免大量人工標示,而利用了華爾街日報的文章的種類標示,例如:文章有分"新聞","社論","信件"等,來作為 文章是否為opinion或fact.基本上這篇論文的目標與坤璋原先設想的題目幾乎相疊,表示這個方向是對的,而且有個方法做比較,實驗上也比較好做.


ACM Proceedings of the 2003 conference on Empirical methods in natural language processing, Pages: 129-136