Web Intelligence and Data Mining Laboratory: Opinion Extraction and Polarity Identification

2007年2月14日

Opinion Extraction and Polarity Identification

這篇論文出自 2003年 ACM Empirical methods in natural language processing，原始的動機跟目的其實是為了應用在QA 系統上，希望藉由正確分辨opinion跟fact的句子來幫助回答一些更複雜的問題，像是"為什麼會發生伊拉克戰爭?" 等．

這裡主要的問題是判斷一個文件(或是一個句子)是一個事實的報導或是一個意見的表逹，次要的問題則是判斷一個句子是一個正向意見或是一個反向意見．本篇採用的方法則包括相似度, Naive Bayes及Boosting三種方式，使用的特性(features)則包括字本身,Bigram,Trigram, 詞性,以及oritented words當作feature，使得判斷一個句子是否為意見表達的有相當高的準確率0.70及招回率0.92，但是判斷一個句子是否為事實陳述則準確率 0.13及招回率0.42相對較差．

這篇有個特點是他們的訓練資料為了避免大量人工標示，而利用了華爾街日報的文章的種類標示,例如:文章有分"新聞","社論","信件"等，來作為文章是否為opinion或fact．基本上這篇論文的目標與坤璋原先設想的題目幾乎相疊，表示這個方向是對的，而且有個方法做比較，實驗上也比較好做．

ACM Proceedings of the 2003 conference on Empirical methods in natural language processing, Pages: 129-136

Web Intelligence and Data Mining Laboratory

2007年2月14日

Opinion Extraction and Polarity Identification

關於我們

研究相關鏈結

依標籤分類文章

追蹤者

回應

Archives

RSS Substribe

網站統計