2007年2月14日

Social Summarization of Online Auction Feedbacks

這一篇IUI 2005的論文主要解的問題是拍賣網站上對於一個賣家評價的summarization.

一般而言,我們在拍賣網站上想要評估一個賣家時,通常我們會先看其他人對這個賣家的評價,並且以多數人的意見做為此賣家評價摘要的主要內容,換句話說,意見的頻率是文件摘要的主要採用的條件。但是通常這樣的評價都是正面居多,很難得到一個比較真實的評價.因此作者提出先對同一個寫評價的使用者,將其(對於不同賣家)所有的意見整理出來,用以過濾禮貌性敍述(也就是那些對每個賣家都寫的意見),保留比較特別的意見,做為summarization的參考.比較有趣的是如何評估這篇所提的Social Summarization比一般的Summarization 好? 本篇作者以對不同賣家摘要所得的壓縮率標準差來說明,壓縮率標準差大表示所做的摘要較有鑑別度,而實驗結果也的確顯現這樣的現象.

而處理這些feedback的前置作業則是要先將text做意見的擷取,這樣我們才能有效的計算每個意見的頻率.以拍賣網站的意見來說,作者一共歸納了13種feature,共37個feature-value pair.擷取方法是屬於監督式學習,先由標記意見所在的句子,在經過POS Tagging之後,找出frequent patterns,即可做為意見擷取的規則.因此實際應用上是利用一個事先定義的字典,將要擷取的同義字均加入其中.當測試文章有出現這些字時,我們即可應用以上找出的規則做為feature value擷取的方法.實驗結果真正意見的擷取precision為70.8%,recall則為89.5%,而禮貌性敍述擷取precision為93.8%,recall則為80.8%,效果看起來不錯,但是前提是訓練和測試資料筆為100比10.




Systems and Computers in Japan, Vol. 37, Iss. 8, (July 2006), Pages: 38 - 55.

Opinion Extraction and Polarity Identification

這篇論文出自 2003年 ACM Empirical methods in natural language processing,原始的動機跟目的其實是為了應用在QA 系統上,希望藉由正確分辨opinion跟fact的句子來幫助回答一些更複雜的問題,像是"為什麼會發生伊拉克戰爭?" 等.

這裡主要的問題是判斷一個文件(或是一個句子)是一個事實的報導或是一個意見的表逹,次要的問題則是判斷一個句子是一個正向意見或是一個反向意見. 本篇採用的方法則包括相似度, Naive Bayes及Boosting三種方式,使用的特性(features)則包括字本身,Bigram,Trigram, 詞性,以及oritented words當作feature,使得判斷一個句子是否為意見表達的有相當高的準確率0.70及招回率0.92,但是判斷一個句子是否為事實陳述則準確率 0.13及招回率0.42相對較差.

這篇有個特點是他們的訓練資料為了避免大量人工標示,而利用了華爾街日報的文章的種類標示,例如:文章有分"新聞","社論","信件"等,來作為 文章是否為opinion或fact.基本上這篇論文的目標與坤璋原先設想的題目幾乎相疊,表示這個方向是對的,而且有個方法做比較,實驗上也比較好做.


ACM Proceedings of the 2003 conference on Empirical methods in natural language processing, Pages: 129-136

2007年2月7日

Mining Risk Patterns in Medical Data

Association Rule 傳統上是為了所謂Basket Data所創造出來的規則,每筆資料並無所謂的類別。 因為有規則產生,很自然的可以應用在資料分類上,但是如何處理不同類別所找出的規則?過去有研究試過利用統計檢定(如Chi-square)來篩選這些規則,通常最後則以分類的結果來評估篩選方法的好壞。這篇選自KDD2005的論文,則是利用統計上常用的Relative Risk來篩選optimal risk patterns。Relative Risk本身沒有anti-monotone 的特性,但是在特殊情況下是有anti-monotone的特性,這也是這篇論文最主要的貢獻,但是篇幅關係,作者並未詳列在論文。本篇論文是Industry/Education Track所以較Research Track的內容較淺顯易懂。