2007年1月25日

Gimme' the context: context-driven automatic semantic annotation with C-PANKOW

P. Cimiano等人先前在WWW 2004發表了一篇有關自動文件註解 (automatic document annotation) 的論文。所謂文件註解,是輸入一份文件,將文件中的特定字彙標上類別(concept),再輸出一份註解後的文件。作者提出的方法,是將文件中需要標記的proper nouns (NP),套用linguistic patterns,產生例如 「Hotel ( concept) such as Hilton (proper noun)」等語句,再利用Google API搜尋到的頁面總數。去衡量不同conceptsNP間的關係,決定NP所屬的concept。這個方法最大的好處,是不需很多的訓練資料,就可以達到50%以上的precision。然而該方法仍有幾個問題,例如recall過低,時間複雜度隨著concepts數量成長。

  本篇論文作者於WWW 2005發表了一個改進方法。與先前不同之處,作者利用正規表示式定義了「instance」做為文件中要註解的目標,降低計算複雜度。將instances套用linguistic patternsGoogle去搜尋,抓取abstract。然後考慮了註解文件和abstracts間的相似度,來過濾掉與註記文件不相干的內容,藉以提高recall

  這個idea很直觀,並沒有套用很難的理論,但是作者在實驗還有相關研究比較上花了不少功夫,且把方法實作成公開的web service。根據實驗的結果,此方法的確提高了recall,並因時間複雜度的降低可以套用更大的ontology

2 則留言:

Jahui 提到...

Can you explain the phrase "Gimme the context"?

tomelf 提到...

Gimme這個字並不是正統的英文字

1. 我在google搜尋看到有人解釋為"Give me"的縮寫 (rachael的異想世界Blog)

2. 在wikipedia上查到的如下,大部分都是用在"give me的縮寫上(ABBA合唱團有首歌也叫"Gimme!Gimme!Gimme!":p)

3. Gimme也是高爾夫球用語之一,Gimme/Give(餘下兩呎內之推杆不用推而算作一杆),參考自http://www.birdie2.com

總結以上的結果,我覺得本文作者想要說的是"Give me the context"