2008年8月15日

08/12 Regular Meeting: Pattern Mining to Unknown Word Extraction

本次報告為我的論文: Pattern Mining to Unknown Word Extraction。

摘要如下:
中文的文件資訊處理,由於沒有如歐美語系中有區隔符號(ex:空白)斷開每個辭彙,會遇到兩個大問題: 歧義性 與 未知詞問題。

本篇的論文主要為解決中文的未知詞問題。未知詞又稱為OOV words(Out-Of-Vocabulary),顧名思義,就是字典無法辨識的辭彙。由字典輔助的初步斷詞,會將這些不存在於字典裡的辭彙,錯誤的斷開成多個部份,如人名-王小明會被斷成 王 小 明 三個字。未知詞的任務,就是針對錯誤切割的多個字元部份,重新結合成一個正確的辭彙。

本篇論文的架構,主要分成兩個階段:

1. 第一階段為未知詞偵測部份。文章裡並非所有的字元都是未知詞的候選字元,必須先經過判斷,哪些是屬於未知詞的可能字元。因此我們一開始會找尋可能的未知詞字元,並著重於單音節(詞長為1)字元(96%的未知詞經初步斷詞被切開後,會包含至少一個的單音節字元)。我們使用Prowl這個continuity pattern mining工具有效率的找出單音節字元屬於已知詞(未知詞)的特徵規則(pattern rule),透過特徵規則,對於落單的中文字,去判斷他是可單獨存在的已知詞,或是未知詞的一部份。

2. 第二階段為未知詞萃取部份,我們針對第一階段所偵測的未知詞可能位置,運用上下文資訊、POS資訊與統計資訊等,學習並判斷是否該要結合(是否形成一個該結合的未知詞詞彙)。我們使用Sequential Supervised Learning中的indirect方法,將原本的文件資料,用Sliding Window格式轉換為可分類(未知詞與否)的資料。另外,我們亦使用machine-learning的多個分類演算法進行訓練與測試。

最近新增的是未知詞萃取的實驗部分,除了先前使用的SVM、HMM之外,我們也嘗試了Ensemble method的演算法(Bagging、AdaBoost)進行擷取的測試並加以比較。另外,reference提到,imbalance class problem使用sampling解決問題時,若是能夠挑選較難分類的資料點組成training data,會比random sampling的效果更好,我們亦根據了其所提出的sampling方法進行實驗。


以上為報告前的摘要,接下來為老師對我報告的投影片所提供的意見:
1. 本論文所專注的是"中文文件處理"轄下的未知詞問題,不宜說成"中文資訊處理",因為中文資訊處理涵蓋範圍很廣,我們處理的文件只是其中之一。

2. 同一張投影片表達兩大階段的重點時,應該以對稱的方式呈現。例如"偵測"方面一開始提到使用pattern mining方法,為偵測時使用的主要方法;對應的"擷取"一開始就不應該馬上切入細部(所應用的資訊),應以擷取的主要方法- Sequential Supervised Learning中的indirect方法與Machine Learning方法列於開頭。(參考P.8為錯誤的呈現方法,應把P.9的第一段提到P.8的第二段開頭,原第二段開頭改成副段落)

3. Related Works中,General methods是否一定要以Rule-Based 與 Statistical Model-Based 來區分。可以考慮使用Sequential Supervised Learning中的direct方法取代Statistical Model-Based來解釋。

4. 未知詞的整體系統架構缺乏。目前僅有個別的兩階段系統架構,需要進一步整合為整體的系統架構,讓讀者更清楚整個處理的流程。

5. P.17的Continuity Pattern舉例錯誤。原例子{打球}比較像是String Match的問題,所謂Pattern應該是以{打*球}呈現較正確。

6. P.20偵測規則的說明不夠仔細,規則中每一個元素(字元、POS、已知未知、大括號、頻率與機率)都要清楚說明,用更簡潔的格式呈現。

7. P.22介紹字元的型態屬性時,用一句話舉例,再用字元與型態屬性互相對照介紹會更好。 P.23的BIES刪除,往後的分類依據用一般的要結合(Y)或不結合(N)表示就好。 Phase 2在訓練與測試時使用到的資訊,以Machine Learning的資料格式呈現介紹(feature dimension)。

8. 未知詞偵測的實驗,training使用8/10語料庫,testing時為何不使用剩下全部的2/10。
未知詞擷取的實驗,training來自於Phase1 testing的資料,只有1/10語料庫,為何不使用更多的語料
庫資料。
實驗想要呈現的觀點、實驗的設定要先想好,再做實驗,以免浪費時間。


沒有留言: