2008年10月12日

10/14 Regular Meeting: Pattern Mining to Chinese Unknown Word Extraction

本次報告為我的論文: Pattern Mining to Chinese Unknown Word Extraction。

摘要如下:
中文的文件資訊處理,由於沒有如歐美語系中有區隔符號(ex:空白)斷開每個辭彙,會遇到兩個大問題: 歧義性 與 未知詞問題。

本篇的論文主要為解決中文的未知詞問題。未知詞又稱為OOV words(Out-Of-Vocabulary),顧名思義,就是字典無法辨識的辭彙。由字典輔助的初步斷詞,會將這些不存在於字典裡的辭彙,錯誤的斷開成多個部份,如人名-王小明會被斷成 王 小 明 三個字。未知詞的任務,就是針對錯誤切割的多個字元部份,重新結合成一個正確的辭彙。

本篇論文的架構,主要分成兩個階段:

1. 第一階段為未知詞偵測部份。文章裡並非所有的字元都是未知詞的候選字元,必須先經過判斷,哪些是屬於未知詞的可能字元。因此一開始我們會找尋可能的未知詞字元,並著重於單音節字元(96%的未知詞經初步斷詞切開後,會包含至少一個單音節字元)。我們使用Prowl這個continuity pattern mining工具,有效率的從語料庫中找出單音節字元屬於已知詞的特徵規則(pattern rule),透過特徵規則,對於落單的中文字,去判斷他是可單獨存在的已知詞,或是未知詞的一部份。

2. 第二階段為未知詞擷取部份,我們針對第一階段所偵測出的未知詞可能字元,運用上下文資訊、POS資訊與統計資訊等,學習並判斷是否該要結合(是否形成一個該結合的未知詞詞彙)。我們使用機器學習(Machine Learning)中的間接式序列學習方法(Sequential Learning),將原本的序列文件資料,轉換為可分類(未知詞與否)的資料格式,再搭配SVM分類演算法進行擷取的訓練與測試。我們設計了三種長度的模型,可用來擷取這三種長度的未知詞。

此外,在擷取的實驗中,本文亦針對資料不均衡問題以及數種模型中的選擇問題提出解決的方法。對資料不均衡問題,本文使用under-sampling產生模型用資料,再使用Ensemble Method的投票方式聚集多個模型的學習能力,以提升擷取的表現。由於我們設計三種長度的模型提供擷取,在甚麼樣的情況下該選擇哪一種模型作為最終的結合方式,我們亦提供了幾種判斷的方式。

報告後大家給我的意見,已經更改於投影片中,只不過有些投影片是用動畫方式呈現,SlideShare好像秀不出來,另外上傳至SlideShare後,有部分地方變得怪怪的,因此我會再寄投影片檔給大家,謝謝。

1 則留言:

swing 提到...

這篇應該是學長研究的論文,不知道是否適合公開在這個部落格?