2008年10月5日

10/07 Regular Meeting: A fuzzy symbolic Inference System for Postal Address Component Extraction and labeling

論文連結:請點此

論文摘要:

此篇論文主要是提出一個系統可以將地址的各項元素標示上不同的標籤,例如:地區名稱和街道號碼等資訊。對於有規律架構的地址格式和非標準架構的地址格式,後者在研究上顯得較不容易,因此本論文主要在解決unstructured address的問題。

首先,利用符號表示法來表示地址,建立知識庫作為標籤的依據,系統主要從輸入地址的各項元素和知識庫之間找出相似度,再利用提出的方法論來確定地址各項元素的標籤為何,所以fuzzy symbolic inference system即是對於一些較為模糊意義的地址元素加以判斷、擷取並標上標籤。

論文介紹:

a fuzzy symbolic system是這篇論文提出的系統,主要在解決unstrctured address的問題。一般我們所建的地址格式通常較為精確,可標示在Google Map上,但文中提到,類似India所使用的地址描述方式,沒有較為切確的位置,所以無法在Google Map上標示出來(有試過,但無法標出地點),因此主要想要解決的問題為此。

其中定義address和Knowledge base兩種基本格式,利用Assertion Object、Hoard Object和Synthetic Object來做表示。postal address使用Assertion Object和Hoard Object;Knowledge Base則是使用Assertion Object、Hoard Object和Synthetic Object。每個Assertion Object內都有其event,event包含了feature variable和其feature value。

而系統提出兩個方法,將我們所輸入的input component和knowledge base中的component label求算出相似度,稱為symbolic similarity measure。將求算出來的相似度依大小排序好後,再利用我們另外計算的alpha值(臨界值)去找出比alpha高的相似度,將這些比alpha高的相似度看作alpha-cut set,如果set中只有一個component label,那即為我們要找的label,並將confidence設為100,若set中的值有兩個或以上,則confidence則在50左右,可套用confidence的公式去計算出來。

這篇論文所使用的knowledge base,內容資料數量並未提到,不過根據他們測試500筆地址出來的labelling結果,高達94%,即便是只侷限在一個國家的範圍裡,其資料量應該是蠻大的。

其實閱讀完這篇論文,對目前研究領域幫助沒有很大,但仍值得做為參考。

投影片:
2008/10/07 Regular meeting
View SlideShare presentation or Upload your own.

沒有留言: