Web Intelligence and Data Mining Laboratory: Address Standardization with Latent Semantic Association

2010年8月12日

Address Standardization with Latent Semantic Association

地址的表示方式通常並不具有規則性，因為它通常是由不同人在不同時期所寫的。所以地址標準化就是具有高重要性的工作。監督方式是需要大量的已標記訓練資料，而對每個目標領域建設一個大規模標註語料庫是一個費時且費工的任務，所以為了最大限度地減少人的為的影響與標記訓練資料集的大小，本篇論文提出了一個地址標準化法與潛在語義聯想（LaSA）之模型。

LaSA模型是建構來抓取未標記語料集中潛在語義的聯想字詞。首先，目標區域中的原始字詞空間會被投影到使用LaSA模型的概念空間，然後地址標準化模型會主動地從LaSA模型特徵和豐富的訓練資料中被學習出來，而方法能有效且正確地抓取文件中的資料。針對以大型英語和漢語語料庫為對象的實驗結果顯示，此方法提高了標準化工作的性能與可以僅使用較少的訓練資料就達到較好效能之功效。

Address standardization with latent semantic association

View more presentations from jyhuangtc.