2010年8月17日

Survey of Schema Mapping Approach

此篇論文為綱要對映領域的Survey性質的論文,依據資料來源等特性對於現有的綱要對映做分類。
  綱要對映是許多研究資訊整合所必須面臨的重要問題,舉凡電子商務、資料倉儲、語意查詢等均需要綱要對映來合併不同來源的資料。此論文就所參考的資料來源作綱要層級和實例層級的分類,綱要層級表示所參考的資料均使用綱要所包含的資訊(綱要名稱、綱要描述、綱要限制等),並不包括實例層級的資訊;而實例層級則只考慮真實世界中的例子和其屬性來當作綱要對映的依據,通常用以修正綱要層級所無法察覺的資訊或者輔助其準確率。當然,實例層級本身也可用於綱要對映。接著再以對映的元素大小作為元素層級和架構層級的分類,元素層級表示每次對映時都以單一元素和單一元素作對映;架構層級則必須考慮相同記錄中元素間相互連結的關係,使之與另一記錄的架構作對映。細分下去就分為語意層級和限制層級,語意層級使用元素的文字內容相似度當作對映的依據,而限制層級是以元素的文字限制(如:字串、非字串、數字等資料型態或數值範圍、數值平均等數據特性)當依據。
以上是單一對映器依照其特性的分類,對於不同目的的對映使用特別的對映器,有時會把多個對映器整合起來當一個多重對映器,根據整合的方式分為混和方式及複合方式。混和方式是把不同對映器的對映準則都加入做考慮,進而形成新的對映器;複合方式則是以不同對映器分別執行後的結果來作對映,複合方式又可細分為以人工或者自動的複合法。
 下圖是對映法的總體分類架構,謹記於心有助於各位瞭解綱要對映的分類。

以下為投影片連結
http://www.slideshare.net/guanqoo/20100810-4987210

2010年8月12日

Address Standardization with Latent Semantic Association

地址的表示方式通常並不具有規則性,因為它通常是由不同人在不同時期所寫的。所以地址標準化就是具有高重要性的工作。監督方式是需要大量的已標記訓練資料,而對每個目標領域建設一個大規模標註語料庫是一個費時且費工的任務,所以為了最大限度地減少人的為的影響與標記訓練資料集的大小,本篇論文提出了一個地址標準化法與潛在語義聯想(LaSA)之模型。
LaSA模型是建構來抓取未標記語料集中潛在語義的聯想字詞。首先,目標區域中的原始字詞空間會被投影到使用LaSA模型的概念空間,然後地址標準化模型會主動地從LaSA模型特徵和豐富的訓練資料中被學習出來,而方法能有效且正確地抓取文件中的資料。針對以大型英語和漢語語料庫為對象的實驗結果顯示,此方法提高了標準化工作的性能與可以僅使用較少的訓練資料就達到較好效能之功效。