2009年4月14日

2009.04.13 Integrating Web Query Results: Holistic Schema Matching

Integrating web query results: holistic schema matching
Full text PdfPdf (368 KB)
Source Conference on Information and Knowledge Management

這次報告的主題是schema matching,而這篇的主題不是提出一個新的方法而是在現有的方法作效能的改善別且希望可以多到多來源網站的schema matching。

Approach:

1.兩個網站中產生Query Result的資料格式呈現方法皆不同,某兩個屬性值雖然不同,但是可能是屬於同一類,卻因為可能沒有包含語意的Label,所以可能無法match,此時,可以利用第三方網站的資料格式去做一個連結。

譬如:
A:有一個A1欄位值是「Paperback」 C:有一個C1欄位值是「Format: Handcover」這兩個字串值如果比較的話,相似度理論上是很低的,但是他們確是屬於同一種欄位,因此此時若有第三方來當一個中間Link的話,B:有一個B1欄位值是「Handcover」,這樣A1跟C1這兩個資料欄位就可以對應到了。

2.資料格式的全部欄位中,可以觀察出一些Constraint,譬如說:作者欄位大都跟隨在書名後面,而特價永遠小於等於原價,另外到達時間晚於起飛時間,這些Contraints對schema matching的準確率是非常有幫助的。

所以他們主要是以欄位作為matching的一個基本單位
  1. the content of a field
  2. the kinds of fields
  3. the constraints of fields
接著他們把instace-based matching轉換成domain schema discovery的問題,接著他們把問題變成一個最佳化的問題,接下來就是他們的演算法。

最後的實驗結果,可以明顯看出他們的方法的確贏過其他方法(ClusMatch, ChainMatch, ProgMatch, InitMatch) ,在Source只有兩個的時後,平均的準確率還可以到達九成五左右。

不過數學式子的部分還要多看幾次之後,再補上我自己的解釋方法。

以下是我這次的簡報,建議演算法式子的部分參考原始論文: