不同於其他semi-automatic和unsupervised wrapper,這篇論文並沒有很困難的方法,主要是提供一個使用者介面利用minimal user effort來完成wrapper工作。內容可以區分為兩個部分:
- Interactive User Interface:只需少量的training pages,讓使用者highlight頁面中的tuples,然後系統根據使用者highlight的部分做處理,將文件轉為DOM parse tree。
- Wrapper Generation System:系統定義了自己的Extraciton Language predicates,來作為產生extraction patterns的工具。
- 首先透過training tuple產生dom_path和最低層的共同節點LCA(lowest common ancestor),LCA object記錄了兩項資訊:
1. training page中tuple的lca nodes。
2. 萃取出這些lca nodes的patterns。 - 利用LCA objects產生patterns, 然後萃取出tuple attributes。
- 利用patterns去找出tuple region,產生初始的wrapper。
- 利用predicates產生tuple validation rules,並產生新的wrapper。
- 利用category utility function對wrapper做ranking。
C: cluster, A: attribute, v: value
同一群的兩個物件我們希望有較多相同的屬性,因此P(A=v|C)期望越大越好。
不同群的兩的物件我們希望有較少相同的屬性,因此P(C|A=v)期望越小越好。
因此CU值越大越好。 - 由使用者做確認。
- 將產生的wrapper使用一些verification set測試。
Proceedings of the 15th international conference on World Wide Web