2007年6月4日

Interactive Wrapper Generation with Minimal User Effort

這篇論文出自WWW 2006,目標是提出一個半自動化的wrapper generation方法。

不同於其他semi-automatic和unsupervised wrapper,這篇論文並沒有很困難的方法,主要是提供一個使用者介面利用minimal user effort來完成wrapper工作。內容可以區分為兩個部分:
  • Interactive User Interface:只需少量的training pages,讓使用者highlight頁面中的tuples,然後系統根據使用者highlight的部分做處理,將文件轉為DOM parse tree。
  • Wrapper Generation System:系統定義了自己的Extraciton Language predicates,來作為產生extraction patterns的工具。
  1. 首先透過training tuple產生dom_path和最低層的共同節點LCA(lowest common ancestor),LCA object記錄了兩項資訊:
    1. training page中tuple的lca nodes。
    2. 萃取出這些lca nodes的patterns。
  2. 利用LCA objects產生patterns, 然後萃取出tuple attributes。
  3. 利用patterns去找出tuple region,產生初始的wrapper。
  4. 利用predicates產生tuple validation rules,並產生新的wrapper。
  5. 利用category utility function對wrapper做ranking。
    C: cluster, A: attribute, v: value
    同一群的兩個物件我們希望有較多相同的屬性,因此P(A=v|C)期望越大越好。
    不同群的兩的物件我們希望有較少相同的屬性,因此P(C|A=v)期望越小越好。
    因此CU值越大越好。
  6. 由使用者做確認。
  7. 將產生的wrapper使用一些verification set測試。
論文中提到雖然他們的方法和其他方法比較,可能需要較多的人力介入,且training examples較多,但是相信可以減少所需要的time和effort。實驗部分和WIEN, STALKER, WL^2等wrapper比較,都可以發現所需的training tuples較少,並且做了14個網站的wrapper實驗,在total user effort的部分表現也都不錯。




Proceedings of the 15th international conference on World Wide Web