Web Intelligence and Data Mining Laboratory: Interactive Wrapper Generation with Minimal User Effort

2007年6月4日

Interactive Wrapper Generation with Minimal User Effort

這篇論文出自WWW 2006，目標是提出一個半自動化的wrapper generation方法。

不同於其他semi-automatic和unsupervised wrapper，這篇論文並沒有很困難的方法，主要是提供一個使用者介面利用minimal user effort來完成wrapper工作。內容可以區分為兩個部分：

Interactive User Interface：只需少量的training pages，讓使用者highlight頁面中的tuples，然後系統根據使用者highlight的部分做處理，將文件轉為DOM parse tree。
Wrapper Generation System：系統定義了自己的Extraciton Language predicates，來作為產生extraction patterns的工具。

首先透過training tuple產生dom_path和最低層的共同節點LCA(lowest common ancestor)，LCA object記錄了兩項資訊：
1. training page中tuple的lca nodes。
2. 萃取出這些lca nodes的patterns。
利用LCA objects產生patterns, 然後萃取出tuple attributes。
利用patterns去找出tuple region，產生初始的wrapper。
利用predicates產生tuple validation rules，並產生新的wrapper。
利用category utility function對wrapper做ranking。
C: cluster, A: attribute, v: value
同一群的兩個物件我們希望有較多相同的屬性，因此P(A=v|C)期望越大越好。
不同群的兩的物件我們希望有較少相同的屬性，因此P(C|A=v)期望越小越好。
因此CU值越大越好。
由使用者做確認。
將產生的wrapper使用一些verification set測試。

論文中提到雖然他們的方法和其他方法比較，可能需要較多的人力介入，且training examples較多，但是相信可以減少所需要的time和effort。實驗部分和WIEN, STALKER, WL^2等wrapper比較，都可以發現所需的training tuples較少，並且做了14個網站的wrapper實驗，在total user effort的部分表現也都不錯。

Proceedings of the 15th international conference on World Wide Web

Web Intelligence and Data Mining Laboratory

2007年6月4日

Interactive Wrapper Generation with Minimal User Effort

關於我們

研究相關鏈結

依標籤分類文章

追蹤者

回應

Archives

RSS Substribe

網站統計