當使用者利用 Microsoft FrontPage 等Web Authoring Tools建立自己的網頁時,常希望加入可以對網路資訊作monitoring的小區塊,例如擷取天氣預報、新聞…等等,將個人資料作information integration。有些網站有自行提供API或Mashup等工具讓使用者做資料擷取,但許多網站沒有相關工具。
Web Clip: 作者定義為end-user在自行製作網頁時,能夠即時擷取網頁資訊並顯示在網頁上的小區塊。一個Web Clip會針對某目標網站中的資料作monitoring,多個web clips可以整合到單一個人網頁。這篇論文提出Web Clipper,一個圖形化介面的Web Clip製作流程,讓使用者在 Microsoft Frontpage 中透過簡單操作就可以快速產生Web Clip並加入個人網頁中,並強調使用者不需要自行撰寫任何程式就可以完成工作。
Web Clipper主要分為四個部分:
1) Clipping 讓使用者選擇目標網頁中的區塊,記錄該區塊的HTML-Path。
2) Training 一個semi-supervised方法,為了提高區塊擷取的正確率,作者定義了數個Extraction Patterns,提供介面讓使用者選取哪些是Valid Patterns。
3) Deployment 記錄先前兩步驟的資訊並自動產生Web Clip的Ajax Script程式碼,同時在對2)中選取的Valid Patterns產生對應Filters,Filters用於評估Clip效果。
4) Filtering & Assessment 當發佈的Web Clip每次擷取資訊時,根據3)中建立的filters和2)中的patterns來計算confindence score,用來決定利用那個Filter擷取資料及檢驗Clip的Robustness。
實驗部分作者針對Web Clip的擷取效果,以及目標網站隨時間改變內容後系統正確擷取資訊的程度作評估,同時設計實驗來評估不同類型網頁區塊變化對資料擷取的影響(如block insertion, movement, deletion...等)。
出處:Proceedings of the 16th international conference on World Wide Web (WWW2007)