2007年8月9日

Homepage live: automatic block tracing for web personalization

這篇論文觀察到personal homepage的趨勢,包括Microsoft和Google都有做personal homepage,並在homepage中讓人放置許多功能區塊。因此論文提出一個系統Homapge Live,可以讓使用者在這個網頁上建立個人首頁,並且加入小區塊。Homepage live的小區塊特色是可以讓使用者作網頁中的block tracing,也就是網頁區塊的monitering。這篇論文重點在於系統在目標網頁版本更新後,如何正確地抓取使用者所想看到的區塊。

首先將原網頁P_old和新網頁P_new表示成DOM Tree然後執行以下步驟:
  1. 找出Fix Nodes:Fix Node代表在P_old及P_new中內容重複的node。
  2. 產生Reduced Tree:刪除掉P_old及P_new中的Fix Nodes。
  3. Mapping:此時P_old和P_new都已經成為reduced tree,將P_old和P_new作tree mapping,找出P_new中對應到的目標區塊。
Tree Mapping作者用Minimum Edit Distance Mapping來作,找出P_new中對應到P_old中使用者選取的區塊。

實驗的部分作者測試系統的accuracy和effectiveness,和Direct Path Finding(DPF)、Tag String Matching(TSM)、Tree Edit Distance(TED)三個方法比較。在accuracy部分證明系統可以超過DPF和TSM,並和TED達到一樣的效果; 在effectiveness部分證明系統時間複雜度遠低於TED,並且證明了系統的scalability。

出處:Proceedings of the 16th international conference on World Wide Web (WWW2007)