以下是我對這篇論文的摘要:
網路的蓬勃發展,使得越來越多使用者透過網路找尋有興趣的資訊,但如何擷取出特定的資訊是一件即為複雜的任務。因此本篇論文呈現如何從眾多的網頁資源當中去擷取資料的方法,使用者透過GUI介面提供自己想要擷取的例子(Example),而不需要了解整個網頁架構為何,利用這些例子從新的網頁中去擷取資訊並產生pattern,另外DEByE也提出從下至上的程序來做資料的擷取,結果顯示出可利用較少的例子得到較好的擷取資訊效果。
投影片:
2008年12月29日
FivaTech:Page-Level Web Data Extraction from Template Pages
這一次閱讀的論文是以前Lab中博班學長與老師所發表的,目前Lab中的研究還有使用到以本篇論文技術為基礎的系統,但是仍然有些問題需要解決。如果這個系統能夠維護好並擴展改進的話,對未來網頁資料擷取的許多應用相信將很有幫助。
最早Web IE採用的是supervised的方式,必須依靠人工標註才能產生擷取資料的規則。後來Dynamic Web的研究往Template-based的推論方向發展,產生了一些unsupervised方式的論文。FivaTech就是其中之一,它可以透過多個擁有相同Template的頁面來推論出其結構,也因此把這樣的方法歸類為Page-Level。
FivaTech以多個網頁作輸入,最後產生共同的Template、Schema及個別的擷取資料。Template及Schema是以樹狀表示,與網頁的DOM Tree形成較一致的表現,其核心過程主要分成兩個較大的部份:Tree Merging以及Schema Detection。Tree Merging部份又可細分出四個小部份:Peer Node Recognition、Multiple String Alignment、Tandem Repeat Mining及Optional Merging,經過這四個步驟後會形成所謂的Pattern Tree,接著利用它來作下一階段的Schema Detection。
Peer Node Recognition主要是用來決定輸入的Tree中第1層(假設root為第0層)Node間的相似程度,相似程度大於某個門檻值以上則給定相同的代表符號(比如用英文字母a、b、c...等),相同代表符號的node則屬於peer node。peer node辯識的準確性可以說是最為關鑑,在同一個DOM Tree中,peer node代表了資料樣式的重覆,可能是data rich區域;在不同DOM Tree中,peer node的意義可以用來推斷Page間共同的Template。不過在論文中並沒有提到門檻值應該設多少,而這個門檻值怎樣設可以產生最好的結果?是否可以適用在所有情況?是我感到比較疑問的地方。因為peer node的判斷直接就影響了後面的所有步驟,只要稍有不同,產生的結果可能就差很多。
決定出peer node後,下一步就是Peer Matrix Alignment。這個階段的工作就是把不同Tree的第1層node依序並排,然後取出每一行(同一個DOM Tree)中兩個相同符號的node(peer node)間距離最大的值,裡面最大的定義為span。接著對於span值大於0的符號node,盡量將其每一行的距離調整成span的值(最大可能長度的Template);剩下部份則盡量把相同的符號在每一列間對齊,其中空出的位置可以看成是missing data。要補充說明的部份是,對齊除了可以是相同符號(空出的部份不算),也可以是不同的文字node。
在對齊步驟過後,可以得到一個Node List用來代表不同Page間的共同樣式(Template)。接下來就可以對此List作Pattern Mining的運算,將重覆的pattern壓縮起來。最後再根據不同的node在所有DOM Tree中的occurrence vector概念,由vector不一致(值不全為1)的node決定出哪些node是optional(不一定會有的資料),這個過程稱為Optional Node Merging。
以上四個步驟從root往下一層層的作下去,最後將會形成一棵fixed/variant Pattern Tree。由此再將tree中的每個node分類並決定其order,則可以得出最終的Schema格式。至於Template的產生部份,先以規則決定出參考點(用來當作template間的分界),然後定出各個小範圍的子Template,再遞迴產生出Schema中相對應的一組Template表示法。這部份規則就不再說明,有興趣的話請參考投影片。
最後是本次報告論文的投影片:
最早Web IE採用的是supervised的方式,必須依靠人工標註才能產生擷取資料的規則。後來Dynamic Web的研究往Template-based的推論方向發展,產生了一些unsupervised方式的論文。FivaTech就是其中之一,它可以透過多個擁有相同Template的頁面來推論出其結構,也因此把這樣的方法歸類為Page-Level。
FivaTech以多個網頁作輸入,最後產生共同的Template、Schema及個別的擷取資料。Template及Schema是以樹狀表示,與網頁的DOM Tree形成較一致的表現,其核心過程主要分成兩個較大的部份:Tree Merging以及Schema Detection。Tree Merging部份又可細分出四個小部份:Peer Node Recognition、Multiple String Alignment、Tandem Repeat Mining及Optional Merging,經過這四個步驟後會形成所謂的Pattern Tree,接著利用它來作下一階段的Schema Detection。
Peer Node Recognition主要是用來決定輸入的Tree中第1層(假設root為第0層)Node間的相似程度,相似程度大於某個門檻值以上則給定相同的代表符號(比如用英文字母a、b、c...等),相同代表符號的node則屬於peer node。peer node辯識的準確性可以說是最為關鑑,在同一個DOM Tree中,peer node代表了資料樣式的重覆,可能是data rich區域;在不同DOM Tree中,peer node的意義可以用來推斷Page間共同的Template。不過在論文中並沒有提到門檻值應該設多少,而這個門檻值怎樣設可以產生最好的結果?是否可以適用在所有情況?是我感到比較疑問的地方。因為peer node的判斷直接就影響了後面的所有步驟,只要稍有不同,產生的結果可能就差很多。
決定出peer node後,下一步就是Peer Matrix Alignment。這個階段的工作就是把不同Tree的第1層node依序並排,然後取出每一行(同一個DOM Tree)中兩個相同符號的node(peer node)間距離最大的值,裡面最大的定義為span。接著對於span值大於0的符號node,盡量將其每一行的距離調整成span的值(最大可能長度的Template);剩下部份則盡量把相同的符號在每一列間對齊,其中空出的位置可以看成是missing data。要補充說明的部份是,對齊除了可以是相同符號(空出的部份不算),也可以是不同的文字node。
在對齊步驟過後,可以得到一個Node List用來代表不同Page間的共同樣式(Template)。接下來就可以對此List作Pattern Mining的運算,將重覆的pattern壓縮起來。最後再根據不同的node在所有DOM Tree中的occurrence vector概念,由vector不一致(值不全為1)的node決定出哪些node是optional(不一定會有的資料),這個過程稱為Optional Node Merging。
以上四個步驟從root往下一層層的作下去,最後將會形成一棵fixed/variant Pattern Tree。由此再將tree中的每個node分類並決定其order,則可以得出最終的Schema格式。至於Template的產生部份,先以規則決定出參考點(用來當作template間的分界),然後定出各個小範圍的子Template,再遞迴產生出Schema中相對應的一組Template表示法。這部份規則就不再說明,有興趣的話請參考投影片。
最後是本次報告論文的投影片:
2008年12月24日
Conference Call For Paper
ICML 2009 Homepage and Paper Submission Website
Important Dates
January 26, 2009 | Full paper submissions due (no separate abstract date) |
Febrary 27, 2009 | First round reviews available |
March 10, 2009 | Author response due |
April 6, 2009 | Acceptance notification |
April 20, 2009 | Final camera-ready version due |
June 14, 2009 | ICML tutorials |
June 15-17, 2009 | ICML conference |
June 18, 2009 | Joint ICML/UAI/COLT workshop day; MSRL |
* Note that a new Review Process for 2009! Check Area chairs
2008年12月23日
CompoWeb: A Component-Oriented Web Architecture
這篇出自於www '08,是由亞洲微軟研究中心合發的一篇論文,在這邊他們提出舊有web application的開發方式缺點,並提出把component-based software development應用到web application development上面。
他們提出了兩個新的concept,一個就是Gadget,另一個為Interface,前者就是如同一個COM元件一樣,主要是要呈現某些功能或是邏輯;後者是允許Gadget可以輸出一些PME model,而Interface就是來管理這些資訊,讓其他Gadget可以去使用這些PME。
此研究如果可以開發出完整的開發平台,那必定是會造福很多開發者在管理Web application的程式碼更為容易,而且讓Web application更穩定以及提高安全性。
他們提出了兩個新的concept,一個就是Gadget,另一個為Interface,前者就是如同一個COM元件一樣,主要是要呈現某些功能或是邏輯;後者是允許Gadget可以輸出一些PME model,而Interface就是來管理這些資訊,讓其他Gadget可以去使用這些PME。
此研究如果可以開發出完整的開發平台,那必定是會造福很多開發者在管理Web application的程式碼更為容易,而且讓Web application更穩定以及提高安全性。
2008.12.23 CompoWeb
View SlideShare presentation or Upload your own.
2008年12月5日
訂閱:
文章 (Atom)