2008年12月29日

DEByE─Data Extraction By Example

以下是我對這篇論文的摘要:

網路的蓬勃發展,使得越來越多使用者透過網路找尋有興趣的資訊,但如何擷取出特定的資訊是一件即為複雜的任務。因此本篇論文呈現如何從眾多的網頁資源當中去擷取資料的方法,使用者透過GUI介面提供自己想要擷取的例子(Example),而不需要了解整個網頁架構為何,利用這些例子從新的網頁中去擷取資訊並產生pattern,另外DEByE也提出從下至上的程序來做資料的擷取,結果顯示出可利用較少的例子得到較好的擷取資訊效果。

投影片:
DEByE─Data Extraction By Example
View SlideShare presentation or Upload your own. (tags: data &)

FivaTech:Page-Level Web Data Extraction from Template Pages

這一次閱讀的論文是以前Lab中博班學長與老師所發表的,目前Lab中的研究還有使用到以本篇論文技術為基礎的系統,但是仍然有些問題需要解決。如果這個系統能夠維護好並擴展改進的話,對未來網頁資料擷取的許多應用相信將很有幫助。

最早Web IE採用的是supervised的方式,必須依靠人工標註才能產生擷取資料的規則。後來Dynamic Web的研究往Template-based的推論方向發展,產生了一些unsupervised方式的論文。FivaTech就是其中之一,它可以透過多個擁有相同Template的頁面來推論出其結構,也因此把這樣的方法歸類為Page-Level。

FivaTech以多個網頁作輸入,最後產生共同的Template、Schema及個別的擷取資料。Template及Schema是以樹狀表示,與網頁的DOM Tree形成較一致的表現,其核心過程主要分成兩個較大的部份:Tree Merging以及Schema Detection。Tree Merging部份又可細分出四個小部份:Peer Node Recognition、Multiple String Alignment、Tandem Repeat Mining及Optional Merging,經過這四個步驟後會形成所謂的Pattern Tree,接著利用它來作下一階段的Schema Detection。

Peer Node Recognition主要是用來決定輸入的Tree中第1層(假設root為第0層)Node間的相似程度,相似程度大於某個門檻值以上則給定相同的代表符號(比如用英文字母a、b、c...等),相同代表符號的node則屬於peer node。peer node辯識的準確性可以說是最為關鑑,在同一個DOM Tree中,peer node代表了資料樣式的重覆,可能是data rich區域;在不同DOM Tree中,peer node的意義可以用來推斷Page間共同的Template。不過在論文中並沒有提到門檻值應該設多少,而這個門檻值怎樣設可以產生最好的結果?是否可以適用在所有情況?是我感到比較疑問的地方。因為peer node的判斷直接就影響了後面的所有步驟,只要稍有不同,產生的結果可能就差很多。

決定出peer node後,下一步就是Peer Matrix Alignment。這個階段的工作就是把不同Tree的第1層node依序並排,然後取出每一行(同一個DOM Tree)中兩個相同符號的node(peer node)間距離最大的值,裡面最大的定義為span。接著對於span值大於0的符號node,盡量將其每一行的距離調整成span的值(最大可能長度的Template);剩下部份則盡量把相同的符號在每一列間對齊,其中空出的位置可以看成是missing data。要補充說明的部份是,對齊除了可以是相同符號(空出的部份不算),也可以是不同的文字node。

在對齊步驟過後,可以得到一個Node List用來代表不同Page間的共同樣式(Template)。接下來就可以對此List作Pattern Mining的運算,將重覆的pattern壓縮起來。最後再根據不同的node在所有DOM Tree中的occurrence vector概念,由vector不一致(值不全為1)的node決定出哪些node是optional(不一定會有的資料),這個過程稱為Optional Node Merging。

以上四個步驟從root往下一層層的作下去,最後將會形成一棵fixed/variant Pattern Tree。由此再將tree中的每個node分類並決定其order,則可以得出最終的Schema格式。至於Template的產生部份,先以規則決定出參考點(用來當作template間的分界),然後定出各個小範圍的子Template,再遞迴產生出Schema中相對應的一組Template表示法。這部份規則就不再說明,有興趣的話請參考投影片。

最後是本次報告論文的投影片:

2008年12月24日

Conference Call For Paper

ICML 2009 Homepage and Paper Submission Website

Important Dates

January 26, 2009 Full paper submissions due (no separate abstract date)
Febrary 27, 2009 First round reviews available
March 10, 2009 Author response due
April 6, 2009 Acceptance notification
April 20, 2009 Final camera-ready version due
June 14, 2009 ICML tutorials
June 15-17, 2009 ICML conference
June 18, 2009 Joint ICML/UAI/COLT workshop day; MSRL

* Note that a new Review Process for 2009! Check Area chairs

2008年12月23日

CompoWeb: A Component-Oriented Web Architecture

這篇出自於www '08,是由亞洲微軟研究中心合發的一篇論文,在這邊他們提出舊有web application的開發方式缺點,並提出把component-based software development應用到web application development上面。

他們提出了兩個新的concept,一個就是Gadget,另一個為Interface,前者就是如同一個COM元件一樣,主要是要呈現某些功能或是邏輯;後者是允許Gadget可以輸出一些PME model,而Interface就是來管理這些資訊,讓其他Gadget可以去使用這些PME。

此研究如果可以開發出完整的開發平台,那必定是會造福很多開發者在管理Web application的程式碼更為容易,而且讓Web application更穩定以及提高安全性。

2008.12.23 CompoWeb
View SlideShare presentation or Upload your own.