2007年7月8日

實驗室成員 (Updated 8/15/2013)

PhD
102 Oviliani

101 莊秀敏 (Hsiu-Min Chuang)
100 張淵琮 (Yuan-Chung Chang)
100 周建龍(Chien-Lung Chou)

Master
103 黃鎧謙
103 林許平
103 凌杰甫
103 張弘暐
102 黃雅筠
102 許哲維
102 丁中立
102 鄭仲庭
102 高霆耀
102 胡育維

在職專班
103 湯國正

102 林奐均
101 吳佳儒
100 吳柏科
99 鍾智宇
99 蔡依達

專題生
102 楊佳靜

102 郭泰麟
101 何驊益
101 吳駿劭
101 劉至咸
101 劉季威 
100 張國斌

2007年7月4日

A New Suffix Tree Similarity Measure for Document Clustering

A New Suffix Tree Similarity Measure for Document Clustering

這篇論文想做的是關於文章的自動分群,使用的是結合Suffix Tree和Vector Space Document的方法,作者稱之為NSTC(new suffix tree document clustering algorithm)。

作者在論文中首先介紹了一個在1998年所提出的STC(suffix tree document clustering algorithm),STC主要可分為三個步驟,第一是產生document的suffix tree,找出內部節點做為base cluster,第二步是base cluster 挑選,第三步是依據Jaccord coefficient來決定node是否具有direct link,最後各個connected graph即為分群的結果。換句話說,我們得到的是base cluster(相當於片語)的分群的結果, 任何文件若有包含這些片語,即會被歸為同一群,因此一個文件可能在不同群中出現.

而NSTC號稱欲將STC導入Vector Space Document,其做法於STC做完第二步後,以tfidf來算一個node在document的重要性,再以cosine來算document間的相似度,最後以這些相似度來做GAHC(Group-average Agglomerative Hierarchical Clustering)。因此其分群方法其實已經不同於STC所用的graph partitioning.好處是可以利用分群中的node來做為cluster的summary描述,但是這個好處在最後的實驗當中並不是很明顯。

最後的實驗裡,作者拿了STC和NSTC與傳統的GAHC做個比較,並以F-Measure做為評量的標準,發現NSTC確實相較於其他兩者有較好的表現。 但是終歸比較的是同樣的分群方法GAHC,只是表示方法一個是用node(片語)一個是用single term,似乎貢獻不大. 

WWW 2007 Banff, Alberta, Canada. pp. 121 - 130.

2007年7月2日

Supporting end-users in the creation of dependable web clips

當使用者利用 Microsoft FrontPage 等Web Authoring Tools建立自己的網頁時,常希望加入可以對網路資訊作monitoring的小區塊,例如擷取天氣預報、新聞…等等,將個人資料作information integration。有些網站有自行提供API或Mashup等工具讓使用者做資料擷取,但許多網站沒有相關工具。

Web Clip: 作者定義為end-user在自行製作網頁時,
能夠即時擷取網頁資訊並顯示在網頁上的小區塊。一個Web Clip會針對某目標網站中的資料作monitoring,多個web clips可以整合到單一個人網頁。這篇論文提出Web Clipper,一個圖形化介面的Web Clip製作流程,讓使用者在 Microsoft Frontpage 中透過簡單操作就可以快速產生Web Clip並加入個人網頁中,並強調使用者不需要自行撰寫任何程式就可以完成工作。

Web Clipper主要分為四個部分:
1) Clipping
讓使用者選擇目標網頁中的區塊,記錄該區塊的HTML-Path。
2) Training 一個semi-supervised方法,為了提高區塊擷取的正確率,作者定義了數個Extraction Patterns,提供介面讓使用者選取哪些是Valid Patterns。
3) Deployment
記錄先前兩步驟的資訊並自動產生Web Clip的Ajax Script程式碼,同時在對2)中選取的Valid Patterns產生對應Filters,Filters用於評估Clip效果。
4) Filtering & Assessment 當發佈的Web Clip每次擷取資訊時,根據3)中建立的filters和2)中的patterns來計算confindence score,用來決定利用那個Filter擷取資料及檢驗Clip的Robustness。

實驗部分作者針對Web Clip的擷取效果,以及目標網站隨時間改變內容後系統正確擷取資訊的程度作評估,同時設計實驗來評估不同類型網頁區塊變化對資料擷取的影響(如block insertion, movement, deletion...等)。


出處:Proceedings of the 16th international conference on World Wide Web (WWW2007)