2007年1月25日

Knowing a Web Page By the Company It keeps

這篇取自於 CIKM'2006的論文,內容主要是講如何透過neighboring page的資訊將target page 做分類。 Web page classification可以使用的資訊,包括網頁的內容及鏈結資訊等,這一篇論文則著重在相鄰網頁可以提供的分類效果。作者將相鄰網頁分成Parent,Child,Sibling及Sprouse四種類別,同時依據相鄰網頁是否經過label與否給予權重,再依相鄰網頁與target Page是否係出同門(網站)給予不同權重,最後對所有的參數如何影響分類的表現做了很完整的實驗。整篇的idea不是很困難,不過作者做了深入的研究以及實驗。 結論與直觀想法差距不大:


1. 有label的網頁提供的分類效果總是比沒有label的網頁好(η Eta)。

2. 四種鄰近網頁中屬Sibling的效最佳(β Beta)。

3. 來自同一網站的相鄰網頁提供的資訊比其他網站的相鄰資訊有益於分類(θ Theta)。

4. 鄰近網頁與target page的權重比於0.2與0.8是效果最佳(α Alpha)。

對ODP(Open Directory Project)等品質高的網頁分類效果可達90%,但是對一般網頁效果則降至56%,顯示還有相當的改善空間。

Gimme' the context: context-driven automatic semantic annotation with C-PANKOW

P. Cimiano等人先前在WWW 2004發表了一篇有關自動文件註解 (automatic document annotation) 的論文。所謂文件註解,是輸入一份文件,將文件中的特定字彙標上類別(concept),再輸出一份註解後的文件。作者提出的方法,是將文件中需要標記的proper nouns (NP),套用linguistic patterns,產生例如 「Hotel ( concept) such as Hilton (proper noun)」等語句,再利用Google API搜尋到的頁面總數。去衡量不同conceptsNP間的關係,決定NP所屬的concept。這個方法最大的好處,是不需很多的訓練資料,就可以達到50%以上的precision。然而該方法仍有幾個問題,例如recall過低,時間複雜度隨著concepts數量成長。

  本篇論文作者於WWW 2005發表了一個改進方法。與先前不同之處,作者利用正規表示式定義了「instance」做為文件中要註解的目標,降低計算複雜度。將instances套用linguistic patternsGoogle去搜尋,抓取abstract。然後考慮了註解文件和abstracts間的相似度,來過濾掉與註記文件不相干的內容,藉以提高recall

  這個idea很直觀,並沒有套用很難的理論,但是作者在實驗還有相關研究比較上花了不少功夫,且把方法實作成公開的web service。根據實驗的結果,此方法的確提高了recall,並因時間複雜度的降低可以套用更大的ontology

2007年1月17日

論文寫作

這兩天有關論文抄襲的問題,再度登上報紙頭板,很自然的兩位掛名教授也遭受到相當的質疑.我想正好趁這機會談談論文寫作這件事.

科技論文基本原則是為了闡述自己的觀點,同時要配合起承轉合讓文章讀來如行雲流水.觀點不是無中生有,要麻是自己推論出來的,要麻是參考別人的,這時當然要有適當的引用.至於起承轉合則多屬於一般性的描述,平舖直敍雖可達到目的卻欠缺文字的吸引力,因此若是別的文章有好的描述,我通常會參考一兩句,但不可能三句話一字不漏的抄襲,一定要加以改寫配合自己的主軸.

跨入Web2.0的時代

一直斷斷續續聽到有關Web2.0的成功的故事,卻一直把Web2.0當成分享文章,照片,書籤等的功能,不太覺得自己可以直接應用Web2.0來改善自己手邊的工作.一直到看到阿孝札記對於Web2.0實現其創造個人媒體的夢想,才真正去思考Web2.0背後的成因.  

原來架網站這事對於資工系的人來說雖非難事,但非人人可為,就算是人人可為,也因為繁複的動作,阻礙了生產力,更何況還有網路流量,系統安全維護等等問題,才讓網站代管成為一個風潮.  

一直以來實驗室的討論群組似乎很難維持的很好,雖說用phpbb架了討論群組,但是也遭駭客入侵,更別說永續經營.有了生命力新聞的經驗,或許可以嘗試著用部落格的方式讓研究生們多多練習作文,對於論文的撰寫或許有所幫助.  

除此之外,這也讓我想到Wrapper的技術,原本就是以無須寫程式為目標,而大眾也愈來愈多使用Web搜尋的需求,或許把這樣的技術直接行銷到大眾面前是一種可行的方案.