這篇取自於 CIKM'2006的論文,內容主要是講如何透過neighboring page的資訊將target page 做分類。 Web page classification可以使用的資訊,包括網頁的內容及鏈結資訊等,這一篇論文則著重在相鄰網頁可以提供的分類效果。作者將相鄰網頁分成Parent,Child,Sibling及Sprouse四種類別,同時依據相鄰網頁是否經過label與否給予權重,再依相鄰網頁與target Page是否係出同門(網站)給予不同權重,最後對所有的參數如何影響分類的表現做了很完整的實驗。整篇的idea不是很困難,不過作者做了深入的研究以及實驗。 結論與直觀想法差距不大:
1. 有label的網頁提供的分類效果總是比沒有label的網頁好(η Eta)。
2. 四種鄰近網頁中屬Sibling的效最佳(β Beta)。
3. 來自同一網站的相鄰網頁提供的資訊比其他網站的相鄰資訊有益於分類(θ Theta)。
4. 鄰近網頁與target page的權重比於0.2與0.8是效果最佳(α Alpha)。
對ODP(Open Directory Project)等品質高的網頁分類效果可達90%,但是對一般網頁效果則降至56%,顯示還有相當的改善空間。
沒有留言:
張貼留言