對於只有小畫面的行動裝置使用者來說,瀏覽專為桌上型PC的大畫面所設計的網頁是不方便的。然而,隨著網路技術的提升與行動裝置的普及,這方面的需求也越來越多。目前已經有一些研究與商業產品正嘗試解決這方面的問題,其中,能夠正確地分辨網頁中image的種類是很有用的。舉例來說,去除網頁中某些image來簡化網頁內容以達到更符合小畫面瀏覽的程度。
在這篇paper中,作者們將web imgaes分成11個種類。接著,從40個網站中收集到的3901個images以手動方式分類。其中,選取了能夠有效分類的37個image features。這些image features的擷取方式總共有4種:
1.use HTML source file analysis
2.query web servers
3.exploit the layout information of DOM trees when rendering the pages
4.use image processing
根據這37個image features,作者們使用C4.5演算法來建立Decision Tree Classification。
實驗部份,總共執行40次,每一次選擇其中一個網站的images當作test set而其餘39個網站的images當作training set。結果顯示,採用作者們的分類方式可以達到83.1%的正確率。最後,作者們還實作了一個automatic web page scrolling system作為展示利用image classification方法的一種應用。
最後是這次報告的投影片: