2007年4月11日

A study on automatically extracted keywords in text categorization

A study on automatically extracted keywords in text categorization

本篇文章出自於ACL’2006, 其主要目的是探討 “Keyword” 對文件分類的影響力.
keyword extraction: 列舉出幾個常用的方法, 例如: n-grams, PoS, and Chunking. 在feature value 指派的方面, 描述出幾個常用的方法, 例如: tf, tf*idf, relative position of the first occurrence, PoS tag, 其中PoS tag是作者在 “Improved Automatic Keyword Extraction Given More Linguistic Knowledge”所提出來的方法, 在得到input feature and feature value之後, 採用supervised machine learning method (rule induction) 來訓練prediction models, 來判斷輸入的term, 是否為keywords, 實驗結果顯示, keyword 擷取的F-measure 可達44%.

文件分類部份所用的文件表達方式可分為keyword only 和full-text來探討, 而feature value的指派, 則採用tf*idf or boolean value, 而機器學習方法則係用linear support vector machine,來對文章做分類. 以往文件分類最基本的方式係用全文(full-text)的方式當作是input feature. 本篇針對不同的input feature 以及 feature value作了一系列的試驗, 來說明以full-text + keywords來當作是input feature, 其所得到的分類結果 (F-measure) 是最佳的, 可達到81.07%.

Link: Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the ACL