2007年4月21日

Lazy Associative Classification

這篇paper主要是介紹了一個新的associative classification的作法。一般來說,associative classifier會比decision tree classifier的準確率要來得高。因為decision tree classifier 是用greedy(local) search的方法,選出目前擁有最高information gain的attribute,加進tree裡面形成新的split node,對於此node的子樹來說,皆為該attribute與其他所剩下的attribute中,挑選擁有最高information gain的attribute來繼續splitting,直到所有的instance屬於同一個class或是此node已低於某特定的minimum support threshold等等。decision tree classifier的特點是快速且容易明瞭,缺點為local search的情況下容易忽略了important rules。association rule classifier可以解決此問題,透過global search的方式,可以產生large number of rules。但是該優點正也是缺點所在,產生了大規模的rule set,許多的rule在分類的過程中甚至幾乎沒有用到,整體效率不彰。
因此本篇作者提出了lazy associative classification的觀念,相比於一般的 (eager) associative classification,lazy associative classifier並不是對於所有的 training data皆產生了rule set,而是demand-driven basis,也就是只針對testing instance所擁有的feature去產生association rules,如此可以保證所產生的association rules一定至少跟testing data有若干關係,不至於發生在測試的過程中,只用到少數association rules的情形。
對於lazy associative classification,為了一開始就記錄test instance所包含的feature set,會用到比一般associative classification更多的workload,此問題在paper中也提到了可以用caching的方式解決。另一個問題是只針對test instance產生的association rule,代表的就是要犧牲部分的generalization和影響classification若干的accuracy。
最後實驗證實,lazy association classification可以降低10%的error rate,相比於一般的association classification;而若是跟decision tree classification相比,更可以減少近20%的error rate。



Proceedings of the Sixth International Conference on Data Mining 2006 (IEEE)