Web Intelligence and Data Mining Laboratory: Lazy Associative Classification

2007年4月21日

Lazy Associative Classification

這篇paper主要是介紹了一個新的associative classification的作法。一般來說，associative classifier會比decision tree classifier的準確率要來得高。因為decision tree classifier 是用greedy(local) search的方法，選出目前擁有最高information gain的attribute，加進tree裡面形成新的split node，對於此node的子樹來說，皆為該attribute與其他所剩下的attribute中，挑選擁有最高information gain的attribute來繼續splitting，直到所有的instance屬於同一個class或是此node已低於某特定的minimum support threshold等等。decision tree classifier的特點是快速且容易明瞭，缺點為local search的情況下容易忽略了important rules。association rule classifier可以解決此問題，透過global search的方式，可以產生large number of rules。但是該優點正也是缺點所在，產生了大規模的rule set，許多的rule在分類的過程中甚至幾乎沒有用到，整體效率不彰。
因此本篇作者提出了lazy associative classification的觀念，相比於一般的 (eager) associative classification，lazy associative classifier並不是對於所有的 training data皆產生了rule set，而是demand-driven basis，也就是只針對testing instance所擁有的feature去產生association rules，如此可以保證所產生的association rules一定至少跟testing data有若干關係，不至於發生在測試的過程中，只用到少數association rules的情形。
對於lazy associative classification，為了一開始就記錄test instance所包含的feature set，會用到比一般associative classification更多的workload，此問題在paper中也提到了可以用caching的方式解決。另一個問題是只針對test instance產生的association rule，代表的就是要犧牲部分的generalization和影響classification若干的accuracy。
最後實驗證實，lazy association classification可以降低10%的error rate，相比於一般的association classification；而若是跟decision tree classification相比，更可以減少近20%的error rate。

Proceedings of the Sixth International Conference on Data Mining 2006 (IEEE)

Web Intelligence and Data Mining Laboratory

2007年4月21日

Lazy Associative Classification

關於我們

研究相關鏈結

依標籤分類文章

追蹤者

回應

Archives

RSS Substribe

網站統計