對於傳統的行銷方法而言,企業在決定行銷對象時,大多無特定目標發送廣告訊息。但事實上願意回應的消費者總是很少,造成企業在行銷資源上的浪費及顧客的反感。所以近年來,「Direct marketing for profit optimization」成為企業最想應用data mining技術解決的問題之一,它同時也是ACM在1998年所舉辦的KDD-CUP競賽問題。
一般而言,企業必須在考慮每份廣告的行銷成本之下,找出潛在傾向回應的消費者,進而只針對該消費族群行銷,並使得企業獲得的利益最大化。然而,它通常會面臨「imbalanced data」及「inverse correlation」的挑戰。在一般的狀況下,付諸回應行動的消費者佔整體行銷名單的比例非常少(在KDD-CUP-98 dataset中只佔5%),而大部分的data mining演算法卻是偏好學習資料整體的行為規則,所以要學習在稀少類別的規則是較困難的。另一方面,愈是可能回應的消費者,通常對企業貢獻的利益則愈少,所以若只想對願意回應的消費者行銷,成效相當有限。
以往的研究工作大多先預估顧客願意回應的機率,然後在較可能回應的顧客名單之中,再找出貢獻較大的族群做為行銷對象。他們的缺失在於顧客的貢獻在先前預測回應機率的步驟被忽略,尤其是當inverse correlation現象存在的時候,潛在較大貢獻的族群更是越容易被剔除。所以本篇論文使用focus association rule一次學習顧客回應及其貢獻這兩種行為,作法分成三個步驟。
我們取50%作為learning set,50%作為validation set。再從learning set中取出70%作為building set,30%作為testing set for turning minsup, maxsup
1. Rule Generating
我們在回應名單的資料集中,尋找大於使用者自訂minimum support的frequent item(稱為focus item),而且此focus item的出現次數必須低於在非回應名單資料集中的maximum support。然後再從回應名單資料集中找由focus item組成的frequent itemset做為"respond rule"。因為我們只從回應名單資料集中找frequent itemset,所以能解決「imbalanced data」問題。除此之外,我們可設定較低的minimum support以避免刪除profitable rules,同時也可設定maximum support來決定所要刪除的focus item數量,以控制演算法的效能及資料維度(可解決high demensionality問題)
2. Model Building
計算每條respond rule在building set中的平均獲利,並決定規則Cover record的順序: Average Profit > Generality > Simplicity > Totality of order
3. Model Pruning
預估每條respond rule在預測的testing error (pessimistic estimation),進而計算出每條respond rule預估的期望獲利。然後把建立由respond rule組成的covering tree,以bottom-up的方式,刪除期望獲利較低且較specific的規則
本篇論文最後產生的平均獲利高於KDD-Cup-1998第一名41%,也高於2001年之前所發表的三篇論文,傳送的mail數量也是最低。檢視TOP 10的規則,我們發現高獲利的規則不一定擁有較高的support及confidence,代表這些規則不一定是經常出現或是能準確地判斷顧客是否respond。最後,作者認為結果會有這麼顯著的提升是因為association rule克服了inverse correlation,並且擁有global search及不用預測顧客回應機率的優點。