




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、客戶分類和識(shí)別潛在客戶的方法在前一章,我們探討了利用日常收集的客戶數(shù)據(jù)來(lái)獲取市場(chǎng)細(xì)分的方法。但同時(shí)存在許多情況,在試圖開(kāi)拓新型市場(chǎng)時(shí), 您更有可能將客戶歸入現(xiàn)有市場(chǎng)細(xì)分中或預(yù)定義類別。一般來(lái)說(shuō),這種要求在您已經(jīng)運(yùn)用專用客戶信息來(lái)定義分類,而這些信息只對(duì)一小部分客戶是可用的(如客戶調(diào)查數(shù)據(jù)或客戶忠誠(chéng)卡信息)的情況下是必要的。您現(xiàn)在可能想將所有客戶分成這些類別。但問(wèn)題在于:憑借手上日常收集到的客戶信息,您能把這些客戶全部歸類嗎?或者,您可能已經(jīng)依據(jù)日常收集的數(shù)據(jù)將客戶進(jìn)行了分類,現(xiàn)在還有一些能與現(xiàn)有客戶或潛在新客戶相鏈接的附加數(shù)據(jù)(如人口統(tǒng)計(jì)學(xué)數(shù)據(jù)) 。您能單憑人口統(tǒng)計(jì)學(xué)數(shù)據(jù)就能發(fā)現(xiàn)潛在、能夠創(chuàng)造
2、利潤(rùn)的客戶嗎?本章我們將關(guān)注數(shù)據(jù)挖掘技術(shù),以期能夠解決這類問(wèn)題。5.1業(yè)務(wù)需求在前幾章中,我們探討了如何從日常收集的數(shù)據(jù)獲得客戶細(xì)分的問(wèn)題。憑借分群數(shù)據(jù)挖掘技術(shù),我們能夠明白對(duì)不同類型客戶沒(méi)有任何預(yù)先認(rèn)識(shí)的情況下也可推斷客戶細(xì)分是如何成為可能的。這是我們?cè)诘?7 頁(yè)節(jié) “技術(shù)的類型”中所說(shuō)的探索型數(shù)據(jù)挖掘的一個(gè)例子。我們還提供了現(xiàn)有業(yè)務(wù)規(guī)則細(xì)分,并且我們能夠展示這些業(yè)務(wù)規(guī)則,即怎樣才能將獲得的細(xì)分映射到我們所發(fā)現(xiàn)的分群上。進(jìn)行有效的映射需要在數(shù)個(gè)事務(wù)上聚集客戶事務(wù)數(shù)據(jù),通過(guò)識(shí)別號(hào)需要某些鏈接事務(wù)的工具。一個(gè)顯而易見(jiàn)的問(wèn)題是,是否能使用其它方法使客戶與諸如業(yè)務(wù)規(guī)則細(xì)分等預(yù)定義類別相匹配?如果匹配
3、,則能否應(yīng)用于單個(gè)事務(wù)數(shù)據(jù)?回答是肯定的,我們用以實(shí)現(xiàn)該過(guò)程的數(shù)據(jù)挖掘技術(shù)稱為分類,它隸屬于總標(biāo)題“預(yù)測(cè)性數(shù)據(jù)挖掘”。在您的零售機(jī)構(gòu)中有大量用于分類的潛在應(yīng)用。事實(shí)上,在任何已對(duì)客戶進(jìn)行分類(或您能想到的其它任何事)的情況下,您都可以使用分類來(lái)發(fā)現(xiàn)怎樣用相關(guān)數(shù)據(jù)對(duì)其它客戶進(jìn)行分類,將它們歸入相同的類別。有關(guān)該過(guò)程的示例是通過(guò)采用專用信息獲得的現(xiàn)有客戶細(xì)分,如客戶調(diào)查或焦點(diǎn)人群。收集這種類型的信息往往代價(jià)昂貴,并且您可能僅能提供給小部分客戶。您也可將對(duì)小部分客戶有用的日常收集到的數(shù)據(jù)用于您所有的客戶(如事務(wù)數(shù)據(jù)) 。如果這些數(shù)據(jù)能用于決定一個(gè)客戶從屬于哪部分, 則毫無(wú)疑問(wèn)您也能用同樣的數(shù)據(jù)為所有
4、的客戶進(jìn)行分類?;蛘?,您可能已通過(guò)使用日常收集的數(shù)據(jù)獲得客戶細(xì)分, 就如我們?cè)谇耙徽滤龅哪菢?,但現(xiàn)在您想確定能與最有贏利性的市場(chǎng)細(xì)分相匹配的潛在客戶。在這種情況下,如果您能獲得可用于現(xiàn)有和潛在客戶相鏈接的外部數(shù)據(jù)(如人口統(tǒng)計(jì)學(xué)數(shù)據(jù)) ,您就可以根據(jù)人口統(tǒng)計(jì)學(xué)數(shù)據(jù)進(jìn)行分類,以便確定現(xiàn)有客戶的歸屬,然后用這種方法確定潛在客戶是否屬于最有贏利性的細(xì)分?無(wú)庸諱言,分類能用來(lái)做以上所有事情,但一般來(lái)說(shuō),該方法不可能100 正確地對(duì)所有客戶進(jìn)行分類。這個(gè)問(wèn)題后來(lái)成為一個(gè)疑問(wèn):為了有效使用分類結(jié)果,您需要在確定客戶屬于哪類細(xì)分時(shí)抱有多大的信心呢?在下面的幾個(gè)部分中,我們將向您講述如何運(yùn)用分類對(duì)客戶進(jìn)行歸類
5、,如何說(shuō)明分類器的表現(xiàn),最重要的是提出建議以便指導(dǎo)怎樣將結(jié)果應(yīng)用到您的業(yè)務(wù)中,同時(shí)通過(guò)銷售系統(tǒng)點(diǎn)及其它與客戶打交道的部門(mén),作為市場(chǎng)營(yíng)銷活動(dòng)的指導(dǎo)。解決方案大綱通用數(shù)據(jù)挖掘方法的第一階段 這部分也是首先將業(yè)務(wù)需求轉(zhuǎn)化為可通過(guò)數(shù)據(jù)挖掘得以解決的一系列問(wèn)題。在進(jìn)行分類的情況下,可能會(huì)運(yùn)用大量數(shù)據(jù)挖掘技術(shù)。難題在于要因地制宜,為解決該業(yè)務(wù)需求確定一項(xiàng)最合適的技術(shù)。所有的數(shù)據(jù)挖掘分類技術(shù)都可以構(gòu)造出數(shù)據(jù)的數(shù)學(xué)表述,將客戶不同性質(zhì)的相關(guān)變量與已指派給小部分客戶的預(yù)定義類別聯(lián)系起來(lái)。我們稱該數(shù)學(xué)表述為分類模型。在本章將描述的示例展示了如何構(gòu)建這種模型,然后將展示其對(duì)尚未預(yù)定義的客戶進(jìn)行分類。該預(yù)定義類別可以
6、是您所選的任何項(xiàng), 比如,我們已經(jīng)描述過(guò)的客戶細(xì)分, 或盈利性類別,或甚至可以是客戶會(huì)轉(zhuǎn)而投到競(jìng)爭(zhēng)對(duì)手一方的可能性。要闡述進(jìn)行分類的方法,我們將使用用于忠誠(chéng)卡客戶的預(yù)定義業(yè)務(wù)規(guī)則細(xì)分,關(guān)于忠誠(chéng)卡客戶已在前幾章中定義。 我們已經(jīng)知道, 如果使用聚集 NRS,那么這些客戶可被成功地映射到業(yè)務(wù)規(guī)則細(xì)分中。我們的問(wèn)題是:我們能否使用單個(gè)銷售事務(wù)點(diǎn)的數(shù)據(jù)做同樣的事情?如果能,那么因?yàn)槲覀儞碛杏糜谒锌蛻舻男畔?,而不僅僅限于持有忠誠(chéng)卡的客戶,就可以用分類模型在銷售點(diǎn)上為全部客戶分類,并向他們提供適當(dāng)?shù)慕ㄗh。數(shù)據(jù)挖掘技術(shù)能用以決定應(yīng)該提供什么樣的建議,這是第 137 頁(yè)第六章所表達(dá)的主題“應(yīng)該向客戶推薦哪些
7、產(chǎn)品?” 。要構(gòu)建分類模型,首先有必要獲得已指派給業(yè)務(wù)細(xì)分的客戶組數(shù)據(jù)。我們稱這組客戶為“訓(xùn)練組”。我們所掌握的該組客戶數(shù)據(jù)將分成我們用以開(kāi)發(fā)分類模型的“ 訓(xùn)練數(shù)據(jù)集 ”,以及用以驗(yàn)證模型的“測(cè)試數(shù)據(jù)集 ”。在我們的示例中,所需數(shù)據(jù)是個(gè)體事務(wù)處理記錄,但這與人口統(tǒng)計(jì)學(xué)數(shù)據(jù)或能從用于訓(xùn)練組和您想分類的客戶組獲得的其它信息一樣簡(jiǎn)單。我們稱該第二組客戶為“目標(biāo)組 ”。我們所掌握的目標(biāo)組數(shù)據(jù)的類型與訓(xùn)練組的類型一樣,但對(duì)這些客戶我們沒(méi)有預(yù)定義業(yè)務(wù)類別。我們稱這類型數(shù)據(jù)為“因?yàn)檫@種類型數(shù)據(jù)是我們?cè)趯⒎诸惸P蛻?yīng)用到業(yè)務(wù)上時(shí)要用到的。操作數(shù)據(jù) ”,分類概念是,我們用客戶的訓(xùn)練組構(gòu)建分類模型,然后用該模型對(duì)目
8、標(biāo)組中的客戶進(jìn)行分類。下圖是 5-1 的示意圖。圖 5-1 培訓(xùn)、測(cè)試及申請(qǐng)應(yīng)用分類模型5.2要使用的數(shù)據(jù)“通用挖掘方法的第二階段” 將確定要用于構(gòu)建分類模型的數(shù)據(jù)。在此示例中,我們運(yùn)用第 53 頁(yè)節(jié) “推薦數(shù)據(jù)模型”描述的CLA 和 TLA 兩種數(shù)據(jù)模型構(gòu)建用來(lái)將客戶歸類到預(yù)定義業(yè)務(wù)規(guī)則細(xì)分的分類模型中。因?yàn)槲覀兊挠?xùn)練組客戶最初是使用 CLA 模型聚集的 NRS 被指派到業(yè)務(wù)細(xì)分的, 因而我們首先運(yùn)用數(shù)據(jù)挖掘分類技術(shù)來(lái)展示這些數(shù)據(jù)是如何很好地支持最初所作的分類。 然后使用 TLA 模型展示目標(biāo)組客戶在單個(gè)事務(wù)限制使用 NRS 時(shí)是如何很好地將其歸到相同的業(yè)務(wù)細(xì)分的。創(chuàng)建分類模型需要擴(kuò)展 CL
9、A 和 TLA 數(shù)據(jù)模型。在這兩種情況下,在訓(xùn)練組中的每個(gè)客戶記錄必須包含業(yè)務(wù)細(xì)分標(biāo)簽,然后才能成為分類的目標(biāo)變量。同時(shí)也有必要?jiǎng)?chuàng)建一些附加變量,以供一些分類模型使用。這些附加變量來(lái)自于業(yè)務(wù)細(xì)分,每個(gè)附加變量對(duì)應(yīng)相應(yīng)的業(yè)務(wù)細(xì)分類別(如,一般購(gòu)物者變量,家庭購(gòu)物者變量)。如果業(yè)務(wù)細(xì)分標(biāo)簽與變量名稱匹配,則每個(gè)新變量的值均設(shè)置為“ 1”,如果不匹配,則設(shè)置為“ 0”。當(dāng)討論分類模型的構(gòu)造時(shí),我們使用術(shù)語(yǔ)“ 目標(biāo)變量 ”來(lái)稱呼那些新變量。修改過(guò)的 CLA 和TLA數(shù)據(jù)模型的結(jié)構(gòu)如圖5.2 所示:圖 5-2CLA 和 TLA 數(shù)據(jù)模型表的結(jié)構(gòu)5.3初始化并預(yù)處理數(shù)據(jù)如果您已經(jīng)準(zhǔn)備好初始化數(shù)據(jù)以開(kāi)始細(xì)分
10、,則您無(wú)需任何附加信息就可以開(kāi)始通用數(shù)據(jù)挖掘方法的第三階段 。然而,如我們已經(jīng)討論過(guò)的,構(gòu)造分類模型需要?jiǎng)?chuàng)建兩個(gè)單獨(dú)的訓(xùn)練組客戶數(shù)據(jù)示例訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集。這需要采取一些特定的預(yù)處理步驟。創(chuàng)建訓(xùn)練及測(cè)試數(shù)據(jù)集訓(xùn)練集用于開(kāi)發(fā)初始模型。當(dāng)建立模型后,測(cè)試數(shù)據(jù)集通過(guò)測(cè)量通常術(shù)語(yǔ)稱之為“隱性數(shù)據(jù)”的性能進(jìn)行驗(yàn)證模型。驗(yàn)證的關(guān)鍵部分是檢測(cè)看是否出現(xiàn)了未知的“超負(fù)荷”現(xiàn)象。超負(fù)荷是指只能與訓(xùn)練數(shù)據(jù)相適應(yīng),但無(wú)法適應(yīng)其它數(shù)據(jù)集的情況。分層采樣如果您擁有大量客戶,并在不同細(xì)分中客戶數(shù)目有很大變化的情況下,那么有時(shí)需要您在現(xiàn)有的全部數(shù)據(jù)中進(jìn)行采樣,以開(kāi)發(fā)測(cè)試及訓(xùn)練數(shù)據(jù)集。在這些情況下,在每個(gè)細(xì)分或類別的客戶
11、記錄中按一定比例采樣是很重要的。該技術(shù)稱為 分層采樣 。在某些情況下,雖然單個(gè)細(xì)分或類別名稱已被指派到一組客戶中,但該細(xì)分中客戶特點(diǎn)仍存在顯著差異。我們?cè)谙惹暗谒恼轮械囊话阗?gòu)物者細(xì)分的示例中已見(jiàn)過(guò)此種狀況。在這些例子中,通過(guò)首先在某時(shí)分群全部來(lái)自一個(gè)類別的客戶,然后再?gòu)拿總€(gè)群集中采樣。在客戶細(xì)分并不均勻的情況下,該分層采樣比較先進(jìn),已證實(shí)該分層采樣可使分類性能得到顯著提高。提示:諸如 IM for Data 這樣的 數(shù)據(jù)挖掘產(chǎn)品具有諸多優(yōu)勢(shì),您可挖掘所有數(shù)據(jù),在此情況下,可無(wú)需分層采樣。均衡樣本存在一個(gè)一般性誤解,使得開(kāi)發(fā)分類模型前必須創(chuàng)建所謂的“均衡樣本 ”。該誤解主要來(lái)自于下述觀點(diǎn),如果在
12、特定的類別或細(xì)分中,客戶數(shù)目記錄存在巨大變化,那么有必要通過(guò)從每個(gè)類別或細(xì)分中創(chuàng)建包含相同數(shù)目的客戶采樣標(biāo)本予以補(bǔ)償。 正如我們將要展示的那樣,分類器模型可生成一個(gè)輸出, 其可評(píng)估客戶從屬于某個(gè)特定類別的可能性。如果訓(xùn)練組是您客戶的典型樣本,無(wú)任何理由對(duì)某個(gè)細(xì)分或類別特殊對(duì)待,那么也就無(wú)創(chuàng)建均衡樣本的理由。通過(guò)考察樣本示例,您就可以全面了解其中的情況。想象一下,就其NRS 而言,所有客戶均具有相同特征,但您卻已利用其它信息將其分配到細(xì)分和類別中。如果您試圖通過(guò) NRS 數(shù)據(jù)為這些客戶分類,那么很明顯,客戶相互之間很難分辯彼此。那么他們從屬于某特定細(xì)分的可能性就是最初指派到細(xì)分中客戶數(shù)量與客戶總
13、數(shù)量之比(如果90的客戶是一般購(gòu)物者,如果在其它量不變化的情況下,客戶隨機(jī)選取一般購(gòu)物者的可能性比率仍然還是90)。如果您已使用均衡樣本,分類器可能會(huì)得出結(jié)論,認(rèn)為可能正常情況下,只有在您知道客戶總數(shù),并且訓(xùn)練組本身就是細(xì)分和類別的不均衡表現(xiàn)時(shí)才可使用均衡樣本。例如,您可能知道在客戶總數(shù)中,每個(gè)類中的客戶數(shù)均相等,但在訓(xùn)練組中,由于某些采樣原因樣本分布不均勻。在這種情況下,均衡采樣可用于解決均衡問(wèn)題。在其它情況下,均衡可能是適當(dāng)?shù)模瑒t其風(fēng)險(xiǎn)在于把客戶錯(cuò)誤地分類到一個(gè)類別中,而不是別的什么原因,這點(diǎn)對(duì)您來(lái)說(shuō)非常重要。這個(gè)問(wèn)題通過(guò)采用稱為“出錯(cuò)加權(quán)”步驟也能夠得以解決,我們將在第104 頁(yè) 5.5
14、 節(jié) “挖掘技術(shù)”中探討分類器的不同類型時(shí)詳述該問(wèn)題。在我們舉的數(shù)據(jù)集示例中,因?yàn)榭赏诰蛩袛?shù)據(jù),故而不需要任何分層采樣。我們也知道訓(xùn)練組是客戶總數(shù)的典型性樣本,并且由于在此階段,我們沒(méi)有理由特殊對(duì)待某一組客戶,無(wú)需任何形式的均衡樣本。因此,可以通過(guò)隨機(jī)分解數(shù)據(jù)開(kāi)發(fā)測(cè)試和訓(xùn)練集,如可以在訓(xùn)練數(shù)據(jù)集中分解 50的訓(xùn)練組客戶,另外的 50則在測(cè)試數(shù)據(jù)集中分解。您需要仔細(xì)考慮下列有關(guān)預(yù)處理步驟的重要事項(xiàng):與您將使用結(jié)果模型進(jìn)行分類的客戶相比,客戶的訓(xùn)練組如何具有典型性?您將如何使用分類結(jié)果?一個(gè)類別是否會(huì)比另一個(gè)更重要?5.4評(píng)估數(shù)據(jù)數(shù)據(jù)評(píng)估包括運(yùn)用丟失值、溢出值和多余變量的解決問(wèn)題。這是通用挖掘方
15、法的第四階段。因?yàn)槲覀冋褂门c第四章一樣的數(shù)據(jù)模型,所以應(yīng)遵循第63 頁(yè)中 4.4 節(jié)“評(píng)估數(shù)據(jù)”所涉及的相同程序。大部分分類模型對(duì)密切相關(guān)的特征變量是非常敏感的,因此用我們?cè)诘?3 頁(yè) 4.4 節(jié) “評(píng)估數(shù)據(jù)”中所描述的步驟去移除或結(jié)合這種變量,需根據(jù)您將采用的分類技術(shù)類型仔細(xì)考慮。相關(guān)原因?qū)⒃谙乱徽鹿?jié)討論。評(píng)估階段的一個(gè)重要部分是確保檢驗(yàn)和訓(xùn)練數(shù)據(jù)集準(zhǔn)確反映全部客戶數(shù)據(jù)集的統(tǒng)計(jì)特征。確認(rèn)是否正確分割數(shù)據(jù)的一種好方法是使用單變量統(tǒng)計(jì)檢查這些數(shù)據(jù)集(平均值、標(biāo)準(zhǔn)偏差和眾數(shù)值)的統(tǒng)計(jì),并檢查測(cè)試與訓(xùn)練集的統(tǒng)計(jì)是否仍然與整個(gè)數(shù)據(jù)集統(tǒng)計(jì)相匹配。5.5挖掘技術(shù)通用數(shù)據(jù)挖掘方法的第五階段 不僅可確定并選
16、取我們將要使用的適當(dāng)數(shù)據(jù)挖掘技術(shù),還將決定針對(duì)具體業(yè)務(wù)需求如何應(yīng)用這些方法。如果進(jìn)行客戶分類,可以采取多種不同的數(shù)據(jù)挖掘技術(shù)。要決定哪種技術(shù)是最合適的,需要了解不同技術(shù)是如何構(gòu)建分類器模型以及如何對(duì)其進(jìn)行翻譯的。本章節(jié)將探討您可能用到的一些技術(shù),以及如何應(yīng)用它們。挖掘技術(shù)的分類在進(jìn)行客戶分類時(shí),通常要使用多種技術(shù),然后將結(jié)果進(jìn)行比較或結(jié)合,以獲得最佳的整體分類。這樣做是因?yàn)椴煌募夹g(shù)使用不同的方法執(zhí)行分類任務(wù),正如前一章的分群技術(shù),這在執(zhí)行中將會(huì)導(dǎo)致變化。以下是一些最常用的技術(shù):決策樹(shù)神經(jīng)網(wǎng)絡(luò)徑向基函數(shù)在此,我們使用兩種具有很大差別的技術(shù):決策樹(shù)和RBF 分類器。決策樹(shù)的主要優(yōu)點(diǎn)是可提供良好的
17、性能。其能夠執(zhí)行多重分類,所得結(jié)果最接近,并相對(duì)容易解釋。相比之下, RBF 技術(shù)通常提供較好的性能,但結(jié)果不容易解釋,而且一個(gè)類別只能執(zhí)行一次分類。關(guān)注這兩種不同方法的原因是要闡明其不同之處,以描述在創(chuàng)建分類模型時(shí)將采取的步驟,并展示如何把兩種分類技術(shù)的結(jié)果聯(lián)系在一起,增加您對(duì)最終結(jié)果的信心。決策樹(shù)分類器決策樹(shù)分類器是從客戶記錄的訓(xùn)練數(shù)據(jù)集中, 通過(guò)不斷地將客戶分成更小的組構(gòu)建而成的。細(xì)分組的目的是讓新組中某類客戶類別比原先的組更純。比如,如果原始組包含兩類客戶的混合,即一般購(gòu)物者與家庭購(gòu)物者,則可將該組分為兩組,一組是占主要地位的一般購(gòu)物者,另一組是家庭購(gòu)物者,這就可以達(dá)到想要的目標(biāo)。純度
18、測(cè)量是通過(guò)在該組主要類別里的客戶數(shù)目除以該組所有客戶數(shù)目所得的比率。如果分離該組,這個(gè)測(cè)量標(biāo)準(zhǔn)的平均值會(huì)增加,這樣該分離便增加了我們確定不同客戶類別的能力。比如,如果我們從該組中隨機(jī)選擇一個(gè)客戶,并將其標(biāo)記為主要類別,則現(xiàn)在其正確的機(jī)會(huì)就更大了。提示:我們用于確定分離質(zhì)量的實(shí)際測(cè)量稱GINI 索引。 GINI 索引可測(cè)量分離的純度,然后通過(guò)每組客戶的數(shù)目對(duì)其加權(quán)。這會(huì)導(dǎo)致分離錯(cuò)誤最小,同時(shí)避免僅將少量客戶與其余客戶分離的瑣碎分離。如何進(jìn)行每項(xiàng)分離的決定要通過(guò)檢查每個(gè)特征變量,并找出可導(dǎo)致最純分離的變量及其數(shù)值后作出的。一旦執(zhí)行分離,則由此得出的每個(gè)組可使用其它變量或甚至使用同一變量進(jìn)行再次分離
19、。然后繼續(xù)該步驟,不斷分成越來(lái)越小的組,直到組中只剩下一個(gè)類別的客戶,或者獲得可接受的純度。這最終將產(chǎn)生樹(shù)結(jié)構(gòu)類型,如圖5.3 所示:提示:圖 5-3 所示的決策樹(shù)產(chǎn)生于合成數(shù)據(jù),用以說(shuō)明不同的分類器是如何工作,而非來(lái)自于第 118 頁(yè) 5.6 節(jié) “解釋結(jié)果” 評(píng)估的示例數(shù)據(jù)集。在購(gòu)買(mǎi) “嬰兒產(chǎn)品與食品”中,合成數(shù)據(jù)集包含兩個(gè)客戶類別,每個(gè)類別有兩個(gè)差別明顯的特征行為。在此情況下,一般購(gòu)物者的特點(diǎn)是或者他們?cè)谫?gòu)買(mǎi)嬰兒產(chǎn)品與食品時(shí)花銷相對(duì)都比較高,或者兩類花銷都比較低。相比之下,家庭購(gòu)物者的特點(diǎn)是在購(gòu)買(mǎi)嬰兒產(chǎn)品上的花銷高,同時(shí)相應(yīng)的食品花銷就低,反之,食品花銷高,嬰兒產(chǎn)品的花銷就低。圖 5-3
20、簡(jiǎn)單決策樹(shù)雖然我們稱此為決策樹(shù)分類器,但圖示數(shù)據(jù)挖掘器通常將它畫(huà)成倒置的樹(shù)來(lái)表示。在圖示的頂端,第一個(gè)分離稱為根節(jié)點(diǎn),隨后繼續(xù)推進(jìn)分支部分的分離,分支部分的節(jié)點(diǎn)稱為葉節(jié)點(diǎn)或簡(jiǎn)稱為葉。這并不表明數(shù)據(jù)挖掘器自欺欺人,但我們必須談?wù)撘幌履承┤速M(fèi)解的看待世界的方式。一般來(lái)說(shuō),分離可以繼續(xù)到所有葉節(jié)點(diǎn)只包含一個(gè)客戶類型,或直到出現(xiàn)可接受的錯(cuò)誤。在限制中,分離能在決策樹(shù)每個(gè)葉節(jié)點(diǎn)上產(chǎn)生一個(gè)客戶。這是一個(gè)決策樹(shù)數(shù)據(jù)超負(fù)荷的好例子。因?yàn)閷?duì)訓(xùn)練數(shù)據(jù)的正確分類雖然能 100完成,但對(duì)測(cè)試數(shù)據(jù)集卻不可能產(chǎn)生同樣的結(jié)果。為阻止超負(fù)荷發(fā)生,并生成一個(gè)可應(yīng)用于不可見(jiàn)情況下的樹(shù),則基本決策樹(shù)必須被精減到訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)
21、集都能獲得可以接受的執(zhí)行狀況的水平。 這可以通過(guò)包括從簡(jiǎn)單的人工精減到全自動(dòng)精減的許多途徑得以實(shí)現(xiàn)。在后一種情況下,精減通常試圖用樹(shù)的復(fù)雜性來(lái)平衡錯(cuò)誤的數(shù)量。一個(gè)非常復(fù)雜的樹(shù)(帶有大量分支)其錯(cuò)誤較少,但在不可見(jiàn)數(shù)據(jù)上的表現(xiàn)可能并不比有多個(gè)錯(cuò)誤多的簡(jiǎn)單樹(shù)差。因?yàn)樵诿總€(gè)節(jié)點(diǎn)上,分離是通過(guò)選擇一個(gè)變量和該變量的適當(dāng)值來(lái)實(shí)現(xiàn)的。這種決策樹(shù)稱為二叉樹(shù)。提示:精減技術(shù)通常指的是最低描述長(zhǎng)度精減,這是基于與Occams Razor相同的原則。該原則主要指應(yīng)盡可能簡(jiǎn)單地表述事物,而不是較簡(jiǎn)單地表述。當(dāng)您想利用樹(shù)對(duì)一個(gè)新客戶進(jìn)行分類時(shí),可將目標(biāo)客戶的變量與樹(shù)頂端變量的值相比,并且根據(jù)對(duì)比結(jié)果,再比較分支。這樣
22、一直延續(xù)下去,直到到達(dá)葉節(jié)點(diǎn)。在此,根據(jù)葉節(jié)點(diǎn)的訓(xùn)練集記錄分配對(duì)客戶進(jìn)行分類。這樣便可計(jì)算分類的可信度了。通向決策樹(shù)的路徑可以通過(guò)規(guī)則形式表現(xiàn)出來(lái)。比如:If Baby Products 2.1 (relatively high spend)and Food 1.6 (relatively low spend)THENClass = Family Shopper with a confidence of 100%這顯示出該樹(shù)已經(jīng)正確鑒別了我們所定義的家庭購(gòu)物者組之一, 并且使分類決策樹(shù)的創(chuàng)建過(guò)程相對(duì)容易理解。這種透明度是決策樹(shù)技術(shù)的主要優(yōu)勢(shì)之一。變量選擇與預(yù)處理要求在進(jìn)行每次分離時(shí),一個(gè)特征變
23、量的每次明確選擇使決策樹(shù)容易解釋。因?yàn)檫B續(xù)的分離能通過(guò)上面闡述的規(guī)則類型予以描述。同時(shí),該特征選擇的類型是實(shí)現(xiàn)最優(yōu)分類的主要限定因素。通過(guò)仔細(xì)考慮圖 5-4 所顯示的情形,您便可理解其中的原因。圖 5-4 顯示了針對(duì)兩個(gè)特征變量( V1 和 V2)而劃分的兩類假定客戶( A 和 B )的分布。圖 5-4決策樹(shù)如何執(zhí)行分類在該情況下,兩類客戶均展示出兩個(gè)變量V1 與 V2 間高度的相互關(guān)系,并且通過(guò)使用可將兩組對(duì)開(kāi)的分割線(a)能夠“最好”地將這兩組分開(kāi)。然而,如果限制我們每次僅使用一個(gè)變量來(lái)分割兩個(gè)類別,那么用單個(gè)分離是無(wú)法實(shí)現(xiàn)的,此時(shí)必須使用兩個(gè)變量的每一個(gè)進(jìn)行多次分離 (變量V1取值3.1
24、, 5.7 和 8.1;變量V2 取值5.4, 6.8, 8.6 和 9.0)。兩個(gè)區(qū)域間最終的邊界是現(xiàn)在所示的曲線(b),即為決策樹(shù)對(duì)于a 線段的近似值。可以通過(guò)圖 5-5 所示的相關(guān)決策樹(shù)來(lái)理解執(zhí)行分離的次序。圖 5-5與圖 5-4 相關(guān)的決策樹(shù)該決策樹(shù)可認(rèn)為是描述圖5-4 虛線所示區(qū)域,但應(yīng)用該樹(shù)的實(shí)際結(jié)果是決策邊界(b)。如果在預(yù)處理步驟中可能計(jì)算一些新的特征變量,這樣圖5-4的線條(a)會(huì)垂直于新的變量,因此僅需進(jìn)行一次分離,并且我們將會(huì)有一個(gè)簡(jiǎn)單的決策樹(shù)。欲獲得該變量的等量,將圖 5-5 所示的圖表座標(biāo)旋轉(zhuǎn)即可。提示:數(shù)學(xué)上,這只是變量V1 與 V2 的加權(quán)結(jié)合,此處的加權(quán)與線條(
25、a)的傾斜度是呈比例的。雖然此時(shí)這會(huì)相對(duì)容易看出,但具有多個(gè)變量時(shí),一般很難對(duì)其確定。第27頁(yè)的 3.3 節(jié)“數(shù)據(jù)挖掘技術(shù)”中所提及的主要組件分析和因素分析的統(tǒng)計(jì)技術(shù)能用于執(zhí)行該類型的變量轉(zhuǎn)化。在此情況下,如果已將座標(biāo)旋轉(zhuǎn),我們只需進(jìn)行更少的分離便可完成分類,并且決策樹(shù)在不可見(jiàn)數(shù)據(jù)上可能表現(xiàn)得更好。但可能遭受這樣的懲罰:用于進(jìn)行分離的變量可能會(huì)變得更復(fù)雜,從而使對(duì)決策樹(shù)本身的解釋更加困難。一般在進(jìn)行分類與您解釋分類決策理由的能力之間一直存在一種平衡需要達(dá)成。這恰恰證明了這句格言: “天下沒(méi)有免費(fèi)的午餐”。出錯(cuò)加權(quán)構(gòu)建任何類型的分類器時(shí),您都需要問(wèn)自己如下問(wèn)題:在業(yè)務(wù)決策進(jìn)程中所有的類別都同等重
26、要嗎?假如,您要構(gòu)建一個(gè)分類器,以對(duì)一般購(gòu)物者和家庭購(gòu)物者進(jìn)行分類。在此情況下,您可能知道雖然家庭購(gòu)物者不會(huì)反對(duì)被標(biāo)志為一般購(gòu)物者,反之則不然(主動(dòng)向一般購(gòu)物者出售尿布可能被認(rèn)為是冒犯行為, 然而向家庭購(gòu)物者出售日常貨物是可接受的)。因此,您需要建立一個(gè)分類器,該分類器能夠充分考慮將客戶不正確地分類到錯(cuò)誤類別中的風(fēng)險(xiǎn)。我們用以執(zhí)行這個(gè)的過(guò)程稱為出錯(cuò)加權(quán)。在該示例中,您想要對(duì)決策樹(shù)進(jìn)行加權(quán),這樣在分類決策中可能出現(xiàn)錯(cuò)誤的地方將會(huì)發(fā)生偏差,錯(cuò)誤地將家庭購(gòu)物者歸類為一般購(gòu)物者,而不是偏移到其它周圍路徑。通過(guò)在可支持使用風(fēng)險(xiǎn)或出錯(cuò)加權(quán)的一般購(gòu)物者的樹(shù)上每個(gè)葉節(jié)點(diǎn)處分離決策, 可以執(zhí)行上述目的。這種挑戰(zhàn)
27、將會(huì)發(fā)現(xiàn)一個(gè)正確的加權(quán), 可以最大限度地增加確定目標(biāo)客戶組的機(jī)會(huì),同時(shí)將不正確或虛假分類的數(shù)量降低到最少。該類型的出錯(cuò)加權(quán)還能用于一種重要類別,該類別代表一個(gè)相對(duì)較小的客戶組,其中的客戶很容易與另一類別發(fā)生混淆。 這能在整個(gè)一般購(gòu)物者組中代表能獲高額利潤(rùn)的小客戶組。在此情況下,通過(guò)為訓(xùn)練集使用適當(dāng)?shù)某鲥e(cuò)加權(quán)將會(huì)使該組得以確定,但有一些一般購(gòu)物者會(huì)被錯(cuò)誤分類。也可以使用另一種方式替代出錯(cuò)加權(quán),即用平衡取樣創(chuàng)建訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集。在第 101 頁(yè)章節(jié)的“創(chuàng)建訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)集”中,我們探討了創(chuàng)建平衡樣本的問(wèn)題。與出錯(cuò)加權(quán)等同的做法是:通過(guò)從您認(rèn)為重要的分類中進(jìn)行過(guò)量采樣來(lái)創(chuàng)建平衡樣本。這僅僅
28、是在訓(xùn)練數(shù)據(jù)集中多次使用同樣客戶記錄的問(wèn)題,但在測(cè)試數(shù)據(jù)集中只能使用一次。提示:為諸如決策樹(shù)分類器等多類別分類器創(chuàng)建這種樣本是極為復(fù)雜的,一般最好使用出錯(cuò)加權(quán)以取得最后結(jié)果。在分類器執(zhí)行二元決策的情況下,相對(duì)容易執(zhí)行過(guò)量采樣。徑向基函數(shù)(RBF )RBF 是一種不同類型的挖掘技術(shù),我們可以用它來(lái)預(yù)測(cè)應(yīng)將客戶分配到哪一類別中。通常來(lái)說(shuō), RBF 技術(shù)一般用于預(yù)測(cè)連續(xù)變量(目標(biāo)變量),該變量通常是一個(gè)或多個(gè)其它變量的函數(shù)。如果我們需要用到RBF 技術(shù)進(jìn)行分類,我們將目標(biāo)變量限定為“1”或者“0”,然后在 RBF 中使用 0 到 1 范圍內(nèi)的值預(yù)測(cè)該類別。這種預(yù)測(cè)是客戶可能屬于哪一目標(biāo)類別的概率。為
29、預(yù)先準(zhǔn)備使用RBF 分類器所需數(shù)據(jù),我們首先將訓(xùn)練集中每個(gè)客戶標(biāo)記為是或否屬于目標(biāo)類別。 然后再指定一個(gè)新的二元變量。這些工作在準(zhǔn)備第100 頁(yè) 5.2 節(jié) “將要使用的數(shù)據(jù)”所描述的已修改過(guò)的 CLA 和 TLA 數(shù)據(jù)模型時(shí)就已完成。決策樹(shù)分類器能處理多重目標(biāo)類別,而 RBF 每次只處理一個(gè)類別,而且對(duì)于每個(gè)類別都必須構(gòu)建一個(gè)獨(dú)立的分類器。提示:我們本應(yīng)在決策樹(shù)分類器中使用同樣的方法。在某些情況下,當(dāng)我們想注重一個(gè)特定類別時(shí),其可以提高分類性能。RBF 構(gòu)建模型的方法與決策樹(shù)分類器有些相似。RBF 通過(guò)使用特征變量定義區(qū)域間的邊界,可將兩個(gè)類別的客戶分割成幾個(gè)區(qū)域。 RBF 技術(shù)并不限于每次
30、只選取一個(gè)變量,因此區(qū)域間的邊界可能是線(當(dāng)有兩個(gè)變量時(shí)) ,平面(當(dāng)有三個(gè)變量時(shí))或所謂的超平面(當(dāng)有多于三個(gè)變量時(shí)) 。該區(qū)域在目標(biāo)變量具有相似值(在此情況下, “1”代表家庭購(gòu)物者, “0”代表其它所有購(gòu)物者類型,在本數(shù)據(jù)集中,只有一般購(gòu)物者這個(gè)類型)的地方將客戶分離開(kāi)。在每個(gè)區(qū)域中,該技術(shù)可放置一個(gè)調(diào)整中心,在每個(gè)調(diào)整中心均有一個(gè)基本函數(shù)。該基本函數(shù)可測(cè)量一個(gè)客戶歸屬區(qū)域的置信度,它定義一個(gè)客戶記錄離調(diào)整中心越遠(yuǎn),其置信度就越低。因此,該類型分類器就稱為徑向基函數(shù)分類器。如果我們使用用以描述決策樹(shù)分類器如何構(gòu)建其模型相同的合成數(shù)據(jù)集來(lái)構(gòu)建類器模型的話,則 RBF 分類器將生成四個(gè)區(qū)域和
31、四個(gè)調(diào)整中心,如圖RBF56 所示:分圖 56 徑向基函數(shù)因?yàn)樵摲纸獠⒉幌抻诿看沃挥靡粋€(gè)變量, 所以這會(huì)產(chǎn)生由當(dāng)前不垂直于圖軸上變量的虛線所指示的區(qū)域邊界。圖 5 6 展示了 RBF 可將四個(gè)基本函數(shù)放置到哪些地方,范圍為覆蓋四個(gè)區(qū)域的中心 C1 到 C4 ??蛻魵w屬于某個(gè)特定區(qū)域的概率是到調(diào)整中心距離的函數(shù)。在基本函數(shù)重疊處,概率計(jì)算為不同區(qū)域函數(shù)的加權(quán)求和的結(jié)果。算入該加權(quán)是為了在分類所有客戶時(shí)將所有錯(cuò)誤降低到最少。在決策樹(shù)分類器的示例中,通過(guò)觀察決策樹(shù)我們可以解釋如何執(zhí)行分類。解釋RBF 分類器的執(zhí)行過(guò)程也可運(yùn)用直觀顯示技術(shù)予以實(shí)現(xiàn)。在此示例中,我們使用一個(gè)類似于在第四章描述過(guò)的簇結(jié)果的
32、直觀顯示技術(shù),只是將其中的簇代之以RBF 的區(qū)域。在RBF中實(shí)行直觀顯示技術(shù)的效果圖示例如圖5 7 所示。圖 57 RBF 區(qū)域直觀顯示效果圖在此,每一線條表示一個(gè)不同的RBF 區(qū)域和分配到區(qū)域每個(gè)客戶記錄的變量分布。如二變量和簇的直觀效果示意圖所示,該分布就好比所有客戶的變量分布。區(qū)域的排序是根據(jù)區(qū)域里所有客戶目標(biāo)變量的中間值而定。該中間值顯示在每條線的左手邊。每一條線的第一個(gè)柱狀圖顯示區(qū)域中客戶目標(biāo)變量的分布。在圖5 7 所示的頂端區(qū)域中只有家庭購(gòu)物者,因此目標(biāo)變量“購(gòu)物類型N ”只具有值“ 1”。該區(qū)域的平均數(shù)相應(yīng)地為1.0。類似地,底端區(qū)域取值“0”,而其平均值為0.0。我們已經(jīng)討論過(guò)
33、, 區(qū)域中目標(biāo)變量已預(yù)測(cè)值取決于與區(qū)域中心和客戶被分配到的區(qū)域及其它區(qū)域相聯(lián)系的客戶的位置。 第二個(gè)柱狀圖展示了這些客戶的預(yù)測(cè)值與其實(shí)際值之間的錯(cuò)誤分布。因?yàn)槲覀兪菍?RBF 當(dāng)作二元分類器使用,所以預(yù)測(cè)值實(shí)際上是對(duì)客戶屬于目標(biāo)類別的概率的一種估計(jì)。提示:每條線條的右手邊的值是該錯(cuò)誤分布的RMS 錯(cuò)誤。應(yīng)該注意的是這是在預(yù)測(cè)中間值附近的錯(cuò)誤, 而不是線條右手邊所示的區(qū)域內(nèi)客戶的實(shí)際中間值錯(cuò)誤。當(dāng)正如所愿,RBF 被當(dāng)作一個(gè)二元分類器時(shí),事實(shí)上存在一個(gè)相對(duì)來(lái)說(shuō)比較大的RMS 錯(cuò)誤。如果每個(gè)明顯的客戶組中只有一個(gè)基本函數(shù)(如這個(gè)示例中出現(xiàn)的一樣)域的概率將依據(jù)其與調(diào)整中心距離而變化。,則客戶歸屬于
34、該區(qū)因?yàn)槟繕?biāo)變量的實(shí)際值只能為“ 1”或“ 0”,所以每個(gè)預(yù)測(cè)總是存在一個(gè)錯(cuò)誤。在此情況下,基本函數(shù)之間很少有重疊的現(xiàn)象,展示在每個(gè)區(qū)域錯(cuò)誤分布將反映調(diào)整中心附近的客戶分布(每行的第二個(gè)柱狀圖) 。當(dāng)目標(biāo)類別和具有類似客戶數(shù)目的非目標(biāo)類別之間的分布存在一個(gè)重疊, 預(yù)測(cè)的概率可以預(yù)期為 0.5。在此,因?yàn)槟繕?biāo)變量是 “ 1”或“0”,我們可能一般預(yù)期 RMS 錯(cuò)誤概率在 0.5 左右。我們可以使用第 126 頁(yè)節(jié)“RBF 結(jié)果( TLA 模型)”中的客戶數(shù)據(jù)示例來(lái)看這是如何得出的。其它柱狀圖展示在區(qū)域里的客戶變量分布,我們可以使用這些來(lái)描述家庭購(gòu)物者(頂端兩個(gè)區(qū)域)與非家庭購(gòu)物者,在本例中是一般
35、購(gòu)物者(底端兩個(gè)區(qū)域) ,之間的不同特征。該類型效果直觀圖因而將幫助您理解不同區(qū)域客戶的特征。如果該組客戶也被分割開(kāi),則相對(duì)來(lái)說(shuō)理解如何作出分類決定會(huì)容易一些, 因?yàn)榭蛻魵w屬于該區(qū)域的概率取決于該客戶與區(qū)域中調(diào)整中心的距離。然而,正如我們上面討論過(guò)的一樣,如果不同的客戶組相互之間很接近或者相互重疊,則客戶處在類別“ 1”或類別“ 0”的概率是不同區(qū)域的加權(quán)之和。區(qū)域顯現(xiàn)出的圖象則會(huì)變得更難解釋。另一個(gè)可供選擇的表示法是如圖58 所示的分位點(diǎn)圖。在該圖示中,客戶根據(jù)對(duì)客戶歸屬于類別“ 1”概率估計(jì)基礎(chǔ)上的已預(yù)測(cè)值進(jìn)行排序。圖 58 RBF 分位點(diǎn)效果圖在此,首行展示了歸屬于類別“ 1”概率最高(
36、 98 100)的 2客戶特征,隨后一行展示的是概率在 90 98范圍的客戶特征, 以后依次類推。 該類型直觀圖展示了分類決定的質(zhì)量和每個(gè)分位點(diǎn)的客戶特征,但沒(méi)能解釋分類決定是如何作出的。因?yàn)?RBF 技術(shù)相對(duì)不拘泥于在哪個(gè)區(qū)域里構(gòu)建,所以一般來(lái)說(shuō),其將生成一個(gè)比決策樹(shù)分類器更好的結(jié)果,特別是在不同客戶類別之間特征非常相似的情況下。這種權(quán)衡再次介于精確性與您解釋分類決定理由的能力之間。使用分類模型制定決策分類模型可決定概率,該概率是客戶屬于可能被放置其中的每種可能類別。如何將客戶分配到哪個(gè)類別通常會(huì)成為這樣一個(gè)問(wèn)題:用最高的概率選擇類別(通常用術(shù)語(yǔ)獲得類別),并聲明客戶屬于該類別。然而,可能會(huì)
37、存在某些情況,該類別的概率不夠高而無(wú)法作出決策,在此情況下您必須贊同一個(gè)“未知”類別。在獲得多重類別的地方,您可了解獲得類別的最低概率必須高于1 除以類別數(shù)目得到的值。同樣,在分類時(shí)存在錯(cuò)誤分類的風(fēng)險(xiǎn),特別是在您使用錯(cuò)誤加權(quán)對(duì)風(fēng)險(xiǎn)進(jìn)行估計(jì)時(shí),尤為重要的是定義一個(gè)最低閾值去與風(fēng)險(xiǎn)概率相減。這個(gè)觀點(diǎn)在圖5 9 中得以闡明。圖 59 分類決策和未知類別使用決策樹(shù)分類器時(shí),認(rèn)識(shí)到總是超過(guò)最低閾值是很重要的,但如果確定風(fēng)險(xiǎn)閾值,則可能將在風(fēng)險(xiǎn)閾值之下取得分類可信度。您還應(yīng)注意分類規(guī)則是自始至終的,因此當(dāng)執(zhí)行分類時(shí)很可能取得一個(gè)數(shù)據(jù)記錄很高的分類概率。該數(shù)據(jù)記錄的變量(正用于執(zhí)行該分類的變量)并不在訓(xùn)練組
38、的范圍之內(nèi)。因此您應(yīng)確定由分類器生成的數(shù)據(jù)在范圍之內(nèi)。這種情況不會(huì)發(fā)生在RBF 分類器上,此時(shí)數(shù)據(jù)記錄遠(yuǎn)離調(diào)整中心,分類概率趨向于零,而在這些情況下很可能獲得一個(gè)低于最低閾值的概率。因?yàn)楹茈y用RBF 分類器決定哪種特征用于執(zhí)行分類,但并不總是可能檢查所用數(shù)據(jù)是否處于范圍之內(nèi)。運(yùn)用最低閾值能在某種程度上減少一些對(duì)這些檢查的要求。5.6解釋結(jié)果使用 CLA 和 TLA 數(shù)據(jù)模型時(shí),不同的分類技術(shù)可以被用于構(gòu)建示例數(shù)據(jù)集分類模型。這部分描述決策樹(shù)和RBF 分類模型的執(zhí)行及如何解釋其結(jié)果。本部分是通用數(shù)據(jù)挖掘方法的第六階段。決策樹(shù)分類器(使用CLA 數(shù)據(jù)模型)您可使用下列方法構(gòu)建基于CLA 數(shù)據(jù)模型的
39、分類模型:將在產(chǎn)品組層上聚集的客戶測(cè)量的 NRS 作為模型的輸入變量;將業(yè)務(wù)細(xì)分名作為模型的目標(biāo)變量。使用示例數(shù)據(jù)集最后產(chǎn)生的決策樹(shù)如圖510 所示:圖 510 CLA數(shù)據(jù)模型的決策樹(shù)該決策樹(shù)展示了通過(guò)使用CLA 數(shù)據(jù)模型的聚集NRS,可以幾乎不出錯(cuò)誤的將客戶劃分為一般購(gòu)物者,家庭購(gòu)物者和業(yè)余購(gòu)物者等正確的業(yè)務(wù)細(xì)分,只在業(yè)余酒類和富足的購(gòu)物者類別之間出現(xiàn)一些錯(cuò)誤。針對(duì)訓(xùn)練數(shù)據(jù)集和檢驗(yàn)數(shù)據(jù)集而產(chǎn)生的實(shí)際錯(cuò)誤的統(tǒng)計(jì)概要請(qǐng)參見(jiàn)圖511 與圖 5 12。圖 511 CLA數(shù)據(jù)模型訓(xùn)練集的模糊矩陣圖 512 CLA數(shù)據(jù)模型測(cè)試集的模糊矩陣以上展示的兩個(gè)圖示用術(shù)語(yǔ)表達(dá)稱為“模糊矩陣”。其均展示了目標(biāo)類別分
40、類的錯(cuò)誤數(shù)目。在訓(xùn)練集的例子中,總錯(cuò)誤率是4.8,而在測(cè)試集中只有6.4的極小增長(zhǎng)。這樣良好的結(jié)果并不令人吃驚,因?yàn)閺那耙徽轮形覀冎溃畛醴峙涞饺杭械目蛻羰腔贜RS 的評(píng)估。使用決策樹(shù)分類器上的規(guī)則生成功能,我們可以檢查特定的分類決定是如何制定的。圖5 13 對(duì)該示例進(jìn)行了展示。圖 513分類規(guī)則示例用于執(zhí)行初始分類的業(yè)務(wù)規(guī)則比展示在圖513 的規(guī)則更具定性。 比如相關(guān)的業(yè)務(wù)規(guī)則是:一般購(gòu)物者:其特點(diǎn)為主要支出花銷在食物和家用品上,而在酒類和嬰兒產(chǎn)品及業(yè)余愛(ài)好上的支出相對(duì)較少。決策樹(shù)規(guī)則可確認(rèn)該定義,但在此量化了術(shù)語(yǔ)“相對(duì)較少”的對(duì)于三個(gè)產(chǎn)品組中每一個(gè)的實(shí)際含義。 因此該技術(shù)已經(jīng)發(fā)現(xiàn)了一
41、種執(zhí)行分類的定量方法, 并提供了將新的 “忠誠(chéng)”卡客戶準(zhǔn)確分類到業(yè)務(wù)細(xì)分的方法。決策樹(shù)分類器(使用TLA 模型)當(dāng)以上結(jié)果確認(rèn)了分類技術(shù)將聚集客戶數(shù)據(jù)很好地進(jìn)行了分類, 此時(shí)這些客戶必須是忠誠(chéng)卡客戶,并且可能只代表全部客戶基礎(chǔ)的很小比例。這個(gè)例子的主要目的是解決能否使用來(lái)自單個(gè)事務(wù)的購(gòu)買(mǎi)記錄數(shù)據(jù)將您的客戶分類到同樣業(yè)務(wù)細(xì)分中的問(wèn)題。正如我們?cè)谇耙徽轮幸呀?jīng)探討的,如果一個(gè)客戶在單個(gè)事務(wù)中購(gòu)買(mǎi)大量物品,則聚集的 NRS 和單個(gè)事務(wù) NRS 可能相似,并且將會(huì)預(yù)期一個(gè)良好的分類。然而,當(dāng)只購(gòu)買(mǎi)少量物品時(shí),將會(huì)出現(xiàn)什么結(jié)果則不太明顯。為解決該問(wèn)題,您可以使用在子生產(chǎn)小組層上聚集的TLA 模型中的NRS
42、 ,以支持單個(gè)事務(wù),并將該數(shù)據(jù)用于客戶的訓(xùn)練組,構(gòu)建決策樹(shù)模型。用示例數(shù)據(jù)集所得的決策樹(shù)展示于圖 5 14 中。圖 514 TLA數(shù)據(jù)模型決策樹(shù)雖然該決策樹(shù)此時(shí)非常復(fù)雜,反映了單個(gè)事務(wù)NRS 的更大可變性,但通過(guò)鑒定決策樹(shù)的質(zhì)量,您能注意到其可得到極好的平衡,易于理解,而且其分解顯得非常高明。該決策樹(shù)展示了針對(duì)一些客戶類別和這些客戶類別里的子集,可以很好地執(zhí)行分類(例如,一些家庭購(gòu)物者和富裕購(gòu)物者)。每個(gè)葉節(jié)點(diǎn)可以使用一項(xiàng)規(guī)則予以描述,該規(guī)則可鑒別節(jié)點(diǎn)處客戶的特征。因此,具有這些特征的客戶將以極高的概率進(jìn)行分類。在一些葉節(jié)點(diǎn)處仍然混雜著來(lái)自不同類別的客戶,對(duì)具有這些特征的客戶進(jìn)行分類是很困難的
43、,這將以較低的概率反映出來(lái)。圖 515 與圖 5 16 顯示了相關(guān)的測(cè)試與訓(xùn)練集的模糊矩陣。圖 515 TLA數(shù)據(jù)模型訓(xùn)練集的模糊矩陣圖 516 TLA數(shù)據(jù)模型測(cè)試集模糊矩陣在此,訓(xùn)練集中全部數(shù)據(jù)的錯(cuò)誤率為 18.9,在測(cè)試集數(shù)據(jù)中為 21;雖然如決策樹(shù)本身顯示的那樣,在分類中有一些“葉子” ,此處執(zhí)行的分類比在其它葉子處要好的多。正如所料,該分類不如對(duì) CLA 數(shù)據(jù)執(zhí)行的好,但正如我們將要看到的,對(duì)于某些類型的應(yīng)用,這種表現(xiàn)仍然是可以接受的標(biāo)準(zhǔn)。下一個(gè)問(wèn)題是, 您如何評(píng)估對(duì)個(gè)體業(yè)務(wù)細(xì)分進(jìn)行的分類有多大好處?在此所用的一個(gè)重要的技術(shù)稱為利潤(rùn)圖,這將在下一章節(jié)進(jìn)一步描述。測(cè)量分類執(zhí)行狀況(利潤(rùn)圖
44、)利潤(rùn)圖蘊(yùn)涵的概念是指測(cè)試或訓(xùn)練數(shù)據(jù)集中的客戶順序或客戶級(jí)別,這種數(shù)據(jù)集是基于他們所屬目標(biāo)類別的可信度。例如,假設(shè)我們希望針對(duì)一般購(gòu)物者類別通過(guò)這種方式將我們的客戶進(jìn)行分級(jí),一個(gè)可能的分級(jí)方法是:簡(jiǎn)化順序猜測(cè),并根據(jù)猜測(cè)將客戶排列到名單中。為了測(cè)量分類執(zhí)行的效果,我們可以從名單頂端開(kāi)始,查看客戶所屬的實(shí)際類別。如果我們猜測(cè)的正確,則給自己計(jì)分為“1”,反之為 “0”。當(dāng)我們的等級(jí)下移時(shí),應(yīng)將所有計(jì)分相加,直到達(dá)到名單的底端。如果我們將針對(duì)客戶等級(jí)的得分用圖形表示出來(lái),則可得如圖517 所示的曲線。圖 517一般購(gòu)物者類別利潤(rùn)圖曲線 (a) 顯示了在平均意義上, 我們能夠正確鑒別出一般購(gòu)物者與名
45、單上的客戶數(shù)量成正比。要正確鑒定所有一般購(gòu)物者,我們必須將所有客戶分類成一般購(gòu)物者,并接受該結(jié)果:我們將由于 50%的客戶進(jìn)行了錯(cuò)誤分類而終止。通過(guò)使用實(shí)際客戶細(xì)分,然后先用一般購(gòu)物者對(duì)其進(jìn)行分級(jí),并在我們的名單次序下移時(shí)重復(fù)計(jì)分練習(xí),可以獲得另一種可選的分級(jí)方法。在此情況下,我們可以得到如圖517 所示的曲線 (b) 。這是我們能獲得的最好結(jié)果,因?yàn)檫@是基于完備的客戶知識(shí)基礎(chǔ)之上的。如果我們使用分類模型為客戶分級(jí),則在決策樹(shù)葉節(jié)點(diǎn)上的購(gòu)物者類型決定客戶歸屬于一般購(gòu)物者的可信度,然后可以得到與圖5 17 中曲線 (c)相似的曲線。 如果我們所得的葉節(jié)點(diǎn)上只有一般購(gòu)物者類型,則可信度為100,這
46、些客戶將被分級(jí)到名單中的最高級(jí),這樣,最初的曲線(c)與最優(yōu)的曲線(b)相合。當(dāng)我們移動(dòng)到包含混合一般購(gòu)物者和其它類型購(gòu)物者的葉節(jié)點(diǎn)處時(shí),我們的可信度降低,并且開(kāi)始在分類中介入錯(cuò)誤;因而正如所示的那樣,我們位于最優(yōu)曲線的下面。如果分類器很完美,則曲線(c)與曲線 (b) 重合為一條線。 如果分類器生成隨機(jī)決策, 則其將與曲線 (a) 相匹配, 如果將分類器錯(cuò)誤地偏置, 其將位于曲線 (b) 的下方。 從隨機(jī)猜測(cè)中測(cè)量我們分類器的執(zhí)行效果如何,可用術(shù)語(yǔ)稱之為“增益”或“利潤(rùn)”,因此圖表的利潤(rùn)或增益圖正如圖517 所示。通過(guò)使用 TLA 決策樹(shù)分類器得出的結(jié)果,五個(gè)購(gòu)物者類型中的每個(gè)均可產(chǎn)生圖51
47、8所示的一系列利潤(rùn)圖。圖 518使用 TLA 模型的五種購(gòu)物者類型中每種類型的利潤(rùn)圖因?yàn)槲覀円咽褂?TLA 數(shù)據(jù)模型來(lái)構(gòu)建該分類器,在此情況下,可通過(guò)將事務(wù)而非客戶進(jìn)行分級(jí)獲得利潤(rùn)圖。該結(jié)果顯示出分類能以對(duì)所有類別的高度可信度進(jìn)行,并且在業(yè)余購(gòu)物者與業(yè)余酒類購(gòu)物者的示例中,如果接近最優(yōu),則分類器模型將進(jìn)行分類。我們使用利潤(rùn)圖來(lái)比較不同分類模型性能的方法在第規(guī)則的計(jì)分” 有所描述, 而用于目標(biāo)客戶的方法則在第中有所描述。158 頁(yè)節(jié)的“生成包括組織167 頁(yè) 6.7 節(jié)的“應(yīng)用挖掘結(jié)果”結(jié)果( TLA 模型)使用RBF技術(shù),您也可以同構(gòu)建決策樹(shù)分類模型中所用到的一樣,運(yùn)用CLA和TLA兩個(gè)數(shù)據(jù)模
48、型來(lái)構(gòu)建其分類模型,但在此須包括每個(gè)購(gòu)物者類型的額外二元變量。在此例中,我們已用到TLA模型和用以生成五個(gè)不同購(gòu)物者類型RBF 分類者的示范數(shù)據(jù)集。由此而得出的模型在第111 頁(yè)節(jié)的“徑基函數(shù)(RBF)”中有所描述,圖519 顯示了一般購(gòu)物者類型分類的結(jié)果。圖 519 一般購(gòu)物者分類器 RBF 示意圖圖 5 19 展了 8 個(gè)不同 RBF 區(qū)域。區(qū)域的數(shù)量取決于指定用于定義區(qū)域的最小客戶事務(wù)數(shù)或指定所需的區(qū)域數(shù)。在該示例中,研究不同數(shù)量的區(qū)域預(yù)測(cè)的穩(wěn)定性后,我們選擇 8 個(gè)區(qū)域。 結(jié)果顯示, 由于使用了單個(gè)事務(wù)的 NRS,頂部三個(gè)區(qū)域仍主要是一般購(gòu)物者,底部三個(gè)區(qū)域主要是非一般購(gòu)物者。中間兩個(gè)
49、區(qū)域不確定。注意,在本例中最不確定的地方, RMS 的誤差是 0.46,如果我們的預(yù)測(cè)值為 5.0,則這一誤差正是我們希望看到的。在該例中,區(qū)域本身給出了很好的分類指示,這在圖5 20所顯示的結(jié)果“分位點(diǎn)”圖示中得以確認(rèn)。圖 520一般購(gòu)物者 RBF 結(jié)果分位點(diǎn)圖示正如我們?cè)诘?111 頁(yè) 5.5.3 中的“徑向基函數(shù) (RBF) ”中所闡述的,分位點(diǎn)由每條線段右手邊百分點(diǎn)排列確定。每個(gè)分位點(diǎn)中的客戶取決于目標(biāo)變量的預(yù)測(cè)值,目標(biāo)變量實(shí)際值的平均值則顯示在右手邊上。 正如我們所期望的, 中間分位點(diǎn)的大RMS 誤差約為 0.5。此外,在這些分位點(diǎn)中的預(yù)測(cè)概率也約為0.5,并且在該分位點(diǎn)中存在著混雜
50、的購(gòu)物者類型(在每行的第一個(gè)柱狀圖中可以看到)。類似的, 上部三個(gè)分位點(diǎn) (75% - 100%)的平均 RMS 誤差為 0.25,這幾乎完全是由于預(yù)測(cè)概率在0.75 左右,因?yàn)檫@些分位點(diǎn)中的大部分客戶都是一般購(gòu)物者。相似的推論得出了下部三個(gè)分位點(diǎn)(0% - 25%) 的解釋,此處的預(yù)測(cè)概率約為 0.23,平均 RMS 誤差約為 0.27,并且這些區(qū)域主要由非一般購(gòu)物者組成。因此,我們期望模型的預(yù)測(cè)性能良好,并可通過(guò)使用利潤(rùn)圖加以確認(rèn)。對(duì)每個(gè)購(gòu)物者類型執(zhí)行RBF 分類,并對(duì)其使用利潤(rùn)圖比較RBF 結(jié)果。該過(guò)程顯示于圖5 21。圖 521使用 TLA 模型的 RBF 分類器利潤(rùn)圖此外,該結(jié)果還顯
51、示了水平相當(dāng)高的分類性能,特別是對(duì)業(yè)余購(gòu)物者和業(yè)余酒類購(gòu)物者的分類。決策樹(shù)和 RBF 結(jié)果的比較決策樹(shù)和 RBF 結(jié)果通過(guò)使用利潤(rùn)圖可以很容易對(duì)其進(jìn)行比較。不同類型購(gòu)物者的一系列比較顯示在圖5 22 中。圖 522 TLA數(shù)據(jù)模型的決策樹(shù)與 RBF 分類器的比較在一般購(gòu)物者類別的示例中, RBF 和決策樹(shù)的結(jié)果非常相似,但在富裕購(gòu)物者類別中,決策樹(shù)的最初表現(xiàn)要比 RBF 好,但超過(guò) 800 事務(wù)點(diǎn)時(shí), RBF 的結(jié)果更好。對(duì)于其它類別, RBF 總是優(yōu)于決策樹(shù)分類器。這種結(jié)果處于意料之中,因?yàn)?RBF 分類器在每次分離時(shí),不必限制使用單個(gè)變量便可分割變量空間,總之,這種額外的靈活性產(chǎn)生了更好的
52、分類效果??梢允褂枚喾N方法將兩種分類結(jié)果結(jié)合起來(lái),以生成一個(gè)整體結(jié)果。如果您正處于顯著上升態(tài)勢(shì),您可通過(guò)最高的可信度獲取分類器結(jié)果對(duì)每個(gè)客戶進(jìn)行分類。如果您對(duì)目前的態(tài)勢(shì)不樂(lè)觀,則可反其道而行之??傊?,如果是您特別謹(jǐn)慎的話,可以對(duì)兩個(gè)結(jié)果所預(yù)測(cè)地概率取簡(jiǎn)單的平均值。5.7應(yīng)用挖掘結(jié)果將分類模型應(yīng)用到您的零售業(yè)務(wù)中有許多種可能的方法。本章敘述 通用挖掘方法第七階段,也是最后一個(gè)階段,如果要充分發(fā)揮執(zhí)行數(shù)據(jù)挖掘的全部?jī)r(jià)值,這也是關(guān)鍵步驟,需要仔細(xì)計(jì)劃和執(zhí)行。在這一節(jié)中,我們將探討兩種可能的方法,通過(guò)這兩種方法,可以使用從我們的示例數(shù)據(jù)中獲得的分類結(jié)果。這不僅是可能性,而且它們確實(shí)能指明可使用的不同方法以及您需要考慮的各種事情。在第一個(gè)示例中,我們分析了如何將分類結(jié)果用作有指導(dǎo)作用的營(yíng)銷活動(dòng)的一部分。在第二個(gè)例子中,我們探討了如何將分類結(jié)果用于銷售點(diǎn),或售貨亭,或者其它客戶常去的地方。直接郵件與針對(duì)性的營(yíng)銷活動(dòng)直接郵件或針對(duì)性的營(yíng)銷活動(dòng)可以假定您能夠與您的客戶通過(guò)某種方式直接聯(lián)系。您想將重點(diǎn)放在關(guān)于我們一直討論的市場(chǎng)細(xì)分類型的活動(dòng)上,則您必須具備某種方法,將客戶與用于定義該細(xì)分的事務(wù)數(shù)據(jù)相鏈接。如果該鏈接允許您聚集事務(wù)記錄,您可以用 CLA 數(shù)據(jù)模型構(gòu)建
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2030年中國(guó)單絲涂油器數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 2025至2030年中國(guó)不銹鋼保溫箱數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 2025年軍隊(duì)文職人員招聘之軍隊(duì)文職管理學(xué)練習(xí)題(二)及答案
- 護(hù)理實(shí)習(xí)生筆試題及答案
- 商標(biāo)法務(wù)面試題及答案
- 遺產(chǎn)繼承過(guò)程管理合同(2篇)
- 2023年四川公務(wù)員《行政職業(yè)能力測(cè)驗(yàn)》試題真題及答案
- 小王子遇見(jiàn)各種星球的感悟
- 設(shè)備采購(gòu)說(shuō)明文書(shū)
- 2025年工程塑料及合金合作協(xié)議書(shū)
- 機(jī)電一體化??飘厴I(yè)論文范文
- 2025至2030年中國(guó)煙用接裝紙數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 2024年呼和浩特職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性測(cè)試歷年參考題庫(kù)含答案解析
- 急性心房顫動(dòng)中國(guó)急診管理指南2024
- 醫(yī)學(xué)實(shí)驗(yàn)室風(fēng)險(xiǎn)評(píng)估報(bào)告-臨床實(shí)驗(yàn)室風(fēng)險(xiǎn)評(píng)估-可復(fù)制
- 2022年教資筆試科目三高中數(shù)學(xué)講義
- 《《中央企業(yè)合規(guī)管理辦法》解讀》課件
- 2021醫(yī)師定期考核題庫(kù)(人文2000題)
- 2025年中考語(yǔ)文專題復(fù)習(xí):寫(xiě)作技巧 課件
- (2024)云南省公務(wù)員考試《行測(cè)》真題及答案解析
- 60歲以上務(wù)工免責(zé)協(xié)議書(shū)
評(píng)論
0/150
提交評(píng)論