商務(wù)智能應(yīng)用-分析型CRM課件_第1頁(yè)
商務(wù)智能應(yīng)用-分析型CRM課件_第2頁(yè)
商務(wù)智能應(yīng)用-分析型CRM課件_第3頁(yè)
商務(wù)智能應(yīng)用-分析型CRM課件_第4頁(yè)
商務(wù)智能應(yīng)用-分析型CRM課件_第5頁(yè)
已閱讀5頁(yè),還剩133頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第2章商務(wù)智能應(yīng)用

--分析型CRM第2章商務(wù)智能應(yīng)用

--分析1企業(yè)在擴(kuò)大市場(chǎng)、提高效率和保持客戶(hù)的原始商業(yè)驅(qū)動(dòng)力不變的情況下,如何繼續(xù)保持競(jìng)爭(zhēng)的優(yōu)勢(shì)。有遠(yuǎn)見(jiàn)的公司都會(huì)意識(shí)到,只有將自己建成能夠?qū)蛻?hù)作出迅速反應(yīng)的公司才能獲得諸多收獲,這些收獲包括收入、新客戶(hù)、客戶(hù)滿(mǎn)意度、客戶(hù)回頭率以及公司效益的增加,從而使競(jìng)爭(zhēng)力大為提升。企業(yè)在擴(kuò)大市場(chǎng)、提高效率和保持客戶(hù)的原始商業(yè)驅(qū)動(dòng)力不變的情況2本章內(nèi)容:CRM概述CRM與商務(wù)智能客戶(hù)行為分析客戶(hù)分類(lèi)案例分析本章內(nèi)容:CRM概述3CRM概述建立客戶(hù)關(guān)系管理(CRM)系統(tǒng)的目的是賦予企業(yè)更完善的與客戶(hù)交流的能力,即從潛在客戶(hù)識(shí)別、生成有需求的客戶(hù),到銷(xiāo)售完結(jié)以及不斷進(jìn)行的服務(wù)和支持,提供全過(guò)程的自動(dòng)化處理和更好的協(xié)調(diào)與合作,以提高客戶(hù)滿(mǎn)意度和客戶(hù)忠實(shí)度,增加市場(chǎng)機(jī)會(huì)和銷(xiāo)售利潤(rùn),為企業(yè)發(fā)展服務(wù)。CRM概述建立客戶(hù)關(guān)系管理(CRM)系統(tǒng)的目的是賦予企業(yè)更完4操作型CRM的設(shè)計(jì)目的是為了讓業(yè)務(wù)人員在日常的工作中能夠共享客戶(hù)資源,減少信息流動(dòng)滯留點(diǎn)。通過(guò)市場(chǎng)營(yíng)銷(xiāo)、銷(xiāo)售和服務(wù)等業(yè)務(wù)流程的管理,將客戶(hù)的各種信息收集并整合在一起,再將這些運(yùn)營(yíng)數(shù)據(jù)和外來(lái)的市場(chǎng)數(shù)據(jù)經(jīng)過(guò)整合和變換,裝載進(jìn)DW。協(xié)作型CRM就是能夠讓企業(yè)客戶(hù)服務(wù)人員同客戶(hù)一起完成某項(xiàng)活動(dòng)。協(xié)作型應(yīng)用目前主要由呼叫中心、客戶(hù)多渠道聯(lián)絡(luò)中心、幫助臺(tái)以及自助服務(wù)幫助導(dǎo)航,向客戶(hù)解釋特定內(nèi)容的網(wǎng)頁(yè)等。

操作型CRM的設(shè)計(jì)目的是為了讓業(yè)務(wù)人員在日常的工作中能夠共享5分析型CRM事實(shí)上是以改善業(yè)務(wù)管理為目的的分析活動(dòng),主要是分析現(xiàn)有的歷史數(shù)據(jù)或者操作型CRM中獲得的各種數(shù)據(jù),進(jìn)而為企業(yè)的經(jīng)營(yíng)、決策提供可靠的量化的依據(jù)。在一家銀行的信用卡客戶(hù)中,可能有80%的人幾乎不用信用卡交易,有10%的客戶(hù)偶爾用卡交易,剩下10%的客戶(hù)會(huì)頻繁用卡交易,而這一部分客戶(hù)可能為銀行信用卡部帶來(lái)80%的收入,所以這10%自然是最有價(jià)值的客戶(hù)。利用分析型CRM系統(tǒng)對(duì)客戶(hù)進(jìn)行細(xì)分,就可以針對(duì)有價(jià)值的客戶(hù)開(kāi)展特別的促銷(xiāo)活動(dòng)、提供更個(gè)性化的服務(wù),這無(wú)疑將使企業(yè)以最小的投入獲得最大的回報(bào)。分析型CRM事實(shí)上是以改善業(yè)務(wù)管理為目的的分析活動(dòng),主要是分6商務(wù)智能與CRM如果說(shuō)操作型與協(xié)作型CRM是企業(yè)的臂膀,那么分析型CRM就是企業(yè)的大腦。數(shù)據(jù)整合――提供客戶(hù)全景視圖利用數(shù)據(jù)倉(cāng)庫(kù)技術(shù),可以將散落在各個(gè)業(yè)務(wù)數(shù)據(jù)庫(kù)中的客戶(hù)信息經(jīng)過(guò)ETL(抽取、轉(zhuǎn)換、加載)過(guò)程,清洗、轉(zhuǎn)化、連接、概括、集成為統(tǒng)一的分析數(shù)據(jù);同時(shí),數(shù)據(jù)倉(cāng)庫(kù)強(qiáng)大的數(shù)據(jù)存儲(chǔ)及管理能力可以對(duì)海量客戶(hù)數(shù)據(jù)有效的存儲(chǔ)、索引、歸類(lèi)。商務(wù)智能與CRM如果說(shuō)操作型與協(xié)作型CRM是企業(yè)的臂7信息提交過(guò)程企業(yè)信息系統(tǒng)最終的關(guān)注點(diǎn)在于信息的傳遞,實(shí)現(xiàn)從數(shù)據(jù)到信息的深層次轉(zhuǎn)化。(1)OLAP的多維立方體模型為用戶(hù)提供多維的分析視圖,通過(guò)鉆取、旋轉(zhuǎn)、切片(塊)等操作,使得用戶(hù)可以隨心所欲地對(duì)客戶(hù)數(shù)據(jù)進(jìn)行多維分析,獲取關(guān)于客戶(hù)的細(xì)分市場(chǎng)、購(gòu)買(mǎi)模式、盈利能力等重要信息。(2)通過(guò)簡(jiǎn)單易用的工具使得終端用戶(hù)可以自由的按照自己的意圖來(lái)操縱數(shù)據(jù),從而為自己的業(yè)務(wù)問(wèn)題提供信息支持。(3)利用企業(yè)信息門(mén)戶(hù)策略可以根據(jù)不同的用戶(hù)定制信息界面,從而保證信息在適當(dāng)?shù)臅r(shí)間、通過(guò)適當(dāng)?shù)氖侄巍鬟f到適當(dāng)?shù)娜耸种?。信息提交過(guò)程8客戶(hù)知識(shí)的深入挖掘(1)根據(jù)從客戶(hù)知識(shí)發(fā)掘的信息,計(jì)算客戶(hù)生命周期價(jià)值,以此作為客戶(hù)分類(lèi)的依據(jù)。針對(duì)不同類(lèi)別的客戶(hù)采取不同的措施;(2)預(yù)測(cè)客戶(hù)將來(lái)一段時(shí)期的需求;(3)預(yù)測(cè)客戶(hù)流失的可能性,或者采取及時(shí)的補(bǔ)救措施,或者做出減少不必要的投資等決策,最大限度地保留客戶(hù)和降低企業(yè)的損失;(4)測(cè)評(píng)客戶(hù)忠誠(chéng)度,識(shí)別忠誠(chéng)客戶(hù)??蛻?hù)知識(shí)的展現(xiàn)通過(guò)商務(wù)智能技術(shù)所獲得的客戶(hù)知識(shí)(特征、忠誠(chéng)度、盈利能力、行為模式)必須通過(guò)操作和協(xié)作型CRM系統(tǒng)才能最終實(shí)現(xiàn)為客戶(hù)提供更好服務(wù)的目標(biāo),從而形成業(yè)務(wù)行動(dòng)的閉環(huán),真正發(fā)揮CRM的各層次的綜合效應(yīng)。客戶(hù)知識(shí)的深入挖掘9客戶(hù)智能系統(tǒng)結(jié)構(gòu)圖客戶(hù)智能系統(tǒng)結(jié)構(gòu)圖10構(gòu)建一個(gè)完整的智能CRM系統(tǒng)的幾個(gè)步驟:1.整合客戶(hù)信息資源對(duì)于那些以前沒(méi)有應(yīng)用過(guò)任何CRM系統(tǒng)的企業(yè)來(lái)說(shuō),首先需要把孤立的業(yè)務(wù)系統(tǒng)整合到一個(gè)統(tǒng)一的平臺(tái)之下,解決“信息孤島”。而對(duì)于己有CRM系統(tǒng)的企業(yè),則需要建立一個(gè)企業(yè)信息門(mén)戶(hù),使客戶(hù)和企業(yè)能在一個(gè)統(tǒng)一的界面下進(jìn)行數(shù)據(jù)和信息交換,從而保證客戶(hù)數(shù)據(jù)的一致性。2.建立客戶(hù)數(shù)據(jù)倉(cāng)庫(kù)規(guī)劃數(shù)據(jù)倉(cāng)庫(kù),以企業(yè)的業(yè)務(wù)模型為基礎(chǔ),確定需要建立能夠描述主要業(yè)務(wù)主題的數(shù)據(jù)模型;設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù),根據(jù)邏輯模型和性能要求進(jìn)行物理模型的設(shè)計(jì),制定數(shù)據(jù)存儲(chǔ)策略以及各種商業(yè)規(guī)則等;

構(gòu)建一個(gè)完整的智能CRM系統(tǒng)的幾個(gè)步驟:11(3)構(gòu)造數(shù)據(jù)分析模型根據(jù)企業(yè)需要分析的對(duì)象和目標(biāo),構(gòu)造有針對(duì)性的分析模型。針對(duì)客戶(hù)對(duì)企業(yè)的貢獻(xiàn)差異,構(gòu)造客戶(hù)盈利能力分析模型;針對(duì)客戶(hù)對(duì)企業(yè)信用程度的不同,構(gòu)造客戶(hù)信用分析模型;根據(jù)客戶(hù)對(duì)產(chǎn)品功能的需求不同,構(gòu)造客戶(hù)分類(lèi)分析模型;根據(jù)客戶(hù)的獲得、流失情況,構(gòu)造客戶(hù)獲取流失分析模型等等。(4)建立客戶(hù)知識(shí)管理系統(tǒng)建立一個(gè)動(dòng)態(tài)的客戶(hù)知識(shí)庫(kù)以及制定客戶(hù)知識(shí)的分發(fā)規(guī)則和保存機(jī)制。與客戶(hù)數(shù)據(jù)倉(cāng)庫(kù)一樣,客戶(hù)知識(shí)管理系統(tǒng)也不是一開(kāi)始就能建立好的,它需要在使用的過(guò)程中進(jìn)行不斷地調(diào)整和完善,是一個(gè)動(dòng)態(tài)完成的系統(tǒng)。(3)構(gòu)造數(shù)據(jù)分析模型12客戶(hù)行為分析(獲取新客戶(hù)、客戶(hù)流失與保持分析、客戶(hù)盈利能力分析)獲取新客戶(hù)獲取新客戶(hù)就是“說(shuō)服”原本不是你的客戶(hù)的消費(fèi)者成為你的客戶(hù)。這些消費(fèi)者可能是對(duì)你的產(chǎn)品/服務(wù)不了解的顧客,也可能是你的產(chǎn)品/服務(wù)的潛在消費(fèi)者,還可能是你競(jìng)爭(zhēng)對(duì)手的客戶(hù)。針對(duì)這些不同的消費(fèi)者需要采用不同的策略才能有效的獲取到新客戶(hù)。另外,在獲取新客戶(hù)之前,不得不確定哪些消費(fèi)者是值得努力的,預(yù)測(cè)不同客戶(hù)對(duì)營(yíng)銷(xiāo)努力的反映情況也是提高獲取新客戶(hù)成功率的一個(gè)前提。還有,客戶(hù)分優(yōu)劣,有些客戶(hù)獲得時(shí)付出的努力要比他們成為公司客戶(hù)后貢獻(xiàn)的利潤(rùn)低,這樣的客戶(hù)還是不獲得為好??蛻?hù)行為分析(獲取新客戶(hù)、客戶(hù)流失與保持分析、客戶(hù)盈利能力分13因此,企業(yè)要想通過(guò)CRM有效獲得新客戶(hù),必須明確不同客戶(hù)的特性。目標(biāo)市場(chǎng)在哪里?哪些客戶(hù)是企業(yè)的潛在客戶(hù)?哪些潛在客戶(hù)是優(yōu)質(zhì)客戶(hù)?客戶(hù)獲取的難易程度如何?常用的數(shù)據(jù)挖掘技術(shù)和方法有分類(lèi)與預(yù)測(cè)、聚類(lèi)、關(guān)聯(lián)分析和異類(lèi)分析等。例如用關(guān)聯(lián)的方法,通過(guò)發(fā)現(xiàn)諸如“在購(gòu)買(mǎi)A商品后,一段時(shí)間里顧客會(huì)接著購(gòu)買(mǎi)商品B,而后購(gòu)買(mǎi)商品C”這樣的知識(shí),來(lái)形成“A-B--C”客戶(hù)行為模式。還可以對(duì)現(xiàn)有客戶(hù)特征進(jìn)行聚類(lèi)分析,建立客戶(hù)特征模型,以最有效地預(yù)測(cè)目標(biāo)市場(chǎng)和發(fā)現(xiàn)潛在客戶(hù)。

因此,企業(yè)要想通過(guò)CRM有效獲得新客戶(hù),必須明確不同客戶(hù)的特14K-近鄰分類(lèi)方法

基本思想:K-近鄰分類(lèi)是基于類(lèi)比學(xué)習(xí)的,每個(gè)樣本代表d維空間的一個(gè)點(diǎn)。當(dāng)給定一個(gè)未知樣本時(shí),K-近鄰分類(lèi)法將搜索樣本空間,找出最接近未知樣本的K個(gè)訓(xùn)練樣本,這K個(gè)訓(xùn)練樣本是未知樣本的K個(gè)“近鄰”。近鄰性一般用歐幾里德距離定義:或采用絕對(duì)值距離:缺點(diǎn):計(jì)算量大優(yōu)點(diǎn):適合各種數(shù)據(jù)類(lèi)型的數(shù)據(jù)

K-近鄰分類(lèi)方法基本思想:K-近鄰分類(lèi)是基于類(lèi)比學(xué)習(xí)的,每15利用K-近鄰方法進(jìn)行潛在客戶(hù)預(yù)測(cè)考察的客戶(hù)自身屬性:企業(yè)總資產(chǎn)值、年銷(xiāo)售收入、距電器銷(xiāo)售公司的地理距離及企業(yè)所處地域的經(jīng)濟(jì)發(fā)達(dá)程度??蛻?hù)的消費(fèi)屬性為過(guò)去一年內(nèi)對(duì)電器銷(xiāo)售公司的總購(gòu)買(mǎi)額。1.數(shù)據(jù)處理:銷(xiāo)售公司把客戶(hù)的消費(fèi)屬性分為10萬(wàn)元以下、10萬(wàn)至100萬(wàn)、100萬(wàn)500萬(wàn)、500萬(wàn)以上四個(gè)區(qū)間,分別取值1,2,3,4;把企業(yè)所處地域的經(jīng)濟(jì)發(fā)達(dá)程度根據(jù)實(shí)際情況分為貧困、欠發(fā)達(dá)、發(fā)達(dá)、極發(fā)達(dá)四檔,分別取值1,2,3,4;其余客戶(hù)屬性(企業(yè)總資產(chǎn)值、年銷(xiāo)售收入、距銷(xiāo)售公司的地理距離)也通過(guò)區(qū)間劃分完成量化及歸一化處理。表1是經(jīng)過(guò)標(biāo)準(zhǔn)化處理的老客戶(hù)數(shù)據(jù),表2是經(jīng)過(guò)標(biāo)準(zhǔn)化處理的潛在客戶(hù)數(shù)據(jù)。利用K-近鄰方法進(jìn)行潛在客戶(hù)預(yù)測(cè)考察的客戶(hù)自身屬性:企業(yè)總資16表1老客戶(hù)數(shù)據(jù)老客戶(hù)總資產(chǎn)年銷(xiāo)售收入地理距離所處發(fā)達(dá)程度年總購(gòu)買(mǎi)額11.51.61.20.4221.53.21.20.63310.80.40.2141.53.20.40.84511.60.40.4260.51.60.40.42………………………………表2潛在客戶(hù)數(shù)據(jù)潛在客戶(hù)總資產(chǎn)年銷(xiāo)售收入地理距離所處發(fā)達(dá)程度年總購(gòu)買(mǎi)額A1.51.61.20.4待預(yù)測(cè)B0.81.20.40.2待預(yù)測(cè)………………………………表1老客戶(hù)數(shù)據(jù)老客戶(hù)總資產(chǎn)年銷(xiāo)售收入地理距離所處發(fā)達(dá)程度年總172.預(yù)測(cè)為了預(yù)測(cè)客戶(hù)A對(duì)公司電器產(chǎn)品的年購(gòu)買(mǎi)額,我們只須從處理后的老客戶(hù)數(shù)據(jù)中找到K個(gè)最近鄰(這里設(shè)定K=2)。例如:A與客戶(hù)1的距離:D(A,l)=(1.5-1)+(2.4-1.6)+(1.6-1.2)+(0.4-0.4)=1.7,同理計(jì)算可得到:D(A,2)=1.9,D(A,3)=3,D(A,4)=2.9,D(A,5)=1.6,D(A,6)=2.5可以看出,A的2個(gè)最近鄰為老客戶(hù)1和5,可以預(yù)測(cè)其對(duì)公司電器產(chǎn)品的年購(gòu)買(mǎi)額將在10萬(wàn)和100萬(wàn)之間,我們還可以從處理之前的老客戶(hù)數(shù)據(jù)庫(kù)中得到客戶(hù)1和5的實(shí)際年購(gòu)買(mǎi)額,以對(duì)A的年購(gòu)買(mǎi)額進(jìn)行更精確的預(yù)計(jì),假設(shè)銷(xiāo)售公司規(guī)定年總購(gòu)買(mǎi)額在500萬(wàn)以上的是公司的重點(diǎn)客戶(hù),那么我們可以進(jìn)一步預(yù)測(cè)潛在客戶(hù)的類(lèi)別,從而可以指定精確的營(yíng)銷(xiāo)計(jì)劃,來(lái)獲取客戶(hù)。2.預(yù)測(cè)18將數(shù)據(jù)挖掘應(yīng)用于客戶(hù)的獲取活動(dòng)與傳統(tǒng)的市場(chǎng)營(yíng)銷(xiāo)策略比較其優(yōu)勢(shì)在哪里?下面我們通過(guò)一個(gè)例子進(jìn)行詳細(xì)的說(shuō)明。某大銀行A進(jìn)行直郵的市場(chǎng)營(yíng)銷(xiāo)活動(dòng)以獲取信用卡客戶(hù),向100萬(wàn)名潛在客戶(hù)提供信用卡的申請(qǐng)表。使用傳統(tǒng)的做法,A銀行向這100萬(wàn)名潛在客戶(hù)寄出信用卡申請(qǐng)表,共有6%的郵件得到申請(qǐng)回應(yīng)。得到這些潛在客戶(hù)的回應(yīng)后,需根據(jù)信用風(fēng)險(xiǎn)程度對(duì)它們的申請(qǐng)進(jìn)行篩選,毫無(wú)疑問(wèn),往往是信用差的潛在客戶(hù)更可能申請(qǐng)信用卡,所以最終篩選后的結(jié)果只有16%的回應(yīng)者是符合信用要求的,即大約占總潛在客戶(hù)的1%(6%×16%≈1%)成為最終客戶(hù)。A銀行郵寄一份申請(qǐng)表需花費(fèi)¥1的費(fèi)用,每個(gè)客戶(hù)在隨后的兩年將為銀行帶來(lái)¥125的利潤(rùn)。那么用傳統(tǒng)方法營(yíng)銷(xiāo)得到的凈回報(bào):¥250,000(¥125×10,000-¥1×1,000,000=Y250,000)將數(shù)據(jù)挖掘應(yīng)用于客戶(hù)的獲取活動(dòng)與傳統(tǒng)的市場(chǎng)營(yíng)銷(xiāo)策略比較其優(yōu)勢(shì)19數(shù)據(jù)挖掘技術(shù)的應(yīng)用首先,A銀行寄出50,000份進(jìn)行測(cè)試,并對(duì)反饋的結(jié)果進(jìn)行分析,將這些數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)應(yīng)用數(shù)據(jù)挖掘算法建立預(yù)測(cè)模型,包括潛在客戶(hù)的回應(yīng)的模型(可以用決策樹(shù)方法)和信用評(píng)分模型(可以用神經(jīng)網(wǎng)絡(luò)方法)。然后,結(jié)合這兩個(gè)模型找出哪些潛在客戶(hù)的信用風(fēng)險(xiǎn)低且很大可能會(huì)接受提供的申請(qǐng)表。根據(jù)這些方法,A銀行在剩下的950,000個(gè)潛在客戶(hù)中選取其中信用好的700,000個(gè)進(jìn)行郵寄。結(jié)果是,通過(guò)這郵寄的750,000份申請(qǐng)表,共收到9,000個(gè)潛在客戶(hù)接受信用卡,即接受的比率為1.2%(9,000÷750,000=1.2%),比傳統(tǒng)方法的1%提高了20個(gè)百分點(diǎn)。還有1,000個(gè)客戶(hù)在未寄的250,000個(gè)潛在客戶(hù)中,他們是被模型篩選掉的,很明顯,若對(duì)他們也進(jìn)行郵寄的話(huà),需花費(fèi)¥250,000但他們帶來(lái)的利益只有¥125,000(¥125×1,000=¥125,000),表明為獲得這些客戶(hù)的成本是大于他們所能帶來(lái)的收益的,故將他們放棄。數(shù)據(jù)挖掘技術(shù)的應(yīng)用20表3傳統(tǒng)方法和數(shù)據(jù)挖掘方法獲取新客戶(hù)的比較指標(biāo)傳統(tǒng)方法數(shù)據(jù)挖掘方法差異郵寄總數(shù)量1,000,000750,000250,000郵寄總成本¥1,000,000¥750,000¥250,000成為新客戶(hù)的數(shù)量10,0009,0001,000每個(gè)新客戶(hù)帶來(lái)的毛利¥125¥125¥0總毛利¥1,250,000¥1,125,000¥125,000凈利潤(rùn)¥250,000¥375,000¥125,000數(shù)據(jù)挖掘建模成本¥0¥40000¥40000最終凈利潤(rùn)¥250,000¥335,000¥85,000從表中可以看到,凈利潤(rùn)增加了¥125,000,即使減去數(shù)據(jù)挖掘的成本¥40,000其最終凈利潤(rùn)也還多出¥85,000。另外,本例中建立模型的投資回報(bào)率(ROT)也比較高,為212.5%(¥85,000÷¥40,000=212.5%。從而顯示了將數(shù)據(jù)挖掘技術(shù)應(yīng)用與新客戶(hù)獲取中的優(yōu)勢(shì)所在。表3傳統(tǒng)方法和數(shù)據(jù)挖掘方法獲取新客戶(hù)的比較指標(biāo)傳統(tǒng)方法數(shù)據(jù)21決策樹(shù)分類(lèi)方法決策樹(shù)提供了一種展示類(lèi)似在什么條件下會(huì)得到什么值這類(lèi)規(guī)則的方法。比如,在貸款申請(qǐng)中,要對(duì)申請(qǐng)的風(fēng)險(xiǎn)大小做出判斷,圖1是為了解決這個(gè)問(wèn)題而建立的一棵決策樹(shù),從中我們可以看到?jīng)Q策樹(shù)的基本組成部分:決策節(jié)點(diǎn)、分支和葉子。是否是否是否收入>40000工作時(shí)間>5年高負(fù)債低風(fēng)險(xiǎn)高風(fēng)險(xiǎn)低風(fēng)險(xiǎn)高風(fēng)險(xiǎn)決策樹(shù)分類(lèi)方法決策樹(shù)提供了一種展示類(lèi)似在什么條件下會(huì)得到什么22決策樹(shù)的每個(gè)節(jié)點(diǎn)子節(jié)點(diǎn)的個(gè)數(shù)與決策樹(shù)應(yīng)用的算法有關(guān)。如CART算法得到的決策樹(shù)每個(gè)節(jié)點(diǎn)有兩個(gè)分支,這種樹(shù)稱(chēng)為二叉樹(shù)。允許節(jié)點(diǎn)含有多于兩個(gè)子節(jié)點(diǎn)的樹(shù)稱(chēng)為多叉樹(shù)。每個(gè)分支要么是一個(gè)新的決策節(jié)點(diǎn),要么是樹(shù)的結(jié)尾,稱(chēng)為葉子。在沿著決策樹(shù)從上到下遍歷的過(guò)程中,在每個(gè)節(jié)點(diǎn)都會(huì)遇到一個(gè)問(wèn)題,對(duì)每個(gè)節(jié)點(diǎn)上問(wèn)題的不同回答導(dǎo)致不同的分支,最后會(huì)到達(dá)一個(gè)葉子節(jié)點(diǎn)。這個(gè)過(guò)程就是利用決策樹(shù)進(jìn)行分類(lèi)的過(guò)程,即利用幾個(gè)變量(每個(gè)變量對(duì)應(yīng)一個(gè)問(wèn)題)來(lái)判斷所屬的類(lèi)別(最后每個(gè)葉子會(huì)對(duì)應(yīng)一個(gè)類(lèi)別)。常用的算法有分類(lèi)回歸樹(shù)CART、ID3、和C4.5等決策樹(shù)的每個(gè)節(jié)點(diǎn)子節(jié)點(diǎn)的個(gè)數(shù)與決策樹(shù)應(yīng)用的算法有關(guān)。23

ID3算法運(yùn)用信息熵理論,選擇當(dāng)前樣本屬性集中具有最大信息增益值的屬性作為測(cè)試屬性。該屬性使得對(duì)結(jié)果劃分中的樣本分類(lèi)所需的信息量最小,并反映劃分的最小隨機(jī)性或“不純性”。這種信息理論方法使得對(duì)一個(gè)對(duì)象分類(lèi)所需的期望測(cè)試數(shù)目達(dá)到最小,并確保找到一棵簡(jiǎn)單樹(shù)。設(shè)S是s個(gè)數(shù)據(jù)樣本的集合。假定類(lèi)標(biāo)號(hào)屬性具有m個(gè)不同值,定義m個(gè)不同類(lèi)(i=1,?,m)。設(shè)是類(lèi)中的樣本數(shù)。對(duì)一個(gè)給定的樣本分類(lèi)所需的期望信息是:其中是任意樣本屬于的概率,并用估計(jì)。ID3算法運(yùn)用信息熵理論,選擇當(dāng)前樣本屬性集中具有最大信息24設(shè)屬性A為測(cè)試屬性,它具有V個(gè)不同的值用表示屬性A取值為的樣本子集屬于類(lèi)的樣本數(shù)。那么按照屬性A的每個(gè)屬性值進(jìn)行分割的期望信息稱(chēng)作A的熵,由下式給出:在A上分割獲得的信息增益定義為:依據(jù)上述方法,計(jì)算每個(gè)屬性的信息增益,屬性的信息增益越大,區(qū)分度越大。設(shè)屬性A為測(cè)試屬性,它具有V個(gè)不同的值用表示屬性A取值為的樣25通過(guò)對(duì)一組訓(xùn)練數(shù)據(jù)的學(xué)習(xí),構(gòu)造出決策樹(shù)形式的知識(shí)表示,在決策樹(shù)的內(nèi)部結(jié)點(diǎn)進(jìn)行屬性值的比較并根據(jù)不同的屬性值判斷從該結(jié)點(diǎn)向下的分支,在決策樹(shù)葉結(jié)點(diǎn)得到結(jié)論。所以從根到葉結(jié)點(diǎn)的一條路徑就對(duì)應(yīng)著一條規(guī)則,整棵決策樹(shù)就對(duì)應(yīng)著一組析取表達(dá)式規(guī)則。基于決策樹(shù)學(xué)習(xí)算法的一個(gè)最大的優(yōu)點(diǎn)就是它在學(xué)習(xí)過(guò)程中不需要使用者了解很多背景知識(shí)。這樣只要訓(xùn)練實(shí)例能夠用屬性—結(jié)論式的方式表達(dá)出來(lái),就能使用該算法來(lái)進(jìn)行學(xué)習(xí)。通過(guò)對(duì)一組訓(xùn)練數(shù)據(jù)的學(xué)習(xí),構(gòu)造出決策樹(shù)形式的知識(shí)表示,在決策26Id職業(yè)收入地區(qū)年齡反應(yīng)1銷(xiāo)售<=2000華北年輕02銷(xiāo)售<=2000華東年輕13銷(xiāo)售<=2000華東中年04非銷(xiāo)售>2000華東中年15非銷(xiāo)售>2000華北老年16非銷(xiāo)售>2000其它老年17非銷(xiāo)售<=2000西北中年08銷(xiāo)售>2000華北年輕19銷(xiāo)售>2000西北中年010銷(xiāo)售<=2000西北年輕011銷(xiāo)售<=2000東北中年012非銷(xiāo)售<=2000其它中年013銷(xiāo)售>2000華北年輕114非銷(xiāo)售>2000東北中年115銷(xiāo)售>2000西北年輕1Id職業(yè)收入地區(qū)年齡反應(yīng)1銷(xiāo)售<=2000華北年輕02銷(xiāo)售<27根據(jù)表中的數(shù)據(jù),類(lèi)反應(yīng)有兩個(gè)不同的值(0,1),因此有兩個(gè)不同的類(lèi)(m=2)。設(shè)類(lèi)C1=0,類(lèi)C2=1。則類(lèi)C1有7個(gè)樣本,類(lèi)C2有8個(gè)樣本。則給定樣本分類(lèi)的期望信息為:I(s1,s2)=I(7,8)=-7/15㏒2(7/15)-8/15㏒2(8/15)=0.997現(xiàn)在計(jì)算每個(gè)屬性的熵,(1)職業(yè):銷(xiāo)售:S11=5,S21=4則I(S11,S21)=0.991非銷(xiāo)售:S12=2,S22=4則I(S12,S22)=0.918信息增益:E(職業(yè))=(S11+S21)*I(S11,S21)/S+(S12+S22)*I(S12,S22)/S=0.991*9/15+0.918*6/15=0.9618GAIN(職業(yè))=0.997-0.9618=0.0352同理:(2)收入:GAIN(收入)=0.4308(3)地區(qū):GAIN(地區(qū))=0.114(4)年齡:GAIN(年齡)=0.226根據(jù)表中的數(shù)據(jù),類(lèi)反應(yīng)有兩個(gè)不同的值(0,1),因此有兩個(gè)不28圖2按照“收入”分割得到的決策樹(shù)圖2按照“收入”分割得到的決策樹(shù)29圖3最終決策樹(shù)圖3最終決策樹(shù)30從圖3中我們可以很直觀的分析出客戶(hù)申請(qǐng)信用卡對(duì)“收入”、“年齡”、“地區(qū)”、“職業(yè)”四個(gè)屬性的反應(yīng)??梢缘贸鲆幌乱?guī)則:1)當(dāng)收入小于等于2000元,如果年齡為中年的話(huà)一般沒(méi)有興趣;2)當(dāng)收入小于等于2000元,來(lái)自地區(qū)為華北、西北、東北或其它的年輕人,一般沒(méi)有興趣;3)當(dāng)收入小于等于2000元,來(lái)自地區(qū)為華東且為年輕人一般有興趣;4)當(dāng)收入大于2000元,且來(lái)自華北、華東、東北或其它地區(qū),一般有興趣;5)當(dāng)收入大于2000元,來(lái)自西北地區(qū)且為年輕人一般有興趣;6)當(dāng)收入大于2000元,來(lái)自西北地區(qū)且為中年人一般沒(méi)有興趣。從圖3中我們可以很直觀的分析出客戶(hù)申請(qǐng)信用卡對(duì)“收入”、“年31選擇了合適的算法后,我們只需要把切分看成是把一組數(shù)據(jù)分成幾份,份與份之間盡量不同,而同一份內(nèi)的數(shù)據(jù)盡量相同。如果經(jīng)過(guò)一次切分后得到的分組,每個(gè)分組中的數(shù)據(jù)都屬于同一個(gè)類(lèi)別,顯然達(dá)到這樣效果的切分方法就是我們所追求的。假定我們利用歷史數(shù)據(jù)建立了一個(gè)包含幾百個(gè)屬性、輸出的類(lèi)有十幾種的決策樹(shù),這樣的一棵樹(shù)對(duì)人來(lái)說(shuō)可能太復(fù)雜了,但每一條從根結(jié)點(diǎn)到葉子節(jié)點(diǎn)的路徑所描述的含義仍然是可以理解的。決策樹(shù)的這種易理解性對(duì)數(shù)據(jù)挖掘的使用者來(lái)說(shuō)是一個(gè)顯著的優(yōu)點(diǎn)。然而決策樹(shù)的這種明確性可能帶來(lái)誤導(dǎo)。比如,決策樹(shù)每個(gè)節(jié)點(diǎn)對(duì)應(yīng)分割的定義都是非常明確毫不含糊的,但在實(shí)際生活中這種明確可能帶來(lái)麻煩(憑什么說(shuō)年收入2001的人申請(qǐng)信用卡,而2000的人就沒(méi)有)。另外,樹(shù)的大小與樣本數(shù)量無(wú)關(guān),計(jì)算量較小。

選擇了合適的算法后,我們只需要把切分看成是把一組數(shù)據(jù)分成幾份32客戶(hù)保持和流失客戶(hù)發(fā)展階段:潛在客戶(hù)—新客戶(hù)—滿(mǎn)意的客戶(hù)—留住的客戶(hù)—老客戶(hù)。經(jīng)濟(jì)學(xué)廣泛應(yīng)用的“80/20定律”(佩爾圖定律),具體到CRM中是說(shuō)企業(yè)80%的利潤(rùn)是由前20%的客戶(hù)所創(chuàng)造的;又如1989年的哈佛商業(yè)評(píng)論中提到若客戶(hù)保持率提高5%,平均每位客戶(hù)的價(jià)值就能增加25%到100%。這些數(shù)字都充分說(shuō)明了提高客戶(hù)的忠誠(chéng)度、保持好的客戶(hù)對(duì)于企業(yè)本身的利益是至關(guān)重要的。比如在美國(guó),移動(dòng)通信公司每獲得一個(gè)新用戶(hù)的成本平均是300美元,而挽留住一個(gè)老客戶(hù)的成本可能僅僅是通一個(gè)電話(huà)。客戶(hù)保持和流失客戶(hù)發(fā)展階段:潛在客戶(hù)—新客戶(hù)—滿(mǎn)意的客戶(hù)—留33因此客戶(hù)關(guān)系管理首先提倡的是保持現(xiàn)有客戶(hù),實(shí)現(xiàn)現(xiàn)有客戶(hù)的重復(fù)購(gòu)買(mǎi)是企業(yè)追求的首要目標(biāo)。其次才是開(kāi)拓新市場(chǎng),吸引新客戶(hù)。通過(guò)數(shù)據(jù)挖掘可以發(fā)現(xiàn)流失客戶(hù)的特征,這樣就可以在那些具有相似特征的客戶(hù)還未流失之前進(jìn)行針對(duì)性的彌補(bǔ)。例如一家移動(dòng)通信公司挖掘出的結(jié)果是:年齡在26歲以下、開(kāi)通了WAP服務(wù)、移動(dòng)電話(huà)價(jià)值(購(gòu)買(mǎi)時(shí))在1800-2800元、每月通話(huà)費(fèi)在250-350元之間(包月制則是200元和280元兩檔)的男性流失的比例最高。掌握了這些信息,就可以針對(duì)每個(gè)人的貢獻(xiàn),滿(mǎn)足他們的一些需求。因此客戶(hù)關(guān)系管理首先提倡的是保持現(xiàn)有客戶(hù),實(shí)現(xiàn)現(xiàn)有客戶(hù)的重復(fù)34客戶(hù)流失的原因主要有以下4種類(lèi)型:自然流失客戶(hù)流失不是人為因素造成的,比如客戶(hù)的搬遷和死亡等。自然流失所占的比例很小。企業(yè)可以通過(guò)建立連鎖服務(wù)網(wǎng)點(diǎn)和經(jīng)營(yíng)分公司,或者提供網(wǎng)上服務(wù)等方式,讓客戶(hù)在任何地方、任何時(shí)候都能方便快捷地使用企業(yè)的產(chǎn)品和服務(wù),減少自然流失的發(fā)生。惡意流失是指一些客戶(hù)為了滿(mǎn)足自己的某些私利而離開(kāi)企業(yè),比如很多電信運(yùn)營(yíng)商的用戶(hù)在拖欠了大額通信費(fèi)用后離開(kāi)這家電信運(yùn)營(yíng)商,選擇其他電信運(yùn)營(yíng)商提供的服務(wù),從而達(dá)到不交費(fèi)用的目的。惡意流失在客戶(hù)流失中所占的比例也不大。企業(yè)可以通過(guò)客戶(hù)信譽(yù)管理制度和欺詐監(jiān)測(cè)來(lái)防止客戶(hù)的惡意流失行為??蛻?hù)流失的原因主要有以下4種類(lèi)型:35競(jìng)爭(zhēng)流失由于企業(yè)競(jìng)爭(zhēng)對(duì)手的影響而造成的流失稱(chēng)為競(jìng)爭(zhēng)流失。市場(chǎng)上的競(jìng)爭(zhēng)突出表現(xiàn)在價(jià)格戰(zhàn)和服務(wù)戰(zhàn)上。過(guò)失流失客戶(hù)流失都是由于企業(yè)自身工作中的過(guò)失引起客戶(hù)的不滿(mǎn)意而造成的,比如企業(yè)形象不佳、產(chǎn)品性能不好、服務(wù)態(tài)度惡劣等。過(guò)失流失在客戶(hù)流失總量中所占的比例最高,但同時(shí)也是企業(yè)可以通過(guò)采取一些有效手段來(lái)防止的。

客戶(hù)流失預(yù)測(cè)分析能幫助企業(yè)理解客戶(hù)將要離開(kāi)的信號(hào),使企業(yè)有充分的時(shí)間采取措施挽留有流失傾向的客戶(hù)。在客戶(hù)關(guān)系分析中,客戶(hù)流失預(yù)測(cè)分析模型的可解釋性非常重要,企業(yè)要能清晰地理解分類(lèi)模型中的各個(gè)因素以及各個(gè)因素的作用程度,根據(jù)分類(lèi)模型理解影響客戶(hù)流失的因素,以便于企業(yè)做出相應(yīng)的改進(jìn)。競(jìng)爭(zhēng)流失36影響客戶(hù)流失的因素主要從以下幾個(gè)層面考慮,競(jìng)爭(zhēng)對(duì)手情況:競(jìng)爭(zhēng)對(duì)手最近開(kāi)發(fā)新產(chǎn)品情況、競(jìng)爭(zhēng)對(duì)手最近開(kāi)發(fā)新促銷(xiāo)策略;企業(yè)和員工形象:產(chǎn)品更新快慢程度、員工的態(tài)度和形象、員工的流動(dòng)率、企業(yè)文化和形象;客戶(hù)購(gòu)買(mǎi)行為:客戶(hù)是否接觸競(jìng)爭(zhēng)對(duì)手的產(chǎn)品、客戶(hù)對(duì)企業(yè)的滿(mǎn)意度、客戶(hù)與企業(yè)交往的時(shí)間長(zhǎng)度、客戶(hù)最近的購(gòu)買(mǎi)頻率和數(shù)量的變化情況;產(chǎn)品和服務(wù)質(zhì)量:服務(wù)體制是否完善、客戶(hù)投訴是否處理、服務(wù)質(zhì)量和服務(wù)的及時(shí)性、產(chǎn)品的質(zhì)量和價(jià)格;影響客戶(hù)流失的因素主要從以下幾個(gè)層面考慮,37客戶(hù)流失模型的建立和應(yīng)用過(guò)程如下:在客戶(hù)數(shù)據(jù)倉(cāng)庫(kù)中抽取適當(dāng)?shù)淖侄谓M成客戶(hù)分析數(shù)據(jù)庫(kù),為客戶(hù)描述和客戶(hù)流失模型提供數(shù)據(jù)源;客戶(hù)流失預(yù)測(cè)分析屬于數(shù)據(jù)挖掘中的分類(lèi),客戶(hù)是否己經(jīng)流失為類(lèi)標(biāo)號(hào),因此,根據(jù)客戶(hù)是否流失情況,將客戶(hù)分析數(shù)據(jù)庫(kù)分離為當(dāng)前客戶(hù)數(shù)據(jù)庫(kù)和流失客戶(hù)數(shù)據(jù)庫(kù);對(duì)流失客戶(hù)數(shù)據(jù)庫(kù)進(jìn)行分析,建立客戶(hù)流失模型。隨機(jī)選擇流失客戶(hù)中的2/3為訓(xùn)練數(shù)據(jù),建立分類(lèi)器,得出分類(lèi)模型。將剩下的1/3數(shù)據(jù)作為測(cè)試數(shù)據(jù)代入分類(lèi)模型中,預(yù)測(cè)準(zhǔn)確率。如果準(zhǔn)確率過(guò)低,則重復(fù)以上過(guò)程,直到分類(lèi)模型的準(zhǔn)確率滿(mǎn)足用戶(hù)的需求,得出客戶(hù)流失模型;從客戶(hù)流失模型中分析影響客戶(hù)流失的各種原因,找出企業(yè)的不足之處,發(fā)現(xiàn)流失者的行為特征。運(yùn)用客戶(hù)流失模型在當(dāng)前客戶(hù)數(shù)據(jù)庫(kù)中發(fā)現(xiàn)預(yù)測(cè)有流失傾向的客戶(hù)群體??蛻?hù)流失模型的建立和應(yīng)用過(guò)程如下:38在預(yù)測(cè)客戶(hù)的流失建模中較為常用的數(shù)據(jù)挖掘算法是CART(ClassificationandRegressionTrees,分類(lèi)回歸樹(shù)),它是分類(lèi)方法中決策樹(shù)的一種算法。盡管其他的一些數(shù)據(jù)挖掘技術(shù),如神經(jīng)網(wǎng)絡(luò)也可以產(chǎn)生很好的預(yù)測(cè)模型,但是這些模型很難理解。當(dāng)用這些模型做預(yù)測(cè)分析時(shí),很難對(duì)客戶(hù)流失的原因有深入的了解,更得不到如何對(duì)付客戶(hù)流失的任何線(xiàn)索。在這種情況下,一般需要使用決策樹(shù)或聚類(lèi)技術(shù)等分類(lèi)方法進(jìn)一步的分類(lèi),來(lái)得到更深入的了解,所以生成的預(yù)測(cè)模型就相對(duì)復(fù)雜的多。在預(yù)測(cè)客戶(hù)的流失建模中較為常用的數(shù)據(jù)挖掘算法是CART(Cl39客戶(hù)流失數(shù)據(jù)集有其自身較為顯著的特點(diǎn):客戶(hù)流失數(shù)據(jù)集中包含較多的連續(xù)值屬性,如客戶(hù)的年齡,收入信息,各項(xiàng)消費(fèi)信息等??蛻?hù)流失數(shù)據(jù)集是一個(gè)典型的非平衡分布數(shù)據(jù)集。流失客戶(hù)與非流失客戶(hù)之間相差的比例很大。流失客戶(hù)在數(shù)據(jù)集中一般只占一個(gè)較小的比例。分類(lèi)算法在處理非平衡數(shù)據(jù)集的分類(lèi)問(wèn)題時(shí),容易受到樣本類(lèi)別分布的影響,對(duì)少數(shù)類(lèi)的分類(lèi)精度不高,其效果并不理想。例如:TeleData為某電信運(yùn)營(yíng)商提供的客戶(hù)信息數(shù)據(jù)集,其中包括用戶(hù)的人口統(tǒng)計(jì)特征和通信消費(fèi)特征,通過(guò)數(shù)據(jù)挖掘技術(shù),挖掘出流失客戶(hù)的分類(lèi)模型,從而提出策略,指導(dǎo)客戶(hù)挽留??蛻?hù)流失數(shù)據(jù)集有其自身較為顯著的特點(diǎn):40商務(wù)智能應(yīng)用--分析型CRM41客戶(hù)忠誠(chéng)度分析客戶(hù)忠誠(chéng)度一般是指客戶(hù)堅(jiān)持重復(fù)購(gòu)買(mǎi)或惠顧自己喜歡的同一品牌的產(chǎn)品或服務(wù),不受環(huán)境和市場(chǎng)的影響??蛻?hù)忠誠(chéng)主要表現(xiàn)在以下幾個(gè)方面:(1)會(huì)經(jīng)常反復(fù)地購(gòu)買(mǎi)本企業(yè)的產(chǎn)品或服務(wù),甚至可以定量分析出他們的購(gòu)買(mǎi)頻數(shù);(2)在購(gòu)買(mǎi)企業(yè)產(chǎn)品或服務(wù)時(shí),選擇呈多樣性,但是優(yōu)先關(guān)心和選擇其忠誠(chéng)的企業(yè)品牌的產(chǎn)品或服務(wù)以及其產(chǎn)品或服務(wù)的發(fā)展情況;(3)樂(lè)于向他人推薦本企業(yè)產(chǎn)品,被推薦者相對(duì)于其他客戶(hù)會(huì)更容易地認(rèn)同推薦的產(chǎn)品或服務(wù);(4)會(huì)排斥本企業(yè)的競(jìng)爭(zhēng)對(duì)手,只要忠誠(chéng)的紐帶未被打破,他們甚至不屑于略勝一籌的競(jìng)爭(zhēng)對(duì)手??蛻?hù)忠誠(chéng)度分析客戶(hù)忠誠(chéng)度一般是指客戶(hù)堅(jiān)持重復(fù)購(gòu)買(mǎi)或惠顧自己喜42衡量客戶(hù)忠誠(chéng)的唯一尺度就是客戶(hù)是否重復(fù)或持久地購(gòu)買(mǎi)企業(yè)的產(chǎn)品或者服務(wù),顧客忠誠(chéng)體現(xiàn)為具體的購(gòu)買(mǎi)行為,具有很強(qiáng)的客觀現(xiàn)實(shí)色彩,是實(shí)實(shí)在在的。而客戶(hù)忠誠(chéng)的誘因主要是客戶(hù)滿(mǎn)意,顧客滿(mǎn)意是一種期望值與感知效果的比較,是一種心理反應(yīng),它取決于顧客的“期望”,具有很強(qiáng)的主觀色彩。所以,客戶(hù)忠誠(chéng)度分析標(biāo)準(zhǔn)是一個(gè)較為模糊的概念。首先可用聚類(lèi)分析進(jìn)行客戶(hù)忠誠(chéng)度分析,根據(jù)所得的聚類(lèi)結(jié)果,將每一類(lèi)賦以具體標(biāo)記,然后進(jìn)行分類(lèi),構(gòu)造出忠誠(chéng)客戶(hù)的具體特征?;蛘呤峭ㄟ^(guò)行業(yè)專(zhuān)家進(jìn)行標(biāo)記。在現(xiàn)有數(shù)據(jù)庫(kù)信息資源的條件限定下,客戶(hù)忠誠(chéng)度的分析同客戶(hù)忠誠(chéng)度具體的量化定義就有了密切的聯(lián)系。根據(jù)需要,企業(yè)可以對(duì)客戶(hù)的一些具體表現(xiàn)設(shè)定相應(yīng)的觀測(cè)變量,如:貨款到達(dá)的及時(shí)性、購(gòu)物占購(gòu)貨企業(yè)貨物銷(xiāo)量總量的比例、信息的虛假程度、貨物價(jià)格的接受程度、持續(xù)交易的時(shí)間、重復(fù)購(gòu)買(mǎi)的次數(shù)、購(gòu)買(mǎi)方式等。衡量客戶(hù)忠誠(chéng)的唯一尺度就是客戶(hù)是否重復(fù)或持久地購(gòu)買(mǎi)企業(yè)的產(chǎn)品43客戶(hù)忠誠(chéng)度分析模型的建立和應(yīng)用過(guò)程如下:(1)根據(jù)己有定義選定相關(guān)的分析變量;(2)從企業(yè)的業(yè)務(wù)數(shù)據(jù)庫(kù)中收集整理原始數(shù)據(jù),按客戶(hù)忠誠(chéng)度分析所需的字段組建企業(yè)客戶(hù)的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng);(3)檢驗(yàn)分類(lèi)與實(shí)際的吻合程度,選取或確定合適的分類(lèi)數(shù),目前許多企業(yè)設(shè)定為5類(lèi);(4)觀察分析每類(lèi)的特點(diǎn),給每類(lèi)賦以類(lèi)標(biāo)記;(5)對(duì)帶有忠誠(chéng)度類(lèi)標(biāo)記的數(shù)據(jù)建立分類(lèi)模型;(6)根據(jù)忠誠(chéng)度模型描述忠誠(chéng)度客戶(hù)的特征,幫助企業(yè)識(shí)別忠誠(chéng)客戶(hù),根據(jù)客戶(hù)忠誠(chéng)度的不同,提出相應(yīng)的營(yíng)銷(xiāo)與客戶(hù)管理措施。客戶(hù)忠誠(chéng)度分析模型的建立和應(yīng)用過(guò)程如下:44客戶(hù)滿(mǎn)意度分析客戶(hù)滿(mǎn)意度分析模型的建立過(guò)程和客戶(hù)忠誠(chéng)度分析類(lèi)似:(1)首先,通過(guò)多種方式進(jìn)行客戶(hù)滿(mǎn)意度調(diào)查,影響客戶(hù)滿(mǎn)意度模型的主要因素包括:服務(wù)和系統(tǒng)支持、產(chǎn)品/服務(wù)技術(shù)表現(xiàn)、客戶(hù)互動(dòng)的因素、情感因素等。不同行業(yè)影響客戶(hù)滿(mǎn)意度的因素各不相同,但是基本都離不開(kāi)這幾個(gè)層次??蛻?hù)的滿(mǎn)意程度一般分為5個(gè)檔次,1到5分別代表“很不滿(mǎn)意”、“不很滿(mǎn)意”、“基本滿(mǎn)意”、“滿(mǎn)意”和“很滿(mǎn)意’。(2)將客戶(hù)滿(mǎn)意度調(diào)查結(jié)果收集記錄到企業(yè)的數(shù)據(jù)庫(kù)中,構(gòu)建客戶(hù)數(shù)據(jù)倉(cāng)庫(kù),在客戶(hù)數(shù)據(jù)倉(cāng)庫(kù)中抽取適當(dāng)?shù)淖侄谓M成客戶(hù)滿(mǎn)意度分析數(shù)據(jù)。這些字段包括客戶(hù)基本描述數(shù)據(jù)和滿(mǎn)意度調(diào)查數(shù)據(jù)??蛻?hù)的基本描述數(shù)據(jù),包括客戶(hù)的受教育水平、客戶(hù)的性格偏好、客戶(hù)的職業(yè)等,因?yàn)檫@些因素會(huì)影響客戶(hù)對(duì)外界事務(wù)的態(tài)度,因此應(yīng)當(dāng)給予考慮??蛻?hù)滿(mǎn)意度分析客戶(hù)滿(mǎn)意度分析模型的建立過(guò)程和客戶(hù)忠誠(chéng)度分析類(lèi)45(3)客戶(hù)滿(mǎn)意度分析屬于數(shù)據(jù)挖掘中的分類(lèi),對(duì)客戶(hù)滿(mǎn)意度數(shù)據(jù)實(shí)施數(shù)據(jù)挖掘技術(shù),建立分類(lèi)器,得出分類(lèi)模型。(4)研究客戶(hù)滿(mǎn)意度的分類(lèi)模型,在分類(lèi)模型中越靠近上層的因素越是主要因素。找出使客戶(hù)滿(mǎn)意的關(guān)鍵因素,企業(yè)繼續(xù)在這些方面努力從而進(jìn)一步提高客戶(hù)的滿(mǎn)意度。找出導(dǎo)致客戶(hù)不滿(mǎn)意的關(guān)鍵因素,幫助企業(yè)認(rèn)清不足,加強(qiáng)管理。(3)客戶(hù)滿(mǎn)意度分析屬于數(shù)據(jù)挖掘中的分類(lèi),對(duì)客戶(hù)滿(mǎn)意度數(shù)據(jù)實(shí)46交叉銷(xiāo)售公司與其客戶(hù)之間的商業(yè)關(guān)系是一種持續(xù)的不斷發(fā)展的關(guān)系。在客戶(hù)與公司建立起這種雙向的商業(yè)關(guān)系后,可以有很多種方法來(lái)優(yōu)化這種關(guān)系:延長(zhǎng)這種關(guān)系的時(shí)間在維持這樣的關(guān)系期間增加互相的接觸在每一次互相接觸中獲得更多的利潤(rùn)作為公司,其目標(biāo)是要達(dá)到雙贏的結(jié)果,即客戶(hù)和商家都可以從中獲益。客戶(hù)獲益是由于他們得到了更好更貼切的服務(wù)質(zhì)量,商家則因?yàn)樵黾恿虽N(xiāo)售量而獲利。因此,企業(yè)就需要向已有的客戶(hù)進(jìn)行銷(xiāo)售,這就是交叉銷(xiāo)售。交叉銷(xiāo)售就是指你向現(xiàn)有的客戶(hù)提供新的產(chǎn)品和服務(wù)的營(yíng)銷(xiāo)過(guò)程。交叉銷(xiāo)售公司與其客戶(hù)之間的商業(yè)關(guān)系是一種持續(xù)的不斷發(fā)展的關(guān)系47在這里,我們看一下如何回答市場(chǎng)人員經(jīng)常問(wèn)的一個(gè)問(wèn)題:“我應(yīng)該向什么人銷(xiāo)售什么產(chǎn)品?”。更準(zhǔn)確的來(lái)看,這可以分成以下三個(gè)問(wèn)題:1.哪些產(chǎn)品是經(jīng)常被一塊購(gòu)買(mǎi)的?2.哪些產(chǎn)品是經(jīng)常被同類(lèi)型的顧客購(gòu)買(mǎi)的?3.顧客購(gòu)買(mǎi)某種商品的可能性有多大?以上三個(gè)問(wèn)題可以分別用數(shù)據(jù)挖掘中的關(guān)聯(lián)、聚類(lèi)、預(yù)測(cè)分析加以解決。在這里,我們看一下如何回答市場(chǎng)人員經(jīng)常問(wèn)的一個(gè)問(wèn)題:“我應(yīng)該48關(guān)聯(lián)分析關(guān)聯(lián)分析就是從給定的數(shù)據(jù)集中發(fā)現(xiàn)頻繁出現(xiàn)的項(xiàng)集模式知識(shí)(又稱(chēng)關(guān)聯(lián)規(guī)則)。典型例子是購(gòu)物籃分析。關(guān)聯(lián)規(guī)則研究有助于發(fā)現(xiàn)交易數(shù)據(jù)庫(kù)中不同商品(項(xiàng))之間的聯(lián)系,找出顧客購(gòu)買(mǎi)行為模式,如購(gòu)買(mǎi)了某一商品對(duì)購(gòu)買(mǎi)其他商品的影響。有時(shí)并不知道數(shù)據(jù)庫(kù)中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也不確定,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。通常關(guān)聯(lián)規(guī)則具有AB的形式,即:

A1A2

…AmB1B2…Bn,其中,Ai,Bj均是屬性或項(xiàng),表示數(shù)據(jù)庫(kù)中滿(mǎn)足X中條件的記錄也一定滿(mǎn)足Y中的條件。涉及到兩個(gè)概念:支持度和可信度關(guān)聯(lián)分析關(guān)聯(lián)分析就是從給定的數(shù)據(jù)集中發(fā)現(xiàn)頻繁出現(xiàn)的項(xiàng)集模式知49交易ID購(gòu)買(mǎi)商品2000A,B,C1000A,C4000A,D5000B,E,F頻繁項(xiàng)集支持度{A}75%{B}50%{C}50%{A,C}50%若要確定{X,Y}Z的規(guī)則,則支持度s表示一次交易中包含{X,Y,Z}的可能性。可信度c表示包含{X,Y}的交易中也包含Z的條件概率。例如:上述表格中左邊是交易項(xiàng)目,右邊是根據(jù)交易的事實(shí)來(lái)確定的支持度,那么現(xiàn)在來(lái)確定在交易事實(shí)中是否存在AC的規(guī)則。Confidence(AC)=support({A,C})/support({A})=66.6%為了挖掘出具有價(jià)值的規(guī)則,通常規(guī)定最小支持度和最小置信度作為兩個(gè)參數(shù)的閾值.

交易ID購(gòu)買(mǎi)商品2000A,B,C1000A,C4000A,50關(guān)聯(lián)規(guī)則挖掘可以分解為兩個(gè)步驟:首先找出交易項(xiàng)目中滿(mǎn)足最小支持度(minSupp)的項(xiàng)集(稱(chēng)其為頻繁項(xiàng)集);然后由頻繁項(xiàng)集生成關(guān)聯(lián)規(guī)則,對(duì)于頻繁項(xiàng)集A,若BA,且置信度confidence(BA-B)不小于最小置信度minConf,則BA-B構(gòu)成關(guān)聯(lián)規(guī)則。在第一步的基礎(chǔ)上完成第二步比較容易,所以目前的研究主要集中第一步上。關(guān)聯(lián)規(guī)則的應(yīng)用:交叉銷(xiāo)售:基于消費(fèi)者的購(gòu)買(mǎi)模式,主動(dòng)進(jìn)行交叉銷(xiāo)售;商品擺放:將經(jīng)常一起購(gòu)買(mǎi)的東西一起擺放;流失客戶(hù)分析:可分析是否是由于某些關(guān)鍵商品缺失引起的。關(guān)聯(lián)規(guī)則挖掘可以分解為兩個(gè)步驟:首先找出交易項(xiàng)目中滿(mǎn)足最小支51

。,Apriori算法是挖掘關(guān)聯(lián)規(guī)則的經(jīng)典算法,挖掘的對(duì)象是諸如售貨記錄之類(lèi)的數(shù)據(jù)所組成的事務(wù)數(shù)據(jù)庫(kù),而挖掘的結(jié)果則是類(lèi)似于“購(gòu)買(mǎi)面包的同時(shí)也可能購(gòu)買(mǎi)黃油”的關(guān)聯(lián)規(guī)則。設(shè)I={I1,I2,…,Im}是項(xiàng)的全體構(gòu)成的集合,項(xiàng)的集合稱(chēng)為項(xiàng)集,包含K個(gè)項(xiàng)的項(xiàng)集稱(chēng)為K-項(xiàng)集。D是數(shù)據(jù)庫(kù)事務(wù)構(gòu)成的集合,其中每個(gè)事務(wù)T又是一個(gè)項(xiàng)集,且TI。Apriori使用一種稱(chēng)作逐層搜索的迭代方法:(K-1)—項(xiàng)集用于搜索K-項(xiàng)集。即:首先找出頻繁1-項(xiàng)集的集合,記做L1;L1用于找出頻繁2-項(xiàng)集的集合L2,如此下去,直到找到Lk,k不再增加。為了提高頻繁集逐層產(chǎn)生的效率,一個(gè)稱(chēng)作Apriori性質(zhì)用于壓縮搜索空間。Apriori性質(zhì):頻繁項(xiàng)集的所有非空子集都必須是頻繁的。根據(jù)定義項(xiàng)集I不滿(mǎn)足最小支持度閾值,則I不是頻繁的,若項(xiàng)A添加到I中,則結(jié)果項(xiàng)集(IA)不可能比I更頻繁。。,Apriori算法是挖掘關(guān)聯(lián)規(guī)則的經(jīng)典算法,挖掘的對(duì)象52連接:為了找LK,通過(guò)LK-1與自己連接產(chǎn)生候選K-項(xiàng)集的集合CK。設(shè):li是LK-1中的項(xiàng)集,li[j]表示li的第j項(xiàng)。則Lk-1的元素l1、l2是可以連接的,如果滿(mǎn)足:l1[1]=l2[1]l1[2]=l2[2]…l1[k-2]=l2[k-2]l1[k-1]<l2[k-1]則連接l1、l2的結(jié)果項(xiàng)集是l1[1]

l1[2]l1[k-1]l2[k-1]。剪枝:CK是LK的超集。掃描數(shù)據(jù)庫(kù)確定CK中每個(gè)候選項(xiàng)集的計(jì)數(shù),從而確定LK。然而CK可能很大,可以利用Apriori性質(zhì)進(jìn)行剪枝。若一個(gè)候選K-項(xiàng)集的(k-1)-子集不在LK-1中,則該候選也不可能是頻繁的,可以從CK中刪除。Apriori算法主要由兩步組成:連接與剪枝連接:為了找LK,通過(guò)LK-1與自己連接產(chǎn)生候選K-項(xiàng)集的集53TID項(xiàng)ID列表T100I1,I2,I5T200I2,I4T300I2,I3T400I1,I2,I4T500I1,I3T600I2,I3T700I1,I3T800I1,I2,I3,I5T900I1,I2,I3項(xiàng)集計(jì)數(shù){I1}6{I2}7{I3}6{I4}2{I5}2項(xiàng)集計(jì)數(shù){I1,I2}4{I1,I3}4{I1,I4}1{I1,I5}2{I2,I3}4{I2,I4}2{I2,I5}2{I3,I5}1C1項(xiàng)集計(jì)數(shù){I1}6{I2}7{I3}6{I4}2{I5}2L1C2項(xiàng)集計(jì)數(shù){I1,I2}4{I1,I3}4{I1,I5}2{I2,I3}4{I2,I4}2{I2,I5}2L2TID項(xiàng)ID列表T100I1,I2,I5T200I2,I4T54項(xiàng)集計(jì)數(shù){I1,I2}4{I1,I3}4{I1,I5}2{I2,I3}4{I2,I4}2{I2,I5}2項(xiàng)集計(jì)數(shù){I1,I2,I3}2{I1,I2,I5}2項(xiàng)集計(jì)數(shù){I1,I2,I3}2{I1,I2,I5}2C3由頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則:1)對(duì)于每個(gè)頻繁項(xiàng)集L,產(chǎn)生L的所有非空子集。2)對(duì)于L的每個(gè)非空子集S,若support(L)/support(S)minconf,則輸出規(guī)則S(L-S)項(xiàng)集計(jì)數(shù){I1,I2}4{I1,I3}4{I1,I5}2{I55例如:頻繁項(xiàng)集l={I1,I2,I5}的非空子集有:{I1,I2},{I1,I5},{I2,I5},{I1},{I2}和{I5}。關(guān)聯(lián)規(guī)則如下:I1I2I5,confidence=2/4=50%I1I5I2,confidence=2/2=100%I2I5I1,confidence=2/2=100%I1I2I5,confidence=2/6=33%I2I1I5,confidence=2/7=29%I5I1I2,confidence=2/2=100%若最小置信度閾值為70%,則只有3個(gè)規(guī)則輸出。例如:頻繁項(xiàng)集l={I1,I2,I5}的非空子集有:{I1,563.3客戶(hù)分類(lèi)客戶(hù)分類(lèi)的方式多種多樣,企業(yè)可以根據(jù)實(shí)際需要和自身特點(diǎn)對(duì)客戶(hù)進(jìn)行各種主題背景下的分類(lèi),例如:如果以客戶(hù)的盈利能力為橫軸,以忠誠(chéng)度為縱軸,可把客戶(hù)劃分為四類(lèi):高盈利能力且忠誠(chéng)、高盈利能力而不忠誠(chéng)、低盈利能力而忠誠(chéng)、低盈利能力而不忠誠(chéng);按照客戶(hù)滿(mǎn)意度可分為:非常滿(mǎn)意、很滿(mǎn)意、基本滿(mǎn)意、不滿(mǎn)意、很不滿(mǎn)意;也可以按照客戶(hù)的行業(yè)或行為進(jìn)行分類(lèi)??蛻?hù)分類(lèi)結(jié)果的有效性取決于分類(lèi)指標(biāo)和分類(lèi)方法的選擇,用于評(píng)價(jià)分類(lèi)的指標(biāo)需反映出客戶(hù)的特征以及企業(yè)進(jìn)行客戶(hù)分類(lèi)的目的。分類(lèi)指標(biāo)的選擇要遵循一定的客觀規(guī)律,并應(yīng)根據(jù)企業(yè)所處的行業(yè)特點(diǎn)以及企業(yè)本身的實(shí)際情況來(lái)選擇恰當(dāng)?shù)姆诸?lèi)指標(biāo)??蛻?hù)分類(lèi)的方法:分類(lèi)和聚類(lèi)3.3客戶(hù)分類(lèi)客戶(hù)分類(lèi)的方式多種多樣,企業(yè)可以根據(jù)實(shí)際需要57以K為參數(shù),把n個(gè)對(duì)象分為個(gè)簇,聚類(lèi)目標(biāo)是簇內(nèi)具有較高的相似度,而簇間的相似度較低。聚類(lèi)的處理流程如下:首先,隨機(jī)地選擇K個(gè)對(duì)象,每個(gè)對(duì)象代表一個(gè)簇的平均值或中心。對(duì)剩余的每個(gè)對(duì)象,根據(jù)其與各個(gè)簇中心的距離,將它劃分到最近的簇。然后重新計(jì)算每個(gè)簇的平均值。這個(gè)過(guò)程不斷重復(fù),直到準(zhǔn)則函數(shù)收斂。通常,采用平方誤差準(zhǔn)則,其定義如下:K-均值聚類(lèi)算法的關(guān)鍵是解決如下問(wèn)題:選擇合適的簇?cái)?shù);選擇合適的距離函數(shù)和評(píng)判函數(shù)。以K為參數(shù),把n個(gè)對(duì)象分為個(gè)簇,聚類(lèi)目標(biāo)是簇內(nèi)具有較高的相似58(1)確定屬性根據(jù)中國(guó)電信的行業(yè)現(xiàn)狀,可以把客戶(hù)的屬性分為三種:基本屬性、服務(wù)屬性和分析屬性?;緦傩裕褐缚蛻?hù)的原始特征,也是分辨客戶(hù)的最基本方式。包括客戶(hù)的姓名、年齡、身份證號(hào)、國(guó)籍、戶(hù)口、地區(qū)、地址、學(xué)歷、工作單位、工齡、收入、婚否、家庭狀況等客戶(hù)專(zhuān)有特征。服務(wù)屬性指客戶(hù)與中國(guó)電信之間由服務(wù)關(guān)系和模式而產(chǎn)生的費(fèi)用與過(guò)程。包括客戶(hù)每月市內(nèi)電話(huà)費(fèi)、通話(huà)次數(shù)、手機(jī)通話(huà)費(fèi)、通話(huà)頻率、長(zhǎng)途通話(huà)費(fèi)及由此產(chǎn)生的服務(wù)費(fèi)、安裝費(fèi)等一系列相關(guān)服務(wù)費(fèi)用。分析屬性指電信通過(guò)分析而產(chǎn)生的分析值。包括客戶(hù)忠誠(chéng)度、行為分析指標(biāo)、流失率、綜合價(jià)值等分析指標(biāo)。(1)確定屬性59(2)數(shù)據(jù)標(biāo)準(zhǔn)化聚類(lèi)之前一般的數(shù)據(jù)都要進(jìn)行處理,這是聚類(lèi)算法與其他算法的不同之處,因?yàn)榫垲?lèi)算法中需要計(jì)算距離。客戶(hù)聚類(lèi)中所用的數(shù)據(jù)都是區(qū)間標(biāo)度變量,變量的度量單位的選擇將直接影響聚類(lèi)分析的結(jié)果。例如,將時(shí)間單位由“年”改為“月”,可能產(chǎn)生非常不同的聚類(lèi)結(jié)果。一般情況下,所用的度量單位越小,變量可能的值域就越大,這樣對(duì)聚類(lèi)結(jié)果的影響也越大,為了避免對(duì)度量單位選擇的依賴(lài),數(shù)據(jù)應(yīng)當(dāng)標(biāo)準(zhǔn)化。常用的標(biāo)準(zhǔn)化的方法是將原來(lái)的度量值轉(zhuǎn)換為無(wú)單位的值,對(duì)于客戶(hù)聚類(lèi)分析中的變量我們分為三種,對(duì)每種采取不同的標(biāo)準(zhǔn)化方法。(2)數(shù)據(jù)標(biāo)準(zhǔn)化601)增益變量,即該變量的值越大,客戶(hù)價(jià)值越大,包括客戶(hù)的購(gòu)買(mǎi)次數(shù)、客戶(hù)在本企業(yè)的消費(fèi)額、客戶(hù)與企業(yè)保持交易的時(shí)間長(zhǎng)度。對(duì)該類(lèi)變量采用如下的處理方法:,2)損益變量,即該變量的值越小,客戶(hù)價(jià)值越大,包括客戶(hù)最近一次購(gòu)買(mǎi)到現(xiàn)在的時(shí)間長(zhǎng)度。對(duì)該類(lèi)變量采用如下的處理方法:3)不能用增益和損益來(lái)衡量,即客戶(hù)提出建議或意見(jiàn)的次數(shù)。對(duì)該類(lèi)變量采用如下的處理方法:1)增益變量,即該變量的值越大,客戶(hù)價(jià)值越大,包括客戶(hù)的購(gòu)買(mǎi)61(3)距離度量方法的選擇K一平均聚類(lèi)算法采用基于對(duì)象間的距離來(lái)計(jì)算各個(gè)對(duì)象間的相異度。(4)確定KK-均值聚類(lèi)算法必須事先給定聚類(lèi)的簇k的數(shù)目,在具體應(yīng)用中,一般根據(jù)聚類(lèi)的目的而設(shè)定聚類(lèi)簇的數(shù)目。(3)距離度量方法的選擇(4)確定K62例如客戶(hù)價(jià)值分類(lèi):RFM方法是衡量客戶(hù)價(jià)值的一種重要方法,遵循現(xiàn)代管理大師佩拍斯先生的劃分觀點(diǎn),將客戶(hù)劃分為三類(lèi):最有價(jià)值客戶(hù)、最具增長(zhǎng)性客戶(hù)、負(fù)值客戶(hù),企業(yè)的高層經(jīng)理級(jí)決策者一般從比較宏觀的角度來(lái)了解客戶(hù),所以將客戶(hù)分為3簇。應(yīng)用K一平均聚類(lèi)算法,輸入初始參數(shù):包含47060條記錄的數(shù)據(jù)庫(kù),k=3,聚類(lèi)試驗(yàn)時(shí)只選擇了幾個(gè)主要變量,其他的變量沒(méi)有參與計(jì)算。選擇的變量有:R表示客戶(hù)最近一次購(gòu)買(mǎi)到現(xiàn)在的時(shí)間長(zhǎng)度(天)、F表示最近兩年的購(gòu)買(mǎi)次數(shù)、M表示最近兩年客戶(hù)在本企業(yè)的消費(fèi)額、L表示客戶(hù)對(duì)企業(yè)提出建議或意見(jiàn)的次數(shù)。例如客戶(hù)價(jià)值分類(lèi):RFM方法是衡量客戶(hù)價(jià)值的一種重要方法,63聚類(lèi)結(jié)果聚類(lèi)客戶(hù)數(shù)量RFML11621214322935305220318689663181320942374764167總體平均257811625211聚類(lèi)結(jié)果聚類(lèi)客戶(hù)數(shù)量RFML116212143229353064另一種常見(jiàn)的客戶(hù)分類(lèi)方法是預(yù)先建立不同客戶(hù)群的定義,數(shù)據(jù)挖掘技術(shù)要解決的是在數(shù)據(jù)中識(shí)別與已知客戶(hù)群相符的客戶(hù),所以采用的方法是有監(jiān)督學(xué)習(xí)的分類(lèi)技術(shù):決策樹(shù)、神經(jīng)網(wǎng)絡(luò)、K-近鄰等分類(lèi)方法。為達(dá)到分類(lèi)預(yù)測(cè)的功能,必須首先建立分類(lèi)模型,這需要有一個(gè)已知客戶(hù)分類(lèi)的客戶(hù)訓(xùn)練數(shù)據(jù)集,所以把這種分類(lèi)方式稱(chēng)為有監(jiān)督的學(xué)習(xí)方法,這種分類(lèi)方式常用來(lái)進(jìn)行識(shí)別和預(yù)測(cè),例如發(fā)現(xiàn)新客戶(hù)和潛在客戶(hù)等。分類(lèi)的準(zhǔn)確度由數(shù)據(jù)的質(zhì)量和選擇的分類(lèi)方法確定。另一種常見(jiàn)的客戶(hù)分類(lèi)方法是預(yù)先建立不同客戶(hù)群的定義,數(shù)據(jù)挖掘65神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)近來(lái)越來(lái)越受到人們的關(guān)注,它為解決大復(fù)雜度問(wèn)題提供了一種相對(duì)來(lái)說(shuō)比較有效的方法。神經(jīng)網(wǎng)絡(luò)可以很容易的解決具有上百個(gè)參數(shù)的問(wèn)題。神經(jīng)網(wǎng)絡(luò)常用于兩類(lèi)問(wèn)題:分類(lèi)和回歸。123456神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)近來(lái)越來(lái)越受到人們的關(guān)注,它為解決大復(fù)雜度問(wèn)66除了輸入層的節(jié)點(diǎn),神經(jīng)網(wǎng)絡(luò)的每個(gè)節(jié)點(diǎn)都與很多它前面的節(jié)點(diǎn)(稱(chēng)為此節(jié)點(diǎn)的輸入節(jié)點(diǎn))連接在一起,每個(gè)連接對(duì)應(yīng)一個(gè)權(quán)重Wxy,此節(jié)點(diǎn)的值就是通過(guò)它所有輸入節(jié)點(diǎn)的值與對(duì)應(yīng)連接權(quán)重乘積的和作為一個(gè)函數(shù)的輸入而得到,我們把這個(gè)函數(shù)稱(chēng)為活動(dòng)函數(shù)或擠壓函數(shù)。如上圖中節(jié)點(diǎn)4輸出到節(jié)點(diǎn)6的值可通過(guò)如下計(jì)算得到:W14*節(jié)點(diǎn)1的值+W24*節(jié)點(diǎn)2的值常使用的神經(jīng)網(wǎng)絡(luò)是BP神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)的性能與訓(xùn)練用的樣本密切相關(guān)。網(wǎng)絡(luò)訓(xùn)練所需要的樣本數(shù)取決于輸入-輸出非線(xiàn)性映射關(guān)系的復(fù)雜程度,映射關(guān)系越復(fù)雜,樣本中含的噪聲越大,為保證一定的訓(xùn)練精度,所需要的樣本就越多,而且網(wǎng)絡(luò)規(guī)模越大。因此可以參考一個(gè)經(jīng)驗(yàn)規(guī)則:訓(xùn)練樣本數(shù)是網(wǎng)絡(luò)連接權(quán)總數(shù)的5-10倍,且訓(xùn)練樣本應(yīng)該具有一定的代表性,樣本類(lèi)別均衡。除了輸入層的節(jié)點(diǎn),神經(jīng)網(wǎng)絡(luò)的每個(gè)節(jié)點(diǎn)都與很多它前面的節(jié)點(diǎn)(稱(chēng)67fid1=fopen('f:\\simulatedata\\tcptrainsample2.txt','r');P=fscanf(fid1,'%g',[40,27031]);fid2=fopen('f:\\simulatedata\\tcptrainlabel2.txt','r');T=fscanf(fid2,'%f',[5,27031]);[Q,minp,maxp]=premnmx(P);net=newff(minmax(Q),[40,8,5],{'tansig','tansig','purelin'},'traingdm');net.trainParam.show=100;net.trainParam.lr=0.001;net.trainParam.epochs=4000;net.trainParam.goal=0.01;[net,tr]=train(net,Q,T);A=sim(net,Q);E=T-A;MSE1=mse(E);fclose(fid1);fclose(fid2);%(生成測(cè)試網(wǎng)絡(luò))fidt1=fopen('f:\\simulatedata\\tcptestselectsample.txt','r');fidt2=fopen('f:\\simulatedata\\tcptestselectlabel.txt','r')R=fscanf(fidt1,'%g',[40,29840]);%(讀入驗(yàn)證數(shù)據(jù))[S,minr,maxr]=premnmx(R);T=fscanf(fidt2,'%g',[5,29840]);B=sim(net,S);E=T-B;MSE2=mse(E);%(輸出計(jì)算結(jié)果)fidt2=fopen('f:\\simulatedata\\tcptestselectresult4.txt','w');fprintf(fidt2,'%f',B);fid1=fopen('f:\\simulatedata\68MSE1=0.0428>>MSE2MSE2=0.0861MSE1=69第2章商務(wù)智能應(yīng)用

--分析型CRM第2章商務(wù)智能應(yīng)用

--分析70企業(yè)在擴(kuò)大市場(chǎng)、提高效率和保持客戶(hù)的原始商業(yè)驅(qū)動(dòng)力不變的情況下,如何繼續(xù)保持競(jìng)爭(zhēng)的優(yōu)勢(shì)。有遠(yuǎn)見(jiàn)的公司都會(huì)意識(shí)到,只有將自己建成能夠?qū)蛻?hù)作出迅速反應(yīng)的公司才能獲得諸多收獲,這些收獲包括收入、新客戶(hù)、客戶(hù)滿(mǎn)意度、客戶(hù)回頭率以及公司效益的增加,從而使競(jìng)爭(zhēng)力大為提升。企業(yè)在擴(kuò)大市場(chǎng)、提高效率和保持客戶(hù)的原始商業(yè)驅(qū)動(dòng)力不變的情況71本章內(nèi)容:CRM概述CRM與商務(wù)智能客戶(hù)行為分析客戶(hù)分類(lèi)案例分析本章內(nèi)容:CRM概述72CRM概述建立客戶(hù)關(guān)系管理(CRM)系統(tǒng)的目的是賦予企業(yè)更完善的與客戶(hù)交流的能力,即從潛在客戶(hù)識(shí)別、生成有需求的客戶(hù),到銷(xiāo)售完結(jié)以及不斷進(jìn)行的服務(wù)和支持,提供全過(guò)程的自動(dòng)化處理和更好的協(xié)調(diào)與合作,以提高客戶(hù)滿(mǎn)意度和客戶(hù)忠實(shí)度,增加市場(chǎng)機(jī)會(huì)和銷(xiāo)售利潤(rùn),為企業(yè)發(fā)展服務(wù)。CRM概述建立客戶(hù)關(guān)系管理(CRM)系統(tǒng)的目的是賦予企業(yè)更完73操作型CRM的設(shè)計(jì)目的是為了讓業(yè)務(wù)人員在日常的工作中能夠共享客戶(hù)資源,減少信息流動(dòng)滯留點(diǎn)。通過(guò)市場(chǎng)營(yíng)銷(xiāo)、銷(xiāo)售和服務(wù)等業(yè)務(wù)流程的管理,將客戶(hù)的各種信息收集并整合在一起,再將這些運(yùn)營(yíng)數(shù)據(jù)和外來(lái)的市場(chǎng)數(shù)據(jù)經(jīng)過(guò)整合和變換,裝載進(jìn)DW。協(xié)作型CRM就是能夠讓企業(yè)客戶(hù)服務(wù)人員同客戶(hù)一起完成某項(xiàng)活動(dòng)。協(xié)作型應(yīng)用目前主要由呼叫中心、客戶(hù)多渠道聯(lián)絡(luò)中心、幫助臺(tái)以及自助服務(wù)幫助導(dǎo)航,向客戶(hù)解釋特定內(nèi)容的網(wǎng)頁(yè)等。

操作型CRM的設(shè)計(jì)目的是為了讓業(yè)務(wù)人員在日常的工作中能夠共享74分析型CRM事實(shí)上是以改善業(yè)務(wù)管理為目的的分析活動(dòng),主要是分析現(xiàn)有的歷史數(shù)據(jù)或者操作型CRM中獲得的各種數(shù)據(jù),進(jìn)而為企業(yè)的經(jīng)營(yíng)、決策提供可靠的量化的依據(jù)。在一家銀行的信用卡客戶(hù)中,可能有80%的人幾乎不用信用卡交易,有10%的客戶(hù)偶爾用卡交易,剩下10%的客戶(hù)會(huì)頻繁用卡交易,而這一部分客戶(hù)可能為銀行信用卡部帶來(lái)80%的收入,所以這10%自然是最有價(jià)值的客戶(hù)。利用分析型CRM系統(tǒng)對(duì)客戶(hù)進(jìn)行細(xì)分,就可以針對(duì)有價(jià)值的客戶(hù)開(kāi)展特別的促銷(xiāo)活動(dòng)、提供更個(gè)性化的服務(wù),這無(wú)疑將使企業(yè)以最小的投入獲得最大的回報(bào)。分析型CRM事實(shí)上是以改善業(yè)務(wù)管理為目的的分析活動(dòng),主要是分75商務(wù)智能與CRM如果說(shuō)操作型與協(xié)作型CRM是企業(yè)的臂膀,那么分析型CRM就是企業(yè)的大腦。數(shù)據(jù)整合――提供客戶(hù)全景視圖利用數(shù)據(jù)倉(cāng)庫(kù)技術(shù),可以將散落在各個(gè)業(yè)務(wù)數(shù)據(jù)庫(kù)中的客戶(hù)信息經(jīng)過(guò)ETL(抽取、轉(zhuǎn)換、加載)過(guò)程,清洗、轉(zhuǎn)化、連接、概括、集成為統(tǒng)一的分析數(shù)據(jù);同時(shí),數(shù)據(jù)倉(cāng)庫(kù)強(qiáng)大的數(shù)據(jù)存儲(chǔ)及管理能力可以對(duì)海量客戶(hù)數(shù)據(jù)有效的存儲(chǔ)、索引、歸類(lèi)。商務(wù)智能與CRM如果說(shuō)操作型與協(xié)作型CRM是企業(yè)的臂76信息提交過(guò)程企業(yè)信息系統(tǒng)最終的關(guān)注點(diǎn)在于信息的傳遞,實(shí)現(xiàn)從數(shù)據(jù)到信息的深層次轉(zhuǎn)化。(1)OLAP的多維立方體模型為用戶(hù)提供多維的分析視圖,通過(guò)鉆取、旋轉(zhuǎn)、切片(塊)等操作,使得用戶(hù)可以隨心所欲地對(duì)客戶(hù)數(shù)據(jù)進(jìn)行多維分析,獲取關(guān)于客戶(hù)的細(xì)分市場(chǎng)、購(gòu)買(mǎi)模式、盈利能力等重要信息。(2)通過(guò)簡(jiǎn)單易用的工具使得終端用戶(hù)可以自由的按照自己的意圖來(lái)操縱數(shù)據(jù),從而為自己的業(yè)務(wù)問(wèn)題提供信息支持。(3)利用企業(yè)信息門(mén)戶(hù)策略可以根據(jù)不同的用戶(hù)定制信息界面,從而保證信息在適當(dāng)?shù)臅r(shí)間、通過(guò)適當(dāng)?shù)氖侄?、傳遞到適當(dāng)?shù)娜耸种?。信息提交過(guò)程77客戶(hù)知識(shí)的深入挖掘(1)根據(jù)從客戶(hù)知識(shí)發(fā)掘的信息,計(jì)算客戶(hù)生命周期價(jià)值,以此作為客戶(hù)分類(lèi)的依據(jù)。針對(duì)不同類(lèi)別的客戶(hù)采取不同的措施;(2)預(yù)測(cè)客戶(hù)將來(lái)一段時(shí)期的需求;(3)預(yù)測(cè)客戶(hù)流失的可能性,或者采取及時(shí)的補(bǔ)救措施,或者做出減少不必要的投資等決策,最大限度地保留客戶(hù)和降低企業(yè)的損失;(4)測(cè)評(píng)客戶(hù)忠誠(chéng)度,識(shí)別忠誠(chéng)客戶(hù)??蛻?hù)知識(shí)的展現(xiàn)通過(guò)商務(wù)智能技術(shù)所獲得的客戶(hù)知識(shí)(特征、忠誠(chéng)度、盈利能力、行為模式)必須通過(guò)操作和協(xié)作型CRM系統(tǒng)才能最終實(shí)現(xiàn)為客戶(hù)提供更好服務(wù)的目標(biāo),從而形成業(yè)務(wù)行動(dòng)的閉環(huán),真正發(fā)揮CRM的各層次的綜合效應(yīng)??蛻?hù)知識(shí)的深入挖掘78客戶(hù)智能系統(tǒng)結(jié)構(gòu)圖客戶(hù)智能系統(tǒng)結(jié)構(gòu)圖79構(gòu)建一個(gè)完整的智能CRM系統(tǒng)的幾個(gè)步驟:1.整合客戶(hù)信息資源對(duì)于那些以前沒(méi)有應(yīng)用過(guò)任何CRM系統(tǒng)的企業(yè)來(lái)說(shuō),首先需要把孤立的業(yè)務(wù)系統(tǒng)整合到一個(gè)統(tǒng)一的平臺(tái)之下,解決“信息孤島”。而對(duì)于己有CRM系統(tǒng)的企業(yè),則需要建立一個(gè)企業(yè)信息門(mén)戶(hù),使客戶(hù)和企業(yè)能在一個(gè)統(tǒng)一的界面下進(jìn)行數(shù)據(jù)和信息交換,從而保證客戶(hù)數(shù)據(jù)的一致性。2.建立客戶(hù)數(shù)據(jù)倉(cāng)庫(kù)規(guī)劃數(shù)據(jù)倉(cāng)庫(kù),以企業(yè)的業(yè)務(wù)模型為基礎(chǔ),確定需要建立能夠描述主要業(yè)務(wù)主題的數(shù)據(jù)模型;設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù),根據(jù)邏輯模型和性能要求進(jìn)行物理模型的設(shè)計(jì),制定數(shù)據(jù)存儲(chǔ)策略以及各種商業(yè)規(guī)則等;

構(gòu)建一個(gè)完整的智能CRM系統(tǒng)的幾個(gè)步驟:80(3)構(gòu)造數(shù)據(jù)分析模型根據(jù)企業(yè)需要分析的對(duì)象和目標(biāo),構(gòu)造有針對(duì)性的分析模型。針對(duì)客戶(hù)對(duì)企業(yè)的貢獻(xiàn)差異,構(gòu)造客戶(hù)盈利能力分析模型;針對(duì)客戶(hù)對(duì)企業(yè)信用程度的不同,構(gòu)造客戶(hù)信用分析模型;根據(jù)客戶(hù)對(duì)產(chǎn)品功能的需求不同,構(gòu)造客戶(hù)分類(lèi)分析模型;根據(jù)客戶(hù)的獲得、流失情況,構(gòu)造客戶(hù)獲取流失分析模型等等。(4)建立客戶(hù)知識(shí)管理系統(tǒng)建立一個(gè)動(dòng)態(tài)的客戶(hù)知識(shí)庫(kù)以及制定客戶(hù)知識(shí)的分發(fā)規(guī)則和保存機(jī)制。與客戶(hù)數(shù)據(jù)倉(cāng)庫(kù)一樣,客戶(hù)知識(shí)管理系統(tǒng)也不是一開(kāi)始就能建立好的,它需要在使用的過(guò)程中進(jìn)行不斷地調(diào)整和完善,是一個(gè)動(dòng)態(tài)完成的系統(tǒng)。(3)構(gòu)造數(shù)據(jù)分析模型81客戶(hù)行為分析(獲取新客戶(hù)、客戶(hù)流失與保持分析、客戶(hù)盈利能力分析)獲取新客戶(hù)獲取新客戶(hù)就是“說(shuō)服”原本不是你的客戶(hù)的消費(fèi)者成為你的客戶(hù)。這些消費(fèi)者可能是對(duì)你的產(chǎn)品/服務(wù)不了解的顧客,也可能是你的產(chǎn)品/服務(wù)的潛在消費(fèi)者,還可能是你競(jìng)爭(zhēng)對(duì)手的客戶(hù)。針對(duì)這些不同的消費(fèi)者需要采用不同的策略才能有效的獲取到新客戶(hù)。另外,在獲取新客戶(hù)之前,不得不確定哪些消費(fèi)者是值得努力的,預(yù)測(cè)不同客戶(hù)對(duì)營(yíng)銷(xiāo)努力的反映情況也是提高獲取新客戶(hù)成功率的一個(gè)前提。還有,客戶(hù)分優(yōu)劣,有些客戶(hù)獲得時(shí)付出的努力要比他們成為公司客戶(hù)后貢獻(xiàn)的利潤(rùn)低,這樣的客戶(hù)還是不獲得為好。客戶(hù)行為分析(獲取新客戶(hù)、客戶(hù)流失與保持分析、客戶(hù)盈利能力分82因此,企業(yè)要想通過(guò)CRM有效獲得新客戶(hù),必須明確不同客戶(hù)的特性。目標(biāo)市場(chǎng)在哪里?哪些客戶(hù)是企業(yè)的潛在客戶(hù)?哪些潛在客戶(hù)是優(yōu)質(zhì)客戶(hù)?客戶(hù)獲取的難易程度如何?常用的數(shù)據(jù)挖掘技術(shù)和方法有分類(lèi)與預(yù)測(cè)、聚類(lèi)、關(guān)聯(lián)分析和異類(lèi)分析等。例如用關(guān)聯(lián)的方法,通過(guò)發(fā)現(xiàn)諸如“在購(gòu)買(mǎi)A商品后,一段時(shí)間里顧客會(huì)接著購(gòu)買(mǎi)商品B,而后購(gòu)買(mǎi)商品C”這樣的知識(shí),來(lái)形成“A-B--C”客戶(hù)行為模式。還可以對(duì)現(xiàn)有客戶(hù)特征進(jìn)行聚類(lèi)分析,建立客戶(hù)特征模型,以最有效地預(yù)測(cè)目標(biāo)市場(chǎng)和發(fā)現(xiàn)潛在客戶(hù)。

因此,企業(yè)要想通過(guò)CRM有效獲得新客戶(hù),必須明確不同客戶(hù)的特83K-近鄰分類(lèi)方法

基本思想:K-近鄰分類(lèi)是基于類(lèi)比學(xué)習(xí)的,每個(gè)樣本代表d維空間的一個(gè)點(diǎn)。當(dāng)給定一個(gè)未知樣本時(shí),K-近鄰分類(lèi)法將搜索樣本空間,找出最接近未知樣本的K個(gè)訓(xùn)練樣本,這K個(gè)訓(xùn)練樣本是未知樣本的K個(gè)“近鄰”。近鄰性一般用歐幾里德距離定義:或采用絕對(duì)值距離:缺點(diǎn):計(jì)算量大優(yōu)點(diǎn):適合各種數(shù)據(jù)類(lèi)型的數(shù)據(jù)

K-近鄰分類(lèi)方法基本思想:K-近鄰分類(lèi)是基于類(lèi)比學(xué)習(xí)的,每84利用K-近鄰方法進(jìn)行潛在客戶(hù)預(yù)測(cè)考察的客戶(hù)自身屬性:企業(yè)總資產(chǎn)值、年銷(xiāo)售收入、距電器銷(xiāo)售公司的地理距離及企業(yè)所處地域的經(jīng)濟(jì)發(fā)達(dá)程度??蛻?hù)的消費(fèi)屬性為過(guò)去一年內(nèi)對(duì)電器銷(xiāo)售公司的總購(gòu)買(mǎi)額。1.數(shù)據(jù)處理:銷(xiāo)售公司把客戶(hù)的消費(fèi)屬性分為10萬(wàn)元以下、10萬(wàn)至100萬(wàn)、100萬(wàn)500萬(wàn)、500萬(wàn)以上四個(gè)區(qū)間,分別取值1,2,3,4;把企業(yè)所處地域的經(jīng)濟(jì)發(fā)達(dá)程度根據(jù)實(shí)際情況分為貧困、欠發(fā)達(dá)、發(fā)達(dá)、極發(fā)達(dá)四檔,分別取值1,2,3,4;其余客戶(hù)屬性(企業(yè)總資產(chǎn)值、年銷(xiāo)售收入、距銷(xiāo)售公司的地理距離)也通過(guò)區(qū)間劃分完成量化及歸一化處理。表1是經(jīng)過(guò)標(biāo)準(zhǔn)化處理的老客戶(hù)數(shù)據(jù),表2是經(jīng)過(guò)標(biāo)準(zhǔn)化處理的潛在客戶(hù)數(shù)據(jù)。利用K-近鄰方法進(jìn)行潛在客戶(hù)預(yù)測(cè)考察的客戶(hù)自身屬性:企業(yè)總資85表1老客戶(hù)數(shù)據(jù)老客戶(hù)總資產(chǎn)年銷(xiāo)售收入地理距離所處發(fā)達(dá)程度年總購(gòu)買(mǎi)額11.51.61.20.4221.53.21.20.63310.80.40.2141.53.20.40.84511.60.40.4260.51.60.40.42………………………………表2潛在客戶(hù)數(shù)據(jù)潛在客戶(hù)總資產(chǎn)年銷(xiāo)售收入地理距離所處發(fā)達(dá)程度年總購(gòu)買(mǎi)額A1.51.61.20.4待預(yù)測(cè)B0.81.20.40.2待預(yù)測(cè)………………………………表1老客戶(hù)數(shù)據(jù)老客戶(hù)總資產(chǎn)年銷(xiāo)售收入地理距離所處發(fā)達(dá)程度年總862.預(yù)測(cè)為了預(yù)測(cè)客戶(hù)A對(duì)公司電器產(chǎn)品的年購(gòu)買(mǎi)額,我們只須從處理后的老客戶(hù)數(shù)據(jù)中找到K個(gè)最近鄰(這里設(shè)定K=2)。例如:A與客戶(hù)1的距離:D(A,l)=(1.5-1)+(2.4-1.6)+(1.6-1.2)+(0.4-0.4)=1.7,同理計(jì)算可得到:D(A,2)=1.9,D(A,3)=3,D(A,4)=2.9,D(A,5)=1.6,D(A,6)=2.5可以看出,A的2個(gè)最近鄰為老客戶(hù)1和5,可以預(yù)測(cè)其對(duì)公司電器產(chǎn)品的年購(gòu)買(mǎi)額將在10萬(wàn)和100萬(wàn)之間,我們還可以從處理之前的老客戶(hù)數(shù)據(jù)庫(kù)中得到客戶(hù)1和5的實(shí)際年購(gòu)買(mǎi)額,以對(duì)A的年購(gòu)買(mǎi)額進(jìn)行更精確的預(yù)計(jì),假設(shè)銷(xiāo)售公司規(guī)定年總購(gòu)買(mǎi)額在500萬(wàn)以上的是公司的重點(diǎn)客戶(hù),那么我們可以進(jìn)一步預(yù)測(cè)潛在客戶(hù)的類(lèi)別,從而可以指定精確的營(yíng)銷(xiāo)計(jì)劃,來(lái)獲取客戶(hù)。2.預(yù)測(cè)87將數(shù)據(jù)挖掘應(yīng)用于客戶(hù)的獲取活動(dòng)與傳統(tǒng)的市場(chǎng)營(yíng)銷(xiāo)策略比較其優(yōu)勢(shì)在哪里?下面我們通過(guò)一個(gè)例子進(jìn)行詳細(xì)的說(shuō)明。某大銀行A進(jìn)行直郵的市場(chǎng)營(yíng)銷(xiāo)活動(dòng)以獲取信用卡客戶(hù),向100萬(wàn)名潛在客戶(hù)提供信用卡的申請(qǐng)表。使用傳統(tǒng)的做法,A銀行向這100萬(wàn)名潛在客戶(hù)寄出信用卡申請(qǐng)表,共有6%的郵件得到申請(qǐng)回應(yīng)。得到這些潛在客戶(hù)的回應(yīng)后,需根據(jù)信用風(fēng)險(xiǎn)程度對(duì)它們的申請(qǐng)進(jìn)行篩選,毫無(wú)疑問(wèn),往往是信用差的潛在客戶(hù)更可能申請(qǐng)信用卡,所以最終篩選后的結(jié)果只有16%的回應(yīng)者是符合信用要求的,即大約占總潛在客戶(hù)的1%(6%×16%≈1%)成為最終客戶(hù)。A銀行郵寄一份申請(qǐng)表需花費(fèi)¥1的費(fèi)用,每個(gè)客戶(hù)在隨后的兩年將為銀行帶來(lái)¥125的利潤(rùn)。那么用傳統(tǒng)方法營(yíng)銷(xiāo)得到的凈回報(bào):¥250,000(¥125×10,000-¥1×1,000,000=Y250,000)將數(shù)據(jù)挖掘應(yīng)用于客戶(hù)的獲取活動(dòng)與傳統(tǒng)的市場(chǎng)營(yíng)銷(xiāo)策略比較其優(yōu)勢(shì)88數(shù)據(jù)挖掘技術(shù)的應(yīng)用首先,A銀行寄出50,000份進(jìn)行測(cè)試,并對(duì)反饋的結(jié)果進(jìn)行分析,將這些數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)應(yīng)用數(shù)據(jù)挖掘算法建立預(yù)測(cè)模型,包括潛在客戶(hù)的回應(yīng)的模型(可以用決策樹(shù)方法)和信用評(píng)分模型(可以用神經(jīng)網(wǎng)絡(luò)方法)。然后,結(jié)合這兩個(gè)模型找出哪些潛在客戶(hù)的信用風(fēng)險(xiǎn)低且很大可能會(huì)接受提供的申請(qǐng)表。根據(jù)這些方法,A銀行在剩下的950,000個(gè)潛在客戶(hù)中選取其中信用好的700,000個(gè)進(jìn)行郵寄。結(jié)果是,通過(guò)這郵寄的750,000份申請(qǐng)表,共收到9,000個(gè)潛在客戶(hù)接受信用卡,即接受的比率為1.2%(9,000÷750,000=1.2%),比傳統(tǒng)方法的1%提高了20個(gè)百分點(diǎn)。還有1,000個(gè)客戶(hù)在未寄的250,000個(gè)潛在客戶(hù)中,他們是被模型篩選掉的,很明顯,若對(duì)他們也進(jìn)行郵寄的話(huà),需花費(fèi)¥250,000但他們帶來(lái)的利益只有¥125,000(¥125×1,000=¥125,000),表明為獲得這些客戶(hù)的成本是大于他們所能帶來(lái)的收益的,故將他們放棄。數(shù)據(jù)挖掘技術(shù)的應(yīng)用89表3傳統(tǒng)方法和數(shù)據(jù)挖掘方法獲取新客戶(hù)的比較指標(biāo)傳統(tǒng)方法數(shù)據(jù)挖掘方法差異郵寄總數(shù)量1,000,000750,000250,000郵寄總成本¥1,000,000¥750,000¥250,000成為新客戶(hù)的數(shù)量10,0009,0001,000每個(gè)新客戶(hù)帶來(lái)的毛利¥125¥125¥0總毛利¥1,250,000¥1,125,000¥125,000凈利潤(rùn)¥250,000¥375,000¥125,000數(shù)據(jù)挖掘建模成本¥0¥40000¥40000最終凈利潤(rùn)¥250,000¥335,000¥85,000從表中可以看到,凈利潤(rùn)增加了¥125,000,即使減去數(shù)據(jù)挖掘的成本¥40,000其最終凈利潤(rùn)也還多出¥85,000。另外,本例中建立模型的投資回報(bào)率(ROT)也比較高,為212.5%(¥85,000÷¥40,000=212.5%。從而顯示了將數(shù)據(jù)挖掘技術(shù)應(yīng)用與新客戶(hù)獲取中的優(yōu)勢(shì)所在。表3傳統(tǒng)方法和數(shù)據(jù)挖掘方法獲取新客戶(hù)的比較指標(biāo)傳統(tǒng)方法數(shù)據(jù)90決策樹(shù)分類(lèi)方法決策樹(shù)提供了一種展示類(lèi)似在什么條件下會(huì)得到什么值這類(lèi)規(guī)則的方法。比如,在貸款申請(qǐng)中,要對(duì)申請(qǐng)的風(fēng)險(xiǎn)大小做出判斷,圖1是為了解決這個(gè)問(wèn)題而建立的一棵決策樹(shù),從中我們可以看到?jīng)Q策樹(shù)的基本組成部分:決策節(jié)點(diǎn)、分支和葉子。是否是否是否收入>40000工作時(shí)間>5年高負(fù)債低風(fēng)險(xiǎn)高風(fēng)險(xiǎn)低風(fēng)險(xiǎn)高風(fēng)險(xiǎn)決策樹(shù)分類(lèi)方法決策樹(shù)提供了一種展示類(lèi)似在什么條件下會(huì)得到什么91決策樹(shù)的每個(gè)節(jié)點(diǎn)子節(jié)點(diǎn)的個(gè)數(shù)與決策樹(shù)應(yīng)用的算法有關(guān)。如CART算法得到的決策樹(shù)每個(gè)節(jié)點(diǎn)有兩個(gè)分支,這種樹(shù)稱(chēng)為二叉樹(shù)。允許節(jié)點(diǎn)含有多于兩個(gè)子節(jié)點(diǎn)的樹(shù)稱(chēng)為多叉樹(shù)。每個(gè)分支要么是一個(gè)新的決策節(jié)點(diǎn),要么是樹(shù)的結(jié)尾,稱(chēng)為葉子。在沿著決策樹(shù)從上到下遍歷的過(guò)程中,在每個(gè)節(jié)點(diǎn)都會(huì)遇到一個(gè)問(wèn)題,對(duì)每個(gè)節(jié)點(diǎn)上問(wèn)題的不同回答導(dǎo)致不同的分支,最后會(huì)到達(dá)一個(gè)葉子節(jié)點(diǎn)。這個(gè)過(guò)程就是利用決策樹(shù)進(jìn)行分類(lèi)的過(guò)程,即利用幾個(gè)變量(每個(gè)變量對(duì)應(yīng)一個(gè)問(wèn)題)來(lái)判斷所屬的類(lèi)別(最后每個(gè)葉子會(huì)對(duì)應(yīng)一個(gè)類(lèi)別)。常用的算法有分類(lèi)回歸樹(shù)CART、ID3、和C4.5等決策樹(shù)的每個(gè)節(jié)點(diǎn)子節(jié)點(diǎn)的個(gè)數(shù)與決策樹(shù)應(yīng)用的算法有關(guān)。92

ID3算法運(yùn)用信息熵理論,選擇當(dāng)前樣本屬性集中具有最大信息增益值的屬性作為測(cè)試屬性。該屬性使得對(duì)結(jié)果劃分中的樣本分類(lèi)所需的信息量最小,并反映劃分的最小隨機(jī)性或“不純性”。這種信息理論方法使得對(duì)一個(gè)對(duì)象分類(lèi)所需的期望測(cè)試數(shù)目達(dá)到最小,并確保找到一棵簡(jiǎn)單樹(shù)。設(shè)S是s個(gè)數(shù)據(jù)樣本的集合。假定類(lèi)標(biāo)號(hào)屬性具有m個(gè)不同值,定義m個(gè)不同類(lèi)(i=1,?,m)。設(shè)是類(lèi)中的樣本數(shù)。對(duì)一個(gè)給定的樣本分類(lèi)所需的期望信息是:其中是任意樣本屬于的概率,并用估計(jì)。ID3算法運(yùn)用信息熵理論,選擇當(dāng)前樣本屬性集中具有最大信息93設(shè)屬性A為測(cè)試屬性,它具有V個(gè)不同的值用表示屬性A取值為的樣本子集屬于類(lèi)的樣本數(shù)。那么按照屬性A的每個(gè)屬性值進(jìn)行分割的期望信息稱(chēng)作A的熵,由下式給出:在A上分割獲得的信息增益定義為:依據(jù)上述方法,計(jì)算每個(gè)屬性的信息增益,屬性的信息增益越大,區(qū)分度越大。設(shè)屬性A為測(cè)試屬性,它具有V個(gè)不同的值用表示屬性A取值為的樣94通過(guò)對(duì)一組訓(xùn)練數(shù)據(jù)的學(xué)習(xí),構(gòu)造出決策樹(shù)形式的知識(shí)表示,在決策樹(shù)的內(nèi)部結(jié)點(diǎn)進(jìn)行屬性值的比較并根據(jù)不同的屬性值判斷從該結(jié)點(diǎn)向下的分支,在決策樹(shù)葉結(jié)點(diǎn)得到結(jié)論。所以從根到葉結(jié)點(diǎn)的一條路徑就對(duì)應(yīng)著一條規(guī)則,整棵決策樹(shù)就對(duì)應(yīng)著一組析取表達(dá)式規(guī)則?;跊Q策樹(shù)學(xué)習(xí)算法的一個(gè)最大的優(yōu)點(diǎn)就是它在學(xué)習(xí)過(guò)程中不需要使用者了解很多背景知識(shí)。這樣只要訓(xùn)練實(shí)例能夠用屬性—結(jié)論式的方式表達(dá)出來(lái),就能使用該算法來(lái)進(jìn)行學(xué)習(xí)。通過(guò)對(duì)一組訓(xùn)練數(shù)據(jù)的學(xué)習(xí),構(gòu)造出決策樹(shù)形式的知識(shí)表示,在決策95Id職業(yè)收入地區(qū)年齡反應(yīng)1銷(xiāo)售<=2000華北年輕02銷(xiāo)售<=2000華東年輕13銷(xiāo)售<=2000華東中年04非銷(xiāo)售>2000華東中年15非銷(xiāo)售>2000華北老年16非銷(xiāo)售>2000其它老年17非銷(xiāo)售<=2000西北中年08銷(xiāo)售>2000華北年輕19銷(xiāo)售>2000西北中年010銷(xiāo)售<=2000西北年輕011銷(xiāo)售<=2000東北中年012非銷(xiāo)售<=2000其它中年013銷(xiāo)售>2000華北年輕114非銷(xiāo)售>2000東北中年115銷(xiāo)售>2000西北年輕1Id職業(yè)收入地區(qū)年齡反應(yīng)1銷(xiāo)售<=2000華北年輕02銷(xiāo)售<96根據(jù)表中的數(shù)據(jù),類(lèi)反應(yīng)有兩個(gè)不同的值(0,1),因此有兩個(gè)不同的類(lèi)(m=2)。設(shè)類(lèi)C1=0,類(lèi)C2=1。則類(lèi)C1有7個(gè)樣本,類(lèi)C2有8個(gè)樣本。則給定樣本分類(lèi)的期望信息為:I(s1,s2)=I(7,8)=-7/15㏒2(7/15)-8/15㏒2(8/15)=0.997現(xiàn)在計(jì)算每個(gè)屬性的熵,(1)職業(yè):銷(xiāo)售:S11=5,S21=4則I(S11,S21)=0.991非銷(xiāo)售:S12=2,S22=4則I(S12,S22)=0.918信息增益:E(職業(yè))=(S11+S21)*I(S11,S21)/S+(S12+S22)*I(S12,S22)/S=0.991*9/15+0.918*6/15=0.9618GAIN(職業(yè))=0.997-0.9618=0.0352同理:(2)收入:GAIN(收入)=0.4308(3)地區(qū):GAIN(地區(qū))=0.114(4)年齡:GAIN(年齡)=0.226根據(jù)表中的數(shù)據(jù),類(lèi)反應(yīng)有兩個(gè)不同的值(0,1),因此有兩個(gè)不97圖2按照“收入”分割得到的決策樹(shù)圖2按照“收入”分割得到的決策樹(shù)98圖3最終決策樹(shù)圖3最終決策樹(shù)99從圖3中我們可以很直觀的分析出客戶(hù)申請(qǐng)信用卡對(duì)“收入”、“年齡”、“地區(qū)”、“職業(yè)”四個(gè)屬性的反應(yīng)。可以得出一下規(guī)則:1)當(dāng)收入小于等于2000元,如果年齡為中年的話(huà)一般沒(méi)有興趣;2)當(dāng)收入小于等于2000元,來(lái)自地區(qū)為華北、西北、東北或其它的年輕人,一般沒(méi)有興趣;3)當(dāng)收入小于等于2000元,來(lái)自地區(qū)為華東且為年輕人一般有興趣;4)當(dāng)收入大于2000元,且來(lái)自華北、華東、東北或其它地區(qū),一般有興趣;5)當(dāng)收入大于2000元,來(lái)自西北地區(qū)且為

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論