第10章數(shù)據(jù)挖掘與客戶關(guān)系管理_第1頁
第10章數(shù)據(jù)挖掘與客戶關(guān)系管理_第2頁
第10章數(shù)據(jù)挖掘與客戶關(guān)系管理_第3頁
第10章數(shù)據(jù)挖掘與客戶關(guān)系管理_第4頁
第10章數(shù)據(jù)挖掘與客戶關(guān)系管理_第5頁
已閱讀5頁,還剩55頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第9章數(shù)據(jù)挖掘與客戶關(guān)系管理案例 卓越亞馬遜的推薦系統(tǒng)學(xué)習(xí)目標(biāo)通過本章的學(xué)習(xí),將能夠:理解數(shù)據(jù)挖掘的含義熟悉數(shù)據(jù)挖掘的功能熟悉數(shù)據(jù)挖掘的主要技術(shù)掌握數(shù)據(jù)挖掘的業(yè)務(wù)流程了解客戶關(guān)系管理對數(shù)據(jù)挖掘的需求理解數(shù)據(jù)挖掘在客戶關(guān)系管理中的作用數(shù)據(jù)挖掘數(shù)據(jù)挖掘數(shù)據(jù)庫越來越大數(shù)據(jù)庫越來越大有價(jià)值的知識有價(jià)值的知識可怕的數(shù)據(jù)可怕的數(shù)據(jù)數(shù)據(jù)挖掘背景數(shù)據(jù)爆炸,知識貧乏數(shù)據(jù)爆炸,知識貧乏 苦惱: 淹沒在數(shù)據(jù)中 ; 不能制定合適的決策! 數(shù)據(jù)數(shù)據(jù)n模式模式n趨勢趨勢n事實(shí)事實(shí)n關(guān)系關(guān)系n模型模型n關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則n序列序列n目標(biāo)市場目標(biāo)市場n資金分配資金分配n貿(mào)易選擇貿(mào)易選擇n在哪兒做廣告在哪兒做廣告n銷售的地理位置

2、銷售的地理位置n金融金融n經(jīng)濟(jì)經(jīng)濟(jì)n政府政府nPOSn人口統(tǒng)計(jì)人口統(tǒng)計(jì)n生命周期生命周期數(shù)據(jù)挖掘是一個(gè)利用各種分析工具在海量數(shù)據(jù)中發(fā)現(xiàn)模型和數(shù)據(jù)間關(guān)系的過程,這些模型和關(guān)系可以用來做出預(yù)測。 數(shù)據(jù)挖掘(數(shù)據(jù)挖掘(Data MiningData Mining)數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。數(shù)據(jù)挖掘數(shù)據(jù)挖掘的特點(diǎn)數(shù)據(jù)挖掘與傳統(tǒng)分析方法的區(qū)別數(shù)

3、據(jù)挖掘是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識。數(shù)據(jù)挖掘所得到的信息應(yīng)具有先未知,有效和可實(shí)用三個(gè)特征:l先前未知的信息是指該信息是預(yù)先未曾預(yù)料到的,既數(shù)據(jù)挖掘是要發(fā)現(xiàn)那些不能靠直覺發(fā)現(xiàn)的信息或知識,甚至是違背直覺的信息或知識l有效信息是指符合實(shí)際情況且具有一定的代表性l可實(shí)用是指可以指導(dǎo)企業(yè)的營銷決策數(shù)據(jù)挖掘的特點(diǎn) 數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識 數(shù)據(jù)挖掘所得到的信息應(yīng)具有先未知、有效和可實(shí)用三個(gè)特征 數(shù)據(jù)源必須是大量的、真實(shí)的、有噪聲的 發(fā)現(xiàn)的是用戶感興趣的知識 發(fā)現(xiàn)的知識要可接受、可理解、可運(yùn)用 并不要求發(fā)現(xiàn)放之四海皆準(zhǔn)的知識,僅支持特定的發(fā)現(xiàn)問題 客戶接觸客戶

4、接觸 客戶信息客戶信息客戶數(shù)據(jù)庫客戶數(shù)據(jù)庫統(tǒng)計(jì)分析與數(shù)據(jù)挖掘統(tǒng)計(jì)分析與數(shù)據(jù)挖掘客戶知識發(fā)現(xiàn)客戶知識發(fā)現(xiàn)客戶管理客戶管理知識發(fā)現(xiàn):從數(shù)據(jù)中深入抽取隱含的、未知的和有知識發(fā)現(xiàn):從數(shù)據(jù)中深入抽取隱含的、未知的和有潛在用途的信息潛在用途的信息從商業(yè)數(shù)據(jù)到商業(yè)智能各行業(yè)電子商務(wù)網(wǎng)站各行業(yè)電子商務(wù)網(wǎng)站算算法法層層商商業(yè)業(yè)邏邏輯輯層層行行業(yè)業(yè)應(yīng)應(yīng)用用層層商業(yè)應(yīng)用商業(yè)模型挖掘算法CRM產(chǎn)品推薦產(chǎn)品推薦客戶細(xì)分客戶細(xì)分客戶流失客戶流失客戶利潤客戶利潤客戶響應(yīng)客戶響應(yīng)關(guān)聯(lián)規(guī)則、序列模式、分類、聚集、神經(jīng)元網(wǎng)絡(luò)、偏差分析關(guān)聯(lián)規(guī)則、序列模式、分類、聚集、神經(jīng)元網(wǎng)絡(luò)、偏差分析WEB挖掘挖掘網(wǎng)站結(jié)構(gòu)優(yōu)化網(wǎng)站結(jié)構(gòu)優(yōu)化網(wǎng)頁推

5、薦網(wǎng)頁推薦商品推薦商品推薦。基因挖掘基因挖掘基因表達(dá)路徑分析基因表達(dá)路徑分析基因表達(dá)相似性分析基因表達(dá)相似性分析基因表達(dá)共發(fā)生分析基因表達(dá)共發(fā)生分析。銀行銀行電信電信零售零售保險(xiǎn)保險(xiǎn)制藥制藥生物信息生物信息科學(xué)研究科學(xué)研究。相關(guān)行業(yè)數(shù)據(jù)挖掘的應(yīng)用Debt$40KQ QQ QQ QQ QI II I1 12 23 34 45 56 6factor 1factor 2factor n神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò) Neural NetworksNeural Networks聚類分析聚類分析 ClusteringClusteringOpenAccntAdd NewProductDecreaseUsage?Time

6、序列分析序列分析 Sequence AnalysisSequence Analysis決策樹決策樹 Decision TreesDecision Trees 傾向性分析 客戶保留 客戶生命周期管理 目標(biāo)市場 價(jià)格彈性分析 客戶細(xì)分 市場細(xì)分 傾向性分析 客戶保留 目標(biāo)市場 欺詐檢測關(guān)聯(lián)分析關(guān)聯(lián)分析 AssociationAssociation 市場組合分析 套裝產(chǎn)品分析 目錄設(shè)計(jì) 交叉銷售數(shù)據(jù)挖掘的應(yīng)用數(shù)據(jù)挖掘技術(shù)的分類數(shù)據(jù)挖掘技術(shù)的分類回顧分析:注重解決過去和現(xiàn)在的問題 如:兩年來不同地區(qū)、人口和產(chǎn)品情況下的各銷售部門銷售業(yè)績分析預(yù)測分析:在歷史信息的基礎(chǔ)上預(yù)測某些事件和行為 如:建立預(yù)測模

7、型來描述客戶的流失率分類:根據(jù)某種標(biāo)準(zhǔn)將數(shù)據(jù)庫記錄分類到許多預(yù)先定義好的類別 如:信用卡公司將客戶記錄分為好、中、差三類 分類可以產(chǎn)生規(guī)則:如果一個(gè)客戶收入超過5000萬元,年齡在4555歲之間,居住在某地區(qū),那么他的信用等級為好。數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘技術(shù)的分類數(shù)據(jù)挖掘技術(shù)的分類聚類:根據(jù)某些屬性將數(shù)據(jù)庫分割為一些子集和簇 如:在了解客戶的過程中,嘗試使用從未使用過的屬性分割人群以發(fā)現(xiàn)潛在客戶的簇關(guān)聯(lián):通過考察記錄來識別數(shù)據(jù)間的密切關(guān)系 關(guān)聯(lián)關(guān)系常常表現(xiàn)為規(guī)則,常用于超市購物籃分析如:所有包含A和B的記錄中有60同時(shí)包含C。時(shí)間序列:用于幫助識別與時(shí)間有關(guān)的模式 如:通過對客戶多次購物行為的分

8、析可以發(fā)現(xiàn)購物行為在時(shí)間上的關(guān)系 常用于產(chǎn)品目錄營銷的分析數(shù)據(jù)挖掘的一般目的就是數(shù)據(jù)挖掘的一般目的就是檢測、解釋和預(yù)測檢測、解釋和預(yù)測數(shù)據(jù)中定性的和或定量的模式數(shù)據(jù)中定性的和或定量的模式數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘方法學(xué)數(shù)據(jù)挖掘方法學(xué)模式模式 數(shù)據(jù)庫中一個(gè)事件或事件的結(jié)合,這些事件比預(yù)期的要經(jīng)常發(fā)生,其實(shí)際發(fā)生率明顯不同于隨機(jī)情況下的可期望發(fā)生率。 模式是數(shù)據(jù)驅(qū)動(dòng)的,一般只反映數(shù)據(jù)本身模型模型 對構(gòu)建事件的源時(shí)的歷史數(shù)據(jù)庫的描述,并且能夠成功地應(yīng)用于新的數(shù)據(jù),以便對缺少的數(shù)據(jù)作出預(yù)測或?qū)ζ谕臄?shù)據(jù)作出說明。模型的一般表現(xiàn)形式數(shù)學(xué)方程式描述各客戶段的規(guī)則集計(jì)算機(jī)表示方式 模式可視化數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘方

9、法學(xué)數(shù)據(jù)挖掘方法學(xué)取樣取樣 根據(jù)問題的需要采用隨機(jī)取樣的方法從數(shù)據(jù)庫中抽取數(shù)據(jù)進(jìn)行挖掘,有助于迅速發(fā)現(xiàn)模式、創(chuàng)建模型 數(shù)據(jù)本身的處理過程需要驗(yàn)證驗(yàn)證模型 模型創(chuàng)建過程需要保證正確 模型應(yīng)用的驗(yàn)證 在依據(jù)一些歷史數(shù)據(jù)建造模型后,將模型應(yīng)用于未參與建造模型的其他類似的歷史數(shù)據(jù),比較其模型輸出結(jié)果與實(shí)際結(jié)果。數(shù)據(jù)挖掘技術(shù)經(jīng)典方法經(jīng)典方法統(tǒng)計(jì)統(tǒng)計(jì) 統(tǒng)計(jì)可以通過對類似下列問題的回答獲得模式在我的數(shù)據(jù)庫中存在什么模式某個(gè)事件發(fā)生的可能性是什么那些模式是重要的模式 統(tǒng)計(jì)的一個(gè)重要價(jià)值就是它提供了對數(shù)據(jù)庫的高層視圖,這種視圖提供了有用的信息,但不要求在細(xì)節(jié)上理解數(shù)據(jù)庫的每一條記錄。數(shù)據(jù)挖掘方法經(jīng)典方法經(jīng)典方法

10、最近鄰最近鄰 通過檢測與預(yù)測對象最接近的對象的狀況對預(yù)測對象進(jìn)行預(yù)測 原理: 某一特定對象可能與其他某一或某些對象比其 它一些第三對象更接近; 相互之間“接近”的對象會(huì)有相似的取值 根據(jù)其中一個(gè)對象的取值,預(yù)測其最近鄰對象的預(yù)測值 商業(yè) 應(yīng)用:文獻(xiàn)檢索市場籃子分析 應(yīng)用 評價(jià): 最近鄰的數(shù)量最近鄰的距離決定最近鄰預(yù)測的可信度數(shù)據(jù)挖掘方法現(xiàn)代方法現(xiàn)代方法基礎(chǔ)理論有指導(dǎo)的學(xué)習(xí)(Supervised Learning)歸納 概念 分類標(biāo)準(zhǔn)與模型 分類有指導(dǎo)的學(xué)習(xí)的目的:建立分類模型用模型確定新數(shù)據(jù)實(shí)例的類別訓(xùn)練數(shù)據(jù)(Training Data)與檢驗(yàn)集(Test Set)用于創(chuàng)建模型的數(shù)據(jù)實(shí)例稱為訓(xùn)

11、練數(shù)據(jù)用于檢驗(yàn)?zāi)P偷臏?zhǔn)確度的數(shù)據(jù)實(shí)例稱為檢驗(yàn)集數(shù)據(jù)挖掘方法 有指導(dǎo)的學(xué)習(xí)有指導(dǎo)的學(xué)習(xí)(Supervised Learning)患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結(jié)果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感癥3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感癥7NoNoYesNoNo咽炎8YesNoNoYesYes敏感癥9NoYesNoYesYes感冒10yesYesnoYesYes感冒淋巴腫淋巴腫數(shù)據(jù)挖掘方法患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結(jié)果11NoNoYesYesYes?12YesYesN

12、oNoYes?13NoNoNoNoYes?有指導(dǎo)的學(xué)習(xí)(Supervised Learning)患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結(jié)果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感癥3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感癥7NoNoYesNoNo咽炎8YesNoNoYesYes敏感癥9NoYesNoYesYes感冒10yesYesNoYesYes感冒淋巴腫淋巴腫發(fā)發(fā) 燒燒No No Yes Yes 咽炎敏感癥感冒淋巴腫、發(fā)燒是有意義的屬性嗓子痛、充血、頭痛是無意義的屬性數(shù)據(jù)挖掘方法 有指導(dǎo)的

13、學(xué)習(xí)有指導(dǎo)的學(xué)習(xí)(Supervised Learning)淋巴腫發(fā) 燒No No Yes Yes 咽炎敏感癥感冒患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結(jié)果11NoNoYesYesYes?12YesYesNoNoYes?13NoNoNoNoYes?未知分類的數(shù)據(jù)實(shí)例(檢驗(yàn)集)數(shù)據(jù)挖掘方法無指導(dǎo)的學(xué)習(xí)無指導(dǎo)的學(xué)習(xí)(Unsupervised Learning)為沒有預(yù)先定義分類標(biāo)準(zhǔn)的數(shù)據(jù)建立模型客戶ID客戶類型交易保證金帳戶交易方法交易數(shù)月性別年齡嗜好年收入1005聯(lián)合NoOnline12.5F30-39網(wǎng)球45.9萬1013委托保管NoBroke0.5F50-59滑雪89.9萬1245聯(lián)合NoOnl

14、ine3.6M20-29高爾夫23.9萬2110個(gè)人YesBroke22.3M30-39釣魚45.9萬1001個(gè)人YesOnline5.0M40-49高爾夫67.9萬ABC投資公司客戶表數(shù)據(jù)挖掘方法無指導(dǎo)的學(xué)習(xí)無指導(dǎo)的學(xué)習(xí)(Unsupervised Learning)區(qū)分在線投資者和經(jīng)紀(jì)人投資者的特征是什么一個(gè)新客戶未開設(shè)交易保證金帳戶,如何確定其將來是否會(huì)開設(shè)這種帳戶能建立一個(gè)預(yù)測新投資者月均交易數(shù)的模型嗎女性和男性投資者有什么不同的特征交易方式交易保證金帳戶月均交易數(shù)性別數(shù)數(shù) 據(jù)據(jù) 挖挖 掘掘 問問 題題屬屬 性性哪些屬性相似性決定ABC公司的客戶分組屬性值的哪些不同之處分隔了客戶數(shù)據(jù)庫有

15、指導(dǎo)有指導(dǎo)的學(xué)習(xí)的學(xué)習(xí)無指導(dǎo)無指導(dǎo)的學(xué)習(xí)的學(xué)習(xí)數(shù)據(jù)挖掘方法現(xiàn)代方法決策樹(Decision Tree)決策樹是一種有指導(dǎo)學(xué)習(xí)的數(shù)據(jù)挖掘方法決策樹的組成決策節(jié)點(diǎn)、分支、葉子根節(jié)點(diǎn)分支葉子Debt$40K節(jié)點(diǎn) 決策樹的分支過程就是對數(shù)據(jù)進(jìn)行分類的過程,利用幾個(gè)變量(每個(gè)變量對應(yīng)一個(gè)問題)來判斷數(shù)據(jù)所屬的類別。在分支后,要使不同分支之間數(shù)據(jù)的差異盡可能大、同一分支內(nèi)的數(shù)據(jù)盡量相同。這一分割過程也就是數(shù)據(jù)的“純化”過程。數(shù)據(jù)挖掘方法決決策策樹樹的的算算法法步步驟驟假設(shè)T為訓(xùn)練實(shí)例集選擇一個(gè)最能區(qū)別T中實(shí)例的屬性創(chuàng)建一個(gè)決策節(jié)點(diǎn),它的值為所選擇的屬性創(chuàng)建該節(jié)點(diǎn)的分支,每個(gè)分支代表所選屬性的一個(gè)唯一值使用

16、分支的值,將數(shù)據(jù)實(shí)例分割為子類對于步驟5所創(chuàng)建的各個(gè)子類: 如果子類中的數(shù)據(jù)實(shí)例滿足以下條件,可按此決策樹對新數(shù)據(jù)實(shí)例指定類別 分割中只包含一條數(shù)據(jù)實(shí)例 分割中所有數(shù)據(jù)實(shí)例的屬性都相同 繼續(xù)分割得到的改進(jìn)不明顯 如果子類不滿足上述條件,則設(shè)T為當(dāng)前子類數(shù)據(jù)實(shí)例集合,返回步驟 2數(shù)據(jù)挖掘方法決策樹的屬性選取決策樹的屬性選取屬性選取標(biāo)準(zhǔn): 最大化反映數(shù)據(jù)差異,使樹的層次和節(jié)點(diǎn)數(shù)最小患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結(jié)果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感癥3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYes

17、No敏感癥7NoNoYesNoNo咽炎8YesNoNoYesYes敏感癥9NoYesNoYesYes感冒10yesYesnoYesYes感冒淋巴腫淋巴腫發(fā)發(fā) 燒燒No No Yes Yes 咽炎敏感癥感冒數(shù)據(jù)挖掘方法患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結(jié)果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感癥3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感癥7NoNoYesNoNo咽炎8YesNoNoYesYes敏感癥9NoYesNoYesYes感冒10yesYesnoYesYes感冒淋巴腫發(fā) 燒No No

18、Yes Yes 敏感癥敏感癥咽炎No Yes 頭 痛淋巴腫感冒發(fā) 燒淋巴腫No Yes 咽炎No Yes 數(shù)據(jù)挖掘方法決策樹的屬性選取決策樹的屬性選取屬性選取標(biāo)準(zhǔn): 最大化反映數(shù)據(jù)差異,使樹的層次和節(jié)點(diǎn)數(shù)最小信用卡促銷數(shù)據(jù)庫信用卡促銷數(shù)據(jù)庫收入收入段段壽險(xiǎn)促壽險(xiǎn)促銷銷信用卡保信用卡保險(xiǎn)險(xiǎn)性性別別年年齡齡4-5萬萬NoNoM453-4萬萬YesNoF404-5萬萬NoNoM423-4萬萬YesYesM435-6萬萬YesNoF382-3萬萬 NoNoF553-4萬萬YesYesM352-3萬萬NoNo M273-4萬萬NoNo F433-4萬萬YesNoF414-5萬萬YesNoM432-3萬萬

19、YesNoF295-6萬萬YesNoF394-5萬萬NoNoM552-3萬萬YesYesF19選取收入段為根節(jié)點(diǎn)選取壽險(xiǎn)促銷為輸出屬性沿著每個(gè)分支有兩個(gè)類,選取最頻繁出現(xiàn)的類收入段收入段2Yes2No4Yes1No3No 1Yes2Yes23萬萬34萬萬45萬萬56萬萬訓(xùn)練集分類的正確性為111573數(shù)據(jù)挖掘方法決策樹(Decision Tree):例信用卡促銷數(shù)據(jù)庫選取信用卡保險(xiǎn)為根節(jié)點(diǎn)選取壽險(xiǎn)促銷為輸出屬性沿著每個(gè)分支有兩個(gè)類,選取最頻繁出現(xiàn)的類信用卡保險(xiǎn)信用卡保險(xiǎn)6Yes6No3Yes 0NoNoYes訓(xùn)練集分類的正確性為91560數(shù)據(jù)挖掘方法收入收入段段壽險(xiǎn)促壽險(xiǎn)促銷銷信用卡保信用卡保

20、險(xiǎn)險(xiǎn)性性別別年年齡齡4-5萬萬NoNoM453-4萬萬YesNoF404-5萬萬NoNoM423-4萬萬YesYesM435-6萬萬YesNoF382-3萬萬 NoNoF553-4萬萬YesYesM352-3萬萬NoNo M273-4萬萬NoNo F433-4萬萬YesNoF414-5萬萬YesNoM432-3萬萬YesNoF295-6萬萬YesNoF394-5萬萬NoNoM552-3萬萬YesYesF19決策樹(Decision Tree):例信用卡促銷數(shù)據(jù)庫選取數(shù)值型屬性年齡為根節(jié)點(diǎn)選取壽險(xiǎn)促銷為輸出屬性依照年齡排序,對照輸出屬性進(jìn)行數(shù)據(jù)分割,選擇數(shù)據(jù)分割點(diǎn)年年 齡齡9Yes3No0Yes

21、 3No4343以年齡43結(jié)合壽險(xiǎn)促銷Yes,訓(xùn)練集分類的正確性為121580172729353839404142434343455555YNYYYYYYNYYNNNN數(shù)據(jù)挖掘方法收入收入段段壽險(xiǎn)促壽險(xiǎn)促銷銷信用卡保信用卡保險(xiǎn)險(xiǎn)性性別別年年齡齡4-5萬萬NoNoM453-4萬萬YesNoF404-5萬萬NoNoM423-4萬萬YesYesM435-6萬萬YesNoF382-3萬萬 NoNoF553-4萬萬YesYesM352-3萬萬NoNo M273-4萬萬NoNo F433-4萬萬YesNoF414-5萬萬YesNoM432-3萬萬YesNoF295-6萬萬YesNoF394-5萬萬NoNo

22、M552-3萬萬YesYesF19決策樹(Decision Tree):例信用卡促銷數(shù)據(jù)庫年 齡Yes(61)No(21)4343性 別F M信用卡保險(xiǎn)Yes(20)No(30)No Yes信用卡數(shù)據(jù)庫的三節(jié)點(diǎn)決策樹信用卡數(shù)據(jù)庫的三節(jié)點(diǎn)決策樹訓(xùn)練集分類的正確性為131587數(shù)據(jù)挖掘方法收入收入段段壽險(xiǎn)促壽險(xiǎn)促銷銷信用卡保信用卡保險(xiǎn)險(xiǎn)性性別別年年齡齡4-5萬萬NoNoM453-4萬萬YesNoF404-5萬萬NoNoM423-4萬萬YesYesM435-6萬萬YesNoF382-3萬萬 NoNoF553-4萬萬YesYesM352-3萬萬NoNo M273-4萬萬NoNo F433-4萬萬Yes

23、NoF414-5萬萬YesNoM432-3萬萬YesNoF295-6萬萬YesNoF394-5萬萬NoNoM552-3萬萬YesYesF19決策樹(DecisionTree):例信用卡促銷數(shù)據(jù)庫收入收入段段壽險(xiǎn)促壽險(xiǎn)促銷銷信用卡保信用卡保險(xiǎn)險(xiǎn)性性別別年年齡齡4-5萬萬NoNoM453-4萬萬YesNoF404-5萬萬NoNoM423-4萬萬YesYesM435-6萬萬YesNoF382-3萬萬 NoNoF553-4萬萬YesYesM352-3萬萬NoNo M273-4萬萬NoNo F433-4萬萬YesNoF414-5萬萬YesNoM432-3萬萬YesNoF295-6萬萬YesNoF394-

24、5萬萬NoNoM552-3萬萬YesYesF19信用卡保險(xiǎn)Yes(52)No(41)NoYes性 別F MYes(30)信用卡數(shù)據(jù)庫的兩節(jié)點(diǎn)決策樹信用卡數(shù)據(jù)庫的兩節(jié)點(diǎn)決策樹訓(xùn)練集分類的正確性為121580數(shù)據(jù)挖掘方法決策樹(Decision Tree):例信用卡促銷數(shù)據(jù)庫檢驗(yàn)集收入段壽險(xiǎn)促銷信用卡保險(xiǎn)性別年齡檢驗(yàn)結(jié)果4-5萬NoNoM42正確2-3萬NoNoM27正確3-4萬NoNoM43正確2-3萬YesNoM29錯(cuò)誤年 齡Yes(61)No(21)4343性 別F M信用卡保險(xiǎn)Yes(20)No(30)No Yes信用卡數(shù)據(jù)庫的三節(jié)點(diǎn)決策樹信用卡數(shù)據(jù)庫的三節(jié)點(diǎn)決策樹數(shù)據(jù)挖掘方法現(xiàn)代方法現(xiàn)代

25、方法K平均值算法 K-平均值算法是一種簡單而有效的無指導(dǎo)學(xué)習(xí)的統(tǒng)計(jì)聚類方法,將一組數(shù)據(jù)劃分為不相關(guān)的簇算算 法法 步步 驟驟選擇一個(gè)K值,用以確定簇的總數(shù)在數(shù)據(jù)集中任意選擇K個(gè)數(shù)據(jù)實(shí)例,作為初始的簇中心試用簡單的歐氏距離將其它數(shù)據(jù)實(shí)例賦予距離它們最近的簇中心試用每個(gè)簇中的數(shù)據(jù)實(shí)例,計(jì)算每個(gè)簇的新的平均值如果新的平均值等于次迭代的平均值,終止該過程。否則,用新平均值作為簇中心并重復(fù)步驟35。點(diǎn)A(x1,y1)與點(diǎn)B(x2,y2)之間的歐氏距離計(jì)算式為Disce ABxxyytan()()()121222數(shù)據(jù)挖掘方法K平均值算法:例K-平均值輸入屬性實(shí)例XY1(C1)1.01.521.04.53(

26、C2)2.01.542.03.553.02.565.06.01.選擇K=2,即將所有數(shù)據(jù)實(shí)例分為兩個(gè)簇2.選擇實(shí)例1作為第1個(gè)簇的中心,實(shí)例3作為第2個(gè)簇的中心3.計(jì)算各數(shù)據(jù)實(shí)例與C1、C2之間的歐氏距離Dist(C11)=0.00 Dist(C21)=1.00 C1Dist(C12)=3.00 Dist(C22)=3.16 C1Dist(C13)=1.00 Dist(C23)=0.00 C2Dist(C14)=2.24 Dist(C24)=2.00 C2Dist(C15)=2.24 Dist(C25)=1.41 C2Dist(C16)=6.02 Dist(C26)=5.41 C24.迭代結(jié)果

27、得到以下兩個(gè)簇簇C1包含實(shí)例1、2,簇C2包含實(shí)例3、4、5、6YX 數(shù)據(jù)挖掘方法K平均值算法:例K-平均值輸入屬性實(shí)例XY1(C1)1.01.521.04.53(C2)2.01.542.03.553.02.565.06.05.重新計(jì)算每個(gè)簇的中心 對于C1:x=(1.0+1.0)/2=1.0 y=(1.5+4.5)/2=3.0 對于C2:x=(2.0+2.0+3.0+5.0)/4=3.0 y=(1.5+3.5+2.5+6.0)/4=3.375 因此,新的簇中心為C1=(1.0,3.0) C2=(3.0,3.375)YX 6.由于簇中心改變,進(jìn)行第2次迭代K平均值算法:例K-平均值輸入屬性實(shí)例

28、XY1(C1)1.01.521.04.53(C2)2.01.542.03.553.02.565.06.0Dist(C11)=1.50 Dist(C21)=2.74 C1Dist(C12)=1.50 Dist(C22)=2.29 C1Dist(C13)=1.80 Dist(C23)=2.125 C1Dist(C14)=1.12 Dist(C24)=1.01 C2Dist(C15)=2.06 Dist(C25)=0.875 C2Dist(C16)=5.00 Dist(C26)=3.30 C2第2次迭代的結(jié)果導(dǎo)致了簇的變化:C1包含實(shí)例1、2和3,C2包含4、5和6YX K平均值算法:例K-平均值輸

29、入屬性實(shí)例XY1(C1)1.01.521.04.53(C2)2.01.542.03.553.02.565.06.07.重新計(jì)算每個(gè)簇的中心 對于C1:x=(1.0+1.02.0)/3=1.33 y=(1.5+4.51.5)/3=2.50 對于C2:x=(2.0+3.0+5.0)/3=3.33 y=(3.5+2.5+6.0)/3=4.00 因此,新的簇中心為C1=(1.33,2.50) C2=(3.33,4.00)8.由于簇中心改變,繼續(xù)進(jìn)行第3次迭代YX K平均值算法:例 數(shù)據(jù)實(shí)例與它們所對應(yīng)的簇中心之間的誤差平方和最小K平均值算法的幾個(gè)應(yīng)用K平均值算法的最優(yōu)聚類標(biāo)準(zhǔn)輸出結(jié)果簇中心簇點(diǎn)均方誤差

30、1(2.67, 4.67)(2.00, 1.83)2, 4, 61, 3, 514.502(1.5, 1.5)(2.75, 4.125)1, 32, 4, 5, 615.943(1.8, 2.7) (5, 6)1, 2, 3, 4, 569.60YX YX YX 現(xiàn)代方法關(guān)聯(lián)規(guī)則(Association Rules) 關(guān)聯(lián)規(guī)則的表現(xiàn)形式 關(guān)聯(lián)規(guī)則是一種無指導(dǎo)學(xué)習(xí)的數(shù)據(jù)挖掘中最普遍的知識發(fā)現(xiàn),是指在行為上具有某種關(guān)聯(lián)的多個(gè)事物在一次事件中可能同時(shí)出現(xiàn),從而在多個(gè)事物中建立聯(lián)系規(guī)則的方法。 “如果怎么樣、怎么樣、怎么樣,那么就會(huì)怎么樣” 關(guān)聯(lián)規(guī)則的構(gòu)成 前件“如果怎么樣、怎么樣、怎么樣” 后件“那

31、么就怎么樣” 如果買了西裝,就會(huì)買領(lǐng)帶 如果買精顯彩電,就會(huì)買家庭影院系統(tǒng)規(guī)則的構(gòu)成如果怎么樣、怎么樣、怎么樣,就會(huì)怎么樣如果怎么樣、怎么樣、怎么樣,就會(huì)怎么樣前件,激發(fā)條件前件,激發(fā)條件后件,結(jié)果后件,結(jié)果規(guī)則表現(xiàn)為在前件所有條件成立的前提下,規(guī)則表現(xiàn)為在前件所有條件成立的前提下,后件結(jié)果會(huì)以某一正確概率出現(xiàn)后件結(jié)果會(huì)以某一正確概率出現(xiàn)關(guān)聯(lián)規(guī)則(Association Rules)規(guī)則的置信度和支持度關(guān)聯(lián)規(guī)則(Association Rules) 規(guī)則的置信度又稱為規(guī)則的正確率,是指在前提出現(xiàn)的情況下,后件出現(xiàn)的概率 規(guī)則的支持度又稱為規(guī)則的覆蓋率,是指包含規(guī)則出現(xiàn)的屬性值的交易占所有交易的

32、百分比 例:如果客戶買牛奶,那么他們也會(huì)買面包 置信度:在10000次交易中客戶購買了牛奶,而且其中的5000個(gè)交易也同時(shí)購買了面包,則上述規(guī)則的置信度為50001000050 支持度:在超市一個(gè)月的客戶交易中,共有600000次交易,其中購買牛奶的交易為60000次,支持度為6000060000010 規(guī)則的生成關(guān)聯(lián)規(guī)則(Association Rules) 決策樹方法 規(guī)則1:如果客戶參加了信用卡保險(xiǎn),那么他就會(huì)參加壽險(xiǎn)促銷(置信度33100,支持度31520) 規(guī)則2:如果一個(gè)男性客戶沒有參加信用卡保險(xiǎn),那么他也不會(huì)參加壽險(xiǎn) 促銷(置信度4580,支持度51533) 規(guī)則3:如果一個(gè)女性

33、客戶沒有參加信用卡保險(xiǎn),那么她可能會(huì)參加壽險(xiǎn)促銷(置信度5771,支持度71547) 規(guī)則4:如果是一個(gè)女性客戶,那么她可能會(huì)參加壽險(xiǎn)促銷(置信度6875,支持度81553)信用卡保險(xiǎn)Yes(52)No(41)NoYes性 別F MYes(30)規(guī)則的生成現(xiàn)代方法關(guān)聯(lián)規(guī)則(Association Rules) 最近鄰方法 規(guī)則:如果一個(gè)客戶處于的狀況,那么他可能是一個(gè)逃款者 關(guān)聯(lián)規(guī)則可以使用傳統(tǒng)的方法生成,但適當(dāng)提供的屬性很多時(shí),因?yàn)槊織l規(guī)則的結(jié)果可能包含大量的前提條件,使用傳統(tǒng)方法會(huì)變得不切實(shí)際。規(guī)則的生成現(xiàn)代方法關(guān)聯(lián)規(guī)則(Association Rules) apriori方法 aprio

34、ri方法步驟: 1.設(shè)置最小的屬性值支持度要求 apriori方法是通過生成條目集,按照一定的準(zhǔn)則要求從中選擇規(guī)則的方法。 條目集是指符合一定支持度要求的“屬性值”的組合 2.生成條目集 3.使用生成的條目集來創(chuàng)建規(guī)則規(guī)則的生成現(xiàn)代方法關(guān)聯(lián)規(guī)則(Association Rules)雜志促銷手表促銷壽險(xiǎn)促銷信用卡保險(xiǎn)性別YNNNMYYYNFNNNNMYYYYMYNYNFNNNNFYNYYMNYNNMYNNNMYYYNM apriori方法:例1.設(shè)置最小的屬性值支持度要求(30) 2.生成條目集單項(xiàng)集合條目數(shù)雜志促銷Y7手表促銷Y4手表促銷N6壽險(xiǎn)促銷Y5壽險(xiǎn)促銷N5信用卡保險(xiǎn)N8性別M6性別F

35、4單項(xiàng)條目集合規(guī)則的生成現(xiàn)代方法關(guān)聯(lián)規(guī)則(Association Rules)雜志促銷手表促銷壽險(xiǎn)促銷信用卡保險(xiǎn)性別YNNNMYYYNFNNNNMYYYYMYNYNFNNNNFYNYYMNYNNMYNNNMYYYNM apriori方法:例雙項(xiàng)條目集合雙項(xiàng)集合條目數(shù)雜志促銷Y手表促銷N4雜志促銷Y壽險(xiǎn)促銷Y5雜志促銷Y信用卡保險(xiǎn)N5雜志促銷Y性別M4手表促銷N壽險(xiǎn)促銷N4手表促銷N信用卡保險(xiǎn)N5手表促銷N性別M4壽險(xiǎn)促銷N信用卡保險(xiǎn)N5壽險(xiǎn)促銷N性別M4新英卡保險(xiǎn)N 性別M4信用卡保險(xiǎn)N性別F4規(guī)則的生成現(xiàn)代方法關(guān)聯(lián)規(guī)則(Association Rules)雜志促銷手表促銷壽險(xiǎn)促銷信用卡保險(xiǎn)性

36、別YNNNMYYYNFNNNNMYYYYMYNYNFNNNNFYNYYMNYNNMYNNNMYYYNM apriori方法:例 確定最小置信度(如50),利用雙項(xiàng)條目集合生成規(guī)則3.使用生成的條目集來創(chuàng)建規(guī)則規(guī)則1:如果雜志促銷Y,那么壽險(xiǎn)促銷Y(57) 置信度5771,支持度71070規(guī)則2:如果壽險(xiǎn)促銷Y,那么雜志促銷Y(55) 置信度55100,支持度51050規(guī)則的生成關(guān)聯(lián)規(guī)則(Association Rules) 市場籃子分析就是一種關(guān)聯(lián)規(guī)則的表現(xiàn) 時(shí)間序列分析是一種反映客戶行為在時(shí)間上的關(guān)聯(lián)性的關(guān)聯(lián)規(guī)則 規(guī)則的應(yīng)用關(guān)聯(lián)規(guī)則(Association Rules)以前件為目標(biāo)歸納所有前件一樣的規(guī)則分析后件的營銷效果設(shè)計(jì)促銷方案(完善前件)例收集所有前件為文具、復(fù)讀機(jī)的規(guī)則,分析這

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論