基于clementine的數(shù)據(jù)挖掘算法決策樹_第1頁(yè)
基于clementine的數(shù)據(jù)挖掘算法決策樹_第2頁(yè)
基于clementine的數(shù)據(jù)挖掘算法決策樹_第3頁(yè)
基于clementine的數(shù)據(jù)挖掘算法決策樹_第4頁(yè)
基于clementine的數(shù)據(jù)挖掘算法決策樹_第5頁(yè)
已閱讀5頁(yè),還剩15頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、基于clementine的數(shù)據(jù)挖掘算法章節(jié)安排數(shù)據(jù)挖掘概述決策樹C5.0算法算法231目錄數(shù)據(jù)挖掘方法論步驟1確定培訓(xùn)需求步驟2確定培訓(xùn)目標(biāo)步驟3設(shè)計(jì)培訓(xùn)方案步驟4步驟5落實(shí)培訓(xùn)成果步驟5落實(shí)培訓(xùn)成果業(yè)務(wù)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建立模型模型評(píng)價(jià)模型應(yīng)用商業(yè)目的模型輸出模型定義列出指標(biāo)評(píng)估數(shù)據(jù)質(zhì)量數(shù)據(jù)清洗指標(biāo)篩選選擇算法建立模型模型評(píng)估是否符合商業(yè)目的將數(shù)據(jù)挖掘結(jié)果形成報(bào)告CRISP-DM數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ搸椭髽I(yè)把注意力集中在解決業(yè)務(wù)問題上,它包括了六個(gè)步驟,涵蓋了數(shù)據(jù)挖掘的整個(gè)過程。本次培訓(xùn)內(nèi)容數(shù)據(jù)準(zhǔn)備重要性分析變量重要性分析,是去除變量冗余,是對(duì)變量的濃縮和提煉,保留對(duì)輸出變量的預(yù)測(cè)有重要貢獻(xiàn)

2、的變量和樣本,剔除不重要的變量和樣本。變量與輸出變量、變量間的相關(guān)程度從變量自身考察變量重要性分析方法變量值中缺失值所占比例分類變量中,類別個(gè)數(shù)占樣本比例數(shù)值變量的變異系數(shù)數(shù)值型變量的標(biāo)準(zhǔn)差輸入、輸出變量均為數(shù)值型:做兩個(gè)變量的相關(guān)性分析輸入變量為數(shù)值型、輸出變量為分類型:方差分析(輸出變量為控制變量、輸入變量為觀測(cè)變量)輸入變量為分類型、輸出為數(shù)值型:方差分析(輸入變量為控制變量、輸出變量為觀測(cè)變量)輸入、輸出變量均為分類型:卡方檢驗(yàn)方差分析(Analysis of Variance)是利用樣本數(shù)據(jù)檢驗(yàn)兩個(gè)或兩個(gè)以上的總體均值間是否有差異的一種方法。在研究一個(gè)變量時(shí),它能夠解決多個(gè)總體的均值

3、是否相等的檢驗(yàn)問題;在研究多個(gè)變量對(duì)不同總體的影響時(shí),它也是分析各個(gè)自變量對(duì)因變量影響程度的方法。 背景原理與方法組內(nèi)離差平方和除以自由度 -1 方差分析主要是通過方差比較的方式來對(duì)不同總體參數(shù)進(jìn)行假設(shè)檢驗(yàn)。由于目標(biāo)總體差異的產(chǎn)生來自兩個(gè)方面,一方面由總體組間方差造成即指標(biāo)的不同水平(值)對(duì)結(jié)果的影響,另一方面由總體組內(nèi)方差造成即指標(biāo)的同一水平(值)內(nèi)部隨機(jī)誤差對(duì)結(jié)果的影響,如果某指標(biāo)對(duì)目標(biāo)總體結(jié)果沒有影響則組內(nèi)方差與組間方差近似相等,而如果指標(biāo)對(duì)目標(biāo)總體結(jié)果有顯著影響,則組間方差大于組內(nèi)方差,當(dāng)組間方差與組內(nèi)方差的比值達(dá)到一定程度,或著說達(dá)到某個(gè)臨界點(diǎn)時(shí)就可做出待選指標(biāo)對(duì)結(jié)果影響顯著的判斷。

4、組內(nèi)方差組間方差F12iiijnxx組內(nèi)方差12nxxi組間方差in組內(nèi)離差平方和除以自由度n-1 :表示第i組第j個(gè)值;:表示第i組的均值;:表示第i組數(shù)據(jù)個(gè)數(shù);:表示全體的均值;:表示全體分組個(gè)數(shù);ijxixinxn方差分析例如:調(diào)查學(xué)生學(xué)歷對(duì)用戶做某題的影響學(xué)歷學(xué)生序號(hào)得分組內(nèi)均值組內(nèi)離差和組間離差和組間方差/組內(nèi)方差小學(xué)生1272914186246.55232328中學(xué)生156588258360大學(xué)生1879018293390學(xué)歷學(xué)生序號(hào)得分組內(nèi)均值組內(nèi)方差組間方差組間方差/組內(nèi)方差小學(xué)生12760217820.00036293360中學(xué)生128581928290356大學(xué)生18759

5、1514232358場(chǎng)景一:學(xué)歷對(duì)做數(shù)學(xué)題的影響場(chǎng)景二:學(xué)歷對(duì)做智力題的影響可以看出學(xué)歷對(duì)做數(shù)學(xué)題的影響顯著但對(duì)做智力題的影響不明顯方差分析應(yīng)用場(chǎng)景1、提出基本的無效假設(shè): 行分類變量與列分類變量無關(guān)聯(lián)2、Pearson卡方統(tǒng)計(jì)量 其中r為列聯(lián)表的行數(shù),c為列聯(lián)表的列數(shù), 為觀察頻數(shù),fe為期望頻數(shù)。其中,RT指定單元格所在行的觀測(cè)頻數(shù)合計(jì),CT指定單元格所在列的觀測(cè)頻數(shù)合計(jì),n為觀測(cè)頻數(shù)總計(jì)。3、確定臨界值顯著性水平A,一般為0.05或0.01卡方觀測(cè)值大于卡方臨界值,拒絕零假設(shè),變量間不獨(dú)立卡方觀測(cè)值小于卡方臨界值,接受零假設(shè),變量間獨(dú)立 卡方檢驗(yàn)rcjeijeijijfff1i1202)

6、(0fnRTCTnnCTRTe*nf卡方檢驗(yàn)兩個(gè)分類變量的關(guān)聯(lián)性,其根本思想就是在于比較理論頻數(shù)和實(shí)際頻數(shù)的吻合程度卡方檢驗(yàn)的一般流程: 卡方檢驗(yàn)應(yīng)用場(chǎng)景是否流失終端類型否是合計(jì)4G176822583G146592052G21342255未識(shí)別13284216合計(jì)667267934是否流失終端類型否是合計(jì)4G184742583G146592052G18273255未識(shí)別15462216合計(jì)667267934667/934*258=184267/934*255=73場(chǎng)景:分析終端類型對(duì)用戶流失是否有影響:原始數(shù)據(jù)表期望數(shù)據(jù)表86.3062)6284(154)154132(73)7342(182)

7、182213(59)5959(146)146146(74)7482(184)184176(2222222221、H0:終端類型與用戶流失無關(guān)聯(lián)2、 Pearson卡方統(tǒng)計(jì)量:3、確定臨界值:取 ,自由度n=(4-1)*(2-1)=3,查卡方分布臨界值表得,臨界值為7.81。由于30.867.81因此拒絕零假設(shè),終端類型與用戶流失不獨(dú)立,05. 0章節(jié)安排數(shù)據(jù)挖掘概述決策樹C5.0算法算法231目錄決策樹模型常用的算法有CHAID、CART、 Quest 和C5.0。 對(duì)每個(gè)決策都要求分成的組之間的“差異”最大。各種決策樹算法之間的主要區(qū)別就是對(duì)這個(gè)“差異”衡量方式的區(qū)別。利用訓(xùn)練樣本集完成決策

8、樹的建立過程分枝準(zhǔn)則的確定涉及:第一,如何從眾多的輸入變量中選擇一個(gè)當(dāng)前最佳的分組變量第二,如何從分組變量的眾多取值中找到一個(gè)最佳的分割點(diǎn)樹剪枝的原因:完整的決策樹對(duì)訓(xùn)練樣本特征的捕捉“過于精確”- 過擬和常用的修剪技術(shù):預(yù)修剪:用來限制決策樹的充分生長(zhǎng)。n事先指定決策樹生長(zhǎng)的最大深度n事先指定樹節(jié)點(diǎn)樣本量的最小值后修剪:待決策樹充分生長(zhǎng)完畢后再進(jìn)行剪枝決策樹的生長(zhǎng)決策樹的減枝決策樹(Decision Tree)模型,也稱規(guī)則推理模型通過對(duì)訓(xùn)練樣本的學(xué)習(xí),建立分類規(guī)則依據(jù)分類規(guī)則,實(shí)現(xiàn)對(duì)新樣本的分類屬于有指導(dǎo)(監(jiān)督)式的學(xué)習(xí)方法,有兩類變量:目標(biāo)變量(輸出變量)屬性變量(輸入變量)核心問題n信

9、息量的數(shù)學(xué)定義:n信息熵是信息量的數(shù)學(xué)期望,是信源發(fā)出信息前的平均不確定性,也稱先驗(yàn)熵。信息熵的數(shù)學(xué)定義:n信息熵等于0,表示只存在唯一的信息發(fā)送可能,P(ui)=1,沒有發(fā)送的不確定性;n如果信源的k個(gè)信號(hào)有相同的發(fā)送概率,P(ui)=1/k,則信息發(fā)送的不確定性最大,信息熵達(dá)到最大nP(ui)差別小,信息熵大,平均不確定性大;反之,差別大,信息熵小,平均不確定性小。)(log)(1log)(22iiiuPuPuI)(log)()(1log)()(22iiiiiiuPuPuPuPUEnt信息熵信息熵在C5.0算法中的應(yīng)用 設(shè)S是s個(gè)數(shù)據(jù)樣本的集合。目標(biāo)變量C有m個(gè)不同值Ci(i1,2,m)。

10、設(shè)si中S屬于Ci類的樣本數(shù),則集合S的信息熵定義為:其中 是任意樣本屬于Ci的概率。 設(shè)屬性A具有v個(gè)不同值a1,a2,av。可以用屬性A將S劃分為v個(gè)子集S1,S2,SV;其中,設(shè) sij 是子集 Sj 中類 Ci 的樣本數(shù)。根據(jù)由A劃分成子集的熵為:其中, 是第j個(gè)子集的權(quán), 是 Sj 中的樣本屬于類 Ci 的概率。則屬性變量A帶來的信息增益為 12121,vjjmjjjmjjsssEAIssss12jjmjssss12,mGa i nAIsssEAmiiippSI12)(log)(sspiissssmjjj21vjmiijijmjjjppssssAE11221log)(jijijssp

11、)()()(AESIAGainC5.0算法應(yīng)用場(chǎng)景用戶年齡出賬收入 智能機(jī)信用等級(jí)類別:是否流失1=30高否一般否240中等否一般是540低是一般是640低是良好否73140低是良好是8=30中等否一般否940中等是一般是1140中等否良好否s14,目標(biāo)變量“是否流失”有兩個(gè)不同值,類C1對(duì)應(yīng)于“是”,類C2對(duì)應(yīng)于“否”。則s19,s25,p19/14,p2=5/14。1、計(jì)算對(duì)給定樣本分類所需的期望信息:2、計(jì)算每個(gè)屬性的熵。 94. 0145log145149log149),(2221ssI971. 053log5352log52),(222111ssI0044log44),(22212s

12、sI(1)先計(jì)算屬性“年齡”的熵。對(duì)于年齡“40”:s13=3,s23=2,p13=3/5,p23=2/5, 971. 052log5253log53),(222313ssI場(chǎng)景:利用決策樹算法分析具有哪些特點(diǎn)的用戶最可能流失:如果樣本按“年齡”劃分,對(duì)一個(gè)給定的樣本分類所需的期望信息為:因此,這種劃分的信息增益是 Gain(年齡)=I(s1,s2) - E(年齡)=0.246(2)以相同方法計(jì)算其他屬性的增益得到Gain(出賬收入)=I(s1,s2) - E(收入)=0.940-0.9110.029Gain(智能機(jī))=I(s1,s2) - E(學(xué)生)=0.940-0.7890.151Gain

13、(信用等級(jí))=I(s1,s2) - E(信用等級(jí))=0.940-0.8920.0483、得到較優(yōu)的分類變量 由于 “年齡” 屬性具有最高信息增益,它被選作測(cè)試屬性。創(chuàng)建一個(gè)節(jié)點(diǎn),用“年齡”標(biāo)記,并對(duì)每個(gè)屬性值引出一個(gè)分支694. 0),s (145),s (144),s (145)(231322122111sIsIsIE 年齡C5.0算法應(yīng)用場(chǎng)景出賬收入智能機(jī) 信用等級(jí)是否流失高否一般是低是良好是中等否良好是高是一般是出賬收入 智能機(jī)信用等級(jí) 是否流失高否一般否高否良好否中等否一般否低是一般是中等是良好是出賬收入 智能機(jī)信用等級(jí) 類中等否一般是低是一般是低是良好否中等是一般是中等否良好否年齡4

14、0表3表1表2C5.0算法應(yīng)用場(chǎng)景對(duì)表1進(jìn)行進(jìn)行細(xì)分 。S5,設(shè)類C1對(duì)應(yīng)于“是”,類C2對(duì)應(yīng)于“否”。則s12,s23,p12/5,p2=3/5。1、計(jì)算對(duì)給定樣本分類所需的期望信息:2、計(jì)算每個(gè)屬性的熵。(1)先計(jì)算屬性“出賬收入”的熵。對(duì)于收入“高”:s110,s212,p11=0,p21=1,對(duì)于收入“中等”: s12=1,s22=1,p12=1/2,p22=1/2,對(duì)于收入“低”: s13=1,s23=0,p13=1,p23=0,如果按照出賬收入”劃分的信息增益是:Gain(收入)=I(s1,s2) - E(收入)=0.971-0.40.571(2)以相同方法計(jì)算其他屬性的增益得到G

15、ain(智能機(jī))=I(s1,s2) E(智能機(jī))=0.971-00.971Gain(信用等級(jí))=I(s1,s2) - E(信用等級(jí))=0.971-0.9510.023、得到分類變量:由于 “智能機(jī) ” 屬性具有最高信息增益,它被選作測(cè)試屬性)收入“低”: s13=1,s23=0,p13=1,p23=0,971. 053log5352log52),(2221ssI022log22),(22111ssI121log2121log21),(222212ssI0),(2313ssIC5.0算法應(yīng)用場(chǎng)景同理,對(duì)表2進(jìn)行計(jì)算。得出屬性“信用等級(jí)”具有最高信息增益,它被選作測(cè)試屬性。創(chuàng)建一個(gè)節(jié)點(diǎn),用“信用等

16、級(jí)”標(biāo)記,并對(duì)每個(gè)屬性值引出一個(gè)分支。最終構(gòu)造的決策樹如下圖所示)收入“低”: s13=1,s23=0,p13=1,p23=0,年齡40是智能機(jī)信用等級(jí)否是是否否是一般良好C5.0算法應(yīng)用場(chǎng)景1、IF 年齡“=30” AND 智能機(jī)“否” THEN 是否流失“否” 2、IF 年齡“40” AND 信用等級(jí)“良好”THEN 是否流失“否”5、IF 年齡“40” AND 信用等級(jí)“一般” THEN 是否流失“是”C5.0算法應(yīng)用場(chǎng)景由決策樹產(chǎn)生的分類規(guī)則C5.0的剪枝算法C5.0算法采用后剪枝:1、按照剪枝標(biāo)準(zhǔn),從葉節(jié)點(diǎn)向上逐層剪枝;2、利用統(tǒng)計(jì)學(xué)置信區(qū)間的方法,直接在訓(xùn)練樣本集上估計(jì)誤差;3、剪枝標(biāo)準(zhǔn)是減少誤差12剪枝關(guān)鍵點(diǎn)設(shè)第i個(gè)節(jié)點(diǎn)包含 個(gè)樣本,有 個(gè)預(yù)測(cè)錯(cuò)誤樣本,則錯(cuò)誤率 ,真實(shí)誤差為 ,則錯(cuò)誤率的置信區(qū)間為 其中, 為臨界值,可得真實(shí)誤差的估計(jì)上限 iNiEiiiNEf ie1|)|)1 (2zNffefPiiiii2ziiiiiNffzfe)1 (2C5.0按照“減少誤差(reduce -error)”法,判斷是否剪枝:k為待剪子樹中葉節(jié)點(diǎn)的個(gè)數(shù),pi為第i個(gè)葉節(jié)點(diǎn)所含樣本占子樹所含樣本的比例,ei為第i個(gè)葉節(jié)點(diǎn)的估計(jì)誤差,e為父節(jié)點(diǎn)的估計(jì)誤差),.,2 , 1(1kie

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論