第三章決策樹_第1頁
第三章決策樹_第2頁
第三章決策樹_第3頁
第三章決策樹_第4頁
第三章決策樹_第5頁
已閱讀5頁,還剩41頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1決策樹(DecisionTree)2023/1/1921、分類的意義數(shù)據(jù)庫了解類別屬性與特征預測分類模型—決策樹分類模型—聚類一、分類(Classification)2023/1/193數(shù)據(jù)庫分類標記性別年齡婚姻否是否是FemaleMale<35≧35未婚已婚2023/1/192、分類的技術(shù)(1)決策樹4(2)聚類2023/1/193、分類的程序5模型建立(ModelBuilding)模型評估(ModelEvaluation)使用模型(UseModel)2023/1/19決策樹分類的步驟6數(shù)據(jù)庫2023/1/19訓練樣本(trainingsamples)建立模型測試樣本(testingsamples)評估模型例:7資料訓練樣本婚姻年齡

家庭

所得否是否是未婚已婚<35≧35低高否小康1.建立模型測試樣本2.模型評估錯誤率為66.67%修改模型3.使用模型2023/1/194、分類算法的評估8預測的準確度:指模型正確地預測新的或先前未見過的數(shù)據(jù)的類標號的能力。訓練測試法(training-and-testing)交叉驗證法(cross-validation)例如,十折交叉驗證。即是將數(shù)據(jù)集分成十分,輪流將其中9份做訓練1份做測試,10次的結(jié)果的均值作為對算法精度的估計,一般還需要進行多次10倍交叉驗證求均值,例如10次10倍交叉驗證,更精確一點。2023/1/192023/1/199速度:指產(chǎn)生和使用模型的計算花費。建模的速度、預測的速度強壯性:指給定噪聲數(shù)據(jù)或具有缺失值的數(shù)據(jù),模型正確預測的能力??稍忈屝裕褐改P偷慕忉屇芰?。102023/1/19決策樹歸納的基本算法是貪心算法,它以自頂向下遞歸各個擊破的方式構(gòu)造決策樹。貪心算法:在每一步選擇中都采取在當前狀態(tài)下最好/優(yōu)的選擇。在其生成過程中,分割方法即屬性選擇度量是關(guān)鍵。通過屬性選擇度量,選擇出最好的將樣本分類的屬性。根據(jù)分割方法的不同,決策樹可以分為兩類:基于信息論的方法(較有代表性的是ID3、C4.5算法等)和最小GINI指標方法(常用的有CART、SLIQ及SPRINT算法等)。二、決策樹(DecisionTree)(一)決策樹的結(jié)結(jié)構(gòu)11根部節(jié)點(rootnode)中間節(jié)點(non-leafnode)(代表測試的的條件)分支(branches)(代表測試的的結(jié)果)葉節(jié)點(leafnode)(代表分類后后所獲得的分類標記記)2023/1/12023/1/112(二)決策策樹的形成成例:13根部節(jié)點中間節(jié)點停止分支?2023/1/1(三)ID3算法(C4.5,C5.0)142023/1/1Quinlan(1979)提出,以以Shannon(1949)的信息論論為依據(jù)據(jù)。ID3算法的屬屬性選擇擇度量就就是使用用信息增增益,選選擇最高高信息增增益的屬屬性作為為當前節(jié)節(jié)點的測測試屬性性。信息論:若一事件件有k種結(jié)果,對應的的概率為為Pi。則此事事件發(fā)生生后所得得到的信息量量I(視為Entropy)為:I=-(p1*log2(p1)+p2*log2(p2)+…+pk*log2(pk))Example1:設k=4p1=0.25,p2=0.25,p3=0.25,p4=0.25I=-(.25*log2(.25)*4)=2Example2:設k=4p1=0,p2=0.5,p3=0,p4=0.5I=-(.5*log2(.5)*2)=1Example3:設k=4p1=1,p2=0,p3=0,p4=0I=-(1*log2(1))=02023/1/1152023/1/116信息增增益17Example(Gain)n=16n1=4I(16,4)=-((4/16)*log2(4/16)+(12/16)*log2(12/16))=0.8113E(年齡)=(6/16)*I(6,1)+(10/16)*I(10,3)=0.7946Gain(年齡)=I(16,4)-E(年齡)=0.0167Gain(年齡)=0.0167Max:作為第一個個分類依據(jù)據(jù)2023/1/1Gain(性別)=0.0972Gain(家庭所得)=0.0177Example(續(xù))18Gain(家庭所得)=0.688I(7,3)=-((3/7)*log2(3/7)+(4/7)*log2(4/7))=0.9852Gain(年齡)=0.9852Gain(年齡)=0.2222I(9,1)=-((1/9)*log2(1/9)+(8/9)*log2(8/9))=0.5032Gain(家庭所得)=0.50322023/1/1Example(end)ID3算法19分類規(guī)則:IF性別=FemaleAND家庭所得=低所得THEN購買RV房車=否IF性別=FemaleAND家庭所得=小康THEN購買RV房車=否IF性別=FemaleAND家庭所得=高所得THEN購買RV房車=是IF性別=MaleAND年齡<35THEN購買RV房車=否IF性別=MaleAND年齡≧35

THEN購買RV房車=是資料DecisionTree2023/1/1(四)DecisionTree的建立過程201、決策樹的停停止決策樹是通過過遞歸分割(recursivepartitioning)建立而成,遞遞歸分割是一一種把數(shù)據(jù)分分割成不同小小的部分的迭代過程。如果有以下情情況發(fā)生,決決策樹將停止分割:該群數(shù)據(jù)的每每一筆數(shù)據(jù)都都已經(jīng)歸類到到同一類別。。該群數(shù)據(jù)已經(jīng)經(jīng)沒有辦法再再找到新的屬該群數(shù)據(jù)已經(jīng)沒有任何尚未處理的數(shù)據(jù)。2023/1/12、決策樹的剪剪枝(pruning)21決策樹學習可可能遭遇模型過度擬合(overfitting)的問題,過度度擬合是指模模型過度訓練練,導致模型型記住的不是是訓練集的一一般性,反而而是訓練集的的局部特性。。如何處理過度度擬合呢?對對決策樹進行行修剪。樹的修剪有幾幾種解決的方方法,主要為為先剪枝和后后剪枝方法。。2023/1/1(1)先剪剪枝方方法22在先剪剪枝方方法中中,通通過提提前停停止樹樹的構(gòu)構(gòu)造((例如如,確定閥值法:在構(gòu)造樹時,可將信息增益用于評估岔的優(yōu)良性。如果在一個節(jié)點劃分樣本將導致低于預定義閥值的分裂,則給定子集的進一步劃分將停止。測試組修剪法:在使用訓練組樣本產(chǎn)生新的分岔時,就立刻使用測試組樣本去測試這個分岔規(guī)則是否能夠再現(xiàn),如果不能,就被視作過度擬合而被修剪掉,如果能夠再現(xiàn),則該分岔予以保留而繼續(xù)向下分岔。2023/1/1(2)后剪剪枝方方法23后剪剪枝枝方方法法案例數(shù)修剪是在產(chǎn)生完全生長的樹后,根據(jù)最小案例數(shù)閥值,將案例數(shù)小于閥值的樹節(jié)點剪掉。成本復雜性修剪法是當決策樹成長完成后,演算法計算所有葉節(jié)點的總和錯誤率,然后計算去除某一葉節(jié)點后的總和錯誤率,當去除該葉節(jié)點的錯誤率降低或者不變時,則剪掉該節(jié)點。反之,保留。2023/1/1應用案例例:在農(nóng)農(nóng)業(yè)中的的應用2023/1/124第一步::屬性離離散化2023/1/125第二步:概化化(泛化)2023/1/126第三步:計計算各屬性性的期望信信息2023/1/127=(17/30)*LOG((17/30),2)+(10/30)*LOG((10/30),2)+(3/30)*LOG((3/30),2)計算各屬性性的信息增增益2023/1/128第四四步步::決決策策樹樹2023/1/129案例2:銀行違違約率2023/1/1302023/1/131案例3對電電信信客客戶戶的的流流失失率率分分析析2023/1/132數(shù)據(jù)據(jù)倉倉庫庫條件件屬屬性性類別別屬屬性性客戶戶是是否否流流失失案例例4:在在銀銀行行中中的的應應用用2023/1/133案例例5:個個人人信信用用評評級級2023/1/134個人信用評級級決策樹(五)其他算法35C4.5與C5.0算法GiniIndex算法CART算法PRISM算法CHAID算法2023/1/11、C4.5與C5.0算法36C5.0算法則是C4.5算法的修訂版版,適用在在處理大數(shù)據(jù)據(jù)集,采用Boosting(提升)方式式提高模型準準確率,又稱稱為BoostingTrees,在軟件上的的計算速度比比較快,占用用的內(nèi)存資源源較少。2023/1/1類別屬性性的信息息熵2、GiniIndex算法37ID3andPRISM適用于類類別屬性性的分類類方法。。GiniIndex能數(shù)值型型屬性的的變量來來做分類類。著重重解決當當訓練集集數(shù)據(jù)量量巨大,,無法全全部放人人內(nèi)存時時,如何何高速準準確地生生成更快快的,更更小的決決策樹。。2023/1/1集合T包含N個類別的的記錄,,那么其其Gini指標就是是如果集合合T分成兩部部分N1和N2。則此分分割的Gini就是提供最小小Ginisplit就被選擇擇作為分分割的標標準(對于每個個屬性都都要經(jīng)過過所有可可以的分分割方法法)。GiniIndex算法382023/1/1案例:在在汽車銷銷售中的的應用2023/1/1392023/1/1402023/1/141NNYYYNYYYNNN3、CART算法42由Friedman等人提出,,1980年以來就開開始發(fā)展

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論