決策樹培訓教材(PPT 89頁).ppt

上傳人：朱*** IP屬地：江西上傳時間：2020-03-14 格式：PPT 頁數(shù)：89 大?。?017KB 積分：12 舉報 版權(quán)申訴

已閱讀5頁，還剩84頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

第6章決策樹主要內(nèi)容決策樹基本概念決策樹算法決策樹研究問題主要參考文獻主要內(nèi)容決策樹基本概念決策樹算法決策樹研究問題主要參考文獻決策樹基本概念關(guān)于分類問題分類 Classification 任務(wù)就是通過學習獲得一個目標函數(shù) TargetFunction f 將每個屬性集x映射到一個預(yù)先定義好的類標號y 分類任務(wù)的輸入數(shù)據(jù)是紀錄的集合每條記錄也稱為實例或者樣例用元組 X y 表示其中 X是屬性集合 y是一個特殊的屬性指出樣例的類標號也稱為分類屬性或者目標屬性決策樹基本概念關(guān)于分類問題 X y 分類與回歸分類目標屬性y是離散的回歸目標屬性y是連續(xù)的決策樹基本概念解決分類問題的一般方法分類技術(shù)是一種根據(jù)輸入數(shù)據(jù)集建立分類模型的系統(tǒng)方法分類技術(shù)一般是用一種學習算法確定分類模型該模型可以很好地擬合輸入數(shù)據(jù)中類標號和屬性集之間的聯(lián)系學習算法得到的模型不僅要很好擬合輸入數(shù)據(jù) 還要能夠正確地預(yù)測未知樣本的類標號因此訓練算法的主要目標就是要建立具有很好的泛化能力模型即建立能夠準確地預(yù)測未知樣本類標號的模型分類方法的實例包括決策樹分類法基于規(guī)則的分類法神經(jīng)網(wǎng)絡(luò) 支持向量級樸素貝葉斯分類方法等決策樹基本概念解決分類問題的一般方法通過以上對分類問題一般方法的描述可以看出分類問題一般包括兩個步驟 1 模型構(gòu)建歸納通過對訓練集合的歸納建立分類模型 2 預(yù)測應(yīng)用推論根據(jù)建立的分類模型對測試集合進行測試決策樹基本概念解決分類問題的一般方法學習算法學習模型模型應(yīng)用模型訓練集類標號已知檢驗集類標號未知歸納推論決策樹基本概念決策樹決策樹是一種典型的分類方法首先對數(shù)據(jù)進行處理利用歸納算法生成可讀的規(guī)則和決策樹然后使用決策對新數(shù)據(jù)進行分析本質(zhì)上決策樹是通過一系列規(guī)則對數(shù)據(jù)進行分類的過程決策樹基本概念決策樹的優(yōu)點1 推理過程容易理解決策推理過程可以表示成IfThen形式 2 推理過程完全依賴于屬性變量的取值特點 3 可自動忽略目標變量沒有貢獻的屬性變量也為判斷屬性變量的重要性減少變量的數(shù)目提供參考決策樹基本概念關(guān)于歸納學習 1 決策樹技術(shù)發(fā)現(xiàn)數(shù)據(jù)模式和規(guī)則的核心是歸納算法歸納是從特殊到一般的過程歸納推理從若干個事實中表征出的特征特性和屬性中通過比較總結(jié) 概括而得出一個規(guī)律性的結(jié)論歸納推理試圖從對象的一部分或整體的特定的觀察中獲得一個完備且正確的描述即從特殊事實到普遍性規(guī)律的結(jié)論歸納對于認識的發(fā)展和完善具有重要的意義人類知識的增長主要來源于歸納學習決策樹基本概念關(guān)于歸納學習 2 歸納學習的過程就是尋找一般化描述的過程這種一般性描述能夠解釋給定的輸入數(shù)據(jù) 并可以用來預(yù)測新的數(shù)據(jù) 銳角三角形內(nèi)角和等于180度鈍角三角形內(nèi)角和等于180度三角形內(nèi)角和直角三角形內(nèi)角和等于180度等于180度已知三角形ABC A角等于76度 B角等于89度則其C角等于15度歸納學習由于依賴于檢驗數(shù)據(jù) 因此又稱為檢驗學習歸納學習存在一個基本的假設(shè) 任一假設(shè)如果能夠在足夠大的訓練樣本集中很好的逼近目標函數(shù) 則它也能在未見樣本中很好地逼近目標函數(shù) 該假定是歸納學習的有效性的前提條件決策樹基本概念關(guān)于歸納學習 3 決策樹基本概念關(guān)于歸納學習 4 歸納過程就是在描述空間中進行搜索的過程歸納可分為自頂向下自底向上和雙向搜索三種方式自底向上法一次處理一個輸入對象將描述逐步一般化直到最終的一般化描述自頂向下法對可能的一般性描述集進行搜索試圖找到一些滿足一定要求的最優(yōu)的描述決策樹基本概念從機器學習看分類及歸納推理等問題 1 從特殊的訓練樣例中歸納出一般函數(shù)是機器學習的中心問題從訓練樣例中進行學習通常被視為歸納推理每個例子都是一個對偶序偶 x f x 對每個輸入的x 都有確定的輸出f x 學習過程將產(chǎn)生對目標函數(shù)f的不同逼近 F的每一個逼近都叫做一個假設(shè) 假設(shè)需要以某種形式表示例如 y ax b 通過調(diào)整假設(shè)的表示學習過程將產(chǎn)生出假設(shè)的不同變形在表示中通常需要修改參數(shù) 如a b 決策樹基本概念從機器學習看分類及歸納推理等問題 2 從這些不同的變形中選擇最佳的假設(shè) 或者說權(quán)值集合一般方法如定義為使訓練值與假設(shè)值預(yù)測出的值之間的誤差平方和E最小為最佳學習是在假設(shè)空間上的一個搜索概念學習也可以看作是一個搜索問題的過程它在預(yù)定義的假設(shè)空間中搜索假設(shè) 使其與訓練樣例有最佳的擬合度多數(shù)情況下為了高效地搜索可以利用假設(shè)空間中一種自然形成的結(jié)構(gòu) 即一般到特殊的偏序關(guān)系決策樹基本概念從機器學習看分類及歸納推理等問題 3 分類模型的性能根據(jù)模型正確和錯誤預(yù)測也可以根據(jù)的檢驗記錄計數(shù)進行評估這些計數(shù)存儲在混同矩陣 ConfusionMatrix 的表格中二元分類問題混淆矩陣如下實際的類類1 f11 類0 f01 f10 f00 類1 類0 預(yù)測的類準確率正確的預(yù)測數(shù) 預(yù)測總數(shù) f11 f00 f11 f01 f10 f00 差錯率錯誤的預(yù)測數(shù) 預(yù)測總數(shù) f10 f01 f11 f01 f10 f00 歸納學習假設(shè)機器學習的任務(wù)是在整個實例集合X上確定與目標概念c相同的假設(shè) 一般H表示所有可能假設(shè) H中每個假設(shè)h表示X上定義的布爾函數(shù) 由于對c僅有的信息只是它在訓練樣例上的值因此歸納學習最多只能保證輸出的假設(shè)能與訓練樣例相擬合若沒有更多的信息只能假定對于未見實例最好的假設(shè)就是訓練數(shù)據(jù)最佳擬合的假設(shè) 定義歸納學習假設(shè) 任一假設(shè)如果在足夠大的訓練樣例中很好地逼近目標函數(shù) 則它也能在未見實例中很好地逼近目標函數(shù) FunctionApproximation 決策樹基本概念從機器學習看分類及歸納推理等問題 4 主要內(nèi)容決策樹基本概念決策樹算法決策樹研究問題主要參考文獻決策樹算法與決策樹相關(guān)的重要算法 1 Hunt Marin和Stone于1966年研制的CLS學習系統(tǒng) 用于學習單個概念 2 1979年 J R Quinlan給出ID3算法并在1983年和1986年對ID3進行了總結(jié)和簡化使其成為決策樹學習算法的典型 3 Schlimmer和Fisher于1986年對ID3進行改造在每個可能的決策樹節(jié)點創(chuàng)建緩沖區(qū) 使決策樹可以遞增式生成得到ID4算法 4 1988年 Utgoff在ID4基礎(chǔ)上提出了ID5學習算法進一步提高了效率 1993年 Quinlan進一步發(fā)展了ID3算法改進成C4 5算法 5 另一類決策樹算法為CART 與C4 5不同的是 CART的決策樹由二元邏輯問題生成每個樹節(jié)點只有兩個分枝分別包括學習實例的正例與反例 CLS ID3 C4 5 CART 決策樹算法假定公司收集了左表數(shù)據(jù) 那么對于任意給定的客人測試樣例你能幫助公司將這位客人歸類嗎即你能預(yù)測這位客人是屬于買計算機的那一類還是屬于不買計算機的那一類又你需要多少有關(guān)這位客人的信息才能回答這個問題決策樹的用途誰在買計算機年齡學生信譽青中老否是優(yōu) 良決策樹的用途決策樹算法誰在買計算機年齡學生信譽青中老否是優(yōu) 良決策樹的用途決策樹算法決策樹算法決策樹的表示決策樹的基本組成部分決策結(jié)點分支和葉子年齡學生信譽青中老否是優(yōu) 良決策樹中最上面的結(jié)點稱為根結(jié)點是整個決策樹的開始每個分支是一個新的決策結(jié)點或者是樹的葉子每個決策結(jié)點代表一個問題或者決策通常對應(yīng)待分類對象的屬性每個葉結(jié)點代表一種可能的分類結(jié)果在沿著決策樹從上到下的遍歷過程中在每個結(jié)點都有一個測試對每個結(jié)點上問題的不同測試輸出導致不同的分枝最后會達到一個葉子結(jié)點這一過程就是利用決策樹進行分類的過程利用若干個變量來判斷屬性的類別決策樹算法 CLS ConceptLearningSystem 算法 CLS算法是早期的決策樹學習算法它是許多決策樹學習算法的基礎(chǔ) CLS基本思想從一棵空決策樹開始選擇某一屬性分類屬性作為測試屬性該測試屬性對應(yīng)決策樹中的決策結(jié)點根據(jù)該屬性的值的不同可將訓練樣本分成相應(yīng)的子集如果該子集為空或該子集中的樣本屬于同一個類則該子集為葉結(jié)點否則該子集對應(yīng)于決策樹的內(nèi)部結(jié)點即測試結(jié)點需要選擇一個新的分類屬性對該子集進行劃分直到所有的子集都為空或者屬于同一類決策樹算法 CLS算法決策樹算法 CLS算法決策樹的構(gòu)建眼睛顏色 1 6 2 4 8 3 5 7 黑色蘭色灰色不屬于同一類非葉結(jié)點眼睛顏色頭發(fā)顏色頭發(fā)顏色頭發(fā)顏色黑色蘭色灰色決策樹算法 CLS算法黃種人 1 混血 6 白種人 2 白種人 4 混血 8 白種人 3 白種人 5 混血 7 黑色金色金色紅色黑色金色紅色黑色決策樹算法 CLS算法 1生成一顆空決策樹和一張訓練樣本屬性集 2若訓練樣本集T中所有的樣本都屬于同一類則生成結(jié)點T 并終止學習算法否則3根據(jù)某種策略從訓練樣本屬性表中選擇屬性A作為測試屬性生成測試結(jié)點A4若A的取值為v1 v2 vm 則根據(jù)A的取值的不同將T劃分成m個子集T1 T2 Tm 5從訓練樣本屬性表中刪除屬性A 6轉(zhuǎn)步驟2 對每個子集遞歸調(diào)用CLS CLS算法問題在步驟3中根據(jù)某種策略從訓練樣本屬性表中選擇屬性A作為測試屬性沒有規(guī)定采用何種測試屬性實踐表明測試屬性集的組成以及測試屬性的先后對決策樹的學習具有舉足輕重的影響舉例加以說明下表為調(diào)查學生膳食結(jié)構(gòu)和缺鈣情況的關(guān)系其中1表示包含食物 0表示不包含決策樹算法 CLS算法問題決策樹算法學生膳食結(jié)構(gòu)和缺鈣調(diào)查表 CLS算法問題決策樹算法采用不同的測試屬性及其先后順序?qū)刹煌臎Q策樹雞肉豬肉豬肉牛肉牛肉牛肉不缺鈣 2 缺鈣 3 6 不缺鈣 4 不缺鈣 10 缺鈣 5 不缺鈣 1 魚肉缺鈣 5 不缺鈣 7 9 是否是否否否否否否是是是是是牛奶不缺鈣 1 2 4 7 9 10 缺鈣 3 5 6 8 CLS算法問題決策樹算法在上例中顯然生成的兩種決策樹的復(fù)雜性和分類意義相差很大由此可見選擇測試屬性是決策樹學習算法中需要研究的重要課題 ID3 決策樹算法 ID3算法主要針對屬性選擇問題是決策樹學習方法中最具影響和最為典型的算法該方法使用信息增益度選擇測試屬性當獲取信息時將不確定的內(nèi)容轉(zhuǎn)為確定的內(nèi)容因此信息伴著不確定性從直覺上講小概率事件比大概率事件包含的信息量大如果某件事情是百年一見則肯定比習以為常的事件包含的信息量大如何度量信息量的大小 ID3 信息量大小的度量決策樹算法 Shannon1948年提出的信息論理論事件ai的信息量I ai 可如下度量其中p ai 表示事件ai發(fā)生的概率假設(shè)有n個互不相容的事件a1 a2 a3 an 它們中有且僅有一個發(fā)生則其平均的信息量可如下度量 ID3 信息量大小的度量決策樹算法上式對數(shù)底數(shù)可以為任何數(shù) 不同的取值對應(yīng)了熵的不同單位通常取2 并規(guī)定當p ai 0時 0 公式1 在決策樹分類中假設(shè)S是訓練樣本集合 S 是訓練樣本數(shù) 樣本劃分為n個不同的類C1 C2 Cn 這些類的大小分別標記為 C1 C2 Cn 則任意樣本S屬于類Ci的概率為 ID3 信息量大小的度量決策樹算法 Entropy S A Sv S Entropy Sv 公式2 是屬性A的所有可能的值v Sv是屬性A有v值的S子集 Sv 是Sv中元素的個數(shù) S 是S中元素的個數(shù) ID3 信息量大小的度量決策樹算法 Gain S A 是屬性A在集合S上的信息增益Gain S A Entropy S Entropy S A 公式3Gain S A 越大說明選擇測試屬性對分類提供的信息越多決策樹算法第1步計算決策屬性的熵決策屬性買計算機該屬性分兩類買不買S1 買 641S2 不買 383S S1 S2 1024P1 641 1024 0 6260P2 383 1024 0 3740I S1 S2 I 641 383 P1Log2P1 P2Log2P2 P1Log2P1 P2Log2P2 0 9537 決策樹算法第2步計算條件屬性的熵條件屬性共有4個分別是年齡收入學生信譽分別計算不同屬性的信息增益決策樹算法第2 1步計算年齡的熵年齡共分三個組青年中年老年青年買與不買比例為128 256S1 買 128S2 不買 256S S1 S2 384P1 128 384P2 256 384I S1 S2 I 128 256 P1Log2P1 P2Log2P2 P1Log2P1 P2Log2P2 0 9183 決策樹算法第2 2步計算年齡的熵年齡共分三個組青年中年老年中年買與不買比例為256 0S1 買 256S2 不買 0S S1 S2 256P1 256 256P2 0 256I S1 S2 I 256 0 P1Log2P1 P2Log2P2 P1Log2P1 P2Log2P2 0 決策樹算法第2 3步計算年齡的熵年齡共分三個組青年中年老年老年買與不買比例為125 127S1 買 125S2 不買 127S S1 S2 252P1 125 252P2 127 252I S1 S2 I 125 127 P1Log2P1 P2Log2P2 P1Log2P1 P2Log2P2 0 9157 決策樹算法第2 4步計算年齡的熵年齡共分三個組青年中年老年所占比例青年組384 1025 0 375中年組256 1024 0 25老年組384 1024 0 375計算年齡的平均信息期望E 年齡 0 375 0 9183 0 25 0 0 375 0 9157 0 6877G 年齡信息增益 0 9537 0 6877 0 2660 1 決策樹算法第3步計算收入的熵收入共分三個組高中低E 收入 0 9361收入信息增益 0 9537 0 9361 0 0176 2 決策樹算法第4步計算學生的熵學生共分二個組學生非學生E 學生 0 7811年齡信息增益 0 9537 0 7811 0 1726 3 決策樹算法第5步計算信譽的熵信譽分二個組良好優(yōu)秀E 信譽 0 9048信譽信息增益 0 9537 0 9048 0 0453 4 決策樹算法第6步計算選擇節(jié)點年齡信息增益 0 9537 0 6877 0 2660 1 收入信息增益 0 9537 0 9361 0 0176 2 年齡信息增益 0 9537 0 7811 0 1726 3 信譽信息增益 0 9537 0 9048 0 0453 4 決策樹算法年齡青年中年老年買不買買買不買葉子決策樹算法青年買與不買比例為128 256S1 買 128S2 不買 256S S1 S2 384P1 128 384P2 256 384I S1 S2 I 128 256 P1Log2P1 P2Log2P2 P1Log2P1 P2Log2P2 0 9183 決策樹算法如果選擇收入作為節(jié)點分高中低平均信息期望加權(quán)總和 E 收入 0 3333 0 0 5 0 9183 0 1667 0 0 4592Gain 收入 I 128 256 E 收入 0 9183 0 4592 0 4591 I 0 128 0比例 128 384 0 3333I 64 128 0 9183比例 192 384 0 5I 64 0 0比例 64 384 0 1667 注意決策樹算法年齡青年中年老年學生買信譽葉子否是優(yōu) 良買不買買不買買葉子葉子葉子決策樹算法 ID3決策樹建立算法1決定分類屬性 2對目前的數(shù)據(jù)表建立一個節(jié)點N3如果數(shù)據(jù)庫中的數(shù)據(jù)都屬于同一個類 N就是樹葉在樹葉上標出所屬的類4如果數(shù)據(jù)表中沒有其他屬性可以考慮則N也是樹葉按照少數(shù)服從多數(shù)的原則在樹葉上標出所屬類別5否則根據(jù)平均信息期望值E或GAIN值選出一個最佳屬性作為節(jié)點N的測試屬性6節(jié)點屬性選定后對于該屬性中的每個值從N生成一個分支并將數(shù)據(jù)表中與該分支有關(guān)的數(shù)據(jù)收集形成分支節(jié)點的數(shù)據(jù)表在表中刪除節(jié)點屬性那一欄如果分支數(shù)據(jù)表非空則運用以上算法從該節(jié)點建立子樹決策樹算法決策樹的數(shù)據(jù)準備原始表決策樹算法整理后的數(shù)據(jù)表決策樹的數(shù)據(jù)準備 Datacleaning刪除減少noise 補填missingvaluesDatatransformation數(shù)據(jù)標準化 datanormalization 數(shù)據(jù)歸納 generalizedatatohigher levelconceptsusingconcepthierarchies 例如年齡歸納為老中青三類控制每個屬性的可能值不超過七種最好不超過五種 Relevanceanalysis對于與問題無關(guān)的屬性刪對于屬性的可能值大于七種又不能歸納的屬性刪決策樹算法決策樹的數(shù)據(jù)準備決策樹算法處理連續(xù)屬性值決策樹算法比較適合處理離散數(shù)值的屬性實際應(yīng)用中屬性是連續(xù)的或者離散的情況都比較常見在應(yīng)用連續(xù)屬性值時在一個樹結(jié)點可以將屬性Ai的值劃分為幾個區(qū)間然后信息增益的計算就可以采用和離散值處理一樣的方法原則上可以將Ai的屬性劃分為任意數(shù)目的空間 C4 5中采用的是二元分割 BinarySplit 需要找出一個合適的分割閾值參考C4 5算法Top10algorithmsindataminingKnowledgeInformationSystem200814 1 37 決策樹算法 ID3算法小結(jié) ID3算法是一種經(jīng)典的決策樹學習算法由Quinlan于1979年提出 ID3算法的基本思想是以信息熵為度量用于決策樹節(jié)點的屬性選擇每次優(yōu)先選取信息量最多的屬性亦即能使熵值變?yōu)樽钚〉膶傩?以構(gòu)造一顆熵值下降最快的決策樹到葉子節(jié)點處的熵值為0 此時每個葉子節(jié)點對應(yīng)的實例集中的實例屬于同一類決策樹算法 ID3算法實際應(yīng)用在電信行業(yè)應(yīng)用實例 1 通過ID3算法來實現(xiàn)客戶流失的預(yù)警分析找出客戶流失的特征以幫助電信公司有針對性地改善客戶關(guān)系避免客戶流失利用決策樹方法進行數(shù)據(jù)挖掘一般有如下步驟數(shù)據(jù)預(yù)處理決策樹挖掘操作模式評估和應(yīng)用電信運營商的客戶流失有三方面的含義一是指客戶從一個電信運營商轉(zhuǎn)網(wǎng)到其他電信運營商這是流失分析的重點二是指客戶月平均消費量降低從高價值客戶成為低價值客戶三指客戶自然流失和被動流失在客戶流失分析中有兩個核心變量財務(wù)原因非財務(wù)原因主動流失被動流失客戶流失可以相應(yīng)分為四種類型其中非財務(wù)原因主動流失的客戶往往是高價值的客戶他們會正常支付服務(wù)費用并容易對市場活動有所響應(yīng) 這種客戶是電信企業(yè)真正需要保住的客戶決策樹算法 ID3算法實際應(yīng)用在電信行業(yè)應(yīng)用實例 2 數(shù)據(jù)預(yù)處理數(shù)據(jù)挖掘的處理對象是大量的數(shù)據(jù) 這些數(shù)據(jù)一般存儲在數(shù)據(jù)庫系統(tǒng)中該用戶相關(guān)數(shù)據(jù)存儲在其CRM中是長期積累的結(jié)果但往往不適合直接挖掘需要做數(shù)據(jù)的預(yù)處理工作一般包括數(shù)據(jù)的選擇選擇相關(guān)的數(shù)據(jù) 凈化消除冗余數(shù)據(jù) 轉(zhuǎn)換歸約等數(shù)據(jù)預(yù)處理工作準備是否充分對于挖掘算法的效率乃至正確性都有關(guān)鍵性的影響該公司經(jīng)過多年的電腦化管理已有大量的客戶個人基本信息文中簡稱為客戶信息表在客戶信息表中有很多屬性如姓名用戶號碼用戶標識用戶身份證號碼轉(zhuǎn)化為年齡在網(wǎng)時間竣工時間地址職業(yè) 用戶類別客戶流失用戶狀態(tài) 等等數(shù)據(jù)準備時必須除掉表中一些不必要的屬性一般可采用面向?qū)傩缘臍w納等方法去掉不相關(guān)或弱相關(guān)屬性決策樹算法 ID3算法實際應(yīng)用在電信行業(yè)應(yīng)用實例 3 屬性刪除將有大量不同取值且無概化操作符的屬性或者可用其它屬性來代替它的較高層概念的那些屬性刪除比如客戶信息表中的用戶標識身份證號碼等它們的取值太多且無法在該取值域內(nèi)找到概化操作符應(yīng)將其刪除得到表1 決策樹算法 ID3算法實際應(yīng)用在電信行業(yè)應(yīng)用實例 4 屬性概化用屬性概化閾值控制技術(shù)沿屬性概念分層上卷或下鉆進行概化文化程度分為3類 W1初中以下含初中 W2高中含中專 W3大學 ?？?本科及以上職業(yè)類別按工作性質(zhì)來分共分3類 Z1一Z3 繳費方式托收 T1 營業(yè)廳繳費 T2 充值卡 T3 連續(xù)型屬性概化為區(qū)間值表中年齡費用變化率和在網(wǎng)時間為連續(xù)型數(shù)據(jù) 由于建立決策樹時用離散型數(shù)據(jù)進行處理速度最快因此對連續(xù)型數(shù)據(jù)進行離散化處理根據(jù)專家經(jīng)驗和實際計算信息增益在在網(wǎng)時長屬性中通過檢測每個劃分得到在閾值為5年時信息增益最大從而確定最好的劃分是在5年處則這個屬性的范圍就變?yōu)?5 H1 H2 而在年齡屬性中信息增益有兩個鋒值分別在40和50處因而該屬性的范圍變?yōu)?40 50 即變?yōu)?青年中年老年 N1 N2 N3 費用變化率指當月話費近3個月的平均話費近3個月的平均話費 0 F1 30 F2 30 99 F3 100 變?yōu)?F1 F2 F3 決策樹算法 ID3算法實際應(yīng)用在電信行業(yè)應(yīng)用實例 5 決策樹算法 ID3算法實際應(yīng)用在電信行業(yè)應(yīng)用實例 6 在圖中 NO表示客戶不流失 YES表示客戶流失從圖可以看出客戶費用變化率為100 的客戶肯定已經(jīng)流失而費用變化率低于30 的客戶即每月資費相對穩(wěn)定的客戶一般不會流失費用變化率在30 99 的客戶有可能流失其中年齡在40 50歲之間的客戶流失的可能性非常大而年齡低于40歲的客戶用充值卡繳費的客戶和在網(wǎng)時間較短的客戶容易流失年齡較大的客戶則工人容易流失主要內(nèi)容決策樹基本概念決策樹算法決策樹研究問題主要參考文獻決策樹研究問題理想的決策樹有三種 1 葉子結(jié)點數(shù)最少 2 葉子結(jié)點深度最小 3 葉子結(jié)點數(shù)最少且葉子結(jié)點深度最小然而洪家榮等人已經(jīng)證明了要找到這種最優(yōu)的決策樹是NP難題因此決策樹優(yōu)化的目的就是要找到盡可能趨向于最優(yōu)的決策樹關(guān)于過渡擬合上述的決策樹算法增長樹的每一個分支的深度直到恰好能對訓練樣例比較完美地分類實際應(yīng)用中當數(shù)據(jù)中有噪聲或訓練樣例的數(shù)量太少以至于不能產(chǎn)生目標函數(shù)的有代表性的采樣時該策略可能會遇到困難在以上情況發(fā)生時這個簡單的算法產(chǎn)生的樹會過渡擬合訓練樣例過渡擬合 OverFitting 決策樹研究問題關(guān)于過渡擬合對于一個假設(shè) 當存在其它的假設(shè)對訓練樣例的擬合比它差但事實上在實例的整個分布上包含訓練集合以外的實例表現(xiàn)得卻更好時則稱該假設(shè)過度擬合訓練樣例過度擬合給定一個假設(shè)空間H 一個假設(shè)h H 如果存在其它的假設(shè)h1 H 使得在訓練樣例上h的錯誤率比h1小但在整個實例發(fā)布上h1的錯誤率比h小則稱假設(shè)h過度擬合訓練數(shù)據(jù)過度擬合產(chǎn)生的原因噪聲訓練樣例太小等決策樹研究問題關(guān)于過渡擬合對學習算法是否成功的真正測試是看它對于訓練中未見到的數(shù)據(jù)的執(zhí)行性能訓練過程應(yīng)該包含訓練樣本和驗證樣本驗證樣本用于測試訓練后的性能如果驗證結(jié)果差則需要考慮采用不同的結(jié)構(gòu)重新進行訓練例如使用更大的樣本集或者改變從連續(xù)值到離散值得數(shù)據(jù)轉(zhuǎn)換等通常應(yīng)該建立一個驗證過程在訓練最終完成后用來檢測訓練結(jié)果的泛化能力決策樹研究問題關(guān)于過渡擬合分類模型的誤差一般可以將分類模型的誤差分為 1 訓練誤差 TrainingError 2 泛化誤差 GeneralizationError 決策樹研究問題關(guān)于過渡擬合分類模型的誤差訓練誤差是在訓練記錄上誤分類樣本比例泛化誤差是模型在未知記錄上的期望誤差一個好的模型不僅要能夠很好地擬合訓練數(shù)據(jù) 而且對未知樣本也要能夠準確地分類一個好的分類模型必須具有低的訓練誤差和泛化誤差因為一個具有低訓練誤差的模型其泛化誤差可能比具有較高訓練誤差的模型高訓練誤差低泛化誤差高稱為過渡擬合決策樹研究問題關(guān)于過渡擬合模型過渡擬合的潛在因素 1 噪聲導致的過渡擬合錯誤的類別值類標簽屬性值等 2 缺乏代表性樣本所導致的過渡擬合根據(jù)少量訓練記錄作出的分類決策模型容易受過渡擬合的影響由于訓練樣本缺乏代表性的樣本在沒有多少訓練記錄的情況下學習算法仍然繼續(xù)細化模型就會導致過渡擬合決策樹研究問題關(guān)于過渡擬合模型過渡擬合的潛在因素哺乳動物分類的訓練樣例體溫恒溫冷血冬眠 N Y N N 4條腿 Y N N Y 哺乳動物分類的訓練樣例按照訓練模型人和大象都不是哺乳動物決策樹作出這樣的判斷是因為只有一個訓練樣例具有這些特點鷹恒溫不冬眠被劃分為非哺乳動物該例清楚表明當決策樹的葉節(jié)點沒有足夠的代表性時可能會預(yù)測錯誤決策樹研究問題關(guān)于過渡擬合解決過度擬合的手段 1及早停止樹增長 2后修剪法決策樹研究問題關(guān)于過渡擬合 1及早停止樹增長由于決策樹學習要從候選集合眾選擇滿足給定標準的最大化屬性并且不回溯也就是我們常說的爬山策略其選擇往往會是局部最優(yōu)而不是全局最優(yōu) 樹結(jié)構(gòu)越復(fù)雜則過渡擬合發(fā)生的可能性越大因此要選擇簡單的模型 Occan法則又稱Occan剃刀OccanRazor 具有相同泛化誤差的兩個模型較簡單的模型比復(fù)雜的模型更可取決策樹研究問題關(guān)于過渡擬合后修剪法后剪枝法在訓練過程中允許對數(shù)據(jù)的過渡擬合然后再對樹進行修剪該方法稱為后剪枝法決策樹研究問題關(guān)于過渡擬合后修剪法后剪枝法例 A B 負 C 正正負 Y Y Y N N N 一棵通過訓練集合學好的決策樹決策樹研究問題關(guān)于過渡擬合后修剪法后剪枝法例 A B 負 C 正正負 Y Y Y N N N 對以上的決策樹通過右側(cè)的驗證集合進行測試發(fā)現(xiàn)其有5個錯分類決策樹研究問題關(guān)于過渡擬合后修剪法后剪枝法例 A B 負 C 正正負 Y Y Y N N N 18 19 20 1 2 3 45 6 7 8 9 10 11 12 13 14 15 16 17 錯分類5個 6 7 8 13 14 決策樹研究問題關(guān)于過渡擬合后修剪法后剪枝法例第1步將決策樹規(guī)則化規(guī)則1IFA YANDB YTHEN 規(guī)則2IFA YANDB NANDC YTHEN 規(guī)則3IFA YANDB NANDC NTHEN 規(guī)則4IFA NTHEN A B 負 C 正正負 Y Y Y

人人文庫> 全部分類> 行業(yè)資料 > 管理策劃

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

決策樹培訓教材(PPT 89頁).ppt

文檔簡介

溫馨提示

最新文檔

評論

決策樹培訓教材(PPT 89頁).ppt

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔