決策樹模型QUEST課件_第1頁
決策樹模型QUEST課件_第2頁
決策樹模型QUEST課件_第3頁
決策樹模型QUEST課件_第4頁
決策樹模型QUEST課件_第5頁
已閱讀5頁,還剩30頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、決策樹模型 -QUEST 報(bào)告人:李福娟指導(dǎo)教師:謝邦昌時(shí)間:2007年11月20日Clementine的決策樹模型決策樹(Decision Tree)模型,也稱規(guī)則推理模型通過對(duì)訓(xùn)練樣本的學(xué)習(xí),建立分類規(guī)則依據(jù)分類規(guī)則,實(shí)現(xiàn)對(duì)新樣本的分類屬于有指導(dǎo)(監(jiān)督)式的學(xué)習(xí)方法,有兩類變量:目標(biāo)變量(輸出變量)屬性變量(輸入變量)決策樹模型與一般統(tǒng)計(jì)分類模型的主要區(qū)別決策樹的分類是基于邏輯的,一般統(tǒng)計(jì)分類模型是基于非邏輯的基于邏輯是指通過對(duì)屬性變量值的布爾比較來實(shí)現(xiàn)分類判斷Clementine的決策樹模型決策樹模型的特點(diǎn)優(yōu)勢(shì):推理過程容易理解,決策推理過程可以表示成IF、THEN的形式推理過程完全依據(jù)

2、屬性變量的取值特點(diǎn)可自動(dòng)忽略對(duì)目標(biāo)變量沒有貢獻(xiàn)的屬性變量,也為判斷屬性變量的重要性,減少變量數(shù)目提供參考Clementine的決策樹模型決策樹模型的主要算法:C&RTC5.0CHAIDQUESTQUEST算法 QUEST:Quick Unbiased Efficient Statistical Tree它是 Loh和Shih1997年提出的建立決策樹的一種二元分類方法。QUEST算法也主要涉及分支變量和分割值的確定問題,但它將分支變量選擇和分割點(diǎn)選擇以不同的策略進(jìn)行處理它的運(yùn)算過程比CR更簡單有效。要求屬性變量(輸入變量)分類型變量、數(shù)值型變量 目標(biāo)變量(輸出變量)必須是二值分類型變量(如果是

3、多值的轉(zhuǎn)化成二值的),建立二叉樹模型中涉及到的順序變量必須存儲(chǔ)為數(shù)值型該模型中不可以應(yīng)用權(quán)數(shù)變量確定分支變量 分別檢驗(yàn)各屬性變量對(duì)目標(biāo)變量的獨(dú)立性。如果屬性變量為定類的,則采用卡方檢驗(yàn)如果屬性變量為定距,則采用F檢驗(yàn) 選擇P-值最小且小于顯著性水平的屬性變量作為當(dāng)前的最佳分支變量確定分支變量如果最小的P-值尚未小于顯著性水平:在F檢驗(yàn)檢驗(yàn)中,意味著在水平下目標(biāo)變量不同分類下屬性變量的均值不存在顯著。此時(shí),應(yīng)利用LeveneF檢驗(yàn)其方差。選擇方差齊性最不顯著的變量可作為當(dāng)前的分支變量否則,該樹節(jié)點(diǎn)無法再分支當(dāng)前分支變量是定距的 如果目標(biāo)變量有兩個(gè)以上的分類水平,則應(yīng)首先將其合并為兩個(gè)超類(目標(biāo)變

4、量的預(yù)處理)分別計(jì)算目標(biāo)變量不同分類下當(dāng)前分支變量的均值如果各均值沒有顯著差異,則將權(quán)重最大(該組包含的樣本個(gè)數(shù)最多)組所對(duì)應(yīng)的屬性變量值作為一組,其余為另一組如果各均值存在顯著差異,則利用2-Means聚類將樣本聚成2類(初始類中心為兩個(gè)極均值),從而使將目標(biāo)變量值合并成兩類(多分類問題轉(zhuǎn)換為二分類問題)確定分割值確定分割值當(dāng)前分支變量是定類的先將定類分支變量轉(zhuǎn)化為定矩變量將該分支變量轉(zhuǎn)換為啞變量組,依據(jù)目標(biāo)變量,建立若干個(gè)判別函數(shù),并取第一個(gè)典型判別函數(shù)(特征根最大)計(jì)算各樣本在第一個(gè)判別函數(shù)坐標(biāo)上的值,作為值再依據(jù)前述定距分支變量的方法處理 Clementine11.0中的應(yīng)用 市場(chǎng)研究

5、案例 一個(gè)有限電視公司做了一項(xiàng)市場(chǎng)調(diào)查以了解哪些用戶會(huì)訂閱某種交互式的新聞服務(wù)。 選擇的變量有:年齡(age)、性別(gender)、受教育程度(educate)、收入水平(inc)、每天看電視時(shí)間(tvday)、家庭擁有孩子個(gè)數(shù)(childs)。(NewsChan.sav )Clementine11.0中的應(yīng)用Clementine11.0中的應(yīng)用可以通過連接并執(zhí)行輸出節(jié)點(diǎn)Table查看數(shù)據(jù)源數(shù)據(jù)Clementine11.0中的應(yīng)用設(shè)置變量類型輸入變量輸出變量Clementine11.0中的應(yīng)用建立QUEST決策樹模型(Modeling-QUEST) 建立一個(gè)QUEST結(jié)點(diǎn)與源數(shù)據(jù)相連,然后右

6、擊對(duì)QUEST結(jié)點(diǎn)進(jìn)行編輯Clementine11.0中的應(yīng)用QUEST節(jié)點(diǎn)的Model選項(xiàng)分割數(shù)據(jù)集 訓(xùn)練樣本 檢驗(yàn)樣本模式Generate model直接給出最終模型;Launch Interactive session可以逐層建立,修改和刪除節(jié)點(diǎn)。Use tree directives指定任意層節(jié)點(diǎn)的分割方式或子節(jié)點(diǎn)數(shù)最大樹深 自定義判別樹的最大層數(shù)Clementine11.0中的應(yīng)用QUEST節(jié)點(diǎn)的高級(jí)(expert)選項(xiàng)框最大替代數(shù):當(dāng)某記錄有缺失值時(shí),QUEST會(huì)根據(jù)與其相似的記錄所歸入節(jié)點(diǎn)的取值進(jìn)行替代分裂的顯著性水平:設(shè)定分裂標(biāo)準(zhǔn), 越小,則樹的分叉越少終止條件修剪樹:use

7、standard error rule刪除分類不純的節(jié)點(diǎn)先驗(yàn)概率Clementine11.0中的應(yīng)用分類回歸樹節(jié)點(diǎn)終止選項(xiàng)終止法則決定何時(shí)終止分割樹的具體分支設(shè)置最小分支數(shù)目以避免分割出過小的子群使用百分?jǐn)?shù):按照占整個(gè)訓(xùn)練集的百分比來指定大小使用絕對(duì)值:用絕對(duì)記錄數(shù)來指定大小 Clementine11.0中的應(yīng)用先驗(yàn)概率(priors)選項(xiàng)在根本不知道預(yù)測(cè)值前對(duì)每個(gè)可能的目標(biāo)域值所做的概率估計(jì)。Based on training data 先驗(yàn)概率基于各類在訓(xùn)練集中的相對(duì)次數(shù)Equal for all classes各類的先驗(yàn)概率指定為1/k,k為目標(biāo)類數(shù)Custom自定義,要求:所有類的先驗(yàn)

8、概率總和為1。 Clementine11.0中的應(yīng)用QUEST節(jié)點(diǎn)的成本(cost)選項(xiàng)錯(cuò)誤歸類矩陣顯示預(yù)測(cè)類和實(shí)際類每一個(gè)可能組合的損失,所有預(yù)設(shè)為1選擇Use misclassification costs可以自定義損失值Clementine11.0中的應(yīng)用執(zhí)行QUEST節(jié)點(diǎn)Clementine11.0中的應(yīng)用決策樹的生長和修剪 顯示標(biāo)簽值生長并修剪樹Clementine11.0中的應(yīng)用通過統(tǒng)計(jì)檢驗(yàn)確定的分支變量根據(jù)Adj.Prob確定最佳分支變量,概率值越小,則根據(jù)該分支變量所確定兩個(gè)類的異質(zhì)性越強(qiáng),分支越有效Clementine11.0中的應(yīng)用確定的最佳分支變量為年齡節(jié)點(diǎn)2在年齡大于4

9、4.142的人群中,確定一個(gè)人訂閱的概率已經(jīng)達(dá)到67.143% Clementine11.0中的應(yīng)用Clementine11.0中的應(yīng)用Gains 選項(xiàng)卡選擇Target category=1.0索引值大于100%的節(jié)點(diǎn)所確定的人群接受的概率明顯大于隨機(jī)選擇的人群。Clementine11.0中的應(yīng)用Chart 橫坐標(biāo)通常為分位點(diǎn)縱 坐標(biāo)是累計(jì)Lift值 理想的Lift圖應(yīng)在較高的 累計(jì)Lift上保持較長一段, 然后迅速下降到1Clementine11.0中的應(yīng)用生成模型(Generate Model)根據(jù)建立的決策樹可以生成或輸出決策結(jié)果Clementine11.0中的應(yīng)用風(fēng)險(xiǎn)(risk)選項(xiàng)在某些情況下,特定類型的錯(cuò)誤比其他類錯(cuò)誤所引起的損失更大。例如,把高風(fēng)險(xiǎn)信用卡申請(qǐng)者歸入低風(fēng)險(xiǎn)信用類(一種錯(cuò)誤)比把低風(fēng)險(xiǎn)信用卡申請(qǐng)者歸入高風(fēng)險(xiǎn)類(另一種錯(cuò)誤)損失要大。錯(cuò)誤歸類代價(jià)提供用戶在識(shí)別不同的預(yù)測(cè)誤差的相對(duì)重要性。Clementine11.0中的應(yīng)用Clementine11.0中的應(yīng)用生成的模型顯示在流編輯窗口,與Type節(jié)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論