




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第7章隨機(jī)森林分類(lèi)算法由于傳統(tǒng)的很多分類(lèi)方法具有精度不高且容易出現(xiàn)過(guò)擬合的問(wèn)題,因此可以通過(guò)聚集多個(gè)模型的方法來(lái)提高預(yù)測(cè)精度,這種方法稱(chēng)為組合(ensemble)或分類(lèi)器組合(classifiercombination)方法。該類(lèi)方法首先利用訓(xùn)練集數(shù)據(jù)構(gòu)建一組基本的分類(lèi)模型(baseclassifier),然后通過(guò)對(duì)每個(gè)基分類(lèi)模型的預(yù)測(cè)值進(jìn)行投票(因變量為分類(lèi)或離散變量時(shí))或取平均值(因變量為連續(xù)數(shù)值變量)來(lái)決定最終預(yù)測(cè)值。7.1隨機(jī)森林算法原理7.1.1隨機(jī)森林算法原理為了生成這些組合模型,通常要生成隨機(jī)向量來(lái)控制組合中每個(gè)決策樹(shù)的生成。Bagging是早期組合樹(shù)方法之一,這是一種從訓(xùn)練集中隨機(jī)抽取部分樣本來(lái)生成決策樹(shù)的方法,還有一種方法是隨機(jī)分割選取,該方法在每個(gè)結(jié)點(diǎn)從K個(gè)最優(yōu)分割中隨機(jī)選取一種分割。Ho對(duì)隨機(jī)子空間方法進(jìn)行了深入研究并通過(guò)對(duì)特征變量隨機(jī)選取子集來(lái)生成每棵決策樹(shù)。LeoBreiman和AdeleCutler給出了隨機(jī)森林(RadomForest,RF)算法,該方法是結(jié)合了自助聚集(Bootstrapaggregating)想法和Ho的隨機(jī)子空間(randomsubspace)方法以建造決策樹(shù)的集合。
7.2隨機(jī)森林算法的特點(diǎn)及應(yīng)用7.2.1隨機(jī)森林算法的特點(diǎn)大量的理論和實(shí)證研究都證明了RF具有很高的預(yù)測(cè)準(zhǔn)確率,對(duì)異常值和噪聲具有很好的容忍度,且不容易出現(xiàn)過(guò)擬合。可以說(shuō),RF是一種自然的非線性建模工具。隨機(jī)森林的優(yōu)點(diǎn)有:1.對(duì)于很多種資料,它可以產(chǎn)生高準(zhǔn)確度的分類(lèi)器。2.它可以處理大量的輸入變量。3.它可以在決定類(lèi)別時(shí)評(píng)估變量的重要性。4.在建造森林時(shí)它可以在內(nèi)部對(duì)于一般化后的誤差產(chǎn)生不偏差的估計(jì)。5.它可以估計(jì)遺失的資料,并且如果有很大一部分的資料遺失,仍可以維持準(zhǔn)確度。6.對(duì)于不平衡的分類(lèi)資料集來(lái)說(shuō),它可以平衡誤差。7.它計(jì)算各例中的親近度,對(duì)異常檢測(cè)和資料視覺(jué)化非常有用。8.學(xué)習(xí)過(guò)程是很快速的。9.隨機(jī)森林不會(huì)產(chǎn)生過(guò)擬合問(wèn)題。7.2.2隨機(jī)森林算法的應(yīng)用近年來(lái),隨機(jī)森林在國(guó)內(nèi)外得到了迅速發(fā)展,在醫(yī)學(xué)、管理學(xué)、經(jīng)濟(jì)學(xué)等眾多領(lǐng)域得到了廣泛的應(yīng)用。下面通過(guò)三個(gè)實(shí)例說(shuō)明隨機(jī)森林算法的應(yīng)用情況。1.利用隨機(jī)森林算法進(jìn)行電力系統(tǒng)短期負(fù)荷預(yù)測(cè)2.基于隨機(jī)森林算法的農(nóng)耕區(qū)土地利用分類(lèi)研究3.隨機(jī)森林在企業(yè)信用評(píng)估指標(biāo)體系確定中的應(yīng)用7.3隨機(jī)森林算法源程序分析隨機(jī)森林源程序包括如下文件:CARTTool.java、DecisionTree.java、RandomForestTest.java、RandomForestTool.java和TreeNode.java。相關(guān)程序和實(shí)驗(yàn)數(shù)據(jù)可從github中下載,網(wǎng)址為/guanyao1/randomforest.git。當(dāng)測(cè)試的數(shù)據(jù)是Age=Youth,Income=Low,Student=No,careditRating=Fair時(shí),從運(yùn)行結(jié)果得到兩個(gè)決策樹(shù),兩個(gè)決策樹(shù)對(duì)每個(gè)屬性值都作出了準(zhǔn)確的預(yù)測(cè);最后的給的預(yù)測(cè)結(jié)果是Yes,也就是會(huì)買(mǎi)電腦。程序運(yùn)行結(jié)果如圖7-3所示。7.4基于阿里云數(shù)加平臺(tái)的隨機(jī)森林分類(lèi)實(shí)例隨機(jī)森林是一個(gè)包含多個(gè)決策樹(shù)的分類(lèi)器,并且其輸出的類(lèi)別是由單棵樹(shù)輸出的類(lèi)別的眾數(shù)而定,其操作思路與邏輯回歸分類(lèi)算法一致。這里使用第五章中的數(shù)據(jù)來(lái)操作隨機(jī)森林算法,其流程圖為,下圖左側(cè)數(shù)據(jù)為帶有標(biāo)簽的訓(xùn)練集,右側(cè)為不帶標(biāo)簽的預(yù)測(cè)集。隨機(jī)森林的字段信息與參數(shù)設(shè)置如下圖所示,其中,字段設(shè)置前三項(xiàng)在第六章已有解釋?zhuān)@里沒(méi)有權(quán)重列,故權(quán)重列列名可不填寫(xiě),標(biāo)簽列選擇的是“l(fā)abel”列,參數(shù)設(shè)置中需要注意的有,單棵樹(shù)的算法在隨機(jī)森林中的位置,如果有則長(zhǎng)度為2.比如有n棵樹(shù),algorithmTypes=[a,b],則[0,a)是id3,[a,b)是cart,[b,n)是c4.5。例如:在一個(gè)擁有5棵樹(shù)的森林中,[2,4]表示0,1為id3算法,2,3為cart算法,4為c4.5算法。如果輸入為None,則算法在森林中均分;單棵樹(shù)隨機(jī)特征數(shù),為單棵樹(shù)在生成時(shí),每次分列時(shí)選擇的隨機(jī)的特征個(gè)數(shù)。預(yù)測(cè)的實(shí)驗(yàn)結(jié)果為,與KNN算法得到的預(yù)測(cè)結(jié)果一致。生成的模型為:7.5小結(jié)機(jī)器學(xué)習(xí)中,隨機(jī)森林是一個(gè)包含多個(gè)決策樹(shù)的分類(lèi)器,并且其輸出的類(lèi)別是由個(gè)別樹(shù)輸出的類(lèi)別的眾數(shù)而定。隨機(jī)森林算法有很多優(yōu)點(diǎn),如分類(lèi)精度
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 邊學(xué)邊考的方案:2024年育嬰師試題及答案
- 2025-2030奶制品行業(yè)風(fēng)險(xiǎn)投資態(tài)勢(shì)及投融資策略指引報(bào)告
- 人力資源管理師考試難點(diǎn)與試題答案
- 2025-2030塑料裝飾板行業(yè)發(fā)展分析及投資價(jià)值研究咨詢(xún)報(bào)告
- 2025-2030垃圾處理項(xiàng)目可行性研究咨詢(xún)報(bào)告
- 2025-2030地板下供暖行業(yè)市場(chǎng)現(xiàn)狀供需分析及投資評(píng)估規(guī)劃分析研究報(bào)告
- 人教部編版語(yǔ)文七年級(jí)下冊(cè)第五單元《古詩(shī)五首》(新課標(biāo)單元整體教學(xué)設(shè)計(jì)+課時(shí)教學(xué)設(shè)計(jì))(含1)
- 2025-2030國(guó)內(nèi)PE保護(hù)膜行業(yè)深度分析及競(jìng)爭(zhēng)格局與發(fā)展前景預(yù)測(cè)研究報(bào)告
- 2025-2030商業(yè)房間分隔器行業(yè)市場(chǎng)現(xiàn)狀供需分析及重點(diǎn)企業(yè)投資評(píng)估規(guī)劃分析研究報(bào)告
- 輕松通過(guò)2024年計(jì)算機(jī)二級(jí)試題及答案
- GB/T 43392-2023地鐵防災(zāi)系統(tǒng)安全性能測(cè)試與評(píng)估方法
- 全宋詞目錄完整版本
- 諾基亞改革與失敗案例分析
- 福建師范大學(xué)地理科學(xué)學(xué)院859人文地理學(xué)歷年考研真題匯編(含部分答案)
- 單原子催化劑
- 九十年代生活
- GB/T 20688.4-2023橡膠支座第4部分:普通橡膠支座
- bilibili內(nèi)容審核筆試題
- 手術(shù)室護(hù)理實(shí)踐指南之術(shù)中保溫(手術(shù)科培訓(xùn)課件)術(shù)中低體溫的預(yù)防
- 人教版化學(xué)九年級(jí)下冊(cè)第九單元-溶液-課件
- 肌肉牽拉技術(shù)PPT
評(píng)論
0/150
提交評(píng)論