大數(shù)據(jù)挖掘與應(yīng)用-第7章-隨機(jī)森林分類(lèi)算法_第1頁(yè)
大數(shù)據(jù)挖掘與應(yīng)用-第7章-隨機(jī)森林分類(lèi)算法_第2頁(yè)
大數(shù)據(jù)挖掘與應(yīng)用-第7章-隨機(jī)森林分類(lèi)算法_第3頁(yè)
大數(shù)據(jù)挖掘與應(yīng)用-第7章-隨機(jī)森林分類(lèi)算法_第4頁(yè)
大數(shù)據(jù)挖掘與應(yīng)用-第7章-隨機(jī)森林分類(lèi)算法_第5頁(yè)
已閱讀5頁(yè),還剩15頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第7章隨機(jī)森林分類(lèi)算法由于傳統(tǒng)的很多分類(lèi)方法具有精度不高且容易出現(xiàn)過(guò)擬合的問(wèn)題,因此可以通過(guò)聚集多個(gè)模型的方法來(lái)提高預(yù)測(cè)精度,這種方法稱(chēng)為組合(ensemble)或分類(lèi)器組合(classifiercombination)方法。該類(lèi)方法首先利用訓(xùn)練集數(shù)據(jù)構(gòu)建一組基本的分類(lèi)模型(baseclassifier),然后通過(guò)對(duì)每個(gè)基分類(lèi)模型的預(yù)測(cè)值進(jìn)行投票(因變量為分類(lèi)或離散變量時(shí))或取平均值(因變量為連續(xù)數(shù)值變量)來(lái)決定最終預(yù)測(cè)值。7.1隨機(jī)森林算法原理7.1.1隨機(jī)森林算法原理為了生成這些組合模型,通常要生成隨機(jī)向量來(lái)控制組合中每個(gè)決策樹(shù)的生成。Bagging是早期組合樹(shù)方法之一,這是一種從訓(xùn)練集中隨機(jī)抽取部分樣本來(lái)生成決策樹(shù)的方法,還有一種方法是隨機(jī)分割選取,該方法在每個(gè)結(jié)點(diǎn)從K個(gè)最優(yōu)分割中隨機(jī)選取一種分割。Ho對(duì)隨機(jī)子空間方法進(jìn)行了深入研究并通過(guò)對(duì)特征變量隨機(jī)選取子集來(lái)生成每棵決策樹(shù)。LeoBreiman和AdeleCutler給出了隨機(jī)森林(RadomForest,RF)算法,該方法是結(jié)合了自助聚集(Bootstrapaggregating)想法和Ho的隨機(jī)子空間(randomsubspace)方法以建造決策樹(shù)的集合。

7.2隨機(jī)森林算法的特點(diǎn)及應(yīng)用7.2.1隨機(jī)森林算法的特點(diǎn)大量的理論和實(shí)證研究都證明了RF具有很高的預(yù)測(cè)準(zhǔn)確率,對(duì)異常值和噪聲具有很好的容忍度,且不容易出現(xiàn)過(guò)擬合。可以說(shuō),RF是一種自然的非線性建模工具。隨機(jī)森林的優(yōu)點(diǎn)有:1.對(duì)于很多種資料,它可以產(chǎn)生高準(zhǔn)確度的分類(lèi)器。2.它可以處理大量的輸入變量。3.它可以在決定類(lèi)別時(shí)評(píng)估變量的重要性。4.在建造森林時(shí)它可以在內(nèi)部對(duì)于一般化后的誤差產(chǎn)生不偏差的估計(jì)。5.它可以估計(jì)遺失的資料,并且如果有很大一部分的資料遺失,仍可以維持準(zhǔn)確度。6.對(duì)于不平衡的分類(lèi)資料集來(lái)說(shuō),它可以平衡誤差。7.它計(jì)算各例中的親近度,對(duì)異常檢測(cè)和資料視覺(jué)化非常有用。8.學(xué)習(xí)過(guò)程是很快速的。9.隨機(jī)森林不會(huì)產(chǎn)生過(guò)擬合問(wèn)題。7.2.2隨機(jī)森林算法的應(yīng)用近年來(lái),隨機(jī)森林在國(guó)內(nèi)外得到了迅速發(fā)展,在醫(yī)學(xué)、管理學(xué)、經(jīng)濟(jì)學(xué)等眾多領(lǐng)域得到了廣泛的應(yīng)用。下面通過(guò)三個(gè)實(shí)例說(shuō)明隨機(jī)森林算法的應(yīng)用情況。1.利用隨機(jī)森林算法進(jìn)行電力系統(tǒng)短期負(fù)荷預(yù)測(cè)2.基于隨機(jī)森林算法的農(nóng)耕區(qū)土地利用分類(lèi)研究3.隨機(jī)森林在企業(yè)信用評(píng)估指標(biāo)體系確定中的應(yīng)用7.3隨機(jī)森林算法源程序分析隨機(jī)森林源程序包括如下文件:CARTTool.java、DecisionTree.java、RandomForestTest.java、RandomForestTool.java和TreeNode.java。相關(guān)程序和實(shí)驗(yàn)數(shù)據(jù)可從github中下載,網(wǎng)址為/guanyao1/randomforest.git。當(dāng)測(cè)試的數(shù)據(jù)是Age=Youth,Income=Low,Student=No,careditRating=Fair時(shí),從運(yùn)行結(jié)果得到兩個(gè)決策樹(shù),兩個(gè)決策樹(shù)對(duì)每個(gè)屬性值都作出了準(zhǔn)確的預(yù)測(cè);最后的給的預(yù)測(cè)結(jié)果是Yes,也就是會(huì)買(mǎi)電腦。程序運(yùn)行結(jié)果如圖7-3所示。7.4基于阿里云數(shù)加平臺(tái)的隨機(jī)森林分類(lèi)實(shí)例隨機(jī)森林是一個(gè)包含多個(gè)決策樹(shù)的分類(lèi)器,并且其輸出的類(lèi)別是由單棵樹(shù)輸出的類(lèi)別的眾數(shù)而定,其操作思路與邏輯回歸分類(lèi)算法一致。這里使用第五章中的數(shù)據(jù)來(lái)操作隨機(jī)森林算法,其流程圖為,下圖左側(cè)數(shù)據(jù)為帶有標(biāo)簽的訓(xùn)練集,右側(cè)為不帶標(biāo)簽的預(yù)測(cè)集。隨機(jī)森林的字段信息與參數(shù)設(shè)置如下圖所示,其中,字段設(shè)置前三項(xiàng)在第六章已有解釋?zhuān)@里沒(méi)有權(quán)重列,故權(quán)重列列名可不填寫(xiě),標(biāo)簽列選擇的是“l(fā)abel”列,參數(shù)設(shè)置中需要注意的有,單棵樹(shù)的算法在隨機(jī)森林中的位置,如果有則長(zhǎng)度為2.比如有n棵樹(shù),algorithmTypes=[a,b],則[0,a)是id3,[a,b)是cart,[b,n)是c4.5。例如:在一個(gè)擁有5棵樹(shù)的森林中,[2,4]表示0,1為id3算法,2,3為cart算法,4為c4.5算法。如果輸入為None,則算法在森林中均分;單棵樹(shù)隨機(jī)特征數(shù),為單棵樹(shù)在生成時(shí),每次分列時(shí)選擇的隨機(jī)的特征個(gè)數(shù)。預(yù)測(cè)的實(shí)驗(yàn)結(jié)果為,與KNN算法得到的預(yù)測(cè)結(jié)果一致。生成的模型為:7.5小結(jié)機(jī)器學(xué)習(xí)中,隨機(jī)森林是一個(gè)包含多個(gè)決策樹(shù)的分類(lèi)器,并且其輸出的類(lèi)別是由個(gè)別樹(shù)輸出的類(lèi)別的眾數(shù)而定。隨機(jī)森林算法有很多優(yōu)點(diǎn),如分類(lèi)精度

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論