隨機(jī)森林講解_第1頁
隨機(jī)森林講解_第2頁
隨機(jī)森林講解_第3頁
隨機(jī)森林講解_第4頁
隨機(jī)森林講解_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

隨機(jī)森林目標(biāo)為什么要學(xué)隨機(jī)森林什么是隨機(jī)森林隨機(jī)森林的構(gòu)建隨機(jī)森林的優(yōu)勢和不足為什么要學(xué)隨機(jī)森林決策樹往往容易出現(xiàn)過擬合的問題,我們可以讓很多樹組成團(tuán)隊(duì)來工作,也就是——隨機(jī)森林。什么是隨機(jī)森林隨機(jī)森林有的時(shí)候也被稱為是隨機(jī)決策森林,是一種集合學(xué)習(xí)方法,既可以用于分類,也可以用于回歸。而所謂集合學(xué)習(xí)算法,其實(shí)就是把多個(gè)機(jī)器學(xué)習(xí)算法綜合在一起,制造出一個(gè)更加大模型的意思。什么是隨機(jī)森林決策樹算法很容易出現(xiàn)過擬合的現(xiàn)象。那么為什么隨機(jī)森林可以解決這個(gè)問題呢?因?yàn)殡S機(jī)森林是把不同的幾棵決策樹打包到一起,每棵樹的參數(shù)都不相同,然后我們把每棵樹預(yù)測的結(jié)果取平均值,這樣即可以保留決策樹們的工作成效,又可以降低過擬合的風(fēng)險(xiǎn)。隨機(jī)森林的構(gòu)建隨機(jī)森林的構(gòu)建bootstrap參數(shù)代表的是bootstrapsample,也就是“有放回抽樣”的意思,指每次從樣本空間中可以重復(fù)抽取同一個(gè)樣本(因?yàn)闃颖驹诘谝淮伪怀槿≈笥直环呕厝チ耍┘僭O(shè),原始樣本是「'蘋果','西瓜','香蕉','桃子'],那么經(jīng)過bootstrapsample重構(gòu)的樣本就可能是「西瓜','西瓜','香蕉','桃子'],還有可能是['蘋果','西瓜','桃子','桃子'],bootstrapsample生成的數(shù)據(jù)集和原始數(shù)據(jù)集在數(shù)據(jù)量上是完全一樣的,但由于進(jìn)行了重復(fù)采樣,因此其中有一些數(shù)據(jù)點(diǎn)會丟失。為什么要生成bootstrapsample數(shù)據(jù)集?這是因?yàn)橥ㄟ^重新生成數(shù)據(jù)集,可以讓隨機(jī)森林中的每一棵決策樹在構(gòu)建的時(shí)候,會彼此之間有些差異。再加上每棵樹的節(jié)點(diǎn)都會去選擇不同的樣本特征,經(jīng)過這兩步動作之后,可以完全肯定隨機(jī)森林中的每棵樹都不一樣。隨機(jī)森林的構(gòu)建模型會基于新數(shù)據(jù)集建立一棵決策樹,在隨機(jī)森林當(dāng)中,算法不會讓每棵決策樹都生成最佳的節(jié)點(diǎn),而是會在每個(gè)節(jié)點(diǎn)上隨機(jī)地選擇一些樣本特征,然后讓其中之一有最好的擬合表現(xiàn)??梢杂胢ax_features這個(gè)參數(shù)來控制所選擇的特征數(shù)量最大值的,在不進(jìn)行指定的情況下,隨機(jī)森林默認(rèn)自動選擇最大特征數(shù)量。假如把max_features設(shè)置為樣本全部的特征數(shù)n_features就意味著模型會在全部特征中進(jìn)行篩選,這樣在特征選擇這一步,就沒有隨機(jī)性可言了。而如果把max_features的值設(shè)為1,就意味著模型在數(shù)據(jù)特征上完全沒有選擇的余地,只能去尋找這1個(gè)被隨機(jī)選出來的特征向量的閾值了。max_features的取值越高,隨機(jī)森林里的每一棵決策樹就會“長得更像”,它們因?yàn)橛懈嗟牟煌卣骺梢赃x擇,也就會更容易擬合數(shù)據(jù);反之,如果max_features取值越低,就會迫使每棵決策樹的樣子更加不同,而且因?yàn)樘卣魈?,決策樹們不得不制造更多節(jié)點(diǎn)來擬合數(shù)據(jù)。隨機(jī)森林的構(gòu)建n_estimators這個(gè)參數(shù)控制的是隨機(jī)森林中決策樹的數(shù)量。在隨機(jī)森林構(gòu)建完成之后,每棵決策樹都會單獨(dú)進(jìn)行預(yù)測。如果是用來進(jìn)行回歸分析的話,隨機(jī)森林會把所有決策樹預(yù)測的值取平均數(shù);如果是用來進(jìn)行分類的話,在森林內(nèi)部會進(jìn)行“投票”,每棵樹預(yù)測出數(shù)據(jù)類別的概率,比如其中一棵樹說,“這瓶酒80%屬于class_l”,另外一棵樹說"這瓶酒60%屬于class_2”,隨機(jī)森林會把這些概率取平均值,然后把樣本放入概率最高的分類當(dāng)中。隨機(jī)森林的構(gòu)建因?yàn)殡S機(jī)森林生成每棵決策樹的方法是隨機(jī)的,那么不同的random_state參數(shù)會導(dǎo)致模型完全不同,所以如果不希望建模的結(jié)果太過于不穩(wěn)定,一定要固化random_state這個(gè)參數(shù)的數(shù)值。隨機(jī)森林的構(gòu)建對于超大數(shù)據(jù)集來說,隨機(jī)森林會比較耗時(shí),不過我們可以用多進(jìn)程并行處理的方式來解決這個(gè)問題。實(shí)現(xiàn)方式是調(diào)節(jié)隨機(jī)森林的njobs參數(shù),記得把njobs參數(shù)數(shù)值設(shè)為和CPU內(nèi)核數(shù)一致,比如你的CPU內(nèi)核數(shù)是2,那么njobs參數(shù)設(shè)為3或者更大是沒有意義的。當(dāng)然如果你搞不清楚自己的CPU到底就多少內(nèi)核,可以設(shè)置njobs=-1,這樣隨機(jī)森林會使用CPU的全部內(nèi)核,速度就會極大提升了。隨機(jī)森林的構(gòu)建隨機(jī)森林的構(gòu)建可以發(fā)現(xiàn)隨機(jī)森林所進(jìn)行的分類要更加細(xì)膩一些,對訓(xùn)練數(shù)據(jù)集的擬合更好。同學(xué)們可以自己試試調(diào)節(jié)n_estimator參數(shù)和random_state參數(shù),看看分類器的表現(xiàn)會有怎樣的變化。隨機(jī)森林的優(yōu)勢和不足在機(jī)器學(xué)習(xí)領(lǐng)域,無論是分類還是回歸,隨機(jī)森林都是應(yīng)用最廣泛的算法之一優(yōu)勢1.不需要過于在意參數(shù)的調(diào)節(jié)2.不要求對數(shù)據(jù)進(jìn)行預(yù)處理3.集成了決策樹的所有優(yōu)點(diǎn),

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論