隨機森林講解_第1頁
隨機森林講解_第2頁
隨機森林講解_第3頁
隨機森林講解_第4頁
隨機森林講解_第5頁
已閱讀5頁,還剩9頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

隨機森林目標為什么要學隨機森林什么是隨機森林隨機森林的構建隨機森林的優(yōu)勢和不足為什么要學隨機森林決策樹往往容易出現(xiàn)過擬合的問題,我們可以讓很多樹組成團隊來工作,也就是——隨機森林。什么是隨機森林隨機森林有的時候也被稱為是隨機決策森林,是一種集合學習方法,既可以用于分類,也可以用于回歸。而所謂集合學習算法,其實就是把多個機器學習算法綜合在一起,制造出一個更加大模型的意思。什么是隨機森林決策樹算法很容易出現(xiàn)過擬合的現(xiàn)象。那么為什么隨機森林可以解決這個問題呢?因為隨機森林是把不同的幾棵決策樹打包到一起,每棵樹的參數(shù)都不相同,然后我們把每棵樹預測的結果取平均值,這樣即可以保留決策樹們的工作成效,又可以降低過擬合的風險。隨機森林的構建隨機森林的構建bootstrap參數(shù)代表的是bootstrapsample,也就是“有放回抽樣”的意思,指每次從樣本空間中可以重復抽取同一個樣本(因為樣本在第一次被抽取之后又被放回去了)假設,原始樣本是「'蘋果','西瓜','香蕉','桃子'],那么經(jīng)過bootstrapsample重構的樣本就可能是「西瓜','西瓜','香蕉','桃子'],還有可能是['蘋果','西瓜','桃子','桃子'],bootstrapsample生成的數(shù)據(jù)集和原始數(shù)據(jù)集在數(shù)據(jù)量上是完全一樣的,但由于進行了重復采樣,因此其中有一些數(shù)據(jù)點會丟失。為什么要生成bootstrapsample數(shù)據(jù)集?這是因為通過重新生成數(shù)據(jù)集,可以讓隨機森林中的每一棵決策樹在構建的時候,會彼此之間有些差異。再加上每棵樹的節(jié)點都會去選擇不同的樣本特征,經(jīng)過這兩步動作之后,可以完全肯定隨機森林中的每棵樹都不一樣。隨機森林的構建模型會基于新數(shù)據(jù)集建立一棵決策樹,在隨機森林當中,算法不會讓每棵決策樹都生成最佳的節(jié)點,而是會在每個節(jié)點上隨機地選擇一些樣本特征,然后讓其中之一有最好的擬合表現(xiàn)??梢杂胢ax_features這個參數(shù)來控制所選擇的特征數(shù)量最大值的,在不進行指定的情況下,隨機森林默認自動選擇最大特征數(shù)量。假如把max_features設置為樣本全部的特征數(shù)n_features就意味著模型會在全部特征中進行篩選,這樣在特征選擇這一步,就沒有隨機性可言了。而如果把max_features的值設為1,就意味著模型在數(shù)據(jù)特征上完全沒有選擇的余地,只能去尋找這1個被隨機選出來的特征向量的閾值了。max_features的取值越高,隨機森林里的每一棵決策樹就會“長得更像”,它們因為有更多的不同特征可以選擇,也就會更容易擬合數(shù)據(jù);反之,如果max_features取值越低,就會迫使每棵決策樹的樣子更加不同,而且因為特征太少,決策樹們不得不制造更多節(jié)點來擬合數(shù)據(jù)。隨機森林的構建n_estimators這個參數(shù)控制的是隨機森林中決策樹的數(shù)量。在隨機森林構建完成之后,每棵決策樹都會單獨進行預測。如果是用來進行回歸分析的話,隨機森林會把所有決策樹預測的值取平均數(shù);如果是用來進行分類的話,在森林內部會進行“投票”,每棵樹預測出數(shù)據(jù)類別的概率,比如其中一棵樹說,“這瓶酒80%屬于class_l”,另外一棵樹說"這瓶酒60%屬于class_2”,隨機森林會把這些概率取平均值,然后把樣本放入概率最高的分類當中。隨機森林的構建因為隨機森林生成每棵決策樹的方法是隨機的,那么不同的random_state參數(shù)會導致模型完全不同,所以如果不希望建模的結果太過于不穩(wěn)定,一定要固化random_state這個參數(shù)的數(shù)值。隨機森林的構建對于超大數(shù)據(jù)集來說,隨機森林會比較耗時,不過我們可以用多進程并行處理的方式來解決這個問題。實現(xiàn)方式是調節(jié)隨機森林的njobs參數(shù),記得把njobs參數(shù)數(shù)值設為和CPU內核數(shù)一致,比如你的CPU內核數(shù)是2,那么njobs參數(shù)設為3或者更大是沒有意義的。當然如果你搞不清楚自己的CPU到底就多少內核,可以設置njobs=-1,這樣隨機森林會使用CPU的全部內核,速度就會極大提升了。隨機森林的構建隨機森林的構建可以發(fā)現(xiàn)隨機森林所進行的分類要更加細膩一些,對訓練數(shù)據(jù)集的擬合更好。同學們可以自己試試調節(jié)n_estimator參數(shù)和random_state參數(shù),看看分類器的表現(xiàn)會有怎樣的變化。隨機森林的優(yōu)勢和不足在機器學習領域,無論是分類還是回歸,隨機森林都是應用最廣泛的算法之一優(yōu)勢1.不需要過于在意參數(shù)的調節(jié)2.不要求對數(shù)據(jù)進行預處理3.集成了決策樹的所有優(yōu)點,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論