《數(shù)據(jù)挖掘與機器學(xué)習(xí)》 課件5.3.2 隨機森林、任評估與優(yōu)化加工廠玻璃類別識別模型_第1頁
《數(shù)據(jù)挖掘與機器學(xué)習(xí)》 課件5.3.2 隨機森林、任評估與優(yōu)化加工廠玻璃類別識別模型_第2頁
《數(shù)據(jù)挖掘與機器學(xué)習(xí)》 課件5.3.2 隨機森林、任評估與優(yōu)化加工廠玻璃類別識別模型_第3頁
《數(shù)據(jù)挖掘與機器學(xué)習(xí)》 課件5.3.2 隨機森林、任評估與優(yōu)化加工廠玻璃類別識別模型_第4頁
《數(shù)據(jù)挖掘與機器學(xué)習(xí)》 課件5.3.2 隨機森林、任評估與優(yōu)化加工廠玻璃類別識別模型_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

評估與優(yōu)化加工廠玻璃類別識別模型加工廠玻璃類別識別——決策樹、隨機森林任務(wù)描述大國工匠,精益求精。擁有精益求精的學(xué)習(xí)和工作精神,才能夠勇攀高峰,再創(chuàng)輝煌。在模型建立之后,通常需要對模型進行評估。如果模型的性能較差,那么可以考慮對模型進行調(diào)優(yōu)。本任務(wù)介紹幾種常見的評估方法,并在評估后對模型進行調(diào)優(yōu)。在最后介紹了隨機森林算法。任務(wù)要求了解常見的評估方法。了解隨機森林的基本概念。使用sklearn庫對模型進行評估。使用sklearn庫構(gòu)造隨機森林模型。K折交叉驗證與GridSearch網(wǎng)絡(luò)搜索隨機森林隨機森林單棵決策樹雖然也能學(xué)習(xí)復(fù)雜的函數(shù),但容易出現(xiàn)過擬合的問題。研究人員自然就想到是否能創(chuàng)建多棵決策樹,讓每棵樹都參與模型的預(yù)測,最后按照“少數(shù)服從多數(shù)”的原則,選出總體的預(yù)測結(jié)果。這就是隨機森林算法的雛形。隨機森林(RandomForest)是一種基于決策樹的集成學(xué)習(xí)算法。它將多個決策樹進行集成,通過多數(shù)投票的方式對樣本進行分類或回歸預(yù)測。什么是隨機森林?隨機森林決策樹1分類結(jié)果1決策樹2分類結(jié)果2決策樹K分類結(jié)果K…有放回的抽取樣本和特征構(gòu)建多個新的數(shù)據(jù)集訓(xùn)練樣本集Bootstrap抽樣訓(xùn)練集1訓(xùn)練集2訓(xùn)練集k…隨機森林分類結(jié)果1分類結(jié)果2分類結(jié)果K…投票分類結(jié)果隨機森林采用多數(shù)投票的方式,將每棵決策樹的分類結(jié)果進行統(tǒng)計和匯總最終確定樣本的分類結(jié)果隨機森林具體來說,隨機森林的分類模型包含以下兩個步驟。對于給定的數(shù)據(jù)集,運用Bootstrap自主抽樣法,有放回的抽取樣本和特征,構(gòu)建多個新的數(shù)據(jù)集。對新的數(shù)據(jù)集進行決策樹的生成,如選擇最優(yōu)的特征或?qū)傩?、分裂?jié)點、生成子節(jié)點等。Bootstrap自主抽樣法是一種用于估計統(tǒng)計量抽樣分布的統(tǒng)計方法。它的基本思想是通過對樣本數(shù)據(jù)的有放回地抽取來模擬總體分布,并使用這些樣本數(shù)據(jù)的統(tǒng)計量來估計總體分布中的統(tǒng)計量。模型訓(xùn)練通過多次隨機抽取樣本集和構(gòu)建決策樹,隨機森林可以產(chǎn)生多個不同的決策樹。隨機森林采用多數(shù)投票的方式,將每棵決策樹的分類結(jié)果進行統(tǒng)計和匯總,最終確定樣本的分類結(jié)果。決策分類隨機森林使用sklearn庫中的RandomForestClassifier類可以建立隨機森林模型,其基本使用格式如下。classsklearn.ensemble.RandomForestClassifier(n_estimators=10,criterion='gini',max_depth=None,min_samples_split=2,min_samples_leaf=1,max_features=’auto’,n_jobs=1,random_state=None,class_weight=None)隨機森林RandomForestClassifier類常用參數(shù)及其說明如下。參數(shù)名稱說明n_estimators接收int,表示決策樹的數(shù)量,默認為10criterion接收str,表示衡量拆分質(zhì)量的度量標(biāo)準(zhǔn),默認為"gini"max_depth接收int,表示樹的最大深度。默認為"None",表示不限制樹的深度min_samples_split接收int或float,表示拆分一個內(nèi)部節(jié)點所需的最小樣本數(shù),默認為2min_samples_leaf接收int或float,表示葉節(jié)點上所需的最小樣本數(shù),默認為1隨機森林RandomForestClassifier類常用參數(shù)及其說明如下。參數(shù)名稱說明max_features接收int或str,表示每個決策樹分裂時使用的最大特征數(shù),默認為"auto",表示所有特征n_jobs接收int,并行運算時使用的CPU核心數(shù)量。默認為1,表示使用所有核心random_state接收int,表示隨機數(shù)生成器的種子,控制偽隨機數(shù)的生成。默認為"None"class_weight接收字典或str,表示樣本權(quán)重的設(shè)置,默認為"None",表示所有樣本權(quán)重相等隨機森林1234確定隨機森林參數(shù)擬合數(shù)據(jù)求出預(yù)測結(jié)果的準(zhǔn)確率和混淆矩陣預(yù)測測試集結(jié)果隨機森林隨機森林的優(yōu)缺點隨機森林的優(yōu)點如在決策樹中所述,可以防止過擬合問題,提高模型的泛化能力。隨機森林的缺點在于解釋性不如單棵決策樹,對于某些特定問題可能表現(xiàn)不佳。同時,由于隨機森林需要構(gòu)建多棵決策樹,因此,其模型的訓(xùn)練時間和內(nèi)存開銷較大。在實際應(yīng)用中,隨機森林通常用于分類和回歸問題,如金融信用評分、醫(yī)學(xué)診斷、自然語言處理等領(lǐng)域。使用GridSearch網(wǎng)絡(luò)搜索進行模型調(diào)優(yōu)構(gòu)建隨機森林模型使用GridSearch網(wǎng)絡(luò)搜索進行模型調(diào)優(yōu)使用GridSearch網(wǎng)絡(luò)搜索進行模型調(diào)優(yōu)主要通過以下4個步驟實現(xiàn)。使用import和from導(dǎo)入GridSearchCV、DecisionTreeClassifier、RandomForestClassifier、accuracy_score、recall_score、confusion_matrix等開發(fā)類庫。使用GridSearch網(wǎng)絡(luò)搜索進行模型調(diào)優(yōu),得到最優(yōu)的參數(shù)。使用得到的最佳參數(shù),重新使用DecisionTreeClassifier類建立決策樹模型。使用accuracy_score、recall_score、confusion_matrix函數(shù)計算模型的準(zhǔn)確率、召回率、混淆矩陣。構(gòu)建隨機森林模型構(gòu)建隨機森林模型主要通過以下5個步驟實現(xiàn)。使用RandomForestClassifier類構(gòu)建隨機森林模型使用accuracy_score、recall_score、confusion_matrix函數(shù)計算模型的準(zhǔn)確率、召回率、混淆矩陣使用GridSearch網(wǎng)絡(luò)搜索求隨機森林模型最佳參數(shù)構(gòu)建隨機森林模型構(gòu)建隨機森林模型

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論