第12章-集成學(xué)習(xí)_第1頁
第12章-集成學(xué)習(xí)_第2頁
第12章-集成學(xué)習(xí)_第3頁
第12章-集成學(xué)習(xí)_第4頁
第12章-集成學(xué)習(xí)_第5頁
已閱讀5頁,還剩19頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

MACHINELEARNING機(jī)器學(xué)習(xí)第12章集成學(xué)習(xí)集成學(xué)習(xí)通過建立幾個模型來解決單一預(yù)測問題。它的工作原理是生成多個分類器/模型,各自獨(dú)立地學(xué)習(xí)和作出預(yù)測。這些預(yù)測最后結(jié)合成組合預(yù)測,因此優(yōu)于任何一個單分類的做出預(yù)測。12.集成學(xué)習(xí)集成學(xué)習(xí)(EnsembleLearning)第12章集成學(xué)習(xí)任務(wù)一:如何優(yōu)化訓(xùn)練數(shù)據(jù)一>主要用于解決欠擬合問題。任務(wù)二:如何提升泛化性能一>主要用于解決過擬合問題多種機(jī)器學(xué)習(xí)算法都能做同樣的事情。讓不同的算法針對同一個數(shù)據(jù)都跑一遍,最終使用投票的方法,少數(shù)服從多數(shù),用多數(shù)投票的結(jié)果作為最終的結(jié)果。12.集成學(xué)習(xí)機(jī)器學(xué)習(xí)的兩個核心任務(wù)第12章集成學(xué)習(xí)hardvoting計(jì)算投票的方式是直接按照投票數(shù)量得出的,softvoting計(jì)算投票考慮了權(quán)重假如一個二分類(A、B)問題,5個模型分別對一個樣本進(jìn)行分類。按照hardvoting,投票結(jié)果:A為2票(模型1、4),B為3票(模型2、3、5),最終結(jié)果為B;但考慮A、B的概率和(A:0.616;B0.384)則投票結(jié)果為A。12.集成學(xué)習(xí)SoftVotingClassifier第12章集成學(xué)習(xí)雖然有很多機(jī)器學(xué)習(xí)的算法,但從投票的角度看,仍然不夠多。需要創(chuàng)建更多的子模型,集成更多子模型的意見。子模型之間不能一致,子模型之間要有差異性。創(chuàng)建差異性子模型的解決方法:每個子模型只看樣本數(shù)據(jù)的一部分。每個子模型不太需要太高的準(zhǔn)確率。只要子模型足夠多,準(zhǔn)確率就會提高。例如500個子模型,每個子模型的準(zhǔn)確率是60%,最終準(zhǔn)確率能達(dá)到99.9%12.集成學(xué)習(xí)Bagging和Pasting第12章集成學(xué)習(xí)12.集成學(xué)習(xí)Bagging集成原理目標(biāo):把圈和方塊進(jìn)行分類第12章集成學(xué)習(xí)12.集成學(xué)習(xí)Bagging集成原理不同模型采樣部分?jǐn)?shù)據(jù)集第12章集成學(xué)習(xí)12.集成學(xué)習(xí)Bagging集成原理訓(xùn)練分類器第12章集成學(xué)習(xí)12.集成學(xué)習(xí)Bagging集成原理平權(quán)投票,獲取最終結(jié)果第12章集成學(xué)習(xí)12.集成學(xué)習(xí)Bagging集成原理原理小結(jié)第12章集成學(xué)習(xí)12.集成學(xué)習(xí)Bagging集成原理取樣方法:放回取樣bagging(bootstrap)不放回取樣pastingbagging更常用優(yōu)點(diǎn)沒有那么依賴隨機(jī)數(shù)據(jù)量要求沒那么高第12章集成學(xué)習(xí)只要是以決策樹為基礎(chǔ)的集成學(xué)習(xí)算法都叫隨機(jī)森林。隨機(jī)森林構(gòu)造過程在機(jī)器學(xué)習(xí)中,隨機(jī)森林是一個包含多個決策樹的分類器,并且其輸出的類別是由個別樹輸出的類別的眾數(shù)而定。

隨機(jī)森林=Bagging+決策樹12.集成學(xué)習(xí)隨機(jī)森林第12章集成學(xué)習(xí)12.集成學(xué)習(xí)Boosting

隨著學(xué)習(xí)的積累從弱到強(qiáng),簡而言之:每新加入一個弱學(xué)習(xí)器,整體能力就會得到提升代表算法:Adaboosting,GBDT,XGBoost,LightGBM第12章集成學(xué)習(xí)12.集成學(xué)習(xí)Boosting

實(shí)現(xiàn)過程訓(xùn)練第一個學(xué)習(xí)器第12章集成學(xué)習(xí)12.集成學(xué)習(xí)Boosting

實(shí)現(xiàn)過程調(diào)整數(shù)據(jù)分布:將錯誤的數(shù)據(jù)權(quán)重變的高一些,正確的變得小一些第12章集成學(xué)習(xí)12.集成學(xué)習(xí)Boosting

實(shí)現(xiàn)過程訓(xùn)練第二個學(xué)習(xí)器第12章集成學(xué)習(xí)12.集成學(xué)習(xí)Boosting

實(shí)現(xiàn)過程再次調(diào)整數(shù)據(jù)分布第12章集成學(xué)習(xí)12.集成學(xué)習(xí)Boosting

實(shí)現(xiàn)過程依次訓(xùn)練學(xué)習(xí)器,調(diào)整數(shù)據(jù)分布第12章集成學(xué)習(xí)12.集成學(xué)習(xí)Boosting

實(shí)現(xiàn)過程整體過程實(shí)現(xiàn)第12章集成學(xué)習(xí)12.集成學(xué)習(xí)Boosting

前面的一類集成學(xué)習(xí)的思路(voting):獨(dú)立地集成多個模型,讓各種子模型在視角上有差異化,并最終綜合這些子模型的結(jié)果,獲得學(xué)習(xí)的最終結(jié)果。另一類集成學(xué)習(xí)的思路叫做boosting。boosting即增強(qiáng)的意思。boosting也要集成多個模型,但每個模型都在嘗試增強(qiáng)(boosting)整體的效果。子模型之間不是獨(dú)立的關(guān)系。

模型沒有很好學(xué)習(xí)的點(diǎn)的權(quán)值增大,很好學(xué)習(xí)到的點(diǎn)的權(quán)值減小,得到數(shù)據(jù)集N+1。每一個子模型都在推動上一個子模型犯的錯誤,用這些子模型投票得到最終結(jié)果。第12章集成學(xué)習(xí)12.集成學(xué)習(xí)Boosting第12章集成學(xué)習(xí)12.集成學(xué)習(xí)bagging集成與boosting集成的區(qū)別

區(qū)別一:數(shù)據(jù)方面Bagging:對數(shù)據(jù)進(jìn)行采樣訓(xùn)練;Boosting:根據(jù)前一輪學(xué)習(xí)結(jié)果調(diào)整數(shù)據(jù)的重要性。區(qū)別二:投票方面Bagging:所有學(xué)習(xí)器平權(quán)投票;Boosting:對學(xué)習(xí)器進(jìn)行加權(quán)投票。第12章集成學(xué)習(xí)12.集成學(xué)習(xí)bagging集成與boosting集成的區(qū)別區(qū)別三:學(xué)習(xí)順序Bagging的學(xué)習(xí)是并行的,每個學(xué)習(xí)器沒

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論