版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
MACHINELEARNING機(jī)器學(xué)習(xí)第12章集成學(xué)習(xí)集成學(xué)習(xí)通過建立幾個模型來解決單一預(yù)測問題。它的工作原理是生成多個分類器/模型,各自獨(dú)立地學(xué)習(xí)和作出預(yù)測。這些預(yù)測最后結(jié)合成組合預(yù)測,因此優(yōu)于任何一個單分類的做出預(yù)測。12.集成學(xué)習(xí)集成學(xué)習(xí)(EnsembleLearning)第12章集成學(xué)習(xí)任務(wù)一:如何優(yōu)化訓(xùn)練數(shù)據(jù)一>主要用于解決欠擬合問題。任務(wù)二:如何提升泛化性能一>主要用于解決過擬合問題多種機(jī)器學(xué)習(xí)算法都能做同樣的事情。讓不同的算法針對同一個數(shù)據(jù)都跑一遍,最終使用投票的方法,少數(shù)服從多數(shù),用多數(shù)投票的結(jié)果作為最終的結(jié)果。12.集成學(xué)習(xí)機(jī)器學(xué)習(xí)的兩個核心任務(wù)第12章集成學(xué)習(xí)hardvoting計(jì)算投票的方式是直接按照投票數(shù)量得出的,softvoting計(jì)算投票考慮了權(quán)重假如一個二分類(A、B)問題,5個模型分別對一個樣本進(jìn)行分類。按照hardvoting,投票結(jié)果:A為2票(模型1、4),B為3票(模型2、3、5),最終結(jié)果為B;但考慮A、B的概率和(A:0.616;B0.384)則投票結(jié)果為A。12.集成學(xué)習(xí)SoftVotingClassifier第12章集成學(xué)習(xí)雖然有很多機(jī)器學(xué)習(xí)的算法,但從投票的角度看,仍然不夠多。需要創(chuàng)建更多的子模型,集成更多子模型的意見。子模型之間不能一致,子模型之間要有差異性。創(chuàng)建差異性子模型的解決方法:每個子模型只看樣本數(shù)據(jù)的一部分。每個子模型不太需要太高的準(zhǔn)確率。只要子模型足夠多,準(zhǔn)確率就會提高。例如500個子模型,每個子模型的準(zhǔn)確率是60%,最終準(zhǔn)確率能達(dá)到99.9%12.集成學(xué)習(xí)Bagging和Pasting第12章集成學(xué)習(xí)12.集成學(xué)習(xí)Bagging集成原理目標(biāo):把圈和方塊進(jìn)行分類第12章集成學(xué)習(xí)12.集成學(xué)習(xí)Bagging集成原理不同模型采樣部分?jǐn)?shù)據(jù)集第12章集成學(xué)習(xí)12.集成學(xué)習(xí)Bagging集成原理訓(xùn)練分類器第12章集成學(xué)習(xí)12.集成學(xué)習(xí)Bagging集成原理平權(quán)投票,獲取最終結(jié)果第12章集成學(xué)習(xí)12.集成學(xué)習(xí)Bagging集成原理原理小結(jié)第12章集成學(xué)習(xí)12.集成學(xué)習(xí)Bagging集成原理取樣方法:放回取樣bagging(bootstrap)不放回取樣pastingbagging更常用優(yōu)點(diǎn)沒有那么依賴隨機(jī)數(shù)據(jù)量要求沒那么高第12章集成學(xué)習(xí)只要是以決策樹為基礎(chǔ)的集成學(xué)習(xí)算法都叫隨機(jī)森林。隨機(jī)森林構(gòu)造過程在機(jī)器學(xué)習(xí)中,隨機(jī)森林是一個包含多個決策樹的分類器,并且其輸出的類別是由個別樹輸出的類別的眾數(shù)而定。
隨機(jī)森林=Bagging+決策樹12.集成學(xué)習(xí)隨機(jī)森林第12章集成學(xué)習(xí)12.集成學(xué)習(xí)Boosting
隨著學(xué)習(xí)的積累從弱到強(qiáng),簡而言之:每新加入一個弱學(xué)習(xí)器,整體能力就會得到提升代表算法:Adaboosting,GBDT,XGBoost,LightGBM第12章集成學(xué)習(xí)12.集成學(xué)習(xí)Boosting
實(shí)現(xiàn)過程訓(xùn)練第一個學(xué)習(xí)器第12章集成學(xué)習(xí)12.集成學(xué)習(xí)Boosting
實(shí)現(xiàn)過程調(diào)整數(shù)據(jù)分布:將錯誤的數(shù)據(jù)權(quán)重變的高一些,正確的變得小一些第12章集成學(xué)習(xí)12.集成學(xué)習(xí)Boosting
實(shí)現(xiàn)過程訓(xùn)練第二個學(xué)習(xí)器第12章集成學(xué)習(xí)12.集成學(xué)習(xí)Boosting
實(shí)現(xiàn)過程再次調(diào)整數(shù)據(jù)分布第12章集成學(xué)習(xí)12.集成學(xué)習(xí)Boosting
實(shí)現(xiàn)過程依次訓(xùn)練學(xué)習(xí)器,調(diào)整數(shù)據(jù)分布第12章集成學(xué)習(xí)12.集成學(xué)習(xí)Boosting
實(shí)現(xiàn)過程整體過程實(shí)現(xiàn)第12章集成學(xué)習(xí)12.集成學(xué)習(xí)Boosting
前面的一類集成學(xué)習(xí)的思路(voting):獨(dú)立地集成多個模型,讓各種子模型在視角上有差異化,并最終綜合這些子模型的結(jié)果,獲得學(xué)習(xí)的最終結(jié)果。另一類集成學(xué)習(xí)的思路叫做boosting。boosting即增強(qiáng)的意思。boosting也要集成多個模型,但每個模型都在嘗試增強(qiáng)(boosting)整體的效果。子模型之間不是獨(dú)立的關(guān)系。
模型沒有很好學(xué)習(xí)的點(diǎn)的權(quán)值增大,很好學(xué)習(xí)到的點(diǎn)的權(quán)值減小,得到數(shù)據(jù)集N+1。每一個子模型都在推動上一個子模型犯的錯誤,用這些子模型投票得到最終結(jié)果。第12章集成學(xué)習(xí)12.集成學(xué)習(xí)Boosting第12章集成學(xué)習(xí)12.集成學(xué)習(xí)bagging集成與boosting集成的區(qū)別
區(qū)別一:數(shù)據(jù)方面Bagging:對數(shù)據(jù)進(jìn)行采樣訓(xùn)練;Boosting:根據(jù)前一輪學(xué)習(xí)結(jié)果調(diào)整數(shù)據(jù)的重要性。區(qū)別二:投票方面Bagging:所有學(xué)習(xí)器平權(quán)投票;Boosting:對學(xué)習(xí)器進(jìn)行加權(quán)投票。第12章集成學(xué)習(xí)12.集成學(xué)習(xí)bagging集成與boosting集成的區(qū)別區(qū)別三:學(xué)習(xí)順序Bagging的學(xué)習(xí)是并行的,每個學(xué)習(xí)器沒
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年文明單位創(chuàng)建工作報(bào)告
- 2025年度個人信用卡透支合同模板(全新修訂)4篇
- 2025年度個人稅務(wù)籌劃與申報(bào)服務(wù)合同6篇
- 2025年度高端住宅個人出租服務(wù)合同樣本4篇
- 2025年中國廈門外輪代理有限公司招聘筆試參考題庫含答案解析
- 2025年河南東龍控股集團(tuán)有限公司招聘筆試參考題庫含答案解析
- 綿陽市二零二五年度長租公寓租賃管理合同4篇
- 2025年度購房合同霸王條款解析:購房者維權(quán)手冊3篇
- 2025年江蘇連云港市東海城投集團(tuán)招聘筆試參考題庫含答案解析
- 2025年版醫(yī)療廢棄物無害化處置及資源化利用合同3篇
- 2025年病案編碼員資格證試題庫(含答案)
- 企業(yè)財(cái)務(wù)三年戰(zhàn)略規(guī)劃
- 提高膿毒性休克患者1h集束化措施落實(shí)率
- 山東省濟(jì)南市天橋區(qū)2024-2025學(xué)年八年級數(shù)學(xué)上學(xué)期期中考試試題
- 主播mcn合同模板
- 新疆2024年中考數(shù)學(xué)試卷(含答案)
- 2024測繪個人年終工作總結(jié)
- DB11 637-2015 房屋結(jié)構(gòu)綜合安全性鑒定標(biāo)準(zhǔn)
- 制造業(yè)生產(chǎn)流程作業(yè)指導(dǎo)書
- DB34∕T 4444-2023 企業(yè)信息化系統(tǒng)上云評估服務(wù)規(guī)范
- 福建中閩能源股份有限公司招聘筆試題庫2024
評論
0/150
提交評論