版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
彭輝94031097(QQ)機(jī)器學(xué)習(xí)MachineLearningboosting算法任務(wù)目標(biāo)能力目標(biāo)理解裝袋法、隨機(jī)森林集成學(xué)習(xí)原理理解集成學(xué)習(xí)基本原理理解Boosting集成學(xué)習(xí)原理使用Sklearn進(jìn)行集成學(xué)習(xí)算法應(yīng)用開(kāi)發(fā)任務(wù)目標(biāo)素質(zhì)目標(biāo)團(tuán)隊(duì)協(xié)作學(xué)會(huì)學(xué)習(xí)實(shí)踐創(chuàng)新Boosting1990年,R.Schapire給出了肯定的答案,通過(guò)組合三個(gè)弱學(xué)習(xí)器實(shí)現(xiàn)了一個(gè)強(qiáng)學(xué)習(xí)器,促進(jìn)了提升(Boosting)算法的極大發(fā)展。Boosting簡(jiǎn)介BoostingBoosting算法分為如下兩個(gè)階段。訓(xùn)練階段。給定一個(gè)大訓(xùn)練集X,隨機(jī)地將其劃分為3個(gè)子集X={X1,X2,X3}。首先,使用X1訓(xùn)練d1;接著,提取X2并將它作為d1的輸入,將d1錯(cuò)誤分類的所有實(shí)例以及X2中被d1正確分類的一些實(shí)例一起作為d2的訓(xùn)練集;然后,提取X3并將它輸入給d1和d2,其中用d1和d2輸出不一致的實(shí)例作為d3的訓(xùn)練集。檢驗(yàn)階段。給定一個(gè)實(shí)例,首先將其提供給d1和d2,如果二者輸出一致,這就是輸出結(jié)果,否則d3的輸出作為輸出結(jié)果。Boosting的優(yōu)化boosting的缺點(diǎn):
盡管Boosting非常成功,但是需要一個(gè)非常大的訓(xùn)練樣本集,將樣本集一分為三。(很多場(chǎng)合不太現(xiàn)實(shí))1996年,YoavFreund和RobertSchapire提出了提升的一個(gè)變種,即自適應(yīng)提升(AdaptiveBoosting,AdaBoost),它重復(fù)使用相同的訓(xùn)練集,而不再要求很大的數(shù)據(jù)集。AdaBoostAdaBoostAdaBoost算法的工作機(jī)制首先,訓(xùn)練集用初始權(quán)重訓(xùn)練出一個(gè)弱學(xué)習(xí)器1,根據(jù)弱學(xué)習(xí)的學(xué)習(xí)誤差率表現(xiàn)來(lái)更新訓(xùn)練樣本的權(quán)重,使得之前弱學(xué)習(xí)器1學(xué)習(xí)誤差率高的訓(xùn)練樣本點(diǎn)的權(quán)重變高,使得這些誤差率高的點(diǎn)在后面的弱學(xué)習(xí)器2中得到更多的重視。然后,基于權(quán)重調(diào)整后的訓(xùn)練集來(lái)訓(xùn)練弱學(xué)習(xí)器2,如此重復(fù)進(jìn)行,直到訓(xùn)練到指定的弱學(xué)習(xí)器數(shù)量。最后,將這些弱學(xué)習(xí)器通過(guò)集合策略進(jìn)行整合,得到最終的強(qiáng)學(xué)習(xí)器。AdaBoostAdaBoost算法的工作機(jī)制AdaBoostAdaBoost算法描述
使得被基分類器hm錯(cuò)誤分類樣本的權(quán)值增大,而正確分類的樣本權(quán)重值變小。Zm規(guī)范化因子
AdaBoostAdaBoost
在AdaBoost中,盡管不同的基學(xué)習(xí)器使用稍有差異的訓(xùn)練集,但是這種差異不像Bagging那樣完全依靠偶然性,而是它前一個(gè)基學(xué)習(xí)器誤差的函數(shù)。提升對(duì)一個(gè)特定問(wèn)題的實(shí)際性能顯然依賴于訓(xùn)練數(shù)據(jù)集和基學(xué)習(xí)器。為此,需要有足夠的訓(xùn)練數(shù)據(jù),并且學(xué)習(xí)器應(yīng)當(dāng)是弱的但又不是太弱,而且提升對(duì)噪聲和離群點(diǎn)尤其敏感。AdaBoost特點(diǎn)分析AdaBoost
Sklearn提供的AdaBoost分類器實(shí)現(xiàn)了SAMME和SAMME.R算法,原型如下:classsklearn.ensemble.AdaBoostClassifier(base_estimator=None,n_estimators=50,learning_rate=1.0,algorithm=’SAMME.R’,random_state=None)
SAMME和SAMME.R算法的主要參數(shù)base_estimator:對(duì)象,默認(rèn)值為決策樹(shù)。該基礎(chǔ)分類器必須支持帶樣本權(quán)重的學(xué)習(xí)。n_estimators:整型,默認(rèn)值為50。設(shè)定基分類器數(shù)量的上限值,如果訓(xùn)練集已經(jīng)完全訓(xùn)練好了,算法會(huì)提前終止。learning_rate:浮點(diǎn)型,默認(rèn)值為1。用于減少每一步的步長(zhǎng),防止步長(zhǎng)太大而跨過(guò)極值點(diǎn)。通常在learning_rate和n_estimators之間會(huì)有一個(gè)折中。algorithm:{‘SAMME.R’,’SAMME’},默認(rèn)值為‘SAMME.R’。GradientBoosting梯度提升(GradientBoosting)是一種用于回歸和分類問(wèn)題的機(jī)器學(xué)習(xí)方法,生成一個(gè)由弱預(yù)測(cè)模型(通常是決策樹(shù))組成的集成預(yù)測(cè)模型(強(qiáng)學(xué)習(xí)器)。通過(guò)迭代選擇一個(gè)指向負(fù)梯度方向上的函數(shù)(弱假設(shè)),優(yōu)化函數(shù)空間上的成本函數(shù),擬合一棵決策樹(shù)。在回歸問(wèn)題中,這稱為梯度提升回歸樹(shù)GBRT;在分類問(wèn)題中,這又被稱為提升決策樹(shù)GBDT。
GradientBoosting
GradientBoosting
GradientBoostingGradientBoosting
GBDT可用于回歸問(wèn)題,相對(duì)LogisticRegression僅能用于線性回歸,GBDT能用于線性回歸和非線性回歸,GBDT的適用面更廣。GBDT也可用于二分類問(wèn)題(設(shè)定閾值,大于閾值為正例,反之為負(fù)例)。
Sklearn提供的GBDT的實(shí)現(xiàn)類原型如下:
classsklearn.ensemble.GradientBoostingClassifier(loss=‘deviance’,learning_rate=0.1,n_estimators=100,subsample=1.0,criterion=‘friedman_mse’,min_samples_split=2,min_samples_leaf=1,min_weight_fraction_leaf=0.0,max_depth=3,min_impurity_decrease=0.0,min_impurity_split=None,init=None,random_state=None,max_features=None,verbose=0,max_leaf_nodes=None,warm_sta
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度餐飲行業(yè)冷鏈配送與質(zhì)量追溯體系合同3篇
- 鄭州科技學(xué)院《風(fēng)景人像基礎(chǔ)教程》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025版互聯(lián)網(wǎng)金融服務(wù)委托理財(cái)合同范本庫(kù)3篇
- 2025年行政合同簽訂及管理中行政優(yōu)先權(quán)的法律風(fēng)險(xiǎn)防范指南2篇
- 美容院股份轉(zhuǎn)讓服務(wù)協(xié)議(2025版)2篇
- 二零二五版美容美發(fā)行業(yè)美容院品牌推廣服務(wù)合同4篇
- 2025年度個(gè)人反擔(dān)保協(xié)議樣本:教育機(jī)構(gòu)貸款融資專用4篇
- 2025版全面升級(jí)危險(xiǎn)品物流運(yùn)輸合同范本3篇
- 西安市2025年度汽車(chē)租賃企業(yè)服務(wù)質(zhì)量評(píng)價(jià)體系3篇
- 2025年度菜鳥(niǎo)驛站綠色物流體系建設(shè)與推廣合同3篇
- 圓周率的認(rèn)識(shí)
- 基于SMT求解器的分支條件覆蓋測(cè)試
- 反騷擾政策程序
- 運(yùn)動(dòng)技能學(xué)習(xí)與控制課件第十一章運(yùn)動(dòng)技能的練習(xí)
- 射頻在疼痛治療中的應(yīng)用
- 四年級(jí)數(shù)學(xué)豎式計(jì)算100道文檔
- “新零售”模式下生鮮電商的營(yíng)銷策略研究-以盒馬鮮生為例
- 項(xiàng)痹病辨證施護(hù)
- 懷化市數(shù)字經(jīng)濟(jì)產(chǎn)業(yè)發(fā)展概況及未來(lái)投資可行性研究報(bào)告
- 07FD02 防空地下室電氣設(shè)備安裝
- 教師高中化學(xué)大單元教學(xué)培訓(xùn)心得體會(huì)
評(píng)論
0/150
提交評(píng)論