版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第八章集成學(xué)習(xí)在監(jiān)督學(xué)習(xí)中,傳統(tǒng)方式是按照選定的學(xué)習(xí)算法,針對(duì)某個(gè)給定的訓(xùn)練數(shù)據(jù)集訓(xùn)練得到一個(gè)特定的學(xué)習(xí)器模型,然后再用它預(yù)測(cè)未知的樣本。集成學(xué)習(xí)可以組合多個(gè)弱模型以期得到一個(gè)更好更全面的強(qiáng)模型,集成學(xué)習(xí)潛在的思想是即便某一個(gè)弱學(xué)習(xí)器得到了錯(cuò)誤的預(yù)測(cè),其他的弱學(xué)習(xí)器也可以將錯(cuò)誤糾正回來(lái)。因此,集成學(xué)習(xí)(EnsembleLearning)是指利用多個(gè)獨(dú)立的弱學(xué)習(xí)器來(lái)進(jìn)行學(xué)習(xí),組合某輸入樣例在各個(gè)弱學(xué)習(xí)器上的輸出,并由它們按照某種策略共同決定輸出。18.1集成學(xué)習(xí)概述集成學(xué)習(xí)是一種功能十分強(qiáng)大的機(jī)器學(xué)習(xí)方法,其基本思想是先通過(guò)一定的規(guī)則生成固定數(shù)量的弱學(xué)習(xí)器(或稱(chēng)為基學(xué)習(xí)器、個(gè)體學(xué)習(xí)器),再采用某種集成策略將這些弱學(xué)習(xí)器的預(yù)測(cè)結(jié)果組合起來(lái),從而形成最終的結(jié)論。弱學(xué)習(xí)器(WeakLearner)是錯(cuò)誤概率小于1/2的學(xué)習(xí)器,也就是說(shuō)在兩類(lèi)問(wèn)題上僅比隨機(jī)猜測(cè)好,而強(qiáng)學(xué)習(xí)器(StrongLearner)則具有任意小的錯(cuò)誤概率。集成學(xué)習(xí)不是一個(gè)單獨(dú)的機(jī)器學(xué)習(xí)算法,而是一個(gè)將多重或多個(gè)弱學(xué)習(xí)器組合成一個(gè)強(qiáng)學(xué)習(xí)器,從而有效地提升分類(lèi)效果。一般而言,集成學(xué)習(xí)中的基學(xué)習(xí)器可以是同質(zhì)的“弱學(xué)習(xí)器”,也可以是異質(zhì)的“弱學(xué)習(xí)器”。目前,同質(zhì)弱學(xué)習(xí)器的應(yīng)用最為廣泛,同質(zhì)弱學(xué)習(xí)器中使用最多的模型是CART決策樹(shù)和神經(jīng)網(wǎng)絡(luò)。同質(zhì)弱學(xué)習(xí)器按照其間是否存在依賴(lài)關(guān)系又可以分為兩類(lèi)。28.1集成學(xué)習(xí)概述串行集成方法:參與訓(xùn)練的弱學(xué)習(xí)器按照順序執(zhí)行。串行方法的原理是利用弱學(xué)習(xí)器之間的依賴(lài)關(guān)系,通過(guò)對(duì)之前訓(xùn)練中錯(cuò)誤標(biāo)記的樣本賦值較高的權(quán)重,可以提高整體的預(yù)測(cè)效果,其代表算法是提升法(Boosting)。并行集成方法:參與訓(xùn)練的弱學(xué)習(xí)器并行執(zhí)行。并行方法的原理是利用弱學(xué)習(xí)器之間的獨(dú)立性,由于弱學(xué)習(xí)器之間不存在強(qiáng)依賴(lài)關(guān)系,通過(guò)平均可以顯著降低錯(cuò)誤,其代表算法是投票法(Voting)和裝袋法(Bagging)。38.1集成學(xué)習(xí)概述根據(jù)集成學(xué)習(xí)的用途不同,結(jié)論合成的方法也各不相同。當(dāng)集成學(xué)習(xí)用于分類(lèi)時(shí),集成的輸出通常由各弱學(xué)習(xí)器的輸出投票產(chǎn)生。通常采用絕對(duì)多數(shù)投票法(某分類(lèi)成為最終結(jié)果,當(dāng)且僅當(dāng)有超過(guò)半數(shù)的弱學(xué)習(xí)器輸出結(jié)果為該分類(lèi))或相對(duì)多數(shù)投票法(某分類(lèi)成為最終結(jié)果,當(dāng)且僅當(dāng)輸出結(jié)果為該分類(lèi)的弱學(xué)習(xí)器的數(shù)目最多)。理論分析和大量實(shí)驗(yàn)表明,后者優(yōu)于前者。當(dāng)集成學(xué)習(xí)用于回歸時(shí),集成的輸出通常由各學(xué)習(xí)器的輸出通過(guò)簡(jiǎn)單平均或加權(quán)平均產(chǎn)生,采用加權(quán)平均可以得到比簡(jiǎn)單平均更好的泛化能力。
4投票法(Voting)是集成學(xué)習(xí)里面針對(duì)分類(lèi)問(wèn)題的一種結(jié)合策略?;舅枷胧沁x擇所有機(jī)器學(xué)習(xí)算法當(dāng)中輸出最多的那個(gè)類(lèi)。分類(lèi)的機(jī)器學(xué)習(xí)算法輸出有兩種類(lèi)型,一種是直接輸出類(lèi)標(biāo)簽,另外一種是輸出類(lèi)概率。使用前者進(jìn)行投票叫做硬投票(Majority/HardVoting),使用后者進(jìn)行分類(lèi)叫做軟投票(SoftVoting)。例如,在硬投票中,如果三個(gè)算法將特定葡萄酒的顏色預(yù)測(cè)為“白色”、“白色”和“紅色”,則集成算法將輸出“白色”;在軟投票中,如果算法A以40%的概率預(yù)測(cè)對(duì)象是一塊巖石,而算法B以80%的概率預(yù)測(cè)它是一塊巖石,那么集成算法將預(yù)測(cè)該對(duì)象是一塊巖石的可能性為(80+40)/2=60%。8.2投票法5
8.2.1投票策略6
8.2.1投票策略7
8.3裝袋法8隨機(jī)森林(RandomForest,RF)就是通過(guò)裝袋法的思想將多個(gè)弱學(xué)習(xí)器組合在一起,其弱學(xué)習(xí)器一般采用CART決策樹(shù)。隨機(jī)森林的“隨機(jī)”體現(xiàn)在兩個(gè)方面:一是樣本的隨機(jī)選取,即通過(guò)有放回采樣構(gòu)造子數(shù)據(jù)集,子數(shù)據(jù)集的樣本數(shù)量和原始數(shù)據(jù)集一致。不同子數(shù)據(jù)集中的樣本可以重復(fù),同一個(gè)子數(shù)據(jù)集中的樣本也可以重復(fù)。這樣在訓(xùn)練模型時(shí),每一棵樹(shù)的輸入樣本都不是全部的樣本,使森林中的決策樹(shù)不至于產(chǎn)生局部最優(yōu)解。二是特征的隨機(jī)選取,即隨機(jī)森林中的決策樹(shù)的每一個(gè)分裂過(guò)程并未使用所有特征,而是從所有特征中隨機(jī)選取一定的特征,之后在隨機(jī)選取的特征中選取最優(yōu)劃分特征。最后,將多棵決策樹(shù)的輸出進(jìn)行整合作為最終輸出。隨機(jī)森林既可以用于分類(lèi)問(wèn)題,也可以用于回歸問(wèn)題,生成過(guò)程中這兩個(gè)隨機(jī)性可以確保不會(huì)出現(xiàn)過(guò)擬合的情況。8.3.1隨機(jī)森林算法9
8.3.1隨機(jī)森林算法10這里我們還要提到一下極端隨機(jī)樹(shù)(ExtremelyRandomizedTrees)算法,簡(jiǎn)稱(chēng)ExtraTree。它與隨機(jī)森林算法十分相似,主要區(qū)別是隨機(jī)森林采用對(duì)數(shù)據(jù)集有放回隨機(jī)采樣的方式生成多個(gè)子訓(xùn)練集,而極端隨機(jī)樹(shù)使用整個(gè)數(shù)據(jù)集作為訓(xùn)練集,但是節(jié)點(diǎn)的劃分特征是隨機(jī)選取的。因?yàn)榉至咽峭耆S機(jī)的,所以有時(shí)可以得到比隨機(jī)森林更好的結(jié)果。8.3.2極端隨機(jī)樹(shù)算法11提升法(Boosting)是一種重要的集成學(xué)習(xí)技術(shù),能夠?qū)㈩A(yù)測(cè)精度僅比隨機(jī)猜度略高的弱學(xué)習(xí)器增強(qiáng)為預(yù)測(cè)精度高的強(qiáng)學(xué)習(xí)器,這在直接構(gòu)造強(qiáng)學(xué)習(xí)器非常困難的情況下,為學(xué)習(xí)算法的設(shè)計(jì)提供了一種有效的新思路和新方法。提升法可以提升任意給定學(xué)習(xí)算法的準(zhǔn)確度,主要思想是通過(guò)一些簡(jiǎn)單的規(guī)則整合得到一個(gè)整體,使得該整體具有的性能比任何一個(gè)部分都高。其思想受啟發(fā)于Valiant提出的PAC(ProbablyApproximatelyCorrect)學(xué)習(xí)模型。8.4提升法12在PAC學(xué)習(xí)模型中,能夠在多項(xiàng)式個(gè)時(shí)間內(nèi)獲得特定要求的正確率即就是一個(gè)好的學(xué)習(xí)過(guò)程。該模型由統(tǒng)計(jì)模式識(shí)別、決策理論得到的一些簡(jiǎn)單理論并結(jié)合計(jì)算復(fù)雜理論的方法而得出的學(xué)習(xí)模型,其中提出了弱學(xué)習(xí)和強(qiáng)學(xué)習(xí)的概念。提升法先從初始訓(xùn)練集訓(xùn)練出一個(gè)弱學(xué)習(xí)器,再根據(jù)弱學(xué)習(xí)器的表現(xiàn)對(duì)訓(xùn)練樣本分布進(jìn)行調(diào)整,使得先前弱學(xué)習(xí)器做錯(cuò)的訓(xùn)練樣本在后續(xù)受到更多關(guān)注,然后基于調(diào)整后的樣本分布來(lái)訓(xùn)練下一個(gè)弱學(xué)習(xí)器。如此重復(fù)進(jìn)行,直至弱學(xué)習(xí)器數(shù)目達(dá)到指定的值k,最終將這k個(gè)弱學(xué)習(xí)器的輸出進(jìn)行加權(quán)結(jié)合。提升法包含一系列算法,如AdaBoost(AdaptiveBoosting,自適應(yīng)提升算法),GradientBoosting(梯度提升算法)等。提升法中的個(gè)體分類(lèi)器可以是不同類(lèi)的分類(lèi)器。8.4提升法13自適應(yīng)提升算法(AdaBoost)中有兩種權(quán)重,一種是樣本的權(quán)重,另一種是弱分類(lèi)器的權(quán)重。樣本的權(quán)重主要用于弱分類(lèi)器計(jì)算誤差最小的劃分特征,找到之后用這個(gè)最小誤差計(jì)算出該弱分類(lèi)器的權(quán)重(發(fā)言權(quán)),分類(lèi)器權(quán)重越大說(shuō)明該弱分類(lèi)器在最終決策時(shí)擁有更大的發(fā)言權(quán)。其原理是通過(guò)調(diào)整樣本的權(quán)重和弱分類(lèi)器的權(quán)重,對(duì)關(guān)鍵分類(lèi)特征進(jìn)行挑選,逐步訓(xùn)練不同的弱分類(lèi)器,再用適當(dāng)?shù)拈撝颠x擇最佳弱分類(lèi)器,最后將每次迭代訓(xùn)練選出的最佳弱分類(lèi)器構(gòu)建為強(qiáng)分類(lèi)器。因此,每一個(gè)弱分類(lèi)器都是在樣本的不同權(quán)重集上訓(xùn)練獲得的。每個(gè)樣本被分類(lèi)的難易度決定權(quán)重,而分類(lèi)的難易度是經(jīng)過(guò)前面步驟中的分類(lèi)器的輸出估計(jì)得到的。8.4.1自適應(yīng)提升算法算法流程14在自適應(yīng)提升算法中,每訓(xùn)練完一個(gè)弱分類(lèi)器都就會(huì)調(diào)整權(quán)重,上一輪訓(xùn)練中被誤分類(lèi)的樣本的權(quán)重會(huì)增加。因此在本輪訓(xùn)練中,由于權(quán)重影響,本輪的弱分類(lèi)器將更有可能把上一輪的誤分類(lèi)樣本分對(duì),如果還是沒(méi)有分對(duì),那么分錯(cuò)的樣本的權(quán)重將繼續(xù)增加,下一個(gè)弱分類(lèi)器將更加關(guān)注這個(gè)點(diǎn),盡量將其分對(duì)。也就是說(shuō),下一個(gè)分類(lèi)器主要關(guān)注上一個(gè)分類(lèi)器沒(méi)分對(duì)的樣本,因此每個(gè)弱分類(lèi)器都有各自最關(guān)注的點(diǎn),每個(gè)弱分類(lèi)器都只關(guān)注整個(gè)數(shù)據(jù)集的中一部分?jǐn)?shù)據(jù)。但是這也產(chǎn)生了一個(gè)問(wèn)題,就是第n個(gè)分類(lèi)器更可能分對(duì)第n-1個(gè)分類(lèi)器沒(méi)分對(duì)的樣本,卻不能保證以前分類(lèi)器分對(duì)的樣本還能分對(duì)。所以必然是所有的弱分類(lèi)器組合在一起才能發(fā)揮出最好的效果。因此,最終投票表決時(shí),需要根據(jù)弱分類(lèi)器的權(quán)重來(lái)進(jìn)行加權(quán)投票,權(quán)重大小是根據(jù)弱分類(lèi)器的分類(lèi)錯(cuò)誤率計(jì)算得出的,總的規(guī)律就是弱分類(lèi)器錯(cuò)誤率越低,其權(quán)重就越高。8.4.1自適應(yīng)提升算法算法流程15
8.4.1自適應(yīng)提升算法算法流程16
8.4.1自適應(yīng)提升算法算法流程17
8.4.1自適應(yīng)提升算法算法流程18
8.4.1自適應(yīng)提升算法算法流程19
8.4.1自適應(yīng)提升算法算法流程20
8.4.1自適應(yīng)提升算法算法流程21
8.4.1自適應(yīng)提升算法算法流程22
8.4.1自適應(yīng)提升算法算法流程23
8.4.1自適應(yīng)提升算法算法流程24
8.4.1自適應(yīng)提升算法算法流程25
8.4.1自適應(yīng)提升算法算法流程26梯度提升(GradientBoosting)算法的基本思想是:串行地生成多個(gè)弱學(xué)習(xí)器,每個(gè)弱學(xué)習(xí)器的目標(biāo)是擬合先前累加模型的損失函數(shù)的負(fù)梯度,使加上該弱學(xué)習(xí)器后的累積模型損失向負(fù)梯度的方向減少。因?yàn)閿M合的是連續(xù)值,所以算法中的弱學(xué)習(xí)器一般是CART決策樹(shù),而不使用分類(lèi)樹(shù)。梯度提升算法還可以被理解為函數(shù)空間上的梯度下降。我們比較熟悉的梯度下降通常是在參數(shù)空間上的梯度下降(如訓(xùn)練神經(jīng)網(wǎng)絡(luò),每輪迭代中計(jì)算當(dāng)前損失關(guān)于參數(shù)的梯度,對(duì)參數(shù)進(jìn)行更新)。而在梯度提升算法中,每輪迭代生成一個(gè)弱學(xué)習(xí)器,這個(gè)弱學(xué)習(xí)器擬合損失函數(shù)關(guān)于之前累積模型的梯度,然后將這個(gè)弱學(xué)習(xí)器加入累積模型中,逐漸降低累積模型的損失。即參數(shù)空間的梯度下降利用梯度信息調(diào)整參數(shù)降低損失,函數(shù)空間的梯度下降利用梯度擬合一個(gè)新的函數(shù)降低損失。
8.4.2梯度提升算法27
8.4.2梯度提升算法28
8.4.2梯度提升算法29
8.5
本章小結(jié)本章主要介紹了集成學(xué)習(xí)理論,介紹了投票法、裝袋法和提升法的原理及代碼實(shí)現(xiàn)。投票法的過(guò)程較為簡(jiǎn)單,而裝袋法和提升法的過(guò)程則相對(duì)復(fù)雜。對(duì)比裝袋法和提升法方法可以發(fā)現(xiàn):裝袋法通過(guò)對(duì)原數(shù)據(jù)進(jìn)行有放回的采樣構(gòu)建出多個(gè)樣本數(shù)據(jù)集,然后用這些新的數(shù)據(jù)集訓(xùn)練多個(gè)分類(lèi)器。裝袋法的性能依賴(lài)于弱學(xué)習(xí)器的穩(wěn)定性,如果弱學(xué)習(xí)器是不穩(wěn)定的,裝袋法有助于減低訓(xùn)練數(shù)據(jù)的隨機(jī)擾動(dòng)導(dǎo)致的誤差,但是如果弱學(xué)習(xí)器是穩(wěn)定的,即對(duì)數(shù)據(jù)變化不敏感,那么裝袋法就得不到性能的提升,甚至?xí)档?。提升法是一個(gè)選代的過(guò)程,通過(guò)改變樣本分布,使得弱學(xué)習(xí)器聚焦在那些很難分的樣本上,對(duì)那些容易錯(cuò)分的樣本加強(qiáng)學(xué)習(xí),增加錯(cuò)分樣本的權(quán)重,這樣錯(cuò)分的樣本在下一輪迭代中就有更大的作用
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度個(gè)人住宅裝修竣工驗(yàn)收合同7篇
- 二零二五年財(cái)務(wù)咨詢(xún)服務(wù)合同標(biāo)的費(fèi)用與服務(wù)內(nèi)容
- 2025年個(gè)人合伙退伙協(xié)議書(shū)示范文本解讀4篇
- 弱電智能化設(shè)計(jì)合同(2篇)
- 工程結(jié)算合同(2篇)
- 2024年中級(jí)經(jīng)濟(jì)師考試題庫(kù)附參考答案(奪分金卷)
- 2024年助理會(huì)計(jì)師《初級(jí)會(huì)計(jì)實(shí)務(wù)》高頻真題庫(kù)匯編及答案
- 電子控制方向課程設(shè)計(jì)
- 二零二五年度汽車(chē)零部件模具設(shè)計(jì)合作協(xié)議3篇
- 2025年二零二五民辦學(xué)校教師科研創(chuàng)新聘用協(xié)議4篇
- 綿陽(yáng)市高中2022級(jí)(2025屆)高三第二次診斷性考試(二診)歷史試卷(含答案)
- 露天礦山課件
- 經(jīng)濟(jì)效益證明(模板)
- 銀行卡凍結(jié)怎么寫(xiě)申請(qǐng)書(shū)
- 果樹(shù)蔬菜病害:第一章 蔬菜害蟲(chóng)
- 借條借款合同帶擔(dān)保人
- 人工地震動(dòng)生成程序
- 創(chuàng)意綜藝風(fēng)脫口秀活動(dòng)策劃PPT模板
- SSB變槳系統(tǒng)的基礎(chǔ)知識(shí)
- 大五人格量表(revised)--計(jì)分及解釋
- CFA考試(LevelⅠ)歷年真題詳解2015LevelⅠMockExamAfternoonSession
評(píng)論
0/150
提交評(píng)論