人工智能算法與實(shí)踐-第9章集成學(xué)習(xí)

上傳人：1*** IP屬地：上海上傳時(shí)間：2024-10-28 格式：PPTX 頁數(shù)：30 大小：3.52MB 積分：9.6 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩25頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

9.4算法總結(jié)9.1算法概述9.2算法原理9.3算法案例目錄第9章集成學(xué)習(xí)人工智能算法與實(shí)踐—1

—

01算法概述PartTHREE—2

—

集成學(xué)習(xí)簡單理解就是采用多個(gè)分類器對數(shù)據(jù)集進(jìn)行預(yù)測，從而提高整體分類器的泛化能力,有時(shí)也稱多分類器系統(tǒng)、基于委員會(huì)的學(xué)習(xí)等。集成學(xué)習(xí)廣泛用于分類和回歸任務(wù)，有時(shí)也被籠統(tǒng)地稱作提升（Boosting）方法，是通過一定的規(guī)則生成多個(gè)學(xué)習(xí)器，再采用某種集成策略進(jìn)行組合，最后綜合判斷輸出最終結(jié)果。9.1算法概述—3

—

異質(zhì)集成集成中包含不同類型的個(gè)體學(xué)習(xí)器個(gè)體學(xué)習(xí)器：由不同學(xué)習(xí)算法生成個(gè)體學(xué)習(xí)器：組件學(xué)習(xí)器（或直接稱個(gè)體學(xué)習(xí)器）同質(zhì)集成集成中只包含同種類型的個(gè)體學(xué)習(xí)器個(gè)體學(xué)習(xí)器：基學(xué)習(xí)器對應(yīng)算法：基學(xué)習(xí)算法9.1算法概述—4

—

例如，決策樹集成中全是決策樹，神經(jīng)網(wǎng)絡(luò)集成中全是神經(jīng)網(wǎng)絡(luò)例如，同時(shí)包含決策樹和神經(jīng)網(wǎng)絡(luò)。9.1算法概述—5

—

集成學(xué)習(xí)優(yōu)點(diǎn)：通過將多個(gè)學(xué)習(xí)器進(jìn)行結(jié)合，常常獲得比單一學(xué)習(xí)器顯著優(yōu)越的泛化性能。這對“弱學(xué)習(xí)器”（weaklearner）尤為明顯，因此集成學(xué)習(xí)的很多理論研究都是針對弱學(xué)習(xí)器的，而基學(xué)習(xí)器有時(shí)也被直接成為弱學(xué)習(xí)器。雖然從理論上來說使用弱學(xué)習(xí)器集成足以獲得好的性能，但在實(shí)踐中出于種種考慮，希望使用較少的個(gè)體學(xué)習(xí)器，人們常常會(huì)使用比較強(qiáng)的學(xué)習(xí)器。9.1算法概述—6

—

在二分類任務(wù)中：三個(gè)分類器在三個(gè)測試樣本上的表現(xiàn)如下：a.集成提升性能b.集成不起作用c.集成起負(fù)作用集成學(xué)習(xí)的結(jié)果通過投票法產(chǎn)生9.1算法概述—7

—

a.每個(gè)分類器都只有66.6%的精度，但集成學(xué)習(xí)卻達(dá)到了100%；b.三個(gè)分類器沒有差別，集成后性能沒有提高；c.每個(gè)分類器精度只有33.3%，集成學(xué)習(xí)結(jié)果變得更糟。以上例子顯示要獲得好的集成，個(gè)體學(xué)習(xí)器應(yīng)“好而不同”，即每個(gè)學(xué)習(xí)器要有一定的“準(zhǔn)確性”，即學(xué)習(xí)器不能太壞，并且要有“多樣性”。即學(xué)習(xí)器間具有差異性。9.1算法概述—8

—

9.1算法概述—9

—

9.1算法概述—10

—

上面的分析有一個(gè)關(guān)鍵假設(shè)：基學(xué)習(xí)器的誤差相互獨(dú)立現(xiàn)實(shí)任務(wù)中，個(gè)體學(xué)習(xí)器是為解決同一個(gè)問題訓(xùn)練出來的，顯然不可能互相獨(dú)立事實(shí)上，個(gè)體學(xué)習(xí)器的“準(zhǔn)確性”和“多樣性”本身就存在沖突如何產(chǎn)生“好而不同”的個(gè)體學(xué)習(xí)器是集成學(xué)習(xí)研究的核心集成學(xué)習(xí)大致可分為兩大類9.1算法概述—11

—

根據(jù)個(gè)體學(xué)習(xí)器的生成方式，集成學(xué)習(xí)可分為兩大類：個(gè)體學(xué)習(xí)器間存在強(qiáng)依賴關(guān)系、必須串行生成的序列化方法個(gè)體學(xué)習(xí)器間不存在強(qiáng)依賴關(guān)系、可同時(shí)生成的并行化方法代表：Boosting代表：Bagging和隨機(jī)森林（Randomforest）02算法原理PartTHREE—12

—

9.2算法原理—13

—

集成算法會(huì)考慮多個(gè)評估器的建模結(jié)果，匯總之后得到一個(gè)綜合的結(jié)果，以此來獲取比單個(gè)模型更好的回歸或分類表現(xiàn)。多個(gè)模型集成成為的模型叫做集成評估器（ensembleestimator），組成集成評估器的每個(gè)模型都叫做基評估器（baseestimator）。通常來說，有三類集成算法：裝袋法（Bagging），提升法（Boosting）和stacking。9.2.1AdaBoost算法—14

—

Boosting族算法中最著名的代表是AdaBoost，它是一種迭代算法。其核心思想是針對同一個(gè)訓(xùn)練集訓(xùn)練不同的分類器（弱分類器），然后把這些弱分類器集合起來，構(gòu)成一個(gè)更強(qiáng)的最終分類器（強(qiáng)分類器）。其算法本身是通過改變數(shù)據(jù)分布來實(shí)現(xiàn)的，它根據(jù)每次訓(xùn)練集之中每個(gè)樣本的分類是否正確，以及上次的總體分類的準(zhǔn)確率，來確定每個(gè)樣本的權(quán)值。將修改通過的權(quán)值的新數(shù)據(jù)集送給下層分類器進(jìn)行訓(xùn)練，最后將每次訓(xùn)練得到的分類器最后融合起來，作為最后的決策分類器。使用AdaBoost分類器可以排除一些不必要的訓(xùn)練數(shù)據(jù)特征，并將關(guān)鍵放在關(guān)鍵的訓(xùn)練數(shù)據(jù)上面。9.2.1AdaBoost算法—15

—

AdaBoost二分類問題算法偽代碼如下：2%10%75%100%55%0%9.2.2Bagging算法—16

—

Bagging是一種被廣泛使用的集成學(xué)習(xí)算法，其主要思路是通過對訓(xùn)練集進(jìn)行不同的處理方式，訓(xùn)練得到差異性的分類器。其主要方法是從原始數(shù)據(jù)集中隨機(jī)有放回地選取若干個(gè)樣本構(gòu)成新的訓(xùn)練集，用分類算法訓(xùn)練成分類器，形成集成分類器。然后用新來的數(shù)據(jù)對生成分類器的集成進(jìn)行測試，投票選出分類結(jié)果。2%10%75%100%55%0%9.2.2Bagging算法—17

—

Bagging算法的基本流程由以下偽代碼可表示：2%10%75%100%55%0%9.2.2Bagging算法—18

—

時(shí)間復(fù)雜度低假定基學(xué)習(xí)器的計(jì)算復(fù)雜度為O(m)，采樣與投票/平均過程的復(fù)雜度為O(s)，則Bagging的復(fù)雜度大致為T(O(m)+O(s))由于O(s)很小且T是一個(gè)不大的常熟因此訓(xùn)練一個(gè)bagging集成與直接使用基學(xué)習(xí)器的復(fù)雜度同階可使用包外估計(jì)2%10%100%55%0%9.2.3隨機(jī)森林算法—19

—

隨機(jī)森林是在以決策樹為基學(xué)習(xí)器構(gòu)建Bagging集成的基礎(chǔ)上，進(jìn)一步在決策樹的訓(xùn)練過程中引入了隨機(jī)特征選擇，主要體現(xiàn)在四個(gè)部分：（1）隨機(jī)選擇樣本（放回抽樣）；（2）隨機(jī)選擇特征；（3）構(gòu)建決策樹；（4）隨機(jī)森林投票（平均）。請?zhí)鎿Q文字內(nèi)容，修改文字內(nèi)容，也可以直接復(fù)制你的內(nèi)容到此。YOURTITLE請?zhí)鎿Q文字內(nèi)容，修改文字內(nèi)容，也可以直接復(fù)制你的內(nèi)容到此。YOURTITLE請?zhí)鎿Q文字內(nèi)容，修改文字內(nèi)容，也可以直接復(fù)制你的內(nèi)容到此。YOURTITLE請?zhí)鎿Q文字內(nèi)容，修改文字內(nèi)容，也可以直接復(fù)制你的內(nèi)容到此。YOURTITLE9.2.3隨機(jī)森林算法—20

—

03算法案例PartTHREE—21

—

垃圾郵件分類應(yīng)用本實(shí)驗(yàn)選取具有兩個(gè)特征（“打購買、免費(fèi)”等字眼的相關(guān)系數(shù)，被拉入黑名單的相關(guān)系數(shù)），數(shù)據(jù)被分為+1（垃圾郵件）或-1（非垃圾郵件）兩類，利用訓(xùn)練集并結(jié)合Adaboost算法進(jìn)行模型訓(xùn)練。9.3算法案例—22

—

9.3算法案例—23

—

1.數(shù)據(jù)讀入cal_boundary(train_x)是求邊界的函數(shù)，用于求沒一個(gè)樣本中每一維數(shù)據(jù)作為邊界的情況。比如現(xiàn)在有一組一維數(shù)據(jù)[-3,-2,-1,0,1,2,3],不管他們的真實(shí)標(biāo)簽，如果以-3作為邊界，則我們需要得到兩個(gè)列表，因?yàn)槲覀儾恢?3的哪一邊是哪一類。9.3算法案例—24

—

2.訓(xùn)練弱分類器9.3算法案例—25

—

3.迭代產(chǎn)生弱分類器9.3算法案例—26

—

4.求當(dāng)前分類器權(quán)重9.3算法案例—27

—

如上圖所示，實(shí)驗(yàn)通過Adaboost算法對訓(xùn)練數(shù)據(jù)集進(jìn)行三次迭代訓(xùn)練后就已經(jīng)達(dá)到1的預(yù)測準(zhǔn)確率，圖9-9經(jīng)過三個(gè)弱分類器的結(jié)合后，將平面區(qū)域分為6塊，每一塊給出了它的預(yù)測結(jié)果值，值為正號(hào)則歸為1，為負(fù)號(hào)則歸為-1，數(shù)字的絕對值越大說明分類結(jié)果越可信。04算法總結(jié)PartTHREE—28

—

9.4算法總結(jié)—29

—

通過本節(jié)的學(xué)習(xí)，我們掌握了集成學(xué)習(xí)的概念，基本原理以及算法流程和實(shí)現(xiàn)方法。本章主要介紹了集成學(xué)習(xí)的兩種方法Boosting和Bagging，二者有很大的區(qū)別。Bagging中的模型是強(qiáng)模型，偏差低，方差高。目標(biāo)是降低方差。在Bagging中，每個(gè)模型的Bias和variance近似相同，但是互相相關(guān)性不太高，因此一般不能降低Bias，而一定程度上能降低variance。典型的Bagging是randomforest。Boosting中每個(gè)模型是弱模型，偏差高，方差低。目標(biāo)是通過平均降低偏差。Boosting的基本思想就是用貪心法最小化損失函數(shù)，顯然能降低偏差，但是通常模型的相關(guān)性很

人人文庫> 全部分類> 專業(yè)文獻(xiàn) > 建筑水利

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

人工智能算法與實(shí)踐-第9章集成學(xué)習(xí)

文檔簡介

溫馨提示

最新文檔

評論

人工智能算法與實(shí)踐-第9章 集成學(xué)習(xí)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

人工智能算法與實(shí)踐-第9章集成學(xué)習(xí)