人工智能算法與實(shí)踐-第9章 集成學(xué)習(xí)_第1頁
人工智能算法與實(shí)踐-第9章 集成學(xué)習(xí)_第2頁
人工智能算法與實(shí)踐-第9章 集成學(xué)習(xí)_第3頁
人工智能算法與實(shí)踐-第9章 集成學(xué)習(xí)_第4頁
人工智能算法與實(shí)踐-第9章 集成學(xué)習(xí)_第5頁
已閱讀5頁,還剩25頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

9.4算法總結(jié)9.1算法概述9.2算法原理9.3算法案例目錄第9章集成學(xué)習(xí)人工智能算法與實(shí)踐—1

01算法概述PartTHREE—2

集成學(xué)習(xí)簡單理解就是采用多個(gè)分類器對數(shù)據(jù)集進(jìn)行預(yù)測,從而提高整體分類器的泛化能力,有時(shí)也稱多分類器系統(tǒng)、基于委員會(huì)的學(xué)習(xí)等。集成學(xué)習(xí)廣泛用于分類和回歸任務(wù),有時(shí)也被籠統(tǒng)地稱作提升(Boosting)方法,是通過一定的規(guī)則生成多個(gè)學(xué)習(xí)器,再采用某種集成策略進(jìn)行組合,最后綜合判斷輸出最終結(jié)果。9.1算法概述—3

異質(zhì)集成集成中包含不同類型的個(gè)體學(xué)習(xí)器個(gè)體學(xué)習(xí)器:由不同學(xué)習(xí)算法生成個(gè)體學(xué)習(xí)器:組件學(xué)習(xí)器(或直接稱個(gè)體學(xué)習(xí)器)同質(zhì)集成集成中只包含同種類型的個(gè)體學(xué)習(xí)器個(gè)體學(xué)習(xí)器:基學(xué)習(xí)器對應(yīng)算法:基學(xué)習(xí)算法9.1算法概述—4

例如,決策樹集成中全是決策樹,神經(jīng)網(wǎng)絡(luò)集成中全是神經(jīng)網(wǎng)絡(luò)例如,同時(shí)包含決策樹和神經(jīng)網(wǎng)絡(luò)。9.1算法概述—5

集成學(xué)習(xí)優(yōu)點(diǎn):通過將多個(gè)學(xué)習(xí)器進(jìn)行結(jié)合,常常獲得比單一學(xué)習(xí)器顯著優(yōu)越的泛化性能。這對“弱學(xué)習(xí)器”(weaklearner)尤為明顯,因此集成學(xué)習(xí)的很多理論研究都是針對弱學(xué)習(xí)器的,而基學(xué)習(xí)器有時(shí)也被直接成為弱學(xué)習(xí)器。雖然從理論上來說使用弱學(xué)習(xí)器集成足以獲得好的性能,但在實(shí)踐中出于種種考慮,希望使用較少的個(gè)體學(xué)習(xí)器,人們常常會(huì)使用比較強(qiáng)的學(xué)習(xí)器。9.1算法概述—6

在二分類任務(wù)中:三個(gè)分類器在三個(gè)測試樣本上的表現(xiàn)如下:a.集成提升性能b.集成不起作用c.集成起負(fù)作用集成學(xué)習(xí)的結(jié)果通過投票法產(chǎn)生9.1算法概述—7

a.每個(gè)分類器都只有66.6%的精度,但集成學(xué)習(xí)卻達(dá)到了100%;b.三個(gè)分類器沒有差別,集成后性能沒有提高;c.每個(gè)分類器精度只有33.3%,集成學(xué)習(xí)結(jié)果變得更糟。以上例子顯示要獲得好的集成,個(gè)體學(xué)習(xí)器應(yīng)“好而不同”,即每個(gè)學(xué)習(xí)器要有一定的“準(zhǔn)確性”,即學(xué)習(xí)器不能太壞,并且要有“多樣性”。即學(xué)習(xí)器間具有差異性。9.1算法概述—8

9.1算法概述—9

9.1算法概述—10

上面的分析有一個(gè)關(guān)鍵假設(shè):基學(xué)習(xí)器的誤差相互獨(dú)立現(xiàn)實(shí)任務(wù)中,個(gè)體學(xué)習(xí)器是為解決同一個(gè)問題訓(xùn)練出來的,顯然不可能互相獨(dú)立事實(shí)上,個(gè)體學(xué)習(xí)器的“準(zhǔn)確性”和“多樣性”本身就存在沖突如何產(chǎn)生“好而不同”的個(gè)體學(xué)習(xí)器是集成學(xué)習(xí)研究的核心集成學(xué)習(xí)大致可分為兩大類9.1算法概述—11

根據(jù)個(gè)體學(xué)習(xí)器的生成方式,集成學(xué)習(xí)可分為兩大類:個(gè)體學(xué)習(xí)器間存在強(qiáng)依賴關(guān)系、必須串行生成的序列化方法個(gè)體學(xué)習(xí)器間不存在強(qiáng)依賴關(guān)系、可同時(shí)生成的并行化方法代表:Boosting代表:Bagging和隨機(jī)森林(Randomforest)02算法原理PartTHREE—12

9.2算法原理—13

集成算法會(huì)考慮多個(gè)評估器的建模結(jié)果,匯總之后得到一個(gè)綜合的結(jié)果,以此來獲取比單個(gè)模型更好的回歸或分類表現(xiàn)。多個(gè)模型集成成為的模型叫做集成評估器(ensembleestimator),組成集成評估器的每個(gè)模型都叫做基評估器(baseestimator)。通常來說,有三類集成算法:裝袋法(Bagging),提升法(Boosting)和stacking。9.2.1AdaBoost算法—14

Boosting族算法中最著名的代表是AdaBoost,它是一種迭代算法。其核心思想是針對同一個(gè)訓(xùn)練集訓(xùn)練不同的分類器(弱分類器),然后把這些弱分類器集合起來,構(gòu)成一個(gè)更強(qiáng)的最終分類器(強(qiáng)分類器)。其算法本身是通過改變數(shù)據(jù)分布來實(shí)現(xiàn)的,它根據(jù)每次訓(xùn)練集之中每個(gè)樣本的分類是否正確,以及上次的總體分類的準(zhǔn)確率,來確定每個(gè)樣本的權(quán)值。將修改通過的權(quán)值的新數(shù)據(jù)集送給下層分類器進(jìn)行訓(xùn)練,最后將每次訓(xùn)練得到的分類器最后融合起來,作為最后的決策分類器。使用AdaBoost分類器可以排除一些不必要的訓(xùn)練數(shù)據(jù)特征,并將關(guān)鍵放在關(guān)鍵的訓(xùn)練數(shù)據(jù)上面。9.2.1AdaBoost算法—15

AdaBoost二分類問題算法偽代碼如下:2%10%75%100%55%0%9.2.2Bagging算法—16

Bagging是一種被廣泛使用的集成學(xué)習(xí)算法,其主要思路是通過對訓(xùn)練集進(jìn)行不同的處理方式,訓(xùn)練得到差異性的分類器。其主要方法是從原始數(shù)據(jù)集中隨機(jī)有放回地選取若干個(gè)樣本構(gòu)成新的訓(xùn)練集,用分類算法訓(xùn)練成分類器,形成集成分類器。然后用新來的數(shù)據(jù)對生成分類器的集成進(jìn)行測試,投票選出分類結(jié)果。2%10%75%100%55%0%9.2.2Bagging算法—17

Bagging算法的基本流程由以下偽代碼可表示:2%10%75%100%55%0%9.2.2Bagging算法—18

時(shí)間復(fù)雜度低假定基學(xué)習(xí)器的計(jì)算復(fù)雜度為O(m),采樣與投票/平均過程的復(fù)雜度為O(s),則Bagging的復(fù)雜度大致為T(O(m)+O(s))由于O(s)很小且T是一個(gè)不大的常熟因此訓(xùn)練一個(gè)bagging集成與直接使用基學(xué)習(xí)器的復(fù)雜度同階可使用包外估計(jì)2%10%100%55%0%9.2.3隨機(jī)森林算法—19

隨機(jī)森林是在以決策樹為基學(xué)習(xí)器構(gòu)建Bagging集成的基礎(chǔ)上,進(jìn)一步在決策樹的訓(xùn)練過程中引入了隨機(jī)特征選擇,主要體現(xiàn)在四個(gè)部分:(1)隨機(jī)選擇樣本(放回抽樣);(2)隨機(jī)選擇特征;(3)構(gòu)建決策樹;(4)隨機(jī)森林投票(平均)。請?zhí)鎿Q文字內(nèi)容,修改文字內(nèi)容,也可以直接復(fù)制你的內(nèi)容到此。YOURTITLE請?zhí)鎿Q文字內(nèi)容,修改文字內(nèi)容,也可以直接復(fù)制你的內(nèi)容到此。YOURTITLE請?zhí)鎿Q文字內(nèi)容,修改文字內(nèi)容,也可以直接復(fù)制你的內(nèi)容到此。YOURTITLE請?zhí)鎿Q文字內(nèi)容,修改文字內(nèi)容,也可以直接復(fù)制你的內(nèi)容到此。YOURTITLE9.2.3隨機(jī)森林算法—20

03算法案例PartTHREE—21

垃圾郵件分類應(yīng)用本實(shí)驗(yàn)選取具有兩個(gè)特征(“打購買、免費(fèi)”等字眼的相關(guān)系數(shù),被拉入黑名單的相關(guān)系數(shù)),數(shù)據(jù)被分為+1(垃圾郵件)或-1(非垃圾郵件)兩類,利用訓(xùn)練集并結(jié)合Adaboost算法進(jìn)行模型訓(xùn)練。9.3算法案例—22

9.3算法案例—23

1.數(shù)據(jù)讀入cal_boundary(train_x)是求邊界的函數(shù),用于求沒一個(gè)樣本中每一維數(shù)據(jù)作為邊界的情況。比如現(xiàn)在有一組一維數(shù)據(jù)[-3,-2,-1,0,1,2,3],不管他們的真實(shí)標(biāo)簽,如果以-3作為邊界,則我們需要得到兩個(gè)列表,因?yàn)槲覀儾恢?3的哪一邊是哪一類。9.3算法案例—24

2.訓(xùn)練弱分類器9.3算法案例—25

3.迭代產(chǎn)生弱分類器9.3算法案例—26

4.求當(dāng)前分類器權(quán)重9.3算法案例—27

如上圖所示,實(shí)驗(yàn)通過Adaboost算法對訓(xùn)練數(shù)據(jù)集進(jìn)行三次迭代訓(xùn)練后就已經(jīng)達(dá)到1的預(yù)測準(zhǔn)確率,圖9-9經(jīng)過三個(gè)弱分類器的結(jié)合后,將平面區(qū)域分為6塊,每一塊給出了它的預(yù)測結(jié)果值,值為正號(hào)則歸為1,為負(fù)號(hào)則歸為-1,數(shù)字的絕對值越大說明分類結(jié)果越可信。04算法總結(jié)PartTHREE—28

9.4算法總結(jié)—29

通過本節(jié)的學(xué)習(xí),我們掌握了集成學(xué)習(xí)的概念,基本原理以及算法流程和實(shí)現(xiàn)方法。本章主要介紹了集成學(xué)習(xí)的兩種方法Boosting和Bagging,二者有很大的區(qū)別。Bagging中的模型是強(qiáng)模型,偏差低,方差高。目標(biāo)是降低方差。在Bagging中,每個(gè)模型的Bias和variance近似相同,但是互相相關(guān)性不太高,因此一般不能降低Bias,而一定程度上能降低variance。典型的Bagging是randomforest。Boosting中每個(gè)模型是弱模型,偏差高,方差低。目標(biāo)是通過平均降低偏差。Boosting的基本思想就是用貪心法最小化損失函數(shù),顯然能降低偏差,但是通常模型的相關(guān)性很

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論