選擇性集成課件

上傳人：平*** IP屬地：貴州上傳時(shí)間：2022-12-31 格式：PPT 頁數(shù)：54 大小：1.77MB 積分：20 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩49頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

選擇性集成(SelectiveEnsemble)周志華/people/zhouzh/Email:zhouzh@南京大學(xué)計(jì)算機(jī)軟件新技術(shù)國家重點(diǎn)實(shí)驗(yàn)室選擇性集成周志華/p泛化：generalization泛化能力越強(qiáng)，處理新數(shù)據(jù)的能力越好泛化能力是機(jī)器學(xué)習(xí)關(guān)注的基本問題之一提高泛化能力是永遠(yuǎn)的追求泛化能力泛化：generalization泛化能力集成學(xué)習(xí)（EnsembleLearning）是一種機(jī)器學(xué)習(xí)范式，它使用多個(gè)（通常是同質(zhì)的）學(xué)習(xí)器來解決同一個(gè)問題集成學(xué)習(xí)

問題…...…...

問題集成學(xué)習(xí)中使用的多個(gè)學(xué)習(xí)器稱為個(gè)體學(xué)習(xí)器當(dāng)個(gè)體學(xué)習(xí)器均為決策樹時(shí)，稱為“決策樹集成”當(dāng)個(gè)體學(xué)習(xí)器均為神經(jīng)網(wǎng)絡(luò)時(shí)，稱為“神經(jīng)網(wǎng)絡(luò)集成”…………集成學(xué)習(xí)（EnsembleLearning）是一種機(jī)器學(xué)習(xí)由于集成學(xué)習(xí)技術(shù)可以有效地提高學(xué)習(xí)系統(tǒng)的泛化能力，因此它成為國際機(jī)器學(xué)習(xí)界的研究熱點(diǎn)，并被國際權(quán)威T.G.Dietterich稱為當(dāng)前機(jī)器學(xué)習(xí)四大研究方向之首[T.G.Dietterich,AIMag97]集成學(xué)習(xí)的重要性問題：對(duì)20維超立方體空間中的區(qū)域分類左圖中縱軸為錯(cuò)誤率從上到下的四條線分別表示：平均神經(jīng)網(wǎng)絡(luò)錯(cuò)誤率最好神經(jīng)網(wǎng)絡(luò)錯(cuò)誤率兩種神經(jīng)網(wǎng)絡(luò)集成的錯(cuò)誤率令人驚奇的是，集成的錯(cuò)誤率比最好的個(gè)體還低[L.K.Hansen&P.Salamon,TPAMI90]由于集成學(xué)習(xí)技術(shù)可以有效地提高學(xué)習(xí)系統(tǒng)的泛化能力，因此它成為集成學(xué)習(xí)的用處集成學(xué)習(xí)技術(shù)已經(jīng)在行星探測(cè)、地震波分析、Web信息過濾、生物特征識(shí)別、計(jì)算機(jī)輔助醫(yī)療診斷等眾多領(lǐng)域得到了廣泛的應(yīng)用只要能用到機(jī)器學(xué)習(xí)的地方，就能用到集成學(xué)習(xí)集成學(xué)習(xí)的用處集成學(xué)習(xí)技術(shù)已經(jīng)在行星探測(cè)、地震波分析、Web期望結(jié)果個(gè)體1(精度33.3%)個(gè)體2(精度33.3%)個(gè)體3(精度33.3%)集成(精度33.3%)投票個(gè)體必須有差異期望結(jié)果個(gè)體1(精度33.3%)個(gè)體2(精度33.3%)個(gè)體3(精度33.3%)集成(精度0%)投票個(gè)體精度不能太低個(gè)體學(xué)習(xí)器越精確、差異越大，集成越好[A.Krogh&J.Vedelsby,NIPS94]如何構(gòu)建好的集成期望結(jié)果個(gè)體1(精度33.3%)個(gè)體2(精度33.3%)既然多個(gè)個(gè)體的集成比單個(gè)個(gè)體更好，那么是不是個(gè)體越多越好?更多的個(gè)體意味著：在預(yù)測(cè)時(shí)需要更大的計(jì)算開銷，因?yàn)橐?jì)算更多的個(gè)體預(yù)測(cè)更大的存儲(chǔ)開銷，因?yàn)橛懈嗟膫€(gè)體需要保存?zhèn)€體的增加將使得個(gè)體間的差異越來越難以獲得個(gè)體越多越好嗎？既然多個(gè)個(gè)體的集成比單個(gè)個(gè)體更好，那么是不是個(gè)體越多越好?更ManyCouldbeBetterThanAll：在有一組個(gè)體學(xué)習(xí)器可用時(shí)，從中選擇一部分進(jìn)行集成，可能比用所有個(gè)體學(xué)習(xí)器進(jìn)行集成更好

[Z.-H.Zhouetal.,AIJ02]從一組個(gè)體學(xué)習(xí)器中排除出去的個(gè)體（k）應(yīng)滿足：分類選擇性集成回歸遺憾的是，上述公式在解決實(shí)際問題時(shí)難以直接使用ManyCouldbeBetterThanAll：…...w1

w2 …... wn利用遺傳算法進(jìn)化…...遺傳算法選擇隨機(jī)生成若干權(quán)向量，權(quán)向量的每個(gè)分量對(duì)應(yīng)了一個(gè)個(gè)體學(xué)習(xí)器，這些權(quán)向量被遺傳算法進(jìn)化，得到一個(gè)最優(yōu)權(quán)向量，它表示了各個(gè)體學(xué)習(xí)器在構(gòu)成集成時(shí)的“重要性”，據(jù)此進(jìn)行個(gè)體的選擇假設(shè)

w2<1/n分類：有排除的投票回歸：有排除的平均為了證明選擇性集成學(xué)習(xí)的可操作性，我們提出了GASEN算法w11

w12 …... w1nw21

w22 …... w2nwm1

wm2 …... wmn隨機(jī)生成一個(gè)權(quán)向量群體…...

…... …... …...[Z.-H.Zhouetal.,AIJ02]GASEN（基于遺傳算法的選擇性集成學(xué)習(xí)算法）…...w1 w2 …... wn利用遺傳算法與著名的集成學(xué)習(xí)算法Bagging和Boosting相比，GASEN獲得了更高的(或相當(dāng)?shù)?精度，而且使用的個(gè)體學(xué)習(xí)器少得多(回歸：19%(3.71/20)；分類：36%(7.10/20.0))

[Z.-H.Zhouetal.,AIJ02]實(shí)驗(yàn)結(jié)果與著名的集成學(xué)習(xí)算法Bagging和Boosting相比，G給定學(xué)習(xí)目標(biāo)和訓(xùn)練集規(guī)模，bias度量了學(xué)習(xí)算法的平均估計(jì)結(jié)果與目標(biāo)的接近程度variance度量了在同樣規(guī)模的不同訓(xùn)練集上，學(xué)習(xí)算法的估計(jì)結(jié)果的擾動(dòng)程度以往研究表明，Bagging主要減小variance，而Boosting主要減小bias

[E.Bauer&R.Kohavi,MLJ99;L.Breiman,TechRep96]我們采用的分解機(jī)制為

[R.Kohavi&W.H.Wolpert,ICML96]Bias-Variance分解給定學(xué)習(xí)目標(biāo)和訓(xùn)練集規(guī)模，以往研究表明，Bagging主要在回歸任務(wù)中，GASEN在減小bias和variance方面都優(yōu)于Bagging和Boosting在分類任務(wù)中，GASEN在減小bias方面優(yōu)于Bagging，在減小variance方面優(yōu)于Boosting……GASEN的成功在于其既可以有效地減小bias，又可以有效地減小variance

[Z.-H.Zhouetal.,AIJ02]回歸分類biasvariance分解結(jié)果在回歸任務(wù)中，GASEN在減小bias和variance方面生物特征識(shí)別：選擇性集成的一個(gè)應(yīng)用BillGates:以人類生物特征進(jìn)行身份驗(yàn)證的生物識(shí)別技術(shù)，在今后數(shù)年內(nèi)將成為IT產(chǎn)業(yè)最為重要的技術(shù)革命人臉臉部熱量圖指紋手形手部血管分布虹膜視網(wǎng)膜簽名語音生物特征識(shí)別：選擇性集成的一個(gè)應(yīng)用BillGates:以人臉識(shí)別人臉識(shí)別因識(shí)別方式友好、可隱蔽而備受學(xué)術(shù)界和工業(yè)界關(guān)注（但人臉識(shí)別不是萬能的）人臉識(shí)別人臉識(shí)別因識(shí)別方式友好、可隱蔽而備受學(xué)術(shù)界和工業(yè)界關(guān)自動(dòng)人臉識(shí)別系統(tǒng)所謂自動(dòng)人臉識(shí)別系統(tǒng)，是指不需要人為干預(yù)，能夠自動(dòng)獲取人臉圖像并且辨別出其身份的系統(tǒng)一個(gè)自動(dòng)人臉識(shí)別系統(tǒng)至少要包含三個(gè)部分，即數(shù)據(jù)采集子系統(tǒng)、人臉檢測(cè)子系統(tǒng)和人臉識(shí)別子系統(tǒng)“人臉識(shí)別”有時(shí)是指整個(gè)自動(dòng)人臉識(shí)別系統(tǒng)所做的工作，有時(shí)是指人臉識(shí)別子系統(tǒng)所做的工作數(shù)據(jù)采集子系統(tǒng)人臉識(shí)別子系統(tǒng)人臉檢測(cè)子系統(tǒng)自動(dòng)人臉識(shí)別系統(tǒng)識(shí)別結(jié)果：Heis…!自動(dòng)人臉識(shí)別系統(tǒng)所謂自動(dòng)人臉識(shí)別系統(tǒng)，是指不需要人為干預(yù)，能本征臉（eigenface）方法是人臉識(shí)別的基準(zhǔn)技術(shù)，并已成為事實(shí)上的工業(yè)標(biāo)準(zhǔn)該方法基于主成分分析（PCA）PCA是將分散在一組變量上的信息集中到某幾個(gè)綜合指標(biāo)（主成分）上的數(shù)學(xué)方法，實(shí)際上起著數(shù)據(jù)降維的作用，并保證降維過程最大化保留原數(shù)據(jù)的差異這對(duì)最大化類間差異（即不同人之間的差異）并最小化類內(nèi)差異（即同一人的不同圖像間的差異）很有效用PCA將2維數(shù)據(jù)降到1維的例子，綠色點(diǎn)表示二維數(shù)據(jù)，PCA的目標(biāo)就是找到這樣一條直線，使得所有點(diǎn)在這條直線上的投影點(diǎn)之間的平均距離最大。也就是最大化地保留了原數(shù)據(jù)的差異性本征臉（eigenface）方法是人臉識(shí)別的基準(zhǔn)技術(shù)，并已成本征臉方法高N1，寬N2的圖像P可以轉(zhuǎn)化為N1×N2維的向量x線性變換:，其中y的維數(shù)m遠(yuǎn)遠(yuǎn)小于x的維數(shù)n尋找W

使得y最大程度地保持x原有的差異（variance）W的求法：1)樣本集的總體散布矩陣：2)求出C的本征向量和對(duì)應(yīng)的本征值;3)將本征值排序?yàn)?，它們?duì)應(yīng)的本征向量分別為4)取最前面的m個(gè)本征向量組成變換矩陣W

本征臉方法高N1，寬N2的圖像P可以轉(zhuǎn)化為N1×N2維的向本征臉方法直接計(jì)算C的本征值和本征向量是困難的，可以通過對(duì)矩陣做奇異值分解間接求出m值的選擇：如果將本征向量恢復(fù)成圖像，這些圖像很像人臉，因此稱為“本征臉”[M.Turk&A.Pentland,JCN91]本征臉方法直接計(jì)算C的本征值和本征向量是困難的，可以通過對(duì)本征特征（eigenfeature）方法利用PCA分析眼、鼻、嘴等局部特征，即本征特征方法[R.Brunelli&T.Poggio,TPAMI93][A.Pentlandetal.,CVPR94]這實(shí)際上相當(dāng)于：為若干重要的特征建立本征空間，然后將多個(gè)本征空間集成起來本征特征（eigenfeature）方法利用PCA分析眼、鼻本征臉vs.本征特征本征臉利用全局特征，本征特征利用局部特征，二者各有優(yōu)勢(shì)待識(shí)別圖像本征臉識(shí)別結(jié)果本征特征識(shí)別結(jié)果[A.Pentlandetal.,CVPR94]本征臉vs.本征特征本征臉利用全局特征，本征特征利用局部本征臉vs.本征特征(2)(1)(3)(4)難題——能否自動(dòng)確定：該用哪些特征？（眼睛？鼻子？嘴？……）特征的確切位置在哪兒？（從哪兒到哪兒算眼睛？……）將二者結(jié)合，可以得到更好的識(shí)別效果同樣，這實(shí)際上相當(dāng)于：為若干重要的特征建立本征空間，然后將多個(gè)本征空間集成起來由于嘴部受表情影響很嚴(yán)重，因此未考慮嘴部特征本征臉vs.本征特征(2)(1)(3)(4)難題——能否考慮，選擇的原則應(yīng)該是：將人臉圖像中所有的矩形區(qū)域都看做一個(gè)可能的特征，這樣，在每一個(gè)矩形區(qū)域都建立一個(gè)本征空間，最后將重要的本征空間集成起來圖像中包含的矩形區(qū)域的數(shù)量是非常巨大的（例如一幅34×31的圖像包含的矩形區(qū)域就多達(dá)295,120個(gè)），不可能使用所有的本征空間組成集成，但可以運(yùn)用選擇性集成思想，從中選擇出部分本征空間組成集成本征空間本身的誤差較小本征空間之間的差異較大（即互補(bǔ)性較大）SEME（選擇性多本征空間集成算法）考慮，選擇的原則給定k個(gè)人臉圖像樣本（每人兩張圖像，一張為gallery圖像，另一張為probe圖像），算法將從所有N個(gè)矩形（R1,R2,…,RN.）中選擇出m個(gè)Fori=1,2,…,N:以gallery圖像為訓(xùn)練集，在Ri

上訓(xùn)練出一個(gè)本征空間利用該本征空間識(shí)別所有的probe圖像，記下識(shí)別率ri將Ri按照相應(yīng)的ri從大到小排序S={R1}，A={R2,…,Rn}，這里m<<n<<NFort=1,2,…,m-1:對(duì)A中的每一個(gè)矩形Ri，計(jì)算Ri能夠識(shí)別正確，而S中至少有一個(gè)矩形識(shí)別錯(cuò)誤的probe圖像的數(shù)目，記為ci找到具有最大糾正誤識(shí)數(shù)目ct的矩形Rt將Rt從A中刪除并添加到S中集成與S中m個(gè)矩形相對(duì)應(yīng)的本征空間用于人臉識(shí)別選擇誤差小的矩形特征選擇差異大的矩形特征SEME（選擇性多本征空間集成算法）[X.Geng&Z.-H.Zhou,unpub04]給定k個(gè)人臉圖像樣本（每人兩張圖像，一張為gallery圖像實(shí)驗(yàn)結(jié)果[X.Geng&Z.-H.Zhou,unpub04]FERET人臉數(shù)據(jù)庫上的結(jié)果(3)(2)(1)(4)(2)(1)(3)(4)待識(shí)別圖像出現(xiàn)在算法返回的前Rank個(gè)圖像中SEME選擇的特征本征臉+本征特征所用的特征實(shí)驗(yàn)結(jié)果[X.Geng&Z.-H.Zhou,unSEME的可擴(kuò)展性SEME的訓(xùn)練（計(jì)算）開銷很大，但只需訓(xùn)練一次[X.Geng&Z.-H.Zhou,unpub04]將FERET人臉數(shù)據(jù)庫上選擇出的本征空間集成直接用于ORL（左）和BioID（右）這兩個(gè)人臉數(shù)據(jù)庫的結(jié)果SEME的可擴(kuò)展性SEME的訓(xùn)練（計(jì)算）開銷很大，但只需訓(xùn)練總結(jié)：選擇性集成選擇性集成的思想：利用多個(gè)個(gè)體，并通過對(duì)個(gè)體進(jìn)行選擇，可以獲得更好的結(jié)果問題…...…...個(gè)體解個(gè)體解個(gè)體解選擇性集成的思想可以用到更多的領(lǐng)域中去選擇的基本原則：個(gè)體的效用高、差異大總結(jié)：選擇性集成選擇性集成的思想：利用多個(gè)個(gè)體，并通過對(duì)個(gè)體謝謝!謝謝!選擇性集成(SelectiveEnsemble)周志華/people/zhouzh/Email:zhouzh@南京大學(xué)計(jì)算機(jī)軟件新技術(shù)國家重點(diǎn)實(shí)驗(yàn)室選擇性集成周志華/p泛化：generalization泛化能力越強(qiáng)，處理新數(shù)據(jù)的能力越好泛化能力是機(jī)器學(xué)習(xí)關(guān)注的基本問題之一提高泛化能力是永遠(yuǎn)的追求泛化能力泛化：generalization泛化能力集成學(xué)習(xí)（EnsembleLearning）是一種機(jī)器學(xué)習(xí)范式，它使用多個(gè)（通常是同質(zhì)的）學(xué)習(xí)器來解決同一個(gè)問題集成學(xué)習(xí)

問題…...…...

w2<1/n分類：有排除的投票回歸：有排除的平均為了證明選擇性集成學(xué)習(xí)的可操作性，我們提出了GASEN算法w11

w12 …... w1nw21

w22 …... w2nwm1

wm2 …... wmn隨機(jī)生成一個(gè)權(quán)向量群體…...

[E.Bauer&R.Kohavi,MLJ99;L.Breiman,TechRep96]我們采用的分解機(jī)制為

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

選擇性集成課件

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

選擇性集成課件

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔