版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、http:/ 泛化:generalization泛化能力越強(qiáng),處理新數(shù)據(jù)的能力越好泛化能力是機(jī)器學(xué)習(xí)關(guān)注的基本問(wèn)題之一提高泛化能力是永遠(yuǎn)的追求集成學(xué)習(xí)(Ensemble Learning)是一種機(jī)器學(xué)習(xí)范式,它使用多個(gè)(通常是同質(zhì)的)學(xué)習(xí)器來(lái)解決同一個(gè)問(wèn)題 問(wèn)題 . . 問(wèn)題集成學(xué)習(xí)中使用的多個(gè)學(xué)習(xí)器稱為個(gè)體學(xué)習(xí)器當(dāng)個(gè)體學(xué)習(xí)器均為決策樹(shù)時(shí),稱為“決策樹(shù)集成”當(dāng)個(gè)體學(xué)習(xí)器均為神經(jīng)網(wǎng)絡(luò)時(shí),稱為“神經(jīng)網(wǎng)絡(luò)集成” 由于集成學(xué)習(xí)技術(shù)可以有效地提高學(xué)習(xí)系統(tǒng)的泛化能力,因此它成為國(guó)際機(jī)器學(xué)習(xí)界的研究熱點(diǎn),并被國(guó)際權(quán)威 T.G. Dietterich 稱為當(dāng)前機(jī)器學(xué)習(xí)四大研究方向之首T.G. Dietteri
2、ch, AIMag97問(wèn)題:對(duì)20維超立方體空間中的區(qū)域分類(lèi)左圖中縱軸為錯(cuò)誤率從上到下的四條線分別表示:平均神經(jīng)網(wǎng)絡(luò)錯(cuò)誤率最好神經(jīng)網(wǎng)絡(luò)錯(cuò)誤率兩種神經(jīng)網(wǎng)絡(luò)集成的錯(cuò)誤率令人驚奇的是,集成的錯(cuò)誤率比最好的個(gè)體還低 L.K. Hansen & P. Salamon, TPAMI90集成學(xué)習(xí)技術(shù)已經(jīng)在行星探測(cè)、地震波分析、Web信息過(guò)濾、生物特征識(shí)別、計(jì)算機(jī)輔助醫(yī)療診斷等眾多領(lǐng)域得到了廣泛的應(yīng)用只要能用到機(jī)器學(xué)習(xí)的地方,就能用到集成學(xué)習(xí)期望結(jié)果個(gè)體1 (精度33.3%)個(gè)體2 (精度33.3%)個(gè)體3 (精度33.3%)集成(精度33.3%)投票個(gè)體必須有差異期望結(jié)果個(gè)體1 (精度33.3%)個(gè)
3、體2 (精度33.3%)個(gè)體3 (精度33.3%)集成 (精度0%)投票個(gè)體精度不能太低EEA個(gè)體學(xué)習(xí)器越精確、差異越大,集成越好A. Krogh & J. Vedelsby, NIPS94既然多個(gè)個(gè)體的集成比單個(gè)個(gè)體更好,那么是不是個(gè)體越多越好?更多的個(gè)體意味著: 在預(yù)測(cè)時(shí)需要更大的計(jì)算開(kāi)銷(xiāo),因?yàn)橐?jì)算更多的個(gè)體預(yù)測(cè) 更大的存儲(chǔ)開(kāi)銷(xiāo),因?yàn)橛懈嗟膫€(gè)體需要保存?zhèn)€體的增加將使得個(gè)體間的差異越來(lái)越難以獲得22111212NNNijikkijii kNCNCN EMany Could be Better Than All:在有一組個(gè)體學(xué)習(xí)器可用時(shí),從中選擇一部分進(jìn)行集成,可能比用所有個(gè)體學(xué)習(xí)
4、器進(jìn)行集成更好Z.-H. Zhou et al., AIJ02從一組個(gè)體學(xué)習(xí)器中排除出去的個(gè)體(k)應(yīng)滿足:分類(lèi)110jmjkjjjjj SumSgnSumfd回歸遺憾的是,上述公式在解決實(shí)際問(wèn)題時(shí)難以直接使用 .w1w2 . wn利用遺傳算法進(jìn)化 .遺傳算法選擇隨機(jī)生成若干權(quán)向量,權(quán)向量的每個(gè)分量對(duì)應(yīng)了一個(gè)個(gè)體學(xué)習(xí)器,這些權(quán)向量被遺傳算法進(jìn)化,得到一個(gè)最優(yōu)權(quán)向量,它表示了各個(gè)體學(xué)習(xí)器在構(gòu)成集成時(shí)的“重要性”,據(jù)此進(jìn)行個(gè)體的選擇假設(shè) w2 1/n 分類(lèi):有排除的投票 回歸:有排除的平均為了證明選擇性集成學(xué)習(xí)的可操作性,我們提出了GASEN算法w11w12 . w1nw21w22 . w2nwm
5、1wm2 . wmn隨機(jī)生成一個(gè)權(quán)向量群體 . . . .Z.-H. Zhou et al., AIJ02與著名的集成學(xué)習(xí)算法Bagging和Boosting相比,GASEN 獲得了更高的(或相當(dāng)?shù)? 精度,而且使用的個(gè)體學(xué)習(xí)器少得多 (回歸:19% (3.71/20);分類(lèi):36% (7.10/20.0) Z.-H. Zhou et al., AIJ02221bias2xFHy YP Yy xP Yy x21variance12xHy YP Yy x給定學(xué)習(xí)目標(biāo)和訓(xùn)練集規(guī)模, bias 度量了學(xué)習(xí)算法的平均估計(jì)結(jié)果與目標(biāo)的接近程度variance 度量了在同樣規(guī)模的不同訓(xùn)練集上,學(xué)習(xí)算法的估
6、計(jì)結(jié)果的擾動(dòng)程度以往研究表明,Bagging主要減小variance,而B(niǎo)oosting主要減小bias E. Bauer & R. Kohavi, MLJ99; L. Breiman, TechRep96我們采用的分解機(jī)制為 R. Kohavi & W.H. Wolpert, ICML96在回歸任務(wù)中,GASEN在減小bias和variance方面都優(yōu)于Bagging和Boosting在分類(lèi)任務(wù)中,GASEN在減小bias方面優(yōu)于Bagging,在減小variance方面優(yōu)于Boosting GASEN的成功在于其既可以有效地減小bias,又可以有效地減小varianceZ.
7、-H. Zhou et al., AIJ02回歸分類(lèi)biasvarianceBill Gates: 以人類(lèi)生物特征進(jìn)行身份驗(yàn)證的生物識(shí)別技術(shù),在今后數(shù)年內(nèi)將成為IT產(chǎn)業(yè)最為重要的技術(shù)革命人臉 臉部熱量圖 指紋 手形 手部血管分布 虹膜 視網(wǎng)膜 簽名 語(yǔ)音 人臉識(shí)別因識(shí)別方式友好、可隱蔽而備受學(xué)術(shù)界和工業(yè)界關(guān)注(但人臉識(shí)別不是萬(wàn)能的)所謂自動(dòng)人臉識(shí)別系統(tǒng),是指不需要人為干預(yù),能夠自動(dòng)獲取人臉圖像并且辨別出其身份的系統(tǒng) 一個(gè)自動(dòng)人臉識(shí)別系統(tǒng)至少要包含三個(gè)部分,即數(shù)據(jù)采集子系統(tǒng)、人臉檢測(cè)子系統(tǒng)和人臉識(shí)別子系統(tǒng) “人臉識(shí)別”有時(shí)是指整個(gè)自動(dòng)人臉識(shí)別系統(tǒng)所做的工作,有時(shí)是指人臉識(shí)別子系統(tǒng)所做的工作數(shù)據(jù)采
8、集子系統(tǒng)人臉識(shí)別子系統(tǒng)人臉檢測(cè)子系統(tǒng)自動(dòng)人臉識(shí)別系統(tǒng)識(shí)別結(jié)果:He is !是人臉識(shí)別的基準(zhǔn)技術(shù),并已成為事實(shí)上的工業(yè)標(biāo)準(zhǔn)該方法基于主成分分析(PCA)PCA是將分散在一組變量上的信息集中到某幾個(gè)綜合指標(biāo)(主成分)上的數(shù)學(xué)方法,實(shí)際上起著數(shù)據(jù)降維的作用,并保證降維過(guò)程最大化保留原數(shù)據(jù)的差異這對(duì)最大化類(lèi)間差異(即不同人之間的差異)并最小化類(lèi)內(nèi)差異(即同一人的不同圖像間的差異)很有效用PCA將2維數(shù)據(jù)降到1維的例子,綠色點(diǎn)表示二維數(shù)據(jù),PCA的目標(biāo)就是找到這樣一條直線,使得所有點(diǎn)在這條直線上的投影點(diǎn)之間的平均距離最大。也就是最大化地保留了原數(shù)據(jù)的差異性u(píng)高N1,寬N2的圖像P 可以轉(zhuǎn)化為N1N2維
9、的向量xu線性變換: ,其中y的維數(shù)m 遠(yuǎn)遠(yuǎn)小于x的維數(shù)nu尋找W 使得y 最大程度地保持x原有的差異(variance)uW 的求法:1) 樣本集的總體散布矩陣: 2) 求出C 的本征向量和對(duì)應(yīng)的本征值; 3) 將本征值排序?yàn)?,它們對(duì)應(yīng)的本征向量分別為4) 取最前面的m個(gè)本征向量 組成變換矩陣W yxTW()() CExxT12n12,nw ww12,mw wwu直接計(jì)算C 的本征值和本征向量是困難的,可以通過(guò)對(duì)矩陣 做奇異值分解間接求出um值的選擇:12(),(),()DxxxX11miiniiT如果將本征向量恢復(fù)成圖像,這些圖像很像人臉,因此稱為“本征臉” M. Turk &
10、A. Pentland, JCN91利用PCA分析眼、鼻、嘴等局部特征,即本征特征方法 R. Brunelli & T. Poggio, TPAMI93 A. Pentland et al., CVPR94這實(shí)際上相當(dāng)于:為若干重要的特征建立本征空間,然后將多個(gè)本征空間集成起來(lái)本征臉利用全局特征,本征特征利用局部特征,二者各有優(yōu)勢(shì)待識(shí)別圖像本征臉識(shí)別結(jié)果本征特征識(shí)別結(jié)果 A. Pentland et al., CVPR94(2)(1)(3)(4)難題能否自動(dòng)確定:該用哪些特征?(眼睛?鼻子?嘴?)特征的確切位置在哪兒?(從哪兒到哪兒算眼睛?)將二者結(jié)合,可以得到更好的識(shí)別效果同樣,這實(shí)
11、際上相當(dāng)于:為若干重要的特征建立本征空間,然后將多個(gè)本征空間集成起來(lái)由于嘴部受表情影響很?chē)?yán)重,因此未考慮嘴部特征考慮 ,選擇的原則應(yīng)該是:將人臉圖像中所有的矩形區(qū)域都看做一個(gè)可能的特征,這樣,在每一個(gè)矩形區(qū)域都建立一個(gè)本征空間,最后將重要的本征空間集成起來(lái)圖像中包含的矩形區(qū)域的數(shù)量是非常巨大的(例如一幅3431的圖像包含的矩形區(qū)域就多達(dá)295,120個(gè)),不可能使用所有的本征空間組成集成,但可以運(yùn)用選擇性集成思想,從中選擇出部分本征空間組成集成EEA 本征空間本身的誤差較小 本征空間之間的差異較大(即互補(bǔ)性較大)l給定k個(gè)人臉圖像樣本(每人兩張圖像,一張為gallery圖像,另一張為probe
12、圖像),算法將從所有N個(gè)矩形(R1, R2, , RN.)中選擇出m個(gè)lFor i = 1, 2, , N:1 以gallery圖像為訓(xùn)練集,在Ri 上訓(xùn)練出一個(gè)本征空間2 利用該本征空間識(shí)別所有的probe圖像,記下識(shí)別率ril將Ri按照相應(yīng)的ri從大到小排序lS = R1,A = R2, , Rn,這里 m n NlFor t = 1, 2, , m-1:1 對(duì)A中的每一個(gè)矩形Ri,計(jì)算Ri 能夠識(shí)別正確,而S中至少有一個(gè)矩形識(shí)別錯(cuò)誤的probe圖像的數(shù)目,記為ci2 找到具有最大糾正誤識(shí)數(shù)目ct的矩形Rt3 將Rt從A中刪除并添加到S中l(wèi)集成與S中m個(gè)矩形相對(duì)應(yīng)的本征空間用于人臉識(shí)別選擇
13、誤差小的矩形特征選擇差異大的矩形特征 X. Geng & Z.-H. Zhou, unpub040.70.750.80.850.90.951123456789 10 11 12 13 14 15 16 17 18 19 20RankSEMEeigenfaceeigenfeatureeigenface + eigenfeatureCumulative match score X. Geng & Z.-H. Zhou, unpub04FERET人臉數(shù)據(jù)庫(kù)上的結(jié)果(3)(2)(1)(4)(2)(1)(3)(4)待識(shí)別圖像出現(xiàn)在算法返回的前Rank個(gè)圖像中SEME選擇的特征本征臉+本征特征所用的特征0.912345RankSEMEeigenfaceeigenfeatureeigenface + eigenfeatureCumulative match scoreSEME的訓(xùn)練(計(jì)算)開(kāi)銷(xiāo)很大,但只需訓(xùn)練一次0.90.920.940.960.98112345RankSEMEeigenfaceeigenfeatureeigenface
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年虛擬現(xiàn)實(shí)體驗(yàn)館租賃合同3篇
- 2025年度二零二五醫(yī)院食堂改造承包管理合同范本4篇
- 二零二五版木材防腐劑銷(xiāo)售合同范本2篇
- 2025年度船舶駕駛室設(shè)備升級(jí)與改造合同4篇
- 2025年度苗木種植項(xiàng)目投資合作合同模板4篇
- 2025年度民爆物品運(yùn)輸安全服務(wù)合同4篇
- 物流公司貨車(chē)駕駛員2025年度聘用合同3篇
- 個(gè)人與公司2024年度合作開(kāi)發(fā)合同2篇
- 2025年度出租房衛(wèi)生設(shè)施維護(hù)與租戶使用規(guī)范合同4篇
- 2025年度代理記賬公司業(yè)務(wù)拓展服務(wù)合同2篇
- 2024年醫(yī)銷(xiāo)售藥銷(xiāo)售工作總結(jié)
- GB/T 44888-2024政務(wù)服務(wù)大廳智能化建設(shè)指南
- 2023-2024學(xué)年江西省萍鄉(xiāng)市八年級(jí)(上)期末物理試卷
- 四則混合運(yùn)算100道題四年級(jí)上冊(cè)及答案
- 四川省高職單招電氣技術(shù)類(lèi)《電子基礎(chǔ)》歷年考試真題試題庫(kù)(含答案)
- 2024年江西生物科技職業(yè)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫(kù)帶解析答案
- 橋本甲狀腺炎-90天治療方案
- (2024年)安全注射培訓(xùn)課件
- 2024版《建設(shè)工程開(kāi)工、停工、復(fù)工安全管理臺(tái)賬表格(流程圖、申請(qǐng)表、報(bào)審表、考核表、通知單等)》模版
- 酒店人防管理制度
- 油田酸化工藝技術(shù)
評(píng)論
0/150
提交評(píng)論