![模式識別第11章獨立于算法的機器學(xué)習(xí)_第1頁](http://file4.renrendoc.com/view/6e294e8845288749477d5a11c21dae18/6e294e8845288749477d5a11c21dae181.gif)
![模式識別第11章獨立于算法的機器學(xué)習(xí)_第2頁](http://file4.renrendoc.com/view/6e294e8845288749477d5a11c21dae18/6e294e8845288749477d5a11c21dae182.gif)
![模式識別第11章獨立于算法的機器學(xué)習(xí)_第3頁](http://file4.renrendoc.com/view/6e294e8845288749477d5a11c21dae18/6e294e8845288749477d5a11c21dae183.gif)
![模式識別第11章獨立于算法的機器學(xué)習(xí)_第4頁](http://file4.renrendoc.com/view/6e294e8845288749477d5a11c21dae18/6e294e8845288749477d5a11c21dae184.gif)
![模式識別第11章獨立于算法的機器學(xué)習(xí)_第5頁](http://file4.renrendoc.com/view/6e294e8845288749477d5a11c21dae18/6e294e8845288749477d5a11c21dae185.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
第十一章獨立于算法的機器學(xué)習(xí)11.1模式識別中的哲學(xué)這里討論的是一些獨立于具體識別算法的一般性原理,但可以適用于任何一個特定的識別方法:沒有免費午餐定理;丑小鴨定理;Occam剃刀原理。沒有免費的午餐定理
(NFL,NoFreeLunchTheorem)不存在一個與具體應(yīng)用無關(guān)的,普遍適用的“最優(yōu)分類器”;學(xué)習(xí)算法必須要作出一個與問題領(lǐng)域有關(guān)的“假設(shè)”,分類器必須與問題域相適應(yīng)。丑小鴨定理(UglyDuckling)不存在與問題無關(guān)的“最優(yōu)”的特征集合或?qū)傩约?;也同樣不存在與問題無關(guān)的模式之間的“相似性度量”。Occam剃刀原理設(shè)計者不應(yīng)該選用比“必要”更加復(fù)雜的分類器,“必要”是由訓(xùn)練數(shù)據(jù)的擬合情況決定的;在對訓(xùn)練數(shù)據(jù)分類效果相同時,“簡單的”分類器往往優(yōu)于“復(fù)雜的”分類器;根據(jù)“沒有免費午餐定理”,不能說“簡單的”分類器對“復(fù)雜的”分類器具有天生的優(yōu)越性,但在現(xiàn)實世界中遇到的各種問題,這種優(yōu)越性往往是存在。11.2分類性能評價方法使用什么樣本測試分類器的性能?如何劃分樣本集?兩分法:隨機地將樣本集D劃分為不相交的兩個集合Dl和Dt,分別用于學(xué)習(xí)分類器和測試分類器性能。訓(xùn)練樣本集(Dl)測試樣本集(Dt)分類性能評價方法交叉驗證:將樣本集D隨機地劃分為互不相交的k個子集:使用k-1個子集的樣本訓(xùn)練一個分類器;測試沒有參與訓(xùn)練子集的樣本;重復(fù)k次取平均。留一法(刀切法):k=nD1…D2Dk-1DkDlDt分類性能評價方法Bootstrap方法(自助法):從樣本集D中有放回地抽取n個樣本用于訓(xùn)練;從樣本集D中有放回地抽取n個樣本用于測試;重復(fù)k次取平均。樣本集D樣本集Dl樣本集Dt11.3分類設(shè)計的重采樣技術(shù)分類器設(shè)計的重采樣技術(shù)也被稱為“自適應(yīng)的權(quán)值重置和組合(arcing,adaptivereweightingandcombining);這類方法的主要思想是利用同一個訓(xùn)練樣本集合構(gòu)造多個分類器,然后以某種方式將這些分類器組合成一個分類器;主要方法包括:bagging算法和boosting算法bagging算法從大小為n的原始數(shù)據(jù)集D中獨立隨機地抽取n’個數(shù)據(jù)(n’<n),形成一個自助數(shù)據(jù)集;重復(fù)上述過程,產(chǎn)生出多個獨立的自助數(shù)據(jù)集;利用每個自助數(shù)據(jù)集訓(xùn)練出一個“分量分類器”;最終的分類結(jié)果由這些“分量分類器”各自的判別結(jié)果投票決定。boosting算法boosting算法同樣是利用訓(xùn)練樣本集合構(gòu)造多個分量分類器,它只要求這個分量分類器是一個弱分類器—準(zhǔn)確率比平均性能好即可。2類問題,3個分量分類器的訓(xùn)練算法:在數(shù)量為n的原始樣本集D中隨機選取n1個樣本構(gòu)成D1,利用D1訓(xùn)練出一個分類器C1;在樣本集D-D1中選擇被C1正確分類和錯誤分類的樣本各一半組成樣本集D2,用D2訓(xùn)練出一個分類器C2;將樣本集D-D1-D2中所有C1和C2分類結(jié)果不同的樣本組成樣本集D3,訓(xùn)練出一個分類器C3;boosting的分類算法對新的樣本x進行分類,如果C1和C2判別結(jié)果相同,則將x判別為此類別,否則以C3的結(jié)果作為x的類別;原始樣本集分量分類器組合分類器AdaBoost方法AdaBoost(adaptiveboosting)是boosting方法的一個重要變形,一般所說的boosting方法均是指AdaBoost;AdaBoost方法中,設(shè)計者可以不斷地增加分量分類器,直到達到足夠小的錯誤率為止;總體分類結(jié)果是由各分量分類器加權(quán)平均得到,權(quán)重由分量分類器的錯誤率確定。AdaBoost方法begininitializeD,kmax,W1(i)1/n,i=1,…,n;
k0;dokk+1
訓(xùn)練使用按照Wk(i)采樣D的弱分類器Ck;
Ek用Wk(i)采樣D的樣本集測量Ck的訓(xùn)練誤差;
untilk=kmax;
endAdaBoost方法算法中Wk(i)為每一步迭代中對每個樣本的加權(quán),Zk是歸一化因子,Ck為第k個分量分類器,αk為對Ck的加權(quán);總體的判別函數(shù)由各分量分類器的加權(quán)平均得到: 其中為Ck分類器給出的判別結(jié)果。AdaBoost方法的推廣能力AdaBoost方法實際上是增加了分類器的復(fù)雜程度,但實踐表明此方法出現(xiàn)“過擬合”的現(xiàn)象極少,這是此方法最吸引人的地方。針對特征的Boosting算法特征選擇:就是從一組數(shù)量為n的特征中選擇出數(shù)量為m的最優(yōu)特征;最優(yōu)特征組合的評價標(biāo)準(zhǔn);選擇出最優(yōu)特征組合的算法;Boosting可以作為特征選擇的方法。AdaBoost特征選擇算法Givenexamples(x1,y1),…,(xn,yn),whereyi=0,1fornegativeandpositiveexamplesrespectively;Initializeweightsw1,i=1/2m,1/2lforyi=0,1respectively,wheremandlarethenumberofnegativesandpositivesrespectively;Fort=1,…,T:Normalizetheweights: sothatwtisaprobabilitydistribution.AdaBoost特征選擇算法Foreachfeature,j,trainaclassifierhjwhichisrestrictedtousingasinglefeature.Theerrorisevaluatedwithrespecttowt,Choosetheclassifierht,with
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中國骨科耗材行業(yè)市場前景預(yù)測及投資戰(zhàn)略研究報告
- 2025年度家居建材批發(fā)采購合同(2025年度)
- 2025年度建筑植筋施工質(zhì)量控制與驗收合同范本
- 2025年中國阻燃四氟布行業(yè)市場發(fā)展前景及發(fā)展趨勢與投資戰(zhàn)略研究報告
- 2025年中國電機軸行業(yè)市場發(fā)展監(jiān)測及投資戰(zhàn)略規(guī)劃研究報告
- 2025年度大型活動臨時設(shè)施搭建及勞務(wù)供應(yīng)合同
- 2025年度金融產(chǎn)品居間推廣合同范本-@-3
- 2025年真空吸氣機行業(yè)深度研究分析報告
- 2025年度建筑工程施工圖紙審查合同范本下載
- 微課題研究的實施步驟與流程
- 精裝修室內(nèi)施工組織部署
- 農(nóng)用拖拉機考試題庫
- GJB438C模板-軟件開發(fā)計劃(已按標(biāo)準(zhǔn)公文格式校準(zhǔn))
- 2023年政府采購評審專家考試真題及答案
- 云端數(shù)據(jù)加密與密鑰管理解決方案
- 毒麻藥品試題答案
- 《公路橋涵養(yǎng)護規(guī)范》(5120-2021)【可編輯】
- 醫(yī)療器械專業(yè)知識培訓(xùn)課件
- 傳統(tǒng)體育養(yǎng)生學(xué)
- DB4401∕T 33-2019 電梯托管標(biāo)準(zhǔn)化管理規(guī)范
- 醫(yī)院物業(yè)(保潔)技術(shù)服務(wù)投標(biāo)方案
評論
0/150
提交評論