數(shù)據(jù)挖據(jù)技術(shù)集成學(xué)習(xí)方法(ensemblelearnig).ppt

上傳人：y*** IP屬地：廣東上傳時間：2020-01-15 格式：PPT 頁數(shù)：44 大?。?.84MB 積分：28 舉報 版權(quán)申訴

數(shù)據(jù)挖據(jù)技術(shù)集成學(xué)習(xí)方法(ensemblelearnig).ppt_第2頁

數(shù)據(jù)挖據(jù)技術(shù)集成學(xué)習(xí)方法(ensemblelearnig).ppt_第3頁

數(shù)據(jù)挖據(jù)技術(shù)集成學(xué)習(xí)方法(ensemblelearnig).ppt_第4頁

數(shù)據(jù)挖據(jù)技術(shù)集成學(xué)習(xí)方法(ensemblelearnig).ppt_第5頁

已閱讀5頁，還剩39頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

數(shù)據(jù)挖據(jù)技術(shù)集成學(xué)習(xí)方法 ensemblelearnig 王磊副教授經(jīng)濟信息工程學(xué)院 2 2 第六章集成學(xué)習(xí)方法基本概念baggingboosting隨機森林選擇性集成方法在機器學(xué)習(xí)中直接建立一個高性能的分類器是很困難的但是如果能找到一系列性能較差的分類器弱分類器并把它們集成起來的話也許就能得到更好的分類器日常生活中三個臭皮匠勝過諸葛亮便是體現(xiàn)了這種思想集成學(xué)習(xí)的基本概念集成學(xué)習(xí) 圖示我們一般選定加權(quán)平均的方法來構(gòu)造集成學(xué)習(xí)的最終學(xué)習(xí)器但是里面的每一個弱分類器 i 怎樣構(gòu)造呢有一些研究是針對每個學(xué)習(xí)器都不同構(gòu)的情況比如識別一個人一個學(xué)習(xí)器考慮臉另一個考慮步態(tài) 另一個考慮指紋這種研究通常稱為InformationFusion 不在我們今天討論的范疇狹義的集成學(xué)習(xí) ensemblelearning 是用同樣類型的學(xué)習(xí)算法來構(gòu)造不同的弱學(xué)習(xí)器的方法集成學(xué)習(xí) 如何構(gòu)造辦法就是改變訓(xùn)練集通常的學(xué)習(xí)算法根據(jù)訓(xùn)練集的不同會給出不同的學(xué)習(xí)器這時就可以通過改變訓(xùn)練集來構(gòu)造不同的學(xué)習(xí)器然后再把它們集成起來集成學(xué)習(xí) 如何構(gòu)造在原來的訓(xùn)練集上隨機采樣可以得到新的訓(xùn)練集隨機采樣集成學(xué)習(xí) EnsembleLearning 是一種機器學(xué)習(xí)方法它使用多個通常是同質(zhì)的學(xué)習(xí)器來解決同一個問題集成學(xué)習(xí)中使用的多個學(xué)習(xí)器稱為個體學(xué)習(xí)器當個體學(xué)習(xí)器均為決策樹時稱為決策樹集成當個體學(xué)習(xí)器均為神經(jīng)網(wǎng)絡(luò)時稱為神經(jīng)網(wǎng)絡(luò)集成集成學(xué)習(xí)的定義由于集成學(xué)習(xí)技術(shù)可以有效地提高學(xué)習(xí)系統(tǒng)的泛化能力因此它成為國際機器學(xué)習(xí)界的研究熱點并被國際權(quán)威T G Dietterich稱為當前機器學(xué)習(xí)四大研究方向之首 T G Dietterich AIMag97 問題對20維超立方體空間中的區(qū)域分類左圖中縱軸為錯誤率從上到下的四條線分別表示平均神經(jīng)網(wǎng)絡(luò)錯誤率最好神經(jīng)網(wǎng)絡(luò)錯誤率兩種神經(jīng)網(wǎng)絡(luò)集成的錯誤率令人驚奇的是集成的錯誤率比最好的個體還低 L K Hansen P Salamon TPAMI90 集成學(xué)習(xí)的重要性集成學(xué)習(xí)技術(shù)已經(jīng)在行星探測地震波分析 Web信息過濾生物特征識別計算機輔助醫(yī)療診斷等眾多領(lǐng)域得到了廣泛的應(yīng)用只要能用到機器學(xué)習(xí)的地方就能用到集成學(xué)習(xí) 集成學(xué)習(xí)的應(yīng)用如何構(gòu)建好的集成既然多個個體的集成比單個個體更好那么是不是個體越多越好更多的個體意味著在預(yù)測時需要更大的計算開銷因為要計算更多的個體預(yù)測更大的存儲開銷因為有更多的個體需要保存個體的增加將使得個體間的差異越來越難以獲得個體越多越好嗎集成策略有多種策略可以將q個弱分類器組合成集成分類器集成策略從大小為n的原始數(shù)據(jù)集D中獨立隨機地抽取n 個數(shù)據(jù) n n 形成一個自助數(shù)據(jù)集重復(fù)上述過程產(chǎn)生出多個獨立的自助數(shù)據(jù)集利用每個自助數(shù)據(jù)集訓(xùn)練出一個分量分類器最終的分類結(jié)果由這些分量分類器各自的判別結(jié)果投票決定基本思想對訓(xùn)練集有放回地抽取訓(xùn)練樣例從而為每一個基本分類器都構(gòu)造出一個跟訓(xùn)練集相當大小但各不相同的訓(xùn)練集從而訓(xùn)練出不同的基本分類器該算法是基于對訓(xùn)練集進行處理的集成方法中最簡單最直觀的一種 Bagging算法 Bagging算法 Boosting算法 Boosting流程描述 Step1 原始訓(xùn)練集輸入Step2 計算訓(xùn)練集中各樣本的權(quán)重Step3 采用已知算法訓(xùn)練弱學(xué)習(xí)機并對每個樣本進行判別Step4 計算對此次的弱學(xué)習(xí)機的權(quán)重Step5 轉(zhuǎn)到Step2 直到循環(huán)到達一定次數(shù)或者某度量標準符合要求Step6 將弱學(xué)習(xí)機按其相應(yīng)的權(quán)重加權(quán)組合形成強學(xué)習(xí)機核心思想樣本的權(quán)重沒有先驗知識的情況下初始的分布應(yīng)為等概分布也就是訓(xùn)練集如果有N個樣本每個樣本的分布概率為1 N每次循環(huán)一后提高錯誤樣本的分布概率分錯樣本在訓(xùn)練集中所占權(quán)重增大使得下一次循環(huán)的弱學(xué)習(xí)機能夠集中力量對這些錯誤樣本進行判斷弱學(xué)習(xí)機的權(quán)重準確率越高的弱學(xué)習(xí)機權(quán)重越高循環(huán)控制損失函數(shù)達到最小在強學(xué)習(xí)機的組合中增加一個加權(quán)的弱學(xué)習(xí)機使準確率提高損失函數(shù)值減小簡單問題演示 Boosting訓(xùn)練過程算法 boosting數(shù)學(xué)描述訓(xùn)練集 x1 y1 x2 y2 xN yN xi Rm yi 1 1 Dt為第t次循環(huán)時的訓(xùn)練樣本分布每個樣本在訓(xùn)練集中所占的概率 Dt總和應(yīng)該為1 ht X 1 1 為第t次循環(huán)時的Weaklearner 對每個樣本給出相應(yīng)的假設(shè) 應(yīng)該滿足強于隨機猜測 wt為ht的權(quán)重為t次循環(huán)得到的Stronglearner 樣本權(quán)重思想提高分錯樣本的權(quán)重反映了stronglearner對樣本的假設(shè)是否正確采用什么樣的函數(shù)形式弱學(xué)習(xí)機權(quán)重思想錯誤率越低該學(xué)習(xí)機的權(quán)重應(yīng)該越大為學(xué)習(xí)機的錯誤概率采用什么樣的函數(shù)形式和指數(shù)函數(shù)遙相呼應(yīng) AdaBoost算法 25 Adaboost訓(xùn)練過程 26 Adaboost訓(xùn)練過程 27 Adaboost訓(xùn)練過程 Adaboost的缺點隨機森林算法隨機森林算法是LeoBreiman于2001年提出的一種新型分類和預(yù)測模型它具有需要調(diào)整的參數(shù)少不容易過度擬合分類速度快能高效處理大樣本數(shù)據(jù)等特點 Bagging和AdaBoost等方法只是通過改變樣本的權(quán)重來獲得不同的弱分類器隨機森林 RF 則通過同時改變樣本和特征子集來獲得不同的弱分類器隨機森林算法隨機森林是采用隨機的方式建立一個森林森林有很多決策樹組成每棵決策樹之間沒有關(guān)聯(lián) 對于新的測試樣本讓森林中的每一棵決策樹分布分別進行一下判斷依據(jù)多數(shù)者投票方法決定樣本的類別完全分裂的方式隨機特征選取當特征個數(shù)M較多時隨機選擇m個用于訓(xùn)練決策樹 m越小樹的相關(guān)性越小且訓(xùn)練速度越快當特征個數(shù)M較少時可以由M個特征進行隨機線性組合來產(chǎn)生M 個擴展特征然后在 M M 上隨機選擇m個特征構(gòu)建決策樹其中每一個擴展特征的構(gòu)造如下從現(xiàn)有M特征中隨機抽取L個它們的權(quán)重系數(shù)是 1 1 區(qū)間的均勻隨機數(shù) 然后由L個已有特征線性組合出擴展特征隨機特征數(shù)的確定選擇性集成算法一方面使用更多的學(xué)習(xí)器將導(dǎo)致更大的計算和存儲開銷另一方面當個體學(xué)習(xí)器數(shù)目增加之后學(xué)習(xí)器之間的差異將越來越難以獲得因此提出問題為了達到更好的性能是否必須使用更多的個體學(xué)習(xí)器選擇性集成的理論分析選擇性集成的理論分析選擇性集成的理論分析選擇性集成的理論分析問題求解問題求解 GASEN算法論文講解基于約束投影的支持向量機選擇性集成 2009 研究題目

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)挖據(jù)技術(shù)集成學(xué)習(xí)方法(ensemblelearnig).ppt

文檔簡介

溫馨提示

最新文檔

評論

數(shù)據(jù)挖據(jù)技術(shù)集成學(xué)習(xí)方法(ensemblelearnig).ppt

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔