




已閱讀5頁,還剩39頁未讀, 繼續(xù)免費閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
數(shù)據(jù)挖據(jù)技術(shù)集成學習方法 ensemblelearnig 王磊 副教授 經(jīng)濟信息工程學院 2 2 第六章 集成學習方法 基本概念baggingboosting隨機森林選擇性集成方法 在機器學習中 直接建立一個高性能的分類器是很困難的 但是 如果能找到一系列性能較差的分類器 弱分類器 并把它們集成起來的話 也許就能得到更好的分類器 日常生活中 三個臭皮匠 勝過諸葛亮 便是體現(xiàn)了這種思想 集成學習的基本概念 集成學習 圖示 我們一般選定加權(quán)平均的方法來構(gòu)造集成學習的最終學習器 但是里面的每一個弱分類器 i 怎樣構(gòu)造呢 有一些研究 是針對每個學習器都不同構(gòu)的情況 比如識別一個人 一個學習器考慮臉 另一個考慮步態(tài) 另一個考慮指紋 這種研究通常稱為InformationFusion 不在我們今天討論的范疇 狹義的集成學習 ensemblelearning 是用同樣類型的學習算法來構(gòu)造不同的弱學習器的方法 集成學習 如何構(gòu)造 辦法就是改變訓練集 通常的學習算法 根據(jù)訓練集的不同 會給出不同的學習器 這時就可以通過改變訓練集來構(gòu)造不同的學習器 然后再把它們集成起來 集成學習 如何構(gòu)造 在原來的訓練集上隨機采樣 可以得到新的訓練集 隨機采樣 集成學習 EnsembleLearning 是一種機器學習方法 它使用多個 通常是同質(zhì)的 學習器來解決同一個問題 集成學習中使用的多個學習器稱為個體學習器當個體學習器均為決策樹時 稱為 決策樹集成 當個體學習器均為神經(jīng)網(wǎng)絡(luò)時 稱為 神經(jīng)網(wǎng)絡(luò)集成 集成學習的定義 由于集成學習技術(shù)可以有效地提高學習系統(tǒng)的泛化能力 因此它成為國際機器學習界的研究熱點 并被國際權(quán)威T G Dietterich稱為當前機器學習四大研究方向之首 T G Dietterich AIMag97 問題 對20維超立方體空間中的區(qū)域分類左圖中縱軸為錯誤率從上到下的四條線分別表示 平均神經(jīng)網(wǎng)絡(luò)錯誤率最好神經(jīng)網(wǎng)絡(luò)錯誤率兩種神經(jīng)網(wǎng)絡(luò)集成的錯誤率令人驚奇的是 集成的錯誤率比最好的個體還低 L K Hansen P Salamon TPAMI90 集成學習的重要性 集成學習技術(shù)已經(jīng)在行星探測 地震波分析 Web信息過濾 生物特征識別 計算機輔助醫(yī)療診斷等眾多領(lǐng)域得到了廣泛的應(yīng)用 只要能用到機器學習的地方 就能用到集成學習 集成學習的應(yīng)用 如何構(gòu)建好的集成 既然多個個體的集成比單個個體更好 那么是不是個體越多越好 更多的個體意味著 在預(yù)測時需要更大的計算開銷 因為要計算更多的個體預(yù)測更大的存儲開銷 因為有更多的個體需要保存 個體的增加將使得個體間的差異越來越難以獲得 個體越多越好嗎 集成策略 有多種策略可以將q個弱分類器組合成集成分類器 集成策略 從大小為n的原始數(shù)據(jù)集D中獨立隨機地抽取n 個數(shù)據(jù) n n 形成一個自助數(shù)據(jù)集 重復(fù)上述過程 產(chǎn)生出多個獨立的自助數(shù)據(jù)集 利用每個自助數(shù)據(jù)集訓練出一個 分量分類器 最終的分類結(jié)果由這些 分量分類器 各自的判別結(jié)果投票決定 基本思想 對訓練集有放回地抽取訓練樣例 從而為每一個基本分類器都構(gòu)造出一個跟訓練集相當大小但各不相同的訓練集 從而訓練出不同的基本分類器 該算法是基于對訓練集進行處理的集成方法中最簡單 最直觀的一種 Bagging算法 Bagging算法 Boosting算法 Boosting流程描述 Step1 原始訓練集輸入Step2 計算訓練集中各樣本的權(quán)重Step3 采用已知算法訓練弱學習機 并對每個樣本進行判別Step4 計算對此次的弱學習機的權(quán)重Step5 轉(zhuǎn)到Step2 直到循環(huán)到達一定次數(shù)或者某度量標準符合要求Step6 將弱學習機按其相應(yīng)的權(quán)重加權(quán)組合形成強學習機 核心思想 樣本的權(quán)重沒有先驗知識的情況下 初始的分布應(yīng)為等概分布 也就是訓練集如果有N個樣本 每個樣本的分布概率為1 N每次循環(huán)一后提高錯誤樣本的分布概率 分錯樣本在訓練集中所占權(quán)重增大 使得下一次循環(huán)的弱學習機能夠集中力量對這些錯誤樣本進行判斷 弱學習機的權(quán)重準確率越高的弱學習機權(quán)重越高循環(huán)控制 損失函數(shù)達到最小在強學習機的組合中增加一個加權(quán)的弱學習機 使準確率提高 損失函數(shù)值減小 簡單問題演示 Boosting訓練過程 算法 boosting數(shù)學描述 訓練集 x1 y1 x2 y2 xN yN xi Rm yi 1 1 Dt為第t次循環(huán)時的訓練樣本分布 每個樣本在訓練集中所占的概率 Dt總和應(yīng)該為1 ht X 1 1 為第t次循環(huán)時的Weaklearner 對每個樣本給出相應(yīng)的假設(shè) 應(yīng)該滿足強于隨機猜測 wt為ht的權(quán)重為t次循環(huán)得到的Stronglearner 樣本權(quán)重 思想 提高分錯樣本的權(quán)重反映了stronglearner對樣本的假設(shè)是否正確采用什么樣的函數(shù)形式 弱學習機權(quán)重 思想 錯誤率越低 該學習機的權(quán)重應(yīng)該越大為學習機的錯誤概率采用什么樣的函數(shù)形式 和指數(shù)函數(shù)遙相呼應(yīng) AdaBoost算法 25 Adaboost訓練過程 26 Adaboost訓練過程 27 Adaboost訓練過程 Adaboost的缺點 隨機森林算法 隨機森林算法是LeoBreiman于2001年提出的一種新型分類和預(yù)測模型 它具有需要調(diào)整的參數(shù)少 不容易過度擬合 分類速度快 能高效處理大樣本數(shù)據(jù)等特點 Bagging和AdaBoost等方法只是通過改變樣本的權(quán)重來獲得不同的弱分類器 隨機森林 RF 則通過同時改變樣本和特征子集來獲得不同的弱分類器 隨機森林算法 隨機森林是采用隨機的方式建立一個森林 森林有很多決策樹組成 每棵決策樹之間沒有關(guān)聯(lián) 對于新的測試樣本 讓森林中的每一棵決策樹分布分別進行一下判斷 依據(jù)多數(shù)者投票方法決定樣本的類別 完全分裂的方式 隨機特征選取 當特征個數(shù)M較多時 隨機選擇m個用于訓練決策樹 m越小 樹的相關(guān)性越小 且訓練速度越快 當特征個數(shù)M較少時 可以由M個特征進行隨機線性組合來產(chǎn)生M 個擴展特征 然后 在 M M 上隨機選擇m個特征 構(gòu)建決策樹 其中 每一個擴展特征的構(gòu)造如下 從現(xiàn)有M特征中隨機抽取L個 它們的權(quán)重系數(shù)是 1 1 區(qū)間的均勻隨機數(shù) 然后 由L個已有特征線性組合出擴展特征 隨機特征數(shù)的確定 選擇性集成算法 一方面 使用更多的學習器將導致更大的計算和存儲開銷 另一方面 當個體學習器數(shù)目增加之后 學習器之間的差異將越來越難以獲得 因此 提出問題 為了達到更好的性能 是否必須使用更多的個體學習器 選擇性集成的理論分析 選擇性集成的理論分析 選擇性集成的理論分析 選擇性集成的理論分析 問題求解 問題求解 GASEN算法 論文講解 基于約束投影的支持向量機選擇性集成 2009 研究題目
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 員工責任心心得體會(6篇)
- 學期末文藝部個人工作總結(jié)(3篇)
- 計算機科學管理與策略考試考題及答案
- 計算機圖形建模技術(shù)試題及答案
- 面對未來的抉擇與行動-高考作文考試試題及答案
- 面對挑戰(zhàn)的高考作文試題與答案
- 可穿戴醫(yī)療設(shè)備市場前景分析:2025年技術(shù)創(chuàng)新與需求驅(qū)動報告
- 2025年藝術(shù)教育市場素質(zhì)教育課程體系建設(shè)與品牌競爭力研究報告
- 2025年軟件考試題目及其解答
- 門面認購協(xié)議書
- 2025年保密觀知識競賽題庫及答案(各地真題)含答案詳解
- 建筑規(guī)范學習培訓課件
- 洗衣員工合同協(xié)議書
- 終止采購合同協(xié)議書
- 機械答辯試題庫及答案
- 中國成人呼吸系統(tǒng)疾病家庭氧療指南(2024年)解讀課件
- 電站運行考試題及答案
- 2025-2030中國靜脈曲張治療行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略研究報告
- GB/T 12008.7-2025塑料聚氨酯生產(chǎn)用聚醚多元醇第7部分:堿性物質(zhì)含量的測定
- 封隔器加工合同協(xié)議
- 2025年全國國家版圖知識競賽(中小學組)題庫
評論
0/150
提交評論