




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
集成學習方法范文集成可以說是現(xiàn)在非?;鸨臋C器了。它本身不是一個單獨的機器學習算法,而是通過構建并結合多個機器學習器來完成學習任務。接下來搜集了集成學習方法,僅供大家參考。集成學習是機器學習算法中非常強大的工具,有人把它稱為機器學習中的“屠龍刀”,非常萬能且有效,在各大機器學習、數(shù)據(jù)挖掘競賽中使用非常廣泛。它的思想非常簡單,集合多個模型的能力,到達“三個臭皮匠,賽過諸葛亮”的效果。集成學習中概念是很容易理解的,但是好似沒有同一的術語,很多書本上寫得也不一樣,越看越模糊。這里我把集成學習分為兩個大類,第一大類稱為模型融合,與臺大機器學習技法課上的blending概念相似,模型融合其實是個再學習的過程。第一步是訓練出多個不同的強學習器,然后考慮如何將這多個學習器組合起來,更進一步提高性能。第二大類稱為機器學習元算法,這類算法本身就是多模型組合的結果,只是元算法中的基算法(basealgorithm一般會比擬弱),稱為弱模型的組合,例如RF、GDBT。實際中,我們總可以根據(jù)實際問題,訓練出多個功能強大學習器,為了進一步提高學習器的能力,可以嘗試將這些學習組合起來,這個過程就是模型融合。一般來說模型能在一定程度上提高性能,有時使模型的預測能力更加強大,有時增加模型的泛化能力,顯而易見的害處是多模型的學習加上再學習的過程會增加計算的代價。模型融合在競賽中十分常見,屢試不爽,融合方法恰當,一般能提高成績。1.1常用的獲得不同模型的方法由于不同的訓練模型得到不同的模型,例如處理分類的LR、SVM、RF等由于同一訓練模型調(diào)節(jié)不同參數(shù)獲得不同的模型,例如GDBT中迭代次數(shù),每個樹的復雜度等有些算法本身就有一定的隨機性,如PLA由于訓練數(shù)據(jù)不同得到不同的模型,如穿插驗證、隨機抽樣上面這些生成不同模型可以組合生成更多不同的模型,比擬常用的是最前面的兩個1.2模型融合的方法通過驗證(validation)的方式,從第一步中訓練出的多個模型中挑選最正確的模型,作為最終的模型。這種方式必須要驗證,不同使Ein最小,否那么很容易過擬合。統(tǒng)一融合(Uniformblending),分類時使用一人一票的投票方式,回歸時使用多個模型的平均值。這種方式的優(yōu)點是一般泛化能力會得到加強,但是只能保證比那些模型中最差的模型要好,不能保證能得到比那些不同模型中的最好的模型要好線性融合(Linearblending),二次學習,使用線性模型將第一步中學習到的學習器組合起來,用得好可以提高模型性能,但是要注意有過擬合的風險。堆融合(Anyblending、stacking),任何其它非線性模型將那些學習器組合起來,有過擬合的風險,注意驗證。模型融合在實際中十分常見,下面是臺大在xxKDDCup獲得冠軍時使用的模型融合方法,先用了anyblending(stacking)處于領先群的位置,最后的linearblend使得臺大獲得冠軍。機器學習元算法分為兩類:Averagingmethods和BoostingmethodsAveragingmethods核心是引入隨機(對樣本、特征屬性隨機取樣)學習產(chǎn)生多個獨立的模型,然后平均所有模型的預測值。一般而言,這種方法,會減小方差(variance),不太會過擬合。主要包括bagging、RF。Boostingmethods逐步加強方法,該方法集合學習多個模型,提高模型的準確率。不同的是,它是基于前面模型的訓練結果(誤差),生成新的模型,從而減小偏差(bias)。一般而言,這種方法會比上者的準確率高一點,但是也不是絕對的。它的缺點是有過擬合的風險,另外,由于它每個模型是“序列化”(有前后關系)產(chǎn)生的,不易并行化。它的代表是AdaBoost、GDBT。2.1BaggingBagging在原始樣本中隨機抽樣獲取子集,用隨機抽樣的子集訓練基學習器(baseestimator),然后對每個基學習器的結果求平均,最終得到的預測值。隨機獲取樣本子集的方法有很多中,最常用的是有放回抽樣的booststrap,也可以是不放回的抽樣?;鶎W習器可以是相同的模型,也可以是不同的,一般使用的是同一種基學習器,最常用的是DT決策樹。由于bagging提供了一種降低方差(variance)的方式,所以一般會使用比擬強、復雜的基學習器模型(e.g.fullydevelopeddecisiontrees),作為比照在boosting方法中會使用非常弱的基學習器模型(e.g.shallowdecisiontrees)。在sklearn中實現(xiàn)了基于bagging的分類和回歸方法,主要設置參數(shù)為基學習器的類型、迭代次數(shù)(子模型的個數(shù))、獲取訓練子集的方式。由于bagging訓練每個模型可以并行,還可以設置njobs訓練模型使用的多少個cpu核。2.2隨機森林(RF)RF在實際中使用非常頻繁,其本質(zhì)上可bagging并無不同,只是RF更詳細一些。一般而言可以將RF理解為bagging和DT(CART)的結合。RF中基學習器使用的是CART樹,由于算法本身能降低方差(variance),所以會選擇完全生長的CART樹。抽樣方法使用bootstrap,除此之外,RF認為隨機程度越高,算法的效果越好。所以RF中還經(jīng)常隨機選取樣本的特征屬性、甚至于將樣本的特征屬性通過映射矩陣映射到隨機的子空間來增大子模型的隨機性、多樣性。RF預測的結果為子樹結果的平均值。RF具有很好的降噪性,相比單棵的CART樹,RF模型邊界更加平滑,置信區(qū)間也比擬大。一般而言,RF中,樹越多模型越穩(wěn)定。2.3AdaBoostAdaBoost是一種Boosting方法,與Bagging不同的是,Adaboost中不同的子模型必須是串行訓練獲得的,每個新的子模型都是根據(jù)已訓練出的模型性能來進展訓練的,而且Boosting算法中基學習器為弱學習。弱學習器可以理解為只比隨機猜想好一點,在二分類情況下,錯誤率略低0.5即可,實際中常使用smalldecisiontrees。AdaBoost中每個訓練樣本都有一個權重,這些權重構成了一個向量W,初始值都為為Wi=1/N。Adaboost中每次迭代生成新的子模型使用的訓練數(shù)據(jù)都相同,但是樣本的權重會不一樣。AdaBoost會根據(jù)當前的錯誤率,增大錯誤樣本權重,減小正確樣本權重的原那么更新每個樣本的權重。不斷重復訓練和調(diào)整權重,直到訓練錯誤率或弱學習器的個數(shù)滿足用戶指定的值為止。Adaboost的最終結果為每個弱學習器加權的結果。使用sklearn中的Adaboot時,主要調(diào)節(jié)的參數(shù)有nestimator(多少棵樹)、maxdepth(每棵樹的深度。復雜度)或者minsamplesleaf(最少的葉子節(jié)點)。2.4GDBTGDBT也是一種Boosting方法,每個子模型是根據(jù)已訓練出的學習器的性能(殘差)訓練出來的,子模型是串行訓練獲得,不易并行化。GDBT使用非常廣泛的,能分類,能回歸預測。GDBT基于殘差學習的算,沒有AdaBoost中的樣本權重的概念。GDBT結合了梯度迭代和回歸樹,準確率非常高,但是也有過擬合的風險。GDBT中迭代的殘差的梯度,殘差就是目前結合所有得到的訓練器預測的結果與實際值的差值,不理解可以參考另一篇博客,里面有一個實例介紹如何基于殘差來學習預測人的年齡。GDBT的使用也非常的簡單,主要調(diào)節(jié)的參數(shù)有確定需要多少棵樹(nestimator)、每棵樹的復雜度(maxdepth,maxleafnode)、損失函數(shù)(loss)以及學習率(learningrating)。為了防止過擬合一般學習率會選小一點的(<0.1),learningrate會影響nestimator,需要權衡,選擇最正確的組合參數(shù)。集成學習概述從下列圖,我們可以對集成學習的思想做一個概括。對于訓練集數(shù)據(jù),我們通過訓練假設干個個體學習器,通過一定的結合策略,就可以最終形成一個強學習器,以到達博采眾長的目的。也就是說,集成學習有兩個主要的問題需要解決,第一是如何得到假設干個個體學習器,第二是如何選擇一種結合策略,將這些個體學習器集合成一個強學習器。集成學習之個體學習器上一節(jié)我們講到,集成學習的第一個問題就是如何得到假設干個個體學習器。這里我們有兩種選擇。第一種就是所有的個體學習器都是一個種類的,或者說是同質(zhì)的。比方都是決策樹個體學習器,或者都是神經(jīng)網(wǎng)絡個體學習器。第二種是所有的個體學習器不全是一個種類的,或者說是異質(zhì)的。比方我們有一個分類問題,對訓練集采用支持向量機個體學習器,邏輯回歸個體學習器和樸素貝葉斯個體學習器來學習,再通過某種結合策略來確定最終的分類強學習器。目前來說,同質(zhì)個體學習器的應用是最廣泛的,一般我們常說的集成學習的方法都是指的同質(zhì)個體學習器。而同質(zhì)個體學習器使用最多的模型是CART決策樹和神經(jīng)網(wǎng)絡。同質(zhì)個體學習器按照個體學習器之間是否存在依賴關系可以分為兩類,第一個是個體學習器之間存在強依賴關系,一系列個體學習器根本都需要串行生成,代表算法是boosting系列算法,第二個是個體學習器之間不存在強依賴關系,一系列個體學習器可以并行生成,代表算法是bagging和隨機森林(RandomForest)系列算法。下面就分別對這兩類算法做一個概括總結。集成學習之boostingboosting的算法原理我們可以用一張圖做一個概括如下:從圖中可以看出,Boosting算法的工作機制是首先從訓練集用初始權重訓練出一個弱學習器1,根據(jù)弱學習的學習誤差率表現(xiàn)來更新訓練樣本的權重,使得之前弱學習器1學習誤差率高的訓練樣本點的權重變高,使得這些誤差率高的點在后面的弱學習器2中得到更多的重視。然后基于調(diào)整權重后的訓練集來訓練弱學習器2.,如此重復進展,直到弱學習器數(shù)到達事先指定的數(shù)目T,最終將這T個弱學習器通過集合策略進展整合,得到最終的強學習器。Boosting系列算法里最著名算法主要有AdaBoost算法和提升樹(boostingtree)系列算法。提升樹系列算法里面應用最廣泛的是梯度提升樹(GradientBoostingTree)。AdaBoost和提升樹算法的原理在后面的文章中會專門來講。集成學習之baggingBagging的算法原理和boosting不同,它的弱學習器之間沒有依賴關系,可以并行生成,我們可以用一張圖做一個概括如下:從上圖可以看出,bagging的個體弱學習器的訓練集是通過隨機采樣得到的。通過T次的隨機采樣,我們就可以得到T個采樣集,對于這T個采樣集,我們可以分別獨立的訓練出T個弱學習器,再對這T個弱學習器通過集合策略來得到最終的強學習器。對于這里的隨機采樣有必要做進一步的介紹,這里一般采用的是自助采樣法(Bootstapsampling),即對于m個樣本的原始訓練集,我們每次先隨機采集一個樣本放入采樣集
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- T-ZNZ 264.2-2024 重金屬中度污染農(nóng)田土壤修復和安全利用技術規(guī)范 第2部分:超積累東南景天與中稻輪作
- T-ZZB 3744-2024 制革用陰離子型磺化油
- T-ZMDS 20008-2024 醫(yī)療器械嵌入式軟件漏洞評估方法
- 2025年度解除農(nóng)業(yè)合作項目的聲明書
- 二零二五年度綠化苗木購銷與城市綠化養(yǎng)護服務合同
- 二零二五年度實習教師與教育機構教育咨詢服務合同
- 二零二五年度共享住宅租賃正規(guī)協(xié)議書范本及環(huán)保要求
- 二零二五年度勞動合同主體變更及培訓交接服務合同
- 2025年度水產(chǎn)養(yǎng)殖水質(zhì)改良與養(yǎng)魚合同
- 二零二五年度人社部員工勞動合同勞動合同電子簽名與認證合同
- 醫(yī)院安全風險分級管控清單
- 高級服裝設計與面料
- 次梁與主梁鉸接計算程式
- 學前比較教育(學前教育專業(yè))第3版全套教學課件
- 企業(yè)人力資源內(nèi)部審核檢查表
- 《素描》課件-第一章 素描入門
- GB/T 42828.1-2023鹽堿地改良通用技術第1部分:鐵尾砂改良
- 工資條(標準模版)
- 第四講 搜索引擎檢索
- 法語的發(fā)音規(guī)則及法語單詞分類記憶
- 衛(wèi)生和微生物基礎知識培訓-
評論
0/150
提交評論