![不平衡學(xué)習(xí)的方法LearningfromImbalancedData_第1頁](http://file4.renrendoc.com/view/3e6d8d23ce43dc3b49e9e4bd5fc2b032/3e6d8d23ce43dc3b49e9e4bd5fc2b0321.gif)
![不平衡學(xué)習(xí)的方法LearningfromImbalancedData_第2頁](http://file4.renrendoc.com/view/3e6d8d23ce43dc3b49e9e4bd5fc2b032/3e6d8d23ce43dc3b49e9e4bd5fc2b0322.gif)
![不平衡學(xué)習(xí)的方法LearningfromImbalancedData_第3頁](http://file4.renrendoc.com/view/3e6d8d23ce43dc3b49e9e4bd5fc2b032/3e6d8d23ce43dc3b49e9e4bd5fc2b0323.gif)
![不平衡學(xué)習(xí)的方法LearningfromImbalancedData_第4頁](http://file4.renrendoc.com/view/3e6d8d23ce43dc3b49e9e4bd5fc2b032/3e6d8d23ce43dc3b49e9e4bd5fc2b0324.gif)
![不平衡學(xué)習(xí)的方法LearningfromImbalancedData_第5頁](http://file4.renrendoc.com/view/3e6d8d23ce43dc3b49e9e4bd5fc2b032/3e6d8d23ce43dc3b49e9e4bd5fc2b0325.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、不平衡學(xué)習(xí)的方法Learning from Imbalanced Data之前做二分類預(yù)測的時(shí)候,遇到了正負(fù)樣本比例嚴(yán)重不 平衡的情況,甚至有些比例達(dá)到了50:1,如果直接在此基礎(chǔ)上做預(yù)測,對于樣本量較小的類的召回率會(huì)極低,這類不平 衡數(shù)據(jù)該如何處理呢? 不平衡數(shù)據(jù)的定義顧名思義即我們的數(shù)據(jù)集樣本類別極不均衡,以二分類問題 為例,數(shù)據(jù)集中的多數(shù)類 為Smax,少數(shù)類為Smin,通常情 況下把多數(shù)類樣本的比例為100:1、1000:1,甚至是10000:1這種情況下為不平衡數(shù)據(jù)。為什么不平衡學(xué)習(xí)因?yàn)閭鹘y(tǒng)的學(xué)習(xí)方法以降低總體分類精度為目標(biāo),將所有樣 本一視同仁,同等對待,造成了分類器在多數(shù)類的分類
2、精度 較高而在少數(shù)類的分類精度很低。例如上面正負(fù)樣本50:1的例子,算法就算全部預(yù)測為另一樣本,準(zhǔn)確率也會(huì)達(dá)到 98%(50/51),因此傳統(tǒng)的學(xué)習(xí)算法在不平衡數(shù)據(jù)集中具有較 大的局限性。不平衡學(xué)習(xí)的方法解決方法主要分為兩個(gè)方面第一種方案主要從數(shù)據(jù)的角度由發(fā),主要方法為抽樣,既然我們的樣本是不平衡的,那么可以通過莫種策略進(jìn)行抽樣,從而讓我們的數(shù)據(jù)相對均衡一些;第二種方案從算法的角度由發(fā),考慮不同誤分類情況代價(jià)的差異性對算法進(jìn)行優(yōu)化,使得我們的算法在不平衡數(shù)據(jù)下 也能有較好的效果。采樣隨機(jī)采樣采樣算法通過莫一種策略改變樣本的類別分布,以達(dá)到將不 平衡分布的樣本轉(zhuǎn)化為相對平衡分布的樣本的目的,而隨
3、機(jī) 采樣是采樣算法中最簡單也最直觀易懂的一種方法。隨機(jī)采樣主要分為兩種類型,分別為隨機(jī)欠采樣和隨機(jī)過采樣兩 種。隨機(jī)欠采樣顧名思義即從多數(shù)類Smax中隨機(jī)選擇少量樣本E再合并原有少數(shù)類樣本作為新的訓(xùn)練數(shù)據(jù)集,新數(shù)據(jù)集為Smin+E ,隨機(jī)欠采樣有兩種類型分別為有放回和無放回兩種,無放回欠采樣在對多數(shù)類更樣本被采樣后不會(huì)再被重 復(fù)采樣,有放回采樣則有可能隨機(jī)過采樣則正好相反,即通過多次有放回隨機(jī)采樣從少數(shù) 類Smin中抽取數(shù)據(jù)集E,采樣的數(shù)量要大于原有少數(shù)類的 數(shù)量,最終的訓(xùn)練集為 Smax+Eo顯然,隨機(jī)采樣是通過改變多數(shù)類或者少數(shù)類的樣本比例達(dá) 到修改樣本分類分布的目的,其中也存在著諸多的問
4、題,例 如隨機(jī)欠采樣,由于丟失了一些樣本,造成一些信息的缺失, 如果未被采樣的樣本具有重要的信息呢?而過采樣擴(kuò)大了 數(shù)據(jù)集,訓(xùn)練模型的復(fù)雜度會(huì)加大,而且有可能造成過擬合 的情況。SMOTE算法SMOTE 全稱是 Synthetic Minority Oversampling Technique 即 合成少數(shù)類過采樣技術(shù),SMOTE算法的基本思想 SMOTE算法的基本思想是對少數(shù)類樣本進(jìn)行分析并根據(jù)少數(shù)類樣本人工合成新樣本添加到數(shù)據(jù)集中,具體如圖2所示,算法流程如下。對于少數(shù)類中每一個(gè)樣本x,以歐氏距離為標(biāo)準(zhǔn)計(jì)算它到少 數(shù)類樣本集Smin中所有樣本的距離,得到其 k近鄰。根據(jù)樣本不平衡比例設(shè)置一
5、個(gè)采樣比例以確定采樣倍率N ,對于每一個(gè)少數(shù)類樣本 x,從其k近鄰中隨機(jī)選擇若干個(gè)樣 本,假設(shè)選擇的近鄰為 xAo對于每一個(gè)隨機(jī)選曲的近鄰世,分別與原樣本按照如下的公式構(gòu)建新的樣本。xnew=x+rand(0,1)?(xA?x)圖2 SMOTE算法SMOTE算法挨棄了隨機(jī)采樣復(fù)制樣本的做法,使得算法的 性能有所提升,但由于每個(gè)少數(shù)樣本都會(huì)產(chǎn)生新樣本,也會(huì) 產(chǎn)生樣本重疊的問題,下面介紹其改進(jìn)算法:Borderline-SMOTE 算法在Borderline-SMOTE 中,若少數(shù)類樣本的每個(gè)樣本 xi求k 近鄰,記作Si?knn,且Si?knn屬于整個(gè)樣本集合 S而不再是 少數(shù)類樣本,若滿足k2
6、|si?knn A smax|k即k近鄰中超過一半是多數(shù)樣本。則將樣本xi力口入DANGER集合,顯然 DANGER集合代表 了接近分類邊界的樣本,將 DANGER當(dāng)作SMOTE種子樣 本的輸入生成新樣本。特別地,當(dāng)上述條件取右邊界,即 k 近鄰中全部樣本都是多數(shù)類時(shí)此樣本不會(huì)被選擇為種樣本 生成新樣本,此情況下的樣本為噪音。圖 3 Borderline-SMOTE 算法Informed Undersampling前面講了關(guān)于過采樣的的算法,那么下面就是欠采樣算法informed undersampling , informed undersampling 采樣技術(shù)主 要有兩種方法分別是 Ea
7、syEnsemble算法和BalanceCascade 算法。EasyEnsemble算法如下圖4所示,此算法類似于隨機(jī)森林的 Bagging方法,它把數(shù)據(jù)劃分為兩部分,分別是多數(shù)類樣本和少數(shù)類樣 本,對于多數(shù)類樣本 Smaj,通過n次有放回抽樣生成n份子集,少數(shù)類樣本分別和這n份樣本合并訓(xùn)練一個(gè)模型,這樣可以得到 n個(gè)模型,最終的模型是這n個(gè)模型預(yù)測結(jié)果的平均值。BalanceCascade算法是一種級(jí)聯(lián)算法,BalanceCascade從多數(shù)類 Smax中有效地選擇 N且滿 足 I N I = I Smin I ,將N和Smin合并為新的數(shù)據(jù)集進(jìn)行訓(xùn)練,新訓(xùn)練集對每個(gè)多數(shù)類樣本xi進(jìn)行預(yù)測
8、若預(yù)測對則Smax=Smaj?xi。依次迭代直到滿足莫一停止條件,最終的模 型是多次迭代模型的組合。核心思想:使用之前已形成的集成分類器來為下一次訓(xùn)練選 擇多類樣本,然后再進(jìn)行欠抽樣。代價(jià)敏感學(xué)習(xí)代價(jià)敏感學(xué)習(xí)算法(Cost-Sensitive Learning)主要從算法層面 上解決不平衡數(shù)據(jù)學(xué)習(xí),代價(jià)敏感學(xué)習(xí)方法的核心要素是代 價(jià)矩陣,我們注意到在實(shí)際的應(yīng)用中不同類型的誤分類情況 導(dǎo)致的代價(jià)是不一樣的,例如在醫(yī)療中,“將病 人誤疹為健康人”和“將健康人誤疹為病人”的代價(jià)不同,因此 我們 定義代價(jià)矩陣如下圖所示。代價(jià)矩陣代價(jià)敏感學(xué)習(xí)方法基于以上代價(jià)矩陣的分析,代價(jià)敏感學(xué)習(xí)方法主要有以下三 種實(shí)
9、現(xiàn)方式從學(xué)習(xí)模型由發(fā),著眼于對奧一具體學(xué)習(xí)方法的改造,使之 能適應(yīng)不平衡數(shù)據(jù)下的學(xué)習(xí),研究者們針對不同的學(xué)習(xí)模型 如感知機(jī),支持向量機(jī),決策 樹,神經(jīng)網(wǎng)絡(luò)等分別提由了 其代價(jià)敏感的版本。以代價(jià)敏感的決策樹為例,可從三個(gè)方 面對其進(jìn)行改進(jìn)以適應(yīng)不平衡數(shù)據(jù)的學(xué)習(xí),這三個(gè)方面分別 是決策閾值的選擇 方面、分裂標(biāo)準(zhǔn)的選擇方面、剪枝方面, 這三個(gè)方面中都可以將代價(jià)矩陣引入,具體實(shí)現(xiàn)算法可參考 參考文獻(xiàn)中的相關(guān)文章。從貝葉斯風(fēng)險(xiǎn)理論由發(fā),把代價(jià)敏感學(xué)習(xí)看成是分類結(jié)果的 一種后處理,按照傳統(tǒng)方法學(xué)習(xí)到一個(gè)模型,以實(shí)現(xiàn)損失最 小為目標(biāo)對結(jié)果進(jìn)行調(diào)整,優(yōu)化公式如下所示。此方法的優(yōu) 點(diǎn)在于它可以不依賴所用具體的分
10、類器,但是缺點(diǎn)也很明顯 它要求分類器輸由值為概率。H(x)=argmini(匯j 6 +,?P(j|xc(i,j) 從預(yù)處理的角度由發(fā),將代價(jià)用于權(quán)重的調(diào)整,使得分類器 滿足代價(jià)敏感的特性,下面講解一種基于 Adaboost的權(quán)重更 新策略。AdaCost 算法讓我們先來簡單回顧一下 Adaboost算法,如下圖6所示。Adaboost算法通過反復(fù)迭代,每一輪迭代學(xué)習(xí)到一個(gè)分類 器,并根據(jù)當(dāng)前分類器的表現(xiàn)更新樣本的權(quán)重,如圖中紅框所示,其更新策略為正確分類樣本權(quán)重降低,錯(cuò)誤分類樣 本權(quán)重加大,最終的模型是多次迭代模型的一個(gè)加權(quán)線性組 合,分類越 準(zhǔn)確的分類器將會(huì)獲得越大的權(quán)重。AdaCost算
11、法修改了 Adaboost算法的權(quán)重更新策略,其基本 思想是對于代價(jià)高的誤分類樣本大大地提高其權(quán)重,而對于 代價(jià)高的正確分類樣 本適當(dāng)?shù)亟档推錂?quán)重,使其權(quán)重降低 相對較小??傮w思想是代價(jià)高樣本權(quán)重增加得大降低得慢。其樣本權(quán)重按照如下公式進(jìn)行更新。其中B +和B ?分別表示樣本被正確和錯(cuò)誤分類情況下b的取值。Dt+1(i)=Dt(i)exp(? 民 tht(xi)yi B i)ZtB +=?0.5Ci+0.5B ?=0.5Ci+0.5不平衡學(xué)習(xí)的評價(jià)方法正確率和F值Precidsion = tp/(tp+fn)Recall = tp/(tp+fn)F-Measure = (1+ B ) 2*Re
12、call*Precision / ( B2*Recall+Precision )B取值一般為1;Accuracy = (tp+tn)/(pc+nc);ErrorRate = 1- accuracy正確率和F值的計(jì)算都是基于混淆矩陣 (Confusion Matrix) 的,混淆矩陣如下圖7所示,每行代表預(yù)測情況,每列代表 實(shí)際類別,TP,FP,FN,TN分別代表正類正確分類數(shù)量,預(yù)測 為正類但是真實(shí)為負(fù)類,預(yù)測為負(fù)類但是真實(shí)為正類,負(fù)類 正確分類數(shù)量。G-MeanG-Mean是另外一個(gè)指標(biāo),也能評價(jià)不平衡數(shù)據(jù)的模型表現(xiàn), 其計(jì)算公式如下。G?mean=TPTP+FN?TNTN+FP?卜面將會(huì)介
13、紹TP、TN等ROC曲線和AUC為了介紹ROC曲線首先引入兩個(gè)是,分別是 FP_rate和 TP_rate,它們分別表示1-負(fù)類召回率和正類召回率,顯然模型表示最好的時(shí)候 FP_rate=0且TP_rate=1,我們以FP_rate 為橫坐標(biāo),TP_rate為縱坐標(biāo)可以得到點(diǎn) (FP_rate,TP_rate), 通過調(diào) 整模型預(yù)測的閾值可以得到不同的點(diǎn),將這些點(diǎn)可 以連成一條曲線,這條曲線叫做接受者工作特征曲線(Receiver Operating Characteristic Curve ,簡稱 ROC 曲線)如 下圖8所示。顯然A點(diǎn)為最優(yōu)點(diǎn),ROC曲線越靠近A點(diǎn)代 表模型表現(xiàn)越好,曲線下面積( Area Under Curve, AUC )越 大,AUC是衡量模型表現(xiàn)好壞的一個(gè)重要指標(biāo)。ROC曲線Ps:為啥每個(gè)公式后面會(huì)有一個(gè)豎線? ? ?參考文獻(xiàn): HYPERLINK http:/www.cs.utah.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025委托招標(biāo)代理合同
- 2025【合同范本】建筑工程施工合同示本
- 2025二手空調(diào)購銷合同范本
- 長城遺址修繕方案
- 促銷活動(dòng)合同范例
- 2024年六年級(jí)品社下冊《去中學(xué)看看》說課稿2 蘇教版
- 配件報(bào)價(jià)實(shí)施方案
- 2024年五年級(jí)英語下冊 Unit 4 Did You Have a Nice Trip Lesson 19 Li Ming Goes Home說課稿 冀教版(三起)
- 貴州籠式球場護(hù)欄施工方案
- 砂石加工賬目處理方案
- 城市道路智慧路燈項(xiàng)目 投標(biāo)方案(技術(shù)標(biāo))
- 水泥采購?fù)稑?biāo)方案(技術(shù)標(biāo))
- 醫(yī)院招標(biāo)采購管理辦法及實(shí)施細(xì)則(試行)
- 初中英語-Unit2 My dream job(writing)教學(xué)設(shè)計(jì)學(xué)情分析教材分析課后反思
- 廣州市勞動(dòng)仲裁申請書
- 江西省上饒市高三一模理綜化學(xué)試題附參考答案
- 23-張方紅-IVF的治療流程及護(hù)理
- 頂部板式吊耳計(jì)算HGT-20574-2018
- 因數(shù)和倍數(shù)復(fù)習(xí)思維導(dǎo)圖
- LY/T 2986-2018流動(dòng)沙地沙障設(shè)置技術(shù)規(guī)程
- 三級(jí)教育考試卷(電工)答案
評論
0/150
提交評論