不平衡數(shù)據(jù)集的代價敏感學(xué)習(xí)方法外文翻譯_第1頁
不平衡數(shù)據(jù)集的代價敏感學(xué)習(xí)方法外文翻譯_第2頁
不平衡數(shù)據(jù)集的代價敏感學(xué)習(xí)方法外文翻譯_第3頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、不平衡數(shù)據(jù)集的代價敏感學(xué)習(xí)方法Nguye n Thai-Nghe, Zeno Gantner, and Lars Schmidt-Thieme, Member, IEEE摘要:類不平衡對于機(jī)器學(xué)習(xí)算法是一個挑戰(zhàn)性的問題。當(dāng)從高度不平衡的數(shù)據(jù)中學(xué)習(xí),大多數(shù)分類將被多數(shù)類的例子所壓倒,所以漏報率總是很高。盡管研究人員已經(jīng)介紹了很多的方法來處理這個問題,包括重采樣技術(shù)和成本敏感的學(xué)習(xí)(CSL),其中大多數(shù)是集中在這些技術(shù)的一種。這項研究提出了兩種實證方法處理同時使用重采樣和 CSL的類不平衡。第一種方法將幾種采樣技術(shù)與使用支持向量機(jī)(SVM )的CSL進(jìn)行結(jié)合、比較。第二種方法建議通過本地優(yōu)化的成本

2、比率(成本矩陣)使用CSL。我們的實驗結(jié)果關(guān)于來自于 UCI資料庫的18不平衡數(shù)據(jù)集表明,第一種方法可以減少誤分類成本,而第二種方法可以提高 分類器的性能。一、緒論二元分類問題中,類不平衡可描述為多數(shù)類通過一個重要因素在數(shù)量上超過了少數(shù)類。 這種現(xiàn)象出現(xiàn)在許多機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘應(yīng)用,如信用卡欺詐檢測,入侵檢測,溢油檢測, 疾病診斷和許多其他領(lǐng)域。多數(shù)分類器在監(jiān)督機(jī)器學(xué)習(xí)中被設(shè)計以最大限度地提高他們的模 型的準(zhǔn)確性。因此,當(dāng)從不平衡數(shù)據(jù)中學(xué)習(xí),它們通常被多數(shù)類的例子所壓倒。降低這樣的分類(1, 2)的性能是最主要的問題。它也被認(rèn)為是數(shù)據(jù)挖掘研究3中的10個具有挑戰(zhàn)性的問題之一。研究人員已經(jīng)推出了

3、許多技術(shù)來處理類不平衡,如總結(jié)1和2。他們大多集中在數(shù)據(jù)層面對操縱(重采樣的方法),數(shù)據(jù)層如4,5,6,7,8,9,10中和分類層(內(nèi) 部改變分類器),例如在11,12,13,14,15,16,17,18中。一個相關(guān)的問題是成本敏感型的學(xué)習(xí)(CSL)。過去,有不少出版物已將CSL應(yīng)用于決策樹(19,20,21,22)或樸素貝葉斯(23 , 24)。此外,為了理解類失衡如何影 響CSL,一些作者CSL( 21,25)申請時,分析分類器的行為(例如 C4.5算法)。以前 的作品還將在數(shù)據(jù)層的操作與分類層的修改(26,27,28)結(jié)合起來。雖然許多論文已經(jīng)寫了類不平衡問題,他們大多集中于兩種重采樣技

4、術(shù)或CSL。我們的貢獻(xiàn)包括同時利用重采樣技術(shù)和CSL兩種方法。第一種方法中將幾種采樣技術(shù)與使用SVM作為基礎(chǔ)分類CSL進(jìn)行了結(jié)合與比較。具體而言,在組合的第一步驟中,我們通過使用一些重采樣技術(shù),如TLINK,RUS,ROS, SMOTE(我們將在下一節(jié)中解釋這些方法)重新平衡數(shù)據(jù)集,下一步,我們訓(xùn)練有素的SVM模型對這些數(shù)據(jù)集重新平衡。一步,我們訓(xùn)練SVM模型在數(shù)據(jù)集重新平衡。SVM的產(chǎn)出由S型函數(shù)進(jìn)行擬合,依賴于由普拉特29得到的概率的方法。最后,使用貝葉斯風(fēng)險(有條件的風(fēng)險)標(biāo)準(zhǔn)得到最低預(yù)期成本的最終的模型。CSL的第二種方法不是假設(shè),我們知道在第一方法中學(xué)習(xí)前的成本比(或成本矩陣)和以往

5、其他工作(30,21,25)或設(shè)置的成本比通過對以往類分類的反轉(zhuǎn),我們把這個數(shù)字視為一個超參數(shù),優(yōu)化本地,然后訓(xùn)練的最終模型。我們的實驗關(guān)于來自UCI的18不平衡數(shù)據(jù)集表明這些方法是有用的。第一種方法有助于減少誤分類成本而第二個方法有助于 改善分類器的性能(例如GMean度量)。剩下的紙張安排如下:第二部分介紹了一些相關(guān)的工作;在第三部分中,我們總結(jié)了一些通常是用來處理類失衡問題常見的技術(shù);第四部分介紹了所提出的方法;第五部分介紹了數(shù)據(jù)集;第六節(jié)顯示了實驗結(jié)果;最后,第七節(jié)是結(jié)論。二、相關(guān)工作已被引入許多采樣技術(shù)包括啟發(fā)式或非啟發(fā)式過采樣(4 , 5),欠采樣(6 , 7),和數(shù)據(jù)清洗規(guī)則,如

6、消除“噪音”和“邊緣”的例子(8910)。這些工作重點在于數(shù)據(jù)層技術(shù)。其他研究人員集中于改變內(nèi)部的分類, 例如支持向量機(jī),來處理類的不平衡,例如11, 12,13 ; 14采用集成學(xué)習(xí)來處理類的不平衡,而 15欠采樣與集成方法結(jié)合起來; 16 著重于將不同的再平衡啟發(fā)式算法合并進(jìn) SVM來解決不平衡類問題,而17和18,將SVM 納入增升的方法。在CSL,20介紹一個實例-用加權(quán)的方法誘發(fā)成本敏感的樹;另外兩種方法調(diào)查帶有 決定樹的CSL (22, 23),而24介紹了樸素貝葉斯的 CSL。這些研究引入了確定未知屬性 如何選擇進(jìn)行測試的測試方案,為了盡量減少誤分類成本和測試成本的總和。此外,第

7、一 26應(yīng)用少數(shù)合成過采樣技術(shù)(SM0TE4)以平衡數(shù)據(jù)集,然后使用不同 成本的SVM建立的模型被提出13 ; 2728應(yīng)用一些常見的分類器(例如 C4.5,logistic 回歸,貝氏機(jī)率)與采樣技術(shù),如隨機(jī)欠采樣,隨機(jī)過采樣,簡明最近鄰規(guī)則8,威爾遜的編輯最近鄰規(guī)則10,特梅克的鏈接9,和SMOTE。不同與文獻(xiàn),不是只專注于數(shù)據(jù)采樣或CSL,我們建議使用這兩種技術(shù)。此外,我們不承擔(dān)固定成本比,既沒有通過反轉(zhuǎn)先驗分布的少數(shù)和多數(shù)類之間比例設(shè)置成本比,相反, 我們在本地優(yōu)化成本比。三、處理類失衡為了處理不平衡數(shù)據(jù)集,研究人員常常集中于數(shù)據(jù)層和分類層(1 , 2)。在數(shù)據(jù)層,共同的任務(wù)是類別分配

8、的修改。 在分類級別許多技術(shù)被引入, 如內(nèi)部操縱分類器, 一個類的 學(xué)習(xí),集成學(xué)習(xí),和 CSL。A. 修改類的分類隨機(jī)過采樣(ROS)是一個用于平衡類分配非啟發(fā)式的方法1,通過隨機(jī)復(fù)制少數(shù)類的例子,而隨機(jī)欠采樣(RUS )隨機(jī)地省去了多數(shù)類的例子。簡明最近鄰規(guī)則(CNN ) 8是用來尋找一致的例子的子集。如果使用1近鄰分類一個AA子集E E與E是一致的,E在E中正確分類的例子。威爾遜的編輯最近鄰規(guī)則(ENN ) 10刪除任何一類標(biāo)簽實例不同于三個最近鄰中的至少兩個類。特梅克鏈接(TLINK ) 9是一種用于清洗數(shù)據(jù)的方法。給出兩個屬于不同類的兩個例子 e e , d ( e ,e)是 e 和

9、子已爲(wèi) 依閒孑創(chuàng)e的距離。若沒有例子e如【環(huán)勺丿一對(e , ej )被稱作TLINK。如果有一個2個例子之間的TLINK,然后其中之一是噪聲或它們兩者都是邊界線的例子。我們要 使用TLINK作為欠采樣方法,那么僅有的大部分例子都被刪除。單面選擇(OSS) 33是一個首先套用 CNN找到一個相一致的子集的欠采樣的方法, 然后TLINK去除噪聲和邊緣的例子。人造少數(shù)過采樣技術(shù) (SMOTE )是一個通過4產(chǎn)生一個新的人造少數(shù)例子來介紹過采 樣的方法,通過在少數(shù)例子之間插值。此方法首先在近鄰各少數(shù)民族的例子中查找k;接下來,它會隨機(jī)選擇一個最近的鄰居。然后創(chuàng)建一個新的少數(shù)類樣本沿著線段加入少數(shù)類樣

10、本 和其最近的鄰居。B、成本敏感性學(xué)習(xí) (CSL)大多數(shù)分類器假定的誤分類成本(假陰性和假陽性的成本)是相同的。在大多數(shù)現(xiàn)實世 界的應(yīng)用中,這種假設(shè)是不正確的。例如,在客戶關(guān)系管理,郵寄給買家的費(fèi)用低于成本不郵寄給購房者19;或誤判非恐怖恐怖的成本遠(yuǎn)遠(yuǎn)低于實際恐怖分子攜帶炸彈飛行誤判的 成本。另一個例子是癌癥診斷:比誤判誤報嚴(yán)重得多,因為由于晚的診斷和治療34癌癥患者可能會失去他們的生命。成本不一定是金錢,例如它可以是一個時間的浪費(fèi)或嚴(yán)重程度的 病癥30。本研究著重于二元分類問題;我們將表示陽性類(+或+1)作為少數(shù), 和陰性類(或1) 作為大多數(shù)。設(shè) c(i, j)是成本預(yù)測的例子屬于i類的

11、時候,其實它屬于j類;成本矩陣被 定義于表I。TABLE ICost matrixPrcdiclcd classPmiliveNegative+Negative6已-)給定的成本矩陣,如示例準(zhǔn)則:(有條件的風(fēng)險):x可以被分類為類別i的預(yù)期成本最小,通過使用貝葉斯風(fēng)險arg Ulin 丫|1 )其中,P (j|X)是X作為j類分類例子的后驗概率。假設(shè)我們沒有正確分類的成本, 所以說成本矩陣可由成本比描述:CostHatio = C(=十)/(7(十,一)(2)CSL的目的是建立一個模型,具有最小的誤分類成本(總成本):TotalCosi = C(-, +) x + C(+*)x #FP (3)

12、# FN和FP#數(shù)量分別為假陰性和假陽性的例子。四、推薦的方法建議的方法在 4小節(jié)中描述:我們使用支持向量機(jī)( SVM )作為基礎(chǔ)分類。使用網(wǎng)格 搜索,以確定最佳的超 SVM和的esampling技術(shù)。方法1:采樣技術(shù)與CSL的組合,稱為 S-CSL。方法2:通過優(yōu)化本地成本比 使用CSL,稱作CSL-OCRL。A、支持向量機(jī)(SVM )由n個例子(xi; yi )給定的數(shù)據(jù)集 D,其中X己X是輸入功能和、y是目標(biāo)類、y -1,1。 SVM預(yù)測一個新的例子 x通過其中k(x, xi)是一個核心函數(shù),b是偏置,i被確定用來解決拉格朗日優(yōu)化問題,lp =nnn刀& 一刀街側(cè)(矢期+卩-I島iii(

13、5)這里是一個差額變數(shù),7是拉格朗日乘數(shù), C是用戶指定的超參數(shù)來表示誤分類訓(xùn)練例子的懲罰。兩種常用的核函數(shù)有多(6)對于非線形問題,核k用來最大限度地提高利潤率分類超平面。項式核ib(x)xi) = (tx - xi + r)p和徑向基函數(shù)的內(nèi)核B.超參數(shù)搜索我們已搜索的最佳超參數(shù) C,指數(shù)p,在方程(5), ( 6), ( 7)。首先,“原始搜索”兩 個權(quán)力是用來識別一個很好的區(qū)域,然后“順利搜索”圍繞該地區(qū)進(jìn)行35。圖1描述了該方法的細(xì)節(jié)。此外,每個數(shù)據(jù)集有其自身的結(jié)構(gòu),所以欠采樣和過采樣的百分比也不同。這些百分比也被視為超參數(shù)。對于過采樣,我們搜索的百分比從50,100, 150兩個類

14、之間的均衡分布。同樣,對于欠采樣,我們還可以搜索的百分比從10, 20, 30均衡分布。I: prtK vdurv HYPERSEARrn/ rn,E. A, A)rerurns the beat hyperpurctmeierx H for evaL mertic E空:(Lefatrrirn - Holdout) Train 仏pbt twC/Raw search:3: beatC. be.at 04: for i *15+ .11) do5:j 15, .,0 do6:了:buildLoealS jV(P;Fmi j咼町學(xué) C)民Teat Local MottelHoidoui I 她昨

15、 ertx 匕9:Update bestC-t bcatio:end fur11: end tiir/Smotfih setiFih:12: for i i betitC 1: * fer-fiC + L atep d du13:(or j bfAt (). 1, h, H,應(yīng)創(chuàng)爭 + (LI, X di)14:j; C m i15:buildLocal ST Al Train “ G16:Tt st Local M odrtT)p 忸e17:F? L .節(jié) 肌:pdak Ute twl pMrntflrr whtIB:end fur 19: end ftir2Q:rchin* H 21: e

16、nd procedure圖1超參數(shù)搜索優(yōu)化度量 E的- -步是 C值和- -步是 RBF內(nèi)核價值C. 方法1:結(jié)合采樣與 CSL (S-CSL)1我們將4種重采樣技術(shù)與使用標(biāo)準(zhǔn)的SVMS的CSL結(jié)合起來。這些技術(shù)包括非啟發(fā)式(RUS , ROS)和啟發(fā)式欠-過采樣(TLINK , SMOTE )。在第一步驟中,我們把原始數(shù)據(jù)集分為兩個獨(dú)立的訓(xùn)練集和測試集;然后,不同的采樣百分比的4種采樣技術(shù)I |X-被應(yīng)用在訓(xùn)練上產(chǎn)生新的分布;接下來,我們進(jìn)行新的培訓(xùn)集超參數(shù)搜索(見圖1),就總成本(TC)而言,以確定最佳的參數(shù);在下一步,支持向量 機(jī)是基于最佳超參數(shù)發(fā)現(xiàn)的。支持向量機(jī)的輸出均設(shè)有了S型函數(shù)2

17、以得到后驗概率;最后,我們在測試集使用貝葉斯風(fēng)險標(biāo)準(zhǔn)來預(yù)測新的例子。詳細(xì)描述在圖2中,平均5倍交叉驗證結(jié)果。大多數(shù)數(shù)據(jù)集不具有的成本比,所以我們假設(shè)成本比率來自于集合,報告的最終結(jié)果的平均值為這些比率的誤分類成本。這也可以在其他許多研究(30,21 , 25)。1、我們已經(jīng)使用 Weka 中的 SMO,http:/www.cs.waikato.ac.nz/ml/weka/2、 S型函數(shù)有2個參數(shù):和這些值可以是通過使用最大似然法29,但對于直接的確定,我們 將它們設(shè)置為1t: procedure S-CSL(P.C)Input: Dataset P and cost matrix COutpu

18、t: Label for hf怦 example j *2:) * D/split fur 5-fold CV3: Djy 皿 * Oc ncr(l t cUistribu t t(rTI(TraiTi )4: R汕IhrSearehTr. TC, 0,25,0.01)/TL25 aind 0.01 afc iritiiease-stcp of C nd y in RBF kcniiel5z Z/Tniin SVM miMkl with piinunclcr urin/(x) 1 工Xi) + bi l6:Z/Fimiis a “甘muitl fmicbon lu SVM uulpuE to

19、Che puileriisr prubdbiliiCji-7:example j-* int1 + 嚴(yán) f()+日W(j *) i arg uiiii8: end procedure圖2、抽樣與 CSL( CSL)的組合D. 方法2: CSL通過優(yōu)化本地成本比在S-CSL方法中,我們假設(shè)未知的成本比率。我們嘗試了不同的成本比率和平均的結(jié)果。在本節(jié)中,我們將介紹一種方法,為分類提供最佳的成本比。在以前的作品中,成本比率由先驗分布(7,31)反相,例如,成本比=#大多數(shù)例子=#少數(shù)例子。這種選擇導(dǎo)致 柯爾莫哥洛夫-斯米爾諾夫統(tǒng)計性能指標(biāo)36。手部說,這幾乎可以肯定是不合適的,正是因為不考慮它是由在

20、提出的問題的相對嚴(yán)重程度的錯誤分類的基礎(chǔ)上的,但簡單方便的理由(36,32)。在我們的方法中,我們把這個成本比作為一個超參數(shù),局部優(yōu)化參數(shù)(見 圖3、我們使用這種搜索,因為在這項研究中的數(shù)據(jù)集并不是非常不平衡,我們的初步實驗表明,結(jié)果并不顯著改進(jìn)(在的 GMean度量)當(dāng)使用高的成本比。圖 4給出了 CSL-OCRL 方法。此方法幾乎與S-CSL是相同的,我們剛剛學(xué)會的原始數(shù)據(jù), 并優(yōu)化成本比例的 GMean 度量3。3在這項研究中,我們使用GMean作為一個評價指標(biāo),因為以前的作品中表現(xiàn)出GMean不平衡數(shù)據(jù)的情況下,是比較合適的(33,15,17,37)。心必沁=皿“泌TWR 1站1, T

21、PR和TNR是真正的陽性率和真陰性率。procedure OPTiMiZECosTRATio(Prraifi.Input: SVM parameters step length rjOutputs: the best cost ratio fur GMean2:( LocalTraim Holdout ) * Train A 沖血 站3: I I;二:;jA iirbalaiicc mbu 77丁“54: max Ratio 1 nibalat io * 1.55:tirrcniRatio #1.06:bestCi Mean * 07: while (rurrentRatio bastGAle

22、un) then11:bestfrXIan *rcni(7Mcan3 2:Im1 stCost Ratio current Ratio13:end ifI4icurrent Bat io + current Uat io + 可is:end while16ireturn be st Cost Bat io17: end procedure圖3局部優(yōu)化的步長為成本比五、資料簡介我們已經(jīng)從UCI庫試驗18不平衡數(shù)據(jù)集4,如表2描述的。有些多類數(shù)據(jù)集使用一類 靜態(tài)方案被轉(zhuǎn)換成二進(jìn)制數(shù)據(jù)集。比例失調(diào)范圍從1.77 (最低)至64.03 (最高)之間的多數(shù)和少數(shù)的例子。由于每個數(shù)據(jù)集是由4種不同的采樣技

23、術(shù),我們實際上已經(jīng)嘗試90 “數(shù)據(jù)集”,包括原有的。表2資料簡介# Examples#AiLribuBCHwMinociiAhifidfinc4.177q391些嗣AllHp2.ROO阿畑ADlhyper3LE30IO2冉訂:rep3,7?23U12429.457.2W22ICWiP37Anneail囂專貳40工1.店HmfsW1 241a.KjLL21.tMZlK7tri41.歯bDin3,7723L77He puli 屆1552fi323.4HypeUiyrad3 J 632615119.95Nursery12.96093283S.5IPima-Indian7689268U87Sick2.

24、 SOO3017115.37Spccthc-art26723553.85Tranis.fpsinn.74R5I7R3,2DWphcU鈿47乳工】k procedure CSL-OCRL(P)Input: Dataset TOutput: Label for ntntL example j *土 (.Tratm。 /split far S*fold CV3: / ijmtSearch (p7ain - GAIt an. 0,25. 0.01)4: Oplimi/e locall, wilti intrea-lcp O.2J 血w c(M ruiioC* (L j) Op/10(271T 0, 0

25、.25)WTnrin 葦VKI unxkl 蟲i由 purunx-u:rs H cn Pr,aihnf (工)1 刀63 機(jī) x,Xj) + bt=l6:FiMinji n :sigmoid funcrlion tu EVM ulpul lu gel ihr pi巧忙rii)r prcibability:P(Jk) i i + 沖(:rg7: WTzing fxamplc -r* in 卩丁 “r :M3) k arg mini8: end procedure圖4 CSL通過本地優(yōu)化成本比六、實驗結(jié)果A.方法1 ( S-CSL)的結(jié)果抽樣方案是Sampling方法 百分比 。例如,SM100和

26、ROS200分別表示SMOTE和隨機(jī)的100%和200%的過采樣。我們已實施了4種組合,和他們相比,與其他三個CSL方法,這是元成本(30), CSL上的原始數(shù)據(jù)(19,由CSL表示)和CSL通過實例比重(20, 38,表示CSW)。圖5顯示了這些方法的成本比率和總費(fèi)用的 5個典型的結(jié)果之間的關(guān)系。 人們可以清楚地看到,當(dāng)成本比例增大,我們的方法顯著降低總成本。這鞏固了我們的初步研究39的結(jié)果CSL作為元學(xué)習(xí)方法和內(nèi)部分類器(SVM在這種情況下)被類不平衡問題仍然影響。CSL可以更好,如果它是由重新平衡數(shù)據(jù)集。表III中在長期的平均成本將S-CSL的結(jié)果與其他方法進(jìn)行比較。對于每個數(shù)據(jù)集,最后

27、四列與其他(S-CSL)進(jìn)行比較時。我們可以看到,在大多數(shù)情況下,經(jīng)過重新采樣的平 均誤分類成本都減少。對于表中的每一行,其中的粗體數(shù)字表示最好的結(jié)果,斜體數(shù)字說明我們的組合優(yōu)于元成本。我們報告的百分比抽樣方法,重新取樣后,每個數(shù)據(jù)集和比例I Ma400no300ftiaaiJLAK mix cti TKrih -CX-失調(diào)。圖5、成本率和總成本的 5個典型的結(jié)果關(guān)系CSL與RUS( RUS-CSL )的結(jié)合比其余的組合效果更好。另外,RUS-CSL總是優(yōu)于元成本,CSL,和CSW( DIS數(shù)據(jù)集除外)。表中的最后一行總結(jié)了每一種組合與其他 3方法 的比較結(jié)果。此外,當(dāng)之前和之后的采樣觀察不平

28、衡比率,結(jié)果表明,不僅是類的失衡,但也噪音, 邊緣的例子,類重疊降低分類器的性能。這些問題,也有報道9,33,40。CSL-OCRLcswMeUCiJsInuwJuJdSelecurAlLiBimfsI-CSLchalone10.7790.0150.779*6.0(20o.73&a(m *0.79BQJDJ7ulktip0JT7O 0.020230.(W5a865O.O2S0.72 2 0.358 +0.797 0.074ullhyprr0J(95 0.0420.MI 0.0840.893 0 0730.776 0.021 0.791 0 067 allrqad SrkctcjfAd&KAt-

29、CSLabaloneO.7?9O.OL50 7S40.006(1.779O.O2()07810 023 *0.798O.CI7ullbpOA70OO320.S230.0550.865 0.02S0.722 0.058 0.797 0.071ullbjpcrnJWiO.042O.R4OJ4Q.S93O.m3(X7760.02l *(1.791 0.067 ulkrp仏黠6 tO.OGlO.789O.O6I 0.874 0.033D.736 0.075 0.780 0.065 ann0少9 00330.955 0.041OWOiOOi 10.8R20(M9 urmciilO.W? 0.057094

30、6 0.055O.W20.7 07410.41949 和 406$1L969100I60.968 0.0190.965 0.0 J10.965 O.OJ 10.9440.0J9 曲科吐怦憐0t7600,040,746 0AIS *0.TO5 0.046 *0,5M0.0fi20.7f*50.0fl!thypolhynjidO.S99O(M40.S56 0.038 0.927 0.034 o0.79901(B G.BIS0.060 10.000i.Marooo0.W5 0.000 *aB530,295O/Wfi 0.003pima0.7-17 0.05(1(T7370 翻 I0tfl70.052

31、072710.0580.7 IO 0.017sickO.*L2OO290.K7C0.0540.912 0.033D.8520.0790.863 G.M4speLrthrurt0-772 0.0370.732 0.0820 7300.0760,7560,05i0.739 04 J 7IrwnMirskm0.678 0.0270 682 0.0210.66L 0.0080.6S010 0IS().b0.025twpbt0.6A3 t00560.6190J940.6Sa0.0&40.257 0.269 0.67S0.l)bAiitTagc:Cu&380.8090.8260.7400.793Vh ii

32、nAic/loebmc(14/41/L4/301 Cffi6 * jtd/jJhroWvorIwImO.051 N. V. Chawla, N. Japkowicz, and A. Kotcz, “ Editorial: special issueon learning from imbalaneed data sets, ” SIGKDD Explorations, vol. 6,no. 1, pp. 1 - 6, 2004.2 H. He and E. A. Garcia, “ Learning from imbalaneed data, ” IEEETran sact ions on K

33、no wledge and Data Engin eeri ng, vol. 21, no. 9,pp. 1263 1284, September 2009.3 Q. Yang and X. Wu, “10 challenging problems in data mining research, ” InternationalJour nal of In formatio n Tech no logy and Decisi onMaking, vol. 5, no. 4, pp. 597 - 604, 2006.4 N. V. Chawla, K. Bowyer, L. Hall, and

34、W. P. Kegelmeyer, “SMOTE:synthetic minority over-sampling technique, ” Journal of AI Research,vol. 16, pp. 321 357, 2002.5 A. Nickers on, N. Japkowicz, and E. Millos, “ Using un supervisedlearning to guide resampling in imbalaneed data sets, ” in Proceedingsof the Eighth In ternatio nal Workshop on

35、Al and Statitsics, 2001, pp.261 - 265.6 P. Li, P.-L. Qiao, and Y .-C. Liu, “ A hybrid re-sampling method forSVM learning from imbalaneed data sets, ” in Proceedings of the 2008Fifth IC on Fuzzy Systems and Kno wledge Discovery. Wash ington,DC, USA: IEEE Computer Society, 2008, pp. 65 - 69.7 B. Rasku

36、tti and A. Kowalczyk, “ Extreme re-bala ncing for SVMs: acase study,”SIGKDD Explorations, vol. 6, no. 1, pp. 60 - 69, 2004.8 P. E. Hart, “ The conden sed n earest n eighbor rule,” IEEE Trans. Inf.Theory, no. 16, pp. 515 - 516, 1968.9 I. Tomek,“Two modifications of CNN, ” IEEE Transactions on Systems

37、Man and Communications SMC-6, pp. 769 - 772, 1976.10 D. L. Wils on,“ Asymptotic properties of n earest n eighbor rules usingedited data,” IEEE Tran sacti ons on Systems, Man and Cyber netics, no. 3, 1972.11 X. wen Chen, B. Gerlach, and D. Casase nt,“ Pruning support vectorsfor imbalaneed data classi

38、fication, ” proceeding of IEEE InternationalJoi nt Conference on Neural Networks, vol. 3, pp. 1883 - 1888, 2005.12 S. Lessmann,“ Solving imbalaneed classification problems with support vectormach in es,” in Intern ati onal Conference on Artificial In tellige nee, 2004, pp. 214 220.13 K. Veropoulos,

39、C. Campbell, and N. Cristia nin i,“ Con trolli ng thesensitivity of support vector machines, ” in Proceedings of the IJCAI,1999, pp. 55 - 60.14 R. Yan, Y. Liu, R. Jin, and A. Hauptma nn,“ On predict ing rare classeswith SVM ensembles in scene classification, ” in ICASSP, 2003, pp.21 - 24.15 X.-Y. Li

40、u, J. Wu, and Z.-H. Zhou,“ Exploratory un der-sampli ng forclass-imbala nee learni ng, ” IEEE Trans. on Syst, Man, and Cyber. Part B, pp. 539 - 550, 2009.16 Y. Ta ng, Y. Zha ng, N. Chawla, and S. Krasser, “ SVMs modeli ng forhighly imbalaneed classification. ” IEEE Trans Syst Man Cybern BCybern, vol

41、. 39, no. 1, pp. 281 - 8, 2009.17 B. Wang and N. Japkowicz,“ Boosti ng support vector mach ines forimbala need data sets,” Kno wledge and In formatio n Systems, 2009.18 X. Li, L. Wang, and E. Sung, “ AdaBoost with SVM-based compo nentclassifiers,” Eng. Appl. Artif. Intell., vol. 21, no. 5, pp. 785-

42、795, 2008.19 C. Elkan,“ The foundations of cost-senstive learning, ”17th International JointConference on Artificial Intelligenee, pp. 973- 978, 2001.20 K. M. Ting, Inducing cost-sensitive trees via instanee weighting, ” inPKDD, 1998, pp. 139 - 147.21 X.-Y. Liu and Z.-H. Zhou,“ The in flue nee of cl

43、ass imbala nee on costse nsitive lear ning:An empirical study, ”in Proceedings of the SixthICDM. Wash in gto n, DC, USA: IEEE Computer Society, 2006, pp.970- 974.22 S. She ng, C. X. Li ng, A. Ni, and S. Zha ng,“ Cost-se nsitive teststrategies” in The Twen ty-First Nati onal Conference on ArtificialI

44、n tellige nee and the Eightee nth Inno vative Applicati ons of ArtificialIn tellige nee Conference, 2006.23 S. Sheng, C. X. Ling, and Q. Yang,“ Simple test strategies for costse nsitive decisi ontrees,”in ECML, 2005, pp. 365 - 376.24 X. Chai, L. Deng, Q. Yang, and C. X. Ling,“ Test-cost sen sitive n

45、 aivebayes classification, ” in International Conference on Data Mining,2004, pp. 51 - 58.25 K. M. Ting,“A study on the effect of class distribution using costsensitive learning, ” inDiscovery Scienee, 2002, pp. 98 - 112.26 R. Akba ni, S. Kwek, and N. Japkowicz,“ Appl ying support vectormach ines to

46、 imbala need datasets” in Proceedi ngs of the 15th ECML, 2004, pp. 39 - 50.27 G. E. A. P. A. Batista, R. C. Prati, and M. C. Mo nard,“ A study of thebehavior of several methods for bala ncing mach ine lear ning trai ning data,” SIGKDD Explorations, vol. 6, no. 1, pp. 20 - 26, 2004.28 J. Van Hulse, T

47、. M. Khoshgoftaar, and A. Napolita no,“ Experime ntalperspectives on learning from imbalaneed data, ” in Proceedings of 24thICML. ACM, 2007, pp. 935 - 942.29 J. C. Platt, “ Probabilistic outputs for SVM and comparisons to regularized likelihood methods,” in Adva nces in Large Margin Classifiers.MIT Press, 1999, pp. 61 - 74.30 P. Domingos,“ Metacost: A general method for making classifiers costsensitive, ” 5thACM S

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論