版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、用于欺詐檢測的一種代價(jià)敏感決策樹方法Yusuf Sahin a, Serol Bulkan b, Ekrem Duman ca Department of Electrical & Electronics Engineering, Marmara University, Kadikoy, 34722 Istanbul, Turkey b Department of Industrial Engineering, Marmara University, Kadikoy, 34722 Istanbul, Turkey c Department of Industrial Engineering,
2、Ozyegin, Cekmekoy, 34794 Istanbul, Turkey關(guān)鍵詞:代價(jià)敏感建模 信用卡欺詐檢測 決策樹 分類 可變誤分類代價(jià)摘要:隨著信息技術(shù)的發(fā)展,欺詐行為遍布世界各地,這導(dǎo)致了巨大的經(jīng)濟(jì)損失。雖然諸如CHIP&PIN等欺詐預(yù)防機(jī)制已經(jīng)被開發(fā)應(yīng)用于信用卡系統(tǒng),但這些機(jī)制并不能阻止一些最常見的欺詐類型,比如在虛擬POS機(jī)上的信用卡欺詐使用,或者是所謂的在線信用卡欺詐郵購。所以,欺詐檢測成為了一種必不可少的工具,并且可能是阻止此類欺詐類型的最佳方法。在此次研究中,提出了一種全新的代價(jià)敏感決策樹方法,它將在每個(gè)非葉節(jié)點(diǎn)選擇分裂屬性時(shí)最小化誤分類代價(jià)之和,其在現(xiàn)實(shí)世界信用卡數(shù)
3、據(jù)集上的性能可以與那些眾所周知的傳統(tǒng)分類模型相比較。在這種分類方法中,誤分類代價(jià)將取不同的值。結(jié)果表明,在給定的問題集上使用已知的性能指標(biāo),比如準(zhǔn)確度和真陽性率,此代價(jià)敏感決策樹算法勝過現(xiàn)有公知的方法,而且針對特定的信用卡欺詐檢測領(lǐng)域,還新定義了一種代價(jià)敏感指標(biāo)。因此,通過在欺詐檢測系統(tǒng)中實(shí)施該方法,可以更好的減少由于欺詐交易造成的金融損失。1. 引言欺詐可以被定義為為了取得財(cái)務(wù)或個(gè)人利益的非法或刑事欺騙。兩種避免由于詐騙活動(dòng)導(dǎo)致欺詐和損失的機(jī)制是欺詐預(yù)防以及欺詐檢測系統(tǒng)。欺詐預(yù)防是以防止欺詐行為發(fā)生為目標(biāo)的主動(dòng)機(jī)制。欺詐檢測系統(tǒng)在詐騙者越過欺詐預(yù)防系統(tǒng)并且開始一個(gè)欺詐交易時(shí)發(fā)揮作用。有關(guān)欺詐
4、領(lǐng)域以及檢測技術(shù)的綜述可以在Bolton and Hand (2002), Kou, Lu, Sirwongwattana, and Huang (2004), Phua, Lee, Smith, and Gayler (2005), Sahin and Duman (2010)的研究中找到。其中最知名的欺詐領(lǐng)域是信用卡系統(tǒng)??梢酝ㄟ^許多方法進(jìn)行信用卡欺詐,如簡單盜竊,申請欺詐,偽造卡片,從未達(dá)卡問題(NRI)以及在線詐騙(在持卡人不存在的情況下)。在網(wǎng)絡(luò)詐騙中,交易是通過遠(yuǎn)程完成的,并且只需要信用卡信息。由于網(wǎng)絡(luò)的國際可用性和易用性,用戶可以在互聯(lián)網(wǎng)交易中隱藏自身位置以及身份,所以通過該媒介
5、發(fā)生的欺詐行為正在快速增長。信用卡欺詐檢測有很多以前已經(jīng)完成的研究。關(guān)于信用卡系統(tǒng)以及欺詐領(lǐng)域非技術(shù)性知識的一般背景可以分別從Hanagandi, Dhar, and Buescher (1996) and Hand and Blunt (2001)學(xué)習(xí)。在這個(gè)領(lǐng)域中,最常用的欺詐檢測方法有規(guī)則歸納技術(shù),決策樹,人工神經(jīng)網(wǎng)絡(luò)(ANN),支持向量機(jī)(SVM),邏輯回歸以及諸如遺傳算法的啟發(fā)式算法。這些技術(shù)可以單獨(dú)使用,也可以通過集成以及元學(xué)習(xí)技術(shù)協(xié)同使用來構(gòu)建分類器。大多數(shù)信用卡欺詐檢測系統(tǒng)在使用監(jiān)督算法,比如神經(jīng)網(wǎng)絡(luò)(Brause, Langsdorf, & Hepp, 1999; Dorro
6、nsoro, Ginel, Sanchez, & Cruz, 1997; Juszczak, Adams, Hand, Whitrow, & Weston, 2008; Quah & Sriganesh, 2008; Schindeler, 2006; Shen, Tong, & Deng, 2007; Stolfo, Fan, Lee, Prodromidis, & Chan, 1997; Stolfo, Fan, Lee, Prodromidis, & Chan, 1999; Syeda, Zhang, & Pan, 2002; Prodromidis, Chan, & Stolfo, 2
7、000),ID3、C4.5和C&RT一類的決策樹技術(shù)(Chen, Chiu, Huang, & Chen, 2004; Chen, Luo, Liang, & Lee, 2005;Mena, 2003; Wheeler & Aitken, 2000)以及支持向量機(jī)(Gartner Reports, 2010; Leonard, 1993)。信用卡欺詐檢測是一個(gè)非常困難,但也很受歡迎的亟待解決的問題??偸莾H有有限數(shù)量有關(guān)犯罪交易的數(shù)據(jù)。同時(shí),也有可能存在詐騙者進(jìn)行符合正常(合法)行為模式(Aleskerov, Freisleben, & Rao, 1997)的交易通過的情況。此外,該問題還有很多
8、限制。首先,正常和詐騙行為的表現(xiàn)不斷地改變。其次,新欺詐檢測方法的發(fā)展變得更加困難是由在欺詐檢測中交換思想的事實(shí)造成的,尤其是信用卡欺詐檢測因?yàn)榘踩碗[私問題被嚴(yán)格限制。第三,數(shù)據(jù)集不一定是可用的,其結(jié)果往往是截尾的,這使得它們難以評估。甚至,一些研究使用合成產(chǎn)生的數(shù)據(jù)進(jìn)行(Brause等, 1999; Dorronsoro等, 1997)。第四,信用卡欺詐數(shù)據(jù)集是高度傾斜集。最后,該數(shù)據(jù)集正在不斷發(fā)展,使得正常和詐騙行為的表現(xiàn)總是在變化(Bolton & Hand, 2002; Kou等, 2004; Phua et al., 2005; Sahin & Duman, 2010)。因此,信用
9、卡欺詐檢測仍然是一個(gè)流行的,具有挑戰(zhàn)性以及困難的研究課題。Visa關(guān)于歐洲國家的信用卡欺詐報(bào)告指出在2008年,大約50%的信用卡欺詐損失是由于在線欺詐(Ghosh & Reilly, 1994)。許多文獻(xiàn)報(bào)道了大量不同國家的損失(Bolton & Hand, 2002; Dahl, 2006; Schindeler, 2006)。因此,新方法提高了在這一領(lǐng)域的分類器性能兼有經(jīng)濟(jì)意義與研究貢獻(xiàn)?;谶@個(gè)領(lǐng)域的特性,定義一個(gè)新的代價(jià)敏感方法是改善的最佳途徑之一。雖然傳統(tǒng)的機(jī)器學(xué)習(xí)技術(shù)在許多分類問題上一般是成功的,但是具有高準(zhǔn)確度或最小化誤分類誤差并不總是開發(fā)分類器的目標(biāo)。在現(xiàn)實(shí)世界的機(jī)器學(xué)習(xí)問題
10、領(lǐng)域的應(yīng)用中,有各種類型的代價(jià)參與,Turney定義了其中的九種主要類型(Turney, 2000)。然而,大多數(shù)機(jī)器學(xué)習(xí)文獻(xiàn)并不采取任何這些代價(jià)的考慮,僅僅剩下的一小部分考慮了誤分類代價(jià)。Turney還指出誤分類誤差的代價(jià)在分類中具有獨(dú)特的地位(Turney, 2000)。而根據(jù)ML-netll項(xiàng)目(European Network of Excellence in Machine Learning)的技術(shù)路線圖,代價(jià)敏感學(xué)習(xí)據(jù)稱是在機(jī)器學(xué)習(xí)研究的未來中一個(gè)非常流行的課題(Saitta, 2000; Zhou & Liu, 2006)。因此,通過構(gòu)建代價(jià)敏感分類器來改善分類器在欺詐檢測系統(tǒng)中
11、的性能是一個(gè)使大量經(jīng)濟(jì)損失恢復(fù)的最好辦法。此外,客戶的忠誠度和信任度也將有所增加。并且代價(jià)敏感分類器已經(jīng)被證明能夠有效處理類不平衡問題(Thai-Nghe, Gantner, & Schmidt-Thieme, 2010; Zhou & Liu, 2006)。大量過去的研究是在恒定的誤分類代價(jià)矩陣或者由一些恒定的合成誤分類代價(jià)組成的代價(jià)矩陣上進(jìn)行的;然而,每個(gè)假陰性(FN)具有它固有的獨(dú)特的誤分類代價(jià)。因此,每個(gè)假陰性(FN)應(yīng)當(dāng)以某種方式排列來顯示誤分類代價(jià)的差異。例如,具有較大交易量的或者更大可用額度的欺詐交易應(yīng)該比具有較小數(shù)量或可用額度的更需要被檢測。恒定代價(jià)矩陣或者不變代價(jià)矩陣的組合不
12、能描述這個(gè)場景。所以,本研究是在可變誤分類代價(jià)的分類問題工作中,將這樣的情況納入考慮的開拓者之一。這項(xiàng)研究的目的是填補(bǔ)信用欺詐檢測文獻(xiàn)的一項(xiàng)空白。在此研究中,開發(fā)了一個(gè)新的代價(jià)敏感決策樹歸納算法,它將在樹的每個(gè)非葉節(jié)點(diǎn)選擇分裂屬性時(shí)最小化誤分類代價(jià)之和,并且分類性能可以與那些無論是代價(jià)不敏感還是代價(jià)敏感的具有固定誤分類代價(jià)率的傳統(tǒng)分類方法相比較,比如傳統(tǒng)決策樹算法,人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)。結(jié)果表明,就詐騙交易的辨別和防止可能的損失量而言,這個(gè)代價(jià)敏感決策樹算法在我們現(xiàn)實(shí)世界數(shù)據(jù)集上的表現(xiàn)優(yōu)于現(xiàn)有公知的方法。在信用卡欺詐檢測中,誤分類代價(jià)以及欺詐的優(yōu)先序基于個(gè)人記錄來區(qū)別不同。其結(jié)果是,常見的
13、性能指標(biāo),如準(zhǔn)確率,真陽性率(TPR)或者甚至曲線下面積(AUC)并不適合評估模型的性能,因?yàn)樗鼈兘邮苊總€(gè)欺詐是具有相同優(yōu)先級,不管欺詐交易量或者當(dāng)時(shí)交易中用卡的可用信用額度是多少。應(yīng)該使用一個(gè)使用有意義的方式按序排列欺詐交易以及檢查模型在最小化總經(jīng)濟(jì)損失時(shí)性能的全新性能指標(biāo)。一旦詐騙者得到使用信用卡進(jìn)行詐騙交易的機(jī)會,他們通常消耗完一張信用卡的可用信用額度。因此,一個(gè)欺詐交易的經(jīng)濟(jì)損失可以假定為交易前卡的可用信用額度,而不是交易的數(shù)量。這樣,模型在測試集上的性能比較可以使用新定義的代價(jià)敏感性能指標(biāo)挽回?fù)p失率(SLR),也就是從欺詐交易中信用卡可用額度之和的潛在經(jīng)濟(jì)損失中挽回的百分比。為了顯示
14、我們觀點(diǎn)的正確性,在模型性能的比較中,代表模型性能的真陽性率(TPR)的值也會給出。本文的其余部分安排如下:第二章節(jié)給出機(jī)器學(xué)習(xí)中代價(jià)敏感方法的回顧;第三章節(jié)給出對于信用卡數(shù)據(jù)的結(jié)構(gòu)的一些見解;第四章節(jié)給出新開發(fā)的代價(jià)敏感決策樹算法的細(xì)節(jié);第五章節(jié)給出結(jié)果以及對結(jié)果的簡短討論;第六章節(jié)總結(jié)本研究。2. 機(jī)器學(xué)習(xí)中的代價(jià)敏感方法有不同方法用于構(gòu)建將代價(jià)敏感性考慮在內(nèi)的分類模型。第一個(gè)通過改變過采樣或欠采樣的訓(xùn)練數(shù)據(jù)分布來建立代價(jià)敏感分類模型,使得該集合中數(shù)據(jù)的代價(jià)可以表現(xiàn)出例子的形態(tài)。一些研究試圖通過分層來克服誤分類代價(jià)問題;以及當(dāng)數(shù)據(jù)集不平衡時(shí)復(fù)制或丟棄樣本(Japkowicz, 2000;
15、Kubat & Matwin, 1997)。然而,這些研究人員假設(shè)代價(jià)矩陣的內(nèi)容是固定的數(shù)字,而不是依賴記錄的值。研究人員如Domingos試圖建立像MetaCost的機(jī)制去將代價(jià)不敏感分類器轉(zhuǎn)換為代價(jià)敏感分類器(Domingos, 1999; Elkan, 2001)。根據(jù)一些研究報(bào)告,過采樣對于不平衡數(shù)據(jù)集的學(xué)習(xí)是有效的(Japkowicz & Stephen, 2002; Japkowicz et al., 2000; Maloof, 2003)。但是,過采樣增加了訓(xùn)練的時(shí)間,并且因?yàn)樗鼊?chuàng)建了不少較小類樣本的拷貝,所以可能會導(dǎo)致過擬合問題(Chawla, Bowyer, & Kegelm
16、eyer, 2002; Drummond & Holte, 2003)。不同于過采樣,欠采樣試圖減少較多類的樣本數(shù)量,以便于實(shí)現(xiàn)訓(xùn)練集數(shù)據(jù)關(guān)于類分布的平衡。一些研究表明欠采樣善于處理不平衡數(shù)據(jù)問題(Drummond & Holte, 2003; Japkowicz & Stephen, 2002; Japkowicz et al., 2000; Maloof, 2003)。第二種方法是當(dāng)建立分類模型時(shí)將代價(jià)敏感性考慮在內(nèi),調(diào)整廉價(jià)類的閾值使得昂貴類樣本的誤分類更加困難以此最小化誤分類代價(jià)(Langford & Beygelzimer, 2005; Maloof, 2003; Sheng & L
17、ing, 2006; Zhou & Liu, 2006)。過采樣,欠采樣和調(diào)整閾值不會更改算法,因此可以被用于幾乎所有的算法(Ma, Song, Hung, Su, & Huang, 2012)。然而,前兩者會改變模型算法的輸入,而后者會改變由該算法構(gòu)建的模型的輸出(Zhou & Liu, 2006)。就如調(diào)整閾值,在學(xué)習(xí)算法中對昂貴類增加學(xué)習(xí)速率,如果這樣,可以使模型更多地學(xué)習(xí)高代價(jià)的樣本,而不是低代價(jià)的(Kukar & Kononenko, 1998; Wan, Wang, & Ting, 1999)。最后一種考慮代價(jià)敏感性的方法是修改代價(jià)不敏感學(xué)習(xí)算法或定義一個(gè)新的代價(jià)敏感算法。如果該算
18、法是一個(gè)基于決策樹的,這可以通過要么使用代價(jià)敏感方式分裂或用代價(jià)敏感方法剪枝或提供額外的代價(jià)調(diào)整函數(shù)來完成。雖然許多研究人員使用不同的啟發(fā)式方法來建立代價(jià)敏感決策樹(Breiman, Friedman, Olshen, & Stone, 1984; Brodley, 1995; Draper, Brodley, & Utgoff, 1994),有些人使用不同的技術(shù)來剪枝使用誤分類代價(jià)按傳統(tǒng)方法建立的決策樹(Bradford, Kunz, Kohavi, Brunk, & Brodley, 1998;Knoll, Nakhaeizadeh, & Tausend, 1994)。3. 信用卡數(shù)據(jù)的結(jié)
19、構(gòu)在這項(xiàng)研究中使用的信用卡數(shù)據(jù)是從一個(gè)銀行的信用卡數(shù)據(jù)倉庫中使用所需的權(quán)限獲取的。信用卡數(shù)據(jù)倉庫中的以往數(shù)據(jù)被用來形成表示客戶卡使用情況的數(shù)據(jù)集市。數(shù)據(jù)集市中的數(shù)據(jù)被用于形成在建模階段使用的訓(xùn)練集和測試訓(xùn)練模型階段使用的測試集。原始數(shù)據(jù)的時(shí)間區(qū)間共有12個(gè)月,用于形成具有大約22萬條信用卡交易的訓(xùn)練集。這個(gè)數(shù)據(jù)關(guān)于正常和欺詐交易的分布是高度傾斜的。這12個(gè)月期間,用于建立我們樣本數(shù)據(jù)包括978條詐騙記錄以及大約22萬條正常記錄,這個(gè)比例大概是1:22500。所以,為使模型能夠?qū)W習(xí)這兩類樣本,我們使用分層抽樣去下采樣合法記錄到一個(gè)有意義的數(shù)字。我們試著采樣到不同的合法/欺詐比值。此外,所有屬于過
20、去6個(gè)月時(shí)間段的數(shù)據(jù),包括含有484條欺詐交易的大約11344000條交易記錄直接包含在測試集中。測試集中的所有交易都通過分類方法得分。訓(xùn)練和測試集的數(shù)據(jù)分布在表1中給出。每一張信用卡的交易數(shù)量都與其它的不同,但是每條交易記錄都是相同的固定長度,并且包含相同的字段。Hand和Blunt給出了一個(gè)信用卡數(shù)據(jù)特點(diǎn)的描述(Hand & Blunt, 2001)。雖然一些客戶可能擁有超過一張的信用卡,但是每張卡被視為一個(gè)獨(dú)特的配置文件,因?yàn)閾碛谐^一張卡的客戶出于不同的目的,通常在不同的客戶配置文件中使用每張卡。每張卡的配置文件中包含了能夠透露用卡行為特征的變量。這些變量可以表示針對位置,時(shí)間或者交易
21、發(fā)生地點(diǎn)類型的信用卡交易模式。欺詐檢測系統(tǒng)使用分類模型通過鑒別與給出卡使用的配置文件的顯著偏差去檢測詐騙活動(dòng)。這些變量不僅從交易本身,而且還從卡過往的交易歷史中派生。我們的內(nèi)容將提及使用的變量類型,但是出于對隱私,保密性和安全性的擔(dān)憂,我們是不被允許談?wù)撟兞康耐暾斜怼_@些變量是五個(gè)主要變量類型中的一個(gè):所有的交易統(tǒng)計(jì),地區(qū)統(tǒng)計(jì),商戶類型統(tǒng)計(jì),基于時(shí)間交易額的統(tǒng)計(jì)以及基于時(shí)間的交易數(shù)量統(tǒng)計(jì)。一些變量可以表述為交易類型,商戶類別碼,POS輸入模式,PIN輸入能力,卡類型,卡域以及卡使用國家。所有交易統(tǒng)計(jì)類型中的變量大體上透露了持卡人使用卡的一般信息。區(qū)域統(tǒng)計(jì)類型的變量給出有關(guān)地理區(qū)域的持卡人消費(fèi)
22、習(xí)慣。屬于商戶類型統(tǒng)計(jì)的變量顯示持卡人在不同商戶類別使用卡的情況?;跁r(shí)間的統(tǒng)計(jì)類型變量鑒別出卡關(guān)于使用額度或使用頻率與時(shí)間范圍關(guān)系的使用信息。當(dāng)評估信用卡的一個(gè)新交易時(shí),通過這些變量可以鑒別出其與卡正常使用信息的偏差,從而給出欺詐使用的信號。所以,對于每一張卡的每一筆交易,這些變量每一個(gè)都需要計(jì)算,并且包含在測試集中。4. 代價(jià)敏感決策樹方法對現(xiàn)實(shí)世界分類問題進(jìn)行建模的最大問題之一是數(shù)據(jù)分布不平衡,而且在信用卡欺詐檢測的情況下,識別屬于較少類的記錄比識別屬于較多類的記錄更為重要。解決該問題的一個(gè)有效方法是代價(jià)敏感建模,使得誤分類較少類記錄的代價(jià)比誤分類較多類的記錄更大。在本文中,給出了開發(fā)一
23、個(gè)代價(jià)敏感決策樹算法去識別信用卡欺詐交易的細(xì)節(jié)。在公知的決策樹算法中,分裂條件要不是對代價(jià)和類分布不敏感,就是代價(jià)固定為恒定比率,如此使得將欺詐交易分類為正常(假陰性,F(xiàn)N)的代價(jià)是將正常交易分類為欺詐(假陽性,F(xiàn)P)的N倍。此外,在這些算法中,誤分類的代價(jià)僅在剪枝過程中納入考慮,而歸納過程并不考慮。這里有一些以前針對代價(jià)敏感樹歸納做的研究,其中誤分類的代價(jià)僅僅依賴于類(Drummond & Holte, 2000a; Drummond & Holte, 2000b; Ling, Sheng, & Yang, 2006; Liu, 2009),或者是個(gè)別樣本自身(Duman & zelik,
24、2011; Ling, Yang, Wang, & Zhang, 2004)。就我們所知,這是在信用卡欺詐檢測中使用不同的誤分類代價(jià)來探索代價(jià)敏感決策樹歸納算法特定應(yīng)用組合的第一項(xiàng)工作。表1 關(guān)于類別的數(shù)據(jù)分布集合記錄實(shí)際記錄數(shù)量集合中記錄數(shù)量訓(xùn)練集正常220000008802欺詐978978測試集正常1364400013644000欺詐484484在信用卡交易中,每次欺詐交易會產(chǎn)生一個(gè)不同的代價(jià),所以對每一筆欺詐交易使用一個(gè)固定的誤分類代價(jià)并不適合我們的問題。從而,我們對每筆交易使用一個(gè)不同的代價(jià),這是它們自身固有的。除非詐騙者提交的第一筆欺詐交易沒有被檢測到,否則他們在獲得使用卡進(jìn)行交易的
25、可能后,通常在隨后的交易中花完信用卡里所有可用的信用額度。他們一般設(shè)法用平均四到五次交易來實(shí)現(xiàn)這個(gè)目標(biāo)(Duman & zelik, 2011)。因此,將欺詐交易鑒定為合法的實(shí)際代價(jià)就和交易中信用卡使用的可用信用額度一樣大。故而,一筆欺詐記錄的誤分類代價(jià)被定義為交易中信用卡使用的可用信用額度,而不是交易量和預(yù)先定義的固定的代價(jià)值。另外,這個(gè)假設(shè)在代價(jià)和每筆欺詐交易之間做出了區(qū)分。換句話說,檢測出使用有高額可用信用額度的卡進(jìn)行的欺詐交易比使用有低額可用信用額度的卡進(jìn)行的欺詐交易能挽救更多的損失。如此,檢測到的第一筆欺詐交易的優(yōu)先級比第二筆高。因此,每個(gè)假陰性都有不同的誤分類代價(jià),同時(shí),對于模型性
26、能的,應(yīng)該使用代價(jià)敏感指標(biāo)評價(jià)而不是基于檢測到欺詐數(shù)量的指標(biāo),如式(1)中給出的新定義的能夠反映挽回的所有可用信用額度所占百分比的指標(biāo)SLR。 ,其中k表示被檢測到的欺詐數(shù),f表示欺詐的總數(shù),(CFN)j表示FNj的誤分類代價(jià) (1)經(jīng)典的決策樹模型并不適用于依據(jù)個(gè)別交易確定可變誤分類代價(jià)的情況。因此,我們開發(fā)了一種新的代價(jià)敏感決策樹算法,其決策樹學(xué)習(xí)算法中的分裂條件受各個(gè)誤分類代價(jià)改變的影響。我們算法使用的代價(jià)指標(biāo)在表2中給出。對于正常交易的誤分類代價(jià)(CFP),我們的算法假定一個(gè)固定的誤分類代價(jià)是由一些特定的程序和采訪銀行工作人員與領(lǐng)域?qū)<艺业降摹T撍惴ㄈ〗灰字兴每ㄔ诮灰浊暗目捎眯庞妙~度
27、作為欺詐交易的誤分類代價(jià)(CFN)。這里新定義的代價(jià)敏感決策樹學(xué)習(xí)算法選擇一個(gè)節(jié)點(diǎn)分裂變量的方法是如果一個(gè)分裂是可能的,那么一定是基于總誤分類代價(jià)的減少,而不是雜質(zhì)的減少。我們假設(shè)FP是實(shí)際上是正常的交易被錯(cuò)誤分類為欺詐的,而FN是實(shí)際上是欺詐的交易被錯(cuò)誤分類為合法的。開始時(shí),訓(xùn)練集中所有的交易都被分配給樹的根節(jié)點(diǎn)。首先,計(jì)算該節(jié)點(diǎn)的代價(jià)。在決策樹中,一個(gè)節(jié)點(diǎn)上的所有交易都可以被分類為要不是欺詐的,那么就是合法的。因此,無論是將節(jié)點(diǎn)上的交易標(biāo)記為欺詐(CP)的總誤分類代價(jià),還是將交易標(biāo)記為正常的(CN)總誤分類代價(jià),都需要計(jì)算。為了計(jì)算法CP和CN,我們使用四種不同的方法:CS直接代價(jià)(CS
28、Direct Cost),CS類概率(CS Class Probability),CS-基尼(CS Gini)和CS-信息增益(CS Information Gain)。在CS直接代價(jià)方法中,我們在代價(jià)計(jì)算函數(shù)中不整合任何不純性度量,并且僅通過使用獨(dú)立降低總期望分類代價(jià)的方法來尋找最佳分裂。這種代價(jià)方法是從Ling等 (2004), Zubek and Dietterich (2002), Greiner, Grove, and Roth (2002)處受到的啟發(fā)。這種方法選擇能夠最大程度上減少總誤分類代價(jià)的變量來替代使用不純性度量尋找分裂變量。在將交易標(biāo)記為正常(CN)的情況下,總誤分類代價(jià)
29、是該節(jié)點(diǎn)每個(gè)欺詐表2 使用的代價(jià)指標(biāo)實(shí)際值預(yù)測值陽性(欺詐)陰性(合法)陽性(欺詐)真陽性(TP)(誤分類代價(jià)=0)假陰性(FN)(誤分類代價(jià)=CFN)陰性(合法)假陽性(FP)(誤分類代價(jià)=CFP)真陰性(TN)(誤分類代價(jià)=0)記錄的可用信用額度(CFN)i)之和。將合法交易標(biāo)記為欺詐只會造成一個(gè)對于每個(gè)合法交易相同的觀測代價(jià)(CFP)。因此,在該方法中,只有誤分類代價(jià)在樹歸納和分類中使用。假設(shè)有“f”個(gè)欺詐記錄和“n”個(gè)正常(合法)記錄,它們落在一個(gè)節(jié)點(diǎn)上,那么“N”(N = f + n)給出該節(jié)點(diǎn)記錄總數(shù),CP和CN的計(jì)算在下面的式(2)和式(3)中給出: (2) (3)不同于CS直接
30、代價(jià)方法不管數(shù)據(jù)的類分布以及節(jié)點(diǎn)的不純性,僅僅使用期望的總誤分類代價(jià)去尋找當(dāng)前節(jié)點(diǎn)的最佳分裂的情況,傳統(tǒng)的決策樹歸納技術(shù)使用類分布或者在某些方面使用不純性度量來尋找下一層的分裂。因此,使用下面的方法在代價(jià)敏感分裂機(jī)制的節(jié)點(diǎn)上添加類分布以及不純性的影響,我們使用從著名的傳統(tǒng)決策樹算法ID3,C5.0和C&RT中得到的啟發(fā),修改尋找分裂的誤分類代價(jià)計(jì)算。這些傳統(tǒng)的決策樹方法使用不純性度量去選擇分裂屬性和分裂值。ID3(Prodromidis等, 2000)使用熵和信息增益,而之后的C5.0使用增益比,C&RT(Wheeler & Aitken, 2000)則使用基尼用于不純性度量。對于二類問題,期
31、望信息(熵)與基尼的計(jì)算方法在下面的式(4)中給出:a.b. 其中pi表示類i的相對頻率 (4)在CS類概率方法中,類的相對頻率(類概率)被集成到代價(jià)計(jì)算函數(shù)中,用于增加類分布對該節(jié)點(diǎn)代價(jià)的影響。由于該節(jié)點(diǎn)上某類的相對頻率增大,那么在該節(jié)點(diǎn)就會有更多的記錄屬于這個(gè)類。因此,若使用如ID3和C5.0決策樹方法中的相應(yīng)不純性度量,該節(jié)點(diǎn)上的記錄將會被分配給此類。又因?yàn)槲覀儧Q定根據(jù)誤分類代價(jià)標(biāo)簽該節(jié)點(diǎn),所以我們應(yīng)該將該類的代價(jià)與它類的相對頻率相乘,這樣使得我們將更多的降低擁有更高相對頻率類的代價(jià)。故而,我們將減少選擇有較高頻率類的代價(jià)。順便說一下,我們傾向于在節(jié)點(diǎn)上用更高頻率的類。在CS-類概率方法
32、中,CP和CN的計(jì)算方法由下面的式(5)和式(6)給出: (5) (6)在CS基尼方法中,受到C&RT中使用的基尼不純性度量的啟發(fā),類概率的平方被集成到代價(jià)計(jì)算函數(shù)中,以另外一種方法來增加類分布對于節(jié)點(diǎn)代價(jià)的影響。我們將一個(gè)類的代價(jià)與它類相對頻率的平方相乘,從而比CS類概率方法能更多的降低高相對頻率類的代價(jià)。在CS基尼方法中,CP和CN的計(jì)算方法由下面的式(7)和式(8)給出: (7) (8)在CS信息增益方法中,受到ID3使用的信息增益不純性度量的啟發(fā),相對類概率的負(fù)對數(shù)被集成在代價(jià)計(jì)算函數(shù)中,以另外一種方式來增加類分布對于節(jié)點(diǎn)代價(jià)的影響。因?yàn)橄鄬︻l率的對數(shù)是非正值,所以我們乘以負(fù)1使其變?yōu)?/p>
33、非負(fù)。在CS信息增益方法中,CP和CN的計(jì)算方法由下面的式(9)和式(10)給出: (9) (10)在每一種情況下計(jì)算誤分類代價(jià)之后,如式(11)所示,選擇具有最小代價(jià)的情況作為該節(jié)點(diǎn)誤分類代價(jià)。節(jié)點(diǎn)上的交易被分配給具有最小總期望誤分類代價(jià)的類(N=正常,F(xiàn)=欺詐)。由于將欺詐標(biāo)記為欺詐和將合法標(biāo)記為合法的誤分類代價(jià)為0,所以它們是不會被包括在誤分類代價(jià)的計(jì)算中。該節(jié)點(diǎn)被標(biāo)記為具有最小總誤分類代價(jià)的標(biāo)記類,見式(12)。 (11) (12)在找到每個(gè)類的誤分類代價(jià)之后,被發(fā)現(xiàn)是欺詐的或是正常的類概率如下面的式(13)和式(14)所示。因?yàn)榉诸愃惴ɑ谡`分類代價(jià),所以當(dāng)一個(gè)類的誤分類代價(jià)更大時(shí),
34、成為另一個(gè)類的概率越大。因此,這導(dǎo)致誤分類代價(jià)越小的類將被選擇作為該節(jié)點(diǎn)的類。在一個(gè)節(jié)點(diǎn),一個(gè)類的誤分類代價(jià)越大,那么該節(jié)點(diǎn)上的記錄屬于該類的可能性越小。故而,在一個(gè)類誤分類代價(jià)和該類可能性(P)之間存在某種反比關(guān)系。 (13) (14)從根節(jié)點(diǎn)開始,每一個(gè)節(jié)點(diǎn)都會檢查在該節(jié)點(diǎn)分裂中最適合使用的變量,如果一個(gè)分裂是可能的,那么將會盡可能的減少總誤分類代價(jià)。根據(jù)變量類型分裂一個(gè)節(jié)點(diǎn)的方法如下:多分裂用于特征,而二元分裂用于數(shù)值(范圍)變量。在發(fā)現(xiàn)上述每個(gè)子節(jié)點(diǎn)(CCN)的代價(jià)之后,分裂后子層的總代價(jià)(CT)就如式(15)所示(假設(shè)分裂后有m個(gè)子節(jié)點(diǎn))。相比使用諸如增益率的公式,我們更喜歡在分裂之
35、后直接劃分子節(jié)點(diǎn)的數(shù)目,因?yàn)椋↙iu, 2009; Sheng等, 2006)表示這樣做不僅克服了信息增益的缺點(diǎn),同時(shí)建立了面向增益比的實(shí)際問題。 (15) 分裂之后,子節(jié)點(diǎn)代價(jià)之和除以子節(jié)點(diǎn)的數(shù)目使得相比導(dǎo)致更少分裂節(jié)點(diǎn)的變量,不會偏向選擇造成更多分裂節(jié)點(diǎn)的變量。如果子層的總代價(jià)比父節(jié)點(diǎn)的代價(jià)要小,那么就會有誤分類代價(jià)的減少,這個(gè)分裂就是要使用的候選。針對每個(gè)輸入變量,使用每一個(gè)可能的分裂在候選分裂中尋找最佳代價(jià)降低,并且在子層給出最佳代價(jià)降低的分裂將被選為該節(jié)點(diǎn)的分裂。如果沒有能造成代價(jià)降低的候選分裂,或者一個(gè)節(jié)點(diǎn)上的交易數(shù)目低于允許的最小交易數(shù)目,那么父節(jié)點(diǎn)將會被標(biāo)記為一個(gè)葉節(jié)點(diǎn)。通過節(jié)
36、點(diǎn)的誤分類代價(jià)計(jì)算,不僅僅是該節(jié)點(diǎn)的類,還有該節(jié)點(diǎn)上的交易是欺詐還是正常的概率也會被發(fā)現(xiàn)。5. 結(jié)果和討論在真實(shí)世界的例子中,大多數(shù)信用卡操作管理部門只有有限的員工來監(jiān)測欺詐警報(bào)。所以,許多欺詐檢測系統(tǒng)應(yīng)該展示其在一個(gè)固定數(shù)量欺詐警報(bào)情況下的最佳性能。就我們而言,我們的數(shù)據(jù)供應(yīng)商銀行僅僅檢查所有交易的8%。因此,我們根據(jù)分類模型給出的記錄欺詐可能性,對記錄在測試集中進(jìn)行排序,并在測試集前8%的風(fēng)險(xiǎn)交易中比較模型的性能。因?yàn)槊總€(gè)欺詐記錄的代價(jià)是不同的,所以每一個(gè)每一筆欺詐應(yīng)該根據(jù)其代價(jià)進(jìn)行優(yōu)先排序。從而,檢測一個(gè)具有高代價(jià)的欺詐應(yīng)該比檢測一個(gè)低代價(jià)的欺詐更為重要。于是,應(yīng)該根據(jù)誤分類代價(jià)來評估模
37、型的性能,也就是說比如準(zhǔn)確度或精度(或真陽率TPR)一類的常見性能指標(biāo)并不適合評價(jià)像這種情況一樣擁有不同誤分類代價(jià)的模型的性能。這就是為什么在測試集上使用挽回?fù)p失率(SLR)來比較性能,其表示從欺詐交易用卡的可用信用額度的潛在經(jīng)濟(jì)損失中挽回的百分比。為了表明我們觀點(diǎn)的正確性,模型性能的TPR值與SLR值一同給出。表3 ANN模型性能的統(tǒng)計(jì)學(xué)分析 ModelNMeanStd.dev.Std.error mean Group statistics SLRDynamic1086.892.859860.90437Quick1087.601.320770.41767 TPRDynamic1090.620
38、.833730.26365Quick1090.600.543650.17192Independent samples testLevenes test forequality ofvariancest-test for equality of meansFSig.tdfSig. (2-tailed)Mean differenceStd. error difference95% Confidence interval of the differenceLowerUpper SLREqual variances assumed16.8190.001-0.71318.0000.485-0.71000
39、0.99615-2.802841.38284Equal variances not assumed-0.71312.6720.489-0.710000.99615-2.867731.44773 TPREqual variances assumed4.5470.0470.06418.0000.9500.020000.31475-0.641260.68126Equal variances not assumed0.06415.4820.9500.020000.31475-0.649060.68906在本次研究中,在使用相同方法和不同參數(shù)開發(fā)的模型中,選擇表現(xiàn)出最佳性能的模型,并且將它們的性能與本研
40、究中定義的使用代價(jià)敏感決策樹算法建立的模型性能相比較。于是,在SPSS PASW Modeler中使用傳統(tǒng)決策樹方法建立的模型中選擇六種模型。這些模型是使用C5.0,CART,CHAID,帶有固定代價(jià)比5:1的CHAID(誤分類一個(gè)欺詐記錄的代價(jià)是誤分類合法記錄的5倍),Exhaustive CHAID(CHAID一個(gè)詳細(xì)展現(xiàn)預(yù)測變量合并和測試的擴(kuò)展),以及帶有5:1代價(jià)比率的Exhaustive CHAID。在人工神經(jīng)網(wǎng)絡(luò)模型中,兩個(gè)性能最佳的模型是在SPSS PASW Modeler中使用動(dòng)態(tài)和快速網(wǎng)絡(luò)建立的。在這個(gè)快速的方式中,訓(xùn)練了一個(gè)單隱層前饋BP神經(jīng)網(wǎng)絡(luò)。默認(rèn)情況下,該網(wǎng)絡(luò)具有一個(gè)
41、最多包含(3 * (ni + no) / 20)神經(jīng)元的隱藏層,其中ni表示輸入神經(jīng)元的數(shù)量,no表示輸出神經(jīng)元的數(shù)量。該網(wǎng)絡(luò)采用反向傳播方法訓(xùn)練。在動(dòng)態(tài)方法中,又訓(xùn)練了一個(gè)單隱層前饋神經(jīng)網(wǎng)絡(luò),然而,網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)在訓(xùn)練時(shí)發(fā)生了改變,神經(jīng)元不斷加入以提升性能直到該網(wǎng)絡(luò)達(dá)到期望的準(zhǔn)確率。有兩個(gè)地方需要?jiǎng)討B(tài)訓(xùn)練:尋找拓?fù)浣Y(jié)構(gòu)和訓(xùn)練最終網(wǎng)絡(luò)。對于不同的10個(gè)測試結(jié)果中的每一個(gè),動(dòng)態(tài)和快速方法在測試集上的性能統(tǒng)計(jì)是最好的。在TPR和SLR方面,并沒有發(fā)現(xiàn)這兩種人工神經(jīng)網(wǎng)絡(luò)方法的性能有統(tǒng)計(jì)學(xué)意義上的差別。詳細(xì)的分析在表3中給出。同時(shí)還在使用SVM方法建造的模型中選擇一個(gè)有最佳性能的模型。所有被選擇模型的
42、性能在表4中給出。在使用傳統(tǒng)方法建造的被選擇模型中,人工神經(jīng)網(wǎng)絡(luò)模型在欺詐捕獲或TPR方面表現(xiàn)出了最佳性能,并且其中一個(gè)在SLR方面有最佳性能。然而,在TPR和SLR方面,三個(gè)代價(jià)敏感決策樹模型的性能優(yōu)于所有其它模型。我們的CS直接代價(jià)方法僅僅使用誤分類代價(jià)去建造樹,故表現(xiàn)出最差的性能。盡管以前的研究指出只使用預(yù)期誤分類代價(jià)的方法性能優(yōu)于許多傳統(tǒng)的代價(jià)敏感方法(Ling等, 2004),圖1和圖2給出的我們的結(jié)果表示我們不能僅僅使用誤分類代價(jià)去分類,而且應(yīng)該描繪類分布和數(shù)據(jù)不純性在某些方面對我們代價(jià)計(jì)算的影響。表4 模型性能模型TPTPRSLR動(dòng)態(tài)-平均43990.686.9動(dòng)態(tài)-最佳4459
43、1.990.7動(dòng)態(tài)-最差43389.583.7快速-平均43990.687.6快速-最佳44391.589.6快速-最差43389.586.0C5.043590.085.0C&RT43189.084.7CHAID43589.984.7Exhaustive CHAID43589.984.7SVM(多項(xiàng)式)40283.178.3CS-直接代價(jià)(CFP=30)36174.673.3CS-類概率(CFP=50)44692.194.9CS-基尼(CFP=5)44992.895.8CS-信息增益(CFP=25)44892.695.2CFP表示假陽性的代價(jià)。圖1和圖2給出了在TPR和SLR這兩方面,使用如此組合構(gòu)建的代價(jià)敏感決策樹模型表現(xiàn)出最佳性能。對于人工神經(jīng)網(wǎng)絡(luò)模型和代價(jià)敏感決策樹模型,雖然性能TPR
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫(yī)療器械行業(yè)采購工作總結(jié)
- 婚慶行業(yè)品牌推廣案例
- 安防保安行業(yè)美工工作總結(jié)
- 金融行業(yè)員工培訓(xùn)
- 探索自我提升之路計(jì)劃
- 財(cái)務(wù)會計(jì)前臺工作總結(jié)
- 音樂錄制委托合同三篇
- 神經(jīng)內(nèi)科護(hù)理工作感悟
- 2024年瓦斯抽放管理制度
- 2024年稅務(wù)師題庫及參考答案(完整版)
- 網(wǎng)絡(luò)傳播概論(第5版) 課件 第一章 網(wǎng)絡(luò)媒介的演變
- 玻璃硝酸鉀加硬工藝
- 2023-2024學(xué)年江西省鷹潭市余江區(qū)八年級(上)期末數(shù)學(xué)試卷(含解析)
- 2023北京西城六年級(上)期末英語試卷含答案
- 珠海金灣區(qū)2023-2024學(xué)年七年級上學(xué)期期末數(shù)學(xué)達(dá)標(biāo)卷(含答案)
- 京東五力模型分析報(bào)告
- XX學(xué)校2024年校長務(wù)虛會講話稿范文
- 大學(xué)英語四級考試模擬試卷(附答案)
- 廣西壯族自治區(qū)欽州市浦北縣2023-2024學(xué)年七年級上學(xué)期期末歷史試題
- 法律英語 何家弘編 第四版課文翻譯(1-20課)
- 高級會計(jì)師 案例分析第五章 企業(yè)成本管理
評論
0/150
提交評論