




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
機器學習反欺詐實踐:Pythonscikit-learn隨機森林 作者:JunHe出處:CSDN將機器學習算法用于金融領(lǐng)域的一個很好的突破口是反欺詐,在這篇博文中,WePay介紹了支付行業(yè)構(gòu)建機器學習模型應(yīng)對很難發(fā)現(xiàn)的shellselling欺詐的實踐心得。WePay采用了流行的Python、scikit-learn開源學習機器學習工具以及隨機森林算法。以下是文章內(nèi)容:什么是shellselling?雖然欺詐幾乎涉及各種領(lǐng)域,但相對于傳統(tǒng)的買方或賣方僅僅擔心對方是否是騙子,支付平臺需要擔心的是交易雙方。如果其中任何一方存在信用詐騙,真正的持卡人發(fā)現(xiàn)和撤銷費用,平臺自身就要進行賬單償還。shellselling是在這種情況下特別受關(guān)注的欺詐類型的一種。基本上,當交易雙方都帶有欺騙性質(zhì)時,這種模式便會發(fā)生,比如說有一個犯罪分子用偷來的一個信用卡賬戶來支付兩筆支付。shellselling可能很難發(fā)現(xiàn),因為這些欺騙者姿態(tài)很低調(diào)。他們通常沒有多少“真正”的客戶,所以你不能依靠用戶反饋結(jié)果,用這種方式你會碰到更多傳統(tǒng)的欺騙者。當一個商人在一個很短的時間段里獲得了來自同一個IP的一堆付款時,這很明顯,但主導(dǎo)這種欺詐罪行的情況往往比這還要復(fù)雜很多。他們常常使用各種各樣的技術(shù)來隱藏自己的身份和逃避偵測。由于shellselling是一個普遍的難題,而且很難被發(fā)現(xiàn),所以我們決定建立一個機器學習算法來幫助抓住它。構(gòu)建機器學習算法注意事項在WePay,我們采用Python建立整個機器學習的流程,采用流行的scikit-learn開源學習機器學習工具包。如果你還沒有使用過scikit-learn,我強烈建議你嘗試。對于欺詐模型這類需要不斷重新訓練和快速部署的任務(wù),它有很多優(yōu)點:scikit-learn使用一個統(tǒng)一的API來跨不同機器學習算法實現(xiàn)模型擬合與預(yù)測,使得不同算法之間的代碼復(fù)用真正有效。網(wǎng)絡(luò)服務(wù)(webservices)的評分可以利用Django或Flask直接進行基于Python的服務(wù)器托管,從而使部署更為簡單。我們只需要安裝scikit-learn,復(fù)制導(dǎo)出模型文件和必要的數(shù)據(jù)處理管道代碼到網(wǎng)絡(luò)服務(wù)實例用于啟動。整個模型的開發(fā)和部署周期完全用Python獨立編寫。這給了我們一個超過其他流行機器學習語言像R或SAS的優(yōu)勢,后者需要模型在投入生產(chǎn)之前被轉(zhuǎn)換成另一種語言。除了通過消除不必要的步驟簡化了開發(fā),這還給予我們更多的靈活性來嘗試不同的算法,因為通常情況下,這個轉(zhuǎn)換過程并不好處理,它們在另一個環(huán)境中的麻煩會多于價值。算法:隨機森林(RandomForest)回到shellselling,我們測試了幾種算法,然后選定能給以我們最好的性能的算法:隨機森林。隨機森林是LeoBreiman和AdeleCutler開發(fā)的一種基于樹形結(jié)構(gòu)的集成方法,由Breiman于2001年在機器學習期刊的評議文章中首次提出[1]。隨機森林在訓練數(shù)據(jù)的隨機子集上訓練許多決策樹,然后使用單個樹的預(yù)測均值作為最終的預(yù)測。隨機子集是從原始的訓練數(shù)據(jù)抽樣,通過在記錄級有放回抽樣(bootstrap)和在特征級隨機二次抽樣得到。我們嘗試的算法的召回率,隨機森林提供了最佳的精度,緊隨其后的是神經(jīng)網(wǎng)絡(luò)和另外一種集成方法AdaBoosto相比于其他算法,隨機森林針對我們碰到的各類欺詐數(shù)據(jù)有許多的優(yōu)勢:基于集成方法的樹可以同時很好地處理非線性和非單調(diào)性,這在欺詐信號中相當普遍。相比之下,神經(jīng)網(wǎng)絡(luò)對非線性處理地相當不錯,但同時受到非單調(diào)性的羈絆,而邏輯回歸都無法處理。對于使用后兩種方法來處理的非線性和/或非單調(diào)性,我們需要廣泛的和適當?shù)奶卣鬓D(zhuǎn)換。隨機森林需要最小的特征預(yù)備和特征轉(zhuǎn)換,它不需要神經(jīng)網(wǎng)絡(luò)和邏輯回歸要求的標準化輸入變量,也不需要聚類和風險評級轉(zhuǎn)換為非單調(diào)變量。隨機森林相比其他算法擁有最好的開箱即用的性能。另一個基于樹的方法,梯度提升決策樹(GBT),可以達到類似的性能,但需要更多的參數(shù)調(diào)優(yōu)。隨機森林輸出特征的重要性體現(xiàn)在作為模型訓練的副產(chǎn)品,這對于特征選擇是非常有用的[2]。隨機森林與其他算法相比具有更好的過擬合(overfitting)容錯性,并且處理大量的變量也不會有太多的過擬合[1],因為過擬合可以通過更多的決策樹來削弱。止匕外,變量的選擇和減少也不像其他算法那么重要。下圖是隨機森林與其競爭對手的對比情況:訓練算法我們的機器學習流程遵循一個標準程序,包括數(shù)據(jù)抽取、數(shù)據(jù)清洗、特征推導(dǎo)、特征工程和轉(zhuǎn)換、特征選擇、模型訓練和模型性能評價:洞察經(jīng)過大量的訓練,我們的隨機森林算法對于shellselling的識別已經(jīng)成為現(xiàn)實,并且積極地阻止欺詐。當然我們還需要大量的工作去選擇、訓練和部署該算法,但是它已經(jīng)使得我們的風險流程更加健壯,且有能力使用更少的人工來檢查抓住更多的欺詐。在同一欺詐召回率,這一模型的精度是不斷調(diào)整和優(yōu)化規(guī)則的2-3倍。使用這種算法,除了得到明顯的好處以外,我們對于數(shù)據(jù)和建模過程中使用的方法也有了更多的理解:通過特征選擇的過程,我們發(fā)現(xiàn)對這種欺詐行為最有預(yù)測力的特征是速度型的變量。這些包括用戶的交易量、設(shè)備、真正的IP和信用卡。我們還發(fā)現(xiàn),設(shè)備ID、銀行賬戶和信用卡等賬戶相關(guān)特性都是很有用的,如多個賬戶登錄到一個設(shè)備,以及多重提款到一個銀行賬戶。風險等級的分類變量,如電子郵件域,應(yīng)用程序ID、用戶的國家,以及一天中的時間風險評級,也證明了高度預(yù)測性。數(shù)字足跡諸如瀏覽器語言、操作系統(tǒng)字體、屏幕分辨率、用戶代理、flash版本等對于反欺詐是有點用的。稍微有更多預(yù)測性的是在人們隱藏他們的數(shù)字足跡過程當中,例如VPN隧道或虛擬機和TOR的使用。我們還發(fā)現(xiàn)模型性能迅速惡化。這真的不是一個驚喜一一騙子不斷改變他們的方法來避免檢測,所以即使是最好的模型,如果不改變也終將過時。但是我們非常驚訝這發(fā)生的速度有多快。對shellselling而言,在模型訓練后僅僅第一個月精度便下降一半。因此,經(jīng)常刷新模型來保持高檢測精度對于欺詐檢測的成功是至關(guān)重要的。不幸的是,頻繁刷新暴露出他們自己的問題。雖然刷新模型盡可能經(jīng)常是理想的,但是在使用最近的事務(wù)數(shù)據(jù)來訓練模型時必須格外小心。欺詐標簽可以需要一個月成熟,所以事實上使用最近的數(shù)據(jù)也會污染模型。和我們最初的假設(shè)不同,利用最新數(shù)據(jù)在線學習并不會總能得到最好的結(jié)果。隨機森林是一個生產(chǎn)高性能模型的優(yōu)異的機器學習算法,然而,它通常被用來作為一個黑盒方法。這是一個問題,因為我們并不是試圖要完全削減人類的全部過程,而且很有可能無法做到即使我們愿意。人類分析師總是希望得到原因代碼,告訴他們?yōu)槭裁词虑楸粯擞浿髞硪龑?dǎo)他們的案件審查。但隨機森林,就其本身而言,不能隨時提供原因代碼。解釋模型數(shù)據(jù)是困難的,而且還可能涉及挖掘“森林”的結(jié)構(gòu),這可以顯著提高評分的時間。實際上,為了應(yīng)對這個問題,WePay的數(shù)據(jù)科學團隊發(fā)明了一種新的私有方法可以從隨機森林算生成原因代碼,我們?yōu)檫@種方法申請了臨時專利。結(jié)論風險管理技術(shù)是WePay的核心。風險管理不僅僅是技術(shù),它還體現(xiàn)了人類和技術(shù)無縫合作的伙伴關(guān)系。它在很大程度上仍然是人類不得不思考的方式,騙子可以攻擊一個支付系統(tǒng),編寫規(guī)則來阻止它們,而且還是一個經(jīng)驗豐富的專業(yè)人員,當它下跌到“明顯欺詐”和“顯然合法”之間的灰色地帶時,它必須像經(jīng)常處理的那樣,做出判斷是否阻止交易。這就是為什么我們?nèi)绱伺d奮于機器學習和人工智能。我們并非試圖取代人類,只是希望機器智能更加聰明更好地工作,而我們可以集中人類智慧關(guān)注其他的大難題。引文[1]MachineLearning,October2001,Volume45,Issue1,pp5-32[2]RobinGenuer,Jean-MichelPoggi,ChristineTuleau-Malot.Variableselectionusi
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 教育信息化建設(shè)疫情后推進計劃
- 五年級數(shù)學(小數(shù)乘法)計算題專項練習及答案匯編
- 風險管理在醫(yī)藥供應(yīng)鏈-全面剖析
- 基于EEG-EMG的上肢康復(fù)系統(tǒng)設(shè)計
- 2025幼兒園秋季文化活動工作計劃
- 基于核心素養(yǎng)的初中數(shù)學跨學科教學現(xiàn)狀調(diào)查及策略研究
- 數(shù)字化轉(zhuǎn)型對電影業(yè)的影響-全面剖析
- 金融科技對我國上市商業(yè)銀行全要素生產(chǎn)率的影響研究
- 全蝎膏治療濕熱毒盛型糖尿病足的臨床研究
- 高中英語作文與口語表達結(jié)合范文
- 2024廣西公務(wù)員【申論A卷、C卷+2023申論A卷】共3套真題及答案
- 《多樣的中國民間美術(shù)》課件 2024-2025學年人美版(2024)初中美術(shù)七年級下冊
- 人教版 七年級 下冊 語文 第四單元《青春之光》課件
- 2024物業(yè)管理數(shù)字化升級服務(wù)合同
- 灌漿作業(yè)安全操作規(guī)程(3篇)
- 藥品追回管理制度內(nèi)容
- 二戰(zhàn)時期的中國抗日戰(zhàn)爭
- 35kv變電站設(shè)備安裝工程施工設(shè)計方案
- 煤炭清潔高效利用對策
- DB32-T 4174-2021 城市居住區(qū)和單位綠化標準
- 人音版音樂七年級上冊《友誼地久天長》課件
評論
0/150
提交評論