




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、第31卷第5期021年9月武漢理工大學(xué)學(xué)報創(chuàng):會科學(xué)版)WUnIiTKO53tycllaHT:±5/ktiiSijgIfcftir?大型電商平臺消費貸產(chǎn)品風(fēng)控模型的構(gòu)建*汪曉曦。馬穎2<L無錫職業(yè)技術(shù)學(xué)院管理學(xué)院,江蘇無物214121;2.武漢理工大學(xué)管理學(xué)院,武漢43E)摘要:信用評分模型的構(gòu)建及應(yīng)用實施是學(xué)術(shù)界及工業(yè)界不斷研究創(chuàng)新的重要課題。從機(jī)器學(xué)習(xí)模型的構(gòu)建出發(fā)從建模指標(biāo)、模型構(gòu)建、模型上線后預(yù)期表現(xiàn)兒個角度說明了模型應(yīng)用策略。在建模指標(biāo)處理方面,采用原始變蟲wje變換作為XGIiMX.等模型的輸入變埴,并驗證了模型效果提升;在模型構(gòu)建上,創(chuàng)新采用多種算法單獨建模,用X
2、CFfcg.算法擬合各單模型輸出結(jié)果,證明復(fù)合模型效果有明顯提升在模型上線后預(yù)期表現(xiàn)方面提出了確定模型切分點的方法即從授信額度、風(fēng)險級別以及群體分布三個維度預(yù)測即將進(jìn)件群體的壞賬率。本研究最后結(jié)合模型表現(xiàn)及業(yè)務(wù)模式給出實施建議即對于部署難度高的復(fù)合模型可采用預(yù)授信的模式而LR評分卡模型部署可延用申清我信的模式。關(guān)鍵詞:信用評分;風(fēng)控模型;XGIMm;機(jī)器學(xué)習(xí);模型應(yīng)用策略中圖分類號:文獻(xiàn)標(biāo)識碼:/DOT:103交*j.ELl5n&177幺Zl.CB.CIM近6年來隨著電商平臺的迅猛發(fā)展消費金融產(chǎn)品層出不窮。這些產(chǎn)品依托電商平臺的天然流量優(yōu)勢迅猛發(fā)展從商城內(nèi)擴(kuò)展到商城外不斷拓展使用場景搶
3、占市場。在版圖的不斷擴(kuò)張中,信貸審批模型、模型在具體商業(yè)模式中的應(yīng)用也隨著用戶流量的擴(kuò)張、業(yè)務(wù)場景的拓展不斷更新迭代°。目前,在信貸審批模型中,算法稱旦秘依然是最為普及的,在-些特定的用戶群體和場景下依然有難以替代的地位依據(jù)該算法建立的評分模型規(guī)則簡單、邏輯清晰、解釋性強(qiáng)便于用戶理解。然而,LR模型并不能保證在各種場景、用戶群體中都有良好表現(xiàn)。比如從模型穩(wěn)定性考慮,LR模型用到的變量維度一般不超過15個,在整體自變量與因變量相關(guān)性都不高的情況下,有限的變量數(shù)量難以達(dá)到較好的模型表現(xiàn)。模型表現(xiàn)不夠理想直接影響到通過率及日后壞賬風(fēng)險會對商城信貸收益產(chǎn)生直接影響。在本研究項日中,商城平臺主
4、要信貸模型算法采用的就是LR模型,當(dāng)前IR模型的應(yīng)用在風(fēng)控能力及通過率表現(xiàn)方面能基本達(dá)成一個平衡但客戶仍然希望嘗試新的模型算法通過提升模型效果達(dá)到保證壞賬率不增長的前提下提高模型通過率的目的此外客戶尤其強(qiáng)調(diào)好的模型需要應(yīng)用于生產(chǎn)線產(chǎn)生實際效益若一個模型太過復(fù)雜導(dǎo)致部署周期長、出錯率高而難以實施也是沒有意義的。根據(jù)用戶的上述2個要求項目組從模型構(gòu)建出發(fā)提出確定模型切分點預(yù)測壞賬率的方法,并針對平臺實際不同業(yè)務(wù)場景及業(yè)務(wù)要求確立模型應(yīng)用的方法。首先在信貸風(fēng)控模型構(gòu)建上筆者參考了如下學(xué)者提出的方法并將該方法應(yīng)用在商城平臺上再根據(jù)平臺數(shù)據(jù)特點以及模型表現(xiàn)作數(shù)據(jù)特征提取及模型算法的改善。近年來信貸風(fēng)控領(lǐng)
5、域較受青睞的分類算法模型包括ITtimItsej以i策樹、SVMCc持向量機(jī)11、btrrbrnHzrcst睡機(jī)森林)、GROT哪度提升決策樹)、*»蔓京6及度梯度提升算法)、神經(jīng)網(wǎng)絡(luò)算法地gQE等。R14年,簫超武等在實證分析中將隨機(jī)森林組合分類算法與KNN、SVM等單分類器模型以及組合模型_蟲號丁比較,發(fā)現(xiàn)前者具有更高的精確度及穩(wěn)定性小。Z)17年將神經(jīng)網(wǎng)絡(luò)極限學(xué)習(xí)算法收稿日期ilEFOKK作者簡介:汪曉曦(9,女,湖北武漢人.無錫職業(yè)技術(shù)學(xué)院管理學(xué)院助教,通信與信息系統(tǒng)/市場營銷雙碩L,主要從申互聯(lián)網(wǎng)金融、數(shù)字金融等研究.通訊作者:馬穎國女,山東煙臺人.武漢理T大學(xué)管理學(xué)院教授
6、.博I:生導(dǎo)師.博I:立要從事營銷管理、風(fēng)險管理研究。玉基金項目:義衛(wèi)1年度無錫職業(yè)技術(shù)學(xué)院校級社科類課題氐年無錫職業(yè)技術(shù)學(xué)院“宵藍(lán)藍(lán)工程”肖年教師培養(yǎng)項目0l±t|_<5A,l<M-«tiTiS.I>liciToItfxriIVt<Jifo-O«Jt7r11aniriiJJ1.1-t.S/FloiiswitiiArpliqi,心J17做心$.BJIroCLixi,WliIWljIALlrpIAnK»<J】fcr'Ooiit.SterigLtigQctitIULit.SAEmjl.RW-wiHAntkzliiTscl
7、'ArtifiiihitcUiT<dl7>G5PydTO.lifl陳秋華,楊慈榮,崔恒建.變量篩選后的個人信貸評分模型與統(tǒng)計學(xué)習(xí)CrtxJ.數(shù)理統(tǒng)計與管理,fckOHOJ.皿x13=tr/j.ola.?-it03黃志剛,劉志患,朱建林.多源數(shù)據(jù)信用評級普適模型??蚣艿臉?gòu)建與應(yīng)用Er.數(shù)鼠經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究,多19,3603SrinSYHKJin11YnnHwitlT_yyyk>4sti_:rQ4O*i"JL/iTUcclSzft.Can-«4巴81643用>1皿M宋捷.商業(yè)銀行信用卡數(shù)字化轉(zhuǎn)型的路徑分析國.金融科技時代任k>bG)*14.
8、啟I?clcyA'TheiHEfcrtheaQxircAFieROCcLiAeEilhEuAtiiLrticncrnixJTiplQTritNetFzLrIJLUcrnKlV<r)0):1H541).16周蜿萍.基于機(jī)器學(xué)習(xí)方法的個人信用評價研究口.金融理論與實踐&DK3您)18.IffRRtJHLiriiVfeMirIhO.IXeiMr»>4will1Ll<fcii1Ltees-llwayatx_iAnJkttiTzuiLmGJcCSarfesjnNfcx-ciiitoltrctjliiiti<JAilifiiiirleUtecji?匕Lli
9、icii1WxkJStijXifi必IB18SzntnK.r*.,DivEko:>S.mJAjy>V.Ir>XMifiHTcerywrcHsctieIc3.F'fevIJUNT11FIean-gmK)CTmT.Cf7j<ziiJotrcW»>tijy4onM<4*ecTACMSIGKI1)iTtootxiiCooxo5KmvkmDwcxoyfiTlDtoMH'S*InnxitoKI、J.2DK5.0liinriiTxnJ11Kir«Vftmirj&ypKTKhrrXim7凈cfcrCko:qEnitkip才一/m*
10、cTSlr<i4if201,29白):lg42忍.,陳戰(zhàn)勇.珠聯(lián)璧合淫于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)借貸信用評分卡模型研究武漢金融goG)Hg.好鄧大松.我國jfij業(yè)銀行小微企業(yè)申請評分卡構(gòu)建及駛證研究廳.投資研究>2576):pmw.就任編輯文格)LeanRodLcfconLapEcmrnataFklErnRWANGXmd1,MA¥4宣(,9991 oflVkrvynsXiVVurcifcKitLlscjfTaJiTii/»WciKi214121JiLfyj4_iOtbtx2 SciTsiofMLiTntWLiTi-iMIO'HUxiqmix)z->lizc
11、tmE?a:j-KtrcclintiTdjqjlkzJtin<17tFocrodlLterxinxr±±isoninxxxtonL.5iiEl_<£cfn-tin_ri_krcy«xcinexndinFCxtmtiiTdncLFiry.ffemthnctj-rfrcclxnitf=cItt-oIsFtrir皿rnorteljliTtrtideoDbir-FiliiE?nrrtelFppfcFtja-!stmtejrfronnriii±<xji5tixrtxiiixlojxelttlcnlirx?nntlinerfctiifci
12、to.IntcniscCinoctiig丘rdttlo«r2t<tcj5*3r目,tlr?(詞rtilvertUc?wjottn1isl«jl!<astfr?ir匚丈ertL5k?crXGI1jl>1_trrdclltf1rri±±s»triJiLvunfxjdtpE?iinixcxcinLrl.cirtkonrx±±cfficL;iriUtl?irri±±c£TKtrx_diTi>c2txxiclyciZizritlFTTwzroctAnr-jXC2FtwjsuEodl
13、ofiLtoo_ljiMLTO-suhufkiinsi、*?nrr±i>vdihwKprcxccliIthLli-ocfforLcf、Uinj頊c?mnrHxfjk海礦ifBndyinarKerLIbebpFtirrwitfcnislirt,it.prepeesei.methodlocfetermipliiE?clJbcfTpriTtcrthenrxH01JUiEtclclijt.rstocf'tJr?itKJiiirg陵ffdiitfr?tfiGDciiioticnscf'aoJtlirr>tri5j<loxitriJcfeb±i_4i1
14、1.Ir1tfiispkpomijUMJcrtkiitr<_1ctJcyrrtretc?irrrxtljaJyccjm-lrurlwithinrjc±ipEEtfcxirtrLicXidIzt-binxiiisuiyjk£ntrl£:ti:Ti54_yticr«:lExcrjryjkcKwact;ctctiLsszto»rfeKcnTtrcLiinii;XGBoeL.;ntchfrqJGEmir目;nrrbLe(LM)用于消費信貸風(fēng)險管理,通過實驗發(fā)現(xiàn)該算法有計算量小、精準(zhǔn)度高的特點°。為17年,LjlqCtixjL采用UJSV
15、M、深度信念網(wǎng)絡(luò)63N)算法進(jìn)行信貸違約預(yù)測,發(fā)現(xiàn)O3N具有最好的預(yù)測效果心。羽9年,陳秋華等探討了不同連接函數(shù)下廣義線性模型的分類問題,將線性模型評價指標(biāo)與只F、SVM、*33tm等模型進(jìn)行分析比對,發(fā)現(xiàn)廣義線性模型中IR模型與SVM預(yù)測效果最佳山。R19年,黃志剛等人提出多源數(shù)據(jù)普適模型棧的概念,通過數(shù)據(jù)分類的自由選擇采用X由菱AL.算法生成子評分模型,再將子評分模型轉(zhuǎn)換為評分卡,通過實測證實有效兇。在參考上述學(xué)者選用的算法并結(jié)合商城平臺數(shù)據(jù)特點,本文最終選用了LR算法、決策樹算法、算法建立單模型。在LR模型變量交互方而,參比陳秋華5提出的變量相乘的交互方式,本文提出了用相關(guān)系數(shù)法尋找交互
16、變量的方法,并驗證了該方法的有效性。受黃志剛也】多源數(shù)據(jù)普適模型棧的想法啟發(fā),借用不同數(shù)據(jù)特點采用不同模型算法最后用XGIE:模型整合的思路,本文采取首先用多種算法建立單模型,再用各單模型的結(jié)果輸出作為復(fù)合模型的輸入建立復(fù)合模型的方法經(jīng)驗證復(fù)合模型效果較單模型有明顯提升。雖然學(xué)術(shù)界對風(fēng)控模型算法的討論十分熱烈然而對于客戶提出的第二點要求模型在生產(chǎn)線上的實際應(yīng)用方面卻略顯單薄。本文花了大量篇幅討論模型的應(yīng)用問題。首先傳統(tǒng)LR模型、復(fù)雜機(jī)器學(xué)習(xí)模型在實際部署應(yīng)用方面各有優(yōu)劣1JR模型部署通常借用風(fēng)控決策引擎來完成,優(yōu)勢為部署門檻低、部署時間短、結(jié)果可靠性強(qiáng)但模型效果不及復(fù)雜機(jī)器學(xué)習(xí)模型而復(fù)雜機(jī)器學(xué)
17、習(xí)模型雖在模型效果上更有優(yōu)勢但在部署方面由于受模型復(fù)雜程度、數(shù)據(jù)量級、部署場景、上線時間緊迫等因素制約不是都能滿足工程上的要求成功上線。所以,目前工業(yè)界在風(fēng)控模型部署上,仍是主流復(fù)雜機(jī)器學(xué)習(xí)模型部署還在不斷嘗試發(fā)展中不同體量的電商平臺復(fù)雜機(jī)器學(xué)習(xí)模型實施的普及程度也不一樣。對于本項目商城平臺剛開始嘗試復(fù)雜機(jī)器學(xué)習(xí)模型的部署,文章給出了兩者并舉的保守方案。本文首先提出風(fēng)控模型在應(yīng)用實施中不同切分點對應(yīng)的預(yù)測壞賬率然后比較并驗證了在相同風(fēng)險前提下1R模型與XC壯Sr.復(fù)合模型實際通過率差異,并結(jié)合具體業(yè)務(wù)模式及業(yè)務(wù)需求給出模型選擇的依據(jù)及部署方式。一、模型效果指標(biāo)評價模型評價指標(biāo)是用來評估模型對數(shù)
18、據(jù)的擬合能力二元分類的模型算法有很多但無論是哪種模型算法都可以使用AUCtol和KS這兩個指標(biāo)來衡量。AUC的取值為0.5LAUC值越高代表該算法對模型整體擬合能力越強(qiáng),AUC等于05代表模型沒有區(qū)辨能力,但大于0.9則模型擬合過于完美考慮異常,AUC在0.70.9之間的模型被視為可用。AUC在0.7與08之間代表模型有較好的區(qū)辨能力ALJC大于08代表模型有非常好的擬合能力。AUC取值與模型區(qū)辨能力對應(yīng)關(guān)系如表1所示。表1AIJC值對應(yīng)的模型區(qū)辨能力AUC05O5P.7OT'O-BO.9l.O模型區(qū)辨能力無區(qū)辨能力區(qū)筑能力較差可接受的區(qū)辨能力非常好的區(qū)辨能力老慮模型異常KS是評價模型
19、優(yōu)劣的另外一個常用指標(biāo)同樣KS值越大代表模型對數(shù)據(jù)擬合能力越強(qiáng)通常KS取值在CX20/75之間。與AUC不同的是,AUC是反應(yīng)模型整體對數(shù)據(jù)的擬合能力,而KS則指出在某一區(qū)段模型對目標(biāo)變量的辨識度最高。KS取值與模型區(qū)辨能力對應(yīng)關(guān)系如表2所示。表2KS值對應(yīng)的模型區(qū)辨能力KS<OJ2CX20.40.405050.75>0.75模型區(qū)辨能力無區(qū)辨能力可接受的區(qū)辨能力較好的區(qū)辨能力非常好的區(qū)辨能力考慮模型異常本文分析比較的4個模型IR模型、決策樹模型、XGHE單模型及土復(fù)合模型的效果均采用AUC值及KS值這兩個指標(biāo)來進(jìn)行評價。二、建模實證分析建模數(shù)據(jù)構(gòu)成及變量預(yù)處理目前該平臺信貸產(chǎn)品申
20、請用戶為在平臺商城近1年內(nèi)有過歷史交易記錄的用戶該產(chǎn)品運營己超過I年有充足的壞用戶積累。建模用戶群體我們選擇授信前1年內(nèi)在平臺商城內(nèi)有較為活躍表現(xiàn)的用戶,授信后612個月內(nèi)出賬次數(shù)大于等于6的用戶確立建模樣本。y定義方面通過分析逾期天數(shù)與回款率關(guān)系,以及通過逾期用戶壞賬滾動率分析后確定的跖。相同樣本,不同y定義,最終AUC和FS模型評價指標(biāo)會有較大差異。通常y定義越嚴(yán)格,模型指標(biāo)AUC及KS表現(xiàn)越好比如把進(jìn)入M4的用戶定義為壞用戶比把進(jìn)入M2的用戶定義為壞用戶有更好的模型表現(xiàn)。然而考慮到該評分卡是建立申請用戶審批模型,目的不是把最壞的用戶排除,而是把有可能進(jìn)入M3或M4的用戶攔截在外。所以,y
21、用戶定義采用進(jìn)入22或M3的用戶,但由于M3用戶數(shù)量有限所以把多次進(jìn)入M2的用戶列為壞用戶。經(jīng)過多次嘗試,得到y(tǒng)定義為至少有2次出賬且2次出賬的逾期天數(shù)均大于3D天曲入M2)的用戶為壞用戶,其余為好用戶。X變量共玨個,為用戶申請消費貸前平臺商城的歷史行為數(shù)據(jù)。從分類來看,可將X變量分為用戶基本信息、用戶申請渠道、用戶信用資質(zhì)、平臺活躍度、平臺交易信息、收貨方式、收貨人她址澹息等類別。數(shù)據(jù)樣本共lUKT個觀測值,其中壞用戶為1±13個±七比9:1。采用分層抽樣的方式將數(shù)據(jù)切分為7:3兩部分,前者用作模型訓(xùn)練及驗證,后者用于模型測試。在數(shù)據(jù)預(yù)處理環(huán)節(jié)對每個X變量作單變量分析進(jìn)行
22、變量-致性、完整性、準(zhǔn)確性檢驗剔除變量缺失率高于芻宓的變量;對變量進(jìn)行w*轉(zhuǎn)換并計算其2值,預(yù)測每個自變量X與因變量y的相關(guān)程度。在作變量心轉(zhuǎn)換時,對自變量排序后切分為1。等分進(jìn)行粗分箱,然后對變量分箱進(jìn)行合并,合并時確保變量g值為單調(diào)趨勢,各分箱觀測值數(shù)量不低于空個,且相鄰分箱的g值有較大差異。最后計算變量iv值,結(jié)果如圖1所示。細(xì)分箱后ivffi0.40|0.350.300.25o2o.o2o.UJZrWMn盤pooSAqrq«C38!>&E2IS8U:*poovEa4J£spoowa.C38t>&d-sx'luoglvtl8EBCI
23、S£4ve*ISAI-wnooipMg£uo£#c-mncssvJPPCpu”csSISsAEcolunlM«CBVnpovEMO房I7Jwwlficoe7«c8vl>salwvl£COCA#”一s-SI5H8l£»coewl?2-C38l>sWWIXVW0S3IVJ198#點-Mr一MIEVUI«c38l*xxel>mAJEgvluWImuoE7rl|UDfurSIc8wl%s& UJCPIMdIrxdrsmuoEKItelEncDIPUMhtaddcIsqluoUJn-
24、9;sc-三SIM97V1MgwlPUMIS£uo房言冬-岳g房nX£eQEMfr>ls«304 sl?xff%wluoW91HJ§,pu&Rxdrstyuoutf器忐一UM!lpu>dzlsuluo房9J138pu§vs£luo£!ltJ*C981>&«C8VX1OEXWCOC3#tlZ«3ICM3OC38l£S£l£$CA-S8ISAIc38lcovial£«8c3l7cn8u0909ddr£luoutfM5
25、050I1oo.o.o.UUlUIlllllliiiiniLm圖1心轉(zhuǎn)換后變呈*值匯總?cè)剩㊣單模型篩選出iv值大于0.1的經(jīng)過心轉(zhuǎn)換的自變量作為模型輸入變量,采用逐步回歸法篩選變量,模型置信度設(shè)為95%,y變量共2個取值,代表好用戶,1”代表壞用戶,以?!睘槟繕?biāo)構(gòu)建模型。在模型變量調(diào)整上通過計算自變量的相關(guān)性使相關(guān)性較大的變量組合盡可能避免同時出現(xiàn)在模型中。根據(jù)模型輸出結(jié)果刪除變量系數(shù)為正或者系數(shù)過小的變量以減小共線性對模型效果的影響。檢查進(jìn)入模型的x變量分類確保模型盡可能覆蓋到每個分類。檢查模型評分確保評分均勻分布。當(dāng)出現(xiàn)超過樣本量5%的觀測值對應(yīng)同一個評分時找到是哪個變量造成的用別的變量加
26、以替換。最后確認(rèn)模型,入模變量及模型參數(shù)如表3所示,模型變量分別為收貨人數(shù)量、近2個月的貨到付款次數(shù)、近3個月的貨到付款次數(shù)、近2個月拒收次數(shù)、近日個月每個月都有交易的月份數(shù)、近3個月交易金額、近3個月信用卡支付金額、近3個月借記卡支付次數(shù)、近3個月使用g登錄平臺次數(shù)、用戶婚姻狀況、用戶性別以及用戶進(jìn)件渠道。表3LR模型參數(shù)及最大似然估計分析結(jié)果參數(shù)估計標(biāo)準(zhǔn)誤差卡方Ft、卡方bntoccpt0.0125715一fiR<0.0001-OJ320.161OJ38O.CD13LtCccjlI|圣;cxxjLrO.G50.192.05O.GUUF5LkLBrirTlFiccnLl-0.773zl
27、lO.GOVkH-coEh-0.91O.K8.13<o.cmiLt=Linr-08O.CD31K<O.OJD1fesLLirrrtl-KarnLj*-ON0.124.7550.0535ktl.)Wicc口yrnitu、-030.1559O.Q>14ct:pyO.&0.1033.71<O.(JUD1Lti.3rrtIHscci_ttLj-ORO.GB-O.RO.k323.在<o.onoitoco:'O.JC2S.41<O.OJD1ctiircJj-Uo.a?<O.CJUD11點變量交互。在不改變?nèi)肽W兞繑?shù)量的前提下將入模變量與待選變量做交
28、互以達(dá)到提升模型整體效果的目的。通常待選變量W值過小難以進(jìn)入模型,但待選變量與模型變量涵蓋信息不同,LL與之交互的模型變量相關(guān)性低。為尋找待選變量,采用對需要交互的兩變量計算相關(guān)系數(shù)的辦法,最后發(fā)現(xiàn)兩組可以通過變量交互提升模型的變量。第一組,授信渠道”、商城卡包提取標(biāo)志”進(jìn)行變量交互替代原模型中技信渠道”變量;第二組,'婚姻狀況”、'客單價”進(jìn)行變量交互替代原模型中'客單價”變量交互后模型效果提升如下表所示,可以石出交互前后AUC沒有顯著提升但模型KS值約有6%。的提升。交互變量的加入可以小幅度提升模型效果,如表4所示。表4LR單模型變量交互結(jié)果數(shù)據(jù)集指標(biāo)未做變量交互交
29、互組一交互組二訓(xùn)練集_AlJCC.TiBO.77BO.77S)測試集TWOO.THDO.THDO.7HD訓(xùn)練集KS0.4310.400.5測試牝KSOZH50.120.132決策樹單模型。在決策樹模型構(gòu)建過程中使用了兩種葉節(jié)點分裂的算法,一個是埔分裂標(biāo)準(zhǔn),另一個是gnwrEJnitEV食且CHAID)分裂標(biāo)準(zhǔn),剪枝過程中均采用誤判率、最小葉子數(shù)作為剪枝標(biāo)準(zhǔn)心。兩模型輸入變量前者是原始變量,后者為經(jīng)過g舊轉(zhuǎn)換后的變量。本模型采用SASHOCHI王JT完成,通過對laWte奸節(jié)點最小觀測數(shù))、最小葉子數(shù)量、m水決QK嗷大樹深)、11日也0!±1很大分枝數(shù))參數(shù)調(diào)整完成決策樹的構(gòu)建。對每片
30、葉子目標(biāo)變量預(yù)測概率排序,通過計算每個概率分箱中累計好壞用戶的占比,得到AUC及KS值。結(jié)果如表5所示。表5決策樹算法結(jié)果模型變雖輸入分裂標(biāo)準(zhǔn)訓(xùn)練集測試集KSALJCKSAUC模型1原始變量炳0.714027O.7L2模型2WJE3變®IkLOIAJD0230.703O.C5J53 XGRt菱耳單模型。XCHjexL算法是由dm®基于FHcHrtnS'提出的*rfaithrEi飛?模型設(shè)計并對其優(yōu)化。史的思想是不斷通過種樹去迭代以減少上一輪的誤差,最終達(dá)到分類的目的。每一次迭代就是增加一顆新的樹對上次殘差進(jìn)行擬合。每顆樹的葉節(jié)點對應(yīng)一個分?jǐn)?shù)將每棵樹對應(yīng)的分?jǐn)?shù)相加得到
31、樣本的預(yù)測值。模型輸入變量為原始變量中定距TtcrvEil)變量,以及定類Nzmirol)、定序Ccfrul)變量經(jīng)過g變換的變量。調(diào)參過程中,首先確定函哮習(xí)率)和rxnutctixte代次數(shù))進(jìn)行粗調(diào),再確定ntjxC01H以及S33cl>最后采用網(wǎng)格搜索法對SLtKEIlplO'CCisaiplo進(jìn)行調(diào)參,用CV交叉驗證M1osdjcxncfe尋找最好迭代次數(shù),最后微調(diào)eta和mi確定最后參數(shù)。參數(shù)結(jié)果為:41a=0.1,rmxi_cb|jtK=1,SB3d=35,5<tHxr|zJeO.40.7>n_m_m_nzts一0.5,此參數(shù)下對應(yīng)的訓(xùn)練集、測試集AUG及
32、KS指標(biāo)如表6所示。表6單模型結(jié)果數(shù)據(jù)集KSAUC訓(xùn)練集OzSD0.793測試集4 *131式乩復(fù)合模型。將原變量、心轉(zhuǎn)換后的變量作為輸入Jxgst匕單模型、XGAjhaL單模型、決策樹模型的輸出結(jié)果作為復(fù)合模型*3ir«L的輸入,進(jìn)行模型訓(xùn)練,輸入指標(biāo)如圖2所示。*33復(fù)合模型輸入指標(biāo)包括5個單模型的輸出結(jié)果、原始變量以及經(jīng)過心轉(zhuǎn)化后的變量,其中5個單模型的輸出結(jié)果包含2種算法的決策樹預(yù)測概率、邏輯回歸模型預(yù)測概率及評分、MB單模型的預(yù)刪概率。上述模型輸入用一個潤模型整合得到最后的輸出結(jié)果。復(fù)合模型調(diào)參步驟與單模型類似,參數(shù)為feiF=C).1rrElrir5='dti
33、39;,ntiT?r3,mi-icHkl1>nriKcklh=0.7>rijrn_i<jLrri513D>tiTtiii=1,5。模型重要性指標(biāo)如圖3所小,.重要性最高的為單模型預(yù)測概率,其次為LR模型預(yù)測概率及轉(zhuǎn)換評分。模型結(jié)果如表7所示。xgb_pred_OtotalscorePuser.unitprice1ast_3months_appexpend_antlast_3months_applogon_countlast_6months_appexpend_anitlast_6months_applogon_countlast_6<nonth_cancel_co
34、untlast_12»onths_aj)pexpend_aatmeiBbcr_v_countlast_12month_cc_pay_amttree.ch.pOfurnigoods_amt_l12mlast_12months_expcnd_anit0510152025303540圖3XZB.Y夏合模型變量更要性表".工短合模型結(jié)果數(shù)據(jù)集KSGiriAUC訓(xùn)練集0.473O.CEDO.H15測試集0.456O.CD0X05模型指標(biāo)比較與評價。比較上述模型KS及指標(biāo)發(fā)現(xiàn)所有模型區(qū)辨能力都在訶接受及之上在木數(shù)據(jù)中決策樹模型表現(xiàn)最差,在可接受區(qū)辨能力邊緣LR模型和331菱以單模型AU
35、C有較好的表現(xiàn),其中XGH"E單模型比IR模型KS高出1.7%、AIJC高出1.5%,整體表現(xiàn)略優(yōu)于IR模型榮現(xiàn)最好的是XGHzE:復(fù)合模型,AUC達(dá)到03),進(jìn)入非常良好的區(qū)辨能力這一檔。模型在使用中需要確定切分分?jǐn)?shù)線即該分?jǐn)?shù)線以I、的用戶需要被排除。所以在模型評估中需要比較不同分?jǐn)?shù)段壞賬率及累計壞賬率。將生產(chǎn)實際中運用最為廣泛的IR模型、效果最優(yōu)的又由變丸復(fù)合模型進(jìn)行比較,對比的數(shù)據(jù)集為訓(xùn)練集+測試集。對預(yù)測概率進(jìn)行從小到大排序,切分為1O等分,每一等分用戶數(shù)量大致相同。為便于比較均使用預(yù)測概率表明分段范圍。兩模型結(jié)果如表8、表9所示。從分段壞賬率來看土復(fù)合模型比LR模型第一分段
36、高4.2%,如果切分分?jǐn)?shù)線劃在第一段,則XGI*t有明顯優(yōu)勢;從累計壞賬率來看,假設(shè)壞賬率差異小于1%就認(rèn)為模型效果無明顯差別,則模型切分點設(shè)在第三段時兩模型抓壞人”能力相同,LJR模型、gWt模型對應(yīng)切分概率分別為和O.9CB。表XLR模型分段表現(xiàn)預(yù)測概率分段壞用戶好用戶KS分段壞賬率/%案計壞賬率/%分段概率范圍數(shù)量分段占累計占LL/%數(shù)量分段占tt/%累計占比/%1OlSlC.TtTB3537257J272.OJ3B13353壬322缶.78958.916.10395123.32783PH132«.O9H39.6窮.7OZTiB13323.04C.9RB1O193783101/
37、110.135»O.-3519319.65635.683.9KBl1050*375.66O.SE51O.G17575.1&.Oion10.735.95.070.619£514.6KTrl1OJ5G7.4035184.613.48353J2AY231127850.1心3.1112.0921l.SJ<JB.7K以310.7O.C1也1.910.91OC.raO1513KT)KTB1OJ=?1GDo.crm1.410.0總計1±1S1GD1G0E121GDQ.O表少復(fù)合模型分段表現(xiàn)預(yù)測概率.分段壞用戶好用戶分段壞累計壞分段概率范圍數(shù)量分段占世%累計占Lt/
38、%數(shù)底分段占粉累計占比/%KS賬率/%賬率/%1OSll0.72R5I3D56.76.7023D53DJ522312D.70X215J50.443520.73D.13OELHO.9CB213812372.5QO9.7玉30.4727以32124O.9Q32O.<jr>l958.681.11OZ2ION35.4O.d5JO8.62D35O.QD1f5.GKT551OJ5佑.9O.<H55.617.46企<1).5KJiB10.73B.6033)13«815.17354.9<55.410.6宓24.913.68232.1KW510.97B.12.11229O
39、.9735O.£HI>161.4£8.9LICE11.0國QO.CEE21.411.01OO.9HJD'O.<il21巴1.11GD.O11GB11.0KJD.OO.GOUD1.110.0總計U1SKIXOICUHKJD.OOz4Z)KXO三、模型選擇及部署實施探索L)風(fēng)險評估評分模型在風(fēng)控策略中有兩個重要作用:-個是確立拒絕分?jǐn)?shù)線即小于某預(yù)測概率評分的用戶拒絕授信另一個是根據(jù)預(yù)測概率評分劃分風(fēng)險等級、確定授信額度。評分模型設(shè)立的目的是為了讓壞賬率在可控范圍內(nèi)那如何利用評分模型預(yù)測進(jìn)件用戶的壞賬率便成了關(guān)鍵。電商平臺消費貸產(chǎn)品通常是分期的,根據(jù)消費貸產(chǎn)品
40、設(shè)計,若用戶在某一期還款截止日io天內(nèi)未還清賬款,賬戶自動凍結(jié)。賬款催收方面,逾期9天以內(nèi)的賬款由平臺內(nèi)部催收部門催收,逾期超過90天槌入Ml)的賬戶因賬款難以回收故采用外包形式催問金額與外包公口J按比例分成。所以這里我們把進(jìn)入Ml逾期天數(shù)9D天)的用戶記為環(huán)賬用戶,未還清金額包括已出賬、未出賬)記為壞賬余額,表現(xiàn)時長取1年。由于使用余額、壞賬余額是一個動態(tài)平衡的過程這里選取時點數(shù)據(jù)來定義以賬戶成功授信之日起1年為時間節(jié)點,壞賬率定義為壞賬余額與使用余額之比。在作風(fēng)險評估方面,需要用到2個群體己授信群體和即將進(jìn)件群體。已授信群體定義為成功授信且表現(xiàn)期滿1年的用戶:即將進(jìn)件群體定義為近一個月內(nèi)申
41、請授信的用戶。將UR模型、XCltoM復(fù)合模型分別運用到2個群體上得到每個用戶的預(yù)測概率。根據(jù)模型壞賬率劃分風(fēng)險等級,并將風(fēng)險等級、用戶授信額度等級繪制成交叉表,如表Q所示。單元格內(nèi)壇、營甄分別是己授信群體的壞賬余額、使用余額以及用戶數(shù)量,其中腳標(biāo)3代表授信額度等級8代表風(fēng)險等級。表K)風(fēng)險額度交叉表授信額度額虹等級不同預(yù)測概率/風(fēng)險等級卜的壞賬余額、余額、用廣數(shù)6.91»1風(fēng)險等級16用Q.9i風(fēng)險等級2風(fēng)險等級3風(fēng)險等級4Jq.tzV風(fēng)險等級5&ooD,Kiir)0ibii七11<4Hbig»<Ji31>11<-114<41!<
42、;J152CJzi1212111drs<K»bCfars3卜,是lai迅&EEuod»hdod>4b”H_l|iK_|nbizh3<-l>3Hl”bi1i1<115JibGar)<«r)5t>3iCJfu氐353t>311051CJT5BBR,將模型運用于進(jìn)件用戶群體,進(jìn)件用戶群體的用戶數(shù)量記為Q麻,這里云榮分別為額度等級、風(fēng)險等級,等級劃分方式如表1O所示。風(fēng)險等級1為最低,風(fēng)險等級5為最高。壞賬率記為BRiii9有:Z晶冬")i-is-i6假設(shè)壞賬率最高不超過某一值,記為BR”、,計算BRmWB
43、Rg的最大m值,大于m的風(fēng)險等級用戶即為需要拒絕的用戶。以此確定模型拒絕用戶的切分點,記為Peu白)通過率評估通過率評估是將評分模型應(yīng)用到當(dāng)前進(jìn)件用戶模擬進(jìn)件用戶通過率的方式。通常業(yè)務(wù)部門與風(fēng)控部門為通過率博弈,業(yè)務(wù)部門要求更高的通過率,風(fēng)控部門則通過模型優(yōu)化在保證風(fēng)險的前提下提高通過率但模型評價指標(biāo)越好并不意味著使用該模型就一定有更高的通過率。本文采用傳統(tǒng)IR單模型、心«七復(fù)合模型進(jìn)件通過率的模擬驗證以上觀點。設(shè)計思路為上述兩模型應(yīng)用于1C史N名即將進(jìn)件用戶群體,并計算其預(yù)測概率。分別對兩模型預(yù)測概率進(jìn)行從小到大排序每一個預(yù)測概率對應(yīng)與風(fēng)控模型中累計壞用戶數(shù)對應(yīng)而預(yù)測概率在該進(jìn)件用
44、戶群體的分位數(shù)即為拒絕率進(jìn)而計算得到進(jìn)件群體的通過率。本文通過作圖的方法比較LR模型與XGISUlkL復(fù)合模型相同風(fēng)控效果對應(yīng)的通過率。以累計壞用戶數(shù)作為橫軸,進(jìn)件用戶通過率拒絕率炸為縱軸分別對兩模型作散點圖結(jié)果如圖4所示。從圖4中可以看出兩模型頭尾幾乎是重合的只在中間段看出差異。通過計算得到在'抓壞人”能力相同條件下兩模型通過率最大差異為7.9%,對應(yīng)的IR模型和XCBtK復(fù)合模型通過率分別為4KS%和渚業(yè)務(wù)部門要求715%以上的通過率敏設(shè)容差為2%),且風(fēng)險在可以接受范國內(nèi),兩模型則在風(fēng)險能力控制和通過率上幾乎沒有差別。如表11所示。模型部署實施評估與建議對于傳統(tǒng)LR模型部署一般是
45、線上實施審批采用風(fēng)控決策引擎部署。主流的風(fēng)控決策引擎包括FICO公司的13皿和麗gm公司的SMG3。風(fēng)控決策引擎負(fù)責(zé)入?yún)?、出參的配置,以及結(jié)果調(diào)用。風(fēng)控決策引擎使操作簡單易學(xué),門檻低,上手快,例如LR模型1O15個變量的配置,1個小時就能完成。然而對于復(fù)雜的機(jī)器學(xué)習(xí)算法上百個模型變量上千次的學(xué)習(xí)迭代以及復(fù)雜的預(yù)測概率計算,圖4LR模型與復(fù)合模型通過率最大無異表11LR模型與合模型通過率對比累計壞用戶數(shù)LR模型通過率/%復(fù)合模型通過率/%通過率相差儀91R-1.077用2.0畢一717.918117.52.0-1.0若在決策引擎上部署就變得難以實施。當(dāng)下對于復(fù)雜機(jī)囂學(xué)習(xí)模型部署方式還在探索中。目
46、前,-般采用預(yù)測模型標(biāo)準(zhǔn)語言NM1.),該語言可以在不同數(shù)據(jù)挖掘工具和不同應(yīng)用系統(tǒng)之間交換挖掘模型,實現(xiàn)模型的部署。雖然,在機(jī)器學(xué)習(xí)模型應(yīng)用方面的應(yīng)用實施還在發(fā)展中,除了不同的數(shù)據(jù)挖掘廠商支持的模型類型有限外,F(xiàn)MMI,在執(zhí)行過程中還出現(xiàn)數(shù)據(jù)廠商生成的PMMK與標(biāo)準(zhǔn)定義的Sthcnm有偏差導(dǎo)致最終結(jié)果的偏差等問題。然而,縱有這么多問題,模型效果的優(yōu)勢是不容置疑的,而且機(jī)器學(xué)習(xí)的發(fā)展己成為趨勢。綜上所述,在模型應(yīng)用選擇方面,無論是應(yīng)用最為廣泛的模型還是上面提到的類似*33復(fù)合模型的機(jī)器學(xué)習(xí)模型都是有利有弊的。前者部署門檻低部署高效,模型本身有較好的解釋性但模型應(yīng)用效果不及后者后者模型效果整體優(yōu)于前者但對于部署人員來說門檻較高且部署過程中產(chǎn)生的各種問題還在不斷嘗試解決中。然而模型的應(yīng)用、部署實施上線并不是一個二選一的問題。本文建議模型選取要結(jié)合具體業(yè)務(wù)指標(biāo)、風(fēng)控指標(biāo)、模型效果還有具體商業(yè)模式來確定。在線實施審批的風(fēng)控模型一定要上生產(chǎn)線但機(jī)器學(xué)習(xí)的模型應(yīng)用不一定要上生產(chǎn)線可以采用離線方式部署其對應(yīng)的商業(yè)模式為預(yù)授信。預(yù)授信模式是從待選的用戶池中篩選出優(yōu)質(zhì)用戶為其打上授信標(biāo)簽,包括是否授信及授信額
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中國優(yōu)柯米晶藥品市場調(diào)查研究報告
- 2025年中國不銹鋼單杯市場調(diào)查研究報告
- 2025年碳酸甲乙酯項目合作計劃書
- 2025年乙二醇辛醇糠醇項目發(fā)展計劃
- 2025貸款質(zhì)押合同協(xié)議
- 《帶通濾波電路》課件
- 《常見下肢靜脈疾病》課件
- 2025年造紙黑液堿回收成套裝置項目發(fā)展計劃
- 2025年起 勞動合同將明確寫入繳納公積金條款
- 2025標(biāo)準(zhǔn)企業(yè)員工勞動合同
- 設(shè)備維護(hù)工程師簡歷
- 2023版押品考試題庫必考點含答案
- 挖孔樁基施工方案(水磨鉆)
- 變電檢修技能考試計算
- 國際經(jīng)濟(jì)法學(xué)(湘潭大學(xué))智慧樹知到答案章節(jié)測試2023年
- 以案說德發(fā)言四篇
- 大氣污染控制工程課后題答案解析
- 臨床試驗倫理委員會倫理審查不同意見溝通的標(biāo)準(zhǔn)操作規(guī)程
- 梅毒診療指南(2023年)
- 高中物理3-3熱學(xué)練習(xí)題(含答案)
- DB32-T 3916-2020建筑地基基礎(chǔ)檢測規(guī)程-(高清現(xiàn)行)
評論
0/150
提交評論