信用評(píng)分模型的理解和學(xué)習(xí)_第1頁(yè)
信用評(píng)分模型的理解和學(xué)習(xí)_第2頁(yè)
已閱讀5頁(yè),還剩5頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、信用評(píng)分模型的理解和學(xué)習(xí)本文將圍繞以下幾點(diǎn)進(jìn)行介紹:信用風(fēng)險(xiǎn)信用評(píng)分信用評(píng)分模型建立的基本流程信用風(fēng)險(xiǎn)我們先說(shuō)一下,風(fēng)險(xiǎn)管理的發(fā)展歷程,風(fēng)險(xiǎn)管理最早起源于美國(guó)。1931年由美國(guó)管理協(xié)會(huì)保險(xiǎn)部最先倡導(dǎo)風(fēng)險(xiǎn)管理,后面在全球流行開(kāi)來(lái),隨著互聯(lián)網(wǎng)的迅猛發(fā)展,大數(shù)據(jù)、數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)等新興技術(shù)開(kāi)始出現(xiàn),讓風(fēng)險(xiǎn)管理更為精準(zhǔn)。他們通過(guò)收集銀行系統(tǒng)本身的征信數(shù)據(jù)以及用戶(hù)在互聯(lián)網(wǎng)上的的各種數(shù)據(jù),包括人際關(guān)系、歷史消費(fèi)行為、身份特征等,通過(guò)大數(shù)據(jù)“畫(huà)像”技術(shù),對(duì)用戶(hù)進(jìn)行全面的定位,由此來(lái)預(yù)測(cè)用戶(hù)的履約能力、降低信貸風(fēng)險(xiǎn)。什么是信用風(fēng)險(xiǎn)?說(shuō)簡(jiǎn)單點(diǎn)就是違約風(fēng)險(xiǎn),是指借款人或交易的對(duì)方因種種原因,不愿或無(wú)力履行合同條

2、件而構(gòu)成違約,致使銀行、投資者或交易對(duì)方遭受損失的可能性。近年來(lái)消費(fèi)金融一直在迅速增長(zhǎng),比如汽車(chē)貸款,住房貸款,信用卡貸款,小額貸款等,增長(zhǎng)趨勢(shì)迅猛,對(duì)于可自動(dòng)化對(duì)風(fēng)險(xiǎn)評(píng)估非常有必要的,通過(guò)對(duì)申請(qǐng)人信用評(píng)分來(lái)降低風(fēng)險(xiǎn)信用評(píng)分信用評(píng)分基本原理是什么呢?基于對(duì)大數(shù)據(jù)的統(tǒng)計(jì)分析,根據(jù)客戶(hù)的資料信息,對(duì)客戶(hù)信用進(jìn)行評(píng)估(打分)信用的風(fēng)險(xiǎn)評(píng)級(jí):申請(qǐng)者評(píng)級(jí):個(gè)人客戶(hù)申請(qǐng)融資類(lèi)業(yè)務(wù)時(shí)提交的數(shù)據(jù)進(jìn)行評(píng)級(jí),(A卡)行為評(píng)級(jí):個(gè)人客戶(hù)的歷史行為數(shù)據(jù)進(jìn)行評(píng)級(jí),對(duì)客戶(hù)可能出現(xiàn)的逾期、延期等行為進(jìn)行預(yù)測(cè)(B卡)催收評(píng)級(jí):對(duì)業(yè)務(wù)中存量客戶(hù)是否需要催收的預(yù)測(cè)(C卡)欺詐評(píng)級(jí):業(yè)務(wù)中新客戶(hù)可能存在的欺詐行為的預(yù)測(cè)(F卡)信用

3、評(píng)分卡以一種分?jǐn)?shù)的手段來(lái)衡量風(fēng)險(xiǎn)概率的方式,分?jǐn)?shù)高代表信用越好根據(jù)信用評(píng)級(jí)的,分為四種評(píng)分卡:申請(qǐng)?jiān)u分卡,行為評(píng)分卡,催收評(píng)分卡,欺詐評(píng)分卡本文以申請(qǐng)?jiān)u分卡模型為例申請(qǐng)人信用評(píng)分條件說(shuō)明在申請(qǐng)人信用評(píng)分中,貸方需要對(duì)申請(qǐng)人是否會(huì)在未來(lái)一段時(shí)間12個(gè)月內(nèi)出現(xiàn)90天以上的逾期支付進(jìn)行評(píng)估。信用評(píng)分模型建立的基本流程明確問(wèn)題在開(kāi)發(fā)信用風(fēng)險(xiǎn)模型之前,首先要明確我們需要解決的問(wèn)題,確定是哪類(lèi)問(wèn)題,是申請(qǐng)人評(píng)分卡模型,還是行為評(píng)分卡模型,本文主要以申請(qǐng)?jiān)u分卡模型,主要目的是區(qū)分好壞客戶(hù)。數(shù)據(jù)獲取銀行自有的數(shù)據(jù)和第三個(gè)機(jī)構(gòu)數(shù)據(jù)(芝麻信用等)數(shù)據(jù)清洗缺失值處理:缺失比較少可以用均值,眾數(shù),中位數(shù)等填充;也可以

4、用機(jī)器學(xué)習(xí)模型來(lái)填充缺失值(常見(jiàn)算法有隨機(jī)森林,決策樹(shù),kNN等),通過(guò)算法來(lái)擬合數(shù)據(jù)。異常值處理:首先要對(duì)異常值進(jìn)行檢測(cè):可以用四分位數(shù)(結(jié)合可視化,箱線(xiàn)圖,散點(diǎn)圖等觀測(cè)數(shù)據(jù)),基于統(tǒng)計(jì)學(xué)的方法:例如基于正態(tài)分布的一元離群點(diǎn)檢測(cè)方法;距離算法:LOF檢測(cè),通過(guò)對(duì)每個(gè)點(diǎn)p和其領(lǐng)域點(diǎn)的密度來(lái)判斷點(diǎn)是否為異常點(diǎn)。然后處理異常值:刪除異常值;視為缺失值,用缺失值的處理方法處理;平均值來(lái)修正;不處理。異常值和缺失值處理,一定要結(jié)合實(shí)際情況。數(shù)據(jù)探索獲得變量數(shù)據(jù)的分布狀況等特征選擇變量選擇,對(duì)變量離散化,篩選出對(duì)目標(biāo)變量影響最顯著的指標(biāo)特征選擇,在數(shù)據(jù)中是非常中重要,目的在于幫助我們挑選出最有意義的特征

5、。具體特征選取方法可參考這兩篇文章:機(jī)器學(xué)習(xí)特征選擇簡(jiǎn)明指南,結(jié)合Scikit-learn介紹幾種常用的特征選擇方法-羅兵-博客園信用評(píng)分模型的變量選擇中,一般采用特征分箱的方法對(duì)特征進(jìn)行離散化,讓模型更加穩(wěn)定,再通過(guò)woe編碼,用通過(guò)基尼系數(shù)或信息價(jià)值IV找到顯著特征項(xiàng),具體woe和IV學(xué)習(xí)參考這兩篇文章數(shù)據(jù)挖掘模型中的IV和WOE詳解-CSDN博客,InformationValue(IV)&WeightofEvidenee(WOE)-BankingCaseStudy。模型建立WOE轉(zhuǎn)化證據(jù)權(quán)重WOE轉(zhuǎn)化,將篩選后的變量轉(zhuǎn)為為WOE值,便于信用評(píng)分邏輯回歸模型建立在信用評(píng)分卡建模中,

6、用到最常用的方法就是邏輯回歸,通過(guò)Logistc回歸分析,預(yù)測(cè)好壞客戶(hù)的概率。Logistic回歸在信用評(píng)分卡開(kāi)發(fā)中起到核心作用。由于其特點(diǎn),以及對(duì)自變量進(jìn)行了證據(jù)權(quán)重轉(zhuǎn)換(WOE),Logistic回歸的結(jié)果可以直接轉(zhuǎn)換為一個(gè)匯總表,即所謂的標(biāo)準(zhǔn)評(píng)分卡格式.邏輯回歸的本質(zhì)就是將線(xiàn)性回歸預(yù)測(cè)的值轉(zhuǎn)換為0-1的概率值,簡(jiǎn)單說(shuō)明下,考慮具有N個(gè)獨(dú)立變量的向量x=(,.),設(shè)條件概率P(y=1|x)=p為根據(jù)某件事x發(fā)生概率,通過(guò)下面回歸模型表示為:其中某件事x不發(fā)生概率為:事件發(fā)生比:,客戶(hù)的違約概率P=經(jīng)過(guò)對(duì)數(shù)轉(zhuǎn)化,模型評(píng)估K-S指標(biāo),ROC和AUC,評(píng)估模型的區(qū)分能力、預(yù)測(cè)能力、穩(wěn)定性,具體參

7、考ROC、K-S,教你巧妙使用模型評(píng)價(jià)指標(biāo)如何評(píng)估一個(gè)機(jī)器學(xué)習(xí)模型ROC值一般在0.5-1.0之間。值越大表示模型判斷準(zhǔn)確性越高,即越接近1越好。ROC=0.5表示模型的預(yù)測(cè)能力與隨機(jī)結(jié)果沒(méi)有差別,AUC系數(shù)越高,模型的風(fēng)險(xiǎn)區(qū)分能力越強(qiáng)。KS值表示了模型正負(fù)區(qū)分開(kāi)來(lái)的能力。值越大,模型的預(yù)測(cè)準(zhǔn)確性越好。一般,KS>0.2即可認(rèn)為模型有比較好的預(yù)測(cè)準(zhǔn)確性,KS值只能反映出哪個(gè)分段是區(qū)分最大的,而不能總體反映出所有分段的效果,因果AUC值更能勝任。信用評(píng)分將Logistic模型轉(zhuǎn)換為標(biāo)準(zhǔn)評(píng)分的形式評(píng)分標(biāo)準(zhǔn):變量的值決定了該變量所分配的分值,總分就是各變量分值的和評(píng)分卡設(shè)定的分值刻度可以通過(guò)將

8、分值表示為違約和正常概率比對(duì)數(shù)的線(xiàn)性表達(dá)式為:為模型參數(shù),式中的常數(shù)A、B的值可以通過(guò)將兩個(gè)已知或假設(shè)的分值帶入計(jì)算得到。通常情況下,需要設(shè)定兩個(gè)假設(shè):(1)給某個(gè)特定的比率設(shè)定特定的預(yù)期分值;(2)確定比率翻番的分?jǐn)?shù)(PDO)根據(jù)以上的分析,我們首先假設(shè)比率為x的特定點(diǎn)的分值為P。貝此匕率為2x的點(diǎn)的分值應(yīng)該為P+PDO。代入式中,可以得到如下兩個(gè)等式:假設(shè)設(shè)定評(píng)分卡刻度使得比率為1:20(違約正常比)時(shí)的分值為50分,PDO為10分,代入式中求得:B=14.43,A=6.78(閥值的設(shè)定需根據(jù)行業(yè)經(jīng)驗(yàn)不斷跟蹤調(diào)整則分值的計(jì)算公式可表示為:評(píng)分卡刻度參數(shù)A和B確定以后,就可以計(jì)算比率和違約概率,以及對(duì)應(yīng)的分值了。通常將常數(shù)A稱(chēng)為補(bǔ)償,常數(shù)B稱(chēng)為刻度。式中:變量x1.xn是出現(xiàn)在最終模型中的自變量,即為入模指標(biāo)。由于此時(shí)所有變量都用WOE轉(zhuǎn)換進(jìn)行了轉(zhuǎn)換,將自變量進(jìn)行轉(zhuǎn)化式中為第i行第j個(gè)變量的WOE,為已知變量;為邏輯回歸方程中的系數(shù),為已知變量;為二元變量,表示變量i是否取第j個(gè)值。Score表

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論