數(shù)據(jù)建模:個(gè)人信用分是如何計(jì)算出來(lái)的?_第1頁(yè)
數(shù)據(jù)建模:個(gè)人信用分是如何計(jì)算出來(lái)的?_第2頁(yè)
數(shù)據(jù)建模:個(gè)人信用分是如何計(jì)算出來(lái)的?_第3頁(yè)
數(shù)據(jù)建模:個(gè)人信用分是如何計(jì)算出來(lái)的?_第4頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余1頁(yè)可下載查看

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、.數(shù)據(jù)建模:個(gè)人信用分是如何計(jì)算出來(lái)的? 無(wú)論是金融、互聯(lián)網(wǎng)企業(yè)亦或運(yùn)營(yíng)商,都在基于多年積累的大數(shù)據(jù)搭建個(gè)人征信評(píng)分體系,不僅用于自身,也在提供給其他征信機(jī)構(gòu)做為個(gè)人信用評(píng)估標(biāo)準(zhǔn)。那么,個(gè)人的信用分到底是如何計(jì)算出來(lái)的呢?筆者相信不同的信用分有不同的計(jì)算方法,無(wú)論是FICO評(píng)分、芝麻信用亦或其它信用分,這些評(píng)分既可以很簡(jiǎn)單,也可以很復(fù)雜,使用的建模方法各不同,但也總是會(huì)遵循一些基本的原則,這里筆者就信用分計(jì)算的一些關(guān)鍵技術(shù)作簡(jiǎn)要介紹,希望于你有益。一、業(yè)務(wù)分析我們?cè)跇?gòu)建信用評(píng)分的時(shí)候,首先當(dāng)然要定義何謂信用高,何謂信用低的用戶(hù),這是建模的起點(diǎn),銀行會(huì)基于用戶(hù)的還貸歷史來(lái)確定高低信用用戶(hù),但如果

2、是第三方企業(yè),則需要基于自身的業(yè)務(wù)特點(diǎn)定義出類(lèi)似的高低信用用戶(hù),即正負(fù)樣本,比如運(yùn)營(yíng)商可能會(huì)基于通信欠費(fèi)來(lái)確定高低信用用戶(hù)的樣本,當(dāng)然這也是遠(yuǎn)遠(yuǎn)不夠的,需要從更多的途徑獲取,比如可以免費(fèi)獲取法院公示的老賴(lài)名單等。二、變量初選身份特征、消費(fèi)能力、信用歷史、行為偏好及人脈關(guān)系是當(dāng)前業(yè)界評(píng)估信用的五個(gè)方面,很多信用評(píng)分體系都基于此而來(lái),當(dāng)然,不同行業(yè)由于數(shù)據(jù)不同,因此形成的具體明細(xì)指標(biāo)肯定也有明顯的差異,比如針對(duì)身份特征,可能選擇的具體指標(biāo)包括婚姻、年齡、職業(yè)、性別等等,諸如運(yùn)營(yíng)商可以有幾十個(gè)指標(biāo)來(lái)表征身份特征,五個(gè)方面的涉及的具體指標(biāo)更是多達(dá)上百個(gè),因此,關(guān)鍵的下一步就是如何刪選合適的變量。三、特

3、征刪選很多新手喜歡用越多的變量來(lái)建模,以為多多益善,其實(shí)不然,變量篩選的目在于去除對(duì)于模型預(yù)測(cè)準(zhǔn)確提升無(wú)效甚至影響模型預(yù)測(cè)效果的無(wú)用變量, 比如兩個(gè)相關(guān)變量的同時(shí)存在往往會(huì)導(dǎo)致準(zhǔn)確性下降。特征的選擇有很多方式,比如IV值的判斷,這里以隨機(jī)森林來(lái)示例,隨機(jī)森林算法能夠輸出每個(gè)變量對(duì)模型預(yù)測(cè)的重要性大小,重要性越大代表該變量對(duì)于提升模型預(yù)測(cè)準(zhǔn)確度所做貢獻(xiàn)就越大,反之如果重要度值為負(fù),就代表該變量加入會(huì)降低模型預(yù)測(cè)準(zhǔn)確度,所以在該步驟直接選擇基于模型輸出結(jié)果來(lái)完成變量篩選,以下是示例:經(jīng)過(guò)隨機(jī)森林初步篩選,和變量預(yù)測(cè)探索分析,最終五個(gè)維度共輸入XX個(gè)變量分別進(jìn)入模型訓(xùn)練。四、算法選擇一般會(huì)采用log

4、istic分類(lèi)算法,在輸入數(shù)據(jù)形式的標(biāo)準(zhǔn)與線性回歸基本一致。在選擇邏輯回歸時(shí),注意要進(jìn)行數(shù)據(jù)預(yù)處理,最主要是兩點(diǎn):1、 離散變量啞變量處理。離散變量不適用于線性分類(lèi)模型中,建議轉(zhuǎn)化為0,1類(lèi)變量,例如用戶(hù)行業(yè)字段,存在8個(gè)類(lèi)別(學(xué)生、工人、公務(wù)員),經(jīng)過(guò)啞變量轉(zhuǎn)化處理的話,該字段轉(zhuǎn)化為8個(gè)變量:是否學(xué)生,是否工人,是否公務(wù)員)。2、 變量線性化處理。對(duì)于線性分類(lèi)算法,指標(biāo)與目標(biāo)變量之間呈現(xiàn)線性關(guān)系,對(duì)于變量的預(yù)測(cè)效果會(huì)更好,但實(shí)際數(shù)據(jù)往往都是非線性表示,因此為提升模型預(yù)測(cè)效果,需要針對(duì)連續(xù)型且非單調(diào)性變量進(jìn)行WOE處理,用WOE值替換指標(biāo)值,以實(shí)現(xiàn)數(shù)據(jù)之間的線性關(guān)系。WOE計(jì)算公式為 WOE=

5、ln(%good/%bad),其中%good表示違約用戶(hù)構(gòu)成。%bad表示好樣本用戶(hù)構(gòu)成。以資金字段為例:接下來(lái)就是用邏輯回歸進(jìn)行模型訓(xùn)練,從而獲得概率值。五、評(píng)分卡轉(zhuǎn)換1、評(píng)分卡刻度那么如何將概率值轉(zhuǎn)化為評(píng)分呢,其實(shí)怎么算都可以,這里采用評(píng)分卡轉(zhuǎn)換的方式,具體網(wǎng)上都有詳細(xì)解釋?zhuān)@里簡(jiǎn)要講下,違約與正常比率被定義為一個(gè)記錄被劃分為違約的估計(jì)概率與被劃分為正常的估計(jì)概率之間的比率,將估計(jì)違約概率用p表示,估計(jì)正常概率為1-p。因此可定義發(fā)生比:Odds=p/(1-p)評(píng)分卡設(shè)定的分值刻度是可以將分值表示為比率(Odds)的線性表達(dá)式來(lái)定義。如下所示:Score=A-B*log(Odds)其中:A

6、,B都為常數(shù)。其中A成為補(bǔ)償分?jǐn)?shù),B稱(chēng)為刻度,它們可以通過(guò)兩個(gè)已知或者假設(shè)的分值代入計(jì)算得到,一是在某個(gè)特定比率設(shè)定特定的預(yù)期分值,二是指定比率翻番的分?jǐn)?shù)(PDO)。首先,設(shè)定比率y的特定點(diǎn)的分值為P0,然后,比率為2y的點(diǎn)的分值為P0 PDO,代入上式可以得到如下兩個(gè)等式:P0=A-B*log(y)P0 PDO=A-B*log(2y)解上述兩方程中的常數(shù)A和B,可以得到:B=PDO/log(2)A=P0 B*log(y)在這里可以借鑒標(biāo)準(zhǔn)FICO信用分與違約率的定義,比如B=58,A=437,計(jì)算分?jǐn)?shù)公式則為:Score=437-58*log(Odds)最終可以得到該模型的評(píng)分卡刻度情況最終

7、結(jié)果,如下表所示:2、分值分配對(duì)于logistic回歸算法,odds也可以表示為:log(Odds)=B0 B1*X1 B2*X2 BnXn由此可得:Score=437-58*(B0 B1*X1 B2*X2 BnXn)由于建模過(guò)程所有變量都有使用WOE轉(zhuǎn)換,因此可以將分值分配到每個(gè)變量取值上去,以下是示例:這樣,我們就得到了用戶(hù)的信用各個(gè)變量取值的信用分值。六、確定五個(gè)維度的權(quán)重用戶(hù)的信用分總分是基于五個(gè)大維度綜合權(quán)重計(jì)算獲得的,當(dāng)前每個(gè)大維度信用分(該維度涉及很多變量)已經(jīng)可以通過(guò)前面計(jì)算得到,總信用分表達(dá)式如下:Total_score=a1*score1 a2*score2 a3*scor

8、e3 a4*score4 a5*score5。網(wǎng)上公開(kāi)的芝麻信用的五個(gè)大維度的最終權(quán)值是信用歷史(35%)、行為偏好(20%)、履約能力(25%)、身份特質(zhì)(15%)及人脈關(guān)系(5%),各類(lèi)信用評(píng)分體系權(quán)重肯定是不同的,因?yàn)橛胁煌募s束條件,需要計(jì)算得到a1,a2,a3,a4,a5。七、模型效果評(píng)估信用評(píng)分模型主要從準(zhǔn)確性,區(qū)分度等方面來(lái)進(jìn)行評(píng)估。1、準(zhǔn)確性:感受性曲線下面積(ROC_AUC)是一個(gè)從整體上評(píng)價(jià)模型準(zhǔn)確性的指標(biāo),是感受性曲線(ROC)與橫軸之間的面積。相比于其他評(píng)價(jià)指標(biāo),感受性曲線(ROC)具有一定的穩(wěn)定性,它不會(huì)因?yàn)檎?fù)樣本分布的變化而產(chǎn)生不同的曲線。感受性曲線(ROC)通過(guò)

9、真陽(yáng)率(True Positive Rate, TPR)和假陽(yáng)率(False Positive Rate, FPR)兩個(gè)指標(biāo)進(jìn)行繪制,感受性曲線(ROC)示意如圖1所示,感受性曲線下面積(ROC_AUC)取值范圍為0,1,取值越大,代表模型整體準(zhǔn)確性越好。2、區(qū)分度:區(qū)分度指標(biāo)(KS)是度量具體模型下正常樣本和違約樣本分布的最大差距,金融領(lǐng)域評(píng)估信用模型的一個(gè)核心方法,首先按照樣本的信用分?jǐn)?shù)或預(yù)測(cè)違約率從小到大進(jìn)行排序,然后計(jì)算每一個(gè)分?jǐn)?shù)或違約率下好壞樣本的累計(jì)占比,正常和違約樣本的累計(jì)占比差值的最大值即為區(qū)分度指標(biāo)(KS),區(qū)分度指標(biāo)(KS)的示意如圖所示,區(qū)分度指標(biāo)(KS)小于0.2代表模型準(zhǔn)確性差,超過(guò)0.75則代表模型準(zhǔn)確性高??梢钥吹?,信用分的計(jì)算過(guò)程借助了一般的建模方法,也有其自身的特點(diǎn),信用分要建的好,還有很多的工作要做:一是為了讓信用分具備可解釋性,需要量化每個(gè)變量每個(gè)區(qū)間的信用分值分

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論