2019年金融風(fēng)控行業(yè)大數(shù)據(jù)分析報告_第1頁
2019年金融風(fēng)控行業(yè)大數(shù)據(jù)分析報告_第2頁
2019年金融風(fēng)控行業(yè)大數(shù)據(jù)分析報告_第3頁
2019年金融風(fēng)控行業(yè)大數(shù)據(jù)分析報告_第4頁
2019年金融風(fēng)控行業(yè)大數(shù)據(jù)分析報告_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

金融風(fēng)控行業(yè)大數(shù)據(jù)分析報告2

CONTENTS目錄理解金融科技價值開發(fā)金融風(fēng)控模型創(chuàng)新金融風(fēng)控體系0102033PART1理解金融科技價值44.34.34.95.98.412.715.129.61.11.01.01.01.31.71.72.0-0.52.005102520153020102011201220132014201520162020E不良貸款余額(千億人民幣)不良貸款率(%)

近幾年,銀行業(yè)的不良貸款規(guī)模和不良貸款率大幅攀升?近年來,中國宏觀經(jīng)濟正面臨嚴峻挑戰(zhàn),銀行業(yè)不良資產(chǎn)規(guī)模迅速攀升。截至2016年第四季度,

商業(yè)銀行不良貸款余額達15122億元,預(yù)計到2020年,這一數(shù)字將上升至3萬億元。

2010-2016年,商業(yè)銀行不良貸款規(guī)模和不良貸款率

年增速1.5

18%1.052.43.04.66.97.88.29.418.30.010.0

5.020.015.020102011201220132014201520162020E年增速

18%

非銀金融機構(gòu)的潛在不良資產(chǎn)也浮出水面?非銀金融近年來也迎來了蓬勃發(fā)展,但由于其業(yè)務(wù)“高風(fēng)險、高收益”的特性突出,加之風(fēng)控方

面相對薄弱,因而面臨的不良資產(chǎn)風(fēng)險更甚于商業(yè)銀行。預(yù)計2020年非銀不良貸款規(guī)模將達到

約1.8萬億元。

2010-2016年,非銀金融機構(gòu)不良貸款規(guī)模(千億人民幣)

現(xiàn)在金融科技來了,它將改變傳統(tǒng)金融模式?

互聯(lián)網(wǎng)金融僅是匆匆過客,金融科技才是終極風(fēng)口。

互聯(lián)網(wǎng)科技?

互聯(lián)網(wǎng)科技僅僅只是一把尖刀,只會對金融行業(yè)

進行漫無目的分解,最終不僅讓人大汗淋漓,而

且無法真正解決金融行業(yè)本身的痛點和難題。?

以風(fēng)控為例,互聯(lián)網(wǎng)金融時代之所以會有諸多亂

象主要是因為行業(yè)和用戶發(fā)生了變化而風(fēng)控方式

沒有發(fā)生改變所導(dǎo)致的。

金融科技?

真正與金融行業(yè)深度融合的金融科技則具備破解

金融行業(yè)痛點和難題的潛質(zhì),并有望將金融行業(yè)

的發(fā)展帶入到一個全新的發(fā)展階段。?

通過將大數(shù)據(jù)、智能科技的手段應(yīng)用到金融行業(yè)

的風(fēng)控環(huán)節(jié)當(dāng)中就能夠達到這樣的效果,海量的

數(shù)據(jù)樣本為我們提供了豐富的用戶和項目標本,

通過這些數(shù)據(jù),我們不僅能夠?qū)崿F(xiàn)用戶與項目的

完美對接,而且能夠讓預(yù)判到項目的風(fēng)險等級,

提前對項目運行做出預(yù)判,提升金融行業(yè)的安全

性。而智能科技的應(yīng)用則能夠減少人力成本,提

升金融行業(yè)的運行效率,通過建立智能風(fēng)控的模

型,我們用智能機器人或智能模型來代替大部分

的人工,從而進一步提升金融行業(yè)的效率。

67金融科技正在推動金融服務(wù)領(lǐng)域創(chuàng)新與重塑改變玩法1?

將移動裝置、社交媒介、分

布式分類帳系統(tǒng)等技術(shù)和新

方法應(yīng)用于金融服務(wù)領(lǐng)域?

如:加密貨幣、智能合約、

機器學(xué)習(xí)/人工智能工具,運

用社交網(wǎng)絡(luò)來預(yù)測市場動向挑戰(zhàn)中介2?

運用新技術(shù)和新工具,旨在

通過金融脫媒,提高客戶獨

立性?

如:買方對買方網(wǎng)絡(luò)、P2P

外匯和貸款平臺、幫助投資

者自主進行交易決策的認知

智能工具改良賦能3?

幫助金融機構(gòu)克服傳統(tǒng)的結(jié)

構(gòu)性障礙和工作流程挑戰(zhàn)?

如:更好觸達,更好運營,

更好體驗

客戶關(guān)系管理工具供應(yīng)商、

債券匹配代理商、KYC/AML

(了解你的客戶/反洗錢)工

具、分析、監(jiān)控和網(wǎng)絡(luò)安全

工具改變玩法型企業(yè)將成為顛覆式

創(chuàng)新的重要組成力量顛覆式創(chuàng)新的業(yè)務(wù)模式將逐漸成為金融機構(gòu)核心業(yè)務(wù)模式的

重要推動因素金融科技應(yīng)用主要覆蓋八大領(lǐng)域

支付支付處理,轉(zhuǎn)帳,移動支付,外匯,信用卡,預(yù)付費卡,獎勵計劃

數(shù)據(jù)&分析大數(shù)據(jù)解決方案,數(shù)據(jù)可視化,預(yù)測分析,數(shù)據(jù)提供商

保險經(jīng)紀,承保,理賠,風(fēng)險管理工具

借貸/眾籌眾籌平臺,社交借貸,抵押&企業(yè)貸款

區(qū)塊鏈

投資&交易區(qū)塊鏈協(xié)議開發(fā),數(shù)字貨幣,

投資管理,機器人咨詢,智能合同,區(qū)塊鏈支付&結(jié)

交易定價&算法,交易IT,算,資產(chǎn)&身份管理

交易平臺,經(jīng)紀,清算

規(guī)劃業(yè)務(wù)流程自動化,客戶關(guān)系管理,合規(guī)&了解客戶,庫存&供應(yīng)鏈管理

安全數(shù)字身份,身份驗證,欺詐管理,網(wǎng)絡(luò)安全,數(shù)據(jù)加密

89金融科技涵蓋大數(shù)據(jù)、人工智能等更高層次技術(shù)

人工智能

大數(shù)據(jù)

互聯(lián)技術(shù)分布式技術(shù)

安全移動互聯(lián)

云計算生物識別物聯(lián)網(wǎng)區(qū)塊鏈

加密金融大數(shù)據(jù)在信貸領(lǐng)域有廣泛的應(yīng)用,重點是風(fēng)控????大數(shù)據(jù)覆蓋信貸領(lǐng)域各個流程,重點是獲客、身份驗證和授信環(huán)節(jié)獲客環(huán)節(jié)建立用戶畫像跟蹤用戶完整生命周期身份驗證環(huán)節(jié),通過活體識別等技術(shù)解決申請人是否本人的問題,關(guān)聯(lián)分析則是利用圖關(guān)聯(lián)技術(shù),找出欺詐團伙授信環(huán)節(jié)匯聚多方數(shù)據(jù)源,通過建模進行風(fēng)險定價,金融科技服務(wù)商輸出信用評分給機構(gòu)使用

獲客用戶畫像智能營銷智能客服生命周期管理

10身份驗證

反欺詐活體識別關(guān)聯(lián)分析

授信風(fēng)險定價信用評分

貸中監(jiān)控交易反欺詐

貸后管理智能催收11大數(shù)據(jù)與其它技術(shù)的融合將顯著提升風(fēng)控效果

算法大數(shù)據(jù)

風(fēng)控

算力云計算增強計算能力

AI技術(shù)提升

算法能力

數(shù)據(jù)物聯(lián)網(wǎng)和區(qū)塊鏈解決數(shù)據(jù)問題?

大數(shù)據(jù)、AI技術(shù)的融合和優(yōu)化,提升大數(shù)據(jù)風(fēng)控?

活體識別、OCR、聲紋識別、虹膜識別等多種技術(shù)融

合,提供更加全面的身份識別,降低欺詐風(fēng)險的發(fā)生?

通過算法調(diào)優(yōu)和計算能力提升,半監(jiān)督學(xué)習(xí)等技術(shù)正在應(yīng)

用到反欺詐等風(fēng)控場景,降低對專家經(jīng)驗和數(shù)據(jù)的依賴?

區(qū)塊鏈技術(shù)使數(shù)據(jù)共享成為可能,徹底解決數(shù)據(jù)孤島問題?

區(qū)塊鏈技術(shù)解決了數(shù)據(jù)共享的信任問題,規(guī)定了數(shù)據(jù)使用

的邊界,保證了數(shù)據(jù)的一致性。通過區(qū)塊鏈建立多方數(shù)據(jù)

共享平臺,解決數(shù)據(jù)孤島問題,將降低金融機構(gòu)獲取數(shù)據(jù)

的門檻與成本?

物聯(lián)網(wǎng)提供線下數(shù)據(jù),豐富數(shù)據(jù)緯度?

通過傳感器等設(shè)備采集線下數(shù)據(jù),如車聯(lián)網(wǎng)數(shù)據(jù),將豐富

車險駕駛行為數(shù)據(jù)維度,從而實現(xiàn)風(fēng)險定價?

建立金融云平臺,毫秒級響應(yīng)?

通過金融云平臺,金融機構(gòu)可以處理PB級數(shù)據(jù),同時應(yīng)

對百萬流量,極大提高風(fēng)控系統(tǒng)的響應(yīng)速度12PART2開發(fā)金融風(fēng)控模型133.1特征衍生3.2特征抽象

3.3特征縮放

3.4特征選擇4.1處理樣本不平

衡4.2構(gòu)建分類器進行訓(xùn)

練5.1交叉驗證+搜索調(diào)優(yōu)參

數(shù)5.2性能評估1.

場景解析2.

數(shù)據(jù)預(yù)處理3.

特征工程4.

模型訓(xùn)練5.

模型評估與

優(yōu)化1.1項目背景1.2場景分析

2.1數(shù)據(jù)獲取

2.2缺失值處

理2.3數(shù)據(jù)過濾

貸款違約預(yù)測模型-總體架構(gòu)?

以貸款違約預(yù)測為例,開發(fā)金融大數(shù)據(jù)風(fēng)控模型。

貸款違約預(yù)測模型14貸款違約預(yù)測模型-1.場景解析1.1項目背景?

作為一家個人對個人的借貸公司--ABC公司成立于2006年。與傳統(tǒng)借貸機構(gòu)最大的不同是,ABC利用網(wǎng)絡(luò)技術(shù)打造的

這個交易平臺,直接連接了個人投資者和個人借貸者,通過此種方式,縮短了資金流通的環(huán)節(jié),尤其是繞過了傳統(tǒng)的

大銀行等金融機構(gòu),使得投資者和借貸者都能得到更多實惠、更快捷。對于投資者來說可以獲得更好的回報,而對于

借貸者來說,則可以獲得相對較低的貸款利率。?

本項目通過利用P2P平臺Lending

Club的貸款數(shù)據(jù),進行機器學(xué)習(xí),構(gòu)建貸款違約預(yù)測模型,對新增貸款申請人進行預(yù)測是否會違約,從而決定是否放款。1.2場景分析?

貸款申請人向ABC平臺申請貸款時,業(yè)務(wù)平臺通過線上或線下讓客戶填寫貸款申請表,收集客戶的基本信息,這里包

括申請人的年齡、性別、婚姻狀況、學(xué)歷、貸款金額、申請人財產(chǎn)情況等信息,通常來說還會借助第三方平臺如征信

機構(gòu)的信息。通過這些信息屬性來做線性回歸

,生成預(yù)測模型,業(yè)務(wù)平臺可以通過預(yù)測判斷貸款申請是否會違約,從

而決定是否向申請人發(fā)放貸款。?

通過用戶的歷史行為(如歷史數(shù)據(jù)的多維特征和貸款狀態(tài)是否違約)來訓(xùn)練模型,通過這個模型對新增的貸款人“是

否具有償還能力,是否具有償債意愿”進行分析,預(yù)測貸款申請人是否會發(fā)生違約貸款。這是一個監(jiān)督學(xué)習(xí)的場景,

采用邏輯斯諦算法開發(fā)兩分類模型。貸款違約預(yù)測模型-2.數(shù)據(jù)預(yù)處理

2.1數(shù)據(jù)獲取?

首先,通過內(nèi)置包讀取數(shù)據(jù)

-data

=

pd.read_csv('LoanStats_20

17Q2.csv'

,

encoding='latin-

1',skiprows

=

1)

2.2缺失值處理?

其次,我們查看變量缺失值的情

-objectColumns

=

loans.select_dtypes(include

=["object"]).columns

loans[objectColumns].isnull

().sum().sort_values(ascen

ding=False)?用pandas.fillna()處理文本變量缺失值,為分類變量缺失值創(chuàng)建一個分類“Unknown”?對數(shù)值型變量的缺失值,我們采用均值插補的方法來填充缺失值

2.3數(shù)據(jù)過濾?

第三步,對數(shù)據(jù)進行過濾,將重復(fù)

性屬性或?qū)?gòu)建預(yù)測模型沒有意

義的屬性進行刪除

-objectColumns

=

loans.select_dtypes(include

=["object"]).columns

var

=

loans[objectColumns].colum

ns

for

v

in

var:

print('\nFrequency

count

for

variable

{0}'.format(v))

print(loans[v].value_counts

())

loans[objectColumns].shape

1516貸款違約預(yù)測模型-3.特征工程

3.1特征衍生?

特征衍生是指利用現(xiàn)有的

特征進行某種組合生成新

的特征。在風(fēng)險控制方

面,傳統(tǒng)銀行獲得企業(yè)的

基本財務(wù)報表(資產(chǎn)負債

表、利潤表以及現(xiàn)金流量

表),借助于現(xiàn)代成熟的

財務(wù)管理體系,在不同業(yè)

務(wù)場景的需求下,利用企

業(yè)財務(wù)報表各種項目之間

的組合,就可以衍生不同

新特征反映企業(yè)不同的財

務(wù)狀況

3.2特征抽象?

特征抽象是指將數(shù)據(jù)轉(zhuǎn)換

成算法可以理解的數(shù)據(jù)

-def

coding(col,

codeDict):

colCoded

=

pd.Series(col,

copy=True)

for

key,

value

in

codeDict.items():

……

3.3特征縮放?

特征縮放是指將變量數(shù)據(jù)

經(jīng)過處理之后限定到一定

的范圍之內(nèi)。特征縮放本

質(zhì)是一個去量綱的過程,

同時可以加快算法收斂的

速度。目前,將不同變量

縮放到相同的區(qū)間有兩個

常用的方法:歸一化和標

準化

3.4特征選擇?

特征選擇是從給定的集合

中選擇出相關(guān)特征子集的

過程。通常來說,對特征

集合做選擇主要有2個原

因:首先,優(yōu)先選擇與目

標相關(guān)性較高的特征,不

相關(guān)特征可能會降低分類

的準確率。其次,去除不

相關(guān)特征可以降低學(xué)習(xí)的

難度17貸款違約預(yù)測模型-4.模型訓(xùn)練

4.1處理樣本不平衡?

非平衡樣本常用的解決方式有2種:1、過采

樣,增加正樣本使得正、負樣本數(shù)目接近,然

后再進行學(xué)習(xí)。2、欠采樣,去除一些負樣本使

得正、負樣本數(shù)目接近,然后再進行學(xué)習(xí)。本

次處理樣本不平衡采用的方法是過采樣,具體

操作使用SMOTE

-sm

=

SMOTE(random_state=42)

X,

y

=

sm.fit_sample(X,

y)

print('通過SMOTE方法平衡正負樣本后')

n_sample

=

y.shape[0]

n_pos_sample

=

y[y

==

0].shape[0]

n_neg_sample

=

y[y

==

1].shape[0]

print('樣本個數(shù):{};

正樣本占{:.2%};

負樣本占{:.2%}'.format(n_sample,

n_pos_sample

/

n_sample,

n_neg_sample

/

n_sample))

4.2構(gòu)建分類器進行訓(xùn)練?

先初始化分類器,然后查看預(yù)則結(jié)果的準確

率,接著借助混淆矩陣進一步比較。混淆矩陣

會對分類器產(chǎn)生不同類型的正誤數(shù)量的統(tǒng)計,

為了更加直觀,我們對混淆矩陣進行可視化。

熱圖顏色越淺代表數(shù)量越多。根據(jù)混淆矩陣,

我們可以分別計算precision、recall、f1-

score的值,這里我們采用sklearn.metrics子

模塊classification_report快速查看混淆矩陣

precision、recall、f1-score的計算值。

-from

sklearn.metrics

import

roc_auc_score

roc_auc1

=

roc_auc_score(y,

predicted1)

print("Area

under

the

ROC

curve

:

%f"

%

roc_auc1)18貸款違約預(yù)測模型-5.模型評估與優(yōu)化

5.1交叉驗證+搜索調(diào)優(yōu)參數(shù)?

采用交叉驗證法劃分數(shù)據(jù)集,將數(shù)據(jù)劃分為3部

分:訓(xùn)練集、驗證集和測試集。讓模型在訓(xùn)練

集進行學(xué)習(xí),在驗證集上進行參數(shù)調(diào)優(yōu),最后

使用測試集數(shù)據(jù)評估模型的性能?

模型調(diào)優(yōu)我們采用網(wǎng)格搜索調(diào)優(yōu)參數(shù),通過構(gòu)

建參數(shù)候選集合,然后網(wǎng)格搜索會窮舉各種參

數(shù)組合,根據(jù)設(shè)定評定的評分機制找到最好的

那一組設(shè)置

5.2性能評估?

根據(jù)模型在不同參數(shù)組合下跑出的分數(shù)熱力

圖,來尋找參數(shù)調(diào)優(yōu)的方向,進一步選擇更優(yōu)

的參數(shù)。而實際操作中,模型調(diào)參是一個反復(fù)

迭代的過程。接下來,使用經(jīng)過訓(xùn)練和調(diào)優(yōu)的

模型在測試集上測試?

經(jīng)過對模型進行訓(xùn)練和參數(shù)調(diào)優(yōu)后,模型的精

確率表現(xiàn)更穩(wěn)定,同時模型的準確率和AUC分

數(shù)都有很大的提升19PART3創(chuàng)新金融風(fēng)控體系20創(chuàng)新金融風(fēng)控體系分三步走完善標準優(yōu)化制度創(chuàng)新流程21完善金融大數(shù)據(jù)標準

基礎(chǔ)類標準?

基礎(chǔ)類標準對金融業(yè)大數(shù)據(jù)

標準體系的適用范圍、目標

進行界定?;A(chǔ)類標準包括

術(shù)語、標準化工作指南、從

業(yè)人員基本要求和大數(shù)據(jù)能

力成熟度評價指標等4個子

類。?

術(shù)語子類標準用于規(guī)范和統(tǒng)

一各類專業(yè)名詞。標準化工

作指南子類標準明確金融業(yè)

大數(shù)據(jù)標準化工作的任務(wù)、

標準體系、以及標準編制、

實施和改進的主要內(nèi)容和基

本要求。從業(yè)人員基本要求

和大數(shù)據(jù)能力成熟度評價指

標用于對開展數(shù)據(jù)管理工作

的人員、金融機構(gòu)提出基礎(chǔ)

性和框架性要求。

業(yè)務(wù)類標準?

業(yè)務(wù)類標準從金融監(jiān)管、金

融服務(wù)視角,按照不同的大

數(shù)據(jù)分析應(yīng)用場景,對傳統(tǒng)

金融機構(gòu)、互聯(lián)網(wǎng)金融企

業(yè)、以及其他外部單位需要

報送或共享的數(shù)據(jù)范圍和格

式進行規(guī)范,使數(shù)據(jù)采集、

數(shù)據(jù)傳輸、數(shù)據(jù)處理等各環(huán)

節(jié)的使用者對數(shù)據(jù)的含義、

標識、用途等有統(tǒng)一的理

解。?

根據(jù)不同的大數(shù)據(jù)分析應(yīng)用

場景,業(yè)務(wù)類標準包括綜合

統(tǒng)計業(yè)務(wù)子類、反洗錢業(yè)務(wù)

子類、征信業(yè)務(wù)子類、資管

業(yè)務(wù)子類和其他子類等。

治理類標準?

治理類標準用于指導(dǎo)金融機

構(gòu)開展將數(shù)據(jù)治理工作,以

確保數(shù)據(jù)資產(chǎn)能長期有序

地、可持續(xù)地得到管理。治

理類標準應(yīng)該是一套經(jīng)過行

業(yè)實踐檢驗的最佳方法論,

它包括兩個維度的內(nèi)容:組

織架構(gòu)和治理領(lǐng)域。?

組織架構(gòu)子類用于規(guī)范金融

機構(gòu)大數(shù)據(jù)戰(zhàn)略、組織架

構(gòu)、制度和流程等。數(shù)據(jù)治

理領(lǐng)域包括數(shù)據(jù)標準、數(shù)據(jù)

模型、元數(shù)據(jù)、數(shù)據(jù)生命周

期、數(shù)據(jù)安全、數(shù)據(jù)架構(gòu)、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論