量化派基于Hadoop、Spark、Storm的大數(shù)據(jù)風(fēng)控架構(gòu).doc_第1頁
量化派基于Hadoop、Spark、Storm的大數(shù)據(jù)風(fēng)控架構(gòu).doc_第2頁
已閱讀5頁,還剩2頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

量化派是一家金融大數(shù)據(jù)公司,為金融機構(gòu)提供數(shù)據(jù)服務(wù)和技術(shù)支持,也通過旗下產(chǎn)品“信用錢包”幫助個人用戶展示經(jīng)濟財務(wù)等狀況,撮合金融機構(gòu)為用戶提供最優(yōu)質(zhì)的貸款服務(wù)。金融的本質(zhì)是風(fēng)險和流動性,但是目前中國對于個人方面的征信行業(yè)發(fā)展落后于歐美國家,個人消費金融的需求沒有得到很好的滿足。按照央行最新數(shù)據(jù),目前央行征信中心的數(shù)據(jù)覆蓋人口達到8億人1,但其中有實際征信記錄的只有3億人左右,有5億人在征信系統(tǒng)中只是一個身份證號碼。此外,我國還有5億人跟銀行從來沒有信貸交易關(guān)系,這5億人對金融部門來說是陌生人。這樣算下來,有征信記錄的人只占到全國人口數(shù)的23.7%,遠低于美國征信體系對人口的85%的覆蓋率。如何在信用記錄缺失的情況下,做好多個人用戶的風(fēng)險定價,是個棘手的難題。量化派通過基于機器學(xué)習(xí)和互聯(lián)網(wǎng)化的風(fēng)險定價,整合互聯(lián)網(wǎng)及傳統(tǒng)數(shù)據(jù)源,對個人在消費金融應(yīng)用場景里的信用風(fēng)險進行評估。這篇文章就主要介紹一下量化派的大數(shù)據(jù)平臺,以及機器學(xué)習(xí)在量化派的應(yīng)用。一、互聯(lián)網(wǎng)化的風(fēng)控創(chuàng)新量化派及“信用錢包”的核心任務(wù)是讓用戶可以憑借其良好的信用,而無需抵押或者擔(dān)保就可以貸款。也就是說,用戶僅憑信用即可開啟財富之門。為了達到這個目的,信用錢包需要把用戶個性化的需求與信貸產(chǎn)品信息精準(zhǔn)匹配到一起。在幫助用戶找到合適自己的信貸產(chǎn)品的同時,也幫助信貸產(chǎn)品公司找到了最合適的貸款用戶,從而實現(xiàn)信貸消費者和信貸產(chǎn)品提供者的雙贏。為了確保貸款的高成功率,為了更好的掌握用戶需求以及對個人進行信用評級,我們需要大數(shù)據(jù)平臺的支持。目前,可以接入央行征信中心的金融機構(gòu)僅僅只有銀行、持牌照的第三方征信服務(wù)商以及部分地區(qū)的小貸公司,絕大多數(shù)的P2P平臺還無法接入央行的征信數(shù)據(jù),這無疑加大了P2P平臺的風(fēng)控難度。在征信思路上,傳統(tǒng)征信是用昨天的信用記錄來判斷今天的信用價值,這未見得就是最合理的。在征信技術(shù)上,傳統(tǒng)的方法是從線下采集信用數(shù)據(jù),效率比較低。可以說,傳統(tǒng)的線下征信技術(shù)限制了數(shù)據(jù)來源和信用評估思路,而互聯(lián)網(wǎng)的技術(shù)、工具和思維則具備了改變這一切的可能性。回歸到征信的本質(zhì),其實就在于解決兩方面問題:信用能力和信用意愿,換而言之,即解決個人的還款能力和還款意愿,再追根溯源一點,即解決壞賬和逾期兩個問題2。量化派公司基于大數(shù)據(jù)的用戶征信和傳統(tǒng)征信殊途同歸,所不同的是,傳統(tǒng)征信中,數(shù)據(jù)依賴于銀行信貸數(shù)據(jù),而大數(shù)據(jù)征信的數(shù)據(jù)并不僅僅包括傳統(tǒng)的信貸數(shù)據(jù),同時也包括了與消費者還款能力、還款意愿相關(guān)的一些描述性風(fēng)險特征,這些相關(guān)性描述風(fēng)險特征的抽取與篩選是量化派的技術(shù)核心。相比于傳統(tǒng)征信數(shù)據(jù)的強相關(guān)性,這些大數(shù)據(jù)征信的數(shù)據(jù)與消費者的信用狀況相關(guān)性較弱,量化派就利用大數(shù)據(jù)技術(shù),通過用戶授權(quán)等方法搜集了更多的數(shù)據(jù)維度來加強這些弱相關(guān)數(shù)據(jù)的描述能力。這樣就使大數(shù)據(jù)征信不依賴于傳統(tǒng)信貸數(shù)據(jù),就可以對傳統(tǒng)征信無法服務(wù)的人群進行征信,實現(xiàn)對整個消費者人群的覆蓋3。我們的數(shù)據(jù)來源如下圖所示:圖一量化派的數(shù)據(jù)來源二、量化派的大數(shù)據(jù)平臺架構(gòu)量化派的信用錢包每天都會獲取大量的用戶的注冊信息等結(jié)構(gòu)化數(shù)據(jù)以及爬蟲抓取的非結(jié)構(gòu)化數(shù)據(jù),還有第三方的接入數(shù)據(jù),系統(tǒng)運行產(chǎn)生的日志數(shù)據(jù)等等,數(shù)據(jù)的形式多種多樣,如何保護好、利用好這些數(shù)據(jù),是公司重中之重的任務(wù)。量化派的業(yè)務(wù)也決定了公司是數(shù)據(jù)驅(qū)動型的。為了更好的滿足公司日益增長變化的業(yè)務(wù),在大數(shù)據(jù)平臺建設(shè)中全面擁抱開源的基礎(chǔ)上,進行了不停迭代設(shè)計,對數(shù)據(jù)平臺中采用的開源軟件進行了深度應(yīng)用開發(fā),同時還開發(fā)了很多契合業(yè)務(wù)需求的工具軟件,很好的支撐我們?nèi)崿F(xiàn)普惠金融的理想。量化派公司的數(shù)據(jù)平臺架構(gòu)如圖二所示。圖二量化派的數(shù)據(jù)平臺架構(gòu)相比我國的網(wǎng)民數(shù)量,信貸用戶只占其中的一小部分,所以我司產(chǎn)品的用戶基數(shù)并不是非常大,但是,為了給信貸用戶更準(zhǔn)確的信用評級,對于每個信貸用戶我們都會從多個渠道獲取大量的有效數(shù)據(jù),這些數(shù)據(jù)聚合起來也是海量數(shù)據(jù)規(guī)模。公司發(fā)展伊始,幾乎將所有的數(shù)據(jù)都存放在Mysql關(guān)系數(shù)據(jù)庫中,工程師使用標(biāo)準(zhǔn)SQL語句來存儲或者調(diào)用數(shù)據(jù)資源。Mysql很快就遇到了性能瓶頸,雖然可以通過不停地優(yōu)化整個Mysql集群以應(yīng)對數(shù)據(jù)的快速增長,但是面對復(fù)雜的數(shù)據(jù)業(yè)務(wù)需求,Mysql顯然無法提供最優(yōu)的解決方案。所以我司最終決定將數(shù)據(jù)遷移到大數(shù)據(jù)平臺上,Mysql僅用來存儲需要經(jīng)常變化的狀態(tài)類數(shù)據(jù)。除了系統(tǒng)運行日志直接存放在HDFS之中,大量的數(shù)據(jù)利用HBase來進行管理。HBase中的數(shù)據(jù)按照不同的數(shù)據(jù)源存放在不同的表中,每張表按照業(yè)務(wù)和存儲需求對rowkey進行精心設(shè)計,確保海量數(shù)據(jù)中查詢所需數(shù)據(jù)毫秒級返回。根據(jù)業(yè)務(wù)的不同特點,對于常規(guī)的數(shù)據(jù)ETL處理,我們使用MapReduce4框架來完成;BI和數(shù)據(jù)挖掘這些工作都放到了Spark5上。這樣一來,依賴不同任務(wù)或不同計算框架間的數(shù)據(jù)共享情況在所難免,例如Spark的分屬不同Stage的兩個任務(wù),或Spark與MapReduce框架的數(shù)據(jù)交互。在這種情況下,一般就需要通過磁盤來完成數(shù)據(jù)交換,而這通常是效率很低的。為了解決這個問題,我們引入了Tachyon6中間層,數(shù)據(jù)交換實際上在內(nèi)存中進行了。而且,使用了Tachyon之后還解決了Spark任務(wù)進程崩潰后就要丟失進程中的所有數(shù)據(jù)的問題,因為此時數(shù)據(jù)都在Tachyon里面了,從而進一步提升了Spark的性能。Tachyon自身也具有較強的容錯性,Tachyon集群的master通過ZooKeeper7來管理,down機時會自動選舉出新的leader,并且worker會自動連接到新的leader上。多維度的征信大數(shù)據(jù)可以使得量化派可以融合多源信息,采用了先進機器學(xué)習(xí)的預(yù)測模型和集成學(xué)習(xí)的策略,進行大數(shù)據(jù)挖掘。不完全依賴于傳統(tǒng)的征信體系,即可對個人消費者從不同的角度進行描述和進一步深入地量化信用評估。公司開發(fā)了多個基于機器學(xué)習(xí)的分析模型,對每位信貸申請人的數(shù)千條數(shù)據(jù)信息進行分析,并得出數(shù)萬個可對其行為做出測量的指標(biāo),這些都在數(shù)秒之內(nèi)完成。三、不同場景的機器學(xué)習(xí)方法上部分說到量化派首先需要對用戶進行信用風(fēng)險的評估,為了讓用戶可以僅憑信用,而無需抵押和擔(dān)保就可貸款成功。美國有著很完善的征信體系,以及成熟的信用評估系統(tǒng)。通過幾十年的發(fā)展,美國的三大征信局8對85%的公民有著詳細的信用記錄:包括信用卡,房貸,以往的住址,工作等情況都有記錄在案。而且在找工作,租房時候也會查詢個人信用記錄,如果有違約等不良行為也會反饋給征信局。FairIssac公司的FICO評分是業(yè)界應(yīng)用最為廣泛的評分,是建立在詳細的個人征信記錄上的預(yù)測系統(tǒng)。FICO從最開始的用圖表畫出的評分,到后來演化為logisticregression類的回歸算法,用來預(yù)測用戶在未來一段時間內(nèi)違約的可能性。近年來,在predictiveanalytics方面的發(fā)展,deeplearning在supervisedlearning里面得到了廣泛應(yīng)用。中國由于在征信方面的數(shù)據(jù)缺失,需要通過更為自由的模式來創(chuàng)新和跨越式發(fā)展。宜信9作為國內(nèi)最大的p2p機構(gòu),擁有多年的業(yè)務(wù)積累,以及一流的風(fēng)控團隊。傳統(tǒng)上是通過線下風(fēng)控的手段,對用戶進行詳盡的背景調(diào)查。收集用戶的資料例如他們有的曾提交過信用報告、聯(lián)系人信息、教育水平、工資單、銀行流水等一系列傳統(tǒng)征信數(shù)據(jù)。這樣的貸款審核流程耗時較長,貸款申請人往往需要少則幾天,多則數(shù)月的等待。時間成本過大,流程繁瑣,是用戶痛點所在,造成了潛在貸款用戶的大量流失。提高審核效率,優(yōu)化貸款流程,把申請人貸款體驗做到極致,最終做到極速放貸是大勢所趨。到目前,宜信也開始從傳統(tǒng)的線下業(yè)務(wù),開始往線上做業(yè)務(wù)拓展,宜信的瞬時貸通過大數(shù)據(jù)進行實時授信,用戶授權(quán)系統(tǒng)讀取信用卡賬單郵箱、電商、運營商相關(guān)記錄信息,得到有關(guān)你性格、消費偏好的個人畫像。同時進行交叉驗證形成風(fēng)控機制,進而計算出每一個用戶的風(fēng)險評分,最終判斷是否應(yīng)該放款,以及該用戶的授信額度、還款周期等并最快達到10分鐘放款。另外,螞蟻金服的芝麻信用10,根據(jù)個人淘寶、支付寶等交易數(shù)據(jù)以及其他授權(quán)數(shù)據(jù),對個人進行信用評分。芝麻信用綜合考慮了個人用戶的信用歷史,行為偏好,履約能力,身份特質(zhì),人脈關(guān)系等五個緯度的信息得出的。于此同時,騰訊系的騰訊征信都會考慮到一些信貸之外的一些信息。除了微信支付、QQ錢包綁定的銀行卡外,騰訊還能夠從更大范圍獲取數(shù)據(jù),比如很多銀行都在微信上開通了公眾號,向用戶發(fā)送消費數(shù)據(jù);微信的社交狀況也能夠?qū)€人的資質(zhì)進行有效的評估。量化派對用戶的信息整合也包括了用戶的社交信息,不光包含了用戶的畫像(性別、職業(yè)、愛好等等),也包含了用戶之間的關(guān)系。如果說每個人是圖中的一個節(jié)點,那么人與環(huán)境所形成的關(guān)系就是兩點間的線。當(dāng)把“點和線”綜合起來分析時,我們對個人的性格特征、信用狀況、財富屬性都會有更深層、更全面的理解。Google的PageRank算法考慮到了web頁面的相關(guān)性來提高頁面的質(zhì)量,例如權(quán)重高的頁面指向鏈接的頁面對應(yīng)的權(quán)重相對來說會比較高。類似來說,信貸風(fēng)險低的用戶的常用聯(lián)系人的小圈子,個人資質(zhì)的也應(yīng)該是比較好的。另一個方面,“信用錢包”需要把用戶個性化的需求與信貸產(chǎn)品信息精準(zhǔn)匹配到一起。幫助用戶找到合適自己的信貸產(chǎn)品,實現(xiàn)信貸消費者和信貸產(chǎn)品提供者的雙贏。我們對信貸產(chǎn)品向用戶做了基于協(xié)同過濾的和基于產(chǎn)品信息匹配的推薦。在對用戶做了較為準(zhǔn)確的信用評價之后,我們的分發(fā)平臺(如圖三所示)會根據(jù)貸款用戶的貸款需求來分派給相應(yīng)的貸款產(chǎn)品,這樣就出現(xiàn)了一個客戶面對多款信貸產(chǎn)品的情況。我們會根據(jù)批貸額度、貸款利率、承諾放款速度等因素在多個信貸產(chǎn)品中選出最適合用戶的產(chǎn)品。圖三分單平臺系統(tǒng)四、美國的風(fēng)控系統(tǒng)案例打造一流的風(fēng)控系統(tǒng)不是光靠數(shù)據(jù)分析師團隊能夠做到的,整個風(fēng)控是需要在公司的DNA里面。美國的CapitalOne是最早利用大數(shù)據(jù)分析來判斷個人借款還款概率的公司,本文的作者都曾經(jīng)在CapitalOne工作過,并在金融危機發(fā)生的時候也在那邊,目睹了他是如何發(fā)展壯大成第五大銀行的。在危機開始的時候,非常果斷的把有潛在問題的GreenPointMortgage整體出售,并在危機發(fā)生的時候,謹(jǐn)慎挑戰(zhàn)風(fēng)險政策來控制風(fēng)險,并在危機發(fā)生的時候以非常低廉的價格收購華盛頓地區(qū)的ChevyChase銀行,INGDirect,HSBCCard北美分部。并完善其LocalBanking,GlobalLending的策略。CapitalOne的風(fēng)控系統(tǒng)是通過多年的積累和演變而形成的。CapitalOne的Analytics部門里面分為幾個種類,DataAnalyst,BusinessAnalyst,Statistician/Modeler.不僅僅是分析師專注的做模型,做風(fēng)控來對模型進行大數(shù)據(jù)分析。所有的決策者,包括商務(wù)的總監(jiān),運營副總等,所有的決策都會有大量的數(shù)據(jù)分析,模型策略做支撐。CapitalOne在各個業(yè)務(wù)部門都有很多的決策引擎和模型來支撐。在獲取用戶時,根據(jù)不同的業(yè)務(wù)線prime,subprime,汽車金融等,有專門的customermodel,riskmodel等。在用戶關(guān)系管理方面,有cross-sellmodel,customercontactmodel等。除此還有專門的反欺詐模型,包含identify-fraudmodel,paymentfraudmodel等等。不同的業(yè)務(wù)線有著這么多種類的模型,對于這些模型的監(jiān)管也都是有一套系統(tǒng)的流程的。對于每個模型,模型開發(fā)人員會對模型開發(fā)寫出詳細的文檔,有著一套類似于codereview,unittest的檢驗機制。公司層面,部門設(shè)有專門的中高級別scoringofficer(模型官),負責(zé)定期對模型進行監(jiān)管和監(jiān)測。除了對于整體模型的效果的監(jiān)管,整體評分的分布的穩(wěn)定性;還包括在變量層面的監(jiān)管,監(jiān)測模型的重要變量的穩(wěn)定性。Ca

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論