![月機(jī)器學(xué)習(xí)第10課-社交網(wǎng)絡(luò)在工業(yè)界應(yīng)用_第1頁(yè)](http://file4.renrendoc.com/view/fa12971e5c8929c022f9d0632eb682bf/fa12971e5c8929c022f9d0632eb682bf1.gif)
![月機(jī)器學(xué)習(xí)第10課-社交網(wǎng)絡(luò)在工業(yè)界應(yīng)用_第2頁(yè)](http://file4.renrendoc.com/view/fa12971e5c8929c022f9d0632eb682bf/fa12971e5c8929c022f9d0632eb682bf2.gif)
![月機(jī)器學(xué)習(xí)第10課-社交網(wǎng)絡(luò)在工業(yè)界應(yīng)用_第3頁(yè)](http://file4.renrendoc.com/view/fa12971e5c8929c022f9d0632eb682bf/fa12971e5c8929c022f9d0632eb682bf3.gif)
![月機(jī)器學(xué)習(xí)第10課-社交網(wǎng)絡(luò)在工業(yè)界應(yīng)用_第4頁(yè)](http://file4.renrendoc.com/view/fa12971e5c8929c022f9d0632eb682bf/fa12971e5c8929c022f9d0632eb682bf4.gif)
![月機(jī)器學(xué)習(xí)第10課-社交網(wǎng)絡(luò)在工業(yè)界應(yīng)用_第5頁(yè)](http://file4.renrendoc.com/view/fa12971e5c8929c022f9d0632eb682bf/fa12971e5c8929c022f9d0632eb682bf5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
社交網(wǎng)絡(luò)在工業(yè)界的應(yīng)用七月在線王博士2016年9月4日
8月機(jī)器學(xué)習(xí)應(yīng)用主要內(nèi)容社交網(wǎng)絡(luò)算法介紹互聯(lián)網(wǎng)金融服務(wù)面臨的欺詐風(fēng)險(xiǎn)社交網(wǎng)絡(luò)算法在金融反欺詐中的應(yīng)用自動(dòng)化風(fēng)控系統(tǒng)架構(gòu)2/39社交網(wǎng)絡(luò)
8月機(jī)器學(xué)習(xí)應(yīng)用3/39社交網(wǎng)絡(luò)算法應(yīng)用場(chǎng)景在社交網(wǎng)絡(luò)中社區(qū)圈子的識(shí)別(CommunityDetection)Facebook/微信是基于朋友之間的強(qiáng)關(guān)系網(wǎng)絡(luò),有助于朋友之間的聯(lián)系與關(guān)系維系Twitter/微博/豆瓣是基于單向關(guān)注的弱關(guān)系社交網(wǎng)絡(luò),有助于消息的傳播和塑造意見領(lǐng)袖Linkedin是面向工作的職業(yè)社交網(wǎng)絡(luò),幫助商務(wù)交流與求職招聘?;诤糜殃P(guān)系為用戶推薦商品或內(nèi)容社交網(wǎng)絡(luò)中人物影響力的計(jì)算信息在社交網(wǎng)絡(luò)上的傳播模型虛假信息和機(jī)器人賬號(hào)的識(shí)別基于社交網(wǎng)絡(luò)信息對(duì)股市、大選的預(yù)測(cè)互聯(lián)網(wǎng)金融行業(yè)中的反欺詐預(yù)測(cè)
8月機(jī)器學(xué)習(xí)應(yīng)用4/39社交網(wǎng)絡(luò)算法-分析指標(biāo)一個(gè)具體的網(wǎng)絡(luò)可抽象為一個(gè)由節(jié)點(diǎn)(vertex或node)集合V和邊(edge)集合E組成的圖G=(V,E),節(jié)點(diǎn)數(shù)記為n=|V|,邊數(shù)記為m=|E|。衡量指標(biāo):度(degree)密度(density)團(tuán)(clique)度中心性(degree
centrality)緊密中心性(closeness
centrality)介數(shù)中心性(betweenness
centrality)聚集系數(shù)(clustering
coefficient)
8月機(jī)器學(xué)習(xí)應(yīng)用5/39PageRank算法思想:被大量高質(zhì)量網(wǎng)頁(yè)引用(鏈接)的網(wǎng)頁(yè)也是高質(zhì)量網(wǎng)頁(yè)。例如網(wǎng)頁(yè)Y被X1,X2,X3,X4四個(gè)網(wǎng)頁(yè)所鏈接,且這四個(gè)網(wǎng)頁(yè)的權(quán)重分別為0.001,0.01,0.02,0.04,則網(wǎng)頁(yè)Y的Rank值=0.01+0.02+0.03+0.04=0.071。
8月機(jī)器學(xué)習(xí)應(yīng)用6/39社區(qū)發(fā)現(xiàn)算法什么是社區(qū)(communitystructure)?同一社區(qū)內(nèi)的節(jié)點(diǎn)與節(jié)點(diǎn)之間的連接很緊密,而社區(qū)與社區(qū)之間的連接比較稀疏。
8月機(jī)器學(xué)習(xí)應(yīng)用7/39GN算法邊介數(shù)(Betweenness):網(wǎng)絡(luò)中經(jīng)過每條邊的最短路徑的數(shù)目。GN算法:計(jì)算網(wǎng)絡(luò)中所有邊的介數(shù)找到介數(shù)最高的邊并將它從網(wǎng)絡(luò)中移除重復(fù),直到每個(gè)節(jié)點(diǎn)就是一個(gè)社團(tuán)為止
8月機(jī)器學(xué)習(xí)應(yīng)用8/39社區(qū)評(píng)價(jià)指標(biāo)-模塊度Modularity
8月機(jī)器學(xué)習(xí)應(yīng)用9/39社區(qū)評(píng)價(jià)指標(biāo)-模塊度Modularity
8月機(jī)器學(xué)習(xí)應(yīng)用10/39社區(qū)評(píng)價(jià)指標(biāo)-Conductance
8月機(jī)器學(xué)習(xí)應(yīng)用11/39Louvain算法Louvainmethod(FastUnfolding):Findingcommunitiesinlargenetworks.[VincentBlondelet.al,2008,Nature]
8月機(jī)器學(xué)習(xí)應(yīng)用12/39LPA算法優(yōu)點(diǎn):不需要預(yù)先知識(shí),不用預(yù)先給定社區(qū)的數(shù)量,可以控制迭代的次數(shù)來(lái)劃分節(jié)點(diǎn)類別??蓴U(kuò)展性強(qiáng),時(shí)間復(fù)雜度近線性,適合處理大規(guī)模復(fù)雜網(wǎng)絡(luò)。
8月機(jī)器學(xué)習(xí)應(yīng)用13/39LPA算法算法思想:初始化每個(gè)節(jié)點(diǎn),給其唯一標(biāo)簽根據(jù)鄰居節(jié)點(diǎn)最常見的標(biāo)簽更新每個(gè)節(jié)點(diǎn)的標(biāo)簽最終收斂后標(biāo)簽一致的節(jié)點(diǎn)屬于一個(gè)社區(qū)
8月機(jī)器學(xué)習(xí)應(yīng)用14/39Code
8月機(jī)器學(xué)習(xí)應(yīng)用15/39Runscala>importorg.apache.spark._scala>importorg.apache.spark.rdd.RDDscala>importorg.apache.spark.graphx._scala>valgraph=GraphLoader.edgeListFile(sc,"followers.txt")scala>valcd=lib.LabelPropagation.run(graph,20)scala>cd.vertices.collect()res:Array[(org.apache.spark.graphx.VertexId,org.apache.spark.graphx.VertexId)]=Array((4,4),(6,5),(2,2),(1,1),(3,2),(5,5))
測(cè)試數(shù)據(jù)followers.txt:2,13,15,46,41,4
社區(qū)劃分結(jié)果:2,3屬于一個(gè)社區(qū)“1”5,6屬于一個(gè)社區(qū)“4”1屬于一個(gè)社區(qū)“2”4屬于一個(gè)社區(qū)“5”
8月機(jī)器學(xué)習(xí)應(yīng)用16/39SLPA算法算法思想:給每個(gè)節(jié)點(diǎn)設(shè)置一個(gè)列表來(lái)存儲(chǔ)歷史標(biāo)簽每個(gè)Speaker節(jié)點(diǎn)帶概率選擇自己標(biāo)簽列表中的標(biāo)簽傳播給Listener節(jié)點(diǎn)(Speaker節(jié)點(diǎn)為L(zhǎng)istener節(jié)點(diǎn)的鄰居節(jié)點(diǎn))節(jié)點(diǎn)將最熱門的標(biāo)簽更新到標(biāo)簽列表中使用閾值r去刪除低頻標(biāo)簽,產(chǎn)出標(biāo)簽一致的節(jié)點(diǎn)為社區(qū)
KarateClubNetwork
8月機(jī)器學(xué)習(xí)應(yīng)用17/39
8月機(jī)器學(xué)習(xí)應(yīng)用主要內(nèi)容社交網(wǎng)絡(luò)算法介紹互聯(lián)網(wǎng)金融服務(wù)面臨的欺詐風(fēng)險(xiǎn)社交網(wǎng)絡(luò)算法在金融反欺詐中的應(yīng)用自動(dòng)化風(fēng)控系統(tǒng)架構(gòu)18/39互聯(lián)網(wǎng)和金融的結(jié)晶金融的本質(zhì):資源的最合理化應(yīng)用互聯(lián)網(wǎng)技術(shù):交易的邊界成本趨向“零”互聯(lián)網(wǎng)金融:用大數(shù)據(jù)、云計(jì)算等技術(shù)實(shí)現(xiàn)的資金融通、支付、投資和信息中介服務(wù)
8月機(jī)器學(xué)習(xí)應(yīng)用Volume每天生成
T級(jí)數(shù)據(jù)量速Velocity最高每分鐘
50+申請(qǐng)Variety
網(wǎng)絡(luò),設(shè)備,行為,
渠道,PII,社交,
三方,等類別類質(zhì)Veracity完整度和質(zhì)量
經(jīng)常殘差不齊19/39個(gè)人對(duì)個(gè)人的信用貸款
8月機(jī)器學(xué)習(xí)應(yīng)用P2P借款與理財(cái)咨詢服務(wù)平臺(tái)借款人群出借人群債權(quán)資金場(chǎng)景開發(fā)渠道有效率訪問注冊(cè)轉(zhuǎn)化率貸款申請(qǐng)轉(zhuǎn)化率貸款流程用戶體驗(yàn)反欺詐流程信用審批流程借款用戶培育(nurturing)場(chǎng)景開發(fā)渠道有效率訪問注冊(cè)轉(zhuǎn)化率出借成功率出借流程用戶體驗(yàn)提款流程用戶體驗(yàn)全周期用戶價(jià)值
老用戶運(yùn)營(yíng)(AUM)分析20/39極速信任-自動(dòng)化信用評(píng)估
8月機(jī)器學(xué)習(xí)應(yīng)用客戶獲取信用評(píng)估交易促成客戶服務(wù)全流程線上借款與理財(cái)咨詢服務(wù)欺詐風(fēng)險(xiǎn)
是互聯(lián)網(wǎng)金融
線上信貸工廠模式
最大的挑戰(zhàn)場(chǎng)景不同人群不同數(shù)據(jù)獲取方式不同數(shù)據(jù)維度不同數(shù)據(jù)深度不同信用評(píng)估機(jī)制不同線下線上21/39互聯(lián)網(wǎng)金融行業(yè)中的欺詐金融欺詐有兩種:偽冒申請(qǐng)
和
欺詐交易偽冒申請(qǐng):
變?cè)焐暾?qǐng)材料,以獲得更高額度欺詐交易:申請(qǐng)時(shí)無(wú)還款意愿有的中介會(huì)在包辦貸款時(shí)雙向欺詐:偽造虛假文件欺詐借款公司騙取貸款人身份信息多方借貸
8月機(jī)器學(xué)習(xí)應(yīng)用人群團(tuán)體化地區(qū)集中化方式多樣化工具智能化22/39
8月機(jī)器學(xué)習(xí)應(yīng)用主要內(nèi)容社交網(wǎng)絡(luò)算法介紹互聯(lián)網(wǎng)金融服務(wù)面臨的欺詐風(fēng)險(xiǎn)社交網(wǎng)絡(luò)算法在金融反欺詐中的應(yīng)用自動(dòng)化風(fēng)控系統(tǒng)架構(gòu)23/39反欺詐中可應(yīng)用到多種社交網(wǎng)絡(luò)算法社交網(wǎng)絡(luò)算法:分析指標(biāo):degree、closeness
centrality、betweenness
centrality、cluster
coefficient、triangle
count、connectedcomponents算法:PageRank社區(qū)發(fā)現(xiàn):GN、FastUnfolding、LPA、SLPA、WalkTrap在工業(yè)界的其他應(yīng)用包括:精準(zhǔn)營(yíng)銷、改善搜索/幫助推薦、網(wǎng)絡(luò)系統(tǒng)安全
8月機(jī)器學(xué)習(xí)應(yīng)用24/39社交網(wǎng)絡(luò)算法在金融反欺詐中的優(yōu)勢(shì)
8月機(jī)器學(xué)習(xí)應(yīng)用點(diǎn)傳統(tǒng)反欺詐:-客戶是否觸黑-客戶的消費(fèi)記錄是否異常面應(yīng)用社交網(wǎng)絡(luò)反欺詐:-客戶一度、二度關(guān)系是否觸黑-客戶消費(fèi)關(guān)聯(lián)商家是否異常-一機(jī)多人-識(shí)別組團(tuán)欺詐25/39構(gòu)建金融知識(shí)圖譜FinGraph
8月機(jī)器學(xué)習(xí)應(yīng)用應(yīng)用場(chǎng)景層面智能搜索、反欺詐、貸后管理、營(yíng)銷分析、運(yùn)營(yíng)支撐等數(shù)據(jù)整合層面信用數(shù)據(jù)、金融消費(fèi)數(shù)據(jù)、行為數(shù)據(jù)、社交數(shù)據(jù)、網(wǎng)絡(luò)安全、第三方數(shù)據(jù)等圖數(shù)據(jù)庫(kù)neo4j系統(tǒng)支持層面特征工程、模型開發(fā)、異常監(jiān)控、推薦系統(tǒng)等Spark+GraphX+Mllib+Streaming+TensorFlowFinGraph平臺(tái)系統(tǒng)包含電話、身份證、銀行卡、信用卡、IP、設(shè)備號(hào)、地理位置等10種實(shí)體約1億節(jié)點(diǎn)約10億邊關(guān)系預(yù)計(jì)到2017年增長(zhǎng)20倍26/39反欺詐案例:人以群分(1)借款用戶通信社交網(wǎng)絡(luò)與欺詐風(fēng)險(xiǎn)結(jié)論:與壞用戶有大量關(guān)聯(lián)的借款用戶的壞賬率是未關(guān)聯(lián)用戶的2.9倍
8月機(jī)器學(xué)習(xí)應(yīng)用2.9倍27/39反欺詐案例:人以群分(2)從整體借款群體的角度,用PageRank算法探索哪些用戶與大量借款用戶有關(guān)聯(lián)關(guān)系
8月機(jī)器學(xué)習(xí)應(yīng)用28/39反欺詐案例:人以群分(2)借款用戶通信社交網(wǎng)絡(luò)與欺詐風(fēng)險(xiǎn)結(jié)論:PageRank高分段用戶的壞賬率是低分段用戶的3.3倍
8月機(jī)器學(xué)習(xí)應(yīng)用3.3倍29/39反欺詐案例:識(shí)別組團(tuán)欺詐風(fēng)險(xiǎn)通過社區(qū)發(fā)現(xiàn)算法來(lái)實(shí)時(shí)評(píng)估每個(gè)用戶的組團(tuán)欺詐風(fēng)險(xiǎn)
8月機(jī)器學(xué)習(xí)應(yīng)用30/39欺詐案例調(diào)查的挑戰(zhàn):失聯(lián)用戶找尋通過社區(qū)發(fā)現(xiàn)算法挖掘失聯(lián)用戶的通信社交網(wǎng)絡(luò)
8月機(jī)器學(xué)習(xí)應(yīng)用31/39欺詐案例調(diào)查的挑戰(zhàn):失聯(lián)用戶找尋在社區(qū)內(nèi)使用最短路徑算法來(lái)發(fā)現(xiàn)失聯(lián)用戶與一個(gè)正常還款用戶的關(guān)系鏈
8月機(jī)器學(xué)習(xí)應(yīng)用32/39
8月機(jī)器學(xué)習(xí)應(yīng)用主要內(nèi)容社交網(wǎng)絡(luò)算法介紹互聯(lián)網(wǎng)金融服務(wù)面臨的欺詐風(fēng)險(xiǎn)社交網(wǎng)絡(luò)算法在金融反欺詐中的應(yīng)用自動(dòng)化風(fēng)控系統(tǒng)架構(gòu)33/39社交網(wǎng)絡(luò)分布在多個(gè)離線建模環(huán)節(jié)中
8月機(jī)器學(xué)習(xí)應(yīng)用34/39FinGraph是線上風(fēng)控系統(tǒng)中的關(guān)鍵一環(huán)
8月機(jī)器學(xué)習(xí)應(yīng)用35/39總結(jié):社交網(wǎng)絡(luò)算法把反欺詐工作從局部考量提升到全局考量
8月機(jī)器學(xué)習(xí)應(yīng)用36/39工具推薦
NetworkxiGraphGephiGraphX(Spark)neo4j和py2neo
8月機(jī)器學(xué)習(xí)應(yīng)用37/39作業(yè)
LPA算法劃分followers.txt的社區(qū)(參考上課內(nèi)容)Walktrap算法實(shí)現(xiàn)原理筆記在構(gòu)成圓形的30000個(gè)隨機(jī)樣本點(diǎn)上,設(shè)置7個(gè)簇,分別使用K-Means算法和K-Means++算法的聚類對(duì)比解答答案:
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年高中化學(xué)第3章第2節(jié)第1課時(shí)自然界中氮的循環(huán)以及氮循環(huán)中的重要物質(zhì)練習(xí)含解析魯科版必修1
- 企劃部年度工作總結(jié)
- 公司市場(chǎng)部主管年終總結(jié)
- 個(gè)人年度總工程師工作總結(jié)
- 行政科工作總結(jié)
- 六年級(jí)班主任第一學(xué)期工作總結(jié)
- 中班學(xué)期末總結(jié)與反思
- 產(chǎn)權(quán)酒店式公寓委托經(jīng)營(yíng)管理協(xié)議書范本
- 石材加工合作合同范本
- 出租車買賣合同范本
- OEM合作協(xié)議(定稿)
- 微電網(wǎng)市場(chǎng)調(diào)查研究報(bào)告
- 人員穩(wěn)定性保障措施技術(shù)投標(biāo)方案
- 2010企業(yè)會(huì)計(jì)準(zhǔn)則講解word版
- 中國(guó)古代舞蹈史
- CB/T 467-1995法蘭青銅閘閥
- 中醫(yī)診斷學(xué)八綱辨證課件
- 中國(guó)石油天然氣集團(tuán)公司建設(shè)項(xiàng)目其他費(fèi)用和相關(guān)費(fèi)用的規(guī)定
- 江蘇省城市規(guī)劃管理技術(shù)規(guī)定——蘇州市實(shí)施細(xì)則之二2021年版
評(píng)論
0/150
提交評(píng)論