![大數(shù)據(jù)的商業(yè)應(yīng)用課件_第1頁](http://file4.renrendoc.com/view/c6b550073b21f5b6a0e24b900020152f/c6b550073b21f5b6a0e24b900020152f1.gif)
![大數(shù)據(jù)的商業(yè)應(yīng)用課件_第2頁](http://file4.renrendoc.com/view/c6b550073b21f5b6a0e24b900020152f/c6b550073b21f5b6a0e24b900020152f2.gif)
![大數(shù)據(jù)的商業(yè)應(yīng)用課件_第3頁](http://file4.renrendoc.com/view/c6b550073b21f5b6a0e24b900020152f/c6b550073b21f5b6a0e24b900020152f3.gif)
![大數(shù)據(jù)的商業(yè)應(yīng)用課件_第4頁](http://file4.renrendoc.com/view/c6b550073b21f5b6a0e24b900020152f/c6b550073b21f5b6a0e24b900020152f4.gif)
![大數(shù)據(jù)的商業(yè)應(yīng)用課件_第5頁](http://file4.renrendoc.com/view/c6b550073b21f5b6a0e24b900020152f/c6b550073b21f5b6a0e24b900020152f5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)的商業(yè)應(yīng)用大數(shù)據(jù)的商業(yè)應(yīng)用第九章大數(shù)據(jù)商業(yè)應(yīng)用9.1
用戶畫像和精準(zhǔn)營銷9.2廣告推薦9.3互聯(lián)網(wǎng)金融習(xí)題of4329.4
實(shí)戰(zhàn):個(gè)人貸款風(fēng)險(xiǎn)評估第九章大數(shù)據(jù)商業(yè)應(yīng)用9.1用戶畫像和精準(zhǔn)營銷9.2廣告9.1用戶畫像和精準(zhǔn)營銷第九章大數(shù)據(jù)商業(yè)應(yīng)用9.1.1用戶畫像概述
人在網(wǎng)絡(luò)世界中的行為集合代表了他在網(wǎng)絡(luò)世界中的“性格”,這個(gè)集合就描述了他的網(wǎng)絡(luò)個(gè)性和用戶特征(UserProfile)。從數(shù)據(jù)擁有者,也就是企業(yè)角度來看,他們掌握了所有用戶在網(wǎng)絡(luò)世界中“某方面”的行為習(xí)慣,如用戶瀏覽了哪些網(wǎng)頁、搜索了哪些關(guān)鍵詞、購買了哪些商品、留下了哪些評價(jià)等,企業(yè)都會(huì)收集匯總。如何將如此龐雜的數(shù)據(jù)轉(zhuǎn)換為商業(yè)價(jià)值,成為現(xiàn)在企業(yè)越來越關(guān)注的問題。面對高質(zhì)量、多維度的海量數(shù)據(jù),如何建立精準(zhǔn)的用戶模型就顯得尤為重要,用戶畫像的概念也就應(yīng)運(yùn)而生。
9.1用戶畫像和精準(zhǔn)營銷第九章大數(shù)據(jù)商業(yè)應(yīng)用9.1.1用戶9.1用戶畫像和精準(zhǔn)營銷第九章大數(shù)據(jù)商業(yè)應(yīng)用用戶畫像從多維度對用戶特征進(jìn)行構(gòu)造和刻畫,包括用戶的社會(huì)屬性、生活習(xí)慣、消費(fèi)行為等,進(jìn)而可以揭示用戶的性格特征。有了用戶畫像,企業(yè)就能真正了解了用戶的所需所想,盡可能做到以用戶為中心,為用戶提供舒適快捷的服務(wù)。1用戶畫像技術(shù)通過對用戶的分析,讓企業(yè)對用戶的精準(zhǔn)定位成為了可能。在這個(gè)基礎(chǔ)上,依靠現(xiàn)代信息技術(shù)手段建立個(gè)性化的顧客溝通服務(wù)體系,將產(chǎn)品或營銷信息推送到特定的用戶群里中,既節(jié)省營銷成本,又能起到最大化的營銷效果。2用戶畫像,即用戶信息的標(biāo)簽化,是企業(yè)通過收集、分析用戶數(shù)據(jù)后,抽象出的一個(gè)虛擬用戶,可以認(rèn)為是真實(shí)用戶的虛擬代表。用戶畫像的核心工作就是為用戶匹配相符的標(biāo)簽,通常一個(gè)標(biāo)簽被認(rèn)為是人為規(guī)定的高度精練的特征標(biāo)識。of4349.1用戶畫像和精準(zhǔn)營銷第九章大數(shù)據(jù)商業(yè)應(yīng)用用戶畫像從多維9.1用戶畫像和精準(zhǔn)營銷第九章大數(shù)據(jù)商業(yè)應(yīng)用9.1.2用戶畫像的價(jià)值精準(zhǔn)營銷用戶統(tǒng)計(jì)數(shù)據(jù)挖掘效果評估指導(dǎo)產(chǎn)品研發(fā)優(yōu)化用戶體驗(yàn)of4359.1用戶畫像和精準(zhǔn)營銷第九章大數(shù)據(jù)商業(yè)應(yīng)用9.1.2用戶9.1用戶畫像和精準(zhǔn)營銷第九章大數(shù)據(jù)商業(yè)應(yīng)用9.1.3用戶畫像構(gòu)建流程基礎(chǔ)數(shù)據(jù)收集網(wǎng)絡(luò)行為數(shù)據(jù)服務(wù)內(nèi)行為數(shù)據(jù)用戶內(nèi)容偏好數(shù)據(jù)用戶交易數(shù)據(jù)行為建模文本挖掘自然語言處理機(jī)器學(xué)習(xí)預(yù)測算法構(gòu)建畫像聚類算法基本屬性購買能力行為特征興趣愛好心理特征社交網(wǎng)絡(luò)of4369.1用戶畫像和精準(zhǔn)營銷第九章大數(shù)據(jù)商業(yè)應(yīng)用9.1.3用戶9.1用戶畫像和精準(zhǔn)營銷第九章大數(shù)據(jù)商業(yè)應(yīng)用of437網(wǎng)絡(luò)行為數(shù)據(jù):活躍人數(shù)、頁面瀏覽量、訪問時(shí)長、激活率、外部觸點(diǎn)、社交數(shù)據(jù)等服務(wù)內(nèi)行為數(shù)據(jù):瀏覽路徑、頁面停留時(shí)間、訪問深度、頁面瀏覽次數(shù)等用戶內(nèi)容偏好數(shù)據(jù):瀏覽/收藏內(nèi)容、評論內(nèi)容、互動(dòng)內(nèi)容、生活形態(tài)偏好、品牌偏好等用戶交易數(shù)據(jù)(交易類服務(wù)):貢獻(xiàn)率、客單價(jià)、連帶率、回頭率、流失率等當(dāng)然,收集到的數(shù)據(jù)不會(huì)是100%準(zhǔn)確的,都具有不確定性,這就需要在后面的階段中建模來再判斷,比如某用戶在性別一欄填的男,但通過其行為偏好可判斷其性別為“女”的概率為80%。
數(shù)據(jù)收集與分析01
構(gòu)建用戶畫像是為了將用戶信息還原,構(gòu)建一個(gè)用戶數(shù)據(jù)模型。因此這些數(shù)據(jù)是基于真實(shí)的用戶數(shù)據(jù)。用戶數(shù)據(jù)可以大致分為網(wǎng)絡(luò)行為數(shù)據(jù)、服務(wù)內(nèi)行為數(shù)據(jù)、用戶內(nèi)容偏好數(shù)據(jù)、用戶交易數(shù)據(jù)這四類。9.1用戶畫像和精準(zhǔn)營銷第九章大數(shù)據(jù)商業(yè)應(yīng)用of437數(shù)據(jù)9.1用戶畫像和精準(zhǔn)營銷第九章大數(shù)據(jù)商業(yè)應(yīng)用of438數(shù)據(jù)建模02
該階段是對上階段收集到數(shù)據(jù)的處理,進(jìn)行行為建模,以抽象出用戶的標(biāo)簽,這個(gè)階段注重的應(yīng)是大概率事件,通過數(shù)學(xué)算法模型盡可能地排除用戶的偶然行為。
這時(shí)也要用到機(jī)器學(xué)習(xí),對用戶的行為、偏好進(jìn)行猜測,好比一個(gè)y=kx+b的算法,X代表已知信息,Y是用戶偏好,通過不斷的精確k和b來精確Y。在這個(gè)階段,需要通過定性與定量相結(jié)合的研究方法來建立很多模型來為每個(gè)用戶打上標(biāo)簽以及對應(yīng)標(biāo)簽的權(quán)重。定性化研究方法就是確定事物的性質(zhì),是描述性的;定量化研究方法就是確定對象數(shù)量特征、數(shù)量關(guān)系和數(shù)量變化,是可量化的。9.1用戶畫像和精準(zhǔn)營銷第九章大數(shù)據(jù)商業(yè)應(yīng)用of438數(shù)據(jù)9.1用戶畫像和精準(zhǔn)營銷第九章大數(shù)據(jù)商業(yè)應(yīng)用of439構(gòu)建用戶畫像03步驟步驟步驟1把用戶的基本屬性(年齡、性別、地域)、購買能力、行為特征、興趣愛好、心理特征、社交網(wǎng)絡(luò)大致地標(biāo)簽化。3關(guān)于“標(biāo)簽化”,一般采用多級標(biāo)簽、多級分類。當(dāng)一切數(shù)據(jù)標(biāo)簽化并賦予權(quán)重后,即可根據(jù)構(gòu)建用戶畫像的目的來搭建用戶畫像基本模型了。29.1用戶畫像和精準(zhǔn)營銷第九章大數(shù)據(jù)商業(yè)應(yīng)用of439構(gòu)建9.1用戶畫像和精準(zhǔn)營銷第九章大數(shù)據(jù)商業(yè)應(yīng)用of4310數(shù)據(jù)可視化分析04如圖所示,這是把用戶畫像真正利用起來的一步,在此步驟中一般是針對群體的分析,比如可以根據(jù)用戶價(jià)值來細(xì)分出核心用戶、評估某一群體的潛在價(jià)值空間,以做出針對性的運(yùn)營。9.1用戶畫像和精準(zhǔn)營銷第九章大數(shù)據(jù)商業(yè)應(yīng)用of4310數(shù)9.1用戶畫像和精準(zhǔn)營銷第九章大數(shù)據(jù)商業(yè)應(yīng)用9.1.4用戶標(biāo)簽體系of4311什么是標(biāo)簽體系?簡單說就是你把用戶分到多少個(gè)類里面去。當(dāng)然,每個(gè)用戶是可以分到多個(gè)類上的。這些類都是什么,彼此之間有何聯(lián)系,就構(gòu)成了標(biāo)簽體系。標(biāo)簽體系的設(shè)計(jì)有兩個(gè)常見要求,一是便于檢索,二是效果顯著。在不同的場景下,對這兩點(diǎn)的要求重點(diǎn)是不同的。一般來說,設(shè)計(jì)一個(gè)標(biāo)簽體系以下三種思路。從技術(shù)層面看,用戶畫像的過程比較乏味。但如何設(shè)計(jì)用戶畫像的標(biāo)簽體系卻是一個(gè)看起來最簡單、卻最難以把握精髓的環(huán)節(jié)。問題9.1用戶畫像和精準(zhǔn)營銷第九章大數(shù)據(jù)商業(yè)應(yīng)用9.1.4用戶9.1用戶畫像和精準(zhǔn)營銷第九章大數(shù)據(jù)商業(yè)應(yīng)用1.結(jié)構(gòu)化標(biāo)簽體系of4312結(jié)構(gòu)化標(biāo)簽體系看起來整潔,又比較好解釋,在面向品牌廣告主交流時(shí)比較好用。性別、年齡這類人口屬性標(biāo)簽,是最典型的結(jié)構(gòu)化體系。Yahoo!用戶標(biāo)簽體系圖9.1用戶畫像和精準(zhǔn)營銷第九章大數(shù)據(jù)商業(yè)應(yīng)用1.結(jié)構(gòu)化標(biāo)簽9.1用戶畫像和精準(zhǔn)營銷第九章大數(shù)據(jù)商業(yè)應(yīng)用2.半結(jié)構(gòu)化標(biāo)簽體系of4313在用于效果廣告時(shí),標(biāo)簽設(shè)計(jì)的靈活性大大提高了。標(biāo)簽體系是不是規(guī)整,就不那么重要了,只要有效果就行。在這種思路下,用戶標(biāo)簽往往是在行業(yè)上呈現(xiàn)出一定的并列體系,而各行業(yè)內(nèi)的標(biāo)簽設(shè)計(jì)則以“逮住老鼠就是好貓”為最高指導(dǎo)原則,切不可拘泥于形式。半結(jié)構(gòu)化標(biāo)簽體系圖9.1用戶畫像和精準(zhǔn)營銷第九章大數(shù)據(jù)商業(yè)應(yīng)用2.半結(jié)構(gòu)化標(biāo)9.1用戶畫像和精準(zhǔn)營銷第九章大數(shù)據(jù)商業(yè)應(yīng)用3.非結(jié)構(gòu)化標(biāo)簽體系of4314非結(jié)構(gòu)化,就是各個(gè)標(biāo)簽就事論事,各自反應(yīng)各自的用戶興趣,彼此之間并無層級關(guān)系,也很難組織成規(guī)整的樹狀結(jié)構(gòu)。非結(jié)構(gòu)化標(biāo)簽的典型例子,是搜索廣告里用的關(guān)鍵詞。還有Facebook用的用戶興趣詞,意思也一樣。半結(jié)構(gòu)化標(biāo)簽操作上已經(jīng)很困難了,非結(jié)構(gòu)化的關(guān)鍵詞為什么在市場上能夠盛行呢?這主要是因?yàn)樗阉鲝V告的市場地位太重要了,圍繞它的關(guān)鍵詞選擇和優(yōu)化,已經(jīng)形成了一套成熟的方法論。9.1用戶畫像和精準(zhǔn)營銷第九章大數(shù)據(jù)商業(yè)應(yīng)用3.非結(jié)構(gòu)化標(biāo)第九章大數(shù)據(jù)商業(yè)應(yīng)用9.1
用戶畫像和精準(zhǔn)營銷9.2廣告推薦9.3互聯(lián)網(wǎng)金融習(xí)題of43159.4
實(shí)戰(zhàn):個(gè)人貸款風(fēng)險(xiǎn)評估第九章大數(shù)據(jù)商業(yè)應(yīng)用9.1用戶畫像和精準(zhǔn)營銷9.2廣告9.2廣告推薦第九章大數(shù)據(jù)商業(yè)應(yīng)用9.2.1推薦系統(tǒng)個(gè)性化推薦在我們的生活中無處不在。早餐買了幾根油條,老板就會(huì)順便問一下需不需要再來一碗豆?jié){;去買帽子的時(shí)候,服務(wù)員會(huì)推薦圍巾。隨著互聯(lián)網(wǎng)的發(fā)展,這種線下推薦也逐步被搬到了線上,成為各大網(wǎng)站吸引用戶、增加收益的法寶。of43169.2廣告推薦第九章大數(shù)據(jù)商業(yè)應(yīng)用9.2.1推薦系統(tǒng)個(gè)性化9.2廣告推薦第九章大數(shù)據(jù)商業(yè)應(yīng)用推薦系統(tǒng)的性能可以通過如下幾個(gè)標(biāo)準(zhǔn)來判定用戶滿意度覆蓋率預(yù)測準(zhǔn)確度冷啟動(dòng)問題過度推薦熱門問題個(gè)性化評價(jià)of43179.2廣告推薦第九章大數(shù)據(jù)商業(yè)應(yīng)用推薦系統(tǒng)的性能可以通過如9.2廣告推薦第九章大數(shù)據(jù)商業(yè)應(yīng)用9.2.2廣告點(diǎn)擊率及其評估評價(jià)一個(gè)網(wǎng)絡(luò)廣告推廣效果好壞的測量指標(biāo)是多樣的,例如,可以通過廣告展示量、廣告點(diǎn)擊量、廣告到達(dá)率、廣告轉(zhuǎn)化率等指標(biāo)進(jìn)行評價(jià)。其中,廣告點(diǎn)擊率(Click-Through-Rate,CTR)是當(dāng)前最為普遍的評價(jià)方式,是反應(yīng)網(wǎng)絡(luò)廣告推廣質(zhì)量最直接的量化指標(biāo)。廣告點(diǎn)擊率的計(jì)算公式為如下:
of43189.2廣告推薦第九章大數(shù)據(jù)商業(yè)應(yīng)用9.2.2廣告點(diǎn)擊率及其9.2廣告推薦第九章大數(shù)據(jù)商業(yè)應(yīng)用
影響廣告點(diǎn)擊率的因素廣告自身的影響上下文環(huán)境影響廣告瀏覽者的影響廣告的類型和廣告內(nèi)容對點(diǎn)擊量影響十分顯著網(wǎng)絡(luò)廣告的出現(xiàn)位置極其重要不同的人群有不同的喜好,這會(huì)導(dǎo)致對網(wǎng)絡(luò)廣告的“偏愛”不同of43199.2廣告推薦第九章大數(shù)據(jù)商業(yè)應(yīng)用9.2廣告推薦第九章大數(shù)據(jù)商業(yè)應(yīng)用
廣告點(diǎn)擊率預(yù)估
(1)直接估算法(2)點(diǎn)擊率預(yù)估模型計(jì)算方法
對廣告的點(diǎn)擊率進(jìn)行預(yù)測是十分有必要的。對展示廣告的網(wǎng)站來說,針對不同頁面、不同人群精準(zhǔn)投放不同廣告,可以使廣告和網(wǎng)頁做到緊密結(jié)合,使廣告“無痕植入”,使瀏覽者在潛移默化中接受廣告,提高廣告被點(diǎn)擊的可能性;對商家來說,不僅可以預(yù)估廣告帶來的收益,及時(shí)對廣告進(jìn)行調(diào)整,提升收益,還可以減少一些不必要的投放,減少支出;對瀏覽者來說,廣告的精準(zhǔn)投放更易被接受,不容易引起反感,增加點(diǎn)擊廣告的可能性。of43209.2廣告推薦第九章大數(shù)據(jù)商業(yè)應(yīng)用9.2廣告推薦第九章大數(shù)據(jù)商業(yè)應(yīng)用9.2.3基于位置的服務(wù)和廣告推薦
“4A”服務(wù)隨時(shí)(Anytime)隨地(Anywhere)為所有的人(Anybody)為所有的事(Anything)of43219.2廣告推薦第九章大數(shù)據(jù)商業(yè)應(yīng)用9.2.3基于位置的服務(wù)9.2廣告推薦第九章大數(shù)據(jù)商業(yè)應(yīng)用
基于位置服務(wù)的關(guān)鍵技術(shù)定位技術(shù)電子地圖技術(shù)數(shù)據(jù)分析、挖掘技術(shù)of4322(1)定位技術(shù):定位技術(shù)是基于位置服務(wù)的基礎(chǔ),目的是獲取終端設(shè)備的物理位置。(2)電子地圖技術(shù):電子地圖是定位信息的承載體,可以將位置信息直觀、形象地展示給用戶,可以將平面的地圖“立體化”。目前成熟的電子地圖有GoogleMap、高德地圖、BingMap等。(3)數(shù)據(jù)分析與數(shù)據(jù)挖掘技術(shù):對獲取的數(shù)據(jù)進(jìn)行分析和挖掘是提供多元化服務(wù)的基礎(chǔ)。例如,借助駕駛?cè)说娜粘\壽E對其推薦他日常經(jīng)過的商店和產(chǎn)品等。9.2廣告推薦第九章大數(shù)據(jù)商業(yè)應(yīng)用9.2廣告推薦第九章大數(shù)據(jù)商業(yè)應(yīng)用
基于位置的廣告推薦與傳統(tǒng)互聯(lián)網(wǎng)廣告不同,基于位置的廣告推薦更多地會(huì)考慮“位置”這一選擇條件,優(yōu)先推薦當(dāng)前地點(diǎn)附近的商家或產(chǎn)品,實(shí)現(xiàn)更加精準(zhǔn)且個(gè)性化的廣告投放,不僅能極大地提升用戶體驗(yàn),還可以迅速將用戶從網(wǎng)上吸引到實(shí)體店面內(nèi),完成從線上到線下的無縫對接。of4323(1)“主動(dòng)式”也稱“推”式,指廣告服務(wù)提供商根據(jù)用戶所在位置,主動(dòng)向客戶發(fā)送廣告,直到用戶取消廣告訂閱或?qū)V告屏蔽為止[10]。圖9-7所示為主動(dòng)式基于位置的廣告推薦實(shí)例。主動(dòng)式基于位置的廣告推薦實(shí)例9.2廣告推薦第九章大數(shù)據(jù)商業(yè)應(yīng)用9.2廣告推薦第九章大數(shù)據(jù)商業(yè)應(yīng)用of4324被動(dòng)式基于位置的廣告推薦實(shí)例(2)“被動(dòng)式”也稱“拉”式,指用戶通過關(guān)鍵詞發(fā)起搜索,推薦系統(tǒng)根據(jù)搜索關(guān)鍵詞、用戶當(dāng)前地理位置信息和用戶其他特征返回出推薦結(jié)果。由于基于位置的廣告推薦一般通過移動(dòng)智能設(shè)備獲取用戶位置,而此類設(shè)備一般都處于開機(jī)狀態(tài),故可以持續(xù)獲取用戶位置,這也為分析用戶移動(dòng)軌跡、分析用戶習(xí)慣、建立用戶畫像奠定了基礎(chǔ)。由于涉及用戶位置等隱私信息,基于位置的廣告推薦服務(wù)的隱私問題備受關(guān)注。另外,如果廣告發(fā)送頻率過于頻繁,用戶會(huì)產(chǎn)生對廣告的厭煩情緒,此時(shí)廣告提供商應(yīng)加強(qiáng)廣告質(zhì)量審查、合理控制廣告發(fā)送頻率。9.2廣告推薦第九章大數(shù)據(jù)商業(yè)應(yīng)用of4324被動(dòng)式基于位第九章大數(shù)據(jù)商業(yè)應(yīng)用9.1
用戶畫像和精準(zhǔn)營銷9.2廣告推薦9.3互聯(lián)網(wǎng)金融習(xí)題of43259.4
實(shí)戰(zhàn):個(gè)人貸款風(fēng)險(xiǎn)評估第九章大數(shù)據(jù)商業(yè)應(yīng)用9.1用戶畫像和精準(zhǔn)營銷9.2廣告9.3互聯(lián)網(wǎng)金融第九章大數(shù)據(jù)商業(yè)應(yīng)用
9.3.1概述
互聯(lián)網(wǎng)金融是指以依托于支付、云計(jì)算、社交網(wǎng)絡(luò)以及搜索引擎等互聯(lián)網(wǎng)工具,實(shí)現(xiàn)資金融通、支付和信息中介等業(yè)務(wù)的一種新興金融?;ヂ?lián)網(wǎng)金融是在實(shí)現(xiàn)安全、移動(dòng)等網(wǎng)絡(luò)技術(shù)水平上,被用戶熟悉接受后自然而然為適應(yīng)新的需求而產(chǎn)生的新模式及新業(yè)務(wù)。“三步走戰(zhàn)略”——平臺(tái)、數(shù)據(jù)、金融平臺(tái)、數(shù)據(jù)、金融相互影響的格局在這種形勢下破局的點(diǎn)在哪里?就在于連接平臺(tái)、用戶、金融等方面的工具——大數(shù)據(jù)of43269.3互聯(lián)網(wǎng)金融第九章大數(shù)據(jù)商業(yè)應(yīng)用9.3互聯(lián)網(wǎng)金融第九章大數(shù)據(jù)商業(yè)應(yīng)用
9.3.2大數(shù)據(jù)在互聯(lián)網(wǎng)金融的應(yīng)用方向
金融企業(yè)通過收集和凝聚多方位的數(shù)據(jù)源信息形成精準(zhǔn)全面的反欺詐信息庫和反欺詐用戶行為畫像,結(jié)合大數(shù)據(jù)分析技術(shù)和機(jī)器學(xué)習(xí)算法進(jìn)行欺詐行為路徑的分析和預(yù)測,并對欺詐觸發(fā)機(jī)制進(jìn)行有效識別。1.金融反欺詐與分析2、構(gòu)建更全面的信用評價(jià)體系3、高頻交易和算法交易4、產(chǎn)品和服務(wù)的輿情分析(1)構(gòu)建完備的信用數(shù)據(jù)平臺(tái);(2)融合金融企業(yè)專業(yè)量化的信用模型和基于互聯(lián)網(wǎng)的進(jìn)貨、銷售、支付清算、物流等交易積累數(shù)據(jù);
(3)應(yīng)用大數(shù)據(jù)技術(shù)進(jìn)行信用模型的分布式計(jì)算部署,快速響應(yīng),高效評價(jià),快速放款。高頻交易主要采取“戰(zhàn)略順序交易”,即通過分析金融大數(shù)據(jù),以識別出特定市場參與者留下的足跡。金融機(jī)構(gòu)借助輿情采集與分析技術(shù),抓取來自社交網(wǎng)站、論壇、貼吧和新聞網(wǎng)站的與金融機(jī)構(gòu)及產(chǎn)品相關(guān)的信息,并數(shù)據(jù)挖掘算法進(jìn)行分詞、聚類、特征提取、關(guān)聯(lián)分析和情感分析等,找出金融企業(yè)及其產(chǎn)品的市場關(guān)注度、評價(jià)正負(fù)性等信息。of43279.3互聯(lián)網(wǎng)金融第九章大數(shù)據(jù)商業(yè)應(yīng)用9.3互聯(lián)網(wǎng)金融第九章大數(shù)據(jù)商業(yè)應(yīng)用
9.3.3機(jī)器學(xué)習(xí)在大數(shù)據(jù)金融中的作用
在企業(yè)數(shù)據(jù)的應(yīng)用的場景下,人們最常用的主要是監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的模型,在金融行業(yè)中一個(gè)天然而又典型的應(yīng)用就是風(fēng)險(xiǎn)控制中對借款人進(jìn)行信用評估。因此互聯(lián)網(wǎng)金融企業(yè)依托互聯(lián)網(wǎng)獲取用戶的網(wǎng)上消費(fèi)行為數(shù)據(jù)、通訊數(shù)據(jù)、信用卡數(shù)據(jù)、第三方征信數(shù)據(jù)等豐富而全面的數(shù)據(jù),可以借助機(jī)器學(xué)習(xí)的手段搭建互聯(lián)網(wǎng)金融企業(yè)的大數(shù)據(jù)風(fēng)控系統(tǒng)。除了在放貸前的信用審核外,互聯(lián)網(wǎng)金融企業(yè)還可以借助機(jī)器學(xué)習(xí)完成傳統(tǒng)金融企業(yè)無法做到的放貸過程中對借款人還貸能力進(jìn)行實(shí)時(shí)監(jiān)控,以及時(shí)對后續(xù)可能無法還貸的人進(jìn)行事前的干預(yù),從而減少因壞賬而帶來的損失。目前互聯(lián)網(wǎng)金融企業(yè)以及第三方征信公司在信用評估這方面比較常用的架構(gòu)是規(guī)則引擎加信用評分卡。of43289.3互聯(lián)網(wǎng)金融第九章大數(shù)據(jù)商業(yè)應(yīng)用9.3互聯(lián)網(wǎng)金融第九章大數(shù)據(jù)商業(yè)應(yīng)用
1、信用評分算法of4329GBDT(GradientBoostingDecisionTree)又叫MART(MultipleAdditiveRegressionTree),該模型不像決策樹模型那樣僅由一棵決策樹構(gòu)成,而是由多棵決策樹構(gòu)成,通常都是上百棵樹,而且每棵樹規(guī)模都較?。礃涞纳疃葧?huì)比較淺)。模型預(yù)測的時(shí)候,對于輸入的一個(gè)樣本實(shí)例,首先會(huì)賦予一個(gè)初值,然后會(huì)遍歷每一棵決策樹,每棵樹都會(huì)對預(yù)測值進(jìn)行調(diào)整修正,最后得到預(yù)測的結(jié)果。F(x)=F_0+β_1T_1(x)+β_2T_2(x)+?+β_mT_m(x)其中,F(xiàn)_0為設(shè)置的初值,T_i是一棵棵的決策樹(弱的分類器)。GBDT作為一種boosting算法,自然包含了boosting的思想,即將一系列弱分類器組合起來構(gòu)成一個(gè)強(qiáng)分類器。它不要求每個(gè)分類器都學(xué)到太多的東西,只要求每個(gè)分類器都學(xué)一點(diǎn)點(diǎn)知識,然后將這些學(xué)到的知識累加起來構(gòu)成一個(gè)強(qiáng)大的模型。9.3互聯(lián)網(wǎng)金融第九章大數(shù)據(jù)商業(yè)應(yīng)用9.3互聯(lián)網(wǎng)金融第九章大數(shù)據(jù)商業(yè)應(yīng)用
2、分類模型的性能評估分類模型應(yīng)用較多的除上面講的LogisticRegression和GBDT,還有DecisionTree、SVM、Randomforest等。實(shí)際應(yīng)用中不僅要知道會(huì)選用這些模型,更重要的是要懂得對所選用的模型的性能做評估與監(jiān)控。涉及到評估分類模型的性能指標(biāo)有很多,常見的有ConfusionMatrix(混淆矩陣),ROC,AUC,Recall,Performance,lift,Gini,K-S之類。其實(shí)這些指標(biāo)之間是相關(guān)與互通的,實(shí)際應(yīng)用時(shí)只需選擇其中幾個(gè)或者是你認(rèn)為是重要的幾個(gè)即可,無須全部都關(guān)注。of43309.3互聯(lián)網(wǎng)金融第九章大數(shù)據(jù)商業(yè)應(yīng)用9.3互聯(lián)網(wǎng)金融第九章大數(shù)據(jù)商業(yè)應(yīng)用
of4331(1)混淆矩陣的概念混淆矩陣是監(jiān)督學(xué)習(xí)中的一種可視化工具,主要用于比較分類結(jié)果和實(shí)例的真實(shí)信息。矩陣中的每一行代表實(shí)例的預(yù)測類別,每一列代表實(shí)例的真實(shí)類別?;煜仃囌嬲?TruePositiveRate,TPR)【靈敏度(sensitivity)】:TPR=TP/(TP+FN),即正樣本預(yù)測結(jié)果數(shù)/正樣本實(shí)際數(shù)假負(fù)率(FalseNegativeRate,FNR):FNR=FN/(TP+FN),即被預(yù)測為負(fù)的正樣本結(jié)果數(shù)/正樣本實(shí)際數(shù)假正率(FalsePositiveRate,FPR):FPR=FP/(FP+TN),即被預(yù)測為正的負(fù)樣本結(jié)果數(shù)/負(fù)樣本實(shí)際數(shù)真負(fù)率(TrueNegativeRate,TNR)【特指度(specificity)】:TNR=TN/(TN+FP),即負(fù)樣本預(yù)測結(jié)果數(shù)/負(fù)樣本實(shí)際數(shù)9.3互聯(lián)網(wǎng)金融第九章大數(shù)據(jù)商業(yè)應(yīng)用9.3互聯(lián)網(wǎng)金融第九章大數(shù)據(jù)商業(yè)應(yīng)用
of4332(2)由混淆矩陣計(jì)算評價(jià)指標(biāo)基于以上混淆矩陣,可以引申出以下指標(biāo)進(jìn)一步評價(jià)分類器性能:精確度(Precision):P=TP/(TP+FP)召回率(Recall):R=TP/(TP+FN),即真正率F-score:查準(zhǔn)率和查全率的調(diào)和平均值,更接近于P,R兩個(gè)數(shù)較小的那個(gè):F=2*P*R/(P+R)準(zhǔn)確率(Aaccuracy):分類器對整個(gè)樣本的判定能力,即將正的判定為正,負(fù)的判定為負(fù):A=(TP+TN)/(TP+FN+FP+TN)靈敏度(Sensitivity):將正樣本預(yù)測為正樣本的能力,Sensitivity=TP/(TP+FN);特異度(Specificity):將負(fù)樣本預(yù)測為負(fù)樣本的能力,Specificity=TN/(TN+FP);AUC(AreaUnderrocCurve)值指處于ROC曲線下方的那部分面積大??;一個(gè)理想的分類模型其AUC值為1,通常其值在0.5至1.0之間,較大的AUC代表了分類模型具備較好的性能。9.3互聯(lián)網(wǎng)金融第九章大數(shù)據(jù)商業(yè)應(yīng)用9.3互聯(lián)網(wǎng)金融第九章大數(shù)據(jù)商業(yè)應(yīng)用
of4333ROC(ReceiverOperatingCharateristic):ROC的主要分析工具為畫在ROC空間的曲線,橫軸為1-Specificity,縱軸為Sensitivity。在分類問題中,一個(gè)閥值對應(yīng)于一個(gè)特異性及靈敏度,并在ROC空間描出一個(gè)點(diǎn)P,當(dāng)閥值連續(xù)移動(dòng)時(shí),P點(diǎn)也隨即移動(dòng)最終繪成ROC曲線。ROC良好的刻畫了不同閥值對樣本的分辨能力,也同時(shí)反應(yīng)出對正例和對反例的分辨能力,方便使用者根據(jù)實(shí)際需求選用合適的閥值。一個(gè)好的分類模型要求ROC曲線盡可能靠近圖形的左上角;9.3互聯(lián)網(wǎng)金融第九章大數(shù)據(jù)商業(yè)應(yīng)用第九章大數(shù)據(jù)商業(yè)應(yīng)用9.1
用戶畫像和精準(zhǔn)營銷9.2廣告推薦9.3互聯(lián)網(wǎng)金融習(xí)題of43349.4
實(shí)戰(zhàn):個(gè)人貸款風(fēng)險(xiǎn)評估第九章大數(shù)據(jù)商業(yè)應(yīng)用9.1用戶畫像和精準(zhǔn)營銷9.2廣告9.4實(shí)戰(zhàn):個(gè)人貸款風(fēng)險(xiǎn)評估第九章大數(shù)據(jù)商業(yè)應(yīng)用
of43351、實(shí)戰(zhàn)目的本次實(shí)驗(yàn)通過提取貸款用戶相關(guān)特征(年齡、工作、收入等),使用SparkMLlib構(gòu)建風(fēng)險(xiǎn)評估模型,使用相關(guān)分類算法將用戶分為不同的風(fēng)險(xiǎn)等級,此分類結(jié)果可作為銀行放貸的參考依據(jù)。本次實(shí)驗(yàn)為方便演示,選用邏輯回歸算法將用戶風(fēng)險(xiǎn)等級分類兩類:高風(fēng)險(xiǎn)、低風(fēng)險(xiǎn)。有能力的同學(xué)可以嘗試使用其他分類算法實(shí)現(xiàn)。9.4實(shí)戰(zhàn):個(gè)人貸款風(fēng)險(xiǎn)評估第九章大數(shù)據(jù)商業(yè)應(yīng)用9.4實(shí)戰(zhàn):個(gè)人貸款風(fēng)險(xiǎn)評估第九章大數(shù)據(jù)商業(yè)應(yīng)用
of43362、實(shí)驗(yàn)環(huán)境和實(shí)驗(yàn)數(shù)據(jù)操作系統(tǒng):CentOS6.5。編程語言:Scala2.10.4。相關(guān)軟件:Hadoop2.6.0、Spark1.6.0。實(shí)驗(yàn)數(shù)據(jù)來源:/,數(shù)據(jù)內(nèi)容解釋詳見書本。9.4實(shí)戰(zhàn):個(gè)人貸款風(fēng)險(xiǎn)評估第九章大數(shù)據(jù)商業(yè)應(yīng)用9.4實(shí)戰(zhàn):個(gè)人貸款風(fēng)險(xiǎn)評估第九章大數(shù)據(jù)商業(yè)應(yīng)用
of4337學(xué)習(xí)階段分類階段選定樣本數(shù)據(jù)提取樣本數(shù)據(jù)特征生成測試報(bào)告評估分類器性能新樣本進(jìn)行特征提取對樣本數(shù)據(jù)進(jìn)行分類3、實(shí)驗(yàn)過程9.4實(shí)戰(zhàn):個(gè)人貸款風(fēng)險(xiǎn)評估第九章大數(shù)據(jù)商業(yè)應(yīng)用9.4實(shí)戰(zhàn):個(gè)人貸款風(fēng)險(xiǎn)評估第九章大數(shù)據(jù)商業(yè)應(yīng)用
of43384、實(shí)驗(yàn)步驟(1)IDEA配置:在IntelliJIDEA中需要導(dǎo)入Spark開發(fā)包,Spark/lib中的jar包能滿足基本的開發(fā)需求,開發(fā)者可以在菜單:File->projectstucture->Libraries中設(shè)置。9.4實(shí)戰(zhàn):個(gè)人貸款風(fēng)險(xiǎn)評估第九章大數(shù)據(jù)商業(yè)應(yīng)用9.4實(shí)戰(zhàn):個(gè)人貸款風(fēng)險(xiǎn)評估第九章大數(shù)據(jù)商業(yè)應(yīng)用
of4339(2)代碼步驟:獲取數(shù)據(jù):valpath="hdfs://master:8020/input/adult.csv"valrawData=sc.textFile(path)簡單的數(shù)據(jù)清洗。/***取第一列為類標(biāo),其余列作為特征值*/valdata=records.map{point=>valfirstdata=point.map(_.replaceAll("",""))valreplaceData=firstdata.map(_.replaceAll(",",""))valtemp=replaceData(0).split("")vallabel=temp(0).toIntvalfeatures=temp.slice(1,temp.size-1).map(_.hashCode).map(x=>x.toDouble)LabeledPoint(label,Vectors.dense(features))}按照一定的比例將數(shù)據(jù)隨機(jī)分為訓(xùn)練集和測試集。這里需要程序開發(fā)者不斷的調(diào)試比例以達(dá)到預(yù)期的準(zhǔn)確率,值得注意的是,不當(dāng)?shù)膭澐直壤龑?dǎo)致“欠擬合”或“過擬合”的情況產(chǎn)生。valsplits=data.randomSplit(Array(0.8,0.2),seed=11L)valtraning=splits(0).cache()valtest=splits(1)第一頁代碼9.4實(shí)戰(zhàn):個(gè)人貸款風(fēng)險(xiǎn)評估第九章大數(shù)據(jù)商業(yè)應(yīng)用9.4實(shí)戰(zhàn):個(gè)人貸款風(fēng)險(xiǎn)評估第九章大數(shù)據(jù)商業(yè)應(yīng)用
of4340訓(xùn)練分類模型。valmodel=newLogisticRegressionWithLBFGS().setNumClasses(2).run(traning)預(yù)測測試樣本的類別。valpredictionAndLabels=test.map{caseLabeledPoint(label,features)=>valprediction=model.predict(features)(prediction,label)}計(jì)算并輸出準(zhǔn)確率。valmetrics=newBinaryClassificationMetrics(predictionAndLabels)valauRoc=metrics.areaUnderROC()println("AreaunderRoc="+auRoc)輸出權(quán)重最大的前10個(gè)特征。valweights=(1tomodel.numFeatures)zipmodel.weights.toArrayprintln("Top5features:")weights.sortBy(-_._2).take(5).foreach{case(k,w)=>println("Feature"+k+"="+w)}保存與加載模型。valmodelPath="hdfs://master:8020/output/"model.save(sc,modelPath)valsameModel=LogisticRegressionModel.load(sc,modelPath)第二頁代碼9.4實(shí)戰(zhàn):個(gè)人貸款風(fēng)險(xiǎn)評估第九章大數(shù)據(jù)商業(yè)應(yīng)用9.4實(shí)戰(zhàn):個(gè)人貸款風(fēng)險(xiǎn)評估第九章大數(shù)據(jù)商業(yè)應(yīng)用
of4341(3)代碼實(shí)例:importorg.apache.spark.mllib.classification.LogisticRegressionModelimportorg.apache.spark.mllib.classification.LogisticRegressionWithLBFGSimportorg.apache.spark.mllib.evaluation.{BinaryClassificationMetrics,MulticlassMetrics}importorg.apache.spark.mllib.regression.LabeledPointimportorg.apache.spark.{SparkConf,SparkContext}importorg.apache.log4j.{Level,Logger}importorg.apache.spark.mllib.linalg.VectorsobjectLRCode{defmain(args:Array[String]):Unit={valconf=newSparkConf().setAppName("LogisiticTest").setMaster("spark://master:7077")valsc=newSparkContext(conf)//屏蔽不必要的日志信息Logger.getLogger("org.apache.spark").setLevel(Level.WARN)Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.OFF)//使用MLUtils對象將hdfs中的數(shù)據(jù)讀取到RDD中valpath="hdfs://master:8020/input/adult.csv"valrawData=sc.textFile(path)第一頁代碼9.4實(shí)戰(zhàn):個(gè)人貸款風(fēng)險(xiǎn)評估第九章大數(shù)據(jù)商業(yè)應(yīng)用9.4實(shí)戰(zhàn):個(gè)人貸款風(fēng)險(xiǎn)評估第九章大數(shù)據(jù)商業(yè)應(yīng)用
of4342(3)代碼實(shí)例:valstartTime=System.currentTimeMillis()println("startTime:"+startTime)//通過“\t”即按行對數(shù)據(jù)內(nèi)容進(jìn)行分割valrecords=rawData.map(_.split("\t"))/***取第一列為類標(biāo),其余列作為特征值*/valdata=records.map{point=>//去除集合中多余的空格valfirstdata=point.map(_.replaceAll("",""))//用空格代替集合中的逗號valreplaceData=firstdata.map(_.replaceAll(",",""))valtemp=replaceData(0).split("")vallabel=temp(0).toIntvalfeatures=temp.slice(1,temp.size-1).map(_.hashCode).map(x=>x.toDouble)LabeledPoint(label,Vectors.dense(features))}第二頁代碼//按照3:2的比例將數(shù)據(jù)隨機(jī)分為訓(xùn)練集和測試集valsplits=data.randomSplit(Array(0.8,0.2),seed=11L)valtraning=splits(0).cache()valtest=splits(1)//訓(xùn)練二元分類的logistic回歸模型valmodel=newLogisticRegressionWithLBFGS().setNumClasses(2).run(traning)//預(yù)測測試樣本的類別valpredictionAndLab
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 電商平臺(tái)多渠道客戶支持體系
- 微循環(huán)檢測儀行業(yè)深度研究報(bào)告
- 基于A位陽離子調(diào)控的0D Mn鹵化物的制備及閃爍發(fā)光性能研究
- 電子競技現(xiàn)代辦公環(huán)境中的休閑元素
- 論執(zhí)行回轉(zhuǎn)之訴的構(gòu)建
- 2024河南印刷業(yè)和記錄媒介的復(fù)制市場前景及投資研究報(bào)告
- 現(xiàn)代水泥企業(yè)的綠色質(zhì)量管理新模式
- 白水泥企業(yè)安全文化的建設(shè)與實(shí)踐
- 基于自適應(yīng)人工免疫思想的電力系統(tǒng)混沌故障檢測及控制策略研究
- 電商平臺(tái)評論優(yōu)化及對SEO的影響
- 復(fù)產(chǎn)復(fù)工試題含答案
- 湖南省長沙市2023-2024學(xué)年八年級下學(xué)期入學(xué)考試英語試卷(附答案)
- 部編版語文三年級下冊第六單元大單元整體作業(yè)設(shè)計(jì)
- 售后服務(wù)經(jīng)理的競聘演講
- 臨床醫(yī)技科室年度運(yùn)營發(fā)展報(bào)告
- 慢加急性肝衰竭護(hù)理查房課件
- 文件丟失應(yīng)急預(yù)案
- 從建設(shè)和諧社會(huì)角度思考治超限載(十)
- 幼兒園小班開學(xué)家長會(huì)課件
- 云南華葉投資公司2023年高校畢業(yè)生招聘1人筆試參考題庫(共500題)答案詳解版
- ABB電子時(shí)間繼電器CTMVS系列操作與安裝指南
評論
0/150
提交評論