金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)_第1頁(yè)
金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)_第2頁(yè)
金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)_第3頁(yè)
金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)_第4頁(yè)
金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)_第5頁(yè)
已閱讀5頁(yè),還剩77頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第1頁(yè)議程大數(shù)據(jù)分析平臺(tái)綜述1大數(shù)據(jù)分析平臺(tái)總體架構(gòu)2大數(shù)據(jù)分析平臺(tái)演進(jìn)路線3大數(shù)據(jù)分析平臺(tái)一期實(shí)施重點(diǎn)4附錄:數(shù)據(jù)質(zhì)量管理平臺(tái)5金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第2頁(yè)金融集團(tuán)管理分析類應(yīng)用建設(shè)現(xiàn)實(shí)狀況基本分析關(guān)注內(nèi)容存在問題基本現(xiàn)實(shí)狀況商城數(shù)據(jù)倉(cāng)庫(kù)累積數(shù)據(jù)沒有充分利用缺乏面向整個(gè)金融集團(tuán)統(tǒng)一、完整數(shù)據(jù)視圖;缺乏支撐金融集團(tuán)日常業(yè)務(wù)運(yùn)轉(zhuǎn)風(fēng)險(xiǎn)評(píng)定體系;缺乏金融集團(tuán)客戶360度視圖,客戶行為分析和預(yù)測(cè)無(wú)法實(shí)現(xiàn);缺乏面向金融業(yè)務(wù)運(yùn)行管理關(guān)鍵績(jī)效指標(biāo)體系;……商城已建立面向整個(gè)零售業(yè)務(wù)數(shù)據(jù)倉(cāng)庫(kù),整合了前臺(tái)業(yè)務(wù)運(yùn)行數(shù)據(jù)和后臺(tái)管理數(shù)據(jù),建立了面向零售管理分析應(yīng)用;金融集團(tuán)已開展供給鏈金融、人人貸和保理等各種業(yè)務(wù),積累了一定量業(yè)務(wù)數(shù)據(jù),同時(shí)業(yè)務(wù)人員也從客戶管理、風(fēng)險(xiǎn)評(píng)級(jí)和經(jīng)營(yíng)規(guī)模預(yù)測(cè)等方面,提出了大量分析預(yù)測(cè)需求;……數(shù)據(jù)平臺(tái)、數(shù)據(jù)應(yīng)用、數(shù)據(jù)管控……基礎(chǔ)數(shù)據(jù)平臺(tái)和BI應(yīng)用建設(shè)是未來(lái)一段時(shí)間重點(diǎn)!數(shù)據(jù)平臺(tái)整體架構(gòu);數(shù)據(jù)平臺(tái)各層建設(shè)標(biāo)準(zhǔn);較成熟金融業(yè)數(shù)據(jù)模型;數(shù)據(jù)質(zhì)量治理;元數(shù)據(jù)管理;

數(shù)據(jù)標(biāo)準(zhǔn)建設(shè)數(shù)據(jù)整合;

數(shù)據(jù)應(yīng)用建設(shè);數(shù)據(jù)平臺(tái)軟硬環(huán)境……金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第3頁(yè)大數(shù)據(jù)分析平臺(tái)建設(shè)目標(biāo)外部非結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一制訂目標(biāo)和分析模型統(tǒng)一劃分分析主題統(tǒng)一設(shè)計(jì)數(shù)據(jù)模式統(tǒng)一規(guī)劃分析方法統(tǒng)一布署技術(shù)基礎(chǔ)統(tǒng)一定義BI應(yīng)用自定義報(bào)表工具行+列簡(jiǎn)單定義方式各種格式報(bào)表集團(tuán)決議層集團(tuán)職能管控層各級(jí)業(yè)務(wù)操作層關(guān)注集團(tuán)主要經(jīng)營(yíng)指標(biāo)業(yè)務(wù)人員使用BI應(yīng)用實(shí)現(xiàn)業(yè)務(wù)協(xié)作和創(chuàng)新BI分析工具供給鏈金融系統(tǒng)POP系統(tǒng)其它業(yè)務(wù)系統(tǒng)云數(shù)據(jù)推送平臺(tái)已實(shí)現(xiàn)了主要零售及金融業(yè)務(wù)系統(tǒng)數(shù)據(jù)清洗、整合,為未來(lái)金融集團(tuán)數(shù)據(jù)平臺(tái)提供了豐富數(shù)據(jù)源。經(jīng)過數(shù)據(jù)平臺(tái)和BI應(yīng)用建設(shè),金融集團(tuán)將搭建統(tǒng)一大數(shù)據(jù)共享和分析平臺(tái),對(duì)各類業(yè)務(wù)進(jìn)行前瞻性預(yù)測(cè)及分析,為集團(tuán)各層次用戶提供統(tǒng)一決議分析支持,提升數(shù)據(jù)共享與流轉(zhuǎn)能力采購(gòu)管理系統(tǒng)查看職能部門業(yè)務(wù)經(jīng)營(yíng)情況金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第4頁(yè)大數(shù)據(jù)分析平臺(tái)建設(shè)預(yù)期收益2.加強(qiáng)業(yè)務(wù)協(xié)作實(shí)現(xiàn)分散在供給鏈金融、人人貸、保理等各個(gè)業(yè)務(wù)系統(tǒng)中數(shù)據(jù)在數(shù)據(jù)平臺(tái)中集中和整合,建立單一產(chǎn)品、客戶等數(shù)據(jù)企業(yè)級(jí)視圖,有效促進(jìn)業(yè)務(wù)集成和協(xié)作,并為企業(yè)級(jí)分析、交叉銷售提供基礎(chǔ)3.促進(jìn)業(yè)務(wù)創(chuàng)新金融集團(tuán)業(yè)務(wù)人員能夠基于明細(xì)、可信數(shù)據(jù),進(jìn)行多維分析和數(shù)據(jù)挖掘,為金融業(yè)務(wù)創(chuàng)新(客戶服務(wù)創(chuàng)新、產(chǎn)品創(chuàng)新等)創(chuàng)造了有利條件4.提升建設(shè)效率經(jīng)過數(shù)據(jù)平臺(tái)對(duì)數(shù)據(jù)進(jìn)行集中,為管理分析、挖掘預(yù)測(cè)類等系統(tǒng)提供一致數(shù)據(jù)基礎(chǔ),改變現(xiàn)有系統(tǒng)數(shù)據(jù)起源多、數(shù)據(jù)處理復(fù)雜現(xiàn)實(shí)狀況,實(shí)現(xiàn)應(yīng)用系統(tǒng)建設(shè)模式轉(zhuǎn)變,提升相關(guān)IT系統(tǒng)建設(shè)和運(yùn)行效率5.改進(jìn)數(shù)據(jù)質(zhì)量從中長(zhǎng)久看,數(shù)據(jù)倉(cāng)庫(kù)對(duì)金融集團(tuán)分散在各個(gè)業(yè)務(wù)系統(tǒng)中數(shù)據(jù)整合、清洗,有利于企業(yè)整體數(shù)據(jù)質(zhì)量改進(jìn),提升數(shù)據(jù)實(shí)用性經(jīng)過數(shù)據(jù)平臺(tái)實(shí)現(xiàn)數(shù)據(jù)集中,確保金融集團(tuán)各級(jí)部門均可在確保數(shù)據(jù)隱私和安全前提下使用數(shù)據(jù),充分發(fā)揮數(shù)據(jù)作為企業(yè)主要資產(chǎn)業(yè)務(wù)價(jià)值1.實(shí)現(xiàn)數(shù)據(jù)共享金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第5頁(yè)議程大數(shù)據(jù)分析平臺(tái)綜述1大數(shù)據(jù)分析平臺(tái)總體架構(gòu)2大數(shù)據(jù)分析平臺(tái)演進(jìn)路線3大數(shù)據(jù)分析平臺(tái)一期實(shí)施重點(diǎn)4附錄:數(shù)據(jù)質(zhì)量管理平臺(tái)5金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第6頁(yè)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)歷史數(shù)據(jù)查詢數(shù)據(jù)交換平臺(tái)應(yīng)用集市數(shù)據(jù)區(qū)商城零售供給鏈金融人人貸系統(tǒng)基金系統(tǒng)……系統(tǒng)企業(yè)內(nèi)外部半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)大數(shù)據(jù)交換組件數(shù)據(jù)庫(kù)數(shù)據(jù)交換組件數(shù)據(jù)區(qū)數(shù)據(jù)交換組件數(shù)據(jù)計(jì)算層大數(shù)據(jù)區(qū)沙盤演練數(shù)據(jù)區(qū)數(shù)據(jù)應(yīng)用層實(shí)時(shí)數(shù)據(jù)區(qū)客戶主題協(xié)議主題產(chǎn)品主題業(yè)務(wù)沙盤演練數(shù)據(jù)增值產(chǎn)品零售數(shù)據(jù)供給鏈數(shù)據(jù)增值產(chǎn)品數(shù)據(jù)區(qū)主題數(shù)據(jù)區(qū)……用戶訪問層客戶匯總賬戶匯總機(jī)構(gòu)匯總……社交媒體移動(dòng)互聯(lián)用戶評(píng)價(jià)訪問日志處理后大數(shù)據(jù)待處理大數(shù)據(jù)流程調(diào)度監(jiān)控告警數(shù)據(jù)標(biāo)準(zhǔn)數(shù)據(jù)質(zhì)量元數(shù)據(jù)數(shù)據(jù)安全流程調(diào)度平臺(tái)……數(shù)據(jù)管控平臺(tái)流程調(diào)度層數(shù)據(jù)管控層數(shù)據(jù)產(chǎn)生層數(shù)據(jù)交換層實(shí)時(shí)數(shù)據(jù)查詢客戶管理財(cái)務(wù)管理……外部用戶貼源數(shù)據(jù)區(qū)……內(nèi)部管理分析內(nèi)部用戶歷史歸檔數(shù)據(jù)區(qū)IT人員風(fēng)險(xiǎn)管理金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第7頁(yè)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)——數(shù)據(jù)產(chǎn)生層內(nèi)部業(yè)務(wù)系統(tǒng)產(chǎn)生結(jié)構(gòu)化數(shù)據(jù)商城日常零售業(yè)務(wù)處理過程中產(chǎn)生結(jié)構(gòu)化數(shù)據(jù),存放在關(guān)系型數(shù)據(jù)庫(kù)中,如:供給商信息、采購(gòu)信息、商品信息、銷售流水……金融集團(tuán)日常業(yè)務(wù)處理過程中產(chǎn)生結(jié)構(gòu)化數(shù)據(jù),存放在關(guān)系型數(shù)據(jù)庫(kù)中,如:客戶信息、賬戶信息、金融產(chǎn)品信息、交易流水……企業(yè)內(nèi)部非結(jié)構(gòu)化數(shù)據(jù)日常業(yè)務(wù)處理過程中產(chǎn)生非結(jié)構(gòu)化數(shù)據(jù),存放形式多樣,主要包含用戶訪問日志、用戶投訴、用戶點(diǎn)評(píng)……企業(yè)外部數(shù)據(jù)企業(yè)外部數(shù)據(jù)以非結(jié)構(gòu)化為主,主要包含國(guó)家政策法規(guī)、論壇等互聯(lián)網(wǎng)信息、地理位置等移動(dòng)信息、微博等社交媒體信息……

源數(shù)據(jù)內(nèi)容在此次項(xiàng)目實(shí)施中將采取以增量為主、全量為輔結(jié)合方式獲取源數(shù)據(jù)商城和金融集團(tuán)業(yè)務(wù)系統(tǒng)數(shù)據(jù)增量數(shù)據(jù)識(shí)別、獲取由云數(shù)據(jù)推送平臺(tái)負(fù)責(zé),云數(shù)據(jù)推送平臺(tái)采取分析、對(duì)比源系統(tǒng)日志方式實(shí)現(xiàn)對(duì)于無(wú)法經(jīng)過上述方式獲取增量源系統(tǒng)數(shù)據(jù),則采取某一個(gè)時(shí)間范圍內(nèi)全部數(shù)據(jù)作為增量初始數(shù)據(jù)加載均采取全量模式源數(shù)據(jù)增量金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第8頁(yè)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)——數(shù)據(jù)交換層數(shù)據(jù)交換層設(shè)計(jì)目標(biāo)傳輸組件是依據(jù)數(shù)據(jù)源存放不一樣分類而設(shè)計(jì),本質(zhì)是經(jīng)過分析數(shù)據(jù)存放結(jié)構(gòu)和數(shù)據(jù)存放庫(kù)特點(diǎn)來(lái)針對(duì)性設(shè)計(jì)工具,以追求卓越性能確保數(shù)據(jù)在平臺(tái)內(nèi)高速流轉(zhuǎn)確保數(shù)據(jù)交換過程中不失真確保數(shù)據(jù)交換過程中不丟失確保數(shù)據(jù)交換過程安全可靠數(shù)據(jù)區(qū)數(shù)據(jù)交換組件數(shù)據(jù)庫(kù)數(shù)據(jù)交換組件大數(shù)據(jù)交換組件金融集團(tuán)系統(tǒng)數(shù)據(jù)服務(wù)層外部大數(shù)據(jù)商城系統(tǒng)Hadoop元數(shù)據(jù)云數(shù)據(jù)推送平臺(tái)數(shù)據(jù)平臺(tái)導(dǎo)入暫時(shí)區(qū)數(shù)據(jù)平臺(tái)導(dǎo)出暫時(shí)區(qū)NAS存放ETL程序區(qū)金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第9頁(yè)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)——數(shù)據(jù)交換層NAS存放Hadoop集群元數(shù)據(jù)區(qū)數(shù)據(jù)平臺(tái)ETL數(shù)據(jù)處理程序區(qū)數(shù)據(jù)平臺(tái)暫時(shí)數(shù)據(jù)區(qū)存放數(shù)據(jù)平臺(tái)各個(gè)Hadoop集群元數(shù)據(jù)信息,如:HDFS文件系統(tǒng)元數(shù)據(jù)集團(tuán)數(shù)據(jù)交換平臺(tái)每日獲取運(yùn)輸局推送平臺(tái)提供業(yè)務(wù)系統(tǒng)改變數(shù)據(jù),暫存在NAS暫時(shí)數(shù)據(jù)區(qū)金融數(shù)據(jù)平臺(tái)加工計(jì)算結(jié)果返回給業(yè)務(wù)系統(tǒng),暫存在NAS暫時(shí)數(shù)據(jù)區(qū)數(shù)據(jù)平臺(tái)ETL加工處理程序(數(shù)據(jù)壓縮、數(shù)據(jù)加載、各數(shù)據(jù)數(shù)據(jù)處理等)統(tǒng)一存放在NAS集群指定目錄,各接口服務(wù)器經(jīng)過文件系統(tǒng)Link建立映射金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第10頁(yè)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)——數(shù)據(jù)交換層大數(shù)據(jù)交換組件企業(yè)內(nèi)部非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù),如:音頻、視頻、郵件、Office文檔、抵押品掃描件等企業(yè)外部非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù),如:微博、貼吧、論壇、用戶點(diǎn)擊流、用戶移動(dòng)位置等批量采集:大數(shù)據(jù)源以SFTP協(xié)議批量傳輸數(shù)據(jù)文件在線訪問:開發(fā)Java或C應(yīng)用,調(diào)用大據(jù)源API,或以網(wǎng)絡(luò)平臺(tái)爬蟲方式抓取源系統(tǒng)非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)組件以實(shí)時(shí)和批量?jī)煞N模式實(shí)現(xiàn)以下功效:數(shù)據(jù)采集數(shù)據(jù)傳輸?shù)綌?shù)據(jù)交換平臺(tái)(接口服務(wù)器)NAS指定目錄存放數(shù)據(jù)到數(shù)據(jù)平臺(tái)大數(shù)據(jù)區(qū)指定HDFS目錄定時(shí)抽取用戶訪問日志,加載到數(shù)據(jù)平臺(tái)大數(shù)據(jù)區(qū)HDFS指定目錄,MR程序加工處理開發(fā)網(wǎng)絡(luò)爬蟲程序,掃描用戶微博,抓取用戶微博內(nèi)容,社交圈信息,存入大數(shù)據(jù)區(qū)處理對(duì)象實(shí)現(xiàn)技術(shù)實(shí)現(xiàn)功效應(yīng)用場(chǎng)景金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第11頁(yè)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)——數(shù)據(jù)交換層數(shù)據(jù)庫(kù)數(shù)據(jù)交換組件企業(yè)內(nèi)部業(yè)務(wù)系統(tǒng)產(chǎn)生結(jié)構(gòu)化數(shù)據(jù),包含兩大起源:商城零售業(yè)務(wù)數(shù)據(jù),數(shù)據(jù)存放在Oracle、SQLServer、MySQL和MongoDB四類數(shù)據(jù)庫(kù)金融集團(tuán)互聯(lián)網(wǎng)金融業(yè)務(wù)數(shù)據(jù),數(shù)據(jù)存放在MySQL數(shù)據(jù)庫(kù)Perl程序數(shù)據(jù)采集,調(diào)用Perl文件模塊相關(guān)函數(shù),輪詢指定目錄,獲取數(shù)據(jù)文件數(shù)據(jù)核查,Perl執(zhí)行文件級(jí)數(shù)據(jù)質(zhì)量檢驗(yàn)數(shù)據(jù)加載,調(diào)用HiveLoad數(shù)據(jù)命令,加載到數(shù)據(jù)平臺(tái)暫時(shí)數(shù)據(jù)區(qū)HiveTable組件以實(shí)時(shí)和批量模式實(shí)現(xiàn)以下功效:數(shù)據(jù)采集,輪詢NAS集群指定目錄,獲取數(shù)據(jù)文件(LZO壓縮)數(shù)據(jù)核查,對(duì)數(shù)據(jù)文件進(jìn)行質(zhì)量校驗(yàn)數(shù)據(jù)加載,加載數(shù)據(jù)到暫時(shí)數(shù)據(jù)區(qū)云數(shù)據(jù)推送平臺(tái)連接供給鏈金融系統(tǒng)數(shù)據(jù)庫(kù),分析供給鏈金融MySQL數(shù)據(jù)庫(kù)日志,識(shí)別增量數(shù)據(jù),存放到金融平臺(tái)NAS存放指定目錄,金融平臺(tái)加載數(shù)據(jù)文件到數(shù)據(jù)平臺(tái)暫時(shí)區(qū)Hive表處理對(duì)象實(shí)現(xiàn)技術(shù)實(shí)現(xiàn)功效應(yīng)用場(chǎng)景金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第12頁(yè)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)——數(shù)據(jù)交換層數(shù)據(jù)區(qū)數(shù)據(jù)交換組件數(shù)據(jù)平臺(tái)計(jì)算層各數(shù)據(jù)區(qū)貼源數(shù)據(jù)區(qū)主題數(shù)據(jù)區(qū)集市數(shù)據(jù)區(qū)沙盤數(shù)據(jù)區(qū)大數(shù)據(jù)區(qū)歸檔數(shù)據(jù)區(qū)Sqoop實(shí)現(xiàn)集市數(shù)據(jù)區(qū)與數(shù)據(jù)平臺(tái)其它Hadoop數(shù)據(jù)區(qū)數(shù)據(jù)交換Hadoop命令、Hive外部表、MR程序?qū)崿F(xiàn)數(shù)據(jù)平臺(tái)Hadoop數(shù)據(jù)區(qū)間數(shù)據(jù)交換組件以批量方式實(shí)現(xiàn)以下數(shù)據(jù)交換功效:貼源數(shù)據(jù)區(qū)和主題數(shù)據(jù)區(qū)到集市數(shù)據(jù)區(qū)大數(shù)據(jù)區(qū)到主題數(shù)據(jù)區(qū)和集市數(shù)據(jù)區(qū)主題數(shù)據(jù)區(qū)、貼源數(shù)據(jù)區(qū)、集市數(shù)據(jù)區(qū)到沙盤數(shù)據(jù)區(qū)各個(gè)數(shù)據(jù)區(qū)數(shù)據(jù)歸檔數(shù)據(jù)集市數(shù)據(jù)按照據(jù)生命周期規(guī)劃,統(tǒng)一將過期數(shù)據(jù)歸檔到歷史數(shù)據(jù)歸檔區(qū)處理對(duì)象實(shí)現(xiàn)技術(shù)實(shí)現(xiàn)功效應(yīng)用場(chǎng)景金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第13頁(yè)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)——流程調(diào)度層批量處理流程批量數(shù)據(jù)處理由流程調(diào)度層布署自定義開發(fā)WorkFlow組件調(diào)度運(yùn)行整個(gè)流程主要完成以下工作:獲取業(yè)務(wù)系統(tǒng)結(jié)構(gòu)化數(shù)據(jù),存入暫時(shí)數(shù)據(jù)區(qū)獲取企業(yè)內(nèi)外部非結(jié)構(gòu)化數(shù)據(jù),并進(jìn)行結(jié)構(gòu)化處理,存入主題或集市數(shù)據(jù)區(qū)按照貼源數(shù)據(jù)模型整合數(shù)據(jù)(標(biāo)準(zhǔn)化、數(shù)據(jù)更新/追加)按照主題數(shù)據(jù)模型整合數(shù)據(jù)并生成匯總數(shù)據(jù)加工計(jì)算后,結(jié)果交付到數(shù)據(jù)集市,支持分析類應(yīng)用金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第14頁(yè)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)——流程調(diào)度層實(shí)時(shí)數(shù)據(jù)處理流程實(shí)時(shí)數(shù)據(jù)處理強(qiáng)調(diào)是實(shí)時(shí)或準(zhǔn)實(shí)時(shí)獲取并處理數(shù)據(jù),通常采取消息隊(duì)列等技術(shù)構(gòu)建“數(shù)據(jù)流”整個(gè)處理流程由流程調(diào)度層布署自定義開發(fā)WorkFlow組件調(diào)度運(yùn)行整個(gè)流程主要完成以下工作:經(jīng)過數(shù)據(jù)庫(kù)數(shù)據(jù)交換組件獲取增量數(shù)據(jù),加載到實(shí)時(shí)數(shù)據(jù)區(qū)經(jīng)過大數(shù)據(jù)交換組件獲取非結(jié)構(gòu)化數(shù)據(jù),并利用Storm處理數(shù)據(jù),加載到實(shí)時(shí)數(shù)據(jù)區(qū)針對(duì)實(shí)時(shí)數(shù)據(jù)區(qū)數(shù)據(jù)執(zhí)行標(biāo)準(zhǔn)化處理和貼源整合金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第15頁(yè)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)——流程調(diào)度層歸檔數(shù)據(jù)處理流程數(shù)據(jù)歸檔對(duì)象包含業(yè)務(wù)系統(tǒng)數(shù)據(jù)文件、貼源數(shù)據(jù)區(qū)數(shù)據(jù)、主題數(shù)據(jù)區(qū)數(shù)據(jù)、大數(shù)據(jù)區(qū)數(shù)據(jù)和集市數(shù)據(jù)區(qū)數(shù)據(jù)數(shù)據(jù)按照生命周期規(guī)劃存放到歸檔區(qū)Hadoop集群,歸檔后原數(shù)據(jù)區(qū)刪除此數(shù)據(jù)整個(gè)處理流程由流程調(diào)度層布署自定義開發(fā)WorkFlow組件調(diào)度運(yùn)行整個(gè)流程主要完成以下工作:數(shù)據(jù)文件經(jīng)過HDFS命令行copyfromlocal進(jìn)行歸檔貼源、主題和大數(shù)據(jù)區(qū)經(jīng)過HDFS命令行distcp或自定義開發(fā)MR程序執(zhí)行歸檔集市數(shù)據(jù)區(qū)經(jīng)過Sqoop或數(shù)據(jù)庫(kù)提供Hadoop集成技術(shù)(如:外部表)執(zhí)行歸檔金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第16頁(yè)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)——數(shù)據(jù)存放層業(yè)務(wù)系統(tǒng)前日增量數(shù)據(jù)緩存數(shù)據(jù),支持后續(xù)ELT數(shù)據(jù)處理數(shù)據(jù)內(nèi)容主要用途數(shù)據(jù)模型保留周期用戶

訪問模式工作負(fù)載平臺(tái)要求貼源數(shù)據(jù)模型保留最近7天數(shù)據(jù)貼源數(shù)據(jù)區(qū)和主題數(shù)據(jù)區(qū)批量作業(yè)訪問無(wú)最終用戶訪問I/O敏感,連續(xù)小批量數(shù)據(jù)抽取和加載少許量數(shù)據(jù)使用HiveLoad命令,大量數(shù)據(jù)使用MR程序與主題區(qū)/貼源區(qū)/集市區(qū)組成一個(gè)Hadoop集群(Hive)無(wú)單點(diǎn)故障,7×二十四小時(shí)+非工作日有限停機(jī)主題數(shù)據(jù)區(qū)、集市數(shù)據(jù)區(qū)和沙盤演練數(shù)據(jù)區(qū)批量作業(yè)訪問無(wú)最終用戶訪問I/O敏感,日終批量ETL以ELT形式經(jīng)過HiveSQL執(zhí)行與主題區(qū)/貼源區(qū)/集市區(qū)組成一個(gè)Hadoop集群(Hive)無(wú)單點(diǎn)故障,7×二十四小時(shí)+非工作日有限停機(jī)貼源數(shù)據(jù)模型不保留歷史業(yè)務(wù)系統(tǒng)前日快照數(shù)據(jù)和一段時(shí)間流水?dāng)?shù)據(jù)數(shù)據(jù)標(biāo)準(zhǔn)化,為后續(xù)主題模型、集市和沙盤演練提供數(shù)據(jù)暫時(shí)數(shù)據(jù)區(qū)貼源數(shù)據(jù)區(qū)金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第17頁(yè)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)——數(shù)據(jù)存放層(續(xù))企業(yè)內(nèi)外部非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)采集并存放數(shù)據(jù),進(jìn)行結(jié)構(gòu)化處理,最終得到結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)內(nèi)容主要用途數(shù)據(jù)模型保留周期用戶

訪問模式工作負(fù)載平臺(tái)要求數(shù)據(jù)按照HDFS文件存放提議保留1年集市區(qū)/沙盤區(qū)/增值產(chǎn)品區(qū)/主題區(qū)/歸檔區(qū)批量作業(yè)訪問少許高級(jí)業(yè)務(wù)人員進(jìn)行大數(shù)據(jù)分析MapReduce分布式計(jì)算,半/非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化處理(包含文本檢索、語(yǔ)義分詞、圖像識(shí)別、音頻識(shí)別等)與主題區(qū)/貼源區(qū)組成一個(gè)Hadoop集群(HDFS)無(wú)單點(diǎn)故障,7×二十四小時(shí)+非工作日有限停機(jī)集市區(qū)/沙盤區(qū)/增值產(chǎn)品區(qū)/主題區(qū)/高時(shí)效區(qū)批量作業(yè)訪問業(yè)務(wù)人員執(zhí)行歷史數(shù)據(jù)查詢MapReduce分布式計(jì)算,HDFS命令實(shí)現(xiàn)Hadoop集群內(nèi)歸檔,Sqoop實(shí)現(xiàn)數(shù)據(jù)庫(kù)歸檔,經(jīng)過Hive提供歷史查詢獨(dú)立Hadoop集群(HDFS+Hive)無(wú)單點(diǎn)故障,7×二十四小時(shí)+非工作日有限停機(jī)數(shù)據(jù)按照HDFS文件存放數(shù)據(jù)文件按照數(shù)據(jù)區(qū)劃分目錄,提議保留7年其它各數(shù)據(jù)區(qū)歷史數(shù)據(jù)按數(shù)據(jù)生命周期規(guī)劃歸檔平臺(tái)過期數(shù)據(jù),支撐歷史數(shù)據(jù)查詢大數(shù)據(jù)區(qū)歷史歸檔數(shù)據(jù)區(qū)金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第18頁(yè)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)——數(shù)據(jù)存放層(續(xù))業(yè)務(wù)系統(tǒng)歷史明細(xì)數(shù)據(jù)打破業(yè)務(wù)條線整合數(shù)據(jù)數(shù)據(jù)內(nèi)容主要用途數(shù)據(jù)模型保留周期用戶

訪問模式工作負(fù)載可用性要求第三范式模型保留長(zhǎng)久歷史,需要依據(jù)主題細(xì)化主題區(qū)/集市區(qū)/沙盤區(qū)/增值產(chǎn)品區(qū)/歸檔區(qū)批量作業(yè)訪問少許高級(jí)業(yè)務(wù)人員進(jìn)行靈活查詢、挖掘預(yù)測(cè)I/O敏感,日終批量ETL(合并、拉鏈、關(guān)聯(lián)、匯總等等)以ELT形式經(jīng)過HiveSQL執(zhí)行,復(fù)雜處理使用MR定制UDF與大數(shù)據(jù)區(qū)/貼源區(qū)組成一個(gè)Hadoop集群(Hive)無(wú)單點(diǎn)故障,7×二十四小時(shí)+非工作日有限停機(jī)集市區(qū)/沙盤區(qū)/增值產(chǎn)品區(qū)/歸檔區(qū)批量作業(yè)訪問少許高級(jí)業(yè)務(wù)人員進(jìn)行靈活查詢、挖掘預(yù)測(cè)I/O敏感,日終批量ETL(連接、聚合、匯總等等)以ELT形式經(jīng)過HiveSQL執(zhí)行,復(fù)雜處理使用MR定制UDF與大數(shù)據(jù)區(qū)/貼源區(qū)組成一個(gè)Hadoop集群(Hive)無(wú)單點(diǎn)故障,7×二十四小時(shí)+非工作日有限停機(jī)逆范式寬表依賴于集市數(shù)據(jù)需求對(duì)主題數(shù)據(jù)預(yù)加工后結(jié)果數(shù)據(jù)針對(duì)應(yīng)用需求進(jìn)行數(shù)據(jù)預(yù)連接、預(yù)匯總,為集市提供數(shù)據(jù)主題數(shù)據(jù)區(qū)—明細(xì)主題數(shù)據(jù)區(qū)—匯總金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第19頁(yè)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)——數(shù)據(jù)存放層(續(xù))按沙盤演練需求,準(zhǔn)備明細(xì)或匯總業(yè)務(wù)數(shù)據(jù)為數(shù)據(jù)科學(xué)家挖掘預(yù)測(cè)操作提供數(shù)據(jù)服務(wù)數(shù)據(jù)內(nèi)容主要用途數(shù)據(jù)模型保留周期用戶

訪問模式工作負(fù)載可用性要求模型依賴于沙盤演練需求在整個(gè)沙盤演練周期內(nèi)保留集市區(qū)/沙盤區(qū)/歸檔區(qū)批量作業(yè)訪問少許高級(jí)業(yè)務(wù)人員進(jìn)行靈活查詢、挖掘預(yù)測(cè)I/O敏感,終批量ETL(合并、拉鏈、關(guān)聯(lián)、匯總等等)以ELT形式經(jīng)過HiveSQL執(zhí)行,復(fù)雜處理使用MR定制UDF獨(dú)立Hadoop集群(HDFS)無(wú)單點(diǎn)故障,7×二十四小時(shí)+非工作日有限停機(jī)沙盤區(qū)/歸檔區(qū)批量作業(yè)訪問決議人員、管理人員、業(yè)務(wù)人員訪問I/O敏感型,BI工具提交報(bào)表、查詢、分析SQL命令和日終批量ETL(匯總、聚集等操作,以ELT形式經(jīng)過SQL執(zhí)行)基于開放平臺(tái)完全無(wú)共享MPP數(shù)據(jù)庫(kù)集群+內(nèi)存數(shù)據(jù)庫(kù)無(wú)單點(diǎn)故障,7×二十四小時(shí)+非工作日有限停機(jī)維度數(shù)據(jù)模型依賴業(yè)務(wù)需求面向企業(yè)內(nèi)部管理分析類應(yīng)用需求匯總數(shù)據(jù)為客戶、運(yùn)行等管理分析主題和數(shù)據(jù)增值產(chǎn)品提供數(shù)據(jù)服務(wù)沙盤演練數(shù)據(jù)區(qū)應(yīng)用集市數(shù)據(jù)區(qū)金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第20頁(yè)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)——數(shù)據(jù)存放層(續(xù))依據(jù)外部用戶數(shù)據(jù)使用需求數(shù)據(jù)平臺(tái)加工計(jì)算結(jié)果數(shù)據(jù)為布署在數(shù)據(jù)平臺(tái)上企業(yè)內(nèi)外部增值產(chǎn)品提供數(shù)據(jù)支持?jǐn)?shù)據(jù)內(nèi)容主要用途數(shù)據(jù)模型保留周期用戶

訪問模式工作負(fù)載可用性要求應(yīng)用模型,依賴于用戶業(yè)務(wù)需求依賴于用戶業(yè)務(wù)需求企業(yè)外部人員,如:京東客戶經(jīng)過自己布署在Paas平臺(tái)上應(yīng)用訪問I/O敏感型,BI工具提交報(bào)表、查詢、分析SQL命令和日終批量ETL(匯總、聚集等操作,以ELT形式經(jīng)過SQL執(zhí)行)獨(dú)立Paas平臺(tái),布署Hadoop集群無(wú)單點(diǎn)故障,7×二十四小時(shí)+非工作日有限停機(jī)企業(yè)業(yè)務(wù)人員高時(shí)效、高并發(fā)、高可靠性聯(lián)機(jī)交易類查詢CPU敏感,BI工具或業(yè)務(wù)系統(tǒng)高并發(fā)、高時(shí)效查詢,以及準(zhǔn)實(shí)時(shí)連續(xù)ETL處理+SQL批量處理獨(dú)立內(nèi)存數(shù)據(jù)庫(kù)集群無(wú)單點(diǎn)故障,365×二十四小時(shí)不停機(jī)貼源數(shù)據(jù)模型依賴用戶業(yè)務(wù)需求面向應(yīng)用業(yè)務(wù)系統(tǒng)快照數(shù)據(jù)和一段時(shí)間交易流水為實(shí)時(shí)獲準(zhǔn)實(shí)時(shí)分析應(yīng)用提供數(shù)據(jù)服務(wù)增值產(chǎn)品數(shù)據(jù)區(qū)實(shí)時(shí)數(shù)據(jù)區(qū)金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第21頁(yè)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)——數(shù)據(jù)存放層數(shù)據(jù)流數(shù)據(jù)集成層操作型聚合數(shù)據(jù)暫時(shí)數(shù)據(jù)區(qū)實(shí)時(shí)數(shù)據(jù)區(qū)公共匯總數(shù)據(jù)主題明細(xì)數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化&半結(jié)構(gòu)化數(shù)據(jù)沙盤演練數(shù)據(jù)區(qū)試驗(yàn)室數(shù)據(jù)集市數(shù)據(jù)區(qū)POP自營(yíng)數(shù)據(jù)貼源數(shù)據(jù)區(qū)金融業(yè)務(wù)數(shù)據(jù)主題數(shù)據(jù)區(qū)客戶管理集市財(cái)務(wù)管理集市運(yùn)行管理集市風(fēng)險(xiǎn)管理集市……集市大物流系統(tǒng)數(shù)據(jù)供給鏈系統(tǒng)數(shù)據(jù)財(cái)務(wù)審計(jì)數(shù)據(jù)財(cái)務(wù)研發(fā)數(shù)據(jù)操作型明細(xì)據(jù)歸檔數(shù)據(jù)區(qū)大數(shù)據(jù)區(qū)源系統(tǒng)數(shù)據(jù)文件貼源數(shù)據(jù)主題數(shù)據(jù)集市數(shù)據(jù)高時(shí)效數(shù)據(jù)大數(shù)據(jù)增值產(chǎn)品數(shù)據(jù)區(qū)金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第22頁(yè)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)——數(shù)據(jù)應(yīng)用層大數(shù)據(jù)平臺(tái)應(yīng)用針對(duì)公檢法查詢需求、內(nèi)外部審計(jì)需求和最終用戶歷史交易查詢需求,以貼源存放歸檔數(shù)據(jù)為基礎(chǔ),實(shí)現(xiàn)查詢類應(yīng)用歷史查詢類應(yīng)用通常使用BI工具或自主開發(fā)實(shí)現(xiàn)客戶經(jīng)理等最終業(yè)務(wù)人員針對(duì)當(dāng)前業(yè)務(wù)發(fā)生(如:用戶交易、用戶訪問日志),進(jìn)行實(shí)時(shí)查詢、分析應(yīng)用管理分析類應(yīng)用主要實(shí)現(xiàn)了集團(tuán)客戶管理、運(yùn)行管理、財(cái)務(wù)管理、風(fēng)險(xiǎn)管理、監(jiān)管信息披露五大分析體系功效管理分析類應(yīng)用通常采取套裝軟件和BI工具(MicroStrategy等)實(shí)現(xiàn)業(yè)務(wù)人員依據(jù)業(yè)務(wù)需求或自己對(duì)業(yè)務(wù)了解,設(shè)計(jì)計(jì)算模型,準(zhǔn)備各類明細(xì)或匯總數(shù)據(jù),導(dǎo)入模型運(yùn)算,驗(yàn)證業(yè)務(wù)結(jié)果沙盤演練類應(yīng)用通常使用R語(yǔ)言在Hadoop分布式體系下實(shí)現(xiàn)金融集團(tuán)數(shù)據(jù)科學(xué)家依據(jù)自己對(duì)業(yè)務(wù)需求了解或者對(duì)市場(chǎng)判斷,設(shè)計(jì)并運(yùn)行模型,發(fā)掘數(shù)據(jù)價(jià)值,并封裝成商業(yè)產(chǎn)品數(shù)據(jù)增值產(chǎn)品通常采取R語(yǔ)言和BI工具實(shí)現(xiàn),面向企業(yè)內(nèi)外部用戶管理分析類應(yīng)用1沙盤演練類應(yīng)用3歷史查詢類應(yīng)用4高時(shí)效類分析應(yīng)用5數(shù)據(jù)增值類產(chǎn)品2實(shí)時(shí)分析類應(yīng)用通常使用CEP、ESB等技術(shù)實(shí)現(xiàn)金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第23頁(yè)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)——平臺(tái)發(fā)展不一樣階段對(duì)應(yīng)應(yīng)用工作負(fù)載復(fù)雜度大數(shù)據(jù)平臺(tái)發(fā)展階段劃分操作為主階段什么正在發(fā)生?動(dòng)態(tài)數(shù)據(jù)倉(cāng)庫(kù)階段

讓正確事情發(fā)生!分析為主階段為何會(huì)發(fā)生報(bào)表為主階段發(fā)生了什么預(yù)測(cè)為主階段將會(huì)發(fā)生什么?批量隨機(jī)查詢數(shù)據(jù)分析連續(xù)更新加載/短查詢基于事件動(dòng)態(tài)觸發(fā)數(shù)據(jù)量增加用戶數(shù)增加查詢復(fù)雜度增加ETL處理復(fù)雜度增加管理分析類應(yīng)用歷史查詢類應(yīng)用實(shí)時(shí)分析類應(yīng)用沙盤演練類應(yīng)用數(shù)據(jù)增值類產(chǎn)品金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第24頁(yè)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)——管理分析類應(yīng)用總賬分析資產(chǎn)負(fù)債表分析損益表分析現(xiàn)金流量表分析財(cái)務(wù)指標(biāo)分析盈利分析機(jī)構(gòu)貢獻(xiàn)度產(chǎn)品貢獻(xiàn)度客戶細(xì)分貢獻(xiàn)度渠道績(jī)效資產(chǎn)負(fù)債分析主要指標(biāo)報(bào)告,如:凈利息收入、凈收入、凈現(xiàn)值、市場(chǎng)價(jià)值等頭寸匯報(bào)現(xiàn)金流報(bào)告風(fēng)險(xiǎn)價(jià)值(VaR)計(jì)算財(cái)務(wù)預(yù)算與計(jì)劃財(cái)務(wù)預(yù)算財(cái)務(wù)計(jì)劃執(zhí)行監(jiān)控執(zhí)行過程分析年末財(cái)務(wù)計(jì)劃執(zhí)行分析預(yù)測(cè)與場(chǎng)景分析業(yè)務(wù)規(guī)模預(yù)測(cè)收益預(yù)測(cè)……領(lǐng)導(dǎo)管理駕駛艙機(jī)構(gòu)績(jī)效考評(píng)客戶經(jīng)理考評(píng)客戶經(jīng)理工作量評(píng)定客戶經(jīng)理服務(wù)客戶收益評(píng)定產(chǎn)品績(jī)效考評(píng)業(yè)務(wù)量考評(píng)供給鏈金融業(yè)務(wù)人人貸業(yè)務(wù)保理業(yè)務(wù)基金業(yè)務(wù)其它中間業(yè)務(wù)……渠道成本與收益……風(fēng)險(xiǎn)監(jiān)控報(bào)表/信息披露流動(dòng)性報(bào)表利率敏感性報(bào)表資本充分率報(bào)表……市場(chǎng)風(fēng)險(xiǎn)市場(chǎng)風(fēng)險(xiǎn)暴露值流動(dòng)性管理、利率管理信用風(fēng)險(xiǎn)信用風(fēng)險(xiǎn)暴露值計(jì)算信用風(fēng)險(xiǎn)控制(貸前控制、貸中監(jiān)控、貸后分析)操作風(fēng)險(xiǎn)異常交易預(yù)警后督差錯(cuò)檢驗(yàn)……防欺詐/反洗錢定義欺詐交易模型可能性欺詐交易預(yù)警欺詐交易分布分析全方面風(fēng)險(xiǎn)管理……當(dāng)前監(jiān)管機(jī)構(gòu)沒有明確要求客戶單一視圖企業(yè)客戶信息管理個(gè)人客戶信息管理同業(yè)客戶信息管理目標(biāo)客戶搜索重點(diǎn)客戶關(guān)心客戶風(fēng)險(xiǎn)客戶異動(dòng)客戶客戶細(xì)分個(gè)人客戶細(xì)分企業(yè)客戶細(xì)分客戶行為分析客戶輪廓分析產(chǎn)品交叉銷售分析百分比分析渠道偏好分析營(yíng)銷活動(dòng)管理營(yíng)銷活動(dòng)規(guī)劃營(yíng)銷活動(dòng)定義營(yíng)銷活動(dòng)執(zhí)行營(yíng)銷活動(dòng)蘋果營(yíng)銷活動(dòng)自動(dòng)化渠道接口與集成流程自動(dòng)化……客戶管理運(yùn)行管理財(cái)務(wù)管理風(fēng)險(xiǎn)管理監(jiān)管披露示例金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第25頁(yè)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)——數(shù)據(jù)訪問層即席查詢:經(jīng)過即席查詢工具或手工書寫SQL語(yǔ)句,完成業(yè)務(wù)信息即席查看多維分析:從多個(gè)維度靈活組合對(duì)目標(biāo)值進(jìn)行分析,常見功效包含上下鉆取、透明鉆取、旋轉(zhuǎn)、分頁(yè)、層鉆、跨維鉆取等主動(dòng)問題發(fā)覺:經(jīng)過事件觸發(fā)、規(guī)則匹配等方式發(fā)覺企業(yè)運(yùn)行中問題,經(jīng)過手機(jī)、郵件等方式報(bào)警決議層管理層業(yè)務(wù)人員即席查詢靜態(tài)報(bào)表多維分析儀表盤挖掘預(yù)測(cè)儀表盤:經(jīng)過儀表盤及其它展現(xiàn)方式對(duì)企業(yè)關(guān)鍵績(jī)效指標(biāo)進(jìn)行展示,為領(lǐng)導(dǎo)層決議提供直觀數(shù)據(jù)支持靜態(tài)報(bào)表:按照預(yù)先定義格式,批處理報(bào)表,在線查詢報(bào)表等Office集成:將分析應(yīng)用嵌入到Office界面中,利用Office方便、易用特征,降低用戶使用難度問題發(fā)覺Office集成Web服務(wù)挖掘預(yù)測(cè):使用專業(yè)軟件工具,經(jīng)過數(shù)理統(tǒng)計(jì)等高級(jí)統(tǒng)計(jì)分析算法,分析結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),經(jīng)過數(shù)據(jù)模型去挖掘隱藏在數(shù)據(jù)中價(jià)值數(shù)據(jù)科學(xué)家業(yè)務(wù)系統(tǒng)Web服務(wù):將分析應(yīng)用功效公布為Web服務(wù),注冊(cè)在企業(yè)服務(wù)總線上,供其它業(yè)務(wù)系統(tǒng)或分析應(yīng)用調(diào)用,獲取分析結(jié)果各種展現(xiàn)形式滿足各層級(jí)用戶及應(yīng)用系統(tǒng)使用需求金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第26頁(yè)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)——數(shù)據(jù)管控層金融數(shù)據(jù)管控體系涵蓋組織架構(gòu)、評(píng)價(jià)與考評(píng)、管控流程、管控平臺(tái)四個(gè)域。數(shù)據(jù)標(biāo)準(zhǔn)管理數(shù)據(jù)質(zhì)量管理元數(shù)據(jù)管理工作流管理……組織數(shù)據(jù)與信息標(biāo)準(zhǔn)化委員會(huì)數(shù)據(jù)管理人數(shù)據(jù)全部些人數(shù)據(jù)生產(chǎn)人數(shù)據(jù)使用人IT支持團(tuán)體考評(píng)指標(biāo)責(zé)任評(píng)價(jià)標(biāo)準(zhǔn)執(zhí)行評(píng)價(jià)政策執(zhí)行評(píng)價(jià)評(píng)價(jià)標(biāo)準(zhǔn)數(shù)據(jù)類型數(shù)據(jù)格式業(yè)務(wù)分類真實(shí)性定義及時(shí)性定義完整性定義技術(shù)元數(shù)據(jù)流程評(píng)價(jià)與考評(píng)流程考評(píng)指標(biāo)建立/維護(hù)流程標(biāo)準(zhǔn)建立/維護(hù)流程組織建立/維護(hù)流程評(píng)價(jià)與考評(píng)業(yè)務(wù)含義一致性定義數(shù)據(jù)認(rèn)責(zé)平臺(tái)安全等級(jí)權(quán)限定義數(shù)據(jù)停用數(shù)據(jù)共享數(shù)據(jù)移動(dòng)數(shù)據(jù)存放數(shù)據(jù)創(chuàng)建業(yè)務(wù)元數(shù)據(jù)管理元數(shù)據(jù)數(shù)據(jù)全生命周期數(shù)據(jù)安全管理數(shù)據(jù)標(biāo)準(zhǔn)數(shù)據(jù)質(zhì)量元數(shù)據(jù)數(shù)據(jù)安全…………審計(jì)定義保留策略……金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第27頁(yè)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)——數(shù)據(jù)管控體系內(nèi)部運(yùn)轉(zhuǎn)機(jī)制管控組織數(shù)據(jù)管控委員會(huì)數(shù)據(jù)全部些人數(shù)據(jù)認(rèn)責(zé)人IT支持……管控流程數(shù)據(jù)接入流程數(shù)據(jù)變更流程數(shù)據(jù)授權(quán)流程數(shù)據(jù)退伍流程標(biāo)準(zhǔn)/政策制訂流程評(píng)價(jià)考評(píng)流程……評(píng)價(jià)與考評(píng)標(biāo)準(zhǔn)(數(shù)據(jù)標(biāo)準(zhǔn)、質(zhì)量要求、安全要求)恪守標(biāo)準(zhǔn)所需要政策政策與標(biāo)準(zhǔn)遵從考評(píng)定義……數(shù)據(jù)產(chǎn)生者數(shù)據(jù)使用者………流程支撐流程支撐制定管控平臺(tái)工具支撐明確了數(shù)據(jù)管控過程中組織結(jié)構(gòu)、角色、職責(zé)等。管控組織除了要負(fù)責(zé)制訂數(shù)據(jù)標(biāo)準(zhǔn)、質(zhì)量、安全等要求外,還需要負(fù)責(zé)制訂管控相關(guān)流程和評(píng)價(jià)考評(píng)指標(biāo)等內(nèi)容??荚u(píng)制訂經(jīng)過建立一些定性或定量數(shù)據(jù)管控評(píng)價(jià)考評(píng)指標(biāo),去評(píng)定及考評(píng)數(shù)據(jù)相關(guān)責(zé)任人職責(zé)推行情況、數(shù)據(jù)管控標(biāo)準(zhǔn)及數(shù)據(jù)政策執(zhí)行情況等。規(guī)范了數(shù)據(jù)管控過程中,各個(gè)步驟日常任務(wù)處理運(yùn)作模式,比如數(shù)據(jù)定義怎樣變更、數(shù)據(jù)沖突怎樣協(xié)調(diào)等。采取專門技術(shù)平臺(tái)支撐管控流程自動(dòng)化,公布管控組織制訂一些相關(guān)標(biāo)準(zhǔn)和規(guī)范,及時(shí)反應(yīng)管控過程中存在一些問題等。管控綜合管理標(biāo)準(zhǔn)/規(guī)范管理流程管理考評(píng)儀表盤……元數(shù)據(jù)管理業(yè)務(wù)元數(shù)據(jù)管理技術(shù)元數(shù)據(jù)管理管理元數(shù)據(jù)分析……數(shù)據(jù)質(zhì)量管理稽核規(guī)則管理數(shù)據(jù)稽核質(zhì)量匯報(bào)……工具支撐組織架構(gòu)、評(píng)價(jià)與考評(píng)、管控流程、管控工具這四個(gè)域相互作用、相互支撐,提供對(duì)各信息系統(tǒng)數(shù)據(jù)管控。金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第28頁(yè)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)——數(shù)據(jù)管控組織數(shù)據(jù)管控組織是數(shù)據(jù)管控體系中最主要原因,它負(fù)責(zé)定義和管理業(yè)務(wù)數(shù)據(jù)相關(guān)標(biāo)準(zhǔn),制訂遵尋標(biāo)準(zhǔn)所必須政策,監(jiān)測(cè)正在進(jìn)行數(shù)據(jù)管控行動(dòng)。數(shù)據(jù)管控組織是否有完整與合理角色定義、是否有高層領(lǐng)導(dǎo)參加,是整個(gè)數(shù)據(jù)管控成敗關(guān)鍵。經(jīng)典數(shù)據(jù)管控組織以下所表示:數(shù)據(jù)管控負(fù)責(zé)部門崗位角色數(shù)據(jù)管控主導(dǎo)方信息管理委員會(huì)

數(shù)據(jù)標(biāo)準(zhǔn)管理員數(shù)據(jù)質(zhì)量管理員數(shù)據(jù)產(chǎn)生部門數(shù)據(jù)管控參加方業(yè)務(wù)協(xié)調(diào)人數(shù)據(jù)分析員數(shù)據(jù)主管數(shù)據(jù)使用部門業(yè)務(wù)協(xié)調(diào)人數(shù)據(jù)分析員數(shù)據(jù)主管數(shù)據(jù)擁有部門業(yè)務(wù)協(xié)調(diào)人數(shù)據(jù)分析員數(shù)據(jù)主管數(shù)據(jù)管理部門運(yùn)維組織實(shí)施項(xiàng)目組數(shù)據(jù)安全管理員數(shù)據(jù)管控經(jīng)理元數(shù)據(jù)管理員金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第29頁(yè)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)——數(shù)據(jù)標(biāo)準(zhǔn)管理消除一數(shù)多義,提升數(shù)據(jù)唯一性、一致性,將逐步形成數(shù)據(jù)標(biāo)準(zhǔn)納入一個(gè)規(guī)范管理流程中,進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)更新、公布、使用監(jiān)督等工作。數(shù)據(jù)標(biāo)準(zhǔn)管理工作能夠分為以下幾個(gè)部分:數(shù)據(jù)標(biāo)準(zhǔn)建立和維護(hù)、數(shù)據(jù)標(biāo)準(zhǔn)執(zhí)行、數(shù)據(jù)標(biāo)準(zhǔn)管理考評(píng)。數(shù)據(jù)標(biāo)準(zhǔn)建立和維護(hù)數(shù)據(jù)分類數(shù)據(jù)結(jié)構(gòu)關(guān)鍵業(yè)務(wù)對(duì)象關(guān)鍵代碼數(shù)據(jù)維度代碼映射客戶類數(shù)據(jù)標(biāo)準(zhǔn)產(chǎn)品類數(shù)據(jù)標(biāo)準(zhǔn)。。。類數(shù)據(jù)標(biāo)準(zhǔn)數(shù)據(jù)標(biāo)準(zhǔn)執(zhí)行數(shù)據(jù)標(biāo)準(zhǔn)管理考評(píng)定性考評(píng)定量考評(píng)數(shù)據(jù)標(biāo)準(zhǔn)分析匯報(bào)數(shù)據(jù)標(biāo)準(zhǔn)理念推廣歸檔系統(tǒng)……ODS金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第30頁(yè)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)——數(shù)據(jù)質(zhì)量管理數(shù)據(jù)質(zhì)量管理框架藍(lán)圖以下,其中數(shù)據(jù)質(zhì)量提升是改進(jìn)數(shù)據(jù)質(zhì)量伎倆和質(zhì)量考評(píng)目標(biāo):數(shù)據(jù)質(zhì)量要求確認(rèn),依據(jù)業(yè)務(wù)要求制訂和明確數(shù)據(jù)質(zhì)量要求,同時(shí)也需要符合數(shù)據(jù)標(biāo)準(zhǔn)要求;數(shù)據(jù)質(zhì)量考評(píng),對(duì)數(shù)據(jù)質(zhì)量量化評(píng)價(jià)制訂數(shù)據(jù)質(zhì)量問題處理方案,依據(jù)數(shù)據(jù)質(zhì)量考評(píng)和日常工作中發(fā)覺數(shù)據(jù)質(zhì)量問題,實(shí)施對(duì)應(yīng)辦法,提升數(shù)據(jù)質(zhì)量數(shù)據(jù)質(zhì)量要求業(yè)務(wù)規(guī)則數(shù)據(jù)一致性要求數(shù)據(jù)完整性要求數(shù)據(jù)唯一性要求數(shù)據(jù)準(zhǔn)確性要求數(shù)據(jù)及時(shí)性要求數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)數(shù)據(jù)質(zhì)量驗(yàn)證規(guī)則數(shù)據(jù)質(zhì)量考評(píng)指標(biāo)數(shù)據(jù)質(zhì)量提升數(shù)據(jù)補(bǔ)錄手工修正自動(dòng)修正數(shù)據(jù)質(zhì)量考評(píng)數(shù)據(jù)質(zhì)量監(jiān)控不定時(shí)數(shù)據(jù)質(zhì)量檢驗(yàn)數(shù)據(jù)質(zhì)量分析匯報(bào)金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第31頁(yè)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)——元數(shù)據(jù)管理業(yè)務(wù)元數(shù)據(jù):面向業(yè)務(wù)人員,從業(yè)務(wù)術(shù)語(yǔ)、業(yè)務(wù)描述、業(yè)務(wù)指標(biāo)和業(yè)務(wù)規(guī)則等幾個(gè)方面對(duì)數(shù)據(jù)進(jìn)行描述管理元數(shù)據(jù):面向數(shù)據(jù)管理人員,從運(yùn)維管理角度描述數(shù)據(jù)處理、數(shù)據(jù)質(zhì)量和數(shù)據(jù)安全狀態(tài)信息技術(shù)元數(shù)據(jù):面向技術(shù)人員,從數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)處理細(xì)節(jié)方面對(duì)數(shù)據(jù)進(jìn)行技術(shù)化描述金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第32頁(yè)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)——數(shù)據(jù)安全管理數(shù)據(jù)安全管理可分為數(shù)據(jù)安全分級(jí)管理和數(shù)據(jù)訪問授權(quán)管理兩個(gè)部分:數(shù)據(jù)安全分級(jí):依據(jù)業(yè)務(wù)要求,制訂一系列數(shù)據(jù)安全分級(jí)標(biāo)準(zhǔn)和政策,為數(shù)據(jù)應(yīng)用以及數(shù)據(jù)管理中實(shí)施數(shù)據(jù)安全保護(hù)和訪問提供數(shù)據(jù)安全控制基礎(chǔ)。數(shù)據(jù)訪問授權(quán):數(shù)據(jù)訪問授權(quán)主要工作是依據(jù)數(shù)據(jù)安全分級(jí)標(biāo)準(zhǔn),定義數(shù)據(jù)訪問授權(quán)方法及流程,建立基于數(shù)據(jù)安全分級(jí)數(shù)據(jù)使用授權(quán)機(jī)制,實(shí)現(xiàn)數(shù)據(jù)訪問和信息披露安全。數(shù)據(jù)安全分級(jí)數(shù)據(jù)敏感度數(shù)據(jù)安全等級(jí)定義數(shù)據(jù)訪問授權(quán)數(shù)據(jù)主要性數(shù)據(jù)使用需求數(shù)據(jù)使用者權(quán)責(zé)數(shù)據(jù)訪問授權(quán)規(guī)則安全技術(shù)金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第33頁(yè)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)——高階工作流程業(yè)務(wù)數(shù)據(jù)規(guī)劃管理高階流程數(shù)據(jù)認(rèn)責(zé)流程數(shù)據(jù)治理考評(píng)體系數(shù)據(jù)治理考評(píng)流程數(shù)據(jù)治理考評(píng)指標(biāo)體系數(shù)據(jù)標(biāo)準(zhǔn)管理管理高階流程數(shù)據(jù)標(biāo)準(zhǔn)建立流程數(shù)據(jù)標(biāo)準(zhǔn)維護(hù)流程數(shù)據(jù)質(zhì)量管理管理高階流程數(shù)據(jù)質(zhì)量要求確定流程元數(shù)據(jù)管理高階流程元數(shù)據(jù)變更流程數(shù)據(jù)安全管理管理高階流程數(shù)據(jù)安全審批流程數(shù)據(jù)認(rèn)責(zé)流程數(shù)據(jù)標(biāo)準(zhǔn)、質(zhì)量、元數(shù)據(jù)、安全管理流程協(xié)調(diào)會(huì)議考評(píng)流程金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第34頁(yè)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)——數(shù)據(jù)管控平臺(tái)數(shù)據(jù)管控平臺(tái)從總體上來(lái)說(shuō)分為數(shù)據(jù)層、應(yīng)用層、展現(xiàn)層三個(gè)主要層面,以數(shù)據(jù)層數(shù)據(jù)庫(kù)及相關(guān)基礎(chǔ)系統(tǒng)為主要信息起源,經(jīng)過應(yīng)用層運(yùn)算處理,以不一樣形式,不一樣功效在展現(xiàn)層提供用戶接口首頁(yè)標(biāo)準(zhǔn)管理主菜單指標(biāo)速遞待辦事項(xiàng)信息地圖標(biāo)準(zhǔn)瀏覽標(biāo)準(zhǔn)維護(hù)工作管理流程管理績(jī)效指標(biāo)系統(tǒng)管理用戶管理權(quán)限管理規(guī)范管理數(shù)據(jù)管控平臺(tái)統(tǒng)一用戶集成界面數(shù)據(jù)標(biāo)準(zhǔn)知識(shí)庫(kù)數(shù)據(jù)管控平臺(tái)知識(shí)庫(kù)……元數(shù)據(jù)管理元數(shù)據(jù)采集……元數(shù)據(jù)知識(shí)庫(kù)質(zhì)量管理規(guī)則配置……質(zhì)量稽核庫(kù)數(shù)據(jù)層應(yīng)用層展現(xiàn)層金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第35頁(yè)大數(shù)據(jù)分析平臺(tái)總體產(chǎn)品框架非結(jié)構(gòu)化/半結(jié)構(gòu)化數(shù)據(jù)管理分析平臺(tái)(X86MPP集群)京東業(yè)務(wù)系統(tǒng)結(jié)構(gòu)化數(shù)據(jù)基礎(chǔ)計(jì)算平臺(tái)(貼源數(shù)據(jù)區(qū)+主題數(shù)據(jù)區(qū)+大數(shù)據(jù)區(qū))(Hadoop集群+Hive)數(shù)據(jù)交換平臺(tái)(自主開發(fā)交換組件+NAS存放)實(shí)時(shí)分析平臺(tái)(內(nèi)存數(shù)據(jù)庫(kù))沙盤演練平臺(tái)(Hadoop集群)數(shù)據(jù)管控平臺(tái)FTPSFTP/HTTP/APICopyfromloalQueue京東云數(shù)據(jù)推送平臺(tái)增值產(chǎn)品平臺(tái)(Hadoop集群)歷史歸檔查詢平臺(tái)(Hadoop集群+Hive)Load(Hive)DistcpHQL+LoadDistcpDistcpHQL+LoadDistcpHQL+LoadSqoopSqoopSqoopMR流程調(diào)度平臺(tái)金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第36頁(yè)議程大數(shù)據(jù)分析平臺(tái)綜述1大數(shù)據(jù)分析平臺(tái)總體架構(gòu)2大數(shù)據(jù)分析平臺(tái)演進(jìn)路線3大數(shù)據(jù)分析平臺(tái)一期實(shí)施重點(diǎn)4附錄:數(shù)據(jù)質(zhì)量管理平臺(tái)5金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第37頁(yè)大數(shù)據(jù)分析平臺(tái)演進(jìn)路線以基礎(chǔ)平臺(tái)搭建為主,配合金融集團(tuán)早期業(yè)務(wù)開展,應(yīng)用建設(shè)從客戶信息管理、風(fēng)險(xiǎn)管理和運(yùn)行管理三方面開展搭建大數(shù)據(jù)處理平臺(tái)和實(shí)時(shí)分析平臺(tái),應(yīng)用方面開展實(shí)時(shí)分析和數(shù)據(jù)產(chǎn)品封裝開展客戶信息管理、信用風(fēng)險(xiǎn)評(píng)級(jí)和業(yè)務(wù)統(tǒng)計(jì)分析三類應(yīng)用建設(shè)開展貼源數(shù)據(jù)整合,初步建立企業(yè)級(jí)數(shù)據(jù)視圖,實(shí)現(xiàn)對(duì)管理分析類應(yīng)用和實(shí)時(shí)分析類應(yīng)用支撐規(guī)劃數(shù)據(jù)管控藍(lán)圖,初步實(shí)施數(shù)據(jù)質(zhì)量和技術(shù)元數(shù)據(jù)管理——年以后對(duì)企業(yè)價(jià)值創(chuàng)造應(yīng)管技業(yè)務(wù)分析框架基礎(chǔ)數(shù)據(jù)平臺(tái)數(shù)據(jù)管控體系應(yīng)技管全方面開展內(nèi)部管理分析、實(shí)時(shí)分析和沙盤演練應(yīng)用建設(shè),初步展開增值數(shù)據(jù)產(chǎn)品開發(fā)工作全方面開展大數(shù)據(jù)分析平臺(tái)建設(shè),引入更多數(shù)據(jù)源,豐富并完善平臺(tái)數(shù)據(jù)區(qū)建設(shè)伴隨應(yīng)用體系搭建,完善數(shù)據(jù)質(zhì)量和元數(shù)據(jù)建設(shè),開展數(shù)據(jù)標(biāo)準(zhǔn)化工作應(yīng)技管深化分析體系,形成深度智能化業(yè)務(wù)分析性能連續(xù)優(yōu)化、數(shù)據(jù)平臺(tái)連續(xù)完善、連續(xù)深化數(shù)據(jù)管控體系,形成金融集團(tuán)企業(yè)級(jí)數(shù)據(jù)管控體系應(yīng)技管一期.10當(dāng)前位置未來(lái)連續(xù)優(yōu)化提升階段第一階段第二階段第三階段金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第38頁(yè)大數(shù)據(jù)分析平臺(tái)演進(jìn)說(shuō)明——基礎(chǔ)數(shù)據(jù)平臺(tái)階段劃分建設(shè)內(nèi)容預(yù)期效果第一階段搭建數(shù)據(jù)交換平臺(tái),布署NAS存放集群,設(shè)計(jì)并實(shí)施數(shù)據(jù)庫(kù)交換組件和數(shù)據(jù)區(qū)交換組件搭建基礎(chǔ)計(jì)算平臺(tái),設(shè)計(jì)并實(shí)施貼源數(shù)據(jù)區(qū),以T+1頻率整合商城和金融業(yè)務(wù)數(shù)據(jù)搭建歷史歸檔查詢平臺(tái),歸檔商城和金融業(yè)務(wù)數(shù)據(jù)文件搭建內(nèi)部管理分析應(yīng)用平臺(tái),布署MPP集群和BI分析應(yīng)用環(huán)境搭建實(shí)時(shí)分析平臺(tái),布署內(nèi)存數(shù)據(jù)庫(kù)和實(shí)時(shí)BI分析環(huán)境實(shí)現(xiàn)了數(shù)據(jù)平臺(tái)內(nèi)部個(gè)數(shù)據(jù)區(qū)之間、數(shù)據(jù)平臺(tái)與外部系統(tǒng)間雙向數(shù)據(jù)傳輸實(shí)現(xiàn)了業(yè)務(wù)數(shù)據(jù)按照貼源數(shù)據(jù)模整合實(shí)現(xiàn)了數(shù)據(jù)按照生命周期歸檔管理實(shí)現(xiàn)了內(nèi)部管理分析環(huán)境搭建實(shí)現(xiàn)實(shí)時(shí)分析環(huán)境搭建第二階段數(shù)據(jù)交換平臺(tái)增強(qiáng)和優(yōu)化,包含:大數(shù)據(jù)交換組件設(shè)計(jì)實(shí)施基礎(chǔ)計(jì)算平臺(tái)增強(qiáng),包含:引入更多數(shù)據(jù)源,增強(qiáng)貼源數(shù)據(jù)區(qū);設(shè)計(jì)并實(shí)施主題數(shù)據(jù)區(qū),打破業(yè)務(wù)條線整合數(shù)據(jù);設(shè)計(jì)并實(shí)施大數(shù)據(jù)區(qū),實(shí)現(xiàn)企業(yè)內(nèi)外部非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)加工、處理搭建沙盤演練平臺(tái)實(shí)時(shí)分析平臺(tái)增強(qiáng)和優(yōu)化,包含:引入更多應(yīng)用及相關(guān)數(shù)據(jù)源實(shí)現(xiàn)了基礎(chǔ)數(shù)據(jù)一次存放、一次計(jì)算、屢次使用建立了數(shù)據(jù)分析人員試驗(yàn)環(huán)境,實(shí)現(xiàn)了用戶自主用數(shù)為實(shí)時(shí)、準(zhǔn)實(shí)時(shí)類分析用提供平臺(tái)為封裝、銷售數(shù)據(jù)類產(chǎn)品提供了平臺(tái)第三階段基礎(chǔ)計(jì)算平臺(tái)連續(xù)增強(qiáng)和優(yōu)化,引入更多數(shù)據(jù)源、優(yōu)化模型和ETL處理搭建增值產(chǎn)品平臺(tái),設(shè)計(jì)并實(shí)施增值產(chǎn)品數(shù)據(jù)區(qū)數(shù)據(jù)交換平臺(tái)、沙盤演練平臺(tái)、實(shí)時(shí)分析平臺(tái)深入增強(qiáng)和優(yōu)化數(shù)據(jù)平臺(tái)納入盡可能多企業(yè)內(nèi)外部數(shù)據(jù)數(shù)據(jù)平臺(tái)以最優(yōu)性能支持各類數(shù)據(jù)應(yīng)用金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第39頁(yè)大數(shù)據(jù)分析平臺(tái)演進(jìn)說(shuō)明——數(shù)據(jù)管控階段劃分建設(shè)內(nèi)容預(yù)期效果第一階段分析和梳理當(dāng)前數(shù)據(jù)管理方面結(jié)果和現(xiàn)實(shí)狀況,數(shù)據(jù)管控藍(lán)圖和路線圖設(shè)計(jì),數(shù)據(jù)管控工作組織、技術(shù)和流程高階設(shè)計(jì)梳理金融集團(tuán)大數(shù)據(jù)平臺(tái)ETL流程各步驟數(shù)據(jù)質(zhì)量要求,指定數(shù)據(jù)質(zhì)量檢驗(yàn)規(guī)則、評(píng)價(jià)指標(biāo)、管控流程,并落地實(shí)施數(shù)據(jù)質(zhì)量管理系統(tǒng)梳理金融集團(tuán)大數(shù)據(jù)平臺(tái)包含技術(shù)元數(shù)據(jù),如:數(shù)據(jù)字典、ETL任務(wù)、ETL流程、BI語(yǔ)義層等,制訂對(duì)應(yīng)管控流程并落地實(shí)施元數(shù)據(jù)管理系統(tǒng)同時(shí)大數(shù)據(jù)分析平臺(tái)ETL建設(shè),實(shí)現(xiàn)了數(shù)據(jù)質(zhì)量管理系統(tǒng)搜集并整合了金融集團(tuán)全部技術(shù)元數(shù)據(jù),實(shí)現(xiàn)了數(shù)據(jù)生命周管理、血緣分析和影響分析等功效第二階段伴隨更多數(shù)據(jù)源引入,深入增強(qiáng)數(shù)據(jù)質(zhì)量管理系統(tǒng)伴隨更多數(shù)據(jù)源引入、更多平臺(tái)建立,梳理并整合更多技術(shù)元數(shù)據(jù)梳理金融集團(tuán)大數(shù)據(jù)平臺(tái)包含業(yè)務(wù)和管理類元數(shù)據(jù),如業(yè)務(wù)術(shù)語(yǔ)、業(yè)務(wù)指標(biāo)、業(yè)務(wù)定義等,制訂對(duì)應(yīng)管控流程并落地實(shí)施元數(shù)據(jù)管理系統(tǒng)開展基礎(chǔ)類數(shù)據(jù)標(biāo)準(zhǔn)建設(shè),基礎(chǔ)數(shù)據(jù)標(biāo)準(zhǔn)、管控流程、評(píng)價(jià)指標(biāo)、落地策略完善了數(shù)據(jù)質(zhì)量管理體系,實(shí)現(xiàn)了問題及時(shí)發(fā)覺、及時(shí)處理實(shí)現(xiàn)了金融集團(tuán)全方位元數(shù)據(jù)管理,打通了業(yè)務(wù)和技術(shù)元數(shù)據(jù)關(guān)聯(lián)關(guān)系為金融集團(tuán)數(shù)據(jù)平臺(tái)建設(shè)提供了基礎(chǔ)類數(shù)據(jù)標(biāo)準(zhǔn)第三階段數(shù)據(jù)質(zhì)量管理連續(xù)優(yōu)化并增強(qiáng)元數(shù)據(jù)管理連續(xù)優(yōu)化并增強(qiáng)基礎(chǔ)類數(shù)據(jù)標(biāo)準(zhǔn)逐步落地實(shí)施開展指標(biāo)類數(shù)據(jù)標(biāo)準(zhǔn)建設(shè)基礎(chǔ)數(shù)據(jù)標(biāo)準(zhǔn)、管控流程、評(píng)價(jià)指標(biāo)、落地策略經(jīng)過完善數(shù)據(jù)管控體系,提升數(shù)據(jù)質(zhì)量、防止數(shù)據(jù)二義性、建立數(shù)據(jù)間血緣關(guān)系,使得業(yè)務(wù)人員能夠方便、有效使用數(shù)據(jù),提升數(shù)據(jù)實(shí)用性金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第40頁(yè)大數(shù)據(jù)分析平臺(tái)演進(jìn)說(shuō)明——應(yīng)用體系階段劃分建設(shè)內(nèi)容預(yù)期效果第一階段開展客戶信息管理建設(shè),設(shè)計(jì)并實(shí)施個(gè)人客戶和供給商360°視圖、客戶目標(biāo)搜索、客戶細(xì)分等功效開展風(fēng)險(xiǎn)管理建設(shè),設(shè)計(jì)并實(shí)施供給商和個(gè)人客戶風(fēng)險(xiǎn)評(píng)級(jí)模型開展運(yùn)行管理建設(shè),設(shè)計(jì)并實(shí)施供給鏈金融、人人貸等業(yè)務(wù)條線業(yè)務(wù)量統(tǒng)計(jì)分析初步梳理實(shí)時(shí)、準(zhǔn)實(shí)時(shí)分析需求,進(jìn)行高時(shí)效分析應(yīng)用試點(diǎn)能夠方便對(duì)個(gè)人客戶和供給商進(jìn)行分群,以及全方位信息查詢和展示供給商和個(gè)人客戶風(fēng)險(xiǎn)等級(jí)評(píng)定針對(duì)當(dāng)前開展業(yè)務(wù)進(jìn)行經(jīng)營(yíng)情況統(tǒng)計(jì)分析搭建并驗(yàn)證高時(shí)效應(yīng)用體系第二階段伴隨金融集團(tuán)業(yè)務(wù)展開,逐步開展內(nèi)部管理分析體系建設(shè),本階段重點(diǎn)為客戶關(guān)系管理、運(yùn)行管理等高級(jí)業(yè)務(wù)人員利用沙盤演練平臺(tái)進(jìn)行數(shù)據(jù)挖掘、預(yù)測(cè)和科學(xué)試驗(yàn)深入樹立實(shí)時(shí)、準(zhǔn)實(shí)時(shí)分析需求,深化開展高時(shí)效分析應(yīng)用開始梳理市場(chǎng)上數(shù)據(jù)應(yīng)用需求,嘗試封裝增值數(shù)據(jù)產(chǎn)品經(jīng)過內(nèi)部管理分析體系建設(shè)、滿足了金融集團(tuán)日常經(jīng)營(yíng)管理、決議分析和深入提升價(jià)值創(chuàng)造力需要實(shí)現(xiàn)了業(yè)務(wù)人員自主用數(shù)實(shí)現(xiàn)了高時(shí)效分析,與業(yè)務(wù)流程整合實(shí)現(xiàn)了數(shù)據(jù)產(chǎn)品封裝,提升了數(shù)據(jù)價(jià)值第三階段伴隨金融集團(tuán)業(yè)務(wù)展開,深入完善內(nèi)部管理分析體系建設(shè),包含:市場(chǎng)風(fēng)險(xiǎn)管理、操作風(fēng)險(xiǎn)管理、財(cái)務(wù)管理等搜集實(shí)時(shí)分析需求,深入增強(qiáng)并優(yōu)化實(shí)時(shí)分析應(yīng)用體系增值數(shù)據(jù)產(chǎn)品設(shè)計(jì)逐步成為重點(diǎn),數(shù)據(jù)分析師搜集企業(yè)內(nèi)外部數(shù)據(jù)需求,設(shè)計(jì)更完善增值數(shù)據(jù)產(chǎn)品經(jīng)過內(nèi)部管理分析應(yīng)用體系建設(shè)深入實(shí)現(xiàn)數(shù)據(jù)共享、業(yè)務(wù)協(xié)作與創(chuàng)新經(jīng)過實(shí)時(shí)分析應(yīng)用體系建設(shè),實(shí)現(xiàn)大數(shù)據(jù)平臺(tái)業(yè)務(wù)系統(tǒng)交互,與業(yè)務(wù)流程融合增值數(shù)據(jù)產(chǎn)品開發(fā)深入發(fā)揮數(shù)據(jù)平臺(tái)數(shù)據(jù)價(jià)值金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第41頁(yè)議程大數(shù)據(jù)分析平臺(tái)綜述1大數(shù)據(jù)分析平臺(tái)總體架構(gòu)2大數(shù)據(jù)分析平臺(tái)演進(jìn)路線3大數(shù)據(jù)分析平臺(tái)一期實(shí)施重點(diǎn)4附錄:數(shù)據(jù)質(zhì)量管理平臺(tái)5金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第42頁(yè)金融大數(shù)據(jù)分析平臺(tái)一期架構(gòu)基礎(chǔ)計(jì)算平臺(tái):基于Hadoop集群構(gòu)建,按照業(yè)務(wù)條線、以貼源數(shù)據(jù)模型存放了業(yè)務(wù)系統(tǒng)明細(xì)數(shù)據(jù)數(shù)據(jù)交換平臺(tái):NAS集群實(shí)現(xiàn)了進(jìn)出數(shù)據(jù)平臺(tái)數(shù)據(jù)暫存,業(yè)務(wù)數(shù)據(jù)交換組件實(shí)現(xiàn)了業(yè)務(wù)系統(tǒng)每日增量數(shù)據(jù)加載,數(shù)據(jù)區(qū)數(shù)據(jù)交換組件實(shí)現(xiàn)了基礎(chǔ)計(jì)算平臺(tái)與管理分析平臺(tái)間數(shù)據(jù)交換流程調(diào)度平臺(tái):自主開發(fā)流程調(diào)度引擎實(shí)現(xiàn)整個(gè)數(shù)據(jù)平臺(tái)數(shù)據(jù)處理任務(wù)調(diào)度和運(yùn)行管理分析平臺(tái):由X86分析型數(shù)據(jù)庫(kù)集群、BI軟件1J2EE應(yīng)用組成,實(shí)現(xiàn)了面向應(yīng)用數(shù)據(jù)加工、管理、分析服務(wù)實(shí)時(shí)分析平臺(tái):由高檔X86服務(wù)器組成集群,實(shí)現(xiàn)高時(shí)效、高并發(fā)實(shí)時(shí)、準(zhǔn)實(shí)時(shí)類管理分析需求金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第43頁(yè)數(shù)據(jù)交換平臺(tái)—平臺(tái)邏輯架構(gòu)POP金融大數(shù)據(jù)分析平臺(tái)NAS集群物流財(cái)務(wù)供給鏈人人貸……云數(shù)據(jù)推送平臺(tái)云數(shù)據(jù)推送平臺(tái)實(shí)現(xiàn)源系統(tǒng)數(shù)據(jù)一次獲取獲、按需分發(fā)。平臺(tái)采取GoldenGate、JBUS、Flume等技術(shù)獲取增量數(shù)據(jù),存放在MySQL集群平臺(tái)按照接口規(guī)范生成文件,LZO壓縮后,經(jīng)過FTP傳輸?shù)絅AS指定目錄數(shù)據(jù)交換平臺(tái)由FTP服務(wù)器、加載服務(wù)器和NAS存放組成,完成業(yè)務(wù)系統(tǒng)數(shù)據(jù)獲取、加載和歸檔FTP服務(wù)器:利用LVS組成FTP集群,接收云數(shù)據(jù)推送平臺(tái)處理后數(shù)據(jù),存放在NAS集群指定目錄加載服務(wù)器:布署ETL任務(wù),實(shí)現(xiàn)指定目錄文件抵達(dá)監(jiān)控、文件級(jí)檢核、數(shù)據(jù)加載(HiveLoad)到暫時(shí)數(shù)據(jù)區(qū),同時(shí)歸檔(copyfromlocal)歷史數(shù)據(jù)區(qū)NAS集群:按照日期和源系統(tǒng)劃分目錄,緩存數(shù)據(jù),支持日常數(shù)據(jù)交換和ETL…………LVS集群:FTP服務(wù)器#3加載服務(wù)器#1文件加載文件歸檔文件抵達(dá)事件監(jiān)控文件級(jí)檢核加載服務(wù)器#4文件加載文件歸檔文件抵達(dá)事件監(jiān)控文件級(jí)檢核LVS集群:FTP服務(wù)器#1LVS集群:負(fù)載均衡服務(wù)器…………金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第44頁(yè)數(shù)據(jù)交換平臺(tái)—參加方責(zé)任劃分設(shè)計(jì)并實(shí)施云數(shù)據(jù)推送平臺(tái);按照金融集團(tuán)接口定義,抽取業(yè)務(wù)系統(tǒng)數(shù)據(jù);按照金融集團(tuán)接口規(guī)范要求,按時(shí)生成數(shù)據(jù)文件、控制文件和DDL文件,并經(jīng)過FTP傳輸?shù)絅AS指定目錄;若源系統(tǒng)有變更,則要求在變更前提供變更內(nèi)容說(shuō)明,升級(jí)平臺(tái)版本,依據(jù)金融集團(tuán)更新接口規(guī)范提供數(shù)據(jù);應(yīng)及時(shí)處理接口數(shù)據(jù)提供過程中出現(xiàn)問題;對(duì)于未盡事宜,應(yīng)同金融集團(tuán)協(xié)商處理。云計(jì)算安裝布署金融集團(tuán)大數(shù)據(jù)分析平臺(tái)物理環(huán)境、應(yīng)用軟件,并進(jìn)行基礎(chǔ)設(shè)施運(yùn)維;在業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)服務(wù)器安裝并布署云數(shù)據(jù)推送平臺(tái)客戶端,并提供數(shù)據(jù)庫(kù)訪問。運(yùn)維部門制訂接口規(guī)范,并提交給云數(shù)據(jù)推送項(xiàng)目組;梳理業(yè)務(wù)系統(tǒng)數(shù)據(jù)字典,制訂接口定義,并提交給云數(shù)據(jù)推送項(xiàng)目組;開發(fā)數(shù)據(jù)交換組件,從NAS獲取數(shù)據(jù)并處理;對(duì)接收數(shù)據(jù)提供驗(yàn)證功效,并返回驗(yàn)證結(jié)果到云數(shù)據(jù)推送平臺(tái);依據(jù)云數(shù)據(jù)推送平臺(tái)提交變更通知修改接口定義和數(shù)據(jù)交換組件;對(duì)于未盡事宜,應(yīng)同云計(jì)算方協(xié)商處理。金融集團(tuán)針對(duì)金融集團(tuán)需求,指定接口人、提供文檔;業(yè)務(wù)系統(tǒng)因版本升級(jí)等原因造成數(shù)據(jù)模型發(fā)生改變,及時(shí)通知云數(shù)據(jù)推送平臺(tái)接口責(zé)任人。研發(fā)部門金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第45頁(yè)數(shù)據(jù)交換平臺(tái)—業(yè)務(wù)系統(tǒng)數(shù)據(jù)抽取實(shí)現(xiàn)方式每張?jiān)聪到y(tǒng)表都對(duì)應(yīng)一個(gè)獨(dú)立數(shù)據(jù)接口數(shù)據(jù)接口由數(shù)據(jù)文件和控制文件組成(文件命名和詳細(xì)內(nèi)容參見接口規(guī)范)文件統(tǒng)一采取UTF-8編碼,統(tǒng)一存在在JSS指定目錄(參見接口規(guī)范)假如在抽取周期內(nèi)沒有數(shù)據(jù)變更,云數(shù)據(jù)推送平臺(tái)應(yīng)該生成空數(shù)據(jù)接口傳輸方式FTP傳輸,利用LVS技術(shù)構(gòu)建FTP集群,接收數(shù)據(jù)傳輸頻率云數(shù)據(jù)推送平臺(tái)通常按照T+1頻率為金融集團(tuán)提供數(shù)據(jù),詳細(xì)頻率要求參見接口定義接口處理模式云數(shù)據(jù)推送平臺(tái)依據(jù)不一樣接口單元定義,準(zhǔn)備數(shù)據(jù)、生成接口數(shù)據(jù)文件;云數(shù)據(jù)推送平臺(tái)依據(jù)接口規(guī)范生成對(duì)應(yīng)接口控制文件;云數(shù)據(jù)推送平臺(tái)壓縮數(shù)據(jù)(LZO),并經(jīng)過FTP將數(shù)據(jù)接口存入NAS指定目錄;金融大數(shù)據(jù)分析平臺(tái)布署在不一樣加載服務(wù)器上數(shù)據(jù)交換組件完成:定時(shí)輪詢NAS指定目錄,獲取接口(包含數(shù)據(jù)文件、控制文件和DDL文件);執(zhí)行文件級(jí)檢核;經(jīng)過檢核后,將數(shù)據(jù)文件和控制文件移動(dòng)到NAS集群指定目錄,觸發(fā)后續(xù)ETL處理;在TaskAutomation調(diào)度下執(zhí)行數(shù)據(jù)加載和數(shù)據(jù)歸檔任務(wù)。金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第46頁(yè)數(shù)據(jù)交換平臺(tái)—平臺(tái)布署架構(gòu)數(shù)據(jù)交換平臺(tái)由8臺(tái)X86服務(wù)器和一個(gè)NAS集群組成X86服務(wù)器按照功效分為2組,一組實(shí)現(xiàn)數(shù)據(jù)獲取,一組實(shí)現(xiàn)數(shù)據(jù)加載和歸檔NAS集群作為公共數(shù)據(jù)區(qū),由8臺(tái)服務(wù)器共享訪問(讀寫)PythonruntimePythonJSSModuleFTPRedhatLinuxLVS服務(wù)器4HDFSClientHive加載任務(wù)歸檔任務(wù)RedhatLinux加載服務(wù)器1HDFSClientHive加載任務(wù)歸檔任務(wù)RedhatLinux加載服務(wù)器4LANPythonruntimePythonJSSModuleLVSRedhatLinuxLVS服務(wù)器1…………NAS集群負(fù)責(zé)源系統(tǒng)數(shù)據(jù)文件加載和歸檔每臺(tái)服務(wù)器負(fù)責(zé)多個(gè)源系統(tǒng)支持按需擴(kuò)展/降低服務(wù)器LVS1負(fù)載均衡其它LVS服務(wù)器負(fù)責(zé)接收接口文件,寫入NAS集群目錄支持按需擴(kuò)展/降低服務(wù)器布署數(shù)據(jù)交換平臺(tái)和流程調(diào)度平臺(tái)程序,各服務(wù)器經(jīng)過文件鏈接使用按日期和源系統(tǒng)建立數(shù)據(jù)目錄,緩存每日接口文件,供交換平臺(tái)訪問金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第47頁(yè)流程調(diào)度平臺(tái)—平臺(tái)邏輯架構(gòu)TaskAutomation驅(qū)動(dòng)各個(gè)平臺(tái)、實(shí)現(xiàn)從數(shù)據(jù)存入NAS平臺(tái)到數(shù)據(jù)集市生成整個(gè)處理過程工作流管理數(shù)據(jù)交換平臺(tái)負(fù)責(zé)數(shù)據(jù)抽取、文件級(jí)質(zhì)量檢核、調(diào)用HiveLoad加載數(shù)據(jù)基礎(chǔ)計(jì)算平臺(tái)使用HiveSQL實(shí)現(xiàn)貼源數(shù)據(jù)整合、公共匯總數(shù)據(jù)處理管理分析平臺(tái)使用關(guān)系型數(shù)據(jù)庫(kù)SQL實(shí)現(xiàn)集市數(shù)據(jù)處理歷史歸檔查詢平臺(tái)負(fù)責(zé)數(shù)據(jù)文件和Hadoop集群數(shù)據(jù)歸檔金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第48頁(yè)流程調(diào)度平臺(tái)—流程調(diào)度元數(shù)據(jù)TaskAutomation元數(shù)據(jù)統(tǒng)一存放在MySQL數(shù)據(jù)庫(kù)中任務(wù)定義,包含任務(wù)名稱、描述、運(yùn)行服務(wù)器、運(yùn)行狀態(tài)、運(yùn)行時(shí)間、相關(guān)數(shù)據(jù)源等屬性任務(wù)依賴,任務(wù)執(zhí)行依賴與其它上游任務(wù)任務(wù)觸發(fā),任務(wù)成功執(zhí)行后觸發(fā)下游任務(wù)任務(wù)組,一組有相互關(guān)系任務(wù),全部完成后會(huì)觸發(fā)頭任務(wù)運(yùn)行……元數(shù)據(jù)由全部流程調(diào)度服務(wù)器共享金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第49頁(yè)流程調(diào)度平臺(tái)—任務(wù)調(diào)度引擎經(jīng)過偵測(cè)器偵測(cè)事件,按照任務(wù)定義和任務(wù)依賴關(guān)系觸發(fā)任務(wù)運(yùn)行,觸發(fā)方式把主要包含自動(dòng)觸發(fā)定時(shí)觸發(fā),按照預(yù)先定義時(shí)間周期,如每日、每七天、每個(gè)月,或任何有規(guī)律時(shí)間間隔執(zhí)行任務(wù)。當(dāng)前可明確任務(wù)主要是每個(gè)月執(zhí)行基礎(chǔ)計(jì)算平臺(tái)、管理分析平臺(tái)數(shù)據(jù)歸檔。事件觸發(fā),按照特定事件觸發(fā)、執(zhí)行任務(wù)。如:數(shù)據(jù)文件抵達(dá)指定目錄,會(huì)觸發(fā)數(shù)據(jù)加載任務(wù)。一樣,流程失敗也會(huì)觸發(fā)新job,如錯(cuò)誤處理、例外處理等。手動(dòng)觸發(fā)系統(tǒng)管理員能夠使用TaskAutomation提供界面或命令接口執(zhí)行一些job。這些job功效通常包含對(duì)特定范圍數(shù)據(jù)進(jìn)行審計(jì)與驗(yàn)證、對(duì)特定范圍數(shù)據(jù)進(jìn)行針對(duì)性很強(qiáng)數(shù)據(jù)清洗、或者是對(duì)某流程失敗后修復(fù)。每個(gè)要執(zhí)行任務(wù)均由任務(wù)執(zhí)行代理開啟運(yùn)行金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第50頁(yè)流程調(diào)度平臺(tái)—集群可靠性和可擴(kuò)展性高可用性流程調(diào)度所需元數(shù)據(jù)信息統(tǒng)一保留在MySQL數(shù)據(jù)庫(kù)中,集群中任何服務(wù)器發(fā)生故障不會(huì)破壞元數(shù)據(jù)完整性。服務(wù)器故障時(shí),只需要修改ETL任務(wù)屬性,指定其它服務(wù)器執(zhí)行任務(wù)即可,故障不會(huì)影響任務(wù)依賴關(guān)系、任務(wù)組關(guān)系。擴(kuò)展能力流程調(diào)度集群由多臺(tái)服務(wù)器組成,按工作負(fù)載劃分不一樣角色,分別實(shí)現(xiàn)ETL處理過程中不一樣類型任務(wù)調(diào)度。當(dāng)某類調(diào)度工作負(fù)載較大時(shí),可經(jīng)過增加服務(wù)器方式,實(shí)現(xiàn)集群橫向擴(kuò)展金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第51頁(yè)流程調(diào)度平臺(tái)—平臺(tái)布署架構(gòu)流程調(diào)度平臺(tái)由八臺(tái)X86服務(wù)器組成,服務(wù)器按照功效分為兩類兩臺(tái)X86服務(wù)器布署MySQL數(shù)據(jù)庫(kù)集群,存放流程調(diào)度元數(shù)據(jù)六臺(tái)X86服務(wù)器布署流程調(diào)度引擎,負(fù)責(zé)各數(shù)據(jù)區(qū)數(shù)據(jù)處理流程調(diào)度與運(yùn)行TaskAutomationPerlRuntimeHadoopHiveRedhatLinuxMySQLClient暫時(shí)/歸檔區(qū)調(diào)度服務(wù)器1TaskAutomationPerlRuntimeHadoopHiveRedhatLinuxMySQLClient貼源區(qū)調(diào)度服務(wù)器TaskAutomationPerlRuntimeHadoopHiveRedhatLinuxMySQLClient匯總區(qū)調(diào)度服務(wù)器TaskAutomationPerlRuntimeHadoopHiveRedhatLinuxMySQLClient暫時(shí)/歸檔區(qū)調(diào)度服務(wù)器4MasterNodeMySQL主服務(wù)器MasterNodeMySQL從服務(wù)器……LANMySQL主-從集群,存放暫時(shí)區(qū)、歸檔區(qū)、貼源區(qū)和匯總區(qū)數(shù)據(jù)處理任務(wù)定義,任務(wù)依賴關(guān)系按數(shù)據(jù)區(qū)劃分工作流,工作流不跨數(shù)據(jù)區(qū)暫時(shí)區(qū)數(shù)據(jù)處理工作流布署在數(shù)據(jù)交換換平臺(tái)加載服務(wù)器貼園區(qū)和匯總區(qū)工作流分別布署獨(dú)立服務(wù)器金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第52頁(yè)基礎(chǔ)計(jì)算平臺(tái)—平臺(tái)邏輯架構(gòu)VMVMVMVMVMVMVMVMVMVMVMVMVMVMVM節(jié)點(diǎn)VMVMVMVMVM節(jié)點(diǎn)VMVMVMVMVM節(jié)點(diǎn)節(jié)點(diǎn)節(jié)點(diǎn)節(jié)點(diǎn)節(jié)點(diǎn)節(jié)點(diǎn)Hadoop暫時(shí)數(shù)據(jù)區(qū)貼源數(shù)據(jù)區(qū)匯總數(shù)據(jù)區(qū)基礎(chǔ)計(jì)算平臺(tái)基于Hadoop集群搭建集群采取標(biāo)準(zhǔn)X86服務(wù)器集群彈性架構(gòu),按需分配計(jì)算資源,支持添加X86服務(wù)器方式實(shí)現(xiàn)橫向擴(kuò)展集群中數(shù)據(jù)保留三份,確保任何節(jié)點(diǎn)故障,不影響集群對(duì)外提供服務(wù)基礎(chǔ)計(jì)算平臺(tái)有三個(gè)數(shù)據(jù)區(qū)組成暫時(shí)數(shù)據(jù)區(qū),緩存當(dāng)日源系統(tǒng)改變(新增、修改、刪除)數(shù)據(jù),支持后續(xù)ELT數(shù)據(jù)處理貼源數(shù)據(jù)區(qū),按照源系統(tǒng)數(shù)據(jù)模型整合明細(xì)歷史數(shù)據(jù),作為基礎(chǔ)數(shù)據(jù)層實(shí)現(xiàn)數(shù)據(jù)一次整合、屢次使用匯總數(shù)據(jù)區(qū),依據(jù)應(yīng)用需求,對(duì)貼源數(shù)據(jù)區(qū)明細(xì)數(shù)據(jù)進(jìn)行預(yù)連接、預(yù)聚合、預(yù)匯總處理數(shù)據(jù),實(shí)現(xiàn)了數(shù)據(jù)一次計(jì)算、屢次使用金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第53頁(yè)基礎(chǔ)計(jì)算平臺(tái)—暫時(shí)數(shù)據(jù)區(qū)包含內(nèi)容主要用途大數(shù)據(jù)分析平臺(tái)要整合源系統(tǒng),包含:POP、財(cái)務(wù)審計(jì)、財(cái)務(wù)研發(fā)、大物流、供給鏈、金融、網(wǎng)站交易、數(shù)據(jù)部和移動(dòng)客戶端等研發(fā)體系各業(yè)務(wù)系統(tǒng)。建立數(shù)據(jù)緩沖區(qū),暫時(shí)存放從源系統(tǒng)抽取過來(lái)增量/全量數(shù)據(jù),支撐后續(xù)ELT處理。設(shè)計(jì)標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)設(shè)計(jì)標(biāo)準(zhǔn)暫時(shí)數(shù)據(jù)區(qū)對(duì)應(yīng)獨(dú)立Hive數(shù)據(jù)庫(kù)不對(duì)外提供訪問,ETL用戶對(duì)數(shù)據(jù)庫(kù)有增、刪、查、改權(quán)限模型設(shè)計(jì)標(biāo)準(zhǔn)邏輯模型參考源系統(tǒng)和接口規(guī)范定義,為每個(gè)接口單元設(shè)計(jì)實(shí)體、屬性物理模型與邏輯模型保持一致,每個(gè)實(shí)體對(duì)應(yīng)一張Hive表,表采取LZO壓縮存放物理模型設(shè)計(jì)不提議考慮索引、物化視圖等技術(shù)特征以天為單位,按業(yè)務(wù)日期建立分區(qū)歷史保留標(biāo)準(zhǔn)緩存當(dāng)日業(yè)務(wù)數(shù)據(jù)、為數(shù)據(jù)重跑方便可保留7天歷史過期數(shù)據(jù)直接刪除對(duì)應(yīng)分區(qū),不需要?dú)w檔金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第54頁(yè)基礎(chǔ)計(jì)算平臺(tái)—貼源數(shù)據(jù)區(qū)包含內(nèi)容主要用途與緩沖層相對(duì)應(yīng),貼源整合層主要包含:POP、財(cái)務(wù)審計(jì)、財(cái)務(wù)研發(fā)、大物流、供給鏈、金融、網(wǎng)站交易、數(shù)據(jù)部和移動(dòng)客戶端等研發(fā)體系各業(yè)務(wù)系統(tǒng),全部數(shù)據(jù)保留歷史。作為整個(gè)數(shù)據(jù)平臺(tái)基礎(chǔ)數(shù)據(jù)層,累計(jì)歷史,為主題層、集市層等數(shù)據(jù)區(qū)提供數(shù)據(jù)支撐。設(shè)計(jì)標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)設(shè)計(jì)標(biāo)準(zhǔn)貼源數(shù)據(jù)區(qū)對(duì)應(yīng)獨(dú)立Hive數(shù)據(jù)庫(kù)不對(duì)外提供訪問,ETL用戶對(duì)數(shù)據(jù)庫(kù)有增、刪、查、改權(quán)限模型設(shè)計(jì)標(biāo)準(zhǔn)針對(duì)不需要統(tǒng)計(jì)改變實(shí)體,其邏輯模型參考緩沖層,按照貼源設(shè)計(jì)針對(duì)需要統(tǒng)計(jì)改變數(shù)據(jù),需要增加時(shí)間字段,設(shè)計(jì)拉鏈數(shù)據(jù)模型,統(tǒng)計(jì)歷史物理模型考慮分區(qū),流水表按業(yè)務(wù)日期建立分區(qū),拉鏈表按終止日期建立分區(qū)歷史保留標(biāo)準(zhǔn)拉鏈表數(shù)據(jù)保留最近37個(gè)月歷史快照表數(shù)據(jù)永久保留交易流水表數(shù)據(jù)保留最近25個(gè)月歷史過期數(shù)據(jù)歸檔到歷史歸檔區(qū),需要時(shí)回遷金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第55頁(yè)基礎(chǔ)計(jì)算平臺(tái)—匯總數(shù)據(jù)區(qū)包含內(nèi)容主要用途針對(duì)客戶管理、風(fēng)險(xiǎn)評(píng)級(jí)和業(yè)務(wù)量統(tǒng)計(jì)設(shè)計(jì)明細(xì)數(shù)據(jù)進(jìn)行預(yù)匯總、預(yù)連接和預(yù)加工后結(jié)果數(shù)據(jù)。對(duì)明細(xì)數(shù)據(jù)進(jìn)行預(yù)匯總、預(yù)連接和預(yù)加工,為應(yīng)用數(shù)據(jù)集市準(zhǔn)備數(shù)據(jù)。設(shè)計(jì)標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)設(shè)計(jì)標(biāo)準(zhǔn)匯總數(shù)據(jù)區(qū)對(duì)應(yīng)獨(dú)立Hive數(shù)據(jù)庫(kù)不對(duì)外提供訪問,ETL用戶對(duì)數(shù)據(jù)庫(kù)有增、刪、查、改權(quán)限模型設(shè)計(jì)標(biāo)準(zhǔn)匯總層采取了逆范式寬表設(shè)計(jì),某種程度上采取維度建模方法模型設(shè)計(jì)首先需要依據(jù)業(yè)務(wù)和應(yīng)用需要盡可能包含更多屬性和指標(biāo),同時(shí)兼顧空間匯總層需要針對(duì)維度數(shù)據(jù)執(zhí)行標(biāo)準(zhǔn)化處理匯總層模型增加數(shù)據(jù)日期統(tǒng)計(jì)歷史,提議依據(jù)數(shù)據(jù)日期建立分區(qū)歷史保留標(biāo)準(zhǔn)不一樣實(shí)體采取不一樣歷史保留策略提議以支持應(yīng)用為輸入,防止永久保留過期數(shù)據(jù)歸檔到歷史歸檔區(qū),需要時(shí)回遷金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第56頁(yè)基礎(chǔ)計(jì)算平臺(tái)—平臺(tái)布署架構(gòu)基礎(chǔ)計(jì)算平臺(tái)由73臺(tái)X86服務(wù)器組成,3臺(tái)服務(wù)器作為NameNode和JobTrackerNode,70臺(tái)服務(wù)器作為DataNode和TaskTrackerNode……DataNodeTaskTrackerNode服務(wù)器1DataNodeTaskTrackerNode服務(wù)器70Name&JobTrackerNode(Secondary)NameNodeJobTrackerNode內(nèi)部互聯(lián)70臺(tái)服務(wù)器是HDFS數(shù)據(jù)節(jié)點(diǎn),暫時(shí)數(shù)據(jù)區(qū)和貼源整合區(qū)作為獨(dú)立數(shù)據(jù)庫(kù)布署在此服務(wù)器上,并按照3份冗余存放NN負(fù)責(zé)HDFS元數(shù)據(jù)管理,元數(shù)據(jù)信息存放在NAS集群指定目錄經(jīng)過硬件冗余、RAID0+1、SlaveNN等技術(shù)實(shí)現(xiàn)高可用性70臺(tái)服務(wù)器是MR計(jì)算節(jié)點(diǎn),Hive提交SQL語(yǔ)句,轉(zhuǎn)化成MR任務(wù),由JobTracker分配到每臺(tái)服務(wù)器上執(zhí)行SecondaryNN負(fù)責(zé)HDFS元數(shù)據(jù)備份管理,SecondaryJobTracker負(fù)責(zé)MR計(jì)算集群JobTracker高可用性JobTracker

Node負(fù)責(zé)MR任務(wù)分配經(jīng)過心跳信號(hào)檢測(cè)TaskTracker活動(dòng)狀態(tài),排除失效節(jié)點(diǎn)金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第57頁(yè)基礎(chǔ)計(jì)算平臺(tái)—平臺(tái)網(wǎng)絡(luò)拓?fù)銷odeNodeNodeNodeNode20NodesRACK1……NodeNodeNodeNodeNode20NodesRACK2……NodeNodeNodeNodeNode20NodesRACK3……NodeNodeNodeNodeNode20NodesRACK3……金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第58頁(yè)管理分析平臺(tái)—平臺(tái)邏輯架構(gòu)客戶信息管理,采取J2EE框架自主開發(fā),數(shù)據(jù)集市構(gòu)建于分析型數(shù)據(jù)庫(kù)集群運(yùn)行績(jī)效管理,采取MicroStrategy開發(fā),數(shù)據(jù)集市構(gòu)建于分析型數(shù)據(jù)庫(kù)集群零售業(yè)務(wù)靈活分析,采取MicroStrategy開發(fā),數(shù)據(jù)集市構(gòu)建于內(nèi)存數(shù)據(jù)庫(kù)集群HANA金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第59頁(yè)管理分析平臺(tái)—安全管理個(gè)人客戶信息管理企業(yè)客戶信息管理金融業(yè)務(wù)經(jīng)營(yíng)分析金融業(yè)務(wù)規(guī)模預(yù)測(cè)認(rèn)證管理用戶BI應(yīng)用門戶審計(jì)管理授權(quán)管理身份管理授權(quán)管理認(rèn)證管理審計(jì)管理安全管理員安全管理員安全管理員賬戶管理平臺(tái)安全管理信息庫(kù)LDAP賬戶信息權(quán)限信息日志信息金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第60頁(yè)大數(shù)據(jù)分析平臺(tái)物理架構(gòu)說(shuō)明平臺(tái)全部服務(wù)器均采取標(biāo)準(zhǔn)X86PC服務(wù)器系統(tǒng)劃分為三個(gè)子網(wǎng)WEB服務(wù)子網(wǎng),兩臺(tái)服務(wù)器組成Tomcat集群應(yīng)用服務(wù)子網(wǎng),兩臺(tái)服務(wù)器組成MicroStrategy集群數(shù)據(jù)服務(wù)子網(wǎng)基礎(chǔ)計(jì)算平臺(tái),73臺(tái)服務(wù)器組成Hadoop集群數(shù)據(jù)集市平臺(tái),30臺(tái)服務(wù)器組成?集群流程調(diào)度平臺(tái),7臺(tái)服務(wù)器組成TaskAutomation集群數(shù)據(jù)交換平臺(tái),5臺(tái)服務(wù)器與云數(shù)據(jù)推送平臺(tái)接口,分別實(shí)現(xiàn)不一樣業(yè)務(wù)系統(tǒng)數(shù)據(jù)獲取金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第61頁(yè)大數(shù)據(jù)分析平臺(tái)一期硬件配置全部服務(wù)器均采取開放X86架構(gòu),單臺(tái)服務(wù)器提議配置以下:服務(wù)器類型服務(wù)器功效數(shù)量CPU內(nèi)存網(wǎng)口操作系統(tǒng)內(nèi)置盤基礎(chǔ)計(jì)算平臺(tái)(Hadoop集群)DataNode&TaskTracker服務(wù)器7032128G2*1GbCentos6.312*2TB7200RPMSATAdisksNameNode&JobTracker服務(wù)器332128G2*1GbCentos6.34*600GB15KSASdisksRAID0+1歷史歸檔查詢平臺(tái)(Hadoop集群)DataNode&TaskTracker服務(wù)器301224G2*1GbCentos6.316*3TB7200RPMSATAdisksNameNode&JobTracker服務(wù)器31224G2*1GbCentos6.34*600GB15KSASdisksRAID0+1沙盤演練平臺(tái)(Hadoop集群)DataNode&TaskTracker服務(wù)器3032128G2*1GbCentos6.312*2TB7200RPMSATAdisksNameNode&JobTracker服務(wù)器332128G2*1GbCentos6.34*600GB15KSASdisksRAID0+1金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第62頁(yè)大數(shù)據(jù)分析平臺(tái)一期硬件配置(續(xù))全部服務(wù)器均采取開放X86架構(gòu),單臺(tái)服務(wù)器提議配置以下:服務(wù)器類型服務(wù)器功效數(shù)量CPU內(nèi)存網(wǎng)口操作系統(tǒng)內(nèi)置盤數(shù)據(jù)交換平臺(tái)數(shù)據(jù)接口服務(wù)器51664G2*10GbCentos6.32*600GB15KSASdisksRAID0+1流程調(diào)度&ETL平臺(tái)流程調(diào)度&ETL服務(wù)器71664G2*10GbCentos6.32*600GB15KSASdisksRAID0+1元數(shù)據(jù)服務(wù)器Hive元數(shù)據(jù)庫(kù)服務(wù)器21664G2*10GbCentos6.34*600GB15KSASdisksRAID0+1管理分析平臺(tái)數(shù)據(jù)集市服務(wù)器432128G4*10GbCentos6.32*300GB15KSASdisksRAID0+11632128G2*10GbCentos6.314*300GB15KSASdisksRAID0+1內(nèi)存數(shù)據(jù)庫(kù)服務(wù)器420256G2*10GbSLESforSAPapplications11SP28*600GB10kSASdisksRAID5BI應(yīng)用服務(wù)器21664G2*10GbCentos6.32*600GB15KSASdisksRAID0+1WEB服務(wù)器21664G2*10GbCentos6.32*600GB15KSASdisksRAID0+1金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第63頁(yè)大數(shù)據(jù)分析平臺(tái)一期硬件配置(續(xù))光前交換機(jī)配置要求千兆端口:278萬(wàn)兆端口:100帶寬:8GBNAS集群配置以下:總存放容量:40TB磁盤:15000RPMSASDisks網(wǎng)絡(luò)接口:萬(wàn)兆網(wǎng)絡(luò)傳輸協(xié)議:TCP/IP網(wǎng)絡(luò)文件協(xié)議:CIFS、NFS單臺(tái)Cache:8GB金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第64頁(yè)大數(shù)據(jù)分析平臺(tái)一期軟件清單類型軟件清單基礎(chǔ)計(jì)算平臺(tái)Hadoop0.2Centos6.3歷史歸檔查詢平臺(tái)Hadoop0.2Centos6.3沙盤演練平臺(tái)Hadoop0.2Centos6.3數(shù)據(jù)交換平臺(tái)HadoopClient&HiveCentos6.3流程調(diào)度&ETL平臺(tái)TaskAutomationMySQLClientPerlRuntime&MySQLDBDCentos6.3類型軟件清單管理分析平臺(tái)數(shù)據(jù)集市服務(wù)器?Centos6.3實(shí)時(shí)分析平臺(tái)內(nèi)存數(shù)據(jù)庫(kù)服務(wù)器SAPHanaEnterprise1.0Centos6.3管理分析&實(shí)時(shí)分析平臺(tái)BI應(yīng)用服務(wù)器MicroStrategy9.3HanaClientDBClientCentos6.3管理分析&實(shí)時(shí)分析平臺(tái)WEB服務(wù)器Tomcat7.0Centos6.3金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第65頁(yè)議程大數(shù)據(jù)分析平臺(tái)綜述1大數(shù)據(jù)分析平臺(tái)總體架構(gòu)2大數(shù)據(jù)分析平臺(tái)演進(jìn)路線3大數(shù)據(jù)分析平臺(tái)一期實(shí)施重點(diǎn)4附錄:數(shù)據(jù)質(zhì)量管理平臺(tái)5金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第66頁(yè)數(shù)據(jù)質(zhì)量管理平臺(tái)技術(shù)架構(gòu)數(shù)據(jù)質(zhì)量檢驗(yàn)規(guī)則執(zhí)行模塊作為多個(gè)ETL任務(wù)布署在金融數(shù)據(jù)平臺(tái)ETL服務(wù)器上,由Automation工作流調(diào)度服務(wù)統(tǒng)一調(diào)度運(yùn)行,實(shí)現(xiàn)各個(gè)數(shù)據(jù)區(qū)技術(shù)和業(yè)務(wù)數(shù)據(jù)質(zhì)量檢驗(yàn)數(shù)據(jù)質(zhì)量管理系統(tǒng)元模型包含檢驗(yàn)規(guī)則、檢驗(yàn)執(zhí)行結(jié)果、分析匯報(bào),模型作為一個(gè)獨(dú)立Schema布署在決議分析報(bào)表平臺(tái)數(shù)據(jù)庫(kù)數(shù)據(jù)質(zhì)量檢驗(yàn)規(guī)則配置模塊作為JavaWeb應(yīng)用布署在金融數(shù)據(jù)平臺(tái)Tomcat集群上,數(shù)據(jù)質(zhì)量管理員經(jīng)過統(tǒng)一Web服務(wù)訪問,實(shí)現(xiàn)檢驗(yàn)規(guī)則維護(hù)數(shù)據(jù)質(zhì)量分析匯報(bào)展現(xiàn)模塊作為JavaWeb應(yīng)用布署在金融數(shù)據(jù)平臺(tái)Tomcat集群上,用戶經(jīng)過統(tǒng)一Web服務(wù)訪問,實(shí)現(xiàn)日?qǐng)?bào)、月報(bào)瀏覽、下載等功效數(shù)據(jù)質(zhì)量分析匯報(bào)生成模塊作為一個(gè)ETL任務(wù)布署在決議分析報(bào)表平臺(tái)ETL服務(wù)器上,由Automation工作流調(diào)度服務(wù)統(tǒng)一調(diào)度運(yùn)行,按照每日、每個(gè)月生成各數(shù)據(jù)區(qū)數(shù)據(jù)質(zhì)量檢驗(yàn)匯報(bào)數(shù)據(jù)質(zhì)量管理平臺(tái)以元信息模型為關(guān)鍵,由規(guī)則配置管理模塊、檢驗(yàn)執(zhí)行模塊、分析匯報(bào)生成模塊和分析匯報(bào)展現(xiàn)模塊四部分組成。整個(gè)數(shù)據(jù)質(zhì)量檢驗(yàn)過程以ETL任務(wù)形式統(tǒng)一調(diào)度執(zhí)行。金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第67頁(yè)數(shù)據(jù)質(zhì)量檢驗(yàn)執(zhí)行服務(wù)數(shù)據(jù)質(zhì)量管理規(guī)則執(zhí)行服務(wù)作為ETL任務(wù)布署在ETL服務(wù)器上在整個(gè)數(shù)據(jù)處理過程中,設(shè)置4類檢驗(yàn)點(diǎn)在不一樣檢驗(yàn)點(diǎn)由TaskAutomation工作流統(tǒng)一調(diào)度執(zhí)行檢驗(yàn)結(jié)果統(tǒng)一存入數(shù)據(jù)質(zhì)量管理資料庫(kù)1234金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第68頁(yè)檢驗(yàn)規(guī)則執(zhí)行服務(wù)檢驗(yàn)點(diǎn)1云數(shù)據(jù)推送平臺(tái)接口文件級(jí)規(guī)范性檢驗(yàn)任務(wù)說(shuō)明任務(wù)類型ETL任務(wù)——技術(shù)型檢驗(yàn)ETL階段云數(shù)據(jù)推送平臺(tái)->金融數(shù)據(jù)交換平臺(tái)NAS存放指定目錄執(zhí)行頻率每日?qǐng)?zhí)行執(zhí)行方式由TaskAutomation工作流引擎依據(jù)工作流定義統(tǒng)一調(diào)度,在ETL服務(wù)器上執(zhí)行檢驗(yàn)對(duì)象云數(shù)據(jù)推送平臺(tái)按照接口規(guī)范導(dǎo)出業(yè)務(wù)系統(tǒng)每日增量數(shù)據(jù)文件和控制文件檢驗(yàn)內(nèi)容接口文件是否存在,接口文件名稱是否正確,接口文件是否經(jīng)過MD5校驗(yàn)實(shí)現(xiàn)技術(shù)Linux腳本語(yǔ)言,Perl或Python成功閾值全部規(guī)則經(jīng)過檢驗(yàn)依賴任務(wù)N/A觸發(fā)任務(wù)數(shù)據(jù)加載金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第69頁(yè)檢驗(yàn)規(guī)則執(zhí)行服務(wù)檢驗(yàn)點(diǎn)2暫時(shí)區(qū)數(shù)據(jù)技術(shù)性檢驗(yàn)任務(wù)說(shuō)明任務(wù)類型ETL任務(wù)——技術(shù)型檢驗(yàn)ETL階段暫時(shí)數(shù)據(jù)區(qū)->貼源整合數(shù)據(jù)區(qū)執(zhí)行頻率每日?qǐng)?zhí)行執(zhí)行方式由TaskAutomation工作流引擎依據(jù)工作流定義統(tǒng)一調(diào)度,在Hadoop集群上執(zhí)行檢驗(yàn)對(duì)象云數(shù)據(jù)推送平臺(tái)按照接口規(guī)范導(dǎo)出業(yè)務(wù)系統(tǒng)每日增量數(shù)據(jù)檢驗(yàn)內(nèi)容日期、時(shí)間格式檢驗(yàn);主鍵唯一型檢驗(yàn);外鍵參考完整型檢驗(yàn);關(guān)鍵字段取值完整性檢驗(yàn)實(shí)現(xiàn)技術(shù)HiveSQL成功閾值90%統(tǒng)計(jì)經(jīng)過檢驗(yàn)異常處理未經(jīng)過檢驗(yàn)統(tǒng)計(jì)存入指定錯(cuò)誤明細(xì)表依賴任務(wù)接口文件級(jí)規(guī)范性檢驗(yàn)任務(wù)觸發(fā)任務(wù)貼源數(shù)據(jù)整合任務(wù)金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第70頁(yè)檢驗(yàn)規(guī)則執(zhí)行服務(wù)檢驗(yàn)點(diǎn)3匯總區(qū)業(yè)務(wù)性檢驗(yàn)任務(wù)內(nèi)容說(shuō)明任務(wù)類型ETL任務(wù)——業(yè)務(wù)型檢驗(yàn)ETL階段貼源整合數(shù)據(jù)區(qū)->匯總數(shù)據(jù)區(qū)執(zhí)行頻率每日/月/季執(zhí)行執(zhí)行方式由TaskAutomation工作流引擎依據(jù)工作流定義統(tǒng)一調(diào)度,在Hadoop集群上執(zhí)行檢驗(yàn)對(duì)象匯總數(shù)據(jù)區(qū)數(shù)據(jù)檢驗(yàn)內(nèi)容業(yè)務(wù)邏輯檢驗(yàn):經(jīng)過對(duì)若干個(gè)匯總值/指標(biāo)值運(yùn)算,來(lái)檢驗(yàn)各個(gè)匯總值/指標(biāo)間潛在平衡或其它比較關(guān)系實(shí)現(xiàn)技術(shù)HiveSQL成功閾值90%統(tǒng)計(jì)經(jīng)過檢驗(yàn)異常處理未經(jīng)過檢驗(yàn)統(tǒng)計(jì)存入指定錯(cuò)誤明細(xì)表依賴任務(wù)貼源整合數(shù)據(jù)區(qū)數(shù)據(jù)處理完成觸發(fā)任務(wù)集市數(shù)據(jù)區(qū)應(yīng)用數(shù)據(jù)生成金融集團(tuán)大數(shù)據(jù)分析平臺(tái)總體架構(gòu)第71頁(yè)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論