京東金融大數據平臺總體架構v_第1頁
京東金融大數據平臺總體架構v_第2頁
京東金融大數據平臺總體架構v_第3頁
京東金融大數據平臺總體架構v_第4頁
京東金融大數據平臺總體架構v_第5頁
已閱讀5頁,還剩78頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

金融集團大數據分析平臺總體架構議程大數據分析平臺綜述1大數據分析平臺總體架構2大數據分析平臺演進路線3大數據分析平臺一期實施重點4附錄:數據質量管理平臺5金融集團管理分析類應用建設現狀基本分析關注的內容存在的問題基本的現狀商城數據倉庫累積數據沒有充分利用缺乏面向整個金融集團的統(tǒng)一、完整的數據視圖;缺乏支撐金融集團日常業(yè)務運轉的風險評估體系;缺乏金融集團客戶360度視圖,客戶行為分析和預測無法實現;缺乏面向金融業(yè)務運營管理的關鍵績效指標體系;……商城已建立面向整個零售業(yè)務的數據倉庫,整合了前臺業(yè)務運營數據和后臺管理數據,建立了面向零售的管理分析應用;金融集團已開展供應鏈金融、人人貸和保理等多種業(yè)務,積累了一定量的業(yè)務數據,同時業(yè)務人員也從客戶管理、風險評級和經營規(guī)模預測等方面,提出了大量分析預測需求;……數據平臺、數據應用、數據管控……基礎數據平臺和BI應用建設是未來一段時間的重點!數據平臺整體架構;數據平臺各層建設的標準;較成熟的金融業(yè)數據模型;數據質量治理;元數據管理;

數據標準建設數據整合;

數據應用建設;數據平臺的軟硬環(huán)境……大數據分析平臺建設目標外部非結構化數據統(tǒng)一制定目標和分析模型統(tǒng)一劃分分析主題統(tǒng)一設計數據模式統(tǒng)一規(guī)劃分析方法統(tǒng)一部署技術基礎統(tǒng)一定義BI應用自定義報表工具行+列的簡單定義方式多種格式報表集團決策層集團職能管控層各級業(yè)務操作層關注集團主要經營指標業(yè)務人員使用BI應用實現業(yè)務協(xié)作和創(chuàng)新BI分析工具供應鏈金融系統(tǒng)POP系統(tǒng)其他業(yè)務系統(tǒng)云數據推送平臺已實現了主要零售及金融業(yè)務系統(tǒng)數據清洗、整合,為未來金融集團數據平臺提供了豐富的數據源。通過數據平臺和BI應用建設,金融集團將搭建統(tǒng)一的大數據共享和分析平臺,對各類業(yè)務進行前瞻性預測及分析,為集團各層次用戶提供統(tǒng)一的決策分析支持,提升數據共享與流轉能力采購管理系統(tǒng)查看職能部門的業(yè)務經營情況大數據分析平臺建設預期收益2.加強業(yè)務協(xié)作實現分散在供應鏈金融、人人貸、保理等各個業(yè)務系統(tǒng)中的數據在數據平臺中的集中和整合,建立單一的產品、客戶等數據的企業(yè)級視圖,有效促進業(yè)務的集成和協(xié)作,并為企業(yè)級分析、交叉銷售提供基礎3.促進業(yè)務創(chuàng)新金融集團業(yè)務人員可以基于明細、可信的數據,進行多維分析和數據挖掘,為金融業(yè)務創(chuàng)新(客戶服務創(chuàng)新、產品創(chuàng)新等)創(chuàng)造了有利條件4.提升建設效率通過數據平臺對數據進行集中,為管理分析、挖掘預測類等系統(tǒng)提供一致的數據基礎,改變現有系統(tǒng)數據來源多、數據處理復雜的現狀,實現應用系統(tǒng)建設模式的轉變,提升相關IT系統(tǒng)的建設和運行效率5.改善數據質量從中長期看,數據倉庫對金融集團分散在各個業(yè)務系統(tǒng)中的數據整合、清洗,有助于企業(yè)整體數據質量的改善,提高的數據的實用性通過數據平臺實現數據集中,確保金融集團各級部門均可在保證數據隱私和安全的前提下使用數據,充分發(fā)揮數據作為企業(yè)重要資產的業(yè)務價值1.實現數據共享議程大數據分析平臺綜述1大數據分析平臺總體架構2大數據分析平臺演進路線3大數據分析平臺一期實施重點4附錄:數據質量管理平臺5大數據分析平臺總體架構歷史數據查詢數據交換平臺應用集市數據區(qū)商城零售供應鏈金融人人貸系統(tǒng)基金系統(tǒng)……系統(tǒng)企業(yè)內外部半結構化、非結構化數據大數據交換組件數據庫數據交換組件數據區(qū)數據交換組件數據計算層大數據區(qū)沙盤演練數據區(qū)數據應用層實時數據區(qū)客戶主題協(xié)議主題產品主題業(yè)務沙盤演練數據增值產品零售數據供應鏈數據增值產品數據區(qū)主題數據區(qū)……用戶訪問層客戶匯總賬戶匯總機構匯總……社交媒體移動互聯(lián)用戶評價訪問日志處理后大數據待處理大數據流程調度監(jiān)控告警數據標準數據質量元數據數據安全流程調度平臺……數據管控平臺流程調度層數據管控層數據產生層數據交換層實時數據查詢客戶管理財務管理……外部用戶貼源數據區(qū)……內部管理分析內部用戶歷史歸檔數據區(qū)IT人員風險管理大數據分析平臺總體架構——數據產生層內部業(yè)務系統(tǒng)產生的結構化數據商城日常零售業(yè)務處理過程中產生的結構化數據,存儲在關系型數據庫中,如:供應商信息、采購信息、商品信息、銷售流水……金融集團日常業(yè)務處理過程中產生的結構化數據,存儲在關系型數據庫中,如:客戶信息、賬戶信息、金融產品信息、交易流水……企業(yè)內部非結構化數據日常業(yè)務處理過程中產生的非結構化數據,存儲形式多樣,主要包括用戶訪問日志、用戶投訴、用戶點評……企業(yè)外部數據企業(yè)外部數據以非結構化為主,主要包括國家政策法規(guī)、論壇等互聯(lián)網信息、地理位置等移動信息、微博等社交媒體信息……

源數據內容在本次項目實施中將采用以增量為主、全量為輔結合的方式獲取源數據商城和金融集團業(yè)務系統(tǒng)的數據增量數據識別、獲取由云數據推送平臺負責,云數據推送平臺采用分析、對比源系統(tǒng)日志方式實現對于無法通過上述方式獲取增量的源系統(tǒng)數據,則采用某一個時間范圍內的全部數據作為增量初始數據加載均采用全量模式源數據增量大數據分析平臺總體架構——數據交換層數據交換層設計目標傳輸組件是根據數據源存儲的不同分類而設計的,本質是通過分析數據存儲結構和數據存儲庫的特點來針對性的設計工具,以追求卓越的性能保證數據在平臺內高速流轉保證數據交換過程中不失真保證數據交換過程中不丟失保證數據交換過程安全可靠數據區(qū)數據交換組件數據庫數據交換組件大數據交換組件金融集團系統(tǒng)數據服務層外部大數據商城系統(tǒng)Hadoop元數據云數據推送平臺數據平臺導入臨時區(qū)數據平臺導出臨時區(qū)NAS存儲ETL程序區(qū)大數據分析平臺總體架構——數據交換層NAS存儲Hadoop集群元數據區(qū)數據平臺ETL數據處理程序區(qū)數據平臺臨時數據區(qū)存儲數據平臺各個Hadoop集群的元數據信息,如:HDFS文件系統(tǒng)元數據集團數據交換平臺每日獲取運輸局推送平臺提供的業(yè)務系統(tǒng)變化數據,暫存在NAS臨時數據區(qū)金融數據平臺加工計算結果返回給業(yè)務系統(tǒng),暫存在NAS臨時數據區(qū)數據平臺ETL加工處理程序(數據壓縮、數據加載、各數據數據處理等)統(tǒng)一存儲在NAS集群指定目錄,各接口服務器通過文件系統(tǒng)Link建立映射大數據分析平臺總體架構——數據交換層大數據交換組件企業(yè)內部非結構化、半結構化數據,如:音頻、視頻、郵件、Office文檔、抵押品掃描件等企業(yè)外部非結構化、半結構化數據,如:微博、貼吧、論壇、用戶點擊流、用戶移動位置等批量采集:大數據源以SFTP協(xié)議批量傳輸數據文件在線訪問:開發(fā)Java或C應用,調用大據源API,或以網絡平臺爬蟲方式抓取源系統(tǒng)非結構化、半結構化數據組件以實時和批量兩種模式實現下列功能:數據采集數據傳輸到數據交換平臺(接口服務器)NAS指定目錄存儲數據到數據平臺大數據區(qū)指定HDFS目錄定時抽取用戶訪問日志,加載到數據平臺大數據區(qū)HDFS指定目錄,MR程序加工處理開發(fā)網絡爬蟲程序,掃描用戶微博,抓取用戶微博內容,社交圈信息,存入大數據區(qū)處理對象實現技術實現功能應用場景大數據分析平臺總體架構——數據交換層數據庫數據交換組件企業(yè)內部業(yè)務系統(tǒng)產生的結構化數據,包括兩大來源:商城零售業(yè)務數據,數據存儲在Oracle、SQLServer、MySQL和MongoDB四類數據庫金融集團互聯(lián)網金融業(yè)務數據,數據存儲在MySQL數據庫Perl程序數據采集,調用Perl文件模塊相關函數,輪詢指定目錄,獲取數據文件數據核查,Perl執(zhí)行文件級數據質量檢查數據加載,調用HiveLoad數據命令,加載到數據平臺臨時數據區(qū)的HiveTable組件以實時和批量模式實現下列功能:數據采集,輪詢NAS集群指定目錄,獲取數據文件(LZO壓縮)數據核查,對數據文件進行質量校驗數據加載,加載數據到臨時數據區(qū)云數據推送平臺連接供應鏈金融系統(tǒng)數據庫,分析供應鏈金融MySQL數據庫日志,識別增量數據,存儲到金融平臺NAS存儲的指定目錄,金融平臺加載數據文件到數據平臺臨時區(qū)Hive表處理對象實現技術實現功能應用場景大數據分析平臺總體架構——數據交換層數據區(qū)數據交換組件數據平臺計算層各數據區(qū)貼源數據區(qū)主題數據區(qū)集市數據區(qū)沙盤數據區(qū)大數據區(qū)歸檔數據區(qū)Sqoop實現集市數據區(qū)與數據平臺其他Hadoop數據區(qū)的數據交換Hadoop命令、Hive外部表、MR程序實現數據平臺Hadoop數據區(qū)間的數據交換組件以批量方式實現下列數據交換功能:貼源數據區(qū)和主題數據區(qū)到集市數據區(qū)大數據區(qū)到主題數據區(qū)和集市數據區(qū)主題數據區(qū)、貼源數據區(qū)、集市數據區(qū)到沙盤數據區(qū)各個數據區(qū)數據歸檔數據集市的數據按照據生命周期規(guī)劃,統(tǒng)一將過期數據歸檔到歷史數據歸檔區(qū)處理對象實現技術實現功能應用場景大數據分析平臺總體架構——流程調度層批量處理流程批量數據處理由流程調度層部署的自定義開發(fā)WorkFlow組件調度運行整個流程主要完成如下工作:獲取業(yè)務系統(tǒng)結構化數據,存入臨時數據區(qū)獲取企業(yè)內外部非結構化數據,并進行結構化處理,存入主題或集市數據區(qū)按照貼源數據模型整合數據(標準化、數據更新/追加)按照主題數據模型整合數據并生成匯總數據加工計算后,結果交付到數據集市,支持分析類應用大數據分析平臺總體架構——流程調度層實時數據處理流程實時數據處理強調的是實時或準實時獲取并處理數據,通常采取消息隊列等技術構建“數據流”整個處理流程由流程調度層部署的自定義開發(fā)WorkFlow組件調度運行整個流程主要完成如下工作:通過數據庫數據交換組件獲取增量數據,加載到實時數據區(qū)通過大數據交換組件獲取非結構化數據,并利用Storm處理數據,加載到實時數據區(qū)針對實時數據區(qū)數據執(zhí)行標準化處理和貼源整合大數據分析平臺總體架構——流程調度層歸檔數據處理流程數據歸檔的對象包括業(yè)務系統(tǒng)數據文件、貼源數據區(qū)數據、主題數據區(qū)數據、大數據區(qū)數據和集市數據區(qū)數據數據按照生命周期規(guī)劃存儲到歸檔區(qū)Hadoop集群,歸檔后原數據區(qū)刪除此數據整個處理流程由流程調度層部署的自定義開發(fā)WorkFlow組件調度運行整個流程主要完成如下工作:數據文件通過HDFS命令行copyfromlocal進行歸檔貼源、主題和大數據區(qū)通過HDFS命令行distcp或自定義開發(fā)的MR程序執(zhí)行歸檔集市數據區(qū)通過Sqoop或數據庫提供的Hadoop集成技術(如:外部表)執(zhí)行歸檔大數據分析平臺總體架構——數據存儲層業(yè)務系統(tǒng)前日增量數據緩存數據,支持后續(xù)ELT數據處理數據內容主要用途數據模型保留周期用戶

訪問模式工作負載平臺要求貼源數據模型保存最近7天數據貼源數據區(qū)和主題數據區(qū)批量作業(yè)訪問無最終用戶訪問I/O敏感,連續(xù)小批量的數據抽取和加載少量量數據使用Hive的Load命令,大量數據使用MR程序與主題區(qū)/貼源區(qū)/集市區(qū)構成一個Hadoop集群(Hive)無單點故障,7×24小時+非工作日有限停機主題數據區(qū)、集市數據區(qū)和沙盤演練數據區(qū)批量作業(yè)訪問無最終用戶訪問I/O敏感,日終批量ETL以ELT形式通過HiveSQL執(zhí)行與主題區(qū)/貼源區(qū)/集市區(qū)構成一個Hadoop集群(Hive)無單點故障,7×24小時+非工作日有限停機貼源數據模型不保存歷史業(yè)務系統(tǒng)前日快照數據和一段時間的流水數據數據標準化,為后續(xù)主題模型、集市和沙盤演練提供數據臨時數據區(qū)貼源數據區(qū)大數據分析平臺總體架構——數據存儲層(續(xù))企業(yè)內外部非結構化、半結構化數據采集并存儲數據,進行結構化處理,最終得到結構化數據數據內容主要用途數據模型保留周期用戶

訪問模式工作負載平臺要求數據按照HDFS文件存儲建議保留1年集市區(qū)/沙盤區(qū)/增值產品區(qū)/主題區(qū)/歸檔區(qū)批量作業(yè)訪問少量高級業(yè)務人員進行大數據分析MapReduce分布式計算,半/非結構化數據的結構化處理(包括文本檢索、語義分詞、圖像識別、音頻識別等)與主題區(qū)/貼源區(qū)構成一個Hadoop集群(HDFS)無單點故障,7×24小時+非工作日有限停機集市區(qū)/沙盤區(qū)/增值產品區(qū)/主題區(qū)/高時效區(qū)批量作業(yè)訪問業(yè)務人員執(zhí)行歷史數據查詢MapReduce分布式計算,HDFS命令實現Hadoop集群內歸檔,Sqoop實現數據庫歸檔,通過Hive提供歷史查詢獨立的Hadoop集群(HDFS+Hive)無單點故障,7×24小時+非工作日有限停機數據按照HDFS文件存儲數據文件按照數據區(qū)劃分目錄,建議保留7年其他各數據區(qū)歷史數據按數據生命周期規(guī)劃歸檔平臺過期數據,支撐歷史數據查詢大數據區(qū)歷史歸檔數據區(qū)大數據分析平臺總體架構——數據存儲層(續(xù))業(yè)務系統(tǒng)歷史明細數據打破業(yè)務條線整合數據數據內容主要用途數據模型保留周期用戶

訪問模式工作負載可用性要求第三范式模型保留長期歷史,需要根據主題細化主題區(qū)/集市區(qū)/沙盤區(qū)/增值產品區(qū)/歸檔區(qū)批量作業(yè)訪問少量高級業(yè)務人員進行靈活查詢、挖掘預測I/O敏感,日終批量ETL(合并、拉鏈、關聯(lián)、匯總等等)以ELT形式通過HiveSQL執(zhí)行,復雜處理使用MR定制UDF與大數據區(qū)/貼源區(qū)構成一個Hadoop集群(Hive)無單點故障,7×24小時+非工作日有限停機集市區(qū)/沙盤區(qū)/增值產品區(qū)/歸檔區(qū)批量作業(yè)訪問少量高級業(yè)務人員進行靈活查詢、挖掘預測I/O敏感,日終批量ETL(連接、聚合、匯總等等)以ELT形式通過HiveSQL執(zhí)行,復雜處理使用MR定制UDF與大數據區(qū)/貼源區(qū)構成一個Hadoop集群(Hive)無單點故障,7×24小時+非工作日有限停機逆范式寬表依賴于集市數據需求對主題數據預加工后的結果數據針對應用需求進行數據預連接、預匯總,為集市提供數據主題數據區(qū)—明細主題數據區(qū)—匯總大數據分析平臺總體架構——數據存儲層(續(xù))按沙盤演練需求,準備的明細或匯總業(yè)務數據為數據科學家的挖掘預測操作提供數據服務數據內容主要用途數據模型保留周期用戶

訪問模式工作負載可用性要求模型依賴于沙盤演練需求在整個沙盤演練周期內保留集市區(qū)/沙盤區(qū)/歸檔區(qū)批量作業(yè)訪問少量高級業(yè)務人員進行靈活查詢、挖掘預測I/O敏感,終批量ETL(合并、拉鏈、關聯(lián)、匯總等等)以ELT形式通過HiveSQL執(zhí)行,復雜處理使用MR定制UDF獨立的Hadoop集群(HDFS)無單點故障,7×24小時+非工作日有限停機沙盤區(qū)/歸檔區(qū)批量作業(yè)訪問決策人員、管理人員、業(yè)務人員訪問I/O敏感型,BI工具提交的報表、查詢、分析SQL命令和日終批量ETL(匯總、聚集等操作,以ELT形式通過SQL執(zhí)行)基于開放平臺的完全無共享

MPP數據庫集群+內存數據庫無單點故障,7×24小時+非工作日有限停機維度數據模型依賴業(yè)務需求面向企業(yè)內部管理分析類應用需求的匯總數據為客戶、運營等管理分析主題和數據增值產品提供數據服務沙盤演練數據區(qū)應用集市數據區(qū)大數據軟分析平腦臺總體架構——數據存儲送層(續(xù))根據外祝部用戶估的數據料使用需豪求數據逐平臺加活工計算見的結果何數據為部署在數攔據平臺上去的企業(yè)內腔外部增值張產品提供俗數據支持數據內容主要用途數據模型保留周期用戶訪問模享式工作負宅載可用性要州求應用模等型,依醋賴于用瓜戶業(yè)務滔需求依賴于用戶業(yè)務需求企業(yè)外摟部人員昏,如:欠京東客絲式戶通過自己萍部署在Paas平臺上清的應用拐訪問I/O敏感型歇,BI工具提交綠的報表、哀查詢、分僵析SQL命令和日超終批量ETL(匯總、終聚集等操飽作,以ELT形式通過SQL執(zhí)行)獨立的Paas平臺,乖部署Hado艷op集群無單點故障,7×24小時+非工作百日有限例停機企業(yè)業(yè)工務人員高時效、高并發(fā)、壤高可靠竿性的聯(lián)徑機交易桐類查詢CPU敏感,BI工具或業(yè)階務系統(tǒng)高他并發(fā)、高蹲時效查詢屢,以及準憶實時連續(xù)ETL處理+SQ爽L批量處攪理獨立的訓內存數套據庫集支群無單點故障,365×部24小時不停碧機貼源數郵據模型依賴用戶浮業(yè)務需求面向應用縫的業(yè)務系潛統(tǒng)快照數證據和一段艦時間的交堪易流水為實時相獲準實焰時分析羊應用提蚊供數據盈服務增值產品符數據區(qū)實時數黑據區(qū)大數據分乳析平臺總淹體架構——數據存家儲層數據流數據集成抗層操作型聚眼合數據臨時數擱據區(qū)實時數拖據區(qū)公共匯學總數據主題明杠細數據結構化數繳據非結構化&半結構化跡數據沙盤演練施數據區(qū)實驗室澆數據集市數駝?chuàng)^(qū)POP自營數迷據貼源數據韻區(qū)金融業(yè)較務數據主題數紗據區(qū)客戶管理寫集市財務管扔理集市運營管理叔集市風險管擴理集市……集市大物流系擦統(tǒng)數據供應鏈容系統(tǒng)數尖據財務審漸計數據財務研召發(fā)數據操作型明墻細據歸檔數薄據區(qū)大數據區(qū)源系統(tǒng)數據文件貼源數據主題數據集市數診據高時效數據大數據增值產培品數據爭區(qū)大數據分藝析平臺總消體架構——數據應用仔層大數據平臺應用針對公逗檢法查狐詢需求慌、內外丑部審計瓶需求和補最終用顏戶的歷方史交易壞查詢需關求,以宴貼源存炒儲的歸怕檔數據當為基礎備,實現帳的查詢景類應用歷史查園詢類應棕用通常斤使用BI工具或自催主開發(fā)實不現客戶經理至等最終業(yè)預務人員針協(xié)對當前業(yè)戴務的發(fā)生弊(如:用剝戶交易、鴉用戶訪問厲日志),踢進行實時查插詢、分析虧的應用管理分析皇類應用主毀要實現了徒集團客戶脾管理、運度營管理、覽財務管理漿、風險管投理、監(jiān)管恩信息披露盾五大分析豬體系功能管理分析襖類應用通摸常采用套趴裝軟件和BI工具(Micr豆oStr刷ateg饒y等)實現業(yè)務人員呀根據業(yè)務躁需求或自哭己對業(yè)務唱的理解,辛設計計算滅模型,準漁備各類明蟲細或匯總晚數據,導霞入模型運角算,驗證桂業(yè)務結果沙盤演忍練類應駐用通常塌使用R語言在Hado刺op分布式體賞系下實現金融集團挖數據科學澤家根據自潤己對業(yè)務矮需求的理伐解或者對猜市場的判邪斷,設計能并運行模戰(zhàn)型,發(fā)掘歉數據價值跪,并封裝普成商業(yè)產羊品數據增碼值產品帆通常采狐用R語言和BI工具實泛現,面節(jié)向企業(yè)晶內外部疤用戶管理分蛋析類應嫁用1沙盤演旱練類應容用3歷史查守詢類應的用4高時效類分析應棵用5數據增午值類產擴品2實時分析糾類應用通艇常使用CEP、ESB等技術實詢現大數據額分析平秒臺總體緊架構——平臺發(fā)展不同階段輩對應應用工作負著載復雜仿度大數據平繭臺發(fā)展階監(jiān)段劃分操作為主卷階段什么正在煮發(fā)生?動態(tài)數據駱倉庫階段讓正確組的事情救發(fā)生!分析為主隨階段為什么份會發(fā)生報表為寨主階段發(fā)生了扯什么預測為主惱階段將會發(fā)鎮(zhèn)生什么錦?批量隨機查詢數據分析持續(xù)更新前加載/短查詢基于事紅件的動拳態(tài)觸發(fā)數據量增流長用戶數壘增長查詢復雜度刃增長ETL處理復雜象度增長管理分析類應用歷史查豎詢類應貪用實時分土析類應價用沙盤演練類應用數據增值類產品大數據分死析平臺總輩體架構——管理分妄析類應錫用總賬分析資產負債踩表分析損益表分久析現金流序量表分狼析財務指溉標分析盈利分舞析機構貢獻耍度產品貢獻霧度客戶細殲分貢獻腎度渠道績褲效資產負社債分析主要指容標報告,如:凈利息收第入、凈泥收入、凈現值、市惰場價值等頭寸報皮告現金流報告風險價值豈(VaR)計算財務預算與春計劃財務預算財務計露劃執(zhí)行舍監(jiān)控執(zhí)行過程丸分析年末財務菠計劃執(zhí)行乳分析預測與場俱景分析業(yè)務規(guī)模運預測收益預櫻測……領導管墻理駕駛貓艙機構績效考嘴核客戶經理考餓核客戶經理蘭工作量評各估客戶經槍理服務客戶收益未評估產品績效瓣考核業(yè)務量考核供應鏈金融業(yè)付務人人貸業(yè)務保理業(yè)抖務基金業(yè)務其它中密間業(yè)務……渠道成本個與收益……風險監(jiān)勝控報表/信息披露流動性投報表利率敏感性報煌表資本充蟲足率報創(chuàng)表……市場風險市場風險暑暴露值流動性背管理、蹄利率管赤理信用風險信用風險贈暴露值計在算信用風擋險控制(貸前爽控制、將貸中監(jiān)親控、貸專后分析目)操作風險異常交易丘預警后督差垮錯檢查……防欺詐/反洗錢定義欺詐交細易模型可能性欺詐交易預警欺詐交易分布分唱析全面風它險管理……目前監(jiān)貍管機構系沒有明辱確要求客戶單答一視圖公司客戶牽信息管理個人客攤戶信息旅管理同業(yè)客戶僑信息管理目標客愉戶搜索重點客戶關懷客戶風險客戶異動客戶客戶細分個人客戶細分公司客戶細薦分客戶行為違分析客戶輪廓嚴分析產品交叉冷銷售分析百分比分具析渠道偏叼好分析營銷活動辨管理營銷活混動規(guī)劃營銷活動潛定義營銷活治動執(zhí)行營銷活蛛動蘋果營銷活份動自動完化渠道接口規(guī)與集成流程自動脆化……客戶管益理運營管理財務管理風險管理監(jiān)管披露示例大數據分枯析平臺總攀體架構——數據訪問猛層即席查詢匆:通過即席槐查詢工具或手工書枝寫SQL語句,完成業(yè)務銅信息的即齊席查看多維分險析:從多個維唱度靈活組壺合對目標華值進行分妄析,常見擠功能包括委上下鉆取型、透明鉆撞取、旋轉首、分頁、基層鉆、跨挨維鉆取等主動問題沖發(fā)現:通過事件鵲觸發(fā)、規(guī)倘則匹配等臉方式發(fā)現摧企業(yè)運營會中的問題川,通過手液機、郵件紗等方式報珍警決策層管理層業(yè)務人員即席查姜詢靜態(tài)報混表多維分析儀表盤挖掘預沸測儀表盤:通過儀辮表盤及涂其它展店現方式漆對企業(yè)畏關鍵績別效指標禁進行展抵示,為昂領導層拒決策提終供直觀牌的數據音支持靜態(tài)報表:按照預先游定義格式指,批處理錫報表,在脖線查詢報傲表等Off劍ice集成:將分析應偶用嵌入到Off止ice界面中,秒利用Offi近ce的方便兔、易用鍛特性,期降低用戰(zhàn)戶使用足難度問題發(fā)現Off舍ice集成Web服務挖掘預測:使用專鞭業(yè)的軟綿件工具鐵,通過數理織統(tǒng)計等高希級統(tǒng)計分午析算法,分析結忍構化、殲非結構員化數據扒,通過數熔據模型技去挖掘粗隱藏在前數據中厭的價值數據科稿學家業(yè)務系顏統(tǒng)Web服務:將分析逗應用的吼功能發(fā)街布為Web服務,預注冊在珠企業(yè)服灣務總線仆上,供慚其它業(yè)剪務系統(tǒng)黃或分析緣瑞應用調隱用,獲拘取分析魂結果多種展矩現形式貨滿足各腔層級用杏戶及應浙用系統(tǒng)時使用需釣求大數據擁分析平稱臺總體架構——數據管控愿層金融數古據管控體系俊涵蓋組織架構傘、評價與考核、管控流程、管控平臺四個域。數據標駐準管理數據質量廊管理元數據管因理工作流率管理……組織數據與信叔息標準化抹委員會數據管釋理人數據所有乞人數據生產人數據使用人IT支持團隊考核指框標責任評熟價標準執(zhí)翻行評價政策執(zhí)行習評價評價標變準數據類型數據格民式業(yè)務分矮類真實性都定義及時性市定義完整性護定義技術元輸數據流程評價與考猛核流程考核指標建立/維護流程標準建立/維護流程組織建立/維護流利程評價與考核業(yè)務含義一致性恭定義數據認責平臺安全等級權限定義數據停用數據共享數據移動數據存儲數據創(chuàng)建業(yè)務元數寫據管理元數養(yǎng)據數據全生社命周期數據安全管理數據標溉準數據質量元數據數據安全…………審計定周義保留策炎略……大數據蹤蝶分析平化臺總體架構——數據管控體系押內部運轉傍機制管控組雄織數據管控塑委員會數據所有人數據認責人IT支持……管控流程數據接入流程數據變當更流程數據授壩權流程數據退當役流程標準/政策制定流神程評價考害核流程……評價與考名核標準(數求據標準、冶質量要求敗、安全要存求)遵守標準勻所需要的鏟政策政策與丘標準遵寨從考評拜定義……數據產生患者數據使用徒者………流程支呼撐流程支更撐制定管控平臺工具支撐明確了攻數據管異控過程辮中的組居織結構饞、角色吉、職責領等。管娃控組織靜除了要恩負責制裂定數據效標準、彈質量、獨安全等脫要求外怪,還需王要負責宣制定管晌控的相蜜關流程玩和評價寫考核指鎖標等內和容??荚u制定通過建立陵一些定性塊或定量的添數據管控忍評價考核嘗指標,去催評估及考倡核數據相收關責任人蹈職責履行羞情況、數身據管控標運準及數據同政策的執(zhí)膜行情況等蔥。規(guī)范了秧數據管戴控過程艱中,各抵個環(huán)節(jié)差日常任判務處理祝的運作向模式,懸例如數本據定義光如何變敵更、數祥據沖突么如何協(xié)耐調等。采用專捕門的技歐術平臺荷支撐管羞控流程哲的自動鍵化,發(fā)娃布管控脫組織制楊定的一銅些相關聯(lián)標準和挎規(guī)范,薄及時反稀映管控堤過程中騾存在的氣一些問市題等。管控綜合管理標準/規(guī)范管毯理流程管涉理考核儀表享盤……元數據移管理業(yè)務元姐數據管立理技術元數消據管理管理元宵數據分稼析……數據質蓮量管理稽核規(guī)識則管理數據稽核質量報告……工具支撐組織架寸構、評攝價與考壓核、管譽控流程弄、管控弄工具這四個域晨相互作用弓、相互支撞撐,提供峰對各信息撿系統(tǒng)數據脊的管控。大數據抵分析平田臺總體延架構——數據管控組織數據管渣控組織若是數據塔管控體暖系中最疏重要的滔因素,樂它負責雷定義和蹈管理業(yè)說務數據為相關標另準,制顫定遵尋傍標準所點必須的械政策,不監(jiān)測正逐在進行視的數據畝管控行胡動。數據管控拳組織是否傘有完整與娃合理的角拴色定義、幅是否有高質層領導的扯參與,是滴整個數據慎管控的成纖敗的關鍵渴。典型的數緣瑞據管控組腸織如下所很示:數據管控綱負責部門崗位角色數據管始控主導虎方信息管框理委員誘會數據標準管理員數據質量管理員數據產生獵部門數據管莊控參與擋方業(yè)務協(xié)調人數據分析員數據主棗管數據使用部門業(yè)務協(xié)調人數據分析員數據主城管數據擁有部門業(yè)務協(xié)調人數據分析員數據主管數據管理部門運維組織實施項紋目組數據安全管理員數據管控泡經理元數據管理員大數據分掛析平臺總逼體架構——數據標站準管理消除一衡數多義則,提升尿數據的村唯一性滅、一致攻性,將伏逐步形庫成的數匆據標準唇納入一馳個規(guī)范寸的管理鼻流程中翁,進行衫數據標做準的更驅新、發(fā)寨布、使隆用監(jiān)督關等工作。數據標準管理抬工作可以擴分為以下寨幾個部分貢:數據標蔬準建立和環(huán)維護、數受據標準執(zhí)變行、數據散標準管理劫的考評。數據標暑準建立蓄和維護數據分類數據結構關鍵業(yè)務辱對象關鍵代稻碼數據維度代碼映傲射客戶類數據標準產品類數據標準。。。類數據標浸準數據標麥準執(zhí)行數據標準留管理的考坐評定性考腔評定量考氣評數據標尾準分析報告數據標厘準理念捕推廣歸檔系癥統(tǒng)……ODS大數據分僚析平臺總歉體架構——數據質殺量管理數據質量蔬管理框架削藍圖如下士,其中數詞據質量提線升是改進鹽數據質量黃的手段和質量考評的忘目的:數據質薦量要求土確認,刑根據業(yè)瘦務要求楚制定和陽明確數閑據質量科要求,同時也需要愛符合數簡據標準雷的要求腰;數據質廟量考評狹,對數況據質量始的量化參評價制定數據棋質量問題鄉(xiāng)豐解決方案文,根據數鵝據質量考商評和日常換工作中發(fā)秩現的數據雁質量問題講,實施相獎應的措施鞭,提升數坡?lián)|量數據質量要求業(yè)務規(guī)則數據一致性要求數據完整性要求數據唯一性要求數據準確性要求數據及時性要求數據質量標準數據質量驗證規(guī)則數據質量考核指標數據質量提升數據補錄手工修正自動修正數據質量考評數據質量監(jiān)控不定期數據質量檢查數據質量分析報告大數據分憤析平臺總聾體架構——元數據管蒙理業(yè)務元乓數據:需面向業(yè)鐮務人員冷,從業(yè)歡務術語努、業(yè)務千描述、叉業(yè)務指淋標和業(yè)打務規(guī)則斧等幾個少方面對傘數據進蒸行描述管理元數您據:面向慢數據管理潤人員,從純運維管理悶的角度描駝述數據處抵理、數據始質量和數則據安全的塘狀態(tài)信息技術元挪數據:吹面向技羊術人員銜,從數攤據結構鄉(xiāng)豐和數據物處理細盲節(jié)方面裹對數據幻玉進行技笛術化描打述大數據分徐析平臺總油體架構——數據安臉全管理數據安棚全管理償可分為窩數據安融全分級工管理和疲數據訪罰問授權精管理兩償個部分爭:數據安舉全分級烤:根據屯業(yè)務要藏求,制缺定一系綱列的數匪據安全餡分級標幸準和政緞策,為條數據應芝用以及社數據管待理中實碗施數據獸安全保喊護和訪濾問提供先數據安鐘全控制扶的基礎獲。數據訪問溝授權:數搭據訪問授飛權的主要撐工作是根及據數據安決全分級標搶準,定義音數據訪問幅的授權方錯法及流程逮,建立基列于數據安藏全分級的詠數據使用畝授權機制架,實現數塘據訪問和絕信息披露獲的安全。數據安全丹分級數據敏感度數據安全等級定義數據訪炸問授權數據重要性數據使用需求數據使投用者權責數據訪攤問授權規(guī)串則安全技術大數據宅分析平廚臺總體撐架構——高階工作流程業(yè)務數據剪規(guī)劃管理絨高階流程數據認責職流程數據治理艱考核體系數據治避理考核沈流程數據治臥理考核航指標體經系數據標準辮管理管理遭高階流程數據標鬧準建立我流程數據標慈準維護隸流程數據質橡量管理督管理高割階流程數據質量望要求確定忘流程元數據幟管理高罩階流程元數據變州更流程數據安細全管理墻管理高上階流程數據安全緞審批流程數據認責侵流程數據標準僑、質量、元數據扁、安全管理流釣程協(xié)調會議考核流程大數據真分析平濟臺總體寫架構——數據管控涌平臺數據管控平沃臺從總游體上來故說分為算數據層預、應用狠層、展課現層三讓個主要秀層面,端以數據透層的數毫據庫及球相關基舉礎系統(tǒng)澆為主要擁信息來攤源,通撤過應用扒層的運旅算處理羅,以不牽同的形幣式,不隙同的功攜能在展素現層提切供用戶劇接口首頁標準管理主菜單指標速遞待辦事項信息地圖標準瀏覽標準維護工作管理流程管理績效指標系統(tǒng)管理用戶管理權限管理規(guī)范管理數據管控平臺統(tǒng)一用戶集成界面數據標準知識庫數據管控平臺知識庫……元數據管理元數據采集……元數據知識庫質量管理規(guī)則配置……質量稽核庫數據層應用層展現層大數據分遠析平臺總體產品舌框架非結構化/半結構化凱數據管理分映析平臺(X86粥MPP集群)京東業(yè)務葛系統(tǒng)結構慈化數據基礎計扯算平臺征(貼源罷數據區(qū)+主題數據狹區(qū)+大數據半區(qū))(Had渴oop集群+Hi突ve)數據交碗換平臺(自主開發(fā)交換考組件+NA或S存儲)實時分粥析平臺(內存數御據庫)沙盤演數練平臺(Hado甩op集群)數據管屢控平臺FTPSFTP癢/HTT什P/AP攜ICop甜yfr按oml找oalQue兩ue京東云數據推送賭平臺增值產蜂品平臺(Had謹oop集群)歷史歸檔茂查詢平臺(Had延oop集群+Hi嚷ve)Load(Hive)Dis蝴tcpHQL以+Lo刪adDis祝tcpDist味cpHQL+阿LoadDis艇tcpHQL+座LoadSqo襲opSqo奏opSqoo斯pMR流程調度細平臺議程大數據刻分析平貸臺綜述1大數據分柔析平臺總營體架構2大數據分鵝析平臺演止進路線3大數據分束析平臺一辟期實施重構點4附錄:憑數據質貨量管理乞平臺5大數據分蒜析平臺演梅進路線以基礎蝴平臺搭估建為主換,配合們金融集梢團初期茄業(yè)務開聯(lián)展,應全用建設弓從客戶鏟信息管沖理、風辣險管理斤和運營擁管理三覆方面開易展搭建大數荷據處理平叫臺和實時揮分析平臺馳,應用方踐面開展實使時分析和論數據產品卵封裝開展客戶予信息管理慰、信用風舅險評級和娛業(yè)務統(tǒng)計飽分析三類耽應用建設開展貼源狀數據整合耗,初步建據立企業(yè)級雜數據視圖塊,實現對鏡管理分析犯類應用和疲實時分析趣類應用的番支撐規(guī)劃數據管廁控藍圖號,初步瘋實施數趙據質量置和技術屈元數據泛管理2013年201昏4年——2展015年201綁5年以后對企業(yè)價撇值的創(chuàng)造應管技業(yè)務分析框架基礎數據平臺數據管控體系應技管全面開圣展內部貓管理分逮析、實猜時分析樓和沙盤籍演練應童用建設執(zhí),初步豈展開增禍值數據產品開發(fā)工絲式作全面開展炸大數據分將析平臺建苦設,引入網更多數據嚼源,豐富帖并完善平忠臺數據區(qū)毀建設隨著應旋用體系頓的搭建聯(lián),完善曲數據質派量和元炎數據建瀉設,開說展數據贈標準化兇工作應技管深化分盡析體系塔,形成瓣深度智測能化業(yè)泉務分析性能持虧續(xù)優(yōu)化溜、數據平臺持續(xù)完俯善、持續(xù)深化污數據管控堂體系,形牙成金融集償團企業(yè)級脊的數據管科控體系應技管一期201鏟3.1史0當前位乓置未來持續(xù)優(yōu)毀化提升肌階段第一階段第二階段第三階段大數據分歇析平臺演去進說明——基礎數彎據平臺階段劃分建設內容預期效果第一階段搭建數據交換平臺,部署NAS存儲集群,設計并實施數據庫交換組件和數據區(qū)交換組件搭建基礎計算平臺,設計并實施貼源數據區(qū),以T+1頻率整合商城和金融業(yè)務數據搭建歷史歸檔查詢平臺,歸檔商城和金融業(yè)務數據文件搭建內部管理分析應用平臺,部署MPP集群和BI分析應用環(huán)境搭建實時分析平臺,部署內存數據庫和實時BI分析環(huán)境實現了數據平臺內部個數據區(qū)之間、數據平臺與外部系統(tǒng)間的雙向數據傳輸實現了業(yè)務數據按照貼源數據模整合實現了數據按照生命周期的歸檔管理實現了內部管理分析環(huán)境搭建實現實時分析環(huán)境搭建第二階段數據交換平臺增強和優(yōu)化,包括:大數據交換組件設計實施基礎計算平臺增強,包括:引入更多的數據源,增強貼源數據區(qū);設計并實施主題數據區(qū),打破業(yè)務條線整合數據;設計并實施大數據區(qū),實現企業(yè)內外部非結構化、半結構化數據加工、處理搭建沙盤演練平臺實時分析平臺增強和優(yōu)化,包括:引入更多應用及相關數據源實現了基礎數據一次存儲、一次計算、多次使用建立了數據分析人員的實驗環(huán)境,實現了用戶自主用數為實時、準實時類分析用提供平臺為封裝、銷售數據類產品提供了平臺第三階段基礎計算平臺持續(xù)增強和優(yōu)化,引入更多的數據源、優(yōu)化模型和ETL處理搭建增值產品平臺,設計并實施增值產品數據區(qū)數據交換平臺、沙盤演練平臺、實時分析平臺進一步增強和優(yōu)化數據平臺納入盡可能多的企業(yè)內外部數據數據平臺以最優(yōu)的性能支持各類數據應用大數據塔分析平些臺演進池說明——數據管控階段劃分建設內容預期效果第一階段分析和梳理當前數據管理方面的成果和現狀,數據管控藍圖和路線圖設計,數據管控工作的組織、技術和流程高階設計梳理金融集團大數據平臺ETL流程各環(huán)節(jié)的數據質量要求,指定數據質量檢查規(guī)則、評價指標、管控流程,并落地實施數據質量管理系統(tǒng)梳理金融集團大數據平臺包含的技術元數據,如:數據字典、ETL任務、ETL流程、BI語義層等,制定相應的管控流程并落地實施元數據管理系統(tǒng)同步大數據分析平臺ETL建設,實現了數據質量管理系統(tǒng)收集并整合了金融集團所有技術元數據,實現了數據生命周管理、血緣分析和影響分析等功能第二階段隨著更多數據源的引入,進一步增強數據質量管理系統(tǒng)隨著更多數據源的引入、更多平臺的建立,梳理并整合更多技術元數據梳理金融集團大數據平臺包含的業(yè)務和管理類元數據,如業(yè)務術語、業(yè)務指標、業(yè)務定義等,制定相應的管控流程并落地實施元數據管理系統(tǒng)開展基礎類數據標準建設,基礎數據標準、管控流程、評價指標、落地策略完善了數據質量管理體系,實現了問題及時發(fā)現、及時解決實現了金融集團全方位的元數據管理,打通了業(yè)務和技術元數據關聯(lián)關系為金融集團數據平臺建設提供了基礎類數據標準第三階段數據質量管理持續(xù)優(yōu)化并增強元數據管理持續(xù)優(yōu)化并增強基礎類數據標準逐步落地實施開展指標類數據標準建設基礎數據標準、管控流程、評價指標、落地策略通過完善的數據管控體系,提升數據質量、避免數據二義性、建立數據間的血緣關系,使得業(yè)務人員可以方便、有效的使用數據,提高數據實用性大數據分獅析平臺演厘進說明——應用體系階段劃分建設內容預期效果第一階段開展客戶信息管理建設,設計并實施個人客戶和供應商360°視圖、客戶目標搜索、客戶細分等功能開展風險管理建設,設計并實施供應商和個人客戶風險評級模型開展運營管理建設,設計并實施供應鏈金融、人人貸等業(yè)務條線業(yè)務量統(tǒng)計分析初步梳理實時、準實時分析需求,進行高時效分析應用試點可以方便的對個人客戶和供應商進行分群,以及全方位信息查詢和展示供應商和個人客戶風險等級評定針對目前開展的業(yè)務進行經營情況統(tǒng)計分析搭建并驗證高時效應用體系第二階段隨著金融集團業(yè)務的展開,逐步開展內部管理分析體系的建設,本階段重點為客戶關系管理、運營管理等高級業(yè)務人員利用沙盤演練平臺進行數據挖掘、預測和科學試驗進一步樹立實時、準實時分析需求,深化開展高時效分析應用開始梳理市場上的數據應用需求,嘗試封裝增值數據產品通過內部管理分析體系的建設、滿足了金融集團日常經營管理、決策分析和進一步提高價值創(chuàng)造力的需要實現了業(yè)務人員自主用數實現了高時效分析,與業(yè)務流程的整合實現了數據產品的封裝,提升了數據價值第三階段隨著金融集團業(yè)務的展開,進一步完善內部管理分析體系的建設,包括:市場風險管理、操作風險管理、財務管理等收集實時分析需求,進一步增強并優(yōu)化實時分析應用體系增值數據產品設計逐漸成為重點,數據分析師收集企業(yè)內外部數據需求,設計更完善的增值數據產品通過內部管理分析應用體系建設進一步實現數據共享、業(yè)務協(xié)作與創(chuàng)新通過實時分析應用體系建設,實現大數據平臺業(yè)務系統(tǒng)的交互,與業(yè)務流程的融合增值數據產品的開發(fā)進一步發(fā)揮的數據平臺的數據價值議程大數據分著析平臺綜規(guī)述1大數據布分析平壩臺總體掀架構2大數據辣分析平種臺演進庸路線3大數據仆分析平虧臺一期地實施重款點4附錄:刺數據質撕量管理項平臺5金融大數舞據分析平程臺一期架滔構基礎計阻算平臺能:基于Hado敞op集群構建紹,按照業(yè)鄰務條線、桿以貼源數磁據模型存痛儲了業(yè)務勺系統(tǒng)明細旗數據數據交換平臺:NAS集群實談現了進奪出數據滾平臺數榜據的暫去存,業(yè)住務數據細交換組艙件實現沿了業(yè)務知系統(tǒng)每沫日增量訪數據加坡載,數涂據區(qū)數諷據交換船組件實墓現了基礎計算平臺與管考理分析平棗臺間的數崗據交換流程調度耳平臺:自主開發(fā)的流癢程調度引狼擎實現整謊個數據平統(tǒng)臺的數據處槐理任務盒調度和腫運行管理分痛析平臺依:由X86分析型犧數據庫廣集群、BI軟件1J2沸EE應用構似成,實趣現了面鵝向應用巴的數據蔽加工、都管理、先分析服懶務實時分側析平臺:由高檔X86服務器組蔑成的集群靈,實現高該時效、高絡并發(fā)的實舊時、準實效時類管理慶分析需求數據交換任平臺—平臺邏輯飯架構POP金融大數辰據分析平小臺NAS集群物流財務供應鏈人人貸……云數據外推送平臺云數據推濟送平臺實樹現源系統(tǒng)斤數據一次瓶獲取獲、頭按需分發(fā)帆。平臺采菌用Gol魔den挽Gat揪e、JBUS、Flu滾me等技術覆獲取增符量數據畫,存儲雖在MyS織QL集群平臺按考照接口堵規(guī)范生伯成文件孔,LZO壓縮后,虧通過FTP傳輸到NAS指定目疊錄數據交蠟換平臺品由FTP服務器、遇加載服務湖器和NAS存儲組成,壯完成業(yè)繁務系統(tǒng)輛數據的悲獲取、幻玉加載和逮歸檔FTP服務器婚:利用LVS構成的FTP集群,接傲收云數據刺推送平臺奧處理后的階數據,存銳儲在NAS集群的指坐定目錄加載服務器嫁:部署ETL任務,嚼實現指定目錄揀的文件到瘦達監(jiān)控、役文件級檢焰核、數據貢加載(Hive貫Loa勢d)到臨擺時數據緣瑞區(qū),同靜時歸檔失(cop鑄yfr結oml玻oca鏈l)歷史廚數據區(qū)NAS集群:按彎照日期和船源系統(tǒng)劃乘分目錄,被緩存數據精,支持日馳常數據交洽換和ETL…………LVS集群:FTP服務器#3加載服務濫器#1文件加載文件歸檔文件到達事件監(jiān)控文件級檢核加載服象務器#4文件加載文件歸檔文件到達事件監(jiān)控文件級檢核LVS集群:FTP服務器#1LVS集群:負沈載均衡服周務器…………數據交換誤平臺—參與方累責任劃肆分設計并洲實施云數據推溪送平臺;按照金融性集團接口挎定義,抽客取業(yè)務系奔統(tǒng)數據;按照金融恥集團接口哀規(guī)范要求金,按時生成數據文件承、控制文殼件和DDL文件,并都通過FTP傳輸到NAS指定目錄羽;若源系川統(tǒng)有變壇更,則漲要求在芬變更前緣瑞提供變模更內容揀說明,升級平酷臺版本,根據金融珍集團更新接市口規(guī)范管提供數松據;應及時解天決接口數各據提供過臟程中出現六的問題;對于未量盡事宜炊,應同金融異集團協(xié)強商解決默。云計算安裝部署分金融集團竟大數據分芳析平臺物劣理環(huán)境、答應用軟件犬,并進行南基礎設施肉運維;在業(yè)務系衛(wèi)統(tǒng)數據庫這服務器安微裝并部署原云數據推枯送平臺客磨戶端,并池提供數據問庫訪問。運維部斬門制定接賺口規(guī)范帽,并提甩交給云泄數據推欣送項目指組;梳理業(yè)務任系統(tǒng)數據游字典,制嘗定接口定辯義,并提澡交給云數敵據推送項遣目組;開發(fā)數據交換組件,懷從NAS獲取數夢據并處遺理;對接收的產數據提供點驗證功能,并墳返回驗證結果到界云數據房誠推送平蜘臺;根據云脆數據推屬送平臺提交黃的變更通路知修改接鄙口定義和弄數據交換給組件;對于未姥盡事宜撇,應同云計區(qū)算方協(xié)商解決。金融集長團針對金鼻融集團宏需求,指定亞接口人拐、提供認文檔;業(yè)務系呀統(tǒng)因版倦本升級側等原因過導致數求據模型該發(fā)生變養(yǎng)化,及供時通知云數據推居送平臺接口責任繪人。研發(fā)部芹門數據交晶換平臺—業(yè)務系都統(tǒng)數據占抽取實詢現方式每張源黃系統(tǒng)表棚都對應磁一個獨薦立的數纖據接口數據接尊口由數釣據文件猛和控制緣瑞文件構飾成(文線件命名幟和具體未內容參頃見接口劑規(guī)范)文件統(tǒng)一替采用UTF-產8編碼,革統(tǒng)一存砌在在JSS指定目芹錄(參件見接口窯規(guī)范)如果在害抽取周矮期內沒約有數據悲變更,云數據棒推送平醉臺應該生成劫空的數據接口傳輸方毀式FTP傳輸,利想用LVS技術構意建FTP集群,接差收數據傳輸頻率云數據閱推送平愚臺通常按照T+1頻率為金傅融集團提兄供數據,竊具體頻率勞要求參見襯接口定義接口處理模式云數據推送嘆平臺根據堆不同接口單元定義臥,準備數據熔、生成接遼口數據文片件;云數據推送平臺根倆據接口根規(guī)范生葬成相應浙的接口玩控制文蝦件;云數據暖推送平臺壓鋪縮數據曬(LZO),并通過FTP將數據妙接口存冶入NAS指定目噴錄;金融大數據分析饅平臺部署柔在不同加撐載服務器俯上的數據交換組件完艙成:定時輪牲詢NAS指定目朗錄,獲混取接口孕(包括歇數據文墳件、控吸制文件存和DDL文件)滔;執(zhí)行文件繼級檢核;通過檢戶核后,將數據文誘件和控岔制文件移動陪到NAS集群指定目錄,觸發(fā)后續(xù)ETL處理;在Tas若kA斑uto梯mat腎ion調度下詞執(zhí)行數壟據加載羨和數據歸檔任務。數據交羽換平臺—平臺部署機架構數據交換癢平臺由8臺X86服務器緊和一個NAS集群構成X86服務器按功照功能分誓為2組,一縮慧組實現鑼數據獲艦取,一均組實現口數據加谷載和歸嫁檔NAS集群作為腥公共數據餅區(qū),由8臺服務爛器共享踏訪問(端讀寫)PythonruntimePythonJSSModuleFTPRedhatLinuxLVS服務器4HDFSClientHive加載任務歸檔任務RedhatLinux加載服務器1HDFSClientHive加載任務歸檔任務RedhatLinux加載服務器4LANPythonruntimePythonJSSModuleLVSRedhatLinuxLVS服務器1…………NAS集群負責源背系統(tǒng)數階據文件匯加載和凈歸檔每臺服務器負職責多個源膠系統(tǒng)支持按需擴展/減少服務挺器LVS泥1負載均衡其它LVS服務器輸負責接車收接口盜文件,唉寫入NAS集群目長錄支持按需擴展/減少服務歉器部署數據巷交換平臺殘和流程調府度平臺程闖序,各服蔬務器通過演文件鏈接菜使用按日期絮和源系孤統(tǒng)建立尿數據目襖錄,緩撈存每日虜接口文居件,供休交換平謀臺訪問流程調度裁平臺—平臺邏摩輯架構Task賊Aut仁omat圓ion驅動各個午平臺、實陡現從數據移存入NAS平臺到數桶據集市生樸成整個處吹理過程的兆工作流管輛理數據交睛換平臺負析責數據狂抽取、習文件級扁質量檢籌核、調盡用Hiv釀eL扇oad加載數據基礎計算手平臺使用Hiv采eS報QL實現貼輝源數據整合、瓦公共匯宇總數據攻處理管理分析平臺使用捕關系型數酷據庫的SQL實現集市音數據的處揪理歷史歸檔畫查詢平臺穩(wěn)負責數據蔽文件和Had留oop集群數據生歸檔流程調伯度平臺—流程調度魄元數據Task亦Aut影omat設ion的元數和據統(tǒng)一鍛存儲在MySQ教L數據庫間中任務定化義,包具括任務朱名稱、覆描述、仍運行服豬務器、運行狀態(tài)、喇運行時僚間、相捧關數據半源等屬咳性任務依司賴,任者務的執(zhí)鈴行依賴列與其他亡上游任翼務任務觸發(fā),羽任務成海功執(zhí)行踐后觸發(fā)籃的下游緊任務任務組,一組徑有相互關而系的任務保,全部完裙成后會觸下發(fā)頭任務調運行……元數據由希所有流程杯調度服務慌器共享流程調仍度平臺—任務調枯度引擎通過偵測板器偵測事餐件,按照嘉任務定義去和任務依罷賴關系觸于發(fā)任務運植行,觸發(fā)簽方式把主聞要包括自動觸莊發(fā)定時觸藥發(fā),按爺照預先定義甜的時間周斯期,如每塌日、每周映、每月,殃或任何有谷規(guī)律的時咸間間隔執(zhí)行任務躍。目前可梅明確的任感務主要是踩每月執(zhí)行久的基礎計獅算平臺、化管理分析射平臺數據舉歸檔。事件觸發(fā),漁按照特誼定的事梳件觸發(fā)時、執(zhí)行銜任務。始如:數凡據文件叮到達指砌定目錄究,會觸貞發(fā)數據肢加載任鴿務。同插樣,流程賄失敗也耳會觸發(fā)替新的job,如錯院誤處理雀、例外礎處理等。手動觸發(fā)系統(tǒng)管理員陵可以使終用Tas據kA洽uto睬mat研ion提供的界合面或命令敏接口執(zhí)行一些job。這些job的功能通佩常包括對渠特定范圍咳的數據進百行審計與梅驗證、對壁特定范圍彼的數據進饒行針對性產很強的數歪據清洗、駝或者是對悔某流程失按敗后的修復。每個要欄執(zhí)行的薪任務均溫由任務讀執(zhí)行代理啟埋動運行流程調度鋸平臺—集群可哈靠性和饅可擴展怕性高可用悼性流程調煤度所需宅的元數喝據信息尿統(tǒng)一保遲存在MySQ揮L數據庫中松,集群中頃任何服務鍬器發(fā)生故之障不會破蛾壞元數據完整性。面服務器故悼障時,只需要修禍改ETL任務屬性括,指定其茫他服務器執(zhí)行任務即可,終故障不內會影響位任務依酸賴關系翁、任務嫌組關系剩。擴展能縣力流程調已度集群慣由多臺堪服務器愈構成,譯按工作菌負載劃嘩分不同羽角色,悶分別實持現ETL處理過悼程中不汪同類型慎任務的榨調度。命當某類下調度工搞作負載錦較大時覺,可通婚過增加凝服務器昨的方式葛,實現昨集群的僵橫向擴狐展流程調醒度平臺—平臺部署架構流程調度平臺留由八臺X86服務器構軍成,服務譽器按照功柔能分為兩紹類兩臺X86服務器只部署MyS適QL數據庫集林群,存儲變流程調度峽元數據六臺X86服務器走部署流北程調度季引擎,羽負責各癢數據區(qū)口數據處朱理流程毯調度與項運行TaskAutomationPerlRuntimeHadoopHiveRedhatLinuxMySQLClient臨時/歸檔區(qū)調度服務器1TaskAutomationPerlRuntimeHadoopHiveRedhatLinuxMySQLClient貼源區(qū)調度服務器TaskAutomationPerlRuntimeHadoopHiveRedhatLinuxMySQLClient匯總區(qū)調度服務器TaskAutomationPerlRuntimeHadoopHiveRedhatLinuxMySQLClient臨時/歸檔區(qū)調度服務器4Mast動erN固odeMyS禍QL主服務元器Mast而erN軍odeMySQ津L從服務器……LANMySQ富L主-從集群排,存儲扛臨時區(qū)屯、歸檔認區(qū)、貼嬌源區(qū)和襪匯總區(qū)沙數據處并理任務冶定義,哥任務依貿賴關系按數據區(qū)透劃分工作糊流,工作籌流不跨數膀據區(qū)臨時區(qū)數據處點理的工作位流部署在渣數據交換崖?lián)Q平臺的攏加載服務擋器貼園區(qū)和盡匯總區(qū)厲工作流倦分別部懇署獨立脫的服務寧器基礎計會算平臺—平臺邏歲輯架構VMVMVMVMVMVMVMVMVMVMVMVMVMVMVM節(jié)點VMVMVMVMVM節(jié)點VMVMVMVMVM節(jié)點節(jié)點節(jié)點節(jié)點節(jié)點節(jié)點Hadoop臨時數據區(qū)貼源數據區(qū)匯總數據區(qū)基礎計腎算平臺禾基于Hado勤op集群搭建集群采用然標準的X86服務器集群彈性震架構,按揉需分配計唇算資源,燭支持添加X86服務器惜的方式透實現橫領向擴展集群中的線數據保留底三份,保幕證任何節(jié)稿點故障,糖不影響集馬群對外提歐供服務基礎計斃算平臺蜂有三個睡數據區(qū)奔構成臨時數據區(qū)伴,緩存抽當日源叮系統(tǒng)變塑化(新忘增、修棋改、刪碗除)數多據,支笛持后續(xù)ELT數據處刷理貼源數據區(qū),按照粗源系統(tǒng)數部據模型整原合的明細歷顛史數據,作輔為基礎數決據層實現銷數據一次枝整合、多謝次使用匯總數據區(qū),眠根據應用州需求,對脆貼源數據癥區(qū)明細數攜據進行預夕連接、預競聚合、預炮匯總處理梯的數據,得實現了數村據的一次蹤蝶計算、多萌次使用基礎計喝算平臺—臨時數灶據區(qū)包含內容主要用途大數據攻分析平跪臺要整刃合的源摸系統(tǒng),駕包括:POP、財務審悼計、財務塵研發(fā)、大睡物流、供餃應鏈、金運融、網站交易、數某據部和移受動客戶端弟等研發(fā)體丙系的各業(yè)品務系統(tǒng)。建立數據凡緩沖區(qū),匹臨時存放刻從源系統(tǒng)棕抽取過來策的增量/全量數據,支波撐后續(xù)ELT處理。設計原浙則數據庫設計原則臨時數據數區(qū)對應獨申立的Hive數據庫不對外普提供訪狂問,ETL用戶對數戴據庫有增饞、刪、查烤、改權限模型設計原則邏輯模型象參考源系伶統(tǒng)和接口溜規(guī)范定義嚴,為每個貼接口單元謠設計實體旱、屬性物理模臭型與邏爽輯模型安保持一致,每聰個實體對野應一張Hive表,表采抓用LZO壓縮存翁儲物理模型些設計不建礙議考慮索愉引、物化鄰視圖等技吹術特性以天為單位培,按業(yè)務昨日期建立蓬分區(qū)歷史保留原門則緩存當轎日業(yè)務品數據、為數據重銹跑方便可保留7天歷史過期數佳據直接遲刪除對鼓應分區(qū)端,不需下要歸檔基礎計算綁平臺—貼源數糞據區(qū)包含內容主要用途與緩沖語層相對菠應,貼源整路合層主要包放括:POP、財務名審計、偽財務研揮發(fā)、大撫物流、項供應鏈跨、金融夏、網站交易、鍬數據部跟和移動脫客戶端滅等研發(fā)鑼體系的予各業(yè)務械系統(tǒng),所有數善據保留順歷史。作為整個數據歸平臺的基礎數青據層,累計刊歷史,值為主題詳層、集尾市層等妻數據區(qū)舍提供數鏈據支撐。設計原飯則數據庫設計原則貼源數據區(qū)押對應獨旱立的Hiv毫e數據庫不對外提米供訪問,ETL用戶對數夏據庫有增著、刪、查紛、改權限模型設計原則針對不需洞要記錄變化的實真體,其邏屑輯模型參考緩沖層,堪按照貼源嫌設計針對需架要記錄邁變化的佩數據,脊需要增加時間彎字段,設計拉戒鏈數據模辭型,記錄檢歷史物理模友型考慮介分區(qū),流水表按業(yè)務日期伸建立分區(qū),促拉鏈表其按終止路日期建儀立分區(qū)歷史保留原則拉鏈表蛇數據保望留最近37個月的振歷史快照表除數據永純久保留交易流水夫表數據保峰留最近25個月的歷蹈史過期數膜據歸檔稻到歷史觀歸檔區(qū)兔,需要浩時回遷基礎計算棋平臺—匯總數據區(qū)包含內病容主要用途針對客戶嗚管理、風殺險評級和胃業(yè)務量統(tǒng)枕計設計明格細數據進釋行預匯總抓、預連接竹和預加工滔后的結果腳數據。對明細歉數據進行預匯鐮總、預連挨接和預加工酸,為應絲式用數據蛋集市準霜備數據。設計原做則數據庫設計原則匯總數據次區(qū)對應獨凡立的Hiv緞e數據庫不對外御提供訪夏問,ETL用戶對數庭據庫有增育、刪、查古、改權限模型設予計原則匯總層采銳用了逆范鞋式寬表設織計,某種禁程度上采駐用維度建帖模的方法模型設茫計首先需要根鞭據業(yè)務脆和應用虧的需要喪盡量包臨含更多雀的屬性和指標,同時兼爹顧空間匯總層努需要針收對維度詢數據執(zhí)炮行標準倦化處理匯總層膏模型增吧加數據役日期記城錄歷史胸,建議姑根據數遲據日期新建立分齒區(qū)歷史保留原則不同實芹體采取不同的歷緩史保留策略建議以活支持應廣用為輸姜入,避仿免永久歐保留過期數感據

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論