金融大數(shù)據(jù)解決方案匯報(bào)_第1頁
金融大數(shù)據(jù)解決方案匯報(bào)_第2頁
金融大數(shù)據(jù)解決方案匯報(bào)_第3頁
金融大數(shù)據(jù)解決方案匯報(bào)_第4頁
金融大數(shù)據(jù)解決方案匯報(bào)_第5頁
已閱讀5頁,還剩57頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、金融大數(shù)據(jù)解決方案匯報(bào)Content大數(shù)據(jù)發(fā)展趨勢(shì)金融大數(shù)據(jù)平臺(tái)行業(yè)實(shí)踐金融大數(shù)據(jù)平臺(tái)關(guān)鍵技術(shù)1234金融大數(shù)據(jù)平臺(tái)案列詳述未來銀行:客戶更加移動(dòng)化、個(gè)性化、社交化,實(shí)時(shí)化固定時(shí)間地點(diǎn)獲取服務(wù) 被動(dòng)接受數(shù)據(jù)傳統(tǒng)客戶 尋求更多資源信任市場(chǎng)信息被動(dòng)接受傳播互動(dòng)參與內(nèi)容、產(chǎn) 品和體驗(yàn)的創(chuàng)建隨時(shí)隨地獲取服務(wù) 分析、創(chuàng)造數(shù)據(jù) 尋找有意義的體驗(yàn) 審視細(xì)節(jié)新客戶傳統(tǒng)銀行標(biāo)準(zhǔn)化和產(chǎn)業(yè)化提供服務(wù) 關(guān)注過程和步驟被動(dòng)接受信息且信息來源單一通過客戶經(jīng)理聯(lián)系客戶 固定渠道單一交互關(guān)注場(chǎng)景營銷客戶運(yùn)營客戶服務(wù) 客戶個(gè)性化的 靈活服務(wù)效率全渠道新銀行第二數(shù)據(jù)平臺(tái)成為驅(qū)動(dòng)業(yè)務(wù)創(chuàng)新的新平臺(tái)或有金融資產(chǎn)統(tǒng)一歷史明細(xì)實(shí)時(shí)營銷精準(zhǔn)

2、營銷在線征信第一數(shù)據(jù)平面:交易核心單次、事務(wù)性第二數(shù)據(jù)平面: 大數(shù)據(jù)平臺(tái)并發(fā)、查詢/分析POSATM柜面電話銀行網(wǎng)上銀行金融脈絡(luò)關(guān)系實(shí)時(shí)批量互聯(lián)網(wǎng)大數(shù)據(jù)業(yè)務(wù): 實(shí)時(shí)在線性 業(yè)務(wù)持續(xù)性 跨多元數(shù)據(jù)對(duì)大數(shù)據(jù)平臺(tái)的要求:企業(yè)級(jí)質(zhì)量標(biāo)準(zhǔn):金融等保、可靠、 易用;支持現(xiàn)有系統(tǒng)的對(duì)接。開放性:多分析引擎統(tǒng)一管理,滿足多樣化的數(shù)據(jù)分析場(chǎng)景挖掘能力:支持機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等新的數(shù)據(jù)挖掘能力,實(shí)現(xiàn)更精準(zhǔn)的洞見數(shù)據(jù):存量 . 增量 . 行內(nèi) . 行外社交日志 影像 帳戶 明細(xì)行外數(shù)據(jù)行內(nèi)數(shù)據(jù)歷史數(shù)據(jù)越來越多非結(jié)構(gòu)化數(shù)據(jù)越來越多社交、網(wǎng)購數(shù)據(jù)企業(yè)數(shù)據(jù)平面“在大數(shù)據(jù)領(lǐng)域,不能充分形成大數(shù)據(jù)使用能力的競(jìng)爭(zhēng)者將被淘汰”-

3、McKinsey Global Institute業(yè)務(wù)系統(tǒng)帳戶 明細(xì) 交易數(shù)據(jù)分析信用混合型數(shù)據(jù)平臺(tái)-體系架構(gòu)新核心系統(tǒng)老核心系統(tǒng) 客戶系統(tǒng) 外圍系統(tǒng) 渠道系統(tǒng)外部系統(tǒng)操作型 數(shù)據(jù)區(qū)數(shù)據(jù) 交換區(qū)數(shù) 據(jù) 采 集 和 交 換 平 臺(tái)集成型數(shù)據(jù)區(qū)實(shí)時(shí)事件處理平臺(tái)歷史數(shù)據(jù)區(qū)歷史數(shù)據(jù)平臺(tái)分析型數(shù)據(jù)區(qū)監(jiān)管報(bào)送平臺(tái)統(tǒng)一報(bào)表平臺(tái)管理會(huì)計(jì)系統(tǒng)流動(dòng)風(fēng)險(xiǎn)系統(tǒng)市場(chǎng)風(fēng)險(xiǎn)系統(tǒng)數(shù)據(jù)挖掘平臺(tái)國家審計(jì)平臺(tái)應(yīng)用服務(wù)區(qū)應(yīng)用服務(wù)器報(bào)表 工具W E 服 務(wù) 器即席查詢數(shù)據(jù) 挖掘 工具歷史 數(shù)據(jù) 訪問 應(yīng)用技 術(shù) 緩 沖 層貼 源 模 型 層共 性 加 工 層ETL調(diào)度數(shù)據(jù)標(biāo)準(zhǔn)元數(shù)據(jù)數(shù)據(jù)質(zhì)量數(shù)據(jù)管控?cái)?shù)據(jù)交換基 礎(chǔ) 模 型 層傳統(tǒng)平臺(tái)應(yīng)

4、用 集 市 層基礎(chǔ)數(shù)據(jù)平臺(tái)大數(shù)據(jù)平臺(tái)對(duì)應(yīng)系統(tǒng):客戶管理系統(tǒng)、各類產(chǎn)品系統(tǒng)、帳務(wù)處理系統(tǒng)、各類渠 道系統(tǒng)、管理流程系統(tǒng)。功能定位:主要承擔(dān)面向客戶的交易、帳務(wù)處理,面向內(nèi)部的流程、事務(wù)管理等功能。數(shù)據(jù)特征:存儲(chǔ)業(yè)務(wù)處理和流程管理過程中產(chǎn)生的客戶、協(xié)議、賬 戶、交易等原始數(shù)據(jù),數(shù)據(jù)基本為當(dāng)前狀態(tài),保存一定周期的交易 流水?dāng)?shù)據(jù)。混合型數(shù)據(jù)平臺(tái)-數(shù)據(jù)區(qū)域?qū)?yīng)系統(tǒng):主要是歷史數(shù)據(jù)平臺(tái)。功能定位:根據(jù)數(shù)據(jù)生命周期管理,承擔(dān)對(duì)操作型系統(tǒng)、分析型系統(tǒng) 的歷史數(shù)據(jù),以及數(shù)據(jù)集成平臺(tái)部分歷史數(shù)據(jù)的在線歸檔保存,為客 戶交易明細(xì)歷史查詢、公檢法查詢等應(yīng)用提供支持。數(shù)據(jù)特征:狀態(tài)類數(shù)據(jù)采用全表歷叱拉鏈存儲(chǔ),交易類數(shù)據(jù)

5、保留長(zhǎng)期 歷史。操作型數(shù)據(jù)區(qū)對(duì)應(yīng)系統(tǒng):基礎(chǔ)數(shù)據(jù)平臺(tái)、大數(shù)據(jù)平臺(tái)和實(shí)時(shí)事件處理平臺(tái)。功能定位:實(shí)現(xiàn)全行關(guān)系型結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)的處理,包 括離線分析和實(shí)時(shí)事件數(shù)據(jù)的集中管理和加工,為業(yè)務(wù)運(yùn)營和決策 分析提供數(shù)據(jù)支持。數(shù) 據(jù) 特 征 : 1.利用大數(shù)據(jù)技術(shù),實(shí)現(xiàn)ODS、EDW、匯總層數(shù)據(jù)統(tǒng)計(jì)等一系列 的離線數(shù)據(jù)分析功能,而傳統(tǒng)數(shù)據(jù)庫則實(shí)現(xiàn)復(fù)雜的交于和事務(wù)處理 邏輯。2.大數(shù)據(jù)平臺(tái)同時(shí)可以實(shí)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)的集中管理,結(jié)構(gòu)化及非 結(jié) 構(gòu) 化 數(shù) 據(jù) 的 初 加 工 為 主 ; 3.實(shí)時(shí)事件處理平臺(tái)以實(shí)時(shí)事件數(shù)據(jù)的集中管理和加工為主。集成型數(shù)據(jù)區(qū)對(duì)應(yīng)系統(tǒng):統(tǒng)一報(bào)表平臺(tái)、監(jiān)管報(bào)送平臺(tái)、管理會(huì)計(jì)、風(fēng)險(xiǎn)

6、管理等系統(tǒng)。功能定位:主要獲取數(shù)據(jù)集成平臺(tái)提供的匯總數(shù)據(jù),按照應(yīng)用主題 進(jìn)行數(shù)據(jù)的高粒度匯總加工、圖形化分析和展現(xiàn)。數(shù)據(jù)特征:存儲(chǔ)匯總、聚合類數(shù)據(jù),主要以星型結(jié)構(gòu)、寬表等形式 存儲(chǔ),存儲(chǔ)周期較長(zhǎng)。分析型數(shù)據(jù)區(qū)歷史數(shù)據(jù)區(qū)數(shù)據(jù)處理技術(shù)分布式演進(jìn)趨勢(shì):Hadoop成為開放的事實(shí)標(biāo)準(zhǔn)特點(diǎn):Share Everything結(jié)構(gòu)化、關(guān)系型Flash Cache+分布式塊存儲(chǔ)+IBSMPSMP+MPP混合MPPHadoop特點(diǎn):Share Nothing開放,、全球生態(tài)結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化高性能、實(shí)時(shí)特點(diǎn):Share Nothing結(jié)構(gòu)化、關(guān)系型通用的硬件特點(diǎn):?jiǎn)螜C(jī)、Scale up性能存在瓶頸擴(kuò)展性

7、差內(nèi)存計(jì)算興起,Hadoop生態(tài)系統(tǒng)持續(xù)壯大實(shí)時(shí)化:內(nèi)存計(jì)算興起Hadoop生態(tài)系統(tǒng)持續(xù)擴(kuò)大AMPlab開發(fā)的Spark,提供迭代式內(nèi)存計(jì)算模型,非常適合用于數(shù)據(jù)挖掘算法的并行化預(yù)計(jì)Spark將成為編寫和分享數(shù)據(jù)挖掘算法的標(biāo)準(zhǔn)平臺(tái)Spark目前已經(jīng)成為Apache頂級(jí)項(xiàng)目HadoopHadoop 2.0發(fā)布支持多種計(jì)算模型調(diào)度的Yarn,實(shí)現(xiàn)多種計(jì)算模型在同一個(gè)集群中并存,將幫助Hadoop 進(jìn)一步鞏固大數(shù)據(jù)生態(tài)圈。HDFS和Yarn成為Hadoop核心平臺(tái)性組建,不斷吸收更多組建集成到Hadoop。HDFSStormMapReduceYARN/ZookeeperSparkHBaseFlume

8、SqoopIntegrationSearchMachineLearningComplex Event Process3rd Party or customized wordloadBatchProcessingPigInteractiveAnalyticsImpalaHiveSolrMLLIB融入混合負(fù)載的統(tǒng)一計(jì)算平臺(tái),滿足數(shù)據(jù)多樣化Content大數(shù)據(jù)發(fā)展趨勢(shì)金融大數(shù)據(jù)平臺(tái)行業(yè)實(shí)踐金融大數(shù)據(jù)平臺(tái)關(guān)鍵技術(shù)1234金融大數(shù)據(jù)平臺(tái)案列詳述全球布局、全面覆蓋大數(shù)據(jù)領(lǐng)域關(guān)鍵技術(shù)西安研究所:大數(shù)據(jù)算法(IT)Hadoop產(chǎn)品化(IT)ELK/MPP DB(高斯實(shí)驗(yàn)室)深圳研發(fā)基地/香港: 大數(shù)據(jù)洞察平臺(tái)

9、(IT) 大數(shù)據(jù)解決方案(IT)數(shù)據(jù)挖掘算法(諾亞實(shí)驗(yàn)室)印 度 研 究 所 : Hadoop(中央軟件院) 數(shù)據(jù)可視化(中央軟件院) MOLAP(中央軟件院)美研所:Spark ( 中 央 軟 件 院 ) ELK/MPP DB(高斯實(shí)驗(yàn)室) 大數(shù)據(jù)系統(tǒng)加速(香農(nóng)實(shí)驗(yàn)室)歐研所:分布式內(nèi)存DB(中央軟件院) 分布式計(jì)算算法(中央軟件院)杭 州 研 究 所 : Hadoop(中央軟件院) Spark(中央軟件院) 流計(jì)算(中央軟件院)加研所:Yarn/大規(guī)模調(diào)度硬件加速(中央硬件院) 金融大數(shù)據(jù)分析(IT)俄研所:大數(shù)據(jù)算法(香農(nóng)實(shí)驗(yàn)室)會(huì)使用 Hadoop會(huì)定位周 邊問題會(huì)定位內(nèi)核級(jí)問題(拔尖

10、的個(gè)人)定位內(nèi)核級(jí)問題 的團(tuán)隊(duì)(依賴團(tuán) 隊(duì)而不是精英個(gè) 人)能夠獨(dú)立完成支 撐關(guān)鍵業(yè)務(wù)特性 的內(nèi)核級(jí)開發(fā)能夠帶領(lǐng)社區(qū),引 領(lǐng)社區(qū)完成面向未 來的內(nèi)核級(jí)特性開 發(fā)能夠創(chuàng)建新的社區(qū) 頂級(jí)項(xiàng)目,并且得 到生態(tài)系統(tǒng)認(rèn)可強(qiáng)大的Hadoop內(nèi)核團(tuán)隊(duì)支持的開發(fā)與產(chǎn)品交付能力,企業(yè)級(jí)運(yùn)營支撐能力Apache開源社區(qū)生態(tài)系統(tǒng)組件多,代碼量大組件更新塊特性無有效整合金融積極參與spark社區(qū)貢獻(xiàn),主導(dǎo)Spark SQL升級(jí)支持hive 0.13, 其中合入社區(qū)patch 150+,公司貢獻(xiàn)在社區(qū)排名第三。強(qiáng)大內(nèi)核開發(fā)團(tuán)隊(duì)提供企業(yè)級(jí)的開源支撐能力企業(yè)版的關(guān)鍵在于工程團(tuán)隊(duì)的能力及與周邊生態(tài)環(huán)境的對(duì)接能力某大銀行CIO

11、:“我們把大數(shù)據(jù)應(yīng)用視作 是生命線,肯定是采用企業(yè)版,因?yàn)楦汩_ 源軟件不是我們的主業(yè)。在選合作伙伴的 時(shí)候,我們一定考慮門當(dāng)戶對(duì),因?yàn)閺?qiáng)有 力的合作伙伴才能保證58年的供應(yīng)、合 作安全”金融大數(shù)據(jù):提供大數(shù)據(jù)存儲(chǔ)、處理、分析和服務(wù)平臺(tái)Manager統(tǒng)一管理通用X86服務(wù)器分布式存儲(chǔ)數(shù)據(jù)處理平臺(tái)大數(shù)據(jù)基礎(chǔ)設(shè)施數(shù)據(jù)集成 平臺(tái)收集 清洗 轉(zhuǎn)換特征/模型/挖掘/可視/服務(wù)數(shù)據(jù)洞察/數(shù)據(jù)服務(wù)電信詳單查詢、經(jīng)分分析、 精準(zhǔn)營銷銀行全生命周期分析、歷史明細(xì)、 精準(zhǔn)營銷、在線征信與風(fēng)控 等行業(yè) 應(yīng)用政府交通、公安情報(bào)分析、人口管理海量數(shù)據(jù)存儲(chǔ),批處理,流處理、交互式分析HIVE/Impala/ElkPorte

12、rMinerDataFarmHadoopStormSolr系統(tǒng)管理Farmer元數(shù)據(jù)管理ManagerHadoop APIPlugin APIOpenAPI/SDK應(yīng)用服務(wù)層REST/SNMP/SyslogDataInformationKnowledgewisdomM/RSpark Yarn/ Zookeeper安全管理MPP DBHDFS/HBaseFusionInsight的Hadoop層提供大數(shù)據(jù)處理環(huán)境,基于社區(qū)開源軟件增強(qiáng),按照?qǐng)鼍斑x擇業(yè)界最佳實(shí)踐FusionInsight的DataFarm層提供支撐端到端數(shù)據(jù)洞察,構(gòu)建數(shù)據(jù)到信息到知識(shí)到智慧的數(shù)據(jù)供應(yīng)鏈, 其中包括相對(duì)獨(dú)立的數(shù)據(jù)集成

13、服務(wù)Porter、數(shù)據(jù)挖掘服務(wù)Miner和數(shù)據(jù)服務(wù)框架FarmerFusionInsight Manager是一個(gè)分布式系統(tǒng)管理框架,管理員可以從單一接入點(diǎn)操控分布式集群,包括系統(tǒng)管理(OM/NTP/災(zāi)備)、數(shù)據(jù)安全管理和數(shù)據(jù)治理大數(shù)據(jù)軟件平臺(tái)Porter用來簡(jiǎn)化大數(shù)據(jù)的數(shù)據(jù)集成除了開源的Sqoop2支持的DB和HDFS外, porter還支持從SFTP, FTP和NAS進(jìn)行數(shù)據(jù)導(dǎo)入和導(dǎo)出除了Sqoop2支持的HDFS外, porter還支持?jǐn)?shù)據(jù)注入到HBASE并提供功能豐富的rowkey生產(chǎn)機(jī)制Sql請(qǐng)求和響應(yīng)可以通過SFTP和FTP提交, 實(shí)現(xiàn)和現(xiàn)有系統(tǒng)的無縫集成輕量匯總的Sql和結(jié)果可以

14、通過 SFTP和FTP提交, 并且能夠自動(dòng)調(diào)度按天/按月調(diào)度。大數(shù)據(jù)全能搬運(yùn)工RM DBHadoopHDFSHBaseSFTPServerFTP ServerOther Data SourcePorterDB文件服 務(wù)器MR/spark/Hive任務(wù)提交目標(biāo)系統(tǒng)HDFS/HiveHBaseRDMS數(shù)據(jù)數(shù)據(jù)FTP/SFTP/NFSJDBCPorterFusionInsight Miner:基于分布式內(nèi)存計(jì)算的數(shù)據(jù)分析平臺(tái)主要特點(diǎn):端到端分析平臺(tái):一站式平臺(tái)支撐數(shù)據(jù)分析全流程特征工程/社交化:特征復(fù)用;支持1,000萬維度建模算法:自研HiGraph算法, 比MLlib快35倍開放性:對(duì)Opera

15、tor的擴(kuò)展性;與R無縫對(duì)接;與SAS、SPSS等對(duì)接;業(yè)務(wù)驅(qū)動(dòng):基于業(yè)務(wù)問題驅(qū)動(dòng)的閉環(huán)解決方案,比如推薦引擎使能套件業(yè)務(wù)理解特征提取模型模型構(gòu)建模型 模型評(píng)估模型應(yīng)用應(yīng)用效果評(píng)估結(jié)束開始模型評(píng)估好應(yīng)用效果好典型數(shù)據(jù)分析流程數(shù)據(jù)預(yù)處理 數(shù)據(jù)理解 并行化機(jī)器學(xué)習(xí)算法庫(Mahout/MLlib/HiGraph)可視化金融行業(yè)模型使能套件電信行業(yè)模型 使能套件FusionInsight Miner行業(yè)應(yīng)用使能器(Enabler)通用使能套件(標(biāo)簽管理、推 薦引擎)數(shù)據(jù)處理平臺(tái)數(shù)據(jù)探索特征工程 建模分析0500100015002000Top1000 Top10000Top60000Conversio

16、n 40 x專家系統(tǒng)學(xué)習(xí)系統(tǒng)14000DimensionsFusionInsight Farmer:大數(shù)據(jù)應(yīng)用使能器Server or VMPaaSBLU1Farmer SDKDeploy onDeploy onRegisterManagerRESTMQAccess Load Balance & MQRedisHadoopHadoop API客戶開發(fā)的應(yīng)用Farmer SDKREST:REQ/RESPBLU2BLU3Container大數(shù)據(jù)實(shí)時(shí)應(yīng)用使能器,支撐企業(yè)快速開發(fā)基于大數(shù)據(jù)平臺(tái)的應(yīng)用。1、分布式大數(shù)據(jù)服務(wù)框架和標(biāo)準(zhǔn)服務(wù)(如推薦)二次開發(fā)SDK,透明化訪問Hadoop,聚焦業(yè)務(wù)邏輯高可靠

17、的分布式處理框架,去中心化的負(fù)載均衡能力,和服 務(wù)實(shí)例的彈性伸縮能力基于Activiti的服務(wù)編排支持應(yīng)用的灰度發(fā)布隔離的輕量級(jí)應(yīng)用容器2、多協(xié)議接入和緩沖簡(jiǎn)化應(yīng)用集成高性能的多協(xié)議接入部件,通過ALB隱藏內(nèi)部拓?fù)浼?xì)節(jié)高性能、高可靠消息隊(duì)列部件熱點(diǎn)數(shù)據(jù)redis加速為行業(yè)業(yè)務(wù)負(fù)載優(yōu)化的統(tǒng)一大數(shù)據(jù)處理平臺(tái)FusionInsight用100開源的核心支持混合負(fù)載,從批量、交互查詢、數(shù)據(jù)挖掘,到實(shí)時(shí)流和查詢等各種場(chǎng)景開放式存儲(chǔ)格式(Rcfile/ORCfile/Parquet),以避免鎖定私有文件格式所有的組件都通過Manager提供的插件框架來按需安裝開源 輕度增強(qiáng)開源 孵化特性開源 深度增強(qiáng)自研

18、DSLIDE分布式計(jì)算框架HDFS/HBasePigHiveMapReduce/TezSparkStormYARN/ZookeeperFlumeLoaderIntegrationBatchProcessingInteractiveSearch QueryMachineLearningEvent Stream ProcessImpalaSolrMLLIB分布式存儲(chǔ)StreamingCalculation基礎(chǔ)設(shè)施Standard ServerIMC ServerStorage ServerPluggable AcceleratorNetworkSparkStreamingCQLElkHiGraph

19、Online QueryCTBasePhoenixMPP DBSQL能力支持(SQL-on-Hadoop)每一種SQL on Hadoop產(chǎn)品都在盡量滿足某一類應(yīng)用的特征,典型需求:interactive query (ms3min)data analyst,reporting query (3min20min)data mining,modeling and large ETL (20 min hr day)架構(gòu) 模型模式定義主要應(yīng)用場(chǎng)景產(chǎn)品類MPP架構(gòu)在線查詢作業(yè)時(shí)間小于秒級(jí)有查詢要求的場(chǎng)景,響應(yīng)幾乎是實(shí)時(shí)的Phoenix(HBase),交互查詢作業(yè)時(shí)間秒級(jí)左 右,并且返回結(jié) 果集很小,一

20、般 在萬條記錄以內(nèi)小數(shù)據(jù)的查詢場(chǎng)景, 如報(bào)表展示、數(shù)據(jù)鉆 取等Elk、Impala、 MPPDB(OLAP)類MR架構(gòu)批處理作業(yè)時(shí)間超過分 鐘級(jí)別,中間結(jié) 果或最終結(jié)果集 比較大對(duì)作業(yè)時(shí)間要求不敏 感場(chǎng)景,主要以后臺(tái) 長(zhǎng)時(shí)間作業(yè)為主,如 系統(tǒng)每天、每周、每 月定時(shí)處理匯總的業(yè) 務(wù)Hive、SparkSQL數(shù)據(jù)挖掘作業(yè)時(shí)間超過分 鐘級(jí)別,數(shù)據(jù)計(jì) 算量比較大,內(nèi) 存消耗比較多的 場(chǎng)景作業(yè)對(duì)內(nèi)存和CPU要求比較高的場(chǎng)景,如迭代計(jì)算的場(chǎng)景,主要 應(yīng)用于數(shù)據(jù)挖掘、科 學(xué)計(jì)算等場(chǎng)景Spark SQL基于應(yīng)用場(chǎng)景選擇最適合的流處理技術(shù)BatchStreamingMini-BatchSpark-Streami

21、ngStormSpark Streaming:微批流式計(jì)算適用于在Spark集群上同時(shí)提供更低時(shí)延要求的微批流處理處理,如KPI統(tǒng)計(jì)等Storm:事件驅(qū)動(dòng)模式的實(shí)時(shí)計(jì)算適用于更低時(shí)延要求(毫秒級(jí)),高并發(fā)的實(shí)時(shí)事件處理場(chǎng)景Kevent/sStorm1460Spark Streaming5001 node,Mini-batch is set to 5s安全可靠所有業(yè)務(wù)和管理節(jié)點(diǎn)HA跨數(shù)據(jù)中心容災(zāi)、備份第三方備份系統(tǒng)集成在線更換硬盤HBase容災(zāi)業(yè)界最早推出代碼基線是Apache開源經(jīng)過系統(tǒng)STRIDE分析加固完善RBAC和多租戶體系與現(xiàn)存AAA系統(tǒng)標(biāo)準(zhǔn)協(xié)議對(duì)接全方位數(shù)據(jù)審計(jì)功能STRIDE+電信

22、系統(tǒng)安全紅線易用易安裝,集成NTP等易運(yùn)維,增加圖形化運(yùn)維易開發(fā),標(biāo)準(zhǔn)接口+實(shí)用案例易定位,日志收集搜索HBase可視化建??煽俊踩?、易用、高效高效-平臺(tái)核心代碼性能優(yōu)化-高性能分析挖掘算法(Miner)-存儲(chǔ)效能提升(EC,ARM)高性能網(wǎng)絡(luò)優(yōu)化(RDMA)新型存儲(chǔ)優(yōu)化(大型SSD)高效-SparkSQL:平易近人,快速上手HQLSQLUnresolved Logical PlanLogical PlanOptimized Logical PlanPhysical PlansSchema CatalogRelation Execution OperatorsNative RDDs語法增強(qiáng)S

23、QL ParserSQL parser:實(shí)現(xiàn)插件式的SQL Parser,基于插件接口實(shí)現(xiàn)SQL99語法解析。Logical Plan:新增SQL99LogicalPlans,支持SQL99邏輯計(jì)劃。元數(shù)據(jù)管理:使用Hive metastore進(jìn)行元數(shù)據(jù)管理,與社區(qū)演講發(fā)現(xiàn)對(duì)齊。性能提升:原則上重用社區(qū)的優(yōu)化器,必要時(shí)增加SQL99OptimizerRules,新增and/or優(yōu)化,inner join優(yōu)化,hive index優(yōu)化應(yīng)用場(chǎng)景價(jià)值:SQL是一個(gè)常用的分析語言,客 戶接受度較高,各種業(yè)務(wù)場(chǎng)景對(duì)SQL訴 求也較明確。解決方案方案:基于插件式方案構(gòu)建基于Spark SQL 框架的差異化

24、語法解析器和性能優(yōu) 化器用戶價(jià)值實(shí)現(xiàn)標(biāo)準(zhǔn)SQL的TPC-DS用例99個(gè)全部通 過。滿足客戶常用的標(biāo)準(zhǔn)SQL訴求。高效-Spark Carbon :提升查詢效率Cube EngineDistributed Data Store (HDFS)Cube FileCube FileCube FileCubeProcessorCubeProcessorCubeProcessorSparkRDDPartitionRDDPartitionRDDPartitionSpark CoreSpark CoreSpark CoreOLAP PlannerSpark Application (Cube Load)Enc

25、odingEncodingEncodingDataSource API特點(diǎn):分布式,多維索引,物化視圖,分布式入庫,Schema固定存儲(chǔ):計(jì)算:語言:CubeFile,一種按多維Key排序的文件格式HDFS + Shortcut基于Catalyst框架新增OLAP Planner,對(duì)Cube支持過濾下壓、計(jì)算下壓等優(yōu)化Cube Processor: Cube數(shù)據(jù)讀取,跳轉(zhuǎn),聚合計(jì)算使用SparkSQL DMLDDL:新增CREATE CUBE, LOAD INTO CUBENode1Node2Node3Carbon性能對(duì)比120億行記錄,20個(gè)維度,4個(gè)度量,原始數(shù)據(jù)1.5TBSparkSQL

26、: Cube文件380GB;物化視圖增加130GB;Impala:336GBPL/SQLSQL99SQL2003HQLHDFSHBaseElk Sql ParserSql Eexcutejdbc/odbc/BIWebETLData ExplorerHive Metadata采用通用的SQL標(biāo)準(zhǔn)接口,全面兼容傳統(tǒng)的數(shù)據(jù)庫SQL和Hadoop的HQL全面支持傳統(tǒng)應(yīng)用的接口JDBC、ODBC,并提供豐富的擴(kuò)展接口如PL/C,PL/Jaca,PL/Python交互式查詢性能達(dá)到或超越Impala靈活的存儲(chǔ)格式HDFS(ORC、Parquet),HBase(KV)Elk與Impala性能對(duì)比,TPC-H

27、(單位:秒/查詢N)測(cè)試環(huán)境: 4 節(jié)點(diǎn): 2 *8 core CPUs, 96GB RAM, 6 7200rpsSATA 盤, 10GE網(wǎng)卡, HDFS 3副本.全面超越Impala,大部份指標(biāo)是impala兩倍01002003004005006007001 2 3 4 5 6 7 8 9 10111213141516171819202122Impala ELkElk: 交互式SQL on Hadoop智慧 HiGraph,高性能優(yōu)質(zhì)算法庫Mahout:基于MR的并行算法庫MLlib:基于Spark的并行算法庫HUAWEIHiGraph:超過60種算法,半數(shù)由金融 研發(fā)及優(yōu)化Cloudera

28、HortonworksHuawei FusionInsight性能提升2-3倍線性加速優(yōu)質(zhì)算法HiGraph網(wǎng)絡(luò)平面隔離集群管理平面集群外維護(hù)網(wǎng)絡(luò)OMS-Server集群業(yè)務(wù)平面APP-ServerAPP-ServerWebUI-ClientHadoop是全分布式計(jì)算系統(tǒng),要求業(yè)務(wù)節(jié)點(diǎn)之間全互 聯(lián)。為應(yīng)對(duì)由此帶來的可靠性、安全性風(fēng)險(xiǎn),F(xiàn)usionInsight支持將網(wǎng)絡(luò)劃分為三級(jí):集群業(yè)務(wù)平面、集群管理平面和集群外維護(hù)網(wǎng)絡(luò),彼此之間實(shí)施物理隔離。實(shí)施網(wǎng)絡(luò)隔離,可以避免業(yè)務(wù)平面的高負(fù)載阻塞集群管 理通道,也可以阻止外部攻擊者通過管理通道入侵實(shí)際 業(yè)務(wù)數(shù)據(jù)。網(wǎng)絡(luò)類別信任程度說明集群業(yè)務(wù) 平面高Ha

29、doop集群核心部件,業(yè)務(wù)數(shù)據(jù)在其 中存儲(chǔ)、流轉(zhuǎn)。集群管理平面中僅具備集群管理功能,不接觸實(shí)際的業(yè)務(wù)數(shù)據(jù)。集群外維護(hù)網(wǎng)絡(luò)低僅能訪問OMS Server提供的Web服務(wù), 除 非 連 續(xù) 攻 破 OMS Server 和 APP Server,否則無法訪問業(yè)務(wù)數(shù)據(jù)。電信級(jí)可靠性業(yè)務(wù)可靠性:系統(tǒng)無單點(diǎn): OMS,HDFS,HBASE,YARN,HIVE,OOZIE,HUE,ZOOKEEPER,BOOKEEPER采用主備,負(fù)荷分擔(dān)方式實(shí)現(xiàn)服務(wù)無 單點(diǎn)故障數(shù)據(jù)可靠性:管理節(jié)點(diǎn)HA:OMS節(jié)點(diǎn)及所有業(yè)務(wù)組件中心管理節(jié)點(diǎn)實(shí)現(xiàn)HA跨數(shù)據(jù)中心數(shù)據(jù)備份:HBase集群通過HLOG準(zhǔn) 實(shí)時(shí)復(fù)制,HDFS/Hive

30、集群通過BackupAdmin 異步復(fù)制實(shí)現(xiàn)跨數(shù)據(jù)中心災(zāi)備硬盤熱插拔:支持在線集群硬盤更換不影響業(yè)務(wù).OS層可靠性加固: RAID/OS寫緩存保護(hù)實(shí)現(xiàn)掉電數(shù)據(jù)保護(hù)Raid策略: OS,OMS,NameNode,ZK 及HDFS數(shù)據(jù)節(jié)點(diǎn)采用不同硬盤分區(qū)及Raid策略,兼顧性能情況下保證數(shù)據(jù)可靠性第三方備份系統(tǒng)集成:數(shù)據(jù)可以靈活的備份在外部成111111122333446578 系統(tǒng)如NAS、磁帶庫,只是和NBU等備份軟件集665781Hadoop clusterNAS異地災(zāi)備表級(jí)別集群在線備份,用于在線業(yè)務(wù)故障災(zāi)備數(shù)據(jù)恢復(fù)批量導(dǎo)出本地備份支持庫級(jí)別本地備份、批量導(dǎo)出 和數(shù)據(jù)恢復(fù),支持全量、增量?jī)?/p>

31、 種模式。用于集群故障、人為誤 操作導(dǎo)致的數(shù)據(jù)丟失數(shù)據(jù)備份與集群容災(zāi)本地備份LdapServerHMHMHDFSRSRSHBaseLdapServerHDFSRSRSHBaseHMHMRSRSRSHLog SyncAuthentication Data Sync敏感數(shù)據(jù)加密存儲(chǔ)Hive/HBaseHDFS敏感數(shù)據(jù)寫 入加密/解密敏感數(shù)據(jù) 讀取*(&#$%!%$#$!(*&*5!$!%$!$!%#$%#!$#!非敏感數(shù) 據(jù)非敏感數(shù)據(jù)技術(shù)特點(diǎn)保密性高:采用業(yè)界流行的算法加密。除業(yè)務(wù)接口外,其他手段讀取文件均為亂碼(如通過shell、或HDFS接口查看)。靈活:加密算法插件化,支持AES、SMS4等

32、,允許用戶自定義。非敏感數(shù)據(jù)可不加密,不影響性能(加密約有5%性能開銷)。業(yè)務(wù)透明:上層業(yè)務(wù)只需指定敏感數(shù)據(jù)(Hive表級(jí)/列、HBase表/列族/列級(jí)加密),加解密過程業(yè)務(wù)完全不感知。HiveHBaseContent大數(shù)據(jù)發(fā)展趨勢(shì)金融大數(shù)據(jù)平臺(tái)關(guān)鍵技術(shù)金融大數(shù)據(jù)平臺(tái)行業(yè)實(shí)踐1234金融大數(shù)據(jù)平臺(tái)案列詳述成功實(shí)踐:全國金融領(lǐng)域案例最多33業(yè) 務(wù) 價(jià) 值應(yīng) 用 場(chǎng) 景營銷支持產(chǎn)品運(yùn)營內(nèi)部管理風(fēng)險(xiǎn)管控實(shí)實(shí)時(shí)時(shí)風(fēng)征控信反 欺 詐客 戶 風(fēng) 險(xiǎn) 報(bào) 告運(yùn) 維 日 志 分 析信 息 安 全 分 析靈活深專業(yè)化整體解決安全可入的客的營銷方案與個(gè)靠的渠戶細(xì)分與銷售性化服務(wù)定制道風(fēng)險(xiǎn)控制風(fēng)險(xiǎn)集成的業(yè) 務(wù)運(yùn)營高

33、效的運(yùn)營效 率實(shí)時(shí)的風(fēng)險(xiǎn)決策員 工 挽 留事 件 營 銷客 戶 畫 像輿 情 分 析獲客客 戶 挽 留交 叉 銷 售個(gè) 性 化 理 財(cái)小 微 貸大數(shù)據(jù)應(yīng)用場(chǎng)景優(yōu)化管理流程,提升運(yùn)作效率降低管理成本智 能 客 服賬 務(wù) 追 溯網(wǎng) 站 分 析知 識(shí) 管 理產(chǎn) 品 績(jī) 效 評(píng) 價(jià)數(shù)據(jù)行內(nèi)業(yè)務(wù)數(shù)據(jù)賬戶/流水/產(chǎn)品/組件日志行內(nèi)非業(yè)務(wù)數(shù)據(jù)運(yùn)維日志/對(duì)內(nèi)服務(wù)系統(tǒng)數(shù)據(jù)新型數(shù)據(jù)移動(dòng)應(yīng)用/微信/呼叫中心/微博第三方數(shù)據(jù)互聯(lián)網(wǎng)/電信/醫(yī)療/交通/咨詢報(bào)告客戶標(biāo)簽對(duì)公客戶細(xì)分商機(jī)挖掘信息零售客戶評(píng)分客戶貢獻(xiàn)度客戶風(fēng)險(xiǎn)測(cè)評(píng)產(chǎn)品運(yùn)營KPI黑名單知識(shí)圖譜品牌美譽(yù)度第三方資信用戶位置用戶消費(fèi)傾向大數(shù)據(jù)平臺(tái)參考架構(gòu)數(shù)據(jù) 采集

34、數(shù)據(jù)轉(zhuǎn)換平臺(tái)管理結(jié)構(gòu)化數(shù)據(jù)客戶數(shù)據(jù)賬務(wù)數(shù)據(jù)第三方數(shù)據(jù)微信微博流式數(shù)據(jù)刷卡事件結(jié)構(gòu)化轉(zhuǎn)換統(tǒng)計(jì)/關(guān)聯(lián)非結(jié)構(gòu)轉(zhuǎn)換XML/JSON文本多媒體轉(zhuǎn)換視頻摘要 語音轉(zhuǎn)文本半/非結(jié)構(gòu)數(shù)據(jù)挖掘文本分析分詞視頻分析語義NLP互聯(lián)網(wǎng)分搜析索社交網(wǎng)絡(luò) 推薦引擎多媒體分影像析分析音頻分析過濾/匹配結(jié)構(gòu)化數(shù)據(jù)挖掘分類聚類預(yù)測(cè)關(guān)聯(lián)流處理ESP/CE P流式數(shù)據(jù)處理RTD商業(yè)智能(BI)報(bào)表多維分析引擎實(shí)時(shí)查詢數(shù)據(jù)服務(wù)批量查詢?cè)L問框架分布式緩存數(shù)據(jù)可視數(shù)據(jù)探察數(shù)據(jù)多維展示元數(shù)據(jù)管理作業(yè)調(diào)度數(shù)據(jù)安全管理非結(jié)構(gòu)數(shù)據(jù)日志 呼叫中心語音網(wǎng)站點(diǎn)擊流數(shù)據(jù)集市實(shí)時(shí)計(jì)算交互式探索多維關(guān)聯(lián)數(shù)據(jù)聚集應(yīng)用計(jì)算數(shù)據(jù) 存儲(chǔ)基礎(chǔ)數(shù)據(jù)區(qū)實(shí)時(shí)查詢區(qū)公共訪問

35、區(qū)應(yīng)用數(shù)據(jù)區(qū)數(shù)據(jù) 采集轉(zhuǎn)換平臺(tái)管理結(jié)構(gòu)化數(shù)據(jù)第三方數(shù)據(jù)數(shù)據(jù) 結(jié)構(gòu)化轉(zhuǎn)換 非結(jié)構(gòu)轉(zhuǎn)換 多媒體轉(zhuǎn)換半/非結(jié)構(gòu)數(shù)據(jù)挖掘文本分析分詞視頻分析社交網(wǎng)絡(luò)推薦引擎多媒體分影像析分析過濾/匹配 結(jié)構(gòu)化數(shù)據(jù)挖掘 預(yù)測(cè)關(guān)聯(lián)CEP流式數(shù)據(jù)處理RTD報(bào)表商業(yè)智能(BI)多維分析引擎實(shí)時(shí)查詢數(shù)據(jù)服務(wù)批量查詢?cè)L問框架分布式緩存數(shù)據(jù)多維展示元數(shù)據(jù)管理作業(yè)調(diào)度數(shù)據(jù)安全管理數(shù)據(jù)集市實(shí)時(shí)計(jì)算 數(shù)據(jù)聚集數(shù)據(jù)存儲(chǔ)應(yīng)用數(shù)據(jù)區(qū)公共訪問區(qū)大數(shù)據(jù)平臺(tái)總體框架-技術(shù)視角流式數(shù)據(jù)刷M卡Q事件kafka客F戶TP數(shù)據(jù)賬S務(wù)q數(shù)oo據(jù)p非結(jié)構(gòu)數(shù)據(jù)日志 F呼lu叫m中e心語音網(wǎng)F站T點(diǎn)P擊流微信Crawler 微博H基D礎(chǔ)F數(shù)S據(jù)區(qū)實(shí)時(shí)查詢H區(qū)BAS

36、EXMML/J/SRON文本視頻摘S要par語k音轉(zhuǎn)文本Storm流處理Miner(Ma語ho義ut/MLLib/HiGrap音h頻)分析分類SAS 聚類SQ交L互o式n 探索Hadoop互聯(lián)網(wǎng)分S搜析o索lrCognosHIVE/I統(tǒng)m計(jì)p/關(guān)al聯(lián)a分布式I應(yīng)M用DB計(jì)算數(shù)據(jù)T探a察bleau數(shù)據(jù)可D視3.js多維關(guān)聯(lián)GPYarnM/R NLPSparkHIVE/ImpalaContent大數(shù)據(jù)發(fā)展趨勢(shì)金融大數(shù)據(jù)平臺(tái)關(guān)鍵技術(shù)金融大數(shù)據(jù)平臺(tái)案列詳述1234金融大數(shù)據(jù)平臺(tái)行業(yè)實(shí)踐Content金融大數(shù)據(jù)平臺(tái)案列詳述4TD數(shù)倉卸載HDS運(yùn)維日志實(shí)時(shí)分析影像存儲(chǔ)智能運(yùn)維業(yè)務(wù)現(xiàn)有數(shù)據(jù)倉庫應(yīng)用負(fù)載卸載

37、-現(xiàn)狀和挑戰(zhàn)現(xiàn)狀一般采用貼源層+基礎(chǔ)層+應(yīng)用層三層數(shù)據(jù)架構(gòu)數(shù)據(jù)貼源層存放貼源數(shù)據(jù)數(shù)據(jù)貼源層數(shù)據(jù)除了用來加工為基礎(chǔ)層數(shù)據(jù) 外,一般很少被下游應(yīng)用直接用到,可視為冷數(shù) 據(jù)數(shù)據(jù)貼源層占據(jù)EDW寶貴存儲(chǔ)資源貼源跑批占據(jù)大量EDW系統(tǒng)資源挑戰(zhàn)伴隨業(yè)務(wù)的增長(zhǎng),數(shù)據(jù)增長(zhǎng)快,擴(kuò)容壓力大通常采用國外廠商一體機(jī),存儲(chǔ)成本高,擴(kuò) 容成本大跑批占用數(shù)據(jù)倉庫時(shí)間窗口越來越長(zhǎng),可使 用時(shí)間窗口越來越少,給數(shù)據(jù)倉庫的使用帶來巨 大壓力數(shù)據(jù)倉庫 應(yīng)用層 基礎(chǔ)層 貼源層一體機(jī)核心信貸中間業(yè)務(wù)信用卡網(wǎng)銀數(shù)據(jù)源FTP卸載加載作業(yè)管理ETL平臺(tái)CRM信用評(píng)級(jí)績(jī)效考核精準(zhǔn)營銷管理報(bào)表下游應(yīng)用數(shù)據(jù)轉(zhuǎn)數(shù)換據(jù)轉(zhuǎn)換現(xiàn)有數(shù)據(jù)倉庫應(yīng)用負(fù)載卸載聯(lián)合

38、創(chuàng)新方案聯(lián)合創(chuàng)新方案與金融機(jī)構(gòu)一起聯(lián)合創(chuàng)新,將數(shù)據(jù)倉庫系統(tǒng) 中的貼源批處理過程遷移至基于通用X86服務(wù)器 的使用大數(shù)據(jù)技術(shù)的Hadoop或MPPDB平臺(tái)注:方案過程見動(dòng)畫卸載平臺(tái)基礎(chǔ)層客戶價(jià)值開放,不被單一供應(yīng)商鎖定;提高數(shù)倉體系拓展能力、降低拓展成本降低數(shù)據(jù)存儲(chǔ)成本減少數(shù)倉跑批時(shí)間窗口,提高數(shù)倉使用效率數(shù)據(jù)倉庫應(yīng)用層基礎(chǔ)層貼源層核心信貸中間業(yè)務(wù)信用卡網(wǎng)銀數(shù)據(jù)源CRM信用評(píng)級(jí)績(jī)效考核精準(zhǔn)營銷管理報(bào)表下游應(yīng)用卸載平臺(tái)要求卸載平臺(tái)能夠滿足一定的處理時(shí)間窗口要求卸載平臺(tái)具有較低的每TB數(shù)據(jù)成本卸載平臺(tái)具備非常好的水平擴(kuò)展能力卸載平臺(tái)支持通用X86服務(wù)器卸載平臺(tái)能夠提供較好的企業(yè)級(jí)特性(可靠 性、易管

39、理性、易用性),滿足一定的性能SLA X86服務(wù)器ETLETL貼源層FTP體 機(jī)Content金融大數(shù)據(jù)平臺(tái)案列詳述4TD數(shù)倉卸載HDS運(yùn)維日志實(shí)時(shí)分析影像存儲(chǔ)智能運(yùn)維業(yè)務(wù)歷史數(shù)據(jù)應(yīng)用四種模式應(yīng)用模式用戶群體應(yīng)用場(chǎng)景數(shù)據(jù)歸檔行內(nèi)用戶組件內(nèi)生產(chǎn)數(shù)據(jù)清理后,在歷史數(shù)據(jù)區(qū)進(jìn)行歸檔保存在線查詢?cè)诰€同步(訪問數(shù)據(jù)庫)(響應(yīng)時(shí)間:60(秒)查詢條件比較精確;響應(yīng)時(shí)間不是非常緊迫;訪問頻率比較高;在線異步(訪問文件)(響應(yīng)時(shí)間:300(秒) 訪問頻率:=50次/天)查詢條件比較寬泛;響應(yīng)時(shí)間不是非常緊迫;訪問頻率比較 低批量供數(shù)外部監(jiān)管 (部分包括行內(nèi)用戶)月末/季末的銀監(jiān)會(huì)、 外管局、審計(jì)署的外部監(jiān)管數(shù)據(jù)

40、需求; 數(shù)據(jù)需求比較確定、供數(shù)操作頻率比較固定、供數(shù)格式比較 固定零星供數(shù)行內(nèi)用戶數(shù)據(jù)需求不確定、供數(shù)操作頻率不固定、數(shù)據(jù)結(jié)果集不確定。HDS區(qū)整體視圖歸檔批量供數(shù)在線查詢應(yīng)用計(jì)算區(qū)指標(biāo)計(jì)算區(qū)查詢服務(wù)區(qū)統(tǒng)一在線查詢HDS區(qū)查詢集群在線同步查詢區(qū)在線數(shù)據(jù)(HBASE)在線同步查 詢服務(wù)在線異步查詢服務(wù)數(shù)據(jù)源源數(shù)據(jù)區(qū)主檔全量主檔增量 明細(xì)增量HDS區(qū)歸檔集群接入數(shù)據(jù)區(qū) 組合計(jì)算區(qū) 多表關(guān)聯(lián)Hbase裝載主檔全量主檔增量明細(xì)增量數(shù)據(jù)源源數(shù)據(jù)區(qū)主檔全量主檔增量明細(xì)增量應(yīng)用加工計(jì)算區(qū)(Hive)HQL數(shù)據(jù)加工MR數(shù)據(jù)加工批量供應(yīng)數(shù)據(jù)區(qū)表截面文件加工數(shù)據(jù)文件數(shù)據(jù)源源數(shù)據(jù)區(qū)主檔全量主檔增量明細(xì)增量歸檔數(shù)據(jù)區(qū)

41、(Hive)x系統(tǒng).x表歸檔數(shù)據(jù)x系統(tǒng).x表歸檔數(shù)據(jù)HDS區(qū)歸檔集群接入數(shù)據(jù)區(qū)主檔全量主檔增量明細(xì)增量應(yīng)用加工計(jì)算區(qū)(Hive)HQL數(shù)據(jù)加工MR數(shù)據(jù)加工批量供應(yīng)數(shù)據(jù)區(qū)表截面文件加工數(shù)據(jù)文件歸檔數(shù)據(jù)區(qū)(Hive)x系統(tǒng).x表歸檔數(shù)據(jù)x系統(tǒng).x表歸檔數(shù)據(jù)接入數(shù)據(jù)區(qū)HDS區(qū)歸檔集群 組合計(jì)算區(qū) 多表關(guān)聯(lián) Hbase裝載 主檔全量主檔增量明細(xì)增量應(yīng)用加工計(jì)算區(qū)(Hive)HQL數(shù)據(jù)加工MR數(shù)據(jù)加工歸檔數(shù)據(jù)區(qū)(Hive)x系統(tǒng).x表歸檔數(shù)據(jù)x系統(tǒng).x表歸檔數(shù)據(jù)44關(guān)鍵技術(shù):HBase二級(jí)索引+Phoenix+SparkHBase二級(jí)索引特性支持在非RowKey列上建立索引,大幅提高檢索 速度。使用Ph

42、oenix為HBase提供基礎(chǔ)SQL能力,在使用HBase高速查詢能力的同時(shí),降低系統(tǒng)的學(xué)習(xí)使用成本。構(gòu)建統(tǒng)一的混合結(jié)構(gòu)數(shù)據(jù)存儲(chǔ)平臺(tái),通過Spark支持全量業(yè)務(wù)數(shù)據(jù)+外部數(shù)據(jù)的挖掘分析。高性能、高并發(fā):HBase規(guī)模可達(dá)到數(shù)十億行以及數(shù)百萬列,同時(shí)讀、寫訪問可以達(dá)到實(shí)時(shí)級(jí)別。提供SQL支持:降低學(xué)習(xí)成本和系統(tǒng)改造成本。易擴(kuò)展:HBase基于HDFS文件系統(tǒng),性能線性增長(zhǎng),利于橫向擴(kuò)展。HBase:較開源產(chǎn)品提供二級(jí)索引、Region多點(diǎn)分割、一千公里容災(zāi) 備份等增強(qiáng)特性,其中二級(jí)索引特性已被社區(qū)接受并納入Phoenix組 件。Spark:金融貢獻(xiàn)了Spark on HBase( Astro)特

43、性,可以使用SparkSQL 操作HBase數(shù)據(jù),執(zhí)行高效、復(fù)雜的查詢操作,為HBase提供在線分 析引擎。特性價(jià)值特性描述UserTableRowKeyColumnFamilycolAcolBcolCa00001*a00002*a00003*a00004*a00005*a00006*目 標(biāo) 行數(shù) 據(jù) 掃 描 區(qū) 域無索引:“Scan + Filter”,掃描大量數(shù)據(jù)a00004 *UserTableRowKeyColumnFamilycolAcolBcolCa00001*a00002*a00003*a00005*a00006*UserTable_idxRowKeyCFa00001coluA*

44、a00001a00001coluA*a00002a00001coluA*a00003a00001coluAxxxxxa00004a00001coluA*a00005a00001coluA*a00006Content金融大數(shù)據(jù)平臺(tái)案列詳述4TD數(shù)倉卸載HDS運(yùn)維日志實(shí)時(shí)分析影像存儲(chǔ)智能運(yùn)維業(yè)務(wù)項(xiàng)目背景與現(xiàn)狀問題數(shù)據(jù)量巨大,效率低:日志收集與檢索的效率低、成本高, 無法滿足故障排查問題定位的快速運(yùn)維需求。因日志數(shù)據(jù)量 巨大,監(jiān)控系統(tǒng)目前只對(duì)日志文件進(jìn)行基本的監(jiān)控,只對(duì)日 志大小、日志更新時(shí)間進(jìn)行監(jiān)控。數(shù)據(jù)類型復(fù)雜:傳統(tǒng)關(guān)系型數(shù)據(jù)庫不能處理半結(jié)構(gòu)化或者非 結(jié)構(gòu)化數(shù)據(jù)Splunk日志分析: Splun

45、k日志分析工具僅支持離線的、片 段的日志分析,且許可成本較高, 僅應(yīng)用于少量的應(yīng)用系統(tǒng) , 不滿足應(yīng)用日志分析需要?,F(xiàn)狀每日產(chǎn)生大量的應(yīng)用日志,分布于各應(yīng)用系統(tǒng)及歷史磁帶監(jiān)控系統(tǒng)目前對(duì)日志文件進(jìn)行基本的監(jiān)控,只對(duì)日志大小、日志更新時(shí)間進(jìn)行監(jiān)控,利用價(jià)值不大。場(chǎng)景特點(diǎn)實(shí)時(shí)性要求高(高吞吐、低延遲)*實(shí)時(shí):達(dá)到秒級(jí)以內(nèi)大數(shù)據(jù)量的離線分析(總數(shù)據(jù)量、日增數(shù)據(jù)量都不斷增長(zhǎng))*歷史回溯:一小時(shí)以外的歷史統(tǒng)計(jì)分析*歷史日志檢索:日志快速檢索,故障快速定位業(yè)務(wù)應(yīng)用日志離線分析業(yè)務(wù)性能分析運(yùn)維風(fēng)險(xiǎn)評(píng)估模型訓(xùn)練歷史日志檢索日志集中存儲(chǔ)日志快速檢索故障快速定位日志實(shí)時(shí)分析實(shí)時(shí)風(fēng)險(xiǎn)探測(cè)業(yè)務(wù)實(shí)時(shí)監(jiān)控模型訓(xùn)練一體化日志

46、分析平臺(tái)47項(xiàng)目目標(biāo)和定位建立企業(yè)級(jí)的日志采集、存儲(chǔ)、分析一體化平臺(tái),運(yùn)用數(shù)據(jù)建模、離線分析、實(shí) 時(shí)流計(jì)算、搜索引擎等技術(shù),實(shí)現(xiàn)業(yè)務(wù)性能分析、運(yùn)維風(fēng)險(xiǎn)評(píng)估、實(shí)時(shí)預(yù)警監(jiān) 控、日志快速檢索等功能,促進(jìn)業(yè)務(wù)能力與運(yùn)維水平的提高本期項(xiàng)目?jī)?nèi)容1、日志采集子平臺(tái)搭建企業(yè)級(jí)的分布式日志采集平臺(tái)支持文件、Syslog等主流日志源實(shí)現(xiàn)日志文件的實(shí)時(shí)采集與離線采集日志采集平臺(tái)架構(gòu)靈活擴(kuò)展2、歷史日志文件檢索平臺(tái)歷史日志文件分布式存儲(chǔ)基于開源搜索引擎Lucene,實(shí)現(xiàn) 歷史日志文件檢索支持全文檢索與可配置的文本分析4、實(shí)時(shí)日志分析預(yù)警平臺(tái)使用流計(jì)算技術(shù)實(shí)現(xiàn)在線日志分析平臺(tái)提供實(shí)時(shí)接口與監(jiān)控等第三方應(yīng)用系統(tǒng) 對(duì)接,實(shí)

47、現(xiàn)實(shí)時(shí)分析結(jié)果的消費(fèi)實(shí)時(shí)風(fēng)險(xiǎn)探測(cè)業(yè)務(wù)實(shí)時(shí)監(jiān)控項(xiàng)目需求3、離線日志分析平臺(tái)基于HADOOP搭建離線日志分析平臺(tái)分析模型設(shè)計(jì)與訓(xùn)練優(yōu)化日志分析結(jié)果報(bào)表展示運(yùn)維風(fēng)險(xiǎn)評(píng)估業(yè)務(wù)性能分析技術(shù)方案-系統(tǒng)邏輯架構(gòu)X86服務(wù)器X86服務(wù)器X86服務(wù)器X86服務(wù)器服務(wù)器應(yīng)用日志系統(tǒng)日志渠道網(wǎng)銀柜面KafkaFlumeStormHiveMapReduce流計(jì) 算集 群業(yè)務(wù)實(shí)時(shí)反欺詐監(jiān)控 業(yè)務(wù)系統(tǒng)RDBETL批量HDFS實(shí)時(shí)處理實(shí)時(shí)搜索消息中間件分析模型HBase基于大數(shù)據(jù)平臺(tái)的二次開發(fā)應(yīng)用離線分析網(wǎng)絡(luò)日志風(fēng)險(xiǎn)實(shí)時(shí)預(yù)警與監(jiān)控集中監(jiān)控系統(tǒng)ECC大屏故障協(xié)同處理日志查詢平臺(tái)日志搜索集群Solr Lucene離線分析集群P

48、honiex技術(shù)方案數(shù)據(jù)處理流程APPWEBDB個(gè)人網(wǎng)銀HDFS分布式存儲(chǔ)M/RHBASE報(bào)表工具SOLR日志檢索平臺(tái)Storm1Storm2Storm集群KAFKARedis集中監(jiān)控個(gè)人網(wǎng)銀ETLFLUME(T+1)FLUME實(shí)時(shí)計(jì)算結(jié)果Phoenix實(shí)時(shí)告警大屏展示入侵檢測(cè)安全審計(jì)精準(zhǔn)營銷實(shí)時(shí)推薦WebService消息中間件Content金融大數(shù)據(jù)平臺(tái)案列詳述4TD數(shù)倉卸載HDS運(yùn)維日志實(shí)時(shí)分析影像存儲(chǔ)智能運(yùn)維業(yè)務(wù)影像存儲(chǔ)/查詢應(yīng)用場(chǎng)景場(chǎng)景特點(diǎn)1、影像平臺(tái)(也稱影像處理平臺(tái)、影像管理平臺(tái))構(gòu) 建了銀行非結(jié)構(gòu)化數(shù)據(jù)的管理平臺(tái),具有綜合存儲(chǔ)管理銀行海量非結(jié)構(gòu)化數(shù)據(jù)的能力。2、影像平臺(tái)具備高效

49、的查詢能力。3、影像平臺(tái)具備強(qiáng)大的內(nèi)容分析能力?;竟δ軙?huì) 計(jì) 業(yè) 務(wù) 應(yīng) 用信 貸 業(yè) 務(wù) 應(yīng) 用國 際 結(jié) 算 業(yè) 務(wù)信 用 卡 業(yè) 務(wù)票 據(jù) 業(yè) 務(wù)大 額 審 批 業(yè) 務(wù)費(fèi) 用 單 證 審 批流 程 銀 行影像存儲(chǔ)/查詢平臺(tái)分析查詢存儲(chǔ)現(xiàn)狀影像平臺(tái)由數(shù)據(jù)庫服務(wù)器、存儲(chǔ)系統(tǒng)拼接而成,元數(shù)據(jù)與影像 數(shù)據(jù)分離。在金融行業(yè)影像大多為小文件(幾K到幾M) ,個(gè)數(shù)多(千萬級(jí)以 上),數(shù)據(jù)量增長(zhǎng)迅速(TB)。計(jì)算能力集中在數(shù)據(jù)庫服務(wù)器。影像平臺(tái)支持高并發(fā)、低時(shí)延查詢需求日益強(qiáng)烈。問題小文件存儲(chǔ)壓力:海量的小文件對(duì)存儲(chǔ)系統(tǒng)帶來了巨大的存儲(chǔ) 壓力;歸檔、備份時(shí)需要對(duì)海量小文件進(jìn)行一次掃描,耗時(shí)會(huì) 相當(dāng)長(zhǎng),

50、可能會(huì)持續(xù)數(shù)天。查詢性能受限:傳統(tǒng)平臺(tái)越來越難以應(yīng)付影像平臺(tái)對(duì)高并發(fā)、 低時(shí)延的查詢需要。分析性能不足:傳統(tǒng)平臺(tái)的計(jì)算資源集中在數(shù)據(jù)庫服務(wù)器,分 析能力差、擴(kuò)展性差。影像存儲(chǔ)/查詢的現(xiàn)狀與問題離線存儲(chǔ)在線存儲(chǔ)數(shù)據(jù)庫服務(wù)器應(yīng)用服務(wù)器影像存儲(chǔ)/查詢的技術(shù)方案FileFileFileFileHBase FileStream(HFS)FileFileFileFile FileFileFiles統(tǒng)一文件 讀寫接口HBase Raw APIFileFileFileFileMOBHBaseFileFileHFile(MOB)小文件大文件小文 件自 合并HDFS1、對(duì)于每一個(gè)文件,都會(huì)相應(yīng)在HBase表中插入一條記錄(Rowkey, 客戶信息等);2、MOB是HBase本身提供的一種關(guān)于小對(duì)象的存儲(chǔ)優(yōu)化方法;通過將MOB方法把較小的文件(即100KB到10MB大小的數(shù)據(jù))合并后直接以HFile的格式存儲(chǔ)在文件系統(tǒng)HDFS上;特性價(jià)值建立統(tǒng)一的業(yè)務(wù)處理平臺(tái):銀行影像系統(tǒng)的應(yīng)用將解決儲(chǔ)蓄業(yè)務(wù)憑證、部分 會(huì)計(jì)業(yè)務(wù)憑證和信用卡等的縮

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論