




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、企業(yè)大數(shù)據(jù)案例分析 TOC o 1-5 h z HYPERLINK l bookmark17 o Current Document 中國聯(lián)通大數(shù)據(jù)平臺4項目概述4項目實施情況5項目成果10項目意義11 HYPERLINK l bookmark30 o Current Document 恒豐銀行大數(shù)據(jù)平臺12項目概述12項目實施情況15項目成果21項目意義21 HYPERLINK l bookmark43 o Current Document 華通CDN運營商海量日志采集分析系統(tǒng)24項目概述24項目實施情況24項目成果28項目意義28 HYPERLINK l bookmark46 o Curre
2、nt Document 案例總結(jié)301中國聯(lián)通大數(shù)據(jù)平臺聯(lián)通XX公司公司按照工信部的的要求(見工業(yè)和信息化部、國務(wù)院國有資產(chǎn)監(jiān) 督管理委員會關(guān)于開展基礎(chǔ)電信企業(yè)網(wǎng)絡(luò)與信息安全責(zé)任考核有關(guān)工作的指導(dǎo)意見和 工業(yè)和信息化部辦公廳關(guān)于印發(fā)2013年省級基礎(chǔ)電信企業(yè)網(wǎng)絡(luò)與信息安全工作考 核要點與評分標(biāo)準(zhǔn)的通知),于2013年啟動IDC/ISP日志留存系統(tǒng)的建設(shè),其中XX 公司側(cè)的集中留存系統(tǒng)軟件由聯(lián)通研究院負(fù)責(zé)開發(fā)。為了滿足海量數(shù)據(jù)條件下的處理效 率的要求,XX公司側(cè)集中留存系統(tǒng)軟件除研究院自主開發(fā)外,基于Hadoop的數(shù)據(jù)存 儲部分計劃進行外包,通過軟件技術(shù)服務(wù),來進行系統(tǒng)優(yōu)化和維護支撐。1.1項目
3、概述目前,聯(lián)通XX公司公司全國IDC出口的訪問日志預(yù)計兩個月產(chǎn)生的數(shù)據(jù)量約20 PB至30PB,每秒寫入大概6千萬至7千萬條數(shù)據(jù),在如此巨大的數(shù)據(jù)量下,原有Ter adata和Oracle已經(jīng)不能滿足快速讀寫的性能要求了。同時為了實現(xiàn)快速檢索以及分 析處理的性能要求,需要引入分布式大數(shù)據(jù)平臺,利用分布式文件存儲系統(tǒng),提高數(shù)據(jù) 的存儲入庫能力,利用Hadoop/HBase架構(gòu)克服磁盤I/O瓶頸導(dǎo)致的數(shù)據(jù)讀寫延遲; 基于聯(lián)通IDC出口流量詳單數(shù)據(jù)進行快速存儲和檢索以及分析處理同樣要求數(shù)據(jù)處理 平臺具備快速讀寫的高性能。中國聯(lián)通公司全國IDC日至留存項目對分布式集群的要求非常高:日志數(shù)據(jù)量非常大,存
4、儲的總?cè)罩緮?shù)據(jù)量將達(dá)到20PB-30PB。要求集群的數(shù)據(jù)吞吐量非常高,每秒的日志寫入量將達(dá)到6千萬至七千萬條,未來還會增長更多,每秒的數(shù)據(jù)寫入量為上百GB數(shù)據(jù)訪問的性能要求非常高,對日志的分析需要分鐘級、甚至秒級返回結(jié)果。數(shù)據(jù)計算量大,日常日志掃描任務(wù)就需要掃描上百TB,甚至上PB的數(shù)據(jù)。集群的擴展性要求非常高,能夠靈活擴展至上千個節(jié)點的集群。根據(jù)此次中國聯(lián)通的需求以及項目的特點和技術(shù)要求推薦采用商用的、成熟的、 基于星環(huán)Transwarp Data Hub的企業(yè)級大數(shù)據(jù)平臺套件,構(gòu)建中國聯(lián)通IDC日志留 存平臺的基礎(chǔ)大數(shù)據(jù)平臺,用于滿足海量日志的高速存儲、計算、分析、挖掘的需求。1.2項目實
5、施情況星環(huán)科技通過協(xié)助聯(lián)通XX公司搭建基于星環(huán)Transwarp Data Hub的大數(shù)據(jù)平 臺,成功為聯(lián)通XX公司搭建了信息安全管理系統(tǒng)大數(shù)據(jù)存儲處理子系統(tǒng)項目所采用的 平臺系統(tǒng)。分布式大數(shù)據(jù)平臺采用Hadoop/HBase架構(gòu),能夠支持對聯(lián)通IDC出口流 量詳單的存儲和快速檢索和分析處理。系統(tǒng)拓?fù)洌篐inoop圖4-1聯(lián)通大數(shù)據(jù)平臺技術(shù)架構(gòu)整個集群由FTP集群和Hadoop集群組成,其中:FTP集群:由 129 臺服務(wù)器組成,hostname 對應(yīng)為 idcisp-ftp-001 - idci sp-ftp-129功能:主要存放從各大機房傳輸過來的數(shù)據(jù),放到對應(yīng)目錄下由Su perList
6、en進程進行監(jiān)控,并將數(shù)據(jù)統(tǒng)一傳輸?shù)紿adoop集群的HDFS上Hadoop 集群:組成:Zookeeper 11 臺,NameNode 2 臺,Resource Manager1 臺,hamster 5 臺,DataNode921 臺功能:安裝了 tdh 相關(guān)的組件 Hadoop、Hyperbase、Inceptor,存 儲從ftp服務(wù)器傳輸過來的數(shù)據(jù),并定時導(dǎo)入到Hyperbase中,供上層應(yīng)用 或程序的調(diào)用快速返回查詢結(jié)果,同時也可以通過inceptor進行統(tǒng)計分析, 暫時保存的數(shù)據(jù)是2+1月每天存儲Hyperbase中的數(shù)據(jù)大概10T左右,存儲的是2 + 1月,除了存儲在Hy perb
7、ase中的數(shù)據(jù),HDFS也會有原始數(shù)據(jù)的備份,現(xiàn)在空間占用大概在65%左右。耳十-版YcI縹奩的機48 口萬電云操機霍口萬集又蜘HL如n力籬交換虬Transwarp Data Hub平臺部署拓?fù)鋱D:滿配1152臺曲務(wù)器,J待T2個邊1千兆山換機+1&個48【1刀兆趣機任意兩合1艮務(wù)器之間可百2Gbp*W寬圖4-2聯(lián)通大數(shù)據(jù)平臺網(wǎng)絡(luò)拓?fù)? links24機柜一24Ui網(wǎng)tor交悖*4 links w個核心空也*24機柜-244-1廠中三口 24個F切非口24-f-T0R#8l24?TORKKl.1o ,4個卜.廠71北口W links 我個 千Rzi我口T*安妝機仙口萬關(guān)交楨機址門子死整薄yi皿
8、門涯交H6機旭臺衛(wèi)uje冬as仙門力兆交L切ZU堰券新牡n十盅交換做口萬我交投機16合衛(wèi)Ulk苦器隊口I丑立挽機姑臺知幽化制技n伐交換,網(wǎng)絡(luò)實際部署星環(huán)的Hadoop集群,存儲能力達(dá)到全國IDC出口訪問日志兩個月的存 儲能力,約為20PB,總帶寬16764G,每G每秒生成話單4000條計算,每秒新寫入 數(shù)據(jù)為67056000條訪問日志。入庫方式:傳統(tǒng)的API put方式平均每秒每臺機器只能入庫約2萬條數(shù)據(jù),900臺機器的極限是1.8千萬條/秒。遠(yuǎn)遠(yuǎn)低于數(shù)據(jù)灌入速度。 Bulkload是唯一的選擇定制化的Bulkload入庫效率約為單節(jié)點每秒12萬, 900臺機器的入庫能力超過10.8千萬條/秒
9、數(shù)據(jù)通過通過FTP服務(wù)器集群中部署HDFS寫入Agent方式直接由ftp集群 直接上傳到HDFS中。注:之前IP溯源Bulkload對三張表(一張內(nèi)容表+2張索引表)的入庫效率為4 萬條/秒/節(jié)點。此次為了最大限度的利用Bulkload的效率,一方面去除了 2張索引表, 另一方面也優(yōu)化了已有Bulkload代碼。優(yōu)化內(nèi)容:數(shù)據(jù)入庫時負(fù)載均衡,優(yōu)化rowkey中日期時間,避免數(shù)據(jù)寫熱點。 8位UUID尾綴避免同一時間點上的數(shù)據(jù)相互覆蓋。 Rowkey上優(yōu)化時間排序,加速讀過程,保證數(shù)據(jù)從最近到最遠(yuǎn)排序。保留60天歷史數(shù)據(jù),每天各建一張表,提升每張表的可管理性建表時預(yù)設(shè)15000個Region,提
10、升Bulkload入庫效率。不建索引表,改用定制化的API滿足查詢需求,進一步增大入庫帶寬。根據(jù)中國聯(lián)通對IDC出口的流量詳單的存儲與快速檢索、分析的處理的要求,星環(huán) 科技為聯(lián)通XX公司提供了如下技術(shù)組件與模塊:表4-1組件列表組件名稱組件功能支持運行的應(yīng)用Transwarp InceptorTDH平臺組件服務(wù),提供對SQL99, SQL2003的完整支持,同時支持 Oracle PL/SQL,快速開發(fā)日志統(tǒng)計與分析TranswarpHyperbaseTDH平臺組件服務(wù),提供對海量日志 數(shù)據(jù)的快速存儲與高并發(fā)訪問,提供高 效的索引功能針對存儲的日志數(shù)據(jù) 的快速檢索Transwarp Hadoo
11、pTDH平臺組件服務(wù),分布式基礎(chǔ)平臺對高吞吐量的日志數(shù) 據(jù)進行快速的存儲Transwarp ManagerTDH平臺組件服務(wù),TDH管理工具, 圖形化、自動化安裝、部署、配置、監(jiān) 控、報警管理功能聯(lián)通XX公司搭建的信息安全管理系統(tǒng)大數(shù)據(jù)存儲處理子系統(tǒng),所采用的硬件設(shè)備如下表所示:表4-2節(jié)點配置表節(jié)點數(shù)量目前已經(jīng)超過900個節(jié)點CPU兩路8核處理器2*E5-2620內(nèi)存64GB ECC DDR3硬盤10 個 2TB 的 SATA 硬盤,15000RPM,不使用 RAID ;2個300G的SAS硬盤,15000RPM,RAID1,作為系統(tǒng)盤網(wǎng)絡(luò)雙電口萬兆(10Gbps)以太網(wǎng)卡星環(huán)科技作為大數(shù)據(jù)
12、平臺技術(shù)提供商,XX公司側(cè)集中留存系統(tǒng)軟件除研究院自主開發(fā)外,基于Hadoop的數(shù)據(jù)存儲部分計劃進行外包,通過軟件技術(shù)服務(wù),來進行系 統(tǒng)優(yōu)化和維護支撐。表4-3項目概況所屬公司編 號人員項目各個階段實施進度以及人員參與情況架設(shè)計集群部署概要設(shè)計詳細(xì)設(shè)計應(yīng)用開 發(fā)系統(tǒng)測試試運 行上線運 行2014.122014.122015.12015.12015.12015.12015.12015.32015.32015.62015.62015.82015.82015.102015.11聯(lián)通研究院參與人員1系統(tǒng)設(shè)計師寸VVVVV2開發(fā)工程師1寸VVVVVV3開發(fā)工程師2VVVVVVV4開發(fā)工程師3VVVVVV
13、V星環(huán)科 技人員1架構(gòu)師VVVV2實施工程師VVVVVVVV3運維工程師VVVVVVVV服務(wù)外包公司人員1項目經(jīng)理VVVVVV2開發(fā)工程師1VVVVVV3開發(fā)工程師2VVVVVV4開發(fā)工程師3VVVVVV1.3項目成果項目所搭建的星環(huán)Transwarp Data Hub平臺,克服在海量數(shù)據(jù)的條件下,因磁 盤I/O性能帶來的數(shù)據(jù)處理瓶頸,分布式大數(shù)據(jù)平臺采用Hadoop/HBase架構(gòu),項目 成果如下:搭建了超過900個節(jié)點的星環(huán)Transwarp Data Hub集群,滿足約20000T( 20 PB)至30000T( 30PB)的數(shù)據(jù)存儲能力以及每秒寫入大概6千萬至7千萬條數(shù)據(jù)的 讀寫性能。
14、經(jīng)測算,數(shù)據(jù)平臺的性能為:高速數(shù)據(jù)插入吞吐量遠(yuǎn)高于單節(jié)點30MB/S ;單節(jié)點在索引上檢索性能不低于1W條/秒;提供數(shù)據(jù)據(jù)高并發(fā)查詢,單節(jié)點SQL并發(fā)度不低于3000次/秒;提供SQL對數(shù)據(jù)的高速統(tǒng)計分析,線性掃描性能單節(jié)點不低于80MB/S。通過Hyperbase對外提供的SQL接口上層應(yīng)用通過SQL進行數(shù)據(jù)訪問和查詢, 極大的降低了對開發(fā)人員專業(yè)技能的要求,降低了系統(tǒng)維護成本,同時提高了應(yīng)用開發(fā) 效率。通過Hyperbase集成的Elastic Search功能,應(yīng)用層可以通過全文索引進行日志 數(shù)據(jù)的檢索,根據(jù)關(guān)鍵字的檢索響應(yīng)時間在20ms以內(nèi),整個集群可以承載的基于關(guān)鍵 詞的檢索并發(fā)度遠(yuǎn)
15、高于100萬/秒對海量IDC出口訪問日志的分析性能極為高效,日掃描數(shù)據(jù)量超過100TB。入庫效率單節(jié)點每秒12萬條日志,集群總體入庫能力目前超過10.8千萬條/秒。 每天Hyperbase新增存儲日志量超過50TB。1.4項目意義基于星環(huán)Transwarp Data Hub搭建的中國聯(lián)通IDC日志留存大數(shù)據(jù)平臺,目前 已經(jīng)部署了 900多個x86服務(wù)器節(jié)點,是目前國內(nèi)非互聯(lián)網(wǎng)公司范圍內(nèi)規(guī)模最大的單 一客戶、單一集群的企業(yè)級大數(shù)據(jù)平臺,從全球的非互聯(lián)網(wǎng)行業(yè)看,如此大的部署規(guī)模 也不常見,是國內(nèi)XX公司級、總部級客戶中非常成功的落地項目,充分證明星環(huán)科技 Transwarp Data Hub大數(shù)據(jù)
16、平臺可以為企業(yè)級客戶提供成熟的、穩(wěn)定的的大規(guī)模部 署方案,中國聯(lián)通IDC日志留存大數(shù)據(jù)平臺為XX公司大數(shù)據(jù)平臺的建設(shè)提供了寶貴的 經(jīng)驗,可以幫助XX公司搭成功建起高效、穩(wěn)定的、充分滿足XX公司需求以及符合X X公司特色的大數(shù)據(jù)平臺。2恒豐銀行大數(shù)據(jù)平臺恒豐銀行股份有限公司是12家全國性股份制商業(yè)銀行之一,其前身為1987年經(jīng) 國務(wù)院同意、中國人民銀行批準(zhǔn)成立的煙臺住房儲蓄銀行。2003年經(jīng)中國人民銀行批 準(zhǔn),正式改制為恒豐銀行股份有限公司,成為全國性股份制商業(yè)銀行。目前,恒豐銀行在全國設(shè)有14家一級分行,2家總行直管行,共256家分支機構(gòu); 另外還發(fā)起設(shè)立了 5家村鎮(zhèn)銀行。截至2015年末,恒
17、豐銀行資產(chǎn)規(guī)模達(dá)到1.05萬億元,全年凈利潤同比增長14%, 凈資產(chǎn)收益率ROE超過15%,新增分支機構(gòu)74家,與上年相比實現(xiàn)翻番,創(chuàng)歷年新 高。在英國銀行家雜志發(fā)布的2015年全球銀行1000強排名中,恒豐銀行位 列第170位。恒豐銀行較好的實現(xiàn)了盈利與穩(wěn)健發(fā)展的平衡。盈利能力方面,恒豐銀行在香港中 文大學(xué)發(fā)布的亞洲銀行競爭力研究報告中位列亞洲銀行業(yè)第5位;穩(wěn)健發(fā)展能力方 面,恒豐銀行在中國銀行業(yè)協(xié)會發(fā)布的商業(yè)銀行穩(wěn)健發(fā)展能力陀螺(GYROSCOPE ) 評價體系中,在綜合能力排名中位列全國性商業(yè)銀行第7位,全國性股份制商業(yè)銀 彳亍前三。2.1項目概述隨著利率市場化進程加快、互聯(lián)網(wǎng)金融業(yè)態(tài)的
18、發(fā)展,傳統(tǒng)銀行與實體經(jīng)濟的業(yè)務(wù)橫 向聯(lián)系與深度融合進展迅速,業(yè)務(wù)數(shù)據(jù)的內(nèi)容不斷豐富,建立在數(shù)據(jù)處理技術(shù)之上業(yè)務(wù) 洞察能力也需要不斷提升。恒豐銀行處于業(yè)務(wù)發(fā)展的新階段,新業(yè)務(wù)模式的創(chuàng)新離不開數(shù)據(jù)的支持,也對數(shù)據(jù) 信息服務(wù)的總體能力提出了新的要求?;诖髷?shù)據(jù)平臺技術(shù),整合現(xiàn)有行內(nèi)數(shù)據(jù),接入 行外數(shù)據(jù),搭建處理能力更強,更易于擴展,性能更高的統(tǒng)一數(shù)據(jù)平臺。不僅可以很好 的滿足高計算、高存儲、高負(fù)載的要求,更能夠?qū)A康臄?shù)據(jù)進行數(shù)據(jù)存儲、清洗、加 工、建模等,把先前無法利用的數(shù)據(jù)充分利用,提升對數(shù)據(jù)的認(rèn)識,抓住機遇為恒豐銀 行數(shù)據(jù)平臺建設(shè)做好最基礎(chǔ)、最扎實的工作。根據(jù)恒豐銀行的實際應(yīng)用需要分別搭建基于
19、大數(shù)據(jù)平臺的企業(yè)數(shù)據(jù)倉庫和歷史數(shù) 據(jù)分析探索平臺,滿足海量數(shù)據(jù)的低成本高效存儲、加工、使用,完成企業(yè)數(shù)據(jù)倉庫應(yīng) 用的遷移和優(yōu)化重構(gòu),滿足移動互聯(lián)渠道場景的高并發(fā)低延時數(shù)據(jù)服務(wù)需求,協(xié)助業(yè)務(wù) 數(shù)據(jù)分析團隊自主的數(shù)據(jù)探索和業(yè)務(wù)建模。恒豐銀行傳統(tǒng)數(shù)據(jù)倉庫是建立在IOE體系之下,支持TB級別數(shù)據(jù)存儲并提供復(fù)雜 數(shù)據(jù)查詢功能的數(shù)據(jù)管理體系。傳統(tǒng)數(shù)據(jù)倉庫建設(shè)多年,已接入數(shù)據(jù)源30多個,配套 監(jiān)管數(shù)據(jù)集市、數(shù)據(jù)分析集市,風(fēng)險數(shù)據(jù)集市三個數(shù)據(jù)集市,負(fù)責(zé)十幾個管理應(yīng)用和監(jiān) 管系統(tǒng)的數(shù)據(jù)需求,下游建有銀行管理類系統(tǒng)如綜合經(jīng)營分析系統(tǒng)(管理駕駛艙)、自 定義查詢平臺等,并為各分行提供數(shù)據(jù)下發(fā)服務(wù)。隨著恒豐銀行業(yè)務(wù)發(fā)
20、展,與外部機構(gòu)的跨界合作的展開,歷史數(shù)據(jù)越來越多,半結(jié) 構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)數(shù)據(jù)也越來越多,數(shù)據(jù)的統(tǒng)一存儲和處理已面臨硬件成本壓力。充分發(fā)揮大數(shù)據(jù)平臺的技術(shù)優(yōu)勢,確保系統(tǒng)平穩(wěn)安全運行,恒豐銀行基于星環(huán)科技 Transwarp Data Hub大數(shù)據(jù)技術(shù)構(gòu)建全新的IT信息系統(tǒng)架構(gòu),為各數(shù)據(jù)應(yīng)用系統(tǒng)提 供功能完善、穩(wěn)定可靠的大數(shù)據(jù)應(yīng)用基礎(chǔ)技術(shù)平臺,更好的支持各類型海量業(yè)務(wù)數(shù)據(jù)的 存儲、加工、使用和數(shù)據(jù)價值提煉?;谛黔h(huán)科技Transwarp Data Hub平臺,恒豐銀行將原有的基于Oracle的數(shù)據(jù)倉庫平臺平滑遷移至星環(huán)大數(shù)據(jù)平臺,提升數(shù)據(jù)倉庫的批處理能力,同時也建設(shè)歷史數(shù) 據(jù)探索的能力,基于大數(shù)據(jù)
21、架構(gòu),完成了符合恒豐銀行現(xiàn)狀的開創(chuàng)型應(yīng)用,例如:準(zhǔn)實 時系統(tǒng)日志分析應(yīng)用、客戶實時風(fēng)險監(jiān)測、基于互聯(lián)網(wǎng)點擊流數(shù)據(jù)的用戶體驗優(yōu)化與客 戶行為分析、客戶標(biāo)簽化畫像應(yīng)用等。源數(shù)據(jù)層核心系統(tǒng)總賬系統(tǒng)卡系統(tǒng)工具層源數(shù)據(jù)支付系統(tǒng)/監(jiān)管集市工具層數(shù)據(jù)卸載平臺統(tǒng)一調(diào)度監(jiān)控平臺數(shù)據(jù)標(biāo)準(zhǔn)管理平臺指標(biāo)管理平臺數(shù)據(jù)質(zhì)量管理平臺基于星環(huán)的數(shù)據(jù)倉庫數(shù)據(jù)集市平臺應(yīng)用層 業(yè)務(wù)層文件交換區(qū)數(shù)據(jù)服務(wù)接口監(jiān)管集市數(shù)據(jù)分析集市監(jiān)管平臺1104EAST客戶風(fēng)險反洗錢績效考核風(fēng)險集市CRM圖4-3恒豐銀行大平臺架構(gòu)恒豐銀行搭建的基于星環(huán)科技Transwarp Data Hub的大數(shù)據(jù)平臺承載了恒豐銀 行分布在全國的數(shù)千萬用戶數(shù)據(jù),服務(wù)于
22、全國用戶與行內(nèi)業(yè)務(wù)人員,數(shù)據(jù)總存儲量達(dá)到 幾十TBO根據(jù)恒豐銀行的項目建設(shè)的需求,我們推薦恒豐銀行采用基于星環(huán) Transwarp Data Hub大數(shù)據(jù)平臺來構(gòu)建新一代數(shù)字銀行平臺,滿足恒豐銀行數(shù)據(jù)倉庫的遷移、數(shù) 據(jù)集市的搭建,同時協(xié)助恒豐銀行構(gòu)建客戶360度視圖應(yīng)用,準(zhǔn)實時日志和精準(zhǔn)營銷 等應(yīng)用。技術(shù)組件和相關(guān)方案如下所示:Transwarp Hadoop,完成海量數(shù)據(jù)的存儲。Transwarp Inceptor完成傳統(tǒng)基于關(guān)系型數(shù)據(jù)庫SQL應(yīng)用的語義解析和編譯, 使得基于傳統(tǒng)關(guān)系型數(shù)據(jù)庫的應(yīng)用可以直接遷移至星環(huán)大數(shù)據(jù)平臺,在 Transwarp Data Hub平臺實現(xiàn)企業(yè)級數(shù)據(jù)倉庫的核
23、心組件。Transwarp Hyperbase,完成銀行海量歷史交易明細(xì)數(shù)據(jù)的存儲,支持高并發(fā) 的快速查詢。(4) Transwarp Discover,完成客戶畫像,風(fēng)險預(yù)警等分析挖掘任務(wù)。Transwarp Stream,完成實時日志的采集與報警。2.2項目實施情況星環(huán)科技協(xié)助恒豐銀行搭建了行內(nèi)統(tǒng)一基于Transwarp Data Hub的數(shù)據(jù)平臺,一 期工作完成將原有Oracle數(shù)據(jù)倉庫中的全量數(shù)據(jù)進行遷移,同時在大數(shù)據(jù)平臺完成了 數(shù)據(jù)批處理、數(shù)據(jù)建模、數(shù)據(jù)集市等工作。數(shù)據(jù)移植說明:數(shù)據(jù)倉庫原有數(shù)據(jù)全部移植到新的大數(shù)據(jù)平臺之上,并對數(shù)據(jù)結(jié)構(gòu)進行重構(gòu)。數(shù)據(jù) 移植的基本流程如下圖所示:除Sq
24、oop數(shù)據(jù)抽取階段,剩下的主要的數(shù)據(jù)處理階段放在大數(shù)據(jù)平臺上實現(xiàn),避 免了對原數(shù)據(jù)倉庫正常運行的影響。數(shù)據(jù)倉庫日終ETL體系流程說明:(1)每日業(yè)務(wù)系統(tǒng)日終完成后會生成相關(guān)數(shù)據(jù)文件提供給數(shù)據(jù)平臺,數(shù)據(jù)平臺獲 取文件并加載文件數(shù)據(jù)。(2)對每個業(yè)務(wù)系統(tǒng)提供的數(shù)據(jù)文件,數(shù)據(jù)平臺必須對文件進行合法性校驗。合 法則加載文本,不合法通知業(yè)務(wù)系統(tǒng)人員對數(shù)據(jù)文本的導(dǎo)出進行調(diào)整。(3)ODM構(gòu)建文本的映射外表,通過PL/SQL存儲過程將ODM數(shù)據(jù)備份到 HDM 層。(4)部分原數(shù)據(jù)倉庫的基礎(chǔ)整合模型保留在FDM層,通過PL/SQL還原原倉庫 數(shù)據(jù)處理程序,并逐步將FDM層數(shù)據(jù)轉(zhuǎn)移到CDM層公共模型中。(5)O
25、DM層數(shù)據(jù)每日經(jīng)過清洗、加工、整合后放在CDM層公共數(shù)據(jù)模型層, 在公共模型層之上構(gòu)建DSI服務(wù)接口,向外部集市或應(yīng)用提供數(shù)據(jù)服務(wù)。(6)集市回流數(shù)據(jù)依照ODM-HDM的處理方法進行數(shù)據(jù)的備份。如圖所示:業(yè)務(wù)系統(tǒng)日終后生成提 供給數(shù)據(jù)平臺 的數(shù)據(jù)文件圖4-5恒豐銀行大數(shù)據(jù)平臺數(shù)據(jù)同步流程(1)每日在線數(shù)據(jù)平臺處理數(shù)據(jù)經(jīng)過處理后,經(jīng)數(shù)據(jù)復(fù)制將數(shù)據(jù)同步到歷史數(shù)據(jù)(2)校驗成功后的文本同步到歷史數(shù)據(jù)平臺進行歸檔。(3)歷史數(shù)據(jù)平臺的數(shù)據(jù)與在線數(shù)據(jù)平臺保持一致,存期延長。(4)歷史數(shù)據(jù)平臺之上建立歷史數(shù)據(jù)查詢模型,提供歷史數(shù)據(jù)查詢服務(wù)。圖4-6恒豐銀行大數(shù)據(jù)平臺數(shù)據(jù)模型轉(zhuǎn)換為完整支持恒豐銀行數(shù)據(jù)倉庫項
26、目的建設(shè),星環(huán)科技為恒豐銀行提供了如下技術(shù)組件與模塊:表4-4組件列表組件名稱組件功能支持運行的應(yīng)用Transwarp InceptorTDH平臺組件服務(wù),提供對SQL99 , SQL2003的完整支持,同時支持 Oracle PL/SQL ,為原有應(yīng)用平滑遷移 提供基礎(chǔ)數(shù)據(jù)倉庫、數(shù)據(jù)集市、 批處理、ETLTranswarpHyperbaseTDH平臺組件服務(wù),提供對海量歷史 數(shù)據(jù)的快速存儲與高并發(fā)訪問歷史數(shù)據(jù)存儲與查 詢、數(shù)據(jù)集市Transwarp DiscoverTDH平臺組件服務(wù),對海量數(shù)據(jù)進行 快速的分析和挖掘客戶畫像、風(fēng)險監(jiān)測Transwarp StreamTDH平臺組件服務(wù),對實時
27、數(shù)據(jù)進行 計算實時交易預(yù)警、實時 點擊流分析Transwarp HadoopTDH平臺組件服務(wù),分布式基礎(chǔ)平臺影像存儲、日志存儲、 點擊流數(shù)據(jù)存儲Transwarp ManagerTDH平臺組件服務(wù),TDH管理工具, 圖形化、自動化安裝、部署、配置、監(jiān) 控、報警管理功能經(jīng)過恒豐銀行的測試確認(rèn),從性能的角度出發(fā),恒豐銀行采用如下硬件設(shè)備:表4-5硬件配置列表節(jié)點數(shù)量一期16個節(jié)點,未來規(guī)劃150節(jié)點CPU兩路8核處理器2*E5-2650 v3內(nèi)存256GB ECC DDR3硬&10 個 600GB 的 SAS 硬盤,15000RPM,不使用 RAID ;2個300G的SAS硬盤,15000RPM
28、,RAID1,作為系統(tǒng)盤網(wǎng)絡(luò)雙電口萬兆(10Gbps)以太網(wǎng)卡固態(tài)硬盤800GB星環(huán)科技作為大數(shù)據(jù)平臺技術(shù)提供商,在恒豐銀行大數(shù)據(jù)平臺建設(shè)項目中,為客戶 提供了強大平臺技術(shù)支持,同時與應(yīng)用廠商進行緊密的配合,確保了項目一期建設(shè)的順 利上線。表4-6項目實施概況編號角色所屬公需求架構(gòu)概要詳細(xì)應(yīng)用開發(fā)系統(tǒng)測試運上線分析設(shè)計設(shè)計設(shè)計/遷移試行運行項目各個階段實施進度以及人員參與情況司2015.72015.72015.72015.2015.72015.82015.72015.82015.82015.102015.102015.112015.112015.12015.12-至 今1架構(gòu)師:科技VVVV2
29、實施工程師VVVVVV3項目經(jīng)理應(yīng)用商VVVVVVVV4實施工程師1VVVVVV5實施工程師2VVVVVV6實施工程師3VVVVVV7實施工程師4VVVVVV物理拓?fù)鋱D:大數(shù)據(jù)平臺(企業(yè)級數(shù)據(jù)倉BS1大數(shù)據(jù)卜大數(shù)據(jù)8-一圖4-7恒豐銀行大數(shù)據(jù)平臺網(wǎng)絡(luò)應(yīng)用服務(wù)器3性能指標(biāo):日終批處理時間數(shù)據(jù)平臺每日幾千個數(shù)據(jù)處理作業(yè),日終時間窗口控制在3個小時到4個小 時之間。日終掃描數(shù)據(jù)量達(dá)10TB,按照業(yè)務(wù)系統(tǒng)供數(shù)最晚時間1:30計算,在凌 晨5點左右全部完成數(shù)據(jù)處理作業(yè),個別作業(yè)錯誤不影響整體進度。最大并發(fā)查詢用戶1000個用戶同時使用數(shù)據(jù)平臺查詢數(shù)據(jù),簡單查詢響應(yīng)時間在100毫秒以內(nèi),關(guān)聯(lián)統(tǒng)計查詢在20
30、0毫米以內(nèi),復(fù)雜的統(tǒng)計分析應(yīng)用響應(yīng)時間在分鐘級。2.3項目成果恒豐銀行所搭建的基于星環(huán)科技Transwarp Data Hub的大數(shù)據(jù)平臺是國內(nèi)第一 個完全采用Hadoop來搭建金融機構(gòu)企業(yè)級數(shù)據(jù)倉庫平臺的成功案例。在短短半年的 時間內(nèi),就將原有Oracle數(shù)據(jù)倉庫的復(fù)雜數(shù)據(jù)處理過程,以及金融機構(gòu)的模型,遷移 至星環(huán)Transwarp Data Hub平臺,同時在數(shù)據(jù)倉庫上面,建設(shè)了客戶關(guān)系管理集市和 審計集市,同時存儲了恒豐銀行多年來全部數(shù)據(jù),接入了 30幾個業(yè)務(wù)系統(tǒng),批處理性 能比原有Oracle數(shù)據(jù)庫平臺提升5倍以上,歷史數(shù)據(jù)查詢的性能比原來提升幾十倍, 90%的歷史查詢應(yīng)用都可以在20
31、0毫秒內(nèi)返回結(jié)果,而總體投資僅占原有平臺的1/3。埠臺監(jiān)管里可 I 數(shù)據(jù)會析集市 I莒自關(guān)聶管理址市審r.反洗族等巨w數(shù)據(jù)運堆體系統(tǒng)一閶度平臺 . 上數(shù)攔管珪平臺歷史敬據(jù)報將接口腆服務(wù)援口 DS1敬據(jù)服務(wù)歷史敬據(jù)平臺在線數(shù)唱平臺非結(jié)構(gòu)數(shù)據(jù)區(qū)罪培構(gòu)化數(shù)據(jù)接人源數(shù)據(jù)基麟,歷史層據(jù)指型 HDM.層FDM J非結(jié)構(gòu)化歸輜構(gòu)化數(shù)搪公英數(shù)據(jù)模型層CDM數(shù)據(jù)存儲醇數(shù)據(jù)氐史曇HDM基礎(chǔ)數(shù)據(jù)模型 層FDM源雌彩口 EOD M始嗨化數(shù)據(jù)接入.文件交換區(qū)F5A竦數(shù)據(jù)結(jié)祠據(jù)散握演人源數(shù)據(jù)基于星環(huán)科技TrainEwarp Data Hub的恒豐銀行數(shù)據(jù)倉庫架構(gòu)圖4-8恒豐銀行大數(shù)據(jù)平臺數(shù)倉架構(gòu)本項目充分證明,星環(huán)科技T
32、ranswarp Data Hub大數(shù)據(jù)平臺,能夠全面支撐企業(yè)級數(shù)據(jù)倉庫的搭建。2.4項目意義恒豐銀行大數(shù)據(jù)平臺的一期建設(shè)完成了將傳統(tǒng)基于Oracle的數(shù)據(jù)倉庫遷移至星環(huán)大數(shù)據(jù)平臺,并在基于星環(huán)Transwarp Data Hub大數(shù)據(jù)平臺的數(shù)據(jù)倉庫上搭建了基于 三范式模型的數(shù)據(jù)集市,充分證明了星環(huán)Transwarp Data Hub平臺能夠支持企業(yè)在大 數(shù)據(jù)平臺建設(shè)數(shù)據(jù)倉庫、數(shù)據(jù)集市的應(yīng)用,同時如果已有數(shù)據(jù)倉庫平臺,也可以短期內(nèi) 快速完成數(shù)據(jù)倉庫的遷移。恒豐銀行基于Transwarp Data Hub大數(shù)據(jù)平臺的數(shù)據(jù)倉庫項目,是大數(shù)據(jù)技術(shù) 在行業(yè)復(fù)雜應(yīng)用落地項目中的重要里程碑充分證明星環(huán)Tr
33、answarp Data Hub平臺能 夠支持企業(yè)最重要也最復(fù)雜的數(shù)據(jù)倉庫應(yīng)用。全球著名大數(shù)據(jù)調(diào)研機構(gòu)Gartner在近期的大數(shù)據(jù)市場調(diào)研報告中,已經(jīng)將星環(huán) Transwarp Data Hub平臺列入數(shù)據(jù)倉庫魔力象限,并在技術(shù)成熟度,技術(shù)領(lǐng)先度的維 度中,排名全球大數(shù)據(jù)廠商第一名。AmiriiniWHb ScrnCftHPWlOdrtB .RnWighl.0MarkLogkMapfS TechFvbgiiKOoiidtfaAdsn .HodMwrcdti.McmguDB PffUlBltulnokuEDl Atl一是Kcfnitii.HrUd!. MemCKAs d February 201
34、6CatIPLETENESS DF VISiDN圖4-9 Gartner數(shù)據(jù)倉庫魔力象限因此,恒豐銀行基于大數(shù)據(jù)平臺的數(shù)據(jù)倉庫建設(shè)經(jīng)驗,可以為此次XX公司大數(shù)據(jù) 平臺建設(shè)提供寶貴的經(jīng)驗。目前從全球大數(shù)據(jù)廠商來看,除星環(huán)科技外,還沒有其他廠 商能夠在金融、銀行這樣的高端行業(yè),擁有完全通過大數(shù)據(jù)技術(shù)實現(xiàn)企業(yè)數(shù)據(jù)倉庫的成 功案例。在恒豐銀行項目中,星環(huán)科技已經(jīng)積累了大量的基于大數(shù)據(jù)平臺建設(shè)傳統(tǒng)數(shù)據(jù)倉庫 理論基礎(chǔ)和實踐經(jīng)驗,同時在產(chǎn)品的性能和功能上也充分的得到了驗證,尤其星環(huán) Transwarp Inceptor組件,能夠快速協(xié)助XX公司將傳統(tǒng)基于Teradata數(shù)據(jù)倉庫平臺 的應(yīng)用快速的遷移至星環(huán)大
35、數(shù)據(jù)平臺,從而極大降低了項目風(fēng)險。采用星環(huán)Transwarp Data Hub平臺構(gòu)建XX公司大數(shù)據(jù)平臺,是XX公司的正確 選擇。3華通CDN運營商海日志采集分析系統(tǒng)浙江華通云數(shù)據(jù)科技有限公司是一家致力于云基礎(chǔ)設(shè)施、云網(wǎng)絡(luò)(CDN、VPN ) 以及各類云應(yīng)用建設(shè)和服務(wù)企業(yè)。通過云數(shù)據(jù)中心、覆蓋全國主要城市的CDN網(wǎng)絡(luò), 為通信運營商、服務(wù)提供商、互聯(lián)網(wǎng)企業(yè)及終端用戶提供云應(yīng)用和服務(wù)。依托豐富的網(wǎng) 絡(luò)資源和云資源優(yōu)勢,打造成為全國性的云應(yīng)用服務(wù)中心。3.1項目概述華通CDN運營商需要構(gòu)建了全國性的CDN平臺,針對CDN服務(wù)過程中產(chǎn)生的 海量日志數(shù)據(jù)進行流式采集和分析,并將海量日志的處理及分析結(jié)果
36、輸出給使用者。華通CDN運營商已經(jīng)在全國部署了上千臺服務(wù)器,日志采集系統(tǒng)需要滿足上數(shù)百 個節(jié)點、每秒上千萬次的日志數(shù)據(jù)實時采集能力;日志從采集、分析到提供給第三方的 延時不超過5分鐘;日志存儲集群支持2PB的數(shù)據(jù)存儲;支持將采集的數(shù)據(jù)實時匯聚 并寫入日志管理分析平臺進行后續(xù)的統(tǒng)計分析;實現(xiàn)針對命中率、時延、可用性、流量 等指標(biāo)的統(tǒng)計功能。3.2項目實施情況星環(huán)科技根據(jù)華通CDN日志采集和分析系統(tǒng)的需求,在前端600多個CDN服務(wù) 器節(jié)點上,部署了 600多個代理服務(wù)器,用來實時采集日志數(shù)據(jù),搭建了 100個節(jié)點 的X86服務(wù)器來部署星環(huán)Transwarp Data Hub平臺,用Transwa
37、rp Hadoop來采集 日志數(shù)據(jù),并通過Transwarp Inceptor進行分析,快速得到分析結(jié)果。SQLInceplor ln-nwng圖4-10華通CDN日志采集和分析系統(tǒng)架構(gòu)數(shù)據(jù)采集完成緩存服務(wù)器日志數(shù)據(jù)從節(jié)點到中心的數(shù)據(jù)采集匯聚,在每個節(jié)點內(nèi)部署日志采集Agent,通過UDP方式采集服務(wù)器syslog日志,節(jié)點Agent將采集的數(shù)據(jù)通過流式傳輸?shù)姆绞桨l(fā)送至中心匯聚服務(wù)器,中心匯聚服務(wù)器將匯聚的日志數(shù)據(jù)寫入數(shù)據(jù)存儲分析平臺,系統(tǒng)部署600+ Agent,20個匯聚服務(wù)器,平臺采用TranswarpData Hub方案構(gòu)建支持峰值928w/sec的數(shù)據(jù)寫入和分析;將數(shù)據(jù)進行清洗整理后
38、,進行實時壓縮處理,輸出至第三方系統(tǒng)。平臺依賴于Transwarp Inceptor對采集的日志流數(shù)據(jù)進行實時的統(tǒng)計分析,為業(yè)務(wù)質(zhì)量監(jiān)控和后續(xù)服務(wù)的優(yōu)化提供數(shù)據(jù)支撐。圖4-11華通CDN日志采集平臺物理部署單臺日志采集服務(wù)器每條處理的日志數(shù)為10萬條,按照服務(wù)器最多的A類節(jié)點其峰值每秒產(chǎn)生4萬條日志計算一個拉遠(yuǎn)節(jié)點每天所需存儲的日志數(shù)為,代理服務(wù)器本地配置8T的存儲空間至少可滿足1周的日志存儲。按照流式處理的峰值計算,1秒內(nèi)完成所有日志的傳輸,單條日志0.2K的情況下 單個拉遠(yuǎn)節(jié)點日志傳輸對上行帶寬的要求。星環(huán)科技為華通CDN海量日志采集與分析系統(tǒng)提供了如下技術(shù)組件與模塊:表4-7組件列表組件名稱組件功能支持運行的應(yīng)用TranswarpInceptorTDH平臺組件服務(wù),用于對海量日志數(shù) 據(jù)進行實時、高效的分析,并通過標(biāo)準(zhǔn)的 SQL完成各種分析報告日志分析,點擊命中 率報告Transwarp FlumeTDH平臺組件服務(wù),對實時日志數(shù)據(jù)進 行采集,提供分布式的采集方式實時日志采集Transwarp HadoopTDH平臺組件服務(wù),分布式基礎(chǔ)平臺, 用于存儲海量的日志數(shù)據(jù),提供極高的吞 吐量日志存儲TranswarpManagerTDH平臺組件服務(wù),TDH管理工具,圖 形化、自動化安裝、部署、配置、監(jiān)控、 報警管理功能華通CDN海量日志采集與分析系統(tǒng),采用如下硬件設(shè)備:
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 房地產(chǎn)項目轉(zhuǎn)讓合同
- 風(fēng)能海洋能源開發(fā)合作協(xié)議
- 2024-2025學(xué)年新教材高中生物 第二章 染色體與遺傳 第一節(jié) 染色體通過配子傳給子代教學(xué)實錄(4)浙科版必修2
- 7 健康看電視 教學(xué)設(shè)計-2024-2025學(xué)年道德與法治四年級上冊統(tǒng)編版
- 5 草船借箭 教學(xué)設(shè)計-2023-2024學(xué)年統(tǒng)編版語文五年級下冊
- 9《古詩三首》第一課時 教學(xué)設(shè)計-2024-2025學(xué)年語文四年級上冊統(tǒng)編版
- 5食物中的營養(yǎng)教學(xué)設(shè)計-2024-2025學(xué)年科學(xué)四年級上冊教科版
- 2認(rèn)識氣溫計 教學(xué)設(shè)計-2024-2025學(xué)年科學(xué)三年級上冊教科版
- 2023-2024學(xué)年四年級道德與法治下冊統(tǒng)編版教學(xué)設(shè)計
- 6《讓我們的學(xué)校更美好》 第二課時 教學(xué)設(shè)計-2023-2024學(xué)年道德與法治三年級上冊統(tǒng)編版
- 警惕冒充客服詐騙如何識別和避免客服騙局
- 網(wǎng)絡(luò)安全運維課程標(biāo)準(zhǔn)
- 《中醫(yī)婦科養(yǎng)生》課件
- 學(xué)術(shù)寫作(一)Choosing-a-topic-課件
- 真武信仰的淵源與流變研究
- GB/T 24478-2023電梯曳引機
- 危險貨物運輸人員的培訓(xùn)和教育
- SH/T 3543-2007 石油化工建設(shè)工程項目施工過程技術(shù)文件規(guī)定
- 無人機快遞技術(shù)-無人機的操作
- A320飛機空調(diào)系統(tǒng)正常操作匯總
- 智慧工地及智慧工地整體方案
評論
0/150
提交評論