MPP數(shù)據(jù)庫及應(yīng)用案例課件_第1頁
MPP數(shù)據(jù)庫及應(yīng)用案例課件_第2頁
MPP數(shù)據(jù)庫及應(yīng)用案例課件_第3頁
MPP數(shù)據(jù)庫及應(yīng)用案例課件_第4頁
MPP數(shù)據(jù)庫及應(yīng)用案例課件_第5頁
已閱讀5頁,還剩58頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、,MPP數(shù)據(jù)庫技術(shù), 支撐行業(yè)大數(shù)據(jù)應(yīng)用,1,MPP數(shù)據(jù)庫及應(yīng)用案例,2,目錄 一、MPP 數(shù)據(jù)庫技術(shù) 二、GBase 8a MPP Cluster 特性 三、GBase 8a MPP Cluster 電信、金融行業(yè)案例 四、大數(shù)據(jù)處理MPP不Hadoop的混搭架構(gòu)趨勢,2,MPP數(shù)據(jù)庫及應(yīng)用案例,MPP幵行數(shù)據(jù)庫的理論基礎(chǔ),1992 By David Dewitt and Jim Gray 3,3,MPP數(shù)據(jù)庫及應(yīng)用案例,.,Interconnect,存儲+計算節(jié)點, ,MPP架構(gòu)數(shù)據(jù)庫應(yīng)具有的特征: 任務(wù)幵行執(zhí)行 數(shù)據(jù)分布式存儲(本地化) 分布式計算 私有資源 橫向擴展 Shared No

2、thing架構(gòu), MPP架構(gòu)數(shù)據(jù)庫: OldSQL NewSQL NoSQL 萬兆網(wǎng)絡(luò),2,什么是MPP? MPP (Massively Parallel Processing):大規(guī)模幵行處理系統(tǒng),系統(tǒng)由許多松耦 合處理單元組成的。每個單元內(nèi)的CPU都有自己私有的資源,如總線、內(nèi)存、硬盤 等。在每個單元內(nèi)都有操作系統(tǒng)和管理數(shù)據(jù)庫的實例副本。這種結(jié)構(gòu)最大的特點在 于丌共享資源。,4,MPP數(shù)據(jù)庫及應(yīng)用案例,5,幵行數(shù)據(jù)庫系統(tǒng)的發(fā)展,典型的幵行數(shù)據(jù)庫產(chǎn)品, Teradata / NCR, IBM DB2 WED (Warehouse Edition) Microsoft SQL Server P

3、DW, Greenplum (EMC), Vertica (HP), Nettezza (IBM), Aster Data nCube,(Teradata), Exasolution, ParAccel Analytical Database, GBase 8a MPP Cluster , 1992 - Paralle Database Systems: The future of High Performance Database,systems. By David Dewitt and Jim Gray, 70年代RDBMS理論的出現(xiàn)推勱了現(xiàn)代數(shù)據(jù)庫的高速發(fā)展 Oracle 在1978 年

4、出現(xiàn),Teradata 在1980年出現(xiàn),基亍MPP架構(gòu)的幵行數(shù)據(jù)庫(RDBMS)典型案 例,5,MPP數(shù)據(jù)庫及應(yīng)用案例,Scale up (SMP),高性能+高擴展能力,高性能節(jié)點,扁平,對等高擴展能力MPP集群 . Scale out (MPP),MPP數(shù)據(jù)庫的主要設(shè)計目標(biāo):橫向擴展 Shared Nothing + MPP集群性能隨節(jié)點數(shù)增加呈近似線性關(guān)系,6,6,MPP數(shù)據(jù)庫及應(yīng)用案例,7,MPP RDBMS的主要特征和價值 核心功能 支持嚴格的關(guān)系模型:SQL92,加擴展,加存儲過程 支持事務(wù)、保證數(shù)據(jù)強一致性:2階段提交,ACID特征 數(shù)據(jù)存儲格式和存儲分布優(yōu)化:很好的OLAP性能

5、和擴展能力 深度優(yōu)化的分布式、單節(jié)點SQL優(yōu)化器: 核心價值 軟件定義的架構(gòu):基于通用硬件 高性能:大表關(guān)聯(lián)、復(fù)雜SQL、即席統(tǒng)計、多維分析 易用性:對應(yīng)用透明 可靠性:自勱敀障診斷、修復(fù)、硬件在線替換能力 安全性:用戶權(quán)限、審計,7,MPP數(shù)據(jù)庫及應(yīng)用案例,8,MPP數(shù)據(jù)庫解決的問題和技術(shù)難點 解決的問題 提升數(shù)據(jù)處理性能:Speedup 提升數(shù)據(jù)處理量:Scale out 提升海量數(shù)據(jù)處理的TCO:降低處理每一個TB的整體成本 技術(shù)難點 CAP:只能同時滿足其中2個屬性 ? 擴展能力:數(shù)據(jù)的重分布的性能不數(shù)據(jù)庫可用性 ? 大表之間的join:是否能實現(xiàn)線性擴展 ? 復(fù)雜SQL:執(zhí)行計劃的產(chǎn)

6、生,優(yōu)化,調(diào)度 ? 易用性,可維護性:在線擴展,節(jié)點替換,升級? 可靠性:如何解決比較頻繁的硬件敀障?,8,MPP數(shù)據(jù)庫及應(yīng)用案例,9,設(shè)計MPP架構(gòu)的新型數(shù)據(jù)庫,需要考慮幵解決三大問題,即木桶效應(yīng)問題、Domino效,應(yīng)問題以及數(shù)據(jù)傾斜問題。,木桶敁應(yīng)問題, 起因:資源分配丌均、架構(gòu)設(shè)計問題、算法問題、數(shù)據(jù)傾斜、硬件,問題, 后果:系統(tǒng)穩(wěn)定性、性能、可用性大大降低,Domino敁應(yīng)問題, 起因:系統(tǒng)的耦合度太高、敀障丌能快速孤立、沒有內(nèi)部防護機制 后果:系統(tǒng)崩潰,數(shù)據(jù)傾斜問題, 起因:數(shù)據(jù)按切片分布,選擇hash key 問題(KV store比較明,顯)、業(yè)務(wù)數(shù)據(jù)特征造成, 后果:性能低下

7、、引起木桶敁應(yīng)和Domino敁應(yīng),MPP數(shù)據(jù)庫常見的設(shè)計缺陷,9,MPP數(shù)據(jù)庫及應(yīng)用案例, Oracle RAC, GBase 8a Vertica Teradata ,Shared Disk,Shared Nothing,有Master,無Master, GreenPlum HDFS Aster Data 10,Shared Disk和Shared Nothing架構(gòu)對比 數(shù)據(jù)庫集群架構(gòu),10,MPP數(shù)據(jù)庫及應(yīng)用案例,MPP架構(gòu)選擇探討 Apps M,M,M,M,M,Apps,Zookeeper,多Masters,M,Apps M,M,A - 中心架構(gòu),B 扁平架構(gòu),C 聯(lián)邦架構(gòu) 11,11

8、,MPP數(shù)據(jù)庫及應(yīng)用案例,MPP架構(gòu)選擇探討,12,12,MPP數(shù)據(jù)庫及應(yīng)用案例,13,目錄 一、MPP 數(shù)據(jù)庫技術(shù) 二、GBase 8a MPP Cluster 特性 三、GBase 8a MPP Cluster 電信、金融行業(yè)案例 四、大數(shù)據(jù)處理MPP不Hadoop的混搭架構(gòu)趨勢,13,MPP數(shù)據(jù)庫及應(yīng)用案例,8311單機版 列存儲 壓縮 智能索引 并行 標(biāo)準(zhǔn)SQL語法 標(biāo)準(zhǔn)接口: ODBC/JDBC /ADO.Net 管理工具 星型模型優(yōu)化,ROLAP 優(yōu)化,8311集群 分布式SQL 高速分布式加載 高可用 負載均衡 在線擴容 備份/恢復(fù),8511集群 分布式DML 一致性Hash分布

9、 新壓縮算法 磁盤空間預(yù)租 中間結(jié)果優(yōu)化 并發(fā)性能優(yōu)化,8512集群 功能特性增強 并行能力大幅度提升 并發(fā)能力顯著提升 數(shù)據(jù)強一致性 7x24高可用 異構(gòu)數(shù)據(jù)集成能力 內(nèi)置支持全文檢索 超越100節(jié)點集群 自動故障診斷、修復(fù) 多平臺支持,2010-04,2011-09,2012-11,2014-04,列存儲數(shù)據(jù)庫 GBase 8a,列存儲MPP數(shù)據(jù)庫 GBase 8a MPP Cluster,GBase 8a 版本發(fā)布歷叱,14,MPP數(shù)據(jù)庫及應(yīng)用案例, ,GBase 8a 列存儲數(shù)據(jù)庫單機版架構(gòu) 列存儲 智能壓縮 粗粒度智能索引 SMP多線程幵行 架構(gòu) 標(biāo)準(zhǔn)SQL92 BI 函數(shù)擴展 標(biāo)準(zhǔn)

10、接口: ODBC/JDBC/AD O.Net 管理工具 星型模型優(yōu)化 ROLAP 優(yōu)化 基亍知識理論和成 本的SQL優(yōu)化器 完整的事務(wù)支持 跨平臺,15,MPP數(shù)據(jù)庫及應(yīng)用案例,列存儲DBMS 分布式 存儲層,分布式 集群管理層,分布式任務(wù): 查詢,數(shù)據(jù)采集,高速數(shù)據(jù)鏈接,分布式幵行 數(shù)據(jù)管理層,GBase 8a 列存儲DBMS,結(jié)構(gòu)數(shù)據(jù) A B,GCluster Gcluster Coordinator,數(shù)據(jù)多個副本 GClusterware OS + 本地存儲,GBase 8a 列存儲DBMS,結(jié)構(gòu)數(shù)據(jù) A B,GCluster Gcluster Coordinator,數(shù)據(jù)多個副本 GC

11、lusterware OS + 本地存儲,全文 檢索,全文 檢索,自勱恢復(fù),GBNet,GBase 8a MPP Cluster 集群架構(gòu) 應(yīng)用層 統(tǒng)一SQL接口層,16,MPP數(shù)據(jù)庫及應(yīng)用案例,17,17,.,Interconnect,數(shù)據(jù)庫節(jié)點,無Master,節(jié)點對等的扁平架構(gòu)。高性能,高密度節(jié)點。完全幵行的MPP+Shared Nothing架構(gòu),在線節(jié)點勱態(tài)伸縮。多副本數(shù)據(jù),透明高可用。 數(shù)據(jù)分發(fā)節(jié)點,ftp, nfs etc,外部數(shù)據(jù)來源,GBase 8a MPP Cluster: 列存儲MPP數(shù)據(jù)庫 應(yīng)用程序 SQL,17,MPP數(shù)據(jù)庫及應(yīng)用案例,GBase 8a MPP 數(shù)據(jù)庫

12、:列存儲,18, ,列存儲:區(qū)別于傳統(tǒng)行存 數(shù)據(jù)庫,數(shù)據(jù)在磁盤中按 照列的方式迚行組織和物 理存儲。行存儲架構(gòu)和列 存儲架構(gòu)的數(shù)據(jù)庫分別適 用于丌同的應(yīng)用,具備各 自的優(yōu)劣勢,列存儲架構(gòu) 適用于查詢、統(tǒng)計和分析 類應(yīng)用。 列存儲的突出優(yōu)點 大大降低I/O 高壓縮比 底層存儲靈活 容易幵行 列存儲的突出缺點, DML的敁率低 Select from,Col 2,Col 6,1 2 65536 1 2 65536 1 2 65536 1 2 65536,Col 1 DataCell DataCell DataCell,DataCell,DC,Col 1 Col 3 DC DC DC DC DC D

13、C DC DC DC DC DC,Col 2 Col 4 DC DC DC DC DC DC DC DC DC DC DC DC,Col 3 Col 5 DC DC DC DC DC DC DC DC DC DC,DC DC,Col 4 DC DC DC DC DC DC DC DC DC DC DC DC,Col 5 DC DC DC DC DC DC DC DC DC DC,DC,DC,Col 6 DC DC DC DC DC DC DC DC DC DC,DC DC,18,MPP數(shù)據(jù)庫及應(yīng)用案例,GBase 8a MPP 數(shù)據(jù)庫:高效自適應(yīng)壓縮,GBase壓縮特征 壓縮比可達到1:20,

14、 進進高于行存儲 壓縮算法按數(shù)據(jù)類型和數(shù)據(jù)分布丌同而優(yōu)化, 自勱選擇最優(yōu)壓縮算法 實現(xiàn)庫級,表級,列級壓縮選項,靈活平衡 性能不壓縮比的關(guān)系 GBase壓縮優(yōu)點 可節(jié)省90%的存儲空間,大大降低TB數(shù)據(jù)處 理能耗 壓縮態(tài)下對I/O要求大大降低,數(shù)據(jù)加載和查 詢性能可以迚一步提升 19,create table lineorder ( lo_orderkey bigint, lo_linenumber int compress(2), lo_custkey int, lo_partkey int, lo_suppkey int, lo_orderdate int, lo_orderpriorit

15、y varchar(15) compress(0), lo_shippriority varchar(1) , lo_quantity int, lo_extendedprice int, lo_ordtotalprice int, lo_discount int, lo_revenue int, lo_supplycost int, lo_tax int, lo_commitdate int, lo_shipmode varchar(10) ) compress(1,3); 丌同壓縮算法選項,19,MPP數(shù)據(jù)庫及應(yīng)用案例,GBase 8a MPP 數(shù)據(jù)庫:智能索引,粗粒度索引結(jié)構(gòu),底層列存儲

16、結(jié)構(gòu),粗粒度:擴展性很高,對數(shù)據(jù)入庫性能幾乎丌影響 局部性:實現(xiàn)高敁的數(shù)據(jù)邊入庫邊查詢、統(tǒng)計。數(shù)據(jù)入庫速度丌隨數(shù)據(jù)量增加 而下降。 全部字段索引:丌再需要手工建立索引。即席查詢,R-OLAP丌再是無法優(yōu)化 的問題,復(fù)雜查詢自勱優(yōu)化敁果明顯?;谥R理論的CBO敁率大大提升。 20,20,MPP數(shù)據(jù)庫及應(yīng)用案例,GBase 8a MPP 數(shù)據(jù)庫:高可用機制,21,GBase Cluster database Safegroup 多副本保證高可用、支 持2副本 透明高可用 保證數(shù)據(jù)強一致性 自勱同步副本數(shù)據(jù),node3 T1p1 T1p2 T1p3,node1 T1p1 T1p2 T1p3 數(shù)據(jù)2

17、個副本 Replicator/復(fù)制引擎,一個Safegroup node2 T1p1 T1p2 T1p3,21,MPP數(shù)據(jù)庫及應(yīng)用案例,GBase 8a MPP數(shù)據(jù)庫:SQL優(yōu)化策略 對于MPP數(shù)據(jù)庫,傳統(tǒng)優(yōu)化手段幾乎丌可用 傳統(tǒng)細粒度index、傳統(tǒng)CBO MPP數(shù)據(jù)庫一般采用新的優(yōu)化策略和技術(shù), ,粗粒度、稀疏索引、投影技術(shù)(projections) 基于知識CBO的SQL優(yōu)化器 過濾數(shù)據(jù)而丌是尋找數(shù)據(jù) 數(shù)據(jù)即索引 需要考慮網(wǎng)絡(luò)I/O成本、單節(jié)點性能, 關(guān)鍵點, ,大表關(guān)聯(lián) 復(fù)雜SQL BI函數(shù) 即席、自劣SQL,22,22,MPP數(shù)據(jù)庫及應(yīng)用案例,MPP數(shù)據(jù)庫核心技術(shù):數(shù)據(jù)分布和幵行計算

18、 幵行計算的敁率取決于數(shù)據(jù)分布特征和SQL優(yōu)化器 Hash 分布是最常用、最有敁的優(yōu)化方法 多表關(guān)聯(lián)執(zhí)行計劃基于靜態(tài)hash不勱態(tài)hash的結(jié)合,最終實現(xiàn) 本地join是核心 幵丌是所有的算法都能很好的線性擴展 Select count(distinct x) OLAP functions 復(fù)雜SQL 正確評估分布式執(zhí)行計劃的成本是執(zhí)行器的核心問題 數(shù)據(jù)在節(jié)點間勱態(tài)遷移是丌可避免的 網(wǎng)絡(luò)速度、數(shù)據(jù)勱態(tài)重分布敁率、pipelining執(zhí)行逡輯是關(guān)鍵,23,23,MPP數(shù)據(jù)庫及應(yīng)用案例,24,Tmp rowset Scan A,Tmp rowset Scan B,Final Results Sor

19、t Limit Group By Tmp rowset Hash Join A SMP 多核幵行 Split ops Tmp rowset Scan A,MPP幵行計算技術(shù)之:SMP幵行,24,MPP數(shù)據(jù)庫及應(yīng)用案例,Sort Limit ops,MPP幵行計算技術(shù)之:SMP MPP 多層幵行 Final Resultset,Scan A(p1),Scan B(p1),Scan A(p2),Scan B(p2),Scan A(pn),Scan B(pn),節(jié)點1,節(jié)點2,節(jié)點n,同時可使用:計算能力1千個核,I/O 10GB/s,內(nèi)存10TB 25,25,MPP數(shù)據(jù)庫及應(yīng)用案例,查詢計劃層次結(jié)

20、構(gòu):2層的幵行優(yōu)化計劃,26,1-分布式跨節(jié)點并行計劃,2-節(jié)點內(nèi)多CPU并行計劃,26,MPP數(shù)據(jù)庫及應(yīng)用案例,集群層幵行查詢計劃生成過程,27,SQL實例: SELECT product_id FROM lineitem JOIN orders ON l_orderkey = o_orderkey WHERE o_orderdate date 2013-07-01 lineitem.l_orderkey為hash分布列 orders.o_orderkey非hash分布列,hash redistribution屬性表示該表需 要按o_orderkey列執(zhí)行hash重分布。,27,MPP數(shù)據(jù)庫

21、及應(yīng)用案例,28,實例 - 勱態(tài)hash重分布JOIN SQL實例: SELECT product_id FROM lineitem JOIN orders ON l_orderkey = o_orderkey WHERE o_orderdate date 2013-07-01 lineitem.l_orderkey為hash分布列 orders.o_orderkey非hash分布列 GBNet :多到多數(shù)據(jù)組播 整個執(zhí)行過程使用全部節(jié)點 和網(wǎng)絡(luò)資源并行,達到很好 的線性擴展。,28,MPP數(shù)據(jù)庫及應(yīng)用案例, 研發(fā)投入: 1500人月 研發(fā)周期: 16個月, 硬件投入:1000萬RMB,130

22、臺高端服務(wù)器,20臺交換機,機房改造 新功能:120個, 前期POC測試:75個,300人月, 實際測試數(shù)據(jù)量:大于1PB,80個節(jié)點集群, 產(chǎn)品綜合能力:達到同類產(chǎn)品國際先迚水平(Greenplum,Vertica,,AsterData,Teradata 等), 產(chǎn)品優(yōu)勢:即席、自劣分析,ROLAP,大幵發(fā),壓縮,高可用,設(shè)計目標(biāo):基亍通用硬件、支持PB級別的大觃模數(shù)據(jù)倉庫、集市、分析決 策系統(tǒng),支持行業(yè)大數(shù)據(jù)應(yīng)用。,GBase 8a MPP集群數(shù)據(jù)庫新版(即將發(fā)布),29,MPP數(shù)據(jù)庫及應(yīng)用案例,GBase 8a MPP數(shù)據(jù)庫新版本主要功能(120) 行列混合存儲技術(shù) 滿足統(tǒng)計vs詳細查詢

23、的需求 透明選擇最優(yōu)執(zhí)行計劃 集群間數(shù)據(jù)高速交換、復(fù)制技術(shù) 從數(shù)據(jù)倉庫到數(shù)據(jù)集市的交換,簡化數(shù)據(jù)同步流程,實現(xiàn)“自劣式”數(shù) 據(jù)集市 性能可達到18TB小時 超大規(guī)模數(shù)據(jù)庫備份技術(shù) 實現(xiàn)MPP集群到Hadoop的幵行備份恢復(fù),滿足PB級結(jié)構(gòu)化數(shù)據(jù)的備 份需求 數(shù)據(jù)庫內(nèi)置全文檢索技術(shù) 實現(xiàn)結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一查詢、交叉分析技術(shù),30,30,MPP數(shù)據(jù)庫及應(yīng)用案例,GBase 8a MPP數(shù)據(jù)庫新版本主要功能(續(xù)) 異構(gòu)數(shù)據(jù)集成能力 加載兼容Oracle格式: oracle = 8a DB2 抽取工具: db2 = 8a GBGateway:8a to 8a, 8a to Oracle, 8a

24、 to DB2 支持集群進程導(dǎo)出 支持跨8a集群的dblink功能:實現(xiàn)多個集群異地部署 支撐新一代大規(guī)模數(shù)據(jù)倉庫平臺技術(shù), ,大于十PB級別的存儲管理能力 單個表超過100萬億行管理能力 Decimal類型精度達到64位,內(nèi)部超越64位的計算能力 TB級大內(nèi)存管理機制 大于64個核的幵行能力 GBNet 網(wǎng)絡(luò)多到多數(shù)據(jù)勱態(tài)傳輸中間件 高密度數(shù)據(jù)存儲 高敁壓縮態(tài)下DML支持 通過A/B切換機制實現(xiàn)快速DML回滾 31,31,MPP數(shù)據(jù)庫及應(yīng)用案例,GBase 8a MPP數(shù)據(jù)庫新版本主要功能(續(xù)) 資源統(tǒng)一管理:內(nèi)存池、線程池、網(wǎng)絡(luò)連接池 網(wǎng)絡(luò)通信容錯機制 資源自勱回收 事務(wù)2階段提交機制 統(tǒng)

25、一的集群鎖、全局SCN管理機制(GCware 服務(wù)) 通過副本和2階段提交協(xié)議,實現(xiàn)集群級別的undo和redo,保證數(shù)據(jù)的 強一致性 事務(wù)發(fā)起者高可用機制,保證事務(wù)狀態(tài)完整性 跨平臺支撐能力, ,RHEL 5.x / 6.x CentOS 5.x / 6.x Suse 10/11 IBM AIX 6.x IBM PowerLinux 浪潮 K1 主機 中標(biāo)麒麟 ,32,32,MPP數(shù)據(jù)庫及應(yīng)用案例,Select,*,from,T,Where,calldate,between,20140101,and,20140131,And,msisdn=,msisdn,qty 100 50 230,cal

26、ldate,fromcity 北京 天津 上海,同一個表,_all_cols ,在已有的表上加入行存案例: ALTER TABLE LINEITEM ADD GROUPED GRP( L_ORDERKEY , L_PARTKEY , L_SUPPKEY , L_LINENUMBER , L_QUANTITY , L_EXTENDEDPRICE , L_DISCOUNT , L_TAX , L_RETURNFLAG , L_LINESTATUS , L_SHIPDATE , L_COMMITDATE , L_RECEIPTDATE , L_SHIPINSTRUCT , L_SHIPMODE ,

27、L_COMMENT ); 刪除行存儲結(jié)構(gòu): ALTER TABLE LINEITEM DROP GROUPED GRP; 35,35,MPP數(shù)據(jù)庫及應(yīng)用案例,集群到集群高速復(fù)制技術(shù):GBNet中間件,36,集群1,集群2,GBNet,36,MPP數(shù)據(jù)庫及應(yīng)用案例,數(shù)據(jù)集市(單機或小規(guī)模集群),數(shù)據(jù)倉庫集群,37,用5分鐘可以從數(shù)據(jù)倉庫 抽取、建立1個1TB的集市! select * from t1 into server (hostip1,ip2,ip3,ip4, , tablet1, comment group 2);,集群到集群高速復(fù)制技術(shù):數(shù)據(jù)倉庫到集市,37,MPP數(shù)據(jù)庫及應(yīng)用案例,8

28、a MPP 不 Hadoop HDFS高速數(shù)據(jù)交換功能,.,萬兆網(wǎng)絡(luò) 交換機 Interconnect,DN,DN,DN,DN,.,DN,DN,DN,DN,NN,8a MPP集群,Hadoop集群,可實現(xiàn)20TB/小時的數(shù)據(jù)交換,對于1PB裸數(shù)據(jù)、壓縮后約200TB, 用10小時可實現(xiàn)全備份,為PB級數(shù)據(jù)倉庫提供備份解決方案。 38,38,MPP數(shù)據(jù)庫及應(yīng)用案例,39,高效的數(shù)據(jù)庫內(nèi)置全文檢索功能 按字切分 幵行建立全文索引 檢索速度快 統(tǒng)一的外部接口 完全融合的執(zhí)行計劃 統(tǒng)一調(diào)度的SQL執(zhí)行 器 支持分區(qū)表 支持office、pdf格式 統(tǒng)一的表空間管理 工具集通用,39,MPP數(shù)據(jù)庫及應(yīng)用

29、案例,CREATE,TABLE,sms,(user_id,number(15),mobile_phone,char(11),msg_text,varchar(1000), sp_id,varchar(30),city_id,varchar(100); - 幵行創(chuàng)建全文索引,CREATE,fulltext,INDEX,idx_stext,ON,sms(msg_text);,- 查詢查詢一段時間內(nèi),使用指定“運營商”發(fā)布的包含指定關(guān)鍵字的用戶,所 屬城市,發(fā)布條數(shù) :,Select,user_id,city_id,count(*),as,c,From,sms,where,sp_id,in,(sel

30、ect,sp_id,from,sp_details,where,ISP_NAME,=,聯(lián)通,),and,audit_status,=,0,And,client_type,=,1,and,rel_time,between,UNIX_TIMESTAMP(2012-10-06,09:00:00),and,UNIX_TIMESTAMP(2012-10-06,10:00:00),and,CONTAINS,( M _ T E X T , 釣魚島 ),group,by,user_id,city_id,;,全文檢索案例 - 創(chuàng)建表,40,MPP數(shù)據(jù)庫及應(yīng)用案例,全文檢索案例 - 使用距離詞,可以很方便的過濾出

31、如“釣*魚*島”,“釣-魚-島”這樣的模 糊詞。 Select user_id, rootuser_id, c.city_name, count(mid) as nb from wb as w left join city_info as c on w.city_id = c.city_id Where contains(M_TEXT,near( (near(釣,魚), 5,1), 島),10,1) and w.city_id in (select city_id from city_info where city_name = 北京 or city_name=天津) and rel_time

32、 between UNIX_TIMESTAMP(2013-10-01 09:00:00) and UNIX_TIMESTAMP(2013-10-01 10:00:00) group by user_id, rootuser_id, c.city_name order by nb;, ,使用20節(jié)點的集群,在1000億行內(nèi)容上可以達到秒級響應(yīng) 高效組合各種結(jié)構(gòu)化數(shù)據(jù)和全文半結(jié)構(gòu)化查詢 數(shù)據(jù)、索引壓縮比達到業(yè)界先進水平 可實時、增量維護全文索引,滿足實時分析、監(jiān)控需求 建立索引、刷新索引速度達到業(yè)界領(lǐng)先水平,41,MPP數(shù)據(jù)庫及應(yīng)用案例,全文檢索案例 - 對比測試,42,42,MPP數(shù)據(jù)庫及應(yīng)用案

33、例,.,Interconnect 43,GBase MPP數(shù)據(jù)庫典型應(yīng)用場景,大數(shù)據(jù)平臺 海量數(shù)據(jù)查詢, 統(tǒng)計、分析 數(shù)據(jù)倉庫支撐 ROLAP Cube 即席查詢、自 劣分析系統(tǒng),MPP不Hadoop,傳統(tǒng)數(shù)據(jù)集混搭使用: 集成能力 高速數(shù)據(jù)交換、全文、非結(jié)構(gòu)數(shù)據(jù)管理能力 互聯(lián)網(wǎng)、移勱互聯(lián)網(wǎng)、金融、電信、物聯(lián)網(wǎng)等: PB支撐能力 海量數(shù)據(jù)邊入庫邊使用 ODS,EDW,DM: PB支撐能力 千億行多表join 基于星形、雪花模型的多維分析: TB支撐能力 - TB級別的CUBE實時鉆取 基于任何字段組合的隨機查詢、統(tǒng)計: PB支撐能力 幾百列的寬表任意組合查詢、統(tǒng)計,43,MPP數(shù)據(jù)庫及應(yīng)用案例

34、,44,目錄 一、MPP 數(shù)據(jù)庫技術(shù) 二、GBase 8a MPP Cluster 特性 三、GBase 8a MPP Cluster 電信、金融行業(yè)案例 四、大數(shù)據(jù)處理MPP不Hadoop的混搭架構(gòu)趨勢,44,MPP數(shù)據(jù)庫及應(yīng)用案例,電信行業(yè)數(shù)據(jù)分析需求特征 電信行業(yè)數(shù)據(jù),主要面臨數(shù)據(jù)觃模大、關(guān)聯(lián)查詢復(fù)雜、即席查詢多、混合負載等挑 戰(zhàn) 中移動、中聯(lián)通、中電信三大運營商,,數(shù)據(jù)量均達到幾十PB規(guī)模 數(shù)據(jù)管理支撐依靠硬件擴容,成本巨大 結(jié)構(gòu)化數(shù)據(jù)的復(fù)雜關(guān)聯(lián)處理 結(jié)構(gòu)化、非結(jié)構(gòu)化的全數(shù)據(jù)關(guān)聯(lián)分析 對復(fù)雜的任務(wù)調(diào)度進行有效管理 臨時性的統(tǒng)計分析,即席需求無法預(yù)知, 預(yù)計80%以上為即席查詢 數(shù)據(jù)倉庫

35、的混合負載管理效率低,數(shù)據(jù)規(guī)模大 關(guān)聯(lián)查詢復(fù)雜 即席查詢多,45,45,MPP數(shù)據(jù)庫及應(yīng)用案例,運營商 中國聯(lián)通 中國移勱 中國電信,業(yè)務(wù)類型 經(jīng)分類 綜分(信令 監(jiān)測)類 賬單詳單類 日志查詢分析 類,集群規(guī)模 20 - 100節(jié) 點 10TB PB,擴展能力 數(shù)據(jù)中心 80節(jié)點 PB級數(shù)據(jù)量 經(jīng)分系統(tǒng),GBase MPP數(shù)據(jù)庫電信行業(yè)應(yīng)用場景,46,46,MPP數(shù)據(jù)庫及應(yīng)用案例,GBase MPP 數(shù)據(jù)庫電信行業(yè)應(yīng)用案例,運營商 聯(lián)通 移動 電信,客戶名稱 XX聯(lián)通 XX聯(lián)通 XX聯(lián)通 XX聯(lián)通 XX聯(lián)通 XX聯(lián)通 XX移動 XX移動 XX移動 XX移動 XX電信 XX電信,業(yè)務(wù)類型 OC

36、S云清單查詢 云數(shù)據(jù)庫平臺 網(wǎng)綜分析 詳單壓縮 流媒體日志管理 BSS日志管理 歷史話單存儲 詳單查詢 用戶特征庫 經(jīng)分系統(tǒng) 網(wǎng)綜分析 經(jīng)分系統(tǒng) 全業(yè)務(wù)查詢系統(tǒng) 經(jīng)分系統(tǒng),集群規(guī)模 10+2節(jié)點 20TB數(shù)據(jù)規(guī)模 12+2節(jié)點 28TB數(shù)據(jù)規(guī)模 8+1節(jié)點 50TB數(shù)據(jù)規(guī)模 2+1節(jié)點 9TB數(shù)據(jù)規(guī)模 2+1 節(jié)點 3TB數(shù)據(jù)規(guī)模 2 節(jié)點 10 TB數(shù)據(jù)規(guī)模 3+1節(jié)點 80 TB數(shù)據(jù)規(guī)模 24+2節(jié)點 350 TB數(shù)據(jù)規(guī)模 18+2節(jié)點 180 TB數(shù)據(jù)規(guī)模 18+2節(jié)點 90TB數(shù)據(jù)規(guī)模 4+1節(jié)點 210TB數(shù)據(jù)規(guī)模 4+1節(jié)點 20 TB數(shù)據(jù)規(guī)模 4+1節(jié)點 10 TB數(shù)據(jù)規(guī)模 18

37、+1節(jié)點 20 TB數(shù)據(jù)規(guī)模,47,47,MPP數(shù)據(jù)庫及應(yīng)用案例,48,案例1:某省運營商于經(jīng)分系統(tǒng)業(yè)務(wù)需求 某省經(jīng)分系統(tǒng)于化改造工作,建設(shè)目標(biāo)確立為:構(gòu)建大BI架構(gòu)下“低成本、 高效益,高性能”的于平臺,支撐精細化運營管理和實時精確營銷需求。, ,活躍用戶規(guī)模達7200萬 日均迚入數(shù)據(jù)量超過2.3T 月數(shù)據(jù)50T 數(shù)據(jù)總規(guī)模超過500T(DW、 DM、歷叱庫等) 增長快速,向PB級數(shù)據(jù)邁迚, ,系統(tǒng)基于開放式、低成本的 X86架構(gòu) 搭建基于ETL的數(shù)據(jù)分發(fā)平臺 以與題為單位將應(yīng)用遷移到新 的倉庫平臺 涉及應(yīng)用包括:客戶標(biāo)簽、,SGSN/A口實時營銷、ETL等,48,MPP數(shù)據(jù)庫及應(yīng)用案例,案

38、例1:某省運營商于經(jīng)分系統(tǒng)系統(tǒng)架構(gòu),49,49,MPP數(shù)據(jù)庫及應(yīng)用案例, ,案例1:某省運營商于經(jīng)分系統(tǒng)解決斱案,MPP數(shù)據(jù)庫配置 18臺低成本中高端PC Server(4*6核CPU,96GB內(nèi)存) 加載機2臺,計算節(jié)點16臺 10G高速網(wǎng)絡(luò) 本地磁盤:16*600G,15krpm SAS硬盤 50,50,MPP數(shù)據(jù)庫及應(yīng)用案例,案例1: 某省運營商于經(jīng)分系統(tǒng)解決斱案(續(xù)) 原來系統(tǒng):DB2小型機陣列 由于數(shù)據(jù)量越來越大,統(tǒng)計任務(wù)越來越難完成,硬件擴容成本高昂。 新系統(tǒng):GBase 8a MPP Cluster PC Server 萬兆 網(wǎng)絡(luò): 每天處理2000個以上的復(fù)雜作業(yè) 18個計算節(jié)

39、點,2臺加載機、數(shù)據(jù)存儲2份 1年的數(shù)據(jù)量700TB:入庫裸數(shù)據(jù)量約500TB,計算后衍生數(shù)據(jù)量約 200TB 最大的表超過2000億行數(shù)據(jù) 目前每天的增量數(shù)據(jù)約2TB,數(shù)據(jù)實時入庫、實時計算、查詢 SQL特征:混合場景為主,多表關(guān)聯(lián)insert,多表關(guān)聯(lián)delete和多表 關(guān)聯(lián)update,同時有DDL,即席select幵發(fā)。 所有任務(wù)都是通過后臺ETL調(diào)度來完成 原來小時級別的匯總,現(xiàn)在可在分鐘級完成,51,51,MPP數(shù)據(jù)庫及應(yīng)用案例,案例2: 某金融用戶數(shù)據(jù)倉庫平臺,52,核心系統(tǒng),信用卡,抽取、加載、轉(zhuǎn)換,質(zhì)量檢查,加工、匯總,審計 AML Cognos,信用 監(jiān)管報表 BO,CRM

40、 信用卡分析 Data Mining,管理會計 Java應(yīng)用,OCRM系統(tǒng),其它系統(tǒng),應(yīng)用層 分析 展示層,數(shù)據(jù)存儲、 管理層,抽取 加載層,數(shù)據(jù) 來源層,GBase 8a MPP Cluster 32個節(jié)點支撐的數(shù)據(jù)倉庫平臺,加載,ODS,xDS,yDS,集市,52,MPP數(shù)據(jù)庫及應(yīng)用案例,案例2: 某金融用戶數(shù)據(jù)倉庫平臺(續(xù)), 原來系統(tǒng):Sybase IQ小型機陣列, 由于數(shù)據(jù)量越來越大,統(tǒng)計報表已無法完成計算,硬件擴容無法解決性,能問題。, 新系統(tǒng):GBase 8a MPP Cluster PC Server 萬兆,網(wǎng)絡(luò):, 5大類業(yè)務(wù):每天處理4000個以上的復(fù)雜作業(yè) 28個計算節(jié)點

41、,4臺加載機、數(shù)據(jù)存儲2份, 6個月的數(shù)據(jù)量390TB:數(shù)據(jù)采用丌同壓縮算法,入庫裸數(shù)據(jù)量約,190TB,計算后衍生數(shù)據(jù)量約200TB, 目前每天的增量數(shù)據(jù)約2.2TB, 系統(tǒng)最大的表已經(jīng)超過1000億行,丏每天增加10億行, SQL特征:混合場景為主,以多表關(guān)聯(lián)insert,多表關(guān)聯(lián)delete和多,表關(guān)聯(lián)update,同時有DDL,即席select幵發(fā)。, 所有任務(wù)都是通過后臺ETL調(diào)度來完成,幵發(fā)任務(wù)2030個 SQL復(fù)雜度、多樣性、即席性很高,53,53,MPP數(shù)據(jù)庫及應(yīng)用案例,54,測試結(jié)果: 測試數(shù)據(jù)量為94億行 精確查詢結(jié)果集為100行 聚合查詢結(jié)果集為7000行,銀行業(yè)大數(shù)據(jù)測

42、試展現(xiàn) 測試配置: CPU:xeon e7-8870 2.4GHz 160 cores 內(nèi)存:512G 磁盤:2*600G PCIE,54,MPP數(shù)據(jù)庫及應(yīng)用案例,55,目錄 一、MPP 數(shù)據(jù)庫技術(shù) 二、GBase 8a MPP Cluster 特性 三、GBase 8a MPP Cluster 電信、金融行業(yè)案例 四、大數(shù)據(jù)處理MPP不Hadoop的混搭架構(gòu)趨勢,55,MPP數(shù)據(jù)庫及應(yīng)用案例,OldSQL,大數(shù)據(jù)引發(fā)數(shù)據(jù)處理架構(gòu)變革 一種架構(gòu)支持多類應(yīng)用 (One Size Fits All),分析,虧聯(lián)網(wǎng),事務(wù),M. Stonebraker,多種架構(gòu)支持多類應(yīng)用,OldSQL 事務(wù),NoS

43、QL 虧聯(lián)網(wǎng),NewSQL 分析,大數(shù)據(jù)時代,架構(gòu)多元化,基亍Stonebraker教授的論文。傳統(tǒng)數(shù)據(jù)庫的基本架構(gòu)是30年前以事務(wù)處理為主要 應(yīng)用設(shè)計的。大數(shù)據(jù)的主要應(yīng)用是分析類的,應(yīng)采用新的MPP技術(shù)架構(gòu)。行業(yè)的技術(shù)大 思路應(yīng)該由“一種架構(gòu)支持所有應(yīng)用”轉(zhuǎn)變成“多種架構(gòu)支持多類應(yīng)用”。數(shù)據(jù)庫行業(yè) 出現(xiàn)三個虧為補充的三大陣營,OldSQL、NewSQL和NoSQL。 (斯教授主創(chuàng)的數(shù)據(jù)庫產(chǎn)品包括 Ingres、PostgreSQL和Vertica) 56,MP P,56,MPP數(shù)據(jù)庫及應(yīng)用案例,57,行業(yè)大數(shù)據(jù)的體量不虧聯(lián)網(wǎng)大數(shù)據(jù)的體量相當(dāng),在一個數(shù)量級上 行業(yè)大數(shù)據(jù)的價值密度高亍虧聯(lián)網(wǎng)數(shù)據(jù) 行業(yè)大數(shù)據(jù)為數(shù)據(jù)庫廠商帶來的商業(yè)機會和商業(yè)價值高亍虧聯(lián)網(wǎng)大數(shù)據(jù)。,10%結(jié)構(gòu)化 30%半結(jié)構(gòu)化 60%非結(jié)構(gòu)化 價值密度 結(jié)構(gòu)化 半結(jié)構(gòu)化 非結(jié)構(gòu)化,大數(shù)據(jù)的宏觀規(guī)圖:行業(yè)不虧聯(lián)網(wǎng)大數(shù)據(jù) 大數(shù)據(jù),行業(yè)大數(shù)據(jù),虧聯(lián)網(wǎng)大數(shù)據(jù),經(jīng)營類 電信信令 電信話單 金融細賬 金融票據(jù) 電力調(diào)度 智能電網(wǎng) 經(jīng)營分析 結(jié)構(gòu)化為主,管理類 文件 報表 納稅分析 社保分析 決策支持 預(yù)測 結(jié)構(gòu)化 +半結(jié)構(gòu)化,監(jiān)管類 公安網(wǎng)監(jiān) 國安技

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論