




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、永洪大數(shù)據(jù)技術(shù)白皮書Yonghong在大數(shù)據(jù)、分布式計算、數(shù)據(jù)分析等領(lǐng)域具備核心競爭力、自主創(chuàng)新并擁有 多項發(fā)明專利。Yonghong研發(fā)團隊推出的商業(yè)智能平臺Yonghong Z-Suite,是由一系列基于 MPP架構(gòu)的商業(yè)智能產(chǎn)品組成。Yonghong Z-Suite是發(fā)現(xiàn)型的商業(yè)智能產(chǎn)品,她具備豐富的數(shù)據(jù)分析能力。當(dāng)用戶訪問 數(shù)據(jù)應(yīng)用的時候,如果看到商業(yè)活動的異?;蛘咦兓瘯r,除了數(shù)據(jù)展現(xiàn),我們更需要的是能 夠通過即席的、深入的分析以獲取現(xiàn)象背后的深層次原因。基于Z-Suite,用戶可以不斷地 與數(shù)據(jù)對話(Talk),深入分析信息(Analyze),直到得到滿意的答案。Yonghong Z
2、-Suite具有高性能的大數(shù)據(jù)分析能力,她完全摒棄了向上升級(Scale-Up), 全面支持橫向擴展(Scale-Out)。Yonghong Z-Suite主要通過以下核心技術(shù)來支撐TB/PB級 的大數(shù)據(jù)。1 Yonghong Z-Suite 技術(shù)架構(gòu)永洪町/其他可視化皿工具ETLHJDBC 簽口備份管理監(jiān)控工具蓮接池多路、復(fù)用.尊數(shù)據(jù)加載/卸栽庫內(nèi)計算分布式計算Linux 4 Li 列 r n t e n ir nUni 系列W1 nd_OWW 系列圖一技術(shù)架構(gòu)圖1.1關(guān)鍵技術(shù)In Memory Computing 內(nèi)存計算熱點數(shù)據(jù)Swap機制IIIn Database ComputitiE
3、庫內(nèi)計算mu到高數(shù)據(jù)蜀的地力計登IICheap Storage廉價的內(nèi)存MPP Computing分布式計尊M:ap RfiduceStreami CicimputlinfIIDistributed 10分布式通信g異步,復(fù)用橫向擴展(Sulo-Out)搞插撥式主內(nèi)存花便蟲c叫緞存或為主內(nèi)存Cheap Computing廉價的計算并行HW(MPP Computing)Yonghong Z-Suite是基于MPP架構(gòu)的商業(yè)智能平臺,她能夠把計算分布到多個計算節(jié) 點,再在指定節(jié)點將計算結(jié)果匯總輸出。Yonghong Z-Suite能夠充分利用各種計算和存儲資 源,不管是服務(wù)器還是普通的PC,她對網(wǎng)
4、絡(luò)條件也沒有嚴(yán)苛的要求。作為橫向擴展的大數(shù) 據(jù)平臺,Yonghong Z-Suite能夠充分發(fā)揮各個節(jié)點的計算能力,輕松實現(xiàn)針對TB/PB級數(shù) 據(jù)分析的秒級響應(yīng)。庫內(nèi)HW(In-Database Computing)Yonghong Z-Suite支持各種常見的匯總,還支持幾乎全部的專業(yè)統(tǒng)計函數(shù)。得益于庫內(nèi) 計算技術(shù),Y onghong Z-Suite數(shù)據(jù)分析引擎將找尋出最優(yōu)化的計算方案,繼而把所有開銷較 大的、昂貴的計算都移動到數(shù)據(jù)存儲的地方直接計算,稱之為庫內(nèi)計算(In-Database)。這 一技術(shù)大大減少了數(shù)據(jù)移動,降低了通訊負(fù)擔(dān),保證了高性能數(shù)據(jù)分析。列存儲(Column-Based
5、)Yonghong Z-Suite是列存儲的?;诹写鎯Φ臄?shù)據(jù)集市,不讀取無關(guān)數(shù)據(jù),能降低讀 寫開銷,同時提高I/O的效率,從而大大提高查詢性能。另外,列存儲能夠更好地壓縮數(shù) 據(jù),一般壓縮比在5 -10倍之間這樣一來數(shù)據(jù)占有空間降低到傳統(tǒng)存儲的1/5到1/10。 良好的數(shù)據(jù)壓縮技術(shù),節(jié)省了存儲設(shè)備和內(nèi)存的開銷,卻大大了提升計算性能。內(nèi)存HW(In-Memory Computing)得益于列存儲技術(shù)和并行計算技術(shù),Y onghong Z-Suite能夠大大壓縮數(shù)據(jù),并同時利用 多個節(jié)點的計算能力和內(nèi)存容量。一般地,內(nèi)存訪問速度比磁盤訪問速度要快幾百倍甚至上 千倍。通過內(nèi)存計算,CPU直接從內(nèi)存而
6、非磁盤上讀取數(shù)據(jù)并對數(shù)據(jù)進行計算。內(nèi)存計算 是對傳統(tǒng)數(shù)據(jù)處理方式的一種加速,是實現(xiàn)大數(shù)據(jù)分析的關(guān)鍵應(yīng)用技術(shù)。分布式通訊(Distribute IO)分布式通訊比較底層,是介紹得比較少的領(lǐng)域。不過,中間計算結(jié)果能否在集群中穩(wěn)定 且高效地傳輸,是整個集群能否達(dá)到實時計算的關(guān)鍵??蓮?fù)用的TCP/IP連接:系統(tǒng)的TCP/IP連接是可復(fù)用的,不像傳統(tǒng)方式一樣,一個信 息傳遞需要建立一個連接,而信息交換的接收與發(fā)出邏輯對應(yīng)的軟件進程/線程是可復(fù)用的。 這一方法降低了整個系統(tǒng)的TCP/IP負(fù)載,以及線程/進程開銷。多路的信息傳輸:系統(tǒng)的信息傳輸是多路的。這類似于高速公路的多車道。如果一個 TCP/IP連接不
7、夠,可以增加TCP/IP連接。而如果閑置,可以收回多余的連接以釋放網(wǎng)絡(luò)、CPU、內(nèi)存資源。異步的信息傳輸:系統(tǒng)的信息傳輸是異步的。發(fā)出信息的請求方不會占據(jù)著TCP/IP連 接,而是在發(fā)出信息之后立即釋放資源。以異步的消息通知機制等待返回處理結(jié)果,這一異 步機制讓系統(tǒng)在等待返回處理結(jié)果時不會白白耗費資源,在接收方處理信息時也不會占據(jù) TCP/IP連接和相應(yīng)的線程/進程資源。系統(tǒng)以異步信息交換的方式,成功地消除了信息處理 與信息傳輸之間的耦合。提升了信息交換能力但有效地降低了信息交換所需要的網(wǎng)絡(luò)資源、 CPU、或者內(nèi)存資源。穩(wěn)定的內(nèi)存使用:由于整個通訊過程中Socket通道是復(fù)用的,而Socket
8、通道對應(yīng)的 讀內(nèi)存塊和寫存塊也是復(fù)用的,很少有內(nèi)存的申請和釋放操作。這提升了整個系統(tǒng)的性能和 穩(wěn)定性。健壯的信息傳輸:系統(tǒng)的TCP/IP連接是可自修復(fù)的。網(wǎng)絡(luò)可能會有各種問題導(dǎo)致連接 出錯,為了避免數(shù)據(jù)流里可能丟失了數(shù)據(jù),給每個數(shù)據(jù)流的頭部加了標(biāo)識位,在任何找不到 標(biāo)識位的情況下,連接都會自動關(guān)閉。系統(tǒng)會自動重新建立連接。1.1.6執(zhí)行計劃的優(yōu)化算法可以做到三個層面的執(zhí)行計劃的優(yōu)化:基于Block Meta的高層優(yōu)化:粗粒度索引,基 于每個Block的每個Column的中層優(yōu)化:讀取文件頭;基于計算強度進行SQL改寫的底 層優(yōu)化:根據(jù)計算強度,來改寫優(yōu)化。1.1.7 商智能(BI)數(shù)據(jù)倉庫+
9、OLAP時代的商業(yè)智能系統(tǒng),要求用戶預(yù)先提出的分析及統(tǒng)計的需求。以 此為基礎(chǔ),展開數(shù)據(jù)建模工作,進而導(dǎo)入數(shù)據(jù),然后再創(chuàng)建Cube。這些工作完成以后,才 能開發(fā)商業(yè)智能應(yīng)用,這是典型的數(shù)據(jù)驅(qū)動模式。Yonghong Z-Suite支持業(yè)務(wù)驅(qū)動的商業(yè)智能系統(tǒng),直接導(dǎo)入細(xì)節(jié)數(shù)據(jù),不再要求用戶 預(yù)先提出具體的分析及統(tǒng)計需求也不再有創(chuàng)建Cube的過程這大大簡化了數(shù)據(jù)層的工作, 縮短了數(shù)據(jù)層的響應(yīng)周期,整個商業(yè)智能系統(tǒng)由數(shù)據(jù)驅(qū)動轉(zhuǎn)化為業(yè)務(wù)驅(qū)動。在數(shù)據(jù)倉庫+ OLAP時代,一個新的分析需求也許要用一個月的時間去實現(xiàn),現(xiàn)在Yonghong Z-Suite支 持只需幾天或幾個小時。2與Hadoop架構(gòu)比對Had
10、oop目前幾乎是大數(shù)據(jù)的代名詞,很多企業(yè)都基于Hadoop搭建自己的大數(shù)據(jù)業(yè) 務(wù)。以下是Hadoop的主要優(yōu)點:Hadoop集群的擴展性是其一大特點,Hadoop可以擴展至數(shù)千個節(jié)點,對數(shù)據(jù) 持續(xù)增長,數(shù)據(jù)量特別巨大的需求很合適。2. Hadoop的成本是其另一大優(yōu)勢,由于Hadoop是開源項目,而且不僅從軟件 上節(jié)約成本,硬件上的要求也不高。目前去IOE潮流風(fēng)行,低成本的Hadoop也 是一大推手。3. Hadoop生態(tài)群活躍,其周邊開源項目豐富,HBase, Hive , Impala等等基礎(chǔ) 開源項目眾多。部么Hadoop的不足有哪些呢?Hadoop不適合做實時分析系統(tǒng)。從通訊層的技術(shù)上
11、來說有如下原因:任務(wù)分配Server不會將信息Push到計算Node,而是讓計算Node通過心跳去 Pul l任務(wù)?;诳蚣艿耐ㄓ眯裕琈apReduce代碼也會在HDFS中傳送,在各計算Node展 開,再通過啟動新JVM進程裝載并運行。類似的JVM進程啟停有5、6次之多。Reduce Task只能在全部Map Task完成之后才能啟動。缺乏專業(yè)的支持服務(wù)因為是開源項目,缺少專業(yè)的商業(yè)支持服務(wù),公司需要儲備專業(yè)Hadoop知識的專家 來保證系統(tǒng)的正常運轉(zhuǎn)。Hadoop可以支持百億的數(shù)據(jù),但很難應(yīng)對秒級響應(yīng)的在線分析需求,一般作為 離線分析系統(tǒng)即使是數(shù)億的數(shù)據(jù)量,Hadoop也只適合做分鐘級別的離
12、線分析系統(tǒng)。而百億級別數(shù)據(jù)量,又需要秒級響應(yīng)的案例,需要什么系統(tǒng)支持呢?下面介紹下大數(shù)據(jù) 實時分析工具Yonghong Z-Suite。通過結(jié)合多種Yonghong自有的專利技術(shù),在幾個節(jié)點下,Yonghong Z-Suite就能 擔(dān)負(fù)起幾十億,乃至上百億數(shù)據(jù)量的實時分析和展現(xiàn)。Yonghong Z-Suite相對Hadoop有哪些不足呢? Hadoop能支撐PB級大數(shù)據(jù),數(shù) 千節(jié)點的大規(guī)模集群。對于Yonghong Z-Suite這種實時大數(shù)據(jù)分析系統(tǒng)一般支撐TBPB 級的大數(shù)據(jù),節(jié)點數(shù)一般不超過100。除了提供優(yōu)秀的前端BI工具之外,Yonghong Z-Suite讓用戶可以選購分布式數(shù)據(jù)
13、集市來支持實時大數(shù)據(jù)分析。3典型場景使用3.1場景一Hadoop倉儲中心已經(jīng)搭建,存儲了幾百TB數(shù)據(jù)到上PB級數(shù)據(jù)。需要實時統(tǒng)計分析一段 范圍的數(shù)據(jù)。利用HBase或Hive無法滿足實時需求。也許還需要跟關(guān)系型數(shù)據(jù)庫中的維度表做關(guān)聯(lián)再分析。Ha do叩存儲平臺條誰度的數(shù)據(jù)可視化展現(xiàn), 豐富的交互分析ETL客戶端采用任務(wù)調(diào)度器將近一天, 七天,一個月的結(jié)果導(dǎo)出, 推送給指定郵箱中BI客戶端吊叩集群小臺)Yonghortg大數(shù)據(jù)平臺架構(gòu)部署圖3.1.1據(jù)存儲層幾百TB甚至上PB級細(xì)節(jié)數(shù)據(jù)存儲在Hadoop集群中。通過Hive或者HBase訪問數(shù)據(jù)。3.1.2據(jù)抽取入集市將數(shù)據(jù)按照主題建立成多個集市
14、導(dǎo)入到MPP集群中。如果采用Hive方式訪問數(shù)據(jù),可以采取ODBC/JDBC的方式直接建立連接讀取數(shù)據(jù)。如果 采用HBase方式訪問數(shù)據(jù),可以定制一個Customized Query來讀取數(shù)據(jù)。如果是直接訪問 HDFS文件來導(dǎo)出數(shù)據(jù),可以定制一個Customized Query來讀取數(shù)據(jù)。ETL過程中可以做數(shù)據(jù)清洗,格式轉(zhuǎn)換,還可以跟其他庫的維度表進行關(guān)聯(lián),形成寬表入 庫。入庫時還能根據(jù)時間或者區(qū)域來給數(shù)據(jù)打上粗粒度標(biāo)簽便于以后做數(shù)據(jù)優(yōu)化調(diào)整使用。 歷史數(shù)據(jù)集中導(dǎo)入,增量數(shù)據(jù)自動導(dǎo)入,增量更新的時間粒度根據(jù)系統(tǒng)對實效性的要求,可 以是每分鐘,每小時,每天。ETL的客戶端可以是多節(jié)點同時導(dǎo)入集市
15、,以此來提高導(dǎo)入效率。3.1.3 MPP據(jù)集市根據(jù)需要計算的數(shù)據(jù)量和計算的強度來估算一個需要搭建的機器數(shù)量。假設(shè)需要10臺機器。每臺機器承擔(dān)不同的角色,如果一臺機器的任務(wù)量不大,可以承擔(dān)多個角色。-Naming Node:負(fù)責(zé)命名工作。它知道當(dāng)前有多少臺Map Node和Reduce Node,及這 些Server的配置狀況。Map Node和Reduce Node會定期發(fā)送各自配置情況,workload (工作量),CPU,內(nèi)存等信息。Naming Node通常是一臺機器,但可以做冷備份。-Map Node:負(fù)責(zé)處理Map Task。原始數(shù)據(jù)和Map Task的代碼文件集被預(yù)先部署到MapN
16、ode上。當(dāng)它接收到Client Node發(fā)送的Map Task,可以直接執(zhí)行該任務(wù)。Map Node 可以有多臺機器。-Reduce Node:負(fù)責(zé)處理Reduce Task。它被預(yù)先部署了 Reduce Task的代碼文件集,可以直接執(zhí)行該任務(wù)。Reduce Node可以有多臺機器,而且可以指定某臺干固定的任務(wù)。 大量的細(xì)節(jié)數(shù)據(jù)在壓縮后,以文件的形式被分布式存儲在集群的硬盤中。當(dāng)計算時,會把被 打中的數(shù)據(jù)拉入到內(nèi)存中,也就是熱點數(shù)據(jù)會常駐內(nèi)存。當(dāng)發(fā)生數(shù)據(jù)失效時,會將新數(shù)據(jù)交 換到內(nèi)存中參與計算。3.1.4數(shù)據(jù)應(yīng)用層應(yīng)用層的客戶端可以是多臺機器,也就是說一套數(shù)據(jù)集市可以支撐多個應(yīng)用系統(tǒng),每個
17、應(yīng)用 系統(tǒng)用不同的客戶端來做數(shù)據(jù)展現(xiàn)。例如一個系統(tǒng)是專門來做固定報表定時推送的,另外 一個系統(tǒng)是專門來做BI展現(xiàn)前端,用戶通過賬號登陸進去,訪問可視化的界面,并做實時 的數(shù)據(jù)分析和交互。3.2場景二沒有建立Hadoop倉儲中心幾十上百TB的數(shù)據(jù)或許以日志文件形式存儲在文件系統(tǒng)中, 或許存儲在傳統(tǒng)數(shù)據(jù)倉庫中。需要實時統(tǒng)計分析一段范圍的數(shù)據(jù)。利用傳統(tǒng)數(shù)據(jù)倉庫無法滿 足實時統(tǒng)計分析的需求。也許還需要跟關(guān)系型數(shù)據(jù)庫中的維度表做關(guān)聯(lián)再分析。3.2.1數(shù)據(jù)存儲層1 )幾十上百TB的數(shù)據(jù)通過前置機采集到日志文件,并按照一定規(guī)則存儲在文件系統(tǒng)中。2)幾十上百TB的數(shù)據(jù)通過生產(chǎn)系統(tǒng)收集到傳統(tǒng)數(shù)據(jù)倉庫中,例如My
18、 SQL集群或Oracle集群中。3.2.2 數(shù)據(jù)抽取入集市將數(shù)據(jù)按照主題建立成多個集市導(dǎo)入到MPP集群中。如果訪問的是日志文件系統(tǒng),需要一個日志文本的解析器Parser,將二進制流或CSV等格 式的文本解析出來,抑或跟維度信息關(guān)聯(lián)后入庫。如果訪問的是傳統(tǒng)數(shù)據(jù)倉庫,可以采取ODBC/JDBC的方式直接建立連接讀取數(shù)據(jù)。ETL過程中可以做數(shù)據(jù)清洗,格式轉(zhuǎn)換,還可以跟其他庫的維度表進行關(guān)聯(lián),形成寬表入 庫。入庫時還能根據(jù)時間或者區(qū)域來給數(shù)據(jù)打上粗粒度標(biāo)簽便于以后做數(shù)據(jù)優(yōu)化調(diào)整使用。 歷史數(shù)據(jù)集中導(dǎo)入,增量數(shù)據(jù)自動導(dǎo)入,增量更新的時間粒度根據(jù)系統(tǒng)對實效性的要求,可 以是每分鐘,每小時,每天。ETL的客戶端可以是多節(jié)點同時導(dǎo)入集市,以此來提高導(dǎo)入效率。3.2.3 MPP:數(shù)據(jù)集市根據(jù)需要計算的數(shù)據(jù)量和計算的強度來估算一個需要搭建的機器數(shù)量。假設(shè)需要10臺機器。每臺機器承擔(dān)不同的角色,如果一臺機器的任務(wù)量不大,可以承擔(dān)多個角色。-Naming Node:負(fù)責(zé)命名工作。它知道當(dāng)前有多少臺Map Node和Reduce Node,及這 些Server的配置狀況。M
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年雙層USB母座行業(yè)深度研究分析報告
- 2025-2030年中國文化館市場深度分析與前景趨勢報告
- 裝修合同建材合同范本
- 2024-2030年中國新型注射劑行業(yè)市場調(diào)查研究及投資前景展望報告
- 合同范本禁止印刷
- 客戶購車合同范本
- 現(xiàn)代職場中的人際關(guān)系建設(shè)與溝通技巧培訓(xùn)
- 蒲公英甾醇對帕金森病小鼠模型中自噬功能異常的保護作用研究
- 結(jié)直腸鋸齒狀腺瘤臨床內(nèi)鏡病理特征分析及同時性腫瘤發(fā)生風(fēng)險研究
- Mg和Li含量對Al-Mg-Li-Cu合金力學(xué)性能和腐蝕性能的影響研究
- 超聲心動圖診斷心肌病臨床應(yīng)用指南解讀
- 地面工程油氣集輸工藝介紹
- 消防設(shè)施維保服務(wù)投標(biāo)方案
- 城市軌道交通車輛電氣控制 課件 趙麗 第1-4章 城市軌道交通車輛電氣控制系統(tǒng)構(gòu)成、城市軌道交通車輛輔助供電系統(tǒng)、電動列車常用電氣控制系統(tǒng)及其控制方法
- (2024年)新版黃金基礎(chǔ)知識培訓(xùn)課件
- 資產(chǎn)拆除報廢申請表
- 《社區(qū)康復(fù)》課件-第九章 言語障礙患者的社區(qū)康復(fù)實踐
- 萬千教育學(xué)前讓幼兒都愛學(xué)習(xí):幼兒園高質(zhì)量學(xué)習(xí)活動設(shè)計與組織
- 2024年長沙職業(yè)技術(shù)學(xué)院高職單招(英語/數(shù)學(xué)/語文)筆試歷年參考題庫含答案解析
- 綠之源家電清洗調(diào)查問卷
- 孕前優(yōu)生檢查培訓(xùn)課件
評論
0/150
提交評論