版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、大數(shù)據(jù)分析關(guān)鍵技術(shù)目錄 概述 即席查詢 批量處理 流式計算大數(shù)據(jù)計算分析模式分類即席查詢Ad-Hoc Query批量處理Batch ProcessingMap/Reduce流式計算Stream Computing數(shù)據(jù)承載響應(yīng)時間適用場景磁盤秒級(準實時)自然人交互式經(jīng)營分析磁盤分鐘級至小時級(準實時)事前/事后大批量數(shù)據(jù)處理內(nèi)存(事件窗口非全量數(shù)據(jù))秒級(實時)實時事件分析實時風險干預針對不同的業(yè)務(wù)領(lǐng)域,需要采用不同的數(shù)據(jù)計算分析方式,快速發(fā)現(xiàn)數(shù)據(jù)價值。即席查詢即席查詢(Ad Hoc)是用戶根據(jù)自己的需求,靈活的選擇查詢條件,系統(tǒng)能夠根據(jù)用戶的選擇生成相應(yīng)的統(tǒng)計報表。即席查詢與普通應(yīng)用查詢最大
2、的不同是普通的應(yīng)用查詢是定制開發(fā)的,而即席查詢是用戶自定義查詢條件。即席查詢StorageDistribute File SystemColumn DatabaseResource ManagementParallelCompute FrameworkSQL Syntax+ Compute FrameworkSQL SyntaxMetaDataBatch ProcessingAd-Hoc Query實時性:高批量處理StorageDistribute File SystemColumn DatabaseResource ManagementParallelCompute FrameworkSQ
3、L Syntax+ Compute FrameworkSQL SyntaxMetaDataBatch ProcessingAd-Hoc QueryMapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集的并行批量計算。概念Map和Reduce當前的主流實現(xiàn)是指定一個Map函數(shù),用來把一組鍵值對映射成一組新的鍵值對,指定并發(fā)的Reduce函數(shù),用來保證所有映射的鍵值對中的每一個共享相同的鍵組。形成這種模型的原因是:數(shù)據(jù)的分布式存儲、計算資源的分布式、并行計算減少計算時長。批量處理實時性:低流式計算流數(shù)據(jù)的實時計算注重對流數(shù)據(jù)的快速高效處理、計算和分析。其特點是計算過程數(shù)據(jù)不落地,所有數(shù)據(jù)在內(nèi)存中完成。
4、其計算模型是根據(jù)規(guī)則生成容器,當數(shù)據(jù)流經(jīng)過容器時,實時產(chǎn)生分析結(jié)果。流式計算InputAdapterOutputAdapterEngine ClusterClusterManagementRule RepositoryNoSQL實時性:高目錄 概述 即席查詢 批量處理 流式計算Impala NodeImpala架構(gòu)ImpaladQuery PlannerQuery CoordinatorQuery Exec EngineCommon HiveQL & InterfaceMetaDataSQLJDBCHive MetaStoreHDFS NNState StoreImpaladQuery
5、 PlannerQuery CoordinatorQuery Exec EngineImpaladQuery PlannerQuery CoordinatorQuery Exec EngineDataHDFS DNHBaseDataHDFS DNHBaseDataHDFS DNHBaseImpala NodeImpala NodeLocal Direct ReadsThriftHive架構(gòu)DataHDFS DNTask TrackerJob TrackerName NodeHadoopHive (Over Hadoop 0.20.X)SQLJDBCWUIThrift ServerDriver(
6、Compiler, Optimizer, Executor)Meta Store ThriftServer:JDBC通過ThriftServer連接到Hive。ThriftServer連接MetaStore來讀取hive的元數(shù)據(jù)信息。 MetaStore:在關(guān)系型數(shù)據(jù)庫中存放表/分區(qū)/列元數(shù)據(jù),可以低延遲的快速的訪問到需要的元數(shù)據(jù)信息。 Driver/QueryCompiler/ExecutionEngine:客戶端提交的HiveSQL首先進入Driver,然后Driver會為此次HiveSQL的執(zhí)行創(chuàng)建一個Session,Driver維護整個session的生命周期。Driver首先將Hiv
7、eSQL傳送給QueryCompiler,然后由QueryCompiler來對用戶提交的HiveSQL進行編譯/檢查/優(yōu)化并最終生成MapReduce任務(wù)。 ExecutionEngine會與Hadoop進行交互,將 MapReduce任務(wù)交給Hadoop來執(zhí)行,并從Hadoop取得最終的執(zhí)行結(jié)果,并返回給用戶。解析HiveSQL之后生成所MapReduce任務(wù),在運行中訪問元數(shù)據(jù)信息時,將直接讀取生成的物理計劃時產(chǎn)生的plan.xml,此文件會被放入Hadoop的分布式緩存中,MapReduce任務(wù)可以從分布式緩存中獲得相應(yīng)的元數(shù)據(jù)。Impala相對于Hive的優(yōu)勢Impala不需要把中間結(jié)
8、果寫入磁盤,省掉了大量的I/O開銷。省掉了MapReduce作業(yè)啟動的開銷。MapReduce啟動task的速度很慢(默認每個心跳間隔是3秒鐘),Impala直接通過相應(yīng)的服務(wù)進程來進行作業(yè)調(diào)度,速度快了很多。 Impala借鑒了MPP并行數(shù)據(jù)庫的思想,可以做更多的查詢優(yōu)化,從而省掉不必要的shuffle、sort等開銷。使用了支持Data locality的I/O調(diào)度機制,盡可能地將數(shù)據(jù)和計算分配在同一臺機器上進行,減少了網(wǎng)絡(luò)開銷。用C+實現(xiàn),做了很多有針對性的硬件優(yōu)化。對外提供多語言API、多種訪問協(xié)議。中間結(jié)果作業(yè)調(diào)度作業(yè)分發(fā)數(shù)據(jù)訪問代碼實現(xiàn)目錄 概述 即席查詢 批量處理 流式計算Map
9、Reduce v0.23.x (YARN)Node ManagerContainerApp MasterNode ManagerContainerApp MasterNode ManagerContainerResource ManagerClientClientJob SubmissionContainerMapReduce StatusResource RequestNode Status從 0.23.0 版本開始,Hadoop 的 MapReduce 框架完全重構(gòu)。新的 Hadoop MapReduce 框架命名為 MapReduceV2YARN目錄 概述 即席查詢 批量處理 流式計算
10、Primeton CEP Storm流數(shù)據(jù)處理技術(shù) 對比 傳統(tǒng)規(guī)則引擎(概念)維度流數(shù)據(jù)處理技術(shù)傳統(tǒng)規(guī)則引擎處理方式“窗口模式”多維關(guān)聯(lián)分析基于對屬性的判斷處理模型富狀態(tài)無狀態(tài)異常處理內(nèi)存狀態(tài)數(shù)據(jù)的自動化恢復服務(wù)無狀態(tài),數(shù)據(jù)重跑簡單舉例每種硬幣各有多少個對硬幣進行分類按時間區(qū)間、按長度區(qū)間、按時間與長度混合區(qū)間、按特有屬性值等規(guī)則所建立起的對象集合,存放在內(nèi)存中。若動畫中,再對已分類的硬幣進行自動打包,有兩種方式:1. 判斷槽中的硬幣數(shù)量,觸發(fā)打包動作;2. 判斷槽中的硬幣重量,觸發(fā)打包動作;窗口模式如動畫中對硬幣的分揀動作:可以根據(jù)硬幣的物理屬性設(shè)計不同的判斷規(guī)則(軌道寬度,轉(zhuǎn)角等),完成分
11、類。決策判斷普元CEP平臺架構(gòu)事件采集層AgentAgentAgentAgent外部系統(tǒng)系統(tǒng)A系統(tǒng)B系統(tǒng)C系統(tǒng)D接入層Input Cluster 1n分析引擎平臺結(jié)果執(zhí)行層規(guī)則庫分析引擎OSGi Based分析引擎OSGi Based接入層Output Cluster 1n分析規(guī)則開發(fā)(離線開發(fā))規(guī)則開發(fā)IDE(Eclipse Based)ActionActionActionAction應(yīng)用門戶(功能松耦合)管理門戶(規(guī)則模板生命周期管理)運維門戶(引擎監(jiān)控、全局配置、自動化部署)業(yè)務(wù)門戶(規(guī)則實例業(yè)務(wù)參數(shù)配置)分析集群運行環(huán)境管理控制環(huán)境普元CEP平臺特色基于云計算PaaS架構(gòu)分布式集群管控
12、框架系統(tǒng)級物理主機/虛擬機管理進程級服務(wù)實例管理集群配置分析規(guī)則熱更新/熱部署與虛擬機鏡像結(jié)合分析服務(wù)快速部署與規(guī)則庫結(jié)合規(guī)則插件快速部署集群通知渠道規(guī)則實例快速應(yīng)用自動化、圖形化運維事件分析平臺面向數(shù)據(jù)流基于內(nèi)存內(nèi)存狀態(tài)數(shù)據(jù)遷移冷熱數(shù)據(jù)分離與恢復集群規(guī)模水平伸縮事件動態(tài)路由分析規(guī)則開發(fā)、管理與應(yīng)用規(guī)則模板開發(fā)IDE事件元數(shù)據(jù)類SQL規(guī)則語言Action元數(shù)據(jù)Web規(guī)則實例配置與熱部署Web規(guī)則模板管理分布式集群管控框架Any OS持久化集群AMQP MQ 集群ZooKeeper 集群Web 控制臺 (無狀態(tài), 多實例)負載均衡 (Session Sticky)物理/邏輯拓撲規(guī)則模板模板狀態(tài)規(guī)
13、則實例監(jiān)控業(yè)務(wù)進程(過濾/聚合)(Support ZKClient)ZK ClientOS (Support NodeJS)監(jiān)控業(yè)務(wù)進程(過濾/聚合)(unSupport ZKClient)Process Daemon(NodeJS+ZKClient)OS (unSupport NodeJS)監(jiān)控業(yè)務(wù)進程(過濾/聚合)(unSupport ZKClient)Process Daemon(Java+ZKClient)OS Agent(NodeJS+ZKClient+MQClient)OS Agent(NodeJS+ZKClient+MQClient)OS Agent(Java+ZKClient+
14、MQClient)管控服務(wù)ZK客戶端DB客戶端MQ客戶端規(guī)則部署與配置場景運維人員Repository業(yè)務(wù)Console業(yè)務(wù)人員DBCEPEngine1CEPEngine2CEPEngine3ZooKeeper3. 下載規(guī)則的表單頁面2. 保存規(guī)則到倉庫運維Console4. 規(guī)則參數(shù)配置5. 保存規(guī)則參數(shù)配置6. 保存規(guī)則參數(shù)配置到ZooKeeperengine1Rule1Rule2Rule3engine2Rule4engines7. 通知Engine1. 上傳規(guī)則部署包8. 下載規(guī)則2. 保存規(guī)則信息到DB接出層分析引擎接入層分析引擎A規(guī)則實例A1規(guī)則實例A2規(guī)則實例An規(guī)則實例A3分析引
15、擎B事件路由1事件路由p事件路由事件去重1事件去重q事件去重NoSQL負載均衡(可選)事件輸入事件輸出集群管理MQMQ事件分析規(guī)則1:n分析引擎實例n:1規(guī)則規(guī)則實例B1規(guī)則實例B2規(guī)則實例Bn規(guī)則實例B3普元CEP關(guān)鍵技術(shù)事件路由與去重多副本冗余增強可靠性分析引擎實例3實例4實例2普元CEP關(guān)鍵技術(shù)實例狀態(tài)復制接出層接入層實例1實例A1實例A2異常實例A3事件路由事件去重事件輸入事件輸出實例A4新增場景說明實例A2異常實例A4新增ContextContextContextContext包括最終接收事件號狀態(tài)對象關(guān)鍵步驟1從A1或A3中選擇一個實例,如A3關(guān)鍵步驟2將A3工作暫停,獲得其Con
16、text此時A1正常工作,A2已經(jīng)退出,A3暫停關(guān)鍵步驟3創(chuàng)建新的實例A4(未啟動狀態(tài))將Context復制到A4中恢復A3的工作狀態(tài),啟動A4關(guān)鍵點業(yè)務(wù)不中斷事件去重完成對重復事件的過濾可靠性取決于集群內(nèi)實例個數(shù)CCCD狀態(tài)數(shù)據(jù)遷移與備份JVM普元CEP關(guān)鍵技術(shù)規(guī)則實例水平遷移內(nèi)存規(guī)則數(shù)事件量JVM1分析引擎事件大小容量預估模型規(guī)則實例m事件*狀態(tài)*分布式集群管理框架規(guī)則實例n事件*狀態(tài)*規(guī)則實例x事件*狀態(tài)*NoSQL(MongoDB)JVM1規(guī)則實例m事件*狀態(tài)*規(guī)則實例x事件*狀態(tài)*JVM2規(guī)則實例x事件*狀態(tài)*運行期實時監(jiān)控系統(tǒng)容量擴展普元CEP關(guān)鍵技術(shù)基于OSGi的規(guī)則部署包規(guī)則庫
17、目錄結(jié)構(gòu)和導出規(guī)則部署包的目錄結(jié)構(gòu)一致,方便部署和下載CEP Engine規(guī)則庫的目錄結(jié)構(gòu)與console的規(guī)則庫目錄結(jié)構(gòu)區(qū)別在于web目錄。一個rule目錄作為一個OSGi的bundlerulesJava packageclassesrule1.ruleepseps1.epslib3rd1.jarAction1.classExtFunc.classrule1eventSourceevent1.eventevent2.eventwebform1.jsprule2Listener1.classMETA-INFMANIFEST.MFextextconfig1OSGi Bundle規(guī)則庫/部署包規(guī)則
18、模板熱部署普元CEP 1.5平臺(主機管理)普元CEP 1.5平臺(集群管理)普元CEP 1.5平臺(實例管理)普元CEP 1.5平臺(規(guī)則模板管理)普元CEP 1.5平臺(規(guī)則實例管理)普元CEP 1.5平臺(狀態(tài)監(jiān)控)普元CEP 1.5平臺(規(guī)則模板元數(shù)據(jù))普元CEP 1.5平臺(規(guī)則實例業(yè)務(wù)參數(shù)配置)普元CEP 1.5平臺(規(guī)則包)目錄 概述 即席查詢 批量處理 流式計算 Primeton CEP StormStorm基本概念StreamSpoutBoltStreaming GroupingTaskWork消息流,一個無盡的Tuple序列。Topology規(guī)則拓撲,由多個Spout和Bo
19、lt組成。消息發(fā)送器,區(qū)分可靠與不可靠。消息處理器,業(yè)務(wù)邏輯載體,多入多出。消息分組方式,數(shù)據(jù)進入Blot的策略。工作任務(wù),可以是Spout或Blot。工作進程,當JVM且執(zhí)行Topology的一部分。Storm集群組件主控節(jié)點運行一個被稱為Nimbus的后臺程序,它負責在Storm集群內(nèi)分發(fā)代碼,分配任務(wù)給工作機器,并且負責監(jiān)控集群運行狀態(tài)。工作節(jié)點運行一個被稱為Supervisor的后臺程序。Supervisor負責監(jiān)聽從Nimbus分配給它執(zhí)行的任務(wù),并啟動或停止執(zhí)行任務(wù)的工作進程(Worker)。每一個工作進程(Worker)執(zhí)行一個Topology的子集。Nimbus和Supervisor節(jié)點之間所有的協(xié)調(diào)工作是通過Zookeeper集群來實現(xiàn)的。此外,Nimbus和Supervisor進程都是無狀態(tài)的。節(jié)點間信令ZooKeeper用ZeroMQ作為底層消息隊列, 使消息能快速被處理。數(shù)據(jù)傳遞ZeroMQStorm可靠性原則保證每個Tu
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025八年級上學期期末歷史試卷
- 2025年度二零二五年度智能交通管理系統(tǒng)設(shè)計與實施合同4篇
- 二零二五年度木制品表面處理合同樣本4篇
- 2025版學校教室租賃合同示范文本2篇
- 2025年度個人毛坯房租賃與租金支付方式合同4篇
- 公共基礎(chǔ)-2020年試驗檢驗師助理《公共基礎(chǔ)》真題
- 2025版土地居間業(yè)務(wù)規(guī)范合同樣本(2025版)6篇
- 2025版圖書銷售代理居間服務(wù)合同模板
- 二零二五版昆明公共租賃住房電子合同登記與變更指南3篇
- 2025版圖書行業(yè)風險評估與防范合同3篇
- 加強教師隊伍建設(shè)教師領(lǐng)域?qū)W習二十屆三中全會精神專題課
- 2024-2025學年人教版數(shù)學七年級上冊期末復習卷(含答案)
- 2024年決戰(zhàn)行測5000題言語理解與表達(培優(yōu)b卷)
- 四年級數(shù)學上冊人教版24秋《小學學霸單元期末標準卷》考前專項沖刺訓練
- 2025年慢性阻塞性肺疾病全球創(chuàng)議GOLD指南修訂解讀課件
- (完整版)減數(shù)分裂課件
- 銀行辦公大樓物業(yè)服務(wù)投標方案投標文件(技術(shù)方案)
- 被執(zhí)行人給法院執(zhí)行局寫申請范本
- 飯店管理基礎(chǔ)知識(第三版)中職PPT完整全套教學課件
- 2023年重慶市中考物理A卷試卷【含答案】
- 【打印版】意大利斜體英文字帖(2022年-2023年)
評論
0/150
提交評論