![云計(jì)算與大數(shù)據(jù)技術(shù) 課件 第7章 大數(shù)據(jù)分析平臺與技術(shù)棧_第1頁](http://file4.renrendoc.com/view14/M08/1B/1B/wKhkGWdIUzCAPndAAABKVrRbito280.jpg)
![云計(jì)算與大數(shù)據(jù)技術(shù) 課件 第7章 大數(shù)據(jù)分析平臺與技術(shù)棧_第2頁](http://file4.renrendoc.com/view14/M08/1B/1B/wKhkGWdIUzCAPndAAABKVrRbito2802.jpg)
![云計(jì)算與大數(shù)據(jù)技術(shù) 課件 第7章 大數(shù)據(jù)分析平臺與技術(shù)棧_第3頁](http://file4.renrendoc.com/view14/M08/1B/1B/wKhkGWdIUzCAPndAAABKVrRbito2803.jpg)
![云計(jì)算與大數(shù)據(jù)技術(shù) 課件 第7章 大數(shù)據(jù)分析平臺與技術(shù)棧_第4頁](http://file4.renrendoc.com/view14/M08/1B/1B/wKhkGWdIUzCAPndAAABKVrRbito2804.jpg)
![云計(jì)算與大數(shù)據(jù)技術(shù) 課件 第7章 大數(shù)據(jù)分析平臺與技術(shù)棧_第5頁](http://file4.renrendoc.com/view14/M08/1B/1B/wKhkGWdIUzCAPndAAABKVrRbito2805.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)分析平臺大數(shù)據(jù)分析平臺大數(shù)據(jù)分析平臺是一個集數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲、數(shù)據(jù)計(jì)算、查詢檢索、分析挖掘、可視化輸出等功能為一體的平臺。大數(shù)據(jù)分析平臺可以采用開源組件搭建,也可以選擇商業(yè)化大數(shù)據(jù)分析平臺產(chǎn)品。大數(shù)據(jù)分析平臺在搭建大數(shù)據(jù)分析平臺之前,需要明確業(yè)務(wù)需求場景及用戶的需求,比如用戶想要通過大數(shù)據(jù)分析平臺獲取哪些有價(jià)值的信息,平臺需要接入的數(shù)據(jù)有哪些,基于場景業(yè)務(wù)需求的大數(shù)據(jù)分析平臺要具備的基本功能有哪些,從而決定平臺搭建過程中需要使用的大數(shù)據(jù)處理工具和框架。大數(shù)據(jù)分析平臺的技術(shù)架構(gòu)大數(shù)據(jù)分析平臺的技術(shù)架構(gòu)大數(shù)據(jù)分析平臺選擇如何選擇大數(shù)據(jù)分析平臺,完成大數(shù)據(jù)的挖掘和分析呢?(1)根據(jù)應(yīng)用場景需求、數(shù)據(jù)的安全性要求等因素,可以選擇云服務(wù)平臺上的大數(shù)據(jù)服務(wù),如百度智能云服務(wù)平臺的“智能大數(shù)據(jù)”、阿里云服務(wù)平臺的“大數(shù)據(jù)計(jì)算”等。使用云服務(wù)平臺上的大數(shù)據(jù)服務(wù),優(yōu)點(diǎn)是建設(shè)周期短、運(yùn)維成本低,缺點(diǎn)費(fèi)用貴、數(shù)據(jù)安全性。百度智能云智能大數(shù)據(jù)服務(wù)產(chǎn)品阿里云大數(shù)據(jù)計(jì)算服務(wù)產(chǎn)品阿里云服務(wù)平臺提供的大數(shù)據(jù)計(jì)算服務(wù)產(chǎn)品包括數(shù)據(jù)計(jì)算與分析、數(shù)據(jù)湖、數(shù)據(jù)應(yīng)用與可視化、數(shù)據(jù)開發(fā)與服務(wù)等。阿里云大數(shù)據(jù)計(jì)算服務(wù)產(chǎn)品大數(shù)據(jù)分析平臺選擇(2)如果企事業(yè)單位(如石油石化能源、制造、金融證券、交通、醫(yī)療、教育等)需要搭建大數(shù)據(jù)分析平臺,則可以直接采用成熟的商用大數(shù)據(jù)分析平臺,如Cloudera、星環(huán)、華為等,它們都有相應(yīng)的產(chǎn)品線。大數(shù)據(jù)分析平臺選擇大數(shù)據(jù)分析平臺選擇(3)根據(jù)場景需求,使用開源產(chǎn)品搭建大數(shù)據(jù)分析平臺。在使用開源產(chǎn)品構(gòu)建大數(shù)據(jù)分析平臺:
首先,要明確需求場景,包括理解業(yè)務(wù)需求、預(yù)期的數(shù)據(jù)分析目標(biāo)和使用場景。其次,要評估未來的數(shù)據(jù)量大小,以確保所選的平臺能夠高效、準(zhǔn)確地處理大量數(shù)據(jù)。同時,數(shù)據(jù)存儲的位置也是一個關(guān)鍵決策點(diǎn),涉及本地存儲、云存儲或分布式存儲的選擇將直接影響平臺的整體架構(gòu)和性能。開源大數(shù)據(jù)分析平臺搭建7.3.1底層操作系統(tǒng)7.3.2分布式計(jì)算平臺安裝分布式計(jì)算平臺安裝分布式計(jì)算平臺Hadoop作為分布式系統(tǒng)基礎(chǔ)框架,主要用于解決海量數(shù)據(jù)存儲與計(jì)算的問題,是大數(shù)據(jù)技術(shù)中的基石。Hadoop可以實(shí)現(xiàn)海量數(shù)據(jù)存儲,資源管理、調(diào)度和分配,并行數(shù)據(jù)處理。
大數(shù)據(jù)計(jì)算引擎MapReduce、Spark,數(shù)據(jù)倉庫Hive,分布式數(shù)據(jù)庫HBase等都是基于Hadoop完成部署和搭建的。7.3.3數(shù)據(jù)接入和預(yù)處理工具數(shù)據(jù)接入是指將這些零散的數(shù)據(jù)整合在一起,綜合起來進(jìn)行分析。數(shù)據(jù)接入主要包括文件日志的接入、數(shù)據(jù)庫日志的接入、關(guān)系數(shù)據(jù)庫的接入和應(yīng)用程序的接入等,數(shù)據(jù)接入常用的工具有Flume、Logstash、Sqoop等。7.3.3數(shù)據(jù)接入和預(yù)處理工具當(dāng)需要使用上游模塊的數(shù)據(jù)進(jìn)行計(jì)算、統(tǒng)計(jì)和分析時,就需要用到分布式的消息系統(tǒng),比如基于發(fā)布/訂閱的消息系統(tǒng)Kafka。7.3.4數(shù)據(jù)存儲工具大數(shù)據(jù)存儲是指將采集的數(shù)據(jù)完成數(shù)據(jù)預(yù)處理后,持久化到計(jì)算機(jī)中。大數(shù)據(jù)存儲可以直接以文件形式存放在分布式文件系統(tǒng)上,如HadoopHDFS、Tachyon、KFS、Ceph、Kudu等,處理工具可以直接進(jìn)行讀寫(Hive和SparkSQL等)。7.3.5數(shù)據(jù)分析和挖掘工具選擇數(shù)據(jù)分析是指使用適當(dāng)?shù)慕y(tǒng)計(jì)分析方法對收集的海量數(shù)據(jù)的統(tǒng)計(jì)結(jié)果進(jìn)行分析,提取有用信息后形成結(jié)論,并對數(shù)據(jù)進(jìn)行詳細(xì)研究和概括總結(jié)的過程。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索或抽取出隱藏于其中的有價(jià)值的信息和模式的過程。大數(shù)據(jù)分析和挖掘是指對海量的數(shù)據(jù)進(jìn)行數(shù)據(jù)分析和數(shù)據(jù)挖掘。數(shù)據(jù)挖掘流程一般包括數(shù)據(jù)清洗、數(shù)據(jù)集成和融合、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模型評估、知識發(fā)現(xiàn)和呈現(xiàn)。7.3.5數(shù)據(jù)分析和挖掘工具選擇數(shù)據(jù)分析和挖掘流程7.3.6數(shù)據(jù)分析結(jié)果可視化及輸出數(shù)據(jù)分析和挖掘的最后階段就是分析結(jié)果的輸出:將分析后的輔助決策數(shù)據(jù)以圖、表等形式進(jìn)行交互式綜合展現(xiàn)。高質(zhì)量的可視化工具對于數(shù)據(jù)分析至關(guān)重要。數(shù)據(jù)可視化工具是一種應(yīng)用軟件,可以幫助用戶以可視化、圖形化的格式顯示數(shù)據(jù),呈現(xiàn)數(shù)據(jù)的完整輪廓。對于處理得到的數(shù)據(jù),可以對接主流的BI系統(tǒng),如國外的Tableau、PowerBI等,開源的ECharts,國內(nèi)的帆軟、SmartBI、永洪等,將結(jié)果進(jìn)行可視化,用于決策分析,或者回流到線上,支持線上業(yè)務(wù)的發(fā)展。7.3.6數(shù)據(jù)分析結(jié)果可視化及輸出對于處理得到的數(shù)據(jù),可以對接主流的BI系統(tǒng),如國外的Tableau、PowerBI等,開源的ECharts,國內(nèi)的帆軟、SmartBI、永洪等,將結(jié)果進(jìn)行可視化,用于決策分析,或者回流到線上,支持線上業(yè)務(wù)的發(fā)展。大數(shù)據(jù)分析平臺搭建可選擇的工具大數(shù)據(jù)分析平臺搭建可選擇的工具數(shù)據(jù)采集和傳輸層數(shù)據(jù)采集和傳輸層是大數(shù)據(jù)分析平臺的基礎(chǔ)層,可選擇的工具有日志采集工具、消息傳輸隊(duì)列工具、數(shù)據(jù)同步工具。選擇的具體工具與數(shù)據(jù)源及數(shù)據(jù)源層的數(shù)據(jù)類型相關(guān)。數(shù)據(jù)存儲層數(shù)據(jù)存儲層主要完成數(shù)據(jù)采集和傳輸層的采集、抽取及同步的數(shù)據(jù)存儲,同時完成數(shù)據(jù)的預(yù)處理,包括數(shù)據(jù)清洗、數(shù)據(jù)融合、數(shù)據(jù)脫敏、數(shù)據(jù)規(guī)約等。資源調(diào)度管理和任務(wù)調(diào)度管理工具資源調(diào)度管理主要完成計(jì)算、存儲和網(wǎng)絡(luò)資源的調(diào)度與管理,服務(wù)于計(jì)算層。大數(shù)據(jù)分析平臺所完成的一次完整的數(shù)據(jù)分析,通常都是由大量任務(wù)單元組成的,且各任務(wù)單元之間存在時間先后及前后依賴關(guān)系。為了很好地完成這樣的復(fù)雜執(zhí)行計(jì)劃,需要一個工作流調(diào)度系統(tǒng)來調(diào)度執(zhí)行,這是任務(wù)調(diào)度管理工具完成的工作。計(jì)算層計(jì)算層主要完成大數(shù)據(jù)的分布式計(jì)算任務(wù),針對不同類型的數(shù)據(jù)選擇不同的計(jì)算模型,如針對海量數(shù)據(jù)的批處理計(jì)算模型、針對動態(tài)數(shù)據(jù)流的流計(jì)算模型、針對結(jié)構(gòu)化數(shù)據(jù)的大規(guī)模并發(fā)處理模型、針對物理大內(nèi)存的內(nèi)存計(jì)算模型、針對機(jī)器學(xué)習(xí)算法的數(shù)據(jù)流圖模型。計(jì)算平臺,如Hadoop、Spark、Flink等。應(yīng)用工具層應(yīng)用工具層主要完成實(shí)際的數(shù)據(jù)應(yīng)用和展現(xiàn)等任務(wù)7.1認(rèn)知大數(shù)據(jù)7.1認(rèn)知大數(shù)據(jù)7.1認(rèn)知大數(shù)據(jù)7.1認(rèn)知大數(shù)據(jù)7.1認(rèn)知大數(shù)據(jù)7.1認(rèn)知大數(shù)據(jù)7.1認(rèn)知大數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 新型機(jī)械加工合同范本
- 消防水箱采購合同范本
- 工程機(jī)械租賃合同
- 農(nóng)莊承包合同
- 裝修泥工合同模板
- 影視制作承包合同范本
- 租賃合同銑刨機(jī)1
- 車輛租賃服務(wù)合同
- 物業(yè)管理的咨詢與顧問服務(wù)
- 衣服租賃合同范本
- 老年外科患者圍手術(shù)期營養(yǎng)支持中國專家共識(2024版)
- 子宮畸形的超聲診斷
- 2024年1月高考適應(yīng)性測試“九省聯(lián)考”數(shù)學(xué) 試題(學(xué)生版+解析版)
- JT-T-1004.1-2015城市軌道交通行車調(diào)度員技能和素質(zhì)要求第1部分:地鐵輕軌和單軌
- (正式版)JBT 11270-2024 立體倉庫組合式鋼結(jié)構(gòu)貨架技術(shù)規(guī)范
- DB11∕T 2035-2022 供暖民用建筑室溫?zé)o線采集系統(tǒng)技術(shù)要求
- 《復(fù)旦大學(xué)》課件
- 針灸與按摩綜合療法
- Photoshop 2022從入門到精通
- T-GDWJ 013-2022 廣東省健康醫(yī)療數(shù)據(jù)安全分類分級管理技術(shù)規(guī)范
- DB43-T 2775-2023 花櫚木播種育苗技術(shù)規(guī)程
評論
0/150
提交評論