




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
4.2.1大數(shù)據(jù)處理的基本思想和框架第四章第四章大數(shù)據(jù)具有數(shù)據(jù)量大、數(shù)據(jù)來源于類型多樣、處理速度快等特點,簡單的表格處理軟件已經(jīng)無法滿足大數(shù)據(jù)的處理需求,同時,大數(shù)據(jù)技術(shù)、理論和處理方法也在不斷發(fā)展,為大數(shù)據(jù)的處理提供了越來越有力的支持。量大速度快,類多價值低大數(shù)據(jù)的特征★分——將問題分解為規(guī)模更小的子問題★治——將規(guī)模更小的子問題逐個擊破★合——將已解決的子問題合并,最終得出原問題的解大數(shù)據(jù)處理思想——分治
開發(fā)“羊了個羊”小程序?qū)懘a畫界面設(shè)計游戲宣傳計算機專業(yè)美術(shù)專業(yè)計算機專業(yè)新媒體專業(yè)成果分治思想大數(shù)據(jù)處理分類大數(shù)據(jù)處理靜態(tài)數(shù)據(jù)流數(shù)據(jù)圖數(shù)據(jù)★靜態(tài)數(shù)據(jù):在處理時已收集完成、在計算式不會發(fā)生改變的數(shù)據(jù)
★流數(shù)據(jù):是指不間斷地、持續(xù)地到達的實時數(shù)據(jù),隨著時間的流逝,流數(shù)據(jù)的價值也隨之降低,通過實時分析計算可以得到更有價值的分析的結(jié)果.★圖數(shù)據(jù):以社交網(wǎng)絡(luò)、道路交通等數(shù)據(jù)為例的眾多以圖為數(shù)據(jù)呈現(xiàn)形式的數(shù)據(jù),或者轉(zhuǎn)化為圖之后再進行分析靜態(tài)數(shù)據(jù)——批處理Hadoop是一個運行于計算機集群上的分布式系統(tǒng)基礎(chǔ)架構(gòu),適用于靜態(tài)數(shù)據(jù)的批處理計算。Spark與hadoop相似,應(yīng)用較廣的開源分布式計算架構(gòu)。Spark啟用了內(nèi)存存儲中間結(jié)果,運行速度比hadoop快。批處理計算HDFS數(shù)據(jù)以文件的形式、用多副本保存在不同的存儲節(jié)點中,并進行分布式管理容錯性高,可以部署在廉價的機器中應(yīng)用:云盤、網(wǎng)盤HBase功能:采用基于列的存儲方式,用于存儲半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),具有良好的橫向擴展能力,可管理PB級的大數(shù)據(jù),是BigTable的開源實現(xiàn)。特點:高可靠、高性能、可伸縮、分布式Hbase(數(shù)據(jù)存儲與管理)分布式并行計算模型MapReduceMapReduce主要用于處理大規(guī)模數(shù)據(jù)集的并行運算,由Map(映射)和Reduce(歸納)兩部分組成。它的核心思想就是將任務(wù)分解并發(fā)到多個節(jié)點上進行處理,最后匯總輸出。批處理計算不間斷地、持續(xù)地到達的實時數(shù)據(jù)。流數(shù)據(jù)的價值會隨著時間的流逝而降低。
對采集的數(shù)據(jù)實時分析和計算并反饋實時結(jié)果。經(jīng)處理系統(tǒng)或處理完成的數(shù)據(jù)流直接丟棄或存儲用戶可以實時查詢最新數(shù)據(jù)分析結(jié)果,數(shù)據(jù)不斷更新,實時推薦給用戶流計算應(yīng)用:廣告推送、個性化推薦、實時交通流計算軟件:Heron、Storm、Streams、S4、Puma流數(shù)據(jù)——流計算
流處理系統(tǒng)處理的是實時的數(shù)據(jù),而傳統(tǒng)的數(shù)據(jù)處理系統(tǒng)處理的是預(yù)先存儲好的靜態(tài)數(shù)據(jù)。用戶通過流處理系統(tǒng)獲取的一般是實時結(jié)果,而傳統(tǒng)的數(shù)據(jù)處理方式獲取的都是過去某一個歷史時刻的快照。流處理系統(tǒng)會實時地把生成的結(jié)果不斷的推動給用戶,傳統(tǒng)數(shù)據(jù)需要用戶主動查詢才能獲取數(shù)據(jù)?;旌掀脚_(批處理&流計算)的整合縮短了批處理與流處理之間的切換延時時間,有利于減少系統(tǒng)的開銷,降低使用成本。傳統(tǒng)數(shù)據(jù)與流數(shù)據(jù)現(xiàn)實世界中以圖形式展現(xiàn)的數(shù)據(jù)。如社交網(wǎng)絡(luò)、道路交通等。圖處理軟件:Pregel、GraphX
圖數(shù)據(jù)——圖計算練一練1.下列關(guān)于流數(shù)據(jù)的描述不正確的是(
)
A.數(shù)據(jù)在處理時已經(jīng)采集完成
B.數(shù)據(jù)價值隨著時間的流逝降低
C.實時分析流數(shù)據(jù)可以得到更有價值的結(jié)果
D.可以采用流計算進行實時分析A練一練2.下列關(guān)于Hadoop架構(gòu)的描述正確的是(
)A.是一個對大數(shù)據(jù)進行聚合式處理的基礎(chǔ)軟件框架B.不能運行于大規(guī)模計算機集群上C.采用NTFS文件系統(tǒng)管理數(shù)據(jù)文件D.采用MapReduce編程模型處理大規(guī)模數(shù)據(jù)集D練一練2.下列關(guān)于Hadoop架構(gòu)的描述正確的是(
)A.是一個對大數(shù)據(jù)進行聚合式處理的基礎(chǔ)軟件框架
B.不能運行于大規(guī)模計算機集群上C.采用NTFS文件系統(tǒng)管理數(shù)據(jù)文件D.采用MapReduce編程模型處理大規(guī)模數(shù)據(jù)集D練一練3.下列軟件主要用于進行流計算的有(
)
A.Hadoop
B.Storm
C.Pregel
D.SparkB練一練4.實時處理與批處理整合的優(yōu)勢有(
)①可以在同一個平臺做
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中通員工合同樣本
- 五華區(qū)工程設(shè)計合同標準文本
- 鄉(xiāng)村小區(qū)賣房合同樣本
- 不生效合同樣本
- Module 3 City life Unit 3 Where are you from Fun with language(教學(xué)設(shè)計)-2024-2025學(xué)年教科版(廣州)英語六年級上冊
- 會議活動執(zhí)行合同樣本
- 臨時清掃合同樣本
- 6 做個快樂的小學(xué)生(教學(xué)設(shè)計)-魯畫版心理健康一年級上冊
- 亞馬遜品牌采購合同樣本
- 保密協(xié)議英文合同樣本
- YS/T 429.2-2012鋁幕墻板第2部分:有機聚合物噴涂鋁單板
- 體育管理學(xué)3-體育管理的因素與環(huán)境課件
- GB/T 35624-2017城鎮(zhèn)應(yīng)急避難場所通用技術(shù)要求
- GB/T 24915-2010合同能源管理技術(shù)通則
- 凸透鏡成像規(guī)律動畫可拖動最佳版swf
- 2016眾泰t600運動版原廠維修手冊與電路圖-使用說明
- Sigma-Delta-ADC講稿教學(xué)講解課件
- 《春秋三傳導(dǎo)讀》課件
- 麻醉科進修匯報課件
- 【計算機應(yīng)用基礎(chǔ)試題】上海中僑職業(yè)技術(shù)大學(xué)2022年練習(xí)題匯總(附答案解析)
- 艾滋病(AIDS)經(jīng)典課件
評論
0/150
提交評論