Chapter1-廈門大學(xué)-林子雨-Spark編程基礎(chǔ)-第1章-大數(shù)據(jù)技術(shù)概述_第1頁
Chapter1-廈門大學(xué)-林子雨-Spark編程基礎(chǔ)-第1章-大數(shù)據(jù)技術(shù)概述_第2頁
Chapter1-廈門大學(xué)-林子雨-Spark編程基礎(chǔ)-第1章-大數(shù)據(jù)技術(shù)概述_第3頁
Chapter1-廈門大學(xué)-林子雨-Spark編程基礎(chǔ)-第1章-大數(shù)據(jù)技術(shù)概述_第4頁
Chapter1-廈門大學(xué)-林子雨-Spark編程基礎(chǔ)-第1章-大數(shù)據(jù)技術(shù)概述_第5頁
已閱讀5頁,還剩33頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第1章大數(shù)據(jù)技術(shù)概述

提綱1.1大數(shù)據(jù)時代1.2大數(shù)據(jù)概念1.3大數(shù)據(jù)的影響1.4大數(shù)據(jù)關(guān)鍵技術(shù)1.5大數(shù)據(jù)計算模式1.6代表性大數(shù)據(jù)技術(shù)1.1大數(shù)據(jù)時代1.1.1第三次信息化浪潮根據(jù)IBM前首席執(zhí)行官郭士納的觀點,IT領(lǐng)域每隔十五年就會迎來一次重大變革信息化浪潮發(fā)生時間標(biāo)志解決問題代表企業(yè)第一次浪潮1980年前后個人計算機信息處理Intel、AMD、IBM、蘋果、微軟、聯(lián)想、戴爾、惠普等第二次浪潮1995年前后互聯(lián)網(wǎng)信息傳輸雅虎、谷歌、阿里巴巴、百度、騰訊等第三次浪潮2010年前后物聯(lián)網(wǎng)、云計算和大數(shù)據(jù)信息爆炸將涌現(xiàn)出一批新的市場標(biāo)桿企業(yè)表1三次信息化浪潮1.1.2信息科技為大數(shù)據(jù)時代提供技術(shù)支撐圖1-1存儲價格隨時間變化情況1.存儲設(shè)備容量不斷增加1.1.2信息科技為大數(shù)據(jù)時代提供技術(shù)支撐來自斯威本科技大學(xué)(SwinburneUniversityofTechnology)的研究團(tuán)隊,在2013年6月29日刊出的《自然通訊(NatureCommunications)》雜志的文章中,描述了一種全新的數(shù)據(jù)存儲方式,可將1PB(1024TB)的數(shù)據(jù)存儲到一張僅DVD大小的聚合物碟片上。1.1.2信息科技為大數(shù)據(jù)時代提供技術(shù)支撐圖CPU晶體管數(shù)目隨時間變化情況2.CPU處理能力大幅提升

1.1.2信息科技為大數(shù)據(jù)時代提供技術(shù)支撐圖

網(wǎng)絡(luò)帶寬隨時間變化情況3.網(wǎng)絡(luò)帶寬不斷增加1.1.3數(shù)據(jù)產(chǎn)生方式的變革促成大數(shù)據(jù)時代的來臨圖

數(shù)據(jù)產(chǎn)生方式的變革1.2大數(shù)據(jù)概念1.2.1 數(shù)據(jù)量大根據(jù)IDC作出的估測,數(shù)據(jù)一直都在以每年50%的速度增長,也就是說每兩年就增長一倍(大數(shù)據(jù)摩爾定律)人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量預(yù)計到2020年,全球?qū)⒖偣矒碛?5ZB的數(shù)據(jù)量,相較于2010年,數(shù)據(jù)量將增長近30倍1.2.2數(shù)據(jù)類型繁多大數(shù)據(jù)是由結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)組成的10%的結(jié)構(gòu)化數(shù)據(jù),存儲在數(shù)據(jù)庫中90%的非結(jié)構(gòu)化數(shù)據(jù),它們與人類信息密切相關(guān)科學(xué)研究–基因組–LHC加速器–地球與空間探測企業(yè)應(yīng)用–Email、文檔、文件–應(yīng)用日志–交易記錄Web1.0數(shù)據(jù)–文本–圖像–視頻Web2.0數(shù)據(jù)–查詢?nèi)罩?點擊流–Twitter/Blog/SNS–Wiki1.2.3 處理速度快從數(shù)據(jù)的生成到消耗,時間窗口非常小,可用于生成決策的時間非常少1秒定律:這一點也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同1.2.4 價值密度低

價值密度低,商業(yè)價值高

以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒,但是具有很高的商業(yè)價值繼續(xù)裝ing1.3大數(shù)據(jù)的影響

圖靈獎獲得者、著名數(shù)據(jù)庫專家JimGray博士觀察并總結(jié)人類自古以來,在科學(xué)研究上,先后歷經(jīng)了實驗、理論、計算和數(shù)據(jù)四種范式實驗理論計算數(shù)據(jù)1.3大數(shù)據(jù)的影響在思維方式方面,大數(shù)據(jù)完全顛覆了傳統(tǒng)的思維方式:全樣而非抽樣效率而非精確相關(guān)而非因果1.4大數(shù)據(jù)關(guān)鍵技術(shù)表1-5大數(shù)據(jù)技術(shù)的不同層面及其功能技術(shù)層面功能數(shù)據(jù)采集利用ETL工具將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等,抽取到臨時中間層后進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,成為聯(lián)機分析處理、數(shù)據(jù)挖掘的基礎(chǔ);或者也可以把實時采集的數(shù)據(jù)作為流計算系統(tǒng)的輸入,進(jìn)行實時處理分析數(shù)據(jù)存儲和管理利用分布式文件系統(tǒng)、數(shù)據(jù)倉庫、關(guān)系數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫、云數(shù)據(jù)庫等,實現(xiàn)對結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化海量數(shù)據(jù)的存儲和管理數(shù)據(jù)處理與分析利用分布式并行編程模型和計算框架,結(jié)合機器學(xué)習(xí)和數(shù)據(jù)挖掘算法,實現(xiàn)對海量數(shù)據(jù)的處理和分析;對分析結(jié)果進(jìn)行可視化呈現(xiàn),幫助人們更好地理解數(shù)據(jù)、分析數(shù)據(jù)數(shù)據(jù)隱私和安全在從大數(shù)據(jù)中挖掘潛在的巨大商業(yè)價值和學(xué)術(shù)價值的同時,構(gòu)建隱私數(shù)據(jù)保護(hù)體系和數(shù)據(jù)安全體系,有效保護(hù)個人隱私和數(shù)據(jù)安全1.4大數(shù)據(jù)關(guān)鍵技術(shù)分布式存儲分布式處理GFS\HDFSBigTable\HBaseNoSQL(鍵值、列族、圖形、文檔數(shù)據(jù)庫)NewSQL(如:SQLAzure)MapReduce大數(shù)據(jù)兩大核心技術(shù)1.5大數(shù)據(jù)計算模式大數(shù)據(jù)計算模式解決問題代表產(chǎn)品批處理計算針對大規(guī)模數(shù)據(jù)的批量處理MapReduce、Spark等流計算針對流數(shù)據(jù)的實時計算Storm、S4、Flume、Streams、Puma、DStream、SuperMario、銀河流數(shù)據(jù)處理平臺等圖計算針對大規(guī)模圖結(jié)構(gòu)數(shù)據(jù)的處理Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等查詢分析計算大規(guī)模數(shù)據(jù)的存儲管理和查詢分析Dremel、Hive、Cassandra、Impala等表1-3大數(shù)據(jù)計算模式及其代表產(chǎn)品1.6代表性大數(shù)據(jù)技術(shù)1.6.1Hadoop1.6.2Spark1.6.3Flink1.6.4Beam1.6.1Hadoop圖Hadoop生態(tài)系統(tǒng)1.6.1Hadoop——MapReduce圖MapReduce工作流程ShuffleMapReduce將復(fù)雜的、運行于大規(guī)模集群上的并行計算過程高度地抽象到了兩個函數(shù):Map和Reduce編程容易,不需要掌握分布式并行編程細(xì)節(jié),也可以很容易把自己的程序運行在分布式系統(tǒng)上,完成海量數(shù)據(jù)的計算MapReduce采用“分而治之”策略,一個存儲在分布式文件系統(tǒng)中的大規(guī)模數(shù)據(jù)集,會被切分成許多獨立的分片(split),這些分片可以被多個Map任務(wù)并行處理1.6.1Hadoop——YARN一個企業(yè)當(dāng)中同時存在各種不同的業(yè)務(wù)應(yīng)用場景,需要采用不同的計算框架MapReduce實現(xiàn)離線批處理使用Impala實現(xiàn)實時交互式查詢分析使用Storm實現(xiàn)流式數(shù)據(jù)實時分析使用Spark實現(xiàn)迭代計算這些產(chǎn)品通常來自不同的開發(fā)團(tuán)隊,具有各自的資源調(diào)度管理機制為了避免不同類型應(yīng)用之間互相干擾,企業(yè)就需要把內(nèi)部的服務(wù)器拆分成多個集群,分別安裝運行不同的計算框架,即“一個框架一個集群”導(dǎo)致問題集群資源利用率低數(shù)據(jù)無法共享維護(hù)代價高YARN的目標(biāo)就是實現(xiàn)“一個集群多個框架”,為什么?圖

在YARN上部署各種計算框架YARN的目標(biāo)就是實現(xiàn)“一個集群多個框架”,即在一個集群上部署一個統(tǒng)一的資源調(diào)度管理框架YARN,在YARN之上可以部署其他各種計算框架由YARN為這些計算框架提供統(tǒng)一的資源調(diào)度管理服務(wù),并且能夠根據(jù)各種計算框架的負(fù)載需求,調(diào)整各自占用的資源,實現(xiàn)集群資源共享和資源彈性收縮可以實現(xiàn)一個集群上的不同應(yīng)用負(fù)載混搭,有效提高了集群的利用率不同計算框架可以共享底層存儲,避免了數(shù)據(jù)集跨集群移動1.6.1Hadoop——YARN1.6.2SparkSpark架構(gòu)圖1.6.2SparkSpark生態(tài)系統(tǒng)1.6.2SparkHadoop存在如下一些缺點:表達(dá)能力有限磁盤IO開銷大延遲高任務(wù)之間的銜接涉及IO開銷在前一個任務(wù)執(zhí)行完成之前,其他任務(wù)就無法開始,難以勝任復(fù)雜、多階段的計算任務(wù)

Hadoop與Spark的對比1.6.2SparkSpark在借鑒Hadoop

MapReduce優(yōu)點的同時,很好地解決了MapReduce所面臨的問題相比于Hadoop

MapReduce,Spark主要具有如下優(yōu)點:Spark的計算模式也屬于MapReduce,但不局限于Map和Reduce操作,還提供了多種數(shù)據(jù)集操作類型,編程模型比Hadoop

MapReduce更靈活Spark提供了內(nèi)存計算,可將中間結(jié)果放到內(nèi)存中,對于迭代運算效率更高Spark基于DAG的任務(wù)調(diào)度執(zhí)行機制,要優(yōu)于Hadoop

MapReduce的迭代執(zhí)行機制

Hadoop與Spark的對比1.6.2Spark圖Hadoop與Spark的執(zhí)行流程對比1.6.2Spark圖Hadoop與Spark執(zhí)行邏輯回歸的時間對比使用Hadoop進(jìn)行迭代計算非常耗資源Spark將數(shù)據(jù)載入內(nèi)存后,之后的迭代計算都可以直接使用內(nèi)存中的中間結(jié)果作運算,避免了從磁盤中頻繁讀取數(shù)據(jù)1.6.3FlinkFlink架構(gòu)圖1.6.3FlinkFlink生態(tài)系統(tǒng)1.6.3FlinkFlink與Spark的比較1.6.3FlinkSpark和Flink全部都運行在HadoopYARN上,性能為Flink>Spark>Hadoop(MR),迭代次數(shù)越多越明顯,性能上,F(xiàn)link優(yōu)于Spark和Hadoop最主要的原因是Flink支持增量迭代,具有對迭代自動優(yōu)化的功能。性能對比首先它們都可以基于內(nèi)存計算框架進(jìn)行實時計算,所以都擁有非常好的計算性能。經(jīng)過測試,F(xiàn)link計算性能上略好。1.6.3Flink流式計算比較它們都支持流式計算,F(xiàn)link是一行一行處理,而Spark是基于數(shù)據(jù)片集合(RDD)進(jìn)行小批量處理,所以Spark在流式

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論