![Spark大數(shù)據(jù)技術(shù)原理與實(shí)踐_第1頁(yè)](http://file4.renrendoc.com/view/155492ead3842c866c1135628c550209/155492ead3842c866c1135628c5502091.gif)
![Spark大數(shù)據(jù)技術(shù)原理與實(shí)踐_第2頁(yè)](http://file4.renrendoc.com/view/155492ead3842c866c1135628c550209/155492ead3842c866c1135628c5502092.gif)
![Spark大數(shù)據(jù)技術(shù)原理與實(shí)踐_第3頁(yè)](http://file4.renrendoc.com/view/155492ead3842c866c1135628c550209/155492ead3842c866c1135628c5502093.gif)
![Spark大數(shù)據(jù)技術(shù)原理與實(shí)踐_第4頁(yè)](http://file4.renrendoc.com/view/155492ead3842c866c1135628c550209/155492ead3842c866c1135628c5502094.gif)
![Spark大數(shù)據(jù)技術(shù)原理與實(shí)踐_第5頁(yè)](http://file4.renrendoc.com/view/155492ead3842c866c1135628c550209/155492ead3842c866c1135628c5502095.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、Spark大數(shù)據(jù)技術(shù)原理與實(shí)踐技術(shù)創(chuàng)新,變革未來(lái)2提綱Spark 簡(jiǎn)介Spark 功能與架構(gòu)Spark 生態(tài)圈介紹1234Spark 編程3是什么Spark系統(tǒng)是分布式批處理系統(tǒng)和分析挖掘引擎;AMP LAB貢獻(xiàn)到Apache社區(qū)的開(kāi)源項(xiàng)目,是AMP大數(shù) 據(jù)棧的基礎(chǔ)組件;做什么數(shù)據(jù)處理( Data Processing): 可以用來(lái)快速處理數(shù) 據(jù),兼具容錯(cuò)性和可擴(kuò)展性。迭代計(jì)算( Iterative Computation):支持迭代計(jì)算, 有效應(yīng)對(duì)多步的數(shù)據(jù)處理邏輯。數(shù)據(jù)挖掘( Data Mining):在海量數(shù)據(jù)基礎(chǔ)上進(jìn)行復(fù) 雜的挖掘分析,可支持各種數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法。Spark 簡(jiǎn)介
2、4輕: Spark核心代碼有3萬(wàn)行。Scala語(yǔ)言的簡(jiǎn)潔和豐富表達(dá)力巧妙利用了Hadoop和Mesos的基礎(chǔ)設(shè)施快: Spark對(duì)小數(shù)據(jù)集可達(dá)到亞秒級(jí)的延遲,對(duì)大數(shù)據(jù)集的迭代機(jī)器 學(xué)習(xí)、即席查詢、圖計(jì)算等應(yīng)用,Spark版本比基于MR、 Hive和Pregel的實(shí)現(xiàn)快。內(nèi)存計(jì)算、數(shù)據(jù)本地性和傳輸優(yōu)化、調(diào)度優(yōu)化靈: Spark提供了不同層面的靈活性。Scala trait動(dòng)態(tài)混入策略(如可更換的集群調(diào)度器、序列化庫(kù));允許擴(kuò)展新的數(shù)據(jù)算子、新的數(shù)據(jù)源、新的language bindings( Java和 Python);Spark支持內(nèi)存計(jì)算、多迭代批量處理、即席查詢、流處理和圖計(jì)算等多 種范式
3、。巧:巧妙借力現(xiàn)有大數(shù)據(jù)組件。Spark借Hadoop之勢(shì),與Hadoop無(wú)縫結(jié)合;Shark借了Hive的勢(shì);Spark 特點(diǎn)5提綱Spark 簡(jiǎn)介Spark 功能與架構(gòu)Spark 生態(tài)圈介紹1234Spark 編程6Spark數(shù)據(jù)共享機(jī)制iter. 1. . .InputreadHDFSwritereaditer. 2writequery 1query 2query 3result 1result 2result 3. . .HDFSread太慢,冗余讀寫(xiě)、序列化、磁盤IOHDFSHDFSData Sharing in MapReduceHDFSiter. 1iter. 2. . .Inp
4、utDistributed memoryInputquery 1query 2query 3. . .one-time processing10-100 x快于網(wǎng)絡(luò)和磁盤InputData Sharing in Spark7彈性分布式數(shù)據(jù)集(Resilient Distributed Datasets)A distributed memory abstraction that lets programmers performin-memory computations on large clusters只讀的,可分區(qū)的分布式數(shù)據(jù)集只能直接通過(guò)操作符來(lái)創(chuàng)建和處理支持容錯(cuò)處理RDD 操作:Tran
5、sformation & ActionSpark 核心概念- RDDs8Spark 容錯(cuò)機(jī)制iter. 1iter. 2. . .InputDistributed memoryInputquery 1query 2query 3. . .one-time processing快的同時(shí),也要保證系統(tǒng)魯棒性血統(tǒng)關(guān)系(Lineage):記錄RDD是如何從其它RDD中演變過(guò)來(lái)的一系列操作當(dāng)這個(gè)RDD的部分分區(qū)數(shù)據(jù)丟失時(shí),它可以通過(guò)Lineage獲取足夠的信息來(lái) 重新運(yùn)算和恢復(fù)丟失的數(shù)據(jù)分區(qū)采用粗顆粒的數(shù)據(jù)模型,性能的提升9Spark 任務(wù)調(diào)度RDD ObjectsDAGSchedulerTaskSch
6、edulerWorkerrdd1.join(rdd2).groupBy().filter()build operator DAGsplit graph intostages of taskssubmit each stage as readylaunch tasks via cluster managerretry failed or straggling tasksexecute tasksstore and serve blocksDAGTaskSetCluster managerThreadsBlock managerTask10提綱Spark 簡(jiǎn)介Spark 功能與架構(gòu)Spark 生態(tài)
7、圈介紹1234Spark 編程11Spark 生態(tài)圈MesosSpark StreamingSparkSQL (Shark)統(tǒng)一集群資源管理系統(tǒng), 支持多種計(jì)算框架共享集群,eg Hadoop, MPI通過(guò)共享集群資源和數(shù)據(jù),提高資源利用率和數(shù)據(jù)共享率目前最大部署集群為3500+節(jié)點(diǎn)支持大規(guī)模流式計(jì)算,吞吐量高于Storm基于Spark單一框架,完善Spark批處理、交互式處理和流式處理模式將流式計(jì)算分解成一系列小而確定的批處理作業(yè)Hive on Spark, 提供SQL訪問(wèn)Spark內(nèi)的RDDs比Hive性能高40-100倍SparkSQL拋棄Hive,直接SQL on SparkShark
8、項(xiàng)目已經(jīng)停止,目前是單獨(dú)的SparkSQL12Spark 生態(tài)圈之GraphXBlinkDB大規(guī)模的模糊查詢引擎允許用戶在準(zhǔn)確率和響應(yīng)時(shí)間作出權(quán)衡主要是facebook在使用和維護(hù)快速的圖計(jì)算框架,性能優(yōu)于Giraph和GraphLab提供GraphLib和APIGraphXMLBase(MLlib)基于Spark的機(jī)器學(xué)習(xí)算法包支持可擴(kuò)展的機(jī)器學(xué)習(xí)算法13提綱Spark 簡(jiǎn)介Spark 功能與架構(gòu)Spark 生態(tài)圈介紹1234Spark 編程14Spark提供 Java,Python, Scala三種語(yǔ)言的編程接口,官網(wǎng)上有詳細(xì)的Api 文檔Spark提出的最主要抽象概念是彈性分布式數(shù)據(jù)集 (resilient distributed dataset,RDD),它是一個(gè)元素集合,劃分到集群的各個(gè)節(jié)點(diǎn)上,可以被并行 操作。每個(gè)RDD都封裝了不同的操作,開(kāi)發(fā)者通過(guò)合理組合,應(yīng)用這些RDD函數(shù)來(lái)實(shí)現(xiàn)需求功能。Spark提供的API主要分為兩類:轉(zhuǎn)換(transformation ):用來(lái)創(chuàng)建新的RD
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 年春節(jié)放假通知
- 幽默婚禮致辭(15篇)
- 海水的運(yùn)動(dòng)+導(dǎo)學(xué)案 高一上學(xué)期+地理+人教版(2019)必修一
- 論歐龍馬滴劑治療小兒慢性鼻竇炎的療效研究
- 二零二五年度企業(yè)形象宣傳品定制采購(gòu)協(xié)議書(shū)3篇
- 育齡期女性乳腺癌患者生育憂慮的混合研究
- 二零二五版新型城鎮(zhèn)化建設(shè)項(xiàng)目物業(yè)管理合同范本3篇
- 三自由度波浪補(bǔ)償風(fēng)電過(guò)橋裝置系統(tǒng)研究
- 2023-2024學(xué)年高一秋學(xué)期期末語(yǔ)文模擬測(cè)試(二)試題講評(píng)課件 上課課件
- 復(fù)雜環(huán)境下的智能挖掘機(jī)目標(biāo)檢測(cè)研究
- 禮盒業(yè)務(wù)銷售方案
- 術(shù)后肺炎預(yù)防和控制專家共識(shí)解讀課件
- 二十屆三中全會(huì)精神學(xué)習(xí)試題及答案(100題)
- 中石化高級(jí)職稱英語(yǔ)考試
- 小學(xué)五年級(jí)英語(yǔ)閱讀理解(帶答案)
- 2024二十屆三中全會(huì)知識(shí)競(jìng)賽題庫(kù)及答案
- 仁愛(ài)版初中英語(yǔ)單詞(按字母順序排版)
- 2024年全國(guó)統(tǒng)一考試高考新課標(biāo)Ⅱ卷語(yǔ)文+數(shù)學(xué)+英語(yǔ)試題(真題+答案)
- 2024年全國(guó)甲卷高考化學(xué)真題試題(原卷版+含解析)
- 小學(xué)一年級(jí)拼音天天練
- 新概念英語(yǔ)第二冊(cè)考評(píng)試卷含答案(第49-56課)
評(píng)論
0/150
提交評(píng)論