基礎(chǔ)服務(wù)部網(wǎng)絡(luò)大V- MapReduce技術(shù)簡介-_第1頁
基礎(chǔ)服務(wù)部網(wǎng)絡(luò)大V- MapReduce技術(shù)簡介-_第2頁
基礎(chǔ)服務(wù)部網(wǎng)絡(luò)大V- MapReduce技術(shù)簡介-_第3頁
基礎(chǔ)服務(wù)部網(wǎng)絡(luò)大V- MapReduce技術(shù)簡介-_第4頁
基礎(chǔ)服務(wù)部網(wǎng)絡(luò)大V- MapReduce技術(shù)簡介-_第5頁
已閱讀5頁,還剩14頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

MapReduce技術(shù)簡介1.什么是MapReduce2.MapReduce概念3.Hadoop計算組件對比目錄2計算框架內(nèi)存計算Spark批處理計算MapReduce實時流式計算StormMPP并行計算數(shù)據(jù)庫及存儲NoSQL數(shù)據(jù)庫HBase關(guān)系數(shù)據(jù)庫PostgreSQL分布式文件系統(tǒng)HDFS數(shù)據(jù)采集及管理日志采集Flume關(guān)系數(shù)據(jù)庫連接Sqoop數(shù)據(jù)交換ETL工具Kettle大數(shù)據(jù)應(yīng)用交通大數(shù)據(jù)應(yīng)用公安大數(shù)據(jù)應(yīng)用安全大數(shù)據(jù)應(yīng)用無線大數(shù)據(jù)應(yīng)用……服務(wù)及接口可編程接口數(shù)據(jù)即服務(wù)DAAS數(shù)據(jù)訪問數(shù)據(jù)挖掘MahoutSQLonHadoop數(shù)據(jù)可視化R語言數(shù)據(jù)倉庫Hive搜索引擎Lucene/ElasticNewSQL數(shù)據(jù)庫系統(tǒng)服務(wù)分布式消息隊列Kafka協(xié)調(diào)與同步系統(tǒng)ZooKeeper名字空間管理系統(tǒng)ApacheDS集群資源管理YARN作業(yè)調(diào)度Oozie安全管理Kerberos/LDAPH3C業(yè)務(wù)運維管理系統(tǒng)管理安裝部署版本管理集群管理安全管理認(rèn)證/授權(quán)合規(guī)審計Portal數(shù)據(jù)安全運行監(jiān)控性能監(jiān)控故障管理短信Email中心應(yīng)用性能分析運營管理資源管理業(yè)務(wù)管理云管理接口多維分析數(shù)據(jù)搜索數(shù)據(jù)共享自助分析RestfulODBCJDBC數(shù)據(jù)分析Pig數(shù)據(jù)管理LinuxOS統(tǒng)一存儲CEPH……多維度建模多算法引擎運營商大數(shù)據(jù)應(yīng)用金融大數(shù)據(jù)應(yīng)用DataEngine大數(shù)據(jù)管理平臺什么是MapReduce4我們要數(shù)圖書館中的所有書。你數(shù)1號書架,我數(shù)2號書架。這就是“Map”。我們?nèi)嗽蕉?,?shù)書就更快?,F(xiàn)在我們到一起,把所有人的統(tǒng)計數(shù)加在一起。這就是“Reduce”。1.什么是MapReduce2.MapReduce概念3.Hadoop計算組件對比5目錄MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運算。概念“Map(映射)”和“Reduce(歸約)”是它的主要思想,它極大地方便了編程人員在不會分布式并行編程的情況下,將自己的程序運行在分布式系統(tǒng)上。MapReduce概念易于編程良好的擴(kuò)展性系統(tǒng)優(yōu)化高容錯性特點JobTracker是集群事務(wù)的集中處理點,存在單點故障JobTracker需要完成的任務(wù)太多,既要維護(hù)job的狀態(tài)又要維護(hù)job的task的狀態(tài),造成過多的資源消耗在TaskTracker端,以map/reducetask的數(shù)目作為資源的表示過于簡單,沒有考慮到cpu/內(nèi)存的占用情況,如果兩個大內(nèi)存消耗的task被調(diào)度到了一塊,很容易出現(xiàn)OOMMapReduceV1架構(gòu)YARN/MRv2最基本的想法是將原JobTracker主要的資源管理和job調(diào)度/監(jiān)視功能分開作為兩個單獨的守護(hù)進(jìn)程。這個設(shè)計大大減小了JobTracker(也就是現(xiàn)在的ResourceManager)的資源消耗,并且讓監(jiān)測每一個Job子任務(wù)(tasks運行在container中)狀態(tài)的程序分布式化了,更安全。并且,ResourceManager可以開啟HA功能,解決了單點故障問題。YARN/MapReduceV2架構(gòu)MRClientResourceManagerApplicationsMastersNodeManagerContainerContainerNodeManagerContainerNodeManagerApplicationsMasterMapReduce流程9UserProgramMasterworkerworkersplit0split1split2workerworkerOutputfileOutputfile①fork①fork①fork②Assignmap②Assignreduce③read④localwrite⑤remoteread⑥write⑥writeIput

HDFSMapReduceOutputHDFSworkerMap端流程Map端Shuffle設(shè)計包括4個階段:Input:分片數(shù)據(jù)輸入Partition:讓Map對Key進(jìn)行分區(qū)Spill:將內(nèi)存中溢出的數(shù)據(jù)寫入磁盤中的臨時文件,

并對數(shù)據(jù)進(jìn)行排序和合并Merge:將溢寫文件歸并到一起Reduce端流程Reduce端Shuffle有兩個階段:Copy:map任務(wù)結(jié)束,拷貝map輸出Merge:將多個map的輸出文件合并MapReduce應(yīng)用統(tǒng)計近10年計算機(jī)論文研究方向?qū)懸粋€小程序,把所有論文按順序遍歷一遍寫一個分布式多線程程序,并發(fā)遍歷論文使用方法一的程序把作業(yè)交給多個計算機(jī)完成使用MapReduce12例:WordCount的MapReduce執(zhí)行過程MapReduce應(yīng)用執(zhí)行過程示例MapReduce的典型應(yīng)用場景中,目前日志分析用的比較多,還有做搜索的索引,機(jī)器學(xué)習(xí)算法包Mahout也是之一,當(dāng)然它能做的東西還有很多,比如數(shù)據(jù)挖掘、信息提取、大規(guī)模的算法圖形處理、文字處理、分布排序、Web連接圖反轉(zhuǎn)和Web訪問日志分析。谷歌,超過一萬個不同的項目已經(jīng)采用MapReduce來實現(xiàn),包括大規(guī)模的算法圖形處理、文字處理、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、統(tǒng)計機(jī)器翻譯以及眾多其他領(lǐng)域。MapReduce應(yīng)用場景1.什么是MapReduce2.MapReduce概念3.Hadoop計算組件對比15目錄計算框架內(nèi)存計算Spark批處理計算MapReduce實時流式計算StormMPP并行計算數(shù)據(jù)庫及存儲NoSQL數(shù)據(jù)庫HBase關(guān)系數(shù)據(jù)庫PostgreSQL分布式文件系統(tǒng)HDFS數(shù)據(jù)采集及管理日志采集Flume關(guān)系數(shù)據(jù)庫連接Sqoop數(shù)據(jù)交換ETL工具Kettle大數(shù)據(jù)應(yīng)用交通大數(shù)據(jù)應(yīng)用公安大數(shù)據(jù)應(yīng)用安全大數(shù)據(jù)應(yīng)用無線大數(shù)據(jù)應(yīng)用……服務(wù)及接口可編程接口數(shù)據(jù)即服務(wù)DAAS數(shù)據(jù)訪問數(shù)據(jù)挖掘MahoutSQLonHadoop數(shù)據(jù)可視化R語言數(shù)據(jù)倉庫Hive搜索引擎Lucene/ElasticNewSQL數(shù)據(jù)庫系統(tǒng)服務(wù)分布式消息隊列Kafka協(xié)調(diào)與同步系統(tǒng)ZooKeeper名字空間管理系統(tǒng)ApacheDS集群資源管理YARN作業(yè)調(diào)度Oozie安全管理Kerberos/LDAPH3C業(yè)務(wù)運維管理系統(tǒng)管理安裝部署版本管理集群管理安全管理認(rèn)證/授權(quán)合規(guī)審計Portal數(shù)據(jù)安全運行監(jiān)控性能監(jiān)控故障管理短信Email中心應(yīng)用性能分析運營管理資源管理業(yè)務(wù)管理云管理接口多維分析數(shù)據(jù)搜索數(shù)據(jù)共享自助分析RestfulODBCJDBC數(shù)據(jù)分析Pig數(shù)據(jù)管理LinuxOS統(tǒng)一存儲CEPH……多維度建模多算法引擎運營商大數(shù)據(jù)應(yīng)用金融大數(shù)據(jù)應(yīng)用大數(shù)據(jù)的計算組件計算組件的對比MapReduce是一種離線計算框架,將一個算法抽象成Map和Reduce兩個階段進(jìn)行處理,是一種磁盤計算框架,非常適合數(shù)據(jù)密集型計算。SparkSpark則是一種內(nèi)存計算框架,它將數(shù)據(jù)盡可能放到內(nèi)存中以提高迭代

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論