版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
MapReduce的體系①MapReduce的基本概采用Mpde架構(gòu)實現(xiàn)的程序能夠在由大量的普通配置的計算機構(gòu)成的集群中實現(xiàn)并行化操作。Maece系統(tǒng)在運行過程中只關(guān)心數(shù)Mpde架構(gòu)可以使那些沒有進行并行計算和分布式計算的開發(fā)能充分利用分布式系統(tǒng)的豐富資源進行并行式、分布式的開發(fā)。MapReduce框架由一個單獨的masterJobTracker和集群節(jié)點上的slaveTaskTracker共同組成master負責(zé)調(diào)度一個作業(yè)中的所有任務(wù),把這些任務(wù)分布在不同的slave上masterslave節(jié)點上這些任務(wù)的執(zhí)行情況,并重新執(zhí)行失敗的任務(wù)slave僅負責(zé)執(zhí)行由master②MapReduce是什MapReduce是一種編程模型,一種云計算的計算模型MapReduce主要用來解決什么問Mece致力于解決大規(guī)模數(shù)據(jù)處理的問題。基于分治法的思想,點上處理時每個節(jié)點先就近本地的數(shù)據(jù)來進行MpMp(cmi(shffle和sort)后再分發(fā)到ece節(jié)點。MapReduce的思MapReduce編程模式的主要思想是將自動分割的要執(zhí)行問題拆解成Map()和Reduce(化簡)的方式。它的兩項操作是Map和Reduce在數(shù)據(jù)分割后通過Map函數(shù)的程序?qū)?shù)據(jù)成不同的區(qū)塊,分配給計算機群處理,達到分布式運算的效果。再通過Reduce函數(shù)的9、Hadoop的數(shù)據(jù)管Hadoop的數(shù)據(jù)管理主要包括Hadoop的分布式文件HDFS、分布式數(shù)據(jù)庫HBase和數(shù)據(jù)倉庫工具Hive的數(shù)據(jù)管理它們都有自己完整的數(shù)據(jù)定義和體系結(jié)構(gòu),以及實現(xiàn)數(shù)據(jù)從宏觀到微觀的管理方法HDFS的數(shù)據(jù)管通過3個重要的角色來進行字節(jié)點NameNode數(shù)據(jù)節(jié)點和客戶端Clientmede是分布式文件系統(tǒng)中的管理者,它主要負責(zé)管理文件系統(tǒng)名空間、集群配置信息和塊的等。NmNe節(jié)點將文件系統(tǒng)的Mtdta在內(nèi)存中,Metadata的信息主要包括文件信息、每一個文件對應(yīng)的文件塊的信息和每一個文件塊在DataNode中的信息等。DataNode是文它將文件塊在本地文件系統(tǒng)中,保存了所有的Block的Metadata,同時周期性地將所有存在的Block給NameNodeClinet就是文件系統(tǒng)文件的應(yīng)用程序HBase的數(shù)據(jù)管HBase是一個分布式的、面向列的開源數(shù)據(jù)庫。HBaseApache的的數(shù)據(jù)庫。HBase是BigTable的開源實現(xiàn)3)Hive的數(shù)據(jù)管Hive作為一個數(shù)據(jù)管它的數(shù)據(jù)管理按照使用層次方面可以從元數(shù)據(jù)、數(shù)據(jù)和查詢計劃3個方面來介紹①元數(shù)Hive數(shù)據(jù)倉庫將元數(shù)據(jù)在關(guān)系數(shù)據(jù)庫中,如MySQL、Derby。Hive中的元數(shù)據(jù)包括表的名字、表的列和分區(qū)及其屬性、表的屬性、表的數(shù)據(jù)所 Hive的數(shù)據(jù)在HDFS中,大部分查詢是通過MapReduce來完成的,但是帶有*的查詢是不會MapReduce任務(wù)的。②數(shù)據(jù)在Hive中沒有專門的數(shù)據(jù)格式,也不需要為數(shù)據(jù)建立索戶可以自由地在Hive中組織表表之前創(chuàng)建表時通知Hive在數(shù)Hive就可以解析數(shù)據(jù)了③查詢計查詢計劃是通過解釋器、編譯器、優(yōu)化器完成QL查詢語句從詞法在HS中,并在Mpce調(diào)用執(zhí)行。HADOOP_HEAPSIZEtasktrackerJVMmapreduce um2 um),分配給每個子jvm的 namenodenamenode比如,配備8核處理器時,并計劃在各個處理器上分別跑2個進程,可將mapred.tasktracker.map.tasks.um和mapred.tasktracker.reduce.tasks.um分別設(shè)為7,每個子JVM的內(nèi)存量mapred.child.java.opts提提高至400M。Bbnamenodemapio.sort.mbmap內(nèi)容被spillmapreduce100mapreducer的數(shù)據(jù) httpreducer數(shù),此設(shè)置針對tasktracker,而非map5用于把map輸出并行到reducershuffle ducer的緩沖區(qū)大小,如果map輸出dfs.hosts記錄即將作為datanode加入集群的機器列表mapred.hoststasktrackdfs.hosts.exclude待移除機器列表mapred.hosts.excludeJVM置為-1時,表示。JobConf的setNumTasksToExecutePerJvm()方法也可以設(shè)置。 erval,回收站中保留的時間,以分
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度酒店客房退訂退款協(xié)議范本3篇
- 2025年全球及中國硅光子調(diào)制器行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025-2030全球帶阻陷波濾波器行業(yè)調(diào)研及趨勢分析報告
- 2025-2030全球蛋白丟失性腸病藥物行業(yè)調(diào)研及趨勢分析報告
- 2025年度特種設(shè)備運輸安全協(xié)議3篇
- 2025-2030全球直升機停機坪助航燈光行業(yè)調(diào)研及趨勢分析報告
- 2025-2030全球平板推車 (FDC)行業(yè)調(diào)研及趨勢分析報告
- 2025-2030全球旋轉(zhuǎn)伸縮貨叉行業(yè)調(diào)研及趨勢分析報告
- 2025-2030全球全自動生化檢測系統(tǒng)行業(yè)調(diào)研及趨勢分析報告
- 二零二五年股權(quán)質(zhì)押借款合同審計報告要求協(xié)議3篇
- (3.10)-心悸急診醫(yī)學(xué)急診醫(yī)學(xué)
- 不動產(chǎn)登記操作規(guī)范解讀
- 蓋洛普Q12解讀和實施完整版
- 2023年Web前端技術(shù)試題
- GB/T 20840.8-2007互感器第8部分:電子式電流互感器
- GB/T 14864-2013實心聚乙烯絕緣柔軟射頻電纜
- 信息學(xué)奧賽-計算機基礎(chǔ)知識(完整版)資料
- 發(fā)煙硫酸(CAS:8014-95-7)理化性質(zhì)及危險特性表
- 數(shù)字信號處理(課件)
- 公路自然災(zāi)害防治對策課件
- 耳鳴中醫(yī)臨床路徑
評論
0/150
提交評論