云計(jì)算Mapreduce簡(jiǎn)介課件_第1頁
云計(jì)算Mapreduce簡(jiǎn)介課件_第2頁
云計(jì)算Mapreduce簡(jiǎn)介課件_第3頁
云計(jì)算Mapreduce簡(jiǎn)介課件_第4頁
云計(jì)算Mapreduce簡(jiǎn)介課件_第5頁
已閱讀5頁,還剩23頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

Google云計(jì)算的強(qiáng)大處理能力Google云計(jì)算的強(qiáng)大處理能力目錄1.為何云計(jì)算有強(qiáng)大的處理能力2.云計(jì)算的構(gòu)成要素3.MapReduce分布式編程模型的結(jié)構(gòu)4.MapReduce對(duì)數(shù)據(jù)處理的流程5.容錯(cuò)機(jī)制目錄1.為何云計(jì)算有強(qiáng)大的處理能力強(qiáng)大的分布式處理能力云計(jì)算:其概念是由Google提出的,這是一個(gè)美麗的網(wǎng)絡(luò)應(yīng)用模式。主要目的:它旨在通過網(wǎng)絡(luò)把多個(gè)成本相對(duì)較低的計(jì)算實(shí)體整合成一個(gè)具有強(qiáng)大計(jì)算能力的完美系統(tǒng)。強(qiáng)大的分布式處理能力云計(jì)算:其概念是由Google提出的,這強(qiáng)大的分布式處理能力

由幾十萬甚至大約100萬臺(tái)廉價(jià)的服務(wù)器所組成的網(wǎng)絡(luò)。這些機(jī)器單個(gè)而論的話,其性能并不比家用臺(tái)式機(jī)強(qiáng)大多少。但是這個(gè)網(wǎng)絡(luò)存儲(chǔ)的數(shù)據(jù)量驚人,能容納不計(jì)其數(shù)的網(wǎng)絡(luò)數(shù)據(jù)拷貝,因此搜索速度能夠更快,在眨眼之間便能為數(shù)十億的搜索提交答案。向"云"規(guī)模的數(shù)據(jù)處理邁進(jìn)標(biāo)志著我們?cè)谛畔⑻幚矸矫姘l(fā)生了翻天覆地的轉(zhuǎn)變。從最基本的層面講,"云"的發(fā)展就如同100年前人類用電的進(jìn)程演變,當(dāng)時(shí)的農(nóng)場(chǎng)和公司逐漸關(guān)閉了自己的發(fā)電機(jī),轉(zhuǎn)而從高效的發(fā)電廠購買電力。Google的高管們很早前就開始展望這一轉(zhuǎn)變并為之進(jìn)行籌劃準(zhǔn)備。強(qiáng)大的分布式處理能力由幾十萬甚至大約100萬google云計(jì)算的構(gòu)成要素谷歌文件系統(tǒng)GFS(海量的數(shù)據(jù)訪問存儲(chǔ))Chubby分布式鎖服務(wù)(分布式環(huán)境下并發(fā)操作的同步)MapReduce分布式編程模型的結(jié)構(gòu)(并行數(shù)據(jù)處理)BigTable結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)系統(tǒng)(管理組織海量的數(shù)據(jù))google云計(jì)算的構(gòu)成要素谷歌文件系統(tǒng)GFS(海量的數(shù)據(jù)訪google云計(jì)算的構(gòu)成要素Google云計(jì)算應(yīng)用BigTableGFSMapReduceChubbyGoogle云計(jì)算應(yīng)用BigTableGFSMapReduceChubbygoogle云計(jì)算的構(gòu)成要素Google云計(jì)算應(yīng)用BigTaMap函數(shù)(映射)和Reduce函數(shù)(化簡(jiǎn))Map操作是可以高度并行的,這對(duì)高性能要求的應(yīng)用以及并行計(jì)算領(lǐng)域的需求非常有用。統(tǒng)計(jì)詞頻的MapReduce函數(shù)的核心代碼非常簡(jiǎn)短,主要就是實(shí)現(xiàn)這兩個(gè)函數(shù)。map(Stringkey,Stringvalue)://key:文件名//value:文件內(nèi)容foreachwordwinvalue:EmitIntermediate(w,"1");reduce(Stringkey,Iteratorvalues)://key:aword//values:alistofcountsintresult=0;foreachvinvalues:result+=ParseInt(v);Emit(AsString(result));Map函數(shù)(映射)和Reduce函數(shù)(化簡(jiǎn))3.MapReduce分布式編程模型的結(jié)構(gòu)3.MapReduce分布式編程模型的結(jié)構(gòu)云計(jì)算Mapreduce簡(jiǎn)介課件過程1.MapReduce庫先把userprogram的輸入文件劃分為M份2.userprogram的副本中有一個(gè)稱為master,其余稱為worker,master是負(fù)責(zé)調(diào)度的,為空閑worker分配作業(yè)3.被分配了Map作業(yè)的worker,開始讀取對(duì)應(yīng)分片的輸入數(shù)據(jù),Map作業(yè)數(shù)量是由M決定的,map函數(shù)產(chǎn)生的中間鍵值對(duì)被緩存在內(nèi)存中。4.緩存的中間鍵值對(duì)會(huì)被定期寫入本地磁盤,而且被分為R個(gè)區(qū),R的大小是由用戶定義的,將來每個(gè)區(qū)會(huì)對(duì)應(yīng)一個(gè)Reduce作業(yè);這些中間鍵值對(duì)的位置會(huì)被通報(bào)給master,master負(fù)責(zé)將信息轉(zhuǎn)發(fā)給Reduceworker。過程1.MapReduce庫先把userprogram的輸過程5.master通知分配了Reduce作業(yè)的worker它負(fù)責(zé)的分區(qū)在什么位置,當(dāng)Reduceworker把所有它負(fù)責(zé)的中間鍵值對(duì)都讀過來后,先對(duì)它們進(jìn)行排序,使得相同鍵的鍵值對(duì)聚集在一起。6.reduceworker遍歷排序后的中間鍵值對(duì),對(duì)于每個(gè)唯一的鍵,都將鍵與關(guān)聯(lián)的值傳遞給reduce函數(shù),reduce函數(shù)產(chǎn)生的輸出會(huì)添加到這個(gè)分區(qū)的輸出文件。7.當(dāng)所有的Map和Reduce作業(yè)都完成了,master喚醒正版的userprogram,MapReduce函數(shù)調(diào)用返回userprogram的代碼。過程云計(jì)算Mapreduce簡(jiǎn)介課件容錯(cuò)機(jī)制由于MapReduce函數(shù)庫是設(shè)計(jì)用于在成百上千臺(tái)機(jī)器上處理海量數(shù)據(jù)的,所以這個(gè)函數(shù)庫必須考慮到機(jī)器故障的容錯(cuò)處理。master會(huì)定期發(fā)送命令輪詢每一臺(tái)worker機(jī)器。如果在一定時(shí)間內(nèi)有一臺(tái)worker機(jī)器一直沒有響應(yīng),master就認(rèn)為這個(gè)worker失效了。所有這個(gè)worker機(jī)器上正在處理的map任務(wù)或者reduce任務(wù)都被設(shè)置成為空閑狀態(tài),被其他worker重新執(zhí)行。解決方法:在master中,定期會(huì)設(shè)定檢查點(diǎn)(checkpoint)。如果master任務(wù)失效了,可以從上次最后一個(gè)檢查點(diǎn)開始啟動(dòng)另一個(gè)master進(jìn)程。容錯(cuò)機(jī)制由于MapReduce函數(shù)庫是設(shè)計(jì)用于在成百上千臺(tái)機(jī)

謝謝!謝謝!Google云計(jì)算的強(qiáng)大處理能力Google云計(jì)算的強(qiáng)大處理能力目錄1.為何云計(jì)算有強(qiáng)大的處理能力2.云計(jì)算的構(gòu)成要素3.MapReduce分布式編程模型的結(jié)構(gòu)4.MapReduce對(duì)數(shù)據(jù)處理的流程5.容錯(cuò)機(jī)制目錄1.為何云計(jì)算有強(qiáng)大的處理能力強(qiáng)大的分布式處理能力云計(jì)算:其概念是由Google提出的,這是一個(gè)美麗的網(wǎng)絡(luò)應(yīng)用模式。主要目的:它旨在通過網(wǎng)絡(luò)把多個(gè)成本相對(duì)較低的計(jì)算實(shí)體整合成一個(gè)具有強(qiáng)大計(jì)算能力的完美系統(tǒng)。強(qiáng)大的分布式處理能力云計(jì)算:其概念是由Google提出的,這強(qiáng)大的分布式處理能力

由幾十萬甚至大約100萬臺(tái)廉價(jià)的服務(wù)器所組成的網(wǎng)絡(luò)。這些機(jī)器單個(gè)而論的話,其性能并不比家用臺(tái)式機(jī)強(qiáng)大多少。但是這個(gè)網(wǎng)絡(luò)存儲(chǔ)的數(shù)據(jù)量驚人,能容納不計(jì)其數(shù)的網(wǎng)絡(luò)數(shù)據(jù)拷貝,因此搜索速度能夠更快,在眨眼之間便能為數(shù)十億的搜索提交答案。向"云"規(guī)模的數(shù)據(jù)處理邁進(jìn)標(biāo)志著我們?cè)谛畔⑻幚矸矫姘l(fā)生了翻天覆地的轉(zhuǎn)變。從最基本的層面講,"云"的發(fā)展就如同100年前人類用電的進(jìn)程演變,當(dāng)時(shí)的農(nóng)場(chǎng)和公司逐漸關(guān)閉了自己的發(fā)電機(jī),轉(zhuǎn)而從高效的發(fā)電廠購買電力。Google的高管們很早前就開始展望這一轉(zhuǎn)變并為之進(jìn)行籌劃準(zhǔn)備。強(qiáng)大的分布式處理能力由幾十萬甚至大約100萬google云計(jì)算的構(gòu)成要素谷歌文件系統(tǒng)GFS(海量的數(shù)據(jù)訪問存儲(chǔ))Chubby分布式鎖服務(wù)(分布式環(huán)境下并發(fā)操作的同步)MapReduce分布式編程模型的結(jié)構(gòu)(并行數(shù)據(jù)處理)BigTable結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)系統(tǒng)(管理組織海量的數(shù)據(jù))google云計(jì)算的構(gòu)成要素谷歌文件系統(tǒng)GFS(海量的數(shù)據(jù)訪google云計(jì)算的構(gòu)成要素Google云計(jì)算應(yīng)用BigTableGFSMapReduceChubbyGoogle云計(jì)算應(yīng)用BigTableGFSMapReduceChubbygoogle云計(jì)算的構(gòu)成要素Google云計(jì)算應(yīng)用BigTaMap函數(shù)(映射)和Reduce函數(shù)(化簡(jiǎn))Map操作是可以高度并行的,這對(duì)高性能要求的應(yīng)用以及并行計(jì)算領(lǐng)域的需求非常有用。統(tǒng)計(jì)詞頻的MapReduce函數(shù)的核心代碼非常簡(jiǎn)短,主要就是實(shí)現(xiàn)這兩個(gè)函數(shù)。map(Stringkey,Stringvalue)://key:文件名//value:文件內(nèi)容foreachwordwinvalue:EmitIntermediate(w,"1");reduce(Stringkey,Iteratorvalues)://key:aword//values:alistofcountsintresult=0;foreachvinvalues:result+=ParseInt(v);Emit(AsString(result));Map函數(shù)(映射)和Reduce函數(shù)(化簡(jiǎn))3.MapReduce分布式編程模型的結(jié)構(gòu)3.MapReduce分布式編程模型的結(jié)構(gòu)云計(jì)算Mapreduce簡(jiǎn)介課件過程1.MapReduce庫先把userprogram的輸入文件劃分為M份2.userprogram的副本中有一個(gè)稱為master,其余稱為worker,master是負(fù)責(zé)調(diào)度的,為空閑worker分配作業(yè)3.被分配了Map作業(yè)的worker,開始讀取對(duì)應(yīng)分片的輸入數(shù)據(jù),Map作業(yè)數(shù)量是由M決定的,map函數(shù)產(chǎn)生的中間鍵值對(duì)被緩存在內(nèi)存中。4.緩存的中間鍵值對(duì)會(huì)被定期寫入本地磁盤,而且被分為R個(gè)區(qū),R的大小是由用戶定義的,將來每個(gè)區(qū)會(huì)對(duì)應(yīng)一個(gè)Reduce作業(yè);這些中間鍵值對(duì)的位置會(huì)被通報(bào)給master,master負(fù)責(zé)將信息轉(zhuǎn)發(fā)給Reduceworker。過程1.MapReduce庫先把userprogram的輸過程5.master通知分配了Reduce作業(yè)的worker它負(fù)責(zé)的分區(qū)在什么位置,當(dāng)Reduceworker把所有它負(fù)責(zé)的中間鍵值對(duì)都讀過來后,先對(duì)它們進(jìn)行排序,使得相同鍵的鍵值對(duì)聚集在一起。6.reduceworker遍歷排序后的中間鍵值對(duì),對(duì)于每個(gè)唯一的鍵,都將鍵與關(guān)聯(lián)的值傳遞給reduce函數(shù),reduce函數(shù)產(chǎn)生的輸出會(huì)添加到這個(gè)分區(qū)的輸出文件。7.當(dāng)所有的Map和Reduce作業(yè)都完成了,master喚醒正版的userprogram,MapReduce函數(shù)調(diào)用返回userprogram的代碼。過程云計(jì)算Mapreduce簡(jiǎn)介課件容錯(cuò)機(jī)制由于MapReduce函數(shù)庫是設(shè)計(jì)用于在成百上千臺(tái)機(jī)器上處理海量數(shù)據(jù)的,所以這個(gè)函數(shù)庫必須考慮到機(jī)器故障的容錯(cuò)處理。master會(huì)定期發(fā)送命令輪詢每一臺(tái)worker機(jī)器。如果在一定時(shí)間內(nèi)有一臺(tái)worker機(jī)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論