




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
一、大數(shù)據(jù)與云計(jì)算1.云計(jì)算是并行計(jì)算、分布式計(jì)算和網(wǎng)格計(jì)算的發(fā)展。2云計(jì)算服務(wù)類(lèi)型:將基礎(chǔ)設(shè)施作為服務(wù)laas、將平臺(tái)作為服務(wù)paas、將軟件作為服務(wù)saas。3.云計(jì)算體系結(jié)構(gòu)分為四層:物理資源層、資源池層,管理中間件層,SOA(service-oriented-architecture,面向服務(wù)的體系結(jié)構(gòu))構(gòu)建層。4.云計(jì)算有更低的硬件和網(wǎng)絡(luò)成本、更低的管理成本和電力成本,也有更高的資源利用率。5.云計(jì)算特點(diǎn):超大規(guī)模、虛擬化、高可靠性、通用性、高可伸縮性、按需服務(wù)、極其廉價(jià)二、Google云計(jì)算原理和應(yīng)用Google云計(jì)算技術(shù)包括:Google文件系統(tǒng)GFS、分布式計(jì)算編程模型MapReduce、分布式鎖Chubby、分布式結(jié)構(gòu)化數(shù)據(jù)表BigTable、分布式存儲(chǔ)系統(tǒng)Megastore、分布式監(jiān)控系統(tǒng)Dapper、海量的交互式分析工具Dremel,以及內(nèi)存大數(shù)據(jù)分析系統(tǒng)powerdrill。2.GFS是一個(gè)大型的分布式文件系統(tǒng)GoogleFileSystem3.GFS將文件按照固定大小進(jìn)行分塊,默認(rèn)是64MB,每一塊稱(chēng)為一個(gè)chunk,每一個(gè)chunk都有一個(gè)索引號(hào)。4.GFS特點(diǎn):采用中心服務(wù)器模式、不緩存數(shù)據(jù)、在用戶(hù)態(tài)下實(shí)現(xiàn)、只提供專(zhuān)用接口5.master容錯(cuò),Master上保存了GFS文件系統(tǒng)的三種元數(shù)據(jù)NameSpace,文件系統(tǒng)目錄結(jié)構(gòu)、Chunk與文件名的映射表、Chunk副本的位置信息(默認(rèn)有三個(gè)副本)6.chunkserver容錯(cuò):GFS中的每一個(gè)文件被劃分成多個(gè)Chunk,Chunk的默認(rèn)大小是64MB,每個(gè)Chunk又劃分為若干Block(64KB),每個(gè)Block對(duì)應(yīng)一個(gè)32bit的校驗(yàn)和,保證數(shù)據(jù)正確。7.系統(tǒng)管理技術(shù):大規(guī)模集群安裝技術(shù)、故障檢測(cè)技術(shù)、節(jié)點(diǎn)動(dòng)態(tài)加入技術(shù)節(jié)能技術(shù)8.mapreduce模型:Map函數(shù)--對(duì)一部分原始數(shù)據(jù)進(jìn)行指定的操作。每個(gè)Map操作都針對(duì)不同的原始數(shù)據(jù),因此Map與Map之間是互相獨(dú)立的,這使得它們可以充分并行化。reduce函數(shù)--操作—對(duì)每個(gè)Map所產(chǎn)生的一部分中間結(jié)果進(jìn)行合并操作,每個(gè)Reduce所處理的Map中間結(jié)果是互不交叉的,reduce也可以在并行環(huán)境下執(zhí)行。9.MapReduce函數(shù)把輸入文件分成M塊,每塊大概16M~64MB。10.Chubby幾個(gè)重要的特性:Chubby不支持內(nèi)部文件的移動(dòng);不記錄文件的最后訪問(wèn)時(shí)間;另外在Chubby中并沒(méi)有符號(hào)連接(SymbolicLink,又叫軟連接,類(lèi)似于Windows系統(tǒng)中的快捷方式)和硬連接(HardLink,類(lèi)似于別名)的概念11.用戶(hù)打開(kāi)某個(gè)節(jié)點(diǎn)的同時(shí)會(huì)獲取一個(gè)類(lèi)似于UNIX中文件描述符(FileDescriptor)的句柄,這個(gè)句柄由以下三個(gè)部分組成:校驗(yàn)數(shù)位:防止其他用戶(hù)創(chuàng)建或猜測(cè)這個(gè)句柄、序號(hào):確定句柄由當(dāng)前還是以前的主服務(wù)器創(chuàng)建、模式信息:用于新的主服務(wù)器重新創(chuàng)建一個(gè)舊句柄。補(bǔ)充:Bigtable是Google開(kāi)發(fā)的基于GFS和Chubby的分布式存儲(chǔ)系統(tǒng)。12.分布式結(jié)構(gòu)化數(shù)據(jù)表Bigtable設(shè)計(jì)動(dòng)機(jī)與目標(biāo):需要存儲(chǔ)的數(shù)據(jù)種類(lèi)繁多、海量的服務(wù)請(qǐng)求、商用數(shù)據(jù)庫(kù)無(wú)法滿(mǎn)足Google的需求。13.Bigtable選用了Google自己開(kāi)發(fā)的分布式鎖服務(wù)Chubby14.Google應(yīng)用程序引擎:GoogleAppEngine為每個(gè)應(yīng)用程序提供了一個(gè)安全運(yùn)行環(huán)境,該沙盒可以保證每個(gè)應(yīng)用程序能夠安全的隔離運(yùn)行。第五章、hadoop2.01.2002年開(kāi)源組織Apache成立開(kāi)源搜索引擎項(xiàng)目Nutch,2004年Google三大論文,Apache實(shí)現(xiàn)了Nutch版的NDFS和MapReduce2006年NDFS和MapReduce移出Nutch,形成獨(dú)立項(xiàng)目,稱(chēng)為Hadoop。2.hadoop分布式文件系統(tǒng)HDFS可以部署在廉價(jià)的硬件上,能夠高容錯(cuò)、可靠的存儲(chǔ)海量數(shù)據(jù)(可以達(dá)到TB甚至PB級(jí))。它還可以和Yarn中的mapreduce編程模型很好的結(jié)合,為應(yīng)用程序提供高吞吐量的數(shù)據(jù)訪問(wèn),適用于大數(shù)據(jù)應(yīng)用程序。3.HDFS架構(gòu):4.HDFS內(nèi)部特性:冗余備份、副本存放副本選擇HDFS會(huì)盡量使用離程序最近的副本來(lái)滿(mǎn)足用戶(hù)請(qǐng)求,這樣可以減少總帶寬消耗和讀延時(shí)。如果在讀取程序的同一個(gè)機(jī)架上有一個(gè)副本,那么就使用這個(gè)副本;如果HDFS機(jī)群跨了多個(gè)數(shù)據(jù)中心,那么讀取程序?qū)?yōu)先考慮本地?cái)?shù)據(jù)中心的副本。HDFS的架構(gòu)支持?jǐn)?shù)據(jù)均衡策略。如果某個(gè)DataNode的剩余磁盤(pán)空間下降到一定程度,按照均衡策略,系統(tǒng)會(huì)自動(dòng)把數(shù)據(jù)從這個(gè)DataNode移動(dòng)到其他節(jié)點(diǎn)。當(dāng)對(duì)某個(gè)文件有很高需求時(shí),系統(tǒng)可能會(huì)啟動(dòng)一個(gè)計(jì)劃創(chuàng)建該文件的新副本,并重新平衡集群中的其他數(shù)據(jù)。4心跳檢測(cè)5數(shù)據(jù)完整性檢測(cè)6元數(shù)據(jù)磁盤(pán)失效7簡(jiǎn)單一致性模型、流式數(shù)據(jù)訪問(wèn)客戶(hù)端緩存客戶(hù)端創(chuàng)建文件的請(qǐng)求不是立即到達(dá)NameNode,HDFS客戶(hù)端先把數(shù)據(jù)緩存到本地的一個(gè)臨時(shí)文件,程序的寫(xiě)操作透明地重定向到這個(gè)臨時(shí)文件。當(dāng)這個(gè)臨時(shí)文件累積的數(shù)據(jù)超過(guò)一個(gè)塊的大?。?28MB)時(shí),客戶(hù)端才會(huì)聯(lián)系NameNode。NameNode在文件系統(tǒng)中插入文件名,給它分配一個(gè)數(shù)據(jù)塊,這樣客戶(hù)端就把數(shù)據(jù)從本地的緩存刷新到指定的數(shù)據(jù)塊中。當(dāng)文件關(guān)閉后,臨時(shí)文件中剩余的未刷新數(shù)據(jù)也會(huì)被傳輸?shù)紻ataNode中,然后客戶(hù)端告訴NameNode文件已關(guān)閉,此時(shí)NameNode才將文件創(chuàng)建操作寫(xiě)入日志進(jìn)行存儲(chǔ)。如果NameNode在文件關(guān)閉之前死機(jī),那么文件將會(huì)丟失。如果不采用客戶(hù)端緩存,網(wǎng)絡(luò)速度和擁塞都會(huì)對(duì)輸出產(chǎn)生很大的影響。流水線復(fù)制1)改進(jìn)樹(shù)型結(jié)構(gòu):為了解決傳統(tǒng)數(shù)據(jù)中心樹(shù)結(jié)構(gòu)上層交換網(wǎng)路存在的單點(diǎn)失效和瓶頸問(wèn)題,Alfares等人將fattree引入數(shù)據(jù)中心網(wǎng)絡(luò),fattree仍然采用三層級(jí)聯(lián)的交換機(jī)拓?fù)浣Y(jié)構(gòu)為服務(wù)器之間的通信提供無(wú)阻塞網(wǎng)路交換(核心-匯聚-接入)2)遞歸層次結(jié)構(gòu):Dcell、FiConn、Bcube3.軟件定義網(wǎng)絡(luò)SDN是一種新型的網(wǎng)絡(luò)技術(shù),它將網(wǎng)絡(luò)的控制平面與數(shù)據(jù)轉(zhuǎn)發(fā)平面進(jìn)行分離。SDN架構(gòu)主要分為基礎(chǔ)設(shè)施層、控制層和應(yīng)用層。4.云計(jì)算節(jié)能技術(shù)1)DVFS節(jié)能技術(shù):控制cpu能耗的技術(shù),當(dāng)cpu未被完全利用時(shí),通過(guò)降低cpu的供電電壓和時(shí)鐘頻率主動(dòng)降低cpu性能,這樣可以帶來(lái)數(shù)量級(jí)的動(dòng)態(tài)能耗降低。2)基于虛擬化的節(jié)能技術(shù)3)基于主機(jī)關(guān)閉/開(kāi)啟的節(jié)能技術(shù):隨機(jī)式策略、超時(shí)式策略和預(yù)測(cè)式策略。MapReduce編程實(shí)例WordCountpublicclassWordCount{publicstaticclassTokenizerMapperextendsMapper<Object,Text,Text,IntWritable>{privatefinalstaticIntWritableone=newIntWritable(1);privateTextword=newText();publicvoidmap(Objectkey,Textvalue,Contextcontext)throwsIOException,InterruptedException{StringTokenizeritr=newStringTokenizer(value.toString());while(itr.hasMoreTokens()){word.set(itr.nextToken());context.write(word,one);}}}publicstaticclassIntSumReducer
extendsReducer<Text,IntWritable,Text,IntWritable>{privateIntWritableresult=newIntWritable();publicvoidreduce(Textkey,Iterable<IntWritable>values,Contextcontext)throwsIOException,InterruptedException{intsum=0;for(IntWritableval:values){sum+=val.get();}result.set(sum);context.write(key,result);}}publicstaticvoidmain(String[]args)throwsException{Configurationconf=newConfiguration();String[]otherArgs=newGenericOptionsParser(conf,args).getRemainingArgs();if(otherArgs.length!=2){System.err.println("Usage:wordcount<in><out>");System.exit(2);}Jobjob=newJob(conf,"wordcount");job.setJarByClass(WordCount.class);job.setMapperClass(TokenizerMapper.class);job.setCombinerClass(IntSumReducer.class);job.setReducerClass(IntSumReducer.class);job.setOutputKeyClass(Text.class);job.setOutputValueClass(IntWritable.class);FileInputFormat.addInputPath(job,newPath(otherArgs[0]));FileOutputFormat.setOutputPath(job,newPath(otherArgs[1]));System.exit(job.waitForCompletion(true)?0:1);}}Mapreduce編程實(shí)例--矩陣相乘matrixInputFormat:publicclassmatrixInputFormatextendsInputFormat<Intpair,intPair>{publicmatrix[]m=newmatrix[2];//新建兩個(gè)實(shí)例publicList<InputSplit>getSplits(JobContextcontext)throwsIOExceptioninterruptionException{intNumOfFiles=readFile(context)for(intn=0;n<row;n++){row為行數(shù)for(intm=0;m〈col;m++){colmatrixInputSplitsplit=newmatrixInputSplit(n,this.m[0],m,this.m[1]);split.add(split);}}returnsplits}MatrixMultipublicclassmatrixMulti{publicstaticclassMatrixMapperextendsMapper<IntPair,IntPair,IntPair,IntWritable>{publicvoidmap(IntPairkey,IntPairvalue,Contextcontext)throwsIOException,InterruptionException{
intleft=value.getLeft();intright=value.getRight();intWritableresult=newIntWritable(left*right)context.write(key,result);}}publicstaticclassFirstPartitionerextendsPartitioner<IntPair,IntWritable>{intabs=Math.abs(key,getLeft())%numPartition;returnabs;}}publicstaticclassMatrixReducerextendsReducer<IntPair,IntWritable,IntPair,IntW
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 小學(xué)二年級(jí)數(shù)學(xué)三位數(shù)加減三位數(shù)計(jì)算能力監(jiān)控模擬題
- 小學(xué)二年級(jí)數(shù)學(xué)兩位數(shù)加兩位數(shù)計(jì)算能力檢測(cè)口算題帶答案
- 2025年度數(shù)字娛樂(lè)領(lǐng)域藝人經(jīng)紀(jì)合作協(xié)議
- 二零二五年度2025年度房屋抵押貸款轉(zhuǎn)讓及解押協(xié)議
- 企業(yè)信息管理試題+答案
- 13人物描寫(xiě)一組《摔跤》教學(xué)設(shè)計(jì)-2023-2024學(xué)年統(tǒng)編版語(yǔ)文五年級(jí)下冊(cè)
- 中國(guó)裝飾金融行業(yè)市場(chǎng)前景預(yù)測(cè)及投資戰(zhàn)略研究報(bào)告
- Unit 1 How can I get there?PartC(教學(xué)設(shè)計(jì))-2024-2025學(xué)年人教PEP版英語(yǔ)六年級(jí)上冊(cè)
- 高中信息技術(shù)選修2教學(xué)設(shè)計(jì)-5.1.4 組織多媒體信息1-教科版
- 農(nóng)民水稻買(mǎi)賣(mài)合同5篇
- 工程合同管理教材(共202頁(yè)).ppt
- 市政道路改造工程施工組織設(shè)計(jì)(最新)11623
- 疑似預(yù)防接種異常反應(yīng)(AEFI)監(jiān)測(cè)與處理PPT課件
- 電纜生產(chǎn)所需原材料采購(gòu)規(guī)范匯總
- ANKYLOS機(jī)械并發(fā)癥處理方法
- 道路橋梁實(shí)習(xí)日記12篇
- 第十章運(yùn)動(dòng)代償
- 《企業(yè)經(jīng)營(yíng)統(tǒng)計(jì)學(xué)》課程教學(xué)大綱
- 如何做好健康沙龍
- 交通安全設(shè)施養(yǎng)護(hù)技術(shù).ppt
- 環(huán)錘式碎煤機(jī)使用說(shuō)明書(shū)(參考)
評(píng)論
0/150
提交評(píng)論