云計(jì)算基礎(chǔ)知識(shí)整理

上傳人：m*** IP屬地：天津上傳時(shí)間：2022-04-14 格式：DOC 頁數(shù)：8 大小：93KB 積分：9.6 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩3頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、1. 云計(jì)算是對(duì)（D）技術(shù)的發(fā)展與運(yùn)用A.并行計(jì)算B網(wǎng)格計(jì)算C分布式計(jì)算D三個(gè)選項(xiàng)都是2. IBM在2007年11月退出了“改進(jìn)游戲規(guī)則”的（A）計(jì)算平臺(tái)，為客戶帶來即買即用的云計(jì)算平臺(tái)。A.藍(lán)云B.藍(lán)天3. 微軟于2008年10月推出云計(jì)算操作系統(tǒng)是（C）A.GoogleAppEngineB.藍(lán)云4. 2008年，（A）先后在無錫和北京建立了兩個(gè)云計(jì)算中心A.IBMB.GoogleC.AmazonD.微軟5. 將平臺(tái)作為服務(wù)的云計(jì)算服務(wù)類型是（B）三個(gè)選項(xiàng)都不是將基礎(chǔ)設(shè)施作為服務(wù)的云計(jì)算服務(wù)類型是（A）A.IaaSB.PaaSC.SaaSD.三個(gè)選項(xiàng)都不是IaaS計(jì)算實(shí)現(xiàn)機(jī)制中，系統(tǒng)管理模塊

2、的核心功能是（A）A.負(fù)載均衡B監(jiān)視節(jié)點(diǎn)的運(yùn)行狀態(tài)C應(yīng)用APID.節(jié)點(diǎn)環(huán)境配置云計(jì)算體系結(jié)構(gòu)的（C）負(fù)責(zé)資源管理、任務(wù)管理用戶管理和安全管理等工作A.物理資源層B.資源池層C.管理中間件層D.SOA構(gòu)建層云計(jì)算按照服務(wù)類型大致可分為以下類（A、B、C）A.IaaSB.PaaSC.SaaSD.效用計(jì)算下列不屬于Google云計(jì)算平臺(tái)技術(shù)架構(gòu)的是（D）A.并行數(shù)據(jù)處理MapReduceB.分布式鎖ChubbyC.結(jié)構(gòu)化數(shù)據(jù)表BigTableD.彈性云計(jì)算EC26. 在目前GFS集群中，每個(gè)集群包含（B）個(gè)存儲(chǔ)節(jié)點(diǎn)A.幾百個(gè)B.幾千個(gè)C.幾十個(gè)D.幾十萬個(gè)下列選項(xiàng)中，哪條不是GFS選擇在用戶態(tài)下實(shí)現(xiàn)

3、的原因（D）A.調(diào)試簡單B.不影響數(shù)據(jù)塊服務(wù)器的穩(wěn)定性C.降低實(shí)現(xiàn)難度，提高通用性D.容易擴(kuò)展GFS中主服務(wù)器節(jié)點(diǎn)存儲(chǔ)的元數(shù)據(jù)包含這些信息（BCD）A.文件副本的位置信息B.命名空間C.Chunk與文件名的映射D.Chunk副本的位置信息單一主服務(wù)器（Master）解決性能瓶頸的方法是（ABCD）A.減少其在數(shù)據(jù)存儲(chǔ)中的參與程度B.不適用Master讀取數(shù)據(jù)C.客戶端緩存元數(shù)據(jù)D.采用大尺寸的數(shù)據(jù)塊7. （B）是Google提出的用于處理海量數(shù)據(jù)的并行編程模式和大規(guī)模數(shù)據(jù)集的并行運(yùn)算的軟件架構(gòu)。8. Mapreduce適用于（D）A.任意應(yīng)用程序B.任意可在windowsservet2008上

4、運(yùn)行的程序C.可以串行處理的應(yīng)用程序D.可以并行處理的應(yīng)用程序MapReduce通常把輸入文件按照（C）MB來劃分A.16B32C64D1289. 與傳統(tǒng)的分布式程序設(shè)計(jì)相比，Mapreduce封裝了（ABCD）等細(xì)節(jié)，還提供了一個(gè)簡單而強(qiáng)大的接口。A.并行處理B.容錯(cuò)處理C.本地化計(jì)算D.負(fù)載均衡佃.（D）是Google的分布式數(shù)據(jù)存儲(chǔ)于管理系統(tǒng)在Bigtable中，（A）主要用來存儲(chǔ)子表數(shù)據(jù)以及一些日志文件使用的數(shù)據(jù)庫是（C）A.改進(jìn)的SQLServerB.OrackC.DatestoreD.亞馬遜的SimpleDBGoogleAPPEngine目前支持的編程語言有（AD）A.Python

5、語言B.C+語言C.匯編語言D.JAVA語言亞馬遜AWS采用（A）虛擬化技術(shù)A.未使用20. 亞馬遜將區(qū)域分為（AC）A地理區(qū)域B不可用區(qū)域C可用區(qū)域D隔離區(qū)域下面選項(xiàng)屬于Amazon提供的云計(jì)算服務(wù)是（ABC）A.彈性云計(jì)算EC2B簡單存儲(chǔ)服務(wù)S3c簡單隊(duì)列服務(wù)SQSD.Net服務(wù)不屬于彈性計(jì)算云EC2包含的IP地址的是（C）A.公共IP地址B.私有IP地址C.隧道IP地址D.彈性IP地址在EC2的安全與容錯(cuò)機(jī)制中，一個(gè)用戶目前最多可以創(chuàng)建（B）安全組。A.50B.100C.150D.200EC2常用的API包含下列哪些類型的操作（ABCD）A.AMIB.安全組C實(shí)例D彈性IP地址S3的基本

6、存儲(chǔ)單元是（B）A.服務(wù)B.對(duì)象C.卷D.組21. S3采用的專門安全措施是（AB）A.身份認(rèn)證B.訪問控制列表C防火墻D防木馬病毒技術(shù)22. 在云計(jì)算系統(tǒng)中，提供“云端”服務(wù)模式是（D）公司的云計(jì)算服務(wù)平臺(tái)。A.IBMB.GOOGLEC.AmaxonD.微軟下列四種云計(jì)算方案中，服務(wù)間的耦合度最高的是（C）A.亞馬遜AWSB.微軟的“藍(lán)云”云格可以完成的服務(wù)有（ABCD）A.數(shù)據(jù)處理服務(wù)B.格處理服務(wù)C.高性能計(jì)算服務(wù)D.協(xié)作服務(wù)亞馬遜AWS提供的云計(jì)算服務(wù)類型是（D）A.IaaSB.PaaSC.SaaSD.三個(gè)選項(xiàng)都是Google文件系統(tǒng)將整個(gè)系統(tǒng)的節(jié)點(diǎn)分為（ABC）的角色A.客戶端B.主

7、服務(wù)器C.數(shù)據(jù)塊服務(wù)器D.監(jiān)測服務(wù)器Google文件系統(tǒng)具有（ABD）特點(diǎn)A.采用中心服務(wù)器模式B不緩存數(shù)據(jù)C.采用邊緣服務(wù)器模式D在用戶態(tài)下實(shí)現(xiàn)Google不緩存數(shù)據(jù)的原因是（ABCD）A.OFS的文件操作大部門是流式讀寫；B.維護(hù)緩存與實(shí)際數(shù)據(jù)之間的一致性太復(fù)雜C.不存在大量的重復(fù)讀寫D.數(shù)據(jù)塊服務(wù)器上的數(shù)據(jù)存取使用本地文件系統(tǒng)23. 從研究現(xiàn)狀上看，下面不屬于云計(jì)算特點(diǎn)的是（C）A.超大規(guī)模B.虛擬化C.私有化D.高可靠性24. 與網(wǎng)絡(luò)計(jì)算相比，不屬于云計(jì)算特征的是（B）A.資源高度共享B.適合緊耦合科學(xué)計(jì)算C.支持虛擬機(jī)D.適用于商業(yè)領(lǐng)域一，填空題（30分）云計(jì)算是以公開的標(biāo)準(zhǔn)和服務(wù)為

8、基礎(chǔ)，以互聯(lián)網(wǎng)為中心，提供安全、快速、便捷的數(shù)據(jù)存儲(chǔ)和網(wǎng)絡(luò)計(jì)算服務(wù)，讓互聯(lián)網(wǎng)這片"云"成為每一個(gè)網(wǎng)民的數(shù)據(jù)中心和計(jì)算中心。對(duì)提供者而言，云計(jì)算可以三種部署模式，即公有云、私有云和混合云。當(dāng)前，幾乎所有的知名IT提供商、互聯(lián)網(wǎng)提供商，甚至電信運(yùn)營商都在向云計(jì)算進(jìn)軍，都在提供相關(guān)的云服務(wù)。但歸納起來，當(dāng)前云提供者可以分為三大類，即SaaS提供商、PaaS和IaaS提供商。5.云計(jì)算（CloudComputing）:一種利用大規(guī)模低成本運(yùn)算單元通過IP網(wǎng)絡(luò)連接，以提供各種計(jì)算和存儲(chǔ)服務(wù)的IT技術(shù)。二，選擇題（可多選）（50分）1云計(jì)算的特點(diǎn)？（ABCDE）A.大規(guī)模B.平滑擴(kuò)展C

9、資源共享D.動(dòng)態(tài)分配E.跨地域2. 寶德存儲(chǔ)云解決方案價(jià)值有哪些？（ABCD）A.海量小文件的高效管理B.PB級(jí)的存儲(chǔ)空間和線行擴(kuò)展能力C.可動(dòng)態(tài)提升的性能D.數(shù)據(jù)高可靠性3目前，選用開源的虛擬化產(chǎn)品組建虛擬化平臺(tái)，構(gòu)建基于硬件的虛擬化層，可以選用（BCD）4在云計(jì)算中，虛擬層主要包括（ABC）A.服務(wù)器虛擬化B.存儲(chǔ)虛擬化C.網(wǎng)絡(luò)虛擬化D.桌面虛擬化7. 未來云計(jì)算服務(wù)面向那些客戶？（ABCDE）A.個(gè)人B.企業(yè)C.政府D.教育E.研究所云安全主要的考慮的關(guān)鍵技術(shù)有哪些？（ABC）A.數(shù)據(jù)安全B.應(yīng)用安全C.虛擬化安全D.服務(wù)器安全由于云計(jì)算分為laaS、PaaS和SaaS三種類型，不同的廠

10、家又提供了不同的解決方案，目前還沒有一個(gè)統(tǒng)一的技術(shù)體系結(jié)構(gòu)，對(duì)讀者了解云計(jì)算的原理構(gòu)成了障礙。為此，本文綜合不同廠家的方案，構(gòu)造了一個(gè)供商榷的云計(jì)算體系結(jié)構(gòu)。這個(gè)體系結(jié)構(gòu)如圖3所示，它概括了不同解決方案的主要特征，每一種方案或許只實(shí)現(xiàn)了其中部分功能，或許也還有部分相對(duì)次要功能尚未概括進(jìn)來。用戶愕刊1映憾部罟和野理任務(wù)調(diào)度任務(wù)抉療生“曾理1II誡壞域配譽(yù)jpn；忙管理使用計(jì)鱉安全麗卅廣安全管理故障檢S!故障恢疑I監(jiān)妙計(jì).細(xì)晉理管理中問料rSOA構(gòu)建屋腫等接口（畛注冊(cè)腮務(wù)杳找.JI軽務(wù)王作酒賈遺池計(jì)算竇揮池再確資諫池網(wǎng)爭資源施敷據(jù)竄海池I軟供誡掠池IL物理竊瀝計(jì)Lj軟件1圖3云計(jì)算技術(shù)體系結(jié)構(gòu)云計(jì)

11、算技術(shù)體系結(jié)構(gòu)分為4層：物理資源層、資源池層、管理中間件層和SOA構(gòu)建層，如圖3所示。物理資源層包括計(jì)算機(jī)、存儲(chǔ)器、網(wǎng)絡(luò)設(shè)施、數(shù)據(jù)庫和軟件等；資源池層是將大量相同類型的資源構(gòu)成同構(gòu)或接近同構(gòu)的資源池，如計(jì)算資源池、數(shù)據(jù)資源池等。構(gòu)建資源池更多是物理資源的集成和管理工作，例如研究在一個(gè)標(biāo)準(zhǔn)集裝箱的空間如何裝下2000個(gè)服務(wù)器、解決散熱和故障節(jié)點(diǎn)替換的問題并降低能耗；管理中間件負(fù)責(zé)對(duì)云計(jì)算的資源進(jìn)行管理，并對(duì)眾多應(yīng)用任務(wù)進(jìn)行調(diào)度，使資源能夠高效、安全地為應(yīng)用提供服務(wù)；SOA構(gòu)建層將云計(jì)算能力封裝成標(biāo)準(zhǔn)的WebServices服務(wù)，并納入到SOA體系進(jìn)行管理和使用，包括服務(wù)注冊(cè)、查找、訪問和構(gòu)建服務(wù)

12、工作流等。管理中間件和資源池層是云計(jì)算技術(shù)的最關(guān)鍵部分，SOA構(gòu)建層的功能更多依靠外部設(shè)施提供。云計(jì)算的管理中間件負(fù)責(zé)資源管理、任務(wù)管理、用戶管理和安全管理等工作。資源管理負(fù)責(zé)均衡地使用云資源節(jié)點(diǎn)，檢測節(jié)點(diǎn)的故障并試圖恢復(fù)或屏蔽之，并對(duì)資源的使用情況進(jìn)行監(jiān)視統(tǒng)計(jì)；任務(wù)管理負(fù)責(zé)執(zhí)行用戶或應(yīng)用提交的任務(wù)，包括完成用戶任務(wù)映象（Image）的部署和管理、任務(wù)調(diào)度、任務(wù)執(zhí)行、任務(wù)生命期管理等等；用戶管理是實(shí)現(xiàn)云計(jì)算商業(yè)模式的一個(gè)必不可少的環(huán)節(jié)，包括提供用戶交互接口、管理和識(shí)別用戶身份、創(chuàng)建用戶程序的執(zhí)行環(huán)境、對(duì)用戶的使用進(jìn)行計(jì)費(fèi)等；安全管理保障云計(jì)算設(shè)施的整體安全，包括身份認(rèn)證、訪問授權(quán)、綜合防護(hù)和安

13、全審計(jì)等。基于上述體系結(jié)構(gòu)，本文以IaaS云計(jì)算為例，簡述云計(jì)算的實(shí)現(xiàn)機(jī)制，如圖4所示。用戶交互接口向應(yīng)用以WebServices方式提供訪問接口，獲取用戶需求。服務(wù)目錄是用戶可以訪問的服務(wù)清單。系統(tǒng)管理模塊負(fù)責(zé)管理和分配所有可用的資源，其核心是負(fù)載均衡。配置工具負(fù)責(zé)在分配的節(jié)點(diǎn)上準(zhǔn)備任務(wù)運(yùn)行環(huán)境。監(jiān)視統(tǒng)計(jì)模塊負(fù)責(zé)監(jiān)視節(jié)點(diǎn)的運(yùn)行狀態(tài)，并完成用戶使用節(jié)點(diǎn)情況的統(tǒng)計(jì)。執(zhí)行過程并不復(fù)雜：用戶交互接口允許用戶從目錄中選取并調(diào)用一個(gè)服務(wù)。該請(qǐng)求傳遞給系統(tǒng)管理模塊后，它將為用戶分配恰當(dāng)?shù)馁Y源，然后調(diào)用配置工具來為用戶準(zhǔn)備運(yùn)行環(huán)境。HadoopHDFS特性簡介一、設(shè)計(jì)思想1硬件失效是“常態(tài)事件“，而非“偶然

14、事件”。HDFS可能是有上千的機(jī)器組成（文檔中描述的Yahoo!個(gè)Hadoop集群有4096個(gè)節(jié)點(diǎn)），任何一個(gè)組件都有可能一直失效，因此數(shù)據(jù)的健壯性錯(cuò)誤檢測和快速、自動(dòng)的恢復(fù)是HDFS的核心架構(gòu)目標(biāo)。2、流式數(shù)據(jù)訪問。運(yùn)行在HDFS上的應(yīng)用和普通的應(yīng)用不同，需要流式訪問它們的數(shù)據(jù)集。HDFS的設(shè)計(jì)中更多的考慮到了數(shù)據(jù)批處理，而不是用戶交互處理。比之?dāng)?shù)據(jù)訪問的低延遲問題，更關(guān)鍵的在于數(shù)據(jù)并發(fā)訪問的高吞吐量。POSIX標(biāo)準(zhǔn)設(shè)置的很多硬性約束對(duì)HDFS應(yīng)用系統(tǒng)不是必需的。為了提高數(shù)據(jù)的吞吐量，在一些關(guān)鍵方面對(duì)POSIX的語義做了一些修改。3、HDFS應(yīng)用對(duì)文件要求的是write-one-read-m

15、any訪問模型。一個(gè)文件經(jīng)過創(chuàng)建、寫，關(guān)閉之后就不需要改變。這一假設(shè)簡化了數(shù)據(jù)一致性問題，使高吞吐量的數(shù)據(jù)訪問成為可能。典型的如MapReduce框架，或者一個(gè)webcrawler應(yīng)用都很適合這個(gè)模型。4、移動(dòng)計(jì)算的代價(jià)比之移動(dòng)數(shù)據(jù)的代價(jià)低。一個(gè)應(yīng)用請(qǐng)求的計(jì)算，離它操作的數(shù)據(jù)越近就越高效，這在數(shù)據(jù)達(dá)到海量級(jí)別的時(shí)候更是如此。將計(jì)算移動(dòng)到數(shù)據(jù)附近，比之將數(shù)據(jù)移動(dòng)到應(yīng)用所在顯然更好，HDFS提供給應(yīng)用這樣的接口。5、在異構(gòu)的軟硬件平臺(tái)間的可移植性。二、Namenode和Datanode的劃分一個(gè)HDFS集群有一個(gè)Namenode和一定數(shù)目的Datanode組成。Namenode是一個(gè)中心服務(wù)器，負(fù)

16、責(zé)管理文件系統(tǒng)的namespace和客戶端對(duì)文件的訪問。Datanode在集群中會(huì)有多個(gè)，一般是一個(gè)節(jié)點(diǎn)存在一個(gè)，負(fù)責(zé)管理其自身節(jié)點(diǎn)上它們附帶的存儲(chǔ)。在內(nèi)部，一個(gè)大文件其分成一個(gè)或多個(gè)block，這些block存儲(chǔ)在Datanode集合里。Namenode執(zhí)行文件系統(tǒng)的namespace相關(guān)操作，例如打開、關(guān)閉、重命名文件和目錄，同時(shí)決定了block到具體Datanode節(jié)點(diǎn)的映射。Datanode在Namenode的指揮下進(jìn)行block的創(chuàng)建、刪除和復(fù)制。單一節(jié)點(diǎn)的Namenode大大簡化了系統(tǒng)的架構(gòu)。Namenode負(fù)責(zé)保管和管理所有的HDFS元數(shù)據(jù)，因而在請(qǐng)求Namenode得到文件的位

17、置后就不需要通過Namenode參與而直接從Datanode進(jìn)行。為了提高Namenode的性能，所有文件的namespace數(shù)據(jù)都在內(nèi)存中維護(hù)，所以就天生存在了由于內(nèi)存大小的限制導(dǎo)致一個(gè)HDFS集群的提供服務(wù)的文件數(shù)量的上限。根據(jù)目前的文檔，一個(gè)元數(shù)據(jù)（一個(gè)HDFS文件塊兒）占用200Bytes，如果是頁面抓取的小文件，那么32GB內(nèi)存能承載1.5億左右的文件存儲(chǔ)（有待精確詳細(xì)測試）。三、文件系統(tǒng)操作和namespace的關(guān)系HDFS支持傳統(tǒng)的層次型文件組織，與大多數(shù)其他文件系統(tǒng)類似，用戶可以創(chuàng)建目錄，并在其間創(chuàng)建、刪除、移動(dòng)和重命名文件。HDFS不支持userquotas和訪問權(quán)限，也不支

18、持鏈接（link），不過當(dāng)前的架構(gòu)并不排除實(shí)現(xiàn)這些特性。Namenode維護(hù)文件系統(tǒng)的namespace，任何對(duì)文件系統(tǒng)namespace和文件屬性的修改都將被Namenode記錄下來。應(yīng)用可以設(shè)置HDFS保存的文件的副本數(shù)目，文件副本的數(shù)目稱為文件的replication因子，這個(gè)信息也是由Namenode保存。四、數(shù)據(jù)復(fù)制HDFS被設(shè)計(jì)成在一個(gè)大集群中可以跨機(jī)器地可靠地存儲(chǔ)海量的文件。它將每個(gè)文件存儲(chǔ)成block序列，除了最后一個(gè)block，所有的block都是同樣的大小。文件的所有block為了容錯(cuò)都會(huì)被復(fù)制。每個(gè)文件的block大小和replication因子都是可配置的。Replic

19、ation因子可以在文件創(chuàng)建的時(shí)候配置，以后也可以改變。HDFS中的文件是write-one，并且嚴(yán)格要求在任何時(shí)候只有一個(gè)writer。Namenode全權(quán)管理block的復(fù)制，它周期性地從集群中的每個(gè)Datanode接收心跳包和一個(gè)Blockreport。心跳包的接收表示該Datanode節(jié)點(diǎn)正常工作，而Blockreport包括了該Datanode上所有的block組成的列表。1、副本的存放，副本的存放是HDFS可靠性和性能的關(guān)鍵。龐大的HDFS實(shí)例一般運(yùn)行在多個(gè)機(jī)架的計(jì)算機(jī)形成的集群上，不同機(jī)架間的兩臺(tái)機(jī)器的通訊需要通過交換機(jī)，顯然通常情況下，同一個(gè)機(jī)架內(nèi)的兩個(gè)節(jié)點(diǎn)間的帶寬會(huì)比不同機(jī)架

20、間的兩臺(tái)機(jī)器的帶寬大。在大多數(shù)情況下，replication因子是3,HDFS的存放策略是將一個(gè)副本存放在本地機(jī)架上的節(jié)點(diǎn)，一個(gè)副本放在同一機(jī)架上的另一個(gè)節(jié)點(diǎn)，最后一個(gè)副本放在不同機(jī)架上的一個(gè)節(jié)點(diǎn)。機(jī)架的錯(cuò)誤遠(yuǎn)遠(yuǎn)比節(jié)點(diǎn)的錯(cuò)誤少，這個(gè)策略不會(huì)影響到數(shù)據(jù)的可靠性和有效性。三分之一的副本在一個(gè)節(jié)點(diǎn)上，三分之二在一個(gè)機(jī)架上，其他保存在剩下的機(jī)架中，這一策略改進(jìn)了寫的性能。2、畐環(huán)的選擇，為了降低整體的帶寬消耗和讀延時(shí)，HDFS會(huì)盡量讓reader讀最近的副本。如果在reader的同一個(gè)機(jī)架上有一個(gè)副本，那么就讀該副本。如果一個(gè)HDFS集群跨越多個(gè)數(shù)據(jù)中心，那么reader也將首先嘗試讀本地?cái)?shù)據(jù)中心的副

21、本。3、SafeModeNamenode啟動(dòng)后會(huì)進(jìn)入一個(gè)稱為SafeMode的特殊狀態(tài)，處在這個(gè)狀態(tài)的Namenode是不會(huì)進(jìn)行數(shù)據(jù)塊的復(fù)制的。Namenode從所有的Datanode接收心跳包和Blockreport。Blockreport包括了某個(gè)Datanode所有的數(shù)據(jù)塊列表。每個(gè)block都有指定的最小數(shù)目的副本。當(dāng)Namenode僉測確認(rèn)某個(gè)Datanode的數(shù)據(jù)塊副本的最小數(shù)目，那么該Datanode就會(huì)被認(rèn)為是安全的；如果一定百分比（這個(gè)參數(shù)可配置）的數(shù)據(jù)塊檢測確認(rèn)是安全的，那么Namenode將退出SafeMode狀態(tài)，接下來它會(huì)確定還有哪些數(shù)據(jù)塊的副本沒有達(dá)到指定數(shù)目，并將

22、這些block復(fù)制到其他Datanode。五、文件系統(tǒng)元數(shù)據(jù)的持久化Namenode存儲(chǔ)HDFS的元數(shù)據(jù)。對(duì)于任何對(duì)文件元數(shù)據(jù)產(chǎn)生修改的操作，Namenode都使用一個(gè)稱為Editlog的事務(wù)日志記錄下來。例如，在HDFS中創(chuàng)建一個(gè)文件，Namenode就會(huì)在Editlog中插入一條記錄來表示；同樣，修改文件的replication因子也將往Editlog插入一條記錄。Namenode在本地OS的文件系統(tǒng)中存儲(chǔ)這個(gè)Editlog。整個(gè)文件系統(tǒng)的namespace,包括block到文件的映射、文件的屬性，都存儲(chǔ)在稱為FsImage的文件中，這個(gè)文件也是放在Namenode所在系統(tǒng)的文件系統(tǒng)上。N

23、amenode在內(nèi)存中保存著整個(gè)文件系統(tǒng)namespace和文件Blockmap的映像。這個(gè)關(guān)鍵的元數(shù)據(jù)設(shè)計(jì)得很緊湊，一般為200Bytes的內(nèi)存占用，因而一個(gè)帶有4G內(nèi)存的Namenode足夠支撐海量的文件和目錄。當(dāng)Namenode啟動(dòng)時(shí)，它從硬盤中讀取Editlog和FsImage,將所有Editlog中的事務(wù)作用（apply）在內(nèi)存中的FsImage，并將這個(gè)新版本的FsImage從內(nèi)存中flush到硬盤上，然后再truncate這個(gè)舊的Editlog,因?yàn)檫@個(gè)舊的Editlog的事務(wù)都已經(jīng)作用在FsImage上了。這個(gè)過程稱為checkpoint。在當(dāng)前實(shí)現(xiàn)中，checkpoint只發(fā)

24、生在Namenode啟動(dòng)時(shí)，在不久的將來我們將實(shí)現(xiàn)支持周期性的checkpoint。Datanode并不知道關(guān)于文件的任何東西，除了將文件中的數(shù)據(jù)保存在本地的文件系統(tǒng)上。它把每個(gè)HDFS數(shù)據(jù)塊存儲(chǔ)在本地文件系統(tǒng)上隔離的文件中。Datanode并不在同一個(gè)目錄創(chuàng)建所有的文件，相反，它用啟發(fā)式地方法來確定每個(gè)目錄的最佳文件數(shù)目，并且在適當(dāng)?shù)臅r(shí)候創(chuàng)建子目錄。在同一個(gè)目錄創(chuàng)建所有的文件不是最優(yōu)的選擇，因?yàn)楸镜匚募到y(tǒng)可能無法高效地在單一目錄中支持大量的文件。當(dāng)一個(gè)Datanode啟動(dòng)時(shí)，它掃描本地文件系統(tǒng)，對(duì)這些本地文件產(chǎn)生相應(yīng)的一個(gè)所有HDFS數(shù)據(jù)塊的列表，然后發(fā)送報(bào)告到Namenode這個(gè)報(bào)告就是

25、Blockreport。六、通訊協(xié)議所有的HDFS通訊協(xié)議都是構(gòu)建在TCP/IP協(xié)議上?？蛻舳送ㄟ^一個(gè)可配置的端口連接到Namenode通過ClientProtocol與Namenode交互。而Datanode是使用DatanodeProtocol與Namenode交互。從ClientProtocol和Datanodeprotocol抽象出一個(gè)遠(yuǎn)程調(diào)用（RPC）,在設(shè)計(jì)上，Namenode不會(huì)主動(dòng)發(fā)起RPC而是是響應(yīng)來自客戶端和Datanode的RPC青求。七、健壯性HDFS的主要目標(biāo)就是實(shí)現(xiàn)在失敗情況下的數(shù)據(jù)存儲(chǔ)可靠性。常見的三種失?。篘amenodefailures,Datanodefai

26、lures禾口網(wǎng)絡(luò)分割（networkpartitions）。1硬盤數(shù)據(jù)錯(cuò)誤、心跳檢測和重新復(fù)制每個(gè)Datanode節(jié)點(diǎn)都向Namenode周期性地發(fā)送心跳包。網(wǎng)絡(luò)切割可能導(dǎo)致一部分Datanode跟Namenode失去聯(lián)系。Namenode通過心跳包的缺失檢測到這一情況，并將這些Datanode標(biāo)記為dead，不會(huì)將新的IO請(qǐng)求發(fā)給它們。寄存在deadDatanode上的任何數(shù)據(jù)將不再有效。Datanode的死亡可能引起一些block的副本數(shù)目低于指定值，Namenode不斷地跟蹤需要復(fù)制的block，在任何需要的情況下啟動(dòng)復(fù)制。在下列情況可能需要重新復(fù)制：某個(gè)Datanode節(jié)點(diǎn)失效，某個(gè)

27、副本遭到損壞，Datanode上的硬盤錯(cuò)誤，或者文件的replication因子增大。2、集群均衡HDFS支持?jǐn)?shù)據(jù)的均衡計(jì)劃，如果某個(gè)Datanode節(jié)點(diǎn)上的空閑空間低于特定的臨界點(diǎn)，那么就會(huì)啟動(dòng)一個(gè)計(jì)劃自動(dòng)地將數(shù)據(jù)從一個(gè)Datanode搬移到空閑的Datanode。當(dāng)對(duì)某個(gè)文件的請(qǐng)求突然增加，那么也可能啟動(dòng)一個(gè)計(jì)劃創(chuàng)建該文件新的副本，并分布到集群中以滿足應(yīng)用的要求。這些均衡計(jì)劃目前還沒有實(shí)現(xiàn)。3、數(shù)據(jù)完整性從某個(gè)Datanode獲取的數(shù)據(jù)塊有可能是損壞的，這個(gè)損壞可能是由于Datanode的存儲(chǔ)設(shè)備錯(cuò)誤、網(wǎng)絡(luò)錯(cuò)誤或者軟件bug造成的。HDFS客戶端軟件實(shí)現(xiàn)了HDFS文件內(nèi)容的校驗(yàn)和。當(dāng)某個(gè)客

28、戶端創(chuàng)建一個(gè)新的HDFS文件，會(huì)計(jì)算這個(gè)文件每個(gè)block的校驗(yàn)和，并作為一個(gè)單獨(dú)的隱藏文件保存這些校驗(yàn)和在同一個(gè)HDFSnamespace下。當(dāng)客戶端檢索文件內(nèi)容，它會(huì)確認(rèn)從Datanode獲取的數(shù)據(jù)跟相應(yīng)的校驗(yàn)和文件中的校驗(yàn)和是否匹配，如果不匹配，客戶端可以選擇從其他Datanode獲取該block的副本。4、元數(shù)據(jù)磁盤錯(cuò)誤FsImage和Editlog是HDFS的核心數(shù)據(jù)結(jié)構(gòu)。這些文件如果損壞了，整個(gè)HDFS實(shí)例都將失效。因而，Namenode可以配置成支持維護(hù)多個(gè)FsImage和Editlog的拷貝。任何對(duì)FsImage或者Editlog的修改，都將同步到它們的副本上。這個(gè)同步操作可能

29、會(huì)降低Namenode每秒能支持處理的namespace事務(wù)。這個(gè)代價(jià)是可以接受的，因?yàn)镠DFS是數(shù)據(jù)密集的，而非元數(shù)據(jù)密集。當(dāng)Namenode重啟的時(shí)候，它總是選取最近的一致的FsImage和Editlog使用。Namenode在HDFS是單點(diǎn)存在，如果Namenode所在的機(jī)器錯(cuò)誤，手工的干預(yù)是必須的。目前，在另一臺(tái)機(jī)器上重啟因故障而停止服務(wù)的Namenode這個(gè)功能還沒實(shí)現(xiàn)。八、數(shù)據(jù)組織1數(shù)據(jù)塊兼容HDFS勺應(yīng)用都是處理大數(shù)據(jù)集合的。這些應(yīng)用都是寫數(shù)據(jù)一次，讀卻是一次到多次，并且讀的速度要滿足流式讀。HDFS支持文件的write-onee,read-many。一個(gè)典型的block大小是6

30、4MB因而，文件總是按照64M切分成chunk,每個(gè)chunk存儲(chǔ)于不同的Datanode上。2、數(shù)據(jù)產(chǎn)生步驟某個(gè)客戶端創(chuàng)建文件的請(qǐng)求其實(shí)并沒有立即發(fā)給Namenode事實(shí)上，HDFS客戶端會(huì)將文件數(shù)據(jù)緩存到本地的一個(gè)臨時(shí)文件。應(yīng)用的寫被透明地重定向到這個(gè)臨時(shí)文件。當(dāng)這個(gè)臨時(shí)文件累積的數(shù)據(jù)超過一個(gè)block的大?。J(rèn)64M）,客戶端才會(huì)聯(lián)系NamenodeNamenode將文件名插入文件系統(tǒng)的層次結(jié)構(gòu)中，并且分配一個(gè)數(shù)據(jù)塊給它，然后返回Datanode的標(biāo)識(shí)符和目標(biāo)數(shù)據(jù)塊給客戶端?？蛻舳藢⒈镜嘏R時(shí)文件flush到指定的Datanode上。當(dāng)文件關(guān)閉時(shí)，在臨時(shí)文件中剩余的沒有flush的數(shù)據(jù)也會(huì)傳輸?shù)街付ǖ腄atanode，然后客戶端告訴Namenode文件已經(jīng)關(guān)閉。此時(shí)Namenode才將文件創(chuàng)建操作提交到持久存儲(chǔ)。如果Namenode在文件關(guān)閉前掛了，該文件將丟失。上述方法是對(duì)通過對(duì)

人人文庫> 全部分類> 行業(yè)資料 > 管理策劃

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

云計(jì)算基礎(chǔ)知識(shí)整理

文檔簡介

溫馨提示

最新文檔

評(píng)論

云計(jì)算基礎(chǔ)知識(shí)整理

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔