版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第5章統(tǒng)一資源管理和調(diào)度框架YARN《Hadoop大數(shù)據(jù)原理與應(yīng)用》西安電子科技大學(xué)出版社【知識(shí)與能力要求】第5章統(tǒng)一資源管理和調(diào)度框架YARN5.1初識(shí)YARN5.2YARN體系架構(gòu)5.3YARN工作流程5.4實(shí)戰(zhàn)YARN5.5YARN新特性5.6其它統(tǒng)一資源管理調(diào)度框架5.1初識(shí)YARN針對(duì)MapReduce1.0在可用性、可擴(kuò)展性、資源利用率、框架支持等方面的不足,對(duì)MapReduce1.0的架構(gòu)進(jìn)行了重新設(shè)計(jì),提出了全新的資源管理和調(diào)度框架YARN。YARN是Hadoop2.0的資源管理和調(diào)度框架,是一個(gè)通用的資源管理系統(tǒng),在其上可以部署各種計(jì)算框架,它可為上層應(yīng)用提供統(tǒng)一的資源管理和調(diào)度,它的引入為集群高可用性、可擴(kuò)展性、資源利用率和數(shù)據(jù)共享等方面帶來(lái)了很大好處。5.1.1MapReduce1.0存在的問(wèn)題在Hadoop1.0中,MapReduce采用Master/Slave架構(gòu),有兩類(lèi)守護(hù)進(jìn)程控制作業(yè)的執(zhí)行過(guò)程,即一個(gè)JobTracker和多個(gè)TaskTracker。JobTracker負(fù)責(zé)資源管理和作業(yè)調(diào)度;TaskTracker定期向JobTracker匯報(bào)本節(jié)點(diǎn)的健康狀況、資源使用情況、任務(wù)執(zhí)行情況以及接受來(lái)自JobTracker的命令并執(zhí)行。隨著集群規(guī)模負(fù)載的增加,MapReduceJobTracker在內(nèi)存消耗、擴(kuò)展性、可靠性、性能等方面暴露出各種缺點(diǎn),具體包括以下幾個(gè)方面。(1)單點(diǎn)故障問(wèn)題。JobTracker只有一個(gè),它負(fù)責(zé)所有MapReduce作業(yè)的調(diào)度,若這個(gè)唯一的JobTracker出現(xiàn)故障就會(huì)導(dǎo)致整個(gè)集群不可用。(2)可擴(kuò)展性瓶頸。業(yè)內(nèi)普遍總結(jié)出當(dāng)節(jié)點(diǎn)數(shù)達(dá)到4000,任務(wù)數(shù)達(dá)到40000時(shí),MapReduce1.0會(huì)遇到可擴(kuò)展性瓶頸,這是由于JobTracker“大包大攬”任務(wù)過(guò)重,既要負(fù)責(zé)作業(yè)的調(diào)度和失敗恢復(fù),又要負(fù)責(zé)資源的管理分配。當(dāng)執(zhí)行過(guò)多的任務(wù)時(shí),需要巨大的內(nèi)存開(kāi)銷(xiāo),這也潛在增加了JobTracker失敗的風(fēng)險(xiǎn)。(3)資源劃分不合理。資源(CPU、內(nèi)存)被強(qiáng)制等量劃分為多個(gè)Slot,每個(gè)TaskTracker都配置有若干固定長(zhǎng)度的Slot,這些Slot是靜態(tài)分配的,在配置的時(shí)候就被劃分為MapSlot和ReduceSlot,且MapSlot僅能用于運(yùn)行一個(gè)Map任務(wù),ReduceSlot僅能用于運(yùn)行一個(gè)Reduce任務(wù),彼此之間不能使用分配給對(duì)方的Slot。這意味著,當(dāng)集群中只存在單一Map任務(wù)或Reduce任務(wù)時(shí),會(huì)造成資源的極大浪費(fèi)。(4)僅支持MapReduce一個(gè)計(jì)算框架。MapReduce是一個(gè)基于Map和Reduce、適合批處理、基于磁盤(pán)的計(jì)算框架,不能解決所有場(chǎng)景問(wèn)題,而一個(gè)集群僅支持一個(gè)計(jì)算框架,不支持其他類(lèi)型的計(jì)算框架如Spark、Storm等,造成集群多、管理復(fù)雜,且各個(gè)集群不能共享資源,造成集群間資源浪費(fèi)。5.1.2YARN簡(jiǎn)介為了解決MapReduce1.0存在的問(wèn)題,Hadoop2.0以后版本對(duì)其核心子項(xiàng)目MapReduce的體系架構(gòu)進(jìn)行了重新設(shè)計(jì),生成了MRv2和YARN。ApacheHadoopYARN(YetAnotherResourceNegotiator,另一種資源協(xié)調(diào)者)是Hadoop2.0的資源管理和調(diào)度框架,是一個(gè)通用資源管理系統(tǒng),可為上層應(yīng)用提供統(tǒng)一的資源管理和調(diào)度,它的引入為集群在利用率、資源統(tǒng)一管理和數(shù)據(jù)共享等方面帶來(lái)了很大好處。5.1.2YARN簡(jiǎn)介YARN設(shè)計(jì)的基本思路就是“放權(quán)”,即不讓JobTracker承擔(dān)過(guò)多功能,把MapReduce1.0中JobTracker三大功能資源管理、任務(wù)調(diào)度和任務(wù)監(jiān)控進(jìn)行拆分,分別交給不同的新組件承擔(dān)。重新設(shè)計(jì)后得到的YARN包括ResourceManager、ApplicationMaster和NodeManager,其中,ResourceManager負(fù)責(zé)資源管理,ApplicationMaster負(fù)責(zé)任務(wù)調(diào)度和任務(wù)監(jiān)控,NodeManager負(fù)責(zé)承擔(dān)原TaskTracker功能,且原資源被劃分的Slot重新設(shè)計(jì)為容器Container,NodeManager能夠啟動(dòng)和監(jiān)控容器Container。另外,原JobTracker也負(fù)責(zé)存儲(chǔ)已完成作業(yè)的作業(yè)歷史,此功能也可以運(yùn)行一個(gè)作業(yè)歷史服務(wù)器作為一個(gè)獨(dú)立守護(hù)進(jìn)程來(lái)取代JobTracker,YARN中與之等價(jià)的角色是時(shí)間軸服務(wù)器TimelineServer。MapReduce1.0與YARN組成比較MapReduce1.0YARNJobTrackerResourceManager、ApplicationMaster、TimelineServerTaskTrackerNodeManagerSlotContainer5.1.2YARN簡(jiǎn)介總之,Hadoop1.0中,MapReduce既是一個(gè)計(jì)算框架,又是一個(gè)資源管理和調(diào)度框架,到了Hadoop2.0以后,MapReduce中資源管理和調(diào)度功能被單獨(dú)分割出來(lái)形成YARN,YARN是一個(gè)純粹的資源管理調(diào)度框架,而被剝離了資源管理調(diào)度功能的MapReduce變成了MRv2,MRv2是運(yùn)行在YARN上的一個(gè)純粹的計(jì)算框架。從MapReduce1.0發(fā)展到Y(jié)ARN,客戶(hù)端并沒(méi)有發(fā)生變化,其大部分API及接口都保持兼容,因此,原來(lái)針對(duì)Hadoop1.0開(kāi)發(fā)的代碼不需做大的改動(dòng),就可以直接放在Hadoop2.0平臺(tái)上運(yùn)行。5.1.3YARN與MapReduce1.0相比優(yōu)勢(shì)(1)可擴(kuò)展性(Scalability)與MapReduce1.0相比,YARN可以在更大規(guī)模的集群上運(yùn)行。當(dāng)節(jié)點(diǎn)數(shù)達(dá)到4000、任務(wù)數(shù)達(dá)到40000時(shí),MapReduce1.0會(huì)遇到可擴(kuò)展性瓶頸,瓶頸來(lái)源于JobTracker負(fù)載過(guò)重,既要負(fù)責(zé)作業(yè)的調(diào)度和失敗恢復(fù),又要負(fù)責(zé)資源的管理分配。YARN利用ResourceManager和ApplicationMaster分離的架構(gòu)優(yōu)點(diǎn)克服了這個(gè)局限性,可以擴(kuò)展到將近10000個(gè)節(jié)點(diǎn)和100000個(gè)任務(wù)。另外,YARNFederation聯(lián)邦機(jī)制進(jìn)一步增強(qiáng)了集群水平橫向擴(kuò)展性。(2)可用性(Availability)當(dāng)守護(hù)進(jìn)程失敗時(shí),通常需要另一個(gè)守護(hù)進(jìn)程復(fù)制接管工作所需的狀態(tài)以便其繼續(xù)提供服務(wù),從而可以獲得高可用性(HighAvailable)。但是,由于MapReduce1.0中JobTracker內(nèi)存中存在大量快速變化的復(fù)雜狀態(tài),使得改進(jìn)JobTracker以使其獲得高可用性非常困難。YARN對(duì)MapReduce1.0的體系架構(gòu)進(jìn)行了重新設(shè)計(jì),ResourceManager和ApplicationMaster分別承擔(dān)MapReduce1.0中JobTracker的功能,那么高可用的服務(wù)隨之稱(chēng)為一個(gè)分而治之的問(wèn)題:先為ResourceManager提供高可用性,再為YARN應(yīng)用提供高可用性。YARN的ResourceManagerHA特性通過(guò)Active/StandbyResourceManager保證了YARN高可用性,ResourceManagerRestart特性保證了若ResourceManager發(fā)生單點(diǎn)故障,ResourceManager能盡快自動(dòng)重啟。(3)利用率(Utilization)MapReduce1.0使用Slot表示各個(gè)節(jié)點(diǎn)上的計(jì)算資源,Slot分為MapSlot和ReduceSlot兩種,且不允許共享。對(duì)于一個(gè)作業(yè),剛開(kāi)始運(yùn)行時(shí),MapSlot資源緊缺而ReduceSlot空閑,當(dāng)MapTask全部運(yùn)行完成后,Reduceslot緊缺而Mapslot空閑。很明顯,這種區(qū)分Slot類(lèi)別的資源管理方案在一定程度上降低了Slot的利用率。同時(shí),這種基于無(wú)類(lèi)別Slot的資源劃分方法的劃分粒度過(guò)大,往往會(huì)造成節(jié)點(diǎn)資源利用率過(guò)高或者過(guò)低。YARN中,一個(gè)NodeManager管理一個(gè)資源池,而不是指定固定數(shù)目的Slot。YARN上運(yùn)行的MapReduce不會(huì)出現(xiàn)MapReduce1.0中由于集群中只有MapSlot可用而導(dǎo)致ReduceTask必須等待的情況。如果能夠獲取運(yùn)行任務(wù)的資源,那么應(yīng)用程序就會(huì)正常進(jìn)行。更進(jìn)一步,YARN中的資源是精細(xì)化管理的,這樣一個(gè)應(yīng)用程序能夠按需請(qǐng)求資源,而不是請(qǐng)求一個(gè)不可分割的、對(duì)于特定任務(wù)而言可能太大(浪費(fèi)資源)或太?。赡軐?dǎo)致失敗)的Slot。(4)多租戶(hù)(Multitenancy)在某種程度上可以說(shuō),YARN最大的優(yōu)點(diǎn)是向MapReduce以外的其他分布式計(jì)算框架開(kāi)放了Hadoop,MapReduce僅是許多YARN應(yīng)用中的一個(gè),Spark、Tez、Storm等計(jì)算框架也都可以運(yùn)行在YARN上。另外,用戶(hù)甚至可以在同一個(gè)YARN集群上運(yùn)行不同版本的MapReduce,這使得升級(jí)MapReduce更好管理。5.1.4YARN發(fā)展目標(biāo)YARN的提出并非僅僅為了解決MapReduce1.0中存在的問(wèn)題,實(shí)際上YARN有著更加偉大的目標(biāo),即實(shí)現(xiàn)“一個(gè)集群多個(gè)框架”,也就是說(shuō)在一個(gè)集群上部署一個(gè)統(tǒng)一的資源管理調(diào)度框架YARN,打造以YARN為核心的生態(tài)圈,在YARN之上可以部署其他各種計(jì)算框架,滿(mǎn)足一個(gè)公司各種不同的業(yè)務(wù)需求,如離線(xiàn)計(jì)算框架MapReduce、DAG計(jì)算框架Tez、流式計(jì)算框架Storm、內(nèi)存計(jì)算框架Spark等,由YARN為這些計(jì)算框架提供統(tǒng)一的資源管理調(diào)度服務(wù),并且能夠根據(jù)各種計(jì)算框架的負(fù)載需求,調(diào)整各自占用的資源,實(shí)現(xiàn)集群資源共享和資源彈性收縮。HDFS2.0YARNBATCH(MapReduce)INTERACTIVE(Tez)ONLINE(HBase)STREAMING(Storm,S4…)GRAPH(Giraph)In-MEMORY(Spark)HPCMPI(OpenMPI)OTHER5.2YARN體系架構(gòu)YARN采用主從架構(gòu)(Master/Slave),其核心組件包括三個(gè):ResourceManager、NodeManager和ApplicationMaster。其中,ResourceManager是主進(jìn)程,NodeManager是從進(jìn)程,一個(gè)ResourceManager對(duì)應(yīng)多個(gè)NodeManager,每個(gè)應(yīng)用程序擁有一個(gè)ApplicationMaster。此外,YARN中引入了一個(gè)邏輯概念——容器Container,它將各類(lèi)資源(如CPU、內(nèi)存)抽象化,方便從節(jié)點(diǎn)NodeManager管理本機(jī)資源,主節(jié)點(diǎn)ResourceManager管理集群資源,如規(guī)定<1核,2G>為1個(gè)Container。5.2YARN體系架構(gòu)MapReduce狀態(tài)提交作業(yè)節(jié)點(diǎn)狀態(tài)請(qǐng)求資源
ClientClient
ResourceManagerNodeManagerContainerApplicationMaster
ApplicationMasterContainer
NodeManagerContainerContainerNodeManager5.2YARN體系架構(gòu)1.ClientClient向ResourceManager提交任務(wù)、終止任務(wù)等。2.ResourceManager整個(gè)集群只有一個(gè)ResourceManager,負(fù)責(zé)集群資源的統(tǒng)一管理和調(diào)度。具體承擔(dān)功能包括:(1)處理來(lái)自客戶(hù)端請(qǐng)求,包括啟動(dòng)/終止應(yīng)用程序。(2)啟動(dòng)/監(jiān)控ApplicationMaster,一旦某個(gè)ApplicationMaster出現(xiàn)故障,ResourceManager將會(huì)在另一個(gè)節(jié)點(diǎn)上啟動(dòng)該ApplicationMaster。(3)監(jiān)控NodeManager,接收NodeManager匯報(bào)的心跳信息并分配任務(wù)給NodeManager去執(zhí)行,一旦某個(gè)NodeManager出現(xiàn)故障,標(biāo)記該NodeManager的任務(wù),來(lái)告訴對(duì)應(yīng)的ApplicationMaster如何處理。5.2YARN體系架構(gòu)3.NodeManager整個(gè)集群有多個(gè)NodeManager,負(fù)責(zé)單節(jié)點(diǎn)資源的管理和使用。具體承擔(dān)功能包括:(1)周期性向ResourceManager匯報(bào)本節(jié)點(diǎn)上的資源使用情況和各個(gè)Container的運(yùn)行狀態(tài)。(2)接收并處理來(lái)自ResourceManager的Container啟動(dòng)/停止的各種命令。(3)處理來(lái)自ApplicationMaster的命令。4.ApplicationMaster每個(gè)應(yīng)用程序擁有一個(gè)ApplicationMaster,負(fù)責(zé)管理應(yīng)用程序。具體承擔(dān)功能包括:(1)數(shù)據(jù)切分。(2)為應(yīng)用程序/作業(yè)向ResourceManager申請(qǐng)資源(Container),并分配給內(nèi)部任務(wù)。(3)與NodeManager通信,以啟動(dòng)/停止任務(wù)。(4)任務(wù)監(jiān)控和容錯(cuò),在任務(wù)執(zhí)行失敗時(shí)重新為該任務(wù)申請(qǐng)資源并重啟任務(wù)。(5)接收并處理ResourceManager發(fā)出的命令,如終止Container、重啟NodeManager等。5.2YARN體系架構(gòu)5.ContainerContainer是YARN中新引入的一個(gè)邏輯概念,是YARN對(duì)資源的抽象,是YARN中最重要的概念之一。Container封裝了某個(gè)節(jié)點(diǎn)上一定量的資源(CPU和內(nèi)存兩類(lèi)資源),它與LinuxContainer沒(méi)有任何關(guān)系,僅僅是YARN提出的一個(gè)概念。Container由ApplicationMaster向ResourceManager申請(qǐng),由ResouceManager中的資源調(diào)度器異步分配給ApplicationMaster;Container的運(yùn)行是由ApplicationMaster向資源所在的NodeManager發(fā)起的,Container運(yùn)行時(shí)需提供內(nèi)部執(zhí)行的任務(wù)命令(可以是任何命令,比如Java、Python、C++進(jìn)程啟動(dòng)命令等)以及該命令執(zhí)行所需的環(huán)境變量和外部資源(比如詞典文件、可執(zhí)行文件、jar包等)。另外,一個(gè)應(yīng)用程序所需的Container分為以下兩大類(lèi):(1)運(yùn)行ApplicationMaster的Container:這是由ResourceManager和其內(nèi)部的資源調(diào)度器申請(qǐng)和啟動(dòng)的,用戶(hù)提交應(yīng)用程序時(shí),可指定唯一的ApplicationMaster所需的資源。(2)運(yùn)行各類(lèi)任務(wù)的Container:這是由ApplicationMaster向ResourceManager申請(qǐng)的,并由ApplicationMaster與NodeManager通信以啟動(dòng)之。該類(lèi)Container上運(yùn)行的任務(wù)類(lèi)型可以是MapTask、ReduceTask或SparkTask等。以上兩類(lèi)Container可能在任意節(jié)點(diǎn)上,它們的位置通常而言是隨機(jī)的,即ApplicationMaster可能與它管理的任務(wù)運(yùn)行在一個(gè)節(jié)點(diǎn)上。5.3YARN工作流程⑧⑤④③②①Client
ResourceManager
ApplicationManagerResourceScheduler
ReduceTask②NodeManagerMRAppMaster⑤⑥MapTask⑥⑥NodeManagerMapTask⑦⑦⑦NodeManager5.3YARN工作流程①Client向YARN提交MapReduce應(yīng)用程序,提交的內(nèi)容包括ApplicationMaster程序、啟動(dòng)ApplicationMaster的命令、用戶(hù)程序等。②ResourceManager接收到Client應(yīng)用程序請(qǐng)求后,為應(yīng)用程序分配第一個(gè)Container,并與對(duì)應(yīng)的NodeManager通信,要求它在這個(gè)Container中啟動(dòng)該應(yīng)用程序的ApplicationMaster(即圖中的“MRAppMaster”)。③ApplicationMaster被創(chuàng)建后會(huì)首先向ResourceManager注冊(cè),從而使得用戶(hù)可以直接通過(guò)ResourceManager查詢(xún)應(yīng)用程序的運(yùn)行狀態(tài)。接下來(lái)的步驟④-⑦是具體應(yīng)用程序的執(zhí)行步驟。④ApplicationMaster采用輪詢(xún)的方式通過(guò)RPC請(qǐng)求向ResourceManager申請(qǐng)資源。⑤ResourceManager以“容器Container”的形式向提出申請(qǐng)的ApplicationMaster分配資源,一旦ApplicationMaster申請(qǐng)到資源,便與對(duì)應(yīng)的NodeManager通信,要求它啟動(dòng)任務(wù)。⑥當(dāng)ApplicationMaster要求容器啟動(dòng)任務(wù)時(shí),它會(huì)為任務(wù)設(shè)置好運(yùn)行環(huán)境,包括環(huán)境變量、JAR包、二進(jìn)制程序等,然后將任務(wù)啟動(dòng)命令寫(xiě)到一個(gè)腳本中,最后NodeManager在容器中運(yùn)行該腳本以啟動(dòng)任務(wù)。⑦各個(gè)任務(wù)通過(guò)RPC協(xié)議向ApplicationMaster匯報(bào)自己的狀態(tài)和進(jìn)度,以便ApplicationMaster隨時(shí)掌握各個(gè)任務(wù)的運(yùn)行狀態(tài),從而可以在任務(wù)失敗時(shí)重啟任務(wù);在應(yīng)用程序運(yùn)行過(guò)程中,用戶(hù)可以隨時(shí)通過(guò)RPC向ApplicationMaster查詢(xún)應(yīng)用程序當(dāng)前運(yùn)行狀態(tài)。⑧應(yīng)用程序運(yùn)行完成后,ApplicationMaster向ResourceManager的應(yīng)用程序管理器ApplicationManager注銷(xiāo)并關(guān)閉自己。若ApplicationMaster因故失敗,ResourceManager中的應(yīng)用程序管理器ApplicationManager會(huì)監(jiān)測(cè)到失敗的情形,然后將其重新啟動(dòng),直到所有的任務(wù)都執(zhí)行完畢為止。5.4實(shí)戰(zhàn)YARNYARNWebUIYARNShellYARNJavaAPI編程5.4.1YARNWebUIYARNWebUI接口面向管理員。從頁(yè)面上,管理員能看到“集群統(tǒng)計(jì)信息”、“應(yīng)用程序列表”、“調(diào)度器”等功能模塊,此頁(yè)面支持讀,不支持寫(xiě)。YARNWebUI的默認(rèn)地址為http://ResourceManagerIP:8088。YARNWeb主界面——應(yīng)用程序列表效果圖YARN-App運(yùn)行中的調(diào)度器效果圖集群資源統(tǒng)計(jì)信息效果圖5.4.2YARNShellYARNShell接口面向YARN管理員。通過(guò)Shell接口,管理員能夠查看YARN系統(tǒng)級(jí)別統(tǒng)計(jì)信息,提交YARN-App等。YARNShell命令統(tǒng)一入口為:yarn,語(yǔ)法格式如下:yarn[--configconfdir][COMMAND|CLASSNAME]注意:若$HADOOP_HOME/bin未加入到系統(tǒng)環(huán)境變量PATH中,則需要切換到Hadoop安裝目錄下,輸入“bin/yarn”。5.4.2YARNShellUsage:yarn[--configconfdir][COMMAND|CLASSNAME]CLASSNAMEruntheclassnamedCLASSNAMEorwhereCOMMANDisoneof:resourcemanagerruntheResourceManagerUse-format-state-storefordeletingtheRMStateStore.Use-remove-application-from-state-store<appId>forremovingapplicationfromRMStateStore.nodemanagerrunanodemanageroneachslavetimelinereaderrunthetimelinereaderservertimelineserverrunthetimelineserverrmadminadmintoolsrouterruntheRouterdaemonsharedcachemanagerruntheSharedCacheManagerdaemonscmadminSharedCacheManageradmintoolsversionprinttheversionjar<jar>runajarfileapplicationprintsapplication(s)report/killapplicationapplicationattemptprintsapplicationattempt(s)reportcontainerprintscontainer(s)reportnodeprintsnodereport(s)queueprintsqueueinformationlogsdumpcontainerlogsschedulerconfupdatesschedulerconfigurationclasspathprintstheclasspathneededtogettheHadoopjarandtherequiredlibrariesclusterprintsclusterinformationdaemonlogget/settheloglevelforeachdaemontoprunclusterusagetool5.4.2YARNShellYARNShell命令分為系統(tǒng)級(jí)命令、程序級(jí)命令和其他輔助命令。本章僅介紹部分命令,關(guān)于YARNShell命令的完整說(shuō)明,讀者請(qǐng)參考官方網(wǎng)站/docs/r2.9.2/hadoop-yarn/hadoop-yarn-site/YarnCommands.html。1)系統(tǒng)級(jí)命令命令選項(xiàng)功能描述rmadmin管理集群node查看集群當(dāng)前節(jié)點(diǎn)信息queue查看集群當(dāng)前隊(duì)列運(yùn)行狀況cluster查看集群信息【實(shí)例5-1】【實(shí)例5-1】查看YARN集群中當(dāng)前所有節(jié)點(diǎn)信息。首先,可以使用命令“yarnnode-help”來(lái)查看“yarnnode”的幫助信息。【實(shí)例5-1】【實(shí)例5-1】查看YARN集群中當(dāng)前所有節(jié)點(diǎn)信息。其次,通過(guò)使用命令“yarnnode-all-list”來(lái)顯示出集群當(dāng)前所有節(jié)點(diǎn)信息。從圖中可以看出,該集群共有2個(gè)NodeManager,分別為slave1:33893和slave2:45580,都處于運(yùn)行狀態(tài)。2)程序級(jí)命令命令選項(xiàng)功能描述jar向YARN集群提交YARN-Appapplication查看YARN集群中正在運(yùn)行的YARN-Appcontainer當(dāng)YARN集群上正在運(yùn)行YARN-App時(shí),可以使用“container”查看該YARN-App所有Container以及各Container執(zhí)行狀態(tài)【實(shí)例5-2】【實(shí)例5-2】查看某YARN-App運(yùn)行時(shí)分配的所有Container信息。首先,可以使用命令“yarncontainer-help”來(lái)查看“yarncontainer”的幫助信息。【實(shí)例5-2】【實(shí)例5-2】查看某YARN-App運(yùn)行時(shí)分配的所有Container信息。其次,通過(guò)使用命令“yarncontainer-list<ApplicationAttemptID>”來(lái)查看某YARN-App運(yùn)行時(shí)分配的所有Container信息,運(yùn)行效果如圖5-11所示。從圖5-11中可以看出,應(yīng)用程序application_1564996260078_0002的appattempt_1564996260078_0002_000001共計(jì)分配了4個(gè)容器Container,分別為container_1564996260078_0002_01_000001~container_1564996260078_0002_01_000004,且這4個(gè)容器均在節(jié)點(diǎn)slave2:45580上。3)其他輔助命令命令選項(xiàng)功能描述version查看YARN版本classpath顯示YARN環(huán)境變量logs顯示某特定進(jìn)程日志【實(shí)例5-3】【實(shí)例5-3】查看YARN版本信息。使用命令“yarnversion”來(lái)查看YARN版本信息。5.4.3YARNJavaAPI編程YARNJavaAPI接口面向Java開(kāi)發(fā)工程師。程序員可以通過(guò)該接口編寫(xiě)YARN-App。YARN三大范式及其示例實(shí)現(xiàn)并行范式示例實(shí)現(xiàn)M范式DistributedShell框架M-S-R范式MapReduce框架、Spark框架BSP范式Giraph框架5.4.3YARNJavaAPI編程YARN-App三大模塊包括:(1)ApplicationBusinessLogic:應(yīng)用程序的業(yè)務(wù)邏輯模塊。(2)ApplicationClient:應(yīng)用程序客戶(hù)端,負(fù)責(zé)提交和監(jiān)管應(yīng)用程序。(3)ApplicationMaster:負(fù)責(zé)整個(gè)應(yīng)用程序的運(yùn)行,是應(yīng)用程序并行化指揮地,需要指揮所有container并行執(zhí)行ApplicationBusinessLogic。YARN-App三大模塊對(duì)應(yīng)不同范式的類(lèi)YARN應(yīng)用程序標(biāo)準(zhǔn)模塊DistributedShell框架對(duì)應(yīng)類(lèi)MapReduce框架對(duì)應(yīng)類(lèi)Giraph框架對(duì)應(yīng)類(lèi)ApplicationBussinessLogic用戶(hù)編寫(xiě)的Shell命令用戶(hù)自定義Mapper類(lèi)、Partition類(lèi)、和Reduce類(lèi)用戶(hù)自定義BasicComputation類(lèi)ApplicationClientClient.javaYARNRunner.javaGiraphYarnClient.javaApplicationMasterApplicationMaster.javaMRAPPMaster.javaGiraphApplicationMaster.java5.4.3YARNJavaAPI編程YARNJavaAPI并不是本章重點(diǎn),關(guān)于YARNAPI的詳細(xì)內(nèi)容,讀者請(qǐng)參考官方網(wǎng)站/docs/r2.9.2/api/index.html。5.5YARN新特性ResourceManagerRestart自動(dòng)重啟機(jī)制ResourceManagerHA高可用機(jī)制YARNFederation聯(lián)邦機(jī)制5.5.1ResourceManagerRestart自動(dòng)重啟機(jī)制1.ResourceManagerRestart概述在YARN體系架構(gòu)中,ResourceManager地位極其重要,它負(fù)責(zé)集群資源的統(tǒng)一管理和調(diào)度。若ResourceManager發(fā)生單點(diǎn)故障,為了減少生產(chǎn)集群中作業(yè)執(zhí)行失敗的可能性,YARN提供了新特性——ResourceManager自動(dòng)重啟,該特性保證ResourceManager能盡快自動(dòng)重啟,且重啟的過(guò)程用戶(hù)感知不到。5.5.1ResourceManagerRestart自動(dòng)重啟機(jī)制2.ResourceManagerRestart實(shí)現(xiàn)原理ResourceManager自動(dòng)重啟機(jī)制在不同版本的Hadoop中有兩種不同的實(shí)現(xiàn),兩種實(shí)現(xiàn)的原理不同,配置相同。1)Non-work-preservingRMrestart(Hadoop2.4.0實(shí)現(xiàn))Non-work-preservingRMrestart,即在重啟過(guò)程中任務(wù)不保留。其原理是當(dāng)Client提交一個(gè)Application給ResourceManager時(shí),ResourceManager會(huì)將該Application的相關(guān)信息存儲(chǔ)起來(lái),具體存儲(chǔ)位置是可以在配置文件中指定的,可以存儲(chǔ)到本地文件系統(tǒng)、HDFS或是ZooKeeper上,此外ResourceManager也會(huì)保存Application的最終狀態(tài)信息(failed,killed,finished),如果是在安全環(huán)境下運(yùn)行,ResourceManager還會(huì)保存相關(guān)證書(shū)文件。當(dāng)ResourceManager被關(guān)閉后,NodeManager和Client由于發(fā)現(xiàn)連接不上ResourceManager,會(huì)不斷向ResourceManager發(fā)送消息,以便能及時(shí)確認(rèn)ResourceManager是否已經(jīng)恢復(fù)正常,當(dāng)ResourceManager重新啟動(dòng)后,它會(huì)發(fā)送一條re-sync(重新同步)的命令給所有的NodeManager和ApplicationMaster,NodeManager收到重新同步的命令后會(huì)殺死所有的正在運(yùn)行的Containers并重新向ResourceManager注冊(cè),從ResourceManager的角度來(lái)看,每臺(tái)重新注冊(cè)的NodeManager跟一臺(tái)新加入到集群中NodeManager是一樣的。ApplicationMaster收到重新同步的命令后會(huì)自行將自己殺掉。接下來(lái),ResourceManager會(huì)將存儲(chǔ)的關(guān)于A(yíng)pplication的相關(guān)信息讀取出來(lái),并重新提交運(yùn)行在ResourceManager關(guān)閉之前最終狀態(tài)為正在運(yùn)行中的Application。5.5.1ResourceManagerRestart自動(dòng)重啟機(jī)制2.ResourceManagerRestart實(shí)現(xiàn)原理2)Work-preservingRMrestart(Hadoop2.6.0實(shí)現(xiàn))Work-preservingRMrestart,即在重啟過(guò)程中任務(wù)是保留的。它與第一種實(shí)現(xiàn)的區(qū)別在于,ResourceManager會(huì)記錄下Container整個(gè)生命周期的數(shù)據(jù),包括Application運(yùn)行的相關(guān)數(shù)據(jù)、資源申請(qǐng)狀況、隊(duì)列資源使用狀況等數(shù)據(jù)。如此一來(lái),當(dāng)ResourceManager重啟之后,會(huì)讀取之前存儲(chǔ)的關(guān)于A(yíng)pplication的運(yùn)行狀態(tài)數(shù)據(jù),同時(shí)發(fā)送re-sync命令,與第一種方式不同的是,NodeManager在接受到重新同步的命令后并不會(huì)殺死正在運(yùn)行的Containers,而是繼續(xù)運(yùn)行Containers中的任務(wù),同時(shí)將Containers的運(yùn)行狀態(tài)發(fā)送給ResourceManager,之后,ResourceManager根據(jù)自己所掌握的數(shù)據(jù)重構(gòu)Container實(shí)例和相關(guān)的Application運(yùn)行狀態(tài),如此一來(lái),就實(shí)現(xiàn)了在ResourceManager重啟之后,會(huì)緊接著ResourceManager關(guān)閉時(shí)任務(wù)的執(zhí)行狀態(tài)繼續(xù)執(zhí)行。對(duì)比以上兩種實(shí)現(xiàn)方式,第一種只保存了Application提交的信息和最終執(zhí)行狀態(tài),并不保存運(yùn)行過(guò)程中的相關(guān)數(shù)據(jù),所以ResourceManager重啟后,會(huì)先殺死正在執(zhí)行的任務(wù),再重新提交,從零開(kāi)始執(zhí)行任務(wù)。第二種方式則保存了Application運(yùn)行中的狀態(tài)數(shù)據(jù),所以在ResourceManager重啟之后,不需要?dú)⑺乐暗娜蝿?wù),而是接著原來(lái)執(zhí)行到的進(jìn)度繼續(xù)執(zhí)行。ResourceManager將應(yīng)用程序的狀態(tài)及其他驗(yàn)證信息保存到一個(gè)可插拔的狀態(tài)存儲(chǔ)中,ResourceManager重啟時(shí)從狀態(tài)存儲(chǔ)中重新加載這些信息,然后重新開(kāi)始之前正在運(yùn)行的應(yīng)用程序,用戶(hù)不需要重新提交應(yīng)用程序。5.5.1ResourceManagerRestart自動(dòng)重啟機(jī)制2.ResourceManagerRestart實(shí)現(xiàn)原理2)Work-preservingRMrestart(Hadoop2.6.0實(shí)現(xiàn))Work-preservingRMrestart,即在重啟過(guò)程中任務(wù)是保留的。它與第一種實(shí)現(xiàn)的區(qū)別在于,ResourceManager會(huì)記錄下Container整個(gè)生命周期的數(shù)據(jù),包括Application運(yùn)行的相關(guān)數(shù)據(jù)、資源申請(qǐng)狀況、隊(duì)列資源使用狀況等數(shù)據(jù)。如此一來(lái),當(dāng)ResourceManager重啟之后,會(huì)讀取之前存儲(chǔ)的關(guān)于A(yíng)pplication的運(yùn)行狀態(tài)數(shù)據(jù),同時(shí)發(fā)送re-sync命令,與第一種方式不同的是,NodeManager在接受到重新同步的命令后并不會(huì)殺死正在運(yùn)行的Containers,而是繼續(xù)運(yùn)行Containers中的任務(wù),同時(shí)將Containers的運(yùn)行狀態(tài)發(fā)送給ResourceManager,之后,ResourceManager根據(jù)自己所掌握的數(shù)據(jù)重構(gòu)Container實(shí)例和相關(guān)的Application運(yùn)行狀態(tài),如此一來(lái),就實(shí)現(xiàn)了在ResourceManager重啟之后,會(huì)緊接著ResourceManager關(guān)閉時(shí)任務(wù)的執(zhí)行狀態(tài)繼續(xù)執(zhí)行。對(duì)比以上兩種實(shí)現(xiàn)方式,第一種只保存了Application提交的信息和最終執(zhí)行狀態(tài),并不保存運(yùn)行過(guò)程中的相關(guān)數(shù)據(jù),所以ResourceManager重啟后,會(huì)先殺死正在執(zhí)行的任務(wù),再重新提交,從零開(kāi)始執(zhí)行任務(wù)。第二種方式則保存了Application運(yùn)行中的狀態(tài)數(shù)據(jù),所以在ResourceManager重啟之后,不需要?dú)⑺乐暗娜蝿?wù),而是接著原來(lái)執(zhí)行到的進(jìn)度繼續(xù)執(zhí)行。ResourceManager將應(yīng)用程序的狀態(tài)及其他驗(yàn)證信息保存到一個(gè)可插拔的狀態(tài)存儲(chǔ)中,ResourceManager重啟時(shí)從狀態(tài)存儲(chǔ)中重新加載這些信息,然后重新開(kāi)始之前正在運(yùn)行的應(yīng)用程序,用戶(hù)不需要重新提交應(yīng)用程序。5.5.1ResourceManagerRestart自動(dòng)重啟機(jī)制3.ResourceManagerRestart配置1)啟用ResourceManager重啟功能配置項(xiàng)“yarn.resourcemanager.recovery.enabled”的默認(rèn)值為“false”,在配置文件yarn-site.xml中添加以下內(nèi)容:<property><description>EnableRMtorecoverstateafterstarting.Iftrue,thenyarn.resourcemanager.store.classmustbespecified</description><name>yarn.resourcemanager.recovery.enabled</name><value>true</value></property>5.5.1ResourceManagerRestart自動(dòng)重啟機(jī)制3.ResourceManagerRestart配置2)配置狀態(tài)存儲(chǔ)配置項(xiàng)“yarn.resourcemanager.store.class”定義了用于狀態(tài)存儲(chǔ)的類(lèi),有三種取值:org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore:基于ZooKeeper的狀態(tài)存儲(chǔ)實(shí)現(xiàn)。org.apache.hadoop.yarn.server.resourcemanager.recovery.FileSystemRMStateStore:基于Hadoop文件系統(tǒng)的狀態(tài)存儲(chǔ)實(shí)現(xiàn)。org.apache.hadoop.yarn.server.resourcemanager.recovery.LeveldbRMStateStore:基于LevelDB的狀態(tài)存儲(chǔ)實(shí)現(xiàn)。5.5.1ResourceManagerRestart自動(dòng)重啟機(jī)制3.ResourceManagerRestart配置2)配置狀態(tài)存儲(chǔ)默認(rèn)是“org.apache.hadoop.yarn.server.resourcemanager.recovery.FileSystemRMStateStore”,基于Hadoop文件系統(tǒng)的狀態(tài)存儲(chǔ)實(shí)現(xiàn)。例如,選用基于ZooKeeper的狀態(tài)存儲(chǔ)實(shí)現(xiàn),在配置文件yarn-site.xml中添加以下內(nèi)容:<property><description>Theclasstouseasthepersistentstore.</description><name>yarn.resourcemanager.store.class</name><value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value></property>5.5.1ResourceManagerRestart自動(dòng)重啟機(jī)制3.ResourceManagerRestart配置2)配置狀態(tài)存儲(chǔ)然后需要配置被ResourceManager用于狀態(tài)存儲(chǔ)的ZooKeeper服務(wù)器列表,依照在第6章部署的ZooKeeper集群,在配置文件yarn-site.xml中添加以下內(nèi)容:<property><name>yarn.resourcemanager.zk-address</name><value>30:2181,31:2181,32:2181</value></property>5.5.2ResourceManagerHA高可用機(jī)制1.ResourceManagerHA概述在YARN中,ResourceManager負(fù)責(zé)整個(gè)集群資源的管理和應(yīng)用程序的調(diào)度,Hadoop2.4之前,ResourceManager存在單點(diǎn)故障問(wèn)題,一旦出現(xiàn)故障,就會(huì)影響到整個(gè)集群的正常運(yùn)行。在Hadoop2.4中,增加了Active/StandbyResourceManager,以解決ResourceManager單點(diǎn)故障問(wèn)題,這就是ResourceManagerHighAvailability(ResourceManager高可用機(jī)制,簡(jiǎn)稱(chēng)ResourceManagerHA)。5.5.2ResourceManagerHA高可用機(jī)制2.ResourceManagerHA體系架構(gòu)②
如果ActiveRM失效則進(jìn)行故障切換(故障切換可手工或自動(dòng)完成)①ActiveRM將其狀態(tài)寫(xiě)入ZooKeeperActiveResourceManagerStandbyResourceManager
ZooKeeper集群ZooKeeperZooKeeperZooKeeper5.5.2ResourceManagerHA高可用機(jī)制3.ResourceManagerHA切換配置1)手工切換當(dāng)ActiveResourceManager發(fā)生故障時(shí),管理員可通過(guò)命令手工切換,首先查看當(dāng)前RM狀態(tài),然后手工切換RM,依次使用命令如下所示:yarnrmadmin-getServiceStaterm1yarnrmadmin-transitionToStandbyrm12)自動(dòng)切換通過(guò)內(nèi)嵌的基于ZooKeeper的ActiveStandbyElector來(lái)決定哪個(gè)ResourceManager處于A(yíng)ctive狀態(tài)。當(dāng)ActiveResourceManager出現(xiàn)故障時(shí),其他的ResourceManager將會(huì)被自動(dòng)選舉并切換成Active狀態(tài)?!緦?shí)例5-4】【實(shí)例5-4】假設(shè)某一集群共有8臺(tái)機(jī)器,每個(gè)節(jié)點(diǎn)進(jìn)程分布如下表所示。試對(duì)該集群配置ResourceManagerHA自動(dòng)切換。
master1master2master3slave1slave2slave3slave4slave5NameNode√√
DataNode
√√√√√ResourceManager√√
NodeManager
√√√√√JournalNode√√√
ZooKeeper√√√
DFSZKFailover-Controller√√
【實(shí)例5-4】首先,需要在配置文件yarn-site.xml中添加如下內(nèi)容:<!--開(kāi)啟RM高可用--><property><name>yarn.resourcemanager.ha.enabled</name><value>true</value></property><!--指定RM的clusterid--><property><name>yarn.resourcemanager.cluster-id</name><value>yarn-cluster</value></property><!--指定RM的名字--><property><name>yarn.resourcemanager.ha.rm-ids</name><value>rm1,rm2</value></property>【實(shí)例5-4】<!--指定RM的地址--><property><name>yarn.resourcemanager.hostname.rm1</name><value>master1</value></property><property><name>yarn.resourcemanager.hostname.rm2</name><value>master2</value></property><property><name>yarn.resourcemanager.webapp.address.rm1</name><value>master1:8088</value></property><property><name>yarn.resourcemanager.webapp.address.rm2</name><value>master2:8088</value></property><!--指定ZooKeeper集群地址--><property><name>yarn.resourcemanager.zk-address</name><value>master1:2181,master2:2181,master3:2181</value></property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property>【實(shí)例5-4】其次需要在配置文件mapred-site.xml中添加如下內(nèi)容:<!—指定MapReduce框架為YARN方式--><property><name></name><value>yarn</value></property>5.5.3YARNFederation聯(lián)邦機(jī)制1.YARNFederation概述眾所周知,YARN可以擴(kuò)展到數(shù)千個(gè)節(jié)點(diǎn)。YARN的可伸縮性由ResourceManager確定,并且與節(jié)點(diǎn)數(shù)、活躍的應(yīng)用程序、活躍的容器和心跳頻率成比例。降低心跳可以提高可擴(kuò)展性,但對(duì)利用率有害?;诼?lián)邦(Federation)的方法,通過(guò)聯(lián)合多個(gè)YARN子集,可以將單個(gè)YARN集群擴(kuò)展到數(shù)萬(wàn)個(gè)節(jié)點(diǎn)。YARNFederation是將大的(10-100k節(jié)點(diǎn))集群劃分成稱(chēng)為子集群的較小單元,每個(gè)集群具有其自己的ResourceManager和NodeManager。聯(lián)合系統(tǒng)(FederationSystem)將這些子集群拼接在一起,使它們成為應(yīng)用程序的一個(gè)大型YARN集群。在此聯(lián)合環(huán)境中運(yùn)行的應(yīng)用程序?qū)⒖吹絾蝹€(gè)大型YARN集群,并且能夠在聯(lián)合集群的任何節(jié)點(diǎn)上計(jì)劃任務(wù)。聯(lián)合系統(tǒng)將與子集群的ResourceManager協(xié)商并為應(yīng)用程序提供資源,目標(biāo)是允許單個(gè)作業(yè)無(wú)縫地“跨越”子集群。這種設(shè)計(jì)在結(jié)構(gòu)上是可擴(kuò)展的,因?yàn)橥ㄟ^(guò)限制每個(gè)ResourceManager負(fù)責(zé)的節(jié)點(diǎn)數(shù)量,并且采用適當(dāng)?shù)牟呗詫?huì)保證大多數(shù)應(yīng)用程序駐留在單個(gè)子集群中,因此每個(gè)ResourceManager看到的應(yīng)用程序數(shù)量也是有限的。這意味著幾乎可以通過(guò)簡(jiǎn)單地添加子集來(lái)線(xiàn)性擴(kuò)展(因?yàn)樗鼈冎g需要很少的協(xié)調(diào))。
RMStateStoreNMNMAMRMProxyAMRMProxyTaskAMrm1node1node2分配分配YARN子集群1
RMNMNMAMRMProxyAMRMProxyTaskrm2node3node4分配YARN子集群2路由器路由器路由器加載策略加載策略成員提交應(yīng)用程序提交應(yīng)用程序5.5.3YARNFederation聯(lián)邦機(jī)制2.YARNFederation體系架構(gòu)5.5.3YARNFederation聯(lián)邦機(jī)制2.YARNFederation體系架構(gòu)(1)YARNSub-cluster子集群。子集群是一個(gè)YARN集群,具有多達(dá)數(shù)千個(gè)節(jié)點(diǎn)。子集群的YARNResourceManager將在保持高可用性的情況下運(yùn)行,即,應(yīng)該能夠容忍YARNResourceManager、NodeManager故障。如果整個(gè)子集群遭到破壞,外部機(jī)制將確保在單獨(dú)的子集群中重新提交作業(yè)。子集群也是聯(lián)合環(huán)境中的可伸縮性單元??梢酝ㄟ^(guò)添加一個(gè)或多個(gè)子集群來(lái)擴(kuò)展聯(lián)合環(huán)境。(2)Router路由組件。一個(gè)Federation集群可以配置一組,但最少配置一個(gè)。用戶(hù)提交應(yīng)用時(shí)首先會(huì)訪(fǎng)問(wèn)其中一個(gè)Router,然后Router會(huì)先從StateStore中獲得所有“SubCluster”信息(ActiveResourceManager和其他一些使用率信息),之后根據(jù)配置的路由策略(從策略存儲(chǔ)中獲取)將應(yīng)用程序提交請(qǐng)求轉(zhuǎn)發(fā)到對(duì)應(yīng)的ResourceManager上。(3)AMRMProxyAMRMProxy是應(yīng)用程序和多個(gè)ResourceManager通訊的橋梁。它允許一個(gè)Application可以跨子集群運(yùn)行。例如,一個(gè)Application有2000個(gè)task,這些task會(huì)分散到所有子集群上運(yùn)行,每個(gè)子集群運(yùn)行一部分。AMRMProxy運(yùn)行在所有的NodeManager機(jī)器上,它實(shí)現(xiàn)的ApplicationMasterProtocol接口作為ApplicationMaster的YARNResourceManager的代理。應(yīng)用程序不能直接與子集群的ResourceManager通信。YARN框架強(qiáng)制應(yīng)用程序只能連接到AMRMProxy,從而提供對(duì)多個(gè)YARNResourceManager(通過(guò)動(dòng)態(tài)路由/拆分/合并通信)的透明訪(fǎng)問(wèn)。在任何時(shí)候,作業(yè)都可以跨主子集群和多個(gè)輔助子集群運(yùn)行,其中AMRMProxy的運(yùn)行策略會(huì)試圖限制每個(gè)作業(yè)的占用空間以降低調(diào)度上的開(kāi)銷(xiāo)。(4)GlobalPolicyGenerator(GPG)全局策略生成器忽略整個(gè)聯(lián)合,并確保系統(tǒng)始終被正確的配置和調(diào)整。關(guān)鍵設(shè)計(jì)點(diǎn)是集群的可用性不依賴(lài)于永遠(yuǎn)在線(xiàn)的GPG。(5)FederationState-Store聯(lián)合狀態(tài)定義了需要維護(hù)的附加狀態(tài),以便將多個(gè)單獨(dú)的子集群松散地耦合到單個(gè)大型聯(lián)合集群中。(6)FederationPolicyStore聯(lián)合策略存儲(chǔ)是一個(gè)邏輯上獨(dú)立的存儲(chǔ),其中包含有關(guān)如何將應(yīng)用程序和資源請(qǐng)求路由到不同子集群的信息。當(dāng)前的實(shí)現(xiàn)提供了幾種策略,從隨機(jī)/散列/循環(huán)/優(yōu)先級(jí)(random/hashing/roundrobin/priority)到更復(fù)雜的策略,這些策略考慮了子集群的負(fù)載。5.5.3YARNFederation聯(lián)邦機(jī)制3.YARNFederation配置關(guān)于YARNFederation如何配置,本章不再講述,有興趣的讀者可以參考官網(wǎng)/docs/r2.9.2/hadoop-yarn/hadoop-yarn-site/Federation.html。5.6其它統(tǒng)一資源管理調(diào)度框架統(tǒng)一資源管理和調(diào)度平臺(tái)一般都具有以下特點(diǎn):(1)支持多種計(jì)算框架統(tǒng)一資源管理和調(diào)度平臺(tái)應(yīng)該提供一個(gè)全局的資源管理器。所有接入的框架要先向該全局資源管理器申請(qǐng)資源,申請(qǐng)成功之后,再由框架自身的調(diào)度器決定資源交由哪個(gè)任務(wù)使用,也就是說(shuō),整個(gè)大的系統(tǒng)是一個(gè)雙層調(diào)度器,第一層是統(tǒng)一管理和調(diào)度平臺(tái)的調(diào)度器,另外一層是框架自身的調(diào)度器。統(tǒng)一資源管理和調(diào)度平臺(tái)應(yīng)該提供資源隔離。不同的框架中的不同任務(wù)往往需要的資源(內(nèi)存,CPU,網(wǎng)絡(luò)IO等)不同,它們運(yùn)行在同一個(gè)集群中,會(huì)相互干擾,為此,應(yīng)該提供一種資源隔離機(jī)制避免任務(wù)之間由于資源爭(zhēng)用而導(dǎo)致效率的下降。(2)擴(kuò)展性現(xiàn)有的分布式計(jì)算框架都會(huì)將系統(tǒng)擴(kuò)展性作為一個(gè)非常重要的設(shè)計(jì)目標(biāo),比如Hadoop,好的擴(kuò)展性意味著系統(tǒng)能夠隨著業(yè)務(wù)的擴(kuò)展而線(xiàn)性擴(kuò)展。統(tǒng)一資源管理和調(diào)度平臺(tái)融入多種計(jì)算框架后,不應(yīng)該破壞這種特性,也就是說(shuō),統(tǒng)一管理和調(diào)度平臺(tái)不應(yīng)該制約框架進(jìn)行水平擴(kuò)展。(3)容錯(cuò)性同擴(kuò)展性類(lèi)似,容錯(cuò)性也是當(dāng)前分布式計(jì)算框架的一個(gè)重要設(shè)計(jì)目標(biāo),統(tǒng)一管理和調(diào)度平臺(tái)在保持原有框架的容錯(cuò)特性基礎(chǔ)上,自己本身也應(yīng)具有良好的容錯(cuò)性。(4)高資源利用率如果采用靜態(tài)資源分配,也就是每個(gè)計(jì)算框架分配一個(gè)集群,往往由于作業(yè)自身特點(diǎn)或者作業(yè)提交頻率等原因,造成集群利用率很低。當(dāng)將各種框架部署到同一個(gè)大的集群中,進(jìn)行統(tǒng)一管理和調(diào)度后,由于各種作業(yè)交叉且作業(yè)提交頻率大幅度升高,則為資源利用率的提升增加了機(jī)會(huì)。(5)細(xì)粒度資源分配細(xì)粒度的資源分配是指資源分配對(duì)象是任務(wù)(Task),不是作業(yè)(Job)、框架(Framework)或者應(yīng)用程序(Application)。這至少會(huì)帶來(lái)以下幾個(gè)好處:高資源利用率、高響應(yīng)時(shí)間和較好的局部性。5.6其它統(tǒng)一資源管理調(diào)度框架ApacheMesosHadoopCoronaGoogleBorg/Omega/KubernetesDockerSwarm5.6.1ApacheMesosApacheMesos誕生于UCBerkeley的一個(gè)研究項(xiàng)目,是仿Google內(nèi)部的資源管理系統(tǒng)Borg實(shí)現(xiàn)的,現(xiàn)已成為Apache的一個(gè)開(kāi)源項(xiàng)目,當(dāng)前有一些公司使用Mesos管理集群資源,如國(guó)外的Twitter、Apple,國(guó)內(nèi)的豆瓣等。5.6.1ApacheMesosApacheMesos采用Master/Slave架構(gòu),一個(gè)MesosMaster管理多個(gè)MesosAgent。其中,MesosMaster是非常輕量級(jí)的,僅保存了各種計(jì)算框架和MesosAgent的一些狀態(tài),而這些狀態(tài)很容易通過(guò)計(jì)算框架和MesosAgent重新注冊(cè)而重構(gòu),Mesos使用ZooKeeper解決了MesosMaster的單點(diǎn)故障問(wèn)題。MesosMaster實(shí)際上是一個(gè)全局資源調(diào)度器,采用某種策略將某個(gè)MesosAgent上的空閑資源分配給某一個(gè)計(jì)算框架,各種計(jì)算框架通過(guò)自己的調(diào)度器向MesosMaster注冊(cè),以接入到Mesos中;而MesosAgent主要功能是匯報(bào)任務(wù)的狀態(tài)和啟動(dòng)各個(gè)計(jì)算框架的執(zhí)行器(Executor)。HadoopSchedulerMPISchedulerMesosMasterStandbyMasterStandbyMaster
ZooKeeper集群ZooKeeperZooKeeperZooKeeperMesosAgent
Hadoopexecutor
taskMesosAgent
MPIexecutor
taskMesosAgent
Hadoopexecutor
MPIexecutor
tasktask5.6.2HadoopCoronaHadoopCorona是Facebook開(kāi)源的下一代MapReduce框架,其基本設(shè)計(jì)動(dòng)機(jī)和Apache的YARN一致。5.6.2HadoopCoronaHadoopCorona采用Master/Slave架構(gòu)ClusterManager
CoronaTaskTrackerMapTaskMapTaskMapTaskReduceTask
CoronaTaskTrackerCoronaJobTrackerMapTaskReduceTask
CoronaTaskTrackerMapTaskReduceTaskMapTaskReduceTaskResourceRequestLauchTaskHeartbeat5.6.2HadoopCorona(1)ClusterManagerClusterManager類(lèi)似于A(yíng)pacheYARN中的ResourceManager,負(fù)責(zé)資源分配和調(diào)度。ClusterManager掌握著各個(gè)節(jié)點(diǎn)的資源使用情況,并將資源分配給各個(gè)作業(yè)(默認(rèn)調(diào)度器為FairScheduler)。同YARN中的ResourceManager一樣,ClusterManager是一個(gè)高度抽象的資源統(tǒng)一分配與調(diào)度框架,它不僅可以為MapReduce分配資源,也可以為其他計(jì)算框架分配資源。(2)CoronaJobTrackerCoronaJobTracker類(lèi)似于YARN中的ApplicationMaster,用于作業(yè)的監(jiān)控和容錯(cuò),它可以運(yùn)行在兩個(gè)模式下:作為JobClient,用于提交作業(yè)和方便用戶(hù)跟蹤作業(yè)運(yùn)行狀態(tài)。作為一個(gè)Task,運(yùn)行在某個(gè)TaskTracker上。與MRv1中的JobTracker不同,每個(gè)CoronaJobTracker只負(fù)責(zé)監(jiān)控一個(gè)作業(yè)。(3)CoronaTaskTrackerCoronaTaskTracker類(lèi)似于YARN中的NodeManager,它的實(shí)現(xiàn)重用了MRv1中TaskTracker的很多代碼,它通過(guò)心跳將節(jié)點(diǎn)資源使用情況匯報(bào)給ClusterManager,同時(shí)會(huì)與CoronaJobTracker通信,以獲取新任務(wù)和匯報(bào)任務(wù)運(yùn)行狀態(tài)。(4)ProxyJobTrackerProxyJobTracker用于頁(yè)面展示一個(gè)作業(yè)的實(shí)際運(yùn)行信息。5.6.3GoogleBorg/Omega/Kubernetes1.BorgBorg是Google的第一代/第二代容器管理系統(tǒng),在Google已使用和發(fā)展十多年。Borg上可以運(yùn)行成千上萬(wàn)個(gè)Job,這些Job來(lái)自許多不同的應(yīng)用,并且跨多個(gè)集群,而每個(gè)集群有上萬(wàn)個(gè)機(jī)器。Borg通過(guò)組合準(zhǔn)入控制、高效的任務(wù)打包、超額負(fù)載以及基于進(jìn)程級(jí)別性能隔離的機(jī)器共享,從而實(shí)現(xiàn)了高利用率。它支持高可用的應(yīng)用,其運(yùn)行時(shí)特性能夠最小化錯(cuò)誤恢復(fù)時(shí)間,其調(diào)度策略降低了相關(guān)錯(cuò)誤發(fā)生的可能性。Borg的主要用戶(hù)是Google的開(kāi)發(fā)者以及運(yùn)行Google應(yīng)用和服務(wù)的系統(tǒng)管理員。Borg體系架構(gòu)
BorgMaster
read/UIShardlinkShard
Borglet
Borglet
Borglet
Borglet
調(diào)度器瀏覽器borgcfg配置文件持久存儲(chǔ)(Paxos)
命令行工具Cell5.6.3GoogleBorg/Omega/Kubernetes2.OmegaOmega是Borg的延伸。Google在2013年發(fā)表的論文中公布了它的下一代集群管理系統(tǒng)Omega的設(shè)計(jì)細(xì)節(jié),但論文并未公布Omega的設(shè)計(jì)架構(gòu)。Google經(jīng)歷了三代資源調(diào)度器架構(gòu),分別是中央式調(diào)度器架構(gòu)(類(lèi)似于HadoopJobTracker,但是支持多種類(lèi)型作業(yè)調(diào)度)、雙層調(diào)度器架構(gòu)(類(lèi)似于A(yíng)pacheMesos和HadoopYARN)和共享狀態(tài)架構(gòu)(Omega)。為了解決雙層調(diào)度器在全局資源視圖和并發(fā)控制方面的問(wèn)題,Google提出了共享狀態(tài)調(diào)度,其典型代表就是Google下一代調(diào)度系統(tǒng)Omega。運(yùn)行在Omega之上的計(jì)算框架調(diào)度器具有全局資源視圖,具有整個(gè)集群的完全訪(fǎng)問(wèn)權(quán)限。Omega元調(diào)度器維護(hù)著一個(gè)全局共有的集群狀態(tài),每個(gè)調(diào)度器具有一個(gè)私有集群狀態(tài)副本。為增加系統(tǒng)的并發(fā)性,Omega采用樂(lè)觀(guān)并發(fā)控制機(jī)制。5.6.3GoogleBorg/Omega/Kubernetes3.KubernetesGoogle研發(fā)的第三個(gè)容器管理系統(tǒng)是Kubernetes(K8s),其Logo如圖5-19所示。Kubernetes是一個(gè)開(kāi)源的容器集群管理系統(tǒng),可以實(shí)現(xiàn)容器集群的自動(dòng)化部署、自動(dòng)擴(kuò)縮容、維護(hù)等功能。Kubernetes是Google于2014年創(chuàng)建管理的,是Google十多年大規(guī)模容器管理技術(shù)Borg的開(kāi)源版本。Kubernetes在開(kāi)發(fā)的時(shí)候非常強(qiáng)調(diào)開(kāi)發(fā)者在開(kāi)發(fā)集群中應(yīng)用的體驗(yàn),它的主要目標(biāo)就是簡(jiǎn)化管理和部署復(fù)雜的分布式系統(tǒng),同時(shí)還能受益于容器的高利用率。通過(guò)Kubernetes可以快速部署應(yīng)用、快速擴(kuò)展應(yīng)用、無(wú)縫對(duì)接新的應(yīng)用功能、節(jié)省資源及優(yōu)化硬件資源的使用。MasterNodeWorkerNode
KubeletKube-proxyDocker
Pod
ContainerContainerContainerPod
ContainerContainerContainerAPIServerControllerManager(復(fù)制,命名空間,……)Scheduler命令行工具Kubectl網(wǎng)絡(luò)WorkerNodeDocker
Pod
ContainerContainerContainerPod
ContainerContainerContainer
ETCDKubeletKube-proxyKubernetes體系架構(gòu)Kubernetes體系架構(gòu)(1)ETCDETCD是Kubernetes提供的默認(rèn)存儲(chǔ)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年09月山東興業(yè)銀行濟(jì)南分行投資銀行部相關(guān)崗位招考筆試歷年參考題庫(kù)附帶答案詳解
- 2024年09月北京/上海光大銀行光大信托招考筆試歷年參考題庫(kù)附帶答案詳解
- 2025屆蘇州市工業(yè)園區(qū)斜塘校初中生物畢業(yè)考試模擬沖刺卷含解析
- 2024年09月2024中國(guó)農(nóng)業(yè)銀行青海省分行校園招聘130人筆試歷年參考題庫(kù)附帶答案詳解
- 2024年08月招商銀行杭州分行社會(huì)招考筆試歷年參考題庫(kù)附帶答案詳解
- 第三章中醫(yī)外科疾病病因病機(jī)
- 2024年08月興業(yè)銀行湖州長(zhǎng)興綠色支行招考筆試歷年參考題庫(kù)附帶答案詳解
- 2024年08月中國(guó)光大銀行零售與財(cái)富管理部遠(yuǎn)程銀行中心對(duì)公項(xiàng)目經(jīng)理招聘筆試歷年參考題庫(kù)附帶答案詳解
- 2024年08月中國(guó)光大銀行濟(jì)南分行理財(cái)經(jīng)理崗位(聊城)招聘筆試歷年參考題庫(kù)附帶答案詳解
- 2024年08月陜西/浙江2024年浙商銀行總行金融科技部易企銀(杭州)科技有限公司聯(lián)合校園招考筆試歷年參考題庫(kù)附帶答案詳解
- 醫(yī)院心電監(jiān)護(hù)術(shù)考核表
- 車(chē)工工藝課件(緒論、一章)
- 消防改造工程施工組織設(shè)計(jì)
- 中醫(yī)藥特色護(hù)理在老年慢性疾病養(yǎng)生中的應(yīng)用課件
- 反恐怖防范知識(shí)課件
- 汽車(chē)發(fā)動(dòng)機(jī)機(jī)械系統(tǒng)檢修課件(全)全書(shū)教學(xué)教程完整版電子教案最全幻燈片
- 紙箱類(lèi)檢測(cè)講解
- 設(shè)計(jì)階段的HAZOP總體分析
- 2022《義務(wù)教育數(shù)學(xué)課程標(biāo)準(zhǔn)(2022版)》解讀
- 螺紋及緊固件基礎(chǔ)知識(shí)
- 滴滴打車(chē)項(xiàng)目融資計(jì)劃書(shū)ppt課件
評(píng)論
0/150
提交評(píng)論