云計(jì)算(第三版)配套之20第6章Hadoop20大家族(一)_第1頁(yè)
云計(jì)算(第三版)配套之20第6章Hadoop20大家族(一)_第2頁(yè)
云計(jì)算(第三版)配套之20第6章Hadoop20大家族(一)_第3頁(yè)
云計(jì)算(第三版)配套之20第6章Hadoop20大家族(一)_第4頁(yè)
云計(jì)算(第三版)配套之20第6章Hadoop20大家族(一)_第5頁(yè)
已閱讀5頁(yè),還剩28頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

分布式存儲(chǔ)效勞分布式操作系統(tǒng)效勞分布式數(shù)據(jù)庫(kù)分布式鎖數(shù)據(jù)挖掘庫(kù)Hadoop2.0大家族……本章主要介紹分布式環(huán)境下除Hadoop外的其他組件6.1Hadoop2.0大家族概述6.2ZooKeeper6.3Hbase6.4Pig6.5Hive6.6Oozie6.7Flume6.8Mahout6.9小結(jié)6.1Hadoop2.0大家族概述6.1.1分布式組件6.1.2部署概述46.1Hadoop2.0大家族概述組件簡(jiǎn)介1ApacheZooKeeper主要是用來(lái)解決多個(gè)分布式應(yīng)用遇到的互斥協(xié)作與通信問(wèn)題,大大簡(jiǎn)化分布式應(yīng)用協(xié)調(diào)及其管理的難度。分布式、開(kāi)源的協(xié)調(diào)效勞2ApacheHbase高可靠性、高性能、面向列、可伸縮??稍诹畠r(jià)PCServer上搭建大規(guī)模結(jié)構(gòu)化存儲(chǔ)集群。分布式存儲(chǔ)系統(tǒng)3ApachePig提供類(lèi)SQL類(lèi)型語(yǔ)言,該語(yǔ)言的編譯器會(huì)把用戶(hù)寫(xiě)好的Pig型類(lèi)SQL腳本轉(zhuǎn)換為一系列經(jīng)過(guò)優(yōu)化的MR操作并負(fù)責(zé)向集群提交任務(wù)?;贖adoop的大規(guī)模數(shù)據(jù)分析工具4ApacheHive將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表,通過(guò)類(lèi)SQL語(yǔ)句快速實(shí)現(xiàn)簡(jiǎn)單的MR統(tǒng)計(jì),適合數(shù)據(jù)倉(cāng)庫(kù)的統(tǒng)計(jì)分析?;贖adoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具56.1Hadoop2.0大家族概述組件簡(jiǎn)介5ApacheOozie用于管理和協(xié)調(diào)運(yùn)行在Hadoop平臺(tái)上各種類(lèi)型任務(wù)〔HDFS、Pig、MR、Shell,Java等〕。工作流引擎效勞6ApacheFlume可用于日志數(shù)據(jù)收集、處理和傳輸,功能類(lèi)似于Chukwa,但比Chukwa更小巧實(shí)用。分布式日志數(shù)據(jù)聚合與傳輸工具7ApacheMahout提供了大量機(jī)器學(xué)習(xí)算法的MR實(shí)現(xiàn),并提供了一系列工具,簡(jiǎn)化了從建模到測(cè)試流程?;贖adoop的分布式程序庫(kù)8ApacheSqoop將一個(gè)關(guān)系型數(shù)據(jù)庫(kù)〔MySQL、Oracle、Postgres等〕中的數(shù)據(jù)導(dǎo)入Hadoop的HDFS中,也可以將HDFS的數(shù)據(jù)導(dǎo)入關(guān)系型數(shù)據(jù)庫(kù)中。數(shù)據(jù)相互轉(zhuǎn)移的工具66.1Hadoop2.0大家族概述組件簡(jiǎn)介9ApacheCassandra用于存儲(chǔ)簡(jiǎn)單格式數(shù)據(jù),集GoogleBigTable的數(shù)據(jù)模型與AmazonDynamo的完全分布式的架構(gòu)于一身。一套開(kāi)源分布式NoSQL數(shù)據(jù)庫(kù)系統(tǒng)10ApacheAvro用于大批量數(shù)據(jù)實(shí)時(shí)動(dòng)態(tài)交換,它是新的數(shù)據(jù)序列化與傳輸工具,估計(jì)會(huì)逐步取代Hadoop原有的RPC機(jī)制。數(shù)據(jù)序列化系統(tǒng)11ApacheAmbari提供Hadoop集群的部署、管理和監(jiān)控等功能,為運(yùn)維人員管理Hadoop集群提供了強(qiáng)大的Web界面。Hadoop及其組件的Web工具12ApacheChukwa它可以將各種各樣類(lèi)型的數(shù)據(jù)收集與導(dǎo)入Hadoop。分布式的數(shù)據(jù)收集與傳輸系統(tǒng)76.1Hadoop2.0大家族概述組件簡(jiǎn)介13ApacheHama可用于包括圖、矩陣和網(wǎng)絡(luò)算法在內(nèi)的大規(guī)模、大數(shù)據(jù)計(jì)算?;贖DFS的BSP并行計(jì)算框架14ApacheGiraph靈感來(lái)自BSP(BulkSynchronousParallel)和Google的Pregel?;贖adoop的分布式迭代圖處理系統(tǒng)15ApacheCrunch用于創(chuàng)立MR程序,與Hive、Pig類(lèi)似,Crunch提供了用于實(shí)現(xiàn)如連接數(shù)據(jù)、執(zhí)行聚合和排序記錄等常見(jiàn)任務(wù)的模式庫(kù)?;贕oogle的FlumeJava庫(kù)編寫(xiě)的Java庫(kù)16ApacheWhirr提供高度的互補(bǔ)性,Whirr支持AmazonEC2和Rackspace效勞。一套運(yùn)行于云效勞的類(lèi)庫(kù)86.1Hadoop2.0大家族概述組件簡(jiǎn)介17ApacheBigtop解決組件間版本依賴(lài)、沖突問(wèn)題,實(shí)際上當(dāng)用戶(hù)用rpm或yum方式部署時(shí),腳本內(nèi)部會(huì)用到它。針對(duì)Hadoop及其周邊組件的打包、分發(fā)和測(cè)試工具18ApacheHCatalog可用于管理HDFS元數(shù)據(jù),它跨越Hadoop和RDBMS,可以利用Pig和Hive提供關(guān)系視圖。基于Hadoop的數(shù)據(jù)表和存儲(chǔ)管理工具19ClouderaHue實(shí)現(xiàn)對(duì)HDFS、Yarn、MapReduce、Hbase、Hive、Pig等的Web化操作。Hadoop及其生態(tài)圈組件的Web編輯工具96.1Hadoop2.0大家族概述組件分類(lèi)1分布式存儲(chǔ)HDFS2分布式操作系統(tǒng)Yarn3分布式處理算法MapReduce4分布式鎖效勞ZooKeeper5分布式數(shù)據(jù)庫(kù)Hbase6分布式鎖效勞OozieCassandra7高層語(yǔ)言PigHiveImpalaRHadoop8機(jī)器學(xué)習(xí)庫(kù)MahoutGiraphHamaRHadoop9元數(shù)據(jù)與表管理工具Hcatalog10數(shù)據(jù)傳輸工具FlumeAvroChukwaSqoop11集群管理工作AmbariClouderaManager12各組件的Web化編輯器Hue13組件間版本依賴(lài)處理工具BigTop106.1Hadoop2.0大家族概述組件分類(lèi)Hadoop生態(tài)圈分類(lèi)Ambari/CloudderaManagerHueMapReducePigHiveImpalaFlumeSqoopAvroChukwaMahoutRGiraphHamaHbaseCassandraWhirrSearchWebHdfsHcatalogYarn:分布式操作系統(tǒng)BigTopHDFS:分布式存儲(chǔ)ZooKeeperHcatalog6.1Hadoop2.0大家族概述6.1.1分布式組件6.1.2部署概述126.1Hadoop2.0大家族概述部署過(guò)程Apache社區(qū)版分布式組件部署步驟:部署前提與規(guī)劃下載與此Hadoop版本兼容版本的Pig解壓,配置Pig按需將解壓且配置好的Pig發(fā)送到需要部署的機(jī)器上新建相應(yīng)用戶(hù)、文件夾等,并賦予適宜權(quán)限136.1Hadoop2.0大家族概述部署過(guò)程商業(yè)版〔Cloudera或Hortonworks〕部署步驟:部署前提與規(guī)劃部署,配置Pig新建相應(yīng)存儲(chǔ)目錄,并賦予適宜權(quán)限。社區(qū)版部署須解決版本兼容與本地權(quán)限文件的問(wèn)題,煩瑣易錯(cuò);Cloudera版本身已經(jīng)解決了版本與權(quán)限問(wèn)題,并且其部署時(shí)只要使用標(biāo)準(zhǔn)的Linux安裝命令并做些中文配置即可。146.1Hadoop2.0大家族概述部署規(guī)劃集群共五臺(tái)機(jī)器,cMaster為主節(jié)點(diǎn),cProxy為主節(jié)點(diǎn)代理,其他為Slave節(jié)點(diǎn),注意iClient并不屬于集群,用戶(hù)還須確保集群中所有機(jī)器和iClient都可以連網(wǎng)。系統(tǒng)CentOS-6.464bitJDKjdk-7u45-linux-x64.rpm集群cMaster、cSlave0、cSlave1、cSlave2、cProxy客戶(hù)端iClient執(zhí)行例題的機(jī)器iClient執(zhí)行例題時(shí)用戶(hù)joe156.1Hadoop2.0大家族概述部署規(guī)劃

機(jī)器組件cMastercSlave0cSlave1cSlave2cProxyiClientHadoopmasterslaveslaveslaveproxyHadoopClientHbasemasterslaveslaveslave

HbaseClientZooKeeper

ZooKeeperZooKeeperZooKeeper

ZooKeeperClientPig

PigHive

HiveFlumeFlume匯

Flume源OozieOozie

ClientMahout

Mahout166.1Hadoop2.0大家族概述商用版Hadoop部署準(zhǔn)備軟硬件環(huán)境1下載Cloudera的rpm文件2將rpm文件復(fù)制到各CentOS3安裝rpm文件4176.1Hadoop2.0大家族概述商用版Hadoop部署

cMastercSlave0cSlave1cSlave2cProxyiClientHDFSnamenodedatanodedatanodedatanodehistoryserverproxyserverhadoopclientYarnresourcemanagernodemanagernodemanagernodemanagerHadoop部署規(guī)劃5Hadoop包含HDFS和Yarn兩大效勞,其中HDFS主效勞稱(chēng)為namenode進(jìn)程,應(yīng)當(dāng)運(yùn)行在master機(jī)上,HDFS從效勞運(yùn)行datanode進(jìn)程,正常部署在slave機(jī)器上,并且每個(gè)slave運(yùn)行一個(gè)datanode186.1Hadoop2.0大家族概述商用版Hadoop部署安裝Hadoop6配置HDFS7建立本地目錄8格式化存儲(chǔ)主節(jié)點(diǎn)9啟動(dòng)HDFS效勞10建立HDFS相關(guān)目錄11配置Yarn12建立本地目錄13啟動(dòng)Yarn效勞14Web界面與進(jìn)程信息156.1Hadoop2.0大家族概述6.2ZooKeeper6.3Hbase6.4Pig6.5Hive6.6Oozie6.7Flume6.8Mahout6.9小結(jié)6.2ZooKeeper6.2.1ZooKeeper簡(jiǎn)介6.2.2ZooKeeper入門(mén)21ZooKeeper服務(wù)機(jī)器A中進(jìn)程Pa機(jī)器B中進(jìn)程Pb6.2ZooKeeperZooKeeper工作過(guò)程ZooKeeper提供了松耦合交互方式,即交互雙方不必同時(shí)存在,也不用彼此了解。比方Pa在ZooKeeper中留下一條消息后,進(jìn)程Pa結(jié)束,此后進(jìn)程Pb才剛開(kāi)始啟動(dòng)。Pa產(chǎn)生這條消息后將此消息注冊(cè)到ZooKeeper中,Pb需要這條消息時(shí)直接從ZooKeeper中讀取即可。22ZooKeeper2ZooKeeper1ZooKeeper3ZooKeeper服務(wù)客戶(hù)端1客戶(hù)端26.2ZooKeeperZooKeeper工作過(guò)程集群方式提高ZooKeeper可靠性236.2ZooKeeperZooKeeper工作原理ZooKeeper2ZooKeeper1ZooKeeper3ZooKeeper服務(wù)首先會(huì)從中選擇一個(gè)作為領(lǐng)導(dǎo)者,其他那么作為追隨者。ZooKeeper集群內(nèi)選取領(lǐng)導(dǎo)時(shí),內(nèi)部采用的是原子播送協(xié)議,此協(xié)議是對(duì)Paxos算法的修改與實(shí)現(xiàn)。集群中ZooKeeper個(gè)數(shù)必須以奇數(shù)出現(xiàn)〔3、5、7、9…〕,并且當(dāng)構(gòu)建ZooKeeper集群時(shí),最少需3個(gè)節(jié)點(diǎn)。讀操作在各個(gè)節(jié)點(diǎn)上實(shí)現(xiàn)寫(xiě)操作必須發(fā)送到領(lǐng)導(dǎo)者,并經(jīng)領(lǐng)導(dǎo)者同意才可執(zhí)行6.2ZooKeeper6.2.1ZooKeeper簡(jiǎn)介6.2.2ZooKeeper入門(mén)256.2ZooKeeperZooKeeper部署1.部署前提2.部署規(guī)劃3.下載并安裝ZooKeeper效勞4.初始化ZooKeeper5.配置ZooKeeper6.啟動(dòng)ZooKeeper效勞7.查看ZooKeeper是否部署成功266.2ZooKeeperZooKeeper接口ZooKeeper主要提供了Shell接口和編程接口,其中Shell接口提供了管理ZooKeeper最常用的操作,編程接口那么更加靈活,比方使用ZooKeeper實(shí)現(xiàn)上文所述的兩進(jìn)程Pa與Pb通信等。【例6-2】按要求完成問(wèn)題:分別使用命令行接口和API接口,在ZooKeeper存儲(chǔ)樹(shù)中新建一節(jié)點(diǎn)并存入信息。假設(shè)機(jī)器cSlave0上有進(jìn)程Pa,機(jī)器cSlave2上有進(jìn)程Pb,使用ZooKeeper實(shí)現(xiàn)進(jìn)程Pa與Pb相互協(xié)作。①②276.2ZooKeeperZooKeeper接口對(duì)于問(wèn)題①用ZooKeeper命令行接口,在根目錄〔/〕下新建節(jié)點(diǎn)cstorShell,并存入信息chinaCstorShell使用API時(shí),程序具有更大的靈活性對(duì)于問(wèn)題②不防假設(shè)cSlave0上進(jìn)程Pa向ZooKeeper

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論