




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大數(shù)據(jù)技術(shù)與應(yīng)用第三章Hadoop分布式系統(tǒng)提綱3.1Hadoop概述3.2Hadoop相關(guān)技術(shù)及生態(tài)系統(tǒng)3.3操作實(shí)踐:Hadoop安裝與配置習(xí)題小結(jié)23.1Hadoop概述3.1.1Hadoop簡(jiǎn)介Hadoop是一個(gè)能夠讓用戶輕松架構(gòu)和使用的分布式計(jì)算平臺(tái)。它主要有以下幾個(gè)優(yōu)點(diǎn)。(1)高可靠性(2)高擴(kuò)展性(3)高效性(4)容錯(cuò)性33.1Hadoop概述3.1.2Hadoop的發(fā)展歷程hadoop的發(fā)展歷程,如下所示:1.Hadoop最初是由ApacheLucene項(xiàng)目的創(chuàng)始人DougCutting開發(fā)的文本搜索庫(kù)。2.在2004年,Nutch項(xiàng)目開發(fā)了NDFS(NutchDistributedFileSystem),3.2004年,谷歌公司又發(fā)表了論文,闡述了MapReduce分布式編程的思想。4.2005年,Nutch開源實(shí)現(xiàn)了谷歌的MapReduce。5.2006年2月,ApacheHadoop項(xiàng)目正式啟動(dòng)以支持MapReduce和HDFS的獨(dú)立發(fā)展。6.2007年4月,雅虎公司實(shí)現(xiàn)了包含1000個(gè)計(jì)算節(jié)點(diǎn)的Hadoop集群。7.2008年,淘寶開始投入研究基于Hadoop的系統(tǒng)——云梯,并將其用于處理電子商務(wù)相關(guān)數(shù)據(jù)。8.2008年1月,Hadoop成為Apache頂級(jí)項(xiàng)目,獲得了業(yè)界更為廣泛的關(guān)注。49.2008年2月,雅虎公司宣布其搜索引擎產(chǎn)品部署在一個(gè)擁有1萬(wàn)個(gè)內(nèi)核的Hadoop集群上。10.2008年7月,Hadoop打破1TB數(shù)據(jù)排序基準(zhǔn)測(cè)試記錄。11.2009年5月,Yahoo的團(tuán)隊(duì)使用Hadoop對(duì)1TB的數(shù)據(jù)進(jìn)行排序只花了62秒時(shí)間。12.2009年7月,HadoopCore項(xiàng)目更名為HadoopCommon;MapReduce和HDFS成為Hadoop項(xiàng)目的獨(dú)立子項(xiàng)目;Avro和Chukwa成為hadoop新的子項(xiàng)目。13.2010年5月,Avro數(shù)據(jù)傳輸中間件和HBase數(shù)據(jù)庫(kù)從Hadoop項(xiàng)目中脫離出來,成為Apache頂級(jí)項(xiàng)目。此外,IBM提供了基于Hadoop的大數(shù)據(jù)分析軟件——InfoSphereBigInsights,包括基礎(chǔ)版和企業(yè)版。14.2010年9月,Hive數(shù)據(jù)倉(cāng)庫(kù)工具和Pig數(shù)據(jù)分析平臺(tái)從Hadoop項(xiàng)目中脫離出來,成為Apache頂級(jí)項(xiàng)目。15.2011年1月,ZooKeeper脫離Hadoop,成為Apache頂級(jí)項(xiàng)目。53.1Hadoop概述16.2011年5月,MaprTechnologies公司推出分布式文件系統(tǒng)和MapReduce引擎——MapRDistributionforApacheHadoop。還有的是,HCatalog1.0發(fā)布,使得數(shù)據(jù)清理和歸檔工具可以很容易的進(jìn)行處理。17.2011年8月,Cloudera公布了一項(xiàng)有益于合作伙伴生態(tài)系統(tǒng)的計(jì)劃——?jiǎng)?chuàng)建一個(gè)生態(tài)系統(tǒng),以便硬件供應(yīng)商、軟件供應(yīng)商以及系統(tǒng)集成商可以一起探索如何使用Hadoop更好的洞察數(shù)據(jù)。18.2011年12月,Hadoop1.0.0版本發(fā)布,標(biāo)志著Hadoop技術(shù)進(jìn)入成熟期。19.2012年5月,Hadoop發(fā)布2.0Alpha版本,對(duì)MapReduce、HDFS等部分進(jìn)行了重大改進(jìn),標(biāo)志著Hadoop技術(shù)進(jìn)入一個(gè)新的發(fā)展階段。20.2013年8月,Hadoop1.2.1穩(wěn)定版發(fā)布。63.1Hadoop概述3.1Hadoop概述3.1.3Hadoop原理及運(yùn)行機(jī)制 Hadoop的核心由3個(gè)子項(xiàng)目組成:HadoopCommonHDFSMapReduce73.1Hadoop概述1.HDFS組件
HDFS(HadoopDistributedFileSystem)是一種專門為MapReduce這類框架下的大規(guī)模分布式數(shù)據(jù)處理而設(shè)計(jì)的文件系統(tǒng)。HDFS的組件主要有:NameNode、SecondaryNameNode以及DataNode。
1)NameNode
NameNode,即元數(shù)據(jù)節(jié)點(diǎn)。元數(shù)據(jù)節(jié)點(diǎn)用來管理文件系統(tǒng)的命名空間。它將所有文件和文件夾的元數(shù)據(jù)保存在一個(gè)文件系統(tǒng)樹當(dāng)中。這些信息也會(huì)存儲(chǔ)在NameNode維護(hù)的兩個(gè)本地磁盤文件:命名空間鏡像文件(namespaceimage)和編輯日志文件(editlog)。NameNode還保存了一個(gè)文件包括哪些數(shù)據(jù)塊,分布在哪些數(shù)據(jù)節(jié)點(diǎn)上。然而這些信息并不存儲(chǔ)在硬盤上,而是在系統(tǒng)啟動(dòng)的時(shí)候從數(shù)據(jù)節(jié)點(diǎn)收集而成的。83.1Hadoop概述2)SecondaryNameNode
SecondaryNameNode,即從元數(shù)據(jù)節(jié)點(diǎn)。在Hadoop集
群環(huán)境上,只有一個(gè)NameNode節(jié)點(diǎn)。那么,一旦NameNode節(jié)
點(diǎn)出現(xiàn)故障,整個(gè)系統(tǒng)將會(huì)受到影響。為了提高NameNode的可靠性,從Hadoop0.23開始引入了SecondaryNameNode。
但是,SecondaryNameNode并不是NameNode出現(xiàn)問題的時(shí)候的備用節(jié)點(diǎn),它和NameNode負(fù)責(zé)不同的事情。 SecondaryNameNode的主要功能就是周期性將元數(shù)據(jù)節(jié)點(diǎn)命名空間的鏡像文件和修改日志文件合并,以防日志文件過大。合并過后的命名空間鏡像文件也在SecondaryNameNode保存了一份,以防元數(shù)據(jù)節(jié)點(diǎn)出現(xiàn)故障的時(shí)候,可以恢復(fù)。93)DataNode
DataNode,即數(shù)據(jù)節(jié)點(diǎn)。DataNode是文件系統(tǒng)中真正存儲(chǔ)數(shù)據(jù)的地方,是HDFS文件系統(tǒng)中保存數(shù)據(jù)的節(jié)點(diǎn)。HDFS中的文件通常被分割成多個(gè)數(shù)據(jù)塊,以冗余備份的形式存儲(chǔ)在多個(gè)DataNode中。客戶端(client)或者元數(shù)據(jù)信息(NameNode)可以向數(shù)據(jù)節(jié)點(diǎn)請(qǐng)求寫入或者讀出數(shù)據(jù)塊。而DataNode周期性地向NameNode回報(bào)其存儲(chǔ)的數(shù)據(jù)塊信息。2.MapReduce組件 MapReduce也采用了
Master/Slave(M/S)架構(gòu)。它主要由以
下幾個(gè)組件組成:JobClient、JobTracker、TaskTracker和
Task。下面分別對(duì)這幾個(gè)組件進(jìn)行介紹:1)JobClient
用戶編寫的MapReduce程序通過JobClient提交到JobTracker端
;同
時(shí),用戶可通過Client提供的一些接口查看作業(yè)運(yùn)行狀態(tài)。在 Hadoop內(nèi)部用“作業(yè)”(Job)表示 MapReduce程序。一個(gè) MapReduce程序可對(duì)應(yīng)若干個(gè)作業(yè),而每個(gè)作業(yè)會(huì)被分解成若干個(gè) Map/Reduce任務(wù)(Task)。102)JobTracker
JobTracker主要負(fù)責(zé)MapReduce的資源監(jiān)控和作業(yè)調(diào)度。JobTracker 監(jiān)控所TaskTracker與作業(yè)的健康狀況,一旦發(fā)現(xiàn)失敗情況后,其會(huì)
將相應(yīng)的任務(wù)轉(zhuǎn)移到其他節(jié)點(diǎn);同時(shí),JobTracker
會(huì)跟蹤任務(wù)的執(zhí)行
進(jìn)度、資源使用量等信息,并將這些信息告訴任務(wù)調(diào)度器,而調(diào)度器
會(huì)在資源出現(xiàn)空閑時(shí),選擇合適的任務(wù)使用這些資源。在Hadoop中,
任務(wù)調(diào)度器是一個(gè)可插拔的模塊,用戶可以根據(jù)自己的需要設(shè)計(jì)相應(yīng)
的調(diào)度器。每一個(gè)Hadoop集群中只有一個(gè)JobTracker。113)TaskTracker
TaskTracker主要負(fù)責(zé)執(zhí)行由JobTracker分配的任務(wù)。
TaskTracker會(huì)周期性地通過Heartbeat將本節(jié)點(diǎn)上資源的使用情況和任務(wù)的運(yùn)行進(jìn)度匯報(bào)給JobTracker,同時(shí)接收J(rèn)obTracker發(fā)送過來的命令并執(zhí)行相應(yīng)的操作(如啟動(dòng)新任務(wù)、殺死任務(wù)等)。4)TaskTask分為MapTask和ReduceTask兩種,均由TaskTracker啟動(dòng),負(fù)責(zé)具體地執(zhí)行Map任務(wù)和Reduce任務(wù)的程序。12提綱3.1Hadoop概述3.2Hadoop相關(guān)技術(shù)及生態(tài)系統(tǒng)3.3操作實(shí)踐:Hadoop安裝與配置習(xí)題小結(jié)133.2Hadoop相關(guān)技術(shù)及生態(tài)系統(tǒng)Hadoop生態(tài)系統(tǒng)主要包括HDFS、MapReduce、Spark、Storm、HBase、Hive、Pig、ZooKeeper、Avro、Sqoop、Ambari、HCatalog、Chukwa、Flume、Tez、Phoenix、Mahout、Shark等Hadoop生態(tài)系統(tǒng)如下圖所示:14Hadoop開源技術(shù)生態(tài)系統(tǒng)Hadoop開源技術(shù)生態(tài)系統(tǒng)提綱3.1Hadoop概述3.2Hadoop相關(guān)技術(shù)及生態(tài)系統(tǒng)3.3操作實(shí)踐:Hadoop安裝與配置習(xí)題小結(jié)153.3操作實(shí)踐:Hadoop安裝與配置3.3.1JDK安裝下載jdk-8u131-linux-x64.tar.gz解壓包到/opt設(shè)置環(huán)境變量使配置環(huán)境變量生效驗(yàn)證Java安裝是否成功16Hadoop開源技術(shù)生態(tài)系統(tǒng)3.3操作實(shí)踐:Hadoop安裝與配置3.3.2Hadoop安裝下載hadoop-2.7.3.tar.gz
解壓修改hadoopenv.sh文件修改coresite.xml文件修改hdfssite.xml文件修改hdfssite.xml文件修改hdfssite.xml文件修改Slaves文件修改文件屬性復(fù)制Hadoop到其他節(jié)點(diǎn)17Hadoop開源技術(shù)生態(tài)系統(tǒng)3.3操作實(shí)踐:Hadoop安裝與配置3.3.3Hadoop運(yùn)行Namenode格式化
啟動(dòng)DFS
啟動(dòng)YARN
啟動(dòng)HistoryServer
查看進(jìn)程18Hadoop開源技術(shù)生態(tài)系統(tǒng)3.3操作實(shí)踐:Hadoop安裝與配置
3.3.4瀏覽Hadoop頁(yè)面瀏覽http://master:50070頁(yè)面,查看集群信息和Datenode相關(guān)信息
瀏覽http://master:50090頁(yè)面,查看SecondaryNamenode相關(guān)信息瀏覽http://master:8088頁(yè)面,查看集群相關(guān)信息和配置信息19Hadoop開源技術(shù)生態(tài)系統(tǒng)提綱3.1Hadoop概述3.2Hadoop相關(guān)技術(shù)及生態(tài)系統(tǒng)3.3操作實(shí)踐:Hadoop安裝與配置習(xí)題小結(jié)20習(xí)題1、簡(jiǎn)述Hadoop系統(tǒng)及其優(yōu)點(diǎn)。2、簡(jiǎn)述Hadoop原理及運(yùn)行機(jī)制。3、簡(jiǎn)述Hadoop技術(shù)生態(tài)系統(tǒng)。4、學(xué)會(huì)JDK的安裝和配置。5、掌握Hadoop的安裝和配置。注:答案請(qǐng)參見《習(xí)題答案》21提綱3.1Hadoop概述3.2Hadoop
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 生態(tài)環(huán)境教育計(jì)劃
- 優(yōu)化人事部門工作效率的步驟計(jì)劃
- 高中生職業(yè)規(guī)劃與指導(dǎo)方案計(jì)劃
- 小班課程閱讀提升計(jì)劃
- 傳統(tǒng)游戲小班文化承載的樂趣計(jì)劃
- 秋季校園運(yùn)動(dòng)會(huì)籌備計(jì)劃
- 管樁引孔直徑要求
- ppp固定總價(jià)合同范本
- 出售大型樓盤合同范例
- 進(jìn)口合同:進(jìn)口協(xié)議范本
- 2025年贛州職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫(kù)一套
- 2025年道路運(yùn)輸企業(yè)安全生產(chǎn)管理人員考試題(附答案)
- 2025年哈爾濱鐵道職業(yè)技術(shù)學(xué)院高職單招高職單招英語(yǔ)2016-2024歷年頻考點(diǎn)試題含答案解析
- 視頻監(jiān)控采集設(shè)備安裝調(diào)試施工方案
- 財(cái)務(wù)崗位招聘筆試題與參考答案(某大型國(guó)企)2025年
- 《海運(yùn)出口操作》課件
- 2024年西安航空職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫(kù)標(biāo)準(zhǔn)卷
- 北京廣通信達(dá)it運(yùn)維管理平臺(tái)簡(jiǎn)介-20210818003557
- DB33 1121-2016 民用建筑電動(dòng)汽車充電設(shè)施配置與設(shè)計(jì)規(guī)范
- 石油化工企業(yè)班組安全建設(shè)培訓(xùn)課件
- DB31∕731-2020 船舶修正總噸單位產(chǎn)品能源消耗限額
評(píng)論
0/150
提交評(píng)論