深入hadoop2.x隨堂課件掌握_第1頁
深入hadoop2.x隨堂課件掌握_第2頁
深入hadoop2.x隨堂課件掌握_第3頁
深入hadoop2.x隨堂課件掌握_第4頁
深入hadoop2.x隨堂課件掌握_第5頁
已閱讀5頁,還剩20頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、hostname熟練掌握HDFS shell 以及JavaAPI的使用(重點(diǎn))案例分析:一個(gè)10T的數(shù)據(jù)集,現(xiàn)有100臺(tái),每臺(tái)空閑磁盤容量為1TB的服務(wù)器,如何存儲(chǔ)這個(gè)方案將這個(gè)10T大數(shù)據(jù)集切分為10塊,每個(gè)切割分片為1TB,分別存儲(chǔ)在其中10臺(tái)服務(wù)器上,在存儲(chǔ)過程中,專門寫個(gè)元數(shù)據(jù)文件,用來記錄該文件被切分成哪10塊,每塊起始位置和截止位置(相對(duì)于文件開始位置),每塊存儲(chǔ)在哪個(gè)服務(wù)器,先后順序是什么。該方案還有什么改進(jìn)的地方嗎數(shù)據(jù)容文件權(quán)限信息冗HadoopDistributedFileSystemAdistributedfilesystemthatprovideshigh-through

2、putaccessto application data.HDFS:HadoopGoogle在2003年發(fā)表的GFS論文的一種The Hadoop Distributed File System (HDFS) isa distributed file system designed to run on commodity hardware. -被設(shè)計(jì)運(yùn)行在廉價(jià)商用服務(wù)器上的分布式文件系統(tǒng)HDFS is highly fault-tolerant -高容錯(cuò)and is designed to be deployed on low-cost hardware.-部署在廉價(jià)硬件HDFS provid

3、es high throughput access to application data -提供高吞吐量的數(shù)據(jù)訪問 and is suitable for applications that have large data sets.-適用于大數(shù)據(jù)集的應(yīng)用HDFS relaxes a few POSIX requirements to enablestreaming access to file system data.- 低延遲的數(shù)據(jù)訪問、存儲(chǔ)大量小文件、多用戶寫入任意修改文件的場為了減少尋址時(shí) 10ms,文件傳輸速率 100M/s,那么傳輸一個(gè)100M的文件花費(fèi)了1s,尋址時(shí)間剛好是1s

4、 *10%,所以100M左右的Block大小較文件大小可以比任何一塊單獨(dú)的磁盤容量大,文件的所有Bloc不需要都存儲(chǔ)在一個(gè)磁盤上,一個(gè)數(shù)據(jù)節(jié)點(diǎn)DataNod上),甚至一個(gè)HD集群只存儲(chǔ)一個(gè)文件,這個(gè)文件的Bloc據(jù)了集群的所有DataNode將文件拆分成一個(gè)個(gè)Bloc,簡化了存儲(chǔ)系統(tǒng)的管理,文件的權(quán)限信息只需要保存在單獨(dú)的機(jī)方便備份,針對(duì)Bloc進(jìn)行數(shù)據(jù)備份,使HD達(dá)到容錯(cuò)和高可用性HDFSMaster主節(jié)點(diǎn),通過配置fs.defaultFS屬性指定管理文件系統(tǒng)命名空間,以“/”為根目維護(hù)文件系統(tǒng)樹及文件樹中的文件、目錄元數(shù)處理客戶端對(duì)文件的控制訪問,比如修改文件權(quán)根據(jù)DataNode的注冊(cè)、

5、心跳信息管理集群DataNode根據(jù)DataNod的Bloc報(bào)告信息,維護(hù)Bloc位置信息,并協(xié)調(diào)塊的備份,即多的刪掉,少的補(bǔ)充Block與存儲(chǔ)節(jié)點(diǎn)DataNode映射信息(啟動(dòng)后由DataNode定時(shí)上報(bào) / fsimage:NameNode文件元數(shù)據(jù)鏡像文edits文件:對(duì)文件的操作先改變內(nèi)存數(shù)據(jù),然后在edits文件中記錄操NameNodefsimage+editsBlock與DataNode HD啟動(dòng)時(shí)NameNod首先會(huì)進(jìn)入安全模式,NameNod需要加載fsimag和edit文件到內(nèi)存,構(gòu)建內(nèi)存元數(shù)據(jù)信息,同時(shí)接收DataNod上報(bào)的Bloc信息,這個(gè)過程中HD對(duì)外不提供文件寫服務(wù)

6、通過命令bin/hdfs dfsadmin safemode get查看是否進(jìn)入安全模通過在core-site.xml配置屬性和topology.script.number.args指定不同datanode屬于哪個(gè)機(jī)編寫腳本 : /opt/modules/hadoop/hadoop-2.5.0/bin/RackAware.py topology.script.number.args : 腳本中rack字典有兩個(gè)元素,所以配置為2HDFSbin/hdfs bin/hdfs HDFSAframeworkforjobschedulingandclusterresourcemanagement.成:調(diào)

7、度器(Scheduler)和應(yīng)用程序管理器(ApplicationsManager,ASM)處理客戶端任務(wù)提交請(qǐng)啟動(dòng)/監(jiān)控ApplicationMase,接受ApplicationMase的注冊(cè),從而掌握應(yīng)用程序運(yùn)行狀態(tài)會(huì)定時(shí)地向匯報(bào)本節(jié)點(diǎn)上的資源使用情況和各個(gè)Containe的運(yùn)行狀態(tài);AM的Containe啟動(dòng)/停止等各種請(qǐng)求。負(fù)責(zé)向ResourceManager申請(qǐng)任務(wù)運(yùn)行所需資與NodeManager協(xié)調(diào)資源使用,創(chuàng)建Container并監(jiān)控任務(wù)執(zhí)行狀A(yù) YARN-basedsystemforparallelprocessingof large datasetsMap 對(duì)數(shù)據(jù)集的每個(gè)元素進(jìn)行相同的操作 分而治本地計(jì)移動(dòng)計(jì)算而不是移動(dòng)數(shù)split.size=比如:max(64M,min(256M,128M)=(input)-map-combine-Mapper Reducer ClassDriver Class構(gòu)造Job實(shí)例,提交執(zhí)行Compress通過配置pes和pess.code來配置是否需要壓縮以及壓縮算法通過將map輸出結(jié)果進(jìn)行壓縮,可以減少跨網(wǎng)絡(luò)數(shù)據(jù)傳輸 要求實(shí)現(xiàn)WritableComarabl接口,實(shí)現(xiàn)序列化與反序列

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論