版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、hostname熟練掌握HDFS shell 以及JavaAPI的使用(重點(diǎn))案例分析:一個(gè)10T的數(shù)據(jù)集,現(xiàn)有100臺(tái),每臺(tái)空閑磁盤容量為1TB的服務(wù)器,如何存儲(chǔ)這個(gè)方案將這個(gè)10T大數(shù)據(jù)集切分為10塊,每個(gè)切割分片為1TB,分別存儲(chǔ)在其中10臺(tái)服務(wù)器上,在存儲(chǔ)過程中,專門寫個(gè)元數(shù)據(jù)文件,用來記錄該文件被切分成哪10塊,每塊起始位置和截止位置(相對(duì)于文件開始位置),每塊存儲(chǔ)在哪個(gè)服務(wù)器,先后順序是什么。該方案還有什么改進(jìn)的地方嗎數(shù)據(jù)容文件權(quán)限信息冗HadoopDistributedFileSystemAdistributedfilesystemthatprovideshigh-through
2、putaccessto application data.HDFS:HadoopGoogle在2003年發(fā)表的GFS論文的一種The Hadoop Distributed File System (HDFS) isa distributed file system designed to run on commodity hardware. -被設(shè)計(jì)運(yùn)行在廉價(jià)商用服務(wù)器上的分布式文件系統(tǒng)HDFS is highly fault-tolerant -高容錯(cuò)and is designed to be deployed on low-cost hardware.-部署在廉價(jià)硬件HDFS provid
3、es high throughput access to application data -提供高吞吐量的數(shù)據(jù)訪問 and is suitable for applications that have large data sets.-適用于大數(shù)據(jù)集的應(yīng)用HDFS relaxes a few POSIX requirements to enablestreaming access to file system data.- 低延遲的數(shù)據(jù)訪問、存儲(chǔ)大量小文件、多用戶寫入任意修改文件的場為了減少尋址時(shí) 10ms,文件傳輸速率 100M/s,那么傳輸一個(gè)100M的文件花費(fèi)了1s,尋址時(shí)間剛好是1s
4、 *10%,所以100M左右的Block大小較文件大小可以比任何一塊單獨(dú)的磁盤容量大,文件的所有Bloc不需要都存儲(chǔ)在一個(gè)磁盤上,一個(gè)數(shù)據(jù)節(jié)點(diǎn)DataNod上),甚至一個(gè)HD集群只存儲(chǔ)一個(gè)文件,這個(gè)文件的Bloc據(jù)了集群的所有DataNode將文件拆分成一個(gè)個(gè)Bloc,簡化了存儲(chǔ)系統(tǒng)的管理,文件的權(quán)限信息只需要保存在單獨(dú)的機(jī)方便備份,針對(duì)Bloc進(jìn)行數(shù)據(jù)備份,使HD達(dá)到容錯(cuò)和高可用性HDFSMaster主節(jié)點(diǎn),通過配置fs.defaultFS屬性指定管理文件系統(tǒng)命名空間,以“/”為根目維護(hù)文件系統(tǒng)樹及文件樹中的文件、目錄元數(shù)處理客戶端對(duì)文件的控制訪問,比如修改文件權(quán)根據(jù)DataNode的注冊(cè)、
5、心跳信息管理集群DataNode根據(jù)DataNod的Bloc報(bào)告信息,維護(hù)Bloc位置信息,并協(xié)調(diào)塊的備份,即多的刪掉,少的補(bǔ)充Block與存儲(chǔ)節(jié)點(diǎn)DataNode映射信息(啟動(dòng)后由DataNode定時(shí)上報(bào) / fsimage:NameNode文件元數(shù)據(jù)鏡像文edits文件:對(duì)文件的操作先改變內(nèi)存數(shù)據(jù),然后在edits文件中記錄操NameNodefsimage+editsBlock與DataNode HD啟動(dòng)時(shí)NameNod首先會(huì)進(jìn)入安全模式,NameNod需要加載fsimag和edit文件到內(nèi)存,構(gòu)建內(nèi)存元數(shù)據(jù)信息,同時(shí)接收DataNod上報(bào)的Bloc信息,這個(gè)過程中HD對(duì)外不提供文件寫服務(wù)
6、通過命令bin/hdfs dfsadmin safemode get查看是否進(jìn)入安全模通過在core-site.xml配置屬性和topology.script.number.args指定不同datanode屬于哪個(gè)機(jī)編寫腳本 : /opt/modules/hadoop/hadoop-2.5.0/bin/RackAware.py topology.script.number.args : 腳本中rack字典有兩個(gè)元素,所以配置為2HDFSbin/hdfs bin/hdfs HDFSAframeworkforjobschedulingandclusterresourcemanagement.成:調(diào)
7、度器(Scheduler)和應(yīng)用程序管理器(ApplicationsManager,ASM)處理客戶端任務(wù)提交請(qǐng)啟動(dòng)/監(jiān)控ApplicationMase,接受ApplicationMase的注冊(cè),從而掌握應(yīng)用程序運(yùn)行狀態(tài)會(huì)定時(shí)地向匯報(bào)本節(jié)點(diǎn)上的資源使用情況和各個(gè)Containe的運(yùn)行狀態(tài);AM的Containe啟動(dòng)/停止等各種請(qǐng)求。負(fù)責(zé)向ResourceManager申請(qǐng)任務(wù)運(yùn)行所需資與NodeManager協(xié)調(diào)資源使用,創(chuàng)建Container并監(jiān)控任務(wù)執(zhí)行狀A(yù) YARN-basedsystemforparallelprocessingof large datasetsMap 對(duì)數(shù)據(jù)集的每個(gè)元素進(jìn)行相同的操作 分而治本地計(jì)移動(dòng)計(jì)算而不是移動(dòng)數(shù)split.size=比如:max(64M,min(256M,128M)=(input)-map-combine-Mapper Reducer ClassDriver Class構(gòu)造Job實(shí)例,提交執(zhí)行Compress通過配置pes和pess.code來配置是否需要壓縮以及壓縮算法通過將map輸出結(jié)果進(jìn)行壓縮,可以減少跨網(wǎng)絡(luò)數(shù)據(jù)傳輸 要求實(shí)現(xiàn)WritableComarabl接口,實(shí)現(xiàn)序列化與反序列
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度數(shù)據(jù)中心PPP項(xiàng)目運(yùn)維服務(wù)合同3篇
- 2024食用菌菌種生產(chǎn)技術(shù)改造與升級(jí)合同3篇
- 2025年度水電工程安全防護(hù)與應(yīng)急處理合同樣本4篇
- 2024私家車短期租賃合同
- 2025年農(nóng)業(yè)科技園區(qū)土地承包種植合同4篇
- 2025年度新能源汽車充電車棚建設(shè)及運(yùn)營管理合同4篇
- 北京朗視儀器股份有限公司介紹企業(yè)發(fā)展分析報(bào)告
- 2025年度個(gè)人戶外活動(dòng)組織管理合同范本4篇
- 2025年度個(gè)人藝術(shù)品鑒定與評(píng)估合同4篇
- 2025年山東兗礦煤化供銷有限公司招聘筆試參考題庫含答案解析
- 稱量與天平培訓(xùn)試題及答案
- 超全的超濾與納濾概述、基本理論和應(yīng)用
- 2020年醫(yī)師定期考核試題與答案(公衛(wèi)專業(yè))
- 2022年中國育齡女性生殖健康研究報(bào)告
- 各種靜脈置管固定方法
- 消防報(bào)審驗(yàn)收程序及表格
- 教育金規(guī)劃ppt課件
- 呼吸機(jī)波形分析及臨床應(yīng)用
- 常用緊固件選用指南
- 私人借款協(xié)議書新編整理版示范文本
- 自薦書(彩色封面)
評(píng)論
0/150
提交評(píng)論