版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、簡單闡述hdfs的體系結(jié)構(gòu)大數(shù)據(jù)開發(fā)全棧課程體系-學習猿地大數(shù)據(jù)概論應(yīng)知應(yīng)會:認識大數(shù)據(jù)基本概念2認識大數(shù)據(jù)生態(tài)圈3認識大數(shù)據(jù)行業(yè)落地案例業(yè)務(wù)實戰(zhàn):搭建Hadoop分布式集群HTML5(H5)基本文檔結(jié)構(gòu)大數(shù)據(jù)背景認識HadoopHadoop架構(gòu)和組件Hadoop生態(tài)系統(tǒng)Hadoop經(jīng)典落地案例Hadoop安裝部署及集群搭建訪問HDFS應(yīng)知應(yīng)會:1掌握HDFS的特性2理解HDFS的設(shè)計目標3掌握HDFS的體系結(jié)構(gòu)4理解數(shù)據(jù)塊基本概念5掌握數(shù)據(jù)塊復(fù)制原理6掌握HDFS安全模式7理解HDFS心跳機制8掌握HDFS核心架構(gòu)業(yè)務(wù)實戰(zhàn):闡述HDFS分布式文件系統(tǒng)的原理HDFS特性HDFS目標HDFS核心
2、設(shè)計數(shù)據(jù)塊數(shù)據(jù)復(fù)制副本存放策略安全模式心跳機制HDFS體系結(jié)構(gòu)Master/SlaveNN、SNN、DNHDFS接口應(yīng)知應(yīng)會:1掌握HDFS常用的命令行操作接口2學會查看HDFS文件列表3掌握文件的上傳、下載、刪除4掌握HDFS的Java訪問接口業(yè)務(wù)實戰(zhàn):利用命令行和Java接口訪問HDFS分布式文件系統(tǒng)數(shù)據(jù)庫安裝和使用命令行接口查看文件列表創(chuàng)建目錄上傳文件下載文件查看文件刪除數(shù)據(jù)Java接口從HadoopURL讀取數(shù)據(jù)通過FileSystemAPI讀取數(shù)據(jù)寫入數(shù)據(jù)創(chuàng)建目錄查詢文件系統(tǒng)刪除數(shù)據(jù)HDFS分布式文件系統(tǒng)的運行機制應(yīng)知應(yīng)會:1掌握HDFS中的數(shù)據(jù)流讀寫2掌握RPC的實現(xiàn)流程及模型3掌
3、握文件的讀取、寫入及文件的一致性模型4掌握HA高可靠機制5熟悉HDFS的Federation機制業(yè)務(wù)實戰(zhàn):搭建HA應(yīng)用開發(fā)平臺HDFS中數(shù)據(jù)流的讀寫RPC實現(xiàn)流程RPC實現(xiàn)模型文件的讀取文件的寫入文件的一致模型HDFS的HA機制為什么有HA機制HA集群架構(gòu)HDFS的Federation機制為什么引入Federation機制Federation架構(gòu)多命名空間管理HadoopI/O詳解應(yīng)知應(yīng)會:理解HDFS的數(shù)據(jù)完整性掌握HDFS的數(shù)據(jù)壓縮算法掌握HDFS序列化接口掌握Hadoop數(shù)據(jù)結(jié)構(gòu)理解SequenceFile存儲業(yè)務(wù)實戰(zhàn):利用HDFS序列化Writable接口實現(xiàn)SequenceFile的
4、寫入數(shù)據(jù)庫安裝和使用HDFS的數(shù)據(jù)完整性驗證數(shù)據(jù)完整性文件壓縮Hadoop支持的壓縮格式壓縮解壓縮算法codec壓縮和輸入分片文件序列化Writable接口WritableComparable接口自定義Writable接口Writable實現(xiàn)類實現(xiàn)定制的Writable類型序列化框架Hadoop文件的數(shù)據(jù)結(jié)構(gòu)SequenceFile存儲MapFile存儲MapReduce編程模型應(yīng)知應(yīng)會:1掌握MapReduce編程模型編寫WordCount事例掌握HadoopMapReduce架構(gòu)MapReduce編程模型簡介WordCount編程實例HadoopMapReduce架構(gòu)MapReduce應(yīng)用
5、編程開發(fā)應(yīng)知應(yīng)會:配置MapReduce應(yīng)用編程開發(fā)環(huán)境掌握MapReduce程序設(shè)計思路掌握Mapper和Reducer的編寫4掌握集群上運行作業(yè)熟練作業(yè)的的狀態(tài)查看與檢測掌握MapReduce作業(yè)的調(diào)試7掌握常見的MapReduce的輸入輸出的格式業(yè)務(wù)實戰(zhàn):開發(fā)MapReduce分布式并行程序MapReduce的編程配置開發(fā)環(huán)境設(shè)計思路編寫Mapper類編寫Reducer類編寫main方法在集群上的運作打包作業(yè)啟動作業(yè)通過WebUI查看Job狀態(tài)獲取結(jié)果作業(yè)調(diào)試MapReduce類型與格式MapReduce中的鍵值對輸入格式輸出格式MapReduce的工作機制與丫ARN平臺應(yīng)知應(yīng)會:1掌握
6、MapReduce作業(yè)的運行過程2掌握Shuffle的運行過程和原理3.掌握Map段shuffle與Reduce段shuffle的原理4理解YARN平臺的工作原理及架構(gòu)掌握ResouceManager的資源分配掌握NodeManager的工作原理掌握ApplicationMaster的工作原理理解Container容器的工作原理掌握作業(yè)的調(diào)度業(yè)務(wù)實戰(zhàn):刨析MapReduce作業(yè)的Shuffle過程通過案例剖析MapReduce作業(yè)運行過程shuffle和排序亠LUmap端I亠LUreduce端shuffle過程YARN平臺簡介YARN的誕生YARN的作用YARN的架構(gòu)ResourceManag
7、erApplicationMaster資源模型ResourceRequest和ContainerContainer規(guī)范作業(yè)的調(diào)度公平調(diào)度器計算能力調(diào)度器項目實戰(zhàn):日志數(shù)據(jù)分析系統(tǒng)應(yīng)知應(yīng)會:掌握項目的業(yè)務(wù)需求掌握項目的系統(tǒng)架構(gòu)掌握項目的需求分析掌握項目的概要設(shè)計掌握項目的詳細設(shè)計掌握項目的系統(tǒng)開發(fā)掌握項目的單元測試掌握項目的系統(tǒng)測試掌握項目的上線部署掌握項目的運營測試掌握項目集群環(huán)境的搭建測試業(yè)務(wù)實戰(zhàn):MapReduce開發(fā)工程師項目名稱:日志數(shù)據(jù)分析系統(tǒng)數(shù)據(jù)體量:5000W+/日硬件環(huán)境:Hadoop集群12臺軟件環(huán)境:Hadoop2.5.2+Hive1.2.1+MR+OraclelOg開發(fā)工
8、具:Eclipse+Jdk1.7+ETL項目職責:主要負責數(shù)據(jù)清洗,分析客戶需求數(shù)據(jù)的抓取和處理。項目描述:搜狗每天產(chǎn)生大量的日志數(shù)據(jù),從日志數(shù)據(jù)里面能提取到有用的數(shù)據(jù)包括每個用戶的ID、瀏覽次數(shù)、月/日瀏覽頻率、訪問源、瀏覽內(nèi)容等等,提取這些內(nèi)容、統(tǒng)計數(shù)據(jù)分析每個用戶行為,從而做出有利的決定。本次項目使用MapReduce框架對數(shù)據(jù)進行處理,HDFS作為底層存儲,使用Hive大大加快了項目的進度,Hive自帶的數(shù)據(jù)庫并不適用于項目,用MySql代替,這里用到了Hive但是底層處理計算還是MapReduce,其最突出的地方就是其對MapReduce進行了包裝,減少了使用MapReduce需要寫大量重復(fù)JAVA代碼的時間。實例分析,客戶需要知道瀏覽過“仙劍奇?zhèn)b傳”的用戶還瀏覽過其他什么內(nèi)容,我們就利用MapReduce對數(shù)據(jù)進行處理得出所有瀏覽過“仙劍奇?zhèn)b傳”的用戶ID,在由ID取出他們除了“仙劍奇?zhèn)b傳”之外的瀏覽內(nèi)容,值得一提的是這次任務(wù)中很好的利用MapReduce的shuffle階段的處理將大大減少任務(wù)的難度。查
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 旅游宣傳冊印刷服務(wù)合同3篇
- 新媒體賬號代運營協(xié)議范本樣文3篇
- 排水招投標技巧3篇
- 新版制作合同樣本3篇
- 農(nóng)村紀念館建設(shè)施工合同
- 船舶維修短期施工合同
- 美食APP廚師長招聘合同樣本
- 會議室裝飾改造工程分包合同
- 攝影棚租賃協(xié)議范文
- 教育設(shè)施臨時設(shè)施施工合同
- 風光儲儲能項目PCS艙、電池艙吊裝方案
- 《軍隊征集和招錄人員政治考核規(guī)定》
- 住宅小區(qū)視頻監(jiān)控清單及報價2020
- 作文互改互批互評探究課題研究方案
- 四川內(nèi)江城市文化介紹宣傳PPT
- 建筑垃圾再生利用方案PPT模板
- 中華遲氏通譜字輩排行
- 調(diào)試單位調(diào)試大綱
- 2輸變電工程施工質(zhì)量驗收統(tǒng)一表式(變電工程土建專業(yè))
- 交換機安裝調(diào)試記錄表實用文檔
- 提高床頭交接班執(zhí)行率
評論
0/150
提交評論