




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、技術(shù)創(chuàng)新,變革未來Hadoop與數(shù)據(jù)分析概述OutlineHadoop基本概念Hadoop的應(yīng)用范圍Hadoop底層實(shí)現(xiàn)原理Hive與數(shù)據(jù)分析Hadoop集群管理典型的Hadoop離線分析系統(tǒng)架構(gòu)常見問題及解決方案關(guān)于打撲克的哲學(xué)打撲克與MapReduceInput split shuffle output 分牌各自齊牌交換再次理牌搞定統(tǒng)計(jì)單詞數(shù)The weather is goodThis guyis a good manToday is goodGood manis goodthe 1weather 1is 1good 1today 1is 1good 1this 1guy 1is 1a
2、1good 1man 1good 1man 1is 1good 1a 1 good 1good 1good 1good 1good 1man 1man 1the 1weather 1today 1guy 1is 1is 1is 1is 1this 1a 1good 5guy 1is 4man 2the 1this 1today 1weather 1流量計(jì)算6趨勢(shì)分析7/截圖用戶推薦8分布式索引910Hadoop 核心Hadoop Common分布式文件系統(tǒng)HDFSMapReduce框架并行數(shù)據(jù)分析語言Pig 列存儲(chǔ)NoSQL數(shù)據(jù)庫(kù) Hbase分布式協(xié)調(diào)器Zookeeper數(shù)據(jù)倉(cāng)庫(kù)Hive(使用
3、SQL)Hadoop日志分析工具ChukwaHadoop生態(tài)系統(tǒng)11DataData data data data dataData data data data dataData data data data dataData data data data dataData data data data dataData data data data dataData data data data dataData data data data dataData data data data dataData data data data dataData data data data da
4、taData data data data dataResultsData data data dataData data data dataData data data dataData data data dataData data data dataData data data dataData data data dataData data data dataData data data dataHadoop ClusterDFS Block 1DFS Block 1DFS Block 2DFS Block 2DFS Block 2DFS Block 1DFS Block 3DFS B
5、lock 3DFS Block 3MAPMAPMAPReduceHadoop實(shí)現(xiàn)作業(yè)執(zhí)行流程/ MapClass1中的map方法 public void map(LongWritable Key, Text value, OutputCollector output, Reporter reporter) throws IOException String strLine = value.toString(); String strList = strLine.split(); String mid = strList3; String sid = strList4;String timest
6、r = strList0;try timestr = timestr.substring(0,10);catch(Exception e)return;timestr += 0000; / 省略數(shù)十行 output.collect(new Text(mid + “” + “sid” + timestr , .);Hadoop案例(1) public static class Reducer1 extends MapReduceBase implements Reducer private Text word = new Text(); private Text str = new Text()
7、; public void reduce(Text key, Iterator values, OutputCollector output, Reporter reporter) throws IOException String t = key.toString().split(); word.set(t0);/ str.set(t1); output.collect(word,str);/uid kind /reduce /Reduce0b Hadoop案例(2) public static class MapClass2 extends MapReduceBase implements
8、 Mapper private Text word = new Text(); private Text str = new Text(); public void map(LongWritable Key, Text value, OutputCollector output, Reporter reporter) throws IOException String strLine = value.toString(); String strList = strLine.split(s+);word.set(strList0);str.set(strList1);output.collect
9、(word,str); Hadoop案例(3) public static class Reducer2 extends MapReduceBase implements Reducer private Text word = new Text(); private Text str = new Text(); public void reduce(Text key, Iterator values, OutputCollector output, Reporter reporter) throws IOException while(values.hasNext() String t = v
10、alues.next().toString(); / 省略數(shù)十行代碼 / 省略數(shù)十行代碼 output.collect(new Text(mid + “” + sid + “”) + ., .) Hadoop案例(4)BADAACBCBCDGroupCo-groupFunctionAggregate FilterFilterThinking in MapReduce(1)Thinking in MapReduce(2)Magics of Hive:SELECT COUNT(DISTINCT mid) FROM log_tableHive的魔力為什么淘寶采用Hadoop?webalizeraws
11、tat般若Atpanel時(shí)代日志最高達(dá)250GB/天最高達(dá)約50道作業(yè)每天運(yùn)行20小時(shí)以上Hadoop時(shí)代當(dāng)前日志470GB/天當(dāng)前366道作業(yè)平均67小時(shí)完成還有誰在用Hadoop?雅虎北京全球軟件研發(fā)中心中國(guó)移動(dòng)研究院英特爾研究院金山軟件百度騰訊新浪搜狐IBMFacebookAmazonYahoo!Web ServersLog Collection ServersFilersData Warehousing on a ClusterOracle RACFederated MySQLWeb站點(diǎn)的典型Hadoop架構(gòu)HadoopRich ClientMetaStore ServerMysqlSchedulerThrift ServerWebJobClientCLI/GUIClientProgramWeb Server淘寶Hadoop與Hive的使用標(biāo)準(zhǔn)輸出,標(biāo)準(zhǔn)出錯(cuò)Web顯示(50030, 50060, 50070)NameNode,JobTracker, DataNode, TaskTracker日志本地重現(xiàn): Local RunnerDistributedCache中放入調(diào)試代碼調(diào)試目的:查性能瓶頸,內(nèi)存泄漏,線程死鎖等工具: jmap, jstat, hpr
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 上海駕校合同標(biāo)準(zhǔn)文本
- 代評(píng)職稱合同樣本
- 公司出售企業(yè)合同樣本
- 代工成品銷售合同標(biāo)準(zhǔn)文本
- 債務(wù)人合同樣本
- 企管顧問合同標(biāo)準(zhǔn)文本
- 企業(yè)租賃機(jī)房合同樣本
- 公路工程單位合同樣本
- 買瓷磚定金合同標(biāo)準(zhǔn)文本
- 2025年商用辦公房屋租賃合同樣本
- 【道法】人生當(dāng)自強(qiáng)課件-2024-2025學(xué)年統(tǒng)編版道德與法治七年級(jí)下冊(cè)
- 汽車維修質(zhì)量保證制度
- 外研版(三起)(2024)三年級(jí)下冊(cè)英語Unit 3 單元測(cè)試卷(含答案)
- 2024年廣州市衛(wèi)生健康系統(tǒng)招聘“優(yōu)才計(jì)劃”考試真題
- 重點(diǎn)營(yíng)業(yè)線施工方案
- 餐飲店菜品成本計(jì)算表
- 《水土保持監(jiān)測(cè)技術(shù)規(guī)范SLT 277-2024》知識(shí)培訓(xùn)
- 2025年江蘇南京事業(yè)單位招聘(787人)高頻重點(diǎn)模擬試卷提升(共500題附帶答案詳解)
- GB/T 33136-2024信息技術(shù)服務(wù)數(shù)據(jù)中心服務(wù)能力成熟度模型
- 《保護(hù)地球愛護(hù)家園》課件
- 霧化吸入療法合理用藥專家共識(shí)(2024版)解讀
評(píng)論
0/150
提交評(píng)論