《Hadoop技術(shù)原理》課件-1.初識(shí)Hadoop

上傳人：青*** IP屬地：福建上傳時(shí)間：2025-01-02 格式：PPTX 頁(yè)數(shù)：36 大小：5.18MB 積分：3.74 舉報(bào) 版權(quán)申訴

《Hadoop技術(shù)原理》課件-1.初識(shí)Hadoop_第2頁(yè)

《Hadoop技術(shù)原理》課件-1.初識(shí)Hadoop_第3頁(yè)

《Hadoop技術(shù)原理》課件-1.初識(shí)Hadoop_第4頁(yè)

《Hadoop技術(shù)原理》課件-1.初識(shí)Hadoop_第5頁(yè)

已閱讀5頁(yè)，還剩31頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

Hadoop技術(shù)原理初識(shí)Hadoop大數(shù)據(jù)概述01大數(shù)據(jù)技術(shù)概述01194619511956196119701974197919912001200320082011第一臺(tái)計(jì)算機(jī)ENIAC面世磁帶+卡片人工管理磁盤(pán)被發(fā)明，進(jìn)入文件管理時(shí)代網(wǎng)絡(luò)型SQLE-RGE公司發(fā)明第一個(gè)網(wǎng)絡(luò)模型數(shù)據(jù)庫(kù)，但僅限于GE自己的主機(jī)1960年代，IT系統(tǒng)規(guī)模和復(fù)雜度變大，數(shù)據(jù)與應(yīng)用分離的需求開(kāi)始產(chǎn)生，數(shù)據(jù)庫(kù)技術(shù)開(kāi)始萌芽并蓬勃發(fā)展，并在1990年后逐步統(tǒng)一到以關(guān)系型數(shù)據(jù)庫(kù)為主導(dǎo)IBME.F.Dodd提出關(guān)系模型SQL語(yǔ)言被發(fā)明關(guān)系型數(shù)據(jù)庫(kù)ORACLE發(fā)布第一個(gè)商用SQL關(guān)系數(shù)據(jù)庫(kù)，后續(xù)快速發(fā)展數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)開(kāi)始涌現(xiàn)，關(guān)系數(shù)據(jù)庫(kù)開(kāi)始全面普及且平臺(tái)無(wú)關(guān)，進(jìn)入成熟期2001年后，互聯(lián)網(wǎng)迅速發(fā)展，數(shù)據(jù)量成倍遞增，量變引起質(zhì)變，開(kāi)始對(duì)數(shù)據(jù)管理技術(shù)提出全新的要求1946年，電腦誕生，數(shù)據(jù)與應(yīng)用緊密捆綁在文件中，彼此不分Hadoop成為Apache頂級(jí)項(xiàng)目，重點(diǎn)支持海量數(shù)據(jù)分布式管理和分布式計(jì)算GFS谷歌發(fā)表論文介紹分布式文件系統(tǒng)數(shù)據(jù)管理技術(shù)歷經(jīng)人工管理、文件管理、數(shù)據(jù)庫(kù)管理等時(shí)代，大數(shù)據(jù)技術(shù)的出現(xiàn)使該領(lǐng)域進(jìn)入了一個(gè)新的發(fā)展階段大數(shù)據(jù)技術(shù)概述02數(shù)據(jù)量劇增→海量數(shù)據(jù)超過(guò)150億個(gè)設(shè)備連接到互聯(lián)網(wǎng)全球每秒鐘發(fā)送290萬(wàn)封電子郵件每天有2.88萬(wàn)小時(shí)視頻上傳到Y(jié)outubeFacebook每日評(píng)論達(dá)32億條，每天上傳照片近3億張，每月處理數(shù)據(jù)總量約130萬(wàn)TB預(yù)計(jì)2020年將增長(zhǎng)到35ZBIDC全球數(shù)據(jù)量預(yù)測(cè)（1ZB

=1百萬(wàn)PB=10億TB）大數(shù)據(jù)技術(shù)概述03大數(shù)據(jù)（BigData）正迅速成為最值得關(guān)注的IT領(lǐng)域之一2011年5月，EMCWorld2011大會(huì)主題“云計(jì)算相遇大數(shù)據(jù)”，EMC除了一直倡導(dǎo)的云計(jì)算外，還拋出"大數(shù)據(jù)"（BigData）概念2011年6月底，IBM、麥肯錫等眾多國(guó)外機(jī)構(gòu)發(fā)布"大數(shù)據(jù)"相關(guān)研究報(bào)告，予以積極跟進(jìn)Google網(wǎng)站Bigdata關(guān)鍵詞搜索及新聞引用量大數(shù)據(jù)技術(shù)概述04VolumeVelocityValueVariety大數(shù)據(jù)的定義大數(shù)據(jù)這一概念，首先要從"大"入手，"大"是指數(shù)據(jù)規(guī)模，大數(shù)據(jù)一般指在10TB(1TB=1024GB)規(guī)模以上的數(shù)據(jù)量。大數(shù)據(jù)同過(guò)去的海量數(shù)據(jù)有所區(qū)別。具有4V的，才是大數(shù)據(jù)大數(shù)據(jù)技術(shù)概述05大數(shù)據(jù)技術(shù)：指從各種各樣類(lèi)型的巨量數(shù)據(jù)中，快速獲得有價(jià)值信息的技術(shù)。而解決大數(shù)據(jù)問(wèn)題的核心是大數(shù)據(jù)技術(shù)。大數(shù)據(jù)技術(shù)要面對(duì)的基本問(wèn)題，也是最核心的問(wèn)題：就是海量數(shù)據(jù)如何可靠存儲(chǔ)和高效計(jì)算。大數(shù)據(jù)技術(shù)概述06大數(shù)據(jù)技術(shù)的發(fā)展Google的“三駕馬車(chē)”07傳統(tǒng)存儲(chǔ)方案集中式的存儲(chǔ)，集中式的計(jì)算希望采購(gòu)更高配置的機(jī)器來(lái)搭建系統(tǒng)，成本太高。對(duì)于更大規(guī)模存儲(chǔ)和計(jì)算遇到瓶頸，擴(kuò)展比較難Google的“三駕馬車(chē)”08Googel的低成本之道不使用超級(jí)計(jì)算機(jī)，不使用存儲(chǔ)（去IOE）大量使用普通的pc服務(wù)器，提供有冗余的集群服務(wù)Google的“三駕馬車(chē)”09012003GFS022004MapReduce032006BigTable《TheGoogleFileSystem》《MapReduce:SimplifiedDataProcessingonLargeClusters》MapReduce：大型集群上的簡(jiǎn)單數(shù)據(jù)處理《Bigtable:ADistributedStorageSystemforStructuredData》Bigtable：一個(gè)分布式的結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)系統(tǒng)Google的“三駕馬車(chē)”10Google思想一：GFS分布式文件系統(tǒng)客戶(hù)端服務(wù)端Google的“三駕馬車(chē)”11GFS分布式文件系統(tǒng)架構(gòu)ChunkServer->塊服務(wù)器Chunk->塊Master-->主節(jié)點(diǎn)Google的“三駕馬車(chē)”12Google思想二：MapReduceMapReduce采用“分而治之”的思想，把對(duì)大規(guī)模數(shù)據(jù)集的操作，分發(fā)給一個(gè)主節(jié)點(diǎn)管理下的各個(gè)子節(jié)點(diǎn)共同完成，然后整合各個(gè)子節(jié)點(diǎn)的中間結(jié)果，得到最終的計(jì)算結(jié)果。簡(jiǎn)而言之，MapReduce就是“分散任務(wù)，匯總結(jié)果”Google的“三駕馬車(chē)”13MapReduce運(yùn)行原理Google的“三駕馬車(chē)”14Google思想三：BigTableBigTable的數(shù)據(jù)模型，與MySQL比較RowKey相當(dāng)于MySQL的主鍵，不能為空，可以重復(fù)。相同的rowkey是一行記錄Google的“三駕馬車(chē)”15Google思想三：BigTable數(shù)據(jù)模型ColumnFamily:列族Column：列RowKey：行鍵Timestamp:時(shí)間，數(shù)據(jù)的版本，越大，表示數(shù)據(jù)越新。Google的“三駕馬車(chē)”16Google思想三：BigTableBigTable架構(gòu)表中的行用分區(qū)管理。每個(gè)分區(qū)叫做一個(gè)”Tablet”。TabletServer存儲(chǔ)多個(gè)TabletHadoop概述02Hadoop概述01Hadoop對(duì)Google三篇論文實(shí)現(xiàn)HDFS→GFSMapReduce→MapReduceHBase→BigTableHadoop概述02HDFS分布式文件系統(tǒng)HDFS：HadoopDistributedFileSystem，是Hadoop項(xiàng)目的核心子項(xiàng)目，是分布式計(jì)算中數(shù)據(jù)存儲(chǔ)管理的基礎(chǔ)。HDFS是對(duì)GFS論文的實(shí)現(xiàn)?？蛻?hù)端服務(wù)端Hadoop概述03HDFS分布式文件系統(tǒng)機(jī)架感知與副本冗余存儲(chǔ)策略”實(shí)現(xiàn)最大化數(shù)據(jù)可靠性和可用性Hadoop概述MapReduce分布式計(jì)算技術(shù)Hadoop的MapReduce與Google公司的MapReduce論文所提的實(shí)現(xiàn)思路是一樣的，都是根據(jù)“分而治之”的核心思想進(jìn)行實(shí)現(xiàn)的。04Hadoop概述05Hbase數(shù)據(jù)庫(kù)HBase是一個(gè)分布式的、面向列的開(kāi)源數(shù)據(jù)庫(kù)；HBase在Hadoop之上提供了類(lèi)似于Bigtable的能力，HBase是對(duì)Google公司的BigTable論文的實(shí)現(xiàn)。表中的行用分區(qū)管理。每個(gè)分區(qū)叫做一個(gè)”Region”。RegionServer存儲(chǔ)多個(gè)RegionHadoop概述06Hadoop發(fā)展簡(jiǎn)史Hadoop源自始于2002年的ApacheNutch項(xiàng)目——一個(gè)開(kāi)源的網(wǎng)絡(luò)搜索引擎并且也是Lucene項(xiàng)目的一部分。創(chuàng)始人DougCutting。DougCuttingHadoop概述07Hadoop發(fā)展簡(jiǎn)史起源于Nutch2008年4月，Hadoop打破世界紀(jì)錄，成為最快排序1TB數(shù)據(jù)的系統(tǒng)，它采用一個(gè)由910個(gè)節(jié)點(diǎn)構(gòu)成的集群進(jìn)行運(yùn)算，排序時(shí)間只用了209秒在2009年5月，Hadoop更是把1TB數(shù)據(jù)排序時(shí)間縮短到62秒。Hadoop從此名聲大震，迅速發(fā)展成為大數(shù)據(jù)時(shí)代最具影響力的開(kāi)源分布式開(kāi)發(fā)平臺(tái)，并成為事實(shí)上的大數(shù)據(jù)處理標(biāo)準(zhǔn)Hadoop概述08Hadoop發(fā)展簡(jiǎn)史ApacheHadoopHadoop概述09Hadoop發(fā)展簡(jiǎn)史ApacheHadoop版本演變Hadoop概述10Hadoop發(fā)行版本

Hadoop概述11Hadoop特性和適用場(chǎng)景

特性：擴(kuò)容能力強(qiáng)成本低高效率可靠性適合場(chǎng)景：大數(shù)據(jù)分析離線(xiàn)分析不適合場(chǎng)景：少量數(shù)據(jù)復(fù)雜數(shù)據(jù)在線(xiàn)分析Hadoop生態(tài)圈03Hadoop生態(tài)圈01Hadoop實(shí)現(xiàn)了Google的三大論文，許多公司又針對(duì)性的開(kāi)發(fā)了各自的功能組件，有效地?cái)U(kuò)充了Hadoop的功能，構(gòu)成了Hadoop的生態(tài)圈。Hadoop生態(tài)圈02組件功能HDFS分布式文件系統(tǒng)YARN資源管理和調(diào)度器MapReduce分布式并行編程模型HBaseHadoop上的非關(guān)系型的分布式數(shù)據(jù)庫(kù)HiveHadoop上的數(shù)據(jù)倉(cāng)庫(kù)Pig一個(gè)基于Hadoop的大規(guī)模數(shù)據(jù)分析平臺(tái)，提供類(lèi)似SQL的查詢(xún)語(yǔ)言PigLatinFlume一個(gè)高可用的，高可靠的，分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng)Sqoop用于在Hadoop與傳統(tǒng)數(shù)據(jù)庫(kù)之間進(jìn)行數(shù)據(jù)傳遞Zookeeper提供分布式協(xié)調(diào)一致性服務(wù)AmbariHadoop快速部署工具，支持ApacheHadoop集群的供應(yīng)、管理和監(jiān)控Mahout提供一些可擴(kuò)展的機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典算法的實(shí)現(xiàn)Spark類(lèi)似于HadoopMapReduce的通用并行框架OozieHadoop上的工作流管理系統(tǒng)Sto

人人文庫(kù)> 全部分類(lèi)> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

《Hadoop技術(shù)原理》課件-1.初識(shí)Hadoop

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔