




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
Hadoop技術(shù)原理初識(shí)Hadoop大數(shù)據(jù)概述01大數(shù)據(jù)技術(shù)概述01194619511956196119701974197919912001200320082011第一臺(tái)計(jì)算機(jī)ENIAC面世磁帶+卡片人工管理磁盤(pán)被發(fā)明,進(jìn)入文件管理時(shí)代網(wǎng)絡(luò)型SQLE-RGE公司發(fā)明第一個(gè)網(wǎng)絡(luò)模型數(shù)據(jù)庫(kù),但僅限于GE自己的主機(jī)1960年代,IT系統(tǒng)規(guī)模和復(fù)雜度變大,數(shù)據(jù)與應(yīng)用分離的需求開(kāi)始產(chǎn)生,數(shù)據(jù)庫(kù)技術(shù)開(kāi)始萌芽并蓬勃發(fā)展,并在1990年后逐步統(tǒng)一到以關(guān)系型數(shù)據(jù)庫(kù)為主導(dǎo)IBME.F.Dodd提出關(guān)系模型SQL語(yǔ)言被發(fā)明關(guān)系型數(shù)據(jù)庫(kù)ORACLE發(fā)布第一個(gè)商用SQL關(guān)系數(shù)據(jù)庫(kù),后續(xù)快速發(fā)展數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)開(kāi)始涌現(xiàn),關(guān)系數(shù)據(jù)庫(kù)開(kāi)始全面普及且平臺(tái)無(wú)關(guān),進(jìn)入成熟期2001年后,互聯(lián)網(wǎng)迅速發(fā)展,數(shù)據(jù)量成倍遞增,量變引起質(zhì)變,開(kāi)始對(duì)數(shù)據(jù)管理技術(shù)提出全新的要求1946年,電腦誕生,數(shù)據(jù)與應(yīng)用緊密捆綁在文件中,彼此不分Hadoop成為Apache頂級(jí)項(xiàng)目,重點(diǎn)支持海量數(shù)據(jù)分布式管理和分布式計(jì)算GFS谷歌發(fā)表論文介紹分布式文件系統(tǒng)數(shù)據(jù)管理技術(shù)歷經(jīng)人工管理、文件管理、數(shù)據(jù)庫(kù)管理等時(shí)代,大數(shù)據(jù)技術(shù)的出現(xiàn)使該領(lǐng)域進(jìn)入了一個(gè)新的發(fā)展階段大數(shù)據(jù)技術(shù)概述02數(shù)據(jù)量劇增→海量數(shù)據(jù)超過(guò)150億個(gè)設(shè)備連接到互聯(lián)網(wǎng)全球每秒鐘發(fā)送290萬(wàn)封電子郵件每天有2.88萬(wàn)小時(shí)視頻上傳到Y(jié)outubeFacebook每日評(píng)論達(dá)32億條,每天上傳照片近3億張,每月處理數(shù)據(jù)總量約130萬(wàn)TB預(yù)計(jì)2020年將增長(zhǎng)到35ZBIDC全球數(shù)據(jù)量預(yù)測(cè)(1ZB
=1百萬(wàn)PB=10億TB)大數(shù)據(jù)技術(shù)概述03大數(shù)據(jù)(BigData)正迅速成為最值得關(guān)注的IT領(lǐng)域之一2011年5月,EMCWorld2011大會(huì)主題“云計(jì)算相遇大數(shù)據(jù)”,EMC除了一直倡導(dǎo)的云計(jì)算外,還拋出"大數(shù)據(jù)"(BigData)概念2011年6月底,IBM、麥肯錫等眾多國(guó)外機(jī)構(gòu)發(fā)布"大數(shù)據(jù)"相關(guān)研究報(bào)告,予以積極跟進(jìn)Google網(wǎng)站Bigdata關(guān)鍵詞搜索及新聞引用量大數(shù)據(jù)技術(shù)概述04VolumeVelocityValueVariety大數(shù)據(jù)的定義大數(shù)據(jù)這一概念,首先要從"大"入手,"大"是指數(shù)據(jù)規(guī)模,大數(shù)據(jù)一般指在10TB(1TB=1024GB)規(guī)模以上的數(shù)據(jù)量。大數(shù)據(jù)同過(guò)去的海量數(shù)據(jù)有所區(qū)別。具有4V的,才是大數(shù)據(jù)大數(shù)據(jù)技術(shù)概述05大數(shù)據(jù)技術(shù):指從各種各樣類(lèi)型的巨量數(shù)據(jù)中,快速獲得有價(jià)值信息的技術(shù)。而解決大數(shù)據(jù)問(wèn)題的核心是大數(shù)據(jù)技術(shù)。大數(shù)據(jù)技術(shù)要面對(duì)的基本問(wèn)題,也是最核心的問(wèn)題:就是海量數(shù)據(jù)如何可靠存儲(chǔ)和高效計(jì)算。大數(shù)據(jù)技術(shù)概述06大數(shù)據(jù)技術(shù)的發(fā)展Google的“三駕馬車(chē)”07傳統(tǒng)存儲(chǔ)方案集中式的存儲(chǔ),集中式的計(jì)算希望采購(gòu)更高配置的機(jī)器來(lái)搭建系統(tǒng),成本太高。對(duì)于更大規(guī)模存儲(chǔ)和計(jì)算遇到瓶頸,擴(kuò)展比較難Google的“三駕馬車(chē)”08Googel的低成本之道不使用超級(jí)計(jì)算機(jī),不使用存儲(chǔ)(去IOE)大量使用普通的pc服務(wù)器,提供有冗余的集群服務(wù)Google的“三駕馬車(chē)”09012003GFS022004MapReduce032006BigTable《TheGoogleFileSystem》《MapReduce:SimplifiedDataProcessingonLargeClusters》MapReduce:大型集群上的簡(jiǎn)單數(shù)據(jù)處理《Bigtable:ADistributedStorageSystemforStructuredData》Bigtable:一個(gè)分布式的結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)系統(tǒng)Google的“三駕馬車(chē)”10Google思想一:GFS分布式文件系統(tǒng)客戶(hù)端服務(wù)端Google的“三駕馬車(chē)”11GFS分布式文件系統(tǒng)架構(gòu)ChunkServer->塊服務(wù)器Chunk->塊Master-->主節(jié)點(diǎn)Google的“三駕馬車(chē)”12Google思想二:MapReduceMapReduce采用“分而治之”的思想,把對(duì)大規(guī)模數(shù)據(jù)集的操作,分發(fā)給一個(gè)主節(jié)點(diǎn)管理下的各個(gè)子節(jié)點(diǎn)共同完成,然后整合各個(gè)子節(jié)點(diǎn)的中間結(jié)果,得到最終的計(jì)算結(jié)果。簡(jiǎn)而言之,MapReduce就是“分散任務(wù),匯總結(jié)果”Google的“三駕馬車(chē)”13MapReduce運(yùn)行原理Google的“三駕馬車(chē)”14Google思想三:BigTableBigTable的數(shù)據(jù)模型,與MySQL比較RowKey相當(dāng)于MySQL的主鍵,不能為空,可以重復(fù)。相同的rowkey是一行記錄Google的“三駕馬車(chē)”15Google思想三:BigTable數(shù)據(jù)模型ColumnFamily:列族Column:列RowKey:行鍵Timestamp:時(shí)間,數(shù)據(jù)的版本,越大,表示數(shù)據(jù)越新。Google的“三駕馬車(chē)”16Google思想三:BigTableBigTable架構(gòu)表中的行用分區(qū)管理。每個(gè)分區(qū)叫做一個(gè)”Tablet”。TabletServer存儲(chǔ)多個(gè)TabletHadoop概述02Hadoop概述01Hadoop對(duì)Google三篇論文實(shí)現(xiàn)HDFS→GFSMapReduce→MapReduceHBase→BigTableHadoop概述02HDFS分布式文件系統(tǒng)HDFS:HadoopDistributedFileSystem,是Hadoop項(xiàng)目的核心子項(xiàng)目,是分布式計(jì)算中數(shù)據(jù)存儲(chǔ)管理的基礎(chǔ)。HDFS是對(duì)GFS論文的實(shí)現(xiàn)??蛻?hù)端服務(wù)端Hadoop概述03HDFS分布式文件系統(tǒng)機(jī)架感知與副本冗余存儲(chǔ)策略”實(shí)現(xiàn)最大化數(shù)據(jù)可靠性和可用性Hadoop概述MapReduce分布式計(jì)算技術(shù)Hadoop的MapReduce與Google公司的MapReduce論文所提的實(shí)現(xiàn)思路是一樣的,都是根據(jù)“分而治之”的核心思想進(jìn)行實(shí)現(xiàn)的。04Hadoop概述05Hbase數(shù)據(jù)庫(kù)HBase是一個(gè)分布式的、面向列的開(kāi)源數(shù)據(jù)庫(kù);HBase在Hadoop之上提供了類(lèi)似于Bigtable的能力,HBase是對(duì)Google公司的BigTable論文的實(shí)現(xiàn)。表中的行用分區(qū)管理。每個(gè)分區(qū)叫做一個(gè)”Region”。RegionServer存儲(chǔ)多個(gè)RegionHadoop概述06Hadoop發(fā)展簡(jiǎn)史Hadoop源自始于2002年的ApacheNutch項(xiàng)目——一個(gè)開(kāi)源的網(wǎng)絡(luò)搜索引擎并且也是Lucene項(xiàng)目的一部分。創(chuàng)始人DougCutting。DougCuttingHadoop概述07Hadoop發(fā)展簡(jiǎn)史起源于Nutch2008年4月,Hadoop打破世界紀(jì)錄,成為最快排序1TB數(shù)據(jù)的系統(tǒng),它采用一個(gè)由910個(gè)節(jié)點(diǎn)構(gòu)成的集群進(jìn)行運(yùn)算,排序時(shí)間只用了209秒在2009年5月,Hadoop更是把1TB數(shù)據(jù)排序時(shí)間縮短到62秒。Hadoop從此名聲大震,迅速發(fā)展成為大數(shù)據(jù)時(shí)代最具影響力的開(kāi)源分布式開(kāi)發(fā)平臺(tái),并成為事實(shí)上的大數(shù)據(jù)處理標(biāo)準(zhǔn)Hadoop概述08Hadoop發(fā)展簡(jiǎn)史ApacheHadoopHadoop概述09Hadoop發(fā)展簡(jiǎn)史ApacheHadoop版本演變Hadoop概述10Hadoop發(fā)行版本
Hadoop概述11Hadoop特性和適用場(chǎng)景
特性:擴(kuò)容能力強(qiáng)成本低高效率可靠性適合場(chǎng)景:大數(shù)據(jù)分析離線(xiàn)分析不適合場(chǎng)景:少量數(shù)據(jù)復(fù)雜數(shù)據(jù)在線(xiàn)分析Hadoop生態(tài)圈03Hadoop生態(tài)圈01Hadoop實(shí)現(xiàn)了Google的三大論文,許多公司又針對(duì)性的開(kāi)發(fā)了各自的功能組件,有效地?cái)U(kuò)充了Hadoop的功能,構(gòu)成了Hadoop的生態(tài)圈。Hadoop生態(tài)圈02組件功能HDFS分布式文件系統(tǒng)YARN資源管理和調(diào)度器MapReduce分布式并行編程模型HBaseHadoop上的非關(guān)系型的分布式數(shù)據(jù)庫(kù)HiveHadoop上的數(shù)據(jù)倉(cāng)庫(kù)Pig一個(gè)基于Hadoop的大規(guī)模數(shù)據(jù)分析平臺(tái),提供類(lèi)似SQL的查詢(xún)語(yǔ)言PigLatinFlume一個(gè)高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng)Sqoop用于在Hadoop與傳統(tǒng)數(shù)據(jù)庫(kù)之間進(jìn)行數(shù)據(jù)傳遞Zookeeper提供分布式協(xié)調(diào)一致性服務(wù)AmbariHadoop快速部署工具,支持ApacheHadoop集群的供應(yīng)、管理和監(jiān)控Mahout提供一些可擴(kuò)展的機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典算法的實(shí)現(xiàn)Spark類(lèi)似于HadoopMapReduce的通用并行框架OozieHadoop上的工作流管理系統(tǒng)Sto
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 房屋租賃成都合同
- 音樂(lè)行業(yè)演唱會(huì)取消免責(zé)合同
- 機(jī)動(dòng)車(chē)輛買(mǎi)賣(mài)合同
- 鄉(xiāng)鎮(zhèn)集體工廠承包合同6篇
- 土地承包經(jīng)營(yíng)權(quán)租賃協(xié)議樣書(shū)8篇
- 7 多元文化 多樣魅力 教學(xué)設(shè)計(jì)-2023-2024學(xué)年道德與法治六年級(jí)下冊(cè)統(tǒng)編版
- 人臉識(shí)別門(mén)禁使用協(xié)議
- 全國(guó)山西經(jīng)濟(jì)版小學(xué)信息技術(shù)第二冊(cè)第二單元活動(dòng)4《我愛(ài)我家試身手》教學(xué)設(shè)計(jì)
- 第16課 精進(jìn)創(chuàng)編與體能訓(xùn)練方法 教學(xué)設(shè)計(jì)-2023-2024學(xué)年高一上學(xué)期體育與健康人教版必修第一冊(cè)
- 2025年硬質(zhì)合金噴焊粉合作協(xié)議書(shū)
- 幼兒園大班下學(xué)期數(shù)學(xué)期末檢測(cè)試卷第二套
- 《桃樹(shù)下的小白兔》課件
- 強(qiáng)調(diào)句(完整版)-高三英語(yǔ)市公開(kāi)課一等獎(jiǎng)省賽課獲獎(jiǎng)?wù)n件
- 2022年4月自考00277行政管理學(xué)試題及答案含解析
- 消防設(shè)施安全檢查表
- 免責(zé)協(xié)議書(shū)研發(fā)版
- 《網(wǎng)絡(luò)應(yīng)急響應(yīng)預(yù)案》課件
- 《平面向量的基本概念》
- 安全生產(chǎn)風(fēng)險(xiǎn)評(píng)估培訓(xùn)課件
- 2024年重慶市優(yōu)質(zhì)企業(yè)梯度培育政策解讀學(xué)習(xí)培訓(xùn)課件資料(專(zhuān)精特新 專(zhuān)精特新小巨人中小企業(yè) 注意事項(xiàng))
- 跟單員工作職責(zé)與流程
評(píng)論
0/150
提交評(píng)論