《Hadoop技術原理》課件-1.初識Hadoop_第1頁
《Hadoop技術原理》課件-1.初識Hadoop_第2頁
《Hadoop技術原理》課件-1.初識Hadoop_第3頁
《Hadoop技術原理》課件-1.初識Hadoop_第4頁
《Hadoop技術原理》課件-1.初識Hadoop_第5頁
已閱讀5頁,還剩31頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

Hadoop技術原理初識Hadoop大數(shù)據(jù)概述01大數(shù)據(jù)技術概述01194619511956196119701974197919912001200320082011第一臺計算機ENIAC面世磁帶+卡片人工管理磁盤被發(fā)明,進入文件管理時代網(wǎng)絡型SQLE-RGE公司發(fā)明第一個網(wǎng)絡模型數(shù)據(jù)庫,但僅限于GE自己的主機1960年代,IT系統(tǒng)規(guī)模和復雜度變大,數(shù)據(jù)與應用分離的需求開始產(chǎn)生,數(shù)據(jù)庫技術開始萌芽并蓬勃發(fā)展,并在1990年后逐步統(tǒng)一到以關系型數(shù)據(jù)庫為主導IBME.F.Dodd提出關系模型SQL語言被發(fā)明關系型數(shù)據(jù)庫ORACLE發(fā)布第一個商用SQL關系數(shù)據(jù)庫,后續(xù)快速發(fā)展數(shù)據(jù)倉庫數(shù)據(jù)倉庫開始涌現(xiàn),關系數(shù)據(jù)庫開始全面普及且平臺無關,進入成熟期2001年后,互聯(lián)網(wǎng)迅速發(fā)展,數(shù)據(jù)量成倍遞增,量變引起質(zhì)變,開始對數(shù)據(jù)管理技術提出全新的要求1946年,電腦誕生,數(shù)據(jù)與應用緊密捆綁在文件中,彼此不分Hadoop成為Apache頂級項目,重點支持海量數(shù)據(jù)分布式管理和分布式計算GFS谷歌發(fā)表論文介紹分布式文件系統(tǒng)數(shù)據(jù)管理技術歷經(jīng)人工管理、文件管理、數(shù)據(jù)庫管理等時代,大數(shù)據(jù)技術的出現(xiàn)使該領域進入了一個新的發(fā)展階段大數(shù)據(jù)技術概述02數(shù)據(jù)量劇增→海量數(shù)據(jù)超過150億個設備連接到互聯(lián)網(wǎng)全球每秒鐘發(fā)送290萬封電子郵件每天有2.88萬小時視頻上傳到Y(jié)outubeFacebook每日評論達32億條,每天上傳照片近3億張,每月處理數(shù)據(jù)總量約130萬TB預計2020年將增長到35ZBIDC全球數(shù)據(jù)量預測(1ZB

=1百萬PB=10億TB)大數(shù)據(jù)技術概述03大數(shù)據(jù)(BigData)正迅速成為最值得關注的IT領域之一2011年5月,EMCWorld2011大會主題“云計算相遇大數(shù)據(jù)”,EMC除了一直倡導的云計算外,還拋出"大數(shù)據(jù)"(BigData)概念2011年6月底,IBM、麥肯錫等眾多國外機構(gòu)發(fā)布"大數(shù)據(jù)"相關研究報告,予以積極跟進Google網(wǎng)站Bigdata關鍵詞搜索及新聞引用量大數(shù)據(jù)技術概述04VolumeVelocityValueVariety大數(shù)據(jù)的定義大數(shù)據(jù)這一概念,首先要從"大"入手,"大"是指數(shù)據(jù)規(guī)模,大數(shù)據(jù)一般指在10TB(1TB=1024GB)規(guī)模以上的數(shù)據(jù)量。大數(shù)據(jù)同過去的海量數(shù)據(jù)有所區(qū)別。具有4V的,才是大數(shù)據(jù)大數(shù)據(jù)技術概述05大數(shù)據(jù)技術:指從各種各樣類型的巨量數(shù)據(jù)中,快速獲得有價值信息的技術。而解決大數(shù)據(jù)問題的核心是大數(shù)據(jù)技術。大數(shù)據(jù)技術要面對的基本問題,也是最核心的問題:就是海量數(shù)據(jù)如何可靠存儲和高效計算。大數(shù)據(jù)技術概述06大數(shù)據(jù)技術的發(fā)展Google的“三駕馬車”07傳統(tǒng)存儲方案集中式的存儲,集中式的計算希望采購更高配置的機器來搭建系統(tǒng),成本太高。對于更大規(guī)模存儲和計算遇到瓶頸,擴展比較難Google的“三駕馬車”08Googel的低成本之道不使用超級計算機,不使用存儲(去IOE)大量使用普通的pc服務器,提供有冗余的集群服務Google的“三駕馬車”09012003GFS022004MapReduce032006BigTable《TheGoogleFileSystem》《MapReduce:SimplifiedDataProcessingonLargeClusters》MapReduce:大型集群上的簡單數(shù)據(jù)處理《Bigtable:ADistributedStorageSystemforStructuredData》Bigtable:一個分布式的結(jié)構(gòu)化數(shù)據(jù)存儲系統(tǒng)Google的“三駕馬車”10Google思想一:GFS分布式文件系統(tǒng)客戶端服務端Google的“三駕馬車”11GFS分布式文件系統(tǒng)架構(gòu)ChunkServer->塊服務器Chunk->塊Master-->主節(jié)點Google的“三駕馬車”12Google思想二:MapReduceMapReduce采用“分而治之”的思想,把對大規(guī)模數(shù)據(jù)集的操作,分發(fā)給一個主節(jié)點管理下的各個子節(jié)點共同完成,然后整合各個子節(jié)點的中間結(jié)果,得到最終的計算結(jié)果。簡而言之,MapReduce就是“分散任務,匯總結(jié)果”Google的“三駕馬車”13MapReduce運行原理Google的“三駕馬車”14Google思想三:BigTableBigTable的數(shù)據(jù)模型,與MySQL比較RowKey相當于MySQL的主鍵,不能為空,可以重復。相同的rowkey是一行記錄Google的“三駕馬車”15Google思想三:BigTable數(shù)據(jù)模型ColumnFamily:列族Column:列RowKey:行鍵Timestamp:時間,數(shù)據(jù)的版本,越大,表示數(shù)據(jù)越新。Google的“三駕馬車”16Google思想三:BigTableBigTable架構(gòu)表中的行用分區(qū)管理。每個分區(qū)叫做一個”Tablet”。TabletServer存儲多個TabletHadoop概述02Hadoop概述01Hadoop對Google三篇論文實現(xiàn)HDFS→GFSMapReduce→MapReduceHBase→BigTableHadoop概述02HDFS分布式文件系統(tǒng)HDFS:HadoopDistributedFileSystem,是Hadoop項目的核心子項目,是分布式計算中數(shù)據(jù)存儲管理的基礎。HDFS是對GFS論文的實現(xiàn)??蛻舳朔斩薍adoop概述03HDFS分布式文件系統(tǒng)機架感知與副本冗余存儲策略”實現(xiàn)最大化數(shù)據(jù)可靠性和可用性Hadoop概述MapReduce分布式計算技術Hadoop的MapReduce與Google公司的MapReduce論文所提的實現(xiàn)思路是一樣的,都是根據(jù)“分而治之”的核心思想進行實現(xiàn)的。04Hadoop概述05Hbase數(shù)據(jù)庫HBase是一個分布式的、面向列的開源數(shù)據(jù)庫;HBase在Hadoop之上提供了類似于Bigtable的能力,HBase是對Google公司的BigTable論文的實現(xiàn)。表中的行用分區(qū)管理。每個分區(qū)叫做一個”Region”。RegionServer存儲多個RegionHadoop概述06Hadoop發(fā)展簡史Hadoop源自始于2002年的ApacheNutch項目——一個開源的網(wǎng)絡搜索引擎并且也是Lucene項目的一部分。創(chuàng)始人DougCutting。DougCuttingHadoop概述07Hadoop發(fā)展簡史起源于Nutch2008年4月,Hadoop打破世界紀錄,成為最快排序1TB數(shù)據(jù)的系統(tǒng),它采用一個由910個節(jié)點構(gòu)成的集群進行運算,排序時間只用了209秒在2009年5月,Hadoop更是把1TB數(shù)據(jù)排序時間縮短到62秒。Hadoop從此名聲大震,迅速發(fā)展成為大數(shù)據(jù)時代最具影響力的開源分布式開發(fā)平臺,并成為事實上的大數(shù)據(jù)處理標準Hadoop概述08Hadoop發(fā)展簡史ApacheHadoopHadoop概述09Hadoop發(fā)展簡史ApacheHadoop版本演變Hadoop概述10Hadoop發(fā)行版本

Hadoop概述11Hadoop特性和適用場景

特性:擴容能力強成本低高效率可靠性適合場景:大數(shù)據(jù)分析離線分析不適合場景:少量數(shù)據(jù)復雜數(shù)據(jù)在線分析Hadoop生態(tài)圈03Hadoop生態(tài)圈01Hadoop實現(xiàn)了Google的三大論文,許多公司又針對性的開發(fā)了各自的功能組件,有效地擴充了Hadoop的功能,構(gòu)成了Hadoop的生態(tài)圈。Hadoop生態(tài)圈02組件功能HDFS分布式文件系統(tǒng)YARN資源管理和調(diào)度器MapReduce分布式并行編程模型HBaseHadoop上的非關系型的分布式數(shù)據(jù)庫HiveHadoop上的數(shù)據(jù)倉庫Pig一個基于Hadoop的大規(guī)模數(shù)據(jù)分析平臺,提供類似SQL的查詢語言PigLatinFlume一個高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng)Sqoop用于在Hadoop與傳統(tǒng)數(shù)據(jù)庫之間進行數(shù)據(jù)傳遞Zookeeper提供分布式協(xié)調(diào)一致性服務AmbariHadoop快速部署工具,支持ApacheHadoop集群的供應、管理和監(jiān)控Mahout提供一些可擴展的機器學習領域經(jīng)典算法的實現(xiàn)Spark類似于HadoopMapReduce的通用并行框架OozieHadoop上的工作流管理系統(tǒng)Sto

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論