第5章-云計算的開源實現Hadoop_第1頁
第5章-云計算的開源實現Hadoop_第2頁
第5章-云計算的開源實現Hadoop_第3頁
第5章-云計算的開源實現Hadoop_第4頁
第5章-云計算的開源實現Hadoop_第5頁
已閱讀5頁,還剩9頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第5章云計算的開源實現Hadoop25.1Hadoop概述以MapReduce框架和Hadoop分布式文件系統(HDFS)為核心。同時包含Hive、HBase、Pig、Common、Avro、Chukwa等多個子項目的大數據處理平臺。目前基本上已成為MapReduce實現的產業(yè)標準。在互聯網領域得到了廣泛的應用:Yahoo!百度:搜索日志的分析和網頁數據的挖掘工作淘寶:存儲并處理電子商務交易的相關數據35.2Hadoop在云計算和大數據

的位置和關系Hadoop是構建云計算環(huán)境的一種分布式框架

HDFS采用了分布式存儲方式,提高了讀寫速度。MapReduce

用以整合分布式文件系統上的數據。采用存儲冗余數據的方式保證了數據的安全性。工業(yè)界大數據領域的事實標準業(yè)界的使用和改進迭代進一步完善并推動了Hadoop的發(fā)展。45.3Hadoop生態(tài)系統底層以HDFS和MapReduce為核心,上層為各種存儲、計算、分析等應用系統,包括Common、Avro、Chukwa、Hive、HBase、Pig等。5Hadoop生態(tài)系統HDFS:Hadoop分布式文件系統,用以實現分布式存儲,是GFS的Java開源實現,運行在大型商業(yè)機集群。MapReduce:分布式數據處理模型和執(zhí)行環(huán)境,運行在大型商業(yè)機集群,能夠處理T級別及以上的數據。Hbase:分布式、按列存儲的數據庫。HBase使用HDFS作為底層存儲,同時支持MapReuce的批量式計算和隨機讀取。Hive:是為提供簡單的數據操作而設計的分布式數據倉庫。Hive管理HDFS中存儲的數據,提供了一種類似SQL語法的HiveQL語言進行數據查詢(由運行時引擎翻譯成MapReduce作業(yè))。Pig:大數據流處理系統,運行在HDFS和MapReduce的集群上,用來執(zhí)行并行計算,檢索大型數據集。6Hadoop生態(tài)系統Mahout:基于MapReduce的大規(guī)模數據挖掘與機器學習算法庫。Zookeeper:分布式協調系統,是GoogleChubby的Java開源實現,是一種可靠的分布式協同(coordination)系統,可以用來構建分布式應用。Flume:一個分布式、可用性高的海量日志收集和傳輸系統。Sqoop:數據轉換系統,Hadoop環(huán)境下連接關系數據庫和Hadoop存儲系統的橋梁:可以將一個關系型數據庫中的數據導入非關系型數據庫中,也可以將非關系型的數據導入關系型數據庫中。Ambari:Hadoop分布式集群配置管理工具,支持Hadoop集群的供應、管理和監(jiān)控。Ambari充分利用一些已有的優(yōu)秀開源軟件,在分布式環(huán)境中實現集群式服務管理、監(jiān)控和展示。7分布式文件系統HDFS主從架構模型系統,一個HDFS集群由一個Master節(jié)點和多個Slave節(jié)點構成。Master節(jié)點:稱為NameNode,用以管理整個文件系統命名空間和客戶端對文件的訪問Slave節(jié)點:稱為DataNode,用于真正存儲數據。HDFS的副本存放策略將3個數據塊副本(默認配置下)中的兩個存放在同一個機架的不同節(jié)點上,另一個存放在另外一個機架的一個節(jié)點上。在讀取數據時,HDFS會盡量讀取離客戶端最近的副本。8分布式數據處理MapReduce一種并行計算模型,用于大規(guī)模數據集的并行運算。Map函數把一個輸入的鍵值對<key,value>映射成同樣為<key,value>形式的中間結果把具有相同key值的value歸納起來形成一個value列表(這個過程稱為Shuffle)并傳遞給reduce函數reduce函數對這個value列表進行處理,輸出形式為<key,value>的最終結果。9分布式數據庫HBase構建在HDFS之上的面向列的分布式數據庫系統。利用HDFS作為其文件存儲系統采用MapReduce框架處理海量數據通過ZooKeeper進行集群管理。HBase有別于關系數據庫?;诹械挠成鋽祿?,表示簡單的鍵-數據的映射關系只有簡單的字符串類型只提供插入、刪除、查詢、清空等簡單操作,沒有復雜的表和表之間的關聯基于列存儲,每一列單獨存放,數據就是索引數據更新是通過時間戳增加了新的數據版本,歷史數據仍然會保留可伸縮性,通過簡單的增加節(jié)點進行水平擴展10數據倉庫Hive一個基于Hadoop文件系統的開源數據倉庫架構。定義了類SQL的語言(HQL),通過HQL實現和SQL相似的操作。對存儲在HDFS中的大規(guī)模數據進行查詢和分析。Hive有別于關系數據庫。Hive的數據存儲在HDFS中Hive沒有定義專門的數據格式,只需在定義表的時候指明數據中的列分隔符和行分隔符即可Hive不支持對數據的改寫和添加,所有數據在加載時就確定好Hive中的數據查詢是把HQL語句解析,最終轉換成MapReduce任務進行處理Hive具有高擴展性11Hive、HBase、HDFS比較125.4Hadoop的行業(yè)應用Hadoop在百度的應用領域:大數據挖掘與分析日志分析平臺數據倉庫系統用戶行為分析系統廣告平臺等百度的Hadoop集群規(guī)模:超過數十個集群單集群節(jié)點數目超過5000臺每天處理的數據量超過8000TB。開發(fā)了HCE(HadoopC++ExtendSysterm)系統通過HCE對Streaming作業(yè)的排序、壓縮、解壓縮、內存控制進行了優(yōu)化,并提供了C++版的MapReduce接口。13Hadoop的行業(yè)應用Hadoop在阿里的應用領域:數據平臺系統、搜索支撐、廣告系統、數據魔方、量子統計、淘數據、推薦引擎系統等。阿里的Hadoop集群-“云梯”所有數據都在云梯上,在集群模式下實現數據共享,避免了重復的存儲和計算。自主研發(fā)的數據傳輸組件實時傳輸數據到Hadoop集群“云梯”,實現數據同步。自主研發(fā)了iStream(流式計算引擎)、iCall(基于Thrift的分布式RPC服務)iStream可以自動感知流處理的進度快慢,智能調整計算節(jié)點的數量。iStream承擔了流式數據處理的角色,為搜索引擎提供實時增量數據。MapReduce承擔了全量或者批量數據處理的角色,為搜索引擎提供全量數據。14Hadoop的行業(yè)應用Hadoop在中國聯通的應用:構建了全國集中的海量數據存儲和查詢系統各個省份采集數據實時傳送到北京的數據中心,實現移動通信用戶上網記錄集中查詢與分析。Hadoop在中國移動的應用-“大云”使用BC-Hadoop在PaaS層部署大數據存儲與分析平臺“大云”并行數據挖掘工具(BC-PDM)支持SaaS模式的海量數據并行處理、分析與挖掘,適用于經營決策、用戶行為分析、精

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論