![Hadoop基礎(chǔ)知識培訓(xùn)-課件_第1頁](http://file4.renrendoc.com/view/a4793f0637a8cc4e1eda7e888f4cea45/a4793f0637a8cc4e1eda7e888f4cea451.gif)
![Hadoop基礎(chǔ)知識培訓(xùn)-課件_第2頁](http://file4.renrendoc.com/view/a4793f0637a8cc4e1eda7e888f4cea45/a4793f0637a8cc4e1eda7e888f4cea452.gif)
![Hadoop基礎(chǔ)知識培訓(xùn)-課件_第3頁](http://file4.renrendoc.com/view/a4793f0637a8cc4e1eda7e888f4cea45/a4793f0637a8cc4e1eda7e888f4cea453.gif)
![Hadoop基礎(chǔ)知識培訓(xùn)-課件_第4頁](http://file4.renrendoc.com/view/a4793f0637a8cc4e1eda7e888f4cea45/a4793f0637a8cc4e1eda7e888f4cea454.gif)
![Hadoop基礎(chǔ)知識培訓(xùn)-課件_第5頁](http://file4.renrendoc.com/view/a4793f0637a8cc4e1eda7e888f4cea45/a4793f0637a8cc4e1eda7e888f4cea455.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一Hadoop基礎(chǔ)知識培訓(xùn)江西電信大數(shù)據(jù)支撐團隊2014年中國電信大數(shù)據(jù)技術(shù)與應(yīng)用培訓(xùn)1ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一Had2企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一主要內(nèi)容第一篇
Hadoop綜述·
第二篇
HDFS
分布式文件系統(tǒng)第三篇
MapReduce
分布式計算框架·
第四篇
常用Hadoop組件介紹2ppt課件2把信息化打造成為中國電信企業(yè)核心競爭力之一主要內(nèi)容第一篇3企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一第一篇Hadoop綜述:
什么是Hadoop:
Hadoop生態(tài)系統(tǒng):
Hadoop的廠商:
Hadoop的部署3ppt課件3把信息化打造成為中國電信企業(yè)核心競爭力之一第一篇Hadoo企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一Hadoop是什么?Hadoop是Apache基金會下的一個開源分布式計算平臺,以分布式文件系統(tǒng)(HDFS)和分布式計算框架(MapReduce)為核心,為用戶提供了底層細節(jié)透明的分布式基礎(chǔ)設(shè)施。yHDFS的高容錯性、高伸縮性等優(yōu)點,允許用戶將Hadoop部署
在廉價的硬件上,構(gòu)建分布式系統(tǒng)。yMapReduce分布式計算框架允許用戶在不了解分布式底層細節(jié)
的情況下開發(fā)并行、分布的應(yīng)用程序,利用大規(guī)模計算資源,解決傳統(tǒng)高性能單機無法解決的大數(shù)據(jù)處理問題HadoopNutchLucene高性能全文索引工具包高性能搜索引擎工具包版本演進對應(yīng)Cloudera公司的CDH3u5對應(yīng)Cloudera
公司的CDH44ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一Had企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一Hadoop的特點Hadoop運用于海量數(shù)據(jù)處理,主要有如下幾個優(yōu)勢:方便Hadoop可以運行在一般商業(yè)機器(X86服務(wù)器)構(gòu)成的大型集群上彈性Hadoop通過增加集群節(jié)點,可以線性擴展以處理更大的數(shù)據(jù)集;同時在負載下降時,也可減少節(jié)點,以便高效使用資源。健壯Hadoop設(shè)計之初,將故障檢測和自動恢復(fù)作為設(shè)計目標,可以從容處理通用計算平臺上出現(xiàn)的硬件失效情況。簡單Hadoop允許用戶快速編寫出高效的并行分布式代碼。5ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一Had企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一HADOOP生態(tài)系統(tǒng)y經(jīng)過幾年的快速發(fā)展,Hadoop現(xiàn)在已經(jīng)發(fā)展成為包含多個相關(guān)項目的軟件生態(tài)系統(tǒng),成為大數(shù)據(jù)處理技術(shù)的事實標準,目前典型的Hadoop生態(tài)系統(tǒng)如下所示:6ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一HAD企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一·發(fā)展目標HADOOP生態(tài)系統(tǒng)(1)實時應(yīng)用場景(0~5s):Storm、S4等;(2)交互式場景(5s~1m):這種場景通常能要求必須支持SQL,則可行系統(tǒng)有:Cloudera
Impala、Apache
Drill、Shark等;(3)非交互式場景(1m~1h):通常運行時間較長,處理數(shù)據(jù)量較大,對容錯性和擴展性要求較高,可行系統(tǒng)有:MapReduce、Hive、Pig、Stinger等;(4)批處理場景(1h+):通常運行時間很長,處理數(shù)據(jù)量很大,對容錯性和擴展性要
求很高,可行系統(tǒng)有:MapReduce、Hive、Pig、Stinger等。7ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一·發(fā)展企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一HADOOP廠商Hadoop處于近時間的大數(shù)據(jù)革命的風(fēng)暴眼,在Hadoop取得成功的同時也促使主流市場對其穩(wěn)定性、成熟的管理,豐富的SQL環(huán)境等提出更高要求,于是Hadoop廠商通過技術(shù)創(chuàng)新各顯神通。8ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一HAD企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一物理上的Hadoop集群9ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一物理上企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一邏輯部署的Hadoop集群10ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一邏輯部企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一簡介:
江西電信Hadoop批處理平臺共由62臺PC服務(wù)器構(gòu)成,
形成物理上獨立的3個RACK,按照功能角色分組,主控
節(jié)點、數(shù)據(jù)節(jié)點、Hive接入
節(jié)點、元數(shù)據(jù)節(jié)點、監(jiān)控告警節(jié)點和ETL節(jié)點。主控節(jié)點6臺
(2臺Namenode、1臺
Jobtracker、3臺
Zookeeper)數(shù)據(jù)節(jié)點56臺江西電信物理部署的Hadoop集群11ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一簡介:12企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一第二篇HDFS一:
HDFS簡介二:
HDFS
架構(gòu)三:
漫畫HDFS之讀寫機制四:
漫畫HDFS之容錯性五:
漫畫HDFS之復(fù)制策略12ppt課件12把信息化打造成為中國電信企業(yè)核心競爭力之一第二篇HDFS企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一1 HDFS簡介HDFS(HADOOP
DISTRIBUTEDFILESYSTEM),是一個分布式文件系統(tǒng)。它是谷歌的GFS提出之后出現(xiàn)的一種用戶級文件系統(tǒng)。有一定的容錯性,能提供高吞吐量的數(shù)據(jù)訪問,適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。HDFS
提供了一個高度容錯性和高吞吐量的海量數(shù)據(jù)存儲解決方案13ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一1 H企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一2
HDFS
架構(gòu)Block:大文件的存儲會被分割為多個block進行存儲。默認64MB,每一個blok會在多個datanode上存儲多份副本,默認3份基本概念Namenode:主要負責(zé)存儲一些metadata信息,主要包括文件目錄、block和文件對應(yīng)關(guān)系,以及block和datanote的對應(yīng)關(guān)系Datanode:負責(zé)存儲數(shù)據(jù),數(shù)據(jù)以block的形式存在14ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一2H企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一3
HDFS
之漫畫讀寫15ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一3H企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一3
HDFS
之漫畫讀寫(續(xù))16ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一3H企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一3
HDFS
之漫畫讀寫17ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一3H企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一3
HDFS
之漫畫讀寫18ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一3H企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一4
HDFS
之漫畫容錯19ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一4H企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一4
HDFS
之漫畫容錯20ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一4H企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一4
HDFS
之漫畫容錯21ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一4H企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一4
HDFS
之漫畫容錯22ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一4H企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一5
HDFS
之漫畫復(fù)制策略23ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一5H24企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一第二篇
MapReduce一:MapReduce基礎(chǔ)二:MapReduce優(yōu)劣三:MapReduce工作原理24ppt課件24把信息化打造成為中國電信企業(yè)核心競爭力之一第二篇Map企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一1
MapReduce基礎(chǔ)MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集的并行計算。核心操作由"Map(映射)"和"Reduce(歸約)"組成,極大地方便了編程人員在不會分布式并行編程的情況下,將自己的程序運行在分布式系統(tǒng)上典型的MapReduce過程可以細分為Input(Split)、Mappers、(Shuffle/Partition/Sort)、Reducers和Output等階段25ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一1M企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一1
MapReduce示例1.輸入端根據(jù)輸入文本大小進行切片形成適合Map處理的數(shù)據(jù)片2.分片后的數(shù)據(jù)申請Map資源,執(zhí)行本地單詞映射操作3.通過交換將map生成的結(jié)果按照單詞進行歸并重組4.重組后的結(jié)果,申請Reduce資源,進行單詞的合并統(tǒng)計5.對Reduce的結(jié)果進行記錄合并生成輸出文件MapReduce過程示例?
對輸入的文本進行單詞統(tǒng)計?
對輸入的文本進行單詞統(tǒng)計26ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一1M企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一2
MapReduce
執(zhí)行過程從MapReduce在整個Hadoop框架的位置可以看出作為Hadoop最成熟
的批處理框架,MapReduce起到承
上啟下的作用,一方面可以操作
HDFS中的數(shù)據(jù),另一方面可以被封
裝,提供Hive、Pig這樣的上層組件的調(diào)用27ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一2M企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一MapReduce優(yōu)劣MapReduce的缺點? 通過MapReduce這個分布式處理框架,不僅能用于處理大規(guī)模數(shù)據(jù),而且能將很多繁瑣的細節(jié)隱藏起來,比如,自動并行化、負載均衡和災(zāi)備管理等,這樣將極大地簡化開發(fā)者工作? MapReduce的伸縮性非常好,也就是說,每增加一臺服務(wù)器,其就能將差不多的計算能力接入到集群中,而過去的大多數(shù)分布式處理框架,在伸縮性方面都與MapReduce相差甚遠。MapReduce的缺點? MapReduce最大的不足則在于,其不適應(yīng)實時應(yīng)用的需求,目前還無法滿足用戶交互式的需求。28ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一Map企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一3
MapReduce+YARN29ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一3M30企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一第四篇
Hadoop常用組件簡介:Hadoop常用組件——Hbase簡介:
Hadoop常用組件——Hive簡介:
Hadoop常用組件——Pig簡介:Hadoop常用組件——Zookeeper簡介:Hadoop常用組件——Sqoop簡介:Hadoop常用組件——Hue簡介30ppt課件30把信息化打造成為中國電信企業(yè)核心競爭力之一第四篇Had企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一1
Hbase簡介HBase是一個分布式的、多版本的、面向列的開源數(shù)據(jù)庫·
利用Hadoop
HDFS作為其文件存儲系統(tǒng),提供高可靠性、高性能、列存儲、可伸縮、實時讀寫的數(shù)據(jù)庫系統(tǒng)利用Hadoop
MapReduce來處理HBase中的海量數(shù)據(jù)利用Zookeeper作為協(xié)同服務(wù)31ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一1H企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一HBase
簡介(續(xù))?
大:一個表可以有上億行,上百萬列?
面向列:面向列(族)的存儲和權(quán)限控制,列(族)獨立檢索?
稀疏:對于為空的列,并不占用存儲空間,因此,表可以設(shè)計的非常稀疏?
多版本:每條記錄中的數(shù)據(jù)可以有多個版本?
無類型:存在HBase中的數(shù)據(jù)都是字符串,無其他類型32ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一HBa企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一HBase與RDBMS對比Hbase的優(yōu)點y1
列的可以動態(tài)增加,并且列為空就不存儲數(shù)據(jù),節(jié)省存儲空間.y2
可以自動切分數(shù)據(jù),使得數(shù)據(jù)存儲自動具有水平擴展.y3
可以提供高并發(fā)讀寫操作的支持Hbase的潛在缺點y1
不能支持條件查詢,只支持按照Row
key來查詢y2
暫時不能支持Master
server的故障切換,當(dāng)Master宕機后,整個存儲系統(tǒng)就會掛掉HBaseRDBMS數(shù)據(jù)類型只有字符串豐富的數(shù)據(jù)類型數(shù)據(jù)操作簡單的增刪改查各種各樣的函數(shù),表連接存儲模式基于列存儲基于表格結(jié)構(gòu)和行存儲數(shù)據(jù)保護更新后舊版本仍然會保留替換可伸縮性輕易的進行增加節(jié)點,兼容性高需要中間層,犧牲功能33ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一HBa企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一2
HBase
體系結(jié)構(gòu)34ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一2H企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一Hbase應(yīng)用場景成熟的數(shù)據(jù)分析主題,業(yè)務(wù)場景簡單,不需要關(guān)系數(shù)據(jù)庫中很多特性,查詢模式已經(jīng)確定并且不易改變傳統(tǒng)的關(guān)系型數(shù)據(jù)庫已經(jīng)無法承受負荷,高速插入,有大量讀取清單的需求,并且有快速隨機訪問的需求適合海量的,但是同時也是簡單的操作,具備低延時的數(shù)據(jù)返回,比如說key-value的操作,是生產(chǎn)環(huán)境對外訪問可行的方式海量數(shù)據(jù)存儲的驅(qū)使,具備動態(tài)擴展系統(tǒng)容量的需求35ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一Hba企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一Hadoop常用組件——Hive簡介Hive是基于Hadoop的一個數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供完整的類sql查詢功能,可以將類sql語句轉(zhuǎn)換為MapReduce任務(wù)進行運行。
其優(yōu)點是學(xué)習(xí)成本低,可以通過類SQL語句快速實現(xiàn)簡單的MapReduce統(tǒng)計,不必開發(fā)專門的MapReduce應(yīng)用,十分適合數(shù)據(jù)倉庫的統(tǒng)計分析。36ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一Had企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一當(dāng)前數(shù)據(jù)分析方法百萬級千萬級億萬級以上Unix/Linux工具
awk、grep、sort、join等RDBMS,如MysqlPerl、python、java等RDBMS,如
Mysql、Mongodb
Oracle、DB2等· 分布式:Oracle
RAC、GreenplumHadoop(開源免費)
MPP主要基于單機計算基于集群并行計算37ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一當(dāng)前數(shù)企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一HIVE
VS
SQL數(shù)據(jù)存儲 HDFS/HBase RawDevice/Loacl
FS數(shù)據(jù)格式 用戶自定義 系統(tǒng)決定數(shù)據(jù)更新 不支持(覆蓋之前數(shù)據(jù)) 支持索引 有(0.8版本新增) 有執(zhí)行 MapReduce Executor執(zhí)行延遲 高 低可擴展性 高(UDF、UDAF、UDTF) 低數(shù)據(jù)規(guī)模 大(數(shù)據(jù)大于TB) 小數(shù)據(jù)檢查 讀時模式 寫時模式? 列分隔符(通常為空格、”\t”、”\x001″)? 行分隔符(”\n”)? 隨時間變化的如MYSQL:MyISAM、InnoDB、MEMORY…SQL:? 需要經(jīng)常進行修改的,面向用戶的數(shù)據(jù)添加數(shù)據(jù),HQLSQLHIVE:
不支持? 建針沒立有在數(shù)索據(jù)H引a倉,do庫需o應(yīng)p要之用掃上設(shè)描的計整,的個可,表擴數(shù)(展據(jù)或性倉者與庫分h是區(qū)a讀d)o操o,p作因一遠此致遠延多遲于較寫高操(作在0.8.X版之后加入了索?引世)數(shù)界據(jù)上倉最庫大的的特性Ha是do:op
集群在
Yahoo!,2009年的規(guī)模在
4000臺節(jié)點左右M文a件pR存e?儲du格c面e式向本,主身默題具認有有較T高ex的tF延ile遲、(Se分qu鐘en級ce)File、RCFileSQL: ? 集成的SQL
:?? 不數(shù)同據(jù)的庫數(shù)由據(jù)于庫A有CI不D
同語的義存的儲嚴引格擎限。制對于海量數(shù)據(jù)的處理,數(shù)據(jù)庫能力較弱? 目前最先進的并行數(shù)據(jù)庫
Oracle
在理論上的擴展能力也只有
100
臺左右? 對于海量數(shù)據(jù)的處理,數(shù)據(jù)庫能力較弱INSERT
INTO
...
VALUESUPDATE
...
SET
修改數(shù)據(jù)38ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一HIV企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一Pig是Hadoop上層的衍生架構(gòu),對比Hive(一種聲明式的語言),Pig是一種過程語言,類似于存儲過程一步一步的對數(shù)據(jù)進行轉(zhuǎn)化Pig對MapReduce算法實現(xiàn)了一套shell,類似SQL語句,在Pig中稱為Pig
Latin,可以對數(shù)據(jù)進行排序、過濾、求和、分組(group
by)、關(guān)聯(lián)(Joining)等操作Pig也可以由用戶自定義一些函數(shù)對數(shù)據(jù)集進行操作,也就是傳說中的UDF(user-defined
functions)。Hadoop常用組件——Pig簡介39ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一Pig企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一Pig和Hive的對比特性HivePig語言SQL-likePigLatin模式是(嚴格)是(不嚴格)分區(qū)是否服務(wù)可選(Thrift)否自定義函數(shù)是(Java)是(Java)用戶序列化/非序列化是是是否可以訪問DFS是(不嚴格)是(嚴格)Join/Order/Sort是是Shell是是流計算是是Web接口是否JDBC/ODBC是(有限制)否40ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一Pig企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一Pig的設(shè)計哲學(xué)?
Pig語言可以操縱各種類型的數(shù)據(jù),無論數(shù)據(jù)是否是元數(shù)據(jù)、是否結(jié)構(gòu)化,都沒有問題,甚至可以擴展到對鍵/值
數(shù)據(jù)的操作Pigseatanything?
Pig設(shè)計是獨立成體系的,可以在Hadoop上的HDFS上實現(xiàn)運行,也可以在其它的文件系統(tǒng)運行Pig
liveanywhere?
Pig可以快速的處理數(shù)據(jù),今后對pig的持續(xù)改進,將不會讓它為了實現(xiàn)某種功能而降低性能,目的就是為了讓Pig可以自由的飛翔Pigsfly?
Pig被設(shè)計為易于操作和修改,用戶可以自己定義函數(shù)實現(xiàn)很多數(shù)據(jù)操作的功能,為了更好的讓數(shù)據(jù)操作函數(shù)共享,pig發(fā)起了一個全球的pig
bank的計劃,上面會有全球pig開發(fā)工程師共享的數(shù)據(jù)操作函數(shù),這些函數(shù)可以免費共享和使用PigsaredomesticanimalsPig什么都能吃Pig
哪兒都能活Pig哪兒都能養(yǎng)讓pig飛翔41ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一Pig企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一ZooKeeper是一個針對大型分布式系統(tǒng)的可靠協(xié)調(diào)系統(tǒng),提供的功能包括:配置維護、名字服務(wù)、分布式同步、組服務(wù)等。ZooKeeper的目標就是封裝好復(fù)雜易出錯的關(guān)鍵服務(wù),將簡單易用的接口和性能高效、功能穩(wěn)定的系統(tǒng)提供給用戶。Hadoop常用組件——ZooKeeper簡介42ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一Zoo企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一sqoop主要用來在Hadoop和關(guān)系數(shù)據(jù)庫中傳遞數(shù)據(jù)。通過sqoop,我們可以方便的將數(shù)據(jù)從關(guān)系數(shù)據(jù)庫導(dǎo)入到HDFS,或者將數(shù)據(jù)從HDFS導(dǎo)出到關(guān)系數(shù)據(jù)庫。Hadoop常用組件——Sqoop簡介sqoop架構(gòu)非常簡單,其整合了Hive、Hbase和Oozie,通過map-reduce任務(wù)來傳輸數(shù)據(jù),從而提供并發(fā)特性和容錯。sqoop架構(gòu)非常簡單,其整合了Hive、Hbase和Oozie,通過map-reduce任務(wù)來傳輸數(shù)據(jù),從而提供并發(fā)特性和容錯。43ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一sqo企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一推薦采用:Pentaho
DataIntegrate中的大數(shù)據(jù)組件集成了
Sqoop,使得我們可以在界面通
過拖拽使用sqoop組件,提高大家的開發(fā)效率Pentaho——Sqoop的拓展44ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一推薦采企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一Hue是專門為運營和開發(fā)人員開發(fā)的,執(zhí)行Hadoop相關(guān)應(yīng)用的圖形化用戶界面。Hue程序被整合到一個類似桌面的環(huán)境,以web程序的形式發(fā)布,用戶可以通過B/S方式使用Hadoop常用組件——Hue簡介45ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一Hue企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一江西電信Hue部署y推薦:數(shù)據(jù)分析人員通過Hue來使用Hive可視化的界面和說明可以使沒接觸過Hadoop的分析人員迅速上手46ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一江西電企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一企業(yè)級hadoop平臺應(yīng)用模式共勉:
人類從依靠自身判斷做決定到依靠數(shù)據(jù)做決定的轉(zhuǎn)變,是大數(shù)據(jù)做出的最大貢獻之一,
也是我們?yōu)橹畩^斗的目標。47ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一企業(yè)級嗎?fMiE謝謝才巴,信息化打造成為中國電信企業(yè)核心競爭力之一PDF
created
with
pdfFactoryPro
trial
version
lC!!ww.od仔actolV.com48ppt課件嗎?fMiE謝謝才巴,信息化打造成為中國電信企業(yè)核心競爭力之企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一Hadoop基礎(chǔ)知識培訓(xùn)江西電信大數(shù)據(jù)支撐團隊2014年中國電信大數(shù)據(jù)技術(shù)與應(yīng)用培訓(xùn)49ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一Had2企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一主要內(nèi)容第一篇
Hadoop綜述·
第二篇
HDFS
分布式文件系統(tǒng)第三篇
MapReduce
分布式計算框架·
第四篇
常用Hadoop組件介紹50ppt課件2把信息化打造成為中國電信企業(yè)核心競爭力之一主要內(nèi)容第一篇3企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一第一篇Hadoop綜述:
什么是Hadoop:
Hadoop生態(tài)系統(tǒng):
Hadoop的廠商:
Hadoop的部署51ppt課件3把信息化打造成為中國電信企業(yè)核心競爭力之一第一篇Hadoo企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一Hadoop是什么?Hadoop是Apache基金會下的一個開源分布式計算平臺,以分布式文件系統(tǒng)(HDFS)和分布式計算框架(MapReduce)為核心,為用戶提供了底層細節(jié)透明的分布式基礎(chǔ)設(shè)施。yHDFS的高容錯性、高伸縮性等優(yōu)點,允許用戶將Hadoop部署
在廉價的硬件上,構(gòu)建分布式系統(tǒng)。yMapReduce分布式計算框架允許用戶在不了解分布式底層細節(jié)
的情況下開發(fā)并行、分布的應(yīng)用程序,利用大規(guī)模計算資源,解決傳統(tǒng)高性能單機無法解決的大數(shù)據(jù)處理問題HadoopNutchLucene高性能全文索引工具包高性能搜索引擎工具包版本演進對應(yīng)Cloudera公司的CDH3u5對應(yīng)Cloudera
公司的CDH452ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一Had企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一Hadoop的特點Hadoop運用于海量數(shù)據(jù)處理,主要有如下幾個優(yōu)勢:方便Hadoop可以運行在一般商業(yè)機器(X86服務(wù)器)構(gòu)成的大型集群上彈性Hadoop通過增加集群節(jié)點,可以線性擴展以處理更大的數(shù)據(jù)集;同時在負載下降時,也可減少節(jié)點,以便高效使用資源。健壯Hadoop設(shè)計之初,將故障檢測和自動恢復(fù)作為設(shè)計目標,可以從容處理通用計算平臺上出現(xiàn)的硬件失效情況。簡單Hadoop允許用戶快速編寫出高效的并行分布式代碼。53ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一Had企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一HADOOP生態(tài)系統(tǒng)y經(jīng)過幾年的快速發(fā)展,Hadoop現(xiàn)在已經(jīng)發(fā)展成為包含多個相關(guān)項目的軟件生態(tài)系統(tǒng),成為大數(shù)據(jù)處理技術(shù)的事實標準,目前典型的Hadoop生態(tài)系統(tǒng)如下所示:54ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一HAD企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一·發(fā)展目標HADOOP生態(tài)系統(tǒng)(1)實時應(yīng)用場景(0~5s):Storm、S4等;(2)交互式場景(5s~1m):這種場景通常能要求必須支持SQL,則可行系統(tǒng)有:Cloudera
Impala、Apache
Drill、Shark等;(3)非交互式場景(1m~1h):通常運行時間較長,處理數(shù)據(jù)量較大,對容錯性和擴展性要求較高,可行系統(tǒng)有:MapReduce、Hive、Pig、Stinger等;(4)批處理場景(1h+):通常運行時間很長,處理數(shù)據(jù)量很大,對容錯性和擴展性要
求很高,可行系統(tǒng)有:MapReduce、Hive、Pig、Stinger等。55ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一·發(fā)展企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一HADOOP廠商Hadoop處于近時間的大數(shù)據(jù)革命的風(fēng)暴眼,在Hadoop取得成功的同時也促使主流市場對其穩(wěn)定性、成熟的管理,豐富的SQL環(huán)境等提出更高要求,于是Hadoop廠商通過技術(shù)創(chuàng)新各顯神通。56ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一HAD企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一物理上的Hadoop集群57ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一物理上企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一邏輯部署的Hadoop集群58ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一邏輯部企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一簡介:
江西電信Hadoop批處理平臺共由62臺PC服務(wù)器構(gòu)成,
形成物理上獨立的3個RACK,按照功能角色分組,主控
節(jié)點、數(shù)據(jù)節(jié)點、Hive接入
節(jié)點、元數(shù)據(jù)節(jié)點、監(jiān)控告警節(jié)點和ETL節(jié)點。主控節(jié)點6臺
(2臺Namenode、1臺
Jobtracker、3臺
Zookeeper)數(shù)據(jù)節(jié)點56臺江西電信物理部署的Hadoop集群59ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一簡介:12企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一第二篇HDFS一:
HDFS簡介二:
HDFS
架構(gòu)三:
漫畫HDFS之讀寫機制四:
漫畫HDFS之容錯性五:
漫畫HDFS之復(fù)制策略60ppt課件12把信息化打造成為中國電信企業(yè)核心競爭力之一第二篇HDFS企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一1 HDFS簡介HDFS(HADOOP
DISTRIBUTEDFILESYSTEM),是一個分布式文件系統(tǒng)。它是谷歌的GFS提出之后出現(xiàn)的一種用戶級文件系統(tǒng)。有一定的容錯性,能提供高吞吐量的數(shù)據(jù)訪問,適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。HDFS
提供了一個高度容錯性和高吞吐量的海量數(shù)據(jù)存儲解決方案61ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一1 H企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一2
HDFS
架構(gòu)Block:大文件的存儲會被分割為多個block進行存儲。默認64MB,每一個blok會在多個datanode上存儲多份副本,默認3份基本概念Namenode:主要負責(zé)存儲一些metadata信息,主要包括文件目錄、block和文件對應(yīng)關(guān)系,以及block和datanote的對應(yīng)關(guān)系Datanode:負責(zé)存儲數(shù)據(jù),數(shù)據(jù)以block的形式存在62ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一2H企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一3
HDFS
之漫畫讀寫63ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一3H企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一3
HDFS
之漫畫讀寫(續(xù))64ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一3H企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一3
HDFS
之漫畫讀寫65ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一3H企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一3
HDFS
之漫畫讀寫66ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一3H企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一4
HDFS
之漫畫容錯67ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一4H企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一4
HDFS
之漫畫容錯68ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一4H企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一4
HDFS
之漫畫容錯69ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一4H企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一4
HDFS
之漫畫容錯70ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一4H企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一5
HDFS
之漫畫復(fù)制策略71ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一5H24企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一第二篇
MapReduce一:MapReduce基礎(chǔ)二:MapReduce優(yōu)劣三:MapReduce工作原理72ppt課件24把信息化打造成為中國電信企業(yè)核心競爭力之一第二篇Map企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一1
MapReduce基礎(chǔ)MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集的并行計算。核心操作由"Map(映射)"和"Reduce(歸約)"組成,極大地方便了編程人員在不會分布式并行編程的情況下,將自己的程序運行在分布式系統(tǒng)上典型的MapReduce過程可以細分為Input(Split)、Mappers、(Shuffle/Partition/Sort)、Reducers和Output等階段73ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一1M企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一1
MapReduce示例1.輸入端根據(jù)輸入文本大小進行切片形成適合Map處理的數(shù)據(jù)片2.分片后的數(shù)據(jù)申請Map資源,執(zhí)行本地單詞映射操作3.通過交換將map生成的結(jié)果按照單詞進行歸并重組4.重組后的結(jié)果,申請Reduce資源,進行單詞的合并統(tǒng)計5.對Reduce的結(jié)果進行記錄合并生成輸出文件MapReduce過程示例?
對輸入的文本進行單詞統(tǒng)計?
對輸入的文本進行單詞統(tǒng)計74ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一1M企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一2
MapReduce
執(zhí)行過程從MapReduce在整個Hadoop框架的位置可以看出作為Hadoop最成熟
的批處理框架,MapReduce起到承
上啟下的作用,一方面可以操作
HDFS中的數(shù)據(jù),另一方面可以被封
裝,提供Hive、Pig這樣的上層組件的調(diào)用75ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一2M企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一MapReduce優(yōu)劣MapReduce的缺點? 通過MapReduce這個分布式處理框架,不僅能用于處理大規(guī)模數(shù)據(jù),而且能將很多繁瑣的細節(jié)隱藏起來,比如,自動并行化、負載均衡和災(zāi)備管理等,這樣將極大地簡化開發(fā)者工作? MapReduce的伸縮性非常好,也就是說,每增加一臺服務(wù)器,其就能將差不多的計算能力接入到集群中,而過去的大多數(shù)分布式處理框架,在伸縮性方面都與MapReduce相差甚遠。MapReduce的缺點? MapReduce最大的不足則在于,其不適應(yīng)實時應(yīng)用的需求,目前還無法滿足用戶交互式的需求。76ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一Map企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一3
MapReduce+YARN77ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一3M30企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一第四篇
Hadoop常用組件簡介:Hadoop常用組件——Hbase簡介:
Hadoop常用組件——Hive簡介:
Hadoop常用組件——Pig簡介:Hadoop常用組件——Zookeeper簡介:Hadoop常用組件——Sqoop簡介:Hadoop常用組件——Hue簡介78ppt課件30把信息化打造成為中國電信企業(yè)核心競爭力之一第四篇Had企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一1
Hbase簡介HBase是一個分布式的、多版本的、面向列的開源數(shù)據(jù)庫·
利用Hadoop
HDFS作為其文件存儲系統(tǒng),提供高可靠性、高性能、列存儲、可伸縮、實時讀寫的數(shù)據(jù)庫系統(tǒng)利用Hadoop
MapReduce來處理HBase中的海量數(shù)據(jù)利用Zookeeper作為協(xié)同服務(wù)79ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一1H企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一HBase
簡介(續(xù))?
大:一個表可以有上億行,上百萬列?
面向列:面向列(族)的存儲和權(quán)限控制,列(族)獨立檢索?
稀疏:對于為空的列,并不占用存儲空間,因此,表可以設(shè)計的非常稀疏?
多版本:每條記錄中的數(shù)據(jù)可以有多個版本?
無類型:存在HBase中的數(shù)據(jù)都是字符串,無其他類型80ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一HBa企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一HBase與RDBMS對比Hbase的優(yōu)點y1
列的可以動態(tài)增加,并且列為空就不存儲數(shù)據(jù),節(jié)省存儲空間.y2
可以自動切分數(shù)據(jù),使得數(shù)據(jù)存儲自動具有水平擴展.y3
可以提供高并發(fā)讀寫操作的支持Hbase的潛在缺點y1
不能支持條件查詢,只支持按照Row
key來查詢y2
暫時不能支持Master
server的故障切換,當(dāng)Master宕機后,整個存儲系統(tǒng)就會掛掉HBaseRDBMS數(shù)據(jù)類型只有字符串豐富的數(shù)據(jù)類型數(shù)據(jù)操作簡單的增刪改查各種各樣的函數(shù),表連接存儲模式基于列存儲基于表格結(jié)構(gòu)和行存儲數(shù)據(jù)保護更新后舊版本仍然會保留替換可伸縮性輕易的進行增加節(jié)點,兼容性高需要中間層,犧牲功能81ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一HBa企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一2
HBase
體系結(jié)構(gòu)82ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一2H企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一Hbase應(yīng)用場景成熟的數(shù)據(jù)分析主題,業(yè)務(wù)場景簡單,不需要關(guān)系數(shù)據(jù)庫中很多特性,查詢模式已經(jīng)確定并且不易改變傳統(tǒng)的關(guān)系型數(shù)據(jù)庫已經(jīng)無法承受負荷,高速插入,有大量讀取清單的需求,并且有快速隨機訪問的需求適合海量的,但是同時也是簡單的操作,具備低延時的數(shù)據(jù)返回,比如說key-value的操作,是生產(chǎn)環(huán)境對外訪問可行的方式海量數(shù)據(jù)存儲的驅(qū)使,具備動態(tài)擴展系統(tǒng)容量的需求83ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一Hba企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一Hadoop常用組件——Hive簡介Hive是基于Hadoop的一個數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供完整的類sql查詢功能,可以將類sql語句轉(zhuǎn)換為MapReduce任務(wù)進行運行。
其優(yōu)點是學(xué)習(xí)成本低,可以通過類SQL語句快速實現(xiàn)簡單的MapReduce統(tǒng)計,不必開發(fā)專門的MapReduce應(yīng)用,十分適合數(shù)據(jù)倉庫的統(tǒng)計分析。84ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一Had企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一當(dāng)前數(shù)據(jù)分析方法百萬級千萬級億萬級以上Unix/Linux工具
awk、grep、sort、join等RDBMS,如MysqlPerl、python、java等RDBMS,如
Mysql、Mongodb
Oracle、DB2等· 分布式:Oracle
RAC、GreenplumHadoop(開源免費)
MPP主要基于單機計算基于集群并行計算85ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一當(dāng)前數(shù)企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一HIVE
VS
SQL數(shù)據(jù)存儲 HDFS/HBase RawDevice/Loacl
FS數(shù)據(jù)格式 用戶自定義 系統(tǒng)決定數(shù)據(jù)更新 不支持(覆蓋之前數(shù)據(jù)) 支持索引 有(0.8版本新增) 有執(zhí)行 MapReduce Executor執(zhí)行延遲 高 低可擴展性 高(UDF、UDAF、UDTF) 低數(shù)據(jù)規(guī)模 大(數(shù)據(jù)大于TB) 小數(shù)據(jù)檢查 讀時模式 寫時模式? 列分隔符(通常為空格、”\t”、”\x001″)? 行分隔符(”\n”)? 隨時間變化的如MYSQL:MyISAM、InnoDB、MEMORY…SQL:? 需要經(jīng)常進行修改的,面向用戶的數(shù)據(jù)添加數(shù)據(jù),HQLSQLHIVE:
不支持? 建針沒立有在數(shù)索據(jù)H引a倉,do庫需o應(yīng)p要之用掃上設(shè)描的計整,的個可,表擴數(shù)(展據(jù)或性倉者與庫分h是區(qū)a讀d)o操o,p作因一遠此致遠延多遲于較寫高操(作在0.8.X版之后加入了索?引世)數(shù)界據(jù)上倉最庫大的的特性Ha是do:op
集群在
Yahoo!,2009年的規(guī)模在
4000臺節(jié)點左右M文a件pR存e?儲du格c面e式向本,主身默題具認有有較T高ex的tF延ile遲、(Se分qu鐘en級ce)File、RCFileSQL: ? 集成的SQL
:?? 不數(shù)同據(jù)的庫數(shù)由據(jù)于庫A有CI不D
同語的義存的儲嚴引格擎限。制對于海量數(shù)據(jù)的處理,數(shù)據(jù)庫能力較弱? 目前最先進的并行數(shù)據(jù)庫
Oracle
在理論上的擴展能力也只有
100
臺左右? 對于海量數(shù)據(jù)的處理,數(shù)據(jù)庫能力較弱INSERT
INTO
...
VALUESUPDATE
...
SET
修改數(shù)據(jù)86ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一HIV企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一Pig是Hadoop上層的衍生架構(gòu),對比Hive(一種聲明式的語言),Pig是一種過程語言,類似于存儲過程一步一步的對數(shù)據(jù)進行轉(zhuǎn)化Pig對MapReduce算法實現(xiàn)了一套shell,類似SQL語句,在Pig中稱為Pig
Latin,可以對數(shù)據(jù)進行排序、過濾、求和、分組(group
by)、關(guān)聯(lián)(Joining)等操作Pig也可以由用戶自定義一些函數(shù)對數(shù)據(jù)集進行操作,也就是傳說中的UDF(user-defined
functions)。Hadoop常用組件——Pig簡介87ppt課件企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心競爭力之一Pig企業(yè)信息化部把信息化打造成為中國電信企業(yè)核心
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 電商物流的綠色包裝與可持續(xù)發(fā)展案例
- 寶石礦區(qū)的智能化開采與資源管理考核試卷
- 現(xiàn)代職教實訓(xùn)室的教學(xué)評價與反饋機制
- 生態(tài)旅游的未來發(fā)展及其對環(huán)境的影響
- 2025-2030年可拆卸式SSD存儲解決方案企業(yè)制定與實施新質(zhì)生產(chǎn)力戰(zhàn)略研究報告
- 2025-2030年打印機文檔掃描企業(yè)制定與實施新質(zhì)生產(chǎn)力戰(zhàn)略研究報告
- 2025-2030年商用快速煮飯機行業(yè)深度調(diào)研及發(fā)展戰(zhàn)略咨詢報告
- 2025-2030年復(fù)古風(fēng)金屬蘸水筆企業(yè)制定與實施新質(zhì)生產(chǎn)力戰(zhàn)略研究報告
- 2025-2030年即食煎餅果子脆片行業(yè)跨境出海戰(zhàn)略研究報告
- 2025-2030年手持式震動按摩球行業(yè)深度調(diào)研及發(fā)展戰(zhàn)略咨詢報告
- 2024年計算機二級WPS考試題庫(共380題含答案)
- 【履職清單】2024版安全生產(chǎn)責(zé)任體系重點崗位履職清單
- 2022年全國醫(yī)學(xué)博士英語統(tǒng)一考試試題
- 學(xué)校工作總結(jié)和存在的不足及整改措施
- 《工業(yè)自動化技術(shù)》課件
- (績效考核)鉗工技能鑒定考核試題庫
- 215kWh工商業(yè)液冷儲能電池一體柜用戶手冊
- 裝卸工安全培訓(xùn)課件
- 腿部經(jīng)絡(luò)課件教學(xué)課件
- 中小學(xué)校崗位安全工作指南
- 小數(shù)加減乘除計算題大全(300題大全)
評論
0/150
提交評論