大數(shù)據(jù)入門完_第1頁
大數(shù)據(jù)入門完_第2頁
大數(shù)據(jù)入門完_第3頁
大數(shù)據(jù)入門完_第4頁
大數(shù)據(jù)入門完_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)入門CVJhadoop家族創(chuàng)始人:DougCuttingHadoopCommonHadoop體系最底層的一個模塊,為Hadoop各子項目提供各種工具,如:配置文件和日志操作等。HDFS:

是Hadoop應(yīng)用程序中主要的分布式儲存系統(tǒng),HDFS集群包含了一個NameNode(主節(jié)點),這個節(jié)點負(fù)責(zé)管理所有文件系統(tǒng)的元數(shù)據(jù)及存儲了真實數(shù)據(jù)的DataNode(數(shù)據(jù)節(jié)點,可以有很多)。HDFS針對海量數(shù)據(jù)所設(shè)計,所以相比傳統(tǒng)文件系統(tǒng)在大批量小文件上的優(yōu)化,HDFS優(yōu)化的則是對小批量大型文件的訪問和存儲。MapReduce

是一個軟件框架,用以輕松編寫處理海量(TB級)數(shù)據(jù)的并行應(yīng)用程序,以可靠和容錯的方式連接大型集群中上萬個節(jié)點(商用硬件)MapReduce是hadoop的核心組件之一,hadoop要分布式包括兩部分,一是分布式文件系統(tǒng)hdfs,一部是分布式計算框,就是mapreduce,缺一不可,也就是說,可以通過mapreduce很容易在hadoop平臺上進(jìn)行分布式的計算編程。HiveApacheHive是Hadoop的一個數(shù)據(jù)倉庫系統(tǒng),主要提供以下功能:它提供了一系列的工具,可用來對數(shù)據(jù)進(jìn)行提取/轉(zhuǎn)化/加載(ETL);是一種可以存儲、查詢和分析存儲在HDFS(或者HBase)中的大規(guī)模數(shù)據(jù)的機制;Hive提供完整的SQL查詢功能——HiveQL語言,同時當(dāng)使用這個語言表達(dá)一個邏輯變得低效和繁瑣時,HiveQL還允許傳統(tǒng)的Map/Reduce程序員使用自己定制的Mapper和Reducer。很多組織把它用作一個通用的、可伸縮的數(shù)據(jù)處理平臺。PigApachePig是一個用于大型數(shù)據(jù)集分析的平臺,它包含了一個用于數(shù)據(jù)分析應(yīng)用的高級語言以及評估這些應(yīng)用的基礎(chǔ)設(shè)施。Pig應(yīng)用的閃光特性在于它們的結(jié)構(gòu)經(jīng)得起大量的并行,也就是說讓它們支撐起非常大的數(shù)據(jù)集。Pig的基礎(chǔ)設(shè)施層包含了產(chǎn)生Map-Reduce任務(wù)的編譯器。Pig的語言層當(dāng)前包含了一個原生語言——PigLatin,開發(fā)的初衷是易于編程和保證可擴展性。Pig是SQL-like語言,是在MapReduce上構(gòu)建的一種高級查詢語言,把一些運算編譯進(jìn)MapReduce模型的Map和Reduce中,并且用戶可以定義自己的功能。Yahoo網(wǎng)格運算部門開發(fā)的又一個克隆Google的項目Sawzall。PigHIVEPig簡單來講是為傳統(tǒng)數(shù)據(jù)庫工程師服務(wù)的,可以把sql轉(zhuǎn)換為MapReducePig是一種編程語言,Pig相比Hive相對輕量被設(shè)計為HDFS作為存儲被設(shè)計為HDFS作為存儲Hive的查詢語言HiveQL,是基于SQL的優(yōu)勢是相比于直接使用HadoopJavaAPIs可大幅削減代碼量,它簡化了Hadoop常見的工作任務(wù)要求所有數(shù)據(jù)必須存儲在表中,表必須有模式,而模式由Hive進(jìn)行管理。Pig可加載數(shù)據(jù)、表達(dá)轉(zhuǎn)換數(shù)據(jù)以及存儲最終結(jié)果,Pig內(nèi)置的操作使得半結(jié)構(gòu)化數(shù)據(jù)變得有意義不支持低時延查詢不支持低時延查詢HBaseApacheHBase是Hadoop數(shù)據(jù)庫,一個分布式、可擴展的大數(shù)據(jù)存儲。它提供了大數(shù)據(jù)集上隨機和實時的讀/寫訪問,并針對了商用服務(wù)器集群上的大型表格做出優(yōu)化——上百億行,上千萬列。其核心是GoogleBigtable論文的開源實現(xiàn),分布式列式存儲。就像Bigtable利用GFS(GoogleFileSystem)提供的分布式數(shù)據(jù)存儲一樣,它是ApacheHadoop在HDFS基礎(chǔ)上提供的一個類Bigatable。ZooKeeperZookeeper是Google的Chubby一個開源的實現(xiàn)。它是一個針對大型分布式系統(tǒng)的可靠協(xié)調(diào)系統(tǒng),提供的功能包括:配置維護(hù)、名字服務(wù)、分布式同步、組服務(wù)等。ZooKeeper的目標(biāo)就是封裝好復(fù)雜易出錯的關(guān)鍵服務(wù),將簡單易用的接口和性能高效、功能穩(wěn)定的系統(tǒng)提供給用戶。zookeeper的數(shù)據(jù)是存儲在內(nèi)存上的,Zookeeper實現(xiàn)了高性能,高可靠性,和有序的訪問。高性能保證了zookeeper能應(yīng)用在大型的分布式系統(tǒng)上。高可靠性保證它不會由于單一節(jié)點的故障而造成任何問題。有序的訪問能保證客戶端可以實現(xiàn)較為復(fù)雜的同步操作。zookeeper在Hadoop及hbase中具體作用Hadoop有NameNode,HBase有HMaster,為什么還需要zookeeper?一個Zookeeper的集群中,3個Zookeeper節(jié)點.一個leader,兩個follower的情況下,停掉leader,然后兩個follower選舉出一個leader.獲取的數(shù)據(jù)不變.我想Zookeeper能夠幫助Hadoop做到:Hadoop,使用Zookeeper的事件處理確保整個集群只有一個NameNode,存儲配置信息等.HBase,使用Zookeeper的事件處理確保整個集群只有一個HMaster,察覺HRegionServer聯(lián)機和宕機,存儲訪問控制列表等.SqoopSqoop是一個用來將Hadoop和關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)相互轉(zhuǎn)移的工具,可以將一個關(guān)系型數(shù)據(jù)庫中數(shù)據(jù)導(dǎo)入Hadoop的HDFS中,也可以將HDFS中數(shù)據(jù)導(dǎo)入關(guān)系型數(shù)據(jù)庫中。MahoutApacheMahout是個可擴展的機器學(xué)習(xí)和數(shù)據(jù)挖掘庫,當(dāng)前Mahout支持主要的4個用例:推薦挖掘:搜集用戶動作并以此給用戶推薦可能喜歡的事物。聚集:收集文件并進(jìn)行相關(guān)文件分組。分類:從現(xiàn)有的分類文檔中學(xué)習(xí),尋找文檔中的相似特征,并為無標(biāo)簽的文檔進(jìn)行正確的歸類。頻繁項集挖掘:將一組項分組,并識別哪些個別項會經(jīng)常一起出現(xiàn)。ChukwaApacheChukwa是個開源的數(shù)據(jù)收集系統(tǒng),用以監(jiān)視大型分布系統(tǒng)。建立于HDFS和Map/Reduce框架之上,繼承了Hadoop的可擴展性和穩(wěn)定性。Chukwa同樣包含了一個靈活和強大的工具包,用以顯示、監(jiān)視和分析結(jié)果,以保證數(shù)據(jù)的使用達(dá)到最佳效果。AmbariApacheAmbari是一個基于web的工具,用于配置、管理和監(jiān)視ApacheHadoop集群,支持HadoopHDFS,、HadoopMapReduce、Hive、HCatalog,、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari同樣還提供了集群狀況儀表盤,比如heatmaps和查看MapReduce、Pig、Hive應(yīng)用程序的能力,以友好的用戶界面對它們的性能特性進(jìn)行診斷。HCatalogApacheHCatalog是Hadoop建立數(shù)據(jù)的映射表和存儲管理服務(wù),它包括:

提供一個共享模式和數(shù)據(jù)類型機制。

提供一個抽象表,這樣用戶就不需要關(guān)注數(shù)據(jù)存儲的方式和地址。

為類似Pig、MapReduce及Hive這些數(shù)據(jù)處理工具提供互操作性。HCatalogApacheHCatalog是Hadoop建立數(shù)據(jù)的映射表和存儲管理服務(wù),它包括:

提供一個共享模式和數(shù)據(jù)類型機制。

提供一個抽象表,這樣用戶就不需要關(guān)注數(shù)據(jù)存儲的方式和地址。

為類似Pig、MapReduce及Hive這些數(shù)據(jù)處理工具提供互操作性。ClouderaCDHCloudera對hadoop做了相應(yīng)的改變。Cloudera公司的發(fā)行版,我們將該版本稱為CDH(ClouderaDistributionHadoop)。ClouderaFlumeFlume是Cloudera提供的日志收集系統(tǒng),F(xiàn)lume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);

Flume是Cloudera提供的一個高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng),F(xiàn)lume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時,F(xiàn)lume提供對數(shù)據(jù)進(jìn)行簡單處理,并寫到各種數(shù)據(jù)接受方(可定制)的能力。SparkSpark是一種與Hadoop相似的開源集群計算環(huán)境,但Spark啟用了內(nèi)存分布數(shù)據(jù)集,除了能夠提供交互式查詢外,它還可以優(yōu)化迭代工作負(fù)載。Spark是基于內(nèi)存的迭代計算框架,適用于需要多次操作特定數(shù)據(jù)集的應(yīng)用場合。需要反復(fù)操作的次數(shù)越多,所需讀取的數(shù)據(jù)量越大,受益越大,數(shù)據(jù)量小但是計算密集度較大的場合,受益就相對較小Storm是一個分布式的、容錯的實時計算系統(tǒng),可以簡單、可靠的處理大量的數(shù)據(jù)流,它被托管在GitHub上。Storm是由Bac

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論