Hadoop云計算平臺搭建最詳細(xì)過程_第1頁
Hadoop云計算平臺搭建最詳細(xì)過程_第2頁
Hadoop云計算平臺搭建最詳細(xì)過程_第3頁
Hadoop云計算平臺搭建最詳細(xì)過程_第4頁
Hadoop云計算平臺搭建最詳細(xì)過程_第5頁
已閱讀5頁,還剩5頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

-.z.Hadoop云計算平臺及相關(guān)組件搭**裝過程詳細(xì)教程——Hbase+Pig+Hive+Zookeeper+Ganglia+Chukwa+Eclipse等一.安裝環(huán)境簡介根據(jù)官網(wǎng),Hadoop已在linu*主機組成的集群系統(tǒng)上得到驗證,而windows平臺是作為開發(fā)平臺支持的,由于分布式操作尚未在windows平臺上充分測試,所以還不作為一個生產(chǎn)平臺。Windows下還需要安裝Cygwin,Cygwin是在windows平臺上運行的UNI*模擬環(huán)境,提供上述軟件之外的shell支持。實際條件下在windows系統(tǒng)下進(jìn)展Hadoop偽分布式安裝時,出現(xiàn)了許多未知問題。在linu*系統(tǒng)下安裝,以偽分布式進(jìn)展測試,然后再進(jìn)展完全分布式的實驗環(huán)境部署。Hadoop完全分布模式的網(wǎng)絡(luò)拓補圖如圖六所示:網(wǎng)絡(luò)拓補圖如六所示:圖六完全分布式網(wǎng)絡(luò)拓補圖硬件要求:搭建完全分布式環(huán)境需要假設(shè)干計算機集群,Master和Slaves處理器、存、硬盤等參數(shù)要求根據(jù)情況而定。軟件要求操作系統(tǒng)64位JDK版本NO.ProjectVersionContent1HardwareenvironmentCPU:Intel2.00GHzDisk:150GBMemory:2.00GB2OperationsystemUbuntu-12.0464-bit3JDK4Hadoop5Zookeeper6HBase7Pig8Hive9Ganglia10Eclipse/home/majiangbo/eclipse11Hadoopforeclipseplugin/home/majiangbo/eclipse/plugins12Chukwa〔可選〕并且所有機器均需配置SSH免密碼登錄。二.Hadoop集群安裝部署目前,這里只搭建了一個由三臺機器組成的小集群,在一個hadoop集群中有以下角色:Master和Slave、JobTracker和TaskTracker、NameNode和DataNode。下面為這三臺機器分配IP地址以及相應(yīng)的角色:0——master,namenode,jobtracker——master〔主機名〕05——slave,datanode,tasktracker——slave1〔主機名〕06——slave,datanode,tasktracker——slave2〔主機名〕實驗環(huán)境搭建平臺如圖七所示:圖七h(yuǎn)adoop集群實驗平臺并且,Hadoop要求集群上每臺的用戶賬戶名和密碼一樣。具體安裝步驟如下:下載和安裝JDK,版本為JDK的安裝目錄為/usr/lib/jvm,創(chuàng)立此文件夾,在終端輸入命令:mkdir/usr/lib/jvm權(quán)限不夠的話重新改下用戶密碼就可以了,命令:sudopasswd,之后重新輸入密碼。移動jdk到/usr/lib/jvm,并解壓,然后為了節(jié)省空間刪除安裝包。命令:mvjdk--7u51-linu*-*64.tar.gz/usr/lib/jvm配置環(huán)境變量在終端輸入命令:sudogedit/etc/profile翻開profile文件,在文件最下面輸入如下容,如圖八所示:圖八JAVA環(huán)境變量設(shè)置即為:*setjavaenvironmente*portCLASSPATH=〞.:$JAVA_HOME/lib:$CLASSPATH〞e*portPATH=〞$JAVA_HOME/:$PATH〞這一步的意義是配置環(huán)境變量,使系統(tǒng)可以找到j(luò)dk。驗證JDK是否安裝成功輸入命令:java–version,如圖九所示。如果出現(xiàn)java版本信息,說明當(dāng)前安裝的jdk并未設(shè)置成ubuntu系統(tǒng)默認(rèn)的jdk,接下來還需要手動將安裝的jdk設(shè)置成系統(tǒng)默認(rèn)的jdk。圖九java版本信息手動設(shè)置需輸入以下命令:sudoupdate-alternatives–configjava然后輸入java–version就可以看到所安裝的jdk的版本信息。三臺主機上分別設(shè)置/etc/hosts和/etc/hostnameHosts這個文件用于定義主機名和IP地址之間的對應(yīng)關(guān)系,而hostname這個文件用于定義你的Ubuntu的主機名。修改/etc/hosts,命令sudogedit/etc/hostslocalhost0master05slave106slave2修改/etc/hostname,命令sudogedit/etc/hostname(修改完重啟有效)master以及slave1,slave2在這兩臺主機上安裝OpenSSH,并配置SSH可以免密碼登錄確認(rèn)已經(jīng)連接上網(wǎng),輸入命令:sudoapt-getinstallssh配置為可以免密碼登錄本機,接下來輸入命令:ssh-keygen–tdsa–P‘’–f~/.ssh/id_dsa解釋一下,ssh-keygen代表生成密匙,-t表示指定生成的密匙類型,dsa是密匙認(rèn)證的意思,即密匙類型,-P用于提供密語,-f指定生成的密匙文件。這個命令會在.ssh文件夾下創(chuàng)立id_dsa以及id_dsa.pub兩個文件,這是ssh一對私匙和公匙,把id_dsa.pub追加到授權(quán)的key中。輸入命令:cat~/.ssh/id_dsa.pub>>~/.ssh/authorized_keys驗證ssh是否已經(jīng)安裝成功,輸入命令:ssh–version。將文件復(fù)制到slave主機一樣的文件夾,輸入命令:scpauthorized_keysslave1:~/.ssh/scpauthorized_keysslave2:~/.ssh/看是否可以從master主機免密碼登錄slave,輸入命令:sshslave1sshslave2配置兩臺主機的Hadoop文件首先到Hadoop的官網(wǎng)下載包,默認(rèn)講Hadoop解壓到/home/u〔你的Ubuntu用戶名〕/目錄下進(jìn)入hadoop的conf文件夾,找到hadoop-env.sh,修改:,指定JDK的安裝位置,如圖十所示:圖十JAVA_HOME路徑設(shè)置修改core-site.*ml,這是Hadoop的核心配置文件,這里配置的是HDFS的地址及端號:<configuration><property><name></name><value>hdfs://master:9000</value></property><property><name>hadoop.tmp.dir</name><value>/tmp</value></configuration>修改hdfs-site.*ml<configuration><property><name>dfs.replication</name><value>2</value></property></configuration>修改mapred-site.*ml<configuration><property><name>mapred.job.tracker</name><value>master:9001</value></property></configuration>修改conf/mastersmaster修改conf/slavesslave1slave2啟動hadoop在啟動之前,需要格式化hadoop的文件系統(tǒng)HDFS,進(jìn)入hadoop文件夾,輸入命令格式化:bin/hadoopnamenode–format,如圖十一所示:圖十一hadoop格式化輸入命令,啟動所有進(jìn)程:bin/start-all.sh,如圖十二所示:圖十二hadoop啟動信息查看是否所有進(jìn)程啟動,輸入命令:jps,如圖十三所示:圖十三jps查看進(jìn)程最后驗證hadoop是否成功啟動翻開瀏覽器,查看機器集群狀態(tài)分別輸入輸入master:50070,如圖十四,可看到:圖十四namenode狀態(tài)點擊livenodes,可以看到當(dāng)前slave1和slave2兩個節(jié)點信息,如圖十五:圖十五datanode節(jié)點狀態(tài)〔2〕輸入master:50030,如圖十六,可看到:圖十六jobtracker狀態(tài)點擊2nodes查看tasktracker信息,如圖十七:圖十七tasktracker狀態(tài)〔3〕輸入master:50060,如圖十八,可看到:圖十八task狀態(tài)也可以通過命令:hadoopdfsadmin–report查看停頓hadoop進(jìn)程:bin/stop-all.sh如圖十九:圖十九停頓hadoop集群以上為hadoop完全分布式集群配置以上過程為由三臺計算機組成的完全分布式Hadoop集群,主要參考"Hadoop實戰(zhàn)-第二版"和"Hadoop權(quán)威指南",主要講解了Hadoop的安裝和配置過程,關(guān)于更多Hadoop原理的知識不在詳述,如果在家在安裝的時候遇到問題,或者按以上步驟安裝完成卻不能運行Hadoop,建議查看Hadoop的日志信息,Hadoop記錄了詳盡的日志信息,日志文件保存的Hadoop/logs文件夾。三.其他組件安裝過程簡介本Hadoop平臺搭建過程中安裝的組件及軟件環(huán)境主要包括以下容:NO.ProjectVersionContent1HardwareenvironmentCPU:Intel2.00GHzDisk:150GBMemory:2.00GB2OperationsystemUbuntu-12.0464-bit3JDK4Hadoop5Zookeeper6HBase7Pig8Hive9Ganglia10Eclipse/home/majiangbo/eclipse11Hadoopforeclipseplugin/home/majiangbo/eclipse/plugins12Chukwa〔可選〕相關(guān)技術(shù)作以下介紹:Pig和HiveHive是一個基于Hadoop文件系統(tǒng)之上的數(shù)據(jù)倉庫架構(gòu),利用Mapreduce編程技術(shù),實現(xiàn)了局部SQL語句,提供了類SQL的編程接口,可以將構(gòu)造化的數(shù)據(jù)文件映射為一數(shù)據(jù)庫表,并提供完整的SQL查詢功能可以將SQL語句轉(zhuǎn)換為Mapreduce任務(wù)進(jìn)展運行,但是這樣在執(zhí)行時會出現(xiàn)延遲現(xiàn)象,但能更好的處理不變的大規(guī)模數(shù)據(jù)集上的批量任務(wù)。此外,Hive的網(wǎng)絡(luò)接口可以方便直觀地對數(shù)據(jù)進(jìn)展操作,在命令行下,要執(zhí)行多個查詢就要翻開多個終端,而通過網(wǎng)絡(luò)構(gòu)造可以同時執(zhí)行多個查詢。配置Eclipse環(huán)境編寫Hive程序Hive的優(yōu)化策略,針對不同的查詢進(jìn)展優(yōu)化,優(yōu)化過程通過配置進(jìn)展控制圖二十HiveWeb接口界面Pig提供了一個支持大規(guī)模數(shù)據(jù)分析的平臺,Pig的根底構(gòu)造層包括一個產(chǎn)生Mapreduce程序的編譯器,能夠承受大量的并行任務(wù)。PigLatin語言更側(cè)重于對數(shù)據(jù)的查詢和分析,而不是對數(shù)據(jù)進(jìn)展修改和刪除,建立在Hadoop分布式平臺之上,能夠在短時間處理海量的數(shù)據(jù),比方:系統(tǒng)日志文件,處理大型數(shù)據(jù)庫文件,處理特定web數(shù)據(jù)等。GangliaGanglia是UCBerkeley發(fā)起的一個開源集群監(jiān)視工程,用于測量數(shù)以千計的節(jié)點集群。核心包含兩個Daemon:客戶端GangliaMonitoring(gmond)和效勞端GangliaMeta(gmetad),以及一個web前端,主要監(jiān)控的系統(tǒng)性能有:CPU、memory、硬盤利用率、I/O負(fù)載、網(wǎng)絡(luò)流量情況等,可以幫助合理調(diào)整分配系統(tǒng)資源,優(yōu)化系統(tǒng)性。圖二十一Ganglia監(jiān)控總界面圖二十二Ganglia-cpu監(jiān)控界面圖二十三Ganglia-clustercpu監(jiān)控界面圖二十四Ganglia-memory監(jiān)控界面圖二十五Ganglia-network監(jiān)控界面HBase簡單地說,hbase是一個分布式的、面向列的開源數(shù)據(jù)庫,不同于一般的關(guān)系數(shù)據(jù)庫,是一個適合于非構(gòu)造化數(shù)據(jù)存儲的數(shù)據(jù)庫。Hbase的核心是將數(shù)據(jù)抽象成表,表中只有rowkey和columnfamily,rowkey記錄的是主鍵,通過key/value很容易找到,column存儲實際的數(shù)據(jù)。<key1/value1>→<key2/value2>→<key3/value3>圖二十六HBase架構(gòu)MahoutMahout是Apache的一個開源的工程,基于Hadoop平臺設(shè)計和開發(fā)的算法工具庫。提供一些經(jīng)典的機器學(xué)習(xí)算法,包含聚類、分類、推薦引擎、頻繁子項挖掘。ApacheMahout主要包括以下局部:頻繁模式挖掘:挖掘數(shù)據(jù)中頻繁出現(xiàn)的項集;聚類:將諸如文本、文檔之類的數(shù)據(jù)分成局部相關(guān)的組;分類:利用已經(jīng)存在的分類文檔訓(xùn)練分類器,對未分類的文檔進(jìn)展別離;推薦引擎〔協(xié)同過濾〕:獲得用戶的行為并從中發(fā)現(xiàn)用戶可能喜歡的事物;頻繁子項挖掘:利用一個項集〔查詢記錄或購物記錄〕去識別經(jīng)常一起出現(xiàn)的工程。Mahout的主要目標(biāo)是建立可伸縮的機器學(xué)習(xí)算法,這種可伸縮性是針對大規(guī)模的數(shù)據(jù)集而言的,Mahout的算法運行在ApacheHadoop平臺下,通過Mapreduce模式實現(xiàn),但是Mahout并不嚴(yán)格要求算法的實現(xiàn)要基于Hadoop平臺,單個節(jié)點或非Hadoop平臺或Hadoop平臺也可以。Mahout核心庫的非分布式算法也具有良好的性能。圖二十七M(jìn)ahout提供的算法Mahout中FPGrowth在Mapteduce模式下運行過程及用時:圖二十八FPGrowth運行過程及用時Mapreduce模式運行過程中runningjobs:圖二十九MapReduce運行過程中runningjobs信息運行完畢后pletedjobs信息:圖三十MapReduce運行pletedjobs信息FPGrowth運行完畢后HDFScontent:圖三十一FPGrowth運行后再HDFS的存儲目錄各個文件目錄的含義如下:翻開HDFS存儲文件,出現(xiàn)亂碼現(xiàn)象:圖三十二HDFS存儲下文件現(xiàn)象執(zhí)行完畢后,直接查看結(jié)果出現(xiàn)亂碼現(xiàn)象,是因為生成的文件被序列化了,還需要用mahout復(fù)原回來,命令如下:mahoutseqdumper-i/user/hadoop/patterns/fpgrowth/part-r-00000-o~/data/patterns.t*tFPGrowth運行結(jié)果要通過以下命令才能正常顯示在控制臺:bin/mahoutseqdumper–s<path>圖三十三講FPGrowth顯示在控制臺ChukwaChukwa也是一個分布式系統(tǒng),屬于Hadoop系列產(chǎn)品,依賴于其他子工程,以HDFS作為存儲層,以Mapreduce作為計算模型,以Pig作為高層的數(shù)據(jù)處理語言。它采用的是流水式數(shù)據(jù)處理方式和模塊化構(gòu)造的收集系統(tǒng),流水式模式就是利用利分布在各個節(jié)點客戶端的采集器收集各個節(jié)點被監(jiān)控的信息,然后以塊的形式通過HTTPPost聚集到收集器,由它處理后轉(zhuǎn)儲到HDFS中,之后這些由Archiving處理〔去除重復(fù)數(shù)據(jù)和合并數(shù)據(jù)〕提純,再由別離解析器利用Mapreduce將這些數(shù)據(jù)轉(zhuǎn)換成構(gòu)造化記錄,并存儲到數(shù)據(jù)庫中,HICC〔Hadoopinfrastructurecarecenter〕通過調(diào)用數(shù)據(jù)庫里數(shù)據(jù),向用戶展示可視化后的系統(tǒng)狀態(tài)。圖三十四Chukwa數(shù)據(jù)處理流程〔圖片來自網(wǎng)絡(luò)〕應(yīng)用實例:騰訊和淘寶大數(shù)據(jù)處理平臺架構(gòu)當(dāng)前互聯(lián)網(wǎng)公司用得比擬多的是HIVE/HBASE,如騰訊基于hive深度定制改造的TDW,淘寶的基于Hadoop的大數(shù)據(jù)平臺,小米等公司選用hbase。圖三十五淘寶大數(shù)據(jù)平臺分析〔圖片來自網(wǎng)絡(luò)〕圖三十六騰訊大數(shù)據(jù)平臺分析〔圖片來自網(wǎng)絡(luò)〕大數(shù)據(jù)分析技術(shù)現(xiàn)狀ScribeChukwaKafkaFlume公司

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論