Hadoop云計算平臺搭建最詳細(xì)過程

上傳人：d*** IP屬地：安徽上傳時間：2023-10-24 格式：DOC 頁數(shù)：10 大?。?7.50KB 積分：16 舉報 版權(quán)申訴

已閱讀5頁，還剩5頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

-.z.Hadoop云計算平臺及相關(guān)組件搭**裝過程詳細(xì)教程——Hbase+Pig+Hive+Zookeeper+Ganglia+Chukwa+Eclipse等一．安裝環(huán)境簡介根據(jù)官網(wǎng)，Hadoop已在linu*主機組成的集群系統(tǒng)上得到驗證，而windows平臺是作為開發(fā)平臺支持的，由于分布式操作尚未在windows平臺上充分測試，所以還不作為一個生產(chǎn)平臺。Windows下還需要安裝Cygwin，Cygwin是在windows平臺上運行的UNI*模擬環(huán)境，提供上述軟件之外的shell支持。實際條件下在windows系統(tǒng)下進(jìn)展Hadoop偽分布式安裝時，出現(xiàn)了許多未知問題。在linu*系統(tǒng)下安裝，以偽分布式進(jìn)展測試，然后再進(jìn)展完全分布式的實驗環(huán)境部署。Hadoop完全分布模式的網(wǎng)絡(luò)拓補圖如圖六所示：網(wǎng)絡(luò)拓補圖如六所示：圖六完全分布式網(wǎng)絡(luò)拓補圖硬件要求：搭建完全分布式環(huán)境需要假設(shè)干計算機集群，Master和Slaves處理器、存、硬盤等參數(shù)要求根據(jù)情況而定。軟件要求操作系統(tǒng)64位JDK版本NO.ProjectVersionContent1HardwareenvironmentCPU:Intel2.00GHzDisk:150GBMemory:2.00GB2OperationsystemUbuntu-12.0464-bit3JDK4Hadoop5Zookeeper6HBase7Pig8Hive9Ganglia10Eclipse/home/majiangbo/eclipse11Hadoopforeclipseplugin/home/majiangbo/eclipse/plugins12Chukwa〔可選〕并且所有機器均需配置SSH免密碼登錄。二．Hadoop集群安裝部署目前，這里只搭建了一個由三臺機器組成的小集群，在一個hadoop集群中有以下角色：Master和Slave、JobTracker和TaskTracker、NameNode和DataNode。下面為這三臺機器分配IP地址以及相應(yīng)的角色：0——master，namenode，jobtracker——master〔主機名〕05——slave，datanode，tasktracker——slave1〔主機名〕06——slave，datanode，tasktracker——slave2〔主機名〕實驗環(huán)境搭建平臺如圖七所示：圖七h(yuǎn)adoop集群實驗平臺并且，Hadoop要求集群上每臺的用戶賬戶名和密碼一樣。具體安裝步驟如下：下載和安裝JDK,版本為JDK的安裝目錄為/usr/lib/jvm，創(chuàng)立此文件夾，在終端輸入命令：mkdir/usr/lib/jvm權(quán)限不夠的話重新改下用戶密碼就可以了，命令:sudopasswd,之后重新輸入密碼。移動jdk到/usr/lib/jvm，并解壓,然后為了節(jié)省空間刪除安裝包。命令:mvjdk--7u51-linu*-*64.tar.gz/usr/lib/jvm配置環(huán)境變量在終端輸入命令：sudogedit/etc/profile翻開profile文件，在文件最下面輸入如下容，如圖八所示：圖八JAVA環(huán)境變量設(shè)置即為：*setjavaenvironmente*portCLASSPATH=〞.:$JAVA_HOME/lib:$CLASSPATH〞e*portPATH=〞$JAVA_HOME/:$PATH〞這一步的意義是配置環(huán)境變量，使系統(tǒng)可以找到j(luò)dk。驗證JDK是否安裝成功輸入命令：java–version，如圖九所示。如果出現(xiàn)java版本信息，說明當(dāng)前安裝的jdk并未設(shè)置成ubuntu系統(tǒng)默認(rèn)的jdk，接下來還需要手動將安裝的jdk設(shè)置成系統(tǒng)默認(rèn)的jdk。圖九java版本信息手動設(shè)置需輸入以下命令：sudoupdate-alternatives–configjava然后輸入java–version就可以看到所安裝的jdk的版本信息。三臺主機上分別設(shè)置/etc/hosts和/etc/hostnameHosts這個文件用于定義主機名和IP地址之間的對應(yīng)關(guān)系，而hostname這個文件用于定義你的Ubuntu的主機名。修改/etc/hosts,命令sudogedit/etc/hostslocalhost0master05slave106slave2修改/etc/hostname，命令sudogedit/etc/hostname(修改完重啟有效)master以及slave1，slave2在這兩臺主機上安裝OpenSSH,并配置SSH可以免密碼登錄確認(rèn)已經(jīng)連接上網(wǎng)，輸入命令：sudoapt-getinstallssh配置為可以免密碼登錄本機，接下來輸入命令：ssh-keygen–tdsa–P‘’–f~/.ssh/id_dsa解釋一下，ssh-keygen代表生成密匙，-t表示指定生成的密匙類型，dsa是密匙認(rèn)證的意思，即密匙類型，-P用于提供密語，-f指定生成的密匙文件。這個命令會在.ssh文件夾下創(chuàng)立id_dsa以及id_dsa.pub兩個文件，這是ssh一對私匙和公匙，把id_dsa.pub追加到授權(quán)的key中。輸入命令：cat~/.ssh/id_dsa.pub>>~/.ssh/authorized_keys驗證ssh是否已經(jīng)安裝成功，輸入命令：ssh–version。將文件復(fù)制到slave主機一樣的文件夾，輸入命令：scpauthorized_keysslave1:~/.ssh/scpauthorized_keysslave2:~/.ssh/看是否可以從master主機免密碼登錄slave，輸入命令：sshslave1sshslave2配置兩臺主機的Hadoop文件首先到Hadoop的官網(wǎng)下載包，默認(rèn)講Hadoop解壓到/home/u〔你的Ubuntu用戶名〕/目錄下進(jìn)入hadoop的conf文件夾，找到hadoop-env.sh，修改：，指定JDK的安裝位置，如圖十所示：圖十JAVA_HOME路徑設(shè)置修改core-site.*ml，這是Hadoop的核心配置文件，這里配置的是HDFS的地址及端號:<configuration><property><name></name><value>hdfs://master:9000</value></property><property><name>hadoop.tmp.dir</name><value>/tmp</value></configuration>修改hdfs-site.*ml<configuration><property><name>dfs.replication</name><value>2</value></property></configuration>修改mapred-site.*ml<configuration><property><name>mapred.job.tracker</name><value>master:9001</value></property></configuration>修改conf/mastersmaster修改conf/slavesslave1slave2啟動hadoop在啟動之前，需要格式化hadoop的文件系統(tǒng)HDFS，進(jìn)入hadoop文件夾，輸入命令格式化：bin/hadoopnamenode–format，如圖十一所示：圖十一hadoop格式化輸入命令，啟動所有進(jìn)程：bin/start-all.sh，如圖十二所示：圖十二hadoop啟動信息查看是否所有進(jìn)程啟動，輸入命令：jps，如圖十三所示：圖十三jps查看進(jìn)程最后驗證hadoop是否成功啟動翻開瀏覽器，查看機器集群狀態(tài)分別輸入輸入master:50070，如圖十四，可看到：圖十四namenode狀態(tài)點擊livenodes，可以看到當(dāng)前slave1和slave2兩個節(jié)點信息，如圖十五：圖十五datanode節(jié)點狀態(tài)〔2〕輸入master:50030，如圖十六，可看到：圖十六jobtracker狀態(tài)點擊2nodes查看tasktracker信息,如圖十七：圖十七tasktracker狀態(tài)〔3〕輸入master:50060，如圖十八，可看到：圖十八task狀態(tài)也可以通過命令：hadoopdfsadmin–report查看停頓hadoop進(jìn)程：bin/stop-all.sh如圖十九：圖十九停頓hadoop集群以上為hadoop完全分布式集群配置以上過程為由三臺計算機組成的完全分布式Hadoop集群，主要參考"Hadoop實戰(zhàn)-第二版"和"Hadoop權(quán)威指南"，主要講解了Hadoop的安裝和配置過程，關(guān)于更多Hadoop原理的知識不在詳述，如果在家在安裝的時候遇到問題，或者按以上步驟安裝完成卻不能運行Hadoop，建議查看Hadoop的日志信息，Hadoop記錄了詳盡的日志信息，日志文件保存的Hadoop/logs文件夾。三．其他組件安裝過程簡介本Hadoop平臺搭建過程中安裝的組件及軟件環(huán)境主要包括以下容：NO.ProjectVersionContent1HardwareenvironmentCPU:Intel2.00GHzDisk:150GBMemory:2.00GB2OperationsystemUbuntu-12.0464-bit3JDK4Hadoop5Zookeeper6HBase7Pig8Hive9Ganglia10Eclipse/home/majiangbo/eclipse11Hadoopforeclipseplugin/home/majiangbo/eclipse/plugins12Chukwa〔可選〕相關(guān)技術(shù)作以下介紹：Pig和HiveHive是一個基于Hadoop文件系統(tǒng)之上的數(shù)據(jù)倉庫架構(gòu)，利用Mapreduce編程技術(shù)，實現(xiàn)了局部SQL語句，提供了類SQL的編程接口，可以將構(gòu)造化的數(shù)據(jù)文件映射為一數(shù)據(jù)庫表，并提供完整的SQL查詢功能可以將SQL語句轉(zhuǎn)換為Mapreduce任務(wù)進(jìn)展運行，但是這樣在執(zhí)行時會出現(xiàn)延遲現(xiàn)象，但能更好的處理不變的大規(guī)模數(shù)據(jù)集上的批量任務(wù)。此外，Hive的網(wǎng)絡(luò)接口可以方便直觀地對數(shù)據(jù)進(jìn)展操作，在命令行下，要執(zhí)行多個查詢就要翻開多個終端，而通過網(wǎng)絡(luò)構(gòu)造可以同時執(zhí)行多個查詢。配置Eclipse環(huán)境編寫Hive程序Hive的優(yōu)化策略，針對不同的查詢進(jìn)展優(yōu)化，優(yōu)化過程通過配置進(jìn)展控制圖二十HiveWeb接口界面Pig提供了一個支持大規(guī)模數(shù)據(jù)分析的平臺，Pig的根底構(gòu)造層包括一個產(chǎn)生Mapreduce程序的編譯器，能夠承受大量的并行任務(wù)。PigLatin語言更側(cè)重于對數(shù)據(jù)的查詢和分析，而不是對數(shù)據(jù)進(jìn)展修改和刪除，建立在Hadoop分布式平臺之上，能夠在短時間處理海量的數(shù)據(jù)，比方：系統(tǒng)日志文件，處理大型數(shù)據(jù)庫文件，處理特定web數(shù)據(jù)等。GangliaGanglia是UCBerkeley發(fā)起的一個開源集群監(jiān)視工程，用于測量數(shù)以千計的節(jié)點集群。核心包含兩個Daemon：客戶端GangliaMonitoring(gmond)和效勞端GangliaMeta(gmetad)，以及一個web前端，主要監(jiān)控的系統(tǒng)性能有：CPU、memory、硬盤利用率、I/O負(fù)載、網(wǎng)絡(luò)流量情況等，可以幫助合理調(diào)整分配系統(tǒng)資源，優(yōu)化系統(tǒng)性。圖二十一Ganglia監(jiān)控總界面圖二十二Ganglia-cpu監(jiān)控界面圖二十三Ganglia-clustercpu監(jiān)控界面圖二十四Ganglia-memory監(jiān)控界面圖二十五Ganglia-network監(jiān)控界面HBase簡單地說，hbase是一個分布式的、面向列的開源數(shù)據(jù)庫，不同于一般的關(guān)系數(shù)據(jù)庫，是一個適合于非構(gòu)造化數(shù)據(jù)存儲的數(shù)據(jù)庫。Hbase的核心是將數(shù)據(jù)抽象成表，表中只有rowkey和columnfamily，rowkey記錄的是主鍵，通過key/value很容易找到，column存儲實際的數(shù)據(jù)。<key1/value1>→<key2/value2>→<key3/value3>圖二十六HBase架構(gòu)MahoutMahout是Apache的一個開源的工程，基于Hadoop平臺設(shè)計和開發(fā)的算法工具庫。提供一些經(jīng)典的機器學(xué)習(xí)算法，包含聚類、分類、推薦引擎、頻繁子項挖掘。ApacheMahout主要包括以下局部:頻繁模式挖掘：挖掘數(shù)據(jù)中頻繁出現(xiàn)的項集；聚類：將諸如文本、文檔之類的數(shù)據(jù)分成局部相關(guān)的組；分類：利用已經(jīng)存在的分類文檔訓(xùn)練分類器，對未分類的文檔進(jìn)展別離；推薦引擎〔協(xié)同過濾〕：獲得用戶的行為并從中發(fā)現(xiàn)用戶可能喜歡的事物；頻繁子項挖掘：利用一個項集〔查詢記錄或購物記錄〕去識別經(jīng)常一起出現(xiàn)的工程。Mahout的主要目標(biāo)是建立可伸縮的機器學(xué)習(xí)算法，這種可伸縮性是針對大規(guī)模的數(shù)據(jù)集而言的，Mahout的算法運行在ApacheHadoop平臺下，通過Mapreduce模式實現(xiàn)，但是Mahout并不嚴(yán)格要求算法的實現(xiàn)要基于Hadoop平臺，單個節(jié)點或非Hadoop平臺或Hadoop平臺也可以。Mahout核心庫的非分布式算法也具有良好的性能。圖二十七M(jìn)ahout提供的算法Mahout中FPGrowth在Mapteduce模式下運行過程及用時：圖二十八FPGrowth運行過程及用時Mapreduce模式運行過程中runningjobs：圖二十九MapReduce運行過程中runningjobs信息運行完畢后pletedjobs信息：圖三十MapReduce運行pletedjobs信息FPGrowth運行完畢后HDFScontent：圖三十一FPGrowth運行后再HDFS的存儲目錄各個文件目錄的含義如下:翻開HDFS存儲文件，出現(xiàn)亂碼現(xiàn)象：圖三十二HDFS存儲下文件現(xiàn)象執(zhí)行完畢后,直接查看結(jié)果出現(xiàn)亂碼現(xiàn)象,是因為生成的文件被序列化了,還需要用mahout復(fù)原回來,命令如下:mahoutseqdumper-i/user/hadoop/patterns/fpgrowth/part-r-00000-o~/data/patterns.t*tFPGrowth運行結(jié)果要通過以下命令才能正常顯示在控制臺：bin/mahoutseqdumper–s<path>圖三十三講FPGrowth顯示在控制臺ChukwaChukwa也是一個分布式系統(tǒng)，屬于Hadoop系列產(chǎn)品，依賴于其他子工程，以HDFS作為存儲層，以Mapreduce作為計算模型，以Pig作為高層的數(shù)據(jù)處理語言。它采用的是流水式數(shù)據(jù)處理方式和模塊化構(gòu)造的收集系統(tǒng)，流水式模式就是利用利分布在各個節(jié)點客戶端的采集器收集各個節(jié)點被監(jiān)控的信息，然后以塊的形式通過HTTPPost聚集到收集器，由它處理后轉(zhuǎn)儲到HDFS中，之后這些由Archiving處理〔去除重復(fù)數(shù)據(jù)和合并數(shù)據(jù)〕提純，再由別離解析器利用Mapreduce將這些數(shù)據(jù)轉(zhuǎn)換成構(gòu)造化記錄，并存儲到數(shù)據(jù)庫中，HICC〔Hadoopinfrastructurecarecenter〕通過調(diào)用數(shù)據(jù)庫里數(shù)據(jù)，向用戶展示可視化后的系統(tǒng)狀態(tài)。圖三十四Chukwa數(shù)據(jù)處理流程〔圖片來自網(wǎng)絡(luò)〕應(yīng)用實例：騰訊和淘寶大數(shù)據(jù)處理平臺架構(gòu)當(dāng)前互聯(lián)網(wǎng)公司用得比擬多的是HIVE/HBASE，如騰訊基于hive深度定制改造的TDW，淘寶的基于Hadoop的大數(shù)據(jù)平臺，小米等公司選用hbase。圖三十五淘寶大數(shù)據(jù)平臺分析〔圖片來自網(wǎng)絡(luò)〕圖三十六騰訊大數(shù)據(jù)平臺分析〔圖片來自網(wǎng)絡(luò)〕大數(shù)據(jù)分析技術(shù)現(xiàn)狀ScribeChukwaKafkaFlume公司

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

Hadoop云計算平臺搭建最詳細(xì)過程

文檔簡介

溫馨提示

最新文檔

評論

Hadoop云計算平臺搭建最詳細(xì)過程

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔