VM虛擬機CentOS下hadoop集群安裝過程_第1頁
VM虛擬機CentOS下hadoop集群安裝過程_第2頁
VM虛擬機CentOS下hadoop集群安裝過程_第3頁
VM虛擬機CentOS下hadoop集群安裝過程_第4頁
VM虛擬機CentOS下hadoop集群安裝過程_第5頁
全文預覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、VM虛擬機CentOS下hadoop集群安裝過程hadoop俗稱分布式計算,最早作為一個開源項目,最初只是來源于谷歌的兩份白皮書。然而正如十年前的Linux一樣,雖然Hadoop最初十分簡單,但隨著近些年來大數(shù)據(jù)的興起,其也獲得了一個充分體現(xiàn)價值的舞臺。這也正是業(yè)內(nèi)普遍將Hadoop看做是下一個Linux的原因。一基于vmware的hadoop環(huán)境簡述本文介紹基于多臺vmware虛擬機來安裝hadoop集群的過程及方法,通過這個小的集群讓您在本地電腦上就可以研究hadoop的相關(guān)工作過程,有人會有疑問在小的虛擬機集群上研究的結(jié)果, 寫的程序能否在大集群上工作正常?可以肯定的沒問題的。Hadoo

2、p的一個特性是線性增長特性,即當前數(shù)量情況下,處理時間是1, 若是數(shù)據(jù)量加倍, 后處理時間加倍, 若是在這種情況下, 處理能力也加倍則處理時間也是1.正常情況hadoop需要較多的服務器才能搭建, 但是我們在家里學習如何去找那么服務器, 解決辦法可以找?guī)着_pc機,在pc機上安裝linux系統(tǒng)就可以了。當然我們還有更簡單的辦法, 就是找一臺高性能的電腦, 在電腦上安裝虛擬機軟件,里面創(chuàng)建若干臺虛擬機, 然后讓這些虛擬機構(gòu)成一個小的內(nèi)部局域網(wǎng)絡,在這個網(wǎng)絡上我們安裝linux軟件, java軟 件, 安裝hadoop程序,我們就可以創(chuàng)建一個簡單hadoop的研究系統(tǒng), 進行軟件的開發(fā)調(diào)試

3、, 在這個小的分布式集群上開發(fā)的程序可以無縫移植到相同版本的hadoop(不同hadoop的版本兼容性不是很好, 特別是低版本同高版本, 他們的api也有些許變化)集群中。如下是在筆者筆記本上構(gòu)建的一個hadoop的虛擬機系統(tǒng), 相關(guān)網(wǎng)絡拓撲結(jié)構(gòu)如下:虛擬機0,機器名稱:db, ip:192.16虛擬機1,機器名稱:red, ip:虛擬機2,機器名稱:mongdb, ip:虛擬機3,機器名稱:nginx,ip:如上圖, 4臺虛擬機通過一個虛擬的交換機互聯(lián), 開發(fā)機器也連接到這個虛擬交換機上, 虛擬的交換機同adsl相連接,這樣整個系統(tǒng)都可以直接上網(wǎng)了。下面是幾個虛擬機的典型配置,如下:Db的配

4、置,如上, 這個機器的內(nèi)存配置比較高, 這個機器是機器的master服務器, 需要較多的內(nèi)存。 因此配置了1.3g內(nèi)存。下面是red的配置, mongdb及nginx的配置同這個機器配置相同,配置如下:這個機器的配置同db機器配置相同, 僅僅是內(nèi)存小了些, 這里內(nèi)存是188m, 作為調(diào)試環(huán)境已經(jīng)足夠用了。二基于vmware虛擬機環(huán)境配置1. 網(wǎng)卡的Ip地址配置采用靜態(tài)ip配置方式, 防止重新啟動后dhcp分配新的ip后,造成不必要的混亂。 配置如下:2. Hosts文件配置rootdb # cat /etc/hosts# Do not remove the following line, or

5、 various programs# that require network functionality will fail.               localhost.localdomain localhost:1             localhost6.localdomain6 localhost619

6、0  db1  red2  mongdb3  nginx需要確保每一臺機器的 hosts文件配置如上圖所示。簡便配置方法, 在配置一臺機器后, 可以編寫腳本實現(xiàn)自動將hosts文件復制到多臺機器上。腳本如下:rootdb # cat update_hosts.sh #!/bin/shfor host in red mongdb nginx;do    echo $host    scp&

7、#160; /etc/hosts  root$host:/etc/donerootdb # 主要這個腳本要在root下編寫, 然后賦予可以執(zhí)行的權(quán)限(chmod a+x *.sh), 然后在root權(quán)限下執(zhí)行。腳本會自動完成hosts文件的復制工作。上面過程完成后, 分別登錄每一臺機器, 把每一個服務器都ping一下, 若是不通,在仔細檢查一下。3. Java配置在每個虛擬機服務器上檢查是否正確安裝了java, 是否配置了java的環(huán)境變量等如上圖, 1處輸入  java -version, 然后應該輸出類似2處的輸出,標識java已經(jīng)正確安裝了同時采用3處的命令

8、, env | grep JAVA_HOME  來檢查環(huán)境變量是否正確配置了, 若是沒有配置java的環(huán)境變量則需要進行配置若是您java還有安裝請 用下面命令安裝 然后用下面命令配置環(huán)境變量。vi /etc/profile打開編輯的文件后, 在文件最后面添加如下內(nèi)容JRE_HOME=/usr/lib/jvm/PATH=$PATH:$JAVA_HOME/binCLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jarexport JAVA_HOME JRE_HOME PATH CLASSPATH保存退出, 最后運行下

9、面命令, 使配置生效source  /etc/profile然后再次測試上面的過程, 看看是否符合相關(guān)需要。如果您還沒做到到網(wǎng)絡搜索一下吧。4. ssh免登錄功能配置Hadoop通過ssh進行相關(guān)管理工作,主要是hadoop的管理腳本通過ssh遠程對各個服務器進行相關(guān)的管理,包括啟動,停止等。 關(guān)于如何配置ssh的免密碼登錄,請參考下面文章的相關(guān)部分:Hadoop1.2.1 Pseudo-Distributed偽分布模式配置5. 關(guān)閉相關(guān)的防火墻Hadoop程序在工作過程中,各個節(jié)點間有很多程序要進行通信,因此我們需要對防火墻做些處理, 保證這些訪問能正常工作。 我們這里采

10、用最簡單的辦法是關(guān)閉研究用集群虛擬機的全部防火墻.在虛擬機中,啟動setup程序選擇防火墻工作這一項在下面的對話框中, 選擇如下特殊顏色的區(qū)域的相關(guān)選項, 最后選擇ok推出6. 下載hadoop程序相關(guān)過程略。三配置hadoop分布式集群1. 在虛擬機db上下載hadoop程序, 然后解壓縮到 /work/apps/hadoop目錄, 相信你會這個操作, 不行百度一下啦。2. 配置hadoop的環(huán)境變量進入conf目錄, 編輯hadoop-env.sh 文件, 修改java home的配置注意這個配置,要同前面配置java的時候配置相同。3. 創(chuàng)建目錄Name目錄存放namenode

11、的hdfs目錄及文件的元數(shù)據(jù)。Data目錄存放datanode的數(shù)據(jù)4. 配置core-site.xml 文件vi  core-site.xml <?xml version="1.0"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><! Put site-specific property overrides in this file. ><configuration><property&

12、gt;  <name>hadoop.tmp.dir</name>                / 臨時文件目錄  <value>/work/apps/hadoop/tmp</value>  <description>A base for other temporary directories.</description></propert

13、y><property>        <name></name>         / namenode的服務器的地址        <value>hdfs:/db:9000</value></property><property>erval</name

14、>               / 回收站的文件間隔時間  <value>1440</value>  <description>Number of minutes between trash checkpoints.  If zero, the trash feature is disabled.  </description></property>&

15、lt;/configuration>如何確定這個文件有哪些配置可以填寫及相關(guān)含義?這個文件對應一個默認的配置文件,在:打開這個文件如下:文件可以配置項目含義都在文件中了, 大家慢慢參考。 注意不是在這個文件中配置的項目, 若是寫在了這里了, 對系統(tǒng)沒有任何作用, 當然配置也是無效的。5. 配置hdfs-site.xml 輸入下面命令vi hdfs-site.xml 注意上面的特別注意的區(qū)域相關(guān)配置。 <?xml version="1.0"?><?xml-stylesheet type="text/xsl&quo

16、t; href="configuration.xsl"?><! Put site-specific property overrides in this file. ><configuration><property>        <name>.dir</name>         / namenode存儲數(shù)據(jù)的數(shù)據(jù)的地方  

17、;      <value>/work/apps/hadoop/name</value>    / 這里可以放多個文件的列表, 用逗號分隔, 系統(tǒng)會同步把數(shù)據(jù)寫到這些目錄中后,才返回確保元數(shù)據(jù)的安全。建議這些目錄在不同的物理磁盤,這樣可以提高系統(tǒng)的io性能。另外,最好能通過nfs等方式 把數(shù)據(jù)寫到別的服務器一份或者若干份,這樣更會確保元數(shù)據(jù)完好無誤的被保留。</property><property>      

18、;  <name>dfs.data.dir</name>    / datanode存放數(shù)據(jù)的地方        <value>/work/apps/hadoop/data</value>  / 這里可以存放用逗號分隔的磁盤目錄列表,系統(tǒng)在存儲數(shù)據(jù)時會把不同的塊數(shù)據(jù)輪轉(zhuǎn)的方式分別放到不同目錄中。一般一個文件的塊1放到目錄A, 塊2則放目錄b等等,這樣可以充分提高系統(tǒng)的性能。</property><propert

19、y>        <name>dfs.replication</name>   / 文件的副本個數(shù)        <value>3</value></property></configuration>6. 配置mapred-site.xml 文件vi mapred-site.xml <?xml version="1.0"?

20、><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><! Put site-specific property overrides in this file. ><configuration><property>    <name>mapred.job.tracker</name>   / 設置job tracker    <

21、value>db:9001</value></property></configuration>7. 配置masters和slaves 文件查看下面兩個文件的內(nèi)容,如下:masters文件中存放,secondary server的配置slaves中存放的是  datanode,tasktractor的服務器的列表這個兩個文件不需要分發(fā)給 slaves節(jié)點, 但是我們這里簡便處理, 在腳本中沒有排除這些文件,可以通過一定的配置文件制定相關(guān)位置等。四測試hadoop系統(tǒng)1. 分發(fā)配置好的hadoop系統(tǒng)到各個服務器中創(chuàng)建如下腳本程序rootdb apps# vi   scp_hadoop.sh 腳本內(nèi)容如下

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論