版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、Hadoop安裝及基于Eclipse的開發(fā)環(huán)境部署1、Hadoop-1.2.1安裝1.1 Hadoop安裝工具1、 操作系統(tǒng):Win7系統(tǒng)2、 虛擬機軟件:VMware Workstation 103、 Linux系統(tǒng)安裝包:ubuntukylin-14.04-desktop-i386.iso(32位)4、 JDK包:jdk-8u45-linux-i586.gz5、 Hadoop-1.2.1程序安裝包(非源碼):1.2 Hadoop安裝步驟(部分詳細(xì)內(nèi)容可參見Hadoop安裝指南)1、 Ubuntu虛擬機安裝(建議安裝32位Ubuntu操作系統(tǒng))2、 Windows與linux之間的共享文件夾
2、設(shè)置,實現(xiàn)windows與linux之間的文件共享;具體設(shè)置如下圖:設(shè)置完成后,可以看到一個共享文件夾,通過該文件夾可以實現(xiàn)windows與linux之間的文件共享;該共享文件夾默認(rèn)在linux系統(tǒng)的/mnt/hgfs目錄下。3、 ssh安裝(ubuntu默認(rèn)沒有安裝ssh,需要通過apt-get install 進(jìn)行安裝,這里建議暫時不要生成公鑰)4、 網(wǎng)絡(luò)連接配置;網(wǎng)絡(luò)連接配置的主要目的是保證能夠使用Xshell等工具鏈接虛擬機進(jìn)行操作。由于采用NAT模式?jīng)]有連接成功,本文建議使用自定義的虛擬網(wǎng)絡(luò)進(jìn)行連接,具體步驟及設(shè)置如下:1)本地虛擬網(wǎng)絡(luò)IP設(shè)置;具體設(shè)置如圖(可以根據(jù)自己的情況設(shè)置I
3、P(如),該IP將作為虛擬機的網(wǎng)關(guān)):2)虛擬機網(wǎng)絡(luò)適配器設(shè)置;建議采用自定義虛擬網(wǎng)絡(luò)連接,設(shè)置如下:3)虛擬機網(wǎng)絡(luò)IP設(shè)置;主要目的是設(shè)置自定義的IP、網(wǎng)關(guān)等;具體設(shè)置流程如下:4)當(dāng)網(wǎng)絡(luò)連接設(shè)置完成后,使用Ubuntu:service networking restart(centOS:service network restart)命令重啟虛擬機網(wǎng)絡(luò)服務(wù);注意,重啟網(wǎng)絡(luò)服務(wù)后,建議在本機的DOS環(huán)境下ping一下剛剛在虛擬機中設(shè)置的IP地址,如果ping不通,可能是網(wǎng)卡啟動失敗,可以使用ifconfig eth0 up命令啟動網(wǎng)卡(eh0是網(wǎng)卡名稱,可以在網(wǎng)路連
4、接設(shè)置中查看網(wǎng)卡名稱)。5、 通過Xshell連接虛擬機進(jìn)行終端操作;Xshell 是一個強大的安全終端模擬軟件,它支持SSH1, SSH2, 以及Microsoft Windows 平臺的TELNET 協(xié)議。使用Xshell的好處是它相比通過虛擬機界面終端進(jìn)行操作而言,要流暢得多。使用Xshell的前提是必須先安裝sshd,可以使用apt-get install openssh*對sshd進(jìn)行安裝。具體連接設(shè)置如下圖所示:6、 修改etc目錄下的hosts、hostname配置;hosts用來配置虛擬機的IP(上述網(wǎng)絡(luò)連接設(shè)置的IP地址)與虛擬機名稱的對應(yīng)關(guān)系,hostname則用
5、來配置虛擬機的名稱,默認(rèn)為localhost。具體設(shè)置如下:etc/hosts文件:30 Master /IP地址與主機名稱對應(yīng)31 Slave132 Slave2etc/hostname文件:(每個slave節(jié)點設(shè)置成對應(yīng)的主機名稱)MasterHost設(shè)置完成后,不要忘了重啟虛擬機!7、 安裝javaSDK(JDK1.8)1) 首先下載jdk安裝包,可以在官網(wǎng)2) 修改/etc/profile的環(huán)境變量配置信息;JAVA環(huán)境變量設(shè)置:export JAVA_HOME=/opt/jdk1.8.0_45 /java安
6、裝目錄export JRE_HOME=$JAVA_HOME/jreexport PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH8、 Hadoop安裝配置;主要是hadoop的環(huán)境變量設(shè)置以及配置文件設(shè)置。1) 首先在本地windows環(huán)境下通過官網(wǎng)下載hadoop-1.2.1,下載地址2) 通過/mnt/hdfs共享文件夾將下載的hadoop安裝包cp到/opt目錄(可以根據(jù)自己的喜好設(shè)置安裝目錄),操作命令:cp hadoop-1.2.1.tar.gz /opt;3) cd到/opt目錄,執(zhí)行tar -zxvf hadoop-1.2.1.tar.gz解壓安裝包
7、;4) hadoop環(huán)境變量設(shè)置;通過修改etc/profile文件進(jìn)行HADOOP_HOME,CLASSPATH,PATH的設(shè)置(操作命令:vim etc/profile)。具體設(shè)置如下:hadoop環(huán)境變量:export HADOOP_HOME=/opt/hadoop-1.2.1 /hadoop的安裝目錄export CLASSPATH=$HADOOP_HOME/lib:$HADOOP_HOME/libexec:$CLASSPATHexport PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HADOOP_HOME/share:$PATHJAVA環(huán)境變量設(shè)
8、置:export JAVA_HOME=/opt/jdk1.8.0_45 /java安裝目錄export JRE_HOME=$JAVA_HOME/jreexport PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH5) Hadoop集群環(huán)境配置文件設(shè)置;在hadoop的集群配置中,大部分都用的默認(rèn)設(shè)置,若想要提高整個集群的性能,可以通過修改配置文件的方法實現(xiàn),配置項大部分都配置在以下幾個文件里(文件路徑:/opt/hadoop-1.2.1/conf):core_site.xml, hdfs_site.xml, mapred_site.xml, masters,sla
9、ves,hadoop-env.sh;每個文件的具體配置及說明如下:core-site.xml文件:<!--這是一個描述集群NameNode節(jié)點的URI(包括協(xié)議、主機名稱、端口號),集群里面的每一臺機器都必須知道NameNode的地址;DataNode節(jié)點首先在NameNode上進(jìn)行注冊,這樣它們的數(shù)據(jù)才可以被使用。獨立的客戶端程序通過這個URI跟DataNode交互,以取得文件的塊列表。-><configuration><property> <name>hadoop.tmp.dir</name> <
10、;value>/hadoop</value> <!-Hadoop的臨時文件存放路徑-><!-一定要配置,配置完成后,會在虛擬機中生成一個hadoop文件夾,系統(tǒng)默認(rèn)的緩存文件夾在每次重啟后會被刪除,這樣可能會導(dǎo)致datanode的namespaceID或者CID不兼容而無法啟動;如果hdfs-site.xml中不配置namenode和datanode的存放位置,默認(rèn)就放在這個路徑中-> </property> <property> <name></name> <!-Na
11、me Node的URI-> <value>hdfs:/Master:9000</value> </property><property> <name>io.file.buffer.size</name> <!-讀寫序列文件緩沖區(qū)大小-> <value>4096</value></property></configuration>hdfs-site.xml文件:<configuration> <property> <!-dfs.r
12、eplication決定著系統(tǒng)里面文件塊的數(shù)據(jù)備份個數(shù)。對于一個實際的應(yīng)用,它應(yīng)該被設(shè)為3(這個數(shù)字并沒有上限,但更多的備份可能并沒有作用,而且會占用更多的存儲空間)。當(dāng)然,少于三個的備份,可能會影響到數(shù)據(jù)的可靠性(系統(tǒng)故障時,也許會造成數(shù)據(jù)丟失)-> <name>dfs.replication</name> <value>1</value> </property> <property> <!-.dir-這是NameNode結(jié)點存儲hadoop文件系統(tǒng)信息的本地系統(tǒng)路徑。這個值只對NameNod
13、e有效,DataNode并不需要使用到它??梢栽O(shè)置多個,通過","分隔,這樣設(shè)置會將文件復(fù)制到多個路徑中,用于備份。其中的一個路徑,可以利用nfs映射到我們的共享文件夾下,形成異地備份-><name>.dir</name> <value>file:/hadoop/dfs/name</value> <!-實際設(shè)置的值-> </property> <property> <!-dfs.data.dir-這是DataNode結(jié)點被指定要存儲數(shù)據(jù)的本地文件
14、系統(tǒng)路徑。DataNode結(jié)點上的這個路徑?jīng)]有必要完全相同,因為每臺機器的環(huán)境很可能是不一樣的。但如果每臺機器上的這個路徑都是統(tǒng)一配置的話,會使工作變得簡單一些。默認(rèn)的情況下,它的值hadoop.tmp.dir,這個路徑只能用于測試的目的,因為,它很可能會丟失掉一些數(shù)據(jù)。所以,這個值最好還是被覆蓋。-><name>dfs.datanode.data.dir</name> <value>file:/hadoop/dfs/data</value> </property> <property> <!可能錯誤提示:or
15、g.apache.hadoop.security.AccessControlException:Permissiondenied:user=Administrator,access=WRITE,inode="tmp":root:supergroup:rwxr-xr-x。因為Eclipse使用hadoop插件提交作業(yè)時,會默認(rèn)以當(dāng)前操作用戶身份去將作業(yè)寫入hdfs文件系統(tǒng)中,即HDFS上的/user/hadoop,由于一般的非root用戶對hadoop目錄并沒有寫入權(quán)限,所以會導(dǎo)致上述異常的發(fā)生。解決方法有兩種:或者放開hadoop目錄的權(quán)限,或者以root身份進(jìn)行相關(guān)操作-
16、> <name>dfs.permissions</name> <!-這個屬性節(jié)點是為了防止后面eclipse存在拒絕讀寫設(shè)置的 -> <value>false</value> </property></configuration>mapred-site.xml:<property><name>mapreduce.jobtracker.http.address</name> <!-mapreduce.jobtracker http服務(wù)端口設(shè)置-><val
17、ue>Master:50030</value></property><property><!-JobTracker的主機(或者IP)和端口。-><name>mapred.job.tracker</name><value>Master:9001<alue></property>hadoop-env.sh文件:export JAVA_HOME=/opt/jdk1.8.0_45 <!-在hadoop的環(huán)境配置文件中配置jdk的路徑->Masters文件:Master <
18、!-這里配置為namenode的主機名->Slaves文件:Slave1 <!-兩個datanode的主機名->Slave29、 克隆虛擬機,生成另外兩臺slave節(jié)點。由于克隆機的配置與Master主機配置一致,所以不需要再進(jìn)行sshd、jdk以及hadoop的安裝。10、 對兩臺Slave機重復(fù)上述的第4、6步,完成Slave機的網(wǎng)絡(luò)配置以及hostname的配置。11、 主機與從機之間的ssh配置,實現(xiàn)各虛擬機之間的無密碼登陸。1) 對三臺虛擬機,分別執(zhí)行ssh_keygen -t rsa -P 生成ssh公鑰(前提是已經(jīng)安裝了ssh),表示無密碼,公鑰默認(rèn)生成在/ro
19、ot/.ssh目錄下;2) cd到.ssh目錄,通過ll指令查看是否存在id_rsa,id_rsa.pub文件,若存在,則表示密鑰生成OK;通過cp id_rsa.pub authorized_keys將id_rsa.pub備份到authorized_keys文件下;(為何叫authorized_keys呢?因為在/etc/ssh/下的sshd_config文件中有AuthorizedKeysFile %h/.ssh/authorized_keys這一句話,默認(rèn)是注釋了的。)3) 修改/etc/ssh目錄下的sshd_config下的配置信息;具體修改如下:去掉前面的#號(#號表示注釋),將P
20、ermitRootLogin withoutpassword修改為PermitRootLogin yes4) 重啟ssh服務(wù)(有些時候可以不用重啟,但是為了確保ssh連接正常,建議重啟ssh服務(wù)。),依次執(zhí)行指令:service ssh stop;service ssh start;5) 所有虛擬機都按照如上步驟進(jìn)行設(shè)置后,則需要將各自的公鑰傳送到相互通信的機器上。具體流程如下:1 將master主機上的公鑰分別傳送到Slave1,Slave2(執(zhí)行指令:scp id_rsa.pub Slave1:/.ssh/master; scp id_rsa.pub Slave2:/.ssh/master
21、)2 分別將slave1,slave2的公鑰通過scp傳送到master主機(執(zhí)行指令:scp id_rsa.pub Master:/.ssh/slave1; scp id_rsa.pub Master:/.ssh/slave2)3 發(fā)送成功后,在Master的.ssh文件目錄下會存在五個文件:id_rsa.pub,id_rsa,authoried_keys,slave1,slave2;在slave1的.ssh文件目錄下會存在四個文件:id_rsa.pub,id_rsa,authoried_keys,master;在slave2的.ssh文件目錄下會存在四個文件:id_rsa.pub,id_r
22、sa,authoried_keys,master;4 對Matser,cd到.ssh目錄,依次執(zhí)行cat slave1 >> authorized_keys;cat slave2 >> authorized_keys;對Slave1,cd到.ssh目錄,執(zhí)行cat master>> authorized_keys;同樣,對Slave2,cd到.ssh目錄,執(zhí)行cat master>> authorized_keys。(cat是為了實現(xiàn)將公鑰追加到authorized_keys)6) 通過ssh指令,驗證個虛擬機之間的通信狀況,如圖示:至此,各虛擬
23、機之間的所有配置基本完成。12、 在master主機終端,執(zhí)行hadoop namenode -format指令,格式化namenode節(jié)點,此時會在core-site.xml中指定的文件夾(本地配置為/hadoop)下生成dfs/data,dfs/name文件夾;然后執(zhí)行start-all.sh指令,啟動所有節(jié)點。最后執(zhí)行jps,查看所有節(jié)點的啟動情況。結(jié)果如下:2、基于eclipse的hadoop開發(fā)環(huán)境部署2.1 eclipse的安裝與hadoop-eclipse-plugin-1.2.1插件部署1、 eclipse安裝;通過共享文件夾,將eclipse的安裝包(下載地址:http:/w
24、/downloads/)cp到/opt目錄下,并執(zhí)行tar -zxvf進(jìn)行解壓縮;2、 同樣,通過共享文件夾,將hadoop-1.2.1的eclipse插件hadoop-eclipse-plugin-1.2.1.jar文件cp到/opt/eclipse/plugins文件夾下(即eclipse安裝包的plugins文件夾);3、 cd到opt/eclipse目錄,會發(fā)現(xiàn)一個名為eclipse的可執(zhí)行文件,執(zhí)行./eclipse可以啟動eclipse開發(fā)環(huán)境;(ps:eclipse不支持在Xshell中啟動,只能通過虛擬機本身的終端)如圖所示:4、 啟動eclipse
25、開發(fā)環(huán)境,可以在界面上看到mapreduce的插件圖標(biāo);如圖:執(zhí)行:Window->Preferences選擇Hadoop Map/Reduce,在Hadoop installation directory中,指定Hadoop的安裝目錄。如圖示:執(zhí)行window->ShowView->Other->MapReduce Tools->Map/Reduce Locations;如下圖:可以看到控制臺會出現(xiàn)Map/ReduceLocations的圖標(biāo);右鍵該圖標(biāo),會彈出三個可選項,如圖示:選擇New Hadoop Location,出現(xiàn)以下界面;其中Location name可以隨便定義,一般情況下建議寫虛擬機中的主節(jié)點的名稱;Map/Reduce Master的Host指的是主節(jié)點的主機IP地址,Port端口指的是Map-site.xml中配置的端口號,本機配置為9001;DFS Master的Host地址一般默認(rèn)與Map/Reduce保持一致,端口號Port則指的是core-site.xml中配置的端口號,本機配置為9000.具體配置如下圖:配置完成后,可以在Eclipse界面左側(cè)的DFS Locations菜單中看到如下DFS的文件系統(tǒng)的文件結(jié)構(gòu)(注意:必須首先啟動hadoop集群)。其中,input是在ha
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 顧城的詩讀后感
- 集成墻板施工方案
- 施工方案管理培訓(xùn)心得
- 監(jiān)控安裝調(diào)試課程設(shè)計
- 2025年度個人消費分期付款合同范本6篇
- 部編人教版八年級上冊語文《寫作 學(xué)寫傳記》教學(xué)設(shè)計
- 英國國旗簡筆畫課程設(shè)計
- 墻布施工方案
- 通信工程課程設(shè)計波形
- 混凝土門洞施工方案
- 馬工程《經(jīng)濟法學(xué)》教學(xué)
- 《集裝箱結(jié)構(gòu)》課件
- 項目績效和獎勵計劃
- 光伏自發(fā)自用項目年用電清單和消納計算表
- 量子計算在醫(yī)學(xué)圖像處理中的潛力
- 阿里商旅整體差旅解決方案
- 浙江天臺歷史文化名城保護規(guī)劃說明書
- 邏輯思維訓(xùn)練500題
- 實體瘤療效評價標(biāo)準(zhǔn)RECIST-1.1版中文
- 企業(yè)新春茶話會PPT模板
- GB/T 19185-2008交流線路帶電作業(yè)安全距離計算方法
評論
0/150
提交評論