《大數(shù)據(jù)技術(shù)導(dǎo)論》課件-項(xiàng)目三_第1頁(yè)
《大數(shù)據(jù)技術(shù)導(dǎo)論》課件-項(xiàng)目三_第2頁(yè)
《大數(shù)據(jù)技術(shù)導(dǎo)論》課件-項(xiàng)目三_第3頁(yè)
《大數(shù)據(jù)技術(shù)導(dǎo)論》課件-項(xiàng)目三_第4頁(yè)
《大數(shù)據(jù)技術(shù)導(dǎo)論》課件-項(xiàng)目三_第5頁(yè)
已閱讀5頁(yè),還剩25頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

本項(xiàng)目學(xué)習(xí)內(nèi)容包括:1.安裝Vmware虛擬機(jī)2.在Vmware上安裝UbuntuLinux操作系統(tǒng)并進(jìn)行網(wǎng)絡(luò)設(shè)置3.在Ubuntu安裝Hadoop并進(jìn)行偽分布式配置4.利用Hadoop運(yùn)行簡(jiǎn)單數(shù)據(jù)處理任務(wù)本項(xiàng)目學(xué)習(xí)主要內(nèi)容本項(xiàng)目思維導(dǎo)圖VMware虛擬機(jī)詳細(xì)安裝步驟請(qǐng)參考配套教材項(xiàng)目三的任務(wù)3-1。安裝時(shí)請(qǐng)注意以下事項(xiàng):1.本書提供VMware14安裝文件,讀者不必從官網(wǎng)下載。2.安裝完VMware虛擬機(jī)可能需要重啟計(jì)算機(jī),請(qǐng)按照提示操作。任務(wù)3-1安裝Vmware虛擬機(jī)Ubuntu系統(tǒng)詳細(xì)安裝步驟請(qǐng)參考配套教材項(xiàng)目三的任務(wù)3-2。安裝注意事項(xiàng)1.本書提供ubuntukylin-16.04版本的安裝文件,讀者不必從官網(wǎng)下載。2.安裝完Ubuntu需要進(jìn)行網(wǎng)絡(luò)設(shè)置。網(wǎng)絡(luò)設(shè)置分為動(dòng)態(tài)ip設(shè)置和靜態(tài)ip設(shè)置,建議設(shè)置靜態(tài)ip3.如偶爾發(fā)生虛擬機(jī)無法啟動(dòng)黑屏的現(xiàn)象,請(qǐng)按如下步驟處理。(1)windows下輸入cmd,右鍵命令提示符,點(diǎn)擊管理員運(yùn)行,進(jìn)入windows命令行窗口。(2)命令行窗口輸入netshwinsockreset,然后重啟計(jì)算機(jī)即可。任務(wù)3-2VMware上安裝和配置Ubuntu系統(tǒng)

由于Hadoop運(yùn)行需要依賴java環(huán)境。所以我們需要先安裝java。本書提供jdk1.8版本的java安裝文件。安裝java的詳細(xì)步驟如下。(1)在/usr/local目錄下新建一個(gè)文件夾jvm用于安裝java??刂婆_(tái)中輸入命令:sudomkdir/usr/local/java。(2)把jdk-8u162-linux-x64.tar.gz文件解壓到/usr/lib/java文件夾下。輸入命令:sudotar-zxvfjdk-8u162-linux-x64.tar.gz-C/usr/lib/java。(3)配置java環(huán)境變量。輸入命令:cd/,回到根目錄。然后輸入命令:sudogedit~/.bashrc。進(jìn)入環(huán)境變量編輯文件。任務(wù)3-3在Ubuntu系統(tǒng)上安裝配置Hadoop3.3.1安裝配置java環(huán)境在文件最后加上如下語(yǔ)句,然后保存關(guān)閉文件。exportJAVA_HOME=/usr/lib/java/jdk1.8.0_162exportJRE_HOME=${JAVA_HOME}/jreexportCLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/libexportPATH=${JAVA_HOME}/bin:$PATH任務(wù)3-3在Ubuntu系統(tǒng)上安裝配置Hadoop(4)執(zhí)行命令:source~/.bashrc,重啟設(shè)置,讓.bashrc文件的配置生效。(5)輸入以下命令:java-version驗(yàn)證java是否正常運(yùn)行。任務(wù)3-3在Ubuntu系統(tǒng)上安裝配置Hadoop

SSH和免密碼登錄一般用于完全分布式集群,為什么單機(jī)偽分布式Hadoop也要進(jìn)行SSH?

Hadoop集群運(yùn)行時(shí),NameNode要遠(yuǎn)程啟動(dòng)DataNode守護(hù)進(jìn)程,NameNode和DataNode之間需要遠(yuǎn)程SSH通信。所以我們需要安裝SSH。但是Hadoop沒有區(qū)分完全分布式和偽分布式,對(duì)于偽分布式Hadoop仍然會(huì)采用與集群相同的處理方式,按次序啟動(dòng)DataNode進(jìn)程,只不過在偽分布式中NameNode和DataNode都為localhost,所以對(duì)于偽分布式,也必須要安裝SSH。任務(wù)3-3在Ubuntu系統(tǒng)上安裝配置Hadoop3.3.2安裝SSH以及免密碼登錄設(shè)置Ubuntu默認(rèn)已安裝了SSHclient,我們只需再安裝SSHserver即可。SSHserver安裝步驟如下。(1)重新打開一個(gè)命令行終端,輸入命令:sudoapt-getinstallopenssh-server,安裝SSHserver。任務(wù)3-3在Ubuntu系統(tǒng)上安裝配置Hadoop

(2)安裝后,可以輸入命令:sshlocalhost,驗(yàn)證登陸本機(jī)。如果出現(xiàn)如圖3-53所示的提示,則輸入yes。

(3)然后輸入密碼,就可以登陸本機(jī)了。任務(wù)3-3在Ubuntu系統(tǒng)上安裝配置Hadoop

為什么又要設(shè)置免密碼登陸呢?

Hadoop有三種運(yùn)行模式,本地模式、偽分布式模式、完全分布式模式。在Hadoop完全分布式運(yùn)行時(shí),NameNode要遠(yuǎn)程啟動(dòng)DataNode守護(hù)進(jìn)程,需要依次輸入密碼,如果節(jié)點(diǎn)太多,則啟動(dòng)非常麻煩。而偽分布式配置Hadoop,NameNode一樣要遠(yuǎn)程啟動(dòng)DataNode守護(hù)進(jìn)程。只不過NameNode和DataNode都是localhost,所以只需要設(shè)置sshlocalhost免密登陸就行。

設(shè)置免密碼的登陸的具體做法如下。任務(wù)3-3在Ubuntu系統(tǒng)上安裝配置Hadoop(1)我們輸入命令:exit,退出已登錄的ssh,然后輸入以下命令:cd~/.ssh/,進(jìn)入ssh目錄。(2)然后輸入命令:ssh-keygen-trsa,生成密鑰,期間要按3次enter鍵。再輸入命令:cat./id_rsa.pub>>./authorized_keys,將密鑰加入到授權(quán)。任務(wù)3-3在Ubuntu系統(tǒng)上安裝配置Hadoop

(3)這時(shí)我們?cè)佥斎朊睿簊shlocalhost,驗(yàn)證登陸本機(jī)。此時(shí)就不需要輸入密碼,直接登錄了。任務(wù)3-3在Ubuntu系統(tǒng)上安裝配置Hadoop本書提供hadoop2.7.1版本的安裝文件,安裝配置Hadoop的步驟如下。(1)在/usr/local目錄下新建一個(gè)文件夾hadoop用于安裝hadoop。我們?cè)趆ome/soft目錄下,把本書提供的hadoop-2.7.1.tar.gz文件拷貝過來。然后在soft目錄下空白處點(diǎn)擊“右鍵”,在彈出的窗口中點(diǎn)擊“在終端打開”,打開命令行控制臺(tái)。在控制臺(tái)中輸入命令:sudomkdir/usr/local/hadoop,按回車,如果需要?jiǎng)t輸入密碼,然后可以看到在/usr/local目錄下有一個(gè)hadoop文件夾。任務(wù)3-3在Ubuntu系統(tǒng)上安裝配置Hadoop3.3.3安裝配置Hadoop

(2)把hadoop-2.7.1.tar.gz文件解壓到/usr/local/hadoop文件夾下。輸入命令:cdhome/person/soft,切換到soft目錄下。然后輸入命令sudotar-zxvfhadoop-2.7.1.tar.gz-C/usr/local/hadoop。任務(wù)3-3在Ubuntu系統(tǒng)上安裝配置Hadoop

(3)Hadoop解壓后即可使用。我們可以輸入如下命令來檢查Hadoop是否可以正常運(yùn)行,輸入命令:cd/usr/local/hadoop/hadoop-2.7.1,將目錄切換到hadoop-2.7.1文件夾下面,然后再輸入命令:./bin/hadoopversion,如果正常會(huì)顯示Hadoop版本信息。任務(wù)3-3在Ubuntu系統(tǒng)上安裝配置Hadoop

(4)此時(shí)的Hadoop即可使用,默認(rèn)為本地模式,無需進(jìn)行其他配置。本地模式下Hadoop運(yùn)行只有一個(gè)Java進(jìn)程。下面我們?cè)龠M(jìn)行Hadoop的偽分布式配置。Hadoop偽分布式配置需要修改兩個(gè)配置文件core-site.xml和hdfs-site.xml。這兩個(gè)配置文件位于/usr/local/hadoop/etc/hadoop/目錄下。我們繼續(xù)再命令行輸入命令:sudogedit./etc/hadoop/core-site.xml,修改core-site.xml文件。任務(wù)3-3在Ubuntu系統(tǒng)上安裝配置Hadoop

(5)在core-site.xml文件<configuration>標(biāo)簽下輸入如下內(nèi)容。輸入完畢后點(diǎn)擊保存,關(guān)閉文件。<configuration><property><name>hadoop.tmp.dir</name><value>file:/usr/local/hadoop//hadoop-2.7.1/tmp</value><description>Abaseforothertemporarydirectories.</description></property><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property></configuration>任務(wù)3-3在Ubuntu系統(tǒng)上安裝配置Hadoop(6)輸入命令:gedit./etc/hadoop/hdfs-site.xml,修改hdfs-site.xml文件。(7)在hdfs-site.xml文件<configuration>標(biāo)簽下輸入如下內(nèi)容。輸入完畢后點(diǎn)擊保存,關(guān)閉文件。<configuration><property><name>dfs.replication</name><value>1</value></property><property><name>.dir</name><value>file:/usr/local/hadoop/hadoop-2.7.1/tmp/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>file:/usr/local/hadoop/hadoop-2.7.1/tmp/dfs/data</value></property></configuration>任務(wù)3-3在Ubuntu系統(tǒng)上安裝配置Hadoop

(8)然后執(zhí)行NameNode的格式化,輸入命令:sudo./bin/hdfsnamenode-format。這時(shí)候我們發(fā)現(xiàn)格式化失敗,報(bào)錯(cuò)了。具體報(bào)錯(cuò)如下圖,status為1。報(bào)錯(cuò)不能在namenode目錄新建文件。這是由于我們當(dāng)前用戶權(quán)限不夠,同時(shí)這里sudo也不起作用。我們需要給當(dāng)前用戶設(shè)置權(quán)限。任務(wù)3-3在Ubuntu系統(tǒng)上安裝配置Hadoop

(9)輸入命令:sudosu,切換當(dāng)前用戶為root。然后輸入命令:sudochmod-Ra+w/usr/local/hadoop/hadoop-2.7.1/設(shè)置用戶權(quán)限。然后輸入命令:superson切換回原來的用戶。再輸入命令:./bin/hdfsnamenode-format。我們看到status為0,則成功。格式化namenode成功后,下一次只需要直接輸入命令:./sbin/start-dfs.sh啟動(dòng)Hadoop,不需要再次格式化。任務(wù)3-3在Ubuntu系統(tǒng)上安裝配置Hadoop

(10)輸入命令:sudogedit./etc/hadoop/hadoop-env.sh,打開hadoop-env.sh文件編輯JAVA_HOME,把值改為jdk所在路徑:/usr/lib/java/jdk1.8.0_162。如果不做這一步,Hadoop啟動(dòng)可能會(huì)報(bào)錯(cuò)。任務(wù)3-3在Ubuntu系統(tǒng)上安裝配置Hadoop

(12)接著我們輸入命令:./sbin/start-dfs.sh,啟動(dòng)HDFS,若啟動(dòng)成功可以輸入jps命令查看進(jìn)程。成功啟動(dòng)后,我們可以通Web界面訪問Hadoop,網(wǎng)址為http://localhost:50070,查看NameNode、Datanode和HDFS的信息。如果要關(guān)閉Hadoop,則輸入:命令stop-dfs.sh。任務(wù)3-3在Ubuntu系統(tǒng)上安裝配置Hadoop任務(wù)3-3在Ubuntu系統(tǒng)上安裝配置Hadoop

(13)配置環(huán)境變量使得Hadoop相關(guān)命令能在任意目錄運(yùn)行。之前我們啟動(dòng)Hadoop都是先進(jìn)到/usr/local/hadoop/hadoop-2.7.1目錄中,再輸入./sbin/start-dfs.sh,這樣不太方便,我們想要在任意目錄輸入start-dfs.sh就能開啟Hadoop和執(zhí)行Hadoop相關(guān)命令。這就需要把Hadoop加入環(huán)境變量。具體做法為:首先關(guān)閉Hadoop。重新開啟一個(gè)命令行終端,輸入命令:sudogedit~/.bashrc,打開.bashrc文件。在文件最后添加:exportPATH=$PATH:/usr/local/hadoop/hadoop-2.7.1/sbin:/usr/local/hadoop/hadoop-2.7.1/bin,保存并關(guān)閉.bashrc文件。

(14)然后輸入命令:source~/.bashrc,更新環(huán)境變量配置。這時(shí)我們?cè)囍斎朊睿簊tart-dfs.sh,Hadoop集群能夠正常啟動(dòng),以后我們就可以在任意目錄運(yùn)行hadoop相關(guān)命令了。任務(wù)3-3在Ubuntu系統(tǒng)上安裝配置Hadoop

本任務(wù)為在Hadoop運(yùn)行wordcount程序?qū)DFS上的文件進(jìn)行詞頻統(tǒng)計(jì),任務(wù)步驟如下。(1)在HDFS新建input目錄,并查看結(jié)果。輸入如下命令:hadoopfs-mkdir/input,新建input目錄。然后輸入命令:hadoopfs-ls-R/,查看input目錄是否創(chuàng)建完畢。任務(wù)3-4在Hadoop上運(yùn)行wordcount程序?qū)ξ募M(jìn)行詞頻統(tǒng)計(jì)任務(wù)3-4在Hadoop上運(yùn)行wordcount程序?qū)ξ募M(jìn)行詞頻統(tǒng)計(jì)

(2)上傳xml文件到HDFS的input目錄下。輸入命令:hadoopfs-put/usr/local/hadoop/hadoop-2.7.1/etc/hadoop/*.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論