spark安裝部署

上傳人：1*** IP屬地：湖北上傳時(shí)間：2022-03-12 格式：DOC 頁(yè)數(shù)：14 大?。?8KB 積分：30 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩9頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、一、安裝spark依賴(lài)的內(nèi)容1.JDK spark是由Scala語(yǔ)言編寫(xiě)的，但是運(yùn)行的環(huán)境是jvm，所以需要安裝JDK 編譯過(guò)程：Python、java、Scala編寫(xiě)的代碼 -> scala編譯器編譯解釋?zhuān)蒫lass文件 -> 由jvm負(fù)責(zé)執(zhí)行class文件（與java代碼執(zhí)行一致）2.scala 由于 spark是由Scala語(yǔ)言編寫(xiě)的，所以依賴(lài)Scala環(huán)境，且由Scala編寫(xiě)的執(zhí)行代碼也需要環(huán)境進(jìn)行編譯3.配置SSH免密碼登錄集群節(jié)點(diǎn)無(wú)密碼訪(fǎng)問(wèn)，與安裝Ha

2、doop時(shí)一致4.安裝Hadoop hdfs是作為spark的持久層，所以需要安裝Hadoop，同時(shí)如果需要配置spark on yarn，則Hadoop需要安裝yarn版本的5.安裝spark 安裝spark，執(zhí)行spark代碼二、JDK安裝1.下載地址用戶(hù)可以在官網(wǎng)下載相應(yīng)版本的JDK，本例使用JDK1.6,下載地址為： development kit的bin包2.下載后，在相應(yīng)的目錄下執(zhí)行bin文件(假設(shè)JDK目錄是 jdkpath)

3、./ jdk-6u45-linux-i586.bin3.配置環(huán)境變量，修改/etc/profile文件增加以下內(nèi)容 export JAVA_HOME= $jdkpath export PATH=$JAVA_HOME/bin:$PATH export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/jre/lib/dt.jar:$JAVA_HOME/jre/lib/tools.jar4.生效profile(或者重啟機(jī)器

4、) source /etc/profile5.終端輸入 java -version 輸出類(lèi)似如下說(shuō)明安裝成功三、安裝Scala1.下載地址官網(wǎng)下載地址：/download/all.html 本例使用的是Scala 2.9.32.在安裝目錄下解壓（假設(shè)Scala目錄是scalapath） tar -zxvf scala-2.9.3.tgz3.配置環(huán)境變量，修改/etc/p

5、rofile文件增加以下內(nèi)容 export SCALA_HOME= $scalapath export PATH=$SCALA_HOME/bin:$PATH4.生效profile(或者重啟機(jī)器) source /etc/profile四、配置SSH免密碼登陸首先，需要配置各個(gè)機(jī)器間的相互訪(fǎng)問(wèn)：1、配置ssh的自動(dòng)登陸(在master機(jī)上)： $ ssh-keygen -t dsa -P&#

6、160;” -f /.ssh/id_dsa 完成后會(huì)在/.ssh/(用戶(hù)目錄下)生成兩個(gè)文件：id_dsa 和id_dsa.pub。再把id_dsa.pub 追加到授權(quán)key 里面(當(dāng)前并沒(méi)有authorized_keys文件)： $ cat /.ssh/id_dsa.pub >> /.ssh/authorized_keys

7、0; 完成后可以實(shí)現(xiàn)無(wú)密碼登錄本機(jī)： $ ssh localhost2、把master上的id_dsa.pub 文件追加到slaves機(jī)器的authorized_keys 內(nèi)( 以slaves1節(jié)點(diǎn)為例)： #拷貝master的id_dsa.pub文件(在master號(hào)機(jī)器上執(zhí)行) $ scp id_dsa.pub redmap:/home/red

8、map/注：(只需在主節(jié)點(diǎn)上運(yùn)行ssh-kegen程序。其他節(jié)點(diǎn)的目錄結(jié)構(gòu)創(chuàng)建后，將剛才在主節(jié)點(diǎn)創(chuàng)建的keys通過(guò)scp拷貝到從節(jié)點(diǎn)的同樣的目錄上。)我們?cè)趯?shí)際執(zhí)行中是手動(dòng)把id_dsa.pub拷貝到其他slaves的節(jié)點(diǎn)中，而不是用scp命令。最好是直接手動(dòng)拷貝過(guò)去，這樣文件的權(quán)限是一致的。登錄，進(jìn)入用戶(hù)目錄下執(zhí)行： $ cat id_dsa.pub >> .ssh/authorized_keys 之后可以在master上不輸入

9、密碼直接SSH訪(fǎng)問(wèn)slaves1五、安裝Hadoop2.x1.下載Hadoop 下載地址本文使用hadoop-2.5.2.tar2.解壓壓縮包到指定目錄 tar -zxvf hadoop-2.5.2.tar -C /usr/local (目錄自定義) 如果需要修改擁有者 chown -R hduser:hadoop hadoop-2.5.23.配置環(huán)境變量編輯profile文件 vi /e

10、tc/profile 在profile文件增加以下內(nèi)容 python view plaincopy1. export HADOOP_HOME=/home/root/hadoop-2.5.2 （安裝路徑） 2. export PATH=$PATH:$HADOOP_HOME/bin 3. 4. export PATH=$PATH:$HADOOP_HOME/sbin

11、;5. 6. export HADOOP_MAPRED_HOME=$HADOOP_HOME 7. 8. export HADOOP_COMMON_HOME=$HADOOP_HOME 9. 10. export HADOOP_HDFS_HOME=$HADOOP_HOME 11. 12. export HADOOP_YARN_HOME=$HADOOP_HOME&#

12、160; 4.編輯配置文件 (1)進(jìn)入Hadoop安裝路徑下的/etc/hadoop目錄 (2)配置Hadoop-env.sh文件增加 export JAVA_HOME=.（java JDK安裝路徑） (3)修改hadoop安裝目錄下/etc/hadoop目錄中的core-site.xmlhtml view plaincopy1. <configuration> 2. <property>&

13、#160; 3. <name>io.native.lib.available</name> 4. <value>true</value> 5. </property> 6. <property> 7.

14、 <name></name> 8. <value>hdfs:/host:9000</value>/本機(jī)的Ip地址或者域名，端口自己設(shè)置 9. <description>The name of the default file s

15、ystem.Either the literal string "local" or a host:port for NDFS.</description> 10. <final>true</final> 11. </property> 12. <p

16、roperty> 13. <name>hadoop.tmp.dir</name> 14. <value>file:/home/tmp</value> 15. </property> 16. </configuration&g

17、t; (4) 在etc/hadoop目錄中編輯hdfs-site.xmlhtml view plaincopy1. <configuration> 2. <property> 3. <name>.dir</name> 4. <value>file:/usr/hadoop23/dfs/name</value>/本機(jī)保存nam

18、e數(shù)據(jù)的目錄，自定義 5. <description>Determines where on the local filesystem the DFS name node should store the name table.If this is a comma-delimited list of directories,then

19、;name table is replicated in all of the directories,for redundancy.</description> 6. <final>true</final> 7. </property> 8. <property> 9. <name>dfs.datanode.data.di

20、r</name> 10. <value>file:/us/hadoop23/dfs/data</value>/本機(jī)保存data數(shù)據(jù)的目錄，自定義 11. <description>Determines where on the local filesystem an DFS data node should store its blocks.If

21、60;this is a comma-delimited list of directories,then data will be stored in all named directories,typically on different devices.Directories that do not exist are ignored. 1

22、2. </description> 13. <final>true</final> 14. </property> 15. <property> 16. <name>dfs.replication</name> 17. <value>1</value> 18. </property> &#

23、160;19. <property> 20. <name>dfs.permission</name> 21. <value>false</value> 22. </property> 23. <property> 24. <name>dfs.webhdfs.enabled</name> 25. <valu

24、e>true</value> 26. </property> 27. </configuration> 路徑file:/usr/hadoop23/dfs/name與file:/usr/hadoop23/dfs/data是計(jì)算機(jī)中的一些文件夾，用于存放數(shù)據(jù)和編輯文件的路徑必須用一個(gè)詳細(xì)的URI描述。 (5) 在etc/hadoop目錄中編輯mapred-site

25、.xmlhtml view plaincopy1. <configuration> 2. <configuration> 3. <property> 4. <name>mapreduce.framework.na

26、me</name> 5. <value>yarn</value> 6. <description>yarn,local,classic</de

27、scription> 7. </property> 8. <property> 9. <name>mapreduce.jobhistory.ad

28、dress</name> 10. <value>master:10020</value> 11. </property> 12. <

29、property> 13. <name>mapreduce.jobhistory.webapp.address</name> 14. <value>mas

30、ter:19888</value> 15. </property> 16. </configuration> (6)編輯yarn-site.xmlhtml view plaincopy1. <configuration> 2. <property> 3. <

31、;name>yarn.resourcemanager.address</name> 4. <value>host:port</value>/本機(jī)的Ip地址或者域名，端口自己設(shè)置 5. <description>the host is the hostname of the ResourceManager and the port is the port on&

32、#160; 6. which the clients can talk to the Resource Manager. </description> 7. </property> 8. <property> 9. <name>yarn.resourcemanager.scheduler.address</name> 10. <va

33、lue> host:port </value>/本機(jī)的Ip地址或者域名，端口自己設(shè)置 11. <description>host is the hostname of the resourcemanager and port is the port 12. on which the Applications

34、;in the cluster talk to the Resource Manager. 13. </description> 14. </property> 15. <property> 16. <name>yarn.resourcemanager.resource-tracker.address</name> 17. <value&g

35、t; host:port </value>/本機(jī)的Ip地址或者域名，端口自己設(shè)置 18. <description>host is the hostname of the resource manager and 19. port is the port on which the NodeManage

36、rs contact the Resource Manager. 20. </description> 21. </property> 22. <property> 23. <name>yarn.resourcemanager.admin.address</name> 24. <value> host:8033 </value>/本

37、機(jī)的Ip地址或者域名，端口自己設(shè)置 25. <description>host is the hostname of the resource manager and 26. port is the port on which the NodeManagers contact the Resource&

38、#160;Manager. 27. </description> 28. </property> 29. <property> 30. <name>yarn.resourcemanager.webapp.address</name> 31. <value> host:8088 </value>/本機(jī)的Ip地址或者域名，端口自己設(shè)置 32.

39、;<description>host is the hostname of the resource manager and 33. port is the port on which the NodeManagers contact the Resource Manager. 34. <

40、;/description> 35. </property> 36. <property> 37. <name>yarn.nodemanager.aux-services</name> 38. <value>mapreduce.shuffle</value> 39. </property> 40. <property> 41. <nam

41、e>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name> 42. <value>org.apache.hadoop.mapred.ShuffleHandler</value> 43. </property> 44. <property> 45. <name>yarn.resourcemanager.admin.address</name> &

42、#160;46. <value>master:8033</value> 47. </property> 48. <property> 49. <name>yarn.resourcemanager.webapp.address</name> 50. <value>master:8088</value> 51. </property> 52. </conf

43、iguration> 5.配置masters和slaves文件 (1)如果etc/hadoop目錄下沒(méi)有masters文件，則新建一個(gè)，并添加集群的主節(jié)點(diǎn)名稱(chēng)或者IP，最好和之前的配置格式一致，同為IP或者同為主機(jī)名稱(chēng) 比如：本文配置的masters文件內(nèi)容為（master為某個(gè)主節(jié)點(diǎn)名稱(chēng)） master (2)修改slaves文件，添加所有slave機(jī)器的名稱(chēng)或IP 比如：本文配置的slaves文件內(nèi)容為（由于配置

44、的是偽分布式集群，所以?xún)?nèi)容和masters文件一樣） master6.如果有多個(gè)slaves機(jī)器，則需要把配置好的Hadoop文件分發(fā)到各個(gè)節(jié)點(diǎn)相同路徑下，修改profile文件和master一致，修改hosts文件，增加所有的機(jī)器名稱(chēng)和IP對(duì)應(yīng)關(guān)系，同時(shí)確保各個(gè)節(jié)點(diǎn)上Hadoop目錄的權(quán)限，操作用戶(hù)對(duì)Hadoop目錄有擁有權(quán) 按以上的配置修改好集群的節(jié)點(diǎn)后，最好重啟所有節(jié)點(diǎn)，確保所有配置文件生效7.格式化namenode hadoop nameno

45、de -format8.啟動(dòng)Hadoop ./sbin/start-all.sh9.查看是否啟動(dòng)成功（1）如果是單機(jī)偽分布式集群執(zhí)行 jps 命令，輸出類(lèi)似如下，則說(shuō)明安裝成功8451 SecondaryNameNode8721 NodeManager8592 ResourceManager9384 Jps8152 NameNode8282 DataNode （2）如果是多個(gè)幾點(diǎn)的分布式集群在主節(jié)點(diǎn)執(zhí)行jps命令時(shí)，只有 &

46、#160; 8451 SecondaryNameNode 8592 ResourceManager 9384 Jps 8152 NameNode 而在slave機(jī)器執(zhí)行命令時(shí)，只有 9384 Jps 8282 DataNode

47、; 8721 NodeManager10.關(guān)閉Hadoop ./sbin/stop-all.sh六、安裝spark1.x1.下載安裝包官網(wǎng)地址： /downloads.html 本文使用的是spark1.0.02.解壓壓縮包到指定目錄 tar -zxvf spark-1.0.0.tar.gz -C 指定目錄（假設(shè)為sparkpath）3.修改profile文件 vi /etc/profile 添加以下內(nèi)容 export SPARK_HOME=sparkpath export PATH=$PATH:$SPARK_HOME/bin4.編輯spark安裝目錄下con

人人文庫(kù)> 全部分類(lèi)> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

spark安裝部署

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

spark安裝部署

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔