單元9 任務(wù)9.1部署與操作Spark Local_第1頁(yè)
單元9 任務(wù)9.1部署與操作Spark Local_第2頁(yè)
單元9 任務(wù)9.1部署與操作Spark Local_第3頁(yè)
單元9 任務(wù)9.1部署與操作Spark Local_第4頁(yè)
單元9 任務(wù)9.1部署與操作Spark Local_第5頁(yè)
已閱讀5頁(yè),還剩13頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

單元9

Spark計(jì)算框架部署任務(wù)9.1部署與操作SparkLocal任務(wù)9.1部署與操作SparkLocal【任務(wù)場(chǎng)景】經(jīng)理:小張,現(xiàn)在我們的業(yè)務(wù)壓力很大,MapReduce任務(wù)經(jīng)常很長(zhǎng)時(shí)間處理不完。有什么方法解決嗎?小張:根據(jù)我們的業(yè)務(wù)分析,Spark非常適合我們的計(jì)算任務(wù),它通過(guò)使用內(nèi)存進(jìn)行持久化存儲(chǔ)和計(jì)算,避免了磁盤(pán)上的中間數(shù)據(jù)存儲(chǔ)過(guò)程,將計(jì)算速度提高了數(shù)百倍。并且,Spark的流式計(jì)算也能解決我們的實(shí)時(shí)業(yè)務(wù)。經(jīng)理:那你研究一下,給我們演示一下把。小張:好的,我搭建一個(gè)驗(yàn)證環(huán)境。任務(wù)9.1部署與操作SparkLocal任務(wù)布置:了解Spark原理和體系架構(gòu),搭建SparkLocal環(huán)境并體驗(yàn)Spark運(yùn)行示例。知識(shí)點(diǎn)1:Spark原理與體系架構(gòu)快速、分布式、可擴(kuò)展、容錯(cuò)的集群計(jì)算框架;Spark是基于內(nèi)存計(jì)算的大數(shù)據(jù)分布式計(jì)算框架低延遲的復(fù)雜分析;Spark是HadoopMapReduce的替代方案。MapReudce不適合迭代和交互式任務(wù),Spark主要為交互式查詢和迭代算法設(shè)計(jì),支持內(nèi)存存儲(chǔ)和高效的容錯(cuò)恢復(fù)。Spark擁有MapReduce具有的優(yōu)點(diǎn),但不同于MapReduce,Spark中間輸出結(jié)果可以保存在內(nèi)存中,減少讀寫(xiě)HDFS的次數(shù)知識(shí)點(diǎn)1:Spark原理與體系架構(gòu)知識(shí)點(diǎn)1:Spark原理與體系架構(gòu)Spark特點(diǎn):速度快一般情況下,對(duì)于迭代次數(shù)較多的應(yīng)用程序,Spark程序在內(nèi)存中的運(yùn)行速度是HadoopMapReduce運(yùn)行速度的100多倍,在磁盤(pán)上的運(yùn)行速度是HadoopMapReduce運(yùn)行速度的10多倍。知識(shí)點(diǎn)1:Spark原理與體系架構(gòu)Spark特點(diǎn):易用性Spark支持使用Scala、Python、Java及R語(yǔ)言快速編寫(xiě)應(yīng)用。同時(shí)Spark提供超過(guò)80個(gè)高級(jí)運(yùn)算符,使得編寫(xiě)并行應(yīng)用程序變得容易并且可以在Scala、Python或R的交互模式下使用Spark。知識(shí)點(diǎn)1:Spark原理與體系架構(gòu)Spark特點(diǎn):通用性

SparkCore:包含Spark的基本功能;尤其是定義RDD的API、操作以及這兩者上的動(dòng)作。其他Spark的庫(kù)都是構(gòu)建在RDD和SparkCore之上。SparkSQL:提供通過(guò)ApacheHive的SQL變體Hive查詢語(yǔ)言(HiveQL)與Spark進(jìn)行交互的API。每個(gè)數(shù)據(jù)庫(kù)表被當(dāng)做一個(gè)RDD,SparkSQL查詢被轉(zhuǎn)換為Spark操作。SparkStreaming:對(duì)實(shí)時(shí)數(shù)據(jù)流進(jìn)行處理和控制。SparkStreaming允許程序能夠像普通RDD一樣處理實(shí)時(shí)數(shù)據(jù)。MLlib:一個(gè)常用機(jī)器學(xué)習(xí)算法庫(kù),算法被實(shí)現(xiàn)為對(duì)RDD的Spark操作。這個(gè)庫(kù)包含可擴(kuò)展的學(xué)習(xí)算法,比如分類(lèi)、回歸等需要對(duì)大量數(shù)據(jù)集進(jìn)行迭代的操作。GraphX:控制圖、并行圖操作和計(jì)算的一組算法和工具的集合。GraphX擴(kuò)展了RDDAPI,包含控制圖、創(chuàng)建子圖、訪問(wèn)路徑上所有頂點(diǎn)的操作。知識(shí)點(diǎn)1:Spark原理與體系架構(gòu)Spark特點(diǎn):隨處運(yùn)行用戶可以使用Spark的獨(dú)立集群模式運(yùn)行Spark,也可以在EC2(亞馬遜彈性計(jì)算云)、HadoopYARN或者ApacheMesos上運(yùn)行Spark。并且可以從HDFS、Cassandra、HBase、Hive、Tachyon和任何分布式文件系統(tǒng)讀取數(shù)據(jù)知識(shí)點(diǎn)1:Spark原理與體系架構(gòu)Spark體系架構(gòu):知識(shí)點(diǎn)1:Spark原理與體系架構(gòu)

Local模式即單機(jī)模式,用單機(jī)的多個(gè)線程來(lái)模擬Spark分布式計(jì)算,如果在命令語(yǔ)句中不加任何配置,則默認(rèn)是Local模式,在本地運(yùn)行。Local模式就是運(yùn)行在一臺(tái)計(jì)算機(jī)上的模式,通常就是用于在本機(jī)上練手和測(cè)試。local:所有計(jì)算都運(yùn)行在一個(gè)線程當(dāng)中,沒(méi)有任何并行計(jì)算,通常我們?cè)诒緳C(jī)執(zhí)行一些測(cè)試代碼,或者練手,就用這種模式;local[K]:指定使用幾個(gè)線程來(lái)運(yùn)行計(jì)算,比如local[4]就是運(yùn)行4個(gè)Worker線程。通常我們的Cpu有幾個(gè)Core,就指定幾個(gè)線程,最大化利用Cpu的計(jì)算能力。local[*]:這種模式直接按照Cpu最多Cores來(lái)設(shè)置線程數(shù)了SparkLocal模式部署過(guò)程部署SparkLocal模式按照以下3個(gè)步驟完成;準(zhǔn)備操作系統(tǒng)環(huán)境部署SparkLocal驗(yàn)證SparkLocal

SparkLocal模式部署過(guò)程準(zhǔn)備操作系統(tǒng)環(huán)境

操作系統(tǒng)準(zhǔn)備操作和前面部署Hadoop平臺(tái)相似都需要進(jìn)行以下準(zhǔn)備工作:

(1)關(guān)閉防火墻

(2)配置主機(jī)名、IP地址

(3)禁用selinux(4)安裝部署JDK

以上操作步驟和任務(wù)2.1基本一致,詳細(xì)步驟可參考任務(wù)2.1。SparkLocal模式部署過(guò)程2.部署SparkLocal下載并解壓spark安裝包下載spark-3.2.0-bin-hadoop3.2.tgz文件,解壓并放到/usr/local目錄下。[root@localhostlocal]#tar-zxvfspark-3.2.0-bin-hadoop3.2.tgz-C/usr/local[root@localhostlocal]#mvspark-3.2.0-bin-hadoop3.2spark

配置環(huán)境變量:vim/etc/profile在配置文件中增加以下3行:exportSPARK_HOME=/opt/sparkexportSPARK_CONF_DIR=$SPARK_HOME/confexportPATH=$PATH:$SPARK_HOME/bin使環(huán)境變量生效:

source/etc/profile為啟動(dòng)pyspark,安裝pyspark客戶端[root@localhost~]#yuminstallpython3[root@localhost~]#pip3installpysparkSparkLocal模式部署過(guò)程3.驗(yàn)證SparkLocal:運(yùn)行spark-submit命令提交運(yùn)行Spark任務(wù):–master指定Master的地址,默認(rèn)為L(zhǎng)ocal–class:你的應(yīng)用的啟動(dòng)類(lèi)(如org.apache.spark.examples.SparkPi)–deploy-mode:是否發(fā)布你的驅(qū)動(dòng)到worker節(jié)點(diǎn)(cluster)或者作為一個(gè)本地客戶端(client)(default:client)*–conf:任意的Spark配置屬性,格式key=value.如果值包含空格,可以加引號(hào)“key=value”[root@localhost~]#bin/spark-submit\--class<main-class>\--master<master-url>\--deploy-mode<deploy-mode>\--conf<key>=<value><application-jar>[application-0arguments]SparkLocal模式部署過(guò)程

Spark運(yùn)行示例,計(jì)算圓周率運(yùn)行結(jié)果“Piisroughly3.1415191415191415”,執(zhí)行成功。[root@localhost~]#]#spark-submit--classorg.apache.spark.examples.SparkPi--masterlocalexamples/jars/spark-examples*.jar102021-11-3023:04:53,331INFO

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論