版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
V4spark軟件適配手冊(cè)銀河麒麟服務(wù)器操作系統(tǒng)V4銀河麒麟服務(wù)器操作系統(tǒng)V4spark軟件適配手冊(cè)目錄目 概 系統(tǒng)概 環(huán)境概 SPARK軟件簡(jiǎn) SPARK的優(yōu) SPARK架 SPARK運(yùn)行流程及特 SPARK運(yùn)行流 SPARK運(yùn)行特 SPARK軟件適 下載并解壓 安裝 運(yùn)行測(cè) 使用自帶的PYTHONSHELL進(jìn)行測(cè) 使用自帶的SPARKSHELL進(jìn)行測(cè) 執(zhí)行PAGEVIEW測(cè) 銀河麒麟服務(wù)器操作系統(tǒng)V4銀河麒麟服務(wù)器操作系統(tǒng)V4spark軟件適配手冊(cè)概述系統(tǒng)概述銀河麒麟服務(wù)器操作系統(tǒng)主要面向軍隊(duì)綜合電子信息系統(tǒng)、金融系統(tǒng)以及電力系統(tǒng)等國(guó)家關(guān)鍵行業(yè)的服務(wù)器應(yīng)用領(lǐng)域,突出高安全性、高可用性、高效數(shù)據(jù)處理、虛擬化等關(guān)鍵技術(shù)優(yōu)勢(shì),針對(duì)關(guān)鍵業(yè)務(wù)構(gòu)建的豐富高效、安全可靠的功能特性,兼容適配長(zhǎng)城、聯(lián)想、浪潮、華為、曙光等國(guó)內(nèi)主流廠商的服務(wù)器整機(jī)產(chǎn)品,以及達(dá)夢(mèng)、金倉(cāng)、神通、南大通用等主要國(guó)產(chǎn)數(shù)據(jù)庫(kù)和中創(chuàng)、金蝶、東方通等國(guó)產(chǎn)中間件,滿足虛擬化、云計(jì)算和大數(shù)據(jù)時(shí)代,服務(wù)器業(yè)務(wù)對(duì)操作系統(tǒng)在性能、安全性及可擴(kuò)展性等方面的需求,是一款具有高安全、高可用、高可靠、高性能的自主可控服務(wù)器操作系統(tǒng)。環(huán)境概述服務(wù)器型號(hào)長(zhǎng)城信安擎天DF720服務(wù)器CPU類型飛騰2000+處理器操作系統(tǒng)版本Kylin-4.0.2-server-sp2-2000-內(nèi)核版本spark版本spark軟件簡(jiǎn)介ApacheSpark是專為大規(guī)模數(shù)據(jù)處理而設(shè)計(jì)的快速通用的計(jì)算引擎。SparkUCBerkeleyAMPlab(加州大學(xué)伯克利分校的AMP實(shí)驗(yàn)室)所開(kāi)源的類HadoopMapReduce的通用并行框架,Spark,擁有HadoopMapReduce所具有的優(yōu)點(diǎn);但不同于MapReduce的是——Job中間輸出結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫HDFSSpark能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的MapReduce的算法。Spark是一種與Hadoop相似的開(kāi)源集群計(jì)算環(huán)境,但是兩者之間還存在一些不同之處,這些有用的不同之處使Spark在某些工作負(fù)載方面表現(xiàn)得更加優(yōu)越,換句話說(shuō),Spark啟用了內(nèi)存分布數(shù)據(jù)集,除了能夠提供交互式查詢外,它還可以優(yōu)化迭代工作負(fù)載。Spark是在Scala語(yǔ)言中實(shí)現(xiàn)的,它將Scala用作其應(yīng)用程序框架。與Hadoop不同,Spark和Scala能夠緊密集成,其中的Scala可以像操作本地集合對(duì)象一樣輕松地操作分布式數(shù)據(jù)集。盡管創(chuàng)建Spark是為了支持分布式數(shù)據(jù)集上的迭代作業(yè),但是實(shí)際上它是對(duì)Hadoop的補(bǔ)充,可以在Hadoop文件系統(tǒng)中并行運(yùn)行。通過(guò)名為Mesos的第三方集群框架可以支持此行為。Spark由加州大學(xué)伯克利分校AMP實(shí)驗(yàn)室(Algorithms,Machines,andPeopleLab)開(kāi)發(fā),可用來(lái)構(gòu)建大型的、低延遲的數(shù)據(jù)分析應(yīng)用程序。Spark的優(yōu)點(diǎn)快速HadoopMapReduce相比,Spark基于內(nèi)存的運(yùn)算要快100倍以上;而基于磁盤的運(yùn)算也要快10倍以上。Spark實(shí)現(xiàn)了高效的DAG執(zhí)行引擎,可以通過(guò)基于內(nèi)存來(lái)高效地處理數(shù)據(jù)流。簡(jiǎn)介易用SparkJava、PythonScalaAPI,還支持超過(guò)80種高級(jí)算法,使用戶可以快速構(gòu)建不同應(yīng)用。而且Spark支持交互式的PythonScalaShell,這意味著可以非常方便的在這些Shell中使用Spark集群來(lái)驗(yàn)證解決問(wèn)題的方法,而不是像以前一樣,需要打包、上傳集群、驗(yàn)證等。這對(duì)于原型開(kāi)發(fā)非常重要。通用性Spark提供了統(tǒng)一的解決方案。Spark(SparkSQL)、實(shí)時(shí)流處理(通過(guò)SparkStreaming)、機(jī)器學(xué)習(xí)(通過(guò)SparkMLlib)和圖計(jì)算(通過(guò)SparkGraphX)。這些不同類型的處理都可以在同一應(yīng)用中無(wú)縫使用。Spark統(tǒng)一的解決方案非常具有吸引力,畢竟任何公司都想用統(tǒng)一的平臺(tái)處理問(wèn)題,減少開(kāi)發(fā)和維護(hù)的人力成本和部署平臺(tái)的物理成本。當(dāng)然還有,作為統(tǒng)一的解決方案,Spark并沒(méi)有以犧牲性能為代價(jià)。相反,在性能方面Spark具有巨大優(yōu)勢(shì)。可融合性Spark非常方便的與其他開(kāi)源產(chǎn)品進(jìn)行融合。比如,Spark可以使用Hadoop的YARN和ApacheMesos作為它的資源管理和調(diào)度器,并且可以處理所有Hadoop支持的數(shù)據(jù),包括HDFS、HBaseCassanda等。這對(duì)于已部署Hadoop集群的用戶特別重要,因?yàn)椴恍枰鋈魏螖?shù)據(jù)遷移就可以使用Spark強(qiáng)大的處理能力。Spark也可以不依賴第三方的資源管理器和調(diào)度器,它實(shí)現(xiàn)了Standalone作為其內(nèi)置資源管理器和調(diào)度框架,這樣進(jìn)一步降低了Spark的使用門檻,使得所有人可以非常容易地部署和使用SparkSpark還提供了在EC2上部署Standalone的Spark集群的工具。Spark架構(gòu)spark架構(gòu)示意圖所示:SparkCore:包含Spark的基本功能;尤其是定義RDD的API、操作以及這兩者上的動(dòng)作。其他Spark的庫(kù)都是構(gòu)建在RDDSparkCore之上的。SparkSQL:提供通過(guò)ApacheHiveSQL變體Hive查詢語(yǔ)言(HiveQL)與Spark進(jìn)行交互的API。每個(gè)數(shù)據(jù)庫(kù)表被當(dāng)做一個(gè)RDD,SparkSQL查詢被轉(zhuǎn)換為Spark操作。SparkStreaming:對(duì)實(shí)時(shí)數(shù)據(jù)流進(jìn)行處理和控制。SparkStreaming允許程序能夠像普通RDD一樣處理實(shí)時(shí)數(shù)據(jù)MLib:一個(gè)常用機(jī)器學(xué)習(xí)的算法庫(kù),算法被實(shí)現(xiàn)為對(duì)RDDSpark操作。這個(gè)庫(kù)包含可擴(kuò)展的學(xué)習(xí)算法,比如分類、回歸等需要對(duì)大量數(shù)據(jù)集進(jìn)行迭代的操作GraphX:控制圖、并行圖操作和計(jì)算的一組算法和工具的集合。RDDAPI,包含控制圖、創(chuàng)建子圖、訪問(wèn)路徑上所有頂點(diǎn)的操作Spark架構(gòu)采用了分布式計(jì)算中的Master-Slave模型,Master是對(duì)應(yīng)集群中的含有Master進(jìn)程的節(jié)點(diǎn),Slave是集群中含有Worker進(jìn)程的節(jié)點(diǎn)。Master作為整個(gè)集群的控制器,負(fù)責(zé)整個(gè)集群的正常運(yùn)行;Worker相當(dāng)于是計(jì)算節(jié)點(diǎn),接收主節(jié)點(diǎn)命令與進(jìn)行狀態(tài)匯報(bào);Executor負(fù)責(zé)任務(wù)的執(zhí)行;Client作為用戶的客戶端負(fù)責(zé)提交應(yīng)用,Driver負(fù)責(zé)控制一個(gè)應(yīng)用的執(zhí)行。Spark運(yùn)行流程及特點(diǎn)Spark運(yùn)行流程Spark運(yùn)行流程圖如下:SparkApplication的運(yùn)行環(huán)境,啟動(dòng)SparkContext向資源管理器(可以是Standalone,Mesos,Yarn)申請(qǐng)運(yùn)行Executor資源,并啟動(dòng)StandaloneExecutorbackend;ExecutorSparkContext申請(qǐng)SparkContext將應(yīng)用程序分發(fā)給SparkContext構(gòu)建成DAG圖,將DAG圖分解成StageTaskset發(fā)送給TaskScheduler,最后由TaskSchedulerTask發(fā)送給Executor運(yùn)行;TaskExecutor上運(yùn)行,運(yùn)行完釋放所有資源。Spark運(yùn)行特點(diǎn)每個(gè)Application獲取專屬的executor進(jìn)程,該進(jìn)程在Application期間一直駐留,并以多線程方式運(yùn)行TaskApplication隔離機(jī)制是有優(yōu)勢(shì)的,無(wú)論是從調(diào)度角度看(每個(gè)Driver調(diào)度它自己的任務(wù)),還是從運(yùn)行角度看(來(lái)自不同ApplicationTask運(yùn)行在不同JVM中),當(dāng)然這樣意味著SparkApplication不能跨應(yīng)用程序共享數(shù)據(jù),除非將數(shù)據(jù)寫入外部存儲(chǔ)系統(tǒng)。Spark與資源管理器無(wú)關(guān),只要能夠獲取Executor進(jìn)程,并能保持互相通信就可以了。SparkContextClient應(yīng)該靠近Worker節(jié)點(diǎn)(Executor的節(jié)點(diǎn)),最好是在同一個(gè)RackSparkApplication運(yùn)行過(guò)程中SparkContext和Executor之間有大量的信息互換。Task采用了數(shù)據(jù)本地性和推測(cè)執(zhí)行的優(yōu)化機(jī)制。spark軟件適配下載并解壓 /apache/spark/spark-2.4.3/spark-2.4.3-bin-$tarxvfspark-2.4.3-bin-hadoop2.7.tgz-C$$aptinstall修改環(huán)境變量:$$vimexportexportSCALA_HOME=/usr/share/scala-export使環(huán)境變量生效:$$source運(yùn)行測(cè)試使用自帶的pythonshell進(jìn)行測(cè)試$$cd/usr/local/spark-2.4.3-bin-$>>>lines=sc.textFile("/usr/local/spark-2.4.3-bin->>>>>>使用自帶的sparkshell進(jìn)行測(cè)試$$./spark-運(yùn)行結(jié)果如下圖:查看當(dāng)前節(jié)點(diǎn)運(yùn)行情況:$
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 音樂(lè)區(qū)建設(shè)課程設(shè)計(jì)
- 美發(fā)拍攝作品課程設(shè)計(jì)
- 幼兒園服飾主題課程設(shè)計(jì)
- 高中課程設(shè)計(jì)題
- 通信電路課程設(shè)計(jì) 發(fā)射
- 音樂(lè)課程設(shè)計(jì)相關(guān)的論文
- 數(shù)字脈搏器的課程設(shè)計(jì)
- 2025年中國(guó)一次性使用無(wú)菌陰道擴(kuò)張器市場(chǎng)供需格局及未來(lái)發(fā)展趨勢(shì)報(bào)告
- 2022-2027年中國(guó)特種物流行業(yè)市場(chǎng)運(yùn)行現(xiàn)狀及投資戰(zhàn)略研究報(bào)告
- 飲料倉(cāng)儲(chǔ)管理課程設(shè)計(jì)
- 無(wú)水氯化鈣MSDS資料
- 專利產(chǎn)品“修理”與“再造”的區(qū)分
- 氨堿法純堿生產(chǎn)工藝概述
- 健康管理專業(yè)建設(shè)規(guī)劃
- 指揮中心大廳及機(jī)房裝修施工組織方案
- 真心英雄合唱歌詞
- 架空電力線路導(dǎo)線應(yīng)力弧垂計(jì)算
- 上海交通大學(xué)留學(xué)生本科入學(xué)考試 英語(yǔ)
- 【校本教材】《身邊的化學(xué)》高中化學(xué)校本課程
- 常住人口項(xiàng)目變更更正呈批表
- 產(chǎn)后訪視技術(shù)規(guī)范
評(píng)論
0/150
提交評(píng)論