版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、Spark大數(shù)據(jù)分析演講人2020-12-0201Spark簡(jiǎn)介Spark簡(jiǎn)介DSpark架構(gòu)ERDDASpark執(zhí)行特點(diǎn)BSpark優(yōu)勢(shì)CSpark生態(tài)系統(tǒng)BDASSpark簡(jiǎn)介Spark執(zhí)行特點(diǎn)數(shù)據(jù)格式和內(nèi)存布局使用RDD0204任務(wù)調(diào)度使用事件驅(qū)動(dòng)AKKA,避免使用線程池中間結(jié)果無(wú)需輸出到HDFS03執(zhí)行策略不同Stage需要shuffle01Spark簡(jiǎn)介Spark優(yōu)勢(shì)01打造全棧多計(jì)算凡是的高效數(shù)據(jù)流水線03易于使用,支持多語(yǔ)言05社區(qū)活躍度高02輕量級(jí)快速處理04ExternalDataSource多數(shù)據(jù)支持打造全棧多計(jì)算凡是的高效數(shù)據(jù)流水線支持MR, SQL查詢, 流式計(jì)算, 機(jī)
2、器學(xué)習(xí)和圖算法, 用戶可以在一個(gè)工作流無(wú)縫搭配這些計(jì)算范式輕量級(jí)快速處理Scala簡(jiǎn)化了代碼利用了第三方組件基于內(nèi)存計(jì)算,減少了磁盤(pán)IO易于使用,支持多語(yǔ)言支持Scala,Java,Python自帶80多個(gè)算子Spark簡(jiǎn)介Spark生態(tài)系統(tǒng)BDAS數(shù)據(jù)分析棧組件組件Spark組件Spark SQLSpark Streaming流式計(jì)算吞吐量超過(guò)Strom組件GraphX經(jīng)行大規(guī)模同步全局的圖計(jì)算組件分布式機(jī)器學(xué)習(xí)算法庫(kù)分類(lèi), 回歸, 聚類(lèi) ,協(xié)同過(guò)濾 , 梯度下降優(yōu)化MLlibSpark簡(jiǎn)介Spark架構(gòu)Spark組件運(yùn)行邏輯Spark組件DirverClientWorkerExecutor
3、SparkConextRDDSpark組件Task Scheduler02DAG schedule01SparkEnv03Dirver創(chuàng)建SparkContext的main函數(shù)Spark組件Client用戶提交作業(yè)的客戶端Spark組件Worker集群中任何可以運(yùn)行Application代碼的節(jié)點(diǎn), 運(yùn)行一個(gè)或多個(gè)Executor進(jìn)程Spark組件Executor運(yùn)行Worker的Task執(zhí)行器Spark組件SparkConext應(yīng)用的上下文, 控制應(yīng)用的聲明周期Spark組件RDDSpark組件Spark的基本計(jì)算單元, 一組RDD形成執(zhí)行的有向無(wú)環(huán)圖DAG scheduleSpark組件根
4、據(jù)Job構(gòu)建基于Stage的DAG工作流, 并提交Stage給TaskSchedulerTask SchedulerTask分發(fā)給Executor執(zhí)行Spark組件SparkEnv線程級(jí)別的上下文Spark組件運(yùn)行邏輯作業(yè)提交 Client-Master- Worker-Driver-Master-RDD-Stage DAG - TaskScheduler- Executor作業(yè)執(zhí)行 ShuffleSpark簡(jiǎn)介RDDRDD的重要內(nèi)部屬性Spark計(jì)算工作流彈性分布式數(shù)據(jù)集RDD創(chuàng)建方式RDD的兩種操作算子RDD創(chuàng)建方式011. HDFS輸入創(chuàng)建022. 父RDD轉(zhuǎn)換033. parallei
5、ze或makeRDD將單機(jī)數(shù)據(jù)創(chuàng)建為分布式RDDRDD的兩種操作算子轉(zhuǎn)換(Transformation) 延遲計(jì)算map, flatMap, mapPartitions.行動(dòng)(Action) 觸發(fā)提交作業(yè)Jobforeach, saveAsTextFile.RDD的重要內(nèi)部屬性對(duì)父RDD的依賴列表對(duì)key-value pair數(shù)據(jù)類(lèi)型RDD的分區(qū)器, 控制分片策略和分區(qū)數(shù)計(jì)算每個(gè)分片的函數(shù)每個(gè)數(shù)據(jù)分區(qū)的地址列表分區(qū)列表02BDASBDASSQL on Spark(替代Hive)A1. Catalyst架構(gòu)及執(zhí)行流程2. SparkSql優(yōu)化策略BSpark Streaming(替代Storm)
6、優(yōu)勢(shì)與特點(diǎn) 1. 多范式數(shù)據(jù)分析管道2. 擴(kuò)展性, 可運(yùn)行在100個(gè)節(jié)點(diǎn)以上的集群3. 容錯(cuò)性4. 吞吐量大(超過(guò)Storm)5. 實(shí)時(shí)性比Storm略低(batch size選取為0.52S, storm為100ms)Spark Stream架構(gòu)BDASGraphX(替代GraphLab)BDASMLlib(替代Mahout)03Lamda架構(gòu)日志分析流水線Lamda架構(gòu)日志分析流水線日志分析指標(biāo)PV01UV02留存率05漏斗模型與轉(zhuǎn)化率04PVUV03Lamda架構(gòu)日志分析流水線Lamda架構(gòu)010203速度層(Speed Layer)批處理層(Batch Layer)服務(wù)層(Servin
7、g Layer)實(shí)時(shí)日志分析流水線架構(gòu)Flume NG數(shù)據(jù)采集0102Flume 匯總到Kafka數(shù)據(jù)匯總和轉(zhuǎn)發(fā)Spark Streaming數(shù)據(jù)處理0304Flask結(jié)果呈現(xiàn)離線日志分析流水線架構(gòu)Flume轉(zhuǎn)儲(chǔ)到HDFS數(shù)據(jù)存儲(chǔ)Spark SQL數(shù)據(jù)處理Flask結(jié)果呈現(xiàn)04基于云平臺(tái)和用戶日志的推薦系統(tǒng)基于云平臺(tái)和用戶日志的推薦系統(tǒng)系統(tǒng)架構(gòu) 數(shù)據(jù)收集聚合數(shù)據(jù)處理結(jié)果輸出離線訓(xùn)練 Spark MLlib中的ALS模型05分布式的搜索引擎分布式的搜索引擎計(jì)算網(wǎng)頁(yè)的PageRank值06微博情感分析微博情感分析數(shù)據(jù)收集熱點(diǎn)微博分析Spark SQL進(jìn)行離線分析系統(tǒng)架構(gòu)數(shù)據(jù)預(yù)處理和Cassandr
8、a存儲(chǔ)在線情感分析微博情感分析微博可視化熱點(diǎn)新聞分析系統(tǒng)微博情感分析系統(tǒng)架構(gòu)Spark分析模塊03Spark Streaming 微博收集與分析模塊01Mysql結(jié)果存儲(chǔ)模塊04Cassandra持久化存儲(chǔ)模塊02系統(tǒng)架構(gòu)提供可視化數(shù)據(jù)Mysql結(jié)果存儲(chǔ)模塊04情感分析Spark分析模塊03 Cassandra持久化存儲(chǔ)模塊02實(shí)時(shí)聚類(lèi)和熱點(diǎn)分析Spark Streaming 微博收集與分析模塊01數(shù)據(jù)收集微博數(shù)據(jù)收集微博情感分析數(shù)據(jù)收集微博數(shù)據(jù)收集數(shù)據(jù)預(yù)處理和Cassandra存儲(chǔ)作為存儲(chǔ)引擎進(jìn)行數(shù)據(jù)分析微博情感分析數(shù)據(jù)預(yù)處理和Cassandra存儲(chǔ)作為存儲(chǔ)引擎進(jìn)行數(shù)據(jù)分析熱點(diǎn)微博分析Spa
9、rk Stream 滑動(dòng)窗口API微博情感分析熱點(diǎn)微博分析Spark Stream 滑動(dòng)窗口API在線情感分析使用遞歸神經(jīng)網(wǎng)路RNN經(jīng)行微博情感分析在線情感分析使用遞歸神經(jīng)網(wǎng)路RNN經(jīng)行微博可視化D3, Echarts, HightCharts.微博情感分析微博可視化D3, Echarts, HightCharts.微博情感分析熱點(diǎn)新聞分析系統(tǒng)01系統(tǒng)架構(gòu)02爬蟲(chóng)抓取網(wǎng)絡(luò)信息03新聞文本數(shù)據(jù)預(yù)處理04新聞聚類(lèi)05Spark Elastic Search 構(gòu)建全文檢索引擎系統(tǒng)架構(gòu)新聞抓取模塊01Scrapy抓取Kafka傳輸Mongo存儲(chǔ)實(shí)時(shí)新聞分析模塊02Spark Streaming實(shí)時(shí)處理
10、離線新聞分析模塊03Spark定時(shí)從MongoDB中批量處理,離線熱點(diǎn)分析可視化呈現(xiàn)界面04 熱點(diǎn)新聞分析系統(tǒng)爬蟲(chóng)抓取網(wǎng)絡(luò)信息熱點(diǎn)新聞分析系統(tǒng)新聞文本數(shù)據(jù)預(yù)處理新聞聚類(lèi)文本聚類(lèi)分析 1. 使用向量空間模型進(jìn)行數(shù)據(jù)轉(zhuǎn)換2. 通過(guò)K-Means進(jìn)行聚類(lèi)數(shù)據(jù)準(zhǔn)換為向量 向量空間模型熱點(diǎn)新聞分析系統(tǒng)Spark Elastic Search 構(gòu)建全文檢索引擎07熱點(diǎn)新聞分析系統(tǒng)系統(tǒng)架構(gòu)新聞抓取模塊01Scrapy抓取Kafka傳輸Mongo存儲(chǔ)實(shí)時(shí)新聞分析模塊02Spark Streaming實(shí)時(shí)處理離線新聞分析模塊03Spark定時(shí)從MongoDB中批量處理,離線熱點(diǎn)分析可視化呈現(xiàn)界面04 熱點(diǎn)新聞分析系統(tǒng)爬蟲(chóng)抓取網(wǎng)絡(luò)信息熱點(diǎn)新聞分析系統(tǒng)新聞文本數(shù)據(jù)預(yù)處理新聞聚類(lèi)文本聚類(lèi)分析 1. 使用向量空間模型進(jìn)行數(shù)據(jù)轉(zhuǎn)換2. 通過(guò)K-Means進(jìn)行聚類(lèi)數(shù)據(jù)準(zhǔn)換為向量 向量空間模型熱點(diǎn)新聞分析系統(tǒng)Spark Elastic Search 構(gòu)建全文檢索引擎08個(gè)性化推薦算法協(xié)同過(guò)濾推薦算法基
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度個(gè)人股權(quán)并購(gòu)及整合實(shí)施合同4篇
- 二零二五年度個(gè)人消費(fèi)貸款擔(dān)保協(xié)議書(shū)4篇
- 二零二五年度門(mén)窗行業(yè)供應(yīng)鏈管理服務(wù)合同8篇
- 2025年度個(gè)人二手房買(mǎi)賣(mài)合同交易稅費(fèi)減免優(yōu)惠政策4篇
- 2025年房地產(chǎn)教育咨詢服務(wù)代理合同2篇
- 2025年度個(gè)人股權(quán)投資協(xié)議(風(fēng)險(xiǎn)投資)4篇
- 地鐵主體結(jié)構(gòu)施工方案
- 市場(chǎng)研究專(zhuān)題報(bào)告十一 鈣通道阻滯劑市場(chǎng)研究專(zhuān)題報(bào)告202410
- 二零二五年度模具生產(chǎn)車(chē)間環(huán)保治理承包協(xié)議4篇
- 巴中水下施工方案
- 人教版(2025新版)七年級(jí)下冊(cè)英語(yǔ):寒假課內(nèi)預(yù)習(xí)重點(diǎn)知識(shí)默寫(xiě)練習(xí)
- 2024年食品行業(yè)員工勞動(dòng)合同標(biāo)準(zhǔn)文本
- 全屋整裝售后保修合同模板
- 高中生物學(xué)科學(xué)推理能力測(cè)試
- GB/T 44423-2024近紅外腦功能康復(fù)評(píng)估設(shè)備通用要求
- 2024-2030年中國(guó)減肥行業(yè)市場(chǎng)發(fā)展分析及發(fā)展趨勢(shì)與投資研究報(bào)告
- 2024年公安部直屬事業(yè)單位招聘筆試參考題庫(kù)附帶答案詳解
- 臨沂正祥建材有限公司牛心官莊鐵礦礦山地質(zhì)環(huán)境保護(hù)與土地復(fù)墾方案
- 六年級(jí)上冊(cè)數(shù)學(xué)應(yīng)用題練習(xí)100題及答案
- 死亡報(bào)告年終分析報(bào)告
- 棋牌室禁止賭博警示語(yǔ)
評(píng)論
0/150
提交評(píng)論