




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、Spark大數(shù)據(jù)分析演講人2020-12-0201Spark簡介Spark簡介DSpark架構(gòu)ERDDASpark執(zhí)行特點BSpark優(yōu)勢CSpark生態(tài)系統(tǒng)BDASSpark簡介Spark執(zhí)行特點數(shù)據(jù)格式和內(nèi)存布局使用RDD0204任務(wù)調(diào)度使用事件驅(qū)動AKKA,避免使用線程池中間結(jié)果無需輸出到HDFS03執(zhí)行策略不同Stage需要shuffle01Spark簡介Spark優(yōu)勢01打造全棧多計算凡是的高效數(shù)據(jù)流水線03易于使用,支持多語言05社區(qū)活躍度高02輕量級快速處理04ExternalDataSource多數(shù)據(jù)支持打造全棧多計算凡是的高效數(shù)據(jù)流水線支持MR, SQL查詢, 流式計算, 機
2、器學習和圖算法, 用戶可以在一個工作流無縫搭配這些計算范式輕量級快速處理Scala簡化了代碼利用了第三方組件基于內(nèi)存計算,減少了磁盤IO易于使用,支持多語言支持Scala,Java,Python自帶80多個算子Spark簡介Spark生態(tài)系統(tǒng)BDAS數(shù)據(jù)分析棧組件組件Spark組件Spark SQLSpark Streaming流式計算吞吐量超過Strom組件GraphX經(jīng)行大規(guī)模同步全局的圖計算組件分布式機器學習算法庫分類, 回歸, 聚類 ,協(xié)同過濾 , 梯度下降優(yōu)化MLlibSpark簡介Spark架構(gòu)Spark組件運行邏輯Spark組件DirverClientWorkerExecutor
3、SparkConextRDDSpark組件Task Scheduler02DAG schedule01SparkEnv03Dirver創(chuàng)建SparkContext的main函數(shù)Spark組件Client用戶提交作業(yè)的客戶端Spark組件Worker集群中任何可以運行Application代碼的節(jié)點, 運行一個或多個Executor進程Spark組件Executor運行Worker的Task執(zhí)行器Spark組件SparkConext應(yīng)用的上下文, 控制應(yīng)用的聲明周期Spark組件RDDSpark組件Spark的基本計算單元, 一組RDD形成執(zhí)行的有向無環(huán)圖DAG scheduleSpark組件根
4、據(jù)Job構(gòu)建基于Stage的DAG工作流, 并提交Stage給TaskSchedulerTask SchedulerTask分發(fā)給Executor執(zhí)行Spark組件SparkEnv線程級別的上下文Spark組件運行邏輯作業(yè)提交 Client-Master- Worker-Driver-Master-RDD-Stage DAG - TaskScheduler- Executor作業(yè)執(zhí)行 ShuffleSpark簡介RDDRDD的重要內(nèi)部屬性Spark計算工作流彈性分布式數(shù)據(jù)集RDD創(chuàng)建方式RDD的兩種操作算子RDD創(chuàng)建方式011. HDFS輸入創(chuàng)建022. 父RDD轉(zhuǎn)換033. parallei
5、ze或makeRDD將單機數(shù)據(jù)創(chuàng)建為分布式RDDRDD的兩種操作算子轉(zhuǎn)換(Transformation) 延遲計算map, flatMap, mapPartitions.行動(Action) 觸發(fā)提交作業(yè)Jobforeach, saveAsTextFile.RDD的重要內(nèi)部屬性對父RDD的依賴列表對key-value pair數(shù)據(jù)類型RDD的分區(qū)器, 控制分片策略和分區(qū)數(shù)計算每個分片的函數(shù)每個數(shù)據(jù)分區(qū)的地址列表分區(qū)列表02BDASBDASSQL on Spark(替代Hive)A1. Catalyst架構(gòu)及執(zhí)行流程2. SparkSql優(yōu)化策略BSpark Streaming(替代Storm)
6、優(yōu)勢與特點 1. 多范式數(shù)據(jù)分析管道2. 擴展性, 可運行在100個節(jié)點以上的集群3. 容錯性4. 吞吐量大(超過Storm)5. 實時性比Storm略低(batch size選取為0.52S, storm為100ms)Spark Stream架構(gòu)BDASGraphX(替代GraphLab)BDASMLlib(替代Mahout)03Lamda架構(gòu)日志分析流水線Lamda架構(gòu)日志分析流水線日志分析指標PV01UV02留存率05漏斗模型與轉(zhuǎn)化率04PVUV03Lamda架構(gòu)日志分析流水線Lamda架構(gòu)010203速度層(Speed Layer)批處理層(Batch Layer)服務(wù)層(Servin
7、g Layer)實時日志分析流水線架構(gòu)Flume NG數(shù)據(jù)采集0102Flume 匯總到Kafka數(shù)據(jù)匯總和轉(zhuǎn)發(fā)Spark Streaming數(shù)據(jù)處理0304Flask結(jié)果呈現(xiàn)離線日志分析流水線架構(gòu)Flume轉(zhuǎn)儲到HDFS數(shù)據(jù)存儲Spark SQL數(shù)據(jù)處理Flask結(jié)果呈現(xiàn)04基于云平臺和用戶日志的推薦系統(tǒng)基于云平臺和用戶日志的推薦系統(tǒng)系統(tǒng)架構(gòu) 數(shù)據(jù)收集聚合數(shù)據(jù)處理結(jié)果輸出離線訓(xùn)練 Spark MLlib中的ALS模型05分布式的搜索引擎分布式的搜索引擎計算網(wǎng)頁的PageRank值06微博情感分析微博情感分析數(shù)據(jù)收集熱點微博分析Spark SQL進行離線分析系統(tǒng)架構(gòu)數(shù)據(jù)預(yù)處理和Cassandr
8、a存儲在線情感分析微博情感分析微博可視化熱點新聞分析系統(tǒng)微博情感分析系統(tǒng)架構(gòu)Spark分析模塊03Spark Streaming 微博收集與分析模塊01Mysql結(jié)果存儲模塊04Cassandra持久化存儲模塊02系統(tǒng)架構(gòu)提供可視化數(shù)據(jù)Mysql結(jié)果存儲模塊04情感分析Spark分析模塊03 Cassandra持久化存儲模塊02實時聚類和熱點分析Spark Streaming 微博收集與分析模塊01數(shù)據(jù)收集微博數(shù)據(jù)收集微博情感分析數(shù)據(jù)收集微博數(shù)據(jù)收集數(shù)據(jù)預(yù)處理和Cassandra存儲作為存儲引擎進行數(shù)據(jù)分析微博情感分析數(shù)據(jù)預(yù)處理和Cassandra存儲作為存儲引擎進行數(shù)據(jù)分析熱點微博分析Spa
9、rk Stream 滑動窗口API微博情感分析熱點微博分析Spark Stream 滑動窗口API在線情感分析使用遞歸神經(jīng)網(wǎng)路RNN經(jīng)行微博情感分析在線情感分析使用遞歸神經(jīng)網(wǎng)路RNN經(jīng)行微博可視化D3, Echarts, HightCharts.微博情感分析微博可視化D3, Echarts, HightCharts.微博情感分析熱點新聞分析系統(tǒng)01系統(tǒng)架構(gòu)02爬蟲抓取網(wǎng)絡(luò)信息03新聞文本數(shù)據(jù)預(yù)處理04新聞聚類05Spark Elastic Search 構(gòu)建全文檢索引擎系統(tǒng)架構(gòu)新聞抓取模塊01Scrapy抓取Kafka傳輸Mongo存儲實時新聞分析模塊02Spark Streaming實時處理
10、離線新聞分析模塊03Spark定時從MongoDB中批量處理,離線熱點分析可視化呈現(xiàn)界面04 熱點新聞分析系統(tǒng)爬蟲抓取網(wǎng)絡(luò)信息熱點新聞分析系統(tǒng)新聞文本數(shù)據(jù)預(yù)處理新聞聚類文本聚類分析 1. 使用向量空間模型進行數(shù)據(jù)轉(zhuǎn)換2. 通過K-Means進行聚類數(shù)據(jù)準換為向量 向量空間模型熱點新聞分析系統(tǒng)Spark Elastic Search 構(gòu)建全文檢索引擎07熱點新聞分析系統(tǒng)系統(tǒng)架構(gòu)新聞抓取模塊01Scrapy抓取Kafka傳輸Mongo存儲實時新聞分析模塊02Spark Streaming實時處理離線新聞分析模塊03Spark定時從MongoDB中批量處理,離線熱點分析可視化呈現(xiàn)界面04 熱點新聞分析系統(tǒng)爬蟲抓取網(wǎng)絡(luò)信息熱點新聞分析系統(tǒng)新聞文本數(shù)據(jù)預(yù)處理新聞聚類文本聚類分析 1. 使用向量空間模型進行數(shù)據(jù)轉(zhuǎn)換2. 通過K-Means進行聚類數(shù)據(jù)準換為向量 向量空間模型熱點新聞分析系統(tǒng)Spark Elastic Search 構(gòu)建全文檢索引擎08個性化推薦算法協(xié)同過濾推薦算法基
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 大學辦公室裝修協(xié)議書
- 租用辦學協(xié)議書
- 職工勞動協(xié)議書
- 負債歸屬協(xié)議書
- 手機店入股合同協(xié)議書
- 自考保過協(xié)議書
- 夫妻按揭房約定協(xié)議書
- 股票賬戶協(xié)議書
- 簽訂工資協(xié)議書
- 賠償修車協(xié)議書
- 2025屆福建省漳州市高三第三次教學質(zhì)量檢測生物試卷(解析版)
- 2025年茶葉加工工職業(yè)技能競賽參考試題庫500題(含答案)
- 2025甘肅陜煤集團韓城煤礦招聘250人筆試參考題庫附帶答案詳解
- 2025年社區(qū)工作的理論與實務(wù)考試題及答案
- 《設(shè)計課件:構(gòu)建高效數(shù)據(jù)集教程》
- 2025江蘇中考:歷史高頻考點
- 普通測量學試題及答案
- 國家開放大學2025年《創(chuàng)業(yè)基礎(chǔ)》形考任務(wù)3答案
- 醫(yī)療器械網(wǎng)絡(luò)銷售質(zhì)量管理規(guī)范宣貫培訓(xùn)課件2025年
- 語文課程資源的開發(fā)與利用
- 2024年09月四川天府新區(qū)人民醫(yī)院招聘6人筆試歷年專業(yè)考點(難、易錯點)附帶答案詳解
評論
0/150
提交評論