![2023學年完整公開課版RDD簡單實例_第1頁](http://file4.renrendoc.com/view/4ac3ca880657f7fb926a2f0f7d7ece97/4ac3ca880657f7fb926a2f0f7d7ece971.gif)
![2023學年完整公開課版RDD簡單實例_第2頁](http://file4.renrendoc.com/view/4ac3ca880657f7fb926a2f0f7d7ece97/4ac3ca880657f7fb926a2f0f7d7ece972.gif)
![2023學年完整公開課版RDD簡單實例_第3頁](http://file4.renrendoc.com/view/4ac3ca880657f7fb926a2f0f7d7ece97/4ac3ca880657f7fb926a2f0f7d7ece973.gif)
![2023學年完整公開課版RDD簡單實例_第4頁](http://file4.renrendoc.com/view/4ac3ca880657f7fb926a2f0f7d7ece97/4ac3ca880657f7fb926a2f0f7d7ece974.gif)
![2023學年完整公開課版RDD簡單實例_第5頁](http://file4.renrendoc.com/view/4ac3ca880657f7fb926a2f0f7d7ece97/4ac3ca880657f7fb926a2f0f7d7ece975.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
RDD簡單實例目錄CONTENTS2RDD使用例子1RDD簡介RDD簡介PART0101RDD簡介是Spark中最重要的核心概念,是Spark應用中存儲數(shù)據(jù)的數(shù)據(jù)結構。RDD,彈性分布式數(shù)據(jù)集(ResilienntDistributedDatasets)RDD其實就是分布式的只讀元素集合。一個Spark應用,本質(zhì)上就是對RDD進行轉化(Transformation)和行動(Action)操作,Spark會自動將RDD中的數(shù)據(jù)分發(fā)到集群上,并將操作并行化執(zhí)行,計算得到最終的結果。RDD簡介RDD理解的知識點框架圖:RDD使用例子PART0202RDD使用例子
本節(jié)介紹一個RDD使用例子,將數(shù)據(jù)文件讀入為RDD,并作相應的轉化、行動操作,在過程中展示RDD的知識點。##input.txt##INFOThisisamessagewithcontentINFOThisissomeothercontent(空行)INFOHerearemoremessagesWARNThisisawarning(空行)ERRORSomethingbadhappenedWARNMoredetailsonthebadthingINFObacktonormalmessages1、創(chuàng)建數(shù)據(jù)文件,如下:RDD使用例子//讀取輸入文件scala>valinput=sc.textFile("input.txt")//切分為單詞并且刪掉空行scala>valtokenized=input.map(line=>line.split("")).filter(words=>words.size>0)//提取出每行的第一個單詞(日志等級)并進行計數(shù)scala>valcounts=tokenized.map(words=>(words(0),1)).reduceByKey{(a,b)=>a+b}2、在spark-shell中編寫代碼如下,得到counts,表示每種提示類型的出現(xiàn)次數(shù)RDD使用例子如查看input的血緣關系,可以看到創(chuàng)建出了一個HadoopRDD
對象,然后對該RDD執(zhí)行映射操作,最終得到了返回的RDD3、使用toDebugString獲取RDD的血緣關系RDD使用例子可以看到血緣關系中記錄了從input經(jīng)過若干轉化操作得到counts,其中reduceByKey需要進行數(shù)據(jù)混洗。4、同樣的,我們可以查看counts的血緣關系如下RDD使用例子這里同一縮進等級的操作為一個Stage,同一個Stage里的操作可以流水線并行——前面的操作map、filter等不需要數(shù)據(jù)混洗,為窄依賴,劃分為一個StagereduceByKey需要數(shù)據(jù)混洗,為寬依賴,劃分為一個Stage5、在上圖中我們還可以看到,血緣關系中具有不同的縮進等級RDD使用例子6、在監(jiān)控界面上查看任務的劃分與執(zhí)行情況,默認地址為http://localhost:4040,打開如下,可以看到盡管我們做了數(shù)據(jù)的讀入、轉化操作,但由于惰性求值的特性,還沒有任務執(zhí)行。RDD使用例子7、使用collect操作,獲取counts的內(nèi)容,由于該操作是行動操作,Spark會開始運行任務,在監(jiān)控界面查看如下,一個Job,兩個Stage,與上面的血緣關系一致。RDD使用例子8、點擊該任務可以查看任務詳情如下,可以看到具體的Stage劃分可視化。RDD使用例子9、使用cache將counts緩存,重新調(diào)用collect函數(shù),Spark會根據(jù)緩存自動截斷血緣,加快計算,此時在監(jiān)控界面再次查看任務如下,可以看到只剩下一個Stage,前面的Stage由于緩存跳過計算。//緩存RDD
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 昆明2025年云南昆明市生態(tài)環(huán)境局所屬事業(yè)單位引進高層次人才筆試歷年參考題庫附帶答案詳解
- 2025年中國雙人翻轉座椅骨架市場調(diào)查研究報告
- 廣西2025年廣西合浦儒艮國家級自然保護區(qū)管理中心招聘筆試歷年參考題庫附帶答案詳解
- 2025至2031年中國鋁合金絲編織管行業(yè)投資前景及策略咨詢研究報告
- 2025至2031年中國精密交流脈沖焊接機行業(yè)投資前景及策略咨詢研究報告
- 2025至2031年中國玻璃衛(wèi)浴產(chǎn)品行業(yè)投資前景及策略咨詢研究報告
- 2025至2031年中國汽車前大燈鏡片行業(yè)投資前景及策略咨詢研究報告
- 惠州2025年廣東惠州龍門縣市容環(huán)境衛(wèi)生事務中心招聘編外環(huán)衛(wèi)工人14人筆試歷年參考題庫附帶答案詳解
- 2025年平移大門驅動系統(tǒng)項目可行性研究報告
- 2025年合金鋼襯項目可行性研究報告
- 婚內(nèi)財產(chǎn)債務協(xié)議書(通用)
- 血液透析流程圖
- DB11∕T 1653-2019 供暖系統(tǒng)能耗指標體系
- 齒輪箱振動信號和故障診斷
- 小學生急救常識(課件)主題教育班會
- 信息光學試卷試題及答案
- 文化差異及跨文化交際試題集
- PC-Ф800×800錘式破碎機結構設計
- 慢病患者隨訪服務記錄表
- 雙溪課程評量表完整優(yōu)秀版
- 最新社工服務部組織架構
評論
0/150
提交評論