Spark大數(shù)據(jù)分析實務(wù) 教案 項目5 基于Spark SQL實現(xiàn)廣告流量檢測數(shù)據(jù)預(yù)處理 教案_第1頁
Spark大數(shù)據(jù)分析實務(wù) 教案 項目5 基于Spark SQL實現(xiàn)廣告流量檢測數(shù)據(jù)預(yù)處理 教案_第2頁
Spark大數(shù)據(jù)分析實務(wù) 教案 項目5 基于Spark SQL實現(xiàn)廣告流量檢測數(shù)據(jù)預(yù)處理 教案_第3頁
Spark大數(shù)據(jù)分析實務(wù) 教案 項目5 基于Spark SQL實現(xiàn)廣告流量檢測數(shù)據(jù)預(yù)處理 教案_第4頁
Spark大數(shù)據(jù)分析實務(wù) 教案 項目5 基于Spark SQL實現(xiàn)廣告流量檢測數(shù)據(jù)預(yù)處理 教案_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

項目5基于SparkSQL實現(xiàn)廣告流量檢測數(shù)據(jù)預(yù)處理教案課程名稱:Spark大數(shù)據(jù)技術(shù)實務(wù)課程類別:必修適用專業(yè):大數(shù)據(jù)技術(shù)類相關(guān)專業(yè)總學(xué)時:64學(xué)時(其中理論32學(xué)時,實驗32學(xué)時)總學(xué)分:4.0學(xué)分本章學(xué)時:12學(xué)時材料清單《Spark大數(shù)據(jù)技術(shù)實務(wù)》教材。配套PPT。引導(dǎo)性提問。探究性問題。拓展性問題。教學(xué)目標(biāo)與基本要求教學(xué)目標(biāo)首先介紹DataFrame行列表增、刪操作,通過DataFrame對象新增或刪除得到新的DataFrame;接著介紹創(chuàng)建與使用用戶自定義函數(shù),可以根據(jù)特定的需求編寫和調(diào)用用戶自定義函數(shù);然后介紹DataFrame表聯(lián)合操作,并分別舉例闡述聯(lián)合操作的區(qū)別;最后介紹DataFrame行列表輸出操作相關(guān)知識?;谥R介紹,對廣告流量檢測數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,在刪除缺失值后構(gòu)建關(guān)鍵特征,將構(gòu)建出來的特征合并輸出保存至Hive表中。本項目的操作可為項目6介紹的模型的構(gòu)建與評估提供數(shù)據(jù)特征服務(wù)?;疽笳莆誅ataFrame行列表的增、刪操作方法。掌握用戶自定義函數(shù)的創(chuàng)建與使用方法。掌握多種DataFrame表聯(lián)合操作的方法。掌握DataFrame保存數(shù)據(jù)的多種方式。能夠處理DataFrame中的缺失值。能夠?qū)崿F(xiàn)DataFrame表聯(lián)合操作。能夠創(chuàng)建和使用用戶自定義函數(shù)。能夠按照不同需求采用不同方式保存DataFrame數(shù)據(jù)。問題引導(dǎo)性提問引導(dǎo)性提問需要教師根據(jù)教材內(nèi)容和學(xué)生實際水平,提出問題,啟發(fā)引導(dǎo)學(xué)生去解決問題,提問,從而達(dá)到理解、掌握知識,發(fā)展各種能力和提高思想覺悟的目的。DataFrame行列表除了查詢操作,還有什么操作?能否將兩個DataFrame合并到一起操作?如果Spark提供的函數(shù)不能滿足統(tǒng)計分析需求,要通過什么方法實現(xiàn)其需求?探究性問題探究性問題需要教師深入鉆研教材的基礎(chǔ)上精心設(shè)計,提問的角度或者在引導(dǎo)性提問的基礎(chǔ)上,從重點、難點問題切入,進(jìn)行插入式提問?;蛘呤菍σ龑?dǎo)式提問中尚未涉及但在課文中又是重要的問題加以設(shè)問。DataFrame表聯(lián)合的方法有哪些?有何異同?如何創(chuàng)建用戶自定義函數(shù)?創(chuàng)建后又該如何使用?要想保存處理好的DataFrame,有哪些方法可以實現(xiàn)?可以以什么形式保存?拓展性問題拓展性問題需要教師深刻理解教材的意義,學(xué)生的學(xué)習(xí)動態(tài)后,根據(jù)學(xué)生學(xué)習(xí)層次,提出切實可行的關(guān)乎實際的可操作問題。亦可以提供拓展資料供學(xué)生研習(xí)探討,完成拓展性問題。Spark提供的可操作對象除了DataFrame,還有什么?按照數(shù)據(jù)分析流程,數(shù)據(jù)預(yù)處理后是什么操作?主要知識點、重點與難點主要知識點新增數(shù)據(jù)列。刪除數(shù)據(jù)列。創(chuàng)建與使用用戶自定義函數(shù)。5種join()方法。根據(jù)特定字段進(jìn)行表聯(lián)合操作。指定類型進(jìn)行表聯(lián)合操作。使用Column類型進(jìn)行表聯(lián)合操作。保存為文件。保存為持久化的表。使用drop語句刪除數(shù)據(jù)。自定義函數(shù)構(gòu)建關(guān)鍵特征。保存DataFrame數(shù)據(jù)至Hive表中。重點DataFrame行列表增、刪、輸出操作。DataFrame表聯(lián)合操作。創(chuàng)建與使用用戶自定義函數(shù)。難點創(chuàng)建與使用用戶自定義函數(shù)。教學(xué)過程設(shè)計理論教學(xué)過程SparkSQL簡介。配置SparkSQLCLI。SparkSQL與Shell交互。通過結(jié)構(gòu)化數(shù)據(jù)文件創(chuàng)建DataFrame。通過外部數(shù)據(jù)庫創(chuàng)建DataFrame。通過RDD創(chuàng)建DataFrame。通過Hive表創(chuàng)建DataFrame。printSchema():輸出數(shù)據(jù)模式。show():查看數(shù)據(jù)。first(head(take(takeAsList():獲取若干行記錄。條件查詢。查詢指定字段的數(shù)據(jù)信息。查詢指定行數(shù)的數(shù)據(jù)。排序查詢。分組查詢。實踐教學(xué)過程新增數(shù)據(jù)列。刪除數(shù)據(jù)列。創(chuàng)建與使用用戶自定義函數(shù)。根據(jù)特定字段進(jìn)行表聯(lián)合操作。指定類型進(jìn)行表聯(lián)合操作。使用Column類型進(jìn)行表聯(lián)合操作。保存為文件。保存為持久化的表。使用drop語句刪除數(shù)據(jù)。劃分時間區(qū)間。構(gòu)建關(guān)鍵特征并保存至Hive表中。保存DataFrame數(shù)據(jù)至Hive表中。教材與參考資料教材鄭浩森,張榮.Spark大數(shù)據(jù)技術(shù)分析[M].北京:人民郵電出版社.2024.參考資料[1] 肖芳,張良均.Spark大數(shù)據(jù)技術(shù)與應(yīng)用(第2版)(微課版)[M].北京:人民郵電出版社.2022.[2] 王哲,張

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論