版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
《Spark大數(shù)據(jù)分析實務(wù)》教學(xué)大綱課程名稱:Spark大數(shù)據(jù)分析實務(wù)課程類別:必修適用專業(yè):大數(shù)據(jù)技術(shù)類相關(guān)專業(yè)總學(xué)時:64學(xué)時(其中理論32學(xué)時,實驗32學(xué)時)總學(xué)分:4.0學(xué)分課程的性質(zhì)近年來,大數(shù)據(jù)、云計算、人工智能等數(shù)字技術(shù)與各行業(yè)加速融合,數(shù)字經(jīng)濟(jì)快速發(fā)展,數(shù)字經(jīng)濟(jì)深化發(fā)展的核心引擎是數(shù)據(jù)要素。企業(yè)急需具有數(shù)據(jù)分析技術(shù)能力的人才,以便在數(shù)字經(jīng)濟(jì)浪潮中保持競爭優(yōu)勢。然而,數(shù)據(jù)源多變、數(shù)據(jù)量巨大、處理速度緩慢和計算能力不足等問題,使得企業(yè)難以用傳統(tǒng)的數(shù)據(jù)分析方法有效分析和利用海量數(shù)據(jù)。Spark作為一種快速、通用的大數(shù)據(jù)分析框架,具有兼容多種數(shù)據(jù)源、支持內(nèi)存計算、支持分布式計算和可擴(kuò)展性等優(yōu)點(diǎn),得到了廣泛的認(rèn)可和應(yīng)用。為了推動我國大數(shù)據(jù),云計算,人工智能行業(yè)的發(fā)展,滿足日益增長的數(shù)據(jù)分析人才需求,特開設(shè)Spark大數(shù)據(jù)分析實務(wù)課程。課程的任務(wù)通過本課程的學(xué)習(xí),使學(xué)生學(xué)會使用Spark進(jìn)行數(shù)據(jù)讀取、數(shù)據(jù)處理、分析與建模,并詳細(xì)拆解學(xué)習(xí)廣告流量檢測違規(guī)識別企業(yè)案例,將理論與實踐相結(jié)合,為將來從事數(shù)據(jù)分析挖掘研究、工作奠定基礎(chǔ)。課程學(xué)時分配序號教學(xué)內(nèi)容理論學(xué)時實驗學(xué)時其它1項目1廣告流量檢測違規(guī)識別需求分析22項目2Spark大數(shù)據(jù)環(huán)境安裝搭建243項目3基于Hive實現(xiàn)廣告流量檢測數(shù)據(jù)存儲444項目4基于SparkSQL實現(xiàn)廣告流量檢測數(shù)據(jù)探索分析445項目5基于SparkSQL實現(xiàn)廣告流量檢測數(shù)據(jù)預(yù)處理666項目6基于SparkMLlib實現(xiàn)廣告流量檢測違規(guī)識別模型構(gòu)建與評估667項目7基于Spark開發(fā)環(huán)境實現(xiàn)廣告流量檢測違規(guī)識別668項目8基于TipDM大數(shù)據(jù)挖掘建模平臺實現(xiàn)廣告流量檢測違規(guī)識別22總計3232教學(xué)內(nèi)容及學(xué)時安排理論教學(xué)序號章節(jié)名稱主要內(nèi)容教學(xué)目標(biāo)學(xué)時1廣告流量檢測違規(guī)識別需求分析大數(shù)據(jù)的概念大數(shù)據(jù)的特征大數(shù)據(jù)分析的概念大數(shù)據(jù)分析的流程大數(shù)據(jù)分析的工具了解正常的廣告投放流程了解廣告流量違規(guī)現(xiàn)狀了解廣告流量常見違規(guī)方式了解識別虛假流量的常見維度廣告流量檢測違規(guī)識別流程分析了解大數(shù)據(jù)的概念和特征。了解常見的廣告流量違規(guī)方式。了解廣告流量檢測違規(guī)識別項目的流程分析。能夠根據(jù)項目目標(biāo)進(jìn)行流程分析。能夠根據(jù)業(yè)務(wù)需求設(shè)計項目總體流程。22Spark大數(shù)據(jù)環(huán)境安裝搭建Hadoop的發(fā)展歷程Hadoop的特點(diǎn)Hadoop生態(tài)系統(tǒng)Hadoop的應(yīng)用場景Hive簡介Hive的特點(diǎn)Hive的應(yīng)用場景Hive與關(guān)系數(shù)據(jù)庫的區(qū)別Spark簡介Spark的發(fā)展歷程Spark的特點(diǎn)Spark生態(tài)系統(tǒng)Spark的應(yīng)用場景安裝搭建Hadoop集群安裝搭建Hive安裝搭建Spark集群了解Hadoop框架的歷程、特點(diǎn)、生態(tài)系統(tǒng)、應(yīng)用場景。了解Hive的特點(diǎn)、應(yīng)用場景以及Hive與關(guān)系數(shù)據(jù)庫的區(qū)別。了解Spark的發(fā)展歷程、特點(diǎn)、生態(tài)系統(tǒng)、應(yīng)用場景。熟悉Hadoop框架和Spark的架構(gòu)組成。能夠理解Hadoop、Hive、Spark組件的作用。能夠完成Hadoop集群、Hive和Spark集群的搭建與配置。23基于Hive實現(xiàn)廣告流量檢測數(shù)據(jù)存儲了解Hive中的數(shù)據(jù)類型創(chuàng)建數(shù)據(jù)庫語法格式刪除數(shù)據(jù)庫語法格式更改數(shù)據(jù)庫語法格式使用數(shù)據(jù)庫語法格式創(chuàng)建內(nèi)部表創(chuàng)建外部表創(chuàng)建分區(qū)表創(chuàng)建桶表修改表將文件系統(tǒng)中的數(shù)據(jù)導(dǎo)入Hive表通過查詢語句向表中插入數(shù)據(jù)將Hive表中的數(shù)據(jù)導(dǎo)出至本地文件系統(tǒng)將Hive表中的數(shù)據(jù)導(dǎo)出至HDFS創(chuàng)建數(shù)據(jù)表導(dǎo)入數(shù)據(jù)至Hive表了解Hive中的數(shù)據(jù)類型。掌握創(chuàng)建和管理數(shù)據(jù)庫的操作方法。掌握創(chuàng)建和修改表的操作方法。掌握Hive數(shù)據(jù)導(dǎo)入與導(dǎo)出的操作方法。能夠認(rèn)識Hive中的數(shù)據(jù)類型。能夠完成數(shù)據(jù)庫的創(chuàng)建與管理。能夠根據(jù)要求創(chuàng)建表并導(dǎo)入相應(yīng)的數(shù)據(jù)。44基于SparkSQL實現(xiàn)廣告流量檢測數(shù)據(jù)探索分析SparkSQL簡介配置SparkSQLCLISparkSQL與Shell交互通過結(jié)構(gòu)化數(shù)據(jù)文件創(chuàng)建DataFrame通過外部數(shù)據(jù)庫創(chuàng)建DataFrame通過RDD創(chuàng)建DataFrame通過Hive表創(chuàng)建DataFrameprintSchema():輸出數(shù)據(jù)模式show():查看數(shù)據(jù)first(head(take(takeAsList():獲取若干行記錄條件查詢查詢指定字段的數(shù)據(jù)信息查詢指定行數(shù)的數(shù)據(jù)排序查詢分組查詢讀取數(shù)據(jù)創(chuàng)建DataFrame對象簡單查詢DataFrame數(shù)據(jù)探索分析日流量特征探索分析IP地址的訪問次數(shù)特征探索分析虛假流量數(shù)據(jù)特征了解SparkSQL框架的功能及運(yùn)行過程。了解SparkSQL與Shell交互。掌握SparkSQL的可編程數(shù)據(jù)模型DataFrame的創(chuàng)建、查詢等操作方法。能夠配置SparkSQLCLI,提供SparkSQL與Shell交互環(huán)境。能夠通過不同數(shù)據(jù)源創(chuàng)建DataFrame。能夠?qū)崿F(xiàn)DataFrame數(shù)據(jù)及行列表的查詢操作。45基于SparkSQL實現(xiàn)廣告流量檢測數(shù)據(jù)預(yù)處理新增數(shù)據(jù)列刪除數(shù)據(jù)列創(chuàng)建與使用用戶自定義函數(shù)5種join()方法根據(jù)特定字段進(jìn)行表聯(lián)合操作指定類型進(jìn)行表聯(lián)合操作使用Column類型進(jìn)行表聯(lián)合操作保存為文件保存為持久化的表使用drop語句刪除數(shù)據(jù)自定義函數(shù)構(gòu)建關(guān)鍵特征保存DataFrame數(shù)據(jù)至Hive表中掌握DataFrame行列表的增、刪操作方法。掌握用戶自定義函數(shù)的創(chuàng)建與使用方法。掌握多種DataFrame表聯(lián)合操作的方法。掌握DataFrame保存數(shù)據(jù)的多種方式。能夠處理DataFrame中的缺失值。能夠?qū)崿F(xiàn)DataFrame表聯(lián)合操作。能夠創(chuàng)建和使用用戶自定義函數(shù)。能夠按照不同需求采用不同方式保存DataFrame數(shù)據(jù)。66基于SparkMLlib實現(xiàn)廣告流量檢測違規(guī)識別模型構(gòu)建與評估了解機(jī)器學(xué)習(xí)算法SparkMLlib簡介數(shù)據(jù)類型基本統(tǒng)計管道特征提取特征處理回歸分類聚類關(guān)聯(lián)規(guī)則智能推薦掌握SparkMLlib的評估器與模型評估使用spark.ml.classification模塊構(gòu)建分類模型使用評估器實現(xiàn)模型評估了解SparkMLlib算法庫。熟悉SparkMLlib中的算法與算法包。掌握SparkMLlib的評估器與模型評估的使用方法。能夠掌握SparkMLlib特征提取的方法。能夠使用SparkMLlib回歸與分類相關(guān)算法包構(gòu)建模型。能夠使用SparkMLlib評估器對模型進(jìn)行評估。67基于Spark開發(fā)環(huán)境實現(xiàn)廣告流量檢測違規(guī)識別安裝JDK8設(shè)置環(huán)境變量下載與安裝IntelliJIDEAScala插件安裝與使用在IntelliJIDEA中配置Spark運(yùn)行環(huán)境運(yùn)行Spark程序開發(fā)環(huán)境下實現(xiàn)流量數(shù)據(jù)違規(guī)識別模型應(yīng)用掌握J(rèn)DK8安裝和環(huán)境配置。掌握IntelliJIDEA中創(chuàng)建Scala工程。掌握Spark運(yùn)行環(huán)境配置。能夠在本地環(huán)境下配置JDK環(huán)境,實現(xiàn)Java環(huán)境搭建。能夠在IntelliJIDEA中配置相關(guān)插件和開發(fā)依賴包,實現(xiàn)Scala工程創(chuàng)建。能夠在IntelliJIDEA中配置Spark運(yùn)行環(huán)境,實現(xiàn)Spark程序運(yùn)行。68基于TipDM大數(shù)據(jù)挖掘建模平臺實現(xiàn)廣告流量檢測違規(guī)識別共享庫數(shù)據(jù)連接數(shù)據(jù)集我的工程個人組件快速構(gòu)建廣告流量檢測違規(guī)識別工程了解TipDM大數(shù)據(jù)挖掘建模平臺的相關(guān)概念和特點(diǎn)。能夠使用TipDM大數(shù)據(jù)挖掘建模平臺完成廣告流量檢測違規(guī)識別項目總體流程的設(shè)配置。能夠使用TipDM大數(shù)據(jù)挖掘建模平臺完成項目流程的實現(xiàn)。2學(xué)時合計32實驗教學(xué)序號實驗項目名稱實驗要求學(xué)時1Spark大數(shù)據(jù)環(huán)境安裝搭建創(chuàng)建Linux虛擬機(jī)設(shè)置固定IP地址遠(yuǎn)程連接虛擬機(jī)配置本地yum源及安裝常用軟件在Linux系統(tǒng)下安裝Java修改配置文件克隆虛擬機(jī)配置SSH免密登錄配置時間同步服務(wù)添加地址映射啟動關(guān)閉集群安裝MySQL下載和安裝Hive修改Hive配置文件設(shè)置環(huán)境變量初始化元數(shù)據(jù)庫與啟動Hive解壓并配置Spark集群啟動Spark集群查看Spark監(jiān)控服務(wù)42基于Hive實現(xiàn)廣告流量檢測數(shù)據(jù)存儲創(chuàng)建數(shù)據(jù)庫語法格式刪除數(shù)據(jù)庫語法格式更改數(shù)據(jù)庫語法格式使用數(shù)據(jù)庫語法格式創(chuàng)建內(nèi)部表創(chuàng)建外部表創(chuàng)建分區(qū)表創(chuàng)建桶表修改表將文件系統(tǒng)中的數(shù)據(jù)導(dǎo)入Hive表通過查詢語句向表中插入數(shù)據(jù)將Hive表中的數(shù)據(jù)導(dǎo)出至本地文件系統(tǒng)將Hive表中的數(shù)據(jù)導(dǎo)出至HDFS創(chuàng)建數(shù)據(jù)表導(dǎo)入數(shù)據(jù)至Hive表43基于SparkSQL實現(xiàn)廣告流量檢測數(shù)據(jù)探索分析配置SparkSQLCLISparkSQL與Shell交互通過結(jié)構(gòu)化數(shù)據(jù)文件創(chuàng)建DataFrame通過外部數(shù)據(jù)庫創(chuàng)建DataFrame通過RDD創(chuàng)建DataFrame通過Hive表創(chuàng)建DataFrame查看DataFrame數(shù)據(jù)printSchema():輸出數(shù)據(jù)模式show():查看數(shù)據(jù)first(head(take(takeAsList():獲取若干行記錄條件查詢查詢指定字段的數(shù)據(jù)信息查詢指定行數(shù)的數(shù)據(jù)排序查詢分組查詢讀取數(shù)據(jù)創(chuàng)建DataFrame對象查詢數(shù)據(jù)記錄數(shù)查詢數(shù)據(jù)缺失值探索分析日流量特征探索分析IP地址的訪問次數(shù)特征探索分析虛假流量數(shù)據(jù)特征44基于SparkSQL實現(xiàn)廣告流量檢測數(shù)據(jù)預(yù)處理新增數(shù)據(jù)列刪除數(shù)據(jù)列創(chuàng)建與使用用戶自定義函數(shù)根據(jù)特定字段進(jìn)行表聯(lián)合操作指定類型進(jìn)行表聯(lián)合操作使用Column類型進(jìn)行表聯(lián)合操作保存為文件保存為持久化的表使用drop語句刪除數(shù)據(jù)劃分時間區(qū)間構(gòu)建關(guān)鍵特征并保存至Hive表中保存DataFrame數(shù)據(jù)至Hive表中65基于SparkMLlib實現(xiàn)廣告流量檢測違規(guī)識別模型構(gòu)建與評估基本統(tǒng)計管道特征提取特征處理回歸分類聚類關(guān)聯(lián)規(guī)則智能推薦數(shù)據(jù)歸一化構(gòu)建建模樣本使用邏輯回歸算法實現(xiàn)廣告流量檢測違規(guī)識別使用隨機(jī)森林算法實現(xiàn)廣告流量檢測違規(guī)識別使用評估器實現(xiàn)模型評估66基于Spark開發(fā)環(huán)境實現(xiàn)廣告流量檢測違規(guī)識別安裝JDK8設(shè)置環(huán)境變量下載與安裝IntelliJIDEAScala插件安裝與使用在IntelliJIDEA中配置Spark運(yùn)行環(huán)境運(yùn)行Spark程序集群連接參數(shù)設(shè)置封裝代碼運(yùn)行Spark程序67基于TipDM大數(shù)據(jù)挖掘建模平臺實現(xiàn)廣告流量檢測違規(guī)識別數(shù)據(jù)源配置數(shù)據(jù)處理模型構(gòu)建與評估2學(xué)時合計32考核方式突出學(xué)生解決實際問題的能力,加強(qiáng)過程性考核。課程考核的成績構(gòu)成=平時作業(yè)(10%)+課堂參與(20%)+期末考核(70%),期末考試建議采用開卷形式,試題應(yīng)包括基本概念、分組聚合、數(shù)據(jù)合并、數(shù)據(jù)清洗、數(shù)據(jù)變換、模型構(gòu)建等部分,題
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 安全生產(chǎn)技術(shù)服務(wù)合同范本
- 鐵路交通設(shè)施建設(shè)施工合同
- 物業(yè)保潔外包合同
- 2025園林綠化合作合同范本
- 2025年浙科版選修3地理上冊月考試卷
- 聘用合同補(bǔ)充協(xié)議
- 代加工的合同模板范本
- 簡單的鋁材購銷合同范本
- 培訓(xùn)租場地合同協(xié)議書范本
- 產(chǎn)品加工的簡單合同范本
- 三級綜合醫(yī)院全科醫(yī)療科設(shè)置基本標(biāo)準(zhǔn)
- 《上消化道出血教案》課件
- 合理使用手機(jī) 做自律好少年-合理使用手機(jī)主題班會(課件)
- 湖南財政經(jīng)濟(jì)學(xué)院《運(yùn)籌學(xué)》2022-2023學(xué)年第一學(xué)期期末試卷
- 河南省信陽市2024-2025學(xué)年高三上學(xué)期第一次質(zhì)量檢測試題 化學(xué) 含答案
- 公司企業(yè)標(biāo)準(zhǔn)模板版
- 2024中智集團(tuán)招聘重要崗位(高頻重點(diǎn)提升專題訓(xùn)練)共500題附帶答案詳解
- Unit 1 Cultural Heritage單元整體教學(xué)設(shè)計 人教版必修第二冊單元整體教學(xué)設(shè)計
- 養(yǎng)老護(hù)理員試題及答案
- 2024年山東省高中學(xué)業(yè)水平合格考生物試卷試題(含答案詳解)
- 2025年中考英語復(fù)習(xí)熱點(diǎn)話題作文范文
評論
0/150
提交評論