數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 教學(xué)大綱、授課計(jì)劃_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 教學(xué)大綱、授課計(jì)劃_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 教學(xué)大綱、授課計(jì)劃_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 教學(xué)大綱、授課計(jì)劃_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 教學(xué)大綱、授課計(jì)劃_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)科學(xué)與大數(shù)據(jù)專業(yè)課程教學(xué)大綱

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘

一、說明

(-)課程性質(zhì)

本課程以數(shù)據(jù)倉庫和數(shù)據(jù)挖掘?yàn)橹饕獌?nèi)容,講述數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的基本概念和方法,包括數(shù)據(jù)預(yù)處

理、數(shù)據(jù)倉庫與聯(lián)機(jī)分析處理、數(shù)據(jù)倉庫的設(shè)計(jì)與開發(fā)、以及數(shù)據(jù)挖掘的主要功能、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)算法

和應(yīng)用,并通過對(duì)實(shí)際數(shù)據(jù)的分析更加深入地理解常用的數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)模型。培養(yǎng)學(xué)生數(shù)據(jù)分析和處

理的能力。該課程的先修課程有概率論與數(shù)理統(tǒng)計(jì)、數(shù)據(jù)庫原理和程序設(shè)計(jì)等。

(二)教學(xué)目的

本課程的主要目的是培養(yǎng)學(xué)生的數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的基本理論分析與應(yīng)用實(shí)踐的綜合能力。通過本課

程的教學(xué),使學(xué)生掌握數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的一般原理和處理方法,能使用機(jī)器學(xué)習(xí)理論解決數(shù)據(jù)挖掘相關(guān)

的問題。

(三)教學(xué)內(nèi)容

本課程全面而又系統(tǒng)地介紹了倉庫與數(shù)據(jù)挖掘的方法和技術(shù),反映了當(dāng)前數(shù)據(jù)倉庫與數(shù)據(jù)挖掘研究的最

新成果。本課程主要學(xué)習(xí)的內(nèi)容包括Python數(shù)據(jù)分析與可視化基礎(chǔ)、認(rèn)識(shí)數(shù)據(jù)、數(shù)據(jù)預(yù)處理、回歸分析、關(guān)

聯(lián)規(guī)則挖掘、分類與預(yù)測、聚類分析、神經(jīng)網(wǎng)絡(luò)與機(jī)器學(xué)習(xí)基礎(chǔ)、離群點(diǎn)檢測以及Python數(shù)據(jù)挖掘案例分析

等內(nèi)容。

(四)教學(xué)時(shí)數(shù)

本課程的教學(xué)時(shí)數(shù)為72學(xué)時(shí),理論教學(xué)54學(xué)時(shí),實(shí)驗(yàn)教學(xué)18學(xué)時(shí)。

(五)教學(xué)方式

多媒體機(jī)房教學(xué)、案例導(dǎo)向、項(xiàng)目驅(qū)動(dòng)等教學(xué)方法、啟發(fā)學(xué)生對(duì)學(xué)科知識(shí)的把握理解和實(shí)際操作能力。

課程教學(xué)方法的改革以調(diào)動(dòng)學(xué)生的積極性為核心。除講授、提問、學(xué)生分析、討論等常用的方法外,結(jié)合管理

課程的特點(diǎn),適應(yīng)本科生培養(yǎng)的要求,探索并完善以參與式、體驗(yàn)式、交互式和模擬教學(xué)等實(shí)踐教學(xué)為基本

形式的多種方法。并建立紙質(zhì)、聲音、電子、網(wǎng)絡(luò)等多種媒體構(gòu)成的立體化教學(xué)載體。

本課程的教學(xué)方式主要采用課堂講授和實(shí)驗(yàn)操作,包括:課堂講授、多媒體教學(xué)、實(shí)驗(yàn)操作、算法分析與

設(shè)計(jì)、習(xí)題解析、課堂討論、批改作業(yè)、課外輔導(dǎo)等多種形式相結(jié)合,保證學(xué)生掌握數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)的基

本知識(shí),理解算法的實(shí)現(xiàn),培養(yǎng)學(xué)生的自學(xué)能力、分析問題和解決問題的能力。

教學(xué)方法:采用啟發(fā)式教學(xué)和探究式教學(xué),以學(xué)生為主體,鼓勵(lì)學(xué)生自己針對(duì)某種數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)

算法進(jìn)行分析和研究,培養(yǎng)學(xué)生的自學(xué)能力。

教學(xué)手段:充分利用電子教案、CAI課件和網(wǎng)絡(luò)教學(xué)平臺(tái)等多種教學(xué)手段和資源。

考試環(huán)節(jié):兩次課堂小測驗(yàn);學(xué)期末學(xué)生分為若干小組,每個(gè)小組研究討論并實(shí)現(xiàn)某一前沿的數(shù)據(jù)挖掘

算法或者實(shí)現(xiàn)實(shí)際的數(shù)據(jù)挖掘案例,以報(bào)告的形式進(jìn)行講解,最后提交一份課程學(xué)術(shù)報(bào)告。

二、本文

理論部分

第一章緒論

教學(xué)要點(diǎn):

1.理解和掌握數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的基本概念、數(shù)據(jù)倉庫的定義、組成以及數(shù)據(jù)挖掘的過程、數(shù)據(jù)挖掘的

主要任務(wù)以及數(shù)據(jù)挖掘使用的主要技術(shù)。

2.了解數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的應(yīng)用和面臨的問題。

3.對(duì)數(shù)據(jù)挖掘能夠解決的問題和解決問題思路有清晰的認(rèn)識(shí)。

4.熟練應(yīng)用Jupyternotebook的開發(fā)環(huán)境。

教學(xué)時(shí)數(shù):

2學(xué)時(shí)。

教學(xué)內(nèi)容:

第一節(jié)數(shù)據(jù)倉庫簡介

1.了解數(shù)據(jù)倉庫的定義和特點(diǎn)。

第二節(jié)數(shù)據(jù)倉庫與操作型數(shù)據(jù)庫的關(guān)系

1.熟練掌握數(shù)據(jù)倉庫與數(shù)據(jù)庫的區(qū)別。

第三節(jié)數(shù)據(jù)倉庫的組成

1.掌握數(shù)據(jù)倉庫系統(tǒng)的組成。

第四節(jié)數(shù)據(jù)倉庫的應(yīng)用

1.了解數(shù)據(jù)倉庫的應(yīng)用場景。

第五節(jié)基于Hadoop/Hive的數(shù)據(jù)倉庫技術(shù)

1.了解基于Hadoop/Hive的數(shù)據(jù)倉庫技術(shù)。

第六節(jié)數(shù)據(jù)挖掘的主要任務(wù)和數(shù)據(jù)源

1.理解數(shù)據(jù)挖掘中的主要問題,任務(wù)和數(shù)據(jù)源。

第七節(jié)數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)常用的建模工具

1.了解數(shù)據(jù)挖掘的商用和開源工具。

第八節(jié)利用Python進(jìn)行數(shù)據(jù)挖掘

1.掌握Python數(shù)據(jù)挖掘的常用類庫。

2.熟悉JupyterNotebook的使用方法。

第九節(jié)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的區(qū)別與聯(lián)系

1.掌握數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的區(qū)別及聯(lián)系

考核要點(diǎn):

掌握數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的定義和功能,理解數(shù)據(jù)挖掘在何種數(shù)據(jù)上進(jìn)行,數(shù)據(jù)挖掘可以挖掘什么類

型的模式,掌握初級(jí)的數(shù)據(jù)倉庫技術(shù)。

第二章認(rèn)識(shí)數(shù)據(jù)

教學(xué)要點(diǎn):

1.理解和掌握數(shù)據(jù)對(duì)象和屬性類型,數(shù)據(jù)的基本統(tǒng)計(jì)描述,掌握度量數(shù)據(jù)相似性和相異性的方法。

2.了解數(shù)據(jù)可視化的方法。

教學(xué)時(shí)數(shù):

2學(xué)時(shí)。

教學(xué)內(nèi)容:

第一節(jié)數(shù)據(jù)對(duì)象與屬性類型

1.熟練掌握數(shù)據(jù)的屬性類型。

第二節(jié)數(shù)據(jù)的基本統(tǒng)計(jì)描述

1.熟練掌握中心趨勢度量的方法、度量分散程度的方法、數(shù)據(jù)基本統(tǒng)計(jì)描述圖形顯示的方法。

第三節(jié)數(shù)據(jù)可視化

1.了解數(shù)據(jù)可視化的方法。

第四節(jié)度量數(shù)據(jù)的相似性和相異性

1.熟練掌握度量數(shù)據(jù)相似性和相異性的方法。

考核要點(diǎn):

了解數(shù)據(jù)的屬性類型,理解數(shù)據(jù)的基本統(tǒng)計(jì)描述,掌握度量數(shù)據(jù)相似性和相異性的方法。

第三章數(shù)據(jù)預(yù)處理

教學(xué)要點(diǎn):

1.了解數(shù)據(jù)預(yù)處理的目的和意義。

2.掌握如何對(duì)數(shù)據(jù)進(jìn)行清理。

3.掌握如何對(duì)不同數(shù)據(jù)源的數(shù)據(jù)進(jìn)行合并。

4.掌握如何對(duì)數(shù)據(jù)進(jìn)行變換,使之適合建模的需要。

5.掌握如何對(duì)數(shù)據(jù)進(jìn)行消減,使得在消減后的數(shù)據(jù)集上挖掘更有效。

6.掌握利用Python進(jìn)行數(shù)據(jù)預(yù)處理的方法。

教學(xué)時(shí)數(shù)

4學(xué)時(shí)。

教學(xué)內(nèi)容:

第一節(jié)數(shù)據(jù)預(yù)處理概述

1.了解為什么要對(duì)數(shù)據(jù)預(yù)處理。

2.數(shù)據(jù)的質(zhì)量要求

第二節(jié)數(shù)據(jù)清理

1.理解缺失值、噪音數(shù)據(jù)的處理方法。

2.利用Python進(jìn)行數(shù)據(jù)清理的方法。

第三節(jié)數(shù)據(jù)集成

1.理解數(shù)據(jù)集成的方法。

2.利用Python進(jìn)行數(shù)據(jù)合并。

第四節(jié)數(shù)據(jù)變換與數(shù)據(jù)離散化

1.了解數(shù)值數(shù)據(jù)的離散化和概念分層產(chǎn)生。

2.熟練掌握數(shù)據(jù)變換和數(shù)據(jù)離散化的方法。

第五節(jié)數(shù)據(jù)歸約

1.了解維歸約:可以檢測并刪除不相關(guān)、弱相關(guān)或冗余的屬性或維。

2.理解數(shù)據(jù)壓縮:使用編碼機(jī)制壓縮數(shù)據(jù)集。

3.理解數(shù)值壓縮:用替代的、較小的數(shù)據(jù)表示替換或估計(jì)數(shù)據(jù),如參數(shù)模型(只需要存放模型參數(shù),

而不是實(shí)際數(shù)據(jù))或非參數(shù)方法,如聚類、選樣和使用直方圖。

考核要點(diǎn):

理解數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約、數(shù)據(jù)變換于數(shù)據(jù)離散化的方法,掌握數(shù)據(jù)預(yù)處理的基本方法。

第四章數(shù)據(jù)倉庫與聯(lián)機(jī)分析處理

教學(xué)要點(diǎn):

1.掌握數(shù)據(jù)倉庫的體系。

2.掌握多維數(shù)據(jù)模型與OLAP。

3.掌握數(shù)據(jù)倉庫的維度建模。

4.了解數(shù)據(jù)倉庫的發(fā)展。

教學(xué)時(shí)數(shù):

4學(xué)時(shí)。

教學(xué)內(nèi)容:

第一節(jié)數(shù)據(jù)倉庫的體系

1.理解數(shù)據(jù)倉庫的體系結(jié)構(gòu)。

2.理解數(shù)據(jù)倉庫中的ETL、數(shù)據(jù)集市和元數(shù)據(jù)。

第二節(jié)多維數(shù)據(jù)模型與。LAP

1.掌握多維數(shù)據(jù)模型的概念。

2.理解OLAP的含義和基本操作。

3.掌握多維數(shù)據(jù)建模的實(shí)現(xiàn)過程。

第三節(jié)數(shù)據(jù)倉庫的維度建模

1.理解數(shù)據(jù)倉庫的維度建模。

2.理解星型模型和雪花模型。

第四節(jié)數(shù)據(jù)倉庫的發(fā)展

1.了解動(dòng)態(tài)數(shù)據(jù)倉庫。

2.了解數(shù)據(jù)中心和數(shù)據(jù)中臺(tái)。

考核要點(diǎn):

掌握數(shù)據(jù)倉庫體系、OLAP及維度建模。

第五章數(shù)據(jù)倉庫設(shè)計(jì)與開發(fā)

教學(xué)要點(diǎn):

1.掌握數(shù)據(jù)倉庫設(shè)計(jì)的過程。

2.掌握基于Hive的數(shù)據(jù)倉庫實(shí)現(xiàn)

教學(xué)時(shí)數(shù):

4學(xué)時(shí)。

教學(xué)內(nèi)容:

第一節(jié)數(shù)據(jù)倉庫設(shè)計(jì)概述

1.了解數(shù)據(jù)倉庫設(shè)計(jì)的特點(diǎn)。

2.掌握數(shù)據(jù)倉庫的構(gòu)建模式。

第二節(jié)數(shù)據(jù)倉庫設(shè)計(jì)

1.掌握數(shù)據(jù)倉庫規(guī)劃、需求分析及概念設(shè)計(jì)。

2.理解數(shù)據(jù)倉庫邏輯模型設(shè)計(jì)。

3.理解數(shù)據(jù)倉庫物理設(shè)計(jì)。

4,了解數(shù)據(jù)倉庫的部署與維護(hù)。

第三節(jié)基于Hive的數(shù)據(jù)倉庫實(shí)現(xiàn)

1.理解Hive數(shù)據(jù)倉庫和數(shù)據(jù)庫比較。

2.掌握數(shù)據(jù)倉庫的常用操作。

3.掌握利用Hive建立數(shù)據(jù)倉庫。

考核要點(diǎn):

掌握數(shù)據(jù)倉庫的設(shè)計(jì)過程與方法,利用Hive進(jìn)行數(shù)據(jù)倉庫設(shè)計(jì)開發(fā)。

第六章回歸分析

教學(xué)要點(diǎn):

1.掌握回歸分析原理。

2.掌握一元線性回歸分析。

3.掌握多元線性回歸分析。

4.掌握邏輯回歸。

5.了解其他回歸分析。

教學(xué)時(shí)數(shù):

4學(xué)時(shí)。

教學(xué)內(nèi)容:

第一節(jié)回歸分析概述

1.理解回歸分析的定義與分類。

2.理解回歸分析的過程。

第二節(jié)一元線性回歸分析

1.掌握一元線性回歸方法。

2.理解一元線性回歸模型的參數(shù)估計(jì)。

3.理解一元線性回歸模型的誤差方差估計(jì)。

4.掌握利用Python進(jìn)行一元線性回歸。

第三節(jié)多元線性回歸

1.理解多元線性回歸模型。

2.理解多元線性模型的參數(shù)估計(jì)。

3.了解多元線性回歸的假設(shè)檢驗(yàn)及其評(píng)價(jià)。

4.掌握利用Python進(jìn)行多元線性回歸。

第四節(jié)邏輯回歸

3.理解Logistic回歸模型。

4,掌握利用Python進(jìn)行Logistic回歸。

考核要點(diǎn):

掌握回歸的定義,各類回歸的原理及Python實(shí)現(xiàn)。

第七章關(guān)聯(lián)規(guī)則挖掘

教學(xué)要點(diǎn):

1.了解關(guān)聯(lián)規(guī)則的基本思想、概念和意義。

2.了解關(guān)聯(lián)規(guī)則挖掘的應(yīng)用背景;掌握常用的關(guān)聯(lián)規(guī)則算法。

3.掌握利用Python實(shí)現(xiàn)關(guān)聯(lián)規(guī)則分析。

4.了解其它方法的內(nèi)容、了解關(guān)聯(lián)規(guī)則挖掘的研究動(dòng)態(tài)。

教學(xué)時(shí)數(shù):

4學(xué)時(shí)。

教學(xué)內(nèi)容:

第一節(jié)關(guān)聯(lián)規(guī)則分析概述

1.了解購物籃分析。

2.熟練掌握頻繁項(xiàng)集、閉項(xiàng)集和關(guān)聯(lián)規(guī)則的概念。

3.理解頻繁模式挖掘的路線圖。

第二節(jié)頻繁項(xiàng)集挖掘方法

1.掌握Apriori算法:使用候選項(xiàng)集找頻繁項(xiàng)集。

2.掌握由頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則的方法。

3.理解提高Apriori算法有效性的方法。

4.掌握挖掘頻繁項(xiàng)集的模式增長方法。

第三節(jié)關(guān)聯(lián)規(guī)則評(píng)估方法

1,了解強(qiáng)關(guān)聯(lián)規(guī)則不一定是有趣的。

2.使用提升度進(jìn)行相關(guān)分析。

考核要點(diǎn):

了解頻繁項(xiàng)集、閉項(xiàng)集和關(guān)聯(lián)規(guī)則的概念,理解模式評(píng)估方法,掌握Apriori算法和挖掘頻繁項(xiàng)集的

模式增長方法。

第八章分類

教學(xué)要點(diǎn):

1.了解分類及預(yù)測的基本思想、概念和意義。

2.掌握常用的分類及預(yù)測算法(或模型)。

3.了解分類及預(yù)測挖掘的研究動(dòng)態(tài)。

4.掌握利用Python實(shí)現(xiàn)各種分類算法的方法。

教學(xué)時(shí)數(shù):

12學(xué)時(shí)。

教學(xué)內(nèi)容:

第一節(jié)基本概念

1.了解分類和預(yù)測的定義。

第二節(jié)決策樹規(guī)約

1.理解決策樹歸納的概念。

2.掌握屬性選擇度量的方法。

3.理解樹剪枝。

4.決策樹的Python實(shí)現(xiàn)。

第三節(jié)K近鄰算法

1.K近鄰算法原理。

2.Python算法實(shí)現(xiàn)。

第四節(jié)支持向量機(jī)

1.SVM算法原理。

2.Python算法實(shí)現(xiàn)。

第五節(jié)貝葉斯分類

1.理解貝葉斯定理。

2.掌握樸素貝葉斯分類算法。

3.樸素貝葉斯算法的Python實(shí)現(xiàn)。

第六節(jié)模型評(píng)估與選擇

1.分類器性能的度量。

2.模型選擇。

3.利用Python實(shí)現(xiàn)模型的評(píng)估與選擇。

第七節(jié)組合分類

1.組合方法簡介。

2.袋裝。

3.提升和AdaBoost?

4.隨機(jī)森林。

考核要點(diǎn):

了解分類的概念,理解評(píng)估分類器性能的度量方法,掌握決策樹分類算法、SVM、貝葉斯分類算法、

模型評(píng)估與選擇、組合分類及利用Python實(shí)現(xiàn)分類的方法。

第九章聚類

教學(xué)要點(diǎn):

1.了解如何計(jì)算由各種屬性和不同的類型來表示的對(duì)象之間的相異度。

2.掌握K-Means聚類、層次聚類、基于密度的聚類和其他常用方法。

3.掌握利用sklearn實(shí)現(xiàn)聚類的方法。

教學(xué)時(shí)數(shù):

10學(xué)時(shí)。

教學(xué)內(nèi)容:

第一節(jié)聚類分析的概念

1.理解什么是聚類分析。

2.了解對(duì)聚類分析的要求。

3.掌握基本的聚類方法。

第二節(jié)K-Means聚類

1.掌握典型的劃分方法:K-Means和K-Medoids?

2.掌握利用sklearn實(shí)現(xiàn)K-means聚類。

第三節(jié)層次方法

1.理解凝聚的和分裂的層次聚類。

2.掌握簇間的距離度量。

3.分裂和凝聚的層次聚類算法。

4.算法實(shí)現(xiàn)。

第四節(jié)基于密度的方法

1.算法原理。

2.掌握DBSCAN算法。

3.掌握算法的Python實(shí)現(xiàn)。

第五節(jié)其他聚類算法

1.了解STING算法。

2.了解COBWEB算法。

3.掌握模糊聚類算法。

第六節(jié)聚類評(píng)估

1.估計(jì)聚類趨勢。

2.學(xué)習(xí)確定簇?cái)?shù)的方法。

3.測定聚類質(zhì)量。

考核要點(diǎn):

了解聚類的概念,掌握k-Means和k-Medoids算法、層次方法和基于密度的方法等典型算法及其Python

的實(shí)現(xiàn)方法。

第十章神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)

教學(xué)要點(diǎn):

1.了解理解神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的原理。

2.掌握感知機(jī)與BP神經(jīng)網(wǎng)絡(luò)的原理。

3.了解深度學(xué)習(xí)基礎(chǔ)。

教學(xué)時(shí)數(shù):

2學(xué)時(shí)。

教學(xué)內(nèi)容:

第一節(jié)神經(jīng)網(wǎng)絡(luò)基礎(chǔ)

1.理解神經(jīng)元模型。

2.理解感知機(jī)與多層網(wǎng)絡(luò)。

第二節(jié)BP神經(jīng)網(wǎng)絡(luò)

1.理解多層前饋神經(jīng)網(wǎng)絡(luò)。

2.理解后向傳播算法。

3.了解BP神經(jīng)網(wǎng)絡(luò)應(yīng)用。

第三節(jié)深度學(xué)習(xí)

1.理解深度學(xué)習(xí)基本原理。

2.了解常用的深度學(xué)習(xí)算法。

考核要點(diǎn):

了解神經(jīng)網(wǎng)絡(luò)的概念,掌握感知機(jī)模型和BP神經(jīng)網(wǎng)絡(luò)、了解深度學(xué)習(xí)算法。

第十一章離群點(diǎn)檢測

教學(xué)要點(diǎn):

1.了解離群點(diǎn)的概念與檢測方法。

2.掌握sklearn中的異常值檢測方法。

教學(xué)時(shí)數(shù):

2學(xué)時(shí)。

教學(xué)內(nèi)容:

第一節(jié)離群點(diǎn)概述

1.理解離群點(diǎn)的概念和類型。

2.理解離群點(diǎn)檢測的挑戰(zhàn)。

第二節(jié)離群點(diǎn)檢測

1.理解基于統(tǒng)計(jì)學(xué)的離群點(diǎn)檢測方法。

2.理解基于臨近性的離群點(diǎn)檢測方法。

3.理解基于聚類的離群點(diǎn)檢測方法。

4.理解基于分類的離群點(diǎn)檢測方法。

第三節(jié)sklearn中的異常值檢測方法

1.了解利用Python進(jìn)行異常值檢測的方法。

考核要點(diǎn):

了解離群點(diǎn)的概念、類型以及離群點(diǎn)檢測的常用方法,掌握sklearn中的異常值檢測方法。

第十二章文本和時(shí)序數(shù)據(jù)挖掘

教學(xué)要點(diǎn):

1.掌握文本數(shù)據(jù)挖掘的過程和基本方法。

2.掌握時(shí)序數(shù)據(jù)挖掘主要方法。

教學(xué)時(shí)數(shù):

4學(xué)時(shí)。

教學(xué)內(nèi)容:

第一節(jié)文本數(shù)據(jù)挖掘

1.理解文本數(shù)據(jù)挖掘的任務(wù)。

第二節(jié)文本分析與挖掘的主要方法

1.理解文本挖掘預(yù)處理的方法。

2.理解文本表征、文本分類、聚類與文本可視化方法。

第三節(jié)時(shí)序數(shù)據(jù)挖掘

1.掌握時(shí)間序列平穩(wěn)性與隨機(jī)性判定方法。

2.掌握時(shí)序數(shù)據(jù)的典型分析挖掘模型,主要包括自回歸滑動(dòng)平均模型、差分整合移動(dòng)平均自回歸模型和

季節(jié)性差分自回歸移動(dòng)平均模型。

考核要點(diǎn):

掌握文本挖掘的主要任務(wù)和基本方法,時(shí)序數(shù)據(jù)預(yù)測的主要模型。

第十三章數(shù)據(jù)挖掘案例

教學(xué)要點(diǎn):

1.掌握數(shù)據(jù)挖掘的分析與實(shí)現(xiàn)。

2.掌握利用sklearn進(jìn)行綜合數(shù)據(jù)挖掘。

教學(xué)時(shí)數(shù):

4學(xué)時(shí)。

教學(xué)內(nèi)容:

1.良/惡性乳腺腫瘤預(yù)測

2.泰坦尼克號(hào)乘客生還預(yù)測

3.圖像的聚類分割

考核要點(diǎn):

掌握利用Python進(jìn)行數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)的實(shí)現(xiàn)過程。

本課程使用教具和現(xiàn)代教育技術(shù)的指導(dǎo)性意見

本課程教材力求內(nèi)容新穎,應(yīng)采用多樣化的方式進(jìn)行教學(xué),讓學(xué)生在理論與實(shí)踐相結(jié)合的基礎(chǔ)上,對(duì)課

程所要求的實(shí)際操作能力有進(jìn)一步的提高。

充分利用多媒體等現(xiàn)代化教學(xué)手段,整體優(yōu)化教學(xué)過程和教學(xué)內(nèi)容,調(diào)動(dòng)學(xué)生學(xué)習(xí)積極性;布置實(shí)際操

作任務(wù)給學(xué)生上機(jī)操作并及時(shí)指導(dǎo)。

實(shí)驗(yàn)部分

基本要求

實(shí)驗(yàn)是數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課程教學(xué)中不可分割的重要組成部分。實(shí)驗(yàn)課程設(shè)計(jì)的思想是幫助學(xué)生理解

和掌握數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的基本概念、算法、技術(shù)和原理,熟練掌握利用Hive進(jìn)行數(shù)據(jù)倉庫設(shè)計(jì),利用Python

進(jìn)行數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的使用方法,通過適當(dāng)?shù)木幊烫岣邔W(xué)生的編程能力以及實(shí)踐動(dòng)手能力,提高學(xué)生對(duì)

課程的學(xué)習(xí)興趣,加強(qiáng)創(chuàng)新精神與綜合素質(zhì)的培養(yǎng)。

實(shí)踐課程課時(shí):18學(xué)時(shí)

課程思政內(nèi)容

1.培養(yǎng)學(xué)生民族認(rèn)同感,樹立遠(yuǎn)大職業(yè)理想。梳理國產(chǎn)操作系統(tǒng)的發(fā)展歷史與現(xiàn)狀,包括華為、中興等

國產(chǎn)企業(yè)在全球市場的崛起,在操作系統(tǒng)領(lǐng)域的新架構(gòu),向?qū)W生展示中國的信息技術(shù)領(lǐng)域成就,增強(qiáng)使命感

與榮譽(yù)感;通過華為孟晚舟事件、美國的芯片壟斷一引出:民族認(rèn)同感。黨的十八屆五中全會(huì)通過的“十三

五”規(guī)劃《建議》,明確提出實(shí)施網(wǎng)絡(luò)強(qiáng)國戰(zhàn)略以及與之密切相關(guān)的“互聯(lián)網(wǎng)+”行動(dòng)計(jì)劃。國家正著力實(shí)現(xiàn)關(guān)

鍵技術(shù)自主可控,為維護(hù)國家安全、網(wǎng)絡(luò)安全提供技術(shù)保障。中國信息化需求巨大,但在一些關(guān)鍵技術(shù)領(lǐng)域

如操作系統(tǒng)、芯片技術(shù)、CPU技術(shù)等方面,還難以做到自主可控,對(duì)國家安全造成威脅。引導(dǎo)學(xué)生明確:建

設(shè)網(wǎng)絡(luò)強(qiáng)國,不僅僅是靠網(wǎng)絡(luò)技術(shù),還要有軟件技術(shù)等其他各類技術(shù)的支撐。引導(dǎo)學(xué)生作為軟件技術(shù)專業(yè)的

一員,應(yīng)更加明晰專業(yè)人才的培養(yǎng)目標(biāo),更加明確專業(yè)領(lǐng)域內(nèi)工作崗位和工作內(nèi)容的社會(huì)價(jià)值,自覺樹立遠(yuǎn)

大職業(yè)理想,將職業(yè)生涯、職業(yè)發(fā)展脈絡(luò)與國家發(fā)展的歷史進(jìn)程融合起來。

2.向?qū)W生介紹中國在人工智能領(lǐng)域的布局,重點(diǎn)分析當(dāng)代人工智能下軟件技術(shù)如何支撐中國制造的智能

化發(fā)展;

3.通過專業(yè)知識(shí)的學(xué)習(xí),引導(dǎo)學(xué)生深刻理解與認(rèn)識(shí)所學(xué)軟件開發(fā)知識(shí)對(duì)于國家信息產(chǎn)業(yè)發(fā)展、智慧城市

建設(shè)、大數(shù)據(jù)智能信息處理等各方面的重要意義,使學(xué)生在學(xué)習(xí)過程中逐漸樹立專業(yè)榮譽(yù)感;

4.培養(yǎng)學(xué)生精益求精、工匠精神。告訴學(xué)生在學(xué)好軟件技術(shù)之后,走上工作崗位會(huì)成為程序員、軟件系統(tǒng)

運(yùn)維人員、軟件測試員、售前售后服務(wù)人員等。在這些職位崗位上,要發(fā)揮工匠精神,精益求精地將程序開

發(fā)、系統(tǒng)運(yùn)維、程序測試、需求分析及技術(shù)問題處理等工作內(nèi)容完成好,保證軟件系統(tǒng)運(yùn)行時(shí)正確、穩(wěn)定,保

證客戶的需求被精確采集和納入軟件開發(fā)計(jì)劃,保證軟件運(yùn)行時(shí)遇到問題能被及時(shí)解決。引導(dǎo)學(xué)生在學(xué)習(xí)時(shí),

將知識(shí)夯實(shí)、精技強(qiáng)能,方能在今后工作中本領(lǐng)過硬,不出繳漏,工作成果令用戶滿意。引導(dǎo)學(xué)生認(rèn)識(shí)到,作

為職業(yè)人,其專注、敬業(yè)、責(zé)任擔(dān)當(dāng)對(duì)完成好本職工作,進(jìn)而促進(jìn)軟件行業(yè)整體的高水平、優(yōu)質(zhì)化發(fā)展具有重

要意義。

5.培養(yǎng)學(xué)生團(tuán)結(jié)協(xié)作,合作共贏的精神。通過實(shí)踐項(xiàng)目、競賽等,告訴學(xué)生今天的社會(huì)無論什么行業(yè)想要

做出一番成就,靠一個(gè)人打拼已經(jīng)不現(xiàn)實(shí)了。所謂人多力量大,三個(gè)臭皮匠頂個(gè)諸葛亮……強(qiáng)調(diào)團(tuán)隊(duì)成員之

間的資源共享、協(xié)同合作精神,團(tuán)隊(duì)成員在一個(gè)項(xiàng)目中要各司其職,每個(gè)人發(fā)揮自己的特長完成分配的任務(wù),

最終才能高質(zhì)量、有效率地完成項(xiàng)目,從而形成更強(qiáng)大而持久的生產(chǎn)力和創(chuàng)造力。

教學(xué)進(jìn)度計(jì)劃表

(教學(xué)日歷)

202*/202*學(xué)年第二學(xué)期

采用教材:《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘(Hadoop+Hive+Python)》

魏偉一主編,清華大學(xué)出版社

參考教材:《數(shù)據(jù)挖掘概念與技術(shù)》,韓家煒,機(jī)械工業(yè)出版社

實(shí)踐/實(shí)

名稱總時(shí)數(shù)講課上機(jī)習(xí)題課程設(shè)計(jì)周學(xué)時(shí)

驗(yàn)

計(jì)劃時(shí)數(shù)7254184

周次課次授課內(nèi)容摘要時(shí)數(shù)目的要求備注

理解和掌握數(shù)據(jù)倉庫與數(shù)據(jù)挖

第1章數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概述

掘的基本概念、數(shù)據(jù)倉庫的組

一、數(shù)據(jù)倉庫概述

成、應(yīng)用及基于Hadoop/Spark

1二、數(shù)據(jù)挖掘概述2的數(shù)據(jù)倉庫技術(shù),數(shù)據(jù)挖掘過

程、數(shù)據(jù)挖掘的主要任務(wù)、數(shù)

三、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的區(qū)別于

據(jù)挖掘使用的主要技術(shù)及工

聯(lián)系

具。

1

第2章認(rèn)識(shí)數(shù)據(jù)

數(shù)據(jù)對(duì)象與屬性類型理解和掌握數(shù)據(jù)對(duì)象和屬性類

型,數(shù)據(jù)的基本統(tǒng)計(jì)描述,掌握

2數(shù)據(jù)的基本統(tǒng)計(jì)描述2

度量數(shù)據(jù)相似性和相異性的方

數(shù)據(jù)可視化法;了解數(shù)據(jù)可視化的方法。

度量數(shù)據(jù)的相似性

第3章數(shù)據(jù)預(yù)處理

一、數(shù)據(jù)預(yù)處理概述,Python數(shù)了解數(shù)據(jù)預(yù)處理的目的和意義;

32

據(jù)預(yù)處理方法掌握如何對(duì)數(shù)據(jù)進(jìn)行清理。

二、數(shù)據(jù)清洗及Python清洗方法

2掌握如何對(duì)不同數(shù)據(jù)源的數(shù)據(jù)

三、數(shù)據(jù)集成及利用Python進(jìn)行進(jìn)行合并;掌握如何對(duì)數(shù)據(jù)進(jìn)行

數(shù)據(jù)合并變換,使之適合建模的需要;掌

42握如何對(duì)數(shù)據(jù)進(jìn)行消減,使得在

四、數(shù)據(jù)變換與離散化

消減后的數(shù)據(jù)集上挖掘更有效:

五、數(shù)據(jù)歸約掌握利用Python進(jìn)行數(shù)據(jù)預(yù)處

理的方法。

實(shí)驗(yàn)一、利用Python實(shí)現(xiàn)數(shù)據(jù)預(yù)

掌握利用Python實(shí)現(xiàn)數(shù)據(jù)清洗、

5處理(數(shù)據(jù)合并、數(shù)據(jù)清洗、數(shù)據(jù)2

數(shù)據(jù)集成和數(shù)據(jù)變換的方法。

變換)

3

第4章、數(shù)據(jù)倉庫與聯(lián)機(jī)分析處理掌握數(shù)據(jù)倉庫的體系、多維數(shù)

6一、數(shù)據(jù)倉庫體系,二、多維數(shù)據(jù)2據(jù)模型與OLAP、數(shù)據(jù)倉庫的維

模型與OLAP三、維度建模度建模及數(shù)據(jù)倉庫的發(fā)展。

周次課次授課內(nèi)容摘要時(shí)數(shù)目的要求備注

第5章、數(shù)據(jù)倉庫設(shè)計(jì)與開發(fā)

掌握數(shù)據(jù)倉庫設(shè)計(jì)的特點(diǎn),數(shù)據(jù)

一、數(shù)據(jù)倉庫設(shè)計(jì)概述倉庫構(gòu)建模式和構(gòu)建框架,數(shù)據(jù)

72

二、數(shù)據(jù)倉庫設(shè)計(jì)倉庫的規(guī)劃、需求分析、邏輯設(shè)

4計(jì)、物理設(shè)計(jì),部署和維護(hù)。

掌握基于Hive的數(shù)據(jù)倉庫實(shí)現(xiàn)

8三、基于Hive的數(shù)據(jù)倉庫實(shí)現(xiàn)2

過程。

實(shí)驗(yàn)二(選做)、基于Hadoop平

掌握基于Hive的數(shù)據(jù)倉庫的設(shè)

9臺(tái),利用Hive實(shí)現(xiàn)數(shù)據(jù)倉庫的設(shè)

計(jì)與實(shí)現(xiàn)。

計(jì)實(shí)現(xiàn)及基本操作

5

第6章回歸分析

掌握回歸分析原理;掌握一元線

10一、回歸分析概述2

性回歸分析的原理與方法。

二、一元線性回歸分析

三、多元線性回歸

掌握多元線性回歸分析;掌握邏

11四、邏輯回歸2

輯回歸;了解其他回歸分析。

五、其他回歸分析

6

實(shí)驗(yàn)三、利用Python掌握利用Python實(shí)現(xiàn)典型的回

122

實(shí)現(xiàn)典型的回歸分析歸分析方法。

第7章關(guān)聯(lián)規(guī)則挖掘

了解頻繁項(xiàng)集、閉項(xiàng)集和關(guān)聯(lián)規(guī)

713一、關(guān)聯(lián)規(guī)則分析概述2則的概念,理解模式評(píng)估方法,

掌握Apriori算法。

二、頻繁項(xiàng)集挖掘方法

周次課次授課內(nèi)容摘要時(shí)數(shù)目的要求備注

掌握FP挖掘算法;利用Python

三、頻繁模式樹算法實(shí)現(xiàn)關(guān)聯(lián)規(guī)則分析;了解其它方

142

四、關(guān)聯(lián)規(guī)則評(píng)估方法法的內(nèi)容、了解關(guān)聯(lián)規(guī)則挖掘的

研究動(dòng)態(tài)。

實(shí)驗(yàn)四、Python實(shí)現(xiàn)數(shù)據(jù)的關(guān)聯(lián)掌握利用Python實(shí)現(xiàn)數(shù)據(jù)的關(guān)

152

規(guī)則分析聯(lián)規(guī)則分析。

8

第8章分類

了解分類及預(yù)測的基本思想、概

16一、分類概述2念和意義;掌握決策樹規(guī)約算

法。

二、決策樹規(guī)約及其Python實(shí)現(xiàn)

三、近鄰算法

K掌握KNN算法原理與實(shí)現(xiàn);了解

172

四、支持向量機(jī)算法及其實(shí)現(xiàn)SVM算法及其實(shí)現(xiàn)。

9

五、貝葉斯分類熟悉掌握貝葉斯分類算法;理

182解評(píng)估分類器性能的度量方

六、模型評(píng)估與選擇

法。

七、組合分類

掌握組合分類的原理;掌握隨機(jī)

19組合方法概述;袋裝;提升和2

森林框架及Python實(shí)現(xiàn)方法。

Adaboost;隨機(jī)森林

10

用不同的算法實(shí)現(xiàn)給定數(shù)據(jù)集

的分類分析,掌握利用Python

20實(shí)驗(yàn)五、分類分析綜合實(shí)驗(yàn)2

實(shí)現(xiàn)數(shù)據(jù)分類分析的常用方

法。

周次課次授課內(nèi)容摘要時(shí)數(shù)目的要求備注

第9章聚類

掌握聚類分析的基本原理;熟練

一、聚類概述

212掌握K-Means算法的原理及其實(shí)

二、?算法

KMeans現(xiàn)。

11K-Means算法實(shí)現(xiàn)

三、層次聚類方法

222掌握層次聚類算法及其實(shí)現(xiàn)。

層次聚類算法及其Python實(shí)現(xiàn)

四、基于密度的聚類方法

232掌握DBSCAN算法及其實(shí)現(xiàn)。

DBSCAN算法原理及其實(shí)現(xiàn)

12

五、其他聚類方法

了解STING算法、COBWENB算

242

STING算法、COBWENB算法及模法;掌握模糊聚類算法。

糊聚類算法

六、聚類評(píng)估

掌握聚類評(píng)估的基本方法;確

估計(jì)聚類趨勢

252定簇?cái)?shù)目的常用方法;聚類質(zhì)

確定簇?cái)?shù)目的方法

量的測定。

測定聚類質(zhì)量

13

26實(shí)驗(yàn)六數(shù)據(jù)的聚類分析綜合實(shí)驗(yàn)2掌握數(shù)據(jù)聚類的典型算法。

第10章神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)

理解神經(jīng)網(wǎng)絡(luò)基本原理;掌握

1427一、神經(jīng)網(wǎng)絡(luò)基礎(chǔ)2

感知機(jī)的原理。

神經(jīng)元模型,感知機(jī)與多層網(wǎng)絡(luò)

周次課次授課內(nèi)容摘要

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論