數(shù)據(jù)倉庫與數(shù)據(jù)挖掘_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘_第3頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘教學大綱一、課程概況課程名稱:數(shù)據(jù)倉庫與數(shù)據(jù)挖掘英文名稱: Data warehous ing and data mining課程性質:選修 課程學時:32 課程學分:2 授課對象:信息類的大學本科高年級學生 開課時間:三年級下學期 講課方式:課堂+實驗 主講老師:二、教學目的本課程把數(shù)據(jù)視為基礎資源,根據(jù)軟件工程的思想,總結了數(shù)據(jù)利用的歷程,講述了數(shù)據(jù)倉庫的基礎知識和工具,研究了數(shù)據(jù)挖掘的任務及其挑戰(zhàn),給出了經 典的數(shù)據(jù)挖掘算法,介紹了數(shù)據(jù)挖掘的產品,剖析了稅務數(shù)據(jù)挖掘的案例,探索 了大數(shù)據(jù)的管理和應用問題。三、教學任務完成數(shù)據(jù)倉庫與數(shù)據(jù)挖掘教材內容,及教學計劃中的互動實踐

2、內容,另有學牛自主選題的大作業(yè)、選作的論文報告。32學時:課堂24、實驗2、課外2、研討4學時。四、教學內容的結構課程由9個教學單元組成,對應于數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的內容。笫1章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘概述1.1概述11.2數(shù)據(jù)中心4關系型數(shù)據(jù)小心非關系型數(shù)據(jù)中心123混合型數(shù)據(jù)屮心(大數(shù)據(jù)平臺)1.3混合型數(shù)據(jù)中心參考架構笫2章數(shù)據(jù)2.1數(shù)據(jù)的概念2.2數(shù)據(jù)的內容實時數(shù)據(jù)與歷史數(shù)據(jù)222吋態(tài)數(shù)據(jù)與事務數(shù)據(jù)圖形數(shù)據(jù)與圖像數(shù)據(jù)主題數(shù)據(jù)與全部數(shù)據(jù)空間數(shù)據(jù)226序列數(shù)據(jù)和數(shù)據(jù)流元數(shù)據(jù)與數(shù)據(jù)字典2.3數(shù)據(jù)屬性及數(shù)據(jù)集2.4數(shù)據(jù)特征的統(tǒng)計描述22集中趨勢22離散程度23數(shù)據(jù)的分布形狀252.5數(shù)據(jù)的可視化262

3、.6數(shù)據(jù)相似與相異性的度量292.7數(shù)據(jù)質量322.8數(shù)據(jù)預處理32被污染的數(shù)據(jù)33數(shù)據(jù)清理35數(shù)據(jù)集成36數(shù)據(jù)變換37數(shù)據(jù)規(guī)約38第3章數(shù)據(jù)倉庫與數(shù)據(jù)ETL基礎393.1從數(shù)據(jù)庫到數(shù)據(jù)倉庫393.2數(shù)據(jù)倉庫的結構39兩層體系結構41三層體系結構41組成元素423.3數(shù)據(jù)倉庫的數(shù)據(jù)模型43331概念模型43邏輯模型43物理模型463.4 ETL46數(shù)據(jù)抽収47數(shù)據(jù)轉換48數(shù)據(jù)加載493.5 OLAP493.5.1 維 493.5.2 OLAP與 OLTP493.5.3 OLAP的基本操作503.6 OLAP的數(shù)據(jù)模型51361 ROLAP523.6.2 MOLAP523.6.3 HOLAP53

4、第四章數(shù)據(jù)倉庫和ETL工具544.1 IBM DB2 V10自適應壓縮54多溫度存儲55時間旅行查詢564.1.4 DB2兼容性功能60工作負載管理614.1.6 PureXML62當前己落實634.1.8 DB2 PureScale Feature63分區(qū)特性65并行技術674.1.11 SQW684.1.12 Cubing Services68列式存儲及壓縮技術(BLU)704.2 InfoSphere Datastage714.2.1 基于 In formation Server 的架構 72企業(yè)級實施和管理75高擴展的體系架構79具備線性擴充能力814.2.5 ETL元數(shù)據(jù)管理824.

5、3 InfoSphere QualityStage82第5章 數(shù)據(jù)挖掘基礎845.1數(shù)據(jù)挖掘的起源845.2數(shù)據(jù)挖掘的定義855.3數(shù)據(jù)挖掘的任務86分類回歸分析5.33相關分析聚類分析 關聯(lián)規(guī)則異常檢測5.4數(shù)據(jù)挖掘標準流程商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準備建立模型模型評估結果部署5.5數(shù)據(jù)挖掘的十大挑戰(zhàn)性問題數(shù)據(jù)挖掘統(tǒng)一理論的探索高維數(shù)據(jù)和高速數(shù)據(jù)流的研究與應用時序數(shù)據(jù)的挖掘與降噪從復雜數(shù)據(jù)中找尋復雜知識網絡環(huán)境屮的數(shù)據(jù)挖掘分布式數(shù)據(jù)挖掘生物庚學和環(huán)境科學數(shù)據(jù)挖掘數(shù)據(jù)挖掘過程自動化與可視化信息安全與隱私保護動態(tài)、不平衡及成木敏感數(shù)據(jù)的挖掘 第6章數(shù)據(jù)挖掘算法6.1算法概述分類算法及評估指標聚類算法及

6、其評價指標6.2 C4.56.3 CART算法6.4 K-Means 算法6.5 SVM 算法 1216.6 Apriori 算法6.7 EM算法6.8 PageRank6.9Adaboost 算法6.10KNN 算法6.11Naive Bayes第7章數(shù)據(jù)挖掘工具與產品7.1數(shù)據(jù)挖掘工具概述7.2簡業(yè)數(shù)據(jù)挖掘工具IBM SPSS Modeler7.3開源通用的數(shù)據(jù)挖掘工具WEKA第8章數(shù)據(jù)挖掘案例8.1概述8.2納稅評估示例8.3稅收預測建模示例8.4稅務行業(yè)納稅人客戶細分探索8.5基于Hadoop平臺的數(shù)據(jù)挖掘思考題第9章大數(shù)據(jù)管理9.1什么是大數(shù)據(jù)9.2 Hadoop 介紹9.3 NoSQL介紹9.4 InfoSphere Biginsights 3.0介紹五、教學活動以及教學方法上的基本要求課堂教學、實驗、課外作業(yè)、自選題目的大作業(yè)、論文和報告結合,另有課外-論環(huán)節(jié)。通過課堂教學講解基本原理和方法;通過互動實踐課鞏固課堂教學內容,并 在助教輔導下完成基礎實驗,由助教驗收;課外作業(yè)由學生獨立完成,并提交系 統(tǒng)進行評分。自選題目的大作業(yè)可以分組進行,要在期中提交選題報告,期末提交全部文檔及程序并且逐一答辯。答辯形式為:學生演示9分鐘,教師提問3分鐘,當即給岀成績。論文和報告屬于加分因素。課外討論安排在每次課堂教學 Z

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論