版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘南京郵電大學(xué)信息產(chǎn)業(yè)發(fā)展戰(zhàn)略研究院朱恒民教材及參考書教材
JiaweiHan,數(shù)據(jù)挖掘概念與技術(shù)(中譯本),機(jī)械工業(yè)出版社參考書
-蘇新寧.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘.北京:清華大學(xué)出版社
-李志剛等.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的原理及應(yīng)用,高教出版社
-安淑之等.數(shù)據(jù)挖掘與數(shù)據(jù)倉庫,清華大學(xué)出版社
-周根貴.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘,浙江大學(xué)出版社
-康曉東.基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù),機(jī)械工業(yè)出版社課時(shí)安排總課時(shí)32學(xué)時(shí)其中,課堂講授16學(xué)時(shí),實(shí)驗(yàn)16學(xué)時(shí)考核標(biāo)準(zhǔn)平時(shí)成績占30%期末考試的成績占70%答疑安排周三第6小節(jié)辦公室等待大家的光臨電子郵件答疑課間答疑行政南樓346房間本課程的特點(diǎn)理論性強(qiáng) 統(tǒng)計(jì)學(xué)、信息理論、各種算法實(shí)踐性強(qiáng) 解決生活中的問題具備一定的計(jì)算機(jī)基礎(chǔ) 數(shù)據(jù)庫、數(shù)據(jù)結(jié)構(gòu)、操作系統(tǒng)、算法實(shí)現(xiàn)等知識如何學(xué)習(xí)?定位:
-基本要求:掌握數(shù)據(jù)挖掘的操作流程和基本原理,能夠基于軟件工具,分析和解決具體數(shù)據(jù)挖掘應(yīng)用問題。
-更高要求:對于計(jì)算機(jī)基礎(chǔ)強(qiáng)、且學(xué)有余力的同學(xué),能夠針對具體應(yīng)用,程序?qū)崿F(xiàn)數(shù)據(jù)挖掘算法。理論聯(lián)系實(shí)際課程體系共六章內(nèi)容:第一章數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概述第二章數(shù)據(jù)倉庫與OLAP第三章數(shù)據(jù)預(yù)處理第四章關(guān)聯(lián)分析第五章分類和預(yù)測第六章聚類分析實(shí)驗(yàn)內(nèi)容實(shí)驗(yàn)1數(shù)據(jù)倉庫與OLAP的使用實(shí)驗(yàn)2測試常用數(shù)據(jù)預(yù)處理操作實(shí)驗(yàn)3測試K-means算法實(shí)驗(yàn)4分類挖掘任務(wù)的實(shí)踐Chap1數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概述學(xué)習(xí)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘有何意義?初識數(shù)據(jù)倉庫初識數(shù)據(jù)挖掘1、學(xué)習(xí)習(xí)數(shù)據(jù)據(jù)倉庫庫與數(shù)數(shù)據(jù)挖挖掘有有何意意義???社會(huì)信信息化化后,,社會(huì)會(huì)的運(yùn)運(yùn)轉(zhuǎn)是是軟件件的運(yùn)運(yùn)轉(zhuǎn)?社會(huì)信信息化化后,,社會(huì)會(huì)的歷歷史是是數(shù)據(jù)據(jù)的歷歷史劃時(shí)代代意義義的技技術(shù)??計(jì)算機(jī)機(jī)和網(wǎng)網(wǎng)絡(luò)技技術(shù)??!有人甚甚至提提出要要把計(jì)計(jì)算機(jī)機(jī)與網(wǎng)網(wǎng)絡(luò)技技術(shù)與與火的的發(fā)明明相比比擬。?;鸬陌l(fā)發(fā)明區(qū)區(qū)別了了動(dòng)物物和人人;而計(jì)算算機(jī)和和網(wǎng)絡(luò)絡(luò)技術(shù)術(shù)則大大大提提高了了人的的生存存質(zhì)量量和人人的素質(zhì),,使人人成為為社會(huì)會(huì)人、、全球球人。。網(wǎng)絡(luò)之之后的的下一一個(gè)技技術(shù)熱熱點(diǎn)是是什么么?《紐約時(shí)時(shí)報(bào)》由60年代的的10~20版擴(kuò)張張至現(xiàn)現(xiàn)在在的100~200版,最最高曾曾達(dá)1572版;《北京青青年報(bào)報(bào)》也已是是16~40版;市市場營營銷銷報(bào)已已達(dá)100版。然而在在現(xiàn)實(shí)實(shí)社會(huì)會(huì)中,,人均均日閱閱讀時(shí)時(shí)間通通常為為30~45分鐘,,只能能瀏覽覽一份份24版的報(bào)報(bào)紙。。信息處處理的的難題題大量信信息在在給人人們帶帶來方方便的的同時(shí)時(shí)也帶帶來了了一大大堆問問題::第一是是信息息過量量,難難以消消化;;第二是是信息息真假假難以以辨識識;第三是是信息息安全全難以以保證證;第四是是信息息形式式不一一致,,難以以統(tǒng)一一處理理。數(shù)據(jù)爆爆炸但但知識識貧乏乏人們積積累的的數(shù)據(jù)據(jù)越來來越多多。激激增的的數(shù)據(jù)據(jù)背后后隱隱藏著著許多多重要要的信信息,,人們們希望望能夠夠?qū)ζ溥M(jìn)進(jìn)行更更高層層次的的分析析,以以便更更好地地利用用這這些數(shù)數(shù)據(jù)。。數(shù)據(jù)的豐富富帶來了對對強(qiáng)有力的的數(shù)據(jù)分析析工具的的需求,快快速增長的的海量數(shù)據(jù)據(jù)、存放在在大型和和大量數(shù)據(jù)據(jù)庫中,沒沒有強(qiáng)有力力的工具具,理解這這些數(shù)據(jù)已已遠(yuǎn)遠(yuǎn)超出出了人的能能力.導(dǎo)致“數(shù)據(jù)據(jù)爆炸但知知識貧乏””的原因目前的數(shù)據(jù)據(jù)庫系統(tǒng)可可以高效地地實(shí)現(xiàn)數(shù)據(jù)據(jù)的錄入入、查詢、、統(tǒng)計(jì)等功功能,但無無法發(fā)現(xiàn)數(shù)數(shù)據(jù)中存存在的關(guān)系系和規(guī)則,,無法根據(jù)據(jù)現(xiàn)有的數(shù)數(shù)據(jù)預(yù)測測未來的發(fā)發(fā)展趨勢。。缺乏挖掘掘數(shù)據(jù)背背后隱藏的的知識的手手段,導(dǎo)致致了“數(shù)據(jù)據(jù)爆炸但但知識貧乏乏”的現(xiàn)象象。我怎么分析析這些數(shù)據(jù)據(jù)?如何才能不不被信息淹淹沒?人們開始考考慮:“如如何才能不不被信息淹淹沒,而而是從中及及時(shí)發(fā)現(xiàn)有有用的知識識、提高信信息利用用率?”面對這一挑挑戰(zhàn),數(shù)據(jù)據(jù)挖掘和知知識發(fā)現(xiàn)(DataMiningandKnowledgeDiscovery)技術(shù)應(yīng)運(yùn)而而生,并顯顯示出強(qiáng)大大的生命命力.學(xué)習(xí)本課程程的意義掌握數(shù)據(jù)倉倉庫和數(shù)據(jù)據(jù)挖掘的基基本原理,用信息分分析的方法法進(jìn)行思考考問題.了解一些算算法的基本本思想.以便今后處處理特定定問題時(shí)使使用.幫助你了解解現(xiàn)代企業(yè)業(yè)在信息化化戰(zhàn)略中所所采用的的技術(shù)手段段,幫助你更深深入地掌握握面向經(jīng)濟(jì)濟(jì)問題開開展研究和和實(shí)踐的基基本方向.2初識數(shù)據(jù)倉倉庫為什么要建建立數(shù)據(jù)倉倉庫?傳統(tǒng)數(shù)據(jù)庫庫的演化·主文件傳統(tǒng)數(shù)據(jù)庫庫的演化·單一數(shù)據(jù)庫庫20世紀(jì)80年代——90年代初期,,聯(lián)機(jī)事務(wù)處處理(OLTP)是數(shù)據(jù)庫庫應(yīng)用的主主流!OLTP———在交易中處處理信息,,主要是基基本的日常常的事務(wù)處處理。例如:銀行行交易數(shù)據(jù)據(jù)庫、業(yè)務(wù)務(wù)數(shù)據(jù)庫。。20世紀(jì)90年代初期,,OLTP已經(jīng)不足以以獲得市場場競爭優(yōu)勢勢!用戶要對大大量業(yè)務(wù)數(shù)數(shù)據(jù)和歷史史數(shù)據(jù)進(jìn)行行分析,產(chǎn)產(chǎn)生決策,,因此出現(xiàn)現(xiàn)了聯(lián)機(jī)分分析處理((OLAP)!OLAP———基于業(yè)務(wù)數(shù)數(shù)據(jù)的決策策分析。數(shù)據(jù)倉庫專專家RalphKimball寫道:“我們花了了20多年的時(shí)間間將數(shù)據(jù)放放入數(shù)據(jù)庫庫,如今是是將它們拿拿出來的時(shí)時(shí)候了!””O(jiān)LTP和OLAP對數(shù)據(jù)的要要求是不一一樣的!
OLTPOLAP
用戶操作人員,低層管理人員
決策人員,高級管理人員
功能
日常操作處理分析決策
DB設(shè)計(jì)面向應(yīng)用
面向主題
數(shù)據(jù)當(dāng)前的,最新的,細(xì)節(jié)的,二維的,分立的
歷史的,聚集的,多維的,集成的,統(tǒng)一的
存取讀/寫數(shù)十條記錄讀上百萬條記錄
工作單位簡單的事務(wù)
復(fù)雜的查詢
用戶數(shù)上千個(gè)上百個(gè)
DB大小100MB~GB100GB~TB
正是事務(wù)處處理和分析析處理具有有極其差異異的性質(zhì),,所以以事務(wù)處理理環(huán)境來支持分析處理理是行不通通的!行不通的的主要原原因有::兩種處理理的性能能特點(diǎn)不不同!數(shù)據(jù)集成成問題?。?shù)據(jù)動(dòng)態(tài)態(tài)集成問問題!歷史數(shù)據(jù)據(jù)問題??!數(shù)據(jù)的綜綜合問題題!傳統(tǒng)數(shù)據(jù)據(jù)庫的演演化·抽取程序序因?yàn)橛贸槌槿〕绦蛐蚰軐?shù)數(shù)據(jù)從高高性能聯(lián)聯(lián)機(jī)事務(wù)務(wù)處理方方式中中轉(zhuǎn)移出出來,所所以在需需要總總體分析析數(shù)據(jù)時(shí)時(shí)就與聯(lián)聯(lián)機(jī)事事務(wù)處理理性能不不發(fā)生沖沖突。。抽取程序序形成了了“蜘蛛蛛網(wǎng)”數(shù)據(jù)不一一致!而且生產(chǎn)產(chǎn)率很低低!傳統(tǒng)數(shù)據(jù)據(jù)庫的演演化·數(shù)據(jù)倉庫庫數(shù)據(jù)在從從操作型型環(huán)境轉(zhuǎn)轉(zhuǎn)移到數(shù)數(shù)據(jù)倉庫庫環(huán)境境的同時(shí)時(shí)進(jìn)行集集成什么是數(shù)數(shù)據(jù)倉庫庫(DW)?——是一種為為信息分分析提供供了良好好的基礎(chǔ)礎(chǔ)并支持持管理理決策活活動(dòng)的分分析環(huán)境境,是面面向主題題的、集集成的、、相對穩(wěn)穩(wěn)定的、、隨時(shí)間間變化化的、分分層次的的多維的的集成數(shù)數(shù)據(jù)集合合。數(shù)據(jù)倉庫庫的作用用兩個(gè)主要要作用存儲(chǔ)經(jīng)過過加工處處理的決決策需要要的數(shù)據(jù)據(jù)–存儲(chǔ)數(shù)據(jù)據(jù)的一種種形式–加工和集集成后的的再存儲(chǔ)儲(chǔ)查詢和決決策分析析的依據(jù)據(jù)–為數(shù)據(jù)驅(qū)驅(qū)動(dòng)型的的決策支支持提供供數(shù)據(jù)基基礎(chǔ)建立數(shù)據(jù)據(jù)倉庫的的好處更加高效效的地制制定決策策提供一個(gè)個(gè)關(guān)于整整個(gè)企業(yè)業(yè)的整體體構(gòu)架集中存放放,方便便存取,,提高生生產(chǎn)效率率減少重復(fù)復(fù)數(shù)據(jù)處處理和分分析提高用戶戶對數(shù)據(jù)據(jù)的應(yīng)用用程度為商務(wù)流流程再造造提供支支持?jǐn)?shù)據(jù)倉庫庫的特點(diǎn)點(diǎn)面向主題題集成性相對穩(wěn)定定(非易失)時(shí)態(tài)性(反映時(shí)間間變化)3初識數(shù)據(jù)據(jù)挖掘數(shù)據(jù)挖掘掘逐漸演演變的過過程:機(jī)器學(xué)習(xí)習(xí)成為人人們關(guān)心心的焦點(diǎn)點(diǎn)。從范例出出發(fā)隨著人工工智能技技術(shù)的形形成和發(fā)發(fā)展,人們的注注意力轉(zhuǎn)轉(zhuǎn)向知識識工程,,直接從從計(jì)算機(jī)機(jī)輸入規(guī)規(guī)則。從規(guī)則出出發(fā)80年代末出出現(xiàn)一個(gè)個(gè)新的術(shù)術(shù)語,即即數(shù)據(jù)庫庫中的知知識發(fā)現(xiàn)現(xiàn),簡稱稱KDD(Knowledgediscoveryindatabase)。從數(shù)據(jù)出出發(fā)數(shù)據(jù)倉庫庫技術(shù)的的發(fā)展與與數(shù)據(jù)挖挖掘有著著密切的的關(guān)系系。促進(jìn),但不是是先決條件??!數(shù)據(jù)挖掘在商商務(wù)智能中的的位置IncreasingpotentialtosupportbusinessdecisionsEndUserBusinessAnalystDataAnalystDBAMakingDecisionsDataPresentationVisualizationTechniquesDataMiningInformationDiscoveryDataExplorationOLAP,MDAStatisticalAnalysis,QueryingandReportingDataWarehouses/DataMartsDataSourcesPaper,Files,InformationProviders,DatabaseSystems,OLTP什么是數(shù)據(jù)挖挖掘?數(shù)據(jù)挖掘(DataMining,DM),又稱數(shù)據(jù)據(jù)庫中的知識識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase,KDD)是從數(shù)據(jù)中中識別出有效效的、新穎的的、潛在有用用的,以及最最終可理解的的模式的非平平凡過程。數(shù)據(jù)挖掘數(shù)據(jù)庫技術(shù)統(tǒng)計(jì)學(xué)知識庫信息科學(xué)機(jī)器學(xué)習(xí)可視化技術(shù)數(shù)據(jù)挖掘的過過程(1) 數(shù)據(jù)收集集(2) 數(shù)據(jù)預(yù)處處理(3) 數(shù)據(jù)挖掘掘(4) 知識評價(jià)價(jià)數(shù)據(jù)挖掘系統(tǒng)統(tǒng)結(jié)構(gòu)數(shù)據(jù)挖掘的任任務(wù)數(shù)據(jù)挖掘任務(wù)務(wù)有兩類:描描述和預(yù)測描述性挖掘任任務(wù)刻劃數(shù)據(jù)據(jù)庫中數(shù)據(jù)據(jù)的一般特性性;預(yù)測性數(shù)據(jù)挖挖掘任務(wù)在當(dāng)當(dāng)前數(shù)據(jù)上上進(jìn)行推斷、、預(yù)測具體任務(wù)包括括:1)分類(Classification)2)回歸(Regression)3)聚類(Clustering)4)關(guān)聯(lián)分析(AssociationAnalysis)5)時(shí)間序列分析析(TimeSeriesAnalysis)6)偏差檢測(DeviationDetection)7)概念描述((ConceptDescription)分類(Classification)用于提取反映映同類事物共共同性質(zhì)的特特征型知識和和不同事物之之間的差異型型特征知識。。在數(shù)據(jù)挖掘掘中,分類模模型通過對已已知類別的個(gè)個(gè)體進(jìn)行歸納納,找出各類類別與個(gè)體的的特征屬性之之間的關(guān)系,,即分類模式式。例如:疾病診診斷系統(tǒng)、高高血壓藥物選選擇、電信客客戶流失。訓(xùn)練集應(yīng)用決策樹算算法判斷某人人是否會(huì)購買買計(jì)算機(jī)?算法輸出age?overcaststudent?creditrating?noyesfairexcellent<=30>40nonoyesyesyes30..40聚類(Clustering)是將一個(gè)群體體分成多個(gè)類類,使同類個(gè)個(gè)體盡可能相相似而不同類類間個(gè)體差異異盡可能大。。與分類的區(qū)別別?例如:電信客客戶細(xì)分?K-means算法的聚類過過程關(guān)聯(lián)(association)用于發(fā)現(xiàn)事物物間的關(guān)聯(lián)規(guī)規(guī)則,或稱相相關(guān)程度。關(guān)聯(lián)規(guī)則:X&YZ[s,c]例如:如果IBM的股票價(jià)格上上升,有70%的可能微軟的的股票價(jià)格要要下降;買榔榔頭的人有40%同時(shí)買釘子。。例如:交叉銷銷售?;貧w(Regression)用屬性的歷史史數(shù)據(jù)預(yù)測未未來趨勢。包包括線性問題題、非線性問問題。例如:工作與與工齡的關(guān)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2030年中國水利工程行業(yè)發(fā)展規(guī)劃投資戰(zhàn)略分析報(bào)告
- 個(gè)人工作承諾書范文集合5篇
- 2023年公務(wù)員考試喀喇沁旗行政職業(yè)能力測驗(yàn)?zāi)M試題含解析
- 2022年大學(xué)森林資源專業(yè)大學(xué)物理下冊月考試題A卷-附答案
- 2019-2020年高一下學(xué)期期中考試試題物理
- 海洋工程風(fēng)險(xiǎn)評估管理制度
- 2022年大學(xué)藥學(xué)專業(yè)大學(xué)物理下冊期末考試試題-附解析
- 2022年大學(xué)統(tǒng)計(jì)學(xué)專業(yè)大學(xué)物理下冊開學(xué)考試試題D卷-附答案
- 2022年大學(xué)藥學(xué)專業(yè)大學(xué)物理下冊模擬考試試卷C卷-附解析
- 高壓旋噴樁在地下空間開發(fā)中的應(yīng)用方案
- 光伏發(fā)電工程建設(shè)標(biāo)準(zhǔn)工藝手冊(2023版)
- 危險(xiǎn)化學(xué)品考試試題(含答案)
- MOOC 頸肩腰腿痛中醫(yī)防治-暨南大學(xué) 中國大學(xué)慕課答案
- 智能護(hù)理:人工智能助力的醫(yī)療創(chuàng)新
- 【基于近五年數(shù)據(jù)的云南嘉華食品實(shí)業(yè)財(cái)務(wù)報(bào)表分析15000字】
- 通用橫版企業(yè)報(bào)價(jià)單模板
- 潛油泵及潛油泵加油機(jī)講義
- 物業(yè)服務(wù)公司各崗位規(guī)范用語
- 醫(yī)患溝通內(nèi)容要求記錄模板(入院、入院三日、術(shù)前、術(shù)后、出院)
- 航海學(xué)天文定位第四篇第6章天文定位
- 淺談深度教學(xué)中小學(xué)數(shù)學(xué)U型學(xué)習(xí)模式
評論
0/150
提交評論