數據倉庫與數據挖掘第1章課件_第1頁
數據倉庫與數據挖掘第1章課件_第2頁
數據倉庫與數據挖掘第1章課件_第3頁
數據倉庫與數據挖掘第1章課件_第4頁
數據倉庫與數據挖掘第1章課件_第5頁
已閱讀5頁,還剩123頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數據倉庫與數據挖掘陳昕chenxin@2015.04數據倉庫與數據挖掘陳昕數據挖掘的應用—人文地理數據挖掘的應用—人文地理數據挖掘的應用—娛樂傳媒數據挖掘的應用—娛樂傳媒數據挖掘的應用—智慧城市數據挖掘的應用—智慧城市數據挖掘的應用—商業(yè)零售數據挖掘的應用—商業(yè)零售數據挖掘的應用—Web推薦數據挖掘的應用—Web推薦數據挖掘的應用—體育競技VS數據挖掘的應用—體育競技VS數據挖掘的應用—大數據應用信息安全輿情分析能效優(yōu)化數據挖掘的應用—大數據應用信息安全輿情分析能效優(yōu)化商務智能與數據挖掘工具商務智能與數據挖掘工具商務智能與數據挖掘工具商務智能與數據挖掘工具商務智能與數據挖掘工具商務智能與數據挖掘工具商務智能與數據挖掘功能計劃預測預算

實際

分析

沒有絕對正確的答案

依靠分析

眾多的預測方案

靈活的要求核心:數據商務智能與數據挖掘功能計劃預測預算實際分析參考書目1.《數據挖掘概念與技術》,JiaweiHanMichelineKamber著,范明、孟小峰等譯,機械工業(yè)出版社出版2.《數據倉庫》,W.H.Inmon著,王志海等譯,機械工業(yè)出版社出版3.《數據倉庫技術與聯機分析處理》,王珊等編著,科學出版社出版4.《數據挖掘實踐》,OliviaParrRud著,朱揚勇、左子葉等譯,機械工業(yè)出版社出版參考書目1.《數據挖掘概念與技術》,Jiawei數據倉庫以及數據挖掘是目前數據庫領域最為活躍的一個方面,受到學術界與產業(yè)界的廣泛關注。典型應用環(huán)境如DSS,EIS,ERP。大型數據庫的數據倉庫解決方案有:

InformixMetaCubeOracleExpressSybaseQuickStartDataMartDB2DataWarehouseManagerSQLServerAnalysisservices

NCRTeradataWarehouse對各類海量數據需要自動分析、分類、匯總、發(fā)現和描述數據蘊涵的趨勢、標記異常等課程簡介數據倉庫以及數據挖掘是目前數據庫領域最為活躍的一個方面,受到

各類管理人員需要從大量復雜的業(yè)務數據中獲取各自權限內的決策信息,及時把握市場變化脈搏,作出正確有效的判斷與抉擇隨著數據庫系統(tǒng)的逐日運行,數據將堆積越來越龐大數據處理的重點需要從傳統(tǒng)業(yè)務擴展到業(yè)務數據的聯機分析處理,并得到面向各種管理主題的統(tǒng)計信息和決策支持信息數據倉庫是基于大規(guī)模數據庫的DSS環(huán)境的核心課程簡介各類管理人員需要從大量復雜的業(yè)務數據中獲取各自權限內的決策

數據倉庫的基本概念多維數據模型數據倉庫的系統(tǒng)結構數據倉庫的實現基于數據倉庫的數據挖掘課程簡介數據倉庫的基本概念課程簡介數據挖掘通常稱為數據庫中的知識發(fā)現(KDD),是自動的或方便的模式提取,這些模式代表隱藏在大型數據庫、數據倉庫或其他大量信息存儲中的知識涉及的學科有:數據庫技術、人工智能、機器學習、神經網絡、統(tǒng)計學、模式識別、知識庫、知識獲取、信息檢索、高性能計算和數據可視化課程簡介課程簡介數據挖掘的概念數據挖掘的功能數據挖掘的分類與主要問題數據挖掘系統(tǒng)的結構挖掘大型數據庫中的關聯規(guī)則分類與預測聚類分析復雜類型的數據挖掘數據倉庫與數據挖掘的應用與發(fā)展趨勢課程簡介數據挖掘的概念課程簡介一、數據倉庫與數據挖掘概述二、數據倉庫的OLAP技術三、數據預處理四、數據挖掘的系統(tǒng)結構五、挖掘大型數據庫中的關聯規(guī)則六、分類與預測七、聚類分析八、復雜類型的數據挖掘九、數據倉庫與數據挖掘的應用與發(fā)展趨勢課程結構一、數據倉庫與數據挖掘概述課程結構1.什么是數據倉庫2.什么是數據挖掘3.數據挖掘的功能4.數據挖掘的分類5.數據挖掘的主要問題第一章數據倉庫與數據挖掘概述1.什么是數據倉庫第一章數據倉庫與數據挖掘概述第一節(jié)什么是數據倉庫1.數據倉庫的產生當前的數據處理與數據分為兩類:操作型處理與數據分析型或信息型處理與數據第一節(jié)什么是數據倉庫1.數據倉庫的產生第一節(jié)什么是數據倉庫1.數據倉庫的產生操作型處理:又稱事務處理,是指對數據庫聯機的日常操作,通常是對一個或一組記錄的查詢和修改,主要為企業(yè)的特定應用服務,所關心的是響應時間,數據的安全性和完整性操作型環(huán)境是以單一數據庫為中心的數據環(huán)境第一節(jié)什么是數據倉庫1.數據倉庫的產生第一節(jié)什么是數據倉庫1.數據倉庫的產生分析型處理:又稱信息型處理,是針對制定決策過程中管理方面的需求而進行的處理,通過瀏覽大量數據找出其中的趨勢。如DSS,EIS等分析型環(huán)境是一種新的體系化環(huán)境第一節(jié)什么是數據倉庫1.數據倉庫的產生操作型數據(原始數據)分析型數據(導出數據)細節(jié)的綜合的,或提煉的在存取瞬間是準確的代表過去的數據可更新不更新操作需求事先可知道操作需求事先不知道生命周期符合SDLC完全不同的生命周期對性能要求高對性能要求寬松一個時刻操作一個單元一個時刻操作一個集合事務驅動分析驅動面向應用面向分析一次操作數據量小一次操作數據量大支持日常操作支持管理需求第一節(jié)什么是數據倉庫操作型數據(原始數據)分析型數據(導出數據)細節(jié)的綜合的,或第一節(jié)什么是數據倉庫1.數據倉庫的產生操作型數據和分析型數據的不同而導致的數據分離和自然擴展過程:操作型原子/數據倉庫部門/數據集市個體第一節(jié)什么是數據倉庫1.數據倉庫的產生操作型原子/部門第一節(jié)什么是數據倉庫2.數據倉庫的定義數據倉庫之父W.H.Inmon給出了定義:數據倉庫是一個面向主題的、集成的、不可更新的且隨時間不斷變化的數據集合,用來支持管理人員的決策第一節(jié)什么是數據倉庫2.數據倉庫的定義第一節(jié)什么是數據倉庫2.數據倉庫的定義面向主題主題:是在較高層次上將企業(yè)信息系統(tǒng)中的數據綜合、歸類并進行分析利用的抽象,即對應企業(yè)中某一宏觀分析領域所涉及的分析對象面向主題的數據組織方式就是對分析對象的數據的一個完整、一致的描述,能完整、統(tǒng)一地刻畫各個分析對象所涉及的企業(yè)各項數據,以及數據之間的聯系第一節(jié)什么是數據倉庫2.數據倉庫的定義第一節(jié)什么是數據倉庫2.數據倉庫的定義面向主題每個主題在數據倉庫中都是由一組關系表實現的主題的實現基于關系數據庫在具體實現中,一個主題可以劃分成多個表,主題只是一個邏輯的概念基于一個主題的所有表都含有一個稱為公共鍵碼的屬性作為其主碼的一部分第一節(jié)什么是數據倉庫2.數據倉庫的定義第一節(jié)什么是數據倉庫2.數據倉庫的定義面向主題CustomerIDFromdateTodateNameAddressPhoneSex…CustomerIDFromdateTodateNameAddressCreditratingemployerSex…CustomerIDActivitydateAmountLocationForitem…第一節(jié)什么是數據倉庫2.數據倉庫的定義Customer第一節(jié)什么是數據倉庫2.數據倉庫的定義數據倉庫的數據是集成的要統(tǒng)一源數據中所有矛盾之處,如同名異義、字長不一致等等進行數據綜合和計算。數據綜合可以從原有數據庫抽取數據生成,但許多是在數據倉庫內部生成第一節(jié)什么是數據倉庫2.數據倉庫的定義第一節(jié)什么是數據倉庫2.數據倉庫的定義數據倉庫數據是不可更新數據倉庫的數據主要供企業(yè)決策分析使用,所涉及的數據操作主要是數據查詢,一般不進行修改操作數據庫中進行聯機處理的數據經過集成輸入到數據倉庫中,數據倉庫中的數據超過存儲期限,這些數據將從當前數據倉庫中刪去DWMS比DBMS簡單,但查詢要求高第一節(jié)什么是數據倉庫2.數據倉庫的定義第一節(jié)什么是數據倉庫2.數據倉庫的定義數據倉庫數據隨時間不斷變化數據倉庫隨時間變化不斷增加新的內容數據倉庫隨時間變化不斷刪除舊的內容數據倉庫中包含有大量的綜合數據,這些數據隨時間變化不斷地進行重新綜合數據倉庫數據的碼鍵包含時間項,標明歷史時期第一節(jié)什么是數據倉庫2.數據倉庫的定義第一節(jié)什么是數據倉庫3.數據倉庫的數據組織3.1組織結構元數據高度綜合級輕度綜合級當前細節(jié)級早期細節(jié)級2002~2003年每月銷售表2002~2003年每周銷售表2002~2003年銷售情況表2000~2003年銷售明細表第一節(jié)什么是數據倉庫3.數據倉庫的數據組織元數據高度綜第一節(jié)什么是數據倉庫3.數據倉庫的數據組織3.1組織結構數據倉庫中的不同綜合級別,稱為“粒度”。粒度越大,表示細節(jié)程度越低,綜合程度越高元數據(metadata):關于數據的數據操作型環(huán)境向數據倉庫環(huán)境轉換而建立的元數據數據倉庫中用來與終端用戶的多維商業(yè)模型/前端工具之間建立映射,也為DSS元數據第一節(jié)什么是數據倉庫3.數據倉庫的數據組織第一節(jié)什么是數據倉庫3.數據倉庫的數據組織3.2粒度與分割粒度是數據倉庫的重要概念粒度是指數據倉庫的數據單位中保存數據的細化或綜合程度的級別細化程度越高,粒度級就越??;細化程度越低粒度級就越大一般采用多重粒度級:高細節(jié)級、低細節(jié)級第一節(jié)什么是數據倉庫3.數據倉庫的數據組織第一節(jié)什么是數據倉庫3.數據倉庫的數據組織3.2粒度與分割分割是數據倉庫的重要概念分割是指將數據分散到各自的物理單元中去以便能分別獨立處理,以提高數據處理效率數據分割后的數據單元稱為分片數據分割標準依據實際情況確定,一般應包括日期項分割使數據更易重構、索引、重組、恢復、監(jiān)控第一節(jié)什么是數據倉庫3.數據倉庫的數據組織第一節(jié)什么是數據倉庫3.數據倉庫的數據組織3.2粒度與分割簡單分割實例,分片以時間標準來組織:健康保險生命保險事故保險2001分片1分片2分片32002分片4分片5分片62003分片7分片8分片9第一節(jié)什么是數據倉庫3.數據倉庫的數據組織健康保險生命第一節(jié)什么是數據倉庫3.數據倉庫的數據組織3.3數據組織形式

簡單堆積文件:數據逐天積累輪轉綜合文件:按日、周、月、年組織數據集簡化直接文件:每隔一定時間的數據庫快照連續(xù)文件:通過比較兩個簡單直接文件不同而生成第一節(jié)什么是數據倉庫3.數據倉庫的數據組織第二節(jié)什么是數據挖掘1.數據挖掘的提出數據挖掘是信息技術自然演化的結果數據收集、數據庫創(chuàng)建數據管理:數據存儲和檢索,數據庫事務處理數據分析與理解:涉及數據倉庫和數據挖掘第二節(jié)什么是數據挖掘1.數據挖掘的提出第二節(jié)什么是數據挖掘1.數據挖掘的提出數據庫技術的發(fā)展歷史20世紀60年代,功能強大的數據庫系統(tǒng)70年代,從網狀和層次到關系數據庫系統(tǒng)、建模工具、索引和數據組織技術,聯機事務處理OLTP80年代,使用先進的數據模型,如面向對象模型、對象關系模型、演繹模型第二節(jié)什么是數據挖掘1.數據挖掘的提出第二節(jié)什么是數據挖掘1.數據挖掘的提出數據倉庫技術數據清理:文件之間轉換、存儲介質轉移、清除過期數據、層次轉換(操作型到分析型)數據集成:從操作型環(huán)境到分析型環(huán)境聯機分析處理OLAP:是一種分析技術,具有匯總、合并和聚集功能,以及從不同角度觀察信息的能力第二節(jié)什么是數據挖掘1.數據挖掘的提出第二節(jié)什么是數據挖掘1.數據挖掘的提出數據的豐富增強了對功能更強的數據分析工具的需求對海量數據的理解,遠遠超出人的能力,產生“數據墳墓”決策者缺乏從海量數據中提取有價值知識的工具,許多專家系統(tǒng)技術還是依賴經驗數據挖掘工具進行數據分析,可以發(fā)現重要的數據模式,破除數據與信息的鴻溝第二節(jié)什么是數據挖掘1.數據挖掘的提出第二節(jié)什么是數據挖掘2.數據挖掘的定義數據挖掘是指從大量數據中提取或“挖掘”知識。通常也可理解為數據庫中的知識發(fā)現KDD,也可以理解為KDD的一個基本步驟。還有提法:數據庫中知識挖掘知識提取數據/模式分析數據考古數據捕撈第二節(jié)什么是數據挖掘2.數據挖掘的定義第二節(jié)什么是數據挖掘2.數據挖掘的定義知識發(fā)現過程7個步驟如下:1)數據清理:消除噪聲或不一致2)數據集成:多種數據源組合在一起3)數據選擇:從數據庫中檢索與分析任務相關的數據。4)數據變換:數據變換或統(tǒng)一成適合挖掘的形式,如匯總或聚集操作5)數據挖掘:使用智能方法提取數據模式第二節(jié)什么是數據挖掘2.數據挖掘的定義第二節(jié)什么是數據挖掘2.數據挖掘的定義知識發(fā)現過程7個步驟如下:6)模式評估:根據某種興趣度量,識別表示知識的真正有趣的模式7)知識表示:使用可視化和知識表示技術,向用戶提供挖掘的知識第二節(jié)什么是數據挖掘2.數據挖掘的定義第二節(jié)什么是數據挖掘2.數據挖掘的定義知識發(fā)現過程7個步驟如下:數據倉庫知識數據庫清理與集成選擇與變換數據挖掘模式評估與表示第二節(jié)什么是數據挖掘2.數據挖掘的定義數據倉庫知識數據第二節(jié)什么是數據挖掘2.數據挖掘的定義數據挖掘的廣義定義:數據挖掘是從存放在數據庫、數據倉庫或其他信息庫中的大量數據中挖掘有趣知識的過程第二節(jié)什么是數據挖掘2.數據挖掘的定義第二節(jié)什么是數據挖掘3.數據挖掘系統(tǒng)的主要成分

數據庫、數據倉庫或其他信息庫數據庫或數據倉庫服務器知識庫數據挖掘引擎模式評估模塊圖形用戶界面第二節(jié)什么是數據挖掘3.數據挖掘系統(tǒng)的主要成分第二節(jié)什么是數據挖掘4.數據挖掘的應用環(huán)境關系數據庫數據倉庫事務數據庫高級數據庫系統(tǒng)和高級數據庫第二節(jié)什么是數據挖掘4.數據挖掘的應用環(huán)境第二節(jié)什么是數據挖掘第二節(jié)什么是數據挖掘第三節(jié)數據挖掘功能1.數據挖掘功能數據挖掘功能用于指定數據挖掘任務中要找的模式類型。數據挖掘任務一般分為兩類:描述和預測

描述性挖掘任務刻劃數據庫中數據的一般特性預測性挖掘任務在當前數據上進行推斷,以進行預測第三節(jié)數據挖掘功能1.數據挖掘功能第三節(jié)數據挖掘功能2.概念/類描述:特征化和區(qū)分數據可以與類或概念相關聯。用匯總的、簡潔的、精確的方式描述每個類和概念稱為類/概念描述這種描述可以通過以下方法得到:數據特征化:目標類數據的一般特征或特性的匯總數據區(qū)分:將目標類對象的一般特性與一個或多個對比類對象的一般特性進行比較數據特征化和比較第三節(jié)數據挖掘功能2.概念/類描述:特征化和區(qū)分第三節(jié)數據挖掘功能3.關聯分析關聯分析發(fā)現關聯規(guī)則,這些規(guī)則展示屬性-值頻繁地在給定數據集中一起出現的條件。關聯分析適用于事務數據分析關聯規(guī)則形式化描述為,解釋為“滿足X中條件的數據庫元組也滿足Y中的條件”

多維關聯規(guī)則一個以上屬性或謂詞之間的關聯規(guī)則

單維關聯規(guī)則包含單個謂詞的關聯規(guī)則第三節(jié)數據挖掘功能3.關聯分析第三節(jié)數據挖掘功能4.分類與預測分類就是找出描述并區(qū)分數據類或概念的模型(或函數),以便能夠使用模型預測類標記未知的對象類預測是構造和使用模型評估無標號樣本類,或評估給定樣本可能具有的屬性值或值區(qū)間第三節(jié)數據挖掘功能4.分類與預測第三節(jié)數據挖掘功能4.分類與預測數據分類的基本技術有:判定樹歸納貝葉斯分類貝葉斯網絡神經網絡第三節(jié)數據挖掘功能4.分類與預測第三節(jié)數據挖掘功能5.聚類分析將物理或抽象對象的集合分組成為由類似的對象組成的多個類的過程成為聚類(clustering)由聚類所生成的簇是一組數據對象的集合,同一簇中的對象彼此相似,而與其他簇中的對象相異通過聚類,人能夠識別密集的和稀疏的區(qū)域,因而發(fā)現全局的分布模式,以及數據屬性之間的有趣的相互關系聚類第三節(jié)數據挖掘功能5.聚類分析聚類第三節(jié)數據挖掘功能5.聚類分析聚類分析是數據挖掘的一個功能,能夠作為一個獨立的工具來獲得數據分布的情況,觀察每個簇的特點,集中對特定的某些簇做進一步的分析。此外,聚類分析也可以作為其他算法的預處理步驟聚類技術主要有:劃分方法、層次方法、基于密度的方法、基于網格的方法、基于模型的方法第三節(jié)數據挖掘功能5.聚類分析第四節(jié)數據挖掘的分類1.數據挖掘受多學科的影響數據挖掘可視化其他學科機器學習統(tǒng)計學信息科學數據庫技術第四節(jié)數據挖掘的分類1.數據挖掘受多學科的影響數據可視第四節(jié)數據挖掘的分類2.數據挖掘的分類根據挖掘的數據庫類型分類:關系型、面向對象型、對象關系型、空間的、文本的或多媒體的等等根據挖掘的知識類型分類:特征化、區(qū)分、關聯、分類、聚集等等根據所用的技術分類:機器學習、統(tǒng)計學、模式識別、神經網絡等等根據應用分類:金融、電信、股票市場、E-mail等等第四節(jié)數據挖掘的分類2.數據挖掘的分類第五節(jié)數據挖掘的主要問題1.挖掘方法和用戶交互的問題2.性能問題3.關于數據庫類型的多樣性問題第五節(jié)數據挖掘的主要問題1.挖掘方法和用戶交互的問題第五節(jié)數據挖掘的主要問題1.挖掘方法和用戶交互的問題在數據庫中挖掘不同類型的知識多個抽象層的交互知識挖掘綜合背景知識數據挖掘查詢語言和特定的數據挖掘數據挖掘結果的表示和顯示處理噪聲和不完全數據模式評估—興趣度問題第五節(jié)數據挖掘的主要問題1.挖掘方法和用戶交互的問題第五節(jié)數據挖掘的主要問題2.性能問題

數據挖掘算法的有效性和可伸縮性并行、分布式和增量挖掘算法第五節(jié)數據挖掘的主要問題2.性能問題第五節(jié)數據挖掘的主要問題3.關于數據庫類型的多樣性問題

關系的和復雜的數據類型的處理由異種數據庫和全球信息系統(tǒng)挖掘信息第五節(jié)數據挖掘的主要問題3.關于數據庫類型的多樣性問題思考問題:1.什么是數據倉庫?它與數據庫有何差異?2.什么是數據挖掘?3.數據挖掘的主要功能是什么?4.簡述知識發(fā)現的基本步驟。5.典型的數據挖掘系統(tǒng)主要是由哪些部分構成的?思考問題:1.什么是數據倉庫?它與數據庫有何差異?數據倉庫與數據挖掘陳昕chenxin@2015.04數據倉庫與數據挖掘陳昕數據挖掘的應用—人文地理數據挖掘的應用—人文地理數據挖掘的應用—娛樂傳媒數據挖掘的應用—娛樂傳媒數據挖掘的應用—智慧城市數據挖掘的應用—智慧城市數據挖掘的應用—商業(yè)零售數據挖掘的應用—商業(yè)零售數據挖掘的應用—Web推薦數據挖掘的應用—Web推薦數據挖掘的應用—體育競技VS數據挖掘的應用—體育競技VS數據挖掘的應用—大數據應用信息安全輿情分析能效優(yōu)化數據挖掘的應用—大數據應用信息安全輿情分析能效優(yōu)化商務智能與數據挖掘工具商務智能與數據挖掘工具商務智能與數據挖掘工具商務智能與數據挖掘工具商務智能與數據挖掘工具商務智能與數據挖掘工具商務智能與數據挖掘功能計劃預測預算

實際

分析

沒有絕對正確的答案

依靠分析

眾多的預測方案

靈活的要求核心:數據商務智能與數據挖掘功能計劃預測預算實際分析參考書目1.《數據挖掘概念與技術》,JiaweiHanMichelineKamber著,范明、孟小峰等譯,機械工業(yè)出版社出版2.《數據倉庫》,W.H.Inmon著,王志海等譯,機械工業(yè)出版社出版3.《數據倉庫技術與聯機分析處理》,王珊等編著,科學出版社出版4.《數據挖掘實踐》,OliviaParrRud著,朱揚勇、左子葉等譯,機械工業(yè)出版社出版參考書目1.《數據挖掘概念與技術》,Jiawei數據倉庫以及數據挖掘是目前數據庫領域最為活躍的一個方面,受到學術界與產業(yè)界的廣泛關注。典型應用環(huán)境如DSS,EIS,ERP。大型數據庫的數據倉庫解決方案有:

InformixMetaCubeOracleExpressSybaseQuickStartDataMartDB2DataWarehouseManagerSQLServerAnalysisservices

NCRTeradataWarehouse對各類海量數據需要自動分析、分類、匯總、發(fā)現和描述數據蘊涵的趨勢、標記異常等課程簡介數據倉庫以及數據挖掘是目前數據庫領域最為活躍的一個方面,受到

各類管理人員需要從大量復雜的業(yè)務數據中獲取各自權限內的決策信息,及時把握市場變化脈搏,作出正確有效的判斷與抉擇隨著數據庫系統(tǒng)的逐日運行,數據將堆積越來越龐大數據處理的重點需要從傳統(tǒng)業(yè)務擴展到業(yè)務數據的聯機分析處理,并得到面向各種管理主題的統(tǒng)計信息和決策支持信息數據倉庫是基于大規(guī)模數據庫的DSS環(huán)境的核心課程簡介各類管理人員需要從大量復雜的業(yè)務數據中獲取各自權限內的決策

數據倉庫的基本概念多維數據模型數據倉庫的系統(tǒng)結構數據倉庫的實現基于數據倉庫的數據挖掘課程簡介數據倉庫的基本概念課程簡介數據挖掘通常稱為數據庫中的知識發(fā)現(KDD),是自動的或方便的模式提取,這些模式代表隱藏在大型數據庫、數據倉庫或其他大量信息存儲中的知識涉及的學科有:數據庫技術、人工智能、機器學習、神經網絡、統(tǒng)計學、模式識別、知識庫、知識獲取、信息檢索、高性能計算和數據可視化課程簡介課程簡介數據挖掘的概念數據挖掘的功能數據挖掘的分類與主要問題數據挖掘系統(tǒng)的結構挖掘大型數據庫中的關聯規(guī)則分類與預測聚類分析復雜類型的數據挖掘數據倉庫與數據挖掘的應用與發(fā)展趨勢課程簡介數據挖掘的概念課程簡介一、數據倉庫與數據挖掘概述二、數據倉庫的OLAP技術三、數據預處理四、數據挖掘的系統(tǒng)結構五、挖掘大型數據庫中的關聯規(guī)則六、分類與預測七、聚類分析八、復雜類型的數據挖掘九、數據倉庫與數據挖掘的應用與發(fā)展趨勢課程結構一、數據倉庫與數據挖掘概述課程結構1.什么是數據倉庫2.什么是數據挖掘3.數據挖掘的功能4.數據挖掘的分類5.數據挖掘的主要問題第一章數據倉庫與數據挖掘概述1.什么是數據倉庫第一章數據倉庫與數據挖掘概述第一節(jié)什么是數據倉庫1.數據倉庫的產生當前的數據處理與數據分為兩類:操作型處理與數據分析型或信息型處理與數據第一節(jié)什么是數據倉庫1.數據倉庫的產生第一節(jié)什么是數據倉庫1.數據倉庫的產生操作型處理:又稱事務處理,是指對數據庫聯機的日常操作,通常是對一個或一組記錄的查詢和修改,主要為企業(yè)的特定應用服務,所關心的是響應時間,數據的安全性和完整性操作型環(huán)境是以單一數據庫為中心的數據環(huán)境第一節(jié)什么是數據倉庫1.數據倉庫的產生第一節(jié)什么是數據倉庫1.數據倉庫的產生分析型處理:又稱信息型處理,是針對制定決策過程中管理方面的需求而進行的處理,通過瀏覽大量數據找出其中的趨勢。如DSS,EIS等分析型環(huán)境是一種新的體系化環(huán)境第一節(jié)什么是數據倉庫1.數據倉庫的產生操作型數據(原始數據)分析型數據(導出數據)細節(jié)的綜合的,或提煉的在存取瞬間是準確的代表過去的數據可更新不更新操作需求事先可知道操作需求事先不知道生命周期符合SDLC完全不同的生命周期對性能要求高對性能要求寬松一個時刻操作一個單元一個時刻操作一個集合事務驅動分析驅動面向應用面向分析一次操作數據量小一次操作數據量大支持日常操作支持管理需求第一節(jié)什么是數據倉庫操作型數據(原始數據)分析型數據(導出數據)細節(jié)的綜合的,或第一節(jié)什么是數據倉庫1.數據倉庫的產生操作型數據和分析型數據的不同而導致的數據分離和自然擴展過程:操作型原子/數據倉庫部門/數據集市個體第一節(jié)什么是數據倉庫1.數據倉庫的產生操作型原子/部門第一節(jié)什么是數據倉庫2.數據倉庫的定義數據倉庫之父W.H.Inmon給出了定義:數據倉庫是一個面向主題的、集成的、不可更新的且隨時間不斷變化的數據集合,用來支持管理人員的決策第一節(jié)什么是數據倉庫2.數據倉庫的定義第一節(jié)什么是數據倉庫2.數據倉庫的定義面向主題主題:是在較高層次上將企業(yè)信息系統(tǒng)中的數據綜合、歸類并進行分析利用的抽象,即對應企業(yè)中某一宏觀分析領域所涉及的分析對象面向主題的數據組織方式就是對分析對象的數據的一個完整、一致的描述,能完整、統(tǒng)一地刻畫各個分析對象所涉及的企業(yè)各項數據,以及數據之間的聯系第一節(jié)什么是數據倉庫2.數據倉庫的定義第一節(jié)什么是數據倉庫2.數據倉庫的定義面向主題每個主題在數據倉庫中都是由一組關系表實現的主題的實現基于關系數據庫在具體實現中,一個主題可以劃分成多個表,主題只是一個邏輯的概念基于一個主題的所有表都含有一個稱為公共鍵碼的屬性作為其主碼的一部分第一節(jié)什么是數據倉庫2.數據倉庫的定義第一節(jié)什么是數據倉庫2.數據倉庫的定義面向主題CustomerIDFromdateTodateNameAddressPhoneSex…CustomerIDFromdateTodateNameAddressCreditratingemployerSex…CustomerIDActivitydateAmountLocationForitem…第一節(jié)什么是數據倉庫2.數據倉庫的定義Customer第一節(jié)什么是數據倉庫2.數據倉庫的定義數據倉庫的數據是集成的要統(tǒng)一源數據中所有矛盾之處,如同名異義、字長不一致等等進行數據綜合和計算。數據綜合可以從原有數據庫抽取數據生成,但許多是在數據倉庫內部生成第一節(jié)什么是數據倉庫2.數據倉庫的定義第一節(jié)什么是數據倉庫2.數據倉庫的定義數據倉庫數據是不可更新數據倉庫的數據主要供企業(yè)決策分析使用,所涉及的數據操作主要是數據查詢,一般不進行修改操作數據庫中進行聯機處理的數據經過集成輸入到數據倉庫中,數據倉庫中的數據超過存儲期限,這些數據將從當前數據倉庫中刪去DWMS比DBMS簡單,但查詢要求高第一節(jié)什么是數據倉庫2.數據倉庫的定義第一節(jié)什么是數據倉庫2.數據倉庫的定義數據倉庫數據隨時間不斷變化數據倉庫隨時間變化不斷增加新的內容數據倉庫隨時間變化不斷刪除舊的內容數據倉庫中包含有大量的綜合數據,這些數據隨時間變化不斷地進行重新綜合數據倉庫數據的碼鍵包含時間項,標明歷史時期第一節(jié)什么是數據倉庫2.數據倉庫的定義第一節(jié)什么是數據倉庫3.數據倉庫的數據組織3.1組織結構元數據高度綜合級輕度綜合級當前細節(jié)級早期細節(jié)級2002~2003年每月銷售表2002~2003年每周銷售表2002~2003年銷售情況表2000~2003年銷售明細表第一節(jié)什么是數據倉庫3.數據倉庫的數據組織元數據高度綜第一節(jié)什么是數據倉庫3.數據倉庫的數據組織3.1組織結構數據倉庫中的不同綜合級別,稱為“粒度”。粒度越大,表示細節(jié)程度越低,綜合程度越高元數據(metadata):關于數據的數據操作型環(huán)境向數據倉庫環(huán)境轉換而建立的元數據數據倉庫中用來與終端用戶的多維商業(yè)模型/前端工具之間建立映射,也為DSS元數據第一節(jié)什么是數據倉庫3.數據倉庫的數據組織第一節(jié)什么是數據倉庫3.數據倉庫的數據組織3.2粒度與分割粒度是數據倉庫的重要概念粒度是指數據倉庫的數據單位中保存數據的細化或綜合程度的級別細化程度越高,粒度級就越??;細化程度越低粒度級就越大一般采用多重粒度級:高細節(jié)級、低細節(jié)級第一節(jié)什么是數據倉庫3.數據倉庫的數據組織第一節(jié)什么是數據倉庫3.數據倉庫的數據組織3.2粒度與分割分割是數據倉庫的重要概念分割是指將數據分散到各自的物理單元中去以便能分別獨立處理,以提高數據處理效率數據分割后的數據單元稱為分片數據分割標準依據實際情況確定,一般應包括日期項分割使數據更易重構、索引、重組、恢復、監(jiān)控第一節(jié)什么是數據倉庫3.數據倉庫的數據組織第一節(jié)什么是數據倉庫3.數據倉庫的數據組織3.2粒度與分割簡單分割實例,分片以時間標準來組織:健康保險生命保險事故保險2001分片1分片2分片32002分片4分片5分片62003分片7分片8分片9第一節(jié)什么是數據倉庫3.數據倉庫的數據組織健康保險生命第一節(jié)什么是數據倉庫3.數據倉庫的數據組織3.3數據組織形式

簡單堆積文件:數據逐天積累輪轉綜合文件:按日、周、月、年組織數據集簡化直接文件:每隔一定時間的數據庫快照連續(xù)文件:通過比較兩個簡單直接文件不同而生成第一節(jié)什么是數據倉庫3.數據倉庫的數據組織第二節(jié)什么是數據挖掘1.數據挖掘的提出數據挖掘是信息技術自然演化的結果數據收集、數據庫創(chuàng)建數據管理:數據存儲和檢索,數據庫事務處理數據分析與理解:涉及數據倉庫和數據挖掘第二節(jié)什么是數據挖掘1.數據挖掘的提出第二節(jié)什么是數據挖掘1.數據挖掘的提出數據庫技術的發(fā)展歷史20世紀60年代,功能強大的數據庫系統(tǒng)70年代,從網狀和層次到關系數據庫系統(tǒng)、建模工具、索引和數據組織技術,聯機事務處理OLTP80年代,使用先進的數據模型,如面向對象模型、對象關系模型、演繹模型第二節(jié)什么是數據挖掘1.數據挖掘的提出第二節(jié)什么是數據挖掘1.數據挖掘的提出數據倉庫技術數據清理:文件之間轉換、存儲介質轉移、清除過期數據、層次轉換(操作型到分析型)數據集成:從操作型環(huán)境到分析型環(huán)境聯機分析處理OLAP:是一種分析技術,具有匯總、合并和聚集功能,以及從不同角度觀察信息的能力第二節(jié)什么是數據挖掘1.數據挖掘的提出第二節(jié)什么是數據挖掘1.數據挖掘的提出數據的豐富增強了對功能更強的數據分析工具的需求對海量數據的理解,遠遠超出人的能力,產生“數據墳墓”決策者缺乏從海量數據中提取有價值知識的工具,許多專家系統(tǒng)技術還是依賴經驗數據挖掘工具進行數據分析,可以發(fā)現重要的數據模式,破除數據與信息的鴻溝第二節(jié)什么是數據挖掘1.數據挖掘的提出第二節(jié)什么是數據挖掘2.數據挖掘的定義數據挖掘是指從大量數據中提取或“挖掘”知識。通常也可理解為數據庫中的知識發(fā)現KDD,也可以理解為KDD的一個基本步驟。還有提法:數據庫中知識挖掘知識提取數據/模式分析數據考古數據捕撈第二節(jié)什么是數據挖掘2.數據挖掘的定義第二節(jié)什么是數據挖掘2.數據挖掘的定義知識發(fā)現過程7個步驟如下:1)數據清理:消除噪聲或不一致2)數據集成:多種數據源組合在一起3)數據選擇:從數據庫中檢索與分析任務相關的數據。4)數據變換:數據變換或統(tǒng)一成適合挖掘的形式,如匯總或聚集操作5)數據挖掘:使用智能方法提取數據模式第二節(jié)什么是數據挖掘2.數據挖掘的定義第二節(jié)什么是數據挖掘2.數據挖掘的定義知識發(fā)現過程7個步驟如下:6)模式評估:根據某種興趣度量,識別表示知識的真正有趣的模式7)知識表示:使用可視化和知識表示技術,向用戶提供挖掘的知識第二節(jié)什么是數據挖掘2.數據挖掘的定義第二節(jié)什么是數據挖掘2.數據挖掘的定義知識發(fā)現過程7個步驟如下:數據倉庫知識數據庫清理與集成選擇與變換數據挖掘模式評估與表示第二節(jié)什么是數據挖掘2.數據挖掘的定義數據倉庫知識數據第二節(jié)什么是數據挖掘2.數據挖掘的定義數據挖掘的廣義定義:數據挖掘是從存放在數據庫、數據倉庫或其他信息庫中的大量數據中挖掘有趣知識的過程第二節(jié)什么是數據挖掘2.數據挖掘的定義第二節(jié)什么是數據挖掘3.數據挖掘系統(tǒng)的主要成分

數據庫、數據倉庫或其他信息庫數據庫或數據倉庫服務器知識庫數據挖掘引擎模式評估模塊圖形用戶界面第二節(jié)什么是數據挖掘3.數據挖掘系統(tǒng)的主要成分第二節(jié)什么是數據挖掘4.數據挖掘的應用環(huán)境關系數據庫數據倉庫事務數據庫高級數據庫系統(tǒng)和高級數據庫第二節(jié)什么是數據挖掘4.數據挖掘的應用環(huán)境第二節(jié)什么是數據挖掘第二節(jié)什么是數據挖掘第三節(jié)數據挖掘功能1.數據挖掘功能數據挖掘功能用于指定數據挖掘任務中要找的模式類型。數據挖掘任務一般分為兩類:描述和預測

描述性挖掘任務刻劃數據庫中數據的一般特性預測性挖掘任務在當前數據上進行推斷,以進行預測第三節(jié)數據挖掘功能1.數據挖掘功能第三節(jié)數據挖掘功能2.概念/類描述:特征化和區(qū)分數據可以與類或概念相關聯。用匯總的、簡潔的、精確的方式描述每個類和概念稱為類/概念描述這種描述可以通過以下方法得到:數據特征化:目標類數據的一般特征或特性的匯總數據區(qū)分:將目標類對象的一般特性與一個或多個對比類對象的一般特性進行比較數據特征化和比較

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論