數(shù)據(jù)挖掘 數(shù)據(jù)倉庫與OLAP_第1頁
數(shù)據(jù)挖掘 數(shù)據(jù)倉庫與OLAP_第2頁
數(shù)據(jù)挖掘 數(shù)據(jù)倉庫與OLAP_第3頁
數(shù)據(jù)挖掘 數(shù)據(jù)倉庫與OLAP_第4頁
數(shù)據(jù)挖掘 數(shù)據(jù)倉庫與OLAP_第5頁
已閱讀5頁,還剩73頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、2022年2月25日星期五Data Mining: Concepts and Techniques1數(shù)據(jù)挖掘概念與技術(shù)數(shù)據(jù)挖掘概念與技術(shù) Chapter 3 數(shù)據(jù)倉庫與OLAP技術(shù)概述 唐德玉2022年2月25日星期五Data Mining: Concepts and Techniques2第三章 數(shù)據(jù)倉庫與OLAP技術(shù)概述什么是數(shù)據(jù)倉庫 多維數(shù)據(jù)模型設(shè)計(jì)倉庫體系結(jié)構(gòu)數(shù)據(jù)倉庫實(shí)現(xiàn)從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘2022年2月25日星期五Data Mining: Concepts and Techniques32.2.1 2.2.1 數(shù)據(jù)倉庫的產(chǎn)生數(shù)據(jù)倉庫的產(chǎn)生 數(shù)據(jù)倉庫技術(shù)是隨著人們對大型數(shù)據(jù)庫系統(tǒng)研究的

2、不斷深入數(shù)據(jù)倉庫技術(shù)是隨著人們對大型數(shù)據(jù)庫系統(tǒng)研究的不斷深入,在傳統(tǒng)數(shù)據(jù)庫技術(shù)基礎(chǔ)之上發(fā)展而來的在傳統(tǒng)數(shù)據(jù)庫技術(shù)基礎(chǔ)之上發(fā)展而來的,其主要目的就是其主要目的就是為決策為決策提供支持提供支持,為為OLAP、數(shù)據(jù)挖掘深層次的分析提供平臺、數(shù)據(jù)挖掘深層次的分析提供平臺。 數(shù)據(jù)倉庫是一個(gè)和實(shí)際應(yīng)用密不可分的研究領(lǐng)域,與傳統(tǒng)數(shù)數(shù)據(jù)倉庫是一個(gè)和實(shí)際應(yīng)用密不可分的研究領(lǐng)域,與傳統(tǒng)數(shù)據(jù)庫相比,數(shù)據(jù)倉庫不僅引入了許多新的概念,而且在據(jù)庫相比,數(shù)據(jù)倉庫不僅引入了許多新的概念,而且在體系結(jié)構(gòu)、體系結(jié)構(gòu)、數(shù)據(jù)組織數(shù)據(jù)組織等方面,均有其自身的特點(diǎn)。等方面,均有其自身的特點(diǎn)。什么是數(shù)據(jù)倉庫?2022年2月25日星期五Da

3、ta Mining: Concepts and Techniques4數(shù)據(jù)倉庫要解決的基本問題全局范圍內(nèi)統(tǒng)一數(shù)據(jù)視圖全局范圍內(nèi)統(tǒng)一數(shù)據(jù)視圖n數(shù)據(jù)內(nèi)容數(shù)據(jù)內(nèi)容n數(shù)據(jù)的完整性數(shù)據(jù)的完整性n數(shù)據(jù)的準(zhǔn)確性數(shù)據(jù)的準(zhǔn)確性n數(shù)據(jù)的一致性數(shù)據(jù)的一致性n數(shù)據(jù)組織數(shù)據(jù)組織n面向分析決策面向分析決策為什么需要數(shù)據(jù)倉庫技術(shù)為什么需要數(shù)據(jù)倉庫技術(shù)2022年2月25日星期五Data Mining: Concepts and Techniques5在實(shí)際中經(jīng)常存在這樣為什么需要數(shù)據(jù)倉庫技術(shù)為什么需要數(shù)據(jù)倉庫技術(shù)2022年2月25日星期五Data Mining: Concepts and Techniques6“蜘蛛網(wǎng)”問題

4、沒有統(tǒng)一規(guī)劃和設(shè)計(jì)沒有統(tǒng)一規(guī)劃和設(shè)計(jì)數(shù)據(jù)模型不一致數(shù)據(jù)模型不一致數(shù)據(jù)定義不一致數(shù)據(jù)定義不一致數(shù)據(jù)準(zhǔn)確性差,冗余數(shù)據(jù)準(zhǔn)確性差,冗余度高度高歷史數(shù)據(jù)不統(tǒng)一、不歷史數(shù)據(jù)不統(tǒng)一、不規(guī)范規(guī)范解決方案:解決方案:深入、全面、客觀的數(shù)據(jù)深入、全面、客觀的數(shù)據(jù)源分析源分析為什么需要數(shù)據(jù)倉庫技術(shù)為什么需要數(shù)據(jù)倉庫技術(shù)2022年2月25日星期五Data Mining: Concepts and Techniques7 傳統(tǒng)數(shù)據(jù)庫的主要任務(wù)是進(jìn)行傳統(tǒng)數(shù)據(jù)庫的主要任務(wù)是進(jìn)行事物事物處理處理(OLTP),它,它所關(guān)注的是事物處理的所關(guān)注的是事物處理的及時(shí)性、完整性與正確性及時(shí)性、完整性與正確性,而,而在數(shù)據(jù)的在數(shù)據(jù)的分

5、析處理方面分析處理方面,則存在著不足,主要體現(xiàn)在,則存在著不足,主要體現(xiàn)在 、集成性的缺乏、集成性的缺乏 首先,業(yè)務(wù)數(shù)據(jù)庫系統(tǒng)的條塊與部門分割,導(dǎo)致數(shù)首先,業(yè)務(wù)數(shù)據(jù)庫系統(tǒng)的條塊與部門分割,導(dǎo)致數(shù)據(jù)分布的分散化與無序化據(jù)分布的分散化與無序化為什么需要數(shù)據(jù)倉庫技術(shù)為什么需要數(shù)據(jù)倉庫技術(shù)2022年2月25日星期五Data Mining: Concepts and Techniques8證券公司內(nèi)部信息系統(tǒng)上海股東開戶系統(tǒng)上海股東開戶系統(tǒng)(指定)(指定)數(shù)據(jù)組織方式數(shù)據(jù)組織方式關(guān)系數(shù)據(jù)庫系統(tǒng)關(guān)系數(shù)據(jù)庫系統(tǒng)行情分析系統(tǒng)行情分析系統(tǒng)(類型可以選擇)(類型可以選擇)數(shù)據(jù)組織方式數(shù)據(jù)組織方式加密文本文件加密文

6、本文件上海法人清算系統(tǒng)上海法人清算系統(tǒng)(指定)(指定)數(shù)據(jù)組織方式數(shù)據(jù)組織方式關(guān)系數(shù)據(jù)庫系統(tǒng)關(guān)系數(shù)據(jù)庫系統(tǒng) 證券交易系統(tǒng)證券交易系統(tǒng) (類型可以選擇)(類型可以選擇) 數(shù)據(jù)組織方式數(shù)據(jù)組織方式 關(guān)系數(shù)據(jù)庫系統(tǒng)關(guān)系數(shù)據(jù)庫系統(tǒng)財(cái)務(wù)分析系統(tǒng)財(cái)務(wù)分析系統(tǒng)(指定)(指定)數(shù)據(jù)組織方式數(shù)據(jù)組織方式關(guān)系數(shù)據(jù)庫系統(tǒng)關(guān)系數(shù)據(jù)庫系統(tǒng)證券咨詢系統(tǒng)證券咨詢系統(tǒng)(類型可選擇)(類型可選擇)數(shù)據(jù)組織方式數(shù)據(jù)組織方式加密文本文件加密文本文件為什么需要數(shù)據(jù)倉庫技術(shù)為什么需要數(shù)據(jù)倉庫技術(shù)2022年2月25日星期五Data Mining: Concepts and Techniques9其次,業(yè)務(wù)數(shù)據(jù)庫缺乏統(tǒng)一的定義與規(guī)劃,導(dǎo)致

7、數(shù)其次,業(yè)務(wù)數(shù)據(jù)庫缺乏統(tǒng)一的定義與規(guī)劃,導(dǎo)致數(shù)據(jù)定義存在歧義據(jù)定義存在歧義證券交易數(shù)據(jù)庫證券交易數(shù)據(jù)庫客戶信息表客戶信息表acc-_num char(10)CRM數(shù)據(jù)庫數(shù)據(jù)庫客戶信息表客戶信息表acc-_num char(10)為什么需要數(shù)據(jù)倉庫技術(shù)2022年2月25日星期五Data Mining: Concepts and Techniques10上交所行情數(shù)據(jù)庫上交所行情數(shù)據(jù)庫S1 char(6)深交所行情數(shù)據(jù)庫深交所行情數(shù)據(jù)庫hqzy char(6)為什么需要數(shù)據(jù)倉庫技術(shù)2022年2月25日星期五Data Mining: Concepts and Techniques11. .主題不明確

8、主題不明確 建立傳統(tǒng)數(shù)據(jù)庫的目的是為了建立傳統(tǒng)數(shù)據(jù)庫的目的是為了滿足事物處理滿足事物處理的需求,的需求,庫和表的定義完全以此為基礎(chǔ)進(jìn)行,對數(shù)據(jù)分析庫和表的定義完全以此為基礎(chǔ)進(jìn)行,對數(shù)據(jù)分析而言缺少明確的而言缺少明確的主題主題。、分析處理效率低、分析處理效率低為什么需要數(shù)據(jù)倉庫技術(shù)2022年2月25日星期五Data Mining: Concepts and Techniques12進(jìn)一步整合現(xiàn)有的數(shù)據(jù)企業(yè)范圍內(nèi)的信息共享企業(yè)范圍內(nèi)的信息共享準(zhǔn)確、一致的集成數(shù)據(jù)準(zhǔn)確、一致的集成數(shù)據(jù)n快速訪問快速訪問n精確、靈活分析精確、靈活分析解決方案:解決方案:引入數(shù)據(jù)倉庫、聯(lián)機(jī)分析引入數(shù)據(jù)倉庫、聯(lián)機(jī)分析處理和

9、數(shù)據(jù)挖掘等技術(shù)處理和數(shù)據(jù)挖掘等技術(shù)為什么需要數(shù)據(jù)倉庫技術(shù)為什么需要數(shù)據(jù)倉庫技術(shù)2022年2月25日星期五Data Mining: Concepts and Techniques13數(shù)據(jù)倉庫的定義 數(shù)據(jù)倉庫之父數(shù)據(jù)倉庫之父Bill Inmon在在1991年出版的年出版的“Building the Data Warehouse”(建立建立數(shù)據(jù)倉庫數(shù)據(jù)倉庫) 數(shù)據(jù)倉庫(數(shù)據(jù)倉庫(Data WarehouseData Warehouse)是一個(gè)是一個(gè)面向主題面向主題的的(Subject Oriented Subject Oriented )、)、集成的集成的(IntegratedIntegrated)

10、、)、相對穩(wěn)定相對穩(wěn)定的(的(Non-Non-VolatileVolatile)、)、反映歷史變化反映歷史變化(Time VariantTime Variant)的數(shù)據(jù)集合的數(shù)據(jù)集合,用于支持管理決策和信息的全局,用于支持管理決策和信息的全局共享。共享。什么是數(shù)據(jù)倉庫什么是數(shù)據(jù)倉庫2022年2月25日星期五Data Mining: Concepts and Techniques14注意注意: 數(shù)據(jù)倉庫是一個(gè)過程而不是一個(gè)項(xiàng)目;數(shù)據(jù)倉庫是一個(gè)過程而不是一個(gè)項(xiàng)目; 數(shù)據(jù)倉庫是一個(gè)環(huán)境,而數(shù)據(jù)倉庫是一個(gè)環(huán)境,而 不是不是 一件產(chǎn)品。一件產(chǎn)品。數(shù)據(jù)倉庫提供用戶數(shù)據(jù)倉庫提供用戶用于決策支持的當(dāng)前和歷史數(shù)

11、據(jù)用于決策支持的當(dāng)前和歷史數(shù)據(jù),這些數(shù)據(jù)在傳統(tǒng)的操作型數(shù)據(jù)庫中很難或不能得這些數(shù)據(jù)在傳統(tǒng)的操作型數(shù)據(jù)庫中很難或不能得到。數(shù)據(jù)倉庫技術(shù)是為了有效的把到。數(shù)據(jù)倉庫技術(shù)是為了有效的把操作形數(shù)據(jù)集操作形數(shù)據(jù)集成到統(tǒng)一的環(huán)境中以提供決策型數(shù)據(jù)訪問成到統(tǒng)一的環(huán)境中以提供決策型數(shù)據(jù)訪問的各種的各種技術(shù)和模塊的總稱。所做的一切都是為了讓用戶技術(shù)和模塊的總稱。所做的一切都是為了讓用戶更快更方便查詢所需要的信息,提供決策支持更快更方便查詢所需要的信息,提供決策支持 2022年2月25日星期五Data Mining: Concepts and Techniques15 數(shù)據(jù)倉庫的特點(diǎn)數(shù)據(jù)倉庫的特點(diǎn)1.面向主題的面向

12、主題的 主題主題:在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、歸類并進(jìn)行分析利用的抽象;在邏輯意義上,它對歸類并進(jìn)行分析利用的抽象;在邏輯意義上,它對應(yīng)企業(yè)中某一宏觀分析領(lǐng)域所涉及的分析對象。應(yīng)企業(yè)中某一宏觀分析領(lǐng)域所涉及的分析對象。2022年2月25日星期五Data Mining: Concepts and Techniques16數(shù)據(jù)倉庫的特點(diǎn):面向主題壽險(xiǎn)壽險(xiǎn)財(cái)產(chǎn)險(xiǎn)財(cái)產(chǎn)險(xiǎn)機(jī)動車險(xiǎn)機(jī)動車險(xiǎn)客戶客戶s操作型數(shù)據(jù)庫是面向特殊操作型數(shù)據(jù)庫是面向特殊處理任務(wù),各個(gè)系統(tǒng)之間處理任務(wù),各個(gè)系統(tǒng)之間各自分離各自分離s數(shù)據(jù)倉庫是按照一定的數(shù)據(jù)倉庫是按照一定的主主題域題域

13、進(jìn)行組織。一個(gè)主題進(jìn)行組織。一個(gè)主題通常與多個(gè)操作型信息系通常與多個(gè)操作型信息系統(tǒng)相關(guān)。統(tǒng)相關(guān)。操作型數(shù)據(jù)庫操作型數(shù)據(jù)庫數(shù)據(jù)倉庫數(shù)據(jù)倉庫2022年2月25日星期五Data Mining: Concepts and Techniques17數(shù)據(jù)倉庫圍繞一些主題,如顧客、供應(yīng)商、產(chǎn)品和銷售數(shù)據(jù)倉庫圍繞一些主題,如顧客、供應(yīng)商、產(chǎn)品和銷售組織。組織。數(shù)據(jù)倉庫關(guān)注數(shù)據(jù)倉庫關(guān)注決策者決策者的數(shù)據(jù)建模與分析,而不是集中于的數(shù)據(jù)建模與分析,而不是集中于組織機(jī)構(gòu)的日常操作和事務(wù)處理。因此,數(shù)據(jù)倉庫排組織機(jī)構(gòu)的日常操作和事務(wù)處理。因此,數(shù)據(jù)倉庫排除對于決策無用的數(shù)據(jù),提供特定主題的簡明視圖。除對于決策無用的數(shù)據(jù)

14、,提供特定主題的簡明視圖。2022年2月25日星期五Data Mining: Concepts and Techniques182 2、集成的、集成的 數(shù)據(jù)倉庫中的數(shù)據(jù)是在對原有分散的數(shù)據(jù)庫數(shù)據(jù)倉庫中的數(shù)據(jù)是在對原有分散的數(shù)據(jù)庫數(shù)數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過系統(tǒng)加工、匯總和整據(jù)抽取、清理的基礎(chǔ)上經(jīng)過系統(tǒng)加工、匯總和整理得到的理得到的,必須消除源數(shù)據(jù)中的不一致性,以保,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉庫內(nèi)的信息是關(guān)于整個(gè)企業(yè)的一致的全證數(shù)據(jù)倉庫內(nèi)的信息是關(guān)于整個(gè)企業(yè)的一致的全局信息。局信息。2022年2月25日星期五Data Mining: Concepts and Techniques1

15、9數(shù)據(jù)倉庫的特點(diǎn):集成的面向特定應(yīng)用面向特定應(yīng)用集成的集成的s每一個(gè)數(shù)據(jù)庫面向特定的每一個(gè)數(shù)據(jù)庫面向特定的應(yīng)用,各類應(yīng)用(包括其應(yīng)用,各類應(yīng)用(包括其相關(guān)的數(shù)據(jù)庫)之間相互相關(guān)的數(shù)據(jù)庫)之間相互獨(dú)立。獨(dú)立。s數(shù)據(jù)倉庫中的數(shù)據(jù)面向整個(gè)企數(shù)據(jù)倉庫中的數(shù)據(jù)面向整個(gè)企業(yè)的分析處理,數(shù)據(jù)倉庫中的業(yè)的分析處理,數(shù)據(jù)倉庫中的數(shù)據(jù)是已經(jīng)集成了的,消除了數(shù)據(jù)是已經(jīng)集成了的,消除了數(shù)據(jù)的不一致性。數(shù)據(jù)的不一致性。操作型數(shù)據(jù)庫操作型數(shù)據(jù)庫數(shù)據(jù)倉庫數(shù)據(jù)倉庫2022年2月25日星期五Data Mining: Concepts and Techniques20通常,構(gòu)造數(shù)據(jù)倉庫是將多個(gè)異種數(shù)據(jù)源,如關(guān)系通常,構(gòu)造數(shù)據(jù)倉庫

16、是將多個(gè)異種數(shù)據(jù)源,如關(guān)系數(shù)據(jù)庫、一般文件和聯(lián)機(jī)事務(wù)處理記錄,集成在數(shù)據(jù)庫、一般文件和聯(lián)機(jī)事務(wù)處理記錄,集成在一起。使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù),確保命名一起。使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù),確保命名約定、編碼結(jié)構(gòu)、屬性度量等的一致性。約定、編碼結(jié)構(gòu)、屬性度量等的一致性。 2022年2月25日星期五Data Mining: Concepts and Techniques213、反映歷史變化、反映歷史變化 數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某一時(shí)點(diǎn)錄了企業(yè)從過去某一時(shí)點(diǎn)(如開始應(yīng)用數(shù)據(jù)倉庫的如開始應(yīng)用數(shù)據(jù)倉庫的時(shí)點(diǎn)時(shí)點(diǎn))到目前的各個(gè)階段的信息

17、,通過這些信息,到目前的各個(gè)階段的信息,通過這些信息,可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預(yù)測和預(yù)測。2022年2月25日星期五Data Mining: Concepts and Techniques22數(shù)據(jù)倉庫的特點(diǎn):反映歷史變化s主要關(guān)心當(dāng)前數(shù)據(jù)主要關(guān)心當(dāng)前數(shù)據(jù)s通常包含歷史數(shù)據(jù)通常包含歷史數(shù)據(jù)操作型數(shù)據(jù)庫操作型數(shù)據(jù)庫數(shù)據(jù)倉庫數(shù)據(jù)倉庫2022年2月25日星期五Data Mining: Concepts and Techniques23數(shù)據(jù)存儲從歷史的角度數(shù)據(jù)存儲從歷史的角度(例如過去例如過去5-10年年)提供信息。提供信息。數(shù)據(jù)倉庫中的關(guān)鍵

18、結(jié)構(gòu),隱式或顯式地包含時(shí)間數(shù)據(jù)倉庫中的關(guān)鍵結(jié)構(gòu),隱式或顯式地包含時(shí)間元素。元素。2022年2月25日星期五Data Mining: Concepts and Techniques244 4、相對穩(wěn)定的、相對穩(wěn)定的 數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析之用,所數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個(gè)數(shù)據(jù)涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個(gè)數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫以后,一般情況下將被長期保留,進(jìn)入數(shù)據(jù)倉庫以后,一般情況下將被長期保留,也就是數(shù)據(jù)倉庫中一般有大量的也就是數(shù)據(jù)倉庫中一般有大量的查詢查詢操作,但操作,但修修改和刪除改和刪除操作很少,通常只需要操作很少,通常只需

19、要定期的加載、刷定期的加載、刷新。新。2022年2月25日星期五Data Mining: Concepts and Techniques25數(shù)據(jù)倉庫的特點(diǎn):相對穩(wěn)定的modifydeleteinsertupdateLoad/ Update在某個(gè)時(shí)間段內(nèi)保持相對穩(wěn)定在某個(gè)時(shí)間段內(nèi)保持相對穩(wěn)定s實(shí)時(shí)更新,數(shù)據(jù)根據(jù)需實(shí)時(shí)更新,數(shù)據(jù)根據(jù)需要及時(shí)發(fā)生變化要及時(shí)發(fā)生變化s定期加載,加載后的數(shù)據(jù)極少定期加載,加載后的數(shù)據(jù)極少更新。更新。實(shí)時(shí)更新實(shí)時(shí)更新操作型數(shù)據(jù)庫操作型數(shù)據(jù)庫數(shù)據(jù)倉庫數(shù)據(jù)倉庫2022年2月25日星期五Data Mining: Concepts and Techniques26傳統(tǒng)數(shù)據(jù)庫與數(shù)據(jù)

20、倉庫的比較比較項(xiàng)目比較項(xiàng)目 傳統(tǒng)數(shù)據(jù)庫傳統(tǒng)數(shù)據(jù)庫 數(shù)據(jù)倉庫數(shù)據(jù)倉庫總體特征總體特征 圍繞高效的事務(wù)處理圍繞高效的事務(wù)處理 以提供決策為目標(biāo)以提供決策為目標(biāo)存儲內(nèi)容存儲內(nèi)容 以當(dāng)前數(shù)據(jù)為主以當(dāng)前數(shù)據(jù)為主 歷史、存檔、歸納歷史、存檔、歸納面向用戶面向用戶 普通業(yè)務(wù)處理人員普通業(yè)務(wù)處理人員 高級決策管理人員高級決策管理人員功能目標(biāo)功能目標(biāo) 面向業(yè)務(wù)操作,注重實(shí)時(shí)面向業(yè)務(wù)操作,注重實(shí)時(shí) 面向主題,注重分析面向主題,注重分析匯總情況匯總情況 原始數(shù)據(jù)原始數(shù)據(jù) 多層次匯總,數(shù)據(jù)細(xì)節(jié)損失多層次匯總,數(shù)據(jù)細(xì)節(jié)損失數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)結(jié)構(gòu) 結(jié)構(gòu)化程度高,適合運(yùn)算結(jié)構(gòu)化程度高,適合運(yùn)算 結(jié)構(gòu)化程度適中結(jié)構(gòu)化程度適中。20

21、22年2月25日星期五Data Mining: Concepts and Techniques27OLTPOLTP與與OLAPOLAP1.OLTP(OnLine Transaction Processing)聯(lián)聯(lián)機(jī)事務(wù)處理系統(tǒng),它是事件驅(qū)動、面向應(yīng)用的。機(jī)事務(wù)處理系統(tǒng),它是事件驅(qū)動、面向應(yīng)用的。 例如銀行的儲蓄系統(tǒng)就是一個(gè)典型的例如銀行的儲蓄系統(tǒng)就是一個(gè)典型的OLTP系統(tǒng)。系統(tǒng)。 其特點(diǎn)是:其特點(diǎn)是: 對響應(yīng)時(shí)間要求非常高;對響應(yīng)時(shí)間要求非常高; 用戶數(shù)量非常龐大,主要是操作人員;用戶數(shù)量非常龐大,主要是操作人員; 數(shù)據(jù)庫的各種操作基于索引進(jìn)行數(shù)據(jù)庫的各種操作基于索引進(jìn)行n關(guān)系數(shù)據(jù)庫滿足了聯(lián)機(jī)

22、事務(wù)處理(關(guān)系數(shù)據(jù)庫滿足了聯(lián)機(jī)事務(wù)處理(OLTPOLTP)的要的要求求2022年2月25日星期五Data Mining: Concepts and Techniques282.OLAP2.OLAP(OnLineOnLine Analytical Processing Analytical Processing)-)-聯(lián)機(jī)聯(lián)機(jī)分析處理是基于數(shù)據(jù)倉庫的信息分析處理過程,分析處理是基于數(shù)據(jù)倉庫的信息分析處理過程,是數(shù)據(jù)倉庫的是數(shù)據(jù)倉庫的用戶接口部分。用戶接口部分。OLAPOLAP系統(tǒng)是系統(tǒng)是跨越部門跨越部門、面向主題面向主題的。的。其基本特點(diǎn)是:其基本特點(diǎn)是: 基礎(chǔ)數(shù)據(jù)來源于信息系統(tǒng)中的操作數(shù)據(jù);基

23、礎(chǔ)數(shù)據(jù)來源于信息系統(tǒng)中的操作數(shù)據(jù); 響應(yīng)時(shí)間合理;響應(yīng)時(shí)間合理; 用戶數(shù)量相對較少,主要是業(yè)務(wù)決策與管理人用戶數(shù)量相對較少,主要是業(yè)務(wù)決策與管理人員;員; 數(shù)據(jù)庫的各種操作不能完全基于索引進(jìn)行。數(shù)據(jù)庫的各種操作不能完全基于索引進(jìn)行。2022年2月25日星期五Data Mining: Concepts and Techniques29OLTP與OLAP的比較OLTPOLAP用戶用戶面向操作人員,支持日常操面向操作人員,支持日常操作作 面向決策人員,支持管理需要面向決策人員,支持管理需要 用途用途 面向應(yīng)用,事務(wù)驅(qū)動面向應(yīng)用,事務(wù)驅(qū)動 面向分析,分析驅(qū)動面向分析,分析驅(qū)動 數(shù)據(jù)情況數(shù)據(jù)情況 當(dāng)前值

24、數(shù)據(jù),細(xì)節(jié)性數(shù)據(jù)當(dāng)前值數(shù)據(jù),細(xì)節(jié)性數(shù)據(jù) 歷史數(shù)據(jù)歷史數(shù)據(jù) ,綜合數(shù)據(jù),綜合數(shù)據(jù)一次處理數(shù)據(jù)量一次處理數(shù)據(jù)量小小 大大 訪問更新訪問更新可更新可更新 大量查詢,極少更新,但周期性大量查詢,極少更新,但周期性刷新刷新 用戶量用戶量大大小小數(shù)據(jù)規(guī)模數(shù)據(jù)規(guī)模100M-1GB100GB-TB考察角度考察角度事務(wù)吞吐量事務(wù)吞吐量查詢吞吐量,響應(yīng)時(shí)間查詢吞吐量,響應(yīng)時(shí)間2022年2月25日星期五Data Mining: Concepts and Techniques30Chapter 3: Data Warehousing and OLAP Technology: An OverviewWhat is a

25、data warehouse? A multi-dimensional data modelData warehouse architectureData warehouse implementationFrom data warehousing to data mining2022年2月25日星期五Data Mining: Concepts and Techniques31第三章 數(shù)據(jù)倉庫與OLAP技術(shù)概述什么是數(shù)據(jù)倉庫 多維數(shù)據(jù)模型設(shè)計(jì)倉庫體系結(jié)構(gòu)數(shù)據(jù)倉庫實(shí)現(xiàn)從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘2022年2月25日星期五Data Mining: Concepts and Techniques32從表到數(shù)據(jù)

26、立方體數(shù)據(jù)倉庫建立在多維數(shù)據(jù)模型上,以數(shù)據(jù)立方體的方式來觀察數(shù)據(jù)A data cube, such as sales, allows data to be modeled and viewed in multiple dimensionsnDimension tables, such as item (item_name, brand, type), or time(day, week, month, quarter, year) nFact table contains measures (such as dollars_sold) and keys to each of the relat

27、ed dimension tablesIn data warehousing literature, an n-D base cube is called a base cuboid(基本立方體). The top most 0-D cuboid, which holds the highest-level of summarization, is called the apex cuboid(頂點(diǎn)立方體). The lattice of cuboids forms a data cube.2022年2月25日星期五Data Mining: Concepts and Techniques33C

28、ube: A Lattice of Cuboidstime,itemtime,item,locationtime, item, location, supplieralltimeitemlocationsuppliertime,locationtime,supplieritem,locationitem,supplierlocation,suppliertime,item,suppliertime,location,supplieritem,location,supplier0-D(apex) cuboid1-D cuboids2-D cuboids3-D cuboids4-D(base) c

29、uboid2022年2月25日星期五Data Mining: Concepts and Techniques34常見的概念模型常用的概念數(shù)據(jù)模型有:常用的概念數(shù)據(jù)模型有:n星形模型星形模型n雪花模型雪花模型n事實(shí)星座模型事實(shí)星座模型2022年2月25日星期五Data Mining: Concepts and Techniques351.星形模型 星形模型簡潔,可以很準(zhǔn)確地反映出各實(shí)星形模型簡潔,可以很準(zhǔn)確地反映出各實(shí)體之間的邏輯關(guān)系,并依據(jù)實(shí)體的重要程體之間的邏輯關(guān)系,并依據(jù)實(shí)體的重要程度,將這種關(guān)系展示出來。度,將這種關(guān)系展示出來。 星形模型由以下兩部分構(gòu)成:星形模型由以下兩部分構(gòu)成:n事實(shí)

30、表事實(shí)表n維度表維度表2022年2月25日星期五Data Mining: Concepts and Techniques36事實(shí)表事實(shí)表 是星形模型的中心是星形模型的中心 包含有大量的數(shù)據(jù)包含有大量的數(shù)據(jù) 具有較小的(或沒有)冗余度具有較小的(或沒有)冗余度 數(shù)據(jù)只需追加,不進(jìn)行修改數(shù)據(jù)只需追加,不進(jìn)行修改維度表維度表 是事實(shí)表的附屬表是事實(shí)表的附屬表 一個(gè)事實(shí)表擁有一組維度表一個(gè)事實(shí)表擁有一組維度表 每個(gè)維度表通過主鍵與事實(shí)表相連,維度每個(gè)維度表通過主鍵與事實(shí)表相連,維度表之間通過表之間通過事實(shí)表的中介相聯(lián)系事實(shí)表的中介相聯(lián)系2022年2月25日星期五Data Mining: Concept

31、s and Techniques37Example of Star Schema time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcitystate_or_provincecountrylocationSales Fact Table time_key item_key branch_key location_key units_sold dollars_sold avg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch

32、_namebranch_typebranchP73 例3-12022年2月25日星期五Data Mining: Concepts and Techniques382.雪花模型 雪花模型是星形模型的拓展,在事實(shí)表和雪花模型是星形模型的拓展,在事實(shí)表和維度表的基礎(chǔ)上,增加了一類新表維度表的基礎(chǔ)上,增加了一類新表“詳細(xì)類別表詳細(xì)類別表”,用于對維度表進(jìn)行描述。,用于對維度表進(jìn)行描述。 雪花模型的維度表具有較小的數(shù)據(jù)冗余,雪花模型的維度表具有較小的數(shù)據(jù)冗余,易于維護(hù),節(jié)省存儲空間,具有較高的靈易于維護(hù),節(jié)省存儲空間,具有較高的靈活性?;钚?。2022年2月25日星期五Data Mining: Conce

33、pts and Techniques39Example of Snowflake Schematime_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcity_keylocationSales Fact Table time_key item_key branch_key location_key units_sold dollars_sold avg_salesMeasuresitem_keyitem_namebrandtypesupplier_keyitembranch_keybranch_namebranch_typ

34、ebranchsupplier_keysupplier_typesuppliercity_keycitystate_or_provincecountrycity2022年2月25日星期五Data Mining: Concepts and Techniques40Example of Fact Constellationtime_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountrylocationSales Fact Tabletime_key item_key branch

35、_key location_key units_sold dollars_sold avg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranchShipping Fact Tabletime_key item_key shipper_key from_location to_location dollars_cost units_shippedshipper_keyshipper_namelocation_keyshipper_typeshipper2022年

36、2月25日星期五Data Mining: Concepts and Techniques41Cube Definition Syntax (BNF) in DMQLCube Definition (Fact Table)define cube : Dimension Definition (Dimension Table)define dimension as ()Special Case (Shared Dimension Tables)nFirst time as “cube definition”ndefine dimension as in cube 2022年2月25日星期五Data

37、 Mining: Concepts and Techniques42Defining Star Schema in DMQLdefine cube sales_star time, item, branch, location:dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*)define dimension time as (time_key, day, day_of_week, month, quarter, year)define dimension

38、item as (item_key, item_name, brand, type, supplier_type)define dimension branch as (branch_key, branch_name, branch_type)define dimension location as (location_key, street, city, province_or_state, country)2022年2月25日星期五Data Mining: Concepts and Techniques43Defining Snowflake Schema in DMQLdefine cu

39、be sales_snowflake time, item, branch, location:dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*)define dimension time as (time_key, day, day_of_week, month, quarter, year)define dimension item as (item_key, item_name, brand, type, supplier(supplier_key,

40、supplier_type)define dimension branch as (branch_key, branch_name, branch_type)define dimension location as (location_key, street, city(city_key, province_or_state, country)2022年2月25日星期五Data Mining: Concepts and Techniques44Defining Fact Constellation in DMQLdefine cube sales time, item, branch, loc

41、ation:dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*)define dimension time as (time_key, day, day_of_week, month, quarter, year)define dimension item as (item_key, item_name, brand, type, supplier_type)define dimension branch as (branch_key, branch_name

42、, branch_type)define dimension location as (location_key, street, city, province_or_state, country)define cube shipping time, item, shipper, from_location, to_location:dollar_cost = sum(cost_in_dollars), unit_shipped = count(*)define dimension time as time in cube salesdefine dimension item as item

43、in cube salesdefine dimension shipper as (shipper_key, shipper_name, location as location in cube sales, shipper_type)define dimension from_location as location in cube salesdefine dimension to_location as location in cube sales2022年2月25日星期五Data Mining: Concepts and Techniques453.2.5概念分層: Dimension

44、(location)allEuropeNorth_AmericaMexicoCanadaSpainGermanyVancouverM. WindL. Chan.allregionofficecountryTorontoFrankfurtcity2022年2月25日星期五Data Mining: Concepts and Techniques46View of Warehouses and HierarchiesSpecification of hierarchiesSchema hierarchyday month quarter; week yearSet_grouping hierarch

45、y1.10 = minsupMotivationnOnly a small portion of cube cells may be “above the water in a sparse cubenOnly calculate “interesting” cellsdata above certain thresholdnAvoid explosive growth of the cubenSuppose 100 dimensions, only 1 base cell. How many aggregate cells if count = 1? What about count = 2

46、?2022年2月25日星期五Data Mining: Concepts and Techniques67Indexing OLAP Data: Bitmap IndexIndex on a particular columnEach value in the column has a bit vector: bit-op is fastThe length of the bit vector: # of records in the base tableThe i-th bit is set if the i-th row of the base table has the value for

47、 the indexed columnnot suitable for high cardinality domainsCust Region TypeC1AsiaRetailC2EuropeDealerC3AsiaDealerC4America RetailC5EuropeDealerRecID Retail Dealer110201301410501RecIDAsia Europe America11002010310040015010Base tableIndex on RegionIndex on TypeP90 例3-122022年2月25日星期五Data Mining: Conce

48、pts and Techniques68Indexing OLAP Data: Join IndicesJoin index: JI(R-id, S-id) where R (R-id, ) S (S-id, )Traditional indices map the values to a list of record idsnIt materializes relational join in JI file and speeds up relational join In data warehouses, join index relates the values of the dimen

49、sions of a start schema to rows in the fact table.nE.g. fact table: Sales and two dimensions city and productnA join index on city maintains for each distinct city a list of R-IDs of the tuples recording the Sales in the city nJoin indices can span multiple dimensionsP91 例3-132022年2月25日星期五Data Minin

50、g: Concepts and Techniques69OLAP查詢的有效處理確定哪些操作應(yīng)該在可利用的方體上執(zhí)行nTransform drill, roll, etc. into corresponding SQL and/or OLAP operations, e.g., dice = selection + projection確定相關(guān)操作應(yīng)當(dāng)使用哪些物化的方體nLet the query to be processed be on brand, province_or_state with the condition “year = 2004”, and there are 4 mat

51、erialized cuboids available:1) year, item_name, city 2) year, brand, country3) year, brand, province_or_state4) item_name, province_or_state where year = 2004Which should be selected to process the query?Explore indexing structures and compressed vs. dense array structs in MOLAPP92 例3-142022年2月25日星期

52、五Data Mining: Concepts and Techniques70Chapter 3: Data Warehousing and OLAP Technology: An OverviewWhat is a data warehouse? A multi-dimensional data modelData warehouse architectureData warehouse implementationFrom data warehousing to data mining2022年2月25日星期五Data Mining: Concepts and Techniques71Da

53、ta Warehouse UsageThree kinds of data warehouse applicationsnInformation processingnsupports querying, basic statistical analysis, and reporting using crosstabs, tables, charts and graphsnAnalytical processingnmultidimensional analysis of data warehouse datansupports basic OLAP operations, slice-dic

54、e, drilling, pivotingnData miningnknowledge discovery from hidden patterns nsupports associations, constructing analytical models, performing classification and prediction, and presenting the mining results using visualization tools2022年2月25日星期五Data Mining: Concepts and Techniques72From On-Line Anal

55、ytical Processing (OLAP) to On Line Analytical Mining (OLAM)Why online analytical mining?nHigh quality of data in data warehousesnDW contains integrated, consistent, cleaned datanAvailable information processing structure surrounding data warehousesnODBC, OLEDB, Web accessing, service facilities, re

56、porting and OLAP toolsnOLAP-based exploratory data analysisnMining with drilling, dicing, pivoting, etc.nOn-line selection of data mining functionsnIntegration and swapping of multiple mining functions, algorithms, and tasks2022年2月25日星期五Data Mining: Concepts and Techniques73An OLAM System Architectu

57、reData WarehouseMeta DataMDDBOLAMEngineOLAPEngineUser GUI APIData Cube APIDatabase APIData cleaningData integrationLayer3OLAP/OLAMLayer2MDDBLayer1Data RepositoryLayer4User InterfaceFiltering&IntegrationFilteringDatabasesMining queryMining result2022年2月25日星期五Data Mining: Concepts and Techniques74Chap

58、ter 3: Data Warehousing and OLAP Technology: An OverviewWhat is a data warehouse? A multi-dimensional data modelData warehouse architectureData warehouse implementationFrom data warehousing to data miningSummary2022年2月25日星期五Data Mining: Concepts and Techniques75Summary: Data Warehouse and OLAP Techn

59、ologyWhy data warehousing?A multi-dimensional model of a data warehousenStar schema, snowflake schema, fact constellationsnA data cube consists of dimensions & measuresOLAP operations: drilling, rolling, slicing, dicing and pivotingData warehouse architectureOLAP servers: ROLAP, MOLAP, HOLAPEfficien

60、t computation of data cubesnPartial vs. full vs. no materializationnIndexing OALP data: Bitmap index and join indexnOLAP query processing From OLAP to OLAM (on-line analytical mining)2022年2月25日星期五Data Mining: Concepts and Techniques76References (I)S. Agarwal, R. Agrawal, P. M. Deshpande, A. Gupta, J

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論