數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘簡(jiǎn)介PPT課件_第1頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘簡(jiǎn)介PPT課件_第2頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘簡(jiǎn)介PPT課件_第3頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘簡(jiǎn)介PPT課件_第4頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘簡(jiǎn)介PPT課件_第5頁(yè)
已閱讀5頁(yè),還剩48頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、目錄 一、 數(shù)據(jù)庫(kù)相關(guān) 1.1 數(shù)據(jù)庫(kù)技術(shù)的發(fā)展 1.2 數(shù)據(jù)庫(kù)應(yīng)用中存在的問(wèn)題 1.3 海量數(shù)據(jù)要求強(qiáng)有力的數(shù)據(jù)分析工具 二、數(shù)據(jù)倉(cāng)庫(kù) 2.1 什么是數(shù)據(jù)倉(cāng)庫(kù)DW ( data warehouse )? 2.2 數(shù)據(jù)倉(cāng)庫(kù)的主要特征 2.3 DW概念總結(jié) 2.4 操作型數(shù)據(jù)庫(kù)系統(tǒng)與數(shù)據(jù)倉(cāng)庫(kù)的區(qū)別 2.5 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型 2.6 OLTP和OLAP的主要區(qū)別第1頁(yè)/共53頁(yè)目錄 2.7數(shù)據(jù)倉(cāng)庫(kù)與操作數(shù)據(jù)庫(kù)為什么是分離的? 2.8 多維數(shù)據(jù)模型 三、數(shù)據(jù)挖掘 3.1 什么是數(shù)據(jù)挖掘? 3.2 數(shù)據(jù)挖掘的特點(diǎn) 3.3 數(shù)據(jù)挖掘的分類 3.5 數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)的聯(lián)系 3.6 數(shù)據(jù)挖掘?qū)嵗?頁(yè)/

2、共53頁(yè)一、 數(shù)據(jù)庫(kù)相關(guān)1.1 數(shù)據(jù)庫(kù)技術(shù)的發(fā)展 收集和數(shù)據(jù)庫(kù)創(chuàng)建 ( 20世紀(jì)60年代和更早 ) -原始文件處理 數(shù)據(jù)庫(kù)管理系統(tǒng)(20世紀(jì)70年代) -層次、網(wǎng)狀、關(guān)系數(shù)據(jù)庫(kù)系統(tǒng) -數(shù)據(jù)建模工具:實(shí)體-聯(lián)系(ER)模型等 -索引和數(shù)據(jù)組織技術(shù) -查詢語(yǔ)言:SQL 、用戶界面:表單、報(bào)告等 -查詢處理和查詢優(yōu)化、事務(wù)并發(fā)控制等 -聯(lián)機(jī)事務(wù)處理(OLTP)第3頁(yè)/共53頁(yè)1.1 數(shù)據(jù)庫(kù)技術(shù)的發(fā)展 高級(jí)數(shù)據(jù)庫(kù)系統(tǒng) ( 80年代中期現(xiàn)在 ) -高級(jí)數(shù)據(jù)模型: 擴(kuò)充關(guān)系、面向?qū)ο?、?duì)象-關(guān)系 -面向應(yīng)用:空間的、時(shí)間的、多媒體的、主動(dòng)的、科學(xué)的、知識(shí)庫(kù) (80年代后期現(xiàn)在) -數(shù)據(jù)倉(cāng)庫(kù)和OLAP技術(shù)

3、-數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn) 基于Web的數(shù)據(jù)庫(kù)系統(tǒng) (90年代現(xiàn)在) -基于XML的數(shù)據(jù)庫(kù)系統(tǒng) -Web 挖掘第4頁(yè)/共53頁(yè)1.2 數(shù)據(jù)庫(kù)應(yīng)用中存在的問(wèn)題 “”。存儲(chǔ)了大量數(shù)據(jù)的數(shù)據(jù)庫(kù)變成了“數(shù)據(jù)墳?zāi)埂彪y以再訪問(wèn)的數(shù)據(jù)檔案; 在大型數(shù)據(jù)庫(kù)中快速增長(zhǎng)著海量數(shù)據(jù),;往往,因?yàn)?;若在?dāng)前運(yùn)行的操作數(shù)據(jù)庫(kù)中獲取信息,則影響數(shù)據(jù)庫(kù)的使用和性能第5頁(yè)/共53頁(yè)1.3 海量數(shù)據(jù)要求強(qiáng)有力的數(shù)據(jù)分析工具依賴用戶或某領(lǐng)域的專家人工地將知識(shí)輸入知識(shí)庫(kù);這一過(guò)程常常有偏差和錯(cuò)誤,并且耗時(shí)、費(fèi)用高; 使用數(shù)據(jù)挖掘工具進(jìn)行數(shù)據(jù)分析;可以,對(duì)商務(wù)決策、知識(shí)庫(kù)、科學(xué)和醫(yī)學(xué)研究作出了巨大貢獻(xiàn); 數(shù)據(jù)和信息之間的差距,要求系統(tǒng)地開

4、發(fā)數(shù)據(jù)挖掘工具,。第6頁(yè)/共53頁(yè)二、數(shù)據(jù)倉(cāng)庫(kù)2.1 什么是數(shù)據(jù)倉(cāng)庫(kù)DW ( data warehouse )? 數(shù)據(jù)倉(cāng)庫(kù)可以看作是一種特殊的關(guān)系數(shù)據(jù)庫(kù)。 DW是一個(gè)的、的、的、的數(shù)據(jù)集合,用于支持管理部門的決策過(guò)程。允許在一起為統(tǒng)一的歷史數(shù)據(jù)分析提供堅(jiān)實(shí)的平臺(tái),對(duì)信息處理、決策提供支持。第7頁(yè)/共53頁(yè)2.2 數(shù)據(jù)倉(cāng)庫(kù)的主要特征面向主題的 ( subject oriented ) :(1) 所謂(宏觀領(lǐng)域),如顧客、供應(yīng)商、產(chǎn)品和銷售組織;是在高層次上將企業(yè)IS中的數(shù)據(jù)綜合、歸類并進(jìn)行分析利用的抽象。,是指數(shù)據(jù)倉(cāng)庫(kù)內(nèi)的信息是按主題進(jìn)行組織的,為按決策的過(guò)程提供信息。 (2) DW關(guān)注決策者的

5、,而傳統(tǒng)數(shù)據(jù)庫(kù)是面向應(yīng)用的,集中于組織機(jī)構(gòu)的日常操作和事務(wù)處理。(3) DW排除對(duì)于決策無(wú)用的數(shù)據(jù),。 第8頁(yè)/共53頁(yè)2.2 數(shù)據(jù)倉(cāng)庫(kù)的主要特征 (4) 傳統(tǒng)數(shù)據(jù)庫(kù)使用,進(jìn)行數(shù)據(jù)組織時(shí)考慮記錄每一筆業(yè)務(wù)的情況; 數(shù)據(jù)倉(cāng)庫(kù)使用,進(jìn)行數(shù)據(jù)分析處理,以主題為單位組織數(shù)據(jù),例如:供應(yīng)商、商品、顧客等。 (5) 面向主題的數(shù)據(jù)組織方式要求,各主題域之間有明確的界限(獨(dú)立性),在某一主題內(nèi)的數(shù)據(jù)應(yīng)該包括分析處理所要求的一切數(shù)據(jù)(完備性)。第9頁(yè)/共53頁(yè)2.2 數(shù)據(jù)倉(cāng)庫(kù)的主要特征集成的(integrated): (1) 構(gòu)造數(shù)據(jù)倉(cāng)庫(kù)是將,如關(guān)系數(shù)據(jù)庫(kù)、一般文件和聯(lián)機(jī)事務(wù)處理記錄,在一起。 (2) 將多個(gè)

6、系統(tǒng)的數(shù)據(jù)進(jìn)行計(jì)算和整理,保證的數(shù)據(jù)是、的、的。 使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù),確保命名約定、編碼結(jié)構(gòu)、屬性等的數(shù)據(jù)結(jié)構(gòu)。 保證各數(shù)據(jù)源中的。第10頁(yè)/共53頁(yè)2.2 數(shù)據(jù)倉(cāng)庫(kù)的主要特征不更新的 (nonvolatile): (1)訪問(wèn)數(shù)據(jù)倉(cāng)庫(kù)主要是兩種方式:。修改和刪除操作很少 。 (2) DW的與操作環(huán)境下的應(yīng)用數(shù)據(jù)。因此,數(shù)據(jù)倉(cāng)庫(kù)不需要在操作環(huán)境下事務(wù)處理、恢復(fù)和并發(fā)控制等機(jī)制。第11頁(yè)/共53頁(yè)2.2 數(shù)據(jù)倉(cāng)庫(kù)的主要特征隨時(shí)間變化的(time-variant):(1)記錄了從,通過(guò)這些信息,可以表明發(fā)展歷程并對(duì)未來(lái)的趨勢(shì)作出定量分析和預(yù)測(cè)。 (2) DW的數(shù)據(jù)結(jié)構(gòu),隱式或顯式地包含時(shí)間元

7、素;其包含的大量綜合數(shù)據(jù)也與時(shí)間相關(guān),例如:月產(chǎn)量。(3) DW;(例如:510年)。第12頁(yè)/共53頁(yè)2.3 DW概念總結(jié)DW概念總結(jié): 數(shù)據(jù)倉(cāng)庫(kù)是一種語(yǔ)義上一致的數(shù)據(jù)存儲(chǔ)體系結(jié)構(gòu); DW是決策支持?jǐn)?shù)據(jù)模型的物理實(shí)現(xiàn),并存放企業(yè)戰(zhàn)略決策所需信息; DW通過(guò)將異種數(shù)據(jù)源中的數(shù)據(jù)集成在一起構(gòu)造而成; 完成各種數(shù)據(jù)查詢、信息分析報(bào)告和決策支持。 第13頁(yè)/共53頁(yè)2.4 操作型數(shù)據(jù)庫(kù)系統(tǒng)與數(shù)據(jù)倉(cāng)庫(kù)的區(qū)別 操作型數(shù)據(jù)庫(kù)系統(tǒng)的主要任務(wù)是,稱為聯(lián)機(jī)事務(wù)處理 () 系統(tǒng)。它涵蓋了一個(gè)組織的大部分日常操作,如采購(gòu)、制造、庫(kù)存、銷售、財(cái)務(wù)、銀行等事務(wù)。在數(shù)據(jù)分析和決策方面為決策者提供服務(wù)。可以用不同的格式去組

8、織和提供數(shù)據(jù),以便滿足不同用戶的形形色色需求。這種系統(tǒng)稱為()系統(tǒng)。 第14頁(yè)/共53頁(yè)2.5 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型 數(shù)據(jù)倉(cāng)庫(kù)和OLAP通常是基于。 該模型將數(shù)據(jù)看作(data cube)形式。 數(shù)據(jù)立方體由維和事實(shí)來(lái)定義;。 是關(guān)于一個(gè)組織想要記錄的透視或?qū)嶓w。 是面向某一主題的數(shù)據(jù)度量,它表示了多個(gè) 分析維之間的分析結(jié)果。 通常有和兩種形式。 第15頁(yè)/共53頁(yè)2.5 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型 1. 維是人們觀察數(shù)據(jù)的特定角度。例如:時(shí)間維是商品銷售隨時(shí)間推移發(fā)生的變化;地理維是商品在不同地區(qū)的銷售分布情況。2. 某個(gè)維以下存在的對(duì)細(xì)節(jié)的多個(gè)描述方面,例如:時(shí)間維有年、季度、月、日等不同層次。3.

9、 維的一個(gè)取值是該維的一個(gè)成員。第16頁(yè)/共53頁(yè)2.5 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型 4. 一個(gè)多維數(shù)組可以表示為(維1,維2,維3,維n, 變量);例如:(地區(qū)、時(shí)間、銷售渠道、銷售額)5. 多維數(shù)組的取值是數(shù)據(jù)單元。例如:(上海,2002年2月,批發(fā),2188)第17頁(yè)/共53頁(yè)2.6 OLTP和OLAP的主要區(qū)別: OLTP是的,用于辦事員、客戶和信息技術(shù)專業(yè)人員的事務(wù)和查詢處理。 OLAP是的,用于經(jīng)理、主管和信息分析人員的數(shù)據(jù)分析。:OLTP系統(tǒng)管理。這種數(shù)據(jù)太瑣碎,難以用于決策。 OLAP系統(tǒng)管理大量,提供匯總和聚集機(jī)制,并在不同的粒度級(jí)別上存儲(chǔ)和管理信息。數(shù)據(jù)易于用作中、高層的決策過(guò)程。

10、第18頁(yè)/共53頁(yè)2.6 OLTP和OLAP的主要區(qū)別 數(shù)據(jù)庫(kù)設(shè)計(jì): OLTP系統(tǒng)采用E-R(Entity Relationship Diagram)實(shí)體-聯(lián)系模型和面向應(yīng)用的數(shù)據(jù)庫(kù)設(shè)計(jì)。 OLAP系統(tǒng)采用星型或雪花模型和面向主題的數(shù)據(jù)庫(kù)設(shè)計(jì) 視圖: OLTP系統(tǒng)主要關(guān)注一個(gè)企業(yè)或部門內(nèi)部的當(dāng)前數(shù)據(jù),而不涉及歷史數(shù)據(jù)或不同組織的數(shù)據(jù)。 OLAP系統(tǒng)由于組織的變化常??缭綌?shù)據(jù)庫(kù)模式的多個(gè)版本。 OLAP系統(tǒng)也處理來(lái)自不同組織的信息,由多個(gè)數(shù)據(jù)存儲(chǔ)集成的信息。由于數(shù)據(jù)量巨大,OLAP數(shù)據(jù)也存放在多個(gè)存儲(chǔ)介質(zhì)上。第19頁(yè)/共53頁(yè)2.6 OLTP和OLAP的主要區(qū)別: 對(duì)OLTP系統(tǒng)的訪問(wèn)主要由短的

11、原子事務(wù)組成。這種系統(tǒng)需要并行控制和恢復(fù)機(jī)制。 對(duì)OLAP系統(tǒng)的訪問(wèn)大部分是只讀操作(由于大部分?jǐn)?shù)據(jù)倉(cāng)庫(kù)存放歷史數(shù)據(jù),而不是當(dāng)前數(shù)據(jù)),盡管許多可能是復(fù)雜的查詢。 OLTP和OLAP的: 包括數(shù)據(jù)庫(kù)大小、操作的頻繁程度、性能度量等。 第20頁(yè)/共53頁(yè)OLTP系統(tǒng)和OLAP系統(tǒng)的比較表 特 性 OLTP OLAP特征 操作處理 信息處理面向 事務(wù) 分析用戶 辦事員、客戶、數(shù)據(jù)庫(kù)專業(yè)人員 經(jīng)理、主管、分析員功能 日常操作 長(zhǎng)期信息需求,決策支持DB設(shè)計(jì) 基于E-R,面向應(yīng)用 星型/雪花,面向主題數(shù)據(jù) 當(dāng)前的,確保最新 歷史的,跨時(shí)間維護(hù)匯總 原始的,高度詳細(xì) 匯總的,統(tǒng)一的視圖 詳細(xì),一般關(guān)系

12、匯總的,多維的工作單位 短的,簡(jiǎn)單事務(wù) 復(fù)雜查詢存取 讀/寫 大多為讀關(guān)注 數(shù)據(jù)輸入、存儲(chǔ) 信息輸出操作 主關(guān)鍵字上索引/散列 大量掃描訪問(wèn)記錄數(shù)量 數(shù)十個(gè) 數(shù)百萬(wàn)用戶數(shù) 數(shù)千 數(shù)百DB規(guī)模 100MB到GB 100GB到TB優(yōu)先 高性能,高可用性 高靈活性,端點(diǎn)用戶自治度量 事務(wù)吞吐量 查詢吞吐量,響應(yīng)時(shí)間 第21頁(yè)/共53頁(yè)2.7數(shù)據(jù)倉(cāng)庫(kù)與操作數(shù)據(jù)庫(kù)為什么是分離的? 操作型數(shù)據(jù)庫(kù)存放了大量數(shù)據(jù),為什么不直接在這種數(shù)據(jù)庫(kù)上進(jìn)行聯(lián)機(jī)分析處理,而是另外花費(fèi)時(shí)間和資源去構(gòu)造一個(gè)與之分離的數(shù)據(jù)倉(cāng)庫(kù)?是提高兩個(gè)系統(tǒng)的性能。 是為已知的任務(wù)和負(fù)載設(shè)計(jì)的,如使用主關(guān)鍵字索引,檢索特定的記錄和優(yōu)化查詢; 的

13、查詢通常是復(fù)雜的,涉及大量數(shù)據(jù)在匯總級(jí)的計(jì)算,可能需要特殊的數(shù)據(jù)組織、存取方法和基于多維視圖的實(shí)現(xiàn)方法。第22頁(yè)/共53頁(yè)2.7數(shù)據(jù)倉(cāng)庫(kù)與操作數(shù)據(jù)庫(kù)為什么是分離的?支持多事務(wù)的并行處理,需要加鎖和日志等并行控制和恢復(fù)機(jī)制,以確保數(shù)據(jù)的一致性和完整性。對(duì)數(shù)據(jù)記錄進(jìn)行只讀訪問(wèn),以進(jìn)行匯總和聚集。 如果OLTP和OLAP都在操作型數(shù)據(jù)庫(kù)上運(yùn)行,會(huì)大大降低數(shù)據(jù)庫(kù)系統(tǒng)的吞吐量。 總之,數(shù)據(jù)倉(cāng)庫(kù)與操作數(shù)據(jù)庫(kù)分離是由于這兩種系統(tǒng)中數(shù)據(jù)的結(jié)構(gòu)、內(nèi)容和用法都不相同。第23頁(yè)/共53頁(yè) 兩種系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)、內(nèi)容和用法都不相同 一般不維護(hù)歷史數(shù)據(jù),其數(shù)據(jù)很多,但對(duì)于決策是遠(yuǎn)遠(yuǎn)不夠的。用于決策支持需要?dú)v史數(shù)據(jù),將不同

14、來(lái)源的數(shù)據(jù)統(tǒng)一(如聚集和匯總),產(chǎn)生高質(zhì)量、一致和集成的數(shù)據(jù)。只維護(hù)詳細(xì)的原始數(shù)據(jù)(如事務(wù)),這些數(shù)據(jù)在進(jìn)行分析之前需要統(tǒng)一。 由于兩個(gè)系統(tǒng)提供很不相同的,需要不同類型的,因此需要維護(hù)的數(shù)據(jù)庫(kù)。第24頁(yè)/共53頁(yè)2.8 多維數(shù)據(jù)模型 據(jù)倉(cāng)庫(kù)和OLAP基于。該模型將數(shù)據(jù)看作數(shù)據(jù)立方體(data cube)形式。 數(shù)允許以多維對(duì)數(shù)據(jù)建模和觀察。它由維和事實(shí)定義。是關(guān)于一個(gè)組織想要記錄的視圖或?qū)嶓w。 例如,商店可能創(chuàng)建一個(gè)數(shù)據(jù)倉(cāng)庫(kù)sales,記錄商店的銷售,涉及維 time,item(商品類),branch(分店)和 location(地點(diǎn))。這些維使得商店能夠記錄商品的月銷售,銷售商品的分店和地點(diǎn)

15、。第25頁(yè)/共53頁(yè)2.8 多維數(shù)據(jù)模型 : 多維數(shù)據(jù)模型圍繞中心主題(例如sales)組織。 主題用事實(shí)表表示。是用數(shù)值度量的。根據(jù)它們分析維之間的關(guān)系。例如,sales銷售數(shù)據(jù)倉(cāng)庫(kù)的事實(shí)包括dollars_sold(銷售的款項(xiàng)),units_sold(銷售量)和amount_budgeted(預(yù)銷量)。包括事實(shí)的名稱,以及每個(gè)相關(guān)維表的關(guān)鍵字。第26頁(yè)/共53頁(yè)2.8 多維數(shù)據(jù)模型 例:某連鎖商店的銷售數(shù)據(jù)按照time季度, item商品類的2-D視圖(其中銷售數(shù)據(jù)是取自Location=“Vancouver”的所有分店,銷售金額單位是1000美元)。 item(商品類) _ 季度 家庭娛

16、樂(lè) 計(jì)算機(jī) 電 話 安全設(shè)備 Q1 605 825 14 400 Q2 680 952 31 512 Q3 812 1023 30 501 Q4 927 1038 38 580 第27頁(yè)/共53頁(yè)2.8 多維數(shù)據(jù)模型 以三維角度觀察該連鎖商店的銷售數(shù)據(jù)。例如,根據(jù)time,item和location城市觀察數(shù)據(jù)。 location是Chicago, New York,Toronto和Vancouver。 location“Chicago” ;location“New York” . (該市上述二維表 略) (該市上述二維表 略)第28頁(yè)/共53頁(yè)2.8 多維數(shù)據(jù)模型 多維數(shù)據(jù)庫(kù)模型: 星型、雪

17、花型廣泛使用。數(shù)據(jù)庫(kù)模式由實(shí)體的集合和它們之間的聯(lián)系組成。這種數(shù)據(jù)模型適用于聯(lián)機(jī)事務(wù)處理。 數(shù)據(jù)倉(cāng)庫(kù)需要簡(jiǎn)明的、,便于聯(lián)機(jī)數(shù)據(jù)分析。 數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)模型是多維數(shù)據(jù)模型。這種模型有、等。第29頁(yè)/共53頁(yè)2.8 多維數(shù)據(jù)模型 是數(shù)據(jù)倉(cāng)庫(kù)最常見的數(shù)據(jù)模型,其中包括: (1)包含大批數(shù)據(jù)和不含冗余的中心表; (2)一組小的附屬表( 維表 ),每一維一個(gè)。維表圍繞中心表顯示在連線上。 例:某連鎖商店的星型模式如下圖所示。sales有四個(gè)維,分別是time,item,branch(分店)和location。該模式包含一個(gè)中心事實(shí)表sales,它包含四個(gè)維的關(guān)鍵字和兩個(gè)度量dollars_sold銷售的款項(xiàng)

18、和units_sold銷售量。第30頁(yè)/共53頁(yè)2.8 多維數(shù)據(jù)模型 在星型模式中,每一維只用一個(gè)表表示,每個(gè)表包含一組屬性。例如,location維表包含屬性集location_key, street, city, province_or_state, country。 第31頁(yè)/共53頁(yè)2.8 多維數(shù)據(jù)模型 sales 數(shù)據(jù)倉(cāng)庫(kù)的星型模式 time item 維表 維表 time_key - time_key item_name day item_key - item_key day_of_the_week units_sold brand month dollars_sold type

19、quarter location_key supplier_type year branch_key | | | branch維表 location維表 branch_key location_key branch_name street branch_type city province_or_state country 第32頁(yè)/共53頁(yè)2.8 多維數(shù)據(jù)模型雪花模型(snowflake schema) 雪花模型是星型模式的變種,其中某些維表是規(guī)范化的,因而把數(shù)據(jù)進(jìn)一步分解到附加的表中。結(jié)果,模型圖形成類似于雪花的形狀。 雪花模型和星型模型的在于,雪花模型的維表可能是規(guī)范化形式,以便減少冗余

20、。 這種表,并,因?yàn)楫?dāng)維結(jié)構(gòu)作為列包含在內(nèi)時(shí),大維表可能非常大。 由于執(zhí)行查詢需要更多的連接操作,雪花模型可能降低瀏覽的性能。數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的性能可能受到影響。在數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)中,雪花模式不如星型模式使用廣泛。 第33頁(yè)/共53頁(yè)2.8 多維數(shù)據(jù)模型 雪花模型(snowflake schema) 該連鎖商店sales的雪花模型在下圖給出。這里,sales事實(shí)表與上面的星型模型相同。兩個(gè)模式的主要不同是維表。 星型模型中的item的單個(gè)維表在雪花模型中被規(guī)范化,導(dǎo)致新的item表和supplier供應(yīng)商表。例如,現(xiàn)在item維表包含屬性item_key, item_name, brand ,type

21、和supplier_key,supplier_key連接到supplier維表。而supplier維表包含信息supplier_key和supplier_type。 類似地,星型模型中l(wèi)ocation的單個(gè)維表被規(guī)范化成兩個(gè)表:新的location和city。新的location表中的location_key現(xiàn)在連接到city維。根據(jù)需要雪花模型還可以進(jìn)一步規(guī)范化。 第34頁(yè)/共53頁(yè)2.8 多維數(shù)據(jù)模型 sales數(shù)據(jù)倉(cāng)庫(kù)的雪花模式timeitem維表維表time_key - time_key item_nameday item_key -item_keyday_of_the_week un

22、its_sold brandmonth dollars_sold type supplier 維表quarter location_key supplier_type - supplier_keyyear branch_key | (規(guī)范化)supplier_type | | branch維表 location維表 (規(guī)范化) branch_key location_key branch_name street city維表 branch_type city - city_key province_or_state country 第35頁(yè)/共53頁(yè)三、數(shù)據(jù)挖掘3.1 什么是數(shù)據(jù)挖掘?是。這些

23、規(guī)則蘊(yùn)含了數(shù)據(jù)庫(kù)中一組對(duì)象之間的特定關(guān)系,揭示出一些有用的信息,為經(jīng)營(yíng)決策、市場(chǎng)策劃、金融預(yù)測(cè)等提供依據(jù)。 通過(guò)數(shù)據(jù)挖掘,有價(jià)值的知識(shí)、規(guī)則或高層次的信息能就從數(shù)據(jù)庫(kù)的相關(guān)數(shù)據(jù)集合中抽取出來(lái),并從不同角度顯示,從而使大型數(shù)據(jù)庫(kù)作為一個(gè)豐富可靠的資源為知識(shí)管理服務(wù)。第36頁(yè)/共53頁(yè)3.1 什么是數(shù)據(jù)挖掘?在一些文獻(xiàn)中也有其他名稱,如數(shù)據(jù)開采、知識(shí)挖掘、知識(shí)抽取、知識(shí)考察等。數(shù)據(jù)挖掘是知識(shí)發(fā)現(xiàn)KDD的一個(gè),它包括特定的數(shù)據(jù)挖掘算法,具有可接受的計(jì)算效率,生成特殊的模式。 KDD是利用數(shù)據(jù)挖掘算法,按指定方式和閾值抽取有價(jià)值的知識(shí),包括數(shù)據(jù)挖掘前對(duì)數(shù)據(jù)的預(yù)處理、抽樣及轉(zhuǎn)換和數(shù)據(jù)挖掘后對(duì)知識(shí)的評(píng)價(jià)解

24、釋過(guò)程。 第37頁(yè)/共53頁(yè)3.2 數(shù)據(jù)挖掘的特點(diǎn) 所處理的數(shù)據(jù)規(guī)模十分巨大。尋找決策所需的信息。數(shù)據(jù)挖掘既要發(fā)現(xiàn)潛在規(guī)則,還要管理和維護(hù)規(guī)則。數(shù)據(jù)挖掘中規(guī)則的發(fā)現(xiàn)主要基于大樣本的統(tǒng)計(jì)規(guī)律,發(fā)現(xiàn)的規(guī)則不必適用于所有數(shù)據(jù),當(dāng)達(dá)到某一時(shí)便可認(rèn)為有此規(guī)律。第38頁(yè)/共53頁(yè)3.3 數(shù)據(jù)挖掘的分類 根據(jù)所開采的數(shù)據(jù)庫(kù)類型、發(fā)現(xiàn)的知識(shí)類型、采用的技術(shù)類型,數(shù)據(jù)挖掘有不同的分類方法。 (1) 按數(shù)據(jù)庫(kù)類型分類 從關(guān)系數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí); 從面向?qū)ο髷?shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí); 從多媒體數(shù)據(jù)庫(kù)、空間數(shù)據(jù)庫(kù)、歷史數(shù)據(jù)庫(kù)、Web數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí)。 第39頁(yè)/共53頁(yè)3.3 數(shù)據(jù)挖掘的分類(2) 按挖掘的知識(shí)類型分類 可分為

25、關(guān)聯(lián)規(guī)則、特征規(guī)則、分類規(guī)則、偏差規(guī)則、聚集規(guī)則、判別式規(guī)則及時(shí)序規(guī)則等。 可分為歸納知識(shí)、原始級(jí)知識(shí)、多層次知識(shí)。一個(gè)靈活的規(guī)則挖掘系統(tǒng)能夠在多個(gè)層次上發(fā)現(xiàn)知識(shí)。第40頁(yè)/共53頁(yè)3.3 數(shù)據(jù)挖掘的分類(3) 按利用的技術(shù)類型分類分為自發(fā)知識(shí)開采、數(shù)據(jù)驅(qū)動(dòng)開采、查詢驅(qū)動(dòng)開采和交互式數(shù)據(jù)開采。分為基于歸納的開采、基于模式的開采、基于統(tǒng)計(jì)和數(shù)學(xué)理論的開采及集成開采等。第41頁(yè)/共53頁(yè)3.3 數(shù)據(jù)挖掘的分類(4) 按挖掘的深度分類 在上,利用現(xiàn)有數(shù)據(jù)庫(kù)管理系統(tǒng)的查詢/檢索及報(bào)表功能,與多維分析、統(tǒng)計(jì)分析方法相結(jié)合,進(jìn)行 OLAP,從而得出可供決策參考的統(tǒng)計(jì)分析數(shù)據(jù)。 在上,從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)前所未知

26、的、隱含的知識(shí)。的出現(xiàn)早于數(shù)據(jù)挖掘,兩者都是從數(shù)據(jù)庫(kù)中抽取有用信息的方法,就決策支持的需要而言兩者可以起到相輔相承的作用。OLAP可以作為一種廣義的數(shù)據(jù)挖掘方法,它旨在簡(jiǎn)化和支持聯(lián)機(jī)分析,而數(shù)據(jù)挖掘的目的是使這一過(guò)程盡可能自動(dòng)化。 第42頁(yè)/共53頁(yè):(1)/。用數(shù)據(jù)庫(kù)的若干已知字段預(yù)測(cè)或驗(yàn)證其他未知字段值; (2)指找到描述數(shù)據(jù)的可理解模式。第43頁(yè)/共53頁(yè)3.5 數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)的聯(lián)系 是指識(shí)別出存在于數(shù)據(jù)庫(kù)中有效的、新穎的、具有潛在效用的、最終可理解的、模式的、非平凡過(guò)程。 的整個(gè)過(guò)程包括在指定的數(shù)據(jù)庫(kù)中用數(shù)據(jù)挖掘算法提取模型,以及圍繞數(shù)據(jù)挖掘進(jìn)行的預(yù)處理和結(jié)果表達(dá)等一系列的計(jì)算步驟

27、。盡管數(shù)據(jù)挖掘是整個(gè)過(guò)程的中心,但它通常只占整個(gè)過(guò)程15%25%的工作量。是從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí)的全部過(guò)程,而則是此全過(guò)程的一個(gè)特定的關(guān)鍵步驟 第44頁(yè)/共53頁(yè)3.5 數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)的聯(lián)系 KDD的步驟:1 熟悉應(yīng)用領(lǐng)域、背景知識(shí)及用戶的KDD任務(wù)性質(zhì);2 數(shù)據(jù)的選擇:確定與發(fā)現(xiàn)任務(wù)相關(guān)的數(shù)據(jù)集合;3 數(shù)據(jù)清理和預(yù)處理,包括除去錯(cuò)誤和冗余數(shù)據(jù)、處理丟失數(shù)據(jù)、更新數(shù)據(jù)和時(shí)序信息并將其準(zhǔn)備成數(shù)據(jù)挖掘工具所需的表達(dá)式;4 數(shù)據(jù)縮減和投影,尋找依賴于發(fā)現(xiàn)目標(biāo)的、表達(dá)數(shù)據(jù)的有用特征,通過(guò)降低維數(shù)和數(shù)據(jù)轉(zhuǎn)換以縮減數(shù)據(jù)規(guī)模;降低數(shù)據(jù)復(fù)雜性;5 確定KDD目標(biāo),選擇合適的算法如聚集、分類、線性回歸等;第4

28、5頁(yè)/共53頁(yè)3.5 數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)的聯(lián)系6 選擇數(shù)據(jù)挖掘算法,選擇適當(dāng)?shù)哪P秃蛥?shù);7 執(zhí)行數(shù)據(jù)挖掘過(guò)程,發(fā)現(xiàn)模式并表達(dá)成易理解的 形式如分類規(guī)則等;8 評(píng)價(jià)和解釋發(fā)現(xiàn)的模式,必要時(shí)反復(fù)執(zhí)行步驟 1到7;9 將模式提交給用戶或應(yīng)用到系統(tǒng)中。 KDD整個(gè)過(guò)程是一個(gè)以知識(shí)工作者為中心、人機(jī)交互的探索過(guò)程。第46頁(yè)/共53頁(yè)3.6 數(shù)據(jù)挖掘?qū)嵗祟愑屑s10萬(wàn)個(gè)基因。一個(gè)基因通常由成百個(gè)核苷按一定次序組織而成。核苷按不同的次序和序列可以形成不同的基因,幾乎是不計(jì)其數(shù)。 具有挑戰(zhàn)性的問(wèn)題是從中找出導(dǎo)致各種疾病的。 由于在數(shù)據(jù)挖掘中己經(jīng)有許多有意義的序列模式分析和相似檢索技術(shù),因此數(shù)據(jù)挖掘成為DNA分析中的強(qiáng)有力工具第47頁(yè)/

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論