![數(shù)據(jù)倉庫技術(shù)簡介學習教案_第1頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/15/1ed2dc11-7349-4ab8-b3f9-55228823ddc3/1ed2dc11-7349-4ab8-b3f9-55228823ddc31.gif)
![數(shù)據(jù)倉庫技術(shù)簡介學習教案_第2頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/15/1ed2dc11-7349-4ab8-b3f9-55228823ddc3/1ed2dc11-7349-4ab8-b3f9-55228823ddc32.gif)
![數(shù)據(jù)倉庫技術(shù)簡介學習教案_第3頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/15/1ed2dc11-7349-4ab8-b3f9-55228823ddc3/1ed2dc11-7349-4ab8-b3f9-55228823ddc33.gif)
![數(shù)據(jù)倉庫技術(shù)簡介學習教案_第4頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/15/1ed2dc11-7349-4ab8-b3f9-55228823ddc3/1ed2dc11-7349-4ab8-b3f9-55228823ddc34.gif)
![數(shù)據(jù)倉庫技術(shù)簡介學習教案_第5頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/15/1ed2dc11-7349-4ab8-b3f9-55228823ddc3/1ed2dc11-7349-4ab8-b3f9-55228823ddc35.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、會計學1數(shù)據(jù)倉庫技術(shù)數(shù)據(jù)倉庫技術(shù)(jsh)簡介簡介第一頁,共72頁。第1頁/共72頁第二頁,共72頁。 數(shù)據(jù)倉庫是近年來興起的一種新的數(shù)據(jù)庫應用。在各大數(shù)據(jù)庫廠商紛紛宣布產(chǎn)品支持數(shù)據(jù)倉庫是近年來興起的一種新的數(shù)據(jù)庫應用。在各大數(shù)據(jù)庫廠商紛紛宣布產(chǎn)品支持數(shù)據(jù)倉庫并提出一整套用以建立和使用數(shù)據(jù)倉庫并提出一整套用以建立和使用(shyng)數(shù)據(jù)倉庫的產(chǎn)品時,業(yè)界掀起了數(shù)據(jù)倉庫數(shù)據(jù)倉庫的產(chǎn)品時,業(yè)界掀起了數(shù)據(jù)倉庫熱。比如熱。比如INFORMIXGONGSIDE公司的數(shù)據(jù)倉庫解決方案;公司的數(shù)據(jù)倉庫解決方案;ORACLE公司的數(shù)據(jù)倉庫解決公司的數(shù)據(jù)倉庫解決方案;方案;Sybase公司的交互式數(shù)據(jù)倉庫解決方
2、案等等。這同時也引起了學術(shù)界的極大興趣,公司的交互式數(shù)據(jù)倉庫解決方案等等。這同時也引起了學術(shù)界的極大興趣,國際上許多重要的學術(shù)會議,如超大型數(shù)據(jù)庫國際會議(國際上許多重要的學術(shù)會議,如超大型數(shù)據(jù)庫國際會議(VLDB),數(shù)據(jù)工程國際會議(),數(shù)據(jù)工程國際會議(Data Engineering)等,都出現(xiàn)了專門研究數(shù)據(jù)倉庫()等,都出現(xiàn)了專門研究數(shù)據(jù)倉庫(Data Warehousing,簡記為,簡記為DW)、聯(lián)機分析處理()、聯(lián)機分析處理(On-Line Analytical Processing,簡記為簡記為OLAP)、數(shù)據(jù)挖掘()、數(shù)據(jù)挖掘(Data Mining, 簡記為簡記為DM)的論文
3、。對我國許多企業(yè)而言,在建立或發(fā)展自己的信息系統(tǒng)常常)的論文。對我國許多企業(yè)而言,在建立或發(fā)展自己的信息系統(tǒng)常常困擾于這樣的問題:為什么要在原有的數(shù)據(jù)庫上建立數(shù)據(jù)倉庫?數(shù)據(jù)倉庫能否代替?zhèn)鹘y(tǒng)的困擾于這樣的問題:為什么要在原有的數(shù)據(jù)庫上建立數(shù)據(jù)倉庫?數(shù)據(jù)倉庫能否代替?zhèn)鹘y(tǒng)的數(shù)據(jù)庫?怎樣建立數(shù)據(jù)倉庫?等等。數(shù)據(jù)庫?怎樣建立數(shù)據(jù)倉庫?等等。第6章 數(shù)據(jù)倉庫技術(shù)(jsh)簡介 第2頁/共72頁第三頁,共72頁。第6章 數(shù)據(jù)倉庫技術(shù)(jsh)簡介 從數(shù)據(jù)庫到數(shù)據(jù)倉庫 傳統(tǒng)的數(shù)據(jù)庫技術(shù)是以單一的數(shù)據(jù)資源,即數(shù)據(jù)庫為中心,進行事務處理、批處理、決策分析等各種數(shù)據(jù)處理工作,主要的劃分為兩大類:操作型處理和分析型處
4、理(或信息型處理)。 操作型處理也叫事務處理,是指對數(shù)據(jù)庫聯(lián)機的日常操作,通常是對一個或一組紀錄(j l)的查詢和修改,主要為企業(yè)的特定應用服務的,注重響應時間,數(shù)據(jù)的安全性和完整性;分析型處理則用于管理人員的決策分析,經(jīng)常要訪問大量的歷史數(shù)據(jù)。而傳統(tǒng)數(shù)據(jù)庫系統(tǒng)優(yōu)于企業(yè)的日常事務處理工作,而難于實現(xiàn)對數(shù)據(jù)分析處理要求,已經(jīng)無法滿足數(shù)據(jù)處理多樣化的要求。操作型處理和分析型處理的分離成為必然。 第3頁/共72頁第四頁,共72頁。第6章 數(shù)據(jù)倉庫技術(shù)(jsh)簡介 1 從數(shù)據(jù)庫到數(shù)據(jù)倉庫從數(shù)據(jù)庫到數(shù)據(jù)倉庫 近年來,隨著數(shù)據(jù)庫技術(shù)的應用和發(fā)展近年來,隨著數(shù)據(jù)庫技術(shù)的應用和發(fā)展(fzhn),人們嘗試對,
5、人們嘗試對DB中的數(shù)據(jù)進行再加工,形成一個綜合的,面向分析的環(huán)境,以更好支持決策分析,從而形成了數(shù)據(jù)倉庫技術(shù)中的數(shù)據(jù)進行再加工,形成一個綜合的,面向分析的環(huán)境,以更好支持決策分析,從而形成了數(shù)據(jù)倉庫技術(shù)(Data Warehousing,簡稱,簡稱DW)以及數(shù)據(jù)倉庫系統(tǒng)。以及數(shù)據(jù)倉庫系統(tǒng)。數(shù)據(jù)倉庫系統(tǒng)包括:數(shù)據(jù)倉庫系統(tǒng)包括: 數(shù)據(jù)倉庫技術(shù);數(shù)據(jù)倉庫技術(shù); 聯(lián)機分析處理技術(shù)聯(lián)機分析處理技術(shù)(On-Line Analytical Processing,簡稱,簡稱OLAP); 數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘技術(shù)(Data Mining,簡稱,簡稱DM); 第4頁/共72頁第五頁,共72頁。1、什么是數(shù)據(jù)倉庫、
6、什么是數(shù)據(jù)倉庫 業(yè)界公認的數(shù)據(jù)倉庫概念創(chuàng)始人在建立數(shù)據(jù)倉庫一書中對數(shù)據(jù)倉庫的定義是:數(shù)據(jù)倉庫就是面向主題的、集成的、不可更新的業(yè)界公認的數(shù)據(jù)倉庫概念創(chuàng)始人在建立數(shù)據(jù)倉庫一書中對數(shù)據(jù)倉庫的定義是:數(shù)據(jù)倉庫就是面向主題的、集成的、不可更新的(穩(wěn)定性穩(wěn)定性)、隨時間不斷變化(不同時間)的數(shù)據(jù)集合,用以支持經(jīng)營管理中的決策制定過程。、隨時間不斷變化(不同時間)的數(shù)據(jù)集合,用以支持經(jīng)營管理中的決策制定過程。 數(shù)據(jù)倉庫是進行聯(lián)機分析處理和數(shù)據(jù)挖掘的基礎(chǔ),它從數(shù)據(jù)分析的角度將聯(lián)機事務中的數(shù)據(jù)經(jīng)過清理、轉(zhuǎn)換并加載到數(shù)據(jù)倉庫中,數(shù)據(jù)倉庫是進行聯(lián)機分析處理和數(shù)據(jù)挖掘的基礎(chǔ),它從數(shù)據(jù)分析的角度將聯(lián)機事務中的數(shù)據(jù)經(jīng)過
7、清理、轉(zhuǎn)換并加載到數(shù)據(jù)倉庫中, 這些數(shù)據(jù)在數(shù)據(jù)倉庫中被合理的組織和維護這些數(shù)據(jù)在數(shù)據(jù)倉庫中被合理的組織和維護(wih),以滿足聯(lián)機分析處理和數(shù)據(jù)挖掘的要求。,以滿足聯(lián)機分析處理和數(shù)據(jù)挖掘的要求。6.1 數(shù)據(jù)倉庫的概念(ginin)及特點第5頁/共72頁第六頁,共72頁。第6頁/共72頁第七頁,共72頁。第7頁/共72頁第八頁,共72頁。第8頁/共72頁第九頁,共72頁。第9頁/共72頁第十頁,共72頁。第10頁/共72頁第十一頁,共72頁。是日常操作性的任務是日常操作性的任務(rn wu)。數(shù)。數(shù)據(jù)倉庫是數(shù)據(jù)庫技術(shù)的一種新的應據(jù)倉庫是數(shù)據(jù)庫技術(shù)的一種新的應用,而且到目前為止,數(shù)據(jù)倉庫還用,而且
8、到目前為止,數(shù)據(jù)倉庫還是用關(guān)系數(shù)據(jù)庫管理系統(tǒng)來管理其是用關(guān)系數(shù)據(jù)庫管理系統(tǒng)來管理其中的數(shù)據(jù)。中的數(shù)據(jù)。第11頁/共72頁第十二頁,共72頁。第12頁/共72頁第十三頁,共72頁。第13頁/共72頁第十四頁,共72頁。第14頁/共72頁第十五頁,共72頁。第15頁/共72頁第十六頁,共72頁。對比內(nèi)容對比內(nèi)容數(shù)據(jù)庫數(shù)據(jù)庫數(shù)據(jù)倉庫數(shù)據(jù)倉庫數(shù)據(jù)內(nèi)容數(shù)據(jù)內(nèi)容當前值當前值歷史的、存檔的、歸納的、計算的歷史的、存檔的、歸納的、計算的數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)目標數(shù)據(jù)目標面向業(yè)務操作程序、重復處理面向業(yè)務操作程序、重復處理面向主題域、管理決策分析應用面向主題域、管理決策分析應用數(shù)據(jù)特性數(shù)據(jù)特性動態(tài)變化、按字段更新動態(tài)變化
9、、按字段更新靜態(tài)、不能直接更新、只定時添加靜態(tài)、不能直接更新、只定時添加數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)結(jié)構(gòu)高度結(jié)構(gòu)化、復雜、適合操作高度結(jié)構(gòu)化、復雜、適合操作計算計算簡單、適合分析簡單、適合分析使用頻率使用頻率高高中到低中到低數(shù)據(jù)訪問數(shù)據(jù)訪問量量每個事務只訪問少量記錄每個事務只訪問少量記錄有的事務可能要訪問大量記錄有的事務可能要訪問大量記錄對響應時對響應時間要求間要求以秒為單位計量以秒為單位計量以秒、分鐘,甚至小時為計量單位以秒、分鐘,甚至小時為計量單位第16頁/共72頁第十七頁,共72頁。原始數(shù)據(jù)原始數(shù)據(jù) / / 操作型數(shù)據(jù)操作型數(shù)據(jù)導出數(shù)據(jù)導出數(shù)據(jù) / DSS/ DSS數(shù)據(jù)數(shù)據(jù)面向應用,支持日常操作面向應用
10、,支持日常操作面向主題,支持管理需求面向主題,支持管理需求數(shù)據(jù)詳細,處理細節(jié)問題數(shù)據(jù)詳細,處理細節(jié)問題綜合性強,或經(jīng)過提煉綜合性強,或經(jīng)過提煉存取的瞬間是準確值存取的瞬間是準確值代表過去的數(shù)據(jù)代表過去的數(shù)據(jù)可更新可更新不可更新不可更新重復運行重復運行啟發(fā)式運行啟發(fā)式運行事務處理驅(qū)動事務處理驅(qū)動分析處理驅(qū)動分析處理驅(qū)動非冗余性非冗余性時常有冗余時常有冗余處理需求事先可知,系統(tǒng)可按預計的工作處理需求事先可知,系統(tǒng)可按預計的工作量進行優(yōu)化量進行優(yōu)化處理需求事先不知道處理需求事先不知道對性能要求高對性能要求高對性能要求寬松對性能要求寬松用戶不必理解數(shù)據(jù)庫,只是輸入數(shù)據(jù)即可用戶不必理解數(shù)據(jù)庫,只是輸入數(shù)
11、據(jù)即可用戶需要理解數(shù)據(jù)庫,以從數(shù)據(jù)中得出用戶需要理解數(shù)據(jù)庫,以從數(shù)據(jù)中得出有意義的結(jié)論有意義的結(jié)論第17頁/共72頁第十八頁,共72頁。數(shù)據(jù)倉庫中的幾個重要概念:數(shù)據(jù)倉庫中的幾個重要概念: 1、元數(shù)據(jù):數(shù)據(jù)倉庫中還有一部分重要數(shù)據(jù)是元數(shù)據(jù)、元數(shù)據(jù):數(shù)據(jù)倉庫中還有一部分重要數(shù)據(jù)是元數(shù)據(jù)(Metadata)。元數(shù)據(jù)是。元數(shù)據(jù)是“關(guān)于數(shù)據(jù)的數(shù)據(jù)關(guān)于數(shù)據(jù)的數(shù)據(jù)”,如傳統(tǒng)數(shù)據(jù)庫中的數(shù)據(jù)字典就是一種元數(shù)據(jù)。在數(shù)據(jù)倉庫環(huán)境中,主要有兩種元數(shù)據(jù):,如傳統(tǒng)數(shù)據(jù)庫中的數(shù)據(jù)字典就是一種元數(shù)據(jù)。在數(shù)據(jù)倉庫環(huán)境中,主要有兩種元數(shù)據(jù): 第一種是為了從操作型環(huán)境向數(shù)據(jù)倉庫環(huán)境轉(zhuǎn)換而建立的元數(shù)據(jù),它包含了所有源數(shù)據(jù)項名、屬性
12、及其在數(shù)據(jù)倉庫中的轉(zhuǎn)換;第一種是為了從操作型環(huán)境向數(shù)據(jù)倉庫環(huán)境轉(zhuǎn)換而建立的元數(shù)據(jù),它包含了所有源數(shù)據(jù)項名、屬性及其在數(shù)據(jù)倉庫中的轉(zhuǎn)換; 第二種元數(shù)據(jù)在數(shù)據(jù)倉庫中是用來與終端用戶的多維商業(yè)模型第二種元數(shù)據(jù)在數(shù)據(jù)倉庫中是用來與終端用戶的多維商業(yè)模型(mxng)/前端工具之間建立映射,此種元數(shù)據(jù)稱為前端工具之間建立映射,此種元數(shù)據(jù)稱為DSS元數(shù)據(jù),常用來開發(fā)更先進的決策支持工具。元數(shù)據(jù),常用來開發(fā)更先進的決策支持工具。第18頁/共72頁第十九頁,共72頁。數(shù)據(jù)倉庫中的幾個重要概念:數(shù)據(jù)倉庫中的幾個重要概念: 2、ETL(Extract Transformation Load抽取、轉(zhuǎn)換、裝載):用戶從
13、數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗、轉(zhuǎn)換抽取、轉(zhuǎn)換、裝載):用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗、轉(zhuǎn)換,最終按照預先定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。最終按照預先定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。 3、粒度:粒度是數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細化或綜合程度的級別。細化程度越高,粒度級就越小;相反,細化程度越低,粒度級就越大。、粒度:粒度是數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細化或綜合程度的級別。細化程度越高,粒度級就越??;相反,細化程度越低,粒度級就越大。 4、分割:是指將數(shù)據(jù)分散到各自的物理單元中,存在某種相關(guān)性的數(shù)據(jù)組織在一起,以便能分別獨立處理,以提高數(shù)據(jù)
14、處理的效率。分割的標準可以根據(jù)實際情況來定,通??蛇x擇、分割:是指將數(shù)據(jù)分散到各自的物理單元中,存在某種相關(guān)性的數(shù)據(jù)組織在一起,以便能分別獨立處理,以提高數(shù)據(jù)處理的效率。分割的標準可以根據(jù)實際情況來定,通常可選擇(xunz)按日期、地域或業(yè)務領(lǐng)域來進行分割。按日期、地域或業(yè)務領(lǐng)域來進行分割。第19頁/共72頁第二十頁,共72頁。數(shù)據(jù)倉庫內(nèi)容按照功能分為以下幾部分:數(shù)據(jù)倉庫內(nèi)容按照功能分為以下幾部分: 1、元數(shù)據(jù)、元數(shù)據(jù) 元元(Meta)數(shù)據(jù)是數(shù)據(jù)倉庫的核心,是關(guān)于數(shù)據(jù)的數(shù)據(jù),是關(guān)于數(shù)據(jù)和信息資源的描述信息。它通過對數(shù)據(jù)的內(nèi)容,質(zhì)量,條件和其他特征進行描述和說明,幫助人們有效地定位、評論、比較數(shù)
15、據(jù)是數(shù)據(jù)倉庫的核心,是關(guān)于數(shù)據(jù)的數(shù)據(jù),是關(guān)于數(shù)據(jù)和信息資源的描述信息。它通過對數(shù)據(jù)的內(nèi)容,質(zhì)量,條件和其他特征進行描述和說明,幫助人們有效地定位、評論、比較(bjio)、獲取和使用相關(guān)數(shù)據(jù)。、獲取和使用相關(guān)數(shù)據(jù)。 第20頁/共72頁第二十一頁,共72頁。數(shù)據(jù)倉庫內(nèi)容按照功能分為以下幾部分(b fen)。 2、源數(shù)據(jù) 源數(shù)據(jù)指分布在不同的應用系統(tǒng)中,存儲在不同的平臺和不同的數(shù)據(jù)庫中的大量的數(shù)據(jù)信息,是數(shù)據(jù)倉庫系統(tǒng)的基礎(chǔ),是整個系統(tǒng)的數(shù)據(jù)源泉。通常包括內(nèi)部信息和外部信息。內(nèi)部信息包括存放于數(shù)據(jù)庫系統(tǒng)中的各種業(yè)務處理數(shù)據(jù)和各類文檔數(shù)據(jù),外部信息包括各類法律法規(guī)、市場信息和社會信息等。第21頁/共72
16、頁第二十二頁,共72頁。 3、數(shù)據(jù)變換工具、數(shù)據(jù)變換工具 為了優(yōu)化數(shù)據(jù)倉庫的分析性能,源數(shù)據(jù)必須經(jīng)過變換以最適宜的方式進入數(shù)據(jù)倉庫。變換主要包括提煉、轉(zhuǎn)換。數(shù)據(jù)提煉主要指數(shù)據(jù)的抽取,并對抽取數(shù)據(jù)刪去不需要的運行信息,檢查數(shù)據(jù)的完整性和相容性等;數(shù)據(jù)轉(zhuǎn)換指統(tǒng)一數(shù)據(jù)編碼和數(shù)據(jù)結(jié)構(gòu)、給數(shù)據(jù)加上時間標志為了優(yōu)化數(shù)據(jù)倉庫的分析性能,源數(shù)據(jù)必須經(jīng)過變換以最適宜的方式進入數(shù)據(jù)倉庫。變換主要包括提煉、轉(zhuǎn)換。數(shù)據(jù)提煉主要指數(shù)據(jù)的抽取,并對抽取數(shù)據(jù)刪去不需要的運行信息,檢查數(shù)據(jù)的完整性和相容性等;數(shù)據(jù)轉(zhuǎn)換指統(tǒng)一數(shù)據(jù)編碼和數(shù)據(jù)結(jié)構(gòu)、給數(shù)據(jù)加上時間標志(biozh)、根據(jù)需要對數(shù)據(jù)集進行各種運算以及語義轉(zhuǎn)換等。數(shù)據(jù)變
17、換工具為數(shù)據(jù)庫和數(shù)據(jù)倉庫之間架起了一座橋梁,使源數(shù)據(jù)得到了增值和統(tǒng)一,最大限度地滿足了數(shù)據(jù)倉庫高層次決策分析的需要。、根據(jù)需要對數(shù)據(jù)集進行各種運算以及語義轉(zhuǎn)換等。數(shù)據(jù)變換工具為數(shù)據(jù)庫和數(shù)據(jù)倉庫之間架起了一座橋梁,使源數(shù)據(jù)得到了增值和統(tǒng)一,最大限度地滿足了數(shù)據(jù)倉庫高層次決策分析的需要。第22頁/共72頁第二十三頁,共72頁。4、數(shù)據(jù)倉庫源數(shù)據(jù)經(jīng)過變換進入數(shù)據(jù)倉庫。數(shù)據(jù)倉庫以多維方式來組織數(shù)據(jù)和顯示數(shù)據(jù)。屬性維和時間維是數(shù)據(jù)倉庫反映現(xiàn)實世界動態(tài)變化的基礎(chǔ),他們的數(shù)據(jù)組織方式是整個數(shù)據(jù)倉庫技術(shù)(jsh)的關(guān)鍵。第23頁/共72頁第二十四頁,共72頁。5、數(shù)據(jù)分析工具、數(shù)據(jù)分析工具 數(shù)據(jù)倉庫系統(tǒng)的目標
18、是提供決策支持,它不僅需要一般的統(tǒng)計分析工具,更需要功能強大的分析和挖掘工具,是數(shù)據(jù)倉庫系統(tǒng)的重要組成部分。分析工具主要實現(xiàn)對數(shù)據(jù)倉庫中的數(shù)據(jù)進行分析和綜合。挖掘工具負責從大量的數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)倉庫系統(tǒng)的目標是提供決策支持,它不僅需要一般的統(tǒng)計分析工具,更需要功能強大的分析和挖掘工具,是數(shù)據(jù)倉庫系統(tǒng)的重要組成部分。分析工具主要實現(xiàn)對數(shù)據(jù)倉庫中的數(shù)據(jù)進行分析和綜合。挖掘工具負責從大量的數(shù)據(jù)中發(fā)現(xiàn)(fxin)數(shù)據(jù)的關(guān)系,找到可能忽略的信息,預測趨勢和行為。數(shù)據(jù)的關(guān)系,找到可能忽略的信息,預測趨勢和行為。 數(shù)據(jù)倉庫既是一種結(jié)構(gòu)和富有哲理性的方法,也是一種技術(shù)。數(shù)據(jù)和信息從不同的數(shù)據(jù)源提取出來,然后把這
19、些數(shù)據(jù)轉(zhuǎn)換成公共的數(shù)據(jù)模型并且和倉庫中已有的數(shù)據(jù)集成在一起。當用戶向倉庫進行查詢時,需要的信息已經(jīng)準備好了,數(shù)據(jù)沖突、表達不一致等問題已經(jīng)得到了解決。這使得決策查詢更容易、更有效。數(shù)據(jù)倉庫既是一種結(jié)構(gòu)和富有哲理性的方法,也是一種技術(shù)。數(shù)據(jù)和信息從不同的數(shù)據(jù)源提取出來,然后把這些數(shù)據(jù)轉(zhuǎn)換成公共的數(shù)據(jù)模型并且和倉庫中已有的數(shù)據(jù)集成在一起。當用戶向倉庫進行查詢時,需要的信息已經(jīng)準備好了,數(shù)據(jù)沖突、表達不一致等問題已經(jīng)得到了解決。這使得決策查詢更容易、更有效。第24頁/共72頁第二十五頁,共72頁。第25頁/共72頁第二十六頁,共72頁。1、數(shù)據(jù)源層:是整個數(shù)據(jù)倉庫系統(tǒng)的基礎(chǔ),含數(shù)據(jù)源和數(shù)據(jù)獲取系統(tǒng)兩
20、各內(nèi)容。、數(shù)據(jù)源層:是整個數(shù)據(jù)倉庫系統(tǒng)的基礎(chǔ),含數(shù)據(jù)源和數(shù)據(jù)獲取系統(tǒng)兩各內(nèi)容。 、數(shù)據(jù)源:為數(shù)據(jù)倉庫提供源數(shù)據(jù)、數(shù)據(jù)源:為數(shù)據(jù)倉庫提供源數(shù)據(jù)(sourcedata),他是數(shù)據(jù)倉庫的基礎(chǔ),位于數(shù)據(jù)倉庫構(gòu)架的最底層,包括各個業(yè)務處理子系統(tǒng)的信息,如各種業(yè)務系統(tǒng)數(shù)據(jù)庫,聯(lián)機事物處理系統(tǒng),他是數(shù)據(jù)倉庫的基礎(chǔ),位于數(shù)據(jù)倉庫構(gòu)架的最底層,包括各個業(yè)務處理子系統(tǒng)的信息,如各種業(yè)務系統(tǒng)數(shù)據(jù)庫,聯(lián)機事物處理系統(tǒng)(OLTP)的操作型的操作型(operational)數(shù)據(jù),外部數(shù)據(jù)源等都可以作為數(shù)據(jù)倉庫的數(shù)據(jù)源。數(shù)據(jù),外部數(shù)據(jù)源等都可以作為數(shù)據(jù)倉庫的數(shù)據(jù)源。 、數(shù)據(jù)獲?。簲?shù)據(jù)倉庫如何高效管理數(shù)據(jù)是區(qū)別與面向操作數(shù)據(jù)
21、庫的主要標準。實用工具獲取數(shù)據(jù),完成按照主題管理數(shù)據(jù),聚合數(shù)據(jù)存放于多維數(shù)據(jù)庫中是數(shù)據(jù)倉庫的核心。、數(shù)據(jù)獲?。簲?shù)據(jù)倉庫如何高效管理數(shù)據(jù)是區(qū)別與面向操作數(shù)據(jù)庫的主要標準。實用工具獲取數(shù)據(jù),完成按照主題管理數(shù)據(jù),聚合數(shù)據(jù)存放于多維數(shù)據(jù)庫中是數(shù)據(jù)倉庫的核心。數(shù)據(jù)抽取數(shù)據(jù)抽取(extraction)、轉(zhuǎn)換、轉(zhuǎn)換(transformation)、裝載、裝載(load)和刷新和刷新(refresh)工具的功能是從數(shù)據(jù)源中抽取數(shù)據(jù)對數(shù)據(jù)進行檢驗和整理,并根據(jù)數(shù)據(jù)倉庫的設計要求,對數(shù)據(jù)進行重新工具的功能是從數(shù)據(jù)源中抽取數(shù)據(jù)對數(shù)據(jù)進行檢驗和整理,并根據(jù)數(shù)據(jù)倉庫的設計要求,對數(shù)據(jù)進行重新(chngxn)組織和加工
22、,裝載到數(shù)據(jù)倉庫的目標數(shù)據(jù)庫中,并且可以周期性地刷新數(shù)據(jù)倉庫以反映源的變化以及將數(shù)據(jù)倉庫中的數(shù)據(jù)作轉(zhuǎn)儲。組織和加工,裝載到數(shù)據(jù)倉庫的目標數(shù)據(jù)庫中,并且可以周期性地刷新數(shù)據(jù)倉庫以反映源的變化以及將數(shù)據(jù)倉庫中的數(shù)據(jù)作轉(zhuǎn)儲。第26頁/共72頁第二十七頁,共72頁。2、數(shù)據(jù)存儲與管理層:是整個數(shù)據(jù)倉庫系統(tǒng)的核心,含數(shù)據(jù)倉庫和數(shù)據(jù)監(jiān)控與管理系統(tǒng)兩個內(nèi)容。、數(shù)據(jù)存儲與管理層:是整個數(shù)據(jù)倉庫系統(tǒng)的核心,含數(shù)據(jù)倉庫和數(shù)據(jù)監(jiān)控與管理系統(tǒng)兩個內(nèi)容。 、數(shù)據(jù)倉庫或數(shù)據(jù)集市、數(shù)據(jù)倉庫或數(shù)據(jù)集市(datamarts),是數(shù)據(jù)倉庫系統(tǒng)的目標數(shù)據(jù)庫,是數(shù)據(jù)倉庫系統(tǒng)的目標數(shù)據(jù)庫(targetdatabase),存儲經(jīng)檢驗、整
23、理、加工和重新組織后的數(shù)據(jù)。它可以是關(guān)系數(shù)據(jù)庫,存儲經(jīng)檢驗、整理、加工和重新組織后的數(shù)據(jù)。它可以是關(guān)系數(shù)據(jù)庫(ROLAP)或多維數(shù)據(jù)或多維數(shù)據(jù)(MOLAP)。 元數(shù)據(jù)庫元數(shù)據(jù)庫(metadatarepository)用于存儲數(shù)據(jù)模型和元數(shù)據(jù),元數(shù)據(jù)描述了數(shù)據(jù)倉庫中的源數(shù)據(jù)和目標數(shù)據(jù)本身的信息,并定義了源數(shù)據(jù)到目標數(shù)據(jù)的轉(zhuǎn)換用于存儲數(shù)據(jù)模型和元數(shù)據(jù),元數(shù)據(jù)描述了數(shù)據(jù)倉庫中的源數(shù)據(jù)和目標數(shù)據(jù)本身的信息,并定義了源數(shù)據(jù)到目標數(shù)據(jù)的轉(zhuǎn)換(zhunhun)過程。過程。 、數(shù)據(jù)倉庫監(jiān)控、數(shù)據(jù)倉庫監(jiān)控(monitoring)和管理和管理(administration)系統(tǒng):對數(shù)據(jù)倉庫的運行提供監(jiān)控和管理手段
24、,包括系統(tǒng)資源的使用情況、用戶操作的合法性、安全管理、存儲管理等多方面的內(nèi)容。系統(tǒng):對數(shù)據(jù)倉庫的運行提供監(jiān)控和管理手段,包括系統(tǒng)資源的使用情況、用戶操作的合法性、安全管理、存儲管理等多方面的內(nèi)容。第27頁/共72頁第二十八頁,共72頁。3、OLAP服務器服務器 是功能強大的多用戶的數(shù)據(jù)操縱引擎,對分析是功能強大的多用戶的數(shù)據(jù)操縱引擎,對分析(fnx)需要的數(shù)據(jù)進行有效集成,按多維模型予以組織,以便進行多角度、多層次的分析需要的數(shù)據(jù)進行有效集成,按多維模型予以組織,以便進行多角度、多層次的分析(fnx),并發(fā)現(xiàn)趨勢。其具體實現(xiàn)可以分為:,并發(fā)現(xiàn)趨勢。其具體實現(xiàn)可以分為:ROLAP(關(guān)系型聯(lián)機分析
25、(關(guān)系型聯(lián)機分析(fnx)處理)、處理)、MOLAP(多維聯(lián)機分析(多維聯(lián)機分析(fnx)處理)和處理)和HOLAP(混合型聯(lián)機分析(混合型聯(lián)機分析(fnx)處理)。處理)。ROLAP基本數(shù)據(jù)和聚合數(shù)據(jù)均存放在基本數(shù)據(jù)和聚合數(shù)據(jù)均存放在RDBMS之中;之中;MOLAP基本數(shù)據(jù)和聚合數(shù)據(jù)均存放于多維數(shù)據(jù)庫中;基本數(shù)據(jù)和聚合數(shù)據(jù)均存放于多維數(shù)據(jù)庫中;HOLAP基本數(shù)據(jù)存放于基本數(shù)據(jù)存放于RDBMS之中,聚合數(shù)據(jù)存放于多維數(shù)據(jù)庫中。之中,聚合數(shù)據(jù)存放于多維數(shù)據(jù)庫中。第28頁/共72頁第二十九頁,共72頁。4、前端展示層、前端展示層 數(shù)據(jù)展示相當于數(shù)據(jù)倉庫的門面,主要包括各種報表工具、查詢工具、多維分
26、析工具、數(shù)據(jù)挖掘工具以及數(shù)據(jù)展示相當于數(shù)據(jù)倉庫的門面,主要包括各種報表工具、查詢工具、多維分析工具、數(shù)據(jù)挖掘工具以及(yj)各種基于數(shù)據(jù)倉庫或數(shù)據(jù)集市的應用開發(fā)工具。其中數(shù)據(jù)分析工具主要針對各種基于數(shù)據(jù)倉庫或數(shù)據(jù)集市的應用開發(fā)工具。其中數(shù)據(jù)分析工具主要針對OLAP服務器,報表工具、數(shù)據(jù)挖掘工具主要針對數(shù)據(jù)倉庫,近幾年來由于互聯(lián)網(wǎng)的發(fā)展,使得分析領(lǐng)域的工具和產(chǎn)品更加注重提供基于服務器,報表工具、數(shù)據(jù)挖掘工具主要針對數(shù)據(jù)倉庫,近幾年來由于互聯(lián)網(wǎng)的發(fā)展,使得分析領(lǐng)域的工具和產(chǎn)品更加注重提供基于Web前端聯(lián)機分析界面,而不僅僅是在網(wǎng)上發(fā)布數(shù)據(jù)前端聯(lián)機分析界面,而不僅僅是在網(wǎng)上發(fā)布數(shù)據(jù)第29頁/共72頁
27、第三十頁,共72頁。第30頁/共72頁第三十一頁,共72頁。第31頁/共72頁第三十二頁,共72頁。第32頁/共72頁第三十三頁,共72頁。 (4)數(shù)據(jù)集市提供了分布式數(shù)據(jù)數(shù)據(jù)集市提供了分布式數(shù)據(jù)倉庫的思想。倉庫的思想。第33頁/共72頁第三十四頁,共72頁。對比內(nèi)容對比內(nèi)容數(shù)據(jù)倉庫數(shù)據(jù)倉庫數(shù)據(jù)集市數(shù)據(jù)集市范圍范圍企業(yè)級企業(yè)級部門級部門級主題主題企業(yè)主題企業(yè)主題部門或特殊的分析主題部門或特殊的分析主題數(shù)據(jù)粒度數(shù)據(jù)粒度最細的粒度最細的粒度較粗的粒度較粗的粒度歷史數(shù)據(jù)歷史數(shù)據(jù)大量的歷史數(shù)據(jù)大量的歷史數(shù)據(jù)適度的歷史數(shù)據(jù)適度的歷史數(shù)據(jù)優(yōu)化優(yōu)化處理海量數(shù)據(jù)、數(shù)處理海量數(shù)據(jù)、數(shù)據(jù)探索據(jù)探索便于訪問和分析、
28、快速便于訪問和分析、快速查詢查詢第34頁/共72頁第三十五頁,共72頁。數(shù)據(jù)倉庫數(shù)據(jù)倉庫銷售銷售數(shù)據(jù)集市數(shù)據(jù)集市市場市場數(shù)據(jù)集市數(shù)據(jù)集市商店商店數(shù)據(jù)集市數(shù)據(jù)集市用戶用戶用戶用戶用戶用戶第35頁/共72頁第三十六頁,共72頁。1 數(shù)據(jù)的抽取技術(shù)數(shù)據(jù)的抽取技術(shù) 數(shù)據(jù)倉庫的數(shù)據(jù)來源復雜而多樣,如有網(wǎng)絡傳輸、文件傳遞、數(shù)據(jù)庫表、網(wǎng)頁等形式,由于數(shù)據(jù)最終要整合成一體,所以數(shù)據(jù)源接入時就需要對數(shù)據(jù)源進行規(guī)范化,并對其進行轉(zhuǎn)換、去重、一致化、標準化等處理。保證了進入數(shù)據(jù)倉庫的數(shù)據(jù)的質(zhì)量,從根本上對數(shù)據(jù)源進行把關(guān)和篩選。數(shù)據(jù)倉庫的數(shù)據(jù)來源復雜而多樣,如有網(wǎng)絡傳輸、文件傳遞、數(shù)據(jù)庫表、網(wǎng)頁等形式,由于數(shù)據(jù)最終要
29、整合成一體,所以數(shù)據(jù)源接入時就需要對數(shù)據(jù)源進行規(guī)范化,并對其進行轉(zhuǎn)換、去重、一致化、標準化等處理。保證了進入數(shù)據(jù)倉庫的數(shù)據(jù)的質(zhì)量,從根本上對數(shù)據(jù)源進行把關(guān)和篩選。 數(shù)據(jù)的抽取是數(shù)據(jù)進入倉庫的入口。由于數(shù)據(jù)倉庫是一個獨立的數(shù)據(jù)環(huán)境,它需要通過抽取過程將數(shù)據(jù)從聯(lián)機事務處理系統(tǒng)、外部數(shù)據(jù)源、脫機的數(shù)據(jù)存儲介質(zhì)中導入到數(shù)據(jù)倉庫。數(shù)據(jù)抽取在技術(shù)上主要涉及互連、復制、增量、轉(zhuǎn)換、調(diào)度和監(jiān)控等幾個方面。數(shù)據(jù)的抽取是數(shù)據(jù)進入倉庫的入口。由于數(shù)據(jù)倉庫是一個獨立的數(shù)據(jù)環(huán)境,它需要通過抽取過程將數(shù)據(jù)從聯(lián)機事務處理系統(tǒng)、外部數(shù)據(jù)源、脫機的數(shù)據(jù)存儲介質(zhì)中導入到數(shù)據(jù)倉庫。數(shù)據(jù)抽取在技術(shù)上主要涉及互連、復制、增量、轉(zhuǎn)換、調(diào)
30、度和監(jiān)控等幾個方面。 數(shù)據(jù)抽取可以定時進行,但多個抽取操作執(zhí)行的時間、相互的順序數(shù)據(jù)抽取可以定時進行,但多個抽取操作執(zhí)行的時間、相互的順序(shnx)、成敗對數(shù)據(jù)倉庫中信息的有效性則至關(guān)重要。、成敗對數(shù)據(jù)倉庫中信息的有效性則至關(guān)重要。第36頁/共72頁第三十七頁,共72頁。2 數(shù)據(jù)集成技術(shù)數(shù)據(jù)集成技術(shù)(jsh) 數(shù)據(jù)集成是整個數(shù)據(jù)倉庫系統(tǒng)的核心,它涉及到數(shù)據(jù)建模、數(shù)據(jù)集成是整個數(shù)據(jù)倉庫系統(tǒng)的核心,它涉及到數(shù)據(jù)建模、ETL、數(shù)據(jù)質(zhì)量管理、元數(shù)據(jù)管理、數(shù)據(jù)編碼與數(shù)據(jù)字典等技術(shù)、數(shù)據(jù)質(zhì)量管理、元數(shù)據(jù)管理、數(shù)據(jù)編碼與數(shù)據(jù)字典等技術(shù)(jsh)。 數(shù)據(jù)倉庫中通常存儲海量的歷史數(shù)據(jù),向用戶提供快速準確的數(shù)據(jù)
31、查詢與計算分析功能,所以需對數(shù)據(jù)存儲的結(jié)構(gòu)進行合理的建模,以支持高效的查詢分析;由于歷史數(shù)據(jù)往往橫跨多個年份,數(shù)據(jù)的統(tǒng)計口徑、含義、屬性等通常會發(fā)生變化,為了使數(shù)據(jù)可以在時間序列上進行比較分析,需要對數(shù)據(jù)結(jié)構(gòu)進行特殊設計。數(shù)據(jù)倉庫中通常存儲海量的歷史數(shù)據(jù),向用戶提供快速準確的數(shù)據(jù)查詢與計算分析功能,所以需對數(shù)據(jù)存儲的結(jié)構(gòu)進行合理的建模,以支持高效的查詢分析;由于歷史數(shù)據(jù)往往橫跨多個年份,數(shù)據(jù)的統(tǒng)計口徑、含義、屬性等通常會發(fā)生變化,為了使數(shù)據(jù)可以在時間序列上進行比較分析,需要對數(shù)據(jù)結(jié)構(gòu)進行特殊設計。第37頁/共72頁第三十八頁,共72頁。3 數(shù)據(jù)存儲與管理技術(shù)數(shù)據(jù)存儲與管理技術(shù) 數(shù)據(jù)倉庫的真正關(guān)
32、鍵是數(shù)據(jù)的存儲和管理。數(shù)據(jù)倉庫的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫的特性,同時也決定了其對外部數(shù)據(jù)表現(xiàn)形式。數(shù)據(jù)倉庫存儲的數(shù)據(jù)復雜且數(shù)量龐大,要滿足數(shù)據(jù)倉庫的真正關(guān)鍵是數(shù)據(jù)的存儲和管理。數(shù)據(jù)倉庫的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫的特性,同時也決定了其對外部數(shù)據(jù)表現(xiàn)形式。數(shù)據(jù)倉庫存儲的數(shù)據(jù)復雜且數(shù)量龐大,要滿足(mnz)的數(shù)據(jù)服務需求也是多樣的,因此數(shù)據(jù)倉庫的存儲與管理技術(shù)有以下幾個方面:的數(shù)據(jù)服務需求也是多樣的,因此數(shù)據(jù)倉庫的存儲與管理技術(shù)有以下幾個方面: 對大量數(shù)據(jù)的存儲。數(shù)據(jù)倉庫的數(shù)據(jù)量比傳統(tǒng)事務處理大得多,且隨時間的推移而累積。目前主要采用關(guān)系數(shù)據(jù)庫系統(tǒng),關(guān)系數(shù)據(jù)庫支持數(shù)據(jù)分割技術(shù)
33、,能夠?qū)⒁粋€大的數(shù)據(jù)庫表分散在多個物理存儲設備中,進一步增強了系統(tǒng)管理大數(shù)據(jù)量的擴展能力。對大量數(shù)據(jù)的存儲。數(shù)據(jù)倉庫的數(shù)據(jù)量比傳統(tǒng)事務處理大得多,且隨時間的推移而累積。目前主要采用關(guān)系數(shù)據(jù)庫系統(tǒng),關(guān)系數(shù)據(jù)庫支持數(shù)據(jù)分割技術(shù),能夠?qū)⒁粋€大的數(shù)據(jù)庫表分散在多個物理存儲設備中,進一步增強了系統(tǒng)管理大數(shù)據(jù)量的擴展能力。第38頁/共72頁第三十九頁,共72頁。對復雜查詢的處理。對復雜查詢的處理。 在傳統(tǒng)聯(lián)機事務處理應用中,用戶訪問系統(tǒng)的特點是短小而密集;而在數(shù)據(jù)倉庫系統(tǒng)中,用戶訪問系統(tǒng)的特點是龐大而稀疏,每一個查詢和統(tǒng)計都很復雜,但訪問的頻率并不是很高,系統(tǒng)需要在傳統(tǒng)聯(lián)機事務處理應用中,用戶訪問系統(tǒng)的特
34、點是短小而密集;而在數(shù)據(jù)倉庫系統(tǒng)中,用戶訪問系統(tǒng)的特點是龐大而稀疏,每一個查詢和統(tǒng)計都很復雜,但訪問的頻率并不是很高,系統(tǒng)需要(xyo)多處理機系統(tǒng)并行處理這一個復雜的查詢請求服務,因此,并行處理技術(shù)在數(shù)據(jù)倉庫中比以往更加重要。多處理機系統(tǒng)并行處理這一個復雜的查詢請求服務,因此,并行處理技術(shù)在數(shù)據(jù)倉庫中比以往更加重要。第39頁/共72頁第四十頁,共72頁。決策支持查詢的優(yōu)化。關(guān)系數(shù)據(jù)庫而言,針對決策支持的優(yōu)化涉及決策支持查詢的優(yōu)化。關(guān)系數(shù)據(jù)庫而言,針對決策支持的優(yōu)化涉及(shj)數(shù)據(jù)庫系統(tǒng)的索引機制、查詢優(yōu)化器、連接策略、數(shù)據(jù)排序和采樣等諸多部分。數(shù)據(jù)庫系統(tǒng)的索引機制、查詢優(yōu)化器、連接策略、數(shù)
35、據(jù)排序和采樣等諸多部分。第40頁/共72頁第四十一頁,共72頁。4 OLAP分析技術(shù)分析技術(shù) 聯(lián)機分析聯(lián)機分析(OLAP)是一種數(shù)據(jù)動態(tài)分析模型,它允許用戶通過一種多維結(jié)構(gòu)來訪問數(shù)據(jù)倉庫中經(jīng)過聚合和組織整理的數(shù)據(jù)。是一種數(shù)據(jù)動態(tài)分析模型,它允許用戶通過一種多維結(jié)構(gòu)來訪問數(shù)據(jù)倉庫中經(jīng)過聚合和組織整理的數(shù)據(jù)。OLAP最基本的概念其實只有三個:多維分析、數(shù)據(jù)鉆取、立方體運算。最基本的概念其實只有三個:多維分析、數(shù)據(jù)鉆取、立方體運算。 首先,動態(tài)的多維角度分析數(shù)據(jù)即多維分析。首先,動態(tài)的多維角度分析數(shù)據(jù)即多維分析。 OLAP將數(shù)據(jù)分為將數(shù)據(jù)分為(fn wi)兩種特征,一種為度量數(shù)據(jù),用來說明事實,比如
36、進出口金額、銷售量等;還有一種為維度數(shù)據(jù),用來說明事實的特征和屬性,比如進出口商品、產(chǎn)銷國等。前者為觀察的對象,后者為觀察的視角。兩種特征,一種為度量數(shù)據(jù),用來說明事實,比如進出口金額、銷售量等;還有一種為維度數(shù)據(jù),用來說明事實的特征和屬性,比如進出口商品、產(chǎn)銷國等。前者為觀察的對象,后者為觀察的視角。第41頁/共72頁第四十二頁,共72頁。4 OLAP分析分析(fnx)技術(shù)技術(shù) 其次,對數(shù)據(jù)進行鉆取,以獲得更精確的信息,實現(xiàn)從宏觀到微觀的分析其次,對數(shù)據(jù)進行鉆取,以獲得更精確的信息,實現(xiàn)從宏觀到微觀的分析(fnx)。比如海關(guān)進出口數(shù)據(jù)中產(chǎn)銷國分為大洲、國家兩個層次,洲包含國家,在分析。比如海
37、關(guān)進出口數(shù)據(jù)中產(chǎn)銷國分為大洲、國家兩個層次,洲包含國家,在分析(fnx)各大洲產(chǎn)品進出口情況時希望更進一步分析各大洲產(chǎn)品進出口情況時希望更進一步分析(fnx)各國家進出口情況,就需要鉆取操作,進一步細化的數(shù)據(jù)帶來更精確的認識。各國家進出口情況,就需要鉆取操作,進一步細化的數(shù)據(jù)帶來更精確的認識。 最后,創(chuàng)建數(shù)據(jù)立方體,可以想象將維度數(shù)據(jù)放在坐標軸上,度量數(shù)據(jù)位于幾個坐標決定的點,這樣就形成一個數(shù)據(jù)立方體。最后,創(chuàng)建數(shù)據(jù)立方體,可以想象將維度數(shù)據(jù)放在坐標軸上,度量數(shù)據(jù)位于幾個坐標決定的點,這樣就形成一個數(shù)據(jù)立方體。 OLAP通常包括的功能還有數(shù)據(jù)旋轉(zhuǎn)(變換觀察維組合順序)、數(shù)據(jù)切片(過濾無關(guān)數(shù)據(jù),
38、對指定數(shù)據(jù)進行重點觀察),以及對數(shù)據(jù)進行跨行列運算(如行列差額、同比環(huán)比等運算)。通常包括的功能還有數(shù)據(jù)旋轉(zhuǎn)(變換觀察維組合順序)、數(shù)據(jù)切片(過濾無關(guān)數(shù)據(jù),對指定數(shù)據(jù)進行重點觀察),以及對數(shù)據(jù)進行跨行列運算(如行列差額、同比環(huán)比等運算)。第42頁/共72頁第四十三頁,共72頁。維度表只與事實表關(guān)聯(lián),維度表彼此之間沒有任何聯(lián)維度表只與事實表關(guān)聯(lián),維度表彼此之間沒有任何聯(lián)系。每個維度表都有一個且只有一個列作為系。每個維度表都有一個且只有一個列作為(zuwi)(zuwi)主碼,該主碼連接到事實數(shù)據(jù)表中的一個主碼,該主碼連接到事實數(shù)據(jù)表中的一個列上。列上。第43頁/共72頁第四十四頁,共72頁。第44
39、頁/共72頁第四十五頁,共72頁。第45頁/共72頁第四十六頁,共72頁。第46頁/共72頁第四十七頁,共72頁。第47頁/共72頁第四十八頁,共72頁。第48頁/共72頁第四十九頁,共72頁。城市(chngsh)上升到地區(qū) 第49頁/共72頁第五十頁,共72頁。季度季度(jd)下降到月下降到月 第50頁/共72頁第五十一頁,共72頁。時間時間(shjin)1季度季度第51頁/共72頁第五十二頁,共72頁。(地區(qū)(地區(qū)“江蘇江蘇” or “” or “浙江浙江”)And And (時間(時間(shjin)(shjin)“第一季度第一季度” or “” or “第二季度第二季度”)And And
40、 (商品類型(商品類型“家電家電” or “” or “食品食品”) 第52頁/共72頁第五十三頁,共72頁。轉(zhuǎn)軸(zhunzhu)第53頁/共72頁第五十四頁,共72頁。5 前端展現(xiàn)前端展現(xiàn) 數(shù)據(jù)倉庫的數(shù)據(jù)以及分析結(jié)果需要用一種靈活的方式展現(xiàn)出來,其中包括報表、查詢、數(shù)據(jù)導出、多維分析、數(shù)據(jù)可視化、數(shù)據(jù)挖掘工具等方式,前三種都是較為常見的方式,多維分析在數(shù)據(jù)倉庫的數(shù)據(jù)以及分析結(jié)果需要用一種靈活的方式展現(xiàn)出來,其中包括報表、查詢、數(shù)據(jù)導出、多維分析、數(shù)據(jù)可視化、數(shù)據(jù)挖掘工具等方式,前三種都是較為常見的方式,多維分析在OLAP技術(shù)部分做了介紹。其中數(shù)據(jù)可視化就是將數(shù)據(jù)用顏色或圖形的方式展現(xiàn)出來,
41、使用戶更為直觀的觀察數(shù)據(jù)。數(shù)據(jù)挖掘強調(diào)的不僅僅是驗證人們對數(shù)據(jù)特性的假設,而且它更要主動地尋找并發(fā)現(xiàn)蘊藏在數(shù)據(jù)之中的規(guī)律,是人工智能中的一支,它主要使用數(shù)學工具和算法對海量數(shù)據(jù)進行挖掘和處理,發(fā)現(xiàn)隱藏在數(shù)據(jù)背后的事物之間的關(guān)系和發(fā)展規(guī)律,從而達到對未來技術(shù)部分做了介紹。其中數(shù)據(jù)可視化就是將數(shù)據(jù)用顏色或圖形的方式展現(xiàn)出來,使用戶更為直觀的觀察數(shù)據(jù)。數(shù)據(jù)挖掘強調(diào)的不僅僅是驗證人們對數(shù)據(jù)特性的假設,而且它更要主動地尋找并發(fā)現(xiàn)蘊藏在數(shù)據(jù)之中的規(guī)律,是人工智能中的一支,它主要使用數(shù)學工具和算法對海量數(shù)據(jù)進行挖掘和處理,發(fā)現(xiàn)隱藏在數(shù)據(jù)背后的事物之間的關(guān)系和發(fā)展規(guī)律,從而達到對未來(wili)趨勢進行預測、
42、指導人們進行決策的目的。趨勢進行預測、指導人們進行決策的目的。6.3 數(shù)數(shù)據(jù)倉庫倉庫相關(guān)關(guān)(xinggun)技術(shù)術(shù)第54頁/共72頁第五十五頁,共72頁。 數(shù)據(jù)倉庫理論中的一個核心理念就是:事務數(shù)據(jù)倉庫理論中的一個核心理念就是:事務(shw)型數(shù)據(jù)和決策支持型數(shù)據(jù)的處理性能不同,數(shù)據(jù)倉庫技術(shù)將決策支持型數(shù)據(jù)處理從事務型數(shù)據(jù)和決策支持型數(shù)據(jù)的處理性能不同,數(shù)據(jù)倉庫技術(shù)將決策支持型數(shù)據(jù)處理從事務(shw)型數(shù)據(jù)處理中分離出來,數(shù)據(jù)按照一定的周期,從事務型數(shù)據(jù)處理中分離出來,數(shù)據(jù)按照一定的周期,從事務(shw)型數(shù)據(jù)庫中導入決策支持型數(shù)據(jù)庫型數(shù)據(jù)庫中導入決策支持型數(shù)據(jù)庫既既“數(shù)據(jù)倉庫數(shù)據(jù)倉庫”。數(shù)據(jù)
43、倉庫是按。數(shù)據(jù)倉庫是按“主題主題”來組織數(shù)據(jù)的。來組織數(shù)據(jù)的。 第55頁/共72頁第五十六頁,共72頁。1 設計思路設計思路 第一,數(shù)據(jù)倉庫可能要用到很多類型的數(shù)據(jù)源,歷史數(shù)據(jù)可能很第一,數(shù)據(jù)倉庫可能要用到很多類型的數(shù)據(jù)源,歷史數(shù)據(jù)可能很“老老”,數(shù)據(jù)庫可能變得非常大。,數(shù)據(jù)庫可能變得非常大。 第二,數(shù)據(jù)倉庫相對于第二,數(shù)據(jù)倉庫相對于OLTP(聯(lián)機事務處理)來說,主要考慮業(yè)務驅(qū)動(聯(lián)機事務處理)來說,主要考慮業(yè)務驅(qū)動(business-driven)的而不是技術(shù)驅(qū)動的的而不是技術(shù)驅(qū)動的(IT-driven),需要和最終用戶不斷,需要和最終用戶不斷(bdun)地交流,建立的過程采用螺旋式方法,開
44、發(fā)過程按生存周期方式工作,反復不斷地交流,建立的過程采用螺旋式方法,開發(fā)過程按生存周期方式工作,反復不斷(bdun)發(fā)展豐富數(shù)據(jù)倉庫功能。發(fā)展豐富數(shù)據(jù)倉庫功能。 設計要點:設計要點: 數(shù)據(jù)倉庫中應該包含細節(jié)數(shù)據(jù)(清理過的)。數(shù)據(jù)倉庫中應該包含細節(jié)數(shù)據(jù)(清理過的)。 用戶能看到的任何數(shù)據(jù)都應該在元數(shù)據(jù)中有對應的描述。用戶能看到的任何數(shù)據(jù)都應該在元數(shù)據(jù)中有對應的描述。 考慮當數(shù)據(jù)量迅速增長到一臺服務器放不下時,數(shù)據(jù)倉庫中的數(shù)據(jù)在各個服務器中如何分配,按主題、地理位置還是時間?這些策略對整個數(shù)據(jù)倉庫的性能影響很大??紤]當數(shù)據(jù)量迅速增長到一臺服務器放不下時,數(shù)據(jù)倉庫中的數(shù)據(jù)在各個服務器中如何分配,按主
45、題、地理位置還是時間?這些策略對整個數(shù)據(jù)倉庫的性能影響很大。 當選用數(shù)據(jù)倉庫設計工具時應注意:工具支持的元數(shù)據(jù)格式是否與數(shù)據(jù)倉庫支持的元數(shù)據(jù)格式相容?不同工具的元數(shù)據(jù)格式之間能否自由轉(zhuǎn)換?當選用數(shù)據(jù)倉庫設計工具時應注意:工具支持的元數(shù)據(jù)格式是否與數(shù)據(jù)倉庫支持的元數(shù)據(jù)格式相容?不同工具的元數(shù)據(jù)格式之間能否自由轉(zhuǎn)換? 最終用戶對數(shù)據(jù)倉庫的使用方式對數(shù)據(jù)倉庫的性能影響很大,在設計數(shù)據(jù)倉庫模型時為了提高性能應將用戶對數(shù)據(jù)倉庫的使用方式考慮在內(nèi)。最終用戶對數(shù)據(jù)倉庫的使用方式對數(shù)據(jù)倉庫的性能影響很大,在設計數(shù)據(jù)倉庫模型時為了提高性能應將用戶對數(shù)據(jù)倉庫的使用方式考慮在內(nèi)。第56頁/共72頁第五十七頁,共72
46、頁。2 2 實現(xiàn)實現(xiàn)步步驟驟建立建立數(shù)數(shù)據(jù)據(jù)倉庫倉庫的步的步驟驟:收集和分析收集和分析業(yè)務業(yè)務需求。需求。建立建立數(shù)數(shù)據(jù)模型和據(jù)模型和數(shù)數(shù)據(jù)據(jù)倉庫倉庫的物理的物理設計設計。定定義數(shù)義數(shù)據(jù)源。據(jù)源。選擇數(shù)選擇數(shù)據(jù)據(jù)倉庫倉庫技技術(shù)術(shù)和平臺。和平臺。從從操作操作(cozu)(cozu)型型數(shù)數(shù)據(jù)據(jù)庫庫中抽取、中抽取、凈凈化、和化、和轉(zhuǎn)換數(shù)轉(zhuǎn)換數(shù)據(jù)到據(jù)到數(shù)數(shù)據(jù)據(jù)倉庫倉庫。選擇訪問選擇訪問和和報報表工具。表工具。選擇數(shù)選擇數(shù)據(jù)據(jù)庫連庫連接接軟軟件。件。選擇數(shù)選擇數(shù)據(jù)分析和據(jù)分析和數(shù)數(shù)據(jù)展示據(jù)展示軟軟件。件。第57頁/共72頁第五十八頁,共72頁。2 2 實現(xiàn)實現(xiàn)步步驟驟更新更新數(shù)數(shù)據(jù)據(jù)倉庫倉庫。其中:其
47、中:數(shù)數(shù)據(jù)抽取據(jù)抽取(chu q(chu q) )、清清理、理、轉(zhuǎn)換轉(zhuǎn)換和移植含以下功能:和移植含以下功能:數(shù)數(shù)據(jù)據(jù)轉(zhuǎn)換轉(zhuǎn)換工具要能工具要能從從各各種種不同的不同的數(shù)數(shù)據(jù)源中據(jù)源中讀讀取取數(shù)數(shù)據(jù)。據(jù)。支持平面文件、索引文件、和支持平面文件、索引文件、和legacyDBMSlegacyDBMS。能以不同能以不同類類型型數(shù)數(shù)據(jù)源據(jù)源為輸為輸入整合入整合數(shù)數(shù)據(jù)。據(jù)。具有具有規(guī)規(guī)范的范的數(shù)數(shù)據(jù)據(jù)訪問訪問接口。接口。最好具有最好具有從數(shù)從數(shù)據(jù)字典中據(jù)字典中讀讀取取數(shù)數(shù)據(jù)的能力。據(jù)的能力。工具生成的代工具生成的代碼碼必必須須是在是在開發(fā)環(huán)開發(fā)環(huán)境中可境中可維護維護的。的。能只抽取能只抽取(chu q(ch
48、u q) )滿滿足指定足指定條條件的件的數(shù)數(shù)據(jù),和源據(jù),和源數(shù)數(shù)據(jù)的指定部分。據(jù)的指定部分。能在抽取能在抽取(chu q(chu q) )中中進進行行數(shù)數(shù)據(jù)據(jù)類類型型轉(zhuǎn)換轉(zhuǎn)換和字符集和字符集轉(zhuǎn)換轉(zhuǎn)換。能在抽取能在抽取(chu q(chu q) )的的過過程中程中計計算生成衍生字段。算生成衍生字段。能能讓數(shù)讓數(shù)據(jù)據(jù)倉庫倉庫管理系管理系統(tǒng)統(tǒng)自自動調(diào)動調(diào)用以定期用以定期進進行行數(shù)數(shù)據(jù)抽取據(jù)抽取(chu q(chu q) )工作,或能工作,或能將結(jié)將結(jié)果生成平面文件。果生成平面文件。必必須對軟須對軟件供件供應應商的生命力和商的生命力和產(chǎn)產(chǎn)品支持能力品支持能力進進行仔行仔細評細評估。估。第58頁/共72
49、頁第五十九頁,共72頁。3 3 數(shù)數(shù)據(jù)據(jù)倉庫倉庫系系統(tǒng)開發(fā)統(tǒng)開發(fā)方法方法 傳統(tǒng)傳統(tǒng)的的軟軟件件開發(fā)開發(fā)方法是生命周期法方法是生命周期法 雖雖然生命周期法是一然生命周期法是一個經(jīng)個經(jīng)典的典的軟軟件件開發(fā)開發(fā)方法,但方法,但它對它對于于數(shù)數(shù)據(jù)據(jù)倉倉庫庫系系統(tǒng)統(tǒng),特,特別別是基于是基于數(shù)數(shù)據(jù)據(jù)倉庫倉庫的的決決策支持系策支持系統(tǒng)并統(tǒng)并不合適。原因不合適。原因如下:第一,如下:第一,數(shù)數(shù)據(jù)據(jù)倉庫倉庫的目的目標標是面向主是面向主題題,考,考慮慮到主到主題題世界的世界的不確定性,不確定性,數(shù)數(shù)據(jù)據(jù)倉庫設計師倉庫設計師必必須須能在能在沒沒有有詳細詳細定定義義系系統(tǒng)內(nèi)統(tǒng)內(nèi)每每個個畫畫面面(humin)(humin)和和數(shù)數(shù)據(jù)元素的情據(jù)元素的情況況下下進進行行數(shù)數(shù)據(jù)據(jù)倉庫倉庫的的開發(fā)開發(fā)。傳傳統(tǒng)統(tǒng)的生命周期法要求的生命周期法要求業(yè)務決業(yè)務決策者能策者能與數(shù)與數(shù)據(jù)據(jù)倉庫設計師倉庫設計師一起一起討論討論并并最最終終列出列出業(yè)務決業(yè)務決策者所需要的策者所需要的決決策信息,策信息,這這在在實際實際中中并并不可不可能。第二,能。第二,數(shù)數(shù)據(jù)據(jù)倉庫倉庫的的設計設計不必要不必要構(gòu)構(gòu)造一造一個個系系統(tǒng)來滿統(tǒng)來滿足用足用戶戶的的各各種
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 定金租賃合同
- 裝修合作協(xié)議合同
- 藥品經(jīng)營質(zhì)量保證協(xié)議書
- 本家具采購合同
- 小學六年級 分數(shù)加減乘除口算題
- 2025年重慶貨運從業(yè)資格考試題目及答案解析大全
- 2025年拉薩貨運從業(yè)資格證考試內(nèi)容
- 2024-2025學年高中化學專題3從礦物到基礎(chǔ)材料第三單元含硅礦物與信息材料學案含解析蘇教版必修1
- 2024-2025學年二年級數(shù)學上冊第四單元表內(nèi)除法一第7課時練習九1教案蘇教版
- 一年級上冊語文工作計劃
- 通用稅務自查情況說明報告(7篇)
- 現(xiàn)澆箱梁施工危險源辨識與分析
- 2023外貿(mào)業(yè)務協(xié)調(diào)期中試卷
- 新人教鄂教版(2017)五年級下冊科學全冊教學課件
- GB/T 16475-1996變形鋁及鋁合金狀態(tài)代號
- 無紙化會議系統(tǒng)解決方案
- 佛教空性與緣起課件
- 上海鐵路局勞動安全“八防”考試題庫(含答案)
- 《愿望的實現(xiàn)》教學設計
- 效率提升和品質(zhì)改善方案
- 義務教育學科作業(yè)設計與管理指南
評論
0/150
提交評論