數(shù)據(jù)倉庫1培訓資料課件_第1頁
數(shù)據(jù)倉庫1培訓資料課件_第2頁
數(shù)據(jù)倉庫1培訓資料課件_第3頁
數(shù)據(jù)倉庫1培訓資料課件_第4頁
數(shù)據(jù)倉庫1培訓資料課件_第5頁
已閱讀5頁,還剩38頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

數(shù)據(jù)倉庫第一頁,共四十三頁。數(shù)據(jù)倉庫技術概述1.1

數(shù)據(jù)庫到數(shù)據(jù)倉庫1.2數(shù)據(jù)倉庫的概念和特征1.3數(shù)據(jù)倉庫中的數(shù)據(jù)組織1.4數(shù)據(jù)倉庫體系結(jié)構(gòu)2第二頁,共四十三頁。傳統(tǒng)的數(shù)據(jù)環(huán)境:以數(shù)據(jù)庫為中心,數(shù)據(jù)資源組織方式單一。數(shù)據(jù)處理不斷有新需求,從事務處理,批處理到?jīng)Q策分析等,且不同類型的數(shù)據(jù)處理有不同的處理特點。人們認識到:當數(shù)據(jù)處理方式發(fā)生變化,而數(shù)據(jù)組織方式并沒有改變時,就會出現(xiàn)數(shù)據(jù)處理方式和數(shù)據(jù)環(huán)境不相適應,從而使得數(shù)據(jù)處理不能獲得理想的結(jié)果。結(jié)論:以單一的數(shù)據(jù)組織方式進行組織的數(shù)據(jù)庫,不能滿足數(shù)據(jù)處理多樣化的要求,數(shù)據(jù)倉庫技術應運而生。1.1從數(shù)據(jù)庫到數(shù)據(jù)倉庫3第三頁,共四十三頁。1.1從數(shù)據(jù)庫到數(shù)據(jù)倉庫數(shù)據(jù)處理具有多層次的特點,可分為兩大類:操作型處理On-LineTransactionProcessing聯(lián)機事務處理系統(tǒng)(OLTP)也稱為面向交易的處理系統(tǒng),其基本特征是用戶的原始數(shù)據(jù)可以立即傳送到計算中心進行處理,并在很短的時間內(nèi)給出處理結(jié)果。這樣做的最大優(yōu)點是可以即時地處理輸入的數(shù)據(jù),及時地回答。也稱為實時系統(tǒng)(RealtimeSystem)。衡量聯(lián)機事務處理系統(tǒng)的一個重要性能指標是系統(tǒng)性能,具體體現(xiàn)為實時響應時間(ResponseTime),即用戶在終端上送入數(shù)據(jù)之后,到計算機對這個請求給出答復所需要的時間。

OLTP數(shù)據(jù)庫旨在使事務應用程序僅寫入所需的數(shù)據(jù),以便盡快處理單個事務。4第四頁,共四十三頁。1.1從數(shù)據(jù)庫到數(shù)據(jù)倉庫分析型處理用于管理人員的決策分析,經(jīng)常要訪問大量的歷史數(shù)據(jù),而很少對數(shù)據(jù)庫進行寫操作,除非對數(shù)據(jù)庫進行更新或裝入時。兩種不同類型的數(shù)據(jù)處理存在巨大差異,從應用的對象到數(shù)據(jù)的結(jié)構(gòu)、內(nèi)容和用法都不相同。5第五頁,共四十三頁。1.1從數(shù)據(jù)庫到數(shù)據(jù)倉庫(1)事務處理和分析處理的性能特征不同事務處理環(huán)境:用戶的行為特點是數(shù)據(jù)的存取操作頻率高,而每次操作處理的時間短。因此系統(tǒng)可以允許多個用戶按分時方式使用系統(tǒng)資源,同時保持較短的響應時間。分析處理環(huán)境:用戶的行為模式與上面完全不同,一個分析處理程序可能要連續(xù)運行幾個小時,從而消耗大量系統(tǒng)資源。6第六頁,共四十三頁。1.1從數(shù)據(jù)庫到數(shù)據(jù)倉庫【例】在OLTP系統(tǒng)中,事務的吞吐量比率通常使用TPS或TPM來表示。TPS:TransactionsPerSecond,即服務器每秒處理的事務數(shù)。TPM:TransactionsPerMinute,tpm值在國內(nèi)外被廣泛用于衡量計算機系統(tǒng)的事務處理能力。在DSS中,吞吐量通常用每小時處理的查詢數(shù)QPH來表示。這些查詢數(shù)量龐大,在它完成前,占用絕大部分機器資源。一個OLTP系統(tǒng)即使很大,也不過300GB左右,而一個大型DSS的規(guī)??梢暂p易達到1TB。(1TB=1000GB)7第七頁,共四十三頁。1.1從數(shù)據(jù)庫到數(shù)據(jù)倉庫(2)數(shù)據(jù)集成問題事務處理:目的在于使業(yè)務處理自動化,一般只需要與本部門業(yè)務相關的當前數(shù)據(jù),而對整個企業(yè)范圍內(nèi)的集成應用考慮很少。分析處理:需要集成的數(shù)據(jù),不僅需要整個企業(yè)內(nèi)部各部門的相關數(shù)據(jù),還需要企業(yè)外部、競爭對手等的相關數(shù)據(jù)。8第八頁,共四十三頁。1.1從數(shù)據(jù)庫到數(shù)據(jù)倉庫當前絕大多數(shù)企業(yè)內(nèi)部數(shù)據(jù)的真正狀況是分散而非集成的,主要原因:事務處理應用的分散“蜘蛛網(wǎng)”問題數(shù)據(jù)不一致問題9第九頁,共四十三頁。10第十頁,共四十三頁。11第十一頁,共四十三頁。12第十二頁,共四十三頁。13第十三頁,共四十三頁。14第十四頁,共四十三頁。15第十五頁,共四十三頁。16第十六頁,共四十三頁。1.1從數(shù)據(jù)庫到數(shù)據(jù)倉庫(3)歷史數(shù)據(jù)問題事務處理:一般只需當前數(shù)據(jù)。數(shù)據(jù)庫中也只存儲短期數(shù)據(jù),并且不同數(shù)據(jù)保存期也不相同。即使有歷史數(shù)據(jù)保存,也不利用。分析處理:對決策者而言,歷史數(shù)據(jù)相當重要,許多分析方法必須以大量歷史數(shù)據(jù)為依托,沒有對歷史數(shù)據(jù)的詳細分析,很難把握企業(yè)的發(fā)展趨勢。17第十七頁,共四十三頁。1.1從數(shù)據(jù)庫到數(shù)據(jù)倉庫(4)數(shù)據(jù)的綜合問題事務處理積累了大量的細節(jié)數(shù)據(jù),一般DSS不對細節(jié)數(shù)據(jù)分析。一是細節(jié)數(shù)據(jù)量大,嚴重影響分析效率;二是太多的細節(jié)數(shù)據(jù)不利于分析人員將注意力集中在有用信息上。因此,分析處理前經(jīng)常要綜合,而事務處理系統(tǒng)不具備這種綜合能力。18第十八頁,共四十三頁。第一章數(shù)據(jù)倉庫技術概述1.1

數(shù)據(jù)庫到數(shù)據(jù)倉庫1.2數(shù)據(jù)倉庫的概念和特征1.3數(shù)據(jù)倉庫中的數(shù)據(jù)組織1.4數(shù)據(jù)倉庫體系結(jié)構(gòu)

19第十九頁,共四十三頁。1.2數(shù)據(jù)倉庫的概念和特征數(shù)據(jù)倉庫系統(tǒng)構(gòu)造方面的領頭設計師W.H.Inmen

對數(shù)據(jù)倉庫的定義為:數(shù)據(jù)倉庫是面向主題的、集成的、具有時間特征的、穩(wěn)定的數(shù)據(jù)集合,用于支持經(jīng)營管理中的決策制定過程。20第二十頁,共四十三頁。1.2數(shù)據(jù)倉庫的概念和特征從定義可看出:DW是明確為決策支持服務,而DB是為事務處理服務。數(shù)據(jù)倉庫的主要特征:數(shù)據(jù)倉庫的數(shù)據(jù)是面向主題的數(shù)據(jù)倉庫的數(shù)據(jù)是集成的數(shù)據(jù)倉庫的數(shù)據(jù)是不可更新的數(shù)據(jù)倉庫的數(shù)據(jù)是隨時間不斷變化的下面討論數(shù)據(jù)倉庫的關鍵特征:21第二十一頁,共四十三頁。1.2數(shù)據(jù)倉庫的概念和特征1.數(shù)據(jù)倉庫的數(shù)據(jù)是面向主題的

從邏輯意義上講,主題是企業(yè)中某一宏觀分析領域所涉及的分析對象。主題是一個抽象的概念,是在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、歸類并進行分析利用的抽象。所謂較高層次是相對面向應用的數(shù)據(jù)組織方式而言的,是指按照主題進行數(shù)據(jù)組織的方式具有更高的數(shù)據(jù)抽象級別。22第二十二頁,共四十三頁。1.2數(shù)據(jù)倉庫的概念和特征

-DW的數(shù)據(jù)是面向主題的面向應用的數(shù)據(jù)經(jīng)常會隨著各種經(jīng)營環(huán)境的改變而發(fā)生變化,面向主題的數(shù)據(jù)則因為比應用具有更高的抽象層次而比較穩(wěn)定。但數(shù)據(jù)的產(chǎn)生都是基于應用而產(chǎn)生,因此數(shù)據(jù)在進入數(shù)據(jù)倉庫之前,要經(jīng)過加工和集成,將原始數(shù)據(jù)結(jié)構(gòu)做一個從面向應用到面向主題的轉(zhuǎn)變。23第二十三頁,共四十三頁。1.2數(shù)據(jù)倉庫的概念和特征

-DW的數(shù)據(jù)是面向主題的【例】一家采用“會員制”經(jīng)營方式的商場,按業(yè)務建立起若干子系統(tǒng),并按業(yè)務處理要求建立各自數(shù)據(jù)庫模式:采購子系統(tǒng):訂單(訂單號,供應商號,總金額,日期)訂單細則(訂單號,商品號,類別,單價,數(shù)量)供應商(供應商號,供應商名,地址,電話)銷售子系統(tǒng):顧客(顧客號,姓名,性別,年齡,文化程度,地址,電話)銷售(員工號,顧客號,商品號,數(shù)量,單價,日期)24第二十四頁,共四十三頁。1.2數(shù)據(jù)倉庫的概念和特征

-DW的數(shù)據(jù)是面向主題的人事管理子系統(tǒng):員工(員工號,姓名,性別,年齡,文化程度,部門號)部門(部門號,部門名稱,部門主管,電話)庫存管理子系統(tǒng):領料單(領料單號,領料人,商品號,數(shù)量,日期)進料單(進料單號,訂單號,進料人,收料人,日期)庫存(商品號,庫房號,庫存量,日期)庫房(庫房號,倉庫管理員,地點,庫存商品描述)25第二十五頁,共四十三頁。1.2數(shù)據(jù)倉庫的概念和特征

-DW的數(shù)據(jù)是面向主題的傳統(tǒng)的面向應用進行數(shù)據(jù)組織方式的特征為:重點在“數(shù)據(jù)”和“處理”;通常要反映一個企業(yè)內(nèi)數(shù)據(jù)的動態(tài)特征;所生成的各項數(shù)據(jù)庫模式與企業(yè)實際的業(yè)務處理流程中所涉及的單據(jù)及文檔,有很好的對應關系;并沒有真正體現(xiàn)數(shù)據(jù)與數(shù)據(jù)處理的分離。26第二十六頁,共四十三頁。1.2數(shù)據(jù)倉庫的概念和特征

-DW的數(shù)據(jù)是面向主題的面向應用到面向主題的轉(zhuǎn)變:面向主題的數(shù)據(jù)組織方式應分為兩個步驟:抽取主題確定每個主題所包含的數(shù)據(jù)內(nèi)容27第二十七頁,共四十三頁。

抽取主題

應該是按照分析的要求來確定主題。1.在OLTP數(shù)據(jù)庫中進行數(shù)據(jù)組織時要考慮如何更好地記錄下每一筆采購業(yè)務的情況,我們用“訂單”、“訂單細則”以及“供應商”三個數(shù)據(jù)庫模式來描述一筆采購業(yè)務所涉及的數(shù)據(jù)內(nèi)容,這就是面向應用來進行數(shù)據(jù)組織的方式;

28第二十八頁,共四十三頁。2.在數(shù)據(jù)倉庫中,對于商品采購的分析活動主要是要了解各供應商的情況,顯然“供應商”是采購分析的對象。我們并不需要象“訂單”和“訂單細則”這樣的數(shù)據(jù)庫模式,因為它們包含的是純操作型的數(shù)據(jù);但是僅僅只用OLTP數(shù)據(jù)庫的“供應商”中的數(shù)據(jù)又是不夠的,因而要重新組織“供應商”這個主題。29第二十九頁,共四十三頁。

確定主題的數(shù)據(jù)內(nèi)容

概括各種分析對象,我們抽取了商場的供應商、商品、顧客三個主題。然后確定每個主題所應包含的數(shù)據(jù)內(nèi)容。以“商品”主題為例,應該包括兩個方面的內(nèi)容:第一,商品固有信息,如商品名稱,商品類別以及型號、顏色等描述信息;第二,商品的流動信息,如某商品采購信息、商品銷售信息及商品庫存信息等。30第三十頁,共四十三頁。1.2數(shù)據(jù)倉庫的概念和特征

-DW的數(shù)據(jù)是面向主題的商品:商品固有信息:商品號,商品名,類別,顏色等商品采購信息:商品號,供應商號,供應價,供應日期,供應量等商品銷售信息:商品號,顧客號,售價,銷售日期,銷售量等商品庫存信息:商品號,庫房號,庫存量,日期等31第三十一頁,共四十三頁。1.2數(shù)據(jù)倉庫的概念和特征

-DW的數(shù)據(jù)是面向主題的供應商:供應商固有信息:供應商號,供應商名,地址,電話等。供應商品信息:供應商號,供應價,供應日期,供應量等。顧客:顧客固有信息:顧客號,顧客名,性別,年齡,文化程度,住址,電話等。顧客購物信息:顧客號,商品號,售價,購買日期,購買量等。32第三十二頁,共四十三頁。比照商場原有數(shù)據(jù)庫的數(shù)據(jù)模式,我們可以看到:

首先,在從面向應用到面向主題的轉(zhuǎn)變過程中,丟棄了與分析活動關系不大的信息。

其次,在原有的數(shù)據(jù)庫模式中,關于商品的信息分散在各子系統(tǒng)中。33第三十三頁,共四十三頁。

面向主題的數(shù)據(jù)組織方式是根據(jù)分析要求將數(shù)據(jù)組織成一個完備的分析領域,即主題域。主題域應該具有:1.獨立性,它必須具有獨立內(nèi)涵。2.完備性,就是要求對任何一個對商品的分析處理要求,我們應該能在“商品”這一主題內(nèi)找到該分析處理所要求的內(nèi)容。不同主題之間也有重疊的內(nèi)容,但只是邏輯上的重疊,細節(jié)級上的重疊。供應商顧客商品34第三十四頁,共四十三頁。

主題是一個在較高層次上對數(shù)據(jù)的抽象,這使得面向主題的數(shù)據(jù)組織可以獨立于數(shù)據(jù)的處理邏輯,因而可以在這種數(shù)據(jù)環(huán)境上方便地開發(fā)新的分析型應用;同時這種獨立性也是建設企業(yè)全局數(shù)據(jù)庫所要求的,所以面向主題不僅是適用于分析型數(shù)據(jù)環(huán)境的數(shù)據(jù)組織方式,同時也是適用于建設企業(yè)全局數(shù)據(jù)庫的組織。35第三十五頁,共四十三頁。1.2數(shù)據(jù)倉庫的概念和特征

-DW的數(shù)據(jù)是面向主題的主題的實現(xiàn):一個主題可劃分成多個表,基于一個主題的所有表都有一個公共碼,作為主碼的一部分,將各表統(tǒng)一起來,體現(xiàn)它們是屬于一個主題。例如實現(xiàn)商品主題:36第三十六頁,共四十三頁。1.2數(shù)據(jù)倉庫的概念和特征

-DW的數(shù)據(jù)是面向主題的主題:商品公共碼鍵:商品號商品表(商品號,商品名,類型,顏色,…)采購表1(商品號,供應商號,供應日期,供應價,…)

采購表2(商品號,時間段,采購總量,…)

:采購表n(商品號,時間段,采購總量,…)描述的是商品的固有信息描述的是商品的采購細節(jié)信息時間段不等的采購綜合表37第三十七頁,共四十三頁。1.2數(shù)據(jù)倉庫的概念和特征

-DW的數(shù)據(jù)是面向主題的銷售表1(商品號,顧客號,銷售日期,售價,銷售量,…)銷售表2(商品號,時間段,銷售總量,…)

:銷售表n(商品號,時間段,銷售總量,…)庫存表1(商品號,庫房號,庫存量,日期,…)

庫存表2(商品號,庫房號,庫存量,月份,…)

:庫存表n(…,…)38第三十八頁,共四十三頁。1.2數(shù)據(jù)倉庫的概念和特征2.數(shù)據(jù)倉庫的數(shù)據(jù)是集成的通常,構(gòu)造數(shù)據(jù)倉庫是將多個異種數(shù)據(jù)源(如關系DB、一般文件和聯(lián)機事務處理記錄)集成在一起,使用數(shù)據(jù)清理和數(shù)據(jù)集成技術,確保命名約定、編碼結(jié)構(gòu)、屬性度量等的一致性。主要做兩個工作統(tǒng)一源數(shù)據(jù)中所有矛盾之處進行數(shù)據(jù)綜合和計算39第三十九頁,共四十三頁。1.2數(shù)據(jù)倉庫的概念和特征3.數(shù)據(jù)倉庫的數(shù)據(jù)是穩(wěn)定的

數(shù)據(jù)倉庫的數(shù)據(jù)反映的是一段相當長時間內(nèi)的歷史數(shù)據(jù),是不同時點的數(shù)據(jù)庫快照的集合,以及基于這些快照進行統(tǒng)計、綜合和重組的導出數(shù)據(jù),而不是聯(lián)機處理的數(shù)據(jù)。OLTP數(shù)據(jù)庫中的數(shù)據(jù)經(jīng)過抽取(Ex

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論