數(shù)據(jù)倉庫之路FAQ_第1頁
數(shù)據(jù)倉庫之路FAQ_第2頁
數(shù)據(jù)倉庫之路FAQ_第3頁
數(shù)據(jù)倉庫之路FAQ_第4頁
數(shù)據(jù)倉庫之路FAQ_第5頁
已閱讀5頁,還剩20頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

dww

數(shù)據(jù)倉庫之路

FAQ

yiyiya

2002年10月

FAQ目錄

一、與數(shù)據(jù)倉庫有關(guān)的幾個概念................................................2

1.1目錄.....................................................................2

二、數(shù)據(jù)倉庫產(chǎn)生的原因......................................................6

三、數(shù)據(jù)倉庫體系結(jié)構(gòu)圖......................................................7

四、數(shù)據(jù)倉庫設(shè)計............................................................8

4.1數(shù)據(jù)倉庫的建模..........................................................8

4.2數(shù)據(jù)倉庫建模的十條戒律:................................................9

五、數(shù)據(jù)倉庫開發(fā)過程........................................................9

5.1數(shù)據(jù)模型的內(nèi)容..........................................................9

5.2數(shù)據(jù)模型轉(zhuǎn)變到數(shù)據(jù)倉庫.................................................10

5.3數(shù)據(jù)倉庫開發(fā)成功的關(guān)鍵.................................................10

六、數(shù)據(jù)倉庫的數(shù)據(jù)采集.....................................................11

6.1后臺處理................................................................12

6.2中間處理................................................................12

6.3前臺處理................................................................13

6.4數(shù)據(jù)倉庫的技術(shù)體系結(jié)構(gòu).................................................13

6.5數(shù)據(jù)的有效性檢查.......................................................15

6.6清除和轉(zhuǎn)換數(shù)據(jù).........................................................15

6.7簡單變換................................................................16

6.8清潔和刷洗..............................................................17

6.9集成....................................................................18

6.10聚集和概括.............................................................19

6.11移動數(shù)據(jù)................................................................20

七、如何建立數(shù)據(jù)倉庫.......................................................21

7.1數(shù)據(jù)倉庫設(shè)計...........................................................22

7.2數(shù)據(jù)抽取模塊...........................................................23

7.3數(shù)據(jù)維護模塊...........................................................23

與數(shù)據(jù)倉庫有關(guān)的幾個概念

目錄

□Datawarehouse

□Datamart

□OLAP

□ROLAP

□MOLAP

□ClientOLAP

□DSS

□ETL

□Adhocquery

□EIS

□BPR

□BI

□Datamining

□CRM

□MetaData

Datawarehouse

本世紀(jì)80年代中期,“數(shù)據(jù)倉庫之父"WilliamH.Inmon先生在其《建立數(shù)據(jù)倉庫》一書

中定義了數(shù)據(jù)倉庫的概念,隨后又給出了更為精確的定義:數(shù)據(jù)倉庫是在企業(yè)管理和決

策中面向主題的、集成的、與時間相關(guān)的、不可修改的數(shù)據(jù)集合。與其他數(shù)據(jù)庫應(yīng)用不

同的是,數(shù)據(jù)倉庫更像一種過程,對分布在企業(yè)內(nèi)部各處的業(yè)務(wù)數(shù)據(jù)的整合、加工和分

析的過程。而不是一種可以購買的產(chǎn)品。

Datamart

即數(shù)據(jù)集市,或者叫做“小數(shù)據(jù)倉庫”。如果說數(shù)據(jù)倉庫是建立在企業(yè)級的數(shù)據(jù)模型之

上的話。那么數(shù)據(jù)集市就是企業(yè)級數(shù)據(jù)倉庫的一個子集,他主要面向部門級業(yè)務(wù),并且

只面向某個特定的主題。數(shù)據(jù)集市可以在一定程度上緩解訪問數(shù)據(jù)倉庫的瓶頸。

OLAP

聯(lián)機分析處理(OLAP)的概念最早是由關(guān)系數(shù)據(jù)庫之父E.F.Codd于1993年提出的。當(dāng)

時,Codd認(rèn)為聯(lián)機事務(wù)處理(OLTP)已不能滿足終端用戶對數(shù)據(jù)庫查詢分析的需要,SQL

對大數(shù)據(jù)庫進行的簡單查詢也不能滿足用戶分析的需求。用戶的決策分析需要對關(guān)系數(shù)

據(jù)庫進行大量計算才能得到結(jié)果,而查詢的結(jié)果并不能滿足決策者提出的需求。因此

Codd提出了多維數(shù)據(jù)庫和多維分析的概念,即OLAPoCodd提出OLAP的12條準(zhǔn)則來

描述OLAP系統(tǒng):

準(zhǔn)則1OLAP模型必須提供多維概念視圖

準(zhǔn)則2透明性準(zhǔn)則

準(zhǔn)則3存取能力推測

準(zhǔn)則4穩(wěn)定的報表能力

準(zhǔn)則5客戶/服務(wù)器體系結(jié)構(gòu)

準(zhǔn)則6維的等同性準(zhǔn)則

準(zhǔn)則7動態(tài)的稀疏矩陣處理準(zhǔn)則

準(zhǔn)則8多用戶支持能力準(zhǔn)則

準(zhǔn)則9非受限的跨維操作

準(zhǔn)則10直觀的數(shù)據(jù)操縱

準(zhǔn)則11靈活的報表生成

準(zhǔn)則12不受限的維與聚集層次

ROLAP

基于Codd的12條準(zhǔn)則,各個軟件開發(fā)廠家見仁見智,其中一個流派,認(rèn)為可以沿用關(guān)

系型數(shù)據(jù)庫來存儲多維數(shù)據(jù),于是,基于稀疏矩陣表示方法的星型結(jié)構(gòu)(starschema)

就出現(xiàn)了。后來又演化出雪花結(jié)構(gòu)。為了與多維數(shù)據(jù)庫相區(qū)別,則把基于關(guān)系型數(shù)據(jù)庫

的OLAP稱為RelationalOLAP,簡稱ROLAP。代表產(chǎn)品有InformixMetacube>Microsoft

SQLServer

OLAPServices.

MOLAP

嚴(yán)格遵照Codd的定義,自行建立了多維數(shù)據(jù)庫,來存放聯(lián)機分析系統(tǒng)數(shù)據(jù)的Arbor

Software,開創(chuàng)了多維數(shù)據(jù)存儲的先河,后來的很多家公司紛紛采用多維數(shù)據(jù)存儲。被人

們稱為MuiltDimensionOLAP,簡稱MOLAP,代表產(chǎn)品有Hyperion(原Arborsoftware)

Essbase、ShowcaseSTRATEGYo

ClientOLAP

相對于ServerOLAP而言。部分分析工具廠家建議把部分?jǐn)?shù)據(jù)下載到本地,為用戶提供

本地的多維分析。代表產(chǎn)品有BrioDesigner,BusinessObject.

DSS

決策支持系統(tǒng)(DecisionSupportsystem),相當(dāng)于基于數(shù)據(jù)倉庫的應(yīng)用。決策支持就是

在收集所有有關(guān)數(shù)據(jù)和信息,經(jīng)過加工整理,來為企業(yè)決策管理層提供信息,為決策者

的決策提供依據(jù)。

ETL

數(shù)據(jù)抽取(Extract)、轉(zhuǎn)換(Transform清洗(Cleansing)、裝載(Load)的過程。構(gòu)

建數(shù)據(jù)倉庫的重要一環(huán),用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,最終按照預(yù)先

定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。

Adhocquery

即席查詢,數(shù)據(jù)庫應(yīng)用最普遍的一種查詢,利用數(shù)據(jù)倉庫技術(shù),可以讓用戶隨時可以面

對數(shù)據(jù)庫,獲取所希望的數(shù)據(jù)。

EIS

領(lǐng)導(dǎo)信息系統(tǒng)(ExecutiveInformationSystem),指為了滿足無法專注于計算機技術(shù)的領(lǐng)

導(dǎo)人員的信息查詢需求,而特意制定的以簡單的圖形界面訪問數(shù)據(jù)倉庫的一種應(yīng)用。

BPR

業(yè)務(wù)流程重整(BusinessProcessReengineering),指利用數(shù)據(jù)倉庫技術(shù),發(fā)現(xiàn)并糾正企業(yè)

業(yè)務(wù)流程中的弊端的一項工作。數(shù)據(jù)倉庫的重要作用之一。

BI

商業(yè)智能(BusinessIntelligence),指數(shù)據(jù)倉庫相關(guān)技術(shù)與應(yīng)用的通稱。指利用各種智能

技術(shù),來提升企業(yè)的商業(yè)競爭力。

Datamining

數(shù)據(jù)挖掘,DataMining是一種決策支持過程,它主要基于AI、機器學(xué)習(xí)、統(tǒng)計學(xué)等技術(shù),

高度自動化地分析企業(yè)原有的數(shù)據(jù),作出歸納性的推理,從中挖掘出潛在的模式,預(yù)測

客戶的行為,幫助企業(yè)的決策者調(diào)整市場策略,減少風(fēng)險,作出正確的決策

CRM

客戶關(guān)系管理(CustomerRelationshipmanagement),數(shù)據(jù)倉庫是以數(shù)據(jù)庫技術(shù)為基礎(chǔ)但

又與傳統(tǒng)的數(shù)據(jù)庫應(yīng)用有著本質(zhì)區(qū)別的新技術(shù),CRM就是基于數(shù)據(jù)倉庫技術(shù)的一種新

應(yīng)用。但是,從商業(yè)運作的角度來講,CRM其實應(yīng)該算是一個古老的“應(yīng)用”了。比如,

酒店對客人信息的管理,如果某個客人是某酒店的老主顧,那么該酒店很自然地會知道

這位客人的某些習(xí)慣和喜好,如是否喜歡靠路邊,是否吸煙,是否喜歡大床,喜歡什么

樣的早餐,等等。當(dāng)客人再次光臨時,不用客人自己提出來,酒店就會提供客人所喜歡

的房間和服務(wù)。這就是一種CRM.

MetaData

元數(shù)據(jù),關(guān)于數(shù)據(jù)倉庫的數(shù)據(jù),指在數(shù)據(jù)倉庫建設(shè)過程中所產(chǎn)生的有關(guān)數(shù)據(jù)源定義,

目標(biāo)定義,轉(zhuǎn)換規(guī)則等相關(guān)的關(guān)鍵數(shù)據(jù)。同時元數(shù)據(jù)還包含關(guān)于數(shù)據(jù)含義的商業(yè)信息,

所有這些信息都應(yīng)當(dāng)妥善保存,并很好地管理。為數(shù)據(jù)倉庫的發(fā)展和使用提供方便。

二、數(shù)據(jù)倉庫產(chǎn)生的原因

事務(wù)處理環(huán)境不適宜DSS應(yīng)用的原因主要有以下五條:

(1)事務(wù)處理和分析處理的性能特性不同。

在事務(wù)處理環(huán)境中,用戶的行為特點是數(shù)據(jù)的存取操作頻率高而每次操作處理的時間

短;在分析處理環(huán)境中,用戶的行為模式與此完全不同,某個DSS應(yīng)用程序可能需要連續(xù)

幾個小時,從而消耗大量的系統(tǒng)資源。將具有如此不同處理性能的兩種應(yīng)用放在同一個環(huán)境

中運行顯然是不適當(dāng)?shù)摹?/p>

(2)數(shù)據(jù)集成問題。

DSS需要集成的數(shù)據(jù)。全面而正確的數(shù)據(jù)是有效的分析和決策的首要前提,相關(guān)數(shù)據(jù)

收集得越完整,得到的結(jié)果就越可靠。當(dāng)前絕大多數(shù)企業(yè)內(nèi)數(shù)據(jù)的真正狀況是分散而非集成

的。造成這種分散的原因有多種,主要有事務(wù)處理應(yīng)用分散、“蜘蛛網(wǎng)”問題、數(shù)據(jù)不一致

問題、外部數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。

(3)數(shù)據(jù)動態(tài)集成問題。

靜態(tài)集成的最大缺點在于,如果在數(shù)據(jù)集成后數(shù)據(jù)源中數(shù)據(jù)發(fā)生了變化,這些變化將

不能反映給決策者,導(dǎo)致決策者使用的是過時的數(shù)據(jù)。集成數(shù)據(jù)必須以一定的周期(例如

24小時)進行刷新,我們稱其為動態(tài)集成。顯然,事務(wù)處理系統(tǒng)不具備動態(tài)集成的能力。

(4)歷史數(shù)據(jù)問題。

事務(wù)處理一般只需要當(dāng)前數(shù)據(jù),在數(shù)據(jù)庫中一般也是存儲短期數(shù)據(jù),切不同數(shù)據(jù)的保存

期限也不一樣,即使有一些歷史數(shù)據(jù)保存下來了,也被束之高閣,未得到充分利用。但對于

決策分析而言,歷史數(shù)據(jù)是相當(dāng)重要的,許多分析方法必須一大量的歷史數(shù)據(jù)為依托。沒有

歷史數(shù)據(jù)的詳細(xì)分析,是難以把握企業(yè)的發(fā)展趨勢的。DSS對數(shù)據(jù)在空間和時間的廣度上

都有了更高的要求,而事務(wù)處理環(huán)境難以滿足這些要求。

(5)數(shù)據(jù)的綜合問題。

在事務(wù)處理系統(tǒng)中積累了大量的細(xì)節(jié)數(shù)據(jù),一般而言,DSS并不對這些細(xì)節(jié)數(shù)據(jù)進行

分析。在分析前,往往需要對細(xì)節(jié)數(shù)據(jù)進行不同程度的綜合。而事務(wù)處理系統(tǒng)不具備這種綜

合能力,根據(jù)規(guī)范化理論,這種綜合還往往因為是一種數(shù)據(jù)冗余而加以限制。

要提高分析和決策的效率和有效性,分析型處理及其數(shù)據(jù)必須與操作型處理及其數(shù)據(jù)

相分離。必須把分析型數(shù)據(jù)從事務(wù)處理環(huán)境中提取出來,按照DSS處理的需要進行重新組

織,建立單獨的分析處理環(huán)境,數(shù)據(jù)倉庫正是為了構(gòu)建這種新的分析處理環(huán)境而出現(xiàn)的一種

數(shù)據(jù)存儲和組織技術(shù)。

三、數(shù)據(jù)倉庫體系結(jié)構(gòu)圖

一搏用戶

DWXA

?馀M戶

DWTM

■攙用戶

DWI1A

和分析

數(shù)據(jù)倉庫結(jié)構(gòu)的元件

BulkingUsing

DataWardwuseDesignDataMartDesign

d

o

lEnd-UserTools

o

o

OperationalData

WDataMartsl

DataTransformationsQ

。

O一

F■■A■■?£

1

M

DBSchemaTransformationSchedulingOLAP

MicrosoftRepositor

DataWarehouseManagement

DataFlow犯白.-Ivw

四、數(shù)據(jù)倉庫設(shè)計

4.1數(shù)據(jù)倉庫的建模

□數(shù)據(jù)模型

1)所有的實體都是平等關(guān)系。

2)僅僅從數(shù)據(jù)模型的角度來著手設(shè)計數(shù)據(jù)倉庫會產(chǎn)生一種“平面”效應(yīng)。

□星型連接

1)事實表:位于星型連接的中央,它是被大量載入數(shù)據(jù)的實體。

2)維表:周圍的其它實體。

3)在很多情況下:文本數(shù)據(jù)與數(shù)值數(shù)據(jù)是分離開的。

通過數(shù)據(jù)預(yù)連接和建立有選擇的數(shù)據(jù)冗余,設(shè)計者為訪問和分析過程大大簡化了數(shù)據(jù)。

星型連接應(yīng)用于設(shè)計數(shù)據(jù)倉庫中很大的實體,而數(shù)據(jù)模型則應(yīng)用于數(shù)據(jù)倉庫中較小的實體。

4.2數(shù)據(jù)倉庫建模的十條戒律:

1)必須回答緊迫的問題;

2)必須有正確的事實表;

3)將有正確的維表,描述必須按最終用戶的業(yè)務(wù)術(shù)語表達;

4)必須理解數(shù)據(jù)倉庫所影響的公司過程或影響數(shù)據(jù)倉庫的公司過程;

5)對于事實表,應(yīng)該有正確的“粒度”;

6)根據(jù)需要存儲正確長度的公司歷史數(shù)據(jù);

7)以一種對于公司有意義的方式來集成所有必要的數(shù)據(jù);

8)創(chuàng)建必要的總結(jié)表;

9)創(chuàng)建必要的索引;

10)能夠加載數(shù)據(jù)倉庫數(shù)據(jù)庫并使它以一種適宜的方式可用。

五、數(shù)據(jù)倉庫開發(fā)過程

□建立或獲得企業(yè)的數(shù)據(jù)模型;

□定義記錄系統(tǒng);

□設(shè)計數(shù)據(jù)倉庫并按主題領(lǐng)域進行組織;

□設(shè)計和建立操作型環(huán)境中的記錄系統(tǒng)和數(shù)據(jù)倉庫之間的接口,這些接口能保證

數(shù)據(jù)倉庫的載入工作能有序的進行;

□開始載入第一個主題領(lǐng)域,進入載入和反饋過程,數(shù)據(jù)倉庫中的數(shù)據(jù)在此過程

中也在不斷地改變。

5.1數(shù)據(jù)模型的內(nèi)容

□標(biāo)識主要主題領(lǐng)域。

□各個主要主題之間的各種關(guān)系。

□清晰地定義模型的邊界。

□把原始數(shù)據(jù)和導(dǎo)出數(shù)據(jù)分離。

□每個主題領(lǐng)域需要標(biāo)識

/鍵碼

/屬性

/屬性分組之間的關(guān)系

/多重出現(xiàn)的數(shù)據(jù)

/數(shù)據(jù)的類型

5.2數(shù)據(jù)模型轉(zhuǎn)變到數(shù)據(jù)倉庫

□如果原先沒有時間元素的話,時間元素必須加入到鍵碼結(jié)構(gòu)中

□必須清除所有的純操作型數(shù)據(jù)

□需要將參照完整性關(guān)系轉(zhuǎn)換成“人工關(guān)系”

□將經(jīng)常需要用到的到處數(shù)據(jù)假如到設(shè)計中

□對數(shù)據(jù)的結(jié)構(gòu)進行調(diào)整

/增加數(shù)據(jù)陣列

/增加數(shù)據(jù)冗余

/在合適的情況下進一步分離數(shù)據(jù)

/在合適的時候合并數(shù)據(jù)表

□需要做數(shù)據(jù)的穩(wěn)定性分析

5.3數(shù)據(jù)倉庫開發(fā)成功的關(guān)鍵

關(guān)鍵:是數(shù)據(jù)體系結(jié)構(gòu)設(shè)計者和DSS分析者之間的反饋循環(huán)。有幾點觀察結(jié)

果對數(shù)據(jù)倉庫環(huán)境的成功建立是至關(guān)重要的問題:

□DSS分析人員一定要嚴(yán)格遵循“給我我所要的東西,然后我能告訴你我真正

需要的東西”的工作模式;

□反饋循環(huán)的周期越短,越有可能成功;

□需要調(diào)整的數(shù)據(jù)量越大,反饋循環(huán)所需要的周期就越長

六、數(shù)據(jù)倉庫的數(shù)據(jù)采集

許多部件構(gòu)成了數(shù)據(jù)倉庫系統(tǒng)。這個系統(tǒng)從現(xiàn)有的操作系統(tǒng)開始,一部分為支持?jǐn)?shù)據(jù)倉

庫而設(shè)的后臺處理,以訪問和運用數(shù)據(jù)倉庫內(nèi)數(shù)據(jù)的用戶工具而結(jié)束。在中間是個分散過程,

它使數(shù)據(jù)以一種局部而不是集中的方式來支持用戶。至于其他系統(tǒng),則是覆蓋這些處理過程

技術(shù)的基礎(chǔ),如安全系統(tǒng),它不僅控制著在終端數(shù)據(jù)倉庫的輸入過程,還控制著用戶在數(shù)據(jù)

倉庫的前臺訪問能力。數(shù)據(jù)倉庫處理的部件如圖:

后置處理中間處理前置處理

安全處理

6.1后臺處理

數(shù)據(jù)倉庫系統(tǒng)的后臺處理利用了操作系統(tǒng)的數(shù)據(jù)存儲器,以進入數(shù)據(jù)倉庫內(nèi)占有活動區(qū)

域:這個處理包括以下幾個部分:

□數(shù)據(jù)處理為數(shù)據(jù)倉庫收集數(shù)據(jù)的過程是從當(dāng)前操作系統(tǒng)開始的。該數(shù)據(jù)倉庫的后

臺處理需要被分成可管理的幾個處理模塊。操作系統(tǒng)生成必須處理和輸入到數(shù)據(jù)倉

庫的事務(wù)。在數(shù)據(jù)倉庫系統(tǒng)的結(jié)構(gòu)內(nèi)必須有一種方法來截取和收集那些在操作系統(tǒng)

內(nèi)已改變的數(shù)據(jù),主要用于數(shù)據(jù)倉庫的輸入處理。

□數(shù)據(jù)采集在收集到操作數(shù)據(jù)存儲器內(nèi)的變化后,數(shù)據(jù)倉庫的后臺處理必須采集所

有同以前收集的事務(wù)相關(guān)的數(shù)據(jù)。數(shù)據(jù)采集過程通常僅僅獲取驅(qū)動數(shù)據(jù)采集過程的

關(guān)鍵信息。

數(shù)據(jù)制備成事務(wù)庫并用它來更新和供給數(shù)據(jù)倉庫系統(tǒng)。這個過程在整個數(shù)據(jù)倉庫系

統(tǒng)中是最復(fù)雜的,因為用戶正處理多種遺留數(shù)據(jù)源。這些數(shù)據(jù)源中的一些較為容易使用,而

大部分則不是這樣。

6.2中間處理

數(shù)據(jù)倉庫系統(tǒng)的中間處理利用了一個登臺區(qū)域來完成在數(shù)據(jù)倉庫中對用戶游泳的數(shù)據(jù)。

登臺區(qū)域有時被叫正式地指定為操作數(shù)據(jù)存儲器。

□數(shù)據(jù)清理在收集到所有從操作系統(tǒng)存儲器得來的相關(guān)信息后,數(shù)據(jù)必須在放入數(shù)

據(jù)倉庫之前進行清理,以獲得一個適當(dāng)?shù)慕y(tǒng)一的格式和定義。

□數(shù)據(jù)的放置和分發(fā)當(dāng)完成數(shù)據(jù)清理后,數(shù)據(jù)就必須放置到數(shù)據(jù)倉庫中。

□標(biāo)準(zhǔn)報表的編譯和索引在數(shù)據(jù)已放入數(shù)據(jù)倉庫數(shù)據(jù)存儲器之后,對包含于數(shù)據(jù)倉

庫系統(tǒng)內(nèi)的標(biāo)準(zhǔn)報表必須進行編譯和索引。在這個過程結(jié)束后,報表很像數(shù)據(jù)倉庫

內(nèi)的原始數(shù)據(jù),將讓用戶在線有用,不必用紙張的形式發(fā)送。

中間處理更新了數(shù)據(jù)倉庫中登臺區(qū)域的數(shù)據(jù),并使之成為可供最終客戶,也就是數(shù)據(jù)倉

庫系統(tǒng)的用戶使用的信息庫。

6.3前臺處理

前臺處理過程涉及到允許用戶對數(shù)據(jù)倉庫所包含的信息進行正確的訪問,及提供用戶工

具集所需的目錄和中間數(shù)據(jù)信息。大多數(shù)數(shù)據(jù)倉庫項目的目標(biāo)應(yīng)當(dāng)是驅(qū)使這一過程進入強大

的用戶領(lǐng)域,并脫離信息系統(tǒng)空間。然而,需要構(gòu)造幾個關(guān)鍵的應(yīng)用程序以用于經(jīng)驗不足的

數(shù)據(jù)倉庫用戶。該過程的任務(wù)包括用新的信息內(nèi)容來更新訪問數(shù)據(jù)倉庫的應(yīng)用程序,通過適

當(dāng)?shù)挠脩艄ぞ呓M內(nèi)的視圖或分類定義來提高訪問能力。

6.4數(shù)據(jù)倉庫的技術(shù)體系結(jié)構(gòu)

雖然普遍認(rèn)為數(shù)據(jù)倉庫系統(tǒng)能夠改善最終用戶查詢、報表生成和DSS能力,而且能幫

助組織投入公司數(shù)據(jù)以獲取市場競爭優(yōu)勢,但在數(shù)據(jù)倉庫系統(tǒng)構(gòu)成方面看法卻不盡相同。數(shù)

據(jù)倉庫的技術(shù)體系結(jié)構(gòu)如下圖:

源數(shù)據(jù)外部數(shù)據(jù)

外部元數(shù)據(jù)

□設(shè)計模塊:用于設(shè)計數(shù)據(jù)倉庫數(shù)據(jù)庫

□數(shù)據(jù)獲取模塊:用于從源文件和源數(shù)據(jù)庫中獲取數(shù)據(jù),并進行清潔、傳輸,將它加

到數(shù)據(jù)倉庫數(shù)據(jù)庫中

□管理模塊:用于管理數(shù)據(jù)倉庫的運行

□信息目錄模塊:用于為管理者和企業(yè)用戶提供有關(guān)存儲在數(shù)據(jù)倉庫數(shù)據(jù)庫中的數(shù)據(jù)

的內(nèi)容和含義信息

□數(shù)據(jù)訪問模塊:用于為企業(yè)的最終用戶提供訪問和分析數(shù)據(jù)倉庫數(shù)據(jù)的工具

□中間件模塊:用于最終用戶工具提供訪問數(shù)據(jù)倉庫數(shù)據(jù)庫的方法

□數(shù)據(jù)傳遞模塊:用于向其他倉庫和外部系統(tǒng)中分配數(shù)據(jù)倉庫數(shù)據(jù)

數(shù)據(jù)倉庫的三個重要組成部分,專家們一般把整個數(shù)據(jù)倉庫的建設(shè)按照其不同性質(zhì),把

它分為三個截然不同的部分,分別是:源數(shù)據(jù)、數(shù)據(jù)準(zhǔn)備、以及數(shù)據(jù)呈現(xiàn)?,F(xiàn)在講的最多的

OLAP分析和決策支持等,都是屬于數(shù)據(jù)呈現(xiàn)的部分,下面我們來講一講數(shù)據(jù)準(zhǔn)備階段的問

題。

6.5數(shù)據(jù)的有效性檢查

為避免數(shù)據(jù)冗余,要認(rèn)識到數(shù)據(jù)裝入數(shù)據(jù)倉庫之前,應(yīng)該對數(shù)據(jù)進行有效性檢查,這是

很重要的。如果沒有進行刃具的有效性檢查,就有可能破壞依賴于數(shù)據(jù)倉庫的商務(wù)分析的完

整性,幫助檢查數(shù)據(jù)的有效性的最好方法是源系統(tǒng)專家。源系統(tǒng)專家包括具有技術(shù)專業(yè)知識

和非技術(shù)知識的人士。

檢查數(shù)據(jù)倉庫中數(shù)據(jù)的有效性是一個非常耗時但必不可少的過程。建議該過程應(yīng)高度自

動化。SQLServer7中有許多內(nèi)置功能,可自動進行數(shù)據(jù)有效性檢查。

6.6清除和轉(zhuǎn)換數(shù)據(jù)

有效性檢查是決定是否符合給定標(biāo)準(zhǔn)的過程。標(biāo)準(zhǔn)是依賴于安裝的,為某個站點開發(fā)和

執(zhí)行的標(biāo)準(zhǔn)可能在其他地方毫無意義。如果數(shù)據(jù)不在給定的界限之內(nèi),它就成為我們稱作

scrubbing(清除)過程的對象。清除數(shù)據(jù)包括對那些在給定范圍之外的數(shù)據(jù)采取糾正措施。

數(shù)據(jù)倉庫中的數(shù)據(jù)來自于多種業(yè)務(wù)數(shù)據(jù)源,這些數(shù)據(jù)源可能是在不同的硬件平臺上,使

用不同的操作系統(tǒng),因而數(shù)據(jù)以不同的格式存在不同的數(shù)據(jù)庫中。如何向數(shù)據(jù)倉庫中加載這

些數(shù)量大、種類多的數(shù)據(jù),已成為建立數(shù)據(jù)倉庫所面臨的一個關(guān)鍵問題。

在數(shù)據(jù)遷移的過程中,通常需要將操作數(shù)據(jù)轉(zhuǎn)換成另一種格式以更加適用于數(shù)據(jù)倉庫設(shè)

計。在太多數(shù)情況下,轉(zhuǎn)換是將數(shù)據(jù)匯總,以使它更有意義。

在轉(zhuǎn)換結(jié)構(gòu)中,確保能找出一種最好的方法保證數(shù)據(jù)從傳統(tǒng)的數(shù)據(jù)存儲器到數(shù)據(jù)倉庫的

同步。同步結(jié)構(gòu)應(yīng)當(dāng)把重點放在轉(zhuǎn)換語言的標(biāo)準(zhǔn)化、數(shù)據(jù)移動平臺、通信策略和支持策略方

面。數(shù)據(jù)倉庫與操作數(shù)據(jù)存儲器之間的同步過程能夠采取不同的結(jié)構(gòu)。

除尋找自動化轉(zhuǎn)換操作的工具之外,還應(yīng)估計數(shù)據(jù)轉(zhuǎn)換的復(fù)雜性。大多數(shù)傳統(tǒng)的數(shù)據(jù)存

儲方法缺乏標(biāo)準(zhǔn),常常有些不規(guī)則的東西讓開發(fā)員摸不著頭腦。工具正在不斷改進以有助于

轉(zhuǎn)換過程的自動化,包括復(fù)雜問題,如掩匿的數(shù)據(jù)、傳統(tǒng)標(biāo)準(zhǔn)的缺乏及不統(tǒng)一的關(guān)鍵數(shù)據(jù)。

提取處理是數(shù)據(jù)倉庫成功的關(guān)鍵。在提取過程中,數(shù)據(jù)會被格式化,并分發(fā)給需要從操

作環(huán)境中共享數(shù)據(jù)的資源。元數(shù)據(jù)存儲的工作是定義和解釋數(shù)據(jù)資源和數(shù)據(jù)標(biāo)準(zhǔn)。因此,在

操作數(shù)據(jù)上執(zhí)行的轉(zhuǎn)換過程應(yīng)該用元數(shù)據(jù)存儲中定義的標(biāo)準(zhǔn)數(shù)據(jù)格式放置數(shù)據(jù)。

我們可以定義數(shù)據(jù)變換的幾個基本類型,每一類都有自己的特點和表現(xiàn)形式:

□簡單變換

單變換是所有數(shù)據(jù)變換的基本構(gòu)成單元。這一類中包括的數(shù)據(jù)處理一次只針對一個字

段,而不是考慮相關(guān)字段的值。

O清潔和刷洗

目的是為了保證前后一致地格式化和使用某一字段或相關(guān)的字段群。

□集成

集成是將業(yè)務(wù)數(shù)據(jù)從一個或幾個來源中取出,并逐字段地將數(shù)據(jù)影射到數(shù)據(jù)倉庫的新數(shù)

據(jù)結(jié)構(gòu)上。

□聚集和概括

聚集和概括是把業(yè)務(wù)環(huán)境中找到的零星數(shù)據(jù)壓縮成數(shù)據(jù)倉庫環(huán)境中的較少數(shù)據(jù)塊,有時

進行聚集中的細(xì)節(jié)數(shù)據(jù)是為了避免倉庫存入業(yè)務(wù)環(huán)境中的那樣具體的數(shù)據(jù),有時則是為了建

立包括倉庫的聚集副本或概括副本的數(shù)據(jù)商場。

6.7簡單變換

顧名思義,它是數(shù)據(jù)變換中最簡單的形式,這些變換一次改變一個數(shù)據(jù)屬性而不考慮該

屬性的背景或與它相關(guān)的其他信息。

□數(shù)據(jù)類型轉(zhuǎn)換

最常見的簡單變換是轉(zhuǎn)換一個數(shù)據(jù)元的類型。當(dāng)現(xiàn)有應(yīng)用程序存儲某個類型的數(shù)據(jù)只在

該應(yīng)用程序的背景下有意義,在企業(yè)水平上卻沒有意義時,就常常要求進行這類變換。

這類轉(zhuǎn)換可以通過編碼程序中的簡單程序邏輯完成,或者運用數(shù)據(jù)倉庫數(shù)據(jù)變換工具完

成。

□日期/時間格式的轉(zhuǎn)換

□因為大多數(shù)業(yè)務(wù)環(huán)境都有許多不同的日期和時間類型,所以幾乎每個數(shù)據(jù)倉庫的實

現(xiàn)都必須將日期和時間變換成標(biāo)準(zhǔn)的倉庫格式。這可以通過手工程序編碼來完成。

它能把一個日期或時間字段拆成兒個子部分,然后再將它們拼成想要的字段。然而

市場上的大多數(shù)數(shù)據(jù)變換工具只提供了日期和時間格式之間迅速進行簡單轉(zhuǎn)換的

設(shè)施,而手工編碼上下的功夫要少得多。

□字段解碼

簡單地說,數(shù)據(jù)一般不應(yīng)該以編碼的格式放在數(shù)據(jù)倉庫中。我們在業(yè)務(wù)數(shù)據(jù)庫中建立代

碼是為了節(jié)省數(shù)據(jù)庫存儲空間。雖然人不理解這些代碼,但這并不是大問題,因為我們與那

些代碼的交互作用是由應(yīng)用程序管理的。這些程序在必要的時候會成為我們破解那些值的代

碼。

在數(shù)據(jù)倉庫環(huán)境中,情況就大不一樣了。因為擁護可能來自公司的任何部門,所以倉庫

的所有用戶不可能都有足夠的背景知識和培訓(xùn)I,使他們能夠理解在業(yè)務(wù)數(shù)據(jù)庫中使用的編碼

值。

因此,業(yè)務(wù)系統(tǒng)和外部數(shù)據(jù)中的編碼值在存入數(shù)據(jù)倉庫之前,應(yīng)該轉(zhuǎn)換為經(jīng)過解碼的、

易于理解的相應(yīng)值。一方面,我們想把編碼值充分?jǐn)U展,使它們?yōu)樽畲蠖鄶?shù)的用戶理解;另

一方面,把一個值擴展得太多要占用額外的存儲空間,而且把該值當(dāng)作查詢中的檢索標(biāo)準(zhǔn)也

很困難。由于顧客情況代碼不被普遍理解,所以應(yīng)該擴展為一個有意義的、易于理解的值,

以便倉庫用戶能夠認(rèn)出它。用到的準(zhǔn)則是:必須長到足以被大多數(shù)倉庫用戶理解。

從技術(shù)角度看,字段解碼是個非常易于實現(xiàn)的過程,它可以很容易地結(jié)合到變換程序中

去,也可以在數(shù)據(jù)轉(zhuǎn)換工具中輕松地完成,然而,確定應(yīng)該進行多少解碼工作是很難的。但

一個好的解決方法往往提供了足夠的解碼,這樣即使普遍用戶也可以理解字段值的含義,并

且可以用全面理解數(shù)據(jù)元值及其用法的元數(shù)據(jù)加深他的理解。

6.8清潔和刷洗

清潔和刷洗是兩個可互換的術(shù)語,指的是比簡單變換更復(fù)雜的一種數(shù)據(jù)變換。在這種變

換中,要檢查的是字段或字段組的實際內(nèi)容而不僅是存儲格式。一種清潔是檢查數(shù)據(jù)字段中

的有效值。這可以通過范圍檢驗、枚舉清單和相關(guān)檢驗來完成。

□有效值

范圍檢驗是數(shù)據(jù)刷洗的最簡單形式,它是指檢驗一個字段中的數(shù)據(jù)以保證它落在預(yù)期范

圍之內(nèi),通常是數(shù)字范圍或日期范圍。

枚舉清單也相對容易實現(xiàn)。這種方法是對照數(shù)據(jù)字段可接受值的清單檢驗該字段的值。

相關(guān)檢驗稍微復(fù)雜一些,因為它要求將一個字段中的值與另一個字段中的值進行對比。

當(dāng)然,數(shù)據(jù)清潔規(guī)則往往是這些不同方法的結(jié)合。

□復(fù)雜的重新格式化

數(shù)據(jù)刷洗的另一主要類型是重新格式化某些類型的數(shù)據(jù),這種方法適用于可以用許多不

同方式存儲在不同數(shù)據(jù)來源中的信息,必須在數(shù)據(jù)倉庫中把這類信息轉(zhuǎn)換成一種統(tǒng)一的表示

方式。最需要格式化的信息之一是地址信息,由于沒有一種獲取地址的標(biāo)準(zhǔn)方式,所以同一

個地址可以用許多不同方式表達出來.這就要求將地址解析成幾個組成部分,然后將這些組

成部分進行轉(zhuǎn)換并重新排列成一個同意的格式。

6.9集成

要把從全然不同的數(shù)據(jù)源中得到的業(yè)務(wù)數(shù)據(jù)結(jié)合在一起,真正的困難在于將它們集成為

一個緊密結(jié)合的數(shù)據(jù)模型。這是因為數(shù)據(jù)必須從多個數(shù)據(jù)源中提取出來,并結(jié)合成為一個新

的實體。這些數(shù)據(jù)來源往往遵守的不是同一套業(yè)務(wù)規(guī)則,在生成新數(shù)據(jù)時,必須考慮到這一

差異。

□字段水平的簡單影射

字段水平的簡單映射在必須執(zhí)行的數(shù)據(jù)變換總量中站去了大部分。這種映射的定義是指

數(shù)據(jù)中的一個字段被轉(zhuǎn)移到目標(biāo)數(shù)據(jù)字段中的過程。在這過程中,這個字段可以利用前面討

論過的任何一種簡單變換進行變換,它可以被刷洗或重新格式化。

□復(fù)雜集成

在一般的數(shù)據(jù)倉庫中,數(shù)據(jù)轉(zhuǎn)移和集成中的10%~20%要比從源字段到目標(biāo)字段的簡單

移動復(fù)雜一些。為了將源數(shù)據(jù)變換為目標(biāo)數(shù)據(jù),這些復(fù)雜集成必須做更多的分析。

□通用標(biāo)識符問題

通用標(biāo)識符問題是許多公司在建立數(shù)據(jù)倉庫時所遇到的最困難的集成問題之一。當(dāng)同一

業(yè)務(wù)實體存在于多個系統(tǒng)源,并且沒有明確的辦法確認(rèn)這些實體其實是同一實體的時候,往

往會發(fā)生這個問題。

這個問題往往很難用自動化方法解決,通常要求復(fù)雜的算法配對可能的匹配。有時在倉

庫中存入可能的匹配是可以接受的,但有時這些匹配在存入數(shù)據(jù)倉庫之前必須先由人來檢

驗。很多公司實行一種兩階段戰(zhàn)略來處理該問題。第一階段是隔離,在這一階段中,我們試

圖保證實體的每次出現(xiàn)都指派一個唯一標(biāo)識符;第二階段是調(diào)和,我們開始確認(rèn)哪些實體其

實是相同的,并且將該實體的各次出現(xiàn)合并在一起。

□目標(biāo)元素的多個來源

當(dāng)同一個目標(biāo)數(shù)據(jù)元有多個來源時,會出現(xiàn)另一個復(fù)雜的數(shù)據(jù)集成問題,即很難保證該

元素的各個來源總能保持一致。實際上,這樣的數(shù)據(jù)元存在矛盾值比不同來源中的值相同更

為普遍。解決沖突的簡單辦法是指定某一系統(tǒng)在沖突中占據(jù)主導(dǎo)地位。

□數(shù)據(jù)丟失問題

數(shù)值沒有值的問題與一個數(shù)據(jù)元有多個沖突值的問題一樣困難。有時為一個丟失的元素

把空白或空值賦進倉庫中也是可以接受的,而有時數(shù)據(jù)元必須有值,對該表格所做的查詢才

會有效。必須為該數(shù)據(jù)賦一些估計值。如果是業(yè)務(wù)系統(tǒng),數(shù)據(jù)庫中有這種明知不準(zhǔn)確的值是

沒有意義的,但對數(shù)據(jù)倉庫來說,有估計值比根本沒有值可能要好得多。因此,對于倉庫中

的每種數(shù)據(jù)類型,設(shè)計人員必須在存入估計數(shù)據(jù)的內(nèi)在風(fēng)險和數(shù)據(jù)丟失所造成的誤解的風(fēng)險

之間進行權(quán)衡。

用于這一目的最普遍技術(shù)是生成使曲線平滑的數(shù)據(jù)。然而,很多企業(yè)都有非常復(fù)雜的數(shù)

據(jù)估計方法。這些方法能夠調(diào)節(jié)許多變量,為丟失的數(shù)據(jù)生成一個非常接近實際的值。

□衍生數(shù)據(jù)/計算數(shù)據(jù)

數(shù)據(jù)變換的最常見形式之一就是計算和生成衍生數(shù)據(jù)元或計算數(shù)據(jù)元。它包括平均值、

總和或統(tǒng)計計算,還包括復(fù)雜的業(yè)務(wù)計算。衍生數(shù)據(jù)字段通常是冗余的,因為計算中涉及的

數(shù)據(jù)也存儲在倉庫中,然而,它能大大簡化查詢,保證存入倉庫中的這些衍生值的正確性和

一致性,這樣,在查詢中可以選用它們,而不必在用戶需要時都計算一次。在這方面,數(shù)據(jù)

變換工具是很有用的,因為這些工具能迅速而輕松地進行各種計算,無需擔(dān)心編程員是否正

確地編寫了計算邏輯。

6.10聚集和概括

大多數(shù)數(shù)據(jù)倉庫都要用到數(shù)據(jù)的某種聚集和概括。這通常有助于將某一實體的實例數(shù)目

減少到易于駕馭的水平,也有助于預(yù)先計算出廣泛應(yīng)用的概括數(shù)字,以使每個查詢不必計算

它們。概括是指按照一個或幾個業(yè)務(wù)維將相近的數(shù)值加在一起。聚集指將不同業(yè)務(wù)元素加在

一起或為一個公共總數(shù)。在數(shù)據(jù)倉庫中它們是以相同的方式進行的。

數(shù)據(jù)倉庫中存放的最具體的數(shù)據(jù)不與業(yè)務(wù)系統(tǒng)中存放的細(xì)節(jié)數(shù)據(jù)一樣聚集。這時,就有

必要在變換業(yè)務(wù)數(shù)據(jù)的過程中加入一些數(shù)據(jù)聚集功能。這可以減少存儲在數(shù)據(jù)倉庫中的行

數(shù)。

聚集還可以去除數(shù)據(jù)倉庫中的過時細(xì)節(jié)。在許多情況下,數(shù)據(jù)在一定時期內(nèi)要以很具體

的水平存放著,一旦數(shù)據(jù)到了某一時限,對所有這些細(xì)節(jié)的需求就大大減弱了。此時,這些

非常具體的數(shù)據(jù)應(yīng)該傳送到離線存儲器或近線存儲器中,而數(shù)據(jù)的概括形式則可以存放在數(shù)

據(jù)倉庫中。

目前可以得到的數(shù)據(jù)刷洗工具中,許多都已內(nèi)置了概括功能,尤其是在時間維上進行聚

集的功能。當(dāng)然,不管如何做到這一點,重要的是用戶能夠輕松地訪問元數(shù)據(jù),了解生成總

和數(shù)據(jù)所用的標(biāo)準(zhǔn)。

6.11移動數(shù)據(jù)

將數(shù)據(jù)移出操作系統(tǒng)一般包括:在數(shù)據(jù)最終復(fù)制到數(shù)據(jù)倉庫之前,將它們拷貝到一個中

間位置。理想狀況下,拷貝數(shù)據(jù)的過程應(yīng)該在操作系統(tǒng)不忙時進行。確保了解自己的商務(wù)及

其支持系統(tǒng)。如果還未完成大量的更新,就不應(yīng)該移動數(shù)據(jù)。如果數(shù)據(jù)倉庫中的數(shù)據(jù)來自多

個相互關(guān)聯(lián)的操作系統(tǒng),就應(yīng)該保證在這些系統(tǒng)同步工作時移動數(shù)據(jù)。

廣義的數(shù)據(jù)準(zhǔn)備,覆蓋面很廣泛,包含了從數(shù)據(jù)源抽取數(shù)據(jù),一直到最終數(shù)據(jù)呈現(xiàn)在用

戶面前之間的所有工作,這其中的最主要的工作就是數(shù)據(jù)的抽取、轉(zhuǎn)換、清洗、裝載等一系

列工作。在最初的數(shù)據(jù)倉庫實現(xiàn)之前所有的這些工作都是用程序手工實現(xiàn)的。這樣就造成了

一個非常嚴(yán)重的問題,就是數(shù)據(jù)倉庫的持續(xù)發(fā)展問題,因為利用程序?qū)崿F(xiàn)每一個數(shù)據(jù)抽取過

程,導(dǎo)致所有的數(shù)據(jù)邏輯都隱藏在程序內(nèi)部,當(dāng)數(shù)據(jù)倉庫進一步發(fā)展時,這些程序的管理和

修改,將成為阻礙數(shù)據(jù)倉庫發(fā)展的最大的障礙。

經(jīng)過一段時間的發(fā)展,人們最終認(rèn)識到ETL工具的重要性,于是相關(guān)的ETL工具也紛紛

出臺,其中比較著名的是IBM的Visualwarehouse,Ardent公司的datastage等等。如何

判斷一個ETL工具的優(yōu)略呢,一般而言,主要有一下幾個因素:

1OPENdatasource就是說這種工具必須從很多不同

據(jù)源抽取數(shù)據(jù),并盡可能地使用

Thetoolsmustextractdatafrommostkindofdatasourceuse

源本身提供的驅(qū)動程序來提高使

NativedatabaseDriver率

2OPENtargetDatabase要支持不同的數(shù)據(jù)庫作為數(shù)據(jù)倉

載體

TheToolsmustcanUsemostdatabaselike(DB2,ORACLE.ETC.)as

Targetdatabase.

3Schedulejob可以定時進行數(shù)據(jù)的更新的整理

4HighPerformance較高的工作效率

5Metadatamanagement完善的元數(shù)據(jù)管理,可以對整個

過程中產(chǎn)生的元數(shù)據(jù)進行管理

6Parallelsupport支持并行數(shù)據(jù)抽取

7VisualizeUI可視化的工作界面

8Customdefineprogram可以支持用戶自定義的程序做

通SQL語句無法完成的工作

9Security支持多用戶和多用戶組的工作方

Supportmultiuserandusergroup

10Incrementdataextractsupport可以實現(xiàn)數(shù)據(jù)的增量抽取

11UsesubjecttomanageETLJob用戶可以對所有進程按照主題進

12EnableComplexcleansingandtransform支持復(fù)雜的數(shù)據(jù)清洗工作,自動

SQL語句,用戶自定義SQL

AutomaticgenerateSQL,CustomSQLsupport

13SupportMDDdataload可以支持多維數(shù)據(jù)庫的數(shù)據(jù)加載

14SupportTBdataextractandload可以支持TB級別的數(shù)據(jù)加載

15Datamodelexportandimport現(xiàn)有設(shè)置可以進行Export和imp《

七、如何建立數(shù)據(jù)倉庫

數(shù)據(jù)倉庫的實現(xiàn)主要以關(guān)系數(shù)據(jù)庫(RDB)技術(shù)為基礎(chǔ),因為關(guān)系數(shù)據(jù)庫的數(shù)據(jù)存

儲和管理技術(shù)發(fā)展得較為成熟,其成本和復(fù)雜性較低,已開發(fā)成功的大型事務(wù)數(shù)據(jù)庫多

為關(guān)系數(shù)據(jù)庫,但關(guān)系數(shù)據(jù)庫系統(tǒng)并不能滿足數(shù)據(jù)倉庫的數(shù)據(jù)存儲要求,需要通過使用

一些技術(shù),如動態(tài)分區(qū)、位圖索引、優(yōu)化查詢等,使關(guān)系數(shù)據(jù)庫管理系統(tǒng)在數(shù)據(jù)倉庫應(yīng)

用環(huán)境中的性能得到大幅度的提高。

數(shù)據(jù)倉庫在構(gòu)建之初應(yīng)明確其主題,主題是一個在較高層次將數(shù)據(jù)歸類的標(biāo)準(zhǔn),每一

個主題對應(yīng)一個宏觀的分析領(lǐng)域,針對具體決策需求可細(xì)化為多個主題表,具體來說就

是確定決策涉及的范圍和所要解決的問題。但是主題的確定必須建立在現(xiàn)有聯(lián)機事務(wù)處

理(OLTP)系統(tǒng)基礎(chǔ)上,否則按此主題設(shè)計的數(shù)據(jù)倉庫存儲結(jié)構(gòu)將成為一個空殼,缺

少可存儲的數(shù)據(jù)。但一味注重OLTP數(shù)據(jù)信息,也將導(dǎo)致迷失數(shù)據(jù)提取方向,偏離主題。

需要在OLTP數(shù)據(jù)和主題之間找到一個“平衡點”,根據(jù)主題的需要完整地收集數(shù)據(jù),

這樣構(gòu)建的數(shù)據(jù)倉庫才能滿足決策和分析的需要。

建立一個數(shù)據(jù)倉庫需要經(jīng)過以下幾個處理過程:①數(shù)據(jù)倉庫設(shè)計;②數(shù)據(jù)抽取;③數(shù)

據(jù)管理。

7.1數(shù)據(jù)倉庫設(shè)計

根據(jù)決策主題設(shè)計數(shù)據(jù)倉庫結(jié)構(gòu),一般采用星型模型和雪花模型設(shè)計其數(shù)據(jù)模型,在設(shè)計

過程中應(yīng)保證數(shù)據(jù)倉庫的規(guī)范化和體系各元素的必要聯(lián)系。主要有以下3個步驟:

①定義該主題所需各數(shù)據(jù)源的詳細(xì)情況,包括所在計算機平臺、擁有者、數(shù)據(jù)結(jié)構(gòu)、使用

該數(shù)據(jù)源的處理過程、倉庫更新計劃等

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論