全面認識數(shù)據(jù)倉庫_第1頁
全面認識數(shù)據(jù)倉庫_第2頁
全面認識數(shù)據(jù)倉庫_第3頁
全面認識數(shù)據(jù)倉庫_第4頁
全面認識數(shù)據(jù)倉庫_第5頁
已閱讀5頁,還剩45頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、 全面認識數(shù)據(jù)倉庫前言隨著我行信息科技工作進入后藍圖時代,后線分析系統(tǒng)注1建設(shè)的需求會越來越高,將在快速響應(yīng)、高效實施、靈活應(yīng)變、信息統(tǒng)一、全局分析、深度挖掘、監(jiān)管有力、報送及時、降低成本等方面提出更多新的挑戰(zhàn)。面對藍圖成功投產(chǎn)后新的產(chǎn)品體系,如何統(tǒng)一規(guī)劃全轄數(shù)據(jù)資源、整合后線產(chǎn)品架構(gòu)、準備各項技術(shù)預(yù)研可能是將來信息科技工作的一個重心。數(shù)據(jù)倉庫(DW)是各行業(yè)后線系統(tǒng)發(fā)展的一個重要方向,它在克服部門級應(yīng)用的局限(數(shù)據(jù)分隔注2、重復(fù)存儲、重復(fù)中間加工過程注3、維護工作繁瑣、資源重復(fù)投入等)、滿足全轄基礎(chǔ)數(shù)據(jù)共享、提供全局分析視角和應(yīng)用組件、支持快捷靈活和低成本的開發(fā)部署等方面有著不可替代的功能和

2、地位。數(shù)據(jù)倉庫本身有著不同視角的概念解釋,大可涵蓋整個企業(yè)級應(yīng)用架構(gòu),小可專注于單純的數(shù)據(jù)建模與存儲;數(shù)據(jù)倉庫涉及重多相關(guān)技術(shù),如ETL、數(shù)據(jù)模型設(shè)計、多維分析、數(shù)據(jù)挖掘等;數(shù)據(jù)倉庫建設(shè)可能是一個復(fù)雜高難的全局性項目,正確的實施路徑、策略、方法與有效的質(zhì)量管理是項目成敗的關(guān)鍵;另外,數(shù)據(jù)倉庫系統(tǒng)實施后的管理與維護,也是保證各類后線應(yīng)用系統(tǒng)長期順利運行的重要因素。針對這些數(shù)據(jù)倉庫相關(guān)的概念、技術(shù)、策略、方法等,可能并不是每個人都有比較全面的了解。因此有必要對這些做一個系統(tǒng)的介紹,使大家對數(shù)據(jù)倉庫有一個全面清晰的認識。數(shù)據(jù)倉庫入門介紹應(yīng)用需求背景隨著聯(lián)機事務(wù)處理(OLTP)業(yè)務(wù)系統(tǒng)的深入應(yīng)用,企業(yè)

3、各類業(yè)務(wù)數(shù)據(jù)不斷積累和豐富,越來越需要從大量數(shù)據(jù)中提取有價值的信息,以輔助決策和指導(dǎo)經(jīng)營。管理信息系統(tǒng)(MIS)和早期的決策支持系統(tǒng)注4(DSS)主要是基于傳統(tǒng)的數(shù)據(jù)庫技術(shù)和事務(wù)處理環(huán)境,這種系統(tǒng)結(jié)構(gòu)隨著業(yè)務(wù)系統(tǒng)建設(shè)規(guī)模的擴大、數(shù)據(jù)量的巨增和數(shù)據(jù)復(fù)雜度的提高,已無法滿足綜合分析型應(yīng)用的需求,造成數(shù)據(jù)豐富而信息貧乏的困境。首先,人們逐漸認識到,分析處理和事務(wù)處理具有極不相同的性質(zhì),事務(wù)處理通常是對數(shù)據(jù)庫進行聯(lián)機的查詢和修改操作,每筆交易的響應(yīng)時間和數(shù)據(jù)的安全完整是關(guān)鍵;而分析型處理往往是對大規(guī)模歷史數(shù)據(jù)的批量加工計算,數(shù)據(jù)的規(guī)范統(tǒng)一和整體時間窗口是重要關(guān)注點。因此直接采用傳統(tǒng)數(shù)據(jù)庫技術(shù)和使用事務(wù)

4、處理環(huán)境來支持分析型系統(tǒng)是不合適和失敗的。兩類系統(tǒng)的特點比較見表-1:事務(wù)處理型應(yīng)用分析處理型應(yīng)用很多用戶少量用戶小事務(wù)、頻率高、時間短大事務(wù)、頻率低、時間長一次數(shù)據(jù)操作量小,是小單元的隨機數(shù)據(jù)操作一次數(shù)據(jù)操作量大,是大集合的批量數(shù)據(jù)操作更新與插入操作都很頻繁更新操作較少,插入操作較多需要當(dāng)前的細節(jié)的業(yè)務(wù)數(shù)據(jù)需要歷史的整合的綜合數(shù)據(jù)響應(yīng)時間是關(guān)鍵總的處理時間是關(guān)鍵面向應(yīng)用、事務(wù)驅(qū)動,數(shù)據(jù)范圍小面向分析、分析驅(qū)動,數(shù)據(jù)范圍大表-1另一方面,企業(yè)的各類應(yīng)用系統(tǒng)是在不同時期通常由各部門或分支機構(gòu)面向特定應(yīng)用建設(shè)的,存在著數(shù)據(jù)平臺異構(gòu)、數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)標準不統(tǒng)一等問題。傳統(tǒng)的數(shù)據(jù)庫技術(shù)和事務(wù)處理環(huán)境對于

5、實現(xiàn)基于個別業(yè)務(wù)系統(tǒng)的部門級MIS和初級DSS系統(tǒng)尚可支持,而對實現(xiàn)全局范圍的離散數(shù)據(jù)整合和綜合信息利用,建設(shè)跨部門的企業(yè)級分析應(yīng)用已無能為力。數(shù)據(jù)倉庫的提出麻省理工學(xué)院在20世紀70年代對業(yè)務(wù)系統(tǒng)和分析系統(tǒng)的處理過程進行研究,結(jié)論是只能采用完全不同的架構(gòu)和設(shè)計方法。1988年,IBM為解決全企業(yè)數(shù)據(jù)集成問題,提出了信息倉庫的概念,確立了原理、架構(gòu)和規(guī)范,但沒有進行實際的設(shè)計。1991年,Bill Inmon提出了數(shù)據(jù)倉庫概念,并對為什么建設(shè)數(shù)據(jù)倉庫和如何建設(shè)數(shù)據(jù)倉庫進行了論述。Bill Inmon被稱為數(shù)據(jù)倉庫之父。 Inmon對數(shù)據(jù)倉庫的定義是“數(shù)據(jù)倉庫是面向主題的、集成的、穩(wěn)定的、隨時間

6、變化的數(shù)據(jù)集合,它用以支持經(jīng)營管理中的決策制定過程”。這個定義主要描述了數(shù)據(jù)倉庫的四個最基本特征。在數(shù)據(jù)倉庫的整體概念中,這是對最核心部分的狹義定義。我們還應(yīng)該知道,除了這個最核心的倉庫體之外,廣義的數(shù)據(jù)倉庫概念,還包括來自各源業(yè)務(wù)系統(tǒng)的數(shù)據(jù)經(jīng)過采集、下傳和加載等步驟進行入倉庫體的過程,包括倉庫體的數(shù)據(jù)針對各類分析需求進行多維加工、挖掘、利用的過程,并包括全程數(shù)據(jù)流程設(shè)計和數(shù)據(jù)質(zhì)量管理等過程。從狹義上說,數(shù)據(jù)倉庫是一個具有四個基本特征的數(shù)據(jù)倉儲體,從廣義上說,數(shù)據(jù)倉庫是一種架設(shè)企業(yè)后線分析類應(yīng)用的解決方案。伴隨著數(shù)據(jù)倉庫,同時期還出現(xiàn)了聯(lián)機分析處理(OLAP)和數(shù)據(jù)挖掘(DM)等新技術(shù),從此,

7、DW+OLAP+DM就逐漸形成新決策支持系統(tǒng)的概念。再后來的商務(wù)智能(BI)應(yīng)用需求更是基于DW+OLAP+DM的支持。兩種數(shù)據(jù)倉庫設(shè)計思路提出數(shù)據(jù)倉庫的不至Inmon一個人。Bill Inmon和Ralph Kimball都是數(shù)據(jù)倉庫的首創(chuàng)者,但對數(shù)據(jù)倉庫設(shè)計的觀點很不相同。首先需要了解一個數(shù)據(jù)集市(DM)的概念。相對于數(shù)據(jù)倉庫是一個企業(yè)級的高度綜合數(shù)據(jù)集,數(shù)據(jù)集市就是部門級的輕度綜合數(shù)據(jù)集。Inmon主張建立數(shù)據(jù)倉庫時采用DWDM方式,即先建一個統(tǒng)一數(shù)據(jù)層(狹義DW,中央數(shù)據(jù)倉庫),將不同的OLTP數(shù)據(jù)集中到面向主題、集成、穩(wěn)定、隨時間變化的統(tǒng)一數(shù)據(jù)層中,其中數(shù)據(jù)可以下鉆到最細層,或者上卷

8、到匯總層。再利用中間統(tǒng)一數(shù)據(jù)層,針對各部門的特殊分析需要設(shè)計獨立數(shù)據(jù)集市(數(shù)據(jù)倉庫的子集)。見圖2-1: 圖2-1而Kimball主張DMDW方式,即直接將源數(shù)據(jù)抽取轉(zhuǎn)換到面向各部門分析需要的數(shù)據(jù)集市中,然后將一系列維數(shù)相同的數(shù)據(jù)集市聯(lián)合起來遞增地構(gòu)建數(shù)據(jù)倉庫,通過一致的維(公共定義的元素)能夠共同看到不同數(shù)據(jù)集市中的信息。也即數(shù)據(jù)集市的聯(lián)合數(shù)據(jù)倉庫。見圖2-2: 圖2-2兩種設(shè)計思路產(chǎn)生兩種不同的數(shù)據(jù)倉庫建設(shè)模式,一種是先構(gòu)建企業(yè)中央數(shù)據(jù)倉庫,一次性的完成數(shù)據(jù)的重構(gòu)工作,最小化數(shù)據(jù)冗余度和不一致性,再從中央數(shù)據(jù)倉庫中建造數(shù)據(jù)集市,數(shù)據(jù)集市從數(shù)據(jù)倉庫中得到大部分的集成數(shù)據(jù),且直接依賴于數(shù)據(jù)倉庫

9、的可用性。這種建設(shè)模式的問題在于:投資回報時間如何保證?建設(shè)中央數(shù)據(jù)模型的必要性和可能性?初始費用如何預(yù)算?。另一種建設(shè)模式是先建數(shù)據(jù)集市,即由各個部門在各自的主題區(qū)域內(nèi)進行數(shù)據(jù)重構(gòu),快速得到投資收益,然后通過聯(lián)合數(shù)據(jù)集市遞增地構(gòu)建數(shù)據(jù)倉庫,把建造數(shù)據(jù)倉庫作為一個長期的目標。這種由數(shù)據(jù)集市匯成數(shù)據(jù)倉庫的建設(shè)模式面臨的主要問題是:各個數(shù)據(jù)集市的數(shù)據(jù)不一致性難以解決,且存在一定的數(shù)據(jù)冗余。 這種方法更能滿足近期目標的需求,但增加了未來轉(zhuǎn)換為獨立的數(shù)據(jù)倉庫的數(shù)據(jù)體系結(jié)構(gòu)的困難。從總的比較結(jié)果來看,Inmon的建設(shè)模式起步難度大,但如果走好了第一步,長遠利好;Kimbal的建設(shè)模式更能滿足近期目標的需

10、求,但當(dāng)未來試圖跨數(shù)據(jù)集市獲取聯(lián)合視圖時,可能面臨嚴重問題。數(shù)據(jù)倉庫建設(shè)模式的選擇主要取決于商業(yè)驅(qū)動。如果企業(yè)正忍受糟糕的數(shù)據(jù)管理和不一致的數(shù)據(jù),那么Inmon的方法就更好一些,可以帶來全面革命和解放;如果企業(yè)迫切需要給用戶提供信息,那么Kimbal的方法更能滿足需求,可以通過逐步改革解決問題。大型項目一般會采用Inmon的數(shù)據(jù)倉庫建設(shè)策略,全球最資深的數(shù)據(jù)倉庫服務(wù)商TERADATA就是這種模式的忠實支持者。數(shù)據(jù)倉庫的四個特征Inmon的數(shù)據(jù)倉庫思想被奉為經(jīng)典,他在數(shù)據(jù)倉庫定義中描述的四個基本特征是數(shù)據(jù)倉庫之路上的入門概念,是數(shù)據(jù)倉庫區(qū)別于事務(wù)處理環(huán)境和傳統(tǒng)獨立分析應(yīng)用的最本質(zhì)內(nèi)容。面向主題O

11、LTP應(yīng)用或獨立分析應(yīng)用都是為滿足個別應(yīng)用需求而建設(shè)的,它們的數(shù)據(jù)是各取所需的、局部的,其數(shù)據(jù)定義標準和組織方式也各具特色。數(shù)據(jù)倉庫的設(shè)計思想與此不同,它不是面向某個具體需求,而是對反映全轄業(yè)務(wù)經(jīng)營情況的所有源數(shù)據(jù)進行分門別類、統(tǒng)一組織,從而為現(xiàn)有和潛在的各類分析需求提供一致范圍和一致標準的基礎(chǔ)數(shù)據(jù)支持。主題就是對企業(yè)內(nèi)結(jié)構(gòu)各異的源數(shù)據(jù)根據(jù)可用性、及時性、前瞻性、方便性等需要在較高層次上進行綜合、歸類的抽象。例如對銀行來說,DW包括的主題域可以分為當(dāng)事人、協(xié)議、產(chǎn)品等。經(jīng)過按主題重構(gòu)的數(shù)據(jù)模型,應(yīng)當(dāng)可以支持所有的分析應(yīng)用。集成共享由于源數(shù)據(jù)的分散獨立、平臺異構(gòu)、標準不統(tǒng)一、模型差別大、冗余度高

12、等狀況,在將其提煉、抽取到數(shù)據(jù)倉庫時要進行必要的轉(zhuǎn)換與整合。這樣集成后的數(shù)據(jù),具有一致的結(jié)構(gòu)和標準,才能為所有分析應(yīng)用共享。隨時間變化除了可能有小部分的業(yè)務(wù)數(shù)據(jù)補錄,數(shù)據(jù)倉庫自身不產(chǎn)生源數(shù)據(jù),而只需要對進入倉庫的源數(shù)據(jù)進行加工和匯總。加載處理后的統(tǒng)一基礎(chǔ)數(shù)據(jù)和匯總數(shù)據(jù)總是隨時間不斷增量變化的。不可更新源自業(yè)務(wù)系統(tǒng)的數(shù)據(jù)都是已經(jīng)發(fā)生的數(shù)據(jù),除了個別分析應(yīng)用可能需要對錯誤發(fā)生的業(yè)務(wù)數(shù)據(jù)進行日后的在應(yīng)用層的糾錯處理外,數(shù)據(jù)倉庫基本不會更新和刪除從源系統(tǒng)中傳過來的細節(jié)數(shù)據(jù)。數(shù)據(jù)倉庫架構(gòu)兩類基本數(shù)據(jù)倉庫架構(gòu)有兩類基本數(shù)據(jù)倉庫架構(gòu),一類是Inmon提出的CIF架構(gòu)(Corporate Informatio

13、n Factory,即企業(yè)信息工廠),一類是Kimball提出的MD架構(gòu)(Mutildimensional Architecture,即多維體系結(jié)構(gòu))。CIF架構(gòu)主要包括集成轉(zhuǎn)換層(I&T)、操作數(shù)據(jù)存儲(ODS)、數(shù)據(jù)倉庫(EDW)、數(shù)據(jù)集市(DM)、探索倉庫(EW)等部件。MD架構(gòu)主要包括數(shù)據(jù)準備區(qū)(Staging Area)和數(shù)據(jù)集市。MD的數(shù)據(jù)準備區(qū)在功能上相當(dāng)于 CIF 的staging area+EDW,主要負責(zé)數(shù)據(jù)準備工作,是一致性維表注5的產(chǎn)生、保存和分發(fā)的場所。數(shù)據(jù)集市主要是采用一致性維表來完成維度建模,多個數(shù)據(jù)集市一起合并成“虛擬”數(shù)據(jù)倉庫,這些數(shù)據(jù)集市可以是存在于一個數(shù)據(jù)

14、庫中,也可以是分布在不同機器的不同數(shù)據(jù)庫中。兩類數(shù)據(jù)倉庫架構(gòu)各有優(yōu)缺點,CIF架構(gòu)建設(shè)周期較長且初始設(shè)計復(fù)雜,但當(dāng)建立起企業(yè)級數(shù)據(jù)模型并完成數(shù)據(jù)清洗整合工作,數(shù)據(jù)的完整性和一致性問題就能夠得到根本解決,后續(xù)針對需求變化易于擴展,且成本較低。MD架構(gòu)是先著眼于某些部門級應(yīng)用創(chuàng)建快速見效的數(shù)據(jù)集市,而后以逐步創(chuàng)建和合并數(shù)據(jù)集市的方式實現(xiàn)企業(yè)級數(shù)據(jù)倉庫,這樣啟動成本較低且初始設(shè)計較簡單,但是全局數(shù)據(jù)的一致性和穩(wěn)定性需要通過對一致性維表的持續(xù)維護來保證,后續(xù)擴展的工作量和代價較大。在實際的數(shù)據(jù)倉庫項目解決方案中,往往是根據(jù)項目規(guī)模、實施目標、成本預(yù)算等在這兩類基本架構(gòu)上進行取舍調(diào)整和變形。多數(shù)是采用C

15、IF架構(gòu);也有采用CIF架構(gòu)和MD架構(gòu)相結(jié)合的方法,例如,IBM提出的CDW(Corporate Data Warehouse)就是把CIF架構(gòu)的EDW與MD架構(gòu)的DM進行結(jié)合的解決方案。解析CIF數(shù)據(jù)倉庫架構(gòu)典型的CIF數(shù)據(jù)倉庫架構(gòu)見圖3-1,大的層次上主要包括源數(shù)據(jù)層、ETL層、數(shù)據(jù)服務(wù)層、數(shù)據(jù)展現(xiàn)層等部分。圖3-1源數(shù)據(jù)層源數(shù)據(jù)層是數(shù)據(jù)倉庫的源頭,包括采集反映企業(yè)經(jīng)營狀況的各類業(yè)務(wù)系統(tǒng)源數(shù)據(jù)、補錄數(shù)據(jù)以及導(dǎo)入來自外部的數(shù)據(jù)。源數(shù)據(jù)可以采用數(shù)據(jù)庫直連方式由ETL抽取到數(shù)據(jù)服務(wù)層,但首選是先采集到接口數(shù)據(jù)文件,再傳給ETL層。ETL層ETL的基本設(shè)計任務(wù)是完成數(shù)據(jù)抽取、轉(zhuǎn)換與加載。在各個項目

16、設(shè)計中可根據(jù)具體環(huán)境進行調(diào)整,例如在我行已建立通用數(shù)據(jù)下傳平臺系統(tǒng),因此可以不再需要數(shù)據(jù)抽取功能。ETL作為將整個數(shù)據(jù)倉庫系統(tǒng)的數(shù)據(jù)處理過程串聯(lián)起來的生命通道,還負責(zé)對整個過程中的批量任務(wù)進行調(diào)度、管理和監(jiān)控。另外我們將元數(shù)據(jù)管理和數(shù)據(jù)質(zhì)量管控也歸為ETL層的任務(wù)。數(shù)據(jù)服務(wù)層數(shù)據(jù)服務(wù)層也可稱數(shù)據(jù)倉庫層,其中包含多個層次。源數(shù)據(jù)緩存區(qū):加載數(shù)據(jù)先進入源數(shù)據(jù)緩存區(qū)(也稱staing area),在這一層(數(shù)據(jù)落地或不落地)經(jīng)過進一步的清洗和轉(zhuǎn)換之后進入全局統(tǒng)一基礎(chǔ)數(shù)據(jù)區(qū)。加載過程中的臨時表就屬于這一層。ODS區(qū):是可選層,其數(shù)據(jù)結(jié)構(gòu)跟源數(shù)據(jù)結(jié)構(gòu)一致,相當(dāng)于業(yè)務(wù)數(shù)據(jù)的快照,保存相對于數(shù)據(jù)倉庫比較實時

17、的數(shù)據(jù),主要是針對需要實時數(shù)據(jù)的操作型應(yīng)用需求,也可服務(wù)于實時性需求不強但需要按照源數(shù)據(jù)結(jié)構(gòu)訪問數(shù)據(jù)的應(yīng)用需求,如審計。ODS層的數(shù)據(jù)存儲周期一般不長,例如一周,一般不超過一月。如需長時間保留,可以采用單庫同步處理或保留數(shù)據(jù)文件的方式實現(xiàn)。根據(jù)應(yīng)用需要,有時可能需要建立多個ODS區(qū)或ODS庫。全局統(tǒng)一基礎(chǔ)數(shù)據(jù)區(qū):即CIF架構(gòu)的EDW,存儲面向主題的、集成共享的、歷史的、不易變的全局視角企業(yè)數(shù)據(jù)。采用關(guān)系模型注6設(shè)計,不面向具體應(yīng)用,而是要考慮整體使用的方便性和效率。所有分析類系統(tǒng)使用的數(shù)據(jù)(除了可能有使用ODS數(shù)據(jù)的應(yīng)用系統(tǒng))都應(yīng)通過本層提供,避免出現(xiàn)數(shù)據(jù)孤島。本層中可以存在面向一定邏輯視圖的

18、通用匯總數(shù)據(jù),以方便數(shù)據(jù)集市加工或提供更好性能的數(shù)據(jù)直接訪問,但理論上本層設(shè)計不用考慮最終用戶的需求。應(yīng)當(dāng)減少最終用戶對本層數(shù)據(jù)的過多直接訪問,通常應(yīng)該通過數(shù)據(jù)集市間接向最終用戶提供數(shù)據(jù),當(dāng)數(shù)據(jù)倉庫建設(shè)成熟之后,最終用戶對本層直接訪問的情況應(yīng)該很少,雖然有時也是必要且有益的。匯總數(shù)據(jù)緩存和DM區(qū):由于EDW中存儲的是關(guān)系模型的、統(tǒng)一標準的、最全面的基礎(chǔ)數(shù)據(jù),如果每個分析應(yīng)用都直接訪問EDW,應(yīng)用的性能和EDW承受的壓力都成問題,因此需要針對特定應(yīng)用提前加工各類匯總數(shù)據(jù)。匯總數(shù)據(jù)在數(shù)據(jù)緩沖層(落地或不落地)完成加工后,存儲到各個數(shù)據(jù)集市中。DM層的數(shù)據(jù)直接被具體應(yīng)用訪問,通常是按維度建模,根據(jù)應(yīng)

19、用需要也可建成關(guān)系模型。將DM與EDW放在同一數(shù)據(jù)庫中是可能的,但如果將它們物理上分開,放在不同的機器上處理好處更多,包括:將數(shù)據(jù)集市分別放在小一點的機器上,處理過程的費用會下降;數(shù)據(jù)集市與數(shù)據(jù)倉庫的工作相分離,整個處理過程將更容易管理,對容量的計劃也更容易預(yù)測和管理;不同的部門擁有相應(yīng)的數(shù)據(jù)集市,可以令各方滿意。數(shù)據(jù)展現(xiàn)層本層主要是通過各種工具或應(yīng)用開發(fā)實現(xiàn)對DM中數(shù)據(jù)的目標應(yīng)用。數(shù)據(jù)展現(xiàn)工具主要包括報表、靈活查詢、OLAP分析、數(shù)據(jù)挖掘等各類;應(yīng)用開發(fā)更加靈活自主,還可以直接使用EDW中的通用基礎(chǔ)數(shù)據(jù)和通用匯總數(shù)據(jù)。數(shù)據(jù)倉庫設(shè)計如果把數(shù)據(jù)倉庫系統(tǒng)看作一個產(chǎn)品,那么這是一個涵蓋了幾乎所有后線

20、分析子系統(tǒng)的巨型平臺產(chǎn)品,并且還要輕松支持不斷擴充的應(yīng)用需求。這樣的一個平臺產(chǎn)品要能做到充滿活力的按需運行,必須首先做好每一部分的規(guī)劃設(shè)計工作,這里我們分ETL設(shè)計、數(shù)據(jù)模型設(shè)計和應(yīng)用架構(gòu)設(shè)計進行介紹。ETL設(shè)計ETL控制著整個數(shù)據(jù)倉庫的生命線,其設(shè)計直接關(guān)系著倉庫內(nèi)的元數(shù)據(jù)質(zhì)量、倉庫結(jié)構(gòu)的穩(wěn)健和流暢運行。主要包括基本ETL、作業(yè)調(diào)度、元數(shù)據(jù)管理及其它方面的設(shè)計。ETL服務(wù)器可以獨立一臺機器,也可以與數(shù)據(jù)庫服務(wù)器同機。基本ETL 基本ETL功能主要可分為兩個,其一是把握著數(shù)據(jù)倉庫的入口,將來自不同架構(gòu)、不同形式、不同標準、不同結(jié)構(gòu)的各類業(yè)務(wù)數(shù)據(jù),經(jīng)過清洗、轉(zhuǎn)換、加載、加工等步驟送入EDW;其二

21、是將EDW中的數(shù)據(jù)加工轉(zhuǎn)換到DM中去。這部分的分析設(shè)計工作至少要包括以下方面的內(nèi)容。1,確定數(shù)據(jù)抽取范圍,包括數(shù)據(jù)源系統(tǒng)范圍的確定和每個源系統(tǒng)內(nèi)采集數(shù)據(jù)范圍的確定。這項工作一定需要對行業(yè)需求有相當(dāng)了解、對企業(yè)內(nèi)的軟件架構(gòu)和業(yè)務(wù)系統(tǒng)非常熟悉的人牽頭,并由各類業(yè)務(wù)系統(tǒng)的骨干人員組成工作組,從全局角度選定數(shù)據(jù)范圍。這不僅需要全面考慮當(dāng)前分析類應(yīng)用的數(shù)據(jù)需求,還要有一定的前瞻性,將反映企業(yè)重要經(jīng)營信息將來可能使用的數(shù)據(jù)也劃入采集范圍。2, 制定數(shù)據(jù)接口文件格式、數(shù)據(jù)驗證規(guī)范、錯誤數(shù)據(jù)處理辦法和高性能加載方法,保證進入倉庫數(shù)據(jù)的及時、正確、有效。3,制定數(shù)據(jù)統(tǒng)一標準和轉(zhuǎn)換合并規(guī)則。這項工作是進行數(shù)據(jù)標準

22、化加工處理的前提,是倉庫數(shù)據(jù)得以集成共享的保證。需要結(jié)合數(shù)據(jù)模型設(shè)計。4,梳理數(shù)據(jù)的加載、加工處理步驟和相互間的影響與依賴關(guān)系。保證數(shù)據(jù)根據(jù)依賴關(guān)系和時效需要、按照正確的次序各就各位。需要結(jié)合元數(shù)據(jù)設(shè)計。5,數(shù)據(jù)量和各階段處理時間估算、時間窗口評估等。采用并行等方法滿足時間窗口需求。作業(yè)調(diào)度整個數(shù)據(jù)倉庫的批量作業(yè)流程依賴ETL的正確調(diào)度。首先要梳理清楚每個作業(yè)的觸發(fā)機制、每個步驟的容錯處理機制,以及各作業(yè)間的影響與依賴關(guān)系,才能正確配置ETL的調(diào)度表。要注意作業(yè)粒度的劃分(不宜過小或過大)、并行度的合適設(shè)置、中斷重跑措施等。并考慮采用動態(tài)調(diào)整作業(yè)優(yōu)先級等方法以滿足下游系統(tǒng)的時間窗口。元數(shù)據(jù)管理

23、元數(shù)據(jù)是數(shù)據(jù)倉庫中用來定義和描述業(yè)務(wù)和應(yīng)用數(shù)據(jù)、數(shù)據(jù)映射和演進關(guān)系、處理流程及任務(wù)依賴等幾乎所有內(nèi)容的描述數(shù)據(jù),從而將數(shù)據(jù)倉庫的各個角落和各個環(huán)節(jié)有機的串聯(lián)在一起,以不僅支持數(shù)據(jù)倉庫各種功能實現(xiàn),而且應(yīng)該支持跟蹤數(shù)據(jù)倉庫的狀況和變化,從而給數(shù)據(jù)倉庫的生命運動提供一個整體概貌視圖。相對于數(shù)據(jù)倉庫裸層的數(shù)據(jù)與功能,元數(shù)據(jù)就相當(dāng)于管理層的數(shù)據(jù),起著保駕護航的支撐作用。對于一個大型數(shù)據(jù)倉庫項目,如果沒有元數(shù)據(jù)設(shè)計,就相當(dāng)于建設(shè)一個大城市而沒有規(guī)劃圖紙、沒有考慮基礎(chǔ)設(shè)施建設(shè),是不可能成功的。元數(shù)據(jù)自成一系,可以單獨存儲到元數(shù)據(jù)庫,也可以與數(shù)據(jù)倉庫共存在一個庫中。元數(shù)據(jù)設(shè)計應(yīng)力求全面、細致,可以參考業(yè)界的

24、一些數(shù)據(jù)倉庫元數(shù)據(jù)標準,如CWM(Common Warehouse Model)等,注意所有元數(shù)據(jù)要統(tǒng)一標準、統(tǒng)一設(shè)計和管理,保證各層、各類元數(shù)據(jù)的銜接,避免出現(xiàn)數(shù)據(jù)斷層。元數(shù)據(jù)設(shè)計適宜早做,對于一個復(fù)雜的數(shù)據(jù)倉庫環(huán)境,事后維護比事先規(guī)劃成本要大得多。元數(shù)據(jù)的質(zhì)量在很大程度上決定著數(shù)據(jù)倉庫的健壯程度和可用程度。元數(shù)據(jù)設(shè)計應(yīng)重點考慮描述清楚各層數(shù)據(jù)間的數(shù)據(jù)接口和轉(zhuǎn)換關(guān)系,以直觀的視圖追蹤哪些分析指標來自哪些業(yè)務(wù)數(shù)據(jù)、經(jīng)過哪些處理步驟,支持數(shù)據(jù)血緣分析和影響分析,發(fā)揮對數(shù)據(jù)質(zhì)量管控和系統(tǒng)運行監(jiān)控的重要支持功能。隨著業(yè)務(wù)系統(tǒng)和某些業(yè)務(wù)參數(shù)的變化,元數(shù)據(jù)也是不斷發(fā)展變化的,要注意元數(shù)據(jù)的一致性和持續(xù)性

25、維護。其它管理功能ETL的護航作用除了依靠設(shè)計周密的元數(shù)據(jù)提供支持,還要設(shè)計開發(fā)相應(yīng)的系統(tǒng)功能,如任務(wù)調(diào)度依賴關(guān)系查詢、批任務(wù)完成情況查詢、警告與錯誤查詢、倉庫數(shù)據(jù)使用狀況、性能與資源狀況查詢、日志管理等。這些管理功能的設(shè)計應(yīng)滿足數(shù)據(jù)倉庫日常運行的監(jiān)管需要,可以逐步完善。對倉庫數(shù)據(jù)的監(jiān)控應(yīng)包括進入倉庫的SQL命令和這些命令的結(jié)果集,使系統(tǒng)管理員能夠知曉數(shù)據(jù)倉庫中哪些數(shù)據(jù)正在被使用、哪些數(shù)據(jù)經(jīng)常被使用等,可能需要在表級、行級和列級進行監(jiān)控,以清楚掌握數(shù)據(jù)的情況,為存儲規(guī)劃和管理等提供依據(jù)。數(shù)據(jù)模型設(shè)計數(shù)據(jù)倉庫中的數(shù)據(jù)區(qū)大概有四層:源數(shù)據(jù)緩沖區(qū)+ODS數(shù)據(jù)區(qū)、EDW、匯總數(shù)據(jù)緩沖區(qū)和DM。根據(jù)不同

26、數(shù)據(jù)層的使用目的和特性要求,應(yīng)分別采用不同的數(shù)據(jù)模型。主要有關(guān)系和多維兩種模型,它們主要的區(qū)別在于靈活性和性能方面。關(guān)系模型靈活,支持各類群組用戶任何形式的訪問和數(shù)據(jù)重構(gòu)需求,但在滿足終端用戶的訪問性能方面不夠理想;多維模型可以滿足終端用戶的直接訪問,性能很高,但靈活性不好。因此關(guān)系模型適合構(gòu)造企業(yè)級基礎(chǔ)數(shù)據(jù)模型,而多維模型適合構(gòu)建范圍有限的部門級應(yīng)用數(shù)據(jù)模型。源數(shù)據(jù)緩沖區(qū)和ODS數(shù)據(jù)區(qū)基本采用與源系統(tǒng)相同的數(shù)據(jù)模型,可直接提供基于源系統(tǒng)結(jié)構(gòu)的簡單原貌訪問,一般保留短暫歷史。EDW采用面向主題的關(guān)系模型設(shè)計,以存儲整合后的企業(yè)全局詳細數(shù)據(jù),支持各種類型最低粒度的數(shù)據(jù)需求。EDW中的數(shù)據(jù)是穩(wěn)定的

27、、持續(xù)增長和長期保存的,保存期一般為2年或3年,超過保存期限的數(shù)據(jù)在本區(qū)備帶。本層主要為數(shù)據(jù)集市提供基礎(chǔ)數(shù)據(jù)輸入服務(wù),也可提供小量級的隨機業(yè)務(wù)查詢服務(wù)。匯總數(shù)據(jù)緩沖區(qū)基本是對EDW數(shù)據(jù)區(qū)的各層邏輯視圖,主要用于加工DM數(shù)據(jù)區(qū)的中間過渡作用,也可物化為通用邏輯匯總數(shù)據(jù),提供對某些業(yè)務(wù)用戶的直接訪問支持。除物化匯總數(shù)據(jù)保留周期視需求而定(不超過EDW周期),其它數(shù)據(jù)保留周期短暫。DM數(shù)據(jù)層是面向某類應(yīng)用的匯總成品或半成品數(shù)據(jù),具有業(yè)務(wù)意義,用于支持特定而明確的需求,滿足特定用戶的快速訪問,一般采用多維模型設(shè)計,保留周期視需求而定(一般不超過EDW周期)。下面講述EDW層的關(guān)系數(shù)據(jù)模型設(shè)計和DM層的

28、多維數(shù)據(jù)模型設(shè)計。關(guān)系模型設(shè)計EDW關(guān)系數(shù)據(jù)模型設(shè)計有幾個目的:消除冗余、統(tǒng)一標準、中性共享、方便使用、完整一致的描述和組織企業(yè)數(shù)據(jù)。設(shè)計要點是面向全局業(yè)務(wù)、全面反映企業(yè)經(jīng)營狀況、包含最細節(jié)數(shù)據(jù)、靈活可擴展,并同時規(guī)劃數(shù)據(jù)容量、存儲周期、備份機制、訪問方案和效率等;不需要太多考慮具體應(yīng)用的數(shù)據(jù)模式需求。設(shè)計EDW關(guān)系數(shù)據(jù)模型的第一步是確定主題區(qū)域,即將種類繁多的業(yè)務(wù)數(shù)據(jù)根據(jù)業(yè)務(wù)領(lǐng)域劃分成幾個高度概括的類別,例如對銀行業(yè)可以分為客戶、產(chǎn)品、協(xié)議、交易、財務(wù)等主題。第二步是確定每個主題區(qū)域內(nèi)的實體對象,及區(qū)域內(nèi)對象和跨區(qū)域?qū)ο蟮年P(guān)聯(lián)關(guān)系,例如客戶主題內(nèi)可以包括客戶基本信息、家庭信息、名稱歷史信息、

29、地址歷史信息等實體;產(chǎn)品主題內(nèi)可包括產(chǎn)品特性信息、利率信息、產(chǎn)品與客戶的關(guān)系等實體類型。對于某些應(yīng)用的個性化數(shù)據(jù)需求,雖然共享程度低,也須放入EDW,可以根據(jù)數(shù)據(jù)的共享程序和繁忙程序,在進行物理設(shè)計時劃分出熱數(shù)據(jù)區(qū)和冷數(shù)據(jù)區(qū)。由于每個行業(yè)的企業(yè)數(shù)據(jù)有較大的相似性,而一個結(jié)構(gòu)穩(wěn)定、擴展性強的EDW模型設(shè)計需要深厚的行業(yè)和技術(shù)經(jīng)驗,因此數(shù)據(jù)倉庫廠商針對主要行業(yè)都有自己比較成熟的數(shù)據(jù)模型產(chǎn)品。企業(yè)在進行EDW關(guān)系模型設(shè)計時,可以借鑒這些成熟產(chǎn)品的設(shè)計思想并依靠自己的經(jīng)驗與能力獨立完成,也可以依托成熟的行業(yè)產(chǎn)品進行客戶化。多維模型設(shè)計DM層的主要目的是用于特定分析應(yīng)用的快速訪問,通常采用多維模型設(shè)計,

30、當(dāng)然根據(jù)分析型應(yīng)用的特點與需要也可以采用關(guān)系模型設(shè)計。多維模型恰是根據(jù)用戶的請求而構(gòu)造的,其設(shè)計的最大優(yōu)點在于訪問的高效性,因此必須收集和理解用戶的最終需求,才能定義出優(yōu)化的多維模型結(jié)構(gòu)。確定結(jié)構(gòu)后的多維模型固定服務(wù)于特定用戶特定形式的訪問,不能再輕易改變而用于其它需求。多維模型也稱OLAP模型,是為了滿足用戶從多角度多層次進行數(shù)據(jù)查詢和分析的需要而建立起來的基于度量(實際數(shù)據(jù)值)和維(描述數(shù)據(jù)的不同角度)的數(shù)據(jù)模型。在設(shè)計時應(yīng)首先選擇業(yè)務(wù)所需的度量指標,然后選擇度量的維度和反映維度等級結(jié)構(gòu)的層(粒度)。維度建模有三種實現(xiàn)方法:ROLAP、MOLAP和HOLAP。ROLAP是利用關(guān)系數(shù)據(jù)庫來存

31、儲多維數(shù)據(jù)和完成多維操作;MOLP是基于多維數(shù)據(jù)庫完成數(shù)據(jù)存儲和分析操作(例如ORACLE的分析工作區(qū)Analytic Workspace,簡稱AW);HOLAP是基于關(guān)系和多維的混合模型,即利用關(guān)系數(shù)據(jù)庫來存儲和處理細節(jié)數(shù)據(jù),利用多維數(shù)據(jù)庫來存儲和處理聚合數(shù)據(jù)。多數(shù)采用ROLAP進行設(shè)計。ROLAP模型有星型和雪花兩種結(jié)構(gòu),星型是基本結(jié)構(gòu)。星型結(jié)構(gòu)是采用中間一個事實表和外圍多個維度表來表達和存儲多維數(shù)據(jù),事實表用來存儲度量值和維關(guān)鍵字,每個維使用一個表來存儲維的層次結(jié)構(gòu),事實表和維表通過主外鍵關(guān)聯(lián)成“星型結(jié)構(gòu)”。對于層次復(fù)雜的維,可以將其進一步層次化而分成多個維表,星型結(jié)構(gòu)就擴展為“雪花結(jié)構(gòu)

32、”。雪花結(jié)構(gòu)有減少數(shù)據(jù)冗余等優(yōu)點,但由于增加連接而導(dǎo)致性能下降等原因,通常不推薦。應(yīng)用架構(gòu)設(shè)計有了EDW的基礎(chǔ)數(shù)據(jù)和DM的應(yīng)用數(shù)據(jù),怎樣充分利用這些數(shù)據(jù),挖掘其中的商業(yè)價值是應(yīng)用架構(gòu)設(shè)計的范圍。應(yīng)用架構(gòu)設(shè)計既是建設(shè)數(shù)據(jù)倉庫系統(tǒng)的出發(fā)點,也是目標。數(shù)據(jù)倉庫的價值回報最終體現(xiàn)在所支持的各類應(yīng)用。一般應(yīng)用模式應(yīng)用模式一般有靈活查詢、數(shù)據(jù)挖掘和應(yīng)用開發(fā)等。靈活查詢解決那些無法預(yù)定義的查詢分析和詳細鉆取,可能是簡單統(tǒng)計或某些明細數(shù)據(jù)項查詢,也可能是較復(fù)雜的計算與處理。常用的、能夠提煉出共性的靈活查詢可以轉(zhuǎn)化為固定報表。由于靈活查詢的時效要求相對較高,對這類應(yīng)用應(yīng)該為各部門規(guī)定數(shù)據(jù)范圍、操作范圍和查詢頻率

33、,以免影響數(shù)據(jù)倉庫的性能;同時在ETL元數(shù)據(jù)設(shè)計時應(yīng)考慮對這類應(yīng)用狀況的動態(tài)監(jiān)控。數(shù)據(jù)挖掘是針對特定領(lǐng)域的特定問題,從大量詳細數(shù)據(jù)中提取可能具有潛在價值的信息,基于機器學(xué)習(xí)、模式識別、統(tǒng)計學(xué)等技術(shù),做出歸納性的推理,從中挖掘出潛在的模式,供決策者參考。數(shù)據(jù)挖掘一般需要跨業(yè)務(wù)領(lǐng)域進行綜合關(guān)聯(lián)分析,信息全面,信息量大,而時效性要求不是太強。通常采用專業(yè)的工具。應(yīng)用開發(fā)是挖掘數(shù)據(jù)倉庫價值的最有效方式,可以靈活滿足企業(yè)的各類后線應(yīng)用需要。不僅可以為領(lǐng)導(dǎo)層提供分析決策支持,為中層管理者、市場分析人員和操作員提供智能商務(wù)服務(wù),還可服務(wù)于各類監(jiān)管、報送需求。靈活設(shè)計數(shù)據(jù)集市EDW中的數(shù)據(jù)通常只在需要時才經(jīng)過

34、預(yù)加工后送入到DM中,DM并非只有一種模式,而是根據(jù)不同應(yīng)用目的設(shè)計不同的模式,例如有的需要設(shè)計成多維模型,而有的設(shè)計成關(guān)系模型更合適;有的要求越快見到數(shù)據(jù)越好,有的只需在月底的時候見到數(shù)據(jù)。對于每一個數(shù)據(jù)集市的不同需求,應(yīng)靈活區(qū)別對待,包括為其預(yù)測和計劃不同的處理機器和存儲容量。數(shù)據(jù)倉庫實施與維護策略數(shù)據(jù)倉庫建設(shè)是一個復(fù)雜的系統(tǒng)工程,分析設(shè)計的每一具體步驟都很關(guān)鍵,而在更高角度上有一個正確的實施策略和方法論更是保證數(shù)據(jù)倉庫項目成功的先決條件。另一方面,建成后的數(shù)據(jù)倉庫像一個結(jié)構(gòu)龐大而邏輯嚴密的機器,具體的日常狀態(tài)監(jiān)控和錯誤應(yīng)對措施十分重要,而在更高層次上有一套完善的維護策略對保障數(shù)據(jù)倉庫系統(tǒng)

35、順利運行也必不可少。除了一般的項目管理方法外,實施數(shù)據(jù)倉庫項目還應(yīng)該重視以下策略:目標明確和需求:持續(xù)建設(shè)和改進是數(shù)據(jù)倉庫項目區(qū)別于一般軟件項目的一個特征,作為平臺型綜合性項目,數(shù)據(jù)倉庫的價值實現(xiàn)不是一步到位的。要宏觀規(guī)劃和階段性預(yù)期目標相結(jié)合,經(jīng)過論證評估,明確自己的需求。很多數(shù)據(jù)倉庫項目是由于需求不明確而導(dǎo)致失敗的。高層領(lǐng)導(dǎo)支持和用戶的充分參與:數(shù)據(jù)倉庫不是一個普通的技術(shù)主導(dǎo)型項目,而是一個大的群集項目,需要高層領(lǐng)導(dǎo)的支持而保證和各部門間的密切高效配合。同時需要建立有效機制而推動各業(yè)務(wù)部門的積極深入?yún)⑴c,只有持續(xù)不斷的基于數(shù)據(jù)倉庫的海量數(shù)據(jù)建立更先進的分析應(yīng)用,才能發(fā)揮出數(shù)據(jù)倉庫的應(yīng)用價值

36、。重視數(shù)據(jù)質(zhì)量管控:數(shù)據(jù)質(zhì)量太差的數(shù)據(jù)倉庫,其應(yīng)用價值可以幾乎為零。除了做好具體的數(shù)據(jù)質(zhì)量檢查和維護工作,更重要的是建立一套完善的數(shù)據(jù)管控體系,不僅需要制訂數(shù)據(jù)質(zhì)量檢查、改進和解決數(shù)據(jù)問題的任務(wù)、制度、方法與流程等,還必須有跨部門以上的領(lǐng)導(dǎo)牽頭建立一個組織平臺來負責(zé)數(shù)據(jù)質(zhì)量問題跟蹤解決和數(shù)據(jù)質(zhì)量持續(xù)改進。數(shù)據(jù)質(zhì)量管控是一個長期持續(xù)的過程,重點是組織管理和抓好流程,好的經(jīng)驗還有:持續(xù)推進元數(shù)據(jù)精細化管理;做好數(shù)據(jù)生命周期管理;建立數(shù)據(jù)質(zhì)量評估模型;推進主數(shù)據(jù)和參考數(shù)據(jù)標準體系建設(shè)等。同業(yè)數(shù)據(jù)倉庫應(yīng)用發(fā)展狀況數(shù)據(jù)倉庫技術(shù)在國內(nèi)外銀行業(yè)的應(yīng)用已有多年,可以說給銀行業(yè)帶來了比其傳統(tǒng)基礎(chǔ)業(yè)務(wù)系統(tǒng)更加鮮活

37、的競爭力;然而,數(shù)據(jù)倉庫建設(shè)的難度和風(fēng)險也困擾著銀行業(yè)的IT決策者。銀行業(yè)數(shù)據(jù)倉庫道路上的障礙并不是技術(shù)本身,而是在于建設(shè)策略、目標定位、需求落實、遷移過渡等逐多困難因素,這需要對數(shù)據(jù)倉庫建設(shè)有深刻且高瞻遠矚的認識,并且借鑒國內(nèi)外同行在數(shù)據(jù)倉庫建設(shè)方面的成功經(jīng)驗,提高制勝把握。工商銀行數(shù)據(jù)倉庫建設(shè)情況工商銀行運用數(shù)據(jù)倉庫方法論建立的全行管理信息系統(tǒng)及在此基礎(chǔ)上的整合平臺,包含了全行業(yè)務(wù)交易信息、客戶信息、內(nèi)部管理和外部環(huán)境信息有關(guān)的細節(jié)數(shù)據(jù),用于支持工商銀行經(jīng)營管理和科學(xué)決策。建設(shè)策略堅持整體規(guī)劃分步實施原則:1)總行統(tǒng)一規(guī)劃,協(xié)同攻關(guān),不搞重復(fù)建設(shè)。2)綜合考慮業(yè)務(wù)重要性、數(shù)據(jù)可支持性和支持

38、可行性。3)從全行管理、決策和業(yè)務(wù)發(fā)展需要出發(fā),分階段逐個開發(fā)不同主題應(yīng)用,合理部署進程。遵循企業(yè)信息化漸近發(fā)展逐步完善的建設(shè)規(guī)律:如圖6-1。圖6-1業(yè)務(wù)功能全行統(tǒng)一的數(shù)據(jù)倉庫平臺(EDW)和客戶統(tǒng)一視圖:全行管理信息大集中統(tǒng)一平臺(EDW)于2007年12月完成一期建設(shè),實現(xiàn)了全行57個主要信息系統(tǒng)(包括信貸系統(tǒng)、電子銀行、核心銀行等)2324張數(shù)據(jù)源表信息的邏輯集中,實現(xiàn)全行管理信息從物理集中到邏輯集中的飛躍。在此基礎(chǔ)上實現(xiàn)對全行個人貸款、信用卡、理財金和金融資產(chǎn)超過萬元的個人客戶信息進行全面整合,實現(xiàn)全行重點客戶單一視圖、向人行報送個人客戶征信信息、提供不良客戶信息等功能。實現(xiàn)全行法人

39、客戶信息集成管理和單一視圖等功能。自動化統(tǒng)計平臺,分行特色應(yīng)用數(shù)據(jù)返傳與管理:建立綜合統(tǒng)計系統(tǒng),搭建全行自動化統(tǒng)計平臺,實現(xiàn)全行3600多張經(jīng)營管理報表的自動生成。建立動態(tài)監(jiān)測子系統(tǒng),實現(xiàn)全行境內(nèi)全口徑資產(chǎn)負債、損益等報表自動化生成,真正實現(xiàn)“天天損益表”目標。建立分行數(shù)據(jù)平臺(BDP)報表應(yīng)用系統(tǒng),基于BDP的基礎(chǔ)數(shù)據(jù),幫助分行開展特色信息應(yīng)用工作。投產(chǎn)9個客戶信用風(fēng)險管理類數(shù)據(jù)倉庫應(yīng)用系統(tǒng):如圖6-2圖6-2架構(gòu)設(shè)計總體應(yīng)用架構(gòu):如圖6-3圖6-3總體邏輯架構(gòu):如圖6-4圖6-4總體數(shù)據(jù)架構(gòu):如圖6-5圖6-5建設(shè)銀行數(shù)據(jù)倉庫(DW&MIS)建行DW&MIS 是一個集中型的數(shù)據(jù)倉庫架構(gòu),同

40、時支持總體和一級分行應(yīng)用。在數(shù)據(jù)倉庫的總體架構(gòu)框架中,分行將部署以internet瀏覽器為主的數(shù)據(jù)查詢功能,同時部分一級分行也將根據(jù)其業(yè)務(wù)需要,部署支持其業(yè)務(wù)特色的數(shù)據(jù)集市和分析能力。在DW&MIS一期,分行將僅通過管理信息平臺向分行發(fā)布相關(guān)的靜態(tài)報表,不部署數(shù)據(jù)集市和動態(tài)數(shù)據(jù)分析能力。總體邏輯架構(gòu)如圖6-6:圖6-6源系統(tǒng):在數(shù)據(jù)倉庫的整個生命周期中,源系統(tǒng)的選擇是在變化的。源數(shù)據(jù)的選擇應(yīng)首先從業(yè)務(wù)應(yīng)用需求出發(fā),根據(jù)一期和未來階段分析應(yīng)用所需數(shù)據(jù)的需求,對建行的相關(guān)源系統(tǒng)進行數(shù)據(jù)篩選,并對每一個數(shù)據(jù)字段進行標準定義整理。應(yīng)將所有相關(guān)表的數(shù)據(jù)都從源數(shù)據(jù)系統(tǒng)抽取出來,數(shù)據(jù)倉庫暫時不用的數(shù)據(jù)可以存

41、放在數(shù)據(jù)整合層,以便支持未來的數(shù)據(jù)需求。在比較、選擇源系統(tǒng)時,應(yīng)采用貼近數(shù)據(jù)產(chǎn)生源的原則,盡量使用歸總、計算前的原始數(shù)據(jù),選擇正確的源數(shù)據(jù)。數(shù)據(jù)整合層:為了保證多系統(tǒng)對源系統(tǒng)數(shù)據(jù)抽取的需求,在數(shù)據(jù)從源數(shù)據(jù)系統(tǒng)抽取后在一個統(tǒng)一的數(shù)據(jù)整合環(huán)境中整合,完成技術(shù)層面的數(shù)據(jù)統(tǒng)一轉(zhuǎn)換。采用建行已經(jīng)上線的UDI數(shù)據(jù)整合環(huán)境完成數(shù)據(jù)的整合。數(shù)據(jù)整合層只承擔(dān)操作型源系統(tǒng)的整合工作,數(shù)據(jù)倉庫需要的其他中間業(yè)務(wù)系統(tǒng)如ERP系統(tǒng)將直接和數(shù)據(jù)倉庫進行數(shù)據(jù)交換,而不通過數(shù)據(jù)整合層。數(shù)據(jù)整合層是批量交換數(shù)據(jù)的平臺。所有從源數(shù)據(jù)系統(tǒng)卸載的數(shù)據(jù),包括暫時不進入數(shù)據(jù)倉庫的數(shù)據(jù)都應(yīng)有介質(zhì)備份,以便日后需要時可以不需要對源數(shù)據(jù)接口進

42、行大修改,這一方案需要UDI的擴容。整合層的數(shù)據(jù)保留原則:每日的數(shù)據(jù)保留一周、每周的數(shù)據(jù)保留一個月、每月的數(shù)據(jù)保留三個月。ETL層:主要功能是完成數(shù)據(jù)從源系統(tǒng)的數(shù)據(jù)組織邏輯向數(shù)據(jù)倉庫目標邏輯的轉(zhuǎn)換及數(shù)據(jù)倉庫的加載。ETL的主要設(shè)計考量在于其數(shù)據(jù)轉(zhuǎn)換及加載的效率、可擴充性以及ETL程序的自動化和可維護性,例如與元數(shù)據(jù)驅(qū)動的數(shù)據(jù)映射。出于費用和實施時間的考量,在DW&MIS第一階段,ETL工具將采用NCR的 Automation 數(shù)據(jù)轉(zhuǎn)換及加載工具。但建行應(yīng)該從企業(yè)數(shù)據(jù)架構(gòu)層面考慮其長期的ETL工具和原數(shù)據(jù)管理能力的策略,以滿足企業(yè)數(shù)據(jù)環(huán)境復(fù)雜性的需要。數(shù)據(jù)緩沖區(qū)及數(shù)據(jù)倉庫:數(shù)據(jù)緩沖區(qū)是數(shù)據(jù)在加載

43、至數(shù)據(jù)倉庫之前的臨時存貯區(qū)。數(shù)據(jù)倉庫是DW&MIS的核心數(shù)據(jù)邏輯存貯空間。BI應(yīng)用層:是數(shù)據(jù)倉庫向終端業(yè)務(wù)用戶提供應(yīng)用功能支持的界面,根據(jù)應(yīng)用功能提供的形式和所采用的應(yīng)用系統(tǒng)的不同,BI應(yīng)用層主要定義在以下幾個技術(shù)環(huán)境。管理信息平臺作為數(shù)據(jù)倉庫系統(tǒng)的一個有機組成部分,將承擔(dān)著靜態(tài)報表的展現(xiàn)、分發(fā),手工數(shù)據(jù)的錄入,指標數(shù)據(jù)的分發(fā)等任務(wù)。未來的管理信息平臺需要在作業(yè)調(diào)度自動化,報表接口的標準化方向進一步提高。數(shù)據(jù)分析環(huán)境為數(shù)據(jù)倉庫的高端用戶提供動態(tài)的數(shù)據(jù)分析及挖掘能力,包括:動態(tài)報表的生成、多維數(shù)據(jù)分析、數(shù)據(jù)挖掘能力和管理信息儀表盤能力等。定制應(yīng)用軟件環(huán)境是為滿足業(yè)務(wù)需要在數(shù)據(jù)倉庫環(huán)境中配置的應(yīng)用

44、軟件包??傮w數(shù)據(jù)架構(gòu)如圖6-7:圖6-7應(yīng)用主題涵蓋的數(shù)據(jù):見下表應(yīng)用主題主要數(shù)據(jù)類別用戶及人數(shù)數(shù)據(jù)粒度/頻率資產(chǎn)負債管理(ALM)公共類信息:機構(gòu)、賬號、科目、貨幣期限日期類信息:起息日、到期日等交易類信息:金額、摘要、日期時間分戶賬余額類信息:余額、利息等余額信息:當(dāng)前余額、初始金額等支付類信息:支付日、支付金額等利率類信息:利率、利差等總行ALM相關(guān)部門、一級分行每日財務(wù)績效管理(F&PM)產(chǎn)品、客戶經(jīng)理、成本、利潤、預(yù)算總行財務(wù)及相關(guān)部門、一級分行、二級分行和支行每月(除了應(yīng)付款項外,其它為歸總數(shù)據(jù))風(fēng)險管理(RM)客戶、產(chǎn)品、機構(gòu)、交易總行、一行分行每月更新分析型CRM(ACRM)客

45、戶、賬戶、渠道、產(chǎn)品、交易總行、一級分行、二級分行和支行13個月的每日數(shù)據(jù),7年的每月歸總數(shù)據(jù)多維分析報表(OLAP)客戶、賬戶、時間、產(chǎn)品、渠道、總賬、貨種、風(fēng)險總行、一級分行、二級分行每日總行分行數(shù)據(jù)分布:見下表總行分行備注ALM總行集中統(tǒng)一部署無分行本地數(shù)據(jù)集市分行用戶直接訪問集中的ALM系統(tǒng)F&PM總行F&PM系統(tǒng)涵蓋已匯總的分行數(shù)據(jù)DW分發(fā)匯總數(shù)據(jù)和應(yīng)付款數(shù)據(jù)到分行本地的應(yīng)用集市分行的F&PM應(yīng)納入分行本地的特色數(shù)據(jù),如中間業(yè)務(wù)的詳細數(shù)據(jù)RM總行集中統(tǒng)一部署無分行本地數(shù)據(jù)集市分行用戶直接訪問集中的RM系統(tǒng)ACRM總行集中統(tǒng)一部署無分行本地數(shù)據(jù)集市分行用戶直接訪問集中的ACRM系統(tǒng)OL

46、AP總行OLAP系統(tǒng)涵蓋已匯總的分行數(shù)據(jù)DW分發(fā)匯總數(shù)據(jù)和指標數(shù)據(jù)到分行本地的應(yīng)用數(shù)據(jù)集市分行本地的OLAP數(shù)據(jù)集市應(yīng)包括總行DW下發(fā)的匯總數(shù)據(jù)及本地特色數(shù)據(jù)大多數(shù)應(yīng)用不需要大量詳細數(shù)據(jù)通過網(wǎng)絡(luò)傳輸,分行用戶只需要結(jié)果數(shù)據(jù)。分行的F&PM和OLAP用戶應(yīng)首先考慮使用總行集中的數(shù)據(jù)集市,如果總行的數(shù)據(jù)集市不能滿足分行的特色業(yè)務(wù)需求,分行可以采用本地的數(shù)據(jù)集市。根據(jù)業(yè)界經(jīng)驗,數(shù)據(jù)集中、功能分散的方案比數(shù)據(jù)分散的總體成本低。數(shù)據(jù)倉庫內(nèi)數(shù)據(jù)的保留策略:見下表:基礎(chǔ)數(shù)據(jù)包含每筆交易的詳細數(shù)據(jù)、客戶和賬戶的詳細信息。對私客戶的交易數(shù)據(jù)因數(shù)據(jù)量大,而且業(yè)務(wù)功能通常不需要很長歷史的詳細數(shù)據(jù),保留40天每筆交易

47、的詳細數(shù)據(jù)。對公客戶的交易數(shù)據(jù)量比對私客戶小,業(yè)務(wù)分析需求通常需要較長歷史的詳細交易數(shù)據(jù),保留3年對公客戶的詳細交易數(shù)據(jù)。賬戶和客戶為狀態(tài)數(shù)據(jù),所有的客戶和賬戶和變化歷史數(shù)據(jù)都因歸納到數(shù)據(jù)倉庫里。匯總數(shù)據(jù)包括三大類數(shù)據(jù):交易類、賬戶類和客戶類。交易數(shù)據(jù)應(yīng)按渠道、交易代碼、機構(gòu)、產(chǎn)品等維度匯總。對私客戶的日匯總,如每日每種交易代碼的交易額,日均余額,應(yīng)保存13個月的歷史。對公客戶的日匯總,應(yīng)保存3年的匯總數(shù)據(jù)。月匯總按國外銀行的通常作法,應(yīng)保留7年的歷史。數(shù)據(jù)倉庫系統(tǒng)的數(shù)據(jù)返回機制:應(yīng)用數(shù)據(jù)集市只保留最新的評級結(jié)果,數(shù)據(jù)倉庫保留分析結(jié)果和評級的歷史。從應(yīng)用數(shù)據(jù)集市到數(shù)據(jù)倉庫的數(shù)據(jù)返回應(yīng)采用批處理

48、的方式。另外,ERP系統(tǒng)建立之后,總帳數(shù)據(jù)直接從ERP抽取、導(dǎo)入到DW。DW數(shù)據(jù)質(zhì)量檢查:從文件級別和數(shù)據(jù)記錄級別執(zhí)行以下數(shù)據(jù)質(zhì)量檢查點。源數(shù)據(jù)質(zhì)量檢查。從源數(shù)據(jù)系統(tǒng)傳輸?shù)綌?shù)據(jù)緩儲的所有數(shù)據(jù)都應(yīng)首先接受質(zhì)量檢查后才能導(dǎo)入,源數(shù)據(jù)的質(zhì)量檢查應(yīng)包括接口數(shù)據(jù)文件格式是否標準化的確認,并按照目標數(shù)據(jù)庫系統(tǒng)的數(shù)據(jù)模型或數(shù)據(jù)字典將不同源數(shù)據(jù)系統(tǒng)的字段屬性統(tǒng)一轉(zhuǎn)換成目標系統(tǒng)要求的格式。ETL流程中的質(zhì)量檢查,每次數(shù)據(jù)的抽取、轉(zhuǎn)換和加載都必須有日志記錄,并確認記錄數(shù)前后一致。從數(shù)據(jù)倉庫到數(shù)據(jù)集市和應(yīng)用展現(xiàn)層的數(shù)據(jù)問題通常是由于業(yè)務(wù)指標計算不正確引起,需要對業(yè)務(wù)邏輯和算法進行修正。數(shù)據(jù)緩儲區(qū)的數(shù)據(jù)處理流程遵循的

49、原則:數(shù)據(jù)緩儲區(qū)應(yīng)將源系統(tǒng)數(shù)據(jù)按原有數(shù)據(jù)格式登錄接收,在進行任何數(shù)據(jù)處理前,應(yīng)先將數(shù)據(jù)接收、保存在DW&MIS的ETL服務(wù)器的存儲中。必須檢驗是否是重復(fù)的數(shù)據(jù)文本,避免對同樣的數(shù)據(jù)多次重復(fù)處理。應(yīng)盡量使用增量數(shù)據(jù),在使用自然鍵識別新數(shù)據(jù)的同時,應(yīng)將新的數(shù)據(jù)文本的生成時間應(yīng)與最近加載的時間比較,從而獲取正確的增量數(shù)據(jù)。原則上,無用的數(shù)據(jù)應(yīng)由靠近源的步驟被檢出,避免不必要的處理和在以后的步驟里增加復(fù)雜的業(yè)務(wù)轉(zhuǎn)換規(guī)則,在緩儲區(qū)內(nèi)應(yīng)執(zhí)行數(shù)據(jù)清洗、標準化處理、非規(guī)范化化/規(guī)范化(denormalization/normalization), 換算和去重等流程。應(yīng)減少數(shù)據(jù)重復(fù)遍歷(Pass Through

50、)次數(shù),盡量將多個數(shù)據(jù)處理程序完成后再處理新的數(shù)據(jù)記錄。在緩儲區(qū)內(nèi)對源數(shù)據(jù)不進行數(shù)據(jù)歸總。數(shù)據(jù)緩儲區(qū)應(yīng)包含參考數(shù)據(jù)。數(shù)據(jù)緩儲區(qū)應(yīng)維持主鍵查找表,主鍵查找應(yīng)能將源數(shù)據(jù)的鍵與數(shù)據(jù)倉庫內(nèi)定的代理鍵關(guān)聯(lián)起來。緩儲區(qū)的數(shù)據(jù)處理應(yīng)提供數(shù)據(jù)檢控、審計功能,例如數(shù)據(jù)行數(shù),數(shù)據(jù)匯總,如與源數(shù)據(jù)有出入,應(yīng)該與源數(shù)據(jù)系統(tǒng)校對,數(shù)據(jù)處理必須提供日志。數(shù)據(jù)緩儲區(qū)的數(shù)據(jù)應(yīng)保留至下一輪數(shù)據(jù)的成功加載。DW設(shè)計:DW&MIS數(shù)據(jù)倉庫管理的數(shù)據(jù)包含了集成之后的多年歷史數(shù)據(jù),數(shù)據(jù)量巨大,應(yīng)被合理的規(guī)劃、組織、存儲,分片和索引,保證數(shù)據(jù)的管理和使用的高效性。按照建行數(shù)據(jù)“唯一事實”的要求,數(shù)據(jù)倉庫應(yīng)為各級業(yè)務(wù)人員提供一致的信息視圖

51、。DW&MIS數(shù)據(jù)倉庫采用滿足第三范式的規(guī)范化建模,基于NCR FS-LDM進行客戶化定制完成,并在Teradata關(guān)系型數(shù)據(jù)倉庫上實現(xiàn)。數(shù)據(jù)倉庫應(yīng)保留7年的歷史數(shù)據(jù)。數(shù)據(jù)倉庫的邏輯數(shù)據(jù)模型包含下列類別的數(shù)據(jù)主題:數(shù)據(jù)集市設(shè)計:數(shù)據(jù)集市是根據(jù)不同部門的業(yè)務(wù)需求,按照主題的方式對數(shù)據(jù)進行進一步的組織,建立業(yè)務(wù)應(yīng)用,其數(shù)據(jù)直接來自于數(shù)據(jù)倉庫。ALM、RM、CRM和F&PM各個業(yè)務(wù)主題以及多維分析均應(yīng)建立各自的應(yīng)用數(shù)據(jù)集市。應(yīng)用數(shù)據(jù)集市的建設(shè)和分布應(yīng)考慮實施的成本、數(shù)據(jù)使用對網(wǎng)絡(luò)的影響和業(yè)務(wù)需求。DW&MIS項目一期將建立多維分析數(shù)據(jù)集市和ALM應(yīng)用數(shù)據(jù)集市。設(shè)計考慮因素有:集市數(shù)據(jù)永久保存;按照預(yù)

52、先安排的時間和頻度進行數(shù)據(jù)集市的更新;在基礎(chǔ)平臺能夠支持的情況下,優(yōu)先采用虛擬集市(Virtual Mart)的技術(shù)。元數(shù)據(jù)管理策略:一期元數(shù)據(jù)存儲分為三部分。NCR MDS是符合CWM規(guī)范的元數(shù)據(jù)存儲庫,安裝配置后以Teradata數(shù)據(jù)庫形式存在,提供了多種元數(shù)據(jù)加載工具和編程接口,在本項目中MDS用于保存數(shù)據(jù)源、ETL、邏輯數(shù)據(jù)模型、物理數(shù)據(jù)模型、決策儀表盤元數(shù)據(jù)信息。Cognos元數(shù)據(jù)庫保存監(jiān)管報表、多維分析元數(shù)據(jù)。ALM元數(shù)據(jù)庫保存ALM元數(shù)據(jù)。美洲銀行的數(shù)據(jù)倉庫型CRM從海外的情況看,對公業(yè)務(wù)的市場一旦趨于飽和,最后就會蛻變成價格競爭,很難有差別化的優(yōu)勢。所以IT金融咨詢領(lǐng)域認為“從

53、全球銀行業(yè)的情況看, 個人銀行業(yè)務(wù)在價值創(chuàng)造方面遠比公司業(yè)務(wù)高得多?!睙o疑, 正是個人銀行業(yè)務(wù)的發(fā)展?jié)摿ν滑F(xiàn)了CRM在商業(yè)銀行管理中的地位。美洲銀行的數(shù)據(jù)倉庫型客戶關(guān)系管理系統(tǒng)是美國銀行業(yè)中開發(fā)比較成功的一種。美洲銀行擁有北美最大的客戶信息數(shù)據(jù)。由于數(shù)據(jù)倉庫給銀行帶來了詳細的客戶信息, 美洲銀行的營銷部門使用數(shù)據(jù)倉庫來進行精確的客戶細分, 從而開展更準確、更有利的商業(yè)活動。同時, 該銀行利用預(yù)測性建模, 實現(xiàn)更有效的分析、測量和鎖定高利潤客戶。在一次直郵客戶聯(lián)系行動中,美洲銀行的加州數(shù)據(jù)庫將需要用郵件聯(lián)系的客戶數(shù)降低了40%,而反映率卻增加了97%,定購率增加了21%,僅僅這個應(yīng)用就為銀行產(chǎn)生

54、了4500萬美元的利潤。美洲銀行引進數(shù)據(jù)倉庫型客戶關(guān)系管理系統(tǒng)后,在數(shù)據(jù)處理上可以以更低的成本、更綜合的方式分析出有用的信息。例如,一些以前要幾個星期才能得到答案的業(yè)務(wù)問題,現(xiàn)在只需要幾分鐘甚至更少,效果非常明顯。再如,業(yè)務(wù)人員可以通過分析銀行的客戶群數(shù)據(jù),判斷哪些類型或具有什么特征的客戶最有可能購買哪一種產(chǎn)品或服務(wù)。事實上, 單就數(shù)據(jù)倉庫本身而言,美洲銀行利用這一技術(shù)實施個性化服務(wù),早在1994年就感受過強烈的應(yīng)用快感。在當(dāng)年的舊金山大地震中,美洲銀行利用郵編快速地找出受災(zāi)的客戶名單,提供災(zāi)后重建的貸款,極大地增強了客戶關(guān)系, 增加了銀行收入。2003年美洲銀行面向個人融資的總件數(shù)中, 74

55、%是借助數(shù)據(jù)倉庫型客戶關(guān)系管理系統(tǒng)挖掘分析的信息, 通過電話直接推銷而成功的?,F(xiàn)在, 美洲銀行逐漸向數(shù)據(jù)倉庫型客戶關(guān)系管理系統(tǒng)與電話銀行相結(jié)合, 向每天、甚至每時更新數(shù)據(jù), 深入發(fā)掘數(shù)據(jù)倉庫型客戶關(guān)系管理系統(tǒng)潛力的方向發(fā)展。另外,在信用卡業(yè)務(wù)的拓展方面,數(shù)據(jù)倉庫也起了很大的作用。一方面,通過對數(shù)據(jù)倉庫中客戶信息的分析,識別出那些給銀行帶來更多利潤并且信用好的客戶,對這些客戶提供更好的服務(wù);另一方面,對那些信用差的客戶,則要想辦法防止其呆賬行為,降低風(fēng)險。除此以外,還找出那些使用了銀行其它服務(wù)卻沒有使用信用卡服務(wù)或者使用其它銀行卡服務(wù)的客戶。針對具有較好潛在利潤可供挖掘的客戶群體,設(shè)計促銷活動,

56、將這些客戶吸引到美洲銀行來,這樣既拓展了信用卡業(yè)務(wù),又降低了促銷成本。美洲銀行是1986年開始投資建立Teradata數(shù)據(jù)倉庫的,它采用循序漸進的方式實施,分階段實施,由一個主題應(yīng)用開始逐步展開,在功能實現(xiàn)上逐步延伸。剛開始時數(shù)據(jù)庫容量為20GB,后來逐步擴展成超過4TB 的龐大系統(tǒng)。數(shù)據(jù)倉庫產(chǎn)品介紹數(shù)據(jù)倉庫建設(shè)離不了選擇“原材料”這一環(huán)節(jié)。世界上主要的數(shù)據(jù)倉庫廠商都提供成套的產(chǎn)品和解決方案。雖然選擇任一家的“原材料”都可能完成自己的建設(shè),但是如果能根據(jù)自身的實施策略與方案,選用更加適合自身特點的產(chǎn)品和服務(wù),無疑能夠增大成功把握。本節(jié)對其中幾家產(chǎn)品做簡要介紹和比較。Oracle數(shù)據(jù)倉庫體系結(jié)構(gòu)

57、Oracle公司在數(shù)據(jù)倉庫建設(shè)的每一個環(huán)節(jié)上都提供了相應(yīng)的技術(shù)手段及工具,產(chǎn)品之間無縫集成,圖11所示為Oracle公司10G版本的數(shù)據(jù)倉庫體系結(jié)構(gòu):圖-11這個體系結(jié)構(gòu)的產(chǎn)品可以分成三個層次:數(shù)據(jù)獲取層:Oracle Warehouse Builder(OWB)實現(xiàn)了從數(shù)據(jù)模型設(shè)計、ETL流程設(shè)計和元數(shù)據(jù)管理的全部功能。OWB生成的ETL腳本存儲在Oracle10g數(shù)據(jù)庫中執(zhí)行,按照數(shù)據(jù)倉庫系統(tǒng)的要求,定時地完成數(shù)據(jù)的抽取并加載到數(shù)據(jù)倉庫系統(tǒng)中。由于ETL的執(zhí)行是在Oracle10g 數(shù)據(jù)庫中,可以充分利用Oracle10g數(shù)據(jù)庫提供的強大并行處理能力,保證數(shù)據(jù)獲取的高效、可靠執(zhí)行。數(shù)據(jù)存儲

58、層:Oracle10g數(shù)據(jù)庫實現(xiàn)對數(shù)據(jù)倉庫系統(tǒng)各種類型數(shù)據(jù)的集中存儲和管理,包括各種結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。Oracle10g數(shù)據(jù)庫內(nèi)置OLAP和數(shù)據(jù)挖掘功能,不需要進行數(shù)據(jù)遷移,就可以直接在關(guān)系數(shù)據(jù)庫中完成復(fù)雜的統(tǒng)計分析功能。Oracle10g數(shù)據(jù)庫可以支持海量數(shù)據(jù)的存儲,一個數(shù)據(jù)庫最大數(shù)據(jù)量為8,000PB(1PB=1024TB)。Oracle10g提供強大的并行處理能力,滿足數(shù)據(jù)倉庫系統(tǒng)對于性能和擴展性方面的要求。系統(tǒng)并通過網(wǎng)格控制臺(Grid Control)進行數(shù)據(jù)倉庫統(tǒng)一管理。數(shù)據(jù)展現(xiàn)層:Oracle提供多種數(shù)據(jù)分析的工具,包括標準報表工具(Reports)、即席查詢工具(Dis

59、coverer)、OLAP分析開發(fā)工具(JDeveloperBIBeans)和數(shù)據(jù)挖掘工具(Oracle Data Miner),將統(tǒng)計分析的結(jié)果通過各種方式展現(xiàn)。Oracle的數(shù)據(jù)展現(xiàn)工具使用Java和HTML兩種方式實現(xiàn),基于標準的J2EE平臺。由于使用統(tǒng)一的元數(shù)據(jù)庫,不需要進行元數(shù)據(jù)的交換,能夠最大限度地減少系統(tǒng)的維護工作。同時,Oracle的數(shù)據(jù)展現(xiàn)工具支持通過門戶(Portal)技術(shù)進行集成,為不同類型的用戶提供一致的訪問界面。IBM企業(yè)數(shù)據(jù)倉庫平臺總體結(jié)構(gòu)DB2 Data Warehouse Enterprise Edition (DB2數(shù)據(jù)倉庫企業(yè)版)是一個商業(yè)智能平臺,擴展了I

60、BM DB2 UDB用于構(gòu)建數(shù)據(jù)倉庫和分析應(yīng)用的商業(yè)智能特性。包括聯(lián)邦數(shù)據(jù)訪問,數(shù)據(jù)分區(qū),在線分析處理,數(shù)據(jù)挖掘,ETL,工作負載管理等功能。整合了IBM DB2 UDB的商業(yè)智能特性,是面向客戶和合作伙伴,構(gòu)建企業(yè)隨需應(yīng)變架構(gòu),實施實時商業(yè)智能的新一代商業(yè)智能解決方案。DWEE總體結(jié)構(gòu)規(guī)劃如圖12:圖-12主要產(chǎn)品包括: 數(shù)據(jù)倉庫存儲的海量關(guān)系型數(shù)據(jù)庫:DB2 UDB ESE企業(yè)版,數(shù)據(jù)倉庫引擎數(shù)據(jù)分區(qū)模塊:DB2 UDB DPF,支持分區(qū)和多機并行調(diào)度復(fù)雜即席查詢的查詢管理器:Query Patroller,基于成本的查詢負載管理工具, 提高數(shù)據(jù)倉庫吞吐量。多維分析工具:DB2 Cube

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論