版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)倉(cāng)庫(kù)之路FAQFAQ目錄 TOC o 1-3 h z HYPERLINK l _Toc21763030 一、與數(shù)據(jù)倉(cāng)庫(kù)有關(guān)的幾個(gè)概念 PAGEREF _Toc21763030 h 2 HYPERLINK l _Toc21763031 1.1目錄 PAGEREF _Toc21763031 h 2 HYPERLINK l _Toc21763032 二、數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)生的原因 PAGEREF _Toc21763032 h 6 HYPERLINK l _Toc21763033 三、數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)圖 PAGEREF _Toc21763033 h 7 HYPERLINK l _Toc21763034 四
2、、數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì) PAGEREF _Toc21763034 h 8 HYPERLINK l _Toc21763035 4.1數(shù)據(jù)倉(cāng)庫(kù)的建模 PAGEREF _Toc21763035 h 8 HYPERLINK l _Toc21763036 4.2數(shù)據(jù)倉(cāng)庫(kù)建模的十條戒律: PAGEREF _Toc21763036 h 9 HYPERLINK l _Toc21763037 五、數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)過(guò)程 PAGEREF _Toc21763037 h 9 HYPERLINK l _Toc21763038 5.1數(shù)據(jù)模型的內(nèi)容 PAGEREF _Toc21763038 h 9 HYPERLINK l _Toc21
3、763039 5.2數(shù)據(jù)模型轉(zhuǎn)變到數(shù)據(jù)倉(cāng)庫(kù) PAGEREF _Toc21763039 h 10 HYPERLINK l _Toc21763040 5.3數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)成功的關(guān)鍵 PAGEREF _Toc21763040 h 11 HYPERLINK l _Toc21763041 六、數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)采集 PAGEREF _Toc21763041 h 11 HYPERLINK l _Toc21763042 6.1后臺(tái)處理 PAGEREF _Toc21763042 h 12 HYPERLINK l _Toc21763043 6.2中間處理 PAGEREF _Toc21763043 h 12 HYPER
4、LINK l _Toc21763044 6.3前臺(tái)處理 PAGEREF _Toc21763044 h 13 HYPERLINK l _Toc21763045 6.4數(shù)據(jù)倉(cāng)庫(kù)的技術(shù)體系結(jié)構(gòu) PAGEREF _Toc21763045 h 13 HYPERLINK l _Toc21763046 6.5數(shù)據(jù)的有效性檢查 PAGEREF _Toc21763046 h 15 HYPERLINK l _Toc21763047 6.6清除和轉(zhuǎn)換數(shù)據(jù) PAGEREF _Toc21763047 h 15 HYPERLINK l _Toc21763048 6.7簡(jiǎn)單變換 PAGEREF _Toc21763048 h
5、 16 HYPERLINK l _Toc21763049 6.8清潔和刷洗 PAGEREF _Toc21763049 h 17 HYPERLINK l _Toc21763050 6.9集成 PAGEREF _Toc21763050 h 18 HYPERLINK l _Toc21763051 6.10聚集和概括 PAGEREF _Toc21763051 h 20 HYPERLINK l _Toc21763052 6.11移動(dòng)數(shù)據(jù) PAGEREF _Toc21763052 h 20 HYPERLINK l _Toc21763053 七、如何建立數(shù)據(jù)倉(cāng)庫(kù) PAGEREF _Toc21763053 h
6、 22 HYPERLINK l _Toc21763054 7.1數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì) PAGEREF _Toc21763054 h 22 HYPERLINK l _Toc21763055 7.2數(shù)據(jù)抽取模塊 PAGEREF _Toc21763055 h 23 HYPERLINK l _Toc21763056 7.3數(shù)據(jù)維護(hù)模塊 PAGEREF _Toc21763056 h 24與數(shù)據(jù)倉(cāng)庫(kù)有關(guān)的幾個(gè)概念目錄DatawarehouseDatamartOLAPROLAPMOLAPClientOLAPDSSETLAdhocqueryEISBPRBIDataminingCRMMetaData Data ware
7、house本世紀(jì)80年代中期,“數(shù)據(jù)倉(cāng)庫(kù)之父”William H.Inmon先生在其建立數(shù)據(jù)倉(cāng)庫(kù)一書(shū)中定義了數(shù)據(jù)倉(cāng)庫(kù)的概念,隨后又給出了更為精確的定義:數(shù)據(jù)倉(cāng)庫(kù)是在企業(yè)管理和決策中面向主題的、集成的、與時(shí)間相關(guān)的、不可修改的數(shù)據(jù)集合。與其他數(shù)據(jù)庫(kù)應(yīng)用不同的是,數(shù)據(jù)倉(cāng)庫(kù)更像一種過(guò)程,對(duì)分布在企業(yè)內(nèi)部各處的業(yè)務(wù)數(shù)據(jù)的整合、加工和分析的過(guò)程。而不是一種可以購(gòu)買(mǎi)的產(chǎn)品。 Data mart即數(shù)據(jù)集市,或者叫做“小數(shù)據(jù)倉(cāng)庫(kù)”。如果說(shuō)數(shù)據(jù)倉(cāng)庫(kù)是建立在企業(yè)級(jí)的數(shù)據(jù)模型之上的話。那么數(shù)據(jù)集市就是企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)子集,他主要面向部門(mén)級(jí)業(yè)務(wù),并且只面向某個(gè)特定的主題。數(shù)據(jù)集市可以在一定程度上緩解訪問(wèn)數(shù)據(jù)倉(cāng)庫(kù)的
8、瓶頸。 OLAP聯(lián)機(jī)分析處理(OLAP)的概念最早是由關(guān)系數(shù)據(jù)庫(kù)之父E.F.Codd于1993年提出的。當(dāng)時(shí),Codd認(rèn)為聯(lián)機(jī)事務(wù)處理(OLTP)已不能滿(mǎn)足終端用戶(hù)對(duì)數(shù)據(jù)庫(kù)查詢(xún)分析的需要,SQL對(duì)大數(shù)據(jù)庫(kù)進(jìn)行的簡(jiǎn)單查詢(xún)也不能滿(mǎn)足用戶(hù)分析的需求。用戶(hù)的決策分析需要對(duì)關(guān)系數(shù)據(jù)庫(kù)進(jìn)行大量計(jì)算才能得到結(jié)果,而查詢(xún)的結(jié)果并不能滿(mǎn)足決策者提出的需求。因此Codd提出了多維數(shù)據(jù)庫(kù)和多維分析的概念,即OLAP。Codd提出OLAP的12條準(zhǔn)則來(lái)描述OLAP系統(tǒng):準(zhǔn)則1 OLAP模型必須提供多維概念視圖準(zhǔn)則2 透明性準(zhǔn)則準(zhǔn)則3 存取能力推測(cè)準(zhǔn)則4 穩(wěn)定的報(bào)表能力準(zhǔn)則5 客戶(hù)/服務(wù)器體系結(jié)構(gòu)準(zhǔn)則6 維的等同性準(zhǔn)則
9、準(zhǔn)則7 動(dòng)態(tài)的稀疏矩陣處理準(zhǔn)則準(zhǔn)則8 多用戶(hù)支持能力準(zhǔn)則準(zhǔn)則9 非受限的跨維操作準(zhǔn)則10 直觀的數(shù)據(jù)操縱準(zhǔn)則11 靈活的報(bào)表生成準(zhǔn)則12 不受限的維與聚集層次 ROLAP基于Codd的12條準(zhǔn)則,各個(gè)軟件開(kāi)發(fā)廠家見(jiàn)仁見(jiàn)智,其中一個(gè)流派,認(rèn)為可以沿用關(guān)系型數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)多維數(shù)據(jù),于是,基于稀疏矩陣表示方法的星型結(jié)構(gòu)(starschema)就出現(xiàn)了。后來(lái)又演化出雪花結(jié)構(gòu)。為了與多維數(shù)據(jù)庫(kù)相區(qū)別,則把基于關(guān)系型數(shù)據(jù)庫(kù)的OLAP稱(chēng)為Relational OLAP,簡(jiǎn)稱(chēng)ROLAP。代表產(chǎn)品有Informix Metacube、Microsoft SQL ServerOLAP Services. MOLAP
10、嚴(yán)格遵照Codd的定義,自行建立了多維數(shù)據(jù)庫(kù),來(lái)存放聯(lián)機(jī)分析系統(tǒng)數(shù)據(jù)的Arbor Software,開(kāi)創(chuàng)了多維數(shù)據(jù)存儲(chǔ)的先河,后來(lái)的很多家公司紛紛采用多維數(shù)據(jù)存儲(chǔ)。被人們稱(chēng)為MuiltDimension OLAP,簡(jiǎn)稱(chēng)MOLAP,代表產(chǎn)品有Hyperion(原Arbor software) Essbase、Showcase STRATEGY等。 Client OLAP相對(duì)于Server OLAP而言。部分分析工具廠家建議把部分?jǐn)?shù)據(jù)下載到本地,為用戶(hù)提供本地的多維分析。代表產(chǎn)品有Brio Designer, Business Object. DSS決策支持系統(tǒng)(Decision Support
11、system),相當(dāng)于基于數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用。決策支持就是在收集所有有關(guān)數(shù)據(jù)和信息,經(jīng)過(guò)加工整理,來(lái)為企業(yè)決策管理層提供信息,為決策者的決策提供依據(jù)。 ETL數(shù)據(jù)抽?。‥xtract)、轉(zhuǎn)換(Transform)、清洗(Cleansing)、裝載(Load)的過(guò)程。構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的重要一環(huán),用戶(hù)從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)清洗,最終按照預(yù)先定義好的數(shù)據(jù)倉(cāng)庫(kù)模型,將數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)中去。 Ad hoc query即席查詢(xún),數(shù)據(jù)庫(kù)應(yīng)用最普遍的一種查詢(xún),利用數(shù)據(jù)倉(cāng)庫(kù)技術(shù),可以讓用戶(hù)隨時(shí)可以面對(duì)數(shù)據(jù)庫(kù),獲取所希望的數(shù)據(jù)。 EIS領(lǐng)導(dǎo)信息系統(tǒng)(Executive Information System)
12、,指為了滿(mǎn)足無(wú)法專(zhuān)注于計(jì)算機(jī)技術(shù)的領(lǐng)導(dǎo)人員的信息查詢(xún)需求,而特意制定的以簡(jiǎn)單的圖形界面訪問(wèn)數(shù)據(jù)倉(cāng)庫(kù)的一種應(yīng)用。 BPR業(yè)務(wù)流程重整(Business Process Reengineering),指利用數(shù)據(jù)倉(cāng)庫(kù)技術(shù),發(fā)現(xiàn)并糾正企業(yè)業(yè)務(wù)流程中的弊端的一項(xiàng)工作。數(shù)據(jù)倉(cāng)庫(kù)的重要作用之一。 BI商業(yè)智能(Business Intelligence),指數(shù)據(jù)倉(cāng)庫(kù)相關(guān)技術(shù)與應(yīng)用的通稱(chēng)。指利用各種智能技術(shù),來(lái)提升企業(yè)的商業(yè)競(jìng)爭(zhēng)力。 Data mining數(shù)據(jù)挖掘,Data Mining是一種決策支持過(guò)程,它主要基于AI、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等技術(shù),高度自動(dòng)化地分析企業(yè)原有的數(shù)據(jù),作出歸納性的推理,從中挖掘出潛在
13、的模式,預(yù)測(cè)客戶(hù)的行為,幫助企業(yè)的決策者調(diào)整市場(chǎng)策略,減少風(fēng)險(xiǎn),作出正確的決策CRM客戶(hù)關(guān)系管理(Customer Relationship management),數(shù)據(jù)倉(cāng)庫(kù)是以數(shù)據(jù)庫(kù)技術(shù)為基礎(chǔ)但又與傳統(tǒng)的數(shù)據(jù)庫(kù)應(yīng)用有著本質(zhì)區(qū)別的新技術(shù),CRM就是基于數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的一種新應(yīng)用。但是,從商業(yè)運(yùn)作的角度來(lái)講,CRM其實(shí)應(yīng)該算是一個(gè)古老的應(yīng)用了。比如,酒店對(duì)客人信息的管理,如果某個(gè)客人是某酒店的老主顧,那么該酒店很自然地會(huì)知道這位客人的某些習(xí)慣和喜好,如是否喜歡靠路邊,是否吸煙,是否喜歡大床,喜歡什么樣的早餐,等等。當(dāng)客人再次光臨時(shí),不用客人自己提出來(lái),酒店就會(huì)提供客人所喜歡的房間和服務(wù)。這就是一種
14、CRM. Meta Data 元數(shù)據(jù),關(guān)于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù),指在數(shù)據(jù)倉(cāng)庫(kù)建設(shè)過(guò)程中所產(chǎn)生的有關(guān)數(shù)據(jù)源定義,目標(biāo)定義,轉(zhuǎn)換規(guī)則等相關(guān)的關(guān)鍵數(shù)據(jù)。同時(shí)元數(shù)據(jù)還包含關(guān)于數(shù)據(jù)含義的商業(yè)信息,所有這些信息都應(yīng)當(dāng)妥善保存,并很好地管理。為數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展和使用提供方便。數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)生的原因事務(wù)處理環(huán)境不適宜DSS應(yīng)用的原因主要有以下五條: (1)事務(wù)處理和分析處理的性能特性不同。 在事務(wù)處理環(huán)境中,用戶(hù)的行為特點(diǎn)是數(shù)據(jù)的存取操作頻率高而每次操作處理的時(shí)間短;在分析處理環(huán)境中,用戶(hù)的行為模式與此完全不同,某個(gè)DSS應(yīng)用程序可能需要連續(xù)幾個(gè)小時(shí),從而消耗大量的系統(tǒng)資源。將具有如此不同處理性能的兩種應(yīng)用放在同一個(gè)環(huán)境
15、中運(yùn)行顯然是不適當(dāng)?shù)摹?(2)數(shù)據(jù)集成問(wèn)題。 DSS需要集成的數(shù)據(jù)。全面而正確的數(shù)據(jù)是有效的分析和決策的首要前提,相關(guān)數(shù)據(jù)收集得越完整,得到的結(jié)果就越可靠。當(dāng)前絕大多數(shù)企業(yè)內(nèi)數(shù)據(jù)的真正狀況是分散而非集成的。造成這種分散的原因有多種,主要有事務(wù)處理應(yīng)用分散、“蜘蛛網(wǎng)”問(wèn)題、數(shù)據(jù)不一致問(wèn)題、外部數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。 (3)數(shù)據(jù)動(dòng)態(tài)集成問(wèn)題。 靜態(tài)集成的最大缺點(diǎn)在于,如果在數(shù)據(jù)集成后數(shù)據(jù)源中數(shù)據(jù)發(fā)生了變化,這些 變化將不能反映給決策者,導(dǎo)致決策者使用的是過(guò)時(shí)的數(shù)據(jù)。集成數(shù)據(jù)必須以一定的周期(例如24小時(shí))進(jìn)行刷新,我們稱(chēng)其為動(dòng)態(tài)集成。顯然,事務(wù)處理系統(tǒng)不具備動(dòng)態(tài)集成的能力。 (4)歷史數(shù)據(jù)問(wèn)題。 事
16、務(wù)處理一般只需要當(dāng)前數(shù)據(jù),在數(shù)據(jù)庫(kù)中一般也是存儲(chǔ)短期數(shù)據(jù),切不同數(shù)據(jù)的保存期限也不一樣,即使有一些歷史數(shù)據(jù)保存下來(lái)了,也被束之高閣,未得到充分利用。但對(duì)于決策分析而言,歷史數(shù)據(jù)是相當(dāng)重要的,許多分析方法必須一大量的歷史數(shù)據(jù)為依托。沒(méi)有歷史數(shù)據(jù)的詳細(xì)分析,是難以把握企業(yè)的發(fā)展趨勢(shì)的。DSS對(duì)數(shù)據(jù)在空間和時(shí)間的廣度上都有了更高的要求,而事務(wù)處理環(huán)境難以滿(mǎn)足這些要求。 (5)數(shù)據(jù)的綜合問(wèn)題。 在事務(wù)處理系統(tǒng)中積累了大量的細(xì)節(jié)數(shù)據(jù),一般而言,DSS并不對(duì)這些細(xì)節(jié)數(shù)據(jù)進(jìn)行分析。在分析前,往往需要對(duì)細(xì)節(jié)數(shù)據(jù)進(jìn)行不同程度的綜合。而事務(wù)處理系統(tǒng)不具備這種綜合能力,根據(jù)規(guī)范化理論,這種綜合還往往因?yàn)槭且环N數(shù)據(jù)冗
17、余而加以限制。要提高分析和決策的效率和有效性,分析型處理及其數(shù)據(jù)必須與操作型處理及其數(shù)據(jù)相分離。必須把分析型數(shù)據(jù)從事務(wù)處理環(huán)境中提取出來(lái),按照DSS處理的需要進(jìn)行重新組織,建立單獨(dú)的分析處理環(huán)境,數(shù)據(jù)倉(cāng)庫(kù)正是為了構(gòu)建這種新的分析處理環(huán)境而出現(xiàn)的一種數(shù)據(jù)存儲(chǔ)和組織技術(shù)。數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)圖數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)的建模數(shù)據(jù)模型所有的實(shí)體都是平等關(guān)系。僅僅從數(shù)據(jù)模型的角度來(lái)著手設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)會(huì)產(chǎn)生一種“平面”效應(yīng)。星型連接事實(shí)表:位于星型連接的中央,它是被大量載入數(shù)據(jù)的實(shí)體。維表:周?chē)钠渌鼘?shí)體。在很多情況下:文本數(shù)據(jù)與數(shù)值數(shù)據(jù)是分離開(kāi)的。通過(guò)數(shù)據(jù)預(yù)連接和建立有選擇的數(shù)據(jù)冗余,設(shè)計(jì)者為訪問(wèn)和分析過(guò)程大大簡(jiǎn)
18、化了數(shù)據(jù)。星型連接應(yīng)用于設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)中很大的實(shí)體,而數(shù)據(jù)模型則應(yīng)用于數(shù)據(jù)倉(cāng)庫(kù)中較小的實(shí)體。數(shù)據(jù)倉(cāng)庫(kù)建模的十條戒律:必須回答緊迫的問(wèn)題;必須有正確的事實(shí)表;將有正確的維表,描述必須按最終用戶(hù)的業(yè)務(wù)術(shù)語(yǔ)表達(dá);必須理解數(shù)據(jù)倉(cāng)庫(kù)所影響的公司過(guò)程或影響數(shù)據(jù)倉(cāng)庫(kù)的公司過(guò)程;對(duì)于事實(shí)表,應(yīng)該有正確的“粒度”;根據(jù)需要存儲(chǔ)正確長(zhǎng)度的公司歷史數(shù)據(jù);以一種對(duì)于公司有意義的方式來(lái)集成所有必要的數(shù)據(jù);創(chuàng)建必要的總結(jié)表;創(chuàng)建必要的索引;能夠加載數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)并使它以一種適宜的方式可用。數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)過(guò)程建立或獲得企業(yè)的數(shù)據(jù)模型;定義記錄系統(tǒng);設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)并按主題領(lǐng)域進(jìn)行組織;設(shè)計(jì)和建立操作型環(huán)境中的記錄系統(tǒng)和數(shù)據(jù)倉(cāng)庫(kù)之間
19、的接口,這些接口能保證數(shù)據(jù)倉(cāng)庫(kù)的載入工作能有序的進(jìn)行;開(kāi)始載入第一個(gè)主題領(lǐng)域,進(jìn)入載入和反饋過(guò)程,數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)在此過(guò)程中也在不斷地改變。數(shù)據(jù)模型的內(nèi)容標(biāo)識(shí)主要主題領(lǐng)域。各個(gè)主要主題之間的各種關(guān)系。清晰地定義模型的邊界。把原始數(shù)據(jù)和導(dǎo)出數(shù)據(jù)分離。每個(gè)主題領(lǐng)域需要標(biāo)識(shí)鍵碼屬性屬性分組之間的關(guān)系多重出現(xiàn)的數(shù)據(jù)數(shù)據(jù)的類(lèi)型數(shù)據(jù)模型轉(zhuǎn)變到數(shù)據(jù)倉(cāng)庫(kù)如果原先沒(méi)有時(shí)間元素的話,時(shí)間元素必須加入到鍵碼結(jié)構(gòu)中必須清除所有的純操作型數(shù)據(jù)需要將參照完整性關(guān)系轉(zhuǎn)換成“人工關(guān)系”將經(jīng)常需要用到的到處數(shù)據(jù)假如到設(shè)計(jì)中對(duì)數(shù)據(jù)的結(jié)構(gòu)進(jìn)行調(diào)整增加數(shù)據(jù)陣列增加數(shù)據(jù)冗余在合適的情況下進(jìn)一步分離數(shù)據(jù)在合適的時(shí)候合并數(shù)據(jù)表需要做數(shù)據(jù)的
20、穩(wěn)定性分析數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)成功的關(guān)鍵關(guān)鍵:是數(shù)據(jù)體系結(jié)構(gòu)設(shè)計(jì)者和DSS分析者之間的反饋循環(huán)。有幾點(diǎn)觀察結(jié)果對(duì)數(shù)據(jù)倉(cāng)庫(kù)環(huán)境的成功建立是至關(guān)重要的問(wèn)題:DSS分析人員一定要嚴(yán)格遵循“給我我所要的東西,然后我能告訴你我真正需要的東西”的工作模式;反饋循環(huán)的周期越短,越有可能成功;需要調(diào)整的數(shù)據(jù)量越大,反饋循環(huán)所需要的周期就越長(zhǎng)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)采集許多部件構(gòu)成了數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)。這個(gè)系統(tǒng)從現(xiàn)有的操作系統(tǒng)開(kāi)始,一部分為支持?jǐn)?shù)據(jù)倉(cāng)庫(kù)而設(shè)的后臺(tái)處理,以訪問(wèn)和運(yùn)用數(shù)據(jù)倉(cāng)庫(kù)內(nèi)數(shù)據(jù)的用戶(hù)工具而結(jié)束。在中間是個(gè)分散過(guò)程,它使數(shù)據(jù)以一種局部而不是集中的方式來(lái)支持用戶(hù)。至于其他系統(tǒng),則是覆蓋這些處理過(guò)程技術(shù)的基礎(chǔ),如安全系統(tǒng),它
21、不僅控制著在終端數(shù)據(jù)倉(cāng)庫(kù)的輸入過(guò)程,還控制著用戶(hù)在數(shù)據(jù)倉(cāng)庫(kù)的前臺(tái)訪問(wèn)能力。數(shù)據(jù)倉(cāng)庫(kù)處理的部件如圖: 后置處理中間處理前置處理安全處理用戶(hù)查詢(xún)操作系統(tǒng)數(shù)據(jù)存儲(chǔ)器數(shù)據(jù)的轉(zhuǎn)換和清理數(shù)據(jù)倉(cāng)庫(kù)部門(mén)數(shù)據(jù)中心多維數(shù)據(jù)中心后臺(tái)處理數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的后臺(tái)處理利用了操作系統(tǒng)的數(shù)據(jù)存儲(chǔ)器,以進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)內(nèi)占有活動(dòng)區(qū)域:這個(gè)處理包括以下幾個(gè)部分:數(shù)據(jù)處理為數(shù)據(jù)倉(cāng)庫(kù)收集數(shù)據(jù)的過(guò)程是從當(dāng)前操作系統(tǒng)開(kāi)始的。該數(shù)據(jù)倉(cāng)庫(kù)的后臺(tái)處理需要被分成可管理的幾個(gè)處理模塊。操作系統(tǒng)生成必須處理和輸入到數(shù)據(jù)倉(cāng)庫(kù)的事務(wù)。在數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的結(jié)構(gòu)內(nèi)必須有一種方法來(lái)截取和收集那些在操作系統(tǒng)內(nèi)已改變的數(shù)據(jù),主要用于數(shù)據(jù)倉(cāng)庫(kù)的輸入處理。數(shù)據(jù)采集在收集到操作數(shù)
22、據(jù)存儲(chǔ)器內(nèi)的變化后,數(shù)據(jù)倉(cāng)庫(kù)的后臺(tái)處理必須采集所有同以前收集的事務(wù)相關(guān)的數(shù)據(jù)。數(shù)據(jù)采集過(guò)程通常僅僅獲取驅(qū)動(dòng)數(shù)據(jù)采集過(guò)程的關(guān)鍵信息。數(shù)據(jù)制備成事務(wù)庫(kù)并用它來(lái)更新和供給數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)。這個(gè)過(guò)程在整個(gè)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中是最復(fù)雜的,因?yàn)橛脩?hù)正處理多種遺留數(shù)據(jù)源。這些數(shù)據(jù)源中的一些較為容易使用,而大部分則不是這樣。中間處理數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的中間處理利用了一個(gè)登臺(tái)區(qū)域來(lái)完成在數(shù)據(jù)倉(cāng)庫(kù)中對(duì)用戶(hù)游泳的數(shù)據(jù)。登臺(tái)區(qū)域有時(shí)被叫正式地指定為操作數(shù)據(jù)存儲(chǔ)器。數(shù)據(jù)清理在收集到所有從操作系統(tǒng)存儲(chǔ)器得來(lái)的相關(guān)信息后,數(shù)據(jù)必須在放入數(shù)據(jù)倉(cāng)庫(kù)之前進(jìn)行清理,以獲得一個(gè)適當(dāng)?shù)慕y(tǒng)一的格式和定義。數(shù)據(jù)的放置和分發(fā)當(dāng)完成數(shù)據(jù)清理后,數(shù)據(jù)就必須放置
23、到數(shù)據(jù)倉(cāng)庫(kù)中。標(biāo)準(zhǔn)報(bào)表的編譯和索引在數(shù)據(jù)已放入數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)存儲(chǔ)器之后,對(duì)包含于數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)內(nèi)的標(biāo)準(zhǔn)報(bào)表必須進(jìn)行編譯和索引。在這個(gè)過(guò)程結(jié)束后,報(bào)表很像數(shù)據(jù)倉(cāng)庫(kù)內(nèi)的原始數(shù)據(jù),將讓用戶(hù)在線有用,不必用紙張的形式發(fā)送。中間處理更新了數(shù)據(jù)倉(cāng)庫(kù)中登臺(tái)區(qū)域的數(shù)據(jù),并使之成為可供最終客戶(hù),也就是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的用戶(hù)使用的信息庫(kù)。前臺(tái)處理前臺(tái)處理過(guò)程涉及到允許用戶(hù)對(duì)數(shù)據(jù)倉(cāng)庫(kù)所包含的信息進(jìn)行正確的訪問(wèn),及提供用戶(hù)工具集所需的目錄和中間數(shù)據(jù)信息。大多數(shù)數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目的目標(biāo)應(yīng)當(dāng)是驅(qū)使這一過(guò)程進(jìn)入強(qiáng)大的用戶(hù)領(lǐng)域,并脫離信息系統(tǒng)空間。然而,需要構(gòu)造幾個(gè)關(guān)鍵的應(yīng)用程序以用于經(jīng)驗(yàn)不足的數(shù)據(jù)倉(cāng)庫(kù)用戶(hù)。該過(guò)程的任務(wù)包括用新的信息內(nèi)容
24、來(lái)更新訪問(wèn)數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用程序,通過(guò)適當(dāng)?shù)挠脩?hù)工具組內(nèi)的視圖或分類(lèi)定義來(lái)提高訪問(wèn)能力。數(shù)據(jù)倉(cāng)庫(kù)的技術(shù)體系結(jié)構(gòu)雖然普遍認(rèn)為數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)能夠改善最終用戶(hù)查詢(xún)、報(bào)表生成和DSS能力,而且能幫助組織投入公司數(shù)據(jù)以獲取市場(chǎng)競(jìng)爭(zhēng)優(yōu)勢(shì),但在數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)構(gòu)成方面看法卻不盡相同。數(shù)據(jù)倉(cāng)庫(kù)的技術(shù)體系結(jié)構(gòu)如下圖:源數(shù)據(jù)外部數(shù)據(jù)信息目錄模塊數(shù)據(jù)倉(cāng)庫(kù)之元數(shù)據(jù)數(shù)據(jù)管理員模塊數(shù)據(jù)倉(cāng)庫(kù)之?dāng)?shù)據(jù)數(shù)據(jù)獲取模塊數(shù)據(jù)傳遞模塊中間件模塊數(shù)據(jù)訪問(wèn)模塊設(shè)計(jì)模塊管理模塊外部元數(shù)據(jù)設(shè)計(jì)模塊:用于設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)數(shù)據(jù)獲取模塊:用于從源文件和源數(shù)據(jù)庫(kù)中獲取數(shù)據(jù),并進(jìn)行清潔、傳輸,將它加到數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)中管理模塊:用于管理數(shù)據(jù)倉(cāng)庫(kù)的運(yùn)行信息目錄模塊:
25、用于為管理者和企業(yè)用戶(hù)提供有關(guān)存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)中的數(shù)據(jù)的內(nèi)容和含義信息數(shù)據(jù)訪問(wèn)模塊:用于為企業(yè)的最終用戶(hù)提供訪問(wèn)和分析數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)的工具中間件模塊:用于最終用戶(hù)工具提供訪問(wèn)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的方法數(shù)據(jù)傳遞模塊:用于向其他倉(cāng)庫(kù)和外部系統(tǒng)中分配數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)的三個(gè)重要組成部分,專(zhuān)家們一般把整個(gè)數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)按照其不同性質(zhì),把它分為三個(gè)截然不同的部分,分別是:源數(shù)據(jù)、數(shù)據(jù)準(zhǔn)備、以及數(shù)據(jù)呈現(xiàn)?,F(xiàn)在講的最多的OLAP分析和決策支持等,都是屬于數(shù)據(jù)呈現(xiàn)的部分,下面我們來(lái)講一講數(shù)據(jù)準(zhǔn)備階段的問(wèn)題。數(shù)據(jù)的有效性檢查為避免數(shù)據(jù)冗余,要認(rèn)識(shí)到數(shù)據(jù)裝入數(shù)據(jù)倉(cāng)庫(kù)之前,應(yīng)該對(duì)數(shù)據(jù)進(jìn)行有效性檢查,這是很重要的。如果
26、沒(méi)有進(jìn)行刃具的有效性檢查,就有可能破壞依賴(lài)于數(shù)據(jù)倉(cāng)庫(kù)的商務(wù)分析的完整性,幫助檢查數(shù)據(jù)的有效性的最好方法是源系統(tǒng)專(zhuān)家。源系統(tǒng)專(zhuān)家包括具有技術(shù)專(zhuān)業(yè)知識(shí)和非技術(shù)知識(shí)的人士。檢查數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的有效性是一個(gè)非常耗時(shí)但必不可少的過(guò)程。建議該過(guò)程應(yīng)高度自動(dòng)化。SQL Server7中有許多內(nèi)置功能,可自動(dòng)進(jìn)行數(shù)據(jù)有效性檢查。清除和轉(zhuǎn)換數(shù)據(jù)有效性檢查是決定是否符合給定標(biāo)準(zhǔn)的過(guò)程。標(biāo)準(zhǔn)是依賴(lài)于安裝的,為某個(gè)站點(diǎn)開(kāi)發(fā)和執(zhí)行的標(biāo)準(zhǔn)可能在其他地方毫無(wú)意義。如果數(shù)據(jù)不在給定的界限之內(nèi),它就成為我們稱(chēng)作scrubbing(清除)過(guò)程的對(duì)象。清除數(shù)據(jù)包括對(duì)那些在給定范圍之外的數(shù)據(jù)采取糾正措施。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)來(lái)自于多種業(yè)
27、務(wù)數(shù)據(jù)源,這些數(shù)據(jù)源可能是在不同的硬件平臺(tái)上,使用不同的操作系統(tǒng),因而數(shù)據(jù)以不同的格式存在不同的數(shù)據(jù)庫(kù)中。如何向數(shù)據(jù)倉(cāng)庫(kù)中加載這些數(shù)量大、種類(lèi)多的數(shù)據(jù),已成為建立數(shù)據(jù)倉(cāng)庫(kù)所面臨的一個(gè)關(guān)鍵問(wèn)題。在數(shù)據(jù)遷移的過(guò)程中,通常需要將操作數(shù)據(jù)轉(zhuǎn)換成另一種格式以更加適用于數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)。在太多數(shù)情況下,轉(zhuǎn)換是將數(shù)據(jù)匯總,以使它更有意義。 在轉(zhuǎn)換結(jié)構(gòu)中,確保能找出一種最好的方法保證數(shù)據(jù)從傳統(tǒng)的數(shù)據(jù)存儲(chǔ)器到數(shù)據(jù)倉(cāng)庫(kù)的同步。同步結(jié)構(gòu)應(yīng)當(dāng)把重點(diǎn)放在轉(zhuǎn)換語(yǔ)言的標(biāo)準(zhǔn)化、數(shù)據(jù)移動(dòng)平臺(tái)、通信策略和支持策略方面。數(shù)據(jù)倉(cāng)庫(kù)與操作數(shù)據(jù)存儲(chǔ)器之間的同步過(guò)程能夠采取不同的結(jié)構(gòu)。 除尋找自動(dòng)化轉(zhuǎn)換操作的工具之外,還應(yīng)估計(jì)數(shù)據(jù)轉(zhuǎn)換的復(fù)雜性
28、。大多數(shù)傳統(tǒng)的數(shù)據(jù)存儲(chǔ)方法缺乏標(biāo)準(zhǔn),常常有些不規(guī)則的東西讓開(kāi)發(fā)員摸不著頭腦。工具正在不斷改進(jìn)以有助于轉(zhuǎn)換過(guò)程的自動(dòng)化,包括復(fù)雜問(wèn)題,如掩匿的數(shù)據(jù)、傳統(tǒng)標(biāo)準(zhǔn)的缺乏及不統(tǒng)一的關(guān)鍵數(shù)據(jù)。提取處理是數(shù)據(jù)倉(cāng)庫(kù)成功的關(guān)鍵。在提取過(guò)程中,數(shù)據(jù)會(huì)被格式化,并分發(fā)給需要從操作環(huán)境中共享數(shù)據(jù)的資源。元數(shù)據(jù)存儲(chǔ)的工作是定義和解釋數(shù)據(jù)資源和數(shù)據(jù)標(biāo)準(zhǔn)。因此,在操作數(shù)據(jù)上執(zhí)行的轉(zhuǎn)換過(guò)程應(yīng)該用元數(shù)據(jù)存儲(chǔ)中定義的標(biāo)準(zhǔn)數(shù)據(jù)格式放置數(shù)據(jù)。我們可以定義數(shù)據(jù)變換的幾個(gè)基本類(lèi)型,每一類(lèi)都有自己的特點(diǎn)和表現(xiàn)形式:簡(jiǎn)單變換 單變換是所有數(shù)據(jù)變換的基本構(gòu)成單元。這一類(lèi)中包括的數(shù)據(jù)處理一次只針對(duì)一個(gè)字段,而不是考慮相關(guān)字段的值。清潔和刷洗 目
29、的是為了保證前后一致地格式化和使用某一字段或相關(guān)的字段群。集成 集成是將業(yè)務(wù)數(shù)據(jù)從一個(gè)或幾個(gè)來(lái)源中取出,并逐字段地將數(shù)據(jù)影射到數(shù)據(jù)倉(cāng)庫(kù)的新數(shù)據(jù)結(jié)構(gòu)上。聚集和概括聚集和概括是把業(yè)務(wù)環(huán)境中找到的零星數(shù)據(jù)壓縮成數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中的較少數(shù)據(jù)塊,有時(shí)進(jìn)行聚集中的細(xì)節(jié)數(shù)據(jù)是為了避免倉(cāng)庫(kù)存入業(yè)務(wù)環(huán)境中的那樣具體的數(shù)據(jù),有時(shí)則是為了建立包括倉(cāng)庫(kù)的聚集副本或概括副本的數(shù)據(jù)商場(chǎng)。簡(jiǎn)單變換顧名思義,它是數(shù)據(jù)變換中最簡(jiǎn)單的形式,這些變換一次改變一個(gè)數(shù)據(jù)屬性而不考慮該屬性的背景或與它相關(guān)的其他信息。數(shù)據(jù)類(lèi)型轉(zhuǎn)換最常見(jiàn)的簡(jiǎn)單變換是轉(zhuǎn)換一個(gè)數(shù)據(jù)元的類(lèi)型。當(dāng)現(xiàn)有應(yīng)用程序存儲(chǔ)某個(gè)類(lèi)型的數(shù)據(jù)只在該應(yīng)用程序的背景下有意義,在企業(yè)水平上
30、卻沒(méi)有意義時(shí),就常常要求進(jìn)行這類(lèi)變換。這類(lèi)轉(zhuǎn)換可以通過(guò)編碼程序中的簡(jiǎn)單程序邏輯完成,或者運(yùn)用數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)變換工具完成。日期/時(shí)間格式的轉(zhuǎn)換因?yàn)榇蠖鄶?shù)業(yè)務(wù)環(huán)境都有許多不同的日期和時(shí)間類(lèi)型,所以幾乎每個(gè)數(shù)據(jù)倉(cāng)庫(kù)的實(shí)現(xiàn)都必須將日期和時(shí)間變換成標(biāo)準(zhǔn)的倉(cāng)庫(kù)格式。這可以通過(guò)手工程序編碼來(lái)完成。它能把一個(gè)日期或時(shí)間字段拆成幾個(gè)子部分,然后再將它們拼成想要的字段。然而市場(chǎng)上的大多數(shù)數(shù)據(jù)變換工具只提供了日期和時(shí)間格式之間迅速進(jìn)行簡(jiǎn)單轉(zhuǎn)換的設(shè)施,而手工編碼上下的功夫要少得多。字段解碼簡(jiǎn)單地說(shuō),數(shù)據(jù)一般不應(yīng)該以編碼的格式放在數(shù)據(jù)倉(cāng)庫(kù)中。我們?cè)跇I(yè)務(wù)數(shù)據(jù)庫(kù)中建立代碼是為了節(jié)省數(shù)據(jù)庫(kù)存儲(chǔ)空間。雖然人不理解這些代碼,但這并
31、不是大問(wèn)題,因?yàn)槲覀兣c那些代碼的交互作用是由應(yīng)用程序管理的。這些程序在必要的時(shí)候會(huì)成為我們破解那些值的代碼。在數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中,情況就大不一樣了。因?yàn)閾碜o(hù)可能來(lái)自公司的任何部門(mén),所以倉(cāng)庫(kù)的所有用戶(hù)不可能都有足夠的背景知識(shí)和培訓(xùn),使他們能夠理解在業(yè)務(wù)數(shù)據(jù)庫(kù)中使用的編碼值。因此,業(yè)務(wù)系統(tǒng)和外部數(shù)據(jù)中的編碼值在存入數(shù)據(jù)倉(cāng)庫(kù)之前,應(yīng)該轉(zhuǎn)換為經(jīng)過(guò)解碼的、易于理解的相應(yīng)值。一方面,我們想把編碼值充分?jǐn)U展,使它們?yōu)樽畲蠖鄶?shù)的用戶(hù)理解;另一方面,把一個(gè)值擴(kuò)展得太多要占用額外的存儲(chǔ)空間,而且把該值當(dāng)作查詢(xún)中的檢索標(biāo)準(zhǔn)也很困難。由于顧客情況代碼不被普遍理解,所以應(yīng)該擴(kuò)展為一個(gè)有意義的、易于理解的值,以便倉(cāng)庫(kù)用戶(hù)能夠
32、認(rèn)出它。用到的準(zhǔn)則是:必須長(zhǎng)到足以被大多數(shù)倉(cāng)庫(kù)用戶(hù)理解。從技術(shù)角度看,字段解碼是個(gè)非常易于實(shí)現(xiàn)的過(guò)程,它可以很容易地結(jié)合到變換程序中去,也可以在數(shù)據(jù)轉(zhuǎn)換工具中輕松地完成,然而,確定應(yīng)該進(jìn)行多少解碼工作是很難的。但一個(gè)好的解決方法往往提供了足夠的解碼,這樣即使普遍用戶(hù)也可以理解字段值的含義,并且可以用全面理解數(shù)據(jù)元值及其用法的元數(shù)據(jù)加深他的理解。清潔和刷洗清潔和刷洗是兩個(gè)可互換的術(shù)語(yǔ),指的是比簡(jiǎn)單變換更復(fù)雜的一種數(shù)據(jù)變換。在這種變換中,要檢查的是字段或字段組的實(shí)際內(nèi)容而不僅是存儲(chǔ)格式。一種清潔是檢查數(shù)據(jù)字段中的有效值。這可以通過(guò)范圍檢驗(yàn)、枚舉清單和相關(guān)檢驗(yàn)來(lái)完成。有效值范圍檢驗(yàn)是數(shù)據(jù)刷洗的最簡(jiǎn)單
33、形式,它是指檢驗(yàn)一個(gè)字段中的數(shù)據(jù)以保證它落在預(yù)期范圍之內(nèi),通常是數(shù)字范圍或日期范圍。枚舉清單也相對(duì)容易實(shí)現(xiàn)。這種方法是對(duì)照數(shù)據(jù)字段可接受值的清單檢驗(yàn)該字段的值。相關(guān)檢驗(yàn)稍微復(fù)雜一些,因?yàn)樗髮⒁粋€(gè)字段中的值與另一個(gè)字段中的值進(jìn)行對(duì)比。當(dāng)然,數(shù)據(jù)清潔規(guī)則往往是這些不同方法的結(jié)合。復(fù)雜的重新格式化數(shù)據(jù)刷洗的另一主要類(lèi)型是重新格式化某些類(lèi)型的數(shù)據(jù),這種方法適用于可以用許多不同方式存儲(chǔ)在不同數(shù)據(jù)來(lái)源中的信息,必須在數(shù)據(jù)倉(cāng)庫(kù)中把這類(lèi)信息轉(zhuǎn)換成一種統(tǒng)一的表示方式。最需要格式化的信息之一是地址信息,由于沒(méi)有一種獲取地址的標(biāo)準(zhǔn)方式,所以同一個(gè)地址可以用許多不同方式表達(dá)出來(lái)。這就要求將地址解析成幾個(gè)組成部分,
34、然后將這些組成部分進(jìn)行轉(zhuǎn)換并重新排列成一個(gè)同意的格式。集成要把從全然不同的數(shù)據(jù)源中得到的業(yè)務(wù)數(shù)據(jù)結(jié)合在一起,真正的困難在于將它們集成為一個(gè)緊密結(jié)合的數(shù)據(jù)模型。這是因?yàn)閿?shù)據(jù)必須從多個(gè)數(shù)據(jù)源中提取出來(lái),并結(jié)合成為一個(gè)新的實(shí)體。這些數(shù)據(jù)來(lái)源往往遵守的不是同一套業(yè)務(wù)規(guī)則,在生成新數(shù)據(jù)時(shí),必須考慮到這一差異。字段水平的簡(jiǎn)單影射字段水平的簡(jiǎn)單映射在必須執(zhí)行的數(shù)據(jù)變換總量中站去了大部分。這種映射的定義是指數(shù)據(jù)中的一個(gè)字段被轉(zhuǎn)移到目標(biāo)數(shù)據(jù)字段中的過(guò)程。在這過(guò)程中,這個(gè)字段可以利用前面討論過(guò)的任何一種簡(jiǎn)單變換進(jìn)行變換,它可以被刷洗或重新格式化。復(fù)雜集成在一般的數(shù)據(jù)倉(cāng)庫(kù)中,數(shù)據(jù)轉(zhuǎn)移和集成中的10%20%要比從源字
35、段到目標(biāo)字段的簡(jiǎn)單移動(dòng)復(fù)雜一些。為了將源數(shù)據(jù)變換為目標(biāo)數(shù)據(jù),這些復(fù)雜集成必須做更多的分析。通用標(biāo)識(shí)符問(wèn)題 通用標(biāo)識(shí)符問(wèn)題是許多公司在建立數(shù)據(jù)倉(cāng)庫(kù)時(shí)所遇到的最困難的集成問(wèn)題之一。當(dāng)同一業(yè)務(wù)實(shí)體存在于多個(gè)系統(tǒng)源,并且沒(méi)有明確的辦法確認(rèn)這些實(shí)體其實(shí)是同一實(shí)體的時(shí)候,往往會(huì)發(fā)生這個(gè)問(wèn)題。這個(gè)問(wèn)題往往很難用自動(dòng)化方法解決,通常要求復(fù)雜的算法配對(duì)可能的匹配。有時(shí)在倉(cāng)庫(kù)中存入可能的匹配是可以接受的,但有時(shí)這些匹配在存入數(shù)據(jù)倉(cāng)庫(kù)之前必須先由人來(lái)檢驗(yàn)。很多公司實(shí)行一種兩階段戰(zhàn)略來(lái)處理該問(wèn)題。第一階段是隔離,在這一階段中,我們?cè)噲D保證實(shí)體的每次出現(xiàn)都指派一個(gè)唯一標(biāo)識(shí)符;第二階段是調(diào)和,我們開(kāi)始確認(rèn)哪些實(shí)體其實(shí)是相
36、同的,并且將該實(shí)體的各次出現(xiàn)合并在一起。目標(biāo)元素的多個(gè)來(lái)源當(dāng)同一個(gè)目標(biāo)數(shù)據(jù)元有多個(gè)來(lái)源時(shí),會(huì)出現(xiàn)另一個(gè)復(fù)雜的數(shù)據(jù)集成問(wèn)題,即很難保證該元素的各個(gè)來(lái)源總能保持一致。實(shí)際上,這樣的數(shù)據(jù)元存在矛盾值比不同來(lái)源中的值相同更為普遍。解決沖突的簡(jiǎn)單辦法是指定某一系統(tǒng)在沖突中占據(jù)主導(dǎo)地位。數(shù)據(jù)丟失問(wèn)題數(shù)值沒(méi)有值的問(wèn)題與一個(gè)數(shù)據(jù)元有多個(gè)沖突值的問(wèn)題一樣困難。有時(shí)為一個(gè)丟失的元素把空白或空值賦進(jìn)倉(cāng)庫(kù)中也是可以接受的,而有時(shí)數(shù)據(jù)元必須有值,對(duì)該表格所做的查詢(xún)才會(huì)有效。必須為該數(shù)據(jù)賦一些估計(jì)值。如果是業(yè)務(wù)系統(tǒng),數(shù)據(jù)庫(kù)中有這種明知不準(zhǔn)確的值是沒(méi)有意義的,但對(duì)數(shù)據(jù)倉(cāng)庫(kù)來(lái)說(shuō),有估計(jì)值比根本沒(méi)有值可能要好得多。因此,對(duì)于倉(cāng)
37、庫(kù)中的每種數(shù)據(jù)類(lèi)型,設(shè)計(jì)人員必須在存入估計(jì)數(shù)據(jù)的內(nèi)在風(fēng)險(xiǎn)和數(shù)據(jù)丟失所造成的誤解的風(fēng)險(xiǎn)之間進(jìn)行權(quán)衡。用于這一目的最普遍技術(shù)是生成使曲線平滑的數(shù)據(jù)。然而,很多企業(yè)都有非常復(fù)雜的數(shù)據(jù)估計(jì)方法。這些方法能夠調(diào)節(jié)許多變量,為丟失的數(shù)據(jù)生成一個(gè)非常接近實(shí)際的值。衍生數(shù)據(jù)/計(jì)算數(shù)據(jù)數(shù)據(jù)變換的最常見(jiàn)形式之一就是計(jì)算和生成衍生數(shù)據(jù)元或計(jì)算數(shù)據(jù)元。它包括平均值、總和或統(tǒng)計(jì)計(jì)算,還包括復(fù)雜的業(yè)務(wù)計(jì)算。衍生數(shù)據(jù)字段通常是冗余的,因?yàn)橛?jì)算中涉及的數(shù)據(jù)也存儲(chǔ)在倉(cāng)庫(kù)中,然而,它能大大簡(jiǎn)化查詢(xún),保證存入倉(cāng)庫(kù)中的這些衍生值的正確性和一致性,這樣,在查詢(xún)中可以選用它們,而不必在用戶(hù)需要時(shí)都計(jì)算一次。在這方面,數(shù)據(jù)變換工具是很有用
38、的,因?yàn)檫@些工具能迅速而輕松地進(jìn)行各種計(jì)算,無(wú)需擔(dān)心編程員是否正確地編寫(xiě)了計(jì)算邏輯。聚集和概括大多數(shù)數(shù)據(jù)倉(cāng)庫(kù)都要用到數(shù)據(jù)的某種聚集和概括。這通常有助于將某一實(shí)體的實(shí)例數(shù)目減少到易于駕馭的水平,也有助于預(yù)先計(jì)算出廣泛應(yīng)用的概括數(shù)字,以使每個(gè)查詢(xún)不必計(jì)算它們。概括是指按照一個(gè)或幾個(gè)業(yè)務(wù)維將相近的數(shù)值加在一起。聚集指將不同業(yè)務(wù)元素加在一起或?yàn)橐粋€(gè)公共總數(shù)。在數(shù)據(jù)倉(cāng)庫(kù)中它們是以相同的方式進(jìn)行的。數(shù)據(jù)倉(cāng)庫(kù)中存放的最具體的數(shù)據(jù)不與業(yè)務(wù)系統(tǒng)中存放的細(xì)節(jié)數(shù)據(jù)一樣聚集。這時(shí),就有必要在變換業(yè)務(wù)數(shù)據(jù)的過(guò)程中加入一些數(shù)據(jù)聚集功能。這可以減少存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中的行數(shù)。聚集還可以去除數(shù)據(jù)倉(cāng)庫(kù)中的過(guò)時(shí)細(xì)節(jié)。在許多情況下,數(shù)
39、據(jù)在一定時(shí)期內(nèi)要以很具體的水平存放著,一旦數(shù)據(jù)到了某一時(shí)限,對(duì)所有這些細(xì)節(jié)的需求就大大減弱了。此時(shí),這些非常具體的數(shù)據(jù)應(yīng)該傳送到離線存儲(chǔ)器或近線存儲(chǔ)器中,而數(shù)據(jù)的概括形式則可以存放在數(shù)據(jù)倉(cāng)庫(kù)中。目前可以得到的數(shù)據(jù)刷洗工具中,許多都已內(nèi)置了概括功能,尤其是在時(shí)間維上進(jìn)行聚集的功能。當(dāng)然,不管如何做到這一點(diǎn),重要的是用戶(hù)能夠輕松地訪問(wèn)元數(shù)據(jù),了解生成總和數(shù)據(jù)所用的標(biāo)準(zhǔn)。移動(dòng)數(shù)據(jù)將數(shù)據(jù)移出操作系統(tǒng)一般包括:在數(shù)據(jù)最終復(fù)制到數(shù)據(jù)倉(cāng)庫(kù)之前,將它們拷貝到一個(gè)中間位置。理想狀況下,拷貝數(shù)據(jù)的過(guò)程應(yīng)該在操作系統(tǒng)不忙時(shí)進(jìn)行。確保了解自己的商務(wù)及其支持系統(tǒng)。如果還未完成大量的更新,就不應(yīng)該移動(dòng)數(shù)據(jù)。如果數(shù)據(jù)倉(cāng)庫(kù)中
40、的數(shù)據(jù)來(lái)自多個(gè)相互關(guān)聯(lián)的操作系統(tǒng),就應(yīng)該保證在這些系統(tǒng)同步工作時(shí)移動(dòng)數(shù)據(jù)。廣義的數(shù)據(jù)準(zhǔn)備,覆蓋面很廣泛,包含了從數(shù)據(jù)源抽取數(shù)據(jù),一直到最終數(shù)據(jù)呈現(xiàn)在用戶(hù)面前之間的所有工作,這其中的最主要的工作就是數(shù)據(jù)的抽取、轉(zhuǎn)換、清洗、裝載等一系列工作。在最初的數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn)之前所有的這些工作都是用程序手工實(shí)現(xiàn)的。這樣就造成了一個(gè)非常嚴(yán)重的問(wèn)題,就是數(shù)據(jù)倉(cāng)庫(kù)的持續(xù)發(fā)展問(wèn)題,因?yàn)槔贸绦驅(qū)崿F(xiàn)每一個(gè)數(shù)據(jù)抽取過(guò)程,導(dǎo)致所有的數(shù)據(jù)邏輯都隱藏在程序內(nèi)部,當(dāng)數(shù)據(jù)倉(cāng)庫(kù)進(jìn)一步發(fā)展時(shí),這些程序的管理和修改,將成為阻礙數(shù)據(jù)倉(cāng)庫(kù)發(fā)展的最大的障礙。經(jīng)過(guò)一段時(shí)間的發(fā)展,人們最終認(rèn)識(shí)到ETL工具的重要性,于是相關(guān)的ETL工具也紛紛出臺(tái),其
41、中比較著名的是IBM的Visual warehouse,Ardent公司的data stage等等。如何判斷一個(gè)ETL工具的優(yōu)略呢,一般而言,主要有一下幾個(gè)因素:1OPEN datasourceThe tools must extract data from most kind of data source use Native database Driver就是說(shuō)這種工具必須從很多不同的數(shù)據(jù)源抽取數(shù)據(jù),并盡可能地使用數(shù)據(jù)源本身提供的驅(qū)動(dòng)程序來(lái)提高使用效率2OPEN target DatabaseThe Tools must can Use most database like (DB2,OR
42、ACLE.ETC.) as Target database.要支持不同的數(shù)據(jù)庫(kù)作為數(shù)據(jù)倉(cāng)庫(kù)的載體3Schedule job可以定時(shí)進(jìn)行數(shù)據(jù)的更新的整理4High Performance較高的工作效率5Metadata management完善的元數(shù)據(jù)管理,可以對(duì)整個(gè)ETL過(guò)程中產(chǎn)生的元數(shù)據(jù)進(jìn)行管理6Parallel support支持并行數(shù)據(jù)抽取7Visualize UI可視化的工作界面8Custom define program可以支持用戶(hù)自定義的程序做一些普通SQL語(yǔ)句無(wú)法完成的工作9SecuritySupport multi user and user group支持多用戶(hù)和多用戶(hù)組的工
43、作方式10Increment data extract support可以實(shí)現(xiàn)數(shù)據(jù)的增量抽取11Use subject to manage ETL Job用戶(hù)可以對(duì)所有進(jìn)程按照主題進(jìn)行管理12 Enable Complex cleansing and transformAutomatic generate SQL, Custom SQL support 支持復(fù)雜的數(shù)據(jù)清洗工作,自動(dòng)生成SQL語(yǔ)句,用戶(hù)自定義SQL13Support MDD data load可以支持多維數(shù)據(jù)庫(kù)的數(shù)據(jù)加載14Support TB data extract and load可以支持TB級(jí)別的數(shù)據(jù)加載15Data m
44、odel export and import 現(xiàn)有設(shè)置可以進(jìn)行Export和import如何建立數(shù)據(jù)倉(cāng)庫(kù) 數(shù)據(jù)倉(cāng)庫(kù)的實(shí)現(xiàn)主要以關(guān)系數(shù)據(jù)庫(kù)(RDB)技術(shù)為基礎(chǔ),因?yàn)殛P(guān)系數(shù)據(jù)庫(kù)的數(shù)據(jù)存儲(chǔ)和管理技術(shù)發(fā)展得較為成熟,其成本和復(fù)雜性較低,已開(kāi)發(fā)成功的大型事務(wù)數(shù)據(jù)庫(kù)多為關(guān)系數(shù)據(jù)庫(kù),但關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)并不能滿(mǎn)足數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存儲(chǔ)要求,需要通過(guò)使用一些技術(shù),如動(dòng)態(tài)分區(qū)、位圖索引、優(yōu)化查詢(xún)等,使關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)在數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用環(huán)境中的性能得到大幅度的提高。 數(shù)據(jù)倉(cāng)庫(kù)在構(gòu)建之初應(yīng)明確其主題,主題是一個(gè)在較高層次將數(shù)據(jù)歸類(lèi)的標(biāo)準(zhǔn),每一個(gè)主題對(duì)應(yīng)一個(gè)宏觀的分析領(lǐng)域,針對(duì)具體決策需求可細(xì)化為多個(gè)主題表,具體來(lái)說(shuō)就是確定決
45、策涉及的范圍和所要解決的問(wèn)題。但是主題的確定必須建立在現(xiàn)有聯(lián)機(jī)事務(wù)處理(OLTP)系統(tǒng)基礎(chǔ)上,否則按此主題設(shè)計(jì)的數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)結(jié)構(gòu)將成為一個(gè)空殼,缺少可存儲(chǔ)的數(shù)據(jù)。但一味注重OLTP數(shù)據(jù)信息,也將導(dǎo)致迷失數(shù)據(jù)提取方向,偏離主題。需要在OLTP數(shù)據(jù)和主題之間找到一個(gè)“平衡點(diǎn)”,根據(jù)主題的需要完整地收集數(shù)據(jù),這樣構(gòu)建的數(shù)據(jù)倉(cāng)庫(kù)才能滿(mǎn)足決策和分析的需要。 建立一個(gè)數(shù)據(jù)倉(cāng)庫(kù)需要經(jīng)過(guò)以下幾個(gè)處理過(guò)程:數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì);數(shù)據(jù)抽取;數(shù)據(jù)管理。 數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì) 根據(jù)決策主題設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu),一般采用星型模型和雪花模型設(shè)計(jì)其數(shù)據(jù)模型,在設(shè)計(jì)過(guò)程中應(yīng)保證數(shù)據(jù)倉(cāng)庫(kù)的規(guī)范化和體系各元素的必要聯(lián)系。主要有以下3個(gè)步驟: 定義該
46、主題所需各數(shù)據(jù)源的詳細(xì)情況,包括所在計(jì)算機(jī)平臺(tái)、擁有者、數(shù)據(jù)結(jié)構(gòu)、使用該數(shù)據(jù)源的處理過(guò)程、倉(cāng)庫(kù)更新計(jì)劃等。 定義數(shù)據(jù)抽取原則,以便從每個(gè)數(shù)據(jù)源中抽取所需數(shù)據(jù);定義數(shù)據(jù)如何轉(zhuǎn)換、裝載到主題的哪個(gè)數(shù)據(jù)表中。 將一個(gè)主題細(xì)化為多個(gè)業(yè)務(wù)主題,形成主題表,據(jù)此從數(shù)據(jù)倉(cāng)庫(kù)中選出多個(gè)數(shù)據(jù)子集,即數(shù)據(jù)集市(DataMart)。數(shù)據(jù)集市通常針對(duì)部門(mén)級(jí)的決策或某個(gè)特定業(yè)務(wù)需求,它開(kāi)發(fā)周期短,費(fèi)用低,能在較短時(shí)間內(nèi)滿(mǎn)足用戶(hù)決策的需要。因此,在實(shí)際開(kāi)發(fā)過(guò)程中可以選擇在成功建立幾個(gè)數(shù)據(jù)集市后再構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)這種策略。 這些數(shù)據(jù)定義直接輸入系統(tǒng)中,作為元數(shù)據(jù)(metadata)存儲(chǔ),供數(shù)據(jù)管理模塊和分析使用。元數(shù)據(jù)存儲(chǔ)在元
47、數(shù)據(jù)庫(kù)中,它不僅是數(shù)據(jù)倉(cāng)庫(kù)的文檔資料,供管理、維護(hù)人員使用,而且亦可供用戶(hù)查詢(xún),使之更好地了解數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu),提高自己的使用水平。 數(shù)據(jù)抽取模塊 該模塊是根據(jù)元數(shù)據(jù)庫(kù)中的主題表定義、數(shù)據(jù)源定義、數(shù)據(jù)抽取規(guī)則定義對(duì)異地異構(gòu)數(shù)據(jù)源(包括各平臺(tái)的數(shù)據(jù)庫(kù)、文本文件、HTML文件、知識(shí)庫(kù)等)進(jìn)行清理、轉(zhuǎn)換,對(duì)數(shù)據(jù)進(jìn)行重新組織和加工,裝載到數(shù)據(jù)倉(cāng)庫(kù)的目標(biāo)庫(kù)中。在組織不同來(lái)源的數(shù)據(jù)過(guò)程中,先將數(shù)據(jù)轉(zhuǎn)換成一種中間模式,再把它移至臨時(shí)工作區(qū)。加工數(shù)據(jù)是保證目標(biāo)數(shù)據(jù)庫(kù)中數(shù)據(jù)的完整性、一致性。例如,有兩個(gè)數(shù)據(jù)源存儲(chǔ)與人員有關(guān)的信息,在定義數(shù)據(jù)組成的人員編碼類(lèi)型時(shí),可能一個(gè)是字符型,一個(gè)是整型;在定義人員性別這一屬性的
48、類(lèi)型時(shí),一個(gè)可能是char(2),存儲(chǔ)的數(shù)據(jù)值為“男”和“女”,而另一個(gè)屬性類(lèi)型為char(1),數(shù)據(jù)值為“F”和“M”。這兩個(gè)數(shù)據(jù)源的值都是正確的,但對(duì)于目標(biāo)數(shù)據(jù)來(lái)說(shuō),必須加工為一種統(tǒng)一的方法來(lái)表示該屬性值,然后交由最終用戶(hù)進(jìn)行驗(yàn)證,這樣才能保證數(shù)據(jù)的質(zhì)量。在數(shù)據(jù)抽取過(guò)程中,必須在最終用戶(hù)的密切配合下,才能實(shí)現(xiàn)數(shù)據(jù)的真正統(tǒng)一。早期數(shù)據(jù)抽取是依靠手工編程和程序生成器實(shí)現(xiàn),現(xiàn)在則通過(guò)高效的工具來(lái)實(shí)現(xiàn),如Ardent公司的Infomoter產(chǎn)品、SAS的數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)品SAS/WA(WarehouseAdministrator)及各大數(shù)據(jù)倉(cāng)庫(kù)廠商推出的、完整的數(shù)據(jù)倉(cāng)庫(kù)解決方案。 數(shù)據(jù)維護(hù)模塊 該模塊分
49、為目標(biāo)數(shù)據(jù)維護(hù)和元數(shù)據(jù)維護(hù)兩方面。目標(biāo)數(shù)據(jù)維護(hù)是根據(jù)元數(shù)據(jù)庫(kù)所定義的更新頻率、更新數(shù)據(jù)項(xiàng)等更新計(jì)劃任務(wù)來(lái)刷新數(shù)據(jù)倉(cāng)庫(kù),以反映數(shù)據(jù)源的變化,且對(duì)時(shí)間相關(guān)性進(jìn)行處理。更新操作有兩種情況,即在倉(cāng)庫(kù)的原有數(shù)據(jù)表中進(jìn)行某些數(shù)據(jù)的更新和產(chǎn)生一個(gè)新的時(shí)間區(qū)間的數(shù)據(jù),因?yàn)閰R總數(shù)據(jù)與數(shù)據(jù)倉(cāng)庫(kù)中的許多信息元素有關(guān)系,必需完整地匯總,這樣才能保證全體信息的一致性。 數(shù)據(jù)倉(cāng)庫(kù)規(guī)模一般都很大,從建立之初就要保證它的可管理性,一個(gè)企業(yè)可能建立幾個(gè)數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市,但他們可共用一個(gè)元數(shù)據(jù)庫(kù)對(duì)其進(jìn)行管理。首先從元數(shù)據(jù)庫(kù)查詢(xún)所需元數(shù)據(jù),然后進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)更新作業(yè),更新結(jié)束后,將更新情況記錄于元數(shù)據(jù)庫(kù)中。當(dāng)數(shù)據(jù)源的運(yùn)行環(huán)境、結(jié)構(gòu)
50、及目標(biāo)數(shù)據(jù)的維護(hù)計(jì)劃發(fā)生變化時(shí),需要修改元數(shù)據(jù)。元數(shù)據(jù)是數(shù)據(jù)倉(cāng)庫(kù)的重要組成部分,元數(shù)據(jù)的質(zhì)量決定整個(gè)數(shù)據(jù)倉(cāng)庫(kù)的質(zhì)量。 附錄資料:不需要的可以自行刪除如何構(gòu)建銀行數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)技術(shù)作為一項(xiàng)數(shù)據(jù)管理領(lǐng)域的新技術(shù),其精髓在于針對(duì)聯(lián)機(jī)分析處理(OLAP)提出了一種綜合的解決方案,與以往很多技術(shù)不同的是,它主要是一種概念,在此概念指導(dǎo)下完成系統(tǒng)的構(gòu)造。既沒(méi)有可以直接購(gòu)買(mǎi)到的現(xiàn)成產(chǎn)品,也沒(méi)有具體的分析規(guī)范和實(shí)現(xiàn)方法,也就是說(shuō)沒(méi)有成熟、可靠且被廣泛接受的數(shù)據(jù)倉(cāng)庫(kù)標(biāo)準(zhǔn)。在以往關(guān)系數(shù)據(jù)庫(kù)的設(shè)計(jì)和實(shí)現(xiàn)中,不僅有詳細(xì)的理論推導(dǎo),還有無(wú)數(shù)的設(shè)計(jì)實(shí)例,無(wú)論你使用的是什么公司的數(shù)據(jù)庫(kù)產(chǎn)品、開(kāi)發(fā)工具,只要按照規(guī)范做,那么
51、實(shí)現(xiàn)同一業(yè)務(wù)需求的方案都會(huì)很相似。而現(xiàn)有數(shù)據(jù)倉(cāng)庫(kù)的實(shí)現(xiàn)中,出現(xiàn)了MOLAP方案和ROLAP方案的區(qū)別,出現(xiàn)了形形色色的數(shù)據(jù)倉(cāng)庫(kù)建模工具、表現(xiàn)工具,而設(shè)計(jì)人員的個(gè)人經(jīng)驗(yàn)和素質(zhì)也會(huì)在其中扮演很重要的角色。 數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的實(shí)現(xiàn)方式 目前在數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的實(shí)際應(yīng)用中主要包括如下幾種具體實(shí)現(xiàn)方式。 1、在關(guān)系數(shù)據(jù)庫(kù)上建立數(shù)據(jù)倉(cāng)庫(kù)(ROLAP) 2、在多維數(shù)據(jù)庫(kù)上建立數(shù)據(jù)倉(cāng)庫(kù)(MOLAP) MOLAP方案是以多維方式來(lái)組織數(shù)據(jù),以多維方式來(lái)存儲(chǔ)數(shù)據(jù);ROLAP方案則以二維關(guān)系表為核心表達(dá)多維概念,通過(guò)將多維結(jié)構(gòu)劃分為兩類(lèi)表:維表和事實(shí)表,使關(guān)系型結(jié)構(gòu)能較好地適應(yīng)多維數(shù)據(jù)的表示和存儲(chǔ)。在多維數(shù)據(jù)模型的表達(dá)方面
52、,多維矩陣比關(guān)系表更清晰且占用的存儲(chǔ)更少,而通過(guò)關(guān)系表間的連接來(lái)查詢(xún)數(shù)據(jù)的ROLAP系統(tǒng),系統(tǒng)性能成為最大問(wèn)題。MOLAP方案比ROLAP方案要簡(jiǎn)明,索引及數(shù)據(jù)聚合可以自動(dòng)進(jìn)行并自動(dòng)管理,但同時(shí)喪失了一定的靈活性。ROLAP方案的實(shí)現(xiàn)較為復(fù)雜,但靈活性較好,用戶(hù)可以動(dòng)態(tài)定義統(tǒng)計(jì)和計(jì)算方式,另外能保護(hù)在已有關(guān)系數(shù)據(jù)庫(kù)上的投資。 由于兩種方案各有優(yōu)劣,因此在實(shí)際應(yīng)用中,往往將MOLAP和ROLAP結(jié)合使用,即所謂的混合模型。利用關(guān)系數(shù)據(jù)庫(kù)存儲(chǔ)歷史數(shù)據(jù)、細(xì)節(jié)數(shù)據(jù)或非數(shù)值型數(shù)據(jù),發(fā)揮關(guān)系數(shù)據(jù)庫(kù)技術(shù)成熟的優(yōu)勢(shì),減少花費(fèi),而在多維數(shù)據(jù)庫(kù)中存儲(chǔ)當(dāng)前數(shù)據(jù)和常用統(tǒng)計(jì)數(shù)據(jù),以提高操作性能。 3、在原有關(guān)系庫(kù)上建立
53、邏輯上的數(shù)據(jù)倉(cāng)庫(kù) 由于目前正在運(yùn)行的OLTP系統(tǒng)中已經(jīng)積累了海量數(shù)據(jù),如何從中提取出決策所需的有用信息就成為用戶(hù)最迫切的需要。新建數(shù)據(jù)倉(cāng)庫(kù)固然能從功能、性能各方面給出一個(gè)完整的解決方案,但需要投入大量的人力、物力,并且數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)和分析數(shù)據(jù)的積累需要一段時(shí)間,無(wú)法及時(shí)滿(mǎn)足用戶(hù)對(duì)信息分析的迫切需要。因此在籌建數(shù)據(jù)倉(cāng)庫(kù)的前期,可以采用一些合適的表現(xiàn)工具,在原有OLTP系統(tǒng)上建立起一個(gè)邏輯的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)。盡管由于原有OLTP系統(tǒng)設(shè)計(jì)上的局限性,這樣的系統(tǒng)可能無(wú)法實(shí)現(xiàn)很多分析功能,但這樣一個(gè)系統(tǒng)中數(shù)據(jù)結(jié)構(gòu)固定、信息分析需求相對(duì)穩(wěn)定成熟,因此數(shù)據(jù)倉(cāng)庫(kù)的建模、實(shí)現(xiàn)過(guò)程會(huì)相對(duì)容易、便捷;同時(shí),這樣的系統(tǒng)也
54、會(huì)成為將來(lái)真正數(shù)據(jù)倉(cāng)庫(kù)建設(shè)的原型。 信息系統(tǒng)與數(shù)據(jù)倉(cāng)庫(kù)的關(guān)系 由于數(shù)據(jù)量大、數(shù)據(jù)來(lái)源多樣化,在商業(yè)銀行構(gòu)建管理信息系統(tǒng)時(shí),不可避免地會(huì)遇上如何管理這些浩如煙海的數(shù)據(jù),以及如何從中提取有用的信息的問(wèn)題;而數(shù)據(jù)倉(cāng)庫(kù)的最大優(yōu)點(diǎn)在于它能把企業(yè)網(wǎng)絡(luò)中不同信息島上的商業(yè)數(shù)據(jù)集中到一起,存儲(chǔ)在一個(gè)單一的集成的數(shù)據(jù)庫(kù)中,并提供各種手段對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、分析。因此可以說(shuō),在銀行使用數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建管理信息系統(tǒng),既有壓力,又有數(shù)據(jù)基礎(chǔ),它們之間的聯(lián)系是必然的,難以割舍的。 數(shù)據(jù)倉(cāng)庫(kù)在商業(yè)銀行的應(yīng)用范圍包括存款分析、貸款分析、客戶(hù)市場(chǎng)分析、相關(guān)金融業(yè)分析決策(證券、外匯買(mǎi)賣(mài))、風(fēng)險(xiǎn)預(yù)測(cè)、效益分析等。 在銀行信息系統(tǒng)構(gòu)建時(shí)
55、,由于歷史情況和現(xiàn)實(shí)需求的不同,存在兩種途徑: 1、建設(shè)新系統(tǒng) 由于目前國(guó)內(nèi)商業(yè)銀行對(duì)銀行內(nèi)部運(yùn)營(yíng)的監(jiān)管,缺乏很好的數(shù)據(jù)搜集機(jī)制,因此可以在構(gòu)建管理信息系統(tǒng)時(shí),分?jǐn)?shù)據(jù)收集錄入和數(shù)據(jù)匯總分析兩部分來(lái)考慮。這樣的系統(tǒng)中由于不需考慮大量歷史數(shù)據(jù)的處理問(wèn)題,同時(shí)考慮到搜集過(guò)程中可能存在多個(gè)數(shù)據(jù)來(lái)源,因此可以在系統(tǒng)建設(shè)的同時(shí)構(gòu)建數(shù)據(jù)倉(cāng)庫(kù),將搜集來(lái)的各種數(shù)據(jù)通過(guò)數(shù)據(jù)抽取整合到數(shù)據(jù)倉(cāng)庫(kù)中。 2、完善原有系統(tǒng) 而對(duì)于已經(jīng)存在OLTP系統(tǒng),其中沉淀了大量歷史數(shù)據(jù),則可以先在原有系統(tǒng)上建立邏輯數(shù)據(jù)倉(cāng)庫(kù),即使用數(shù)據(jù)分析的表現(xiàn)工具,在關(guān)系模型上構(gòu)建一個(gè)虛擬的多維模型。當(dāng)系統(tǒng)需求穩(wěn)定后,再建立物理數(shù)據(jù)倉(cāng)庫(kù),這樣既節(jié)省投
56、資,又縮短開(kāi)發(fā)工期。 實(shí)現(xiàn)中需要注意的問(wèn)題 一、模型設(shè)計(jì)中的問(wèn)題 模型設(shè)計(jì)(包括邏輯模型設(shè)計(jì)和物理模型設(shè)計(jì))是系統(tǒng)的基礎(chǔ)和成敗的關(guān)鍵,在實(shí)際操作中,視實(shí)現(xiàn)技術(shù)的不同應(yīng)分別對(duì)下列問(wèn)題引起注意。 1、直接構(gòu)建數(shù)據(jù)倉(cāng)庫(kù) 直接構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)時(shí),必須按業(yè)務(wù)分析的要求重組OLTP系統(tǒng)中的數(shù)據(jù),并要按不同側(cè)重點(diǎn)分別組織,使之便于使用。 *主題的確定 主題是一個(gè)邏輯概念,它應(yīng)該能夠完整、統(tǒng)一地刻畫(huà)出分析對(duì)象所涉及的各項(xiàng)數(shù)據(jù)以及相互聯(lián)系。劃分主題的根據(jù)主要來(lái)源于兩方面:對(duì)原有固定報(bào)表的分析和對(duì)業(yè)務(wù)人員的訪談。原有固定報(bào)表能較好地反映出以往工作對(duì)數(shù)據(jù)分析的需求,而且數(shù)據(jù)含義和格式相對(duì)成熟、穩(wěn)定,在模型設(shè)計(jì)中需要大量
57、借鑒。但僅僅滿(mǎn)足于替代目前的手工報(bào)表還遠(yuǎn)遠(yuǎn)不應(yīng)是構(gòu)建管理信息系統(tǒng)的目標(biāo),還應(yīng)該通過(guò)業(yè)務(wù)訪談,進(jìn)一步挖掘出日常工作中潛在的更廣、更深的分析需求。只有這樣,才能真正了解構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)模型所需的主題劃分。 *分析內(nèi)容的細(xì)化 主題的劃分實(shí)際上是與分析內(nèi)容的范圍直接相關(guān)的,一旦主題劃分清楚了,下一步就是細(xì)化分析的具體內(nèi)容以及根據(jù)分析內(nèi)容的性質(zhì)確定它在數(shù)據(jù)倉(cāng)庫(kù)中的位置。通常維元素對(duì)應(yīng)的是分析角度,而度量對(duì)應(yīng)的是分析關(guān)心的具體指標(biāo)。一個(gè)指標(biāo)究竟是作為維元素、度量還是維屬性,取決于具體的業(yè)務(wù)需求,但從實(shí)際操作中可以總結(jié)出如下的概念性經(jīng)驗(yàn):作為維元素或維屬性的通常是離散型的數(shù)據(jù),只允許有限的取值;作為度量的是連續(xù)
58、型數(shù)據(jù),取值無(wú)限。如果一定要用連續(xù)型數(shù)據(jù)作為維元素,則必須對(duì)其按取值進(jìn)行分段,以分段值作為實(shí)際的維元素。判斷分析指標(biāo)是作為維元素還是維屬性時(shí),則需要綜合考慮這個(gè)指標(biāo)占用的存儲(chǔ)空間與相關(guān)查詢(xún)的使用頻度。 需要特別強(qiáng)調(diào)的是,在細(xì)化分析內(nèi)容的過(guò)程中,務(wù)必解決指標(biāo)的歧義問(wèn)題。在不同報(bào)表中以及在業(yè)務(wù)訪談中同一名稱(chēng)的指標(biāo),是否是在同樣條件限定下,通過(guò)同樣方法提取或計(jì)算得到的,它們之間的相互關(guān)系是什么,這些問(wèn)題都必須從熟悉業(yè)務(wù)的分析人員那里得到準(zhǔn)確、清晰的答案,否則將會(huì)影響到模型設(shè)計(jì)、數(shù)據(jù)提取、數(shù)據(jù)展現(xiàn)等多個(gè)方面。 *粒度的設(shè)計(jì) 數(shù)據(jù)倉(cāng)庫(kù)模型中所存儲(chǔ)的數(shù)據(jù)的粒度將對(duì)信息系統(tǒng)的多方面產(chǎn)生影響。事實(shí)表中以各種維度的什么層次作為最細(xì)粒度,將決定存儲(chǔ)的數(shù)據(jù)能否滿(mǎn)足信息分析的功能需求,而粒度的層次劃分、以及聚合表中粒度的選擇將直接影響查詢(xún)的響應(yīng)時(shí)間。 如果同一個(gè)信息系統(tǒng)要在大范圍、多層次上同時(shí)運(yùn)行,如部門(mén)級(jí)和企業(yè)級(jí),還應(yīng)考慮不同層次的數(shù)據(jù)倉(cāng)庫(kù)采用不同的粒度。 *模型設(shè)計(jì)中的技巧 復(fù)合指標(biāo)尤其是比率類(lèi)指標(biāo)的定義,必須注意累加時(shí)是先加減后乘除,還是反之。戶(hù)數(shù)、筆數(shù)的計(jì)算,這類(lèi)指標(biāo)在分析或報(bào)表中經(jīng)常出現(xiàn),但不需要作為單獨(dú)的指標(biāo)物理存在于數(shù)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 中專(zhuān)助產(chǎn)畢業(yè)個(gè)人總結(jié)(11篇)
- 2024年度數(shù)據(jù)中心建設(shè)安裝工程分包合同
- 七一二:天津七一二通信廣播股份有限公司2021年年度報(bào)告摘要
- 前臺(tái)年終總結(jié)開(kāi)頭范本(3篇)
- 2024年血液凈化信息系統(tǒng)項(xiàng)目綜合評(píng)估報(bào)告
- 2024年文化活動(dòng)中心管理承包協(xié)議
- 2024年戶(hù)外護(hù)欄安裝合同
- 2024年文化旅游項(xiàng)目投資與股權(quán)轉(zhuǎn)讓合同
- 2024年影樓客戶(hù)資料保密協(xié)議
- 節(jié)約用電主題班會(huì)教案(合集8篇)
- 蔬菜出口基地備案管理課件
- 子宮異常出血的護(hù)理
- 高考英語(yǔ)單詞3500記憶短文40篇
- 《耳穴療法治療失眠》課件
- 詢(xún)盤(pán)分析及回復(fù)
- 氯化工藝安全培訓(xùn)課件
- 指導(dǎo)巡察工作精細(xì)科學(xué)
- 企業(yè)法律知識(shí)培訓(xùn)消費(fèi)者權(quán)益保護(hù)實(shí)務(wù)
- 快樂(lè)讀書(shū)吧-讀后分享課:《十萬(wàn)個(gè)為什么》教學(xué)案列
- 2024年 貴州茅臺(tái)酒股份有限公司招聘筆試參考題庫(kù)含答案解析
- 河上建壩糾紛可行性方案
評(píng)論
0/150
提交評(píng)論