數(shù)據(jù)倉的概念設(shè)計及應(yīng)用_第1頁
數(shù)據(jù)倉的概念設(shè)計及應(yīng)用_第2頁
數(shù)據(jù)倉的概念設(shè)計及應(yīng)用_第3頁
數(shù)據(jù)倉的概念設(shè)計及應(yīng)用_第4頁
數(shù)據(jù)倉的概念設(shè)計及應(yīng)用_第5頁
已閱讀5頁,還剩25頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

DataWarehouse

數(shù)據(jù)倉庫概念、設(shè)計及應(yīng)用報告人:曹順良2001年11月12日提綱1.為什么要建立數(shù)據(jù)倉庫2.數(shù)據(jù)倉庫的概念及特性3.數(shù)據(jù)倉庫的結(jié)構(gòu)4.數(shù)據(jù)倉庫的設(shè)計5.數(shù)據(jù)倉庫的開發(fā)過程6.數(shù)據(jù)倉庫的典型應(yīng)用事務(wù)處理環(huán)境不適宜DSS應(yīng)用的原因

事務(wù)處理和分析處理的性能特性不同操作型處理對數(shù)據(jù)的存取操作頻率高而每次操作處理的時間短;

在分析處理環(huán)境中,某個DSS應(yīng)用程序可能需要連續(xù)幾個小時,從而消耗大量的系統(tǒng)資源。數(shù)據(jù)集成問題數(shù)據(jù)動態(tài)集成問題歷史數(shù)據(jù)問題數(shù)據(jù)的綜合問題

抽取程序用抽取程序能將數(shù)據(jù)從高性能聯(lián)機事務(wù)處理方式中轉(zhuǎn)移出來,在需要總體分析數(shù)據(jù)時就與聯(lián)機事務(wù)處理性能不發(fā)生沖突。用抽取程序能將數(shù)據(jù)從聯(lián)機事務(wù)處理范圍內(nèi)移出時,數(shù)據(jù)的控制方式就發(fā)生了轉(zhuǎn)變。蜘蛛網(wǎng)問題數(shù)據(jù)缺乏可信性數(shù)據(jù)無時基數(shù)據(jù)算法上的差異抽取的多層次外部數(shù)據(jù)問題無起始的公共數(shù)據(jù)源生產(chǎn)率低根據(jù)全部數(shù)據(jù)生成企業(yè)報表定位數(shù)據(jù)需要瀏覽大量文件抽取程序很多,并且每個都是定制的,不得不克服很多技術(shù)上的障礙。數(shù)據(jù)轉(zhuǎn)化為信息的不可行性數(shù)據(jù)沒有集成化缺乏將數(shù)據(jù)轉(zhuǎn)化為信息所需的歷史數(shù)據(jù)體系結(jié)構(gòu)設(shè)計環(huán)境的層次數(shù)據(jù)操作層只保存原始數(shù)據(jù)并且服務(wù)于高性能事務(wù)處理領(lǐng)域;數(shù)據(jù)倉庫層存儲不更新的原始數(shù)據(jù),此外一些導(dǎo)出數(shù)據(jù)也在此存在;數(shù)據(jù)的部門層幾乎只存放導(dǎo)出數(shù)據(jù);在數(shù)據(jù)個體層中完成大多數(shù)啟發(fā)式分析操作層原子/數(shù)據(jù)倉庫層部門層個體層數(shù)據(jù)倉庫的概念

數(shù)據(jù)倉庫是在企業(yè)管理和決策中面向主題的、集成的、與時間相關(guān)的、不可修改的數(shù)據(jù)集合。[WilliamH.Inmon]與其他數(shù)據(jù)庫應(yīng)用不同的是,數(shù)據(jù)倉庫更像一種過程,對分布在企業(yè)內(nèi)部各處的業(yè)務(wù)數(shù)據(jù)的整合、加工和分析的過程。數(shù)據(jù)倉庫的特性

面向主題典型的主題領(lǐng)域:客戶;產(chǎn)品;交易;帳目集成的數(shù)據(jù)提取、凈化、轉(zhuǎn)換、裝載非易失的數(shù)據(jù)倉庫的數(shù)據(jù)通常是一起載入和訪問的,但并不進(jìn)行一般意義上的數(shù)據(jù)更新隨時間的變化性數(shù)據(jù)倉庫中的時間期限要遠(yuǎn)遠(yuǎn)長于操作型系統(tǒng)中的時間期限(5~10年);數(shù)據(jù)倉庫中的數(shù)據(jù)是一系列某一時刻生成的復(fù)雜的快照;數(shù)據(jù)倉庫的鍵碼結(jié)構(gòu)總是包含某時間元素。數(shù)據(jù)倉庫的結(jié)構(gòu)早期細(xì)節(jié)級當(dāng)前細(xì)節(jié)級輕度綜合級數(shù)據(jù)集市高度綜合級元數(shù)據(jù)操作型轉(zhuǎn)換

數(shù)據(jù)倉庫設(shè)計中的幾個重要概念

ETLETL(Extract/Transformation/Load)—用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗、轉(zhuǎn)換,最終按照預(yù)先定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。元數(shù)據(jù)關(guān)于數(shù)據(jù)的數(shù)據(jù),指在數(shù)據(jù)倉庫建設(shè)過程中所產(chǎn)生的有關(guān)數(shù)據(jù)源定義,目標(biāo)定義,轉(zhuǎn)換規(guī)則等相關(guān)的關(guān)鍵數(shù)據(jù)。同時元數(shù)據(jù)還包含關(guān)于數(shù)據(jù)含義的商業(yè)信息。粒度數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細(xì)化或綜合程度的級別。細(xì)化程度越高,粒度級就越??;相反,細(xì)化程度越低,粒度級就越大。分割結(jié)構(gòu)相同的數(shù)據(jù)被分成多個數(shù)據(jù)物理單元。任何給定的數(shù)據(jù)單元屬于且僅屬于一個分割。典型的元數(shù)數(shù)據(jù)包括::數(shù)據(jù)倉庫表表的結(jié)構(gòu)數(shù)據(jù)倉庫表表的屬性數(shù)據(jù)倉庫的的源數(shù)據(jù)((記錄系統(tǒng)統(tǒng))從記錄系統(tǒng)統(tǒng)到數(shù)據(jù)倉倉庫的映射射數(shù)據(jù)模型的的規(guī)格說明明抽取日志訪問數(shù)據(jù)的的公用例行行程序數(shù)據(jù)倉庫設(shè)設(shè)計中的幾幾個重要概概念(續(xù))DataMart數(shù)據(jù)集市--小小型的,面面向部門或或工作組級級數(shù)據(jù)倉庫庫。OperationDataStore操作數(shù)據(jù)存存儲—ODS是能支持企企業(yè)日常的的全局應(yīng)用用的數(shù)據(jù)集集合,是不不同于DB的一種新的的數(shù)據(jù)環(huán)境境,是DW擴展后得到到的一個混混合形式。。四個基本本特點:面面向主題的的(Subject-Oriented)、集成的、可可變的、當(dāng)當(dāng)前或接接近當(dāng)前的的。datamodel數(shù)據(jù)模型--(1)邏輯數(shù)據(jù)據(jù)結(jié)構(gòu),包包括由DBMS為有效進(jìn)行行數(shù)據(jù)庫處處理提供的的操作和約約束;(2)用于表示示數(shù)據(jù)的系系統(tǒng)(例如如,ERD或關(guān)系型模模型)。artifact人工關(guān)系--在DSS環(huán)境中用于于表示參照照完整性的的一種設(shè)計計技術(shù)。企業(yè)數(shù)據(jù)模模型到數(shù)據(jù)據(jù)倉庫數(shù)據(jù)據(jù)模型的轉(zhuǎn)轉(zhuǎn)換除去純粹用用于操作型型環(huán)境的數(shù)數(shù)據(jù)在企業(yè)鍵碼碼結(jié)構(gòu)中增增加時間元元素增加導(dǎo)出數(shù)數(shù)據(jù)創(chuàng)建人工關(guān)關(guān)系數(shù)據(jù)模型的的規(guī)范化/反規(guī)范化化為了減少程程序在表中中的跳轉(zhuǎn)、、節(jié)省I/O,需將多個相相關(guān)的表合合并;引入冗余數(shù)數(shù)據(jù);當(dāng)訪問概率率有很大懸懸殊時,要要對數(shù)據(jù)做做進(jìn)一步分分離;在物理數(shù)據(jù)據(jù)庫的設(shè)計計中引入導(dǎo)導(dǎo)出數(shù)據(jù)可可以減少I/O;建立所謂的的“創(chuàng)造的的”索引或或創(chuàng)造的簡簡要記錄((如卷中的的前十名顧顧客是———)數(shù)據(jù)倉庫體系結(jié)構(gòu)OLTP數(shù)據(jù)源數(shù)據(jù)倉庫數(shù)據(jù)集市?數(shù)據(jù)采集及整合數(shù)據(jù)的映射規(guī)則、模型。。。

(元數(shù)據(jù)管理)數(shù)據(jù)倉庫項目流程管理及系統(tǒng)性能管理和監(jiān)控?數(shù)據(jù)展現(xiàn)及決策生產(chǎn)財務(wù)結(jié)算外部航線分析總量分析市場分析InfoPump數(shù)據(jù)分析、DM終端用戶終端用戶從操作型的現(xiàn)現(xiàn)存系統(tǒng)到數(shù)數(shù)據(jù)倉庫中數(shù)數(shù)據(jù)轉(zhuǎn)換工作作的難點現(xiàn)有系統(tǒng)缺乏乏數(shù)據(jù)集成,,跨越不同應(yīng)應(yīng)用的數(shù)據(jù)集集成性很差存取現(xiàn)存系統(tǒng)統(tǒng)的效率,掃掃描已有文件件成了數(shù)據(jù)倉倉庫體系結(jié)構(gòu)構(gòu)設(shè)計者主要要面對的問題題時基的變化數(shù)據(jù)要濃縮概念:數(shù)據(jù)周期、簡簡要記錄數(shù)據(jù)周期:是指從操作型型數(shù)據(jù)發(fā)生改改變起,到這這個變化反映映到數(shù)據(jù)倉庫庫中所用的時時間。從操作型環(huán)境境知道數(shù)據(jù)的的改變到這個個變化反映到到數(shù)據(jù)倉庫中中至少應(yīng)該經(jīng)經(jīng)歷24小時時。簡要記錄:或聚集記錄,,是把不同操操作型數(shù)據(jù)的的詳細(xì)信息聚聚集在一個記記錄中而形成成的記錄。好處:①減少少數(shù)據(jù)量;②為用戶的訪訪問和分析提提供了一種緊緊湊的方便的的數(shù)據(jù)組織形形式;缺點:信息的的詳細(xì)程度將將會降低。數(shù)據(jù)倉庫的建建模數(shù)據(jù)模型所有的實體都都是平等關(guān)系系。僅僅從數(shù)據(jù)模模型的角度來來著手設(shè)計數(shù)數(shù)據(jù)倉庫會產(chǎn)產(chǎn)生一種“平平面”效應(yīng)。。星型連接事實表:位于星型連接接的中央,它它是被大量載載入數(shù)據(jù)的實實體。維表:周圍的的其它實體。。在很多情況下下:文本數(shù)據(jù)據(jù)與數(shù)值數(shù)據(jù)據(jù)是分離開的的。通過數(shù)據(jù)預(yù)連連接和建立有有選擇的數(shù)據(jù)據(jù)冗余,設(shè)計計者為訪問和和分析過程大大大簡化了數(shù)數(shù)據(jù)。星型連接應(yīng)用用于設(shè)計數(shù)據(jù)據(jù)倉庫中很大大的實體,而而數(shù)據(jù)模型則則應(yīng)用于數(shù)據(jù)據(jù)倉庫中較小小的實體。VendordataVendordataVendordatavendor_id供應(yīng)商cust_id客戶order_id發(fā)貨OrderdataOrderdataorder_id訂單CustdataCustdataCustdataNonkeydataOrderdataOrderdataOrderdata產(chǎn)品ProductdataProductdataProductdataProductidVendoridNonkeydatacustidNonkeydataorderidNonkeydataproductid數(shù)據(jù)建模的十十條戒律①必須回答緊緊迫的問題;;②必須有正確確的事實表;;③將有正確的的維表,描述述必須按最終終用戶的業(yè)務(wù)務(wù)術(shù)語表達(dá);;④必須理解數(shù)數(shù)據(jù)倉庫所影影響的公司過過程或影響數(shù)數(shù)據(jù)倉庫的公公司過程;⑤對于事實表表,應(yīng)該有正正確的“粒度度”;⑥根據(jù)需要存存儲正確長度度的公司歷史史數(shù)據(jù);⑦以一種對于于公司有意義義的方式來集集成所有必要要的數(shù)據(jù);⑧創(chuàng)建必要的的總結(jié)表;⑨創(chuàng)建必要的的索引;⑩能夠加載數(shù)數(shù)據(jù)倉庫數(shù)據(jù)據(jù)庫并使它以以一種適宜的的方式可用。。數(shù)據(jù)集市外部數(shù)據(jù)用自頂向下的的方法構(gòu)建數(shù)數(shù)據(jù)倉庫數(shù)據(jù)集市建造企業(yè)數(shù)據(jù)據(jù)倉庫建設(shè)中心數(shù)據(jù)據(jù)模型一次性的完成成數(shù)據(jù)的重構(gòu)構(gòu)工作最小化數(shù)據(jù)冗冗余度和不一一致性存儲詳細(xì)的歷歷史數(shù)據(jù)從企業(yè)數(shù)據(jù)倉倉庫中建造數(shù)數(shù)據(jù)集市得到大部分的的集成數(shù)據(jù)直接依賴于數(shù)數(shù)據(jù)倉庫的可可用性操作數(shù)據(jù)問題投資效益的時時間?建設(shè)中心數(shù)據(jù)據(jù)模型的必要要性和可能性性?初始費用?企業(yè)數(shù)據(jù)倉庫用自底向上的的方法構(gòu)建數(shù)數(shù)據(jù)倉庫數(shù)據(jù)集市建立部門數(shù)據(jù)據(jù)集市限制在一個主主題區(qū)域快速投資收益益區(qū)域自治––設(shè)計的可可伸縮性強對相關(guān)部門的的應(yīng)用容易復(fù)復(fù)制對每個數(shù)據(jù)集集市需要數(shù)據(jù)據(jù)重構(gòu)存在一定的冗冗余及不一直直性逐步擴展到企企業(yè)數(shù)據(jù)倉庫庫(EDW)把建造EDW作為一個長期期的目標(biāo)存在的問題:數(shù)據(jù)集市的數(shù)數(shù)據(jù)都是可用用的嗎?能生成數(shù)據(jù)模模型嗎?如何解決不一一致性?外部數(shù)據(jù)操作數(shù)據(jù)(全局)&操作數(shù)據(jù)(局部)操作數(shù)據(jù)(局部)數(shù)據(jù)集市企業(yè)數(shù)據(jù)倉庫庫數(shù)據(jù)倉庫的開開發(fā)過程建立或獲得企企業(yè)的數(shù)據(jù)模模型;定義記錄系統(tǒng)統(tǒng);設(shè)計數(shù)據(jù)倉庫庫并按主題領(lǐng)領(lǐng)域進(jìn)行組織織;設(shè)計和建立操操作型環(huán)境中中的記錄系統(tǒng)統(tǒng)和數(shù)據(jù)倉庫庫之間的接口口,這些接口口能保證數(shù)據(jù)據(jù)倉庫的載入入工作能有序序的進(jìn)行;開始載入第一一個主題領(lǐng)域域,進(jìn)入載入入和反饋過程程,數(shù)據(jù)倉庫庫中的數(shù)據(jù)在在此過程中也也在不斷地改改變。數(shù)據(jù)模型的內(nèi)內(nèi)容標(biāo)識主要主題題領(lǐng)域。各個主要主題題之間的各種種關(guān)系。清晰地定義模模型的邊界。。把原始數(shù)據(jù)和和導(dǎo)出數(shù)據(jù)分分離。每個主題領(lǐng)域域需要標(biāo)識鍵碼屬性屬性分組之間間的關(guān)系多重出現(xiàn)的數(shù)數(shù)據(jù)數(shù)據(jù)的類型表達(dá)數(shù)據(jù)模型型的最好數(shù)據(jù)據(jù)最實時最準(zhǔn)確最完備與外部數(shù)據(jù)源源最近最具結(jié)構(gòu)兼容容性定義記錄系統(tǒng)統(tǒng)就是找出現(xiàn)現(xiàn)存系統(tǒng)所具具有的最好的的數(shù)據(jù)將數(shù)據(jù)模型變變?yōu)閿?shù)據(jù)倉庫庫要做的主要要工作如果原先沒有有時間元素的的話,時間元元素必須加入入到鍵碼結(jié)構(gòu)構(gòu)中必須清除所有有的純操作型型數(shù)據(jù)需要將參照完完整性關(guān)系轉(zhuǎn)轉(zhuǎn)換成“人工工關(guān)系”將經(jīng)常需要用用到的到處數(shù)數(shù)據(jù)假如到設(shè)設(shè)計中對數(shù)據(jù)的結(jié)構(gòu)構(gòu)進(jìn)行調(diào)整增加數(shù)據(jù)陣列列增加數(shù)據(jù)冗余余在合適的情況況下進(jìn)一步分分離數(shù)據(jù)在合適的時候候合并數(shù)據(jù)表表需要做數(shù)據(jù)據(jù)的穩(wěn)定性性分析在接口中需需完成的工工作數(shù)據(jù)抽取對來自操作作型、面向向應(yīng)用型環(huán)環(huán)境的數(shù)據(jù)據(jù)的集成數(shù)據(jù)時基的的變更數(shù)據(jù)壓縮對現(xiàn)存系統(tǒng)統(tǒng)環(huán)境的有有效掃描數(shù)據(jù)倉庫開開發(fā)成功的的關(guān)鍵關(guān)鍵:是數(shù)數(shù)據(jù)體系結(jié)結(jié)構(gòu)設(shè)計者者和DSS分析者之間間的反饋循循環(huán)。有幾點觀察察結(jié)果對數(shù)數(shù)據(jù)倉庫環(huán)環(huán)境的成功功建立是至至關(guān)重要的的問題:DSS分析人員一一定要嚴(yán)格格遵循“給給我我所要要的東西,,然后我能能告訴你我我真正需要要的東西””的工作模模式;反饋循環(huán)的的周期越短短,越有可可能成功;;需要調(diào)整的的數(shù)據(jù)量越越大,反饋饋循環(huán)所需需要的周期期就越長數(shù)據(jù)倉庫的的應(yīng)用在證券業(yè)的應(yīng)應(yīng)用:可處理客戶戶分析、帳帳戶分析、、證券交易易數(shù)據(jù)分析析、非資金金交易分析析等多個業(yè)業(yè)界關(guān)心的的主題,為為客戶提供供針對其個個人習(xí)慣、、投資組合合的投資建建議,從而而真正作到到對客戶的的貼心服務(wù)務(wù)。在銀行領(lǐng)域域的應(yīng)用:防范銀行的的經(jīng)營風(fēng)險險、實現(xiàn)科科學(xué)管理以以及進(jìn)行決決策.在稅務(wù)領(lǐng)域域的應(yīng)用::可以解決三三個方面的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論