數(shù)據(jù)倉庫開發(fā)模型課件_第1頁
數(shù)據(jù)倉庫開發(fā)模型課件_第2頁
數(shù)據(jù)倉庫開發(fā)模型課件_第3頁
數(shù)據(jù)倉庫開發(fā)模型課件_第4頁
數(shù)據(jù)倉庫開發(fā)模型課件_第5頁
已閱讀5頁,還剩51頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第2章數(shù)據(jù)倉庫開發(fā)模型

在創(chuàng)建數(shù)據(jù)倉庫之時(shí),需要使用各種數(shù)據(jù)模型對數(shù)據(jù)倉庫進(jìn)行描述。數(shù)據(jù)倉庫的開發(fā)人員依據(jù)這些數(shù)據(jù)模型,才能開發(fā)出一個(gè)滿足用戶需求的數(shù)據(jù)倉庫。使開發(fā)人員能夠?qū)⒆⒁饬性跀?shù)據(jù)倉庫開發(fā)的主要部分。模型有更好的適應(yīng)性,更易于修改。當(dāng)用戶的需求改變時(shí),僅對模型做出相應(yīng)的變化就能反映這個(gè)改變。第2章數(shù)據(jù)倉庫開發(fā)模型在創(chuàng)建數(shù)據(jù)倉庫之時(shí),需要使用各種數(shù)1數(shù)據(jù)倉庫開發(fā)模型

2.1數(shù)據(jù)倉庫開發(fā)模型

2.2數(shù)據(jù)倉庫概念模型2.3數(shù)據(jù)倉庫邏輯模型

2.4數(shù)據(jù)倉庫的物理模型

2.5數(shù)據(jù)倉庫的元數(shù)據(jù)模型

2.6數(shù)據(jù)倉庫的粒度和聚集模型

習(xí)

數(shù)據(jù)倉庫開發(fā)模型2.1數(shù)據(jù)倉庫開發(fā)模型22.1數(shù)據(jù)倉庫開發(fā)模型模型是對現(xiàn)實(shí)世界進(jìn)行抽象的工具。在信息管理中需要將現(xiàn)實(shí)世界的事物及其有關(guān)特征轉(zhuǎn)換為信息世界的數(shù)據(jù)才能對信息進(jìn)行處理與管理,這就需要依靠數(shù)據(jù)模型作為這種轉(zhuǎn)換的橋梁。這種轉(zhuǎn)換一般需要經(jīng)歷從現(xiàn)實(shí)到概念模型,從概念模型到邏輯模型,從邏輯模型到物理模型的轉(zhuǎn)換過程。2.1數(shù)據(jù)倉庫開發(fā)模型模型是對現(xiàn)實(shí)世界進(jìn)行抽象的工具。在信3

現(xiàn)實(shí)世界概念世界邏輯世界計(jì)算機(jī)世界信用特性屬性列(字段、數(shù)據(jù)項(xiàng))張三個(gè)體實(shí)體記錄客戶整體同質(zhì)總體表文件客戶與產(chǎn)品整體間聯(lián)系異質(zhì)總體數(shù)據(jù)庫現(xiàn)實(shí)世界概念世界邏輯世界計(jì)算機(jī)世界信用特性屬性列(4數(shù)據(jù)倉庫的設(shè)計(jì)就是在概念模型、邏輯模型和物理模型的依次轉(zhuǎn)換過程中實(shí)現(xiàn)的。作為數(shù)據(jù)倉庫的靈魂——元數(shù)據(jù)模型則自始至終伴隨著數(shù)據(jù)倉庫的開發(fā)、實(shí)施與使用。數(shù)據(jù)粒度和聚集模型也在數(shù)據(jù)倉庫的創(chuàng)建中發(fā)揮著指導(dǎo)的作用,指導(dǎo)著數(shù)據(jù)倉庫的具體實(shí)現(xiàn)?,F(xiàn)實(shí)世界概念模型邏輯模型物理模型數(shù)據(jù)倉庫元數(shù)據(jù)模型數(shù)據(jù)粒度和聚集模型數(shù)據(jù)倉庫的設(shè)計(jì)就是在概念模型、邏輯模型和物理模型的依次轉(zhuǎn)換過52.2數(shù)據(jù)倉庫概念模型

2.2.1概念數(shù)據(jù)模型

財(cái)務(wù)部門銷售收入賬應(yīng)收賬應(yīng)付賬成本賬銷售部門銷售計(jì)劃銷售合同銷售統(tǒng)計(jì)人事部門員工業(yè)績記錄員工技能情況員工薪酬表企業(yè)數(shù)據(jù)模型銷售部門人事部門財(cái)務(wù)部門……………圖2.3企業(yè)數(shù)據(jù)模型2.2數(shù)據(jù)倉庫概念模型2.2.1概念數(shù)據(jù)模型財(cái)務(wù)6數(shù)據(jù)倉庫的數(shù)據(jù)模型中不包含操作型的數(shù)據(jù),數(shù)據(jù)倉庫的數(shù)據(jù)模型只包含用戶所感興趣的分析數(shù)據(jù)、描述數(shù)據(jù)和細(xì)節(jié)數(shù)據(jù)。數(shù)據(jù)倉庫的數(shù)據(jù)模型擴(kuò)充了關(guān)鍵字結(jié)構(gòu),增加了時(shí)間屬性作為關(guān)鍵字的一部分?jǐn)?shù)據(jù)倉庫的數(shù)據(jù)模型中還增加了一些由基本數(shù)據(jù)所導(dǎo)出的衍生數(shù)據(jù),這些導(dǎo)出的衍生數(shù)據(jù)主要用于對企業(yè)的管理決策進(jìn)行分析數(shù)據(jù)倉庫的數(shù)據(jù)模型中不包含操作型的數(shù)據(jù),數(shù)據(jù)倉庫的數(shù)據(jù)模型只7指標(biāo)實(shí)體(事實(shí)實(shí)體)指標(biāo)實(shí)體名維度實(shí)體名詳細(xì)類別實(shí)體名維度實(shí)體詳細(xì)類別實(shí)體(引用實(shí)體)

指標(biāo)實(shí)體(事實(shí)實(shí)體)指標(biāo)實(shí)體名維度實(shí)體名詳細(xì)類別實(shí)體名維度實(shí)82.2.2規(guī)范的數(shù)據(jù)模型第一范式、第二范式、第三范式數(shù)據(jù)倉庫的反規(guī)范化處理數(shù)據(jù)倉庫的數(shù)據(jù)普通數(shù)據(jù)庫系統(tǒng)的數(shù)據(jù)長期的框架靜態(tài)數(shù)據(jù)通常是匯總的特殊查詢訪問定期更新數(shù)據(jù)驅(qū)動(dòng)短期的框架快速變化記錄級的訪問標(biāo)準(zhǔn)查詢訪問實(shí)時(shí)更新事件驅(qū)動(dòng)2.2.2規(guī)范的數(shù)據(jù)模型第一范式、第二范式、第三范式92.2.3星型模型

星型模型是最常用的數(shù)據(jù)倉庫設(shè)計(jì)結(jié)構(gòu)的實(shí)現(xiàn)模式。使數(shù)據(jù)倉庫形成了一個(gè)集成系統(tǒng),為用戶提供分析服務(wù)對象。

事實(shí)表維度表維度表維度表維度表維度表核心是事實(shí)表,圍繞事實(shí)表的是維度表。通過事實(shí)表將各種不同的維度表連接起來,各個(gè)維度表都連接到中央事實(shí)表。2.2.3星型模型星型模型是最常用的數(shù)據(jù)倉庫設(shè)計(jì)結(jié)構(gòu)的102.2.4雪花模型雪花模型是對星型模型的擴(kuò)展,每一個(gè)維度都可以向外連接到多個(gè)詳細(xì)類別表。

雪花模型對星型模型的維度表進(jìn)一步標(biāo)準(zhǔn)化,對星型模型中的維度表進(jìn)行了規(guī)范化處理。事實(shí)表維度表維度表維度表維度表維度表詳細(xì)類別表詳細(xì)類別表2.2.4雪花模型雪花模型是對星型模型的擴(kuò)展,每一個(gè)維度112.3數(shù)據(jù)倉庫邏輯模型

信息反饋貴賓卡賬號姓名客戶類型初次交易時(shí)間賬號省市縣街道郵政編碼賬號現(xiàn)金交易額信用交易額賬號商品編號時(shí)間交易量賬號最大信用額最近信用發(fā)生時(shí)間賬號記錄人反饋類型反饋時(shí)間賬號服務(wù)種類時(shí)間服務(wù)費(fèi)用顏色信用交易客戶編號交易記錄信用狀況商品交易服務(wù)交易簽字現(xiàn)金交易賬號交易額信用額信用時(shí)間2.3數(shù)據(jù)倉庫邏輯模型信息反饋貴賓卡賬號賬號賬號賬號賬122.3.1事實(shí)表模型設(shè)計(jì)1.事實(shí)表(1)客戶事實(shí)表客戶基本情況表(賬號Integer9,姓名Character12,出生地Character20,初次交易時(shí)間Date,……)。2.事實(shí)表中的事實(shí)特性事實(shí)表中一般包含兩部分,一是由主鍵和外鍵所組成的鍵部分,另一是用戶希望在數(shù)據(jù)倉庫中所了解的數(shù)值指標(biāo)。派生事實(shí)主要有兩種,一是可以用同一事實(shí)表中其他事實(shí)計(jì)算得到,還有一類派生事實(shí)是非加法性事實(shí)。

2.3.1事實(shí)表模型設(shè)計(jì)1.事實(shí)表132.3.2維模型設(shè)計(jì)客戶主題維度表模型時(shí)間維度表(年Date,月Date,日Date)。地點(diǎn)維度表(省Character20,市Character20,縣Character20,街道Character20)。2.3.2維模型設(shè)計(jì)客戶主題維度表模型142.4數(shù)據(jù)倉庫的物理模型2.4.1數(shù)據(jù)倉庫物理模型的存儲(chǔ)結(jié)構(gòu)確定數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)

并行存儲(chǔ)結(jié)構(gòu)——RAID(RedundantArrayofInexpensiveDisk,廉價(jià)冗余磁盤陣列)?!AID·RAID1級?!AID2級?!AID3級?!AID4級?!AID5級。2.4數(shù)據(jù)倉庫的物理模型2.4.1數(shù)據(jù)倉庫物理模型的152.4.2數(shù)據(jù)倉庫物理模型的索引構(gòu)建位圖索引

女性索引客戶性別客戶所在地上海市索引北京市索引0男北京市011女江蘇省001女北京市010男山東省001女北京市010男上海市100男江蘇省001女上海市101女北京市010男浙江省001女廣東省002.4.2數(shù)據(jù)倉庫物理模型的索引構(gòu)建位圖索引女性索引客162.4.2數(shù)據(jù)倉庫物理模型的索引構(gòu)建上海市索引OR北京市索引=地區(qū)索引AND女性索引=最后索引01100000100111100000011111010000000101110111100000000102.4.2數(shù)據(jù)倉庫物理模型的索引構(gòu)建上海市索引OR北京市172.4.2數(shù)據(jù)倉庫物理模型的索引構(gòu)建2.廣義索引的構(gòu)建3.連接索引連接索引Aagelevel_idtime_idyear_idmonth_idgeo_idprov_idcity_idcounty_idprodu_idagelevel_idtime_idgeo_idprodu_idamou_moneagelevel_idtime_idyear_idmonth_idgeo_idprov_idcity_idcounty_idprodu_idamou_moneagelevel_idtime_idgeo_idprodu_id全連接結(jié)果time_idgeo_id連接索引B2.4.2數(shù)據(jù)倉庫物理模型的索引構(gòu)建2.廣義索引的構(gòu)建連182.4.3數(shù)據(jù)倉庫物理模型的優(yōu)化問題1.合并表:幾個(gè)表的記錄分散存放在幾個(gè)物理塊中時(shí),多個(gè)表的存取和連接操作的代價(jià)會(huì)很大。

2.建立數(shù)據(jù)序列:按照某一固定的順序訪問并處理一組數(shù)據(jù)記錄。將數(shù)據(jù)按照處理順序存放到連續(xù)的物理塊中,形成數(shù)據(jù)序列。

3.引入冗余:一些表的某些屬性可能在許多地方都要用到,將這些屬性復(fù)制到多個(gè)主題中,可以減少處理時(shí)存取表的個(gè)數(shù)。

4.表的物理分割:每個(gè)主題中的各個(gè)屬性存取頻率是不同的。將一張表按各屬性被存取的頻率分成兩個(gè)或多個(gè)表,將具有相似訪問頻率的數(shù)據(jù)組織在一起。

5.生成派出數(shù)據(jù):在原始數(shù)據(jù)的基礎(chǔ)上進(jìn)行總結(jié)或計(jì)算,生成派出數(shù)據(jù),可以在應(yīng)用中直接使用這些派出數(shù)據(jù),減少I/O次數(shù),免去計(jì)算或匯總步驟,在更高級別上建立了公用數(shù)據(jù)源,避免了不同用戶重復(fù)計(jì)算可能產(chǎn)生的偏差。

2.4.3數(shù)據(jù)倉庫物理模型的優(yōu)化問題1.合并表:幾個(gè)表的192.5數(shù)據(jù)倉庫的元數(shù)據(jù)模型元數(shù)據(jù)靜態(tài)元數(shù)據(jù)名稱描述格式數(shù)據(jù)類型關(guān)系生成時(shí)間來源索引類別域業(yè)務(wù)規(guī)則2.5.1元數(shù)據(jù)的類型與組成元數(shù)據(jù)動(dòng)態(tài)元數(shù)據(jù)

入庫時(shí)間更新周期數(shù)據(jù)質(zhì)量統(tǒng)計(jì)信息狀態(tài)處理存儲(chǔ)位置存儲(chǔ)大小引用處2.5數(shù)據(jù)倉庫的元數(shù)據(jù)模型元數(shù)據(jù)靜態(tài)元數(shù)據(jù)名稱描述格式數(shù)202.5.2元數(shù)據(jù)在數(shù)據(jù)倉庫中的作用元數(shù)據(jù)描述了數(shù)據(jù)的結(jié)構(gòu)、內(nèi)容、鍵、索引等項(xiàng)內(nèi)容。在數(shù)據(jù)倉庫中,元數(shù)據(jù)定義了數(shù)據(jù)倉庫中的許多對象——表、列、查詢、商業(yè)規(guī)則或是數(shù)據(jù)倉庫內(nèi)部的數(shù)據(jù)轉(zhuǎn)移。元數(shù)據(jù)是數(shù)據(jù)倉庫的重要構(gòu)件,是數(shù)據(jù)倉庫的指示圖(roadmap)。

1.數(shù)據(jù)倉庫的元數(shù)據(jù)重要性為數(shù)據(jù)倉庫服務(wù)與DSS分析員及高層決策人員服務(wù)提供便利

解決操作型環(huán)境和數(shù)據(jù)倉庫的復(fù)雜關(guān)系

數(shù)據(jù)倉庫中數(shù)據(jù)的管理

2.元數(shù)據(jù)在數(shù)據(jù)倉庫開發(fā)期間的使用確認(rèn)數(shù)據(jù)質(zhì)量、同步化和刷新、映射3.元數(shù)據(jù)在數(shù)據(jù)源抽取中的作用資源領(lǐng)域的確定、跟蹤歷史數(shù)據(jù)結(jié)構(gòu)變化的過程、屬性到屬性的映射、屬性轉(zhuǎn)換

4.元數(shù)據(jù)在數(shù)據(jù)求精與重構(gòu)工程上的作用數(shù)據(jù)的分割、概括與聚集、預(yù)算與推導(dǎo)、轉(zhuǎn)換與再映像

2.5.2元數(shù)據(jù)在數(shù)據(jù)倉庫中的作用元數(shù)據(jù)描述了數(shù)據(jù)的結(jié)構(gòu)212.5.3元數(shù)據(jù)的收集1.數(shù)據(jù)源的元數(shù)據(jù)2.數(shù)據(jù)模型的元數(shù)據(jù)3.數(shù)據(jù)源與數(shù)據(jù)倉庫映射的元數(shù)據(jù)4.數(shù)據(jù)倉庫應(yīng)用的元數(shù)據(jù)2.5.3元數(shù)據(jù)的收集1.數(shù)據(jù)源的元數(shù)據(jù)222.6數(shù)據(jù)倉庫的粒度和聚集模型粒度可定義成數(shù)據(jù)倉庫中數(shù)據(jù)細(xì)節(jié)的最低層次,如事務(wù)層次。這種數(shù)據(jù)層次是高度細(xì)節(jié)化的,這樣就能使用戶按所需的任何層次進(jìn)行匯總。根據(jù)粒度的劃分標(biāo)準(zhǔn)可以將數(shù)據(jù)劃分為:詳細(xì)數(shù)據(jù)、輕度總結(jié)、高度總結(jié)三級或更多級粒度。粒度的具體劃分將直接影響到數(shù)據(jù)倉庫中的數(shù)據(jù)量以及查詢質(zhì)量。粒度級別綜合性數(shù)據(jù)細(xì)節(jié)低(如事務(wù))高(如匯總)低高非常高中等到低2.6數(shù)據(jù)倉庫的粒度和聚集模型粒度可定義成數(shù)據(jù)倉庫中數(shù)據(jù)232.6.1數(shù)據(jù)粒度的劃分第一步,是估算數(shù)據(jù)倉庫中將來要使用的數(shù)據(jù)行數(shù)和所需的直接存取存儲(chǔ)設(shè)備數(shù)。每一個(gè)表的存儲(chǔ)空間,應(yīng)該是每一個(gè)表的數(shù)據(jù)存儲(chǔ)空間和索引存儲(chǔ)空間之和。一年數(shù)據(jù)五年數(shù)據(jù)數(shù)據(jù)量(行數(shù))粒度劃分策略數(shù)據(jù)量(行數(shù))粒度劃分策略10,000,0001,000,000100,00010,000雙重粒度并仔細(xì)設(shè)計(jì)雙重粒度仔細(xì)設(shè)計(jì)不考慮20,000,00010,000,0001,000,000100,000雙重粒度并仔細(xì)設(shè)計(jì)雙重粒度仔細(xì)設(shè)計(jì)不考慮2.6.1數(shù)據(jù)粒度的劃分第一步,是估算數(shù)據(jù)倉庫中將來要使242.6.2確定粒度的級別考慮因素:要接受的分析類型、可接受的數(shù)據(jù)最低粒度和能存儲(chǔ)的數(shù)據(jù)量。粒度的層次定義越高,就越不能在該倉庫中進(jìn)行更細(xì)致的分析。在同一模式中使用多重粒度。如果存儲(chǔ)資源有一定的限制,就只能采用較高粒度的數(shù)據(jù)粒度劃分策略。粒度的確定實(shí)質(zhì)上是業(yè)務(wù)決策分析、硬件、軟件和數(shù)據(jù)倉庫使用方法的一個(gè)折衷。數(shù)據(jù)粒度劃分策略一定要保證數(shù)據(jù)的粒度確實(shí)能夠滿足用戶的決策分析需要,這是數(shù)據(jù)粒度劃分策略中最重要的一個(gè)準(zhǔn)則。2.6.2確定粒度的級別考慮因素:252.6.3數(shù)據(jù)倉庫的聚集模型確定聚集數(shù)據(jù)主要是為了使用戶獲得更好的查詢性能聚集模型設(shè)計(jì)時(shí)應(yīng)該注意將聚集數(shù)據(jù)存儲(chǔ)在其事實(shí)表中,并與其底層數(shù)據(jù)相區(qū)別。設(shè)計(jì)聚集模型時(shí),首先需要考慮用戶的使用要求。其次要考慮數(shù)據(jù)倉庫的粒度模型和數(shù)據(jù)的統(tǒng)計(jì)分布情況。數(shù)據(jù)倉庫的聚集模型的設(shè)計(jì)與數(shù)據(jù)倉庫的粒度模型緊密相關(guān)建立聚集模型時(shí)還需要考慮作為聚集屬性的數(shù)量因素2.6.3數(shù)據(jù)倉庫的聚集模型確定聚集數(shù)據(jù)主要是為了使用戶262.6.4聚集模型的處理聚集事實(shí)表已經(jīng)獨(dú)立存在并且可以與基本事實(shí)表一同保存通過將當(dāng)前加載數(shù)據(jù)添加到系統(tǒng)中的累積“桶”中將數(shù)據(jù)的聚集與數(shù)據(jù)倉庫的加載過程組合為同一處理過程在將數(shù)據(jù)倉庫數(shù)據(jù)加載以后,再進(jìn)行聚集處理每次在加載數(shù)據(jù)倉庫數(shù)據(jù)時(shí),都需要對各種聚集進(jìn)行計(jì)算和增加,及時(shí)保持聚集與基本數(shù)據(jù)的同步性2.6.4聚集模型的處理聚集事實(shí)表已經(jīng)獨(dú)立存在并且可以與272.6.5聚集模型的管理要根據(jù)使用情況刪除不經(jīng)常使用的聚集需要減少層次過于接近的聚集生成注意將聚集獨(dú)立存儲(chǔ)在自己的事實(shí)表中2.6.5聚集模型的管理要根據(jù)使用情況刪除不經(jīng)常使用的聚28第2章數(shù)據(jù)倉庫開發(fā)模型

在創(chuàng)建數(shù)據(jù)倉庫之時(shí),需要使用各種數(shù)據(jù)模型對數(shù)據(jù)倉庫進(jìn)行描述。數(shù)據(jù)倉庫的開發(fā)人員依據(jù)這些數(shù)據(jù)模型,才能開發(fā)出一個(gè)滿足用戶需求的數(shù)據(jù)倉庫。使開發(fā)人員能夠?qū)⒆⒁饬性跀?shù)據(jù)倉庫開發(fā)的主要部分。模型有更好的適應(yīng)性,更易于修改。當(dāng)用戶的需求改變時(shí),僅對模型做出相應(yīng)的變化就能反映這個(gè)改變。第2章數(shù)據(jù)倉庫開發(fā)模型在創(chuàng)建數(shù)據(jù)倉庫之時(shí),需要使用各種數(shù)29數(shù)據(jù)倉庫開發(fā)模型

2.1數(shù)據(jù)倉庫開發(fā)模型

2.2數(shù)據(jù)倉庫概念模型2.3數(shù)據(jù)倉庫邏輯模型

2.4數(shù)據(jù)倉庫的物理模型

2.5數(shù)據(jù)倉庫的元數(shù)據(jù)模型

2.6數(shù)據(jù)倉庫的粒度和聚集模型

習(xí)

數(shù)據(jù)倉庫開發(fā)模型2.1數(shù)據(jù)倉庫開發(fā)模型302.1數(shù)據(jù)倉庫開發(fā)模型模型是對現(xiàn)實(shí)世界進(jìn)行抽象的工具。在信息管理中需要將現(xiàn)實(shí)世界的事物及其有關(guān)特征轉(zhuǎn)換為信息世界的數(shù)據(jù)才能對信息進(jìn)行處理與管理,這就需要依靠數(shù)據(jù)模型作為這種轉(zhuǎn)換的橋梁。這種轉(zhuǎn)換一般需要經(jīng)歷從現(xiàn)實(shí)到概念模型,從概念模型到邏輯模型,從邏輯模型到物理模型的轉(zhuǎn)換過程。2.1數(shù)據(jù)倉庫開發(fā)模型模型是對現(xiàn)實(shí)世界進(jìn)行抽象的工具。在信31

現(xiàn)實(shí)世界概念世界邏輯世界計(jì)算機(jī)世界信用特性屬性列(字段、數(shù)據(jù)項(xiàng))張三個(gè)體實(shí)體記錄客戶整體同質(zhì)總體表文件客戶與產(chǎn)品整體間聯(lián)系異質(zhì)總體數(shù)據(jù)庫現(xiàn)實(shí)世界概念世界邏輯世界計(jì)算機(jī)世界信用特性屬性列(32數(shù)據(jù)倉庫的設(shè)計(jì)就是在概念模型、邏輯模型和物理模型的依次轉(zhuǎn)換過程中實(shí)現(xiàn)的。作為數(shù)據(jù)倉庫的靈魂——元數(shù)據(jù)模型則自始至終伴隨著數(shù)據(jù)倉庫的開發(fā)、實(shí)施與使用。數(shù)據(jù)粒度和聚集模型也在數(shù)據(jù)倉庫的創(chuàng)建中發(fā)揮著指導(dǎo)的作用,指導(dǎo)著數(shù)據(jù)倉庫的具體實(shí)現(xiàn)?,F(xiàn)實(shí)世界概念模型邏輯模型物理模型數(shù)據(jù)倉庫元數(shù)據(jù)模型數(shù)據(jù)粒度和聚集模型數(shù)據(jù)倉庫的設(shè)計(jì)就是在概念模型、邏輯模型和物理模型的依次轉(zhuǎn)換過332.2數(shù)據(jù)倉庫概念模型

2.2.1概念數(shù)據(jù)模型

財(cái)務(wù)部門銷售收入賬應(yīng)收賬應(yīng)付賬成本賬銷售部門銷售計(jì)劃銷售合同銷售統(tǒng)計(jì)人事部門員工業(yè)績記錄員工技能情況員工薪酬表企業(yè)數(shù)據(jù)模型銷售部門人事部門財(cái)務(wù)部門……………圖2.3企業(yè)數(shù)據(jù)模型2.2數(shù)據(jù)倉庫概念模型2.2.1概念數(shù)據(jù)模型財(cái)務(wù)34數(shù)據(jù)倉庫的數(shù)據(jù)模型中不包含操作型的數(shù)據(jù),數(shù)據(jù)倉庫的數(shù)據(jù)模型只包含用戶所感興趣的分析數(shù)據(jù)、描述數(shù)據(jù)和細(xì)節(jié)數(shù)據(jù)。數(shù)據(jù)倉庫的數(shù)據(jù)模型擴(kuò)充了關(guān)鍵字結(jié)構(gòu),增加了時(shí)間屬性作為關(guān)鍵字的一部分?jǐn)?shù)據(jù)倉庫的數(shù)據(jù)模型中還增加了一些由基本數(shù)據(jù)所導(dǎo)出的衍生數(shù)據(jù),這些導(dǎo)出的衍生數(shù)據(jù)主要用于對企業(yè)的管理決策進(jìn)行分析數(shù)據(jù)倉庫的數(shù)據(jù)模型中不包含操作型的數(shù)據(jù),數(shù)據(jù)倉庫的數(shù)據(jù)模型只35指標(biāo)實(shí)體(事實(shí)實(shí)體)指標(biāo)實(shí)體名維度實(shí)體名詳細(xì)類別實(shí)體名維度實(shí)體詳細(xì)類別實(shí)體(引用實(shí)體)

指標(biāo)實(shí)體(事實(shí)實(shí)體)指標(biāo)實(shí)體名維度實(shí)體名詳細(xì)類別實(shí)體名維度實(shí)362.2.2規(guī)范的數(shù)據(jù)模型第一范式、第二范式、第三范式數(shù)據(jù)倉庫的反規(guī)范化處理數(shù)據(jù)倉庫的數(shù)據(jù)普通數(shù)據(jù)庫系統(tǒng)的數(shù)據(jù)長期的框架靜態(tài)數(shù)據(jù)通常是匯總的特殊查詢訪問定期更新數(shù)據(jù)驅(qū)動(dòng)短期的框架快速變化記錄級的訪問標(biāo)準(zhǔn)查詢訪問實(shí)時(shí)更新事件驅(qū)動(dòng)2.2.2規(guī)范的數(shù)據(jù)模型第一范式、第二范式、第三范式372.2.3星型模型

星型模型是最常用的數(shù)據(jù)倉庫設(shè)計(jì)結(jié)構(gòu)的實(shí)現(xiàn)模式。使數(shù)據(jù)倉庫形成了一個(gè)集成系統(tǒng),為用戶提供分析服務(wù)對象。

事實(shí)表維度表維度表維度表維度表維度表核心是事實(shí)表,圍繞事實(shí)表的是維度表。通過事實(shí)表將各種不同的維度表連接起來,各個(gè)維度表都連接到中央事實(shí)表。2.2.3星型模型星型模型是最常用的數(shù)據(jù)倉庫設(shè)計(jì)結(jié)構(gòu)的382.2.4雪花模型雪花模型是對星型模型的擴(kuò)展,每一個(gè)維度都可以向外連接到多個(gè)詳細(xì)類別表。

雪花模型對星型模型的維度表進(jìn)一步標(biāo)準(zhǔn)化,對星型模型中的維度表進(jìn)行了規(guī)范化處理。事實(shí)表維度表維度表維度表維度表維度表詳細(xì)類別表詳細(xì)類別表2.2.4雪花模型雪花模型是對星型模型的擴(kuò)展,每一個(gè)維度392.3數(shù)據(jù)倉庫邏輯模型

信息反饋貴賓卡賬號姓名客戶類型初次交易時(shí)間賬號省市縣街道郵政編碼賬號現(xiàn)金交易額信用交易額賬號商品編號時(shí)間交易量賬號最大信用額最近信用發(fā)生時(shí)間賬號記錄人反饋類型反饋時(shí)間賬號服務(wù)種類時(shí)間服務(wù)費(fèi)用顏色信用交易客戶編號交易記錄信用狀況商品交易服務(wù)交易簽字現(xiàn)金交易賬號交易額信用額信用時(shí)間2.3數(shù)據(jù)倉庫邏輯模型信息反饋貴賓卡賬號賬號賬號賬號賬402.3.1事實(shí)表模型設(shè)計(jì)1.事實(shí)表(1)客戶事實(shí)表客戶基本情況表(賬號Integer9,姓名Character12,出生地Character20,初次交易時(shí)間Date,……)。2.事實(shí)表中的事實(shí)特性事實(shí)表中一般包含兩部分,一是由主鍵和外鍵所組成的鍵部分,另一是用戶希望在數(shù)據(jù)倉庫中所了解的數(shù)值指標(biāo)。派生事實(shí)主要有兩種,一是可以用同一事實(shí)表中其他事實(shí)計(jì)算得到,還有一類派生事實(shí)是非加法性事實(shí)。

2.3.1事實(shí)表模型設(shè)計(jì)1.事實(shí)表412.3.2維模型設(shè)計(jì)客戶主題維度表模型時(shí)間維度表(年Date,月Date,日Date)。地點(diǎn)維度表(省Character20,市Character20,縣Character20,街道Character20)。2.3.2維模型設(shè)計(jì)客戶主題維度表模型422.4數(shù)據(jù)倉庫的物理模型2.4.1數(shù)據(jù)倉庫物理模型的存儲(chǔ)結(jié)構(gòu)確定數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)

并行存儲(chǔ)結(jié)構(gòu)——RAID(RedundantArrayofInexpensiveDisk,廉價(jià)冗余磁盤陣列)?!AID·RAID1級。·RAID2級?!AID3級?!AID4級?!AID5級。2.4數(shù)據(jù)倉庫的物理模型2.4.1數(shù)據(jù)倉庫物理模型的432.4.2數(shù)據(jù)倉庫物理模型的索引構(gòu)建位圖索引

女性索引客戶性別客戶所在地上海市索引北京市索引0男北京市011女江蘇省001女北京市010男山東省001女北京市010男上海市100男江蘇省001女上海市101女北京市010男浙江省001女廣東省002.4.2數(shù)據(jù)倉庫物理模型的索引構(gòu)建位圖索引女性索引客442.4.2數(shù)據(jù)倉庫物理模型的索引構(gòu)建上海市索引OR北京市索引=地區(qū)索引AND女性索引=最后索引01100000100111100000011111010000000101110111100000000102.4.2數(shù)據(jù)倉庫物理模型的索引構(gòu)建上海市索引OR北京市452.4.2數(shù)據(jù)倉庫物理模型的索引構(gòu)建2.廣義索引的構(gòu)建3.連接索引連接索引Aagelevel_idtime_idyear_idmonth_idgeo_idprov_idcity_idcounty_idprodu_idagelevel_idtime_idgeo_idprodu_idamou_moneagelevel_idtime_idyear_idmonth_idgeo_idprov_idcity_idcounty_idprodu_idamou_moneagelevel_idtime_idgeo_idprodu_id全連接結(jié)果time_idgeo_id連接索引B2.4.2數(shù)據(jù)倉庫物理模型的索引構(gòu)建2.廣義索引的構(gòu)建連462.4.3數(shù)據(jù)倉庫物理模型的優(yōu)化問題1.合并表:幾個(gè)表的記錄分散存放在幾個(gè)物理塊中時(shí),多個(gè)表的存取和連接操作的代價(jià)會(huì)很大。

2.建立數(shù)據(jù)序列:按照某一固定的順序訪問并處理一組數(shù)據(jù)記錄。將數(shù)據(jù)按照處理順序存放到連續(xù)的物理塊中,形成數(shù)據(jù)序列。

3.引入冗余:一些表的某些屬性可能在許多地方都要用到,將這些屬性復(fù)制到多個(gè)主題中,可以減少處理時(shí)存取表的個(gè)數(shù)。

4.表的物理分割:每個(gè)主題中的各個(gè)屬性存取頻率是不同的。將一張表按各屬性被存取的頻率分成兩個(gè)或多個(gè)表,將具有相似訪問頻率的數(shù)據(jù)組織在一起。

5.生成派出數(shù)據(jù):在原始數(shù)據(jù)的基礎(chǔ)上進(jìn)行總結(jié)或計(jì)算,生成派出數(shù)據(jù),可以在應(yīng)用中直接使用這些派出數(shù)據(jù),減少I/O次數(shù),免去計(jì)算或匯總步驟,在更高級別上建立了公用數(shù)據(jù)源,避免了不同用戶重復(fù)計(jì)算可能產(chǎn)生的偏差。

2.4.3數(shù)據(jù)倉庫物理模型的優(yōu)化問題1.合并表:幾個(gè)表的472.5數(shù)據(jù)倉庫的元數(shù)據(jù)模型元數(shù)據(jù)靜態(tài)元數(shù)據(jù)名稱描述格式數(shù)據(jù)類型關(guān)系生成時(shí)間來源索引類別域業(yè)務(wù)規(guī)則2.5.1元數(shù)據(jù)的類型與組成元數(shù)據(jù)動(dòng)態(tài)元數(shù)據(jù)

入庫時(shí)間更新周期數(shù)據(jù)質(zhì)量統(tǒng)計(jì)信息狀態(tài)處理存儲(chǔ)位置存儲(chǔ)大小引用處2.5數(shù)據(jù)倉庫的元數(shù)據(jù)模型元數(shù)據(jù)靜態(tài)元數(shù)據(jù)名稱描述格式數(shù)482.5.2元數(shù)據(jù)在數(shù)據(jù)倉庫中的作用元數(shù)據(jù)描述了數(shù)據(jù)的結(jié)構(gòu)、內(nèi)容、鍵、索引等項(xiàng)內(nèi)容。在數(shù)據(jù)倉庫中,元數(shù)據(jù)定義了數(shù)據(jù)倉庫中的許多對象——表、列、查詢、商業(yè)規(guī)則或是數(shù)據(jù)倉庫內(nèi)部的數(shù)據(jù)轉(zhuǎn)移。元數(shù)據(jù)是數(shù)據(jù)倉庫的重要構(gòu)件,是數(shù)據(jù)倉庫的指示圖(roadmap)。

1.數(shù)據(jù)倉庫的元數(shù)據(jù)重要性為數(shù)據(jù)倉庫服務(wù)與DSS分析員及高層決策人員服務(wù)提供便利

解決操作型環(huán)境和數(shù)據(jù)倉庫的復(fù)雜關(guān)系

數(shù)據(jù)倉庫中數(shù)據(jù)的管理

2.元數(shù)據(jù)在數(shù)據(jù)倉庫開發(fā)期間的使用確認(rèn)數(shù)據(jù)質(zhì)量、同步化和刷新、映射3.元數(shù)據(jù)在數(shù)據(jù)源抽取中的作用資源領(lǐng)域的確定、跟蹤歷史數(shù)據(jù)結(jié)構(gòu)變化的過程、屬性到屬性的映射、屬性轉(zhuǎn)換

4.元數(shù)據(jù)在數(shù)據(jù)求精與重構(gòu)工程上的作用數(shù)據(jù)的分割、概括與聚集、預(yù)算與推導(dǎo)、轉(zhuǎn)換與再映像

2.5.2元數(shù)據(jù)在數(shù)據(jù)倉庫中的作用元數(shù)據(jù)描述了數(shù)據(jù)的結(jié)構(gòu)492.5.3元數(shù)據(jù)的收集1.數(shù)據(jù)源的元數(shù)據(jù)2.數(shù)據(jù)模型的元數(shù)據(jù)3.數(shù)據(jù)源與數(shù)據(jù)倉庫映射的元數(shù)據(jù)4.數(shù)據(jù)倉庫應(yīng)用的元數(shù)據(jù)2.5.3元數(shù)據(jù)的收集1.數(shù)據(jù)源的元數(shù)據(jù)502.6數(shù)據(jù)倉庫的粒度和聚集模型粒度可定義成數(shù)據(jù)倉庫中數(shù)據(jù)細(xì)節(jié)的最低層次,如事務(wù)層次。這種數(shù)據(jù)層次是高度細(xì)節(jié)化的,這樣就能使用戶按所需的任何層次進(jìn)行匯總。根據(jù)粒度的劃分標(biāo)準(zhǔn)可以將數(shù)據(jù)劃分為:詳細(xì)數(shù)據(jù)、輕度總結(jié)、高度總結(jié)三級或更多級粒度。粒度的具體劃分將直接影響到

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論