版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
DW的設(shè)計(jì)是一個(gè)復(fù)雜的過程:現(xiàn)實(shí)環(huán)境→抽象模型→具體實(shí)現(xiàn)。上述過程實(shí)現(xiàn)的期間,使用了諸多的數(shù)據(jù)模型,……§1引言
§2概念模型§3邏輯模型§4物理模型§5元數(shù)據(jù)模型§6粒度模型§7聚集模型第二章數(shù)據(jù)倉庫開發(fā)模型§1引言
創(chuàng)建DW時(shí),需用各種數(shù)據(jù)模型對(duì)DW進(jìn)行描述。DW的開發(fā)者依據(jù)這些數(shù)據(jù)模型,才能開發(fā)出一個(gè)滿足用戶需求的DW。為了使開發(fā)人員能夠?qū)⒆⒁饬性跀?shù)據(jù)倉庫開發(fā)的主要部分,模型要有很好的適應(yīng)性,更易于修改,且,當(dāng)用戶的需求改變時(shí),僅對(duì)模型做出相應(yīng)的變化就能反映這個(gè)改變。CH2
模型是對(duì)現(xiàn)實(shí)世界進(jìn)行抽象的工具。信息管理中,需要將現(xiàn)實(shí)世界的事物及其有關(guān)特征轉(zhuǎn)換為信息世界的數(shù)據(jù)才能對(duì)信息進(jìn)行處理與管理,這就需要依靠數(shù)據(jù)模型作為這種轉(zhuǎn)換的橋梁。上述的轉(zhuǎn)換一般需要經(jīng)歷從現(xiàn)實(shí)到概念模型,從概念模型到邏輯模型,從邏輯模型到物理模型的轉(zhuǎn)換過程。CH2現(xiàn)實(shí)世界概念世界邏輯世界計(jì)算機(jī)世界信用張三客戶客戶與產(chǎn)品特性屬性列(字段、數(shù)據(jù)項(xiàng))個(gè)體實(shí)體記錄整體同質(zhì)總體表文件整體間聯(lián)系異質(zhì)總體數(shù)據(jù)庫現(xiàn)實(shí)世界與各個(gè)數(shù)據(jù)模型之間的關(guān)系CH2此外,數(shù)據(jù)倉庫的開發(fā)過程中,還要使用下述很重要的幾個(gè)數(shù)據(jù)模型——元數(shù)據(jù)模型和數(shù)據(jù)粒度和聚集模型。DW開發(fā)過程中,各個(gè)數(shù)據(jù)模型間的關(guān)系如下圖所示?,F(xiàn)實(shí)世界概念模型邏輯模型物理模型數(shù)據(jù)倉庫元數(shù)據(jù)模型聚集模型數(shù)據(jù)粒度和DW的靈魂!指導(dǎo)DW開發(fā)。CH2§2概念模型概念模型是對(duì)真實(shí)世界中問題域內(nèi)的事物的描述,包括:記號(hào)、內(nèi)涵、外延,其中記號(hào)和內(nèi)涵(視圖)最具實(shí)際意義。和業(yè)務(wù)處理系統(tǒng)一樣,數(shù)據(jù)倉庫構(gòu)建過程中,也可以用E-R圖來表示概念模型——這樣做的直接好處是,數(shù)據(jù)倉庫與業(yè)務(wù)處理系統(tǒng)能夠得到很好的協(xié)調(diào)。CH2①改進(jìn)的E-R圖與業(yè)務(wù)處理系統(tǒng)中的數(shù)據(jù)庫概念設(shè)計(jì)一樣,數(shù)據(jù)倉庫也可以用三個(gè)層次的數(shù)據(jù)模型來描述——高層模型(E-R圖)、中層模型(邏輯層)和底層模型(物理層)。但要注意兩者之間的差異:數(shù)據(jù)類型的差異DW中不包含操作型數(shù)據(jù),只包含用戶感興趣的分析數(shù)據(jù)(如,商品的銷量、企業(yè)的利潤(rùn)等)、描述數(shù)據(jù)(如,銷售時(shí)間、地點(diǎn))CH2以及細(xì)節(jié)數(shù)據(jù)(如,所銷售商品的詳情、客戶詳情等)。數(shù)據(jù)的歷史變遷性
業(yè)務(wù)處理系統(tǒng)中,一般只包含當(dāng)前數(shù)據(jù)而不含歷史數(shù)據(jù);
數(shù)據(jù)倉庫中,為了反映出組織的歷史變遷、業(yè)務(wù)的發(fā)展等,需要增加時(shí)間屬性進(jìn)行描述(即把時(shí)間作為關(guān)鍵字的一部分)。數(shù)據(jù)的概括性為了提高使用的性能,往往在數(shù)據(jù)倉庫中增加一些由基本數(shù)據(jù)導(dǎo)出的衍生數(shù)據(jù),它們?cè)跇I(yè)務(wù)處理系統(tǒng)中是不存在的。為此,對(duì)傳統(tǒng)的E-R圖進(jìn)行了一些改進(jìn):把實(shí)體擴(kuò)展成三類——指標(biāo)實(shí)體(事實(shí)實(shí)體)、維實(shí)體和詳細(xì)類別實(shí)體。CH2其中:指標(biāo)實(shí)體指標(biāo)實(shí)體處于概念模型的中心,是DW活動(dòng)的中心;是現(xiàn)實(shí)世界中的某一業(yè)務(wù)處理或某一事件(銷售、服務(wù)等)的邏輯表示;體現(xiàn)了現(xiàn)實(shí)世界中的事務(wù)處理的值(從業(yè)務(wù)處理系統(tǒng)獲取的),每個(gè)值只與每個(gè)相關(guān)維的一個(gè)點(diǎn)對(duì)應(yīng),是管理人員衡量業(yè)務(wù)好壞及其處理難度的基礎(chǔ)。CH2隨著時(shí)間的推推移,以及數(shù)數(shù)據(jù)倉庫需求求的變化,指指標(biāo)實(shí)體中的的數(shù)據(jù)量會(huì)日日益膨脹,因因此,指標(biāo)實(shí)實(shí)體是數(shù)據(jù)倉倉庫管理的重重點(diǎn)。其主要特性如下:是分析析中心,提供供基本數(shù)據(jù);;包含多個(gè)數(shù)數(shù)據(jù)訪問路徑徑;包含標(biāo)準(zhǔn)準(zhǔn)數(shù)據(jù);能擴(kuò)擴(kuò)充成很大的的表——以容容納日益增長(zhǎng)長(zhǎng)的數(shù)據(jù)。CH2維實(shí)體主要用于對(duì)實(shí)實(shí)體的過濾和和重新組織,,可將用戶的查查詢結(jié)果按維維指標(biāo)進(jìn)行篩篩選,可在指指標(biāo)實(shí)體之間間以及指標(biāo)實(shí)實(shí)體與詳細(xì)類類別實(shí)體之間間建立聯(lián)系,,使用戶對(duì)DW的使用更更輕松。其主要特特性:訪問問并過過濾指指標(biāo)實(shí)實(shí)體;;是非非標(biāo)準(zhǔn)準(zhǔn)實(shí)體體(含含完整整的維維體系系編碼碼、關(guān)關(guān)鍵詞詞及相相關(guān)運(yùn)運(yùn)算));引引導(dǎo)用用戶及及進(jìn)行行查詢?cè)兎治鑫龅鹊鹊?。CH2詳細(xì)類類別實(shí)實(shí)體與現(xiàn)實(shí)實(shí)世界界的某某一實(shí)實(shí)體((一個(gè)個(gè)客戶戶/一一個(gè)產(chǎn)產(chǎn)品/一個(gè)個(gè)銷售售點(diǎn)))對(duì)應(yīng)應(yīng),為為用戶戶提供供更為為詳細(xì)細(xì)的分分析數(shù)數(shù)據(jù)。其主要要特性性為::含參參考數(shù)數(shù)據(jù)及及有助助于完完成指指標(biāo)數(shù)數(shù)據(jù)職職能的的支持持信息息;與與事務(wù)務(wù)結(jié)構(gòu)構(gòu)有映映射關(guān)關(guān)系;;是標(biāo)標(biāo)準(zhǔn)的的數(shù)據(jù)據(jù)結(jié)構(gòu)構(gòu);數(shù)數(shù)據(jù)量量比指指標(biāo)實(shí)實(shí)體少少,比比維實(shí)實(shí)體多多。CH2②反反規(guī)范范化處處理業(yè)務(wù)處處理系系統(tǒng)中中的數(shù)數(shù)據(jù)庫庫設(shè)計(jì)計(jì),是是以規(guī)范化化數(shù)據(jù)模模型為為目標(biāo)標(biāo)的,,如,,RDBMS中中的3NF等,,規(guī)范范化數(shù)數(shù)據(jù)模模型具具有存存儲(chǔ)的的高效效性和和靈活活性的的特點(diǎn)點(diǎn)。數(shù)據(jù)倉倉庫中,若若仍采采用規(guī)規(guī)范化化數(shù)據(jù)據(jù)模型型的話話,就就會(huì)存存在一一系列列“小小”表表,在在進(jìn)行行大量量的數(shù)數(shù)據(jù)處處理時(shí)時(shí),會(huì)會(huì)頻繁繁地與與這些些小表表進(jìn)行行動(dòng)態(tài)態(tài)連接接,從從而產(chǎn)產(chǎn)生大大量的的I/O操作。。CH2反規(guī)范范化處處理,就是是為了了減少少I/O次次數(shù)而而把上上述的的諸多多“小小”表表合并并在一一起的的處理理方法法??梢?,,反反規(guī)范范化處處理是是以增增加數(shù)數(shù)據(jù)的的冗余余為代代價(jià)來來減少少I/O次次數(shù)的的———由于于數(shù)據(jù)據(jù)倉庫庫中要要進(jìn)行行海量量的數(shù)數(shù)據(jù)處處理,,因此此,這這種以以“空空間換換時(shí)間間”的的嘗試試,在在數(shù)據(jù)據(jù)倉庫庫應(yīng)用用中是是值得得的,,也是是易于于被用用戶所所接受受的。。CH2③星星形模模型僅從概念設(shè)設(shè)計(jì)的角度度來看看,右右圖給給出了了一個(gè)個(gè)簡(jiǎn)單單的ER圖圖,其其中的的五個(gè)實(shí)實(shí)體相相互間間是平等關(guān)關(guān)系。然然而,,從管理決決策的角度度看,,這五五個(gè)實(shí)實(shí)體絕絕對(duì)不不會(huì)是是“平平等關(guān)關(guān)系””,例例如,,決策策者真真正關(guān)關(guān)心的的是““訂單單”,,其他他實(shí)體體(供供應(yīng)商商、產(chǎn)產(chǎn)品、、客戶戶等))只是是針對(duì)對(duì)“訂訂單””的諸諸多說說明。。CH2進(jìn)而,,實(shí)際際應(yīng)用用中,,會(huì)有有大量量數(shù)據(jù)據(jù)載入入訂單實(shí)體,,其他他實(shí)體體只有有少量量數(shù)據(jù)據(jù)載入入———因此此需要要一種種有別別于傳統(tǒng)ER圖圖的數(shù)據(jù)據(jù)模型型來描描述某某個(gè)實(shí)實(shí)體需需載入入大量量數(shù)據(jù)據(jù)的結(jié)結(jié)構(gòu)———星形模模型就是這這樣的的模型型之一一。CH2一個(gè)星形模模型包含一一個(gè)對(duì)對(duì)應(yīng)于于某個(gè)個(gè)主題題的事實(shí)表表和若干干個(gè)非非正規(guī)規(guī)化描描述事事實(shí)的的維表。星形形模型型具有有以下下特性性:事事實(shí)表表的數(shù)數(shù)據(jù)描描述特特定的的商務(wù)務(wù)事件件,一一般可以以添加加不許許修改改;維維表存存放事事實(shí)表表中數(shù)數(shù)據(jù)的的特征征值,,利用用維關(guān)鍵鍵字通通過事事實(shí)表表的外外鍵約約束于于事實(shí)實(shí)表的某某一行行,因因此,,事實(shí)實(shí)表的的外鍵鍵不許許為空((一般般DB則可可)———優(yōu)點(diǎn)??;每每個(gè)維維表通通過一一個(gè)主主鍵與與事實(shí)實(shí)表鏈鏈接;;通過過事實(shí)表表可以關(guān)關(guān)聯(lián)各個(gè)個(gè)維表。。CH2④雪花花模型雪花模型型是對(duì)星星形模型型的擴(kuò)展展——每每個(gè)維表表均可向向外鏈接接多個(gè)詳細(xì)類別別表,以對(duì)事事實(shí)表進(jìn)進(jìn)行詳細(xì)細(xì)描述———減小小了事實(shí)實(shí)表。CH2注:雪花模型型中,維表被標(biāo)標(biāo)準(zhǔn)化、、正規(guī)化化了———改善了了查詢的性性能;由于采用用了標(biāo)準(zhǔn)準(zhǔn)化以及及低粒度度,所以以雪花模型型提高了了數(shù)據(jù)倉倉庫應(yīng)用用的靈活活性。CH2§3邏邏輯模型型邏輯模型型是三層層模型中中的中層層模型,,它是對(duì)對(duì)高層模模型(概概念模型型)的細(xì)細(xì)化,如如下圖。。CH2①邏輯輯模型的的基本結(jié)結(jié)構(gòu)邏輯模型型有四種種基本結(jié)結(jié)構(gòu):基基本數(shù)據(jù)據(jù)組、二二級(jí)數(shù)據(jù)據(jù)組、連連接數(shù)據(jù)據(jù)組和類類型數(shù)據(jù)據(jù)組。CH2基本數(shù)據(jù)據(jù)組其中存在在著唯一一的主要主題題域?;緮?shù)數(shù)據(jù)組在在每個(gè)主主題域中中只出現(xiàn)現(xiàn)一次,,包含屬屬性和鍵鍵碼。二級(jí)數(shù)據(jù)據(jù)組基本數(shù)據(jù)據(jù)組中,,有一組組鏈接指向二級(jí)級(jí)數(shù)據(jù)組組,表示示主要主主題域所所具有的的屬性,,有多少少個(gè)屬性性就有多多少個(gè)二二級(jí)數(shù)據(jù)據(jù)組。CH2連接數(shù)據(jù)據(jù)組用于本組組主要主題題域與其他主主要主題題域間的的關(guān)聯(lián),,體現(xiàn)了了概念模模型中實(shí)實(shí)體間的的聯(lián)系。一般,,它是一一個(gè)主題題的公共碼主主鍵。類型數(shù)據(jù)據(jù)組用于指明明數(shù)據(jù)的的類型,,主要有有超類型型和子類類型兩種種。除了連接接數(shù)據(jù)組組外,其其他三類類數(shù)據(jù)組組的數(shù)據(jù)據(jù)具有不不同的穩(wěn)穩(wěn)定性,,由高到到低依次次為基本本數(shù)據(jù)組組、二級(jí)級(jí)數(shù)據(jù)組組、類型型數(shù)據(jù)組組。CH2②邏輯輯模型實(shí)實(shí)例CH2可見:中層(邏邏輯)模模型向用戶提提供了更更為詳細(xì)細(xì)的設(shè)計(jì)計(jì)結(jié)果,,用戶能能夠借此此了解數(shù)數(shù)據(jù)倉庫庫可以給給他提供供一些什什么信息息;邏輯輯模型設(shè)設(shè)計(jì)中,,DW開開發(fā)者關(guān)關(guān)心的是是DW結(jié)結(jié)構(gòu)的完完整性———數(shù)據(jù)據(jù)倉庫中中的所有有數(shù)據(jù)元元素都應(yīng)應(yīng)該包含含在邏輯輯模型中中——至至于如何何獲取數(shù)數(shù)據(jù),在在此并不不感興趣趣。CH2③事實(shí)實(shí)表模型型設(shè)計(jì)A.事實(shí)實(shí)表的設(shè)設(shè)計(jì)確定了中中層模型型之后,,就要設(shè)設(shè)計(jì)事實(shí)實(shí)表模型型了。例例如,根根據(jù)上例例,可以以設(shè)計(jì)出出以下事事實(shí)模型型:客戶戶事實(shí)表表客戶基本本情況表表(賬號(hào)號(hào)int9,姓名名ch12,客戶戶類型ch20,初次交易易時(shí)間date8,………)客戶變動(dòng)動(dòng)情況表表(賬號(hào)號(hào)int9,住址址ch50,文化化程度ch10,電話int11,郵政編編碼ch6,………)CH2客戶戶交易事事實(shí)表商品交易易情況表表(賬號(hào)號(hào)int9,商品品編號(hào)ch10,交易量r10.2,交易易時(shí)間date8,………)服務(wù)交易易情況表表(賬號(hào)號(hào)int9,服務(wù)務(wù)時(shí)間date8,服務(wù)編號(hào)號(hào)int10,服務(wù)務(wù)費(fèi)用,,……)客戶戶反饋記記錄表客戶反饋饋記錄表表(賬號(hào)號(hào)int9,反饋饋類型ch5,反饋內(nèi)容容memo,記錄人人ch8,……)客戶戶信用狀狀況表客戶信用用狀況表表(賬號(hào)號(hào)int9,最大大信用額額r15.2,最近信用用發(fā)生時(shí)時(shí)間date8,……)CH2B.事實(shí)實(shí)表中的的事實(shí)特特性事實(shí)實(shí)指標(biāo)的的可加性;完全可加加性,半半可加性性,非可可加性派生事實(shí)實(shí)可加性的的派生事事實(shí),不不可加性性的派生生事實(shí)總之,事事實(shí)表是是DW中中的最大大表,要要盡可能能設(shè)計(jì)得得?。ㄋ妓伎迹耗哪男┓椒ǚǎ浚?,,同時(shí)還還要考慮慮數(shù)據(jù)的的精度和和粒度。。CH2④維模模型設(shè)計(jì)計(jì)維,是人人們觀察察某個(gè)數(shù)數(shù)據(jù)集合合的特定定角度,,是以對(duì)對(duì)數(shù)據(jù)某某個(gè)共性性的提取取為前提提的。例例如,前前例中,,可設(shè)計(jì)計(jì)出客戶戶主題的的維表模模型如下下:時(shí)間維表表(年date,月月date,日date);地點(diǎn)維表表(省ch20,市ch20,縣縣ch20,街道道ch20);交易維表表(現(xiàn)金金交易ch20,信用交交易ch20)關(guān)于維的的討論,,將在OLAP一章進(jìn)進(jìn)行。CH2§4物物理模型型所謂物理模型型,就是中中層(邏邏輯)模模型(包包括事實(shí)實(shí)表和維維表)的的物理實(shí)實(shí)現(xiàn)。具具體包括括以下內(nèi)內(nèi)容:確定存儲(chǔ)儲(chǔ)結(jié)構(gòu)((一般用用RAID);;確定定索引類類型(位位圖/廣廣義索引引);物理理模型的的優(yōu)化((表合并并,建立立數(shù)據(jù)序序列,引引入冗余余,表的的物理分分割,生生成衍生生數(shù)據(jù)等等)。RAID是“RedundantArrayofIndependentDisk”的縮縮寫,中中文意思思是獨(dú)立立冗余磁磁盤陣列列。CH2實(shí)際應(yīng)用用中,DW設(shè)計(jì)計(jì)者不必必直接設(shè)計(jì)物理理模型,,只需借借助于現(xiàn)現(xiàn)成的工工具(如如,某個(gè)個(gè)DBMS)設(shè)設(shè)計(jì)即可可。此時(shí),,需考慮慮的問題題有:全面了解解所選用用的DBMS,,特別是是其存儲(chǔ)結(jié)構(gòu)構(gòu)和存取方法法;了解數(shù)據(jù)據(jù)環(huán)境、、數(shù)據(jù)的的使用頻頻度、使使用方式式、數(shù)據(jù)據(jù)規(guī)模以以及響應(yīng)應(yīng)時(shí)間要要求等———平衡衡、優(yōu)化化時(shí)間和和空間效效率的重重要依據(jù)據(jù);了解外部部存儲(chǔ)設(shè)設(shè)備的特特性,如如分塊原原則,塊塊大小的的規(guī)定,,設(shè)備的的I/O特性等等。CH2§5元數(shù)據(jù)模模型DW中元元數(shù)據(jù)定定義了許許多對(duì)象象——表表、列、、查詢、、商業(yè)規(guī)規(guī)則以及及DW內(nèi)內(nèi)部的數(shù)數(shù)據(jù)轉(zhuǎn)移移等。元數(shù)據(jù)是是DW的的重要構(gòu)構(gòu)件,是是DW的的指示圖圖。一般,元元數(shù)據(jù)的的來源有有:數(shù)據(jù)源的的元數(shù)據(jù)據(jù);數(shù)據(jù)模型型的元數(shù)數(shù)據(jù);數(shù)據(jù)源與與數(shù)據(jù)倉倉庫映射射的元數(shù)數(shù)據(jù);數(shù)據(jù)倉庫庫應(yīng)用的的元數(shù)據(jù)據(jù)。CH2①元數(shù)數(shù)據(jù)的類類型與組組成元數(shù)據(jù)通通常分為為靜態(tài)元元數(shù)據(jù)和和動(dòng)態(tài)元元數(shù)據(jù)兩兩類,其其組成如如下表所所示:靜態(tài)元數(shù)據(jù)名稱描述格式數(shù)據(jù)類型關(guān)系生成時(shí)間來源索引類別域業(yè)務(wù)規(guī)則動(dòng)態(tài)元數(shù)據(jù)入庫時(shí)間更新周期數(shù)據(jù)質(zhì)量統(tǒng)計(jì)信息狀態(tài)處理存儲(chǔ)位置存儲(chǔ)大小引用處CH2②元數(shù)數(shù)據(jù)的作作用A.元數(shù)數(shù)據(jù)的重重要性導(dǎo)航(DW的的使用));描述并記記錄數(shù)據(jù)從業(yè)業(yè)務(wù)系統(tǒng)統(tǒng)的操作作型環(huán)境境到DW的轉(zhuǎn)換,以便利利用其((靈活地地、可變變地)管管理數(shù)據(jù)據(jù)的轉(zhuǎn)換換以及進(jìn)進(jìn)行數(shù)據(jù)回溯溯等。管理數(shù)據(jù)據(jù),包括::粒度劃劃分、數(shù)數(shù)據(jù)分割割、索引引;不同同時(shí)期的的數(shù)據(jù)內(nèi)內(nèi)容及形形式;主主題的增增加及刪刪除———這些管管理工作作均需在在元數(shù)據(jù)據(jù)中有相相應(yīng)的描描述。CH2B.元數(shù)數(shù)據(jù)在DW開發(fā)發(fā)期間的的作用DW的應(yīng)用管理理,比如,,捕獲數(shù)數(shù)據(jù)轉(zhuǎn)化化、凈化化、概括括、聚集集的規(guī)則則(商業(yè)業(yè)規(guī)則與與處理規(guī)規(guī)則)等等;向用戶戶提供大量的數(shù)據(jù)關(guān)系;從歷史史數(shù)據(jù)抽取數(shù)據(jù)的規(guī)則;存儲(chǔ)抽取、求精精、重構(gòu)過過程中數(shù)據(jù)據(jù)源到DW的映射關(guān)系(以便確認(rèn)數(shù)據(jù)質(zhì)質(zhì)量、實(shí)現(xiàn)同步化及刷刷新、建立數(shù)據(jù)與商業(yè)業(yè)規(guī)則間的的映射關(guān)系)。CH2C.元數(shù)據(jù)據(jù)在數(shù)據(jù)抽抽取中的作作用確定數(shù)據(jù)源——每個(gè)個(gè)主題源于于哪些數(shù)據(jù)據(jù)源;跟蹤歷史數(shù)據(jù)的的數(shù)據(jù)結(jié)構(gòu)構(gòu)的變化——保證證各個(gè)時(shí)期期的歷史數(shù)數(shù)據(jù)可以正正確地轉(zhuǎn)換換到DW中中;實(shí)現(xiàn)屬屬性到屬性性的映射——元數(shù)數(shù)據(jù)的屬性性信息可以以保證多個(gè)個(gè)數(shù)據(jù)源的的相同數(shù)據(jù)據(jù)映射到一一起;屬性的的轉(zhuǎn)換。CH2D.元數(shù)據(jù)據(jù)在求精與與重構(gòu)中的的作用數(shù)據(jù)的分割割——以元數(shù)據(jù)形形式(下同)保保存分割方方案;數(shù)據(jù)的的概括——保存存概括中的的數(shù)據(jù)關(guān)系系;預(yù)算與與推導(dǎo)——保存存預(yù)算與推推導(dǎo)的算法法;轉(zhuǎn)換與與再映射——保存存(從關(guān)系系模型到星星形或雪花花型模型的的)轉(zhuǎn)換與與再映射的的方案。CH2③元數(shù)據(jù)據(jù)的收集A.數(shù)據(jù)源源元數(shù)據(jù)可以通過程程序自動(dòng)掃描(數(shù)據(jù)據(jù)源物理結(jié)結(jié)構(gòu)以及表表結(jié)構(gòu))或或手工方式獲得。。一般,手手工獲得的的量較少,,可容易地地編輯成文文檔。B.數(shù)據(jù)模模型元數(shù)據(jù)據(jù)元數(shù)據(jù)庫中保存DW數(shù)據(jù)模型型;保存企企業(yè)數(shù)據(jù)模模型及元數(shù)數(shù)據(jù)與DW數(shù)據(jù)模型型的映射關(guān)系;把數(shù)據(jù)據(jù)源元數(shù)據(jù)據(jù)移入DW元數(shù)據(jù)據(jù)庫。CH2從數(shù)據(jù)模型型收集元數(shù)據(jù),可可借助于CASE工工具自動(dòng)實(shí)現(xiàn),但重要的的數(shù)據(jù)模型型與元數(shù)據(jù)據(jù)的對(duì)應(yīng)關(guān)關(guān)系的確認(rèn)認(rèn),最好通通過手工方式完成。。C.數(shù)據(jù)源源與數(shù)據(jù)倉倉庫映射的的元數(shù)據(jù)該映射包括括抽取、轉(zhuǎn)轉(zhuǎn)換、加載載等過程。。若手工完成,則需需以數(shù)據(jù)庫庫或電子表表格方式定定義上述映映射并存于于元數(shù)據(jù)庫庫中;若由DW開發(fā)工具完成,則,,除了把映映射存于元元數(shù)據(jù)庫之之外,還要要提供訪問問該映射的的方式與工工具。CH2D.數(shù)據(jù)倉倉庫應(yīng)用的的元數(shù)據(jù)——元數(shù)數(shù)據(jù)模型構(gòu)構(gòu)造中最后后、最困難難、最重要要的內(nèi)容。。其主要工作是:確定DW中各個(gè)個(gè)使用對(duì)象象被使用的的頻率———高頻率者者,可建立立數(shù)據(jù)集市市或增加概概括數(shù)據(jù);;低頻率者者,可釋放放相應(yīng)的概概括、聚集集數(shù)據(jù),回回收它們占占據(jù)的磁盤盤空間。上述工作一一般通過手工方式完成。CH2§6粒度度模型所謂粒度,可定義成成DW記錄錄數(shù)據(jù)/對(duì)對(duì)數(shù)據(jù)進(jìn)行行綜合時(shí)使使用的時(shí)間間段參數(shù)———該參參數(shù)越小,,粒度級(jí)別別越低,數(shù)數(shù)據(jù)越詳細(xì)細(xì);反之之,粒度級(jí)級(jí)別越高,,數(shù)據(jù)也也越綜合((細(xì)節(jié)損失失得也越多多)。根據(jù)粒度的的劃分標(biāo)準(zhǔn)準(zhǔn),可以以將數(shù)據(jù)劃劃分為:詳細(xì)數(shù)據(jù)、輕度總結(jié)、高度總結(jié)三級(jí)或更多多級(jí)粒度。。粒度的的具體劃分分將直接影影響到數(shù)據(jù)據(jù)倉庫中的的數(shù)據(jù)量以以及查詢質(zhì)質(zhì)量。CH2①數(shù)據(jù)粒粒度的劃分分最低級(jí)別的粒度可定定義成數(shù)據(jù)據(jù)倉庫中數(shù)數(shù)據(jù)細(xì)節(jié)的的最低層次次,如事務(wù)務(wù)層次。這這種數(shù)據(jù)層層次是高度度細(xì)節(jié)化的的,能使用用戶按所需需的任何層層次進(jìn)行匯匯總,但它它受外存空空間以及響響應(yīng)時(shí)間的的制約。涉及到時(shí)間間和空間,,自然與各各個(gè)表的““體積”以以及索引文文件的大小小密切相關(guān)關(guān)——所所以劃分分粒度的最最終依據(jù)是是表的總行行數(shù)而非字字段數(shù)的多多寡。(思考:為什什么?)CH2②粒度劃劃分的步驟驟確定DW中數(shù)據(jù)據(jù)行數(shù)和存儲(chǔ)設(shè)備數(shù)數(shù);估算DW中中表的數(shù)目以及每個(gè)表表的大致行數(shù)(通常需給出出上下限));估算每個(gè)表表一年的存存儲(chǔ)空間以以及最長(zhǎng)保保留年數(shù)((假設(shè)為5年)所需需存儲(chǔ)空間間;估算DW一一年的存儲(chǔ)儲(chǔ)空間以及及最長(zhǎng)保留留年數(shù)所需需存儲(chǔ)空間間。最后,,參照下面面的對(duì)照表表給出數(shù)據(jù)據(jù)粒度的劃分策略:CH2CH2③確定粒粒度的級(jí)別別進(jìn)行數(shù)據(jù)粒粒度的劃分分,要確定定粒度的級(jí)級(jí)別,具體體考慮的因因素包括::要接受的分分析類型、、可接受的的數(shù)據(jù)最低低粒度和能能存儲(chǔ)的數(shù)數(shù)據(jù)量;粒度度的的層層次次定定義義越越高高,,就就越越不不能
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于大數(shù)據(jù)的數(shù)字化農(nóng)業(yè)智能決策模型構(gòu)建
- 蘇州科技大學(xué)天平學(xué)院《新零售物流管理》2023-2024學(xué)年第一學(xué)期期末試卷
- 蘇州科技大學(xué)天平學(xué)院《統(tǒng)計(jì)學(xué)》2021-2022學(xué)年第一學(xué)期期末試卷
- 蘇州科技大學(xué)天平學(xué)院《組織行為學(xué)》2022-2023學(xué)年第一學(xué)期期末試卷
- 木材的研究和學(xué)術(shù)進(jìn)展考核試卷
- 《環(huán)保資料》課件
- 創(chuàng)新技術(shù)應(yīng)用的企業(yè)培訓(xùn)方案考核試卷
- 痛痛病鎘中毒的臨床表現(xiàn)
- 危險(xiǎn)品倉儲(chǔ)安全培訓(xùn)與教育管理考核試卷
- 低溫倉儲(chǔ)與食品產(chǎn)地追溯考核試卷
- 解除產(chǎn)品代理商合同范本
- 2023年新人教版小學(xué)數(shù)學(xué)六年級(jí)上冊(cè)全冊(cè)教案
- 2024年中國(guó)汽車噴漆烤房市場(chǎng)調(diào)查研究報(bào)告
- 年生產(chǎn)10000噸鵪鶉養(yǎng)殖基地項(xiàng)目可行性研究報(bào)告寫作模板-備案審批
- 2024年全國(guó)職業(yè)院校技能大賽中職組(養(yǎng)老照護(hù)賽項(xiàng))考試題庫-下(判斷題)
- 書法(校本)教學(xué)設(shè)計(jì) 2024-2025學(xué)年統(tǒng)編版語文九年級(jí)上冊(cè)
- 阿米巴經(jīng)營(yíng)知識(shí)競(jìng)賽考試題庫(濃縮300題)
- 《積極心理學(xué)(第3版)》 課件 第10章 感恩
- 中華優(yōu)+秀傳統(tǒng)文化智慧樹知到答案2024年浙江金融職業(yè)學(xué)院
- 走進(jìn)紅色新聞歷史現(xiàn)場(chǎng)智慧樹知到答案2024年延安大學(xué)
- 08D800-8民用建筑電氣設(shè)計(jì)與施工防雷與接地
評(píng)論
0/150
提交評(píng)論