版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第2章數(shù)據(jù)倉庫原理本章學(xué)習(xí)目標(biāo):掌握數(shù)據(jù)倉庫的定義,四個(gè)基本特征掌握數(shù)據(jù)集市的概念,與數(shù)據(jù)倉庫區(qū)分掌握數(shù)據(jù)倉庫的體系結(jié)構(gòu)掌握數(shù)據(jù)倉庫中數(shù)據(jù)組織方式掌握數(shù)據(jù)處理過程掌握元數(shù)據(jù)的概念、元數(shù)據(jù)管理的原理第2章數(shù)據(jù)倉庫原理本章學(xué)習(xí)目標(biāo):1第2章數(shù)據(jù)倉庫原理2.1數(shù)據(jù)倉庫定義2.2數(shù)據(jù)集市2.3數(shù)據(jù)倉庫體系結(jié)構(gòu)2.4數(shù)據(jù)組織結(jié)構(gòu)和形式2.5數(shù)據(jù)抽取E、轉(zhuǎn)換T和裝載L(ETL)2.6元數(shù)據(jù)管理第2章數(shù)據(jù)倉庫原理2.1數(shù)據(jù)倉庫定義22.1數(shù)據(jù)倉庫定義WilliamH.Inmon:數(shù)據(jù)倉庫是一個(gè)面向主題的、集成的、非易失的且隨時(shí)間變化的數(shù)據(jù)集合,用于支持管理人員的決策。數(shù)據(jù)倉庫之父--BillInmon2.1數(shù)據(jù)倉庫定義WilliamH.Inmon:數(shù)據(jù)倉庫3四個(gè)基本特征數(shù)據(jù)倉庫的數(shù)據(jù)是面向主題的數(shù)據(jù)倉庫的數(shù)據(jù)是集成的數(shù)據(jù)倉庫的數(shù)據(jù)是非易失的數(shù)據(jù)倉庫的數(shù)據(jù)是隨時(shí)間不斷變化的四個(gè)基本特征數(shù)據(jù)倉庫的數(shù)據(jù)是面向主題的4面向主題主題(Subject):特定的數(shù)據(jù)分析領(lǐng)域與目標(biāo)。面向主題:為特定的數(shù)據(jù)分析領(lǐng)域提供數(shù)據(jù)支持。面向主題主題(Subject):特定的數(shù)據(jù)分析領(lǐng)域與目標(biāo)。5面向主題為特定數(shù)據(jù)分析領(lǐng)域提供的數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)庫中的數(shù)據(jù)是有不同的。傳統(tǒng)數(shù)據(jù)庫中的數(shù)據(jù)是原始的、基礎(chǔ)的數(shù)據(jù),而特定分析領(lǐng)域數(shù)據(jù)則是需要對(duì)它們作必要的抽取、加工與總結(jié)而形成。數(shù)據(jù)倉庫是面向分析、決策人員的主觀要求的,不同的用戶有不同的要求,同一個(gè)用戶的要求也會(huì)隨時(shí)間而經(jīng)常變化,因此,數(shù)據(jù)倉庫中的主題有時(shí)會(huì)因用戶主觀要求的變化而變化的。面向主題為特定數(shù)據(jù)分析領(lǐng)域提供的數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)庫中的數(shù)據(jù)是有6面向主題示例例:一個(gè)面向事務(wù)處理的“商場(chǎng)”數(shù)據(jù)庫系統(tǒng),其數(shù)據(jù)模式如下采購子系統(tǒng):訂單(訂單號(hào),供應(yīng)商號(hào),總金額,日期)訂單細(xì)則(訂單號(hào),商品號(hào),類別,單價(jià),數(shù)量)供應(yīng)商(供應(yīng)商號(hào),供應(yīng)商名,地址,電話)銷售子系統(tǒng):顧客(顧客號(hào),姓名,性別,年齡,文化程度,地址,電話)銷售(員工號(hào),顧客號(hào),商品號(hào),數(shù)量,單價(jià),日期)面向主題示例例:一個(gè)面向事務(wù)處理的“商場(chǎng)”數(shù)據(jù)庫系統(tǒng),其數(shù)據(jù)7面向主題示例庫存管理子系統(tǒng):領(lǐng)料單(領(lǐng)料單號(hào),領(lǐng)料人,商品號(hào),數(shù)量,日期)進(jìn)料單(進(jìn)料單號(hào),訂單號(hào),進(jìn)料人,收料人,日期)庫存(商品號(hào),庫房號(hào),庫存量,日期)庫房(庫房號(hào),倉庫管理員,地點(diǎn),庫存商品描述)人事管理子系統(tǒng):?jiǎn)T工(員工號(hào),姓名,性別,年齡,文化程度,部門號(hào))部門(部門號(hào),部門名稱,部門主管,電話)面向主題示例庫存管理子系統(tǒng):8面向主題示例上述數(shù)據(jù)模式基本上是按照企業(yè)內(nèi)部的業(yè)務(wù)活動(dòng)及其需要的相關(guān)數(shù)據(jù)來組織數(shù)據(jù)的存儲(chǔ)的,沒有實(shí)現(xiàn)真正的數(shù)據(jù)與應(yīng)用分離,其抽象程度也不夠高。如果按照面向主題的方式進(jìn)行數(shù)據(jù)組織,首先應(yīng)該抽取主題,即按照管理人員的分析要求來確定主題,而與每個(gè)主題相關(guān)的數(shù)據(jù)又與有關(guān)的事務(wù)處理所需的數(shù)據(jù)不盡相同。面向主題示例上述數(shù)據(jù)模式基本上是按照企業(yè)內(nèi)部的業(yè)務(wù)活動(dòng)及其需9主題一:商品商品固有信息:商品號(hào),商品名,類別,顏色等商品采購信息:商品號(hào),供應(yīng)商號(hào),供應(yīng)價(jià),供應(yīng)日期,供應(yīng)量等商品銷售信息:商品號(hào),顧客號(hào),售價(jià),銷售日期,銷售量等商品庫存信息:商品號(hào),庫房號(hào),庫存量,日期等主題一:商品商品固有信息:商品號(hào),商品名,類別,顏色等10主題二:供應(yīng)商供應(yīng)商固有信息:供應(yīng)商號(hào),供應(yīng)商名,地址,電話等供應(yīng)商品信息:供應(yīng)商號(hào),商品號(hào),供應(yīng)價(jià),供應(yīng)日期,供應(yīng)量等主題二:供應(yīng)商供應(yīng)商固有信息:供應(yīng)商號(hào),供應(yīng)商名,地址,電話11主題三:顧客顧客固有信息:顧客號(hào),顧客名,性別,年齡,文化程度,住址,電話等顧客購物信息:顧客號(hào),商品號(hào),售價(jià),購買日期,購買量等主題三:顧客顧客固有信息:顧客號(hào),顧客名,性別,年齡,文化程12面向主題在每個(gè)主題中,都包含了有關(guān)該主題的所有信息,同時(shí)又拋棄了與分析處理無關(guān)或不需要的數(shù)據(jù),從而將原本分散在各個(gè)子系統(tǒng)中的有關(guān)信息集中在一個(gè)主題中,形成有關(guān)該主題的一個(gè)完整一致的描述。面向主題的數(shù)據(jù)組織方式所強(qiáng)調(diào)的就是要形成一個(gè)這樣一致的信息集合。不同的主題之間也有重疊的內(nèi)容,但這種重疊是邏輯上的,而不是物理存儲(chǔ)上的重疊;是部分細(xì)節(jié)的重疊,而不是完全的重疊。面向主題在每個(gè)主題中,都包含了有關(guān)該主題的所有信息,同時(shí)又拋13面向主題每個(gè)主題所需數(shù)據(jù)的物理存儲(chǔ):多維數(shù)據(jù)庫(MDDB—Multi-DimensionalDataBase)用多維數(shù)組形式存儲(chǔ)數(shù)據(jù)。關(guān)系數(shù)據(jù)庫。用一組關(guān)系來組織數(shù)據(jù)的存儲(chǔ),同一主題的一組關(guān)系都有一個(gè)公共的關(guān)鍵字,存放的也不是細(xì)節(jié)性的業(yè)務(wù)數(shù)據(jù),而是經(jīng)過一定程度的綜合形成的綜合性數(shù)據(jù)。面向主題每個(gè)主題所需數(shù)據(jù)的物理存儲(chǔ):14集成的數(shù)據(jù)是分散的;由于事務(wù)處理應(yīng)用分散、蜘蛛網(wǎng)問題、數(shù)據(jù)不一致問題、外部數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)倉庫中的數(shù)據(jù)是為分析服務(wù)的,而分析需要多種廣泛的不同數(shù)據(jù)源以便進(jìn)行比較、鑒別,因此數(shù)據(jù)倉庫中的數(shù)據(jù)必須從多個(gè)數(shù)據(jù)源中獲取,這些數(shù)據(jù)源包括多種類型數(shù)據(jù)庫、文件系統(tǒng)以及Internet網(wǎng)上數(shù)據(jù)等,它們通過數(shù)據(jù)集成而形成數(shù)據(jù)倉庫中的數(shù)據(jù)。集成的數(shù)據(jù)是分散的;由于事務(wù)處理應(yīng)用分散、蜘蛛網(wǎng)問題、數(shù)據(jù)不15集成的集成的方法:統(tǒng)一:消除不一致的現(xiàn)象綜合:對(duì)原有數(shù)據(jù)進(jìn)行綜合和計(jì)算需要考慮的問題:數(shù)據(jù)格式計(jì)量單位數(shù)據(jù)代碼含義混亂數(shù)據(jù)名稱混亂集成的集成的方法:16非易失的數(shù)據(jù)倉庫中的數(shù)據(jù)是經(jīng)過抽取而形成的分析型數(shù)據(jù),不具有原始性,主要供企業(yè)決策分析之用,執(zhí)行的主要是‘查詢’操作,一般情況下不執(zhí)行‘更新’操作。同時(shí),一個(gè)穩(wěn)定的數(shù)據(jù)環(huán)境也有利于數(shù)據(jù)分析操作和決策的制訂。但這也不等于數(shù)據(jù)倉庫中的數(shù)據(jù)不需要‘更新’操作。在需要進(jìn)行新的分析決策時(shí),可能需要進(jìn)行新的數(shù)據(jù)抽取和‘更新’操作數(shù)據(jù)倉庫中的一些過時(shí)的數(shù)據(jù),也可以通過‘刪除’操作丟棄掉。因此數(shù)據(jù)倉庫的存儲(chǔ)管理相對(duì)于DBMS來說要簡(jiǎn)單得多。非易失的數(shù)據(jù)倉庫中的數(shù)據(jù)是經(jīng)過抽取而形成的分析型數(shù)據(jù),不具有17隨時(shí)間不斷變化數(shù)據(jù)倉庫中的數(shù)據(jù)必須以一定時(shí)間段為單位進(jìn)行統(tǒng)一更新。不斷增加新的數(shù)據(jù)內(nèi)容不斷刪去舊的數(shù)據(jù)內(nèi)容更新與時(shí)間有關(guān)的綜合數(shù)據(jù)隨時(shí)間不斷變化數(shù)據(jù)倉庫中的數(shù)據(jù)必須以一定時(shí)間段為單位進(jìn)行統(tǒng)一182.2數(shù)據(jù)集市(DataMart)建立數(shù)據(jù)集市的原因數(shù)據(jù)倉庫是一種反映主題的全局性數(shù)據(jù)組織。但是,全局性數(shù)據(jù)倉庫往往太大,在實(shí)際應(yīng)用中將它們按部門或個(gè)人分別建立反映各個(gè)子主題的局部性數(shù)據(jù)組織,它們即是數(shù)據(jù)集市。因此,有時(shí)我們也稱它為部門數(shù)據(jù)倉庫。例:在有關(guān)商品銷售的數(shù)據(jù)倉庫中可以建立多個(gè)不同主題的數(shù)據(jù)集市:商品采購數(shù)據(jù)集市庫房使用數(shù)據(jù)集市商品銷售數(shù)據(jù)集市2.2數(shù)據(jù)集市(DataMart)建立數(shù)據(jù)集市的原因19數(shù)據(jù)集市類型按照數(shù)據(jù)獲取來源:獨(dú)立型:直接從操作型環(huán)境獲取數(shù)據(jù)。從屬型:從企業(yè)級(jí)數(shù)據(jù)倉庫獲取數(shù)據(jù)。數(shù)據(jù)集市類型按照數(shù)據(jù)獲取來源:20建設(shè)途徑從全局?jǐn)?shù)據(jù)倉庫到數(shù)據(jù)集市從數(shù)據(jù)集市到全局?jǐn)?shù)據(jù)倉庫建設(shè)途徑從全局?jǐn)?shù)據(jù)倉庫到數(shù)據(jù)集市21數(shù)據(jù)倉庫VS數(shù)據(jù)集市數(shù)據(jù)倉庫與數(shù)據(jù)集市的關(guān)系類似于傳統(tǒng)關(guān)系數(shù)據(jù)庫系統(tǒng)中的基表與視圖的關(guān)系。數(shù)據(jù)集市的數(shù)據(jù)來自數(shù)據(jù)倉庫,它是數(shù)據(jù)倉庫中數(shù)據(jù)的一個(gè)部分與局部,是一個(gè)數(shù)據(jù)的再抽取與組織的過程。數(shù)據(jù)倉庫VS數(shù)據(jù)集市數(shù)據(jù)倉庫與數(shù)據(jù)集市的關(guān)系類似于傳統(tǒng)關(guān)222.3數(shù)據(jù)倉庫體系結(jié)構(gòu)數(shù)據(jù)倉庫系統(tǒng)由數(shù)據(jù)倉庫(DW)、倉庫管理和分析工具三部分組成ORACLESYBASESQLServer文件……數(shù)據(jù)集市數(shù)據(jù)集市數(shù)據(jù)集市數(shù)據(jù)建模數(shù)據(jù)倉庫元數(shù)據(jù)管理抽取……數(shù)據(jù)倉庫系統(tǒng)示意圖分析工具(OLAP、數(shù)據(jù)挖掘)2.3數(shù)據(jù)倉庫體系結(jié)構(gòu)數(shù)據(jù)倉庫系統(tǒng)由數(shù)據(jù)倉庫(DW)、倉庫23過程模型數(shù)據(jù)倉庫管理系統(tǒng)元數(shù)據(jù)多維關(guān)系數(shù)據(jù)庫多維數(shù)據(jù)庫外部操作型數(shù)據(jù)數(shù)據(jù)抽取數(shù)據(jù)清潔數(shù)據(jù)裝載管理平臺(tái)報(bào)表查詢工具數(shù)據(jù)挖掘工具OLAP工具過程模型數(shù)據(jù)倉庫管理系統(tǒng)元數(shù)據(jù)多維關(guān)系多維外部操作型數(shù)據(jù)抽取24倉庫管理-數(shù)據(jù)建模數(shù)據(jù)建模是建立數(shù)據(jù)倉庫的數(shù)據(jù)模型。數(shù)據(jù)倉庫的數(shù)據(jù)模型不同于數(shù)據(jù)庫的數(shù)據(jù)模型在于:數(shù)據(jù)倉庫只為決策分析用,不包含事務(wù)處理的數(shù)據(jù)。數(shù)據(jù)倉庫的增加了時(shí)間屬性數(shù)據(jù)。數(shù)據(jù)倉庫增加了一些綜合數(shù)據(jù)。數(shù)據(jù)倉庫的數(shù)據(jù)建模是適應(yīng)決策用戶使用的邏輯數(shù)據(jù)模型。倉庫管理-數(shù)據(jù)建模數(shù)據(jù)建模是建立數(shù)據(jù)倉庫的數(shù)據(jù)模型。25倉庫管理-元數(shù)據(jù)管理最基本的元數(shù)據(jù)相當(dāng)于數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)字典。元數(shù)據(jù)定義了數(shù)據(jù)倉庫有什么,指明了數(shù)據(jù)倉庫中數(shù)據(jù)的內(nèi)容和位置,刻畫了數(shù)據(jù)的抽取和轉(zhuǎn)換規(guī)則,存儲(chǔ)了與數(shù)據(jù)倉庫主題有關(guān)的各種商業(yè)信息,而且整個(gè)數(shù)據(jù)倉庫的運(yùn)行都是基于元數(shù)據(jù)的。數(shù)據(jù)源的元數(shù)據(jù)數(shù)據(jù)模型的元數(shù)據(jù)數(shù)據(jù)倉庫映射的元數(shù)據(jù)數(shù)據(jù)倉庫使用的元數(shù)據(jù)倉庫管理-元數(shù)據(jù)管理最基本的元數(shù)據(jù)相當(dāng)于數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)字26倉庫管理-數(shù)據(jù)處理異構(gòu)數(shù)據(jù)源:企業(yè)內(nèi)部數(shù)據(jù)存檔的歷史數(shù)據(jù)企業(yè)的外部數(shù)據(jù)。軟硬件平臺(tái)不一致ETL過程抽?。‥xtraction)轉(zhuǎn)換(Transform)裝載(Load)倉庫管理-數(shù)據(jù)處理異構(gòu)數(shù)據(jù)源:27分析工具-查詢工具數(shù)據(jù)倉庫的查詢不是指對(duì)記錄級(jí)數(shù)據(jù)的查詢,而是指對(duì)分析要求的查詢。一般包含:
可視化工具:以圖形化方式展示數(shù)據(jù),可以幫助了解數(shù)據(jù)的結(jié)構(gòu),關(guān)系以及動(dòng)態(tài)性。分析工具-查詢工具數(shù)據(jù)倉庫的查詢不是指對(duì)記錄級(jí)數(shù)據(jù)的查詢,而28分析工具-多維分析工具
通過對(duì)信息的多種可能的觀察形式進(jìn)行快速、一致和交互性的存取,這樣便利用戶對(duì)數(shù)據(jù)進(jìn)行深入的分析和觀察。多維數(shù)據(jù)的每一維代表對(duì)數(shù)據(jù)的一個(gè)特定的觀察視角,如時(shí)間、地域、業(yè)務(wù)等。分析工具-多維分析工具通過對(duì)信息的多種可能的觀察形式進(jìn)行快29分析工具-數(shù)據(jù)挖掘工具從大量數(shù)據(jù)中挖掘具有規(guī)律性知識(shí),需要利用數(shù)據(jù)挖掘(DataMining)工具。分析工具-數(shù)據(jù)挖掘工具從大量數(shù)據(jù)中挖掘具有規(guī)律性知識(shí),需要利30數(shù)據(jù)倉庫的運(yùn)行結(jié)構(gòu)兩層數(shù)據(jù)倉庫結(jié)構(gòu)數(shù)據(jù)倉庫數(shù)據(jù)元數(shù)據(jù)數(shù)據(jù)倉庫服務(wù)器數(shù)據(jù)邏輯數(shù)據(jù)服務(wù)元數(shù)據(jù)文件服務(wù)客戶端圖形用戶接口/表示邏輯查詢規(guī)范數(shù)據(jù)分析報(bào)表格式總結(jié)數(shù)據(jù)訪問數(shù)據(jù)倉庫的運(yùn)行結(jié)構(gòu)兩層數(shù)據(jù)倉庫結(jié)構(gòu)數(shù)據(jù)倉庫數(shù)據(jù)元數(shù)據(jù)數(shù)據(jù)倉庫31數(shù)據(jù)倉庫的運(yùn)行結(jié)構(gòu)多層數(shù)據(jù)倉庫結(jié)構(gòu)多維數(shù)據(jù)服務(wù)器數(shù)據(jù)倉庫數(shù)據(jù)元數(shù)據(jù)數(shù)據(jù)邏輯數(shù)據(jù)服務(wù)元數(shù)據(jù)文件服務(wù)數(shù)據(jù)倉庫服務(wù)器應(yīng)用服務(wù)器圖形用戶接口查詢規(guī)范數(shù)據(jù)分析報(bào)表格式數(shù)據(jù)訪問客戶端過濾總結(jié)元數(shù)據(jù)多維視圖數(shù)據(jù)訪問數(shù)據(jù)倉庫的運(yùn)行結(jié)構(gòu)多層數(shù)據(jù)倉庫結(jié)構(gòu)多維數(shù)據(jù)服務(wù)器數(shù)據(jù)倉庫數(shù)據(jù)322.4數(shù)據(jù)組織結(jié)構(gòu)和形式典型的數(shù)據(jù)倉庫的數(shù)據(jù)組織結(jié)構(gòu)高度綜合級(jí)輕度綜合級(jí)當(dāng)前細(xì)節(jié)級(jí)早期細(xì)節(jié)級(jí)2.4數(shù)據(jù)組織結(jié)構(gòu)和形式典型的數(shù)據(jù)倉庫的數(shù)據(jù)組織結(jié)構(gòu)33數(shù)據(jù)粒度粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細(xì)化或綜合程度的級(jí)別。粒度問題是設(shè)計(jì)數(shù)據(jù)倉庫的一個(gè)最重要方面。數(shù)據(jù)粒度粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細(xì)化或綜合程度34粒度的一個(gè)例子能回答,但需要一定量的檢索不能回答,缺少細(xì)節(jié)信息粒度的一個(gè)例子能回答,但需要一定量的檢索不能回答,缺少細(xì)節(jié)信35粒度權(quán)衡粒度權(quán)衡36數(shù)據(jù)分割數(shù)據(jù)分割是指把數(shù)據(jù)分散到各自的物理單元中去,它們能獨(dú)立地處理。分割是數(shù)據(jù)倉庫中數(shù)據(jù)的第二個(gè)主要的設(shè)計(jì)問題分割問題的焦點(diǎn)不是該不該分割而是如何去分割的問題。數(shù)據(jù)分割數(shù)據(jù)分割是指把數(shù)據(jù)分散到各自的物理單元中去,它們能獨(dú)37數(shù)據(jù)分割例子處理集A處理集B數(shù)據(jù)分割例子處理集A處理集B38數(shù)據(jù)分割的本質(zhì)數(shù)據(jù)分割的本質(zhì)之一就是靈活地訪問數(shù)據(jù)。數(shù)據(jù)分割的本質(zhì)數(shù)據(jù)分割的本質(zhì)之一就是靈活地訪問數(shù)據(jù)。39數(shù)據(jù)分割標(biāo)準(zhǔn)數(shù)據(jù)分割的標(biāo)準(zhǔn)是嚴(yán)格地由開發(fā)人員來選擇的。時(shí)間。商業(yè)線。地理位置。組織單位。所有上述標(biāo)準(zhǔn)。然而,按日期幾乎總是分割標(biāo)準(zhǔn)中的一個(gè)必然組成部分。數(shù)據(jù)分割標(biāo)準(zhǔn)數(shù)據(jù)分割的標(biāo)準(zhǔn)是嚴(yán)格地由開發(fā)人員來選擇的。40數(shù)據(jù)組織形式數(shù)據(jù)倉庫中有多種數(shù)據(jù)組織形式:簡(jiǎn)單堆積數(shù)據(jù)結(jié)構(gòu)輪轉(zhuǎn)綜合數(shù)據(jù)結(jié)構(gòu)簡(jiǎn)單直接文件連續(xù)文件數(shù)據(jù)組織形式數(shù)據(jù)倉庫中有多種數(shù)據(jù)組織形式:41簡(jiǎn)單堆積數(shù)據(jù)結(jié)構(gòu)每日從數(shù)據(jù)庫中提取并加工數(shù)據(jù)逐天積累。最簡(jiǎn)單最常用的數(shù)據(jù)組織形式簡(jiǎn)單堆積數(shù)據(jù)結(jié)構(gòu)每日從數(shù)據(jù)庫中提取并加工數(shù)據(jù)逐天積累。42輪轉(zhuǎn)綜合數(shù)據(jù)結(jié)構(gòu)簡(jiǎn)單逐日堆積數(shù)據(jù)的一種變種。數(shù)據(jù)用與前面相同的處理方法從操作型環(huán)境輸入到數(shù)據(jù)倉庫環(huán)境中,只是在輪轉(zhuǎn)綜合文件中的數(shù)據(jù)才被輸入到不同的結(jié)構(gòu)形式中。每日事物處理每日綜合天周月年123456712345。。。。。。輪轉(zhuǎn)綜合數(shù)據(jù)結(jié)構(gòu)簡(jiǎn)單逐日堆積數(shù)據(jù)的一種變種。每日事物處理每日43簡(jiǎn)單堆積VS輪轉(zhuǎn)綜合輪轉(zhuǎn)綜合數(shù)據(jù)結(jié)構(gòu)與數(shù)據(jù)的簡(jiǎn)單堆積結(jié)構(gòu)相比,僅處理非常少的數(shù)據(jù)單元。簡(jiǎn)單堆積VS輪轉(zhuǎn)綜合輪轉(zhuǎn)綜合數(shù)據(jù)結(jié)構(gòu)與數(shù)據(jù)的簡(jiǎn)單堆積結(jié)構(gòu)44簡(jiǎn)單直接文件數(shù)據(jù)僅僅是從操作型環(huán)境拖入數(shù)據(jù)倉庫環(huán)境中,并沒有任何累積。是間隔一定時(shí)間的操作型數(shù)據(jù)的一個(gè)快照。不是在每天的基礎(chǔ)上組織的,而是以較長(zhǎng)時(shí)間為單位的,比如一個(gè)星期或一個(gè)月。簡(jiǎn)單直接文件數(shù)據(jù)僅僅是從操作型環(huán)境拖入數(shù)據(jù)倉庫環(huán)境中,并沒有45連續(xù)文件通過兩個(gè)連續(xù)的簡(jiǎn)單直接文件,可以生成另一個(gè)連續(xù)文件連續(xù)文件也可以通過把一個(gè)快照追加到一個(gè)以前生成的連續(xù)文件上來創(chuàng)建連續(xù)文件通過兩個(gè)連續(xù)的簡(jiǎn)單直接文件,可以生成另一個(gè)連續(xù)文件46連續(xù)文件連續(xù)文件也可以通過把一個(gè)快照追加到一個(gè)以前生成的連續(xù)文件上來創(chuàng)建連續(xù)文件連續(xù)文件也可以通過把一個(gè)快照追加到一個(gè)以前生成的連續(xù)47數(shù)據(jù)存儲(chǔ)虛擬存儲(chǔ)方式基于關(guān)系表的存儲(chǔ)方式多維數(shù)據(jù)庫組織數(shù)據(jù)存儲(chǔ)虛擬存儲(chǔ)方式48虛擬存儲(chǔ)方式?jīng)]有專門的數(shù)據(jù)倉庫數(shù)據(jù)存儲(chǔ),數(shù)據(jù)倉庫中的數(shù)據(jù)仍然在源數(shù)據(jù)庫中。只是根據(jù)用戶的多維需求及形成的多維視圖臨時(shí)在源數(shù)據(jù)庫中找出所需要的數(shù)據(jù),完成多維分析。優(yōu)點(diǎn):組織方式簡(jiǎn)單、花費(fèi)少、使用靈活;缺點(diǎn):只有當(dāng)源數(shù)據(jù)庫的數(shù)據(jù)組織比較規(guī)范、沒有數(shù)據(jù)不完備及冗余,同時(shí)又比較接近多維數(shù)據(jù)模型時(shí),虛擬數(shù)據(jù)倉庫的多維語義才容易定義。而在一般的數(shù)據(jù)庫應(yīng)用中,這很難做到。虛擬存儲(chǔ)方式?jīng)]有專門的數(shù)據(jù)倉庫數(shù)據(jù)存儲(chǔ),數(shù)據(jù)倉庫中的數(shù)據(jù)仍然49基于關(guān)系表的存儲(chǔ)方式將數(shù)據(jù)倉庫的數(shù)據(jù)存儲(chǔ)在關(guān)系數(shù)據(jù)庫的表結(jié)構(gòu)中,在元數(shù)據(jù)的管理下完成數(shù)據(jù)倉庫的功能。實(shí)體關(guān)系(ER)模型一般用于關(guān)系型數(shù)據(jù)庫設(shè)計(jì),而數(shù)據(jù)倉庫采用星型雪片型事實(shí)星座基于關(guān)系表的存儲(chǔ)方式將數(shù)據(jù)倉庫的數(shù)據(jù)存儲(chǔ)在關(guān)系數(shù)據(jù)庫的表結(jié)構(gòu)50星型模式數(shù)據(jù)倉庫中包含(1)一個(gè)大的包含大批數(shù)據(jù)和不冗余的事實(shí)表(中心表);(2)一組小的附屬表,稱為維表。每維一個(gè)。事實(shí)表中每條元組都含有指向各個(gè)維表的外鍵和一些相應(yīng)的測(cè)量數(shù)據(jù),事實(shí)表的記錄數(shù)量很多,維表中記錄的是有關(guān)這一維的屬性。星型模式數(shù)據(jù)倉庫中包含51星型模式示例時(shí)間鍵產(chǎn)品鍵地區(qū)鍵sales(事實(shí)表)銷售量銷售價(jià)time時(shí)間鍵年季度月星期天產(chǎn)品鍵產(chǎn)品類產(chǎn)品名型號(hào)itemlocation地區(qū)鍵國(guó)家省市維表星型模式示例時(shí)間鍵產(chǎn)品鍵地區(qū)鍵sales銷售量銷售價(jià)time52雪花模式雪花模型對(duì)星型模型的維表進(jìn)一步層次化原來的各維表可能被擴(kuò)展為小的事實(shí)表,形成一些局部的“層次”區(qū)域。雪花模式雪花模型對(duì)星型模型的維表進(jìn)一步層次化53雪花模式示例time時(shí)間鍵年季度月星期天產(chǎn)品鍵產(chǎn)品類產(chǎn)品名型號(hào)item時(shí)間鍵產(chǎn)品鍵地區(qū)鍵sales(事實(shí)表)銷售量銷售價(jià)location地區(qū)鍵國(guó)家省鍵省鍵省名市鍵市鍵市名provincecity雪花模式示例time時(shí)間鍵年季度月星期天產(chǎn)品鍵產(chǎn)品類產(chǎn)品名型54星型模式VS雪花模式雪花模式的維表可能是規(guī)范化的,以便減少冗余。這種表易于維護(hù),并節(jié)省存儲(chǔ)空間。實(shí)際上,與巨大的事實(shí)表相比,這種空間的節(jié)省可以忽略。由于執(zhí)行查詢需要更多的連接操作,雪花結(jié)構(gòu)可能降低瀏覽的性能。在數(shù)據(jù)倉庫設(shè)計(jì)中,雪花模式不如星型模式流行。星型模式VS雪花模式雪花模式的維表可能是規(guī)范化的,以便減55事實(shí)星座模式多個(gè)事實(shí)共享相同的維表事實(shí)星座模式多個(gè)事實(shí)共享相同的維表56事實(shí)星座模式示例time時(shí)間鍵年季度月星期天產(chǎn)品鍵產(chǎn)品類產(chǎn)品名型號(hào)item時(shí)間鍵產(chǎn)品鍵地區(qū)鍵sales(事實(shí)表)銷售量銷售價(jià)location地區(qū)鍵國(guó)家省市ship(事實(shí)表)產(chǎn)品鍵時(shí)間鍵起運(yùn)點(diǎn)終止點(diǎn)運(yùn)價(jià)事實(shí)星座模式示例time時(shí)間鍵年季度月星期天產(chǎn)品鍵產(chǎn)品類產(chǎn)品57數(shù)據(jù)倉庫的數(shù)據(jù)追加時(shí)標(biāo)法前后映像文件方法DELTA文件日志文件數(shù)據(jù)倉庫的數(shù)據(jù)追加時(shí)標(biāo)法58時(shí)標(biāo)法基本思想:為記錄數(shù)據(jù)增加一個(gè)時(shí)間標(biāo)記。如果數(shù)據(jù)含有時(shí)標(biāo),對(duì)新插入或更新的數(shù)據(jù)記錄,在其上添加更新時(shí)的時(shí)標(biāo),那么只需根據(jù)時(shí)標(biāo)判斷即可。但并非所有數(shù)據(jù)庫中的數(shù)據(jù)都含有時(shí)標(biāo)。時(shí)標(biāo)法基本思想:為記錄數(shù)據(jù)增加一個(gè)時(shí)間標(biāo)記。59前后映像文件方法在抽取數(shù)據(jù)前后對(duì)數(shù)據(jù)庫各做一次快照,然后比較兩幅快照從而確定新數(shù)據(jù)。它占用大量資源,對(duì)性能影響極大,因此無實(shí)際意義。前后映像文件方法在抽取數(shù)據(jù)前后對(duì)數(shù)據(jù)庫各做一次快照,然后比較60DELTA文件DELTA文件視圖從能夠感知數(shù)據(jù)變化的應(yīng)用程序來生成追加文件利用DELTA文件效率很高,它避免掃描整個(gè)數(shù)據(jù)庫。但因應(yīng)用系統(tǒng)常由不同的軟件開發(fā)商開發(fā),生成DELTA文件的應(yīng)用并不普遍。DELTA文件DELTA文件視圖從能夠感知數(shù)據(jù)變化的應(yīng)用程序61日志文件日志是DMBS的固有機(jī)制系統(tǒng)日志能把數(shù)據(jù)庫服務(wù)器所執(zhí)行的所有操作詳細(xì)記錄下來,通過分析日志獲取數(shù)據(jù)變化情況。它還具有DELTA文件的優(yōu)越性質(zhì),提取數(shù)據(jù)只要局限日志文件即可,不用掃描整個(gè)數(shù)據(jù)庫。固有機(jī)制,不影響OLTP性能。日志文件日志是DMBS的固有機(jī)制622.5數(shù)據(jù)抽取、轉(zhuǎn)換和加載數(shù)據(jù)倉庫需要將這些源數(shù)據(jù)經(jīng)過抽取、轉(zhuǎn)換和裝載的過程,存儲(chǔ)到數(shù)據(jù)倉庫的數(shù)據(jù)模型中。ETL過程抽?。‥xtraction)轉(zhuǎn)換(Transform)裝載(Load)2.5數(shù)據(jù)抽取、轉(zhuǎn)換和加載數(shù)據(jù)倉庫需要將這些源數(shù)據(jù)經(jīng)過抽取632.5.1數(shù)據(jù)抽取確認(rèn)數(shù)據(jù)源數(shù)據(jù)抽取技術(shù)2.5.1數(shù)據(jù)抽取確認(rèn)數(shù)據(jù)源64確認(rèn)數(shù)據(jù)源列出對(duì)事實(shí)表的每一個(gè)數(shù)據(jù)項(xiàng)和事實(shí)列出每一個(gè)維度屬性對(duì)于每個(gè)目標(biāo)數(shù)據(jù)項(xiàng),找出源數(shù)據(jù)項(xiàng)一個(gè)數(shù)據(jù)元素有多個(gè)來源,選擇最好的來源確認(rèn)一個(gè)目標(biāo)字段的多個(gè)源字段,建立合并規(guī)則確認(rèn)一個(gè)目標(biāo)字段的多個(gè)源字段,建立分離規(guī)則確定默認(rèn)值檢查缺失值的源數(shù)據(jù)確認(rèn)數(shù)據(jù)源列出對(duì)事實(shí)表的每一個(gè)數(shù)據(jù)項(xiàng)和事實(shí)65數(shù)據(jù)抽取技術(shù)當(dāng)前值:源系統(tǒng)中存儲(chǔ)的數(shù)據(jù)都代表了當(dāng)前時(shí)刻的值。當(dāng)商業(yè)交易時(shí),這些數(shù)據(jù)是會(huì)發(fā)生變化的。周期性的狀態(tài):這類數(shù)據(jù)存儲(chǔ)的是每次發(fā)生變化時(shí)的狀態(tài)。例如,對(duì)于每一保險(xiǎn)索賠,都經(jīng)過索賠開始、確認(rèn)、評(píng)估和解決等步驟,都要考慮有時(shí)間說明。數(shù)據(jù)抽取技術(shù)當(dāng)前值:源系統(tǒng)中存儲(chǔ)的數(shù)據(jù)都代表了當(dāng)前時(shí)刻的值。662.5.2數(shù)據(jù)轉(zhuǎn)換T數(shù)據(jù)轉(zhuǎn)換的基本功能數(shù)據(jù)轉(zhuǎn)換類型數(shù)據(jù)整合和合并如何實(shí)施轉(zhuǎn)換2.5.2數(shù)據(jù)轉(zhuǎn)換T數(shù)據(jù)轉(zhuǎn)換的基本功能67數(shù)據(jù)轉(zhuǎn)換的基本功能選擇:從源系統(tǒng)中選擇整個(gè)記錄或者部分記錄。
分離/合并:對(duì)源系統(tǒng)中的數(shù)據(jù)進(jìn)行分離操作或者合并操作。轉(zhuǎn)化:對(duì)源系統(tǒng)進(jìn)行標(biāo)準(zhǔn)化和可理解化。匯總:將最低粒度數(shù)據(jù)進(jìn)行匯總。
清晰:對(duì)單個(gè)字段數(shù)據(jù)進(jìn)行重新分配和簡(jiǎn)化。數(shù)據(jù)轉(zhuǎn)換的基本功能選擇:從源系統(tǒng)中選擇整個(gè)記錄或者部分記錄。68數(shù)據(jù)轉(zhuǎn)換類型(1)格式修正(2)字段的解碼(3)計(jì)算值和導(dǎo)出值(4)單個(gè)字段的分離(5)信息的合并(6)特征集合轉(zhuǎn)化(7)度量單位的轉(zhuǎn)化(8)關(guān)鍵字重新構(gòu)造(9)匯總(10)日期/時(shí)間轉(zhuǎn)化數(shù)據(jù)轉(zhuǎn)換類型(1)格式修正69數(shù)據(jù)整合和合并數(shù)據(jù)整合和合并是將相關(guān)的源數(shù)據(jù)組合成一致的數(shù)據(jù)結(jié)構(gòu),裝入數(shù)據(jù)倉庫。實(shí)體識(shí)別問題。數(shù)據(jù)來源于多個(gè)不同的客戶系統(tǒng),對(duì)相同客戶可能分別有不同的鍵碼,將它們組合成一條單獨(dú)的記錄。多數(shù)據(jù)源相同屬性不同值的問題。不同系統(tǒng)中得到的值存在一些差別
,需要給出合理的值。數(shù)據(jù)整合和合并數(shù)據(jù)整合和合并是將相關(guān)的源數(shù)據(jù)組合成一致的數(shù)據(jù)70如何實(shí)施轉(zhuǎn)換自己編寫程序?qū)崿F(xiàn)數(shù)據(jù)轉(zhuǎn)換使用轉(zhuǎn)換工具如何實(shí)施轉(zhuǎn)換自己編寫程序?qū)崿F(xiàn)數(shù)據(jù)轉(zhuǎn)換712.5.3數(shù)據(jù)裝載L數(shù)據(jù)裝載方式數(shù)據(jù)裝載類型2.5.3數(shù)據(jù)裝載L數(shù)據(jù)裝載方式72數(shù)據(jù)裝載方式基本裝載。按照裝載的目標(biāo)表,將轉(zhuǎn)換過的數(shù)據(jù)輸入到目標(biāo)表中去。
追加。如果目標(biāo)表中已經(jīng)存在數(shù)據(jù),追加過程在保存已有數(shù)據(jù)的基礎(chǔ)上增加輸入數(shù)據(jù)。
破壞性合并。用新輸入數(shù)據(jù)更新目標(biāo)記錄數(shù)據(jù)。
建設(shè)性合并。保留已有的記錄,增加輸入的記錄,并標(biāo)記為舊記錄的替代。數(shù)據(jù)裝載方式基本裝載。按照裝載的目標(biāo)表,將轉(zhuǎn)換過的數(shù)據(jù)輸入到73數(shù)據(jù)裝載類型初始裝載。這是第一次對(duì)整個(gè)數(shù)據(jù)倉庫進(jìn)行裝載。
增量裝載。由于源系統(tǒng)的變化,數(shù)據(jù)倉庫需要裝載變化的數(shù)據(jù)。完全刷新。這種類型的數(shù)據(jù)裝載用于周期性重寫數(shù)據(jù)倉庫。數(shù)據(jù)裝載類型初始裝載。這是第一次對(duì)整個(gè)數(shù)據(jù)倉庫進(jìn)行裝載。742.5.4數(shù)據(jù)處理的有關(guān)討論數(shù)據(jù)庫中的空缺值不一致的數(shù)據(jù)由于某種原因的不一致需統(tǒng)一(比如英制與公制)樣本空間的大小與分析無關(guān)的數(shù)據(jù)不要裝入數(shù)據(jù)倉庫數(shù)據(jù)離散化在必要的情況下將連續(xù)的數(shù)據(jù)變換成離散值。比如年齡按10歲分段,收入按1000分段等數(shù)據(jù)規(guī)范化2.5.4數(shù)據(jù)處理的有關(guān)討論數(shù)據(jù)庫中的空缺值75數(shù)據(jù)庫中的空缺值空缺的數(shù)據(jù)會(huì)影響數(shù)據(jù)挖掘的質(zhì)量,所以應(yīng)該處理忽略該元組問題:若缺少的數(shù)據(jù)的元組太多,則性能非常差人工填寫空缺值問題:缺很多值時(shí)不可行使用一個(gè)全局常量填空問題:但由于該常量太多,數(shù)據(jù)挖掘程序可能會(huì)錯(cuò)誤的認(rèn)為是一個(gè)有趣的概念。使用屬性的平均值填充空缺值使用與給定元組屬同一類的所有樣本的平均值使用最可能的值填充空缺值數(shù)據(jù)庫中的空缺值空缺的數(shù)據(jù)會(huì)影響數(shù)據(jù)挖掘的質(zhì)量,所以應(yīng)該處理76樣本空間的大小如抽取一部分?jǐn)?shù)據(jù)進(jìn)行分析同在整個(gè)數(shù)據(jù)集合上進(jìn)行分析的結(jié)果是一樣的,則取一部分?jǐn)?shù)據(jù)進(jìn)行分析時(shí)空效率就高得多。(采用隨機(jī)抽樣、等間隔抽樣、聚類后在同一類中抽取等)樣本空間的大小如抽取一部分?jǐn)?shù)據(jù)進(jìn)行分析同在整個(gè)數(shù)據(jù)集合上進(jìn)行77數(shù)據(jù)規(guī)范化最大-最小規(guī)范化:對(duì)原始數(shù)據(jù)進(jìn)行線性變換。假定minA和maxA分別為屬性A的最小和最大值,則:例:假定收入屬性的最小與最大分別是12000和98000,現(xiàn)在想映射到區(qū)間[0.0,0.1],則數(shù)據(jù)規(guī)范化最大-最小規(guī)范化:例:假定收入屬性的最小與最大分別78數(shù)據(jù)規(guī)范化z-score規(guī)范化(零-均值規(guī)范化)例:假定收入屬性的平均值和標(biāo)準(zhǔn)方差分別為54000和16000,使用z-score規(guī)范化。數(shù)據(jù)規(guī)范化z-score規(guī)范化(零-均值規(guī)范化)例:假定收入792.5.5ETL工具數(shù)據(jù)轉(zhuǎn)換引擎代碼生成器通過復(fù)制捕獲數(shù)據(jù)2.5.5ETL工具數(shù)據(jù)轉(zhuǎn)換引擎802.6元數(shù)據(jù)管理元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù),是數(shù)據(jù)倉庫環(huán)境中一個(gè)重要方面。元數(shù)據(jù)在數(shù)據(jù)倉庫的上層,并且記錄數(shù)據(jù)倉庫中對(duì)象的位置。典型地,元數(shù)據(jù)記錄:程序員所知的數(shù)據(jù)結(jié)構(gòu)。DSS分析員所知的數(shù)據(jù)結(jié)構(gòu)。數(shù)據(jù)倉庫的源數(shù)據(jù)。數(shù)據(jù)加入數(shù)據(jù)倉庫時(shí)的轉(zhuǎn)換。數(shù)據(jù)模型。數(shù)據(jù)模型和數(shù)據(jù)倉庫的關(guān)系。抽取數(shù)據(jù)的歷史記錄。2.6元數(shù)據(jù)管理元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù),是數(shù)據(jù)倉庫環(huán)境中一81元數(shù)據(jù)分類數(shù)據(jù)源的元數(shù)據(jù)數(shù)據(jù)模型的元數(shù)據(jù)數(shù)據(jù)倉庫映射的元數(shù)據(jù)數(shù)據(jù)倉庫使用的元數(shù)據(jù)元數(shù)據(jù)分類數(shù)據(jù)源的元數(shù)據(jù)82數(shù)據(jù)源的元數(shù)據(jù)這類元數(shù)據(jù)是對(duì)不同平臺(tái)上的數(shù)據(jù)源的物理結(jié)構(gòu)和含義的描述。具體為:數(shù)據(jù)源中所有物理數(shù)據(jù)結(jié)構(gòu),包括所有的數(shù)據(jù)項(xiàng)及數(shù)據(jù)類型。所有數(shù)據(jù)項(xiàng)的業(yè)務(wù)定義。每個(gè)數(shù)據(jù)項(xiàng)更新的頻率,以及由誰或那個(gè)過程更新的說明。每個(gè)數(shù)據(jù)項(xiàng)的有效值。數(shù)據(jù)源的元數(shù)據(jù)這類元數(shù)據(jù)是對(duì)不同平臺(tái)上的數(shù)據(jù)源的物理結(jié)構(gòu)和含83數(shù)據(jù)模型的元數(shù)據(jù)這組元數(shù)據(jù)描述了數(shù)據(jù)倉庫中有什么數(shù)據(jù)以及數(shù)據(jù)之間的關(guān)系,它們是用戶使用管理數(shù)據(jù)倉庫的基礎(chǔ)。這種的元數(shù)據(jù)可以支持用戶從數(shù)據(jù)倉庫中獲取數(shù)據(jù)。數(shù)據(jù)模型的元數(shù)據(jù)這組元數(shù)據(jù)描述了數(shù)據(jù)倉庫中有什么數(shù)據(jù)以及數(shù)據(jù)84數(shù)據(jù)模型元數(shù)據(jù)示例例如,雇員與技能之間的關(guān)系數(shù)據(jù)模型元數(shù)據(jù)示例例如,雇員與技能之間的關(guān)系85數(shù)據(jù)倉庫映射的元數(shù)據(jù)這類元數(shù)據(jù)是數(shù)據(jù)源與數(shù)據(jù)倉庫數(shù)據(jù)間的映射。當(dāng)數(shù)據(jù)源中的一個(gè)數(shù)據(jù)項(xiàng)與數(shù)據(jù)倉庫建立了映射關(guān)系,就應(yīng)該記下這些數(shù)據(jù)項(xiàng)發(fā)生的任何變換或變動(dòng)。即用元數(shù)據(jù)反映數(shù)據(jù)倉庫中的數(shù)據(jù)項(xiàng)是從哪個(gè)特定的數(shù)據(jù)源填充的,經(jīng)過那些轉(zhuǎn)換,變換和加載過程。數(shù)據(jù)倉庫映射的元數(shù)據(jù)這類元數(shù)據(jù)是數(shù)據(jù)源與數(shù)據(jù)倉庫數(shù)據(jù)間的映射86數(shù)據(jù)倉庫映射的元數(shù)據(jù)示例一個(gè)數(shù)據(jù)的抽取要經(jīng)過許多步驟。如圖所示:源數(shù)據(jù)與目標(biāo)數(shù)據(jù)之間的映射(1)抽取工作(2)抽取工作步驟(3)抽取表映射(4)抽取屬性映射(5)記錄篩選規(guī)則數(shù)據(jù)倉庫映射的元數(shù)據(jù)示例一個(gè)數(shù)據(jù)的抽取要經(jīng)過許多步驟。如圖所87數(shù)據(jù)倉庫使用的元數(shù)據(jù)這類元數(shù)據(jù)是數(shù)據(jù)倉庫中信息的使用情況描述。數(shù)據(jù)倉庫的用戶最關(guān)心的是兩類元數(shù)據(jù):(1)元數(shù)據(jù)告訴數(shù)據(jù)倉庫中有什么數(shù)據(jù),它們從哪里來。即如何按主題查看數(shù)據(jù)倉庫的內(nèi)容。(2)元數(shù)據(jù)提供已有的可重復(fù)利用的查詢語言信息。如果某個(gè)查詢能夠滿足他們的需求,或者與他們的愿望相似,他們就可以再次使用那些查詢而不必從頭開始編程。關(guān)于數(shù)據(jù)倉庫使用的元數(shù)據(jù)能幫助用戶到數(shù)據(jù)倉庫查詢所需要的信息,用于解決企業(yè)問題數(shù)據(jù)倉庫使用的元數(shù)據(jù)這類元數(shù)據(jù)是數(shù)據(jù)倉庫中信息的使用情況描述88第2章數(shù)據(jù)倉庫原理本章學(xué)習(xí)目標(biāo):掌握數(shù)據(jù)倉庫的定義,四個(gè)基本特征掌握數(shù)據(jù)集市的概念,與數(shù)據(jù)倉庫區(qū)分掌握數(shù)據(jù)倉庫的體系結(jié)構(gòu)掌握數(shù)據(jù)倉庫中數(shù)據(jù)組織方式掌握數(shù)據(jù)處理過程掌握元數(shù)據(jù)的概念、元數(shù)據(jù)管理的原理第2章數(shù)據(jù)倉庫原理本章學(xué)習(xí)目標(biāo):89第2章數(shù)據(jù)倉庫原理2.1數(shù)據(jù)倉庫定義2.2數(shù)據(jù)集市2.3數(shù)據(jù)倉庫體系結(jié)構(gòu)2.4數(shù)據(jù)組織結(jié)構(gòu)和形式2.5數(shù)據(jù)抽取E、轉(zhuǎn)換T和裝載L(ETL)2.6元數(shù)據(jù)管理第2章數(shù)據(jù)倉庫原理2.1數(shù)據(jù)倉庫定義902.1數(shù)據(jù)倉庫定義WilliamH.Inmon:數(shù)據(jù)倉庫是一個(gè)面向主題的、集成的、非易失的且隨時(shí)間變化的數(shù)據(jù)集合,用于支持管理人員的決策。數(shù)據(jù)倉庫之父--BillInmon2.1數(shù)據(jù)倉庫定義WilliamH.Inmon:數(shù)據(jù)倉庫91四個(gè)基本特征數(shù)據(jù)倉庫的數(shù)據(jù)是面向主題的數(shù)據(jù)倉庫的數(shù)據(jù)是集成的數(shù)據(jù)倉庫的數(shù)據(jù)是非易失的數(shù)據(jù)倉庫的數(shù)據(jù)是隨時(shí)間不斷變化的四個(gè)基本特征數(shù)據(jù)倉庫的數(shù)據(jù)是面向主題的92面向主題主題(Subject):特定的數(shù)據(jù)分析領(lǐng)域與目標(biāo)。面向主題:為特定的數(shù)據(jù)分析領(lǐng)域提供數(shù)據(jù)支持。面向主題主題(Subject):特定的數(shù)據(jù)分析領(lǐng)域與目標(biāo)。93面向主題為特定數(shù)據(jù)分析領(lǐng)域提供的數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)庫中的數(shù)據(jù)是有不同的。傳統(tǒng)數(shù)據(jù)庫中的數(shù)據(jù)是原始的、基礎(chǔ)的數(shù)據(jù),而特定分析領(lǐng)域數(shù)據(jù)則是需要對(duì)它們作必要的抽取、加工與總結(jié)而形成。數(shù)據(jù)倉庫是面向分析、決策人員的主觀要求的,不同的用戶有不同的要求,同一個(gè)用戶的要求也會(huì)隨時(shí)間而經(jīng)常變化,因此,數(shù)據(jù)倉庫中的主題有時(shí)會(huì)因用戶主觀要求的變化而變化的。面向主題為特定數(shù)據(jù)分析領(lǐng)域提供的數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)庫中的數(shù)據(jù)是有94面向主題示例例:一個(gè)面向事務(wù)處理的“商場(chǎng)”數(shù)據(jù)庫系統(tǒng),其數(shù)據(jù)模式如下采購子系統(tǒng):訂單(訂單號(hào),供應(yīng)商號(hào),總金額,日期)訂單細(xì)則(訂單號(hào),商品號(hào),類別,單價(jià),數(shù)量)供應(yīng)商(供應(yīng)商號(hào),供應(yīng)商名,地址,電話)銷售子系統(tǒng):顧客(顧客號(hào),姓名,性別,年齡,文化程度,地址,電話)銷售(員工號(hào),顧客號(hào),商品號(hào),數(shù)量,單價(jià),日期)面向主題示例例:一個(gè)面向事務(wù)處理的“商場(chǎng)”數(shù)據(jù)庫系統(tǒng),其數(shù)據(jù)95面向主題示例庫存管理子系統(tǒng):領(lǐng)料單(領(lǐng)料單號(hào),領(lǐng)料人,商品號(hào),數(shù)量,日期)進(jìn)料單(進(jìn)料單號(hào),訂單號(hào),進(jìn)料人,收料人,日期)庫存(商品號(hào),庫房號(hào),庫存量,日期)庫房(庫房號(hào),倉庫管理員,地點(diǎn),庫存商品描述)人事管理子系統(tǒng):?jiǎn)T工(員工號(hào),姓名,性別,年齡,文化程度,部門號(hào))部門(部門號(hào),部門名稱,部門主管,電話)面向主題示例庫存管理子系統(tǒng):96面向主題示例上述數(shù)據(jù)模式基本上是按照企業(yè)內(nèi)部的業(yè)務(wù)活動(dòng)及其需要的相關(guān)數(shù)據(jù)來組織數(shù)據(jù)的存儲(chǔ)的,沒有實(shí)現(xiàn)真正的數(shù)據(jù)與應(yīng)用分離,其抽象程度也不夠高。如果按照面向主題的方式進(jìn)行數(shù)據(jù)組織,首先應(yīng)該抽取主題,即按照管理人員的分析要求來確定主題,而與每個(gè)主題相關(guān)的數(shù)據(jù)又與有關(guān)的事務(wù)處理所需的數(shù)據(jù)不盡相同。面向主題示例上述數(shù)據(jù)模式基本上是按照企業(yè)內(nèi)部的業(yè)務(wù)活動(dòng)及其需97主題一:商品商品固有信息:商品號(hào),商品名,類別,顏色等商品采購信息:商品號(hào),供應(yīng)商號(hào),供應(yīng)價(jià),供應(yīng)日期,供應(yīng)量等商品銷售信息:商品號(hào),顧客號(hào),售價(jià),銷售日期,銷售量等商品庫存信息:商品號(hào),庫房號(hào),庫存量,日期等主題一:商品商品固有信息:商品號(hào),商品名,類別,顏色等98主題二:供應(yīng)商供應(yīng)商固有信息:供應(yīng)商號(hào),供應(yīng)商名,地址,電話等供應(yīng)商品信息:供應(yīng)商號(hào),商品號(hào),供應(yīng)價(jià),供應(yīng)日期,供應(yīng)量等主題二:供應(yīng)商供應(yīng)商固有信息:供應(yīng)商號(hào),供應(yīng)商名,地址,電話99主題三:顧客顧客固有信息:顧客號(hào),顧客名,性別,年齡,文化程度,住址,電話等顧客購物信息:顧客號(hào),商品號(hào),售價(jià),購買日期,購買量等主題三:顧客顧客固有信息:顧客號(hào),顧客名,性別,年齡,文化程100面向主題在每個(gè)主題中,都包含了有關(guān)該主題的所有信息,同時(shí)又拋棄了與分析處理無關(guān)或不需要的數(shù)據(jù),從而將原本分散在各個(gè)子系統(tǒng)中的有關(guān)信息集中在一個(gè)主題中,形成有關(guān)該主題的一個(gè)完整一致的描述。面向主題的數(shù)據(jù)組織方式所強(qiáng)調(diào)的就是要形成一個(gè)這樣一致的信息集合。不同的主題之間也有重疊的內(nèi)容,但這種重疊是邏輯上的,而不是物理存儲(chǔ)上的重疊;是部分細(xì)節(jié)的重疊,而不是完全的重疊。面向主題在每個(gè)主題中,都包含了有關(guān)該主題的所有信息,同時(shí)又拋101面向主題每個(gè)主題所需數(shù)據(jù)的物理存儲(chǔ):多維數(shù)據(jù)庫(MDDB—Multi-DimensionalDataBase)用多維數(shù)組形式存儲(chǔ)數(shù)據(jù)。關(guān)系數(shù)據(jù)庫。用一組關(guān)系來組織數(shù)據(jù)的存儲(chǔ),同一主題的一組關(guān)系都有一個(gè)公共的關(guān)鍵字,存放的也不是細(xì)節(jié)性的業(yè)務(wù)數(shù)據(jù),而是經(jīng)過一定程度的綜合形成的綜合性數(shù)據(jù)。面向主題每個(gè)主題所需數(shù)據(jù)的物理存儲(chǔ):102集成的數(shù)據(jù)是分散的;由于事務(wù)處理應(yīng)用分散、蜘蛛網(wǎng)問題、數(shù)據(jù)不一致問題、外部數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)倉庫中的數(shù)據(jù)是為分析服務(wù)的,而分析需要多種廣泛的不同數(shù)據(jù)源以便進(jìn)行比較、鑒別,因此數(shù)據(jù)倉庫中的數(shù)據(jù)必須從多個(gè)數(shù)據(jù)源中獲取,這些數(shù)據(jù)源包括多種類型數(shù)據(jù)庫、文件系統(tǒng)以及Internet網(wǎng)上數(shù)據(jù)等,它們通過數(shù)據(jù)集成而形成數(shù)據(jù)倉庫中的數(shù)據(jù)。集成的數(shù)據(jù)是分散的;由于事務(wù)處理應(yīng)用分散、蜘蛛網(wǎng)問題、數(shù)據(jù)不103集成的集成的方法:統(tǒng)一:消除不一致的現(xiàn)象綜合:對(duì)原有數(shù)據(jù)進(jìn)行綜合和計(jì)算需要考慮的問題:數(shù)據(jù)格式計(jì)量單位數(shù)據(jù)代碼含義混亂數(shù)據(jù)名稱混亂集成的集成的方法:104非易失的數(shù)據(jù)倉庫中的數(shù)據(jù)是經(jīng)過抽取而形成的分析型數(shù)據(jù),不具有原始性,主要供企業(yè)決策分析之用,執(zhí)行的主要是‘查詢’操作,一般情況下不執(zhí)行‘更新’操作。同時(shí),一個(gè)穩(wěn)定的數(shù)據(jù)環(huán)境也有利于數(shù)據(jù)分析操作和決策的制訂。但這也不等于數(shù)據(jù)倉庫中的數(shù)據(jù)不需要‘更新’操作。在需要進(jìn)行新的分析決策時(shí),可能需要進(jìn)行新的數(shù)據(jù)抽取和‘更新’操作數(shù)據(jù)倉庫中的一些過時(shí)的數(shù)據(jù),也可以通過‘刪除’操作丟棄掉。因此數(shù)據(jù)倉庫的存儲(chǔ)管理相對(duì)于DBMS來說要簡(jiǎn)單得多。非易失的數(shù)據(jù)倉庫中的數(shù)據(jù)是經(jīng)過抽取而形成的分析型數(shù)據(jù),不具有105隨時(shí)間不斷變化數(shù)據(jù)倉庫中的數(shù)據(jù)必須以一定時(shí)間段為單位進(jìn)行統(tǒng)一更新。不斷增加新的數(shù)據(jù)內(nèi)容不斷刪去舊的數(shù)據(jù)內(nèi)容更新與時(shí)間有關(guān)的綜合數(shù)據(jù)隨時(shí)間不斷變化數(shù)據(jù)倉庫中的數(shù)據(jù)必須以一定時(shí)間段為單位進(jìn)行統(tǒng)一1062.2數(shù)據(jù)集市(DataMart)建立數(shù)據(jù)集市的原因數(shù)據(jù)倉庫是一種反映主題的全局性數(shù)據(jù)組織。但是,全局性數(shù)據(jù)倉庫往往太大,在實(shí)際應(yīng)用中將它們按部門或個(gè)人分別建立反映各個(gè)子主題的局部性數(shù)據(jù)組織,它們即是數(shù)據(jù)集市。因此,有時(shí)我們也稱它為部門數(shù)據(jù)倉庫。例:在有關(guān)商品銷售的數(shù)據(jù)倉庫中可以建立多個(gè)不同主題的數(shù)據(jù)集市:商品采購數(shù)據(jù)集市庫房使用數(shù)據(jù)集市商品銷售數(shù)據(jù)集市2.2數(shù)據(jù)集市(DataMart)建立數(shù)據(jù)集市的原因107數(shù)據(jù)集市類型按照數(shù)據(jù)獲取來源:獨(dú)立型:直接從操作型環(huán)境獲取數(shù)據(jù)。從屬型:從企業(yè)級(jí)數(shù)據(jù)倉庫獲取數(shù)據(jù)。數(shù)據(jù)集市類型按照數(shù)據(jù)獲取來源:108建設(shè)途徑從全局?jǐn)?shù)據(jù)倉庫到數(shù)據(jù)集市從數(shù)據(jù)集市到全局?jǐn)?shù)據(jù)倉庫建設(shè)途徑從全局?jǐn)?shù)據(jù)倉庫到數(shù)據(jù)集市109數(shù)據(jù)倉庫VS數(shù)據(jù)集市數(shù)據(jù)倉庫與數(shù)據(jù)集市的關(guān)系類似于傳統(tǒng)關(guān)系數(shù)據(jù)庫系統(tǒng)中的基表與視圖的關(guān)系。數(shù)據(jù)集市的數(shù)據(jù)來自數(shù)據(jù)倉庫,它是數(shù)據(jù)倉庫中數(shù)據(jù)的一個(gè)部分與局部,是一個(gè)數(shù)據(jù)的再抽取與組織的過程。數(shù)據(jù)倉庫VS數(shù)據(jù)集市數(shù)據(jù)倉庫與數(shù)據(jù)集市的關(guān)系類似于傳統(tǒng)關(guān)1102.3數(shù)據(jù)倉庫體系結(jié)構(gòu)數(shù)據(jù)倉庫系統(tǒng)由數(shù)據(jù)倉庫(DW)、倉庫管理和分析工具三部分組成ORACLESYBASESQLServer文件……數(shù)據(jù)集市數(shù)據(jù)集市數(shù)據(jù)集市數(shù)據(jù)建模數(shù)據(jù)倉庫元數(shù)據(jù)管理抽取……數(shù)據(jù)倉庫系統(tǒng)示意圖分析工具(OLAP、數(shù)據(jù)挖掘)2.3數(shù)據(jù)倉庫體系結(jié)構(gòu)數(shù)據(jù)倉庫系統(tǒng)由數(shù)據(jù)倉庫(DW)、倉庫111過程模型數(shù)據(jù)倉庫管理系統(tǒng)元數(shù)據(jù)多維關(guān)系數(shù)據(jù)庫多維數(shù)據(jù)庫外部操作型數(shù)據(jù)數(shù)據(jù)抽取數(shù)據(jù)清潔數(shù)據(jù)裝載管理平臺(tái)報(bào)表查詢工具數(shù)據(jù)挖掘工具OLAP工具過程模型數(shù)據(jù)倉庫管理系統(tǒng)元數(shù)據(jù)多維關(guān)系多維外部操作型數(shù)據(jù)抽取112倉庫管理-數(shù)據(jù)建模數(shù)據(jù)建模是建立數(shù)據(jù)倉庫的數(shù)據(jù)模型。數(shù)據(jù)倉庫的數(shù)據(jù)模型不同于數(shù)據(jù)庫的數(shù)據(jù)模型在于:數(shù)據(jù)倉庫只為決策分析用,不包含事務(wù)處理的數(shù)據(jù)。數(shù)據(jù)倉庫的增加了時(shí)間屬性數(shù)據(jù)。數(shù)據(jù)倉庫增加了一些綜合數(shù)據(jù)。數(shù)據(jù)倉庫的數(shù)據(jù)建模是適應(yīng)決策用戶使用的邏輯數(shù)據(jù)模型。倉庫管理-數(shù)據(jù)建模數(shù)據(jù)建模是建立數(shù)據(jù)倉庫的數(shù)據(jù)模型。113倉庫管理-元數(shù)據(jù)管理最基本的元數(shù)據(jù)相當(dāng)于數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)字典。元數(shù)據(jù)定義了數(shù)據(jù)倉庫有什么,指明了數(shù)據(jù)倉庫中數(shù)據(jù)的內(nèi)容和位置,刻畫了數(shù)據(jù)的抽取和轉(zhuǎn)換規(guī)則,存儲(chǔ)了與數(shù)據(jù)倉庫主題有關(guān)的各種商業(yè)信息,而且整個(gè)數(shù)據(jù)倉庫的運(yùn)行都是基于元數(shù)據(jù)的。數(shù)據(jù)源的元數(shù)據(jù)數(shù)據(jù)模型的元數(shù)據(jù)數(shù)據(jù)倉庫映射的元數(shù)據(jù)數(shù)據(jù)倉庫使用的元數(shù)據(jù)倉庫管理-元數(shù)據(jù)管理最基本的元數(shù)據(jù)相當(dāng)于數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)字114倉庫管理-數(shù)據(jù)處理異構(gòu)數(shù)據(jù)源:企業(yè)內(nèi)部數(shù)據(jù)存檔的歷史數(shù)據(jù)企業(yè)的外部數(shù)據(jù)。軟硬件平臺(tái)不一致ETL過程抽取(Extraction)轉(zhuǎn)換(Transform)裝載(Load)倉庫管理-數(shù)據(jù)處理異構(gòu)數(shù)據(jù)源:115分析工具-查詢工具數(shù)據(jù)倉庫的查詢不是指對(duì)記錄級(jí)數(shù)據(jù)的查詢,而是指對(duì)分析要求的查詢。一般包含:
可視化工具:以圖形化方式展示數(shù)據(jù),可以幫助了解數(shù)據(jù)的結(jié)構(gòu),關(guān)系以及動(dòng)態(tài)性。分析工具-查詢工具數(shù)據(jù)倉庫的查詢不是指對(duì)記錄級(jí)數(shù)據(jù)的查詢,而116分析工具-多維分析工具
通過對(duì)信息的多種可能的觀察形式進(jìn)行快速、一致和交互性的存取,這樣便利用戶對(duì)數(shù)據(jù)進(jìn)行深入的分析和觀察。多維數(shù)據(jù)的每一維代表對(duì)數(shù)據(jù)的一個(gè)特定的觀察視角,如時(shí)間、地域、業(yè)務(wù)等。分析工具-多維分析工具通過對(duì)信息的多種可能的觀察形式進(jìn)行快117分析工具-數(shù)據(jù)挖掘工具從大量數(shù)據(jù)中挖掘具有規(guī)律性知識(shí),需要利用數(shù)據(jù)挖掘(DataMining)工具。分析工具-數(shù)據(jù)挖掘工具從大量數(shù)據(jù)中挖掘具有規(guī)律性知識(shí),需要利118數(shù)據(jù)倉庫的運(yùn)行結(jié)構(gòu)兩層數(shù)據(jù)倉庫結(jié)構(gòu)數(shù)據(jù)倉庫數(shù)據(jù)元數(shù)據(jù)數(shù)據(jù)倉庫服務(wù)器數(shù)據(jù)邏輯數(shù)據(jù)服務(wù)元數(shù)據(jù)文件服務(wù)客戶端圖形用戶接口/表示邏輯查詢規(guī)范數(shù)據(jù)分析報(bào)表格式總結(jié)數(shù)據(jù)訪問數(shù)據(jù)倉庫的運(yùn)行結(jié)構(gòu)兩層數(shù)據(jù)倉庫結(jié)構(gòu)數(shù)據(jù)倉庫數(shù)據(jù)元數(shù)據(jù)數(shù)據(jù)倉庫119數(shù)據(jù)倉庫的運(yùn)行結(jié)構(gòu)多層數(shù)據(jù)倉庫結(jié)構(gòu)多維數(shù)據(jù)服務(wù)器數(shù)據(jù)倉庫數(shù)據(jù)元數(shù)據(jù)數(shù)據(jù)邏輯數(shù)據(jù)服務(wù)元數(shù)據(jù)文件服務(wù)數(shù)據(jù)倉庫服務(wù)器應(yīng)用服務(wù)器圖形用戶接口查詢規(guī)范數(shù)據(jù)分析報(bào)表格式數(shù)據(jù)訪問客戶端過濾總結(jié)元數(shù)據(jù)多維視圖數(shù)據(jù)訪問數(shù)據(jù)倉庫的運(yùn)行結(jié)構(gòu)多層數(shù)據(jù)倉庫結(jié)構(gòu)多維數(shù)據(jù)服務(wù)器數(shù)據(jù)倉庫數(shù)據(jù)1202.4數(shù)據(jù)組織結(jié)構(gòu)和形式典型的數(shù)據(jù)倉庫的數(shù)據(jù)組織結(jié)構(gòu)高度綜合級(jí)輕度綜合級(jí)當(dāng)前細(xì)節(jié)級(jí)早期細(xì)節(jié)級(jí)2.4數(shù)據(jù)組織結(jié)構(gòu)和形式典型的數(shù)據(jù)倉庫的數(shù)據(jù)組織結(jié)構(gòu)121數(shù)據(jù)粒度粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細(xì)化或綜合程度的級(jí)別。粒度問題是設(shè)計(jì)數(shù)據(jù)倉庫的一個(gè)最重要方面。數(shù)據(jù)粒度粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細(xì)化或綜合程度122粒度的一個(gè)例子能回答,但需要一定量的檢索不能回答,缺少細(xì)節(jié)信息粒度的一個(gè)例子能回答,但需要一定量的檢索不能回答,缺少細(xì)節(jié)信123粒度權(quán)衡粒度權(quán)衡124數(shù)據(jù)分割數(shù)據(jù)分割是指把數(shù)據(jù)分散到各自的物理單元中去,它們能獨(dú)立地處理。分割是數(shù)據(jù)倉庫中數(shù)據(jù)的第二個(gè)主要的設(shè)計(jì)問題分割問題的焦點(diǎn)不是該不該分割而是如何去分割的問題。數(shù)據(jù)分割數(shù)據(jù)分割是指把數(shù)據(jù)分散到各自的物理單元中去,它們能獨(dú)125數(shù)據(jù)分割例子處理集A處理集B數(shù)據(jù)分割例子處理集A處理集B126數(shù)據(jù)分割的本質(zhì)數(shù)據(jù)分割的本質(zhì)之一就是靈活地訪問數(shù)據(jù)。數(shù)據(jù)分割的本質(zhì)數(shù)據(jù)分割的本質(zhì)之一就是靈活地訪問數(shù)據(jù)。127數(shù)據(jù)分割標(biāo)準(zhǔn)數(shù)據(jù)分割的標(biāo)準(zhǔn)是嚴(yán)格地由開發(fā)人員來選擇的。時(shí)間。商業(yè)線。地理位置。組織單位。所有上述標(biāo)準(zhǔn)。然而,按日期幾乎總是分割標(biāo)準(zhǔn)中的一個(gè)必然組成部分。數(shù)據(jù)分割標(biāo)準(zhǔn)數(shù)據(jù)分割的標(biāo)準(zhǔn)是嚴(yán)格地由開發(fā)人員來選擇的。128數(shù)據(jù)組織形式數(shù)據(jù)倉庫中有多種數(shù)據(jù)組織形式:簡(jiǎn)單堆積數(shù)據(jù)結(jié)構(gòu)輪轉(zhuǎn)綜合數(shù)據(jù)結(jié)構(gòu)簡(jiǎn)單直接文件連續(xù)文件數(shù)據(jù)組織形式數(shù)據(jù)倉庫中有多種數(shù)據(jù)組織形式:129簡(jiǎn)單堆積數(shù)據(jù)結(jié)構(gòu)每日從數(shù)據(jù)庫中提取并加工數(shù)據(jù)逐天積累。最簡(jiǎn)單最常用的數(shù)據(jù)組織形式簡(jiǎn)單堆積數(shù)據(jù)結(jié)構(gòu)每日從數(shù)據(jù)庫中提取并加工數(shù)據(jù)逐天積累。130輪轉(zhuǎn)綜合數(shù)據(jù)結(jié)構(gòu)簡(jiǎn)單逐日堆積數(shù)據(jù)的一種變種。數(shù)據(jù)用與前面相同的處理方法從操作型環(huán)境輸入到數(shù)據(jù)倉庫環(huán)境中,只是在輪轉(zhuǎn)綜合文件中的數(shù)據(jù)才被輸入到不同的結(jié)構(gòu)形式中。每日事物處理每日綜合天周月年123456712345。。。。。。輪轉(zhuǎn)綜合數(shù)據(jù)結(jié)構(gòu)簡(jiǎn)單逐日堆積數(shù)據(jù)的一種變種。每日事物處理每日131簡(jiǎn)單堆積VS輪轉(zhuǎn)綜合輪轉(zhuǎn)綜合數(shù)據(jù)結(jié)構(gòu)與數(shù)據(jù)的簡(jiǎn)單堆積結(jié)構(gòu)相比,僅處理非常少的數(shù)據(jù)單元。簡(jiǎn)單堆積VS輪轉(zhuǎn)綜合輪轉(zhuǎn)綜合數(shù)據(jù)結(jié)構(gòu)與數(shù)據(jù)的簡(jiǎn)單堆積結(jié)構(gòu)132簡(jiǎn)單直接文件數(shù)據(jù)僅僅是從操作型環(huán)境拖入數(shù)據(jù)倉庫環(huán)境中,并沒有任何累積。是間隔一定時(shí)間的操作型數(shù)據(jù)的一個(gè)快照。不是在每天的基礎(chǔ)上組織的,而是以較長(zhǎng)時(shí)間為單位的,比如一個(gè)星期或一個(gè)月。簡(jiǎn)單直接文件數(shù)據(jù)僅僅是從操作型環(huán)境拖入數(shù)據(jù)倉庫環(huán)境中,并沒有133連續(xù)文件通過兩個(gè)連續(xù)的簡(jiǎn)單直接文件,可以生成另一個(gè)連續(xù)文件連續(xù)文件也可以通過把一個(gè)快照追加到一個(gè)以前生成的連續(xù)文件上來創(chuàng)建連續(xù)文件通過兩個(gè)連續(xù)的簡(jiǎn)單直接文件,可以生成另一個(gè)連續(xù)文件134連續(xù)文件連續(xù)文件也可以通過把一個(gè)快照追加到一個(gè)以前生成的連續(xù)文件上來創(chuàng)建連續(xù)文件連續(xù)文件也可以通過把一個(gè)快照追加到一個(gè)以前生成的連續(xù)135數(shù)據(jù)存儲(chǔ)虛擬存儲(chǔ)方式基于關(guān)系表的存儲(chǔ)方式多維數(shù)據(jù)庫組織數(shù)據(jù)存儲(chǔ)虛擬存儲(chǔ)方式136虛擬存儲(chǔ)方式?jīng)]有專門的數(shù)據(jù)倉庫數(shù)據(jù)存儲(chǔ),數(shù)據(jù)倉庫中的數(shù)據(jù)仍然在源數(shù)據(jù)庫中。只是根據(jù)用戶的多維需求及形成的多維視圖臨時(shí)在源數(shù)據(jù)庫中找出所需要的數(shù)據(jù),完成多維分析。優(yōu)點(diǎn):組織方式簡(jiǎn)單、花費(fèi)少、使用靈活;缺點(diǎn):只有當(dāng)源數(shù)據(jù)庫的數(shù)據(jù)組織比較規(guī)范、沒有數(shù)據(jù)不完備及冗余,同時(shí)又比較接近多維數(shù)據(jù)模型時(shí),虛擬數(shù)據(jù)倉庫的多維語義才容易定義。而在一般的數(shù)據(jù)庫應(yīng)用中,這很難做到。虛擬存儲(chǔ)方式?jīng)]有專門的數(shù)據(jù)倉庫數(shù)據(jù)存儲(chǔ),數(shù)據(jù)倉庫中的數(shù)據(jù)仍然137基于關(guān)系表的存儲(chǔ)方式將數(shù)據(jù)倉庫的數(shù)據(jù)存儲(chǔ)在關(guān)系數(shù)據(jù)庫的表結(jié)構(gòu)中,在元數(shù)據(jù)的管理下完成數(shù)據(jù)倉庫的功能。實(shí)體關(guān)系(ER)模型一般用于關(guān)系型數(shù)據(jù)庫設(shè)計(jì),而數(shù)據(jù)倉庫采用星型雪片型事實(shí)星座基于關(guān)系表的存儲(chǔ)方式將數(shù)據(jù)倉庫的數(shù)據(jù)存儲(chǔ)在關(guān)系數(shù)據(jù)庫的表結(jié)構(gòu)138星型模式數(shù)據(jù)倉庫中包含(1)一個(gè)大的包含大批數(shù)據(jù)和不冗余的事實(shí)表(中心表);(2)一組小的附屬表,稱為維表。每維一個(gè)。事實(shí)表中每條元組都含有指向各個(gè)維表的外鍵和一些相應(yīng)的測(cè)量數(shù)據(jù),事實(shí)表的記錄數(shù)量很多,維表中記錄的是有關(guān)這一維的屬性。星型模式數(shù)據(jù)倉庫中包含139星型模式示例時(shí)間鍵產(chǎn)品鍵地區(qū)鍵sales(事實(shí)表)銷售量銷售價(jià)time時(shí)間鍵年季度月星期天產(chǎn)品鍵產(chǎn)品類產(chǎn)品名型號(hào)itemlocation地區(qū)鍵國(guó)家省市維表星型模式示例時(shí)間鍵產(chǎn)品鍵地區(qū)鍵sales銷售量銷售價(jià)time140雪花模式雪花模型對(duì)星型模型的維表進(jìn)一步層次化原來的各維表可能被擴(kuò)展為小的事實(shí)表,形成一些局部的“層次”區(qū)域。雪花模式雪花模型對(duì)星型模型的維表進(jìn)一步層次化141雪花模式示例time時(shí)間鍵年季度月星期天產(chǎn)品鍵產(chǎn)品類產(chǎn)品名型號(hào)item時(shí)間鍵產(chǎn)品鍵地區(qū)鍵sales(事實(shí)表)銷售量銷售價(jià)location地區(qū)鍵國(guó)家省鍵省鍵省名市鍵市鍵市名provincecity雪花模式示例time時(shí)間鍵年季度月星期天產(chǎn)品鍵產(chǎn)品類產(chǎn)品名型142星型模式VS雪花模式雪花模式的維表可能是規(guī)范化的,以便減少冗余。這種表易于維護(hù),并節(jié)省存儲(chǔ)空間。實(shí)際上,與巨大的事實(shí)表相比,這種空間的節(jié)省可以忽略。由于執(zhí)行查詢需要更多的連接操作,雪花結(jié)構(gòu)可能降低瀏覽的性能。在數(shù)據(jù)倉庫設(shè)計(jì)中,雪花模式不如星型模式流行。星型模式VS雪花模式雪花模式的維表可能是規(guī)范化的,以便減143事實(shí)星座模式多個(gè)事實(shí)共享相同的維表事實(shí)星座模式多個(gè)事實(shí)共享相同的維表144事實(shí)星座模式示例time時(shí)間鍵年季度月星期天產(chǎn)品鍵產(chǎn)品類產(chǎn)品名型號(hào)item時(shí)間鍵產(chǎn)品鍵地區(qū)鍵sales(事實(shí)表)銷售量銷售價(jià)location地區(qū)鍵國(guó)家省市ship(事實(shí)表)產(chǎn)品鍵時(shí)間鍵起運(yùn)點(diǎn)終止點(diǎn)運(yùn)價(jià)事實(shí)星座模式示例time時(shí)間鍵年季度月星期天產(chǎn)品鍵產(chǎn)品類產(chǎn)品145數(shù)據(jù)倉庫的數(shù)據(jù)追加時(shí)標(biāo)法前后映像文件方法DELTA文件日志文件數(shù)據(jù)倉庫的數(shù)據(jù)追加時(shí)標(biāo)法146時(shí)標(biāo)法基本思想:為記錄數(shù)據(jù)增加一個(gè)時(shí)間標(biāo)記。如果數(shù)據(jù)含有時(shí)標(biāo),對(duì)新插入或更新的數(shù)據(jù)記錄,在其上添加更新時(shí)的時(shí)標(biāo),那么只需根據(jù)時(shí)標(biāo)判斷即可。但并非所有數(shù)據(jù)庫中的數(shù)據(jù)都含有時(shí)標(biāo)。時(shí)標(biāo)法基本思想:為記錄數(shù)據(jù)增加一個(gè)時(shí)間標(biāo)記。147前后映像文件方法在抽取數(shù)據(jù)前后對(duì)數(shù)據(jù)庫各做一次快照,然后比較兩幅快照從而確定新數(shù)據(jù)。它占用大量資源,對(duì)性能影響極大,因此無實(shí)際意義。前后映像文件方法在抽取數(shù)據(jù)前后對(duì)數(shù)據(jù)庫各做一次快照,然后比較148DELTA文件DELTA文件視圖從能夠感知數(shù)據(jù)變化的應(yīng)用程序來生成追加文件利用DELTA文件效率很高,它避免掃描整個(gè)數(shù)據(jù)庫。但因應(yīng)用系統(tǒng)常由不同的軟件開發(fā)商開發(fā),生成DELTA文件的應(yīng)用并不普遍。DELTA文件DELTA文件視圖從能夠感知數(shù)據(jù)變化的應(yīng)用程序149日志文件日志是DMBS的固有機(jī)制系統(tǒng)日志能把數(shù)據(jù)庫服務(wù)器所執(zhí)行的所有操作詳細(xì)記錄下來,通過分析日志獲取數(shù)據(jù)變化情況。它還具有DELTA文件的優(yōu)越性質(zhì),提取數(shù)據(jù)只要局限日志文件即可,不用掃描整個(gè)數(shù)據(jù)庫。固有機(jī)制,不影響OLTP性能。日志文件日志是DMBS的固有機(jī)制1502.5數(shù)據(jù)抽取、轉(zhuǎn)換和加載數(shù)據(jù)倉庫需要將這些源數(shù)據(jù)經(jīng)過抽取、轉(zhuǎn)換和裝載的過程,存儲(chǔ)到數(shù)據(jù)倉庫的數(shù)據(jù)模型中。ETL過程抽?。‥xtraction)轉(zhuǎn)換(Transform)裝載(Load)2.5數(shù)據(jù)抽取、轉(zhuǎn)換和加載數(shù)據(jù)倉庫需要將這些源數(shù)據(jù)經(jīng)過抽取1512.5.1數(shù)據(jù)抽取確認(rèn)數(shù)據(jù)源數(shù)據(jù)抽取技術(shù)2.5.1數(shù)據(jù)抽取確認(rèn)數(shù)據(jù)源152確認(rèn)數(shù)據(jù)源列出對(duì)事實(shí)表的每一個(gè)數(shù)據(jù)項(xiàng)和事實(shí)列出每一個(gè)維度屬性對(duì)于每個(gè)目標(biāo)數(shù)據(jù)項(xiàng),找出源數(shù)據(jù)項(xiàng)一個(gè)數(shù)據(jù)元素有多個(gè)來源,選擇最好的來源確認(rèn)一個(gè)目標(biāo)字段的多個(gè)源字段,建立合并規(guī)則確認(rèn)一個(gè)目標(biāo)字段的多個(gè)源字段,建立分離規(guī)則確定默認(rèn)值檢查缺失值的源數(shù)據(jù)確認(rèn)數(shù)據(jù)源列出對(duì)事實(shí)表的每一個(gè)數(shù)據(jù)項(xiàng)和事實(shí)153數(shù)據(jù)抽取技術(shù)當(dāng)前值:源系統(tǒng)中存儲(chǔ)的數(shù)據(jù)都代表了當(dāng)前時(shí)刻的值。當(dāng)商業(yè)交易時(shí),這些數(shù)據(jù)是會(huì)發(fā)生變化的。周期性的狀態(tài):這類數(shù)據(jù)存儲(chǔ)的是每次發(fā)生變化時(shí)的狀態(tài)。例如,對(duì)于每一保險(xiǎn)索賠,都經(jīng)過索賠開始、確認(rèn)、評(píng)估和解決等步驟,都要考慮有時(shí)間說明。數(shù)據(jù)抽取技術(shù)當(dāng)前值:源系統(tǒng)中存儲(chǔ)的數(shù)據(jù)都代表了當(dāng)前時(shí)刻的值。1542.5.2數(shù)據(jù)轉(zhuǎn)換T數(shù)據(jù)轉(zhuǎn)換的基本功能數(shù)據(jù)轉(zhuǎn)換類型數(shù)據(jù)整合和合并如何實(shí)施轉(zhuǎn)換2.5.2數(shù)據(jù)轉(zhuǎn)換T數(shù)據(jù)轉(zhuǎn)換的基本功能155數(shù)據(jù)轉(zhuǎn)換的基本功能選擇:從源系統(tǒng)中選擇整個(gè)記錄或者部分記錄。
分離/合并:對(duì)源系統(tǒng)中的數(shù)據(jù)進(jìn)行分離操作或者合并操作。轉(zhuǎn)化:對(duì)源系統(tǒng)進(jìn)行標(biāo)準(zhǔn)化和可理解化。匯總:將最低粒度數(shù)據(jù)進(jìn)行匯總。
清晰:對(duì)單個(gè)字段數(shù)據(jù)進(jìn)行重新分配和簡(jiǎn)化。數(shù)據(jù)轉(zhuǎn)換的基本功能選擇:從源系統(tǒng)中選擇整個(gè)記錄或者部分記錄。156數(shù)據(jù)轉(zhuǎn)換類型(1)格式修正(2)字段的解碼(3)計(jì)算值和導(dǎo)出值(4)單個(gè)字段的分離(5)信息的合并(6)特征集合轉(zhuǎn)化(7)度量單位的轉(zhuǎn)化(8)關(guān)鍵字重新構(gòu)造(9)匯總(10)日期/時(shí)間轉(zhuǎn)化數(shù)據(jù)轉(zhuǎn)換類型(1)格式修正157數(shù)據(jù)整合和合并數(shù)據(jù)整合和合并是將相關(guān)的源數(shù)據(jù)組合成一致的數(shù)據(jù)結(jié)構(gòu),裝入數(shù)據(jù)倉庫。實(shí)體識(shí)別問題。數(shù)據(jù)來源于多個(gè)不同的客戶系統(tǒng),對(duì)相同客戶可能分別有不同的鍵碼,將它們組合成一條單獨(dú)的記錄。多數(shù)據(jù)源相同屬性不同值的問題。不同系統(tǒng)中得到的值存在一些差別
,需要給出合理的值。數(shù)據(jù)整合和合并數(shù)據(jù)整合和合并是將相關(guān)的源數(shù)據(jù)組合成一致的數(shù)據(jù)158如何實(shí)施轉(zhuǎn)換自己編寫程序?qū)崿F(xiàn)數(shù)據(jù)轉(zhuǎn)換使用轉(zhuǎn)換工具如何實(shí)施轉(zhuǎn)換自己編寫程序?qū)崿F(xiàn)數(shù)據(jù)轉(zhuǎn)換1592.5.3數(shù)據(jù)裝載L數(shù)據(jù)裝載方式數(shù)據(jù)裝載
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024股東之間股權(quán)轉(zhuǎn)讓協(xié)議書范本新
- 2024年公司獎(jiǎng)懲管理制度
- 2024認(rèn)繳人工智能教育平臺(tái)股權(quán)投資協(xié)議范本3篇
- 2024建筑二次結(jié)構(gòu)合同
- 2024路面硬化工程設(shè)計(jì)與施工總承包合同3篇
- 2024版咖啡館服務(wù)員工作合同
- 2024購銷日化用品的合同
- 2024貨物運(yùn)輸合同3篇
- 2024跨國(guó)企業(yè)研發(fā)共享協(xié)議
- 2024防水維修保修協(xié)議書范本
- 2024年國(guó)家公務(wù)員錄用考試公共基礎(chǔ)知識(shí)復(fù)習(xí)題庫2500題及答案
- DBJ41-T 108-2011 鋼絲網(wǎng)架水泥膨脹珍珠巖夾芯板隔墻應(yīng)用技術(shù)規(guī)程
- 2025年學(xué)長(zhǎng)引領(lǐng)的讀書會(huì)定期活動(dòng)合同
- 水利工程全生命周期管理-洞察分析
- 2024年物業(yè)公司服務(wù)質(zhì)量保證合同條款
- JJF(陜) 049-2021 變壓器交流阻抗參數(shù)測(cè)試儀校準(zhǔn)規(guī)范
- 詞語理解-2025年中考語文專項(xiàng)復(fù)習(xí)(遼寧專用)(原卷版)
- 娛樂場(chǎng)所突發(fā)事件應(yīng)急措施及疏散預(yù)案(三篇)
- 八大危險(xiǎn)作業(yè)安全培訓(xùn)考核試卷
- 老年焦慮癥的護(hù)理
- 2024年白山客運(yùn)從業(yè)資格證考試題庫
評(píng)論
0/150
提交評(píng)論