版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據1.2.1 ETL1.2.2 元數據元數據1.2.3 外部數據外部數據第一章第一章 數據倉庫原理數據倉庫原理1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據1.2.1 ETL一、一、ETL的概念的概念 數據倉庫的數據倉庫的ETL系統(tǒng)是數據倉庫中數據整理階系統(tǒng)是數據倉庫中數據整理階段的一個主要工具,它與元數據管理相結合,提供段的一個主要工具,它與元數據管理相結合,提供對不同數據源的數據進行抽取、轉換、清洗、裝載對不同數據源的數據進行抽取、轉換、清洗、裝載的功能。的功能。 通常而言,開發(fā)一個數據倉庫項目包括了通常而言,開發(fā)一個數據倉庫項目
2、包括了3個個主要步驟:需求主要步驟:需求/建模,建模,ETL開發(fā),最后的前端開開發(fā),最后的前端開發(fā)。發(fā)。第一章第一章 數據倉庫原理數據倉庫原理1.2.1 ETL一、一、ETL的概念(續(xù))的概念(續(xù))數數據據源源 ETL數數據據抽抽取取數數據據轉轉換換數數據據裝裝載載數據倉庫數據倉庫OLAP數據挖掘數據挖掘客戶端客戶端1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第一章 數據倉庫原理數據倉庫原理1.2.1 ETL一、一、ETL的概念(續(xù))的概念(續(xù)) 可以看出可以看出ETL是構建數據倉庫的重要一環(huán),同是構建數據倉庫的重要一環(huán),同時也是構建數據倉庫的基礎與前提,是數據倉庫從時也是構建
3、數據倉庫的基礎與前提,是數據倉庫從業(yè)務系統(tǒng)獲得數據的必經之路。用戶從數據源抽取業(yè)務系統(tǒng)獲得數據的必經之路。用戶從數據源抽取出所需的數據,經過數據清洗,最終按照預先定義出所需的數據,經過數據清洗,最終按照預先定義好的數據倉庫模型,將數據裝載到數據倉庫中去。好的數據倉庫模型,將數據裝載到數據倉庫中去。1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第一章 數據倉庫原理數據倉庫原理1.2.1 ETL一、一、ETL的概念的概念 數據抽取是數據源接口,從業(yè)務系統(tǒng)中抽取數數據抽取是數據源接口,從業(yè)務系統(tǒng)中抽取數據,為數據倉庫輸入數據。據,為數據倉庫輸入數據。 典型的數據抽取接口包括數據庫接口和
4、文件典型的數據抽取接口包括數據庫接口和文件接口,對于不同的數據平臺、不同源數據形式、不接口,對于不同的數據平臺、不同源數據形式、不同性能要求和業(yè)務量的業(yè)務系統(tǒng)以及不同數據量的同性能要求和業(yè)務量的業(yè)務系統(tǒng)以及不同數據量的源數據,采取不同的數據抽取接口。源數據,采取不同的數據抽取接口。 1、數據抽取、數據抽取1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第一章 數據倉庫原理數據倉庫原理1.2.1 ETL一、一、ETL的概念的概念1、數據抽?。ɡm(xù))、數據抽?。ɡm(xù)) 在數據抽取時,需要重點考慮數據抽取的效在數據抽取時,需要重點考慮數據抽取的效率,以及對現有業(yè)務系統(tǒng)性能及安全的影響。數率,
5、以及對現有業(yè)務系統(tǒng)性能及安全的影響。數據的抽取須既能滿足決策的需要,又不影響業(yè)務據的抽取須既能滿足決策的需要,又不影響業(yè)務系統(tǒng)的性能,所以進行數據抽取時應制定相應的系統(tǒng)的性能,所以進行數據抽取時應制定相應的策略,包括策略,包括抽取方式抽取方式、抽取時機抽取時機、抽取周期抽取周期等內等內容。容。1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第一章 數據倉庫原理數據倉庫原理1.2.1 ETL一、一、ETL的概念的概念2、數據轉換和數據清洗、數據轉換和數據清洗 數據轉換和數據清洗是指對從業(yè)務系統(tǒng)中抽數據轉換和數據清洗是指對從業(yè)務系統(tǒng)中抽取的數據根據數據倉庫系統(tǒng)模型的要求,進行數取的數據
6、根據數據倉庫系統(tǒng)模型的要求,進行數據的轉換、清洗、拆分、匯總等處理,保證來自據的轉換、清洗、拆分、匯總等處理,保證來自不同系統(tǒng)、不同格式的數據具有一致性和完整性,不同系統(tǒng)、不同格式的數據具有一致性和完整性,并按要求裝入數據倉庫。并按要求裝入數據倉庫。1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第一章 數據倉庫原理數據倉庫原理1.2.1 ETL一、一、ETL的概念的概念2、數據轉換和數據清洗(續(xù))、數據轉換和數據清洗(續(xù))數據轉換和數據清洗主要完成如下數據不一致:數據轉換和數據清洗主要完成如下數據不一致:1)源數據庫系統(tǒng)同數據倉庫系統(tǒng)在模型上的差異。)源數據庫系統(tǒng)同數據倉庫系統(tǒng)在
7、模型上的差異。2)源數據庫系統(tǒng)不一致。)源數據庫系統(tǒng)不一致。3)源數據結構不一致。)源數據結構不一致。4)源數據定義不規(guī)范導致錯誤數據。)源數據定義不規(guī)范導致錯誤數據。5)對數據的約束不嚴格,導致無意義數據。)對數據的約束不嚴格,導致無意義數據。6)存在重復數據。)存在重復數據。1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第一章 數據倉庫原理數據倉庫原理1.2.1 ETL一、一、ETL的概念的概念2、數據轉換和數據清洗、數據轉換和數據清洗數據轉換、清洗工作一般會有以下幾種實現方法:數據轉換、清洗工作一般會有以下幾種實現方法:1)在數據抽取過程中進行數據處理。)在數據抽取過程中進
8、行數據處理。2)使用異步數據裝載,以文件的方式處理。)使用異步數據裝載,以文件的方式處理。3)在數據裝載過程中進行數據處理。)在數據裝載過程中進行數據處理。4)進入數據倉庫以后再進行數據處理。)進入數據倉庫以后再進行數據處理。1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第一章 數據倉庫原理數據倉庫原理1.2.1 ETL一、一、ETL的概念的概念3、數據裝載、數據裝載 數據裝載就是將從數據源系統(tǒng)中抽取、轉換、數據裝載就是將從數據源系統(tǒng)中抽取、轉換、清洗后的數據裝載到數據倉庫系統(tǒng)中。清洗后的數據裝載到數據倉庫系統(tǒng)中。主要的數據裝載技術有兩種:主要的數據裝載技術有兩種: 1)使用數據
9、倉庫引擎廠商提供的數據裝載)使用數據倉庫引擎廠商提供的數據裝載工具進行數據裝載。工具進行數據裝載。 2)通過數據倉庫引擎廠商提供的)通過數據倉庫引擎廠商提供的API編程進編程進行數據裝載。行數據裝載。1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第一章 數據倉庫原理數據倉庫原理1.2.1 ETL一、一、ETL的概念的概念3、數據裝載(續(xù))、數據裝載(續(xù)) 數據裝載策略要考慮裝載周期以及數據追加數據裝載策略要考慮裝載周期以及數據追加策略兩方面的內容。策略兩方面的內容。 裝載周期要綜合考慮業(yè)務分析需求和系統(tǒng)裝裝載周期要綜合考慮業(yè)務分析需求和系統(tǒng)裝載的代價,對不同業(yè)務系統(tǒng)的數據采用不同
10、的數載的代價,對不同業(yè)務系統(tǒng)的數據采用不同的數據裝載周期。但必須保持同一時間業(yè)務數據的完據裝載周期。但必須保持同一時間業(yè)務數據的完整性。整性。1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第一章 數據倉庫原理數據倉庫原理1.2.1 ETL一、一、ETL的概念的概念3、數據裝載(續(xù))、數據裝載(續(xù)) 數據的追加策略根據數據的抽取策略以及業(yè)數據的追加策略根據數據的抽取策略以及業(yè)務規(guī)則確定,一般有務規(guī)則確定,一般有3種類型:種類型: 1)直接追加;)直接追加; 2)全部覆蓋;)全部覆蓋; 3)更新追加。)更新追加。1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第一章 數據
11、倉庫原理數據倉庫原理1.2.1 ETL二、二、ETL的作用的作用1、解決數據分散問題、解決數據分散問題2、解決數據不清潔問題、解決數據不清潔問題3、方便企業(yè)各部門構筑數據集市、方便企業(yè)各部門構筑數據集市1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第一章 數據倉庫原理數據倉庫原理1.2.1 ETL三、三、ETL工具工具1、ETL工具分類工具分類(1)專業(yè))專業(yè)ETL廠商和產品廠商和產品 這類產品一般都有較完善的體系結構,并且久這類產品一般都有較完善的體系結構,并且久經市場考驗,產品功能的復雜和詳盡程度往往能經市場考驗,產品功能的復雜和詳盡程度往往能令初次接觸的人瞪目,但其高昂的價
12、格也會使一令初次接觸的人瞪目,但其高昂的價格也會使一般用戶望而卻步。般用戶望而卻步。1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第一章 數據倉庫原理數據倉庫原理1.2.1 ETL三、三、ETL工具工具1、ETL工具分類(續(xù))工具分類(續(xù))(2)整體方案提供商和產品)整體方案提供商和產品 這類產品在提供數據倉庫存儲、設計、展現這類產品在提供數據倉庫存儲、設計、展現工具的同時也提供相應的工具的同時也提供相應的ETL工具,它們一般對工具,它們一般對自己廠商的相關產品有很好的支持并能發(fā)揮出最自己廠商的相關產品有很好的支持并能發(fā)揮出最大效率,但結構相對封閉,對其他廠商產品的支大效率,但結
13、構相對封閉,對其他廠商產品的支持有限。持有限。1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第一章 數據倉庫原理數據倉庫原理1.2.1 ETL三、三、ETL工具工具2、ETL工具比較工具比較1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第一章 數據倉庫原理數據倉庫原理數據庫廠商數據庫廠商ETL工具工具優(yōu)點優(yōu)點缺點缺點IBMWa r e h o u s e Manager數據源廣泛,在大數據量的抽取中具數據源廣泛,在大數據量的抽取中具有速度優(yōu)勢,提供編程接口和調用外有速度優(yōu)勢,提供編程接口和調用外部程序的功能;提供部程序的功能;提供agent把數據抽把數據抽取分布到工
14、作站、小型機、大型機等取分布到工作站、小型機、大型機等各種平臺各種平臺界面不太友好,在處理界面不太友好,在處理復雜的數據源時面臨較復雜的數據源時面臨較多的工作量多的工作量ORACLEO r a c l e Wa r e h o u s e Builder提供的躬耕包括:模型構造和設計;提供的躬耕包括:模型構造和設計;數據提取、移動和元數據管理;分析數據提取、移動和元數據管理;分析工具整合;數據倉庫管理;具有開放工具整合;數據倉庫管理;具有開放可延伸的框架可延伸的框架不能把數據抽取擴充到不能把數據抽取擴充到Unix工作站、小型機、工作站、小型機、大型機,流程繁瑣,不大型機,流程繁瑣,不易使用易使
15、用MICROSOFTDTS從廣泛的數據源抽取數據,提供市場從廣泛的數據源抽取數據,提供市場上最有效的編程方式,以及工作流的上最有效的編程方式,以及工作流的任務處理方式;提供調用外部吧程序任務處理方式;提供調用外部吧程序的功能和強大、豐富的外部程序調用的功能和強大、豐富的外部程序調用的對象庫;按計劃自動執(zhí)行數據抽取的對象庫;按計劃自動執(zhí)行數據抽取就數據倉庫環(huán)境而言,就數據倉庫環(huán)境而言,處理數據的量是有限的處理數據的量是有限的INFORMIXA r d e n t DateStage提供工作流的方式,可以實現內部編提供工作流的方式,可以實現內部編程程數據抽取功能的處理方數據抽取功能的處理方式過于簡
16、單,程序的高式過于簡單,程序的高效性和準確性方面的保效性和準確性方面的保證措施太少證措施太少CAInforbump 抽取速度比較快抽取速度比較快采用非工作流的工作方采用非工作流的工作方式,用戶面臨過大的工式,用戶面臨過大的工作量,程序的高效性和作量,程序的高效性和準確性方面的保證措施準確性方面的保證措施太少太少1.2.1 ETL三、三、ETL工具工具3、ETL工具選擇工具選擇ETL工具的功能可以概括為:工具的功能可以概括為:1)對平臺的支持;)對平臺的支持;2)對數據源的支持;)對數據源的支持;3)數據轉換功能;)數據轉換功能;4)管理和調度功能;)管理和調度功能;5)集成和開放性;)集成和開
17、放性;6)對元數據的管理。)對元數據的管理。 在工具的選擇時,用戶重點考慮這些可能影在工具的選擇時,用戶重點考慮這些可能影響響ETL工具的要素。工具的要素。1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第一章 數據倉庫原理數據倉庫原理1.2.1 ETL三、三、ETL工具工具3、ETL工具選擇(續(xù))工具選擇(續(xù))性能性能ETL工具工具手工編碼手工編碼靈活性靈活性比較靈活比較靈活最靈活最靈活難易程度難易程度相對容易相對容易要求一定的技術水平要求一定的技術水平管理和維護管理和維護容易容易較難較難性能和效率性能和效率較高較高取決于編寫者水平取決于編寫者水平開發(fā)周期開發(fā)周期較短較短較長較長
18、工作量工作量中等中等較重較重價格價格較高較高相對較低相對較低1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第一章 數據倉庫原理數據倉庫原理1.2.2 元數據元數據 數據倉庫環(huán)境中一個重要方面是數據倉庫環(huán)境中一個重要方面是元數據元數據。簡。簡單地說,元數據就是單地說,元數據就是“關于數據的數據關于數據的數據”。只要。只要有程序和數據,元數據就是信息處理環(huán)境的一部有程序和數據,元數據就是信息處理環(huán)境的一部分。在數據倉庫中,元數據扮演一個新的重要角分。在數據倉庫中,元數據扮演一個新的重要角色。也正因為有了元數據,用戶才可以最有效地色。也正因為有了元數據,用戶才可以最有效地利用數據倉庫。
19、利用數據倉庫。1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第一章 數據倉庫原理數據倉庫原理1.2.2 元數據元數據元數據使得用戶可以掌握數據歷史,如:元數據使得用戶可以掌握數據歷史,如: 1)數據從哪里來?)數據從哪里來? 2)流通時間有多長?)流通時間有多長? 3)更新頻率是多大?)更新頻率是多大? 3)數據元素的含義是什么?)數據元素的含義是什么? 5)對數據已經進行了哪些計算、轉換和篩選)對數據已經進行了哪些計算、轉換和篩選等。等。1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第一章 數據倉庫原理數據倉庫原理1.2.2 元數據元數據 在需求不確定情況下,在瞬
20、間萬變的商業(yè)環(huán)境在需求不確定情況下,在瞬間萬變的商業(yè)環(huán)境下,元數據可以更好的支持需求變化,降低項目風下,元數據可以更好的支持需求變化,降低項目風險。事實上,元數據貫穿于建立數據倉庫的整個過險。事實上,元數據貫穿于建立數據倉庫的整個過程之中,是數據倉庫構建過程中的一個重要部分,程之中,是數據倉庫構建過程中的一個重要部分,起著至關重要的作用。起著至關重要的作用。1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第一章 數據倉庫原理數據倉庫原理1.2.2 元數據元數據一、什么是元數據一、什么是元數據1、元數據的概念、元數據的概念 在數據倉庫系統(tǒng)中,在數據倉庫系統(tǒng)中,元數據元數據是關于數據倉
21、庫是關于數據倉庫的數據,指在數據倉庫建設過程中所產生的有關的數據,指在數據倉庫建設過程中所產生的有關數據源定義、目標定義,轉換規(guī)則等相關的關鍵數據源定義、目標定義,轉換規(guī)則等相關的關鍵數據,同時元數據還包含關于數據含義的商業(yè)信數據,同時元數據還包含關于數據含義的商業(yè)信息。息。 元數據元數據可以幫助數據倉庫管理員和數據倉庫可以幫助數據倉庫管理員和數據倉庫的開發(fā)人員非常方便地找到他們所關心的數據。的開發(fā)人員非常方便地找到他們所關心的數據。1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第一章 數據倉庫原理數據倉庫原理1.2.2 元數據元數據一、什么是元數據一、什么是元數據1、元數據的概
22、念(續(xù))、元數據的概念(續(xù)) 元數據是描述數據倉庫內數據的結構和建立元數據是描述數據倉庫內數據的結構和建立方法的數據,對這些信息妥善保存,并很好地管理方法的數據,對這些信息妥善保存,并很好地管理將為數據倉庫的發(fā)展和使用提供方便,使得最終用將為數據倉庫的發(fā)展和使用提供方便,使得最終用戶和戶和DSS分析員能夠探索各種可能性。分析員能夠探索各種可能性。1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第一章 數據倉庫原理數據倉庫原理1.2.2 元數據元數據一、什么是元數據一、什么是元數據2、元數據的分類、元數據的分類 按照用途按照用途對元數據進行分類是最常見的分類對元數據進行分類是最常見的
23、分類方法,可將其分為兩類:方法,可將其分為兩類: (1)管理元數據)管理元數據 (2)用戶元數據)用戶元數據1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第一章 數據倉庫原理數據倉庫原理1.2.2 元數據元數據一、什么是元數據一、什么是元數據2、元數據的分類(續(xù))、元數據的分類(續(xù)) 管理元數據管理元數據是存儲關于數據倉庫系統(tǒng)技術細是存儲關于數據倉庫系統(tǒng)技術細節(jié)的數據,是用于開發(fā)和管理數據倉庫使用的數節(jié)的數據,是用于開發(fā)和管理數據倉庫使用的數據,它主要包括以下信息:據,它主要包括以下信息: 1)數據倉庫結構的描述,包括倉庫模式、視)數據倉庫結構的描述,包括倉庫模式、視圖、維、層次
24、結構和導出數據的定義,以及數據圖、維、層次結構和導出數據的定義,以及數據集市的位置和內容。集市的位置和內容。 2)業(yè)務系統(tǒng)、數據倉庫和數據集市的體系結)業(yè)務系統(tǒng)、數據倉庫和數據集市的體系結構和模式。構和模式。1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第一章 數據倉庫原理數據倉庫原理1.2.2 元數據元數據一、什么是元數據一、什么是元數據2、元數據的分類(續(xù))、元數據的分類(續(xù)) 3)匯總數據用的算法,包括度量和維定義)匯總數據用的算法,包括度量和維定義算法,數據粒度、主題領域、聚集、匯總、預定算法,數據粒度、主題領域、聚集、匯總、預定義的查詢和報告。義的查詢和報告。 4)由操
25、作環(huán)境到數據倉庫環(huán)境的映射,包)由操作環(huán)境到數據倉庫環(huán)境的映射,包括源數據和它們的內容、數據分割、數據提取、括源數據和它們的內容、數據分割、數據提取、清理、轉換規(guī)則和數據刷新規(guī)則、安全。清理、轉換規(guī)則和數據刷新規(guī)則、安全。1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第一章 數據倉庫原理數據倉庫原理1.2.2 元數據元數據一、什么是元數據一、什么是元數據2、元數據的分類(續(xù))、元數據的分類(續(xù)) 用戶元數據用戶元數據從業(yè)務角度描述了數據倉庫中的從業(yè)務角度描述了數據倉庫中的數據,它提供了介于使用者和實際系統(tǒng)之間的語數據,它提供了介于使用者和實際系統(tǒng)之間的語義層,使得不懂計算機技術的
26、業(yè)務人員也能夠義層,使得不懂計算機技術的業(yè)務人員也能夠“讀懂讀懂”數據倉庫中的數據。用戶元數據是從最數據倉庫中的數據。用戶元數據是從最終用戶角度來描述數據倉庫。通過用戶元數據,終用戶角度來描述數據倉庫。通過用戶元數據,用戶可以了解:用戶可以了解: 1)應該如何連接數據倉庫。)應該如何連接數據倉庫。 2)可以訪問數據倉庫的哪些部分。)可以訪問數據倉庫的哪些部分。 3)所需要的數據來自哪一個源系統(tǒng)。)所需要的數據來自哪一個源系統(tǒng)。1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第一章 數據倉庫原理數據倉庫原理1.2.2 元數據元數據一、什么是元數據一、什么是元數據2、元數據的分類、元數
27、據的分類按照元數據的來源按照元數據的來源,元數據可以分為:,元數據可以分為: 1)數據源的元數據)數據源的元數據 2)數據模型的元數據)數據模型的元數據 3)數據源與數據倉庫映射的元數據)數據源與數據倉庫映射的元數據 4)數據倉庫應用的元數據)數據倉庫應用的元數據1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第一章 數據倉庫原理數據倉庫原理1.2.2 元數據元數據一、什么是元數據一、什么是元數據2、元數據的分類(續(xù))、元數據的分類(續(xù)) 按照元數據生成按照元數據生成/ 使用的時間使用的時間進行分類,可以進行分類,可以分為:分為: 1)設計時收集)設計時收集/使用的元數據使用的元數
28、據 2)構建時生成)構建時生成/使用的元數據使用的元數據 3)運行時生成)運行時生成/使用的元數據使用的元數據1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第一章 數據倉庫原理數據倉庫原理1.2.2 元數據元數據一、什么是元數據一、什么是元數據2、元數據的分類、元數據的分類 按照數據倉庫功能區(qū)域按照數據倉庫功能區(qū)域的劃分,對元數據可的劃分,對元數據可以分為:以分為: 1)數據獲取元數據)數據獲取元數據 2)數據存儲元數據)數據存儲元數據 3)信息傳遞元數據)信息傳遞元數據1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第一章 數據倉庫原理數據倉庫原理1.2.2 元數據
29、元數據一、什么是元數據一、什么是元數據2、元數據的分類、元數據的分類 按照元數據在數據倉庫中所承擔的任務按照元數據在數據倉庫中所承擔的任務,可,可以元數據分為:以元數據分為: 1)靜態(tài)元數據)靜態(tài)元數據 2)動態(tài)元數據)動態(tài)元數據1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第一章 數據倉庫原理數據倉庫原理1.2.2 元數據元數據一、什么是元數據一、什么是元數據3、元數據的作用、元數據的作用RDBMS外部數據源數據倉庫企業(yè)數據模型、多維數據模型即席查詢OLAP分析數據挖掘管理元數據用戶元數據元數據知識庫操作環(huán)境層數據倉庫層業(yè)務層1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數
30、據第一章第一章 數據倉庫原理數據倉庫原理1.2.2 元數據元數據一、什么是元數據一、什么是元數據3、元數據的作用、元數據的作用 上圖中左邊的部分是元數據,它起到了承上上圖中左邊的部分是元數據,它起到了承上啟下的作用,具體體現在:啟下的作用,具體體現在: (1)元數據是進行數據集成所必須的)元數據是進行數據集成所必須的 數據倉庫最大的特點就是它的集成性。這一數據倉庫最大的特點就是它的集成性。這一特點不僅體現在它所包含的數據上,還體現在實特點不僅體現在它所包含的數據上,還體現在實施數據倉庫項目的過程中。施數據倉庫項目的過程中。1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第一章 數據
31、倉庫原理數據倉庫原理1.2.2 元數據元數據一、什么是元數據一、什么是元數據3、元數據的作用(續(xù))、元數據的作用(續(xù)) 一方面,從各個數據源中抽取的數據要按照一方面,從各個數據源中抽取的數據要按照一定的模式存入數據倉庫中,這些數據源與數據一定的模式存入數據倉庫中,這些數據源與數據倉庫中數據的對應關系及轉換規(guī)則都要存儲在元倉庫中數據的對應關系及轉換規(guī)則都要存儲在元數據知識庫中。數據知識庫中。1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第一章 數據倉庫原理數據倉庫原理1.2.2 元數據元數據一、什么是元數據一、什么是元數據3、元數據的作用(續(xù))、元數據的作用(續(xù)) 另一方面,在數據
32、倉庫項目實施過程中,直另一方面,在數據倉庫項目實施過程中,直接建立數據倉庫往往費時、費力,因此在實踐當中,接建立數據倉庫往往費時、費力,因此在實踐當中,人們可能會按照統(tǒng)一的數據模型,首先建立數據集人們可能會按照統(tǒng)一的數據模型,首先建立數據集市,然后在各個數據集市的基礎上再建設數據倉庫。市,然后在各個數據集市的基礎上再建設數據倉庫。不過,當數據集市數量增多時很容易形成不過,當數據集市數量增多時很容易形成“蜘蛛網蜘蛛網”現象,而元數據管理是解決現象,而元數據管理是解決“蜘蛛網蜘蛛網”的關鍵的關鍵 。1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第一章 數據倉庫原理數據倉庫原理1.2.
33、2 元數據元數據一、什么是元數據一、什么是元數據3、元數據的作用(續(xù))、元數據的作用(續(xù))2)元數據定義的語義層可以幫助最終用戶理解數)元數據定義的語義層可以幫助最終用戶理解數據倉庫中的數據。據倉庫中的數據。 最終用戶不可能像數據倉庫系統(tǒng)管理員或開最終用戶不可能像數據倉庫系統(tǒng)管理員或開發(fā)人員那樣熟悉數據倉庫技術,因此迫切需要有發(fā)人員那樣熟悉數據倉庫技術,因此迫切需要有一個一個“翻譯翻譯”,能夠使他們清晰地理解數據倉庫,能夠使他們清晰地理解數據倉庫中數據的含義。元數據可以實現業(yè)務模型與數據中數據的含義。元數據可以實現業(yè)務模型與數據模型之間的映射,因而可以把數據以用戶需要的模型之間的映射,因而可以
34、把數據以用戶需要的方式方式“翻譯翻譯”出來,從而幫助最終用戶理解和使出來,從而幫助最終用戶理解和使用數據。用數據。1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第一章 數據倉庫原理數據倉庫原理1.2.2 元數據元數據一、什么是元數據一、什么是元數據3、元數據的作用(續(xù))、元數據的作用(續(xù))(3)元數據是保證數據質量的關鍵。)元數據是保證數據質量的關鍵。 數據倉庫或數據集市建立好之后,使用者在使用數據倉庫或數據集市建立好之后,使用者在使用的時候,常常會產生對數據的懷疑。這些懷疑往往是的時候,常常會產生對數據的懷疑。這些懷疑往往是由于低層的數據對于用戶來說是不由于低層的數據對于用戶來
35、說是不“透明透明”的,使用的,使用者很自然地對結果產生懷疑。而借助元數據管理系統(tǒng),者很自然地對結果產生懷疑。而借助元數據管理系統(tǒng),最終使用者對各個數據的來龍去脈以及數據抽取和轉最終使用者對各個數據的來龍去脈以及數據抽取和轉換規(guī)則都會很方便地得到,這樣他們自然會對數據具換規(guī)則都會很方便地得到,這樣他們自然會對數據具有信心。有信心。1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第一章 數據倉庫原理數據倉庫原理1.2.2 元數據元數據一、什么是元數據一、什么是元數據3、元數據的作用(續(xù))、元數據的作用(續(xù))(4)元數據可以支持需求變化。)元數據可以支持需求變化。 如何構造一個隨著需求改
36、變而平滑變化的軟如何構造一個隨著需求改變而平滑變化的軟件系統(tǒng),是軟件工程領域中的一個重要問題。傳統(tǒng)件系統(tǒng),是軟件工程領域中的一個重要問題。傳統(tǒng)的信息系統(tǒng)往往是通過文檔來適應需求變化,但是的信息系統(tǒng)往往是通過文檔來適應需求變化,但是僅僅依靠文檔是遠遠不夠的。成功的元數據管理系僅僅依靠文檔是遠遠不夠的。成功的元數據管理系統(tǒng)可以把整個業(yè)務的工作流、數據流和信息流有效統(tǒng)可以把整個業(yè)務的工作流、數據流和信息流有效地管理起來,使得系統(tǒng)不依賴特定的開發(fā)人員,從地管理起來,使得系統(tǒng)不依賴特定的開發(fā)人員,從而提高系統(tǒng)的可擴展性。而提高系統(tǒng)的可擴展性。1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第
37、一章 數據倉庫原理數據倉庫原理1.2.2 元數據元數據一、什么是元數據一、什么是元數據4、元數據的來源、元數據的來源 元數據存在于數據倉庫過程中的每個步驟,元數據存在于數據倉庫過程中的每個步驟,在不同的數據倉庫處理過程中都會產生一些新的在不同的數據倉庫處理過程中都會產生一些新的元數據。這些過程包括源系統(tǒng)、數據抽取、數據元數據。這些過程包括源系統(tǒng)、數據抽取、數據清洗、數據轉換、數據裝載、數據存儲、信息傳清洗、數據轉換、數據裝載、數據存儲、信息傳遞等。遞等。1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第一章 數據倉庫原理數據倉庫原理1.2.2 元數據元數據一、什么是元數據一、什么是
38、元數據4、元數據的來源、元數據的來源(1)源系統(tǒng))源系統(tǒng) 在源系統(tǒng)中,元數據的內容包括對操作型數在源系統(tǒng)中,元數據的內容包括對操作型數據模型、系統(tǒng)文件的數據元素定義、物理文件布據模型、系統(tǒng)文件的數據元素定義、物理文件布局以及字段定義、外部數據來源的文件布局和字局以及字段定義、外部數據來源的文件布局和字段定義等內容的描述。段定義等內容的描述。1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第一章 數據倉庫原理數據倉庫原理1.2.2 元數據元數據一、什么是元數據一、什么是元數據4、元數據的來源、元數據的來源(2)數據抽取階段)數據抽取階段 在數據抽取階段,產生的元數據包含有所選在數據抽
39、取階段,產生的元數據包含有所選擇的數據源的布局和定義、用于抽取的字段的定擇的數據源的布局和定義、用于抽取的字段的定義、標準化字段類型與長度的規(guī)則、數據抽取計義、標準化字段類型與長度的規(guī)則、數據抽取計劃等內容。劃等內容。1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第一章 數據倉庫原理數據倉庫原理1.2.2 元數據元數據一、什么是元數據一、什么是元數據4、元數據的來源、元數據的來源(3)數據清洗和轉換階段)數據清洗和轉換階段 該階段中元數據描述文件的轉換規(guī)則、字段該階段中元數據描述文件的轉換規(guī)則、字段的默認值、有效性檢查的規(guī)則、分類及重排序安排的默認值、有效性檢查的規(guī)則、分類及重排
40、序安排等內容。等內容。1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第一章 數據倉庫原理數據倉庫原理1.2.2 元數據元數據一、什么是元數據一、什么是元數據4、元數據的來源、元數據的來源(4)數據裝載階段)數據裝載階段 在數據裝載過程中,元數據記錄為文件分配在數據裝載過程中,元數據記錄為文件分配鍵的分配規(guī)則、完全刷新的計劃、增量裝載的計鍵的分配規(guī)則、完全刷新的計劃、增量裝載的計劃等內容。劃等內容。1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第一章 數據倉庫原理數據倉庫原理1.2.2 元數據元數據一、什么是元數據一、什么是元數據4、元數據的來源、元數據的來源(5)數
41、據存儲階段)數據存儲階段 在數據存儲階段,元數據包含有對數據倉庫在數據存儲階段,元數據包含有對數據倉庫的數據模型、物理文件、表和列的定義、有效性的數據模型、物理文件、表和列的定義、有效性檢查的規(guī)則等內容的描述。檢查的規(guī)則等內容的描述。1.2.2 元數據元數據一、什么是元數據一、什么是元數據4、元數據的來源、元數據的來源(6)信息傳遞階段)信息傳遞階段 此階段的元數據需要描述預定義查詢和報表此階段的元數據需要描述預定義查詢和報表的列表、特殊的列表、特殊OLAP數據庫的數據模型以及為數據庫的數據模型以及為OLAP檢索數據的計劃。檢索數據的計劃。1.2.2 元數據元數據二、元數據的標準化二、元數據的
42、標準化 沒有規(guī)矩不成方圓。為了更好地發(fā)揮元數據沒有規(guī)矩不成方圓。為了更好地發(fā)揮元數據在數據倉庫中的作用,必須對其進行有效的管理,在數據倉庫中的作用,必須對其進行有效的管理,而一個統(tǒng)一的元數據標準是元數據管理的前提。但而一個統(tǒng)一的元數據標準是元數據管理的前提。但目前缺乏全行業(yè)內統(tǒng)一的標準。在這種情況下,各目前缺乏全行業(yè)內統(tǒng)一的標準。在這種情況下,各公司的元數據管理解決方案各不相同。公司的元數據管理解決方案各不相同。1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第一章 數據倉庫原理數據倉庫原理1.2.2 元數據元數據二、元數據的標準化(續(xù))二、元數據的標準化(續(xù)) 近幾年,隨著元數據
43、聯盟近幾年,隨著元數據聯盟MDC(meta data coalition)和開放信息模型)和開放信息模型OMI(open information model)和)和OMG組織組織(Object Management Group,對象管理組織),對象管理組織)的公共倉的公共倉庫模型庫模型CWM(common warehouse model)標)標準的逐漸完善,以及準的逐漸完善,以及MDC和和OMG組織的合并,組織的合并,將為數據倉庫廠商提供統(tǒng)一的標準,從而為元數將為數據倉庫廠商提供統(tǒng)一的標準,從而為元數據管理鋪平道路。據管理鋪平道路。 目前,在數據倉庫領域中有兩個最主要的元目前,在數據倉庫領域中
44、有兩個最主要的元數據標準:數據標準:MDC的的OIM標準,標準,OMG的的CWM標準。標準。1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第一章 數據倉庫原理數據倉庫原理1.2.2 元數據元數據三、數據倉庫中的元數據管理三、數據倉庫中的元數據管理1、元數據管理的具體內容、元數據管理的具體內容(1)獲取并存儲元數據)獲取并存儲元數據 數據倉庫中數據的時間跨度較長。此間,數據倉庫中數據的時間跨度較長。此間,源系統(tǒng)可能會發(fā)生變化,則與之對應的數據抽取源系統(tǒng)可能會發(fā)生變化,則與之對應的數據抽取方法、數據轉換算法以及數據倉庫本身的結構和方法、數據轉換算法以及數據倉庫本身的結構和內容也有可能
45、變化。因此,數據倉庫環(huán)境中的元內容也有可能變化。因此,數據倉庫環(huán)境中的元數據必須具有跟蹤這些變化的能力。這也意味著數據必須具有跟蹤這些變化的能力。這也意味著元數據管理必須提供按照合適的版本來獲取和存元數據管理必須提供按照合適的版本來獲取和存儲元數據的方法使元數據可以隨時間變化。儲元數據的方法使元數據可以隨時間變化。1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第一章 數據倉庫原理數據倉庫原理1.2.2 元數據元數據三、數據倉庫中的元數據管理三、數據倉庫中的元數據管理1、元數據管理的具體內容(續(xù))、元數據管理的具體內容(續(xù))(2)元數據的集成)元數據的集成 不論是管理元數據和用戶元
46、數據,還是來自不論是管理元數據和用戶元數據,還是來自源系統(tǒng)數據模型的元數據和來自數據倉庫數據模型源系統(tǒng)數據模型的元數據和來自數據倉庫數據模型的元數據,都必須以一種用戶能夠理解的統(tǒng)一方式的元數據,都必須以一種用戶能夠理解的統(tǒng)一方式集成。元數據集成是元數據管理中的難點。集成。元數據集成是元數據管理中的難點。1.2.2 元數據元數據三、數據倉庫中的元數據管理三、數據倉庫中的元數據管理1、元數據管理的具體內容、元數據管理的具體內容(3)元數據的標準化)元數據的標準化 每一個工具都有自己專用的元數據,不同的每一個工具都有自己專用的元數據,不同的工具中存儲的同一種元數據必須用同一種方式表工具中存儲的同一種
47、元數據必須用同一種方式表示,不同工具之間也應該可以自由、容易地交換示,不同工具之間也應該可以自由、容易地交換元數據。元數據標準化是對元數據管理提出的另元數據。元數據標準化是對元數據管理提出的另一個巨大挑戰(zhàn),目前尚未形成全行業(yè)內統(tǒng)一的標一個巨大挑戰(zhàn),目前尚未形成全行業(yè)內統(tǒng)一的標準。準。1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第一章 數據倉庫原理數據倉庫原理1.2.2 元數據元數據三、數據倉庫中的元數據管理三、數據倉庫中的元數據管理1、元數據管理的具體內容(續(xù))、元數據管理的具體內容(續(xù))(4)保持元數據同步)保持元數據同步 關于數據結構、數據元素、事件、規(guī)則的元關于數據結構、
48、數據元素、事件、規(guī)則的元數據必須在任何時間在整個數據倉庫中保持同步。數據必須在任何時間在整個數據倉庫中保持同步。同時,如果數據或規(guī)則變化導致元數據發(fā)生變化同時,如果數據或規(guī)則變化導致元數據發(fā)生變化時,這個變化也要反映到數據倉庫中。在數據倉時,這個變化也要反映到數據倉庫中。在數據倉庫中保持統(tǒng)一的元數據版本控制的工作是十分繁庫中保持統(tǒng)一的元數據版本控制的工作是十分繁重的。重的。1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第一章 數據倉庫原理數據倉庫原理1.2.2 元數據元數據三、數據倉庫中的元數據管理三、數據倉庫中的元數據管理1、元數據管理的具體內容(續(xù))、元數據管理的具體內容(續(xù)
49、) 目前,實施對元數據管理的方法主要有兩種:目前,實施對元數據管理的方法主要有兩種: 對于相對簡單的環(huán)境,按照通用的元數據管對于相對簡單的環(huán)境,按照通用的元數據管理標準建立一個集中式的元數據知識庫;對于比理標準建立一個集中式的元數據知識庫;對于比較復雜的環(huán)境,分別建立各部分的元數據管理系較復雜的環(huán)境,分別建立各部分的元數據管理系統(tǒng),形成分布式元數據知識庫,然后,通過建立統(tǒng),形成分布式元數據知識庫,然后,通過建立標準的元數據交換格式,實現元數據的集成管理。標準的元數據交換格式,實現元數據的集成管理。1.2.2 元數據元數據三、數據倉庫中的元數據管理三、數據倉庫中的元數據管理2、元數據管理工具、元
50、數據管理工具與元數據相關的數據倉庫工具大致可分為四類:與元數據相關的數據倉庫工具大致可分為四類: (1)數據抽取工具)數據抽取工具 (2)前端展示工具)前端展示工具 (3)建模工具)建模工具 (4)元數據存儲工具)元數據存儲工具1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第一章 數據倉庫原理數據倉庫原理1.2.2 元數據元數據三、數據倉庫中的元數據管理三、數據倉庫中的元數據管理2、元數據管理工具、元數據管理工具元數據管理元數據管理數據抽取工具:數據抽取工具:*DataStage*Decision Base*Extract前端展現工具:前端展現工具:*Bo*Brio*cognos
51、*DSS Agent建模工具:建模工具:*Erwin*Power Designer*Rose元數據存儲工具:元數據存儲工具:*Repository*MetaStage*WCC1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第一章 數據倉庫原理數據倉庫原理1.2.2 元數據元數據四、在數據倉庫項目中使用元數據的建議四、在數據倉庫項目中使用元數據的建議(1)ETL/元數據配合整體的建設策略元數據配合整體的建設策略(2)從簡單元數據管理做起,規(guī)范)從簡單元數據管理做起,規(guī)范ETL設計設計(3)讓業(yè)務人員盡早的使用元數據)讓業(yè)務人員盡早的使用元數據(4)盡量使用元數據維護數據倉庫)盡量使用
52、元數據維護數據倉庫(5)采用合適的管理方法)采用合適的管理方法(6)建立元數據庫)建立元數據庫1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第一章 數據倉庫原理數據倉庫原理第二章第二章 數據倉庫中的數據倉庫中的ETL和元數據和元數據1.2.3 外部數據外部數據 來自企業(yè)外,描述企業(yè)外部環(huán)境的數據稱為來自企業(yè)外,描述企業(yè)外部環(huán)境的數據稱為外部數據。外部數據。一、外部數據和非結構化數據一、外部數據和非結構化數據 外部數據的另一種來源是無法用數字或統(tǒng)一外部數據的另一種來源是無法用數字或統(tǒng)一的結構表示的數據類,即非結構化數據。的結構表示的數據類,即非結構化數據。 非結構化數據的兩種最常見
53、的類型是圖像和非結構化數據的兩種最常見的類型是圖像和聲音。聲音。1.2.3 外部數據外部數據一、外部數據和非結構化數據一、外部數據和非結構化數據 在數據倉庫中存在一些與外部數據在數據倉庫中存在一些與外部數據/非結構化非結構化數據的使用、存儲相關的問題。表現如下:數據的使用、存儲相關的問題。表現如下: 1)訪問的頻率)訪問的頻率/可用頻率可用頻率 2)數據的形式)數據的形式 3)不可預測性)不可預測性1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第一章 數據倉庫原理數據倉庫原理1.2.3 外部數據外部數據二、元數據和外部數據二、元數據和外部數據 由于在數據倉庫環(huán)境中正是通過元數據來
54、對由于在數據倉庫環(huán)境中正是通過元數據來對外部數據進行注冊、訪問與控制的,因此元數據外部數據進行注冊、訪問與控制的,因此元數據對存儲和管理外部數據與非結構化數據起著重要對存儲和管理外部數據與非結構化數據起著重要的作用。的作用。 (見下圖)(見下圖)1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第一章 數據倉庫原理數據倉庫原理1.2.3 外部數據外部數據二、元數據和外部數據二、元數據和外部數據數據倉庫數據倉庫元數據元數據非結構化數據非結構化數據外部數據外部數據元數據:元數據:l文件標識符文件標識符l進入日期進入日期l文件描述文件描述l文件來源文件來源l文件的分類文件的分類l索引字索引字l清理日期清理日期l物理地址引用物理地址引用l文件長度文件長度l相關參考相關參考1.2 數據倉庫中的數據倉庫中的ETL和元數據和元數據第一章第一章 數據倉庫原理數據倉庫原理1.2.3 外部數據外部數據二、元數據和外部數據二、元數據和外部數據 如果對元數據進
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2030年中國汽車窗簾遮物簾行業(yè)供需狀況發(fā)展戰(zhàn)略規(guī)劃分析報告
- 2024-2030年中國汽車注塑模具行業(yè)發(fā)展趨勢預測競爭戰(zhàn)略分析報告
- 2024-2030年中國汽車內飾頂襯總成行業(yè)供需狀況發(fā)展戰(zhàn)略規(guī)劃分析報告
- 2022年大學植物生產專業(yè)大學物理下冊模擬考試試卷B卷-附解析
- 冀教版四年級上冊數學第七單元 垂線和平行線 測試卷附答案【基礎題】
- 滬教版三年級下冊數學第二單元 用兩位數乘除 測試卷及參考答案【基礎題】
- 2022年大學力學專業(yè)大學物理二期末考試試卷A卷-附解析
- 2022年大學水利專業(yè)大學物理下冊月考試卷D卷-附解析
- 一次性使用醫(yī)用口罩性能評估方案
- 科技園區(qū)基礎工程施工組織方案
- 醫(yī)學與大數據:信息技術在醫(yī)療中的應用
- 2024年室內裝飾設計師(高級工)考試復習題庫(含答案)
- 教育培訓行業(yè)2024年生產與制度改革方案
- PCB文字噴印工藝
- 2024年廖俊波同志先進事跡心得體會教師4篇
- 高考物理系統(tǒng)性復習 (能力提高練) 第五節(jié) 實驗:探究小車速度隨時間變化的規(guī)律(附解析)
- 眼科護理中的孕婦與產婦護理
- 業(yè)主業(yè)主委員會通用課件
- 了解金融市場和金融產品
- 南京理工大學2015年613物理化學(含答案)考研真題
- 初中數學應用題解題思路分享
評論
0/150
提交評論