




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、數(shù)據(jù)倉庫原理-by zvane1. 數(shù)據(jù)倉庫概念傳統(tǒng)數(shù)據(jù)庫以及OLTP(On-Line Transaction Processing 聯(lián)機事務處理)在日常的管理事務處理中獲得了巨大的成功,但是對管理人員的決策分析要求卻無法滿足。因為,管理人員常常希望能夠通過對組織中的大量數(shù)據(jù)進行分析,了解業(yè)務的發(fā)展趨勢。而傳統(tǒng)數(shù)據(jù)庫只保留了當前的業(yè)務處理信息,缺乏決策分析所需要的大量的歷史信息。 為滿足管理人員的決策分析需要,就需要在數(shù)據(jù)庫的基礎上產(chǎn)生適應決策分析的數(shù)據(jù)環(huán)境數(shù)據(jù)倉庫(Data Warehouse)。1.1 定義William H.Inmon在1993年所寫的論著Building the Dat
2、aWarehouse首先系統(tǒng)地闡述了關于數(shù)據(jù)倉庫的思想、理論,為數(shù)據(jù)倉庫的發(fā)展奠定了歷史基石。文中他將數(shù)據(jù)倉庫定義為:A data warehouse is a subject-oriented, integrated, non-volatile, time-variant collection of data in support of management decisions.一個面向主題的、集成的、非易失性的、隨時間變化的數(shù)據(jù)的集合,以用于支持管理層決策過程。1.2 特性1.2.1 subject-oriented(面向主題性)面向主題表示了數(shù)據(jù)倉庫中數(shù)據(jù)組織的基本原則,數(shù)據(jù)倉庫中的數(shù)由
3、數(shù)據(jù)都是圍繞著某一主題組織展開的。由于數(shù)據(jù)倉庫的用戶大多是企業(yè)的管理決策者,這些人所面對的往往是一些比較抽象的、層次較高的管理分析對象。例如,企業(yè)中的客戶、產(chǎn)品、供應商等都可以作為主題看待。從信息管理的角度看,主題就是在一個較高的管理層次上對信息系統(tǒng)的數(shù)據(jù)按照某一具體的管理對象進行綜合、歸類所形成的分析對象。從數(shù)據(jù)組織的角度看,主題是一些數(shù)據(jù)集合,這些數(shù)據(jù)集合對分析對象作了比較完整的、一致的描述,這種描述不僅涉及到數(shù)據(jù)自身,而且涉及到數(shù)據(jù)之間的關系。1.2.2 integrated (數(shù)據(jù)集成性)數(shù)據(jù)倉庫的集成性是指根據(jù)決策分析的要求,將分散于各處的源數(shù)據(jù)進行抽取、篩選、清理、綜合等工作,使數(shù)
4、據(jù)倉庫的數(shù)據(jù)具有集成性。數(shù)據(jù)倉庫在從業(yè)務處理系統(tǒng)那里獲取數(shù)據(jù)時,并不能將源數(shù)據(jù)庫中的數(shù)據(jù)直接加載到數(shù)據(jù)倉庫中,而是需要進行一系列的數(shù)據(jù)預處理,即數(shù)據(jù)的抽取、篩選、清理、綜合等集成工作。1.2.3 time-variant 數(shù)據(jù)的時變性數(shù)據(jù)倉庫的時變性,就是數(shù)據(jù)應該隨著時間的推移而變化。盡管數(shù)據(jù)倉庫中的數(shù)據(jù)并不像業(yè)務數(shù)據(jù)庫那樣反映業(yè)務處理的實際狀況,但是數(shù)據(jù)也不能長期不變,如果依據(jù)10年前的數(shù)據(jù)進行決策分析,那決策所帶來的后果將是十分可怕的。因此,數(shù)據(jù)倉庫必須能夠不斷捕捉主題的變化數(shù)據(jù),將那些變化的數(shù)據(jù)追加到數(shù)據(jù)倉庫中去,也就是說在數(shù)據(jù)倉庫中必須不斷的生成主題的新快照,以滿足決策分析的需要。數(shù)據(jù)
5、新快照生成的間隔,可以根據(jù)快照的生成速度和決策分析的需要而定。例如,如果分析企業(yè)近幾年的銷售情況,那快照 可以每隔一個月生成一次;如果分析一個月的暢銷產(chǎn)品,那快照生成間隔就需要每天一次。1.2.4 non-volatile 數(shù)據(jù)的非易失性數(shù)據(jù)倉庫的非易失性是指數(shù)據(jù)倉庫的數(shù)據(jù)不進行更新處理,而是一旦數(shù)據(jù)進入數(shù)據(jù)倉庫以后,就會保持一個相當長的時間。因為數(shù)據(jù)倉庫中數(shù)據(jù)大多表示過去某一時刻的數(shù)據(jù),主要用于查詢、分析,不像業(yè)務系統(tǒng)中的數(shù)據(jù)庫那樣,要經(jīng)常進行修改、添加,除非數(shù)據(jù)倉庫中的數(shù)據(jù)是錯誤的。1.3 in support of management decisions 支持決策系統(tǒng)數(shù)據(jù)倉庫的組織的根
6、本目的在于對決策的支持。高層的企業(yè)決策者、中層的管理者和基層的業(yè)務處理者等不同層次的管理人員均可以利用數(shù)據(jù)倉庫進行決策分析,提高管理決策的質量。企業(yè)管理人員可以利用數(shù)據(jù)倉庫進行各種管理決策的分析,利用自己所特有的、敏銳的商業(yè)洞察力和業(yè)務知識從貌似平淡的數(shù)據(jù)發(fā)現(xiàn)眾多的商機。數(shù)據(jù)倉庫為管理者利用數(shù)據(jù)進行管理決策分析提供了極大的便利。1.4 數(shù)據(jù)倉庫與傳統(tǒng)數(shù)據(jù)庫的比較對比內容數(shù)據(jù)庫數(shù)據(jù)倉庫數(shù)據(jù)內容當前值歷史的、存檔的、歸納的、計算的數(shù)據(jù)數(shù)據(jù)目標面向業(yè)務操作程序、重復處理面向主體域、管理決策分析應用數(shù)據(jù)特性動態(tài)變化、按字段更新靜態(tài)、不能直接更新、只是定時添加數(shù)據(jù)結構高度結構化、復雜、市和操作計算簡單、
7、適合分析使用頻率高中到低數(shù)據(jù)訪問量每個事務只訪問少量記錄有的事務可能要訪問大量記錄對相應時間的要求以秒為單位計量以秒、分鐘、甚至小時為計量單位2. 數(shù)據(jù)倉庫體系結構3. 數(shù)據(jù)模型3.1 元數(shù)據(jù)(Metadata)元數(shù)據(jù)描述了數(shù)據(jù)的結構、內容、鍵、索引等項內容。在數(shù)據(jù)倉庫中,元數(shù)據(jù)定義了數(shù)據(jù)倉庫中的許多對象表、列、查詢、商業(yè)規(guī)則或是數(shù)據(jù)倉庫內部的數(shù)據(jù)轉移。元數(shù)據(jù)是數(shù)據(jù)倉庫的重要構件,是數(shù)據(jù)倉庫的指示圖(roadmap)。 對于元數(shù)據(jù)(Metadata)的定義,這個概念非常廣,一般都是這樣定義,“元數(shù)據(jù)是描述數(shù)據(jù)的數(shù)據(jù)(Data about Data)”,這造成一種遞歸定義,就像問小強住在哪里,答
8、,在旺財隔壁。按照這樣的定義,元數(shù)據(jù)所描述的數(shù)據(jù)是什么呢?還是元數(shù)據(jù)。這樣就可能有元元元.元數(shù)據(jù)。3.1.1 元數(shù)據(jù)類型數(shù)據(jù)源的元數(shù)據(jù)數(shù)據(jù)模型的元數(shù)據(jù)數(shù)據(jù)源與數(shù)據(jù)倉庫映射的元數(shù)據(jù)數(shù)據(jù)倉庫應用的元數(shù)據(jù)3.1.2 元數(shù)據(jù)重要性為數(shù)據(jù)倉庫服務與DSS分析員及高層決策人員服務提供便利 解決操作型環(huán)境和數(shù)據(jù)倉庫的復雜關系 數(shù)據(jù)倉庫中數(shù)據(jù)的管理 3.1.3 元數(shù)據(jù)在數(shù)據(jù)倉庫開發(fā)期間的使用確認數(shù)據(jù)質量 、同步化和刷新 、映射3.1.4 元數(shù)據(jù)在數(shù)據(jù)源抽取中的作用資源領域的確定 、跟蹤歷史數(shù)據(jù)結構變化的過程 、屬性到屬性的映射 、屬性轉換 3.1.5 元數(shù)據(jù)在數(shù)據(jù)求精與重構工程上的作用數(shù)據(jù)的分割 、概括與聚集
9、 、預算與推導 、轉換與再映像 3.1.6 舉例:校訊通2.0統(tǒng)計分析元數(shù)據(jù)-元數(shù)據(jù):列CREATE TABLE DW_COLUMN( COLUMN_ID VARCHAR2(64) PRIMARY KEY, -列ID OWNER VARCHAR2(30) NOT NULL, -用戶名 TABLE_NAME VARCHAR2(30) NOT NULL, -表名 COLUMN_NAME VARCHAR2(30) NOT NULL,-列名 DISPLAY_NAME VARCHAR2(30),-列顯示名 COLUMN_TYPE NUMBER(1),-1.事實字段:2.維度字段 3.虛擬字段 STATE
10、 NUMBER(1), -無效:0;有效:1 -DISPLAY_STATE NUMBER(1), -不顯示:0;顯示:1 ORDER_NUM NUMBER(2), -排序: FK_COLUMN_ID VARCHAR2(64) 外鍵列ID);3.2 星型模型星型模型是最常用的數(shù)據(jù)倉庫設計結構的實現(xiàn)模式。使數(shù)據(jù)倉庫形成了一個集成系統(tǒng),為用戶提供分析服務對象。 3.2.1 事實表核心是事實表,圍繞事實表的是維度表。通過事實表將各種不同的維度表連接起來,各個維度表都連接到中央事實表。事實表中一般包含兩部分,一是由主鍵和外鍵所組成的鍵部分,另一是用戶希望在數(shù)據(jù)倉庫中所了解的數(shù)值指標。派生事實主要有兩種,
11、一是可以用同一事實表中其他事實計算得到,還有一類派生事實是非加法性事實。3.2.2 維度表維度:是人們觀察數(shù)據(jù)的特定角度,是考慮問題時的一類屬性,屬性集合構成一個維(時間維、地理維等)。維的層次:人們觀察數(shù)據(jù)的某個特定角度(即某個維)還可以存在細節(jié)程度不同的各個描述方面(時間維:日期、月份、季度、年)。維的成員:維的一個取值。是數(shù)據(jù)項在某維中位置的描述。(“某年某月某日”是在時間維上位置的描述)時間維度表(年Date,月Date,日Date)。地點維度表(省Character20,市Character20,縣Character20,街道Character20)。3.2.3 多維數(shù)據(jù)模型多維數(shù)據(jù)
12、模型:是決策分析的支柱,OLAP的核心,有時也稱立方體或者超立方。OLAP展現(xiàn)在用戶面前的是一幅幅多維視圖。多維數(shù)據(jù)集可以用一個多維數(shù)組來表示。3.2.4 舉例:校訊通2.0訂購用戶月統(tǒng)計星型模型3.3 雪花模型雪花模型是對星型模型的擴展,每一個維度都可以向外連接到多個詳細類別表。 雪花模型對星型模型的維度表進一步標準化,對星型模型中的維度表進行了規(guī)范化處理。 3.4 粒度粒度可定義成數(shù)據(jù)倉庫中數(shù)據(jù)細節(jié)的最低層次,如事務層次。這種數(shù)據(jù)層次是高度細節(jié)化的,這樣就能使用戶按所需的任何層次進行匯總。根據(jù)粒度的劃分標準可以將數(shù)據(jù)劃分為:詳細數(shù)據(jù)、輕度總結、高度總結三級或更多級粒度。粒度的具體劃分將直接
13、影響到數(shù)據(jù)倉庫中的數(shù)據(jù)量以及查詢質量。在校訊通2.0統(tǒng)計分析,設計上采用兩層粒度:細粒度:訂購用戶明細表輕度匯總粒度:訂購用戶月度匯總表,按班級匯總,所以說是輕度匯總。4. 數(shù)據(jù)的ETL:抽取、轉換、加載4.1 抽取4.2 轉換4.3 加載說明:數(shù)據(jù)的ETL,我們做的不好,還沒有實現(xiàn)公共組件級的抽取、轉換、加載模塊,只是實現(xiàn)了簡單的任務調度,和一些公用的抽取類和載入接口。在做ETL開發(fā)時,剩下的工作還是需要手工完成,主要是寫一些抽取和載入的sql語句。真正的ETL工具,是在元數(shù)據(jù)的基礎,定義數(shù)據(jù)抽取的規(guī)則,數(shù)據(jù)清理的方式,和載入的方式。啟動任務,由系統(tǒng)自動實現(xiàn)整個過程。5. 數(shù)據(jù)展現(xiàn)5.1 表
14、格例如:統(tǒng)計2010年9月武漢市各行政區(qū)某欄目業(yè)務訂購情況。日期地市區(qū)縣學生總數(shù)訂購數(shù)取消數(shù)合計10005001002010-09武漢市洪山區(qū)600300602010-09武漢市武昌區(qū)40020040表中,藍色字段代表維度,綠色字段代表事實字段。5.2 圖形將數(shù)據(jù)以直觀圖像的方式展示出來,主要有:柱狀圖、餅圖、線性圖等。6. OLAP數(shù)據(jù)倉庫是管理決策分析的基礎,要有效地利用數(shù)據(jù)倉庫的信息資源,必須要有強大的工具對數(shù)據(jù)倉庫的信息進行分析決策。On-line Analytical Processing(在線分析處理或聯(lián)機分析處理)就是一個應用廣泛的數(shù)據(jù)倉庫使用技術。它可以根據(jù)分析人員的要求,迅速
15、靈活地對當量的數(shù)據(jù)進行復雜的查詢處理,并以直觀的容易理解的形式將查詢結果提供給各種決策人員,使他們能夠迅速準確地掌握企業(yè)的運營情況,了解市場的需求。60年代,關系數(shù)據(jù)庫之父提出了關系模型,促進了聯(lián)機事務處理(OLTP)的發(fā)展(數(shù)據(jù)以表格的形式而非文件方式存儲)。1993年,提出了OLAP概念,認為OLTP已不能滿足終端用戶對數(shù)據(jù)庫查詢分析的需要,SQL對大型數(shù)據(jù)庫進行的簡單查詢也不能滿足終端用戶分析的要求。用戶的決策分析需要對關系數(shù)據(jù)庫進行大量計算才能得到結果,而查詢的結果并不能滿足決策者提出的需求。因此,提出了多維數(shù)據(jù)庫和多維分析的概念,即OLAP。OLTP數(shù)據(jù)OLAP數(shù)據(jù)原始數(shù)據(jù)導出數(shù)據(jù)細
16、節(jié)性數(shù)據(jù)綜合性和提煉性數(shù)據(jù)當前值數(shù)據(jù)歷史數(shù)據(jù)可更新不可更新,但周期性刷新一次處理的數(shù)據(jù)量小一次處理的數(shù)據(jù)量大面向應用,事務驅動面向分析,分析驅動面向操作人員,支持日常操作面向決策人員,支持管理需要6.1 定義定義1:OLAP(聯(lián)機分析處理)是針對特定問題的聯(lián)機數(shù)據(jù)訪問和分析。通過對信息(維數(shù)據(jù))的多種可能的觀察形式進行快速、穩(wěn)定一致和交互性的存取,允許管理決策人員對數(shù)據(jù)進行深入觀察。定義2:OLAP(聯(lián)機分析處理)是使分析人員、管理人員或執(zhí)行人員能夠從多種角度對從原始數(shù)據(jù)中轉化出來的、能夠真正為用戶所理解的、并真實反映企業(yè)維特性的信息進行快速、一致、交互地存取,從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術。(OLAP委員會的定義)OLAP的目標是滿足決策支持或多維環(huán)境特定的查詢和報表需求,它的技術核心是“維”這個概念,因此OLAP也可以說是多維數(shù)據(jù)分析工具的集合。6.2 特性1.快速性:用戶對OLAP的快速反應能力有很高的要求。2.可分析性:OLAP系統(tǒng)應能處理與應用有關的邏輯與統(tǒng)計分析。3.多維性:多維性是OLAP的關鍵屬性。系統(tǒng)能夠提供對數(shù)據(jù)分析的多維視圖和多維分析。4.信息型:不論數(shù)據(jù)量有多大,也不管數(shù)據(jù)存儲在何處,OLAP系統(tǒng)應能及時獲得信息,并且管
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年智能交通系統(tǒng)開發(fā)考試試卷及答案
- 2025年美術教育師職業(yè)資格考試試卷及答案
- 貨車司機職業(yè)健康管理協(xié)議
- 環(huán)保設備檢測員技術服務合同
- 電影節(jié)參展作品宣傳推廣合作協(xié)議
- 網(wǎng)絡安全風險評估報告補充協(xié)議
- 低空經(jīng)濟飛行調度員航空器運行調度與管理協(xié)議
- 高質量半導體無塵車間氣流組織施工與安全保障協(xié)議
- 《慢性腎炎和腎功能障礙》課件
- 影視改編小說優(yōu)先補充協(xié)議
- (三模)遵義市2025屆高三年級第三次適應性考試英語試卷(含答案)
- (三模)豫西北教研聯(lián)盟 (平許洛濟)2024-2025學年高三第三次質量檢測生物試卷(含答案)
- 護士助教面試題及答案
- 《分布式存儲技術》課件
- 《思想道德與法治》課件-第三章 繼承優(yōu)良傳統(tǒng) 弘揚中國精神
- NB/T 11646-2024井工煤礦采空區(qū)自然發(fā)火監(jiān)測預警技術規(guī)范
- 2025年勞動與社會保障專業(yè)考核試卷及答案
- 《危險化學品企業(yè)安全生產(chǎn)標準化規(guī)范》專業(yè)深度解讀與應用培訓指導材料之1:1范圍+3術語和定義(雷澤佳編制-2025A0)
- 2024年河南航空港投資集團有限公司招聘真題
- 病案科崗前培訓課件
- 武漢市2025年高三語文四調10篇高分作文范文:去過與感動過
評論
0/150
提交評論