數(shù)據(jù)倉庫理論學習筆記_第1頁
數(shù)據(jù)倉庫理論學習筆記_第2頁
數(shù)據(jù)倉庫理論學習筆記_第3頁
數(shù)據(jù)倉庫理論學習筆記_第4頁
數(shù)據(jù)倉庫理論學習筆記_第5頁
已閱讀5頁,還剩54頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數(shù)據(jù)倉庫理論學習筆記2024/3/11數(shù)據(jù)倉庫理論學習筆記數(shù)據(jù)庫處理的兩大應用聯(lián)機事務處理(OLTP)決策支持系統(tǒng)(DSS)數(shù)據(jù)倉庫理論學習筆記數(shù)據(jù)庫處理的兩大應用聯(lián)機事務處理(OLTP)操作型處理,為企業(yè)的特定應用服務是對數(shù)據(jù)庫的聯(lián)機的日常操作,通常是對一個或一組記錄的查詢和修改人們關心的是響應時間、數(shù)據(jù)的安全性和完整性決策支持系統(tǒng)(DSS)數(shù)據(jù)倉庫理論學習筆記數(shù)據(jù)倉庫的特點面向主題集成的數(shù)據(jù)倉庫的數(shù)據(jù)是從原有的分散數(shù)據(jù)庫數(shù)據(jù)中抽取來的消除數(shù)據(jù)表述的不一致性(數(shù)據(jù)的清洗)數(shù)據(jù)的綜合數(shù)據(jù)不可更改隨時間變化的數(shù)據(jù)倉庫理論學習筆記數(shù)據(jù)倉庫的特點——集成數(shù)據(jù)倉庫理論學習筆記數(shù)據(jù)倉庫的特點面向主題集成的數(shù)據(jù)不可更改數(shù)據(jù)倉庫的主要數(shù)據(jù)操作是查詢、分析不進行一般意義上的數(shù)據(jù)更新(過期數(shù)據(jù)可能被刪除)數(shù)據(jù)倉庫強化查詢、淡化并發(fā)控制和完整性保護等技術隨時間變化的數(shù)據(jù)倉庫理論學習筆記數(shù)據(jù)倉庫的特點——數(shù)據(jù)不可更改數(shù)據(jù)倉庫理論學習筆記數(shù)據(jù)倉庫的特點面向主題集成的數(shù)據(jù)不可更改隨時間變化的不斷增加新的數(shù)據(jù)內容不斷刪除舊的數(shù)據(jù)內容定時綜合數(shù)據(jù)倉庫中數(shù)據(jù)表的鍵碼都包含時間項,以標明數(shù)據(jù)的歷史時期數(shù)據(jù)倉庫理論學習筆記數(shù)據(jù)倉庫的特點——隨時間變化數(shù)據(jù)倉庫理論學習筆記數(shù)據(jù)倉庫的結構OLTP系統(tǒng)RDBMSSybaseVSAMSAP/ERP5-10年過去詳細數(shù)據(jù)當前詳細數(shù)據(jù)輕度匯總數(shù)據(jù)高度匯總數(shù)據(jù)數(shù)據(jù)集市分析型CRM業(yè)務指標分析數(shù)據(jù)倉庫數(shù)據(jù)倉庫/決策分析系統(tǒng)EXCEL數(shù)據(jù)倉庫理論學習筆記數(shù)據(jù)倉庫的結構數(shù)據(jù)由操作型環(huán)境(綜合)導入數(shù)據(jù)倉庫數(shù)據(jù)具有不同的細節(jié)級早期細節(jié)級(過期數(shù)據(jù))當前細節(jié)級輕度綜合數(shù)據(jù)級(數(shù)據(jù)集市)高度綜合數(shù)據(jù)級數(shù)據(jù)倉庫理論學習筆記數(shù)據(jù)倉庫建立的過程數(shù)據(jù)倉庫理論學習筆記粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細化或綜合程度的級別粒度級越小,細節(jié)程度越高,綜合程度越低,回答查詢的種類越多粒度影響數(shù)據(jù)倉庫中數(shù)據(jù)量的大小粒度問題是設計數(shù)據(jù)倉庫的一個重要方面雙重粒度在數(shù)據(jù)倉庫的細節(jié)級上創(chuàng)建兩種粒度短期儲存的低粒度(真實檔案),滿足細節(jié)查詢具有綜合的高粒度(輕度綜合),做分析數(shù)據(jù)倉庫理論學習筆記數(shù)據(jù)倉庫理論學習筆記數(shù)據(jù)倉庫理論學習筆記分割是指把數(shù)據(jù)分散到各自的物理單元中去,以便能分別獨立處理,提高數(shù)據(jù)處理效率是粒度之后的第二個主要設計問題兩個層次的分割系統(tǒng)層:DBMS,一種定義應用層:開發(fā)者,多種定義多種分割的標準日期:最常用的地理位置組織單位…...數(shù)據(jù)倉庫理論學習筆記數(shù)據(jù)倉庫理論學習筆記數(shù)據(jù)倉庫中的數(shù)據(jù)組織形式簡單堆積輪轉綜合數(shù)據(jù)按一定的格式進行輪轉的累加簡化直接按一定的時間間隔,對數(shù)據(jù)進行提取,是操作型數(shù)據(jù)的一個快照連續(xù)把新的快照追加到以前的連續(xù)數(shù)據(jù)上去數(shù)據(jù)倉庫理論學習筆記數(shù)據(jù)倉庫中的數(shù)據(jù)組織形式簡單堆積每日由數(shù)據(jù)庫中提取并加工的數(shù)據(jù)逐天積累堆積數(shù)據(jù)倉庫理論學習筆記數(shù)據(jù)倉庫中的數(shù)據(jù)組織形式輪轉綜合數(shù)據(jù)按一定的格式進行輪轉的累加數(shù)據(jù)倉庫理論學習筆記數(shù)據(jù)倉庫中的數(shù)據(jù)組織形式簡單堆積與輪轉綜合的比較數(shù)據(jù)倉庫理論學習筆記數(shù)據(jù)倉庫中的數(shù)據(jù)組織形式簡化直接按一定的時間間隔,對數(shù)據(jù)進行提取,是操作型數(shù)據(jù)的一個快照數(shù)據(jù)倉庫理論學習筆記數(shù)據(jù)倉庫中的數(shù)據(jù)組織形式連續(xù)把新的快照追加到以前的連續(xù)數(shù)據(jù)上去數(shù)據(jù)倉庫理論學習筆記數(shù)據(jù)倉庫的數(shù)據(jù)追加數(shù)據(jù)追加數(shù)據(jù)倉庫的數(shù)據(jù)初裝完成以后,再向數(shù)據(jù)倉庫輸入數(shù)據(jù)的過程稱為數(shù)據(jù)追加變化數(shù)據(jù)的捕獲時標法:加標識DELTA法:對更新作記錄前后映象法:兩次快照的對比日志法:利用DBMS的日志,需改進數(shù)據(jù)倉庫理論學習筆記數(shù)據(jù)庫的體系化環(huán)境是在一個企業(yè)或組織內部,由各面向應用的OLTP數(shù)據(jù)庫及各級面向主題的數(shù)據(jù)倉庫所組成的完整的數(shù)據(jù)環(huán)境操作型環(huán)境、分析型環(huán)境四層體系化環(huán)境操作型環(huán)境——OLTP全局級——數(shù)據(jù)倉庫部門級——局部倉庫個人級——個人倉庫,用于啟發(fā)式的分析數(shù)據(jù)集市(DataMart)特定的、面向部門的小型數(shù)據(jù)倉庫是為滿足用戶特定需求而創(chuàng)建的數(shù)據(jù)倉庫是數(shù)據(jù)倉庫的子集數(shù)據(jù)倉庫理論學習筆記數(shù)據(jù)庫的體系化環(huán)境數(shù)據(jù)倉庫理論學習筆記數(shù)據(jù)庫的體系化環(huán)境數(shù)據(jù)倉庫理論學習筆記數(shù)據(jù)倉庫的開發(fā)生命周期數(shù)據(jù)倉庫理論學習筆記數(shù)據(jù)倉庫的基本數(shù)據(jù)模式星型模式(StarSchema)事實表(facttable),存放基本數(shù)據(jù),相關主題的數(shù)據(jù)主體(BCNF)維(dimension),影響、分析主體數(shù)據(jù)的因素量(measure),事實表中的數(shù)據(jù)屬性維表(dimensiontable),表示維的各種表維是量的取值條件,維用外鍵表示以事實表為中心,加上若干維表,組成星型數(shù)據(jù)模式例:產品-商店-銷售額數(shù)據(jù)倉庫理論學習筆記數(shù)據(jù)倉庫的基本數(shù)據(jù)模式CustSalesLocationSalesProdSalesTimeSalesSalestimeid<pk,fk>productid<pk,fk>locationid<pk,fk>customerid<pk,fk>salesrevenueunitssoldProductproductid<pk>makemodelTimetimeid<pk>dateyearquartermonthweekLocationlocationid<pk>regiondistrictstoreCustomercustomerid<pk>categorygroupSalesfactSalesmeasuresTimedimensionAttributesofthe

timedimension數(shù)據(jù)倉庫理論學習筆記數(shù)據(jù)倉庫的基本數(shù)據(jù)模式雪花模式(SnowflakeSchema)維一般是由若干層次組成把維按其層次結構表示成若干個表規(guī)范化、節(jié)省存儲空間但需多做連接操作數(shù)據(jù)倉庫理論學習筆記數(shù)據(jù)倉庫的解決方案通用的關系數(shù)據(jù)庫系統(tǒng)專門的數(shù)據(jù)倉庫服務器數(shù)據(jù)倉庫理論學習筆記數(shù)據(jù)倉庫系統(tǒng)的體系結構數(shù)據(jù)倉庫層數(shù)據(jù)倉庫工具層最終用戶數(shù)據(jù)倉庫理論學習筆記數(shù)據(jù)倉庫系統(tǒng)數(shù)據(jù)倉庫居系統(tǒng)的核心地位是信息挖掘的基礎數(shù)據(jù)倉庫管理系統(tǒng)是整個系統(tǒng)的引擎負責管理整個系統(tǒng)的運轉數(shù)據(jù)倉庫工具一般的查詢工具、功能強大的分析工具是整個系統(tǒng)發(fā)揮作用的關鍵數(shù)據(jù)倉庫理論學習筆記數(shù)據(jù)倉庫系統(tǒng)一個集成化的產品集數(shù)據(jù)倉庫理論學習筆記數(shù)據(jù)倉庫系統(tǒng)DesignWarehouseArchitectManageSybaseASIQIntegrateInformaticaEnterpriseConnectReplicationServerPowerMartVisualizeBrioCognosAdministerWarehouseControlCenterWarehouseControlCentre數(shù)據(jù)倉庫理論學習筆記數(shù)據(jù)分析模型早期靜態(tài)數(shù)據(jù)值的相互比較需求從多個不同的數(shù)據(jù)源中綜合數(shù)據(jù)從不同的角度觀察數(shù)據(jù)多變的主題、多維數(shù)據(jù)E-R不能完全支持數(shù)據(jù)倉庫理論學習筆記四種分析模型(Codd)絕對模型靜態(tài)數(shù)據(jù)分析只能對歷史數(shù)據(jù)進行值的比較,描述基本事實用戶交互少解釋模型思考模型公式模型數(shù)據(jù)倉庫理論學習筆記四種分析模型(Codd)絕對模型解釋模型靜態(tài)數(shù)據(jù)分析在當前多維視圖的基礎上找出事件發(fā)生的原因思考模型公式模型數(shù)據(jù)倉庫理論學習筆記四種分析模型(Codd)絕對模型解釋模型思考模型動態(tài)數(shù)據(jù)分析多維分析在決策者的參與下,找出關鍵變量需要高級數(shù)據(jù)分析人員的介入公式模型數(shù)據(jù)倉庫理論學習筆記四種分析模型(Codd)絕對模型解釋模型思考模型公式模型動態(tài)性最高的一類自動完成變量的引入工作數(shù)據(jù)倉庫理論學習筆記數(shù)據(jù)倉庫系統(tǒng)的工具層查詢工具主要是對分析結果的查詢很少有對記錄級數(shù)據(jù)的查詢驗證型工具多維分析工具用戶首先提出假設,然后利用各種工具通過反復、遞歸的檢索查詢以驗證或否定假設發(fā)掘型工具從大量數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)模式預測趨勢和行為數(shù)據(jù)倉庫理論學習筆記聯(lián)機分析處理——OLAP是針對特定問題的聯(lián)機訪問和分析。通過對信息的很多種可能的觀察形式進行快速、穩(wěn)定一致和交互性的存取,允許分析人員對數(shù)據(jù)進行深入觀察數(shù)據(jù)倉庫理論學習筆記一些概念變量是數(shù)據(jù)的實際意義,描述數(shù)據(jù)是什么維是人們觀察數(shù)據(jù)的特定角度維的層次是維在不同細節(jié)程度的描述維成員是維的一個取值多層次維的維成員是各層次取值的組合對應一個數(shù)據(jù)項,維成員是該數(shù)據(jù)項在該維中位置的描述多維數(shù)組可以表示為(維1,維2,……,變量),如(地區(qū),時間,銷售渠道,銷售額)多維數(shù)組的取值稱為數(shù)據(jù)單元(單元格)可以理解為交叉表的數(shù)據(jù)格數(shù)據(jù)倉庫理論學習筆記一些基本操作在多維數(shù)組的某一維選定一個維成員的動作稱為切片。舍棄一些觀察角度在多維數(shù)組的某一維上選定某一區(qū)間的維成員切塊多個切片的疊加旋轉是改變一個報告或頁面顯示的維方向以用戶容易理解的角度來觀察數(shù)據(jù)數(shù)據(jù)倉庫理論學習筆記基于多維數(shù)據(jù)庫的OLAP——MOLAP以多維方式組織數(shù)據(jù)(綜合數(shù)據(jù))以多維方式顯示(觀察)數(shù)據(jù)多維數(shù)據(jù)庫的形式類似于交叉表,可直觀地表述一對多、多對多的關系如:產品、地區(qū)、銷售額關系多維多維數(shù)據(jù)庫由許多經(jīng)壓縮的、類似于數(shù)組的對象構成,帶有高度壓縮的索引及指針結構以關系數(shù)據(jù)庫存放細節(jié)數(shù)據(jù)、以多維數(shù)據(jù)庫存放綜合數(shù)據(jù)數(shù)據(jù)倉庫理論學習筆記基于關系數(shù)據(jù)庫的OLAP——ROLAP以二維表與多維聯(lián)系來表達多維數(shù)據(jù)(綜合數(shù)據(jù))星型結構事實表,存儲事實的量及各維的碼值(BCNF)維表,對每一個維,至少有一個表用來保存該維的元數(shù)據(jù)(多層次、冗余)事實表通過外鍵與每個維表相聯(lián)系雪花、星座、雪暴模擬多維方式顯示(觀察)數(shù)據(jù)數(shù)據(jù)倉庫理論學習筆記MOLAP與ROLAPMOLAP計算速度較快支持的數(shù)據(jù)容量較小缺乏細節(jié)數(shù)據(jù)的OLAPROLAP結構較復雜以關系模擬多維支持適當細節(jié)的OLAP較成熟HOLAP是以上兩種的綜合數(shù)據(jù)倉庫理論學習筆記桌面級工具BrioQuery(ROLAP)BusinessObjects(ROLAP)CognosImpromptu(ROLAP)CognosPowerPlay(MOLAP)服務器級OLAPArborSoftwareEssbase(MOLAP)MicroStrategyDSSAgent(ROLAP)Oracle’sExpress(hybridMOLAP/ROLAP)數(shù)據(jù)倉庫理論學習筆記SQL3對聚集的擴展(在GroupBy中擴展)SP(S#,P#,QTY)S# P# QTYS1 P1 300S1 P2 200S2 P1 300S2 P2 400S3 P2 200S4 P2 200Select sum(QTY)asTOTQTYFrom SP;Select S#,Sum(QTY)asTOTQTYFrom SPGroupByS#;…...數(shù)據(jù)倉庫理論學習筆記SQL3對聚集的擴展(在GroupBy中擴展)GroupingSets:支持多個分組同時運算SelectS#,P#,SUN(QTY)asTOTQTYFromSPGroupByGroupingSets((S#),(P#))S# P# TOTQTYS1 Null 500S2 Null 700S3 Null 200S4 Null 200Null P1 600Null P2 1000數(shù)據(jù)倉庫理論學習筆記SQL3對聚集的擴展(在GroupBy中擴展)Rollup:上卷SelectS#,P#,SUN(QTY)asTOTQTYFromSPGroupByRollup(S#,P#)等同于GroupByGroupingSets((S#,P#),(S#),())S# P# TOTQTYS1 P1 300S1 P2 200S2 P1 300S2 P2 400S3 P2 200S4 P2 200S1 Null 500S2 Null 700S3 Null 200S4 Null 200Null Null 1600數(shù)據(jù)倉庫理論學習筆記SQL3對聚集的擴展(在GroupBy中擴展)Cube:立方體(交叉表)SelectS#,P#, SUN(QTY)asTOTQTYFromSPGroupByCube(S#,P#)等同于GroupByGroupingSets((S#,P#),(S#),(P#),())S# P# TOTQTYS1 P1 300S1 P2 200S2 P1 300S2 P2 400S3 P2 200S4 P2 200S1 Null 500S2 Null 700S3 Null 200S4 Null 200Null P1 600Null P2 1000Null Null 1600數(shù)據(jù)倉庫理論學習筆記數(shù)據(jù)挖掘(DataM

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論