




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第六講數(shù)據(jù)倉庫第一頁,共五十六頁,編輯于2023年,星期五數(shù)據(jù)庫處理的兩大應(yīng)用聯(lián)機事務(wù)處理(OLTP)決策支持系統(tǒng)(DSS)第二頁,共五十六頁,編輯于2023年,星期五數(shù)據(jù)庫處理的兩大應(yīng)用聯(lián)機事務(wù)處理(OLTP)操作型處理,為企業(yè)的特定應(yīng)用服務(wù)是對數(shù)據(jù)庫的聯(lián)機的日常操作,通常是對一個或一組記錄的查詢和修改人們關(guān)心的是響應(yīng)時間、數(shù)據(jù)的安全性和完整性決策支持系統(tǒng)(DSS)第三頁,共五十六頁,編輯于2023年,星期五數(shù)據(jù)庫處理的兩大應(yīng)用聯(lián)機事務(wù)處理(OLTP)決策支持系統(tǒng)(DSS)分析型處理,用于管理人員的決策分析經(jīng)常需要訪問大量的歷史數(shù)據(jù)數(shù)據(jù)倉庫+聯(lián)機分析處理+數(shù)據(jù)挖掘(DW+OLAP+DM)→DSS第四頁,共五十六頁,編輯于2023年,星期五數(shù)據(jù)倉庫是一個面向主題的、集成的、非易失的(不可修改)且隨時間變化的數(shù)據(jù)集合,用來支持管理人員的決策第五頁,共五十六頁,編輯于2023年,星期五數(shù)據(jù)倉庫的特點面向主題主題是在較高層次上對數(shù)據(jù)抽象面向主題的數(shù)據(jù)組織分為兩步驟抽取主題確定每個主題所包含的數(shù)據(jù)內(nèi)容每個主題在數(shù)據(jù)倉庫中都是由一組關(guān)系表實現(xiàn)的集成的數(shù)據(jù)不可更改隨時間變化的第六頁,共五十六頁,編輯于2023年,星期五數(shù)據(jù)倉庫的特點——面向主題第七頁,共五十六頁,編輯于2023年,星期五數(shù)據(jù)倉庫的特點面向主題集成的數(shù)據(jù)倉庫的數(shù)據(jù)是從原有的分散數(shù)據(jù)庫數(shù)據(jù)中抽取來的消除數(shù)據(jù)表述的不一致性(數(shù)據(jù)的清洗)數(shù)據(jù)的綜合數(shù)據(jù)不可更改隨時間變化的第八頁,共五十六頁,編輯于2023年,星期五數(shù)據(jù)倉庫的特點——集成第九頁,共五十六頁,編輯于2023年,星期五數(shù)據(jù)倉庫的特點面向主題集成的數(shù)據(jù)不可更改數(shù)據(jù)倉庫的主要數(shù)據(jù)操作是查詢、分析不進行一般意義上的數(shù)據(jù)更新(過期數(shù)據(jù)可能被刪除)數(shù)據(jù)倉庫強化查詢、淡化并發(fā)控制和完整性保護等技術(shù)隨時間變化的第十頁,共五十六頁,編輯于2023年,星期五數(shù)據(jù)倉庫的特點——數(shù)據(jù)不可更改第十一頁,共五十六頁,編輯于2023年,星期五數(shù)據(jù)倉庫的特點面向主題集成的數(shù)據(jù)不可更改隨時間變化的不斷增加新的數(shù)據(jù)內(nèi)容不斷刪除舊的數(shù)據(jù)內(nèi)容定時綜合數(shù)據(jù)倉庫中數(shù)據(jù)表的鍵碼都包含時間項,以標明數(shù)據(jù)的歷史時期第十二頁,共五十六頁,編輯于2023年,星期五數(shù)據(jù)倉庫的特點——隨時間變化第十三頁,共五十六頁,編輯于2023年,星期五數(shù)據(jù)倉庫的結(jié)構(gòu)OLTP系統(tǒng)RDBMSSybaseVSAMSAP/ERP5-10年過去詳細數(shù)據(jù)當(dāng)前詳細數(shù)據(jù)輕度匯總數(shù)據(jù)高度匯總數(shù)據(jù)數(shù)據(jù)集市分析型CRM業(yè)務(wù)指標分析數(shù)據(jù)倉庫數(shù)據(jù)倉庫/決策分析系統(tǒng)EXCEL第十四頁,共五十六頁,編輯于2023年,星期五數(shù)據(jù)倉庫的結(jié)構(gòu)數(shù)據(jù)由操作型環(huán)境(綜合)導(dǎo)入數(shù)據(jù)倉庫數(shù)據(jù)具有不同的細節(jié)級早期細節(jié)級(過期數(shù)據(jù))當(dāng)前細節(jié)級輕度綜合數(shù)據(jù)級(數(shù)據(jù)集市)高度綜合數(shù)據(jù)級第十五頁,共五十六頁,編輯于2023年,星期五數(shù)據(jù)倉庫建立的過程第十六頁,共五十六頁,編輯于2023年,星期五粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細化或綜合程度的級別粒度級越小,細節(jié)程度越高,綜合程度越低,回答查詢的種類越多粒度影響數(shù)據(jù)倉庫中數(shù)據(jù)量的大小粒度問題是設(shè)計數(shù)據(jù)倉庫的一個重要方面雙重粒度在數(shù)據(jù)倉庫的細節(jié)級上創(chuàng)建兩種粒度短期儲存的低粒度(真實檔案),滿足細節(jié)查詢具有綜合的高粒度(輕度綜合),做分析第十七頁,共五十六頁,編輯于2023年,星期五第十八頁,共五十六頁,編輯于2023年,星期五第十九頁,共五十六頁,編輯于2023年,星期五分割是指把數(shù)據(jù)分散到各自的物理單元中去,以便能分別獨立處理,提高數(shù)據(jù)處理效率是粒度之后的第二個主要設(shè)計問題兩個層次的分割系統(tǒng)層:DBMS,一種定義應(yīng)用層:開發(fā)者,多種定義多種分割的標準日期:最常用的地理位置組織單位…...第二十頁,共五十六頁,編輯于2023年,星期五第二十一頁,共五十六頁,編輯于2023年,星期五數(shù)據(jù)倉庫中的數(shù)據(jù)組織形式簡單堆積輪轉(zhuǎn)綜合數(shù)據(jù)按一定的格式進行輪轉(zhuǎn)的累加簡化直接按一定的時間間隔,對數(shù)據(jù)進行提取,是操作型數(shù)據(jù)的一個快照連續(xù)把新的快照追加到以前的連續(xù)數(shù)據(jù)上去第二十二頁,共五十六頁,編輯于2023年,星期五數(shù)據(jù)倉庫中的數(shù)據(jù)組織形式簡單堆積每日由數(shù)據(jù)庫中提取并加工的數(shù)據(jù)逐天積累堆積第二十三頁,共五十六頁,編輯于2023年,星期五數(shù)據(jù)倉庫中的數(shù)據(jù)組織形式輪轉(zhuǎn)綜合數(shù)據(jù)按一定的格式進行輪轉(zhuǎn)的累加第二十四頁,共五十六頁,編輯于2023年,星期五數(shù)據(jù)倉庫中的數(shù)據(jù)組織形式簡單堆積與輪轉(zhuǎn)綜合的比較第二十五頁,共五十六頁,編輯于2023年,星期五數(shù)據(jù)倉庫中的數(shù)據(jù)組織形式簡化直接按一定的時間間隔,對數(shù)據(jù)進行提取,是操作型數(shù)據(jù)的一個快照第二十六頁,共五十六頁,編輯于2023年,星期五數(shù)據(jù)倉庫中的數(shù)據(jù)組織形式連續(xù)把新的快照追加到以前的連續(xù)數(shù)據(jù)上去第二十七頁,共五十六頁,編輯于2023年,星期五數(shù)據(jù)倉庫的數(shù)據(jù)追加數(shù)據(jù)追加數(shù)據(jù)倉庫的數(shù)據(jù)初裝完成以后,再向數(shù)據(jù)倉庫輸入數(shù)據(jù)的過程稱為數(shù)據(jù)追加變化數(shù)據(jù)的捕獲時標法:加標識DELTA法:對更新作記錄前后映象法:兩次快照的對比日志法:利用DBMS的日志,需改進第二十八頁,共五十六頁,編輯于2023年,星期五數(shù)據(jù)庫的體系化環(huán)境是在一個企業(yè)或組織內(nèi)部,由各面向應(yīng)用的OLTP數(shù)據(jù)庫及各級面向主題的數(shù)據(jù)倉庫所組成的完整的數(shù)據(jù)環(huán)境操作型環(huán)境、分析型環(huán)境四層體系化環(huán)境操作型環(huán)境——OLTP全局級——數(shù)據(jù)倉庫部門級——局部倉庫個人級——個人倉庫,用于啟發(fā)式的分析數(shù)據(jù)集市(DataMart)特定的、面向部門的小型數(shù)據(jù)倉庫是為滿足用戶特定需求而創(chuàng)建的數(shù)據(jù)倉庫是數(shù)據(jù)倉庫的子集第二十九頁,共五十六頁,編輯于2023年,星期五數(shù)據(jù)庫的體系化環(huán)境第三十頁,共五十六頁,編輯于2023年,星期五數(shù)據(jù)庫的體系化環(huán)境第三十一頁,共五十六頁,編輯于2023年,星期五數(shù)據(jù)倉庫的開發(fā)生命周期第三十二頁,共五十六頁,編輯于2023年,星期五數(shù)據(jù)倉庫的基本數(shù)據(jù)模式星型模式(StarSchema)事實表(facttable),存放基本數(shù)據(jù),相關(guān)主題的數(shù)據(jù)主體(BCNF)維(dimension),影響、分析主體數(shù)據(jù)的因素量(measure),事實表中的數(shù)據(jù)屬性維表(dimensiontable),表示維的各種表維是量的取值條件,維用外鍵表示以事實表為中心,加上若干維表,組成星型數(shù)據(jù)模式例:產(chǎn)品-商店-銷售額第三十三頁,共五十六頁,編輯于2023年,星期五數(shù)據(jù)倉庫的基本數(shù)據(jù)模式CustSalesLocationSalesProdSalesTimeSalesSalestimeid<pk,fk>productid<pk,fk>locationid<pk,fk>customerid<pk,fk>salesrevenueunitssoldProductproductid<pk>makemodelTimetimeid<pk>dateyearquartermonthweekLocationlocationid<pk>regiondistrictstoreCustomercustomerid<pk>categorygroupSalesfactSalesmeasuresTimedimensionAttributesofthe
timedimension第三十四頁,共五十六頁,編輯于2023年,星期五數(shù)據(jù)倉庫的基本數(shù)據(jù)模式雪花模式(SnowflakeSchema)維一般是由若干層次組成把維按其層次結(jié)構(gòu)表示成若干個表規(guī)范化、節(jié)省存儲空間但需多做連接操作第三十五頁,共五十六頁,編輯于2023年,星期五數(shù)據(jù)倉庫的解決方案通用的關(guān)系數(shù)據(jù)庫系統(tǒng)專門的數(shù)據(jù)倉庫服務(wù)器第三十六頁,共五十六頁,編輯于2023年,星期五數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)數(shù)據(jù)倉庫層數(shù)據(jù)倉庫工具層最終用戶第三十七頁,共五十六頁,編輯于2023年,星期五數(shù)據(jù)倉庫系統(tǒng)數(shù)據(jù)倉庫居系統(tǒng)的核心地位是信息挖掘的基礎(chǔ)數(shù)據(jù)倉庫管理系統(tǒng)是整個系統(tǒng)的引擎負責(zé)管理整個系統(tǒng)的運轉(zhuǎn)數(shù)據(jù)倉庫工具一般的查詢工具、功能強大的分析工具是整個系統(tǒng)發(fā)揮作用的關(guān)鍵第三十八頁,共五十六頁,編輯于2023年,星期五數(shù)據(jù)分析模型早期靜態(tài)數(shù)據(jù)值的相互比較需求從多個不同的數(shù)據(jù)源中綜合數(shù)據(jù)從不同的角度觀察數(shù)據(jù)多變的主題、多維數(shù)據(jù)E-R不能完全支持第三十九頁,共五十六頁,編輯于2023年,星期五四種分析模型(Codd)絕對模型靜態(tài)數(shù)據(jù)分析只能對歷史數(shù)據(jù)進行值的比較,描述基本事實用戶交互少解釋模型思考模型公式模型第四十頁,共五十六頁,編輯于2023年,星期五四種分析模型(Codd)絕對模型解釋模型靜態(tài)數(shù)據(jù)分析在當(dāng)前多維視圖的基礎(chǔ)上找出事件發(fā)生的原因思考模型公式模型第四十一頁,共五十六頁,編輯于2023年,星期五四種分析模型(Codd)絕對模型解釋模型思考模型動態(tài)數(shù)據(jù)分析多維分析在決策者的參與下,找出關(guān)鍵變量需要高級數(shù)據(jù)分析人員的介入公式模型第四十二頁,共五十六頁,編輯于2023年,星期五四種分析模型(Codd)絕對模型解釋模型思考模型公式模型動態(tài)性最高的一類自動完成變量的引入工作第四十三頁,共五十六頁,編輯于2023年,星期五數(shù)據(jù)倉庫系統(tǒng)的工具層查詢工具主要是對分析結(jié)果的查詢很少有對記錄級數(shù)據(jù)的查詢驗證型工具多維分析工具用戶首先提出假設(shè),然后利用各種工具通過反復(fù)、遞歸的檢索查詢以驗證或否定假設(shè)發(fā)掘型工具從大量數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)模式預(yù)測趨勢和行為第四十四頁,共五十六頁,編輯于2023年,星期五聯(lián)機分析處理——OLAP是針對特定問題的聯(lián)機訪問和分析。通過對信息的很多種可能的觀察形式進行快速、穩(wěn)定一致和交互性的存取,允許分析人員對數(shù)據(jù)進行深入觀察第四十五頁,共五十六頁,編輯于2023年,星期五一些概念變量是數(shù)據(jù)的實際意義,描述數(shù)據(jù)是什么維是人們觀察數(shù)據(jù)的特定角度維的層次是維在不同細節(jié)程度的描述維成員是維的一個取值多層次維的維成員是各層次取值的組合對應(yīng)一個數(shù)據(jù)項,維成員是該數(shù)據(jù)項在該維中位置的描述多維數(shù)組可以表示為(維1,維2,……,變量),如(地區(qū),時間,銷售渠道,銷售額)多維數(shù)組的取值稱為數(shù)據(jù)單元(單元格)可以理解為交叉表的數(shù)據(jù)格第四十六頁,共五十六頁,編輯于2023年,星期五一些基本操作在多維數(shù)組的某一維選定一個維成員的動作稱為切片。舍棄一些觀察角度在多維數(shù)組的某一維上選定某一區(qū)間的維成員切塊多個切片的疊加旋轉(zhuǎn)是改變一個報告或頁面顯示的維方向以用戶容易理解的角度來觀察數(shù)據(jù)第四十七頁,共五十六頁,編輯于2023年,星期五基于多維數(shù)據(jù)庫的OLAP——MOLAP以多維方式組織數(shù)據(jù)(綜合數(shù)據(jù))以多維方式顯示(觀察)數(shù)據(jù)多維數(shù)據(jù)庫的形式類似于交叉表,可直觀地表述一對多、多對多的關(guān)系如:產(chǎn)品、地區(qū)、銷售額關(guān)系多維多維數(shù)據(jù)庫由許多經(jīng)壓縮的、類似于數(shù)組的對象構(gòu)成,帶有高度壓縮的索引及指針結(jié)構(gòu)以關(guān)系數(shù)據(jù)庫存放細節(jié)數(shù)據(jù)、以多維數(shù)據(jù)庫存放綜合數(shù)據(jù)第四十八頁,共五十六頁,編輯于2023年,星期五基于關(guān)系數(shù)據(jù)庫的OLAP——ROLAP以二維表與多維聯(lián)系來表達多維數(shù)據(jù)(綜合數(shù)據(jù))星型結(jié)構(gòu)事實表,存儲事實的量及各維的碼值(BCNF)維表,對每一個維,至少有一個表用來保存該維的元數(shù)據(jù)(多層次、冗余)事實表通過外鍵與每個維表相聯(lián)系雪花、星座、雪暴模擬多維方式顯示(觀察)數(shù)據(jù)第四十九頁,共五十六頁,編輯于2023年,星期五MOLAP與ROLAPMOLAP計算速度較快支持的數(shù)據(jù)容量較小缺乏細節(jié)數(shù)據(jù)的OLAPROLAP結(jié)構(gòu)較復(fù)雜以關(guān)系模擬多維支持適當(dāng)細節(jié)的OLAP較成熟HOLAP是以上兩種的綜合第五十頁,共五十六頁,編輯于2023年,星期五數(shù)據(jù)挖掘(DataMining)探測型的數(shù)據(jù)分析發(fā)現(xiàn)信息、發(fā)現(xiàn)知識基于人工智能、機器學(xué)習(xí)、統(tǒng)計學(xué)由計算機自動智能地分析數(shù)據(jù),獲取信息,作出預(yù)測或幫助決策需要算法的支持和機器的環(huán)境第五十一頁,共五十六頁,編輯于2023年,星期五數(shù)據(jù)挖掘的常用方法決策樹方法利用信息論中的熵信息,尋找數(shù)據(jù)庫中具有最大信息量的屬性字段,建立決策樹的節(jié)點,再根據(jù)該屬性字段的不同取值建立樹的分支在每個分支子集中重復(fù)建立下層節(jié)點和分支第五十二頁,共五十六頁,編輯于2023年,星期五數(shù)據(jù)挖掘分析方法關(guān)聯(lián)分析為了挖掘出隱藏在數(shù)據(jù)間的相互關(guān)系支持度/置信度作為輸入的條件,進行篩選、分析序列模式分析類似與關(guān)聯(lián)分析著重于分析數(shù)據(jù)的前因后果分類分析對于不同分類的數(shù)據(jù)進行分析,找出他們的規(guī)律、特征聚類分析是分類的逆過程根據(jù)數(shù)據(jù)特征,進行分類第五十三頁,共五十六頁
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年廣東省廣州市單招職業(yè)適應(yīng)性測試題庫及答案一套
- 現(xiàn)代科技助力白水泥產(chǎn)業(yè)升級的路徑
- 2025年貴州省安全員《C證》考試題庫及答案
- 2025年山西省安全員《A證》考試題庫
- 碼頭托管合同范本
- 農(nóng)村拆除合同范本
- 2025年阜新高等??茖W(xué)校單招職業(yè)適應(yīng)性測試題庫學(xué)生專用
- 承攬合同范本電焊
- 設(shè)計總監(jiān)的合同范本
- 消防招標合同范本
- 2024年湖南司法警官職業(yè)學(xué)院高職單招職業(yè)技能測驗歷年參考題庫(頻考版)含答案解析
- 2025年國家藥品監(jiān)督管理局藥品審評中心招聘11人歷年高頻重點提升(共500題)附帶答案詳解
- 2024年廣東省《輔警招聘考試必刷500題》考試題庫含必背答案
- 餐飲企業(yè)牛奶產(chǎn)品推廣方案
- 2025年中國南光集團有限公司招聘筆試參考題庫含答案解析
- 工程造價鑒定申請書
- 五年級下冊數(shù)學(xué)北師大版課件練習(xí)一
- 《房屋建筑發(fā)展史》課件
- 第6章平面圖形的初步認識數(shù)學(xué)探究雞蛋餅的分割教案2024-2025學(xué)年蘇科版(2024)七年級數(shù)學(xué)上冊
- 如何開展中醫(yī)護理技術(shù)
- 麻醉、精神藥品培訓(xùn)課件
評論
0/150
提交評論