數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘deOLAP技術(shù)課件_第1頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘deOLAP技術(shù)課件_第2頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘deOLAP技術(shù)課件_第3頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘deOLAP技術(shù)課件_第4頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘deOLAP技術(shù)課件_第5頁(yè)
已閱讀5頁(yè),還剩78頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘

de

OLAP技術(shù)茍清龍2002年9月數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘

de

OLAP技術(shù)茍清龍第一節(jié)從數(shù)據(jù)庫(kù)到數(shù)據(jù)倉(cāng)庫(kù)OLTP不適于DSS應(yīng)用數(shù)據(jù)倉(cāng)庫(kù)的定義及其特征數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)的體系化環(huán)境第一節(jié)從數(shù)據(jù)庫(kù)到數(shù)據(jù)倉(cāng)庫(kù)OLTP不適于DSS應(yīng)用OLTP不適于DSS應(yīng)用事務(wù)處理的性能特性不同數(shù)據(jù)集成問(wèn)題事務(wù)處理應(yīng)用分散“蜘蛛網(wǎng)”問(wèn)題數(shù)據(jù)不一致問(wèn)題外部數(shù)據(jù)和非結(jié)構(gòu)化問(wèn)題數(shù)據(jù)動(dòng)態(tài)集成問(wèn)題歷史數(shù)據(jù)問(wèn)題數(shù)據(jù)的綜合問(wèn)題OLTP不適于DSS應(yīng)用事務(wù)處理的性能特性不同什么是數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)用以更好地支持企業(yè)或組織的決策分析處理的、面向?qū)ο笾黝}的、集成的、不可更新的、隨時(shí)間不斷變化的數(shù)據(jù)集合。什么是數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)用以更好地支持企業(yè)或組織的決策分操作型數(shù)據(jù)和分析型數(shù)據(jù)的區(qū)別操作型數(shù)據(jù)分析型數(shù)據(jù)細(xì)節(jié)的綜合的,或提煉的在存取時(shí)刻是準(zhǔn)確的代表過(guò)去的數(shù)據(jù)可更新不更新操作需求事先可知道操作需求事先不知道對(duì)性能要求高對(duì)性能要求寬松生命周期符合SDLC完全不同的生命周期一時(shí)刻操作一單元一時(shí)刻操作一集合事務(wù)驅(qū)動(dòng)分析驅(qū)動(dòng)面向應(yīng)用面向分析一次操作數(shù)據(jù)量小一次操作數(shù)據(jù)量大支持日常操作支持管理需求操作型數(shù)據(jù)和分析型數(shù)據(jù)的區(qū)別操作型數(shù)據(jù)分析型數(shù)據(jù)細(xì)節(jié)的綜合的數(shù)據(jù)倉(cāng)庫(kù)的四個(gè)特性面向主題的集成的隨時(shí)間不斷變化的不可更新的數(shù)據(jù)倉(cāng)庫(kù)的四個(gè)特性面向主題的數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)的面向主題性什么是主題?面向主題的例子面向主題的性質(zhì)面向主題的實(shí)現(xiàn)方式面向主題的實(shí)現(xiàn)示例主題域及其特性數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)的面向主題性什么是主題?什么是主題?主題是一個(gè)抽象的概念,是在較高層次上將企業(yè)信息綜合、歸類,并進(jìn)行分析利用的抽象;在邏輯意義上,他是對(duì)企業(yè)中某一宏觀領(lǐng)域所涉及的分析對(duì)象;面向主題的數(shù)據(jù)組織方式,就是在較高層次上對(duì)分析對(duì)象的數(shù)據(jù)一個(gè)完整、一致的描述,能完整、統(tǒng)一地刻畫各個(gè)分析對(duì)象所涉及的企業(yè)的各項(xiàng)數(shù)據(jù),以及數(shù)據(jù)之間的聯(lián)系。什么是主題?主題是一個(gè)抽象的概念,是在較高層次上將企業(yè)信息綜一個(gè)傳統(tǒng)OLTP環(huán)境下的數(shù)據(jù)庫(kù)模式示例采購(gòu)子系統(tǒng)定單(定單號(hào),供應(yīng)商號(hào),總金額,日期)定單細(xì)則(定單號(hào),商品號(hào),類別,單價(jià),數(shù)量)供應(yīng)商(供應(yīng)商號(hào),供應(yīng)商名,地址,電話)銷售子系統(tǒng)顧客(顧客號(hào),姓名,年齡,文化程度,地址,電話)銷售(員工號(hào),顧客號(hào),商品號(hào),數(shù)量,單價(jià),日期)一個(gè)傳統(tǒng)OLTP環(huán)境下的數(shù)據(jù)庫(kù)模式示例采購(gòu)子系統(tǒng)一個(gè)傳統(tǒng)OLTP環(huán)境下的數(shù)據(jù)庫(kù)模式示例(續(xù))庫(kù)存管理子系統(tǒng)領(lǐng)料單(領(lǐng)料單號(hào),領(lǐng)料人,商品號(hào),數(shù)量,日期)進(jìn)料單(進(jìn)料單號(hào),定單號(hào),進(jìn)料人,收料人,日期)庫(kù)存(商品號(hào),庫(kù)房號(hào),庫(kù)存量,日期)庫(kù)房(庫(kù)房號(hào),庫(kù)房管理員,地點(diǎn),庫(kù)存商品描述)人事子系統(tǒng)員工(員工號(hào),姓名,性別,年齡,文化程度,部門號(hào))部門(部門號(hào),部門名稱,部門主管,電話)一個(gè)傳統(tǒng)OLTP環(huán)境下的數(shù)據(jù)庫(kù)模式示例(續(xù))庫(kù)存管理子系統(tǒng)一個(gè)傳統(tǒng)OLAP環(huán)境下的數(shù)據(jù)庫(kù)模式示例商品商品固有信息:商品號(hào),商品名,類別,顏色等;商品采購(gòu)信息:商品號(hào),供應(yīng)商號(hào),供應(yīng)價(jià),供應(yīng)量,供應(yīng)日期等;商品銷售信息:商品號(hào),顧客號(hào),售價(jià),銷售量,銷售日期等;商品庫(kù)存信息:商品號(hào),庫(kù)房號(hào),庫(kù)存量,日期等。一個(gè)傳統(tǒng)OLAP環(huán)境下的數(shù)據(jù)庫(kù)模式示例商品一個(gè)傳統(tǒng)OLAP環(huán)境下的數(shù)據(jù)庫(kù)模式示例(續(xù))供應(yīng)商供應(yīng)商固有信息:供應(yīng)商號(hào),供應(yīng)商名,地址,電話等;供應(yīng)商品信息:供應(yīng)商號(hào),商品號(hào),供應(yīng)價(jià),供應(yīng)日期,供應(yīng)量等。顧客顧客固有信息:顧客號(hào),顧客名,性別,年齡,文化程度,地址,電話等。顧客購(gòu)物信息:顧客號(hào),商品號(hào),售價(jià),購(gòu)買日期,購(gòu)買量等。一個(gè)傳統(tǒng)OLAP環(huán)境下的數(shù)據(jù)庫(kù)模式示例(續(xù))供應(yīng)商面向主題數(shù)據(jù)組織模式的說(shuō)明在從面向應(yīng)用到面向主題的轉(zhuǎn)變過(guò)程中,丟棄了原來(lái)有的但不必要的、不適于分析的信息;在原有的數(shù)據(jù)庫(kù)模式中,有關(guān)商品的信息分散在各個(gè)子系統(tǒng)之中;面向主題的數(shù)據(jù)組織方式所強(qiáng)調(diào)的就是要形成關(guān)于主題一致的信息集合;不同主題之間有重疊內(nèi)容。面向主題數(shù)據(jù)組織模式的說(shuō)明在從面向應(yīng)用到面向主題的轉(zhuǎn)變過(guò)程中主題的實(shí)現(xiàn)兩種主題實(shí)現(xiàn)方式多維數(shù)據(jù)庫(kù)關(guān)系數(shù)據(jù)庫(kù)在具體實(shí)現(xiàn)中,一個(gè)主題可劃分為多個(gè)表,主題只是一個(gè)邏輯概念。主題的實(shí)現(xiàn)兩種主題實(shí)現(xiàn)方式主題實(shí)現(xiàn)的范例主題:商品公共碼鍵:商品號(hào)商品表1(商品號(hào),商品名,類型,顏色,……)/*商品固有信息*/采購(gòu)表1(商品號(hào),供應(yīng)商號(hào),供應(yīng)日期,供應(yīng)價(jià),采購(gòu)量,……)/*商品采購(gòu)的細(xì)節(jié)描述*/采購(gòu)表2(商品號(hào),時(shí)間段,采購(gòu)總量,……)/*某時(shí)段商品采購(gòu)信息*/……采購(gòu)表n(……,……)/*時(shí)間段不等的采購(gòu)綜合表*/主題實(shí)現(xiàn)的范例主題:商品主題實(shí)現(xiàn)的范例(續(xù))銷售表1(商品號(hào),顧客號(hào),銷售日期,售價(jià),銷售量,……)

/*商品銷售細(xì)節(jié)信息*/銷售表2(商品號(hào),時(shí)間段,銷售總量,……)

/*某時(shí)段內(nèi)商品銷售信息*/……銷售表n(……,……)/*時(shí)段不等的銷售綜合表*/庫(kù)存表1(商品號(hào),庫(kù)房號(hào),庫(kù)存量,日期,……)

/*商品庫(kù)存述細(xì)節(jié)信息*/庫(kù)存表2(商品號(hào),庫(kù)房號(hào),庫(kù)存量,月份,……)

/*每月月底的商品庫(kù)存信息*/……庫(kù)存表n(……,……)/*時(shí)點(diǎn)不同的商品庫(kù)存信息*/……主題實(shí)現(xiàn)的范例(續(xù))銷售表1(商品號(hào),顧客號(hào),銷售日期,售價(jià)主題域面向主題的數(shù)據(jù)組織方式根據(jù)分析要求將數(shù)據(jù)組織成一個(gè)完整的分析領(lǐng)域,即主題域。主題域的特性:獨(dú)立性一個(gè)主題域可以和其他主題有交叉部分,但他必須有獨(dú)立內(nèi)涵,即要求有明確的界限規(guī)定數(shù)據(jù)是否屬于該主題。完備性對(duì)一個(gè)主題的任意分析處理要求,都能在該主題內(nèi)找到該處理要求的一切內(nèi)容。主題域面向主題的數(shù)據(jù)組織方式根據(jù)分析要求將數(shù)據(jù)組織成一個(gè)完整數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)集成性涵義:數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是從原有的分散數(shù)據(jù)庫(kù)數(shù)據(jù)中抽取集成而來(lái)的。問(wèn)題:操作型數(shù)據(jù)與分析型數(shù)據(jù)的差別需要完成的工作要統(tǒng)一數(shù)據(jù)庫(kù)中所有的矛盾,如字段的同名異義,異名同義,單位不統(tǒng)一,字長(zhǎng)不一致等;進(jìn)行數(shù)據(jù)綜合和計(jì)算。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)集成性涵義:數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是從原有的分散數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)的不可更新性數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)主要提供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一般情況不進(jìn)行修改操作。數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)的不可更新性數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)的時(shí)變性數(shù)據(jù)倉(cāng)庫(kù)隨時(shí)間變化不斷增加新的數(shù)據(jù)內(nèi)容;數(shù)據(jù)倉(cāng)庫(kù)隨時(shí)間變化不斷刪去舊的數(shù)據(jù)內(nèi)容;數(shù)據(jù)倉(cāng)庫(kù)中含有大量的綜合數(shù)據(jù),這些數(shù)據(jù)隨時(shí)間變化不斷進(jìn)行重新組合。數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)的時(shí)變性數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織結(jié)構(gòu)圖元數(shù)據(jù)粒度與分割數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織形式數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)追加數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織結(jié)構(gòu)圖數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織結(jié)構(gòu)元數(shù)據(jù)高度綜合級(jí)輕度綜合級(jí)當(dāng)前細(xì)節(jié)級(jí)早期細(xì)節(jié)級(jí)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織結(jié)構(gòu)元高度綜合級(jí)輕度綜合級(jí)當(dāng)前細(xì)節(jié)級(jí)早期細(xì)元數(shù)據(jù)元數(shù)據(jù):關(guān)于數(shù)據(jù)的的數(shù)據(jù)DW中的兩種元數(shù)據(jù)為從操作型環(huán)境向DW環(huán)境轉(zhuǎn)換而建立的元數(shù)據(jù),在DW中用來(lái)與終端用戶的多維商業(yè)模型/前端工具之間建立映射的元數(shù)據(jù)。元數(shù)據(jù)元數(shù)據(jù):關(guān)于數(shù)據(jù)的的數(shù)據(jù)粒度第一種粒度:對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)綜合程度高低的度量,它影響數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)量的多少,也影響所能回答問(wèn)題的種類。第二種粒度:樣本數(shù)據(jù)庫(kù)采樣率的高低。(采樣粒度不同的樣本數(shù)據(jù)庫(kù)可以有相同級(jí)別的綜合級(jí)別。)粒度第一種粒度:對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)綜合程度高低的度量,它影響分割將數(shù)據(jù)分散到各自的物理單元中去以便能分別獨(dú)立處理,以提高處理效率,數(shù)據(jù)分割后的數(shù)據(jù)單元稱為分片。分割的一個(gè)例子健康保險(xiǎn)生命保險(xiǎn)事故保險(xiǎn)1988分片1分片2分片31989分片4分片5分片61990分片7分片8分片9分割將數(shù)據(jù)分散到各自的物理單元中去以便能分別獨(dú)立處理,以提高數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織形成簡(jiǎn)單堆積文件輪轉(zhuǎn)綜合文件(如股市)簡(jiǎn)化直接文件(按一定時(shí)間間隔對(duì)數(shù)據(jù)庫(kù)采樣)連續(xù)文件數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織形成簡(jiǎn)單堆積文件數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)追加時(shí)標(biāo)方法DELTA文件前后映象文件的方法日志文件數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)追加時(shí)標(biāo)方法數(shù)據(jù)庫(kù)體系化環(huán)境什么是數(shù)據(jù)庫(kù)體系化環(huán)境?四層體系化環(huán)境數(shù)據(jù)集市數(shù)據(jù)庫(kù)體系化環(huán)境什么是數(shù)據(jù)庫(kù)體系化環(huán)境?什么是數(shù)據(jù)庫(kù)體系化環(huán)境數(shù)據(jù)庫(kù)體系化環(huán)境是在一個(gè)企業(yè)或組織內(nèi),由各面向應(yīng)用的OLTP數(shù)據(jù)庫(kù)及各級(jí)面向主題的數(shù)據(jù)倉(cāng)庫(kù)所組成的完整的數(shù)據(jù)環(huán)境,在這個(gè)數(shù)據(jù)環(huán)境上建立和進(jìn)行一個(gè)企業(yè)或部門的從聯(lián)機(jī)事務(wù)處理到企業(yè)管理決策的所有應(yīng)用。兩個(gè)組成部分:操作型環(huán)境分析型環(huán)境什么是數(shù)據(jù)庫(kù)體系化環(huán)境數(shù)據(jù)庫(kù)體系化環(huán)境是在一個(gè)企業(yè)或組織內(nèi),四層體系化環(huán)境操作型環(huán)境數(shù)據(jù)倉(cāng)庫(kù)局部倉(cāng)庫(kù)個(gè)人倉(cāng)庫(kù)全局級(jí)部門級(jí)個(gè)人級(jí)(1)操作型環(huán)境:存放細(xì)節(jié)操作性數(shù)據(jù),服務(wù)于高性能事務(wù)處理。(2)全局級(jí)DW:存放細(xì)節(jié)數(shù)據(jù),以及大量導(dǎo)出數(shù)據(jù)。(3)部門級(jí)DW:一般僅包含導(dǎo)出數(shù)據(jù)。(4)個(gè)人級(jí)DW:都是暫時(shí)的,用于啟發(fā)式分析。四層體系化環(huán)境操作型環(huán)境數(shù)據(jù)倉(cāng)庫(kù)局部倉(cāng)庫(kù)個(gè)人倉(cāng)庫(kù)全局級(jí)部門級(jí)數(shù)據(jù)集市全局?jǐn)?shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)再抽取與集成采購(gòu)子系統(tǒng)銷售子系統(tǒng)庫(kù)存子系統(tǒng)人事管理財(cái)務(wù)子系統(tǒng)數(shù)據(jù)抽取數(shù)據(jù)抽取數(shù)據(jù)抽取數(shù)據(jù)抽取數(shù)據(jù)抽取DATAMART數(shù)據(jù)集市全局?jǐn)?shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)再抽取與集成數(shù)據(jù)抽取數(shù)據(jù)抽取數(shù)據(jù)抽取第二節(jié)數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)設(shè)計(jì)方法概述DW設(shè)計(jì)的三級(jí)數(shù)據(jù)模型提高DW性能數(shù)據(jù)倉(cāng)庫(kù)中的元數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)步驟第二節(jié)數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)設(shè)計(jì)方法概述數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)設(shè)計(jì)方法概述DWS與DBS設(shè)計(jì)的不同之處SDLC與CLDS方法比較“數(shù)據(jù)驅(qū)動(dòng)”系統(tǒng)設(shè)計(jì)方法的基本思路數(shù)據(jù)模型是數(shù)據(jù)驅(qū)動(dòng)設(shè)計(jì)方法的中心DW系統(tǒng)設(shè)計(jì)是一個(gè)動(dòng)態(tài)反饋循環(huán)過(guò)程DW的三級(jí)數(shù)據(jù)模型提高DW的性能數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)設(shè)計(jì)方法概述DWS與DBS設(shè)計(jì)的不同之處DWS與DBS設(shè)計(jì)的不同之處面向處理類型不同面向需求不同系統(tǒng)設(shè)計(jì)的目標(biāo)不同兩者的數(shù)據(jù)來(lái)源或系統(tǒng)的輸入不同系統(tǒng)設(shè)計(jì)方法和步驟不同DWS與DBS設(shè)計(jì)的不同之處面向處理類型不同SDLC與CLDS方法比較收集應(yīng)用需求分析應(yīng)用需求構(gòu)建數(shù)據(jù)庫(kù)應(yīng)用編程系統(tǒng)測(cè)試系統(tǒng)實(shí)施DB應(yīng)用A應(yīng)用B應(yīng)用C數(shù)據(jù)倉(cāng)庫(kù)建模數(shù)據(jù)獲取與集成構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)DSS應(yīng)用編程系統(tǒng)測(cè)試?yán)斫庑枨驞WDBDB外部數(shù)據(jù)SDLC與CLDS方法比較收集應(yīng)用需求分析應(yīng)用需求構(gòu)建數(shù)據(jù)庫(kù)“數(shù)據(jù)驅(qū)動(dòng)”系統(tǒng)設(shè)計(jì)方法的基本思路“數(shù)據(jù)驅(qū)動(dòng)”系統(tǒng)設(shè)計(jì)方法的思路就是利用以前所取得的工作成果來(lái)進(jìn)行系統(tǒng)建設(shè)。DW的設(shè)計(jì)是從已有的DB系統(tǒng)出發(fā),按照分析領(lǐng)域?qū)?shù)據(jù)及數(shù)據(jù)之間的聯(lián)系重新考察、組織DW中的主題。系統(tǒng)設(shè)計(jì)方法的中心是利用數(shù)據(jù)模型有效地識(shí)別原有的數(shù)據(jù)庫(kù)中的數(shù)據(jù)和數(shù)據(jù)倉(cāng)庫(kù)中主題的數(shù)據(jù)的“共同性”?!皵?shù)據(jù)驅(qū)動(dòng)”系統(tǒng)設(shè)計(jì)方法的基本思路“數(shù)據(jù)驅(qū)動(dòng)”系統(tǒng)設(shè)計(jì)方法的數(shù)據(jù)模型

是數(shù)據(jù)驅(qū)動(dòng)設(shè)計(jì)方法的中心操作型環(huán)境設(shè)計(jì)操作型處理應(yīng)用開發(fā)與設(shè)計(jì)DBDBDB數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)DSS應(yīng)用開發(fā)與設(shè)計(jì)DW數(shù)據(jù)模型數(shù)據(jù)模型

是數(shù)據(jù)驅(qū)動(dòng)設(shè)計(jì)方法的中心操作型環(huán)境設(shè)計(jì)操作型處理應(yīng)DW系統(tǒng)設(shè)計(jì)

是一個(gè)動(dòng)態(tài)反饋循環(huán)過(guò)程DW的數(shù)據(jù)內(nèi)容、結(jié)構(gòu)、粒度、分割以及其他物理設(shè)計(jì)根據(jù)用戶所返回的信息不斷調(diào)整、完善,以提高系統(tǒng)的效率和性能。通過(guò)不斷的理解用戶的分析需求,向用戶提供更準(zhǔn)確,更有用的決策信息。DW系統(tǒng)設(shè)計(jì)

是一個(gè)動(dòng)態(tài)反饋循環(huán)過(guò)程DW與DB三級(jí)數(shù)據(jù)模型的區(qū)別DW的數(shù)據(jù)模型不包含純操作型數(shù)據(jù);DW的數(shù)據(jù)模型擴(kuò)充了碼結(jié)構(gòu),增加了時(shí)間屬性作為碼的一個(gè)部分;DW的數(shù)據(jù)模型中增加了一些導(dǎo)出數(shù)據(jù)。DW與DB三級(jí)數(shù)據(jù)模型的區(qū)別DW的數(shù)據(jù)模型不包含純操作型數(shù)據(jù)DW的三級(jí)數(shù)據(jù)模型概念模型邏輯模型物理模型DW的三級(jí)數(shù)據(jù)模型概念模型高級(jí)模型、

中級(jí)模型和低級(jí)模型高級(jí)模型:即E-R圖;低級(jí)模型:即物理數(shù)據(jù)模型中級(jí)模型:稱為數(shù)據(jù)項(xiàng)(dis-dataitemset)高級(jí)模型、

中級(jí)模型和低級(jí)模型高級(jí)模型:即E-R圖;Dis中的數(shù)據(jù)組聯(lián)接數(shù)據(jù)組:主要用于本主題域與其他主題域之間的聯(lián)系,體現(xiàn)E-R圖中實(shí)體之間的關(guān)系?;緮?shù)據(jù)組二級(jí)數(shù)據(jù)組類數(shù)據(jù)組Dis中的數(shù)據(jù)組聯(lián)接數(shù)據(jù)組:主要用于本主題域與其他主題域之間提高DW的性能粒度劃分分割其他問(wèn)題提高DW的性能粒度劃分粒度劃分粒度劃分的決定因素并非總的數(shù)據(jù)量,而是總的行數(shù)。劃分步驟(1)估算DW中數(shù)據(jù)行數(shù)和所需的DASD(DirectAccessStorageDevice)數(shù)。(2)根據(jù)估算算出的數(shù)據(jù)行數(shù)和DASD,決定是否劃分粒度,如果要,如何劃分。粒度劃分粒度劃分的決定因素并非總的數(shù)據(jù)量,而是總的行數(shù)。分割核心:選擇適當(dāng)?shù)姆指顦?biāo)準(zhǔn)考慮因素:數(shù)據(jù)量、數(shù)據(jù)分析處理的實(shí)際情況、簡(jiǎn)單易行、粒度劃分分割核心:選擇適當(dāng)?shù)姆指顦?biāo)準(zhǔn)數(shù)據(jù)倉(cāng)庫(kù)物理設(shè)計(jì)

中的其他一些問(wèn)題合并表建立數(shù)據(jù)序列引入冗余表的物理分割生成導(dǎo)出數(shù)據(jù)建立廣義索引數(shù)據(jù)倉(cāng)庫(kù)物理設(shè)計(jì)

中的其他一些問(wèn)題合并表第三節(jié)數(shù)據(jù)操作存儲(chǔ)(ODS)ODS的定義與特點(diǎn)ODS的功能ODS與DW的區(qū)別DB-ODS-DW三層體系結(jié)構(gòu)第三節(jié)數(shù)據(jù)操作存儲(chǔ)(ODS)ODS的定義與特點(diǎn)ODS的定義與特點(diǎn)ODS是用于支持企業(yè)日常的全局應(yīng)用的數(shù)據(jù)集合。保存在ODS中的數(shù)據(jù)具有四個(gè)基本特點(diǎn):(1)面向主題的(2)集成的(3)可變的(4)數(shù)據(jù)是當(dāng)前或接近當(dāng)前的ODS的定義與特點(diǎn)ODS是用于支持企業(yè)日常的全局應(yīng)用的數(shù)據(jù)集ODS的功能進(jìn)行企業(yè)級(jí)的聯(lián)機(jī)事務(wù)處理;“即時(shí)OLAP”數(shù)據(jù)處理。ODS的功能進(jìn)行企業(yè)級(jí)的聯(lián)機(jī)事務(wù)處理;ODS與DW的區(qū)別操作數(shù)據(jù)存儲(chǔ)ODS數(shù)據(jù)倉(cāng)庫(kù)DW當(dāng)前或接近當(dāng)前的數(shù)據(jù)細(xì)節(jié)數(shù)據(jù)可聯(lián)機(jī)更新歷史數(shù)據(jù)細(xì)節(jié)數(shù)據(jù)和綜合數(shù)據(jù)不可變快照ODS與DW的區(qū)別操作數(shù)據(jù)存儲(chǔ)ODS數(shù)據(jù)倉(cāng)庫(kù)DW當(dāng)前或接近當(dāng)DB-ODS-DW三層體系結(jié)構(gòu)DW分析型環(huán)境ODSDBDBDB應(yīng)用操作型環(huán)境DB-ODS-DW三層體系結(jié)構(gòu)DW分析型環(huán)境ODSDBDBD第四節(jié)數(shù)據(jù)倉(cāng)庫(kù)工具數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)OLTP的基本概念多維分析的基本分析動(dòng)作OLAP的準(zhǔn)則OLAP實(shí)現(xiàn)第四節(jié)數(shù)據(jù)倉(cāng)庫(kù)工具數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)示意圖數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)示意圖數(shù)據(jù)庫(kù)系統(tǒng)和數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)結(jié)構(gòu)的比較數(shù)據(jù)庫(kù)系統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)數(shù)據(jù)庫(kù):操作型數(shù)據(jù)增、刪、改操作頻繁數(shù)據(jù)倉(cāng)庫(kù):分析型數(shù)據(jù)極少有更新操作數(shù)據(jù)庫(kù)核心:功能強(qiáng)大面向OLTP應(yīng)用數(shù)據(jù)倉(cāng)庫(kù)管理系統(tǒng):因極少有更新操作,故功能簡(jiǎn)單數(shù)據(jù)庫(kù)工具:以查詢工具為主數(shù)據(jù)倉(cāng)庫(kù)工具:以分析工具為主。數(shù)據(jù)庫(kù)系統(tǒng)和數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)結(jié)構(gòu)的比較數(shù)據(jù)庫(kù)系統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)數(shù)據(jù)OLAP的基本概念變量變量是數(shù)據(jù)的實(shí)際意義。即描述數(shù)據(jù)“是什么”。維維是人們觀察數(shù)據(jù)的特定角度。如時(shí)間維、地理維。OLAP的基本概念變量OLAP的基本概念維的層次人們觀察數(shù)據(jù)的某個(gè)特定角度(即某個(gè)維)還可以存在細(xì)節(jié)程度不同的多個(gè)描述方面,我們稱這個(gè)描述方面為維的層次。如:時(shí)間維:日期—>月份—>季度—>年地理維:城市—>地區(qū)—>國(guó)家OLAP的基本概念維的層次OLAP的基本概念維成員維的一個(gè)取值稱為該維的一個(gè)維成員。若一個(gè)維是多層次的,那么該維的維成員是在不同層次的取值組合。例:時(shí)間維:日期、月份、年維成員:某年某月某日、某年某月、某年對(duì)應(yīng)一個(gè)數(shù)據(jù)項(xiàng)來(lái)說(shuō),維成員是該數(shù)據(jù)項(xiàng)在某維中位置的描述。例:對(duì)一個(gè)銷售數(shù)據(jù)而言,時(shí)間維成員“某年某月某日”就表示該銷售數(shù)據(jù)是“某年某月某日”的銷售數(shù)據(jù),“某年某月某日”是該銷售數(shù)據(jù)在時(shí)間維位置的描述。OLAP的基本概念維成員OLAP的基本概念多維數(shù)組一個(gè)多維數(shù)組可以表示為:(維1,維2,維3……,維n,變量)例:(地區(qū),時(shí)間,銷售渠道,銷售額)OLAP的基本概念多維數(shù)組OLAP的基本概念數(shù)據(jù)單元多維數(shù)組的取值稱為數(shù)據(jù)單元。

例:多維數(shù)組:(地區(qū),時(shí)間,銷售渠道,銷售額)數(shù)據(jù)單元:(北京,2002年7月,批發(fā),1000)OLAP的基本概念數(shù)據(jù)單元多維分析的基本分析動(dòng)作切片(Slice)定義1:在多維數(shù)組的某一個(gè)維上選定一維成員的操作稱為切片。即在多維數(shù)組(維1,維2,維3……,維n,變量)中選取一維,設(shè)為維i,并取其一維成員(設(shè)為“維成員Vi”),所得多維數(shù)組的子集(維1,…,維成員Vi,…,維n,變量)稱為維i上的一個(gè)切片。

例:多維數(shù)組:(地區(qū),時(shí)間,產(chǎn)品,銷售額)一個(gè)切片:(地區(qū),2002年9月,產(chǎn)品,銷售額)多維分析的基本分析動(dòng)作切片(Slice)多維分析的基本分析動(dòng)作切片(Slice)定義2:選定多維數(shù)組的一個(gè)二維子集的動(dòng)作叫作切片,即選取多維數(shù)組(維1,維2,維3……,維n,變量)中的兩個(gè)維,維i和維j,在這兩個(gè)維上取某一區(qū)間或任意維成員,而將其余的維取定一個(gè)維成員,則得到的是一個(gè)多維數(shù)組在維i和維j上的二維子集,稱這個(gè)二維子集為多維數(shù)組在維i和維j上的一個(gè)切片,表示為(維i,維j,變量)多維分析的基本分析動(dòng)作切片(Slice)多維分析的基本分析動(dòng)作切塊定義1:在多維數(shù)組的某一維上選定某一區(qū)間的維成員動(dòng)作稱為切塊,即限制多維數(shù)組在某一維上的取值空間。定義2:選取多維數(shù)組的一個(gè)三維子集的動(dòng)作稱為切塊,即選定多維數(shù)組(維1,…,維成員Vi,…,維n,變量)中的三個(gè)維:i,j,r,在這三個(gè)維上某一區(qū)間或任意維成員,而將其余的維都取定一個(gè)維成員則得到的就是多維數(shù)組在維i、維j和維r上的一個(gè)三維子集,我們稱這個(gè)三維子集為多維數(shù)組在維i、維j和維r上的一個(gè)切塊,表示為:(維i,維j,維r,變量)。多維分析的基本分析動(dòng)作切塊多維分析的基本分析動(dòng)作旋轉(zhuǎn)旋轉(zhuǎn)即是改變一個(gè)報(bào)告或頁(yè)面顯示的維方向。旋轉(zhuǎn)示例時(shí)間維產(chǎn)品維行列交換產(chǎn)品維時(shí)間維(a)多維分析的基本分析動(dòng)作旋轉(zhuǎn)時(shí)間維產(chǎn)品維行列交換產(chǎn)品維時(shí)間維(多維分析的基本分析動(dòng)作旋轉(zhuǎn)示例(續(xù))北京上海地區(qū)→銷售量銷售量產(chǎn)品↓::時(shí)間↓第一季度第二季度第一季度第二季度北京地區(qū)→時(shí)間→產(chǎn)品↓上?!海簩⒛承芯S換向列維(b)多維分析的基本分析動(dòng)作旋轉(zhuǎn)示例(續(xù))北京上海地區(qū)→銷售量銷售多維分析的基本分析動(dòng)作旋轉(zhuǎn)示例(續(xù))時(shí)間維產(chǎn)品維地區(qū)維時(shí)間維地區(qū)維產(chǎn)品維旋轉(zhuǎn)以改變頁(yè)面顯示(c)多維分析的基本分析動(dòng)作旋轉(zhuǎn)示例(續(xù))時(shí)間維產(chǎn)品維地區(qū)維時(shí)間維多維分析的基本分析動(dòng)作上鉆(drill-up)上鉆操作通過(guò)一個(gè)維的概念分層向上攀升或者通過(guò)維歸約,在數(shù)據(jù)方體上進(jìn)行聚集。下鉆(drill-down)下鉆是上鉆的逆操作,它有不太詳細(xì)的數(shù)據(jù)到更詳細(xì)的數(shù)據(jù)。下鉆可以通過(guò)沿維的概念分層向下或引入新的維來(lái)實(shí)現(xiàn)。多維分析的基本分析動(dòng)作上鉆(drill-up)OLAP的準(zhǔn)則OLAP模型必須提供多維概念視圖透明性準(zhǔn)則存取能力推測(cè)穩(wěn)定的報(bào)表能力客戶/服務(wù)器體系結(jié)構(gòu)維的等同性準(zhǔn)則動(dòng)態(tài)的稀疏矩陣處理準(zhǔn)則多用戶支持能力準(zhǔn)則非受限的跨維操作直觀的數(shù)據(jù)操縱靈活的報(bào)表生成不受限的維與聚集層次OLAP的準(zhǔn)則OLAP模型必須提供多維概念視圖OLAP實(shí)現(xiàn)基于多維數(shù)據(jù)庫(kù)的OLAP實(shí)現(xiàn)基于關(guān)系數(shù)據(jù)庫(kù)的OLAP實(shí)現(xiàn)OLAP實(shí)現(xiàn)基于多維數(shù)據(jù)庫(kù)的OLAP實(shí)現(xiàn)RDBMS與MDDB數(shù)據(jù)組織比較產(chǎn)品名稱地區(qū)銷售量冰箱冰箱冰箱彩電彩電彩電空調(diào)空調(diào)空調(diào)東北西北華北東北西北華北東北西北華北506010040708090120140東北西北華北冰箱空調(diào)彩電506010040708090120140(a)(b)RDBMS與MDDB數(shù)據(jù)組織比較產(chǎn)品名稱地區(qū)銷售量冰箱東北5RDBMS與MDDB

在綜合數(shù)據(jù)存放上的比較產(chǎn)品名稱地區(qū)銷售量冰箱冰箱冰箱冰箱彩電彩電彩電彩電空調(diào)空調(diào)空調(diào)空調(diào)總和總和總和總和東北西北華北總和東北西北華北總和東北西北華北總和東北西北華北總和506010021040708019090120140350180250320750東北西北華北總和冰箱空調(diào)彩電總和506010021040708019090120140350180250320750(b)(a)RDBMS與MDDB

在綜合數(shù)據(jù)存放上的比較產(chǎn)品名稱地區(qū)銷售RDBMS與MDDB比較關(guān)系數(shù)據(jù)庫(kù)采用關(guān)系來(lái)表達(dá)某產(chǎn)品在某地區(qū)的銷售情況,而多維數(shù)據(jù)庫(kù)中的數(shù)據(jù)組織形式采用了二維矩陣的形式。顯然,二維矩陣比關(guān)系表達(dá)更清晰而且占用存儲(chǔ)少。關(guān)于綜合數(shù)據(jù):對(duì)關(guān)系表而言,當(dāng)數(shù)據(jù)苦太大時(shí),預(yù)先處理計(jì)算各種綜合需要的時(shí)間過(guò)長(zhǎng),并且這樣會(huì)破壞列定義的統(tǒng)一語(yǔ)義。由于在MDDB中,數(shù)據(jù)可以直接按行或列累加,并且由于MDDB不象關(guān)系表那樣重復(fù)出現(xiàn)產(chǎn)品和地區(qū)信息,因此其統(tǒng)計(jì)速度遠(yuǎn)超過(guò)RDBMS。RDBMS與MDDB比較關(guān)系數(shù)據(jù)庫(kù)采用關(guān)系來(lái)表達(dá)某產(chǎn)品在某地維的層次關(guān)系地區(qū)總和西北地區(qū)東北地區(qū)華北地區(qū)簡(jiǎn)單層次關(guān)系的層次圖維的層次關(guān)系地區(qū)總和西北地區(qū)東北地區(qū)華北地區(qū)簡(jiǎn)單層次關(guān)系的層維的層次關(guān)系地區(qū)總和遼寧省華北地區(qū)東北地區(qū)西北地區(qū)沈陽(yáng)市大連市黑龍江省吉林省維的層次關(guān)系地區(qū)總和遼寧省華北地區(qū)東北地區(qū)西北地區(qū)沈陽(yáng)市大連維的層次關(guān)系產(chǎn)品維時(shí)間維西北陜西甘肅…:寧夏東北黑龍江吉林遼寧沈陽(yáng)大連

有關(guān)維的層次信息需要放在元數(shù)據(jù)中,這樣系統(tǒng)在進(jìn)行各種綜合查詢時(shí),就能通過(guò)元數(shù)據(jù)的信息區(qū)分不同的維層次,從而正確的執(zhí)行查詢。維的層次關(guān)系產(chǎn)品維時(shí)間維西北陜西甘肅…:寧夏東北黑龍江吉林遼類類是指按一定的劃分標(biāo)準(zhǔn)對(duì)維成員全集的一個(gè)分類劃分。用集合論的概念來(lái)講,設(shè)全體維成員為一個(gè)全集,則類是該全集的一個(gè)劃分。產(chǎn)品維東北西北華北華南…東北西北華北華南…按“產(chǎn)品”銷地劃分按“產(chǎn)品”產(chǎn)地劃分維層次關(guān)系類劃分1類劃分2類類是指按一定的劃分標(biāo)準(zhǔn)對(duì)維成員全集的一個(gè)分類劃分。用集合論維層次和類的區(qū)別層次和類表達(dá)的意義不同維層次表達(dá)的是維所描述的變量的不同綜合層次。維層次越高,對(duì)應(yīng)綜合層次越高,粒度也越大。維層次越多,粒度層次也越豐富。表現(xiàn)在層次圖中,父子結(jié)點(diǎn)的關(guān)系就是層次關(guān)系。維成員的類表達(dá)則是某一子集維成員的共同特征。這個(gè)共同特征由類屬性的某一個(gè)值來(lái)表征。表現(xiàn)在層次圖中,父子結(jié)點(diǎn)之間不存在類的關(guān)系,同一層次的維成員才可以劃分為類。維層次和類的區(qū)別層次和類表達(dá)的意義不同維層次和類的區(qū)別在層次和類上進(jìn)行的分析動(dòng)作不同在維層次關(guān)系上進(jìn)行的分析主要有上卷和下鉆兩種,其分析路徑就是層次圖中從根到葉或從葉到根的一條路徑。按照維成員的類進(jìn)行的分析主要有兩個(gè)目的:分類和歸納。即首先選擇某個(gè)屬性來(lái)對(duì)維成員的全集進(jìn)行分類,然后再在分類的基礎(chǔ)上歸納總結(jié)出類的共同特征(或一類別區(qū)別與他類的特征)。表現(xiàn)在層次圖上,按照維成員的類進(jìn)行的分析是對(duì)兄弟結(jié)點(diǎn)之間的關(guān)系的分析,因此不可能跨越不同的層次。實(shí)際分析中,兩種分析經(jīng)常交叉組合在一起。維層次和類的區(qū)別在層次和類上進(jìn)行的分析動(dòng)作不同時(shí)間序列數(shù)據(jù)類型與其他維不同,時(shí)間維包含著特有的周期,不同的周期之間存在著轉(zhuǎn)化規(guī)則。按照時(shí)間順序排列的一系列的數(shù)據(jù)稱為時(shí)間序列數(shù)據(jù)。時(shí)間序列模型的優(yōu)點(diǎn)存放在一個(gè)數(shù)據(jù)單元中的時(shí)間序列數(shù)據(jù)已經(jīng)包含了時(shí)間信息,因而可以省去時(shí)間維,簡(jiǎn)化了對(duì)時(shí)間的處理。多維數(shù)據(jù)庫(kù)對(duì)數(shù)據(jù)單元的數(shù)目是有限制的,采用時(shí)間序列類型可以大大減少多維數(shù)據(jù)庫(kù)數(shù)據(jù)單元的數(shù)目。時(shí)間序列數(shù)據(jù)類型與其他維不同,時(shí)間維包含著特有的周期,不同的時(shí)間序列數(shù)據(jù)存儲(chǔ)ddddddddddddddweekweekweekweekddddddddddddddweek

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論