數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘課件_第1頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘課件_第2頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘課件_第3頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘課件_第4頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘課件_第5頁(yè)
已閱讀5頁(yè),還剩40頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第3章

聯(lián)機(jī)分析處理(2)13.4OALP的多維數(shù)據(jù)分析(下)3.4.3廣義OLAP功能3.4.4數(shù)據(jù)立方體3.4.5多維數(shù)據(jù)分析的MDX語(yǔ)言及其應(yīng)用23.4.3廣義OLAP功能

1、基本代理操作

當(dāng)系統(tǒng)處于某種特殊狀態(tài)時(shí)“代理”提醒分析員。

(1)示警報(bào)告定義一些條件,一但條件滿足,系統(tǒng)會(huì)提醒分析員去做分析。如每日?qǐng)?bào)告完成或月定貨完成等通知分析員作分析。(2)時(shí)間報(bào)告

按日歷和時(shí)鐘提醒分析員。

(3)異常報(bào)告當(dāng)超出邊界條件時(shí)提醒分析員。如銷售情況已超出預(yù)定義閾值的上限或下限時(shí)提醒分析員。3

2.?dāng)?shù)據(jù)分析模型(1)絕對(duì)模型通過(guò)比較歷史數(shù)據(jù)值或行為來(lái)描述過(guò)去發(fā)生的事實(shí)。絕對(duì)模型只能對(duì)歷史數(shù)據(jù)進(jìn)行比較,并且利用回歸分析等一些分析方法得出趨勢(shì)信息。4(2)解釋模型利用系統(tǒng)已有的多層次的綜合路徑層層細(xì)化,找出事實(shí)發(fā)生的原因。

假設(shè)今年銷售量下降,那么解釋模型應(yīng)當(dāng)能找出原因,即下滑與時(shí)間、地區(qū)、商品及銷售渠道四者中的何種因素有關(guān)。5(3)思考模型說(shuō)明在一維或多維上引入一組具體變量或參數(shù)后將會(huì)發(fā)生什么。例如該公司決策者為了了解某商品的銷售量是否與顧客的年齡有關(guān),引入了行變量-年齡,即在當(dāng)前的多維視圖上增加了顧客的年齡維。6(4)公式模型該模型表示在多個(gè)維上,需要引入哪些變量或參數(shù),以及引入后所產(chǎn)生的結(jié)果。公式模型自動(dòng)完成上述變量引入工作,從而最終找出與銷量有關(guān)的全部因素,并給出了引入后的結(jié)果。73.商業(yè)分析模型(1)分銷渠道的分析模型(2)客戶利潤(rùn)貢獻(xiàn)度模型(3)客戶關(guān)系(信用)優(yōu)化模型(4)風(fēng)險(xiǎn)評(píng)估模型8(1)分銷渠道的分析模型通過(guò)客戶、渠道、產(chǎn)品或服務(wù)三者之間的關(guān)系,了解客戶的購(gòu)買行為、客戶和渠道對(duì)業(yè)務(wù)收入的貢獻(xiàn)、哪些客戶比較喜好由什么渠道在何時(shí)和銀行打交道。為此,銀行需要建立客戶購(gòu)買傾向模型和渠道喜好模型等。9(2)客戶利潤(rùn)貢獻(xiàn)度模型通過(guò)該模型能了解每一位客戶對(duì)銀行的總利潤(rùn)貢獻(xiàn)度。知道哪些利潤(rùn)高的客戶需要留住,采用什么方法留住客戶,交叉銷售改善客戶的利潤(rùn)貢獻(xiàn)度,哪些客戶應(yīng)該爭(zhēng)取,完成個(gè)性化服務(wù)。10(3)客戶關(guān)系(信用)優(yōu)化模型銀行對(duì)客戶的每一筆交易中,知道客戶需要什么產(chǎn)品或服務(wù),例如,定期存款是希望退休養(yǎng)老使用,申請(qǐng)信用卡需要現(xiàn)金消費(fèi),詢問(wèn)放貸利息需要住房貸款等。通過(guò)模型計(jì)算,主動(dòng)地對(duì)客戶溝通并進(jìn)行交叉銷售,達(dá)到留住客戶和增加利潤(rùn)的目標(biāo)。11(4)風(fēng)險(xiǎn)評(píng)估模型模擬風(fēng)險(xiǎn)和利潤(rùn)間的關(guān)系,建立風(fēng)險(xiǎn)評(píng)估的數(shù)學(xué)模型:

在滿足高利潤(rùn)、低風(fēng)險(xiǎn)客戶需求的前提下,達(dá)到銀行收益的極大化。123.4.4數(shù)據(jù)立方體1.概述

1996年,JimGray等首次提出了數(shù)據(jù)立方體(DataCube)的概念。

數(shù)據(jù)立方體就是數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)圖(圖2.1)中的綜合數(shù)據(jù)層(輕度和高度)。基于數(shù)據(jù)立方體的生成方法一直是OLAP和數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域研究者所關(guān)注的熱點(diǎn)問(wèn)題。13對(duì)于多維數(shù)據(jù)分析而言,本質(zhì)上是沿著不同的維度進(jìn)行數(shù)據(jù)獲取的過(guò)程。在數(shù)據(jù)立方體中,不同維度組合構(gòu)成了不同的子立方體。不同維值的組合及其對(duì)應(yīng)的度量值構(gòu)成了不同的查詢和分析。數(shù)據(jù)立方體的構(gòu)建和維護(hù)等計(jì)算方法成為了多維數(shù)據(jù)分析研究的關(guān)鍵問(wèn)題。14OLAP和數(shù)據(jù)倉(cāng)庫(kù)通常預(yù)先計(jì)算好不同細(xì)節(jié)層次和不同維屬性集合上的聚集,并把聚集的結(jié)果存儲(chǔ)到物理磁盤(pán)上(稱為物化)。把所有可能的聚集(即全聚集)都計(jì)算出來(lái),可以得到最快的系統(tǒng)查詢響應(yīng)時(shí)間,15數(shù)據(jù)立方體是在所有可能組合的維上進(jìn)行分組聚集運(yùn)算(groupby操作)的總和。聚集函數(shù)有:sum()、count()、average()等。數(shù)據(jù)立方體中的每一個(gè)元組(立方體的度量屬性)被稱為該立方體的上個(gè)格(

cell),每個(gè)格在n個(gè)維屬性上有相應(yīng)的值。在未參與groupby操作的維屬性上具有All值(用﹡表示),而在參與groupby

操作的維屬性具有非All值。16例如,對(duì)于一個(gè)具有三個(gè)維屬性A、B、C和一個(gè)度量屬性M的數(shù)據(jù)集R(A,B,C,M).其對(duì)應(yīng)的數(shù)據(jù)立方體是在維屬性集{},{A},{B},{C},{AB},{AC},{BC},{ABC}上分別對(duì)度量屬性進(jìn)行聚集操作后的并集。其中:{}表示進(jìn)行聚集運(yùn)算{*,*,*,聚集函數(shù)(M)};{A}表示進(jìn)行聚集運(yùn)算{A,*,*,聚集函數(shù)(M)}等。17這些聚集運(yùn)算與操作結(jié)果是數(shù)據(jù)倉(cāng)庫(kù)中的一種高度綜合級(jí)數(shù)據(jù).實(shí)質(zhì)上是進(jìn)行了數(shù)據(jù)的濃縮(壓縮),也可稱為泛化。最終所獲得的這些數(shù)據(jù)立方體可用于決策支持、知識(shí)發(fā)現(xiàn),或其它許多應(yīng)用。18例如,對(duì)如表3.12所示的超市的基本數(shù)據(jù)集POS(product,type,counter,price),前三個(gè)屬性分別代表(產(chǎn)品名、類型、柜臺(tái))為維屬性.

現(xiàn)在對(duì)度量屬性價(jià)格price進(jìn)行取平均值(average)的聚集運(yùn)算,通過(guò)Cube

操作可以得到一個(gè)具有三個(gè)維屬性和一個(gè)度量屬性的數(shù)據(jù)立方體Dpos,如表3.13所示。19表3.12基本數(shù)據(jù)集POS

product type counter price KONKA TVSET 011000TCL TVSET 011500NOKIA PHONE 01200020product type counter M(AVG(price))﹡

﹡1500KONKA ﹡

﹡1000TCL

﹡1500NOKIA

﹡2000﹡

TVSET ﹡1250﹡PHONE﹡2000﹡

﹡011500KONKA TVSET ﹡1000TCL TVSET ﹡1500NOKIAPHONE﹡2000﹡TVSET 011250﹡PHONE 012000KONKA ﹡011000TCL ﹡011500NOKIA﹡012000KONKATVSET 011000TCL TVSET 011500NOKIAPHONE 01200021全聚集的數(shù)據(jù)占據(jù)的空間是原始數(shù)據(jù)空間的數(shù)百倍,花費(fèi)很長(zhǎng)時(shí)間。故數(shù)據(jù)立方體構(gòu)建部分物化:即按照一定的規(guī)則選擇數(shù)據(jù)立方體的一個(gè)子集進(jìn)行預(yù)先計(jì)算。這種選擇是存儲(chǔ)空間和響應(yīng)時(shí)間的一種折衷。22典型的壓縮型數(shù)據(jù)立方體,包括:

冰山立方體、緊湊數(shù)據(jù)立方體、外殼片段立方體等。隨著流式數(shù)據(jù)處理技術(shù)的發(fā)展,流立方體生成方法越來(lái)越受到領(lǐng)域研究者的關(guān)注。23(1)冰山立方體在冰山立方體的生成計(jì)算中,僅聚集高于(或低于)某個(gè)閾值的子立方體。數(shù)據(jù)立方體的空間多數(shù),被低(或高)度量值的數(shù)據(jù)單元所占據(jù),而這些數(shù)據(jù)單元往往是分析者很少關(guān)心的內(nèi)容。這種方法的優(yōu)點(diǎn)是能夠減少構(gòu)建數(shù)據(jù)單元所占用的存儲(chǔ)空間。24例如,在表3.12中,設(shè)定聚集運(yùn)算條件:M(AVG(price))

≤1250,其冰山立方體為表3.14所示。表3.14

基本數(shù)據(jù)集POS的冰山立方體

product type counter M(AVG(price))KONKA ﹡

﹡1000﹡

TVSET ﹡1250KONKA TVSET ﹡1000﹡TVSET 011250KONKA ﹡011000KONKATVSET 01100025(2)緊湊數(shù)據(jù)立方體生成方法緊湊數(shù)據(jù)立方體生成方法的一個(gè)重要特點(diǎn)是能夠保持?jǐn)?shù)據(jù)立方體的鉆取操作的語(yǔ)義。這種緊湊數(shù)據(jù)立方體生成方法在壓縮的方式和表現(xiàn)形式上表現(xiàn)出有不同的特征,包括:濃縮立方體(Condensedcube)、商立方體(Quotientcube)等,這些都是近年來(lái)出現(xiàn)的一系列新型的數(shù)據(jù)立方體的存儲(chǔ)結(jié)構(gòu)。26濃縮立方體濃縮立方體計(jì)算方法的基本原理是,在某些屬性或組合下的一個(gè)元組相對(duì)于其它元組具有唯一性,則稱為基本單一元組(BST,BaseSingleTuple)。當(dāng)它的超集(增加屬性組合)也是BST,且都是取同一度量值,在聚集運(yùn)算時(shí),可以把這些屬性的度量值對(duì)應(yīng)的元組壓縮成一條元組存儲(chǔ)。27屬性{product}的所有超集{product,type},{product,counter},{product,type,counter }也是BST,且都具有相同值。如{KONKA,﹡,﹡,1000},{KONKA,TVSET,﹡,1000},{KONKA,﹡,01,1000},{KONKA,TVSET,01,1000},故可以將這些元組壓縮存儲(chǔ)為一條元組{KONKA,﹡,﹡,1000}。同理,屬性{type}中,其屬性值為PHONE的元組是BST,它和它的超集也可以壓縮存儲(chǔ)為一條元組{﹡,PHONE,﹡,2000}。經(jīng)過(guò)這樣的濃縮后,表3.13的的濃縮立方體為表3.15。28表3.15基本數(shù)據(jù)集POS的濃縮立方體product type counter M(AVG(price))﹡

﹡1500KONKA ﹡

﹡1000TCL

﹡1500NOKIA

﹡2000﹡

TVSET ﹡1250﹡PHONE﹡2000﹡

﹡011500﹡TVSET 01125029可以看出濃縮立方體是全聚集立方體的有效濃縮。由于在一般的應(yīng)用中,當(dāng)屬性個(gè)數(shù)較多時(shí),BST是廣泛存在的。一般來(lái)說(shuō),其壓縮率可以達(dá)到30%~7O%。303.4.5多維數(shù)據(jù)分析的MDX語(yǔ)言

及其應(yīng)用1.MDX語(yǔ)言簡(jiǎn)介MDX(MultiDimensionaleXpressions,多維表達(dá)式)是聯(lián)機(jī)分析處理(OLAP)和數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用中最廣泛使用的軟件語(yǔ)言(維度語(yǔ)言)。MDX語(yǔ)言可以查詢和管理多維數(shù)據(jù)倉(cāng)庫(kù),MDX表達(dá)式可以用來(lái)創(chuàng)建新的計(jì)算成員。31MDX與SQL的比較相同:MDX與SQL都包含“選擇對(duì)象”(select子句)、“數(shù)據(jù)源”(from子句)以及“指定條件”(where子句),不同:MDX結(jié)合了多維數(shù)據(jù)集,指定“維度”(On子句)和“創(chuàng)建表達(dá)式計(jì)算的新成員”(MEMBER子句)。MDX語(yǔ)法還包含功能強(qiáng)大的函數(shù),以協(xié)助數(shù)據(jù)處理與挖掘。32具體說(shuō)明

(1)關(guān)鍵字SELECT后帶需要檢索內(nèi)容的子句。 (2)關(guān)鍵字ON和維度(坐標(biāo)軸)的名稱一起使用,以指定數(shù)據(jù)庫(kù)維度顯示位置。(3)MDX用大括號(hào){}包含某個(gè)特定維度或者多個(gè)維度的一組元素。一個(gè)維度(度量維度或時(shí)間維度)的多個(gè)元素間用逗號(hào)(,)隔開(kāi)。元素名稱用方括號(hào)[]引用,并且不同組成部分之間用點(diǎn)號(hào)(.)分隔。33(4)在一個(gè)MDX查詢中,不同查詢的維度(坐標(biāo)軸)的數(shù)量可能不同。前三個(gè)坐標(biāo)軸以“columns”、“rows”及“pages”命名,更多的坐標(biāo)軸命名為:chapters、section等。也可以統(tǒng)一用axis(0)、axis(l)、axis(2)等表示坐標(biāo)軸。 (5)MDX查詢中FROM子旬指明用于查詢數(shù)據(jù)的多維數(shù)據(jù)集。 (6)WHERE子句指定在列或行(或者其他的坐標(biāo)軸)上沒(méi)有出現(xiàn)的多維數(shù)據(jù)集的成 員。 342.多維數(shù)據(jù)查詢?cè)诙嗑S數(shù)據(jù)集中用得最多的查詢是對(duì)多維數(shù)據(jù)的切片查詢,通過(guò)不同角度的切片來(lái)發(fā)現(xiàn)問(wèn)題。通過(guò)下鉆操作一般用來(lái)查詢問(wèn)題的原因。下面分別通過(guò)切片查詢和向下鉆取操作例子進(jìn)行說(shuō)明。35例1:切片查詢?cè)诙嗑S數(shù)據(jù)集Sales中,顧客所在的MA州,對(duì)時(shí)間2009年Q1(1季度)和Q2(2季度)的銷售額DollarSales和銷售數(shù)量UnitSales的情況,進(jìn)行切片查詢。MDX語(yǔ)言的切片查詢語(yǔ)句:36SELECT {[Measures].[DollarSales],[Measures].[UnitSales]} Oncolumns, {[Time].[Q1,2009],[Time].[Q2,2009]}Onrows FROM[Sales] WHERE([Customer].[MA]) 37切片查詢結(jié)果DollarSalesUnitSalesQ1,200996,949.13866Q2,2009

104,510.2

412538例2:向下鉆取操作一種常用的查詢是獲得一個(gè)成員的子成員。這么做的目的是執(zhí)行一個(gè)向下鉆取操作,即獲得基于一個(gè)共同父成員的范圍內(nèi)的成員。MDX提供.Children函數(shù)來(lái)完成這個(gè)操作。39下面將對(duì)多維數(shù)據(jù)集Sales中,顧客所在的TX州,向下鉆取查詢:工具產(chǎn)品[Product].[Tools]成員和它的子成員(Tool1、…Tool5),以及2009年Q3(3季度)成員的子成員(7、8、9)三個(gè)月的銷售數(shù)量[Measures].[UnitSales]情況。MDX語(yǔ)言的向下鉆取操作語(yǔ)句如下:40SELECT {[Time].[Q3,2009].Children}oncolumns, {[Product].[Tools],[Product].[Tools].Children} Onr

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論