版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的OLAP技術(shù)數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的OLAP技術(shù)1數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的OLAP技術(shù)什么是數(shù)據(jù)倉(cāng)庫(kù)?多維數(shù)據(jù)模型數(shù)據(jù)倉(cāng)庫(kù)的體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn)數(shù)據(jù)立方體技術(shù)的進(jìn)一步發(fā)展從數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)挖掘數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的OLAP技術(shù)什么是數(shù)據(jù)倉(cāng)庫(kù)?2什么是數(shù)據(jù)倉(cāng)庫(kù)?數(shù)據(jù)倉(cāng)庫(kù)的定義很多,但卻很難有一種嚴(yán)格的定義它是一個(gè)提供決策支持功能的數(shù)據(jù)庫(kù),它與公司的操作數(shù)據(jù)庫(kù)分開(kāi)維護(hù)。為統(tǒng)一的歷史數(shù)據(jù)分析提供堅(jiān)實(shí)的平臺(tái),對(duì)信息處理提供支持“數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、隨時(shí)間而變化的、不容易丟失的數(shù)據(jù)集合,支持管理部門(mén)的決策過(guò)程.”—W.H.Inmon(數(shù)據(jù)倉(cāng)庫(kù)構(gòu)造方面的領(lǐng)頭設(shè)計(jì)師)建立數(shù)據(jù)倉(cāng)庫(kù)(datawarehousing):構(gòu)造和使用數(shù)據(jù)倉(cāng)庫(kù)的過(guò)程。什么是數(shù)據(jù)倉(cāng)庫(kù)?數(shù)據(jù)倉(cāng)庫(kù)的定義很多,但卻很難有一種嚴(yán)格的定義3數(shù)據(jù)倉(cāng)庫(kù)關(guān)鍵特征一——面向主題圍繞一些主題,如顧客、供應(yīng)商、產(chǎn)品等關(guān)注決策者的數(shù)據(jù)建模與分析,而不是集中于組織機(jī)構(gòu)的日常操作和事務(wù)處理。排除對(duì)于決策無(wú)用的數(shù)據(jù),提供特定主題的簡(jiǎn)明視圖。數(shù)據(jù)倉(cāng)庫(kù)關(guān)鍵特征一——面向主題圍繞一些主題,如顧客、供應(yīng)商、4數(shù)據(jù)倉(cāng)庫(kù)關(guān)鍵特征二——數(shù)據(jù)集成一個(gè)數(shù)據(jù)倉(cāng)庫(kù)是通過(guò)集成多個(gè)異種數(shù)據(jù)源來(lái)構(gòu)造的。關(guān)系數(shù)據(jù)庫(kù),一般文件,聯(lián)機(jī)事務(wù)處理記錄使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù)。確保命名約定、編碼結(jié)構(gòu)、屬性度量等的一致性。當(dāng)數(shù)據(jù)被移到數(shù)據(jù)倉(cāng)庫(kù)時(shí),它們要經(jīng)過(guò)轉(zhuǎn)化。數(shù)據(jù)倉(cāng)庫(kù)關(guān)鍵特征二——數(shù)據(jù)集成一個(gè)數(shù)據(jù)倉(cāng)庫(kù)是通過(guò)集成多個(gè)異種5數(shù)據(jù)倉(cāng)庫(kù)關(guān)鍵特征三——隨時(shí)間而變化數(shù)據(jù)倉(cāng)庫(kù)的時(shí)間范圍比操作數(shù)據(jù)庫(kù)系統(tǒng)要長(zhǎng)的多。操作數(shù)據(jù)庫(kù)系統(tǒng):主要保存當(dāng)前數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù):從歷史的角度提供信息(比如過(guò)去5-10年)數(shù)據(jù)倉(cāng)庫(kù)中的每一個(gè)關(guān)鍵結(jié)構(gòu)都隱式或顯式地包含時(shí)間元素,而操作數(shù)據(jù)庫(kù)中的關(guān)鍵結(jié)構(gòu)可能就不包括時(shí)間元素。數(shù)據(jù)倉(cāng)庫(kù)關(guān)鍵特征三——隨時(shí)間而變化數(shù)據(jù)倉(cāng)庫(kù)的時(shí)間范圍比操作數(shù)6數(shù)據(jù)倉(cāng)庫(kù)關(guān)鍵特征四——數(shù)據(jù)不易丟失盡管數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)來(lái)自于操作數(shù)據(jù)庫(kù),但他們卻是在物理上分離保存的。操作數(shù)據(jù)庫(kù)的更新操作不會(huì)出現(xiàn)在數(shù)據(jù)倉(cāng)庫(kù)環(huán)境下。不需要事務(wù)處理,恢復(fù),和并發(fā)控制等機(jī)制只需要兩種數(shù)據(jù)訪問(wèn):數(shù)據(jù)的初始轉(zhuǎn)載和數(shù)據(jù)訪問(wèn)(讀操作)數(shù)據(jù)倉(cāng)庫(kù)關(guān)鍵特征四——數(shù)據(jù)不易丟失盡管數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)來(lái)自于7數(shù)據(jù)倉(cāng)庫(kù)與異種數(shù)據(jù)庫(kù)集成傳統(tǒng)的異種數(shù)據(jù)庫(kù)集成:在多個(gè)異種數(shù)據(jù)庫(kù)上建立包裝程序(wrappers)和中介程序(mediators)查詢(xún)驅(qū)動(dòng)方法——當(dāng)從客戶(hù)端傳過(guò)來(lái)一個(gè)查詢(xún)時(shí),首先使用元數(shù)據(jù)字典將查詢(xún)轉(zhuǎn)換成相應(yīng)異種數(shù)據(jù)庫(kù)上的查詢(xún);然后,將這些查詢(xún)映射和發(fā)送到局部查詢(xún)處理器缺點(diǎn):復(fù)雜的信息過(guò)慮和集成處理,競(jìng)爭(zhēng)資源數(shù)據(jù)倉(cāng)庫(kù):更新驅(qū)動(dòng)將來(lái)自多個(gè)異種源的信息預(yù)先集成,并存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中,供直接查詢(xún)和分析高性能數(shù)據(jù)倉(cāng)庫(kù)與異種數(shù)據(jù)庫(kù)集成傳統(tǒng)的異種數(shù)據(jù)庫(kù)集成:8數(shù)據(jù)倉(cāng)庫(kù)與操作數(shù)據(jù)庫(kù)系統(tǒng)操作數(shù)據(jù)庫(kù)系統(tǒng)的主要任務(wù)是聯(lián)機(jī)事務(wù)處理OLTP日常操作:購(gòu)買(mǎi),庫(kù)存,銀行,制造,工資,注冊(cè),記帳等數(shù)據(jù)倉(cāng)庫(kù)的主要任務(wù)是聯(lián)機(jī)分析處理OLAP數(shù)據(jù)分析和決策OLTP和OLAP的主要區(qū)別:用戶(hù)和系統(tǒng)的面向性:顧客VS.市場(chǎng)數(shù)據(jù)內(nèi)容:當(dāng)前的、詳細(xì)的數(shù)據(jù)VS.歷史的、匯總的數(shù)據(jù)數(shù)據(jù)庫(kù)設(shè)計(jì):實(shí)體-聯(lián)系模型(ER)和面向應(yīng)用的數(shù)據(jù)庫(kù)設(shè)計(jì)VS.星型/雪花模型和面向主題的數(shù)據(jù)庫(kù)設(shè)計(jì)視圖:當(dāng)前的、企業(yè)內(nèi)部的數(shù)據(jù)VS.經(jīng)過(guò)演化的、集成的數(shù)據(jù)訪問(wèn)模式:事務(wù)操作VS.只讀查詢(xún)(但很多是復(fù)雜的查詢(xún))數(shù)據(jù)倉(cāng)庫(kù)與操作數(shù)據(jù)庫(kù)系統(tǒng)操作數(shù)據(jù)庫(kù)系統(tǒng)的主要任務(wù)是聯(lián)機(jī)事務(wù)處9OLTP系統(tǒng)和OLAP系統(tǒng)的比較特征OLTPOLAP任務(wù)特點(diǎn)操作處理信息處理面向事務(wù)分析用戶(hù)辦事員、DBA、數(shù)據(jù)庫(kù)專(zhuān)業(yè)人員經(jīng)理、主管、數(shù)據(jù)分析員功能日常操作長(zhǎng)期信息分析、決策支持DB設(shè)計(jì)基于E-R,面向應(yīng)用星型/雪花,面向主體數(shù)據(jù)最新的、詳細(xì)的歷史的、匯總的視圖詳細(xì)的、二維關(guān)系型匯總的、多維的任務(wù)單位簡(jiǎn)短的事務(wù)復(fù)雜的查詢(xún)?cè)L問(wèn)數(shù)據(jù)量數(shù)十個(gè)數(shù)百萬(wàn)個(gè)用戶(hù)數(shù)數(shù)千個(gè)數(shù)百個(gè)DB規(guī)模100M-數(shù)GB100GB-數(shù)TB優(yōu)先性高性能、高可用性高靈活性、端點(diǎn)用戶(hù)自治度量事務(wù)吞吐量查詢(xún)吞吐量、響應(yīng)時(shí)間OLTP系統(tǒng)和OLAP系統(tǒng)的比較特征OLTPOLAP任務(wù)特點(diǎn)10為什么需要一個(gè)分離的數(shù)據(jù)倉(cāng)庫(kù)?提高兩個(gè)系統(tǒng)的性能DBMS是為OLTP而設(shè)計(jì)的:存儲(chǔ)方式,索引,并發(fā)控制,恢復(fù)數(shù)據(jù)倉(cāng)庫(kù)是為OLAP而設(shè)計(jì):復(fù)雜的OLAP查詢(xún),多維視圖,匯總不同的功能和不同的數(shù)據(jù):歷史數(shù)據(jù):決策支持需要?dú)v史數(shù)據(jù),而這些數(shù)據(jù)在操作數(shù)據(jù)庫(kù)中一般不會(huì)去維護(hù)數(shù)據(jù)匯總:決策支持需要將來(lái)自異種源的數(shù)據(jù)統(tǒng)一(如聚集和匯總)數(shù)據(jù)質(zhì)量:不同的源使用不一致的數(shù)據(jù)表示、編碼和格式,對(duì)這些數(shù)據(jù)進(jìn)行有效的分析需要將他們轉(zhuǎn)化后進(jìn)行集成為什么需要一個(gè)分離的數(shù)據(jù)倉(cāng)庫(kù)?提高兩個(gè)系統(tǒng)的性能11從關(guān)系表和電子表格到數(shù)據(jù)立方體數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)技術(shù)基于多維數(shù)據(jù)模型。這個(gè)模型把數(shù)據(jù)看作是數(shù)據(jù)立方體形式。多維數(shù)據(jù)模型圍繞中心主題組織,該主題用事實(shí)表表示。事實(shí)是數(shù)值度量的。數(shù)據(jù)立方體允許以多維數(shù)據(jù)建模和觀察。它由維和事實(shí)定義。維是關(guān)于一個(gè)組織想要記錄的視角或觀點(diǎn)。每個(gè)維都有一個(gè)表與之相關(guān)聯(lián),稱(chēng)為維表。事實(shí)表包括事實(shí)的名稱(chēng)或度量以及每個(gè)相關(guān)維表的關(guān)鍵字在數(shù)據(jù)倉(cāng)庫(kù)的研究文獻(xiàn)中,一個(gè)n維的數(shù)據(jù)的立方體叫做基本方體。給定一個(gè)維的集合,我們可以構(gòu)造一個(gè)方體的格,每個(gè)都在不同的匯總級(jí)或不同的數(shù)據(jù)子集顯示數(shù)據(jù),方體的格稱(chēng)為數(shù)據(jù)立方體。0維方體存放最高層的匯總,稱(chēng)作頂點(diǎn)方體;而存放最底層匯總的方體則稱(chēng)為基本方體。教科書(shū)第31頁(yè)從關(guān)系表和電子表格到數(shù)據(jù)立方體數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)技術(shù)基于多維12數(shù)據(jù)立方體——一個(gè)方體的格alltimeitemlocationsuppliertime,itemtime,locationtime,supplieritem,locationitem,supplierlocation,suppliertime,item,locationtime,item,suppliertime,location,supplieritem,location,suppliertime,item,location,supplier0-D(apex)cuboid1-Dcuboids2-Dcuboids3-Dcuboids4-D(base)cuboid數(shù)據(jù)立方體——一個(gè)方體的格alltimeitemlocati13數(shù)據(jù)倉(cāng)庫(kù)的概念模型最流行的數(shù)據(jù)倉(cāng)庫(kù)概念模型是多維數(shù)據(jù)模型。這種模型可以以星型模式、雪花模式、或事實(shí)星座模式的形式存在。星型模式(Starschema):事實(shí)表在中心,周?chē)鷩@地連接著維表(每維一個(gè)),事實(shí)表含有大量數(shù)據(jù),沒(méi)有冗余。雪花模式(Snowflakeschema):是星型模式的變種,其中某些維表是規(guī)范化的,因而把數(shù)據(jù)進(jìn)一步分解到附加表中。結(jié)果,模式圖形成類(lèi)似于雪花的形狀。事實(shí)星座(Factconstellations):多個(gè)事實(shí)表共享維表,這種模式可以看作星型模式集,因此稱(chēng)為星系模式(galaxyschema),或者事實(shí)星座(factconstellation)數(shù)據(jù)倉(cāng)庫(kù)的概念模型最流行的數(shù)據(jù)倉(cāng)庫(kù)概念模型是多維數(shù)據(jù)模型。這14星型模式實(shí)例
time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcitystate_or_provincecountrylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranch星型模式實(shí)例time_keytimelocation_15雪花模式實(shí)例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcity_keylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_keyitembranch_keybranch_namebranch_typebranchsupplier_keysupplier_typesuppliercity_keycitystate_or_provincecountrycity雪花模式實(shí)例time_keytimelocation_key16事實(shí)星座模式實(shí)例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountrylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranchShippingFactTabletime_keyitem_keyshipper_keyfrom_locationto_locationdollars_costunits_shippedshipper_keyshipper_namelocation_keyshipper_typeshipper事實(shí)星座模式實(shí)例time_keytimelocation_k17一種數(shù)據(jù)挖掘查詢(xún)語(yǔ)言:DMQLDMQL首先包括定義數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市的語(yǔ)言原語(yǔ),這包括兩種原語(yǔ)定義:一種是立方體定義,一種是維定義立方體定義(事實(shí)表)definecube<cube_name>[<dimension_list>]:<measure_list>維定義(維表)definedimension<dimension_name>as(<attribute_or_subdimension_list>)特殊案例(共享維表的定義)第一次作為維表定義“cubedefinition”然后:definedimension<dimension_name>as<dimension_name_first_time>incube<cube_name_first_time>一種數(shù)據(jù)挖掘查詢(xún)語(yǔ)言:DMQLDMQL首先包括定義數(shù)據(jù)倉(cāng)庫(kù)18實(shí)例:使用DMQL定義星型模式definecubesales_star[time,item,branch,location]:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)definedimensiontimeas(time_key,day,day_of_week,month,quarter,year)definedimensionitemas(item_key,item_name,brand,type,supplier_type)definedimensionbranchas(branch_key,branch_name,branch_type)definedimensionlocationas(location_key,street,city,province_or_state,country)實(shí)例:使用DMQL定義星型模式definecubesal19實(shí)例:使用DMQL定義雪花模式definecubesales_snowflake[time,item,branch,location]:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)definedimensiontimeas(time_key,day,day_of_week,month,quarter,year)definedimensionitemas(item_key,item_name,brand,type,supplier(supplier_key,supplier_type))definedimensionbranchas(branch_key,branch_name,branch_type)definedimensionlocationas(location_key,street,city(city_key,province_or_state,country))實(shí)例:使用DMQL定義雪花模式definecubesal20度量的分類(lèi)一個(gè)數(shù)據(jù)立方體的度量是一個(gè)數(shù)值函數(shù),該函數(shù)可以對(duì)數(shù)據(jù)立方體的每一個(gè)點(diǎn)求值。度量可以根據(jù)其所用的聚集函數(shù)分為三類(lèi):分布的(distributive):將函數(shù)用于n個(gè)聚集值得到的結(jié)果和將函數(shù)用于所有數(shù)據(jù)得到的結(jié)果一樣。比如:count(),sum(),min(),max()等代數(shù)的(algebraic):函數(shù)可以由一個(gè)帶M個(gè)參數(shù)的代數(shù)函數(shù)計(jì)算(M為有界整數(shù)),而每個(gè)參數(shù)值都可以有一個(gè)分布的聚集函數(shù)求得。比如:avg(),min_N(),standard_deviation()整體的(holistic):描述函數(shù)的子聚集所需的存儲(chǔ)沒(méi)有一個(gè)常數(shù)界。比如:median(),mode(),rank()度量的分類(lèi)一個(gè)數(shù)據(jù)立方體的度量是一個(gè)數(shù)值函數(shù),該函數(shù)可以對(duì)數(shù)21概念分層:location維的一個(gè)概念分層allEuropeNorth_AmericaMexicoCanadaSpainGermanyVancouverM.WindL.Chan..................allregionofficecountryTorontoFrankfurtcity概念分層:location維的一個(gè)概念分層allEurope22多維數(shù)據(jù)模型上的OLAP操作上卷(roll-up):匯總數(shù)據(jù)通過(guò)一個(gè)維的概念分層向上攀升或者通過(guò)維規(guī)約下鉆(drill-down):上卷的逆操作由不太詳細(xì)的數(shù)據(jù)到更詳細(xì)的數(shù)據(jù),可以通過(guò)沿維的概念分層向下或引入新的維來(lái)實(shí)現(xiàn)切片和切塊(sliceanddice)投影和選擇操作轉(zhuǎn)軸(pivot)立方體的重定位,可視化,或?qū)⒁粋€(gè)3維立方體轉(zhuǎn)化維一個(gè)2維平面序列其他OLAP操作鉆過(guò)(drill_across):執(zhí)行涉及多個(gè)事實(shí)表的查詢(xún)鉆透(drill_through):使用關(guān)系SQL機(jī)制,鉆到數(shù)據(jù)立方體的底層,到后端關(guān)系表多維數(shù)據(jù)模型上的OLAP操作上卷(roll-up):匯總數(shù)據(jù)23數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì):一個(gè)商務(wù)分析框架數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)中必須考慮的四種視圖自頂向下視圖允許我們選擇數(shù)據(jù)倉(cāng)庫(kù)所需的相關(guān)信息,這些信息能夠滿足當(dāng)前和未來(lái)商務(wù)的需求。數(shù)據(jù)源視圖揭示被操作數(shù)據(jù)庫(kù)系統(tǒng)所捕獲、存儲(chǔ)和管理的信息數(shù)據(jù)倉(cāng)庫(kù)視圖有事實(shí)表和維表所組成,提供存放在數(shù)據(jù)倉(cāng)庫(kù)內(nèi)部的信息,包括預(yù)先計(jì)算的綜合與技術(shù),以及關(guān)于源、日期和源時(shí)間等信息商務(wù)查詢(xún)視圖從最終用戶(hù)的角度透視數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì):一個(gè)商務(wù)分析框架數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)中必須考慮的四種視24數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)過(guò)程(P43)自頂向下法、自底向上法或者兩者的混合方法自頂向下法:由總體設(shè)計(jì)和規(guī)劃開(kāi)始(成熟)自底向上法:以實(shí)驗(yàn)和原型開(kāi)始(快速)從軟件過(guò)程的觀點(diǎn)瀑布式方法:在進(jìn)行下一步前,每一步都進(jìn)行結(jié)構(gòu)化和系統(tǒng)的分析螺旋式方法:功能漸增的系統(tǒng)的快速產(chǎn)生,相繼版本之間間隔很短典型的數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)過(guò)程選取待建模的商務(wù)過(guò)程選取商務(wù)過(guò)程的粒度選取用于每個(gè)事實(shí)表記錄的維選取將安放在事實(shí)表中的度量數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)過(guò)程(P43)自頂向下法、自底向上法或者兩者的25三層數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)DataWarehouseExtractTransformLoadRefreshOLAP服務(wù)器AnalysisQueryReportsDataminingMonitor&IntegratorMetadata數(shù)據(jù)源前端工具ServeDataMartsOperational
DBsothersources數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器OLAPServer三層數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)DataExtractOLAP服務(wù)器Anal26三種數(shù)據(jù)倉(cāng)庫(kù)模型(從結(jié)構(gòu)的角度)企業(yè)倉(cāng)庫(kù)搜集關(guān)于跨越整個(gè)組織的主題的所有信息,來(lái)自一個(gè)或多個(gè)操作的系統(tǒng),跨功能的。數(shù)據(jù)集市企業(yè)范圍數(shù)據(jù)的一個(gè)子集,對(duì)于特定的客戶(hù)是有用的。其范圍限于選定的主題,比如一個(gè)商場(chǎng)的數(shù)據(jù)集市獨(dú)立的數(shù)據(jù)集市VS.非獨(dú)立的數(shù)據(jù)集市(數(shù)據(jù)來(lái)自于企業(yè)數(shù)據(jù)倉(cāng)庫(kù))虛擬倉(cāng)庫(kù)操作數(shù)據(jù)庫(kù)上的一系列視圖只有一些可能的匯總視圖被物化三種數(shù)據(jù)倉(cāng)庫(kù)模型(從結(jié)構(gòu)的角度)企業(yè)倉(cāng)庫(kù)27數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)自頂向下開(kāi)發(fā):一種系統(tǒng)的而解決方法,并能最大限度地減少集成問(wèn)題。但費(fèi)用高,長(zhǎng)時(shí)間開(kāi)發(fā),缺乏靈活性,因?yàn)檎麄€(gè)組織的共同數(shù)據(jù)模型達(dá)到一致是困難的。自底向上:設(shè)計(jì)、開(kāi)發(fā)、部署獨(dú)立的數(shù)據(jù)集市方法提供了靈活性、低花費(fèi),并能快速回報(bào)投資。然后,將分散的數(shù)據(jù)集市集成,形成一個(gè)一致的企業(yè)數(shù)據(jù)倉(cāng)庫(kù)時(shí),可能導(dǎo)致問(wèn)題。數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)自頂向下開(kāi)發(fā):一種系統(tǒng)的而解決方法,并能最大限度28數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)——一個(gè)推薦的方法定義高層數(shù)據(jù)模型數(shù)據(jù)集市數(shù)據(jù)集市分布式數(shù)據(jù)集市多層數(shù)據(jù)倉(cāng)庫(kù)企業(yè)數(shù)據(jù)倉(cāng)庫(kù)模型提煉模型提煉數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)——一個(gè)推薦的方法定義高層數(shù)據(jù)模型數(shù)據(jù)集市數(shù)據(jù)集29OLAP服務(wù)器類(lèi)型關(guān)系OLAP服務(wù)器(ROLAP)使用關(guān)系數(shù)據(jù)庫(kù)或擴(kuò)展的關(guān)系數(shù)據(jù)庫(kù)存放并管理數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù),而用OLAP中間件支持其余部分包括每個(gè)DBMS后端優(yōu)化,聚集導(dǎo)航邏輯的實(shí)現(xiàn),附加的工具和服務(wù)較大的可擴(kuò)展性多維OLAP服務(wù)器(MOLAP)基于數(shù)組的多維存儲(chǔ)引擎(稀疏矩陣技術(shù))能對(duì)預(yù)計(jì)算的匯總數(shù)據(jù)快速索引混合OLAP服務(wù)器(HOLAP)結(jié)合上述兩種技術(shù),更大的使用靈活性特殊的SQL服務(wù)器在星型和雪花模型上支持SQL查詢(xún)OLAP服務(wù)器類(lèi)型關(guān)系OLAP服務(wù)器(ROLAP)30數(shù)據(jù)倉(cāng)庫(kù)的實(shí)現(xiàn)難點(diǎn)海量數(shù)據(jù)快速反應(yīng)OLAP服務(wù)器要在幾秒內(nèi)響應(yīng)決策支持查詢(xún)方法高效的數(shù)據(jù)立方體計(jì)算技術(shù)高效的存取方法高效的查詢(xún)處理技術(shù)數(shù)據(jù)倉(cāng)庫(kù)的實(shí)現(xiàn)難點(diǎn)31數(shù)據(jù)立方體的有效計(jì)算數(shù)據(jù)立方體可以被看成是一個(gè)方體的格最底層的方體是基本方體最頂端的方體(頂點(diǎn))只包含一個(gè)單元的值一個(gè)n維的數(shù)據(jù)立方體,每維Li層,可能產(chǎn)生的方體總數(shù)是多少?數(shù)據(jù)立方體的物化(materialization)預(yù)先計(jì)算所有方體(全物化):需要海量存儲(chǔ)空間,存放預(yù)先計(jì)算的方體不預(yù)先計(jì)算任何“非基本”方體(不物化),在運(yùn)行時(shí)計(jì)算昂貴的多維聚集,可能很慢有選擇的計(jì)算一個(gè)所有方體的適當(dāng)子集(部分物化):相應(yīng)時(shí)間和存儲(chǔ)空間的折中。確定物化哪些方體考慮工作負(fù)荷下的查詢(xún)、它們的頻率和它們的開(kāi)銷(xiāo)等等數(shù)據(jù)立方體的有效計(jì)算數(shù)據(jù)立方體可以被看成是一個(gè)方體的格32方體的操作DMQL中的方體定義和計(jì)算definecubesales[item,city,year]:sum(sales_in_dollars)computecubesales上述的computecube子句可以轉(zhuǎn)化為一個(gè)類(lèi)似于SQL的語(yǔ)句SELECTitem,city,year,SUM(amount)FROMSALESCUBEBYitem,city,year需要計(jì)算以下的groupby子句(item,city,year)(item,city),(itemyear),(city,year)(item),(city),(year)()(item)(city)()(year)(city,item)(city,year)(item,year)(city,item,year)方體的操作DMQL中的方體定義和計(jì)算(item)(city)33方體計(jì)算:關(guān)系型OLAP的方法(ROLAP)方體計(jì)算的有效方法基于ROLAP的方體算法(Agarwaletal’96)基于數(shù)組的算法(MOLAP)(Zhaoetal’97)自底向上的計(jì)算方法(Beyer&Ramarkrishnan’99)H-cubing技術(shù)(Han,Pei,Dong&Wang:SIGMOD’01)基于ROLAP的方法將排序、散列(hashing)和分組操作應(yīng)用于維的屬性,以便對(duì)相關(guān)元組重新排序和聚類(lèi)在某些子聚集上分組,作為“部分分組步驟”。可以由以前計(jì)算的聚集計(jì)算新的聚集,而不必有基本事實(shí)表計(jì)算方體計(jì)算:關(guān)系型OLAP的方法(ROLAP)方體計(jì)算的有效方34方體計(jì)算的多路數(shù)組聚集方法(1)將數(shù)組分成塊(chunk,一個(gè)可以裝入內(nèi)存的小子方)壓縮的稀疏數(shù)組尋址:(chunk_id,offset)通過(guò)訪問(wèn)立方體單元,計(jì)算聚集??梢?xún)?yōu)化訪問(wèn)單元組的次序,使得每個(gè)單元被訪問(wèn)的次數(shù)最小化,從而減少內(nèi)存訪問(wèn)和磁盤(pán)I/O的開(kāi)銷(xiāo)。A(month)B29303132123459131415166463626148474645a1a0c3c2c1c0b3b2b1b0a2a3C(item)B(city)442856402452362060哪個(gè)是多路數(shù)組聚集的最佳遍歷次序?方體計(jì)算的多路數(shù)組聚集方法(1)將數(shù)組分成塊(chunk,一35方體計(jì)算的多路數(shù)組聚集方法(2)A(month)40B29303132123459131415166463626148474645a1a0c3c2c1c0b3b2b1b0a2a3C(item)4000442856402452362060B(city)400方體計(jì)算的多路數(shù)組聚集方法(2)A(month)B2930336方體計(jì)算的多路數(shù)組聚集方法(3)AB29303132123459131415166463626148474645a1a0c3c2c1c0b3b2b1b0a2a3C442856402452362060B方體計(jì)算的多路數(shù)組聚集方法(3)AB29303132123437方體計(jì)算的多路數(shù)組聚集方法(4)方法:各平面要按他們大小的升序排列進(jìn)行排序和計(jì)算詳見(jiàn)書(shū)P50例2.12思想:將最小的平面放在內(nèi)存中,對(duì)最大的平面每次只是取并計(jì)算一塊這種方法的限制:只有在維數(shù)比較小的情況下,效果才比較理想(要計(jì)算的立方體隨維數(shù)指數(shù)增長(zhǎng))如果維的數(shù)目比較多,可以考慮使用“自底向上的計(jì)算”或者時(shí)“冰山方體”計(jì)算方體計(jì)算的多路數(shù)組聚集方法(4)方法:各平面要按他們大小的升38元數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中,元數(shù)據(jù)就是定義數(shù)據(jù)倉(cāng)庫(kù)對(duì)象的數(shù)據(jù)。關(guān)于數(shù)據(jù)的數(shù)據(jù)。有以下幾種:數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)的描述倉(cāng)庫(kù)模式、視圖、維、層次結(jié)構(gòu)、導(dǎo)出數(shù)據(jù)的定義,以及數(shù)據(jù)集市的位置和內(nèi)容操作元數(shù)據(jù)包括數(shù)據(jù)血統(tǒng)(datalineage)、數(shù)據(jù)類(lèi)別(currencyofdata),以及監(jiān)視信息匯總用的算法:包括度量和維定義算法,數(shù)據(jù)粒度、分割、主題領(lǐng)域、聚集、匯總、預(yù)定義的查詢(xún)和報(bào)告由操作環(huán)境到數(shù)據(jù)倉(cāng)庫(kù)的映射:數(shù)據(jù)提取、清理、轉(zhuǎn)換規(guī)則、剪裁規(guī)則、安全等關(guān)于系統(tǒng)性能的數(shù)據(jù)索引,profiles,數(shù)據(jù)刷新、更新或復(fù)制事件的調(diào)度和定時(shí)商務(wù)元數(shù)據(jù)商務(wù)術(shù)語(yǔ)和定義、數(shù)據(jù)擁有者信息、收費(fèi)政策等元數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中,元數(shù)據(jù)就是定義數(shù)據(jù)倉(cāng)庫(kù)對(duì)象的數(shù)據(jù)。關(guān)39元數(shù)據(jù)的使用元數(shù)據(jù)與數(shù)據(jù)一起,構(gòu)成了數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)模型,元數(shù)據(jù)所描述的更多的是這個(gè)模型的結(jié)構(gòu)方面的信息。在數(shù)據(jù)倉(cāng)庫(kù)中,元數(shù)據(jù)的主要用途包括:用作目錄,幫助決策支持系統(tǒng)分析者對(duì)數(shù)據(jù)倉(cāng)庫(kù)的內(nèi)容定義作為數(shù)據(jù)倉(cāng)庫(kù)和操作性數(shù)據(jù)庫(kù)之間進(jìn)行數(shù)據(jù)轉(zhuǎn)換時(shí)的映射標(biāo)準(zhǔn)用于指導(dǎo)當(dāng)前細(xì)節(jié)數(shù)據(jù)和稍加綜合的數(shù)據(jù)之間的匯總算法,指導(dǎo)稍加綜合的數(shù)據(jù)和高度綜合的數(shù)據(jù)之間的匯總算法。元數(shù)據(jù)的使用元數(shù)據(jù)與數(shù)據(jù)一起,構(gòu)成了數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)模型,元40數(shù)據(jù)倉(cāng)庫(kù)后端工具和使用程序用于加載和刷新它的數(shù)據(jù)數(shù)據(jù)提?。簭亩鄠€(gè)外部的異構(gòu)數(shù)據(jù)源收集數(shù)據(jù)數(shù)據(jù)清理檢測(cè)數(shù)據(jù)種的錯(cuò)誤并作可能的訂正數(shù)據(jù)變換將數(shù)據(jù)由歷史或主機(jī)的格式轉(zhuǎn)化為數(shù)據(jù)倉(cāng)庫(kù)的格式裝載排序、匯總、合并、計(jì)算視圖,檢查完整性,并建立索引和分區(qū)刷新將數(shù)據(jù)源的更新傳播到數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)倉(cāng)庫(kù)后端工具和使用程序用于加載和刷新它的數(shù)據(jù)41數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用數(shù)據(jù)倉(cāng)庫(kù)的三種應(yīng)用信息處理支持查詢(xún)和基本的統(tǒng)計(jì)分析,并使用交叉表、表、圖標(biāo)和圖進(jìn)行報(bào)表處理分析處理對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行多維數(shù)據(jù)分析支持基本的OLAP操作,切塊、切片、上卷、下鉆、轉(zhuǎn)軸等數(shù)據(jù)挖掘從隱藏模式中發(fā)現(xiàn)知識(shí)支持關(guān)聯(lián)分析,構(gòu)建分析性模型,分類(lèi)和預(yù)測(cè),并用可視化工具呈現(xiàn)挖掘的結(jié)果三種應(yīng)用間的差別(P62)數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用數(shù)據(jù)倉(cāng)庫(kù)的三種應(yīng)用42從聯(lián)機(jī)分析處理到聯(lián)機(jī)分析挖掘?yàn)槭裁匆?lián)機(jī)分析挖掘(P63)數(shù)據(jù)倉(cāng)庫(kù)中有高質(zhì)量的數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)中存放著整合的、一致的、清理過(guò)的數(shù)據(jù)圍繞數(shù)據(jù)倉(cāng)庫(kù)的信息處理結(jié)構(gòu)存取、集成、合并多個(gè)異種數(shù)據(jù)庫(kù)的轉(zhuǎn)換,ODBC/OLEDB連接,Web訪問(wèn)和訪問(wèn)工具等基于OLAP的探測(cè)式數(shù)據(jù)分析使用上卷、下鉆、切片、轉(zhuǎn)軸等技術(shù)進(jìn)行數(shù)據(jù)挖掘數(shù)據(jù)挖掘功能的聯(lián)機(jī)選擇多種數(shù)據(jù)挖掘功能、算法和任務(wù)的整合從聯(lián)機(jī)分析處理到聯(lián)機(jī)分析挖掘?yàn)槭裁匆?lián)機(jī)分析挖掘(P63)43聯(lián)機(jī)分析挖掘的體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)多維數(shù)據(jù)庫(kù)OLAM引擎OLAP引擎用戶(hù)圖形界面API數(shù)據(jù)方體API數(shù)據(jù)庫(kù)API數(shù)據(jù)清理數(shù)據(jù)集成Layer3OLAP/OLAMLayer2多維數(shù)據(jù)庫(kù)Layer1數(shù)據(jù)存儲(chǔ)Layer4用戶(hù)界面數(shù)據(jù)的過(guò)濾、集成過(guò)濾數(shù)據(jù)庫(kù)基于約束的數(shù)據(jù)挖掘挖掘結(jié)果聯(lián)機(jī)分析挖掘的體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)多維數(shù)據(jù)庫(kù)OLAMOLA44數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理45主要內(nèi)容為什么要預(yù)處理數(shù)據(jù)?數(shù)據(jù)清理數(shù)據(jù)集成和變換數(shù)據(jù)歸約主要內(nèi)容為什么要預(yù)處理數(shù)據(jù)?46為什么要預(yù)處理數(shù)據(jù)?現(xiàn)實(shí)世界的數(shù)據(jù)是“骯臟的”不完整的:有些感興趣的屬性缺少屬性值,或僅包含聚集數(shù)據(jù)含噪聲的:包含錯(cuò)誤或者“孤立點(diǎn)”不一致的:在編碼或者命名上存在差異沒(méi)有高質(zhì)量的數(shù)據(jù),就沒(méi)有高質(zhì)量的挖掘結(jié)果高質(zhì)量的決策必須依賴(lài)高質(zhì)量的數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)需要對(duì)高質(zhì)量的數(shù)據(jù)進(jìn)行一致地集成為什么要預(yù)處理數(shù)據(jù)?現(xiàn)實(shí)世界的數(shù)據(jù)是“骯臟的”47數(shù)據(jù)質(zhì)量的多維度量一個(gè)廣為認(rèn)可的多維度量觀點(diǎn):精確度完整度一致性合乎時(shí)機(jī)可信度附加價(jià)值可訪問(wèn)性跟數(shù)據(jù)本身的含義相關(guān)的內(nèi)在的、上下文的、表象的數(shù)據(jù)質(zhì)量的多維度量一個(gè)廣為認(rèn)可的多維度量觀點(diǎn):48數(shù)據(jù)預(yù)處理的主要任務(wù)數(shù)據(jù)清理填寫(xiě)空缺的值,平滑噪聲數(shù)據(jù),識(shí)別、刪除孤立點(diǎn),解決不一致性數(shù)據(jù)集成集成多個(gè)數(shù)據(jù)庫(kù)、數(shù)據(jù)立方體或文件數(shù)據(jù)變換規(guī)范化和聚集數(shù)據(jù)歸約得到數(shù)據(jù)集的壓縮表示,它小得多,但可以得到相同或相近的結(jié)果數(shù)據(jù)離散化數(shù)據(jù)歸約的一部分,通過(guò)概念分層和數(shù)據(jù)的離散化來(lái)規(guī)約數(shù)據(jù),對(duì)數(shù)字型數(shù)據(jù)特別重要數(shù)據(jù)預(yù)處理的主要任務(wù)數(shù)據(jù)清理49數(shù)據(jù)預(yù)處理的形式數(shù)據(jù)預(yù)處理的形式50空缺值數(shù)據(jù)并不總是完整的例如:數(shù)據(jù)庫(kù)表中,很多條記錄的對(duì)應(yīng)字段沒(méi)有相應(yīng)值,比如銷(xiāo)售表中的顧客收入引起空缺值的原因設(shè)備異常與其他已有數(shù)據(jù)不一致而被刪除因?yàn)檎`解而沒(méi)有被輸入的數(shù)據(jù)在輸入時(shí),有些數(shù)據(jù)應(yīng)為得不到重視而沒(méi)有被輸入對(duì)數(shù)據(jù)的改變沒(méi)有進(jìn)行日志記載空缺值要經(jīng)過(guò)推斷而補(bǔ)上空缺值數(shù)據(jù)并不總是完整的51如何處理空缺值忽略元組:當(dāng)類(lèi)標(biāo)號(hào)缺少時(shí)通常這么做(假定挖掘任務(wù)設(shè)計(jì)分類(lèi)或描述),當(dāng)每個(gè)屬性缺少值的百分比變化很大時(shí),它的效果非常差。人工填寫(xiě)空缺值:工作量大,可行性低使用一個(gè)全局變量填充空缺值:比如使用unknown或-∞使用屬性的平均值填充空缺值使用與給定元組屬同一類(lèi)的所有樣本的平均值使用最可能的值填充空缺值:使用像Bayesian公式或判定樹(shù)這樣的基于推斷的方法如何處理空缺值忽略元組:當(dāng)類(lèi)標(biāo)號(hào)缺少時(shí)通常這么做(假定挖掘任52噪聲數(shù)據(jù)噪聲:一個(gè)測(cè)量變量中的隨機(jī)錯(cuò)誤或偏差引起不正確屬性值的原因數(shù)據(jù)收集工具的問(wèn)題數(shù)據(jù)輸入錯(cuò)誤數(shù)據(jù)傳輸錯(cuò)誤技術(shù)限制命名規(guī)則的不一致其它需要數(shù)據(jù)清理的數(shù)據(jù)問(wèn)題重復(fù)記錄不完整的數(shù)據(jù)不一致的數(shù)據(jù)噪聲數(shù)據(jù)噪聲:一個(gè)測(cè)量變量中的隨機(jī)錯(cuò)誤或偏差53如何處理噪聲數(shù)據(jù)分箱(binning):首先排序數(shù)據(jù),并將他們分到等深的箱中然后可以按箱的平均值平滑、按箱中值平滑、按箱的邊界平滑等等聚類(lèi):監(jiān)測(cè)并且去除孤立點(diǎn)計(jì)算機(jī)和人工檢查結(jié)合計(jì)算機(jī)檢測(cè)可疑數(shù)據(jù),然后對(duì)它們進(jìn)行人工判斷回歸通過(guò)讓數(shù)據(jù)適應(yīng)回歸函數(shù)來(lái)平滑數(shù)據(jù)如何處理噪聲數(shù)據(jù)分箱(binning):54數(shù)據(jù)平滑的分箱方法price的排序后數(shù)據(jù)(單位:美元):4,8,15,21,21,24,25,28,34劃分為(等深的)箱:箱1:4,8,15箱2:21,21,24箱3:25,28,34用箱平均值平滑:箱1:9,9,9箱2:22,22,22箱3:29,29,29用箱邊界平滑:箱1:4,4,15箱2:21,21,24箱3:25,25,34數(shù)據(jù)平滑的分箱方法price的排序后數(shù)據(jù)(單位:美元):4,55聚類(lèi)聚類(lèi)56回歸xyy=x+1X1Y1Y1’回歸xyy=x+1X1Y1Y1’57數(shù)據(jù)集成數(shù)據(jù)集成:將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)整合到一個(gè)一致的存儲(chǔ)中模式集成:整合不同數(shù)據(jù)源中的元數(shù)據(jù)實(shí)體識(shí)別問(wèn)題:匹配來(lái)自不同數(shù)據(jù)源的現(xiàn)實(shí)世界的實(shí)體,比如:A.cust-id=B.customer_no檢測(cè)并解決數(shù)據(jù)值的沖突對(duì)現(xiàn)實(shí)世界中的同一實(shí)體,來(lái)自不同數(shù)據(jù)源的屬性值可能是不同的可能的原因:不同的數(shù)據(jù)表示,不同的度量等等數(shù)據(jù)集成數(shù)據(jù)集成:58處理數(shù)據(jù)集成中的冗余數(shù)據(jù)集成多個(gè)數(shù)據(jù)庫(kù)時(shí),經(jīng)常會(huì)出現(xiàn)冗余數(shù)據(jù)同一屬性在不同的數(shù)據(jù)庫(kù)中會(huì)有不同的字段名一個(gè)屬性可以由另外一個(gè)表導(dǎo)出,如“年薪”有些冗余可以被相關(guān)分析檢測(cè)到仔細(xì)將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)集成起來(lái),能夠減少或避免結(jié)果數(shù)據(jù)中的冗余與不一致性,從而可以提高挖掘的速度和質(zhì)量。處理數(shù)據(jù)集成中的冗余數(shù)據(jù)集成多個(gè)數(shù)據(jù)庫(kù)時(shí),經(jīng)常會(huì)出現(xiàn)冗余數(shù)據(jù)59數(shù)據(jù)變換 平滑:去除數(shù)據(jù)中的噪聲聚集:匯總,數(shù)據(jù)立方體的構(gòu)建數(shù)據(jù)概化:沿概念分層向上匯總規(guī)范化:將數(shù)據(jù)按比例縮放,使之落入一個(gè)小的特定區(qū)間最?。畲笠?guī)范化z-score規(guī)范化小數(shù)定標(biāo)規(guī)范化屬性構(gòu)造通過(guò)現(xiàn)有屬性構(gòu)造新的屬性,并添加到屬性集中。數(shù)據(jù)變換 平滑:去除數(shù)據(jù)中的噪聲60數(shù)據(jù)變換——規(guī)范化最小-最大規(guī)范化z-score規(guī)范化小數(shù)定標(biāo)規(guī)范化其中,j是使Max(||)<1的最小整數(shù)數(shù)據(jù)變換——規(guī)范化最?。畲笠?guī)范化其中,j是使Max(|61數(shù)據(jù)歸約策略數(shù)據(jù)倉(cāng)庫(kù)中往往存有海量數(shù)據(jù),在其上進(jìn)行復(fù)雜的數(shù)據(jù)分析與挖掘需要很長(zhǎng)的時(shí)間數(shù)據(jù)歸約數(shù)據(jù)歸約可以用來(lái)得到數(shù)據(jù)集的歸約表示,它小得多,但可以產(chǎn)生相同的(或幾乎相同的)分析結(jié)果數(shù)據(jù)歸約策略數(shù)據(jù)立方體聚集維歸約數(shù)據(jù)壓縮數(shù)值歸約離散化和概念分層產(chǎn)生用于數(shù)據(jù)歸約的時(shí)間不應(yīng)當(dāng)超過(guò)或“抵消”在歸約后的數(shù)據(jù)上挖掘節(jié)省的時(shí)間。數(shù)據(jù)歸約策略數(shù)據(jù)倉(cāng)庫(kù)中往往存有海量數(shù)據(jù),在其上進(jìn)行復(fù)雜的數(shù)據(jù)62數(shù)據(jù)立方體聚集最底層的方體對(duì)應(yīng)于基本方體基本方體對(duì)應(yīng)于感興趣的實(shí)體在數(shù)據(jù)立方體中存在著不同級(jí)別的匯總數(shù)據(jù)立方體可以看成方體的格每個(gè)較高層次的抽象將進(jìn)一步減少結(jié)果數(shù)據(jù)數(shù)據(jù)立方體提供了對(duì)預(yù)計(jì)算的匯總數(shù)據(jù)的快速訪問(wèn)使用與給定任務(wù)相關(guān)的最小方體在可能的情況下,對(duì)于匯總數(shù)據(jù)的查詢(xún)應(yīng)當(dāng)使用數(shù)據(jù)立方體數(shù)據(jù)立方體聚集最底層的方體對(duì)應(yīng)于基本方體63維歸約通過(guò)刪除不相干的屬性或維減少數(shù)據(jù)量屬性子集選擇找出最小屬性集,使得數(shù)據(jù)類(lèi)的概率分布盡可能的接近使用所有屬性的原分布減少出現(xiàn)在發(fā)現(xiàn)模式上的屬性的數(shù)目,使得模式更易于理解啟發(fā)式的(探索性的)方法逐步向前選擇逐步向后刪除向前選擇和向后刪除相結(jié)合判定歸納樹(shù)維歸約通過(guò)刪除不相干的屬性或維減少數(shù)據(jù)量64探索性選擇方法d個(gè)屬性有2d個(gè)可能的子集逐步向前選擇由空屬性集開(kāi)始,選擇原屬性集中最好的屬性,并將其添加入該集合,重復(fù)該步驟。逐步向后刪除由整個(gè)屬性集開(kāi)始,每一步都刪除掉尚在屬性集中的最壞屬性向前選擇和向后刪除相結(jié)合每一步選擇一個(gè)最好屬性,并刪除一個(gè)最壞屬性可以使用一個(gè)臨界值來(lái)判定上述三種方法的結(jié)束條件判定歸納樹(shù)探索性選擇方法d個(gè)屬性有2d個(gè)可能的子集65數(shù)據(jù)壓縮有損壓縮VS.無(wú)損壓縮字符串壓縮有廣泛的理論基礎(chǔ)和精妙的算法通常是無(wú)損壓縮在解壓縮前對(duì)字符串的操作非常有限音頻/視頻壓縮通常是有損壓縮,壓縮精度可以遞進(jìn)選擇有時(shí)可以在不解壓整體數(shù)據(jù)的情況下,重構(gòu)某個(gè)片斷兩種有損數(shù)據(jù)壓縮的方法:小波變換和主要成分分析數(shù)據(jù)壓縮有損壓縮VS.無(wú)損壓縮66數(shù)值歸約通過(guò)選擇替代的、較小的數(shù)據(jù)表示形式來(lái)減少數(shù)據(jù)量有參方法:使用一個(gè)參數(shù)模型估計(jì)數(shù)據(jù),最后只要存儲(chǔ)參數(shù)即可。線性回歸方法:Y=α+βX多元回歸:線性回歸的擴(kuò)充對(duì)數(shù)線性模型:近似離散的多維數(shù)據(jù)概率分布無(wú)參方法:直方圖聚類(lèi)選樣數(shù)值歸約通過(guò)選擇替代的、較小的數(shù)據(jù)表示形式來(lái)減少數(shù)據(jù)量67直方圖一種流行的數(shù)據(jù)歸約技術(shù)將某屬性的數(shù)據(jù)劃分為不相交的子集,或桶,桶中放置該值的出現(xiàn)頻率桶和屬性值的劃分規(guī)則等寬等深V-最優(yōu)MaxDiff直方圖一種流行的數(shù)據(jù)歸約技術(shù)68聚類(lèi)將數(shù)據(jù)集劃分為聚類(lèi),然后通過(guò)聚類(lèi)來(lái)表示數(shù)據(jù)集如果數(shù)據(jù)可以組成各種不同的聚類(lèi),則該技術(shù)非常有效,反之如果數(shù)據(jù)界線模糊,則方法無(wú)效數(shù)據(jù)可以分層聚類(lèi),并被存儲(chǔ)在多層索引樹(shù)中聚類(lèi)的定義和算法都有很多選擇聚類(lèi)將數(shù)據(jù)集劃分為聚類(lèi),然后通過(guò)聚類(lèi)來(lái)表示數(shù)據(jù)集69選樣允許用數(shù)據(jù)的較小隨機(jī)樣本(子集)表示大的數(shù)據(jù)集對(duì)數(shù)據(jù)集D的樣本選擇:簡(jiǎn)單隨機(jī)選擇n個(gè)樣本,不回放:由D的N個(gè)元組中抽取n個(gè)樣本簡(jiǎn)單隨機(jī)選擇n個(gè)樣本,回放:過(guò)程同上,只是元組被抽取后,將被回放,可能再次被抽取聚類(lèi)選樣:D中元組被分入M個(gè)互不相交的聚類(lèi)中,可在其中的m個(gè)聚類(lèi)上進(jìn)行簡(jiǎn)單隨機(jī)選擇(m<M)分層選樣:D被劃分為互不相交的“層”,則可通過(guò)對(duì)每一層的簡(jiǎn)單隨機(jī)選樣得到D的分層選樣選樣允許用數(shù)據(jù)的較小隨機(jī)樣本(子集)表示大的數(shù)據(jù)集70離散化三種類(lèi)型的屬性值:名稱(chēng)型——e.g.無(wú)序集合中的值序數(shù)——e.g.有序集合中的值連續(xù)值——e.g.實(shí)數(shù)離散化將連續(xù)屬性的范圍劃分為區(qū)間有效的規(guī)約數(shù)據(jù)基于判定樹(shù)的分類(lèi)挖掘基于判定樹(shù)的分類(lèi)挖掘的大部分時(shí)間花在數(shù)據(jù)的分類(lèi)和比較上(比如一個(gè)判定條件為:>400?,0-1000的整數(shù)將在比較1000次后得出結(jié)果,但是如果先將這1000個(gè)值劃分為10個(gè)區(qū)間:0-100,100-200…900-1000,則只要比較10次就可以得出結(jié)果)離散化的數(shù)值用于進(jìn)一步分析離散化三種類(lèi)型的屬性值:71離散化和概念分層離散化通過(guò)將屬性域劃分為區(qū)間,減少給定連續(xù)屬性值的個(gè)數(shù)。區(qū)間的標(biāo)號(hào)可以代替實(shí)際的數(shù)據(jù)值。概念分層通過(guò)使用高層的概念(比如:青年、中年、老年)來(lái)替代底層的屬性值(比如:實(shí)際的年齡數(shù)據(jù)值)來(lái)規(guī)約數(shù)據(jù)概念分層后,數(shù)據(jù)的細(xì)節(jié)丟失了,但是概化后的數(shù)據(jù)更有意義,更容易解釋?zhuān)宜璧拇鎯?chǔ)空間更少。有效的減少I(mǎi)/O支出離散化和概念分層離散化72數(shù)據(jù)數(shù)值的離散化和概念分層生成分箱(binning)分箱技術(shù)遞歸的用于結(jié)果劃分,可以產(chǎn)生概念分層。分箱、遞歸的:比如將10,000個(gè)值,每個(gè)箱子中放10個(gè),則可以將其規(guī)約為1000個(gè)值;如果要求將這10,000個(gè)值規(guī)約為10個(gè)概念,則只要將上述分箱方法遞歸的使用3次就可以了。直方圖分析(histogram)直方圖分析方法遞歸的應(yīng)用于每一部分,可以自動(dòng)產(chǎn)生多級(jí)概念分層。聚類(lèi)分析將數(shù)據(jù)劃分成簇,每個(gè)簇形成同一個(gè)概念層上的一個(gè)節(jié)點(diǎn),每個(gè)簇可再分成多個(gè)子簇,形成子節(jié)點(diǎn)?;陟氐碾x散化通過(guò)自然劃分分段數(shù)據(jù)數(shù)值的離散化和概念分層生成分箱(binning)73通過(guò)自然劃分分段將數(shù)值區(qū)域劃分為相對(duì)一致的、易于閱讀的、看上去更直觀或自然的區(qū)間。自然劃分的3-4-5規(guī)則:如果一個(gè)區(qū)間最高有效位上包含3,6,7或9個(gè)不同的值,就將該區(qū)間劃分為3個(gè)等寬子區(qū)間;如果一個(gè)區(qū)間最高有效位上包含2,4,或8個(gè)不同的值,就將該區(qū)間劃分為4個(gè)等寬子區(qū)間;如果一個(gè)區(qū)間最高有效位上包含1,5,或10個(gè)不同的值,就將該區(qū)間劃分為5個(gè)等寬子區(qū)間;將該規(guī)則遞歸的應(yīng)用于每個(gè)子區(qū)間對(duì)于數(shù)據(jù)集中出現(xiàn)的最大值和最小值的極端分布,為了避免上述方法出現(xiàn)的結(jié)果扭曲,可以在頂層分段時(shí),選用一個(gè)大部分的概率空間。e.g.5%-95%比如年收入最低的可能時(shí)5,000,最高的可能是50萬(wàn),如果之間進(jìn)行區(qū)間劃分,就會(huì)將頂層劃分為5個(gè)分段(每10萬(wàn)1個(gè)),但是95%以上的人他們的收入都是集中在【10,000~100,000】的范圍,也就是說(shuō)都集中在第一段,這樣的分段就會(huì)引起結(jié)果的扭曲…通過(guò)自然劃分分段將數(shù)值區(qū)域劃分為相對(duì)一致的、易于閱讀的、看上74分類(lèi)數(shù)據(jù)的概念分層生成分類(lèi)數(shù)據(jù)是指無(wú)序的離散數(shù)據(jù),它有有限個(gè)值(可能很多個(gè))。分類(lèi)數(shù)據(jù)的概念分層生成方法:由用戶(hù)或?qū)<以谀J郊?jí)顯式的說(shuō)明屬性的部分序。通過(guò)顯示數(shù)據(jù)分組說(shuō)明分層結(jié)構(gòu)的一部分。說(shuō)明屬性集,但不說(shuō)明它們的偏序,然后系統(tǒng)根據(jù)算法自動(dòng)產(chǎn)生屬性的序,構(gòu)造有意義的概念分層。對(duì)只說(shuō)明部分屬性集的情況,則可根據(jù)數(shù)據(jù)庫(kù)模式中的數(shù)據(jù)語(yǔ)義定義對(duì)屬性的捆綁信息,來(lái)恢復(fù)相關(guān)的屬性。分類(lèi)數(shù)據(jù)的概念分層生成分類(lèi)數(shù)據(jù)是指無(wú)序的離散數(shù)據(jù),它有有限個(gè)75屬性集的規(guī)格根據(jù)在給定屬性集中,每個(gè)屬性所包含的不同值的個(gè)數(shù),可以自動(dòng)的生成概念分成;不同值個(gè)數(shù)最多的屬性將被放在概念分層的最底層。越底層的屬性集將有越多的不同值跟它相對(duì)應(yīng),而越高層的屬性值將有越少的不同值跟它相對(duì)應(yīng)。因?yàn)榈讓訉傩缘闹狄ㄟ^(guò)匯總才可以生成高層屬性的值,而匯總就意味著不同值個(gè)數(shù)的減少。countryprovincecitystreet5個(gè)不同值65個(gè)不同值3567個(gè)不同值674,339個(gè)不同值屬性集的規(guī)格根據(jù)在給定屬性集中,每個(gè)屬性所包含的不同值的個(gè)數(shù)76數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的OLAP技術(shù)數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的OLAP技術(shù)77數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的OLAP技術(shù)什么是數(shù)據(jù)倉(cāng)庫(kù)?多維數(shù)據(jù)模型數(shù)據(jù)倉(cāng)庫(kù)的體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn)數(shù)據(jù)立方體技術(shù)的進(jìn)一步發(fā)展從數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)挖掘數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的OLAP技術(shù)什么是數(shù)據(jù)倉(cāng)庫(kù)?78什么是數(shù)據(jù)倉(cāng)庫(kù)?數(shù)據(jù)倉(cāng)庫(kù)的定義很多,但卻很難有一種嚴(yán)格的定義它是一個(gè)提供決策支持功能的數(shù)據(jù)庫(kù),它與公司的操作數(shù)據(jù)庫(kù)分開(kāi)維護(hù)。為統(tǒng)一的歷史數(shù)據(jù)分析提供堅(jiān)實(shí)的平臺(tái),對(duì)信息處理提供支持“數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、隨時(shí)間而變化的、不容易丟失的數(shù)據(jù)集合,支持管理部門(mén)的決策過(guò)程.”—W.H.Inmon(數(shù)據(jù)倉(cāng)庫(kù)構(gòu)造方面的領(lǐng)頭設(shè)計(jì)師)建立數(shù)據(jù)倉(cāng)庫(kù)(datawarehousing):構(gòu)造和使用數(shù)據(jù)倉(cāng)庫(kù)的過(guò)程。什么是數(shù)據(jù)倉(cāng)庫(kù)?數(shù)據(jù)倉(cāng)庫(kù)的定義很多,但卻很難有一種嚴(yán)格的定義79數(shù)據(jù)倉(cāng)庫(kù)關(guān)鍵特征一——面向主題圍繞一些主題,如顧客、供應(yīng)商、產(chǎn)品等關(guān)注決策者的數(shù)據(jù)建模與分析,而不是集中于組織機(jī)構(gòu)的日常操作和事務(wù)處理。排除對(duì)于決策無(wú)用的數(shù)據(jù),提供特定主題的簡(jiǎn)明視圖。數(shù)據(jù)倉(cāng)庫(kù)關(guān)鍵特征一——面向主題圍繞一些主題,如顧客、供應(yīng)商、80數(shù)據(jù)倉(cāng)庫(kù)關(guān)鍵特征二——數(shù)據(jù)集成一個(gè)數(shù)據(jù)倉(cāng)庫(kù)是通過(guò)集成多個(gè)異種數(shù)據(jù)源來(lái)構(gòu)造的。關(guān)系數(shù)據(jù)庫(kù),一般文件,聯(lián)機(jī)事務(wù)處理記錄使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù)。確保命名約定、編碼結(jié)構(gòu)、屬性度量等的一致性。當(dāng)數(shù)據(jù)被移到數(shù)據(jù)倉(cāng)庫(kù)時(shí),它們要經(jīng)過(guò)轉(zhuǎn)化。數(shù)據(jù)倉(cāng)庫(kù)關(guān)鍵特征二——數(shù)據(jù)集成一個(gè)數(shù)據(jù)倉(cāng)庫(kù)是通過(guò)集成多個(gè)異種81數(shù)據(jù)倉(cāng)庫(kù)關(guān)鍵特征三——隨時(shí)間而變化數(shù)據(jù)倉(cāng)庫(kù)的時(shí)間范圍比操作數(shù)據(jù)庫(kù)系統(tǒng)要長(zhǎng)的多。操作數(shù)據(jù)庫(kù)系統(tǒng):主要保存當(dāng)前數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù):從歷史的角度提供信息(比如過(guò)去5-10年)數(shù)據(jù)倉(cāng)庫(kù)中的每一個(gè)關(guān)鍵結(jié)構(gòu)都隱式或顯式地包含時(shí)間元素,而操作數(shù)據(jù)庫(kù)中的關(guān)鍵結(jié)構(gòu)可能就不包括時(shí)間元素。數(shù)據(jù)倉(cāng)庫(kù)關(guān)鍵特征三——隨時(shí)間而變化數(shù)據(jù)倉(cāng)庫(kù)的時(shí)間范圍比操作數(shù)82數(shù)據(jù)倉(cāng)庫(kù)關(guān)鍵特征四——數(shù)據(jù)不易丟失盡管數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)來(lái)自于操作數(shù)據(jù)庫(kù),但他們卻是在物理上分離保存的。操作數(shù)據(jù)庫(kù)的更新操作不會(huì)出現(xiàn)在數(shù)據(jù)倉(cāng)庫(kù)環(huán)境下。不需要事務(wù)處理,恢復(fù),和并發(fā)控制等機(jī)制只需要兩種數(shù)據(jù)訪問(wèn):數(shù)據(jù)的初始轉(zhuǎn)載和數(shù)據(jù)訪問(wèn)(讀操作)數(shù)據(jù)倉(cāng)庫(kù)關(guān)鍵特征四——數(shù)據(jù)不易丟失盡管數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)來(lái)自于83數(shù)據(jù)倉(cāng)庫(kù)與異種數(shù)據(jù)庫(kù)集成傳統(tǒng)的異種數(shù)據(jù)庫(kù)集成:在多個(gè)異種數(shù)據(jù)庫(kù)上建立包裝程序(wrappers)和中介程序(mediators)查詢(xún)驅(qū)動(dòng)方法——當(dāng)從客戶(hù)端傳過(guò)來(lái)一個(gè)查詢(xún)時(shí),首先使用元數(shù)據(jù)字典將查詢(xún)轉(zhuǎn)換成相應(yīng)異種數(shù)據(jù)庫(kù)上的查詢(xún);然后,將這些查詢(xún)映射和發(fā)送到局部查詢(xún)處理器缺點(diǎn):復(fù)雜的信息過(guò)慮和集成處理,競(jìng)爭(zhēng)資源數(shù)據(jù)倉(cāng)庫(kù):更新驅(qū)動(dòng)將來(lái)自多個(gè)異種源的信息預(yù)先集成,并存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中,供直接查詢(xún)和分析高性能數(shù)據(jù)倉(cāng)庫(kù)與異種數(shù)據(jù)庫(kù)集成傳統(tǒng)的異種數(shù)據(jù)庫(kù)集成:84數(shù)據(jù)倉(cāng)庫(kù)與操作數(shù)據(jù)庫(kù)系統(tǒng)操作數(shù)據(jù)庫(kù)系統(tǒng)的主要任務(wù)是聯(lián)機(jī)事務(wù)處理OLTP日常操作:購(gòu)買(mǎi),庫(kù)存,銀行,制造,工資,注冊(cè),記帳等數(shù)據(jù)倉(cāng)庫(kù)的主要任務(wù)是聯(lián)機(jī)分析處理OLAP數(shù)據(jù)分析和決策OLTP和OLAP的主要區(qū)別:用戶(hù)和系統(tǒng)的面向性:顧客VS.市場(chǎng)數(shù)據(jù)內(nèi)容:當(dāng)前的、詳細(xì)的數(shù)據(jù)VS.歷史的、匯總的數(shù)據(jù)數(shù)據(jù)庫(kù)設(shè)計(jì):實(shí)體-聯(lián)系模型(ER)和面向應(yīng)用的數(shù)據(jù)庫(kù)設(shè)計(jì)VS.星型/雪花模型和面向主題的數(shù)據(jù)庫(kù)設(shè)計(jì)視圖:當(dāng)前的、企業(yè)內(nèi)部的數(shù)據(jù)VS.經(jīng)過(guò)演化的、集成的數(shù)據(jù)訪問(wèn)模式:事務(wù)操作VS.只讀查詢(xún)(但很多是復(fù)雜的查詢(xún))數(shù)據(jù)倉(cāng)庫(kù)與操作數(shù)據(jù)庫(kù)系統(tǒng)操作數(shù)據(jù)庫(kù)系統(tǒng)的主要任務(wù)是聯(lián)機(jī)事務(wù)處85OLTP系統(tǒng)和OLAP系統(tǒng)的比較特征OLTPOLAP任務(wù)特點(diǎn)操作處理信息處理面向事務(wù)分析用戶(hù)辦事員、DBA、數(shù)據(jù)庫(kù)專(zhuān)業(yè)人員經(jīng)理、主管、數(shù)據(jù)分析員功能日常操作長(zhǎng)期信息分析、決策支持DB設(shè)計(jì)基于E-R,面向應(yīng)用星型/雪花,面向主體數(shù)據(jù)最新的、詳細(xì)的歷史的、匯總的視圖詳細(xì)的、二維關(guān)系型匯總的、多維的任務(wù)單位簡(jiǎn)短的事務(wù)復(fù)雜的查詢(xún)?cè)L問(wèn)數(shù)據(jù)量數(shù)十個(gè)數(shù)百萬(wàn)個(gè)用戶(hù)數(shù)數(shù)千個(gè)數(shù)百個(gè)DB規(guī)模100M-數(shù)GB100GB-數(shù)TB優(yōu)先性高性能、高可用性高靈活性、端點(diǎn)用戶(hù)自治度量事務(wù)吞吐量查詢(xún)吞吐量、響應(yīng)時(shí)間OLTP系統(tǒng)和OLAP系統(tǒng)的比較特征OLTPOLAP任務(wù)特點(diǎn)86為什么需要一個(gè)分離的數(shù)據(jù)倉(cāng)庫(kù)?提高兩個(gè)系統(tǒng)的性能DBMS是為OLTP而設(shè)計(jì)的:存儲(chǔ)方式,索引,并發(fā)控制,恢復(fù)數(shù)據(jù)倉(cāng)庫(kù)是為OLAP而設(shè)計(jì):復(fù)雜的OLAP查詢(xún),多維視圖,匯總不同的功能和不同的數(shù)據(jù):歷史數(shù)據(jù):決策支持需要?dú)v史數(shù)據(jù),而這些數(shù)據(jù)在操作數(shù)據(jù)庫(kù)中一般不會(huì)去維護(hù)數(shù)據(jù)匯總:決策支持需要將來(lái)自異種源的數(shù)據(jù)統(tǒng)一(如聚集和匯總)數(shù)據(jù)質(zhì)量:不同的源使用不一致的數(shù)據(jù)表示、編碼和格式,對(duì)這些數(shù)據(jù)進(jìn)行有效的分析需要將他們轉(zhuǎn)化后進(jìn)行集成為什么需要一個(gè)分離的數(shù)據(jù)倉(cāng)庫(kù)?提高兩個(gè)系統(tǒng)的性能87從關(guān)系表和電子表格到數(shù)據(jù)立方體數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)技術(shù)基于多維數(shù)據(jù)模型。這個(gè)模型把數(shù)據(jù)看作是數(shù)據(jù)立方體形式。多維數(shù)據(jù)模型圍繞中心主題組織,該主題用事實(shí)表表示。事實(shí)是數(shù)值度量的。數(shù)據(jù)立方體允許以多維數(shù)據(jù)建模和觀察。它由維和事實(shí)定義。維是關(guān)于一個(gè)組織想要記錄的視角或觀點(diǎn)。每個(gè)維都有一個(gè)表與之相關(guān)聯(lián),稱(chēng)為維表。事實(shí)表包括事實(shí)的名稱(chēng)或度量以及每個(gè)相關(guān)維表的關(guān)鍵字在數(shù)據(jù)倉(cāng)庫(kù)的研究文獻(xiàn)中,一個(gè)n維的數(shù)據(jù)的立方體叫做基本方體。給定一個(gè)維的集合,我們可以構(gòu)造一個(gè)方體的格,每個(gè)都在不同的匯總級(jí)或不同的數(shù)據(jù)子集顯示數(shù)據(jù),方體的格稱(chēng)為數(shù)據(jù)立方體。0維方體存放最高層的匯總,稱(chēng)作頂點(diǎn)方體;而存放最底層匯總的方體則稱(chēng)為基本方體。教科書(shū)第31頁(yè)從關(guān)系表和電子表格到數(shù)據(jù)立方體數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)技術(shù)基于多維88數(shù)據(jù)立方體——一個(gè)方體的格alltimeitemlocationsuppliertime,itemtime,locationtime,supplieritem,locationitem,supplierlocation,suppliertime,item,locationtime,item,suppliertime,location,supplieritem,location,suppliertime,item,location,supplier0-D(apex)cuboid1-Dcuboids2-Dcuboids3-Dcuboids4-D(base)cuboid數(shù)據(jù)立方體——一個(gè)方體的格alltimeitemlocati89數(shù)據(jù)倉(cāng)庫(kù)的概念模型最流行的數(shù)據(jù)倉(cāng)庫(kù)概念模型是多維數(shù)據(jù)模型。這種模型可以以星型模式、雪花模式、或事實(shí)星座模式的形式存在。星型模式(Starschema):事實(shí)表在中心,周?chē)鷩@地連接著維表(每維一個(gè)),事實(shí)表含有大量數(shù)據(jù),沒(méi)有冗余。雪花模式(Snowflakeschema):是星型模式的變種,其中某些維表是規(guī)范化的,因而把數(shù)據(jù)進(jìn)一步分解到附加表中。結(jié)果,模式圖形成類(lèi)似于雪花的形狀。事實(shí)星座(Factconstellations):多個(gè)事實(shí)表共享維表,這種模式可以看作星型模式集,因此稱(chēng)為星系模式(galaxyschema),或者事實(shí)星座(factconstellation)數(shù)據(jù)倉(cāng)庫(kù)的概念模型最流行的數(shù)據(jù)倉(cāng)庫(kù)概念模型是多維數(shù)據(jù)模型。這90星型模式實(shí)例
time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcitystate_or_provincecountrylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranch星型模式實(shí)例time_keytimelocation_91雪花模式實(shí)例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcity_keylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_keyitembranch_keybranch_namebranch_typebranchsupplier_keysupplier_typesuppliercity_keycitystate_or_provincecountrycity雪花模式實(shí)例time_keytimelocation_key92事實(shí)星座模式實(shí)例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountrylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranchShippingFactTabletime_keyitem_keyshipper_keyfrom_locationto_locationdollars_costunits_shippedshipper_keyshipper_namelocation_keyshipper_typeshipper事實(shí)星座模式實(shí)例time_keytimelocation_k93一種數(shù)據(jù)挖掘查詢(xún)語(yǔ)言:DMQLDMQL首先包括定義數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市的語(yǔ)言原語(yǔ),這包括兩種原語(yǔ)定義:一種是立方體定義,一種是維定義立方體定義(事實(shí)表)definecube<cube_name>[<dimension_list>]:<measure_list>維定義(維表)definedimension<dimension_name>as(<attribute_or_subdimension_list>)特殊案例(共享維表的定義)第一次作為維表定義“cubedefinition”然后:definedimension<dimension_name>as<dimension_name_first_time>incube<cube_name_first_time>一種數(shù)據(jù)挖掘查詢(xún)語(yǔ)言:DMQLDMQL首先包括定義數(shù)據(jù)倉(cāng)庫(kù)94實(shí)例:使用DMQL定義星型模式definecubesales_star[time,item,branch,location]:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)definedimensiontimeas(time_key,day,day_of_week,month,quarter,year)definedimensionitemas(item_key,item_name,brand,type,supplier_type)definedimensionbranchas(branch_key,branch_name,branch_type)definedimensionlocationas(location_key,street,city,province_or_state,country)實(shí)例:使用DMQL定義星型模式definecubesal95實(shí)例:使用DMQL定義雪花模式definecubesales_snowflake[time,item,branch,location]:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)definedimensiontimeas(time_key,day,day_of_week,month,quarter,year)definedimensionitemas(item_key,item_name,brand,type,supplier(supplier_key,supplier_type))definedimensionbranchas(branch_key,branch_name,branch_type)definedimensionlocationas(location_key,street,city(city_key,province_or_state,country))實(shí)例:使用DMQL定義雪花模式definecubesal96度量的分類(lèi)一個(gè)數(shù)據(jù)立方體的度量是一個(gè)數(shù)值函數(shù),該函數(shù)可以對(duì)數(shù)據(jù)立方體的每一個(gè)點(diǎn)求值。度量可以根據(jù)其所用的聚集函數(shù)分為三類(lèi):分布的(distributive):將函數(shù)用于n個(gè)聚集值得到的結(jié)果和將函數(shù)用于所有數(shù)據(jù)得到的結(jié)果一樣。比如:count(),sum(),min(),max()等代數(shù)的(algebraic):函數(shù)可以由一個(gè)帶M個(gè)參數(shù)的代數(shù)函數(shù)計(jì)算(M為有界整數(shù)),而每個(gè)參數(shù)值都可以有一個(gè)分布的聚集函數(shù)求得。比如:avg(),min_N(),standard_deviation()整體的(holistic):描述函數(shù)的子聚集所需的存儲(chǔ)沒(méi)有一個(gè)常數(shù)界。比如:median(),mode(),rank()度量的分類(lèi)一個(gè)數(shù)據(jù)立方體的度量是一個(gè)數(shù)值函數(shù),該函數(shù)可以對(duì)數(shù)97概念分層:location維的一個(gè)概念分層allEuropeNorth_AmericaMexicoCanadaSpainGermanyVancouverM.WindL.Chan..................allregionofficecountryTorontoFrankfurtcity概念分層:location維的一個(gè)概念分層allEurope98多維數(shù)據(jù)模型上的OLAP操作上卷(roll-up):匯總數(shù)據(jù)通過(guò)一個(gè)維的概念分層向上攀升或者通過(guò)維規(guī)約下鉆(drill-down):上卷的逆操作由不太詳細(xì)的數(shù)據(jù)到更詳細(xì)的數(shù)據(jù),可以通過(guò)沿維的概念分層向下或引入新的維來(lái)實(shí)現(xiàn)切片和切塊(sliceanddice)投影和選擇操作轉(zhuǎn)軸(pivot)立方體的重定位,可視化,或?qū)⒁粋€(gè)3維立方體轉(zhuǎn)化維一個(gè)2維平面序列其他OLAP操作鉆過(guò)(drill_across):執(zhí)行涉及多個(gè)事實(shí)表的查詢(xún)鉆透(drill_through):使用關(guān)系SQL機(jī)制,鉆到數(shù)據(jù)立方體的底層,到后端關(guān)系表多維數(shù)據(jù)模型上的OLAP操作上卷(roll-up):匯總數(shù)據(jù)99數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì):一個(gè)商務(wù)分析框架數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)中必須考慮的四種視圖自頂向下視圖允許我們選擇數(shù)據(jù)倉(cāng)庫(kù)所需的相關(guān)信息,這些信息能夠滿足當(dāng)前和未來(lái)商務(wù)的需求。數(shù)據(jù)源視圖揭示被操作數(shù)據(jù)庫(kù)系統(tǒng)所捕獲、存儲(chǔ)和管理的信息數(shù)據(jù)倉(cāng)庫(kù)視圖有事實(shí)表和維表所組成,提供存放在數(shù)據(jù)倉(cāng)庫(kù)內(nèi)部的信息,包括預(yù)先計(jì)算的綜合與技術(shù),以及關(guān)于源、日期和源時(shí)間等信息商務(wù)查詢(xún)視圖從最終用戶(hù)的角度透視數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì):一個(gè)商務(wù)分析框架數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)中必須考慮的四種視100數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)過(guò)程(P43)自頂向下法、自底向上法或者兩者的混合方法自頂向下法:由總體設(shè)計(jì)和規(guī)劃開(kāi)始(成熟)自底向上法:以實(shí)驗(yàn)和原型開(kāi)始(快速)從軟件過(guò)程的觀點(diǎn)瀑布式方法:在進(jìn)行下一步前,每一步都進(jìn)行結(jié)構(gòu)化和系統(tǒng)的分析螺旋式方法:功能漸增的系統(tǒng)的快速產(chǎn)生,相繼版本之間間隔很短典型的數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)過(guò)程選取待建模的商務(wù)過(guò)程選取商務(wù)過(guò)程的粒度選取用于每個(gè)事實(shí)表記錄的維選取將安放在事實(shí)表中的度量數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)過(guò)程(P43)自頂向下法、自底向上法或者兩者的101三層數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)DataWarehouseExtractTransformLoadRefreshOLAP服務(wù)器AnalysisQueryReportsDataminingMonitor&IntegratorMetadata數(shù)據(jù)源前端工具ServeDataMartsOperational
DBsothersources數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器OLAPServer三層數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)DataExtractOLAP服務(wù)器Anal102三種數(shù)據(jù)倉(cāng)庫(kù)模型(從結(jié)構(gòu)的角度)企業(yè)倉(cāng)庫(kù)搜集關(guān)于跨越整個(gè)組織的主題的所有信息,來(lái)自一個(gè)或多個(gè)操作的系統(tǒng),跨功能的。數(shù)據(jù)集市企業(yè)范圍數(shù)據(jù)的一個(gè)子集,對(duì)于特定的客戶(hù)是有用的。其范圍限于選定的主題,比如一個(gè)商場(chǎng)的數(shù)據(jù)集市獨(dú)立的數(shù)據(jù)集市VS.非獨(dú)立的數(shù)據(jù)集市(數(shù)據(jù)來(lái)自于企業(yè)數(shù)據(jù)倉(cāng)庫(kù))虛擬倉(cāng)庫(kù)操作數(shù)據(jù)庫(kù)上的一系列視圖只有一些可能的匯總視圖被物化三種數(shù)據(jù)倉(cāng)庫(kù)模型(從結(jié)構(gòu)的角度)企業(yè)倉(cāng)庫(kù)103數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)自頂向下開(kāi)發(fā):一種系統(tǒng)的而解決方法,并能最大限度地減少集成問(wèn)題。但費(fèi)用高,長(zhǎng)時(shí)間開(kāi)發(fā),缺乏靈活性,因?yàn)檎麄€(gè)組織的共同數(shù)據(jù)模型達(dá)到一致是困難的。自底向上:設(shè)計(jì)、開(kāi)發(fā)、部署獨(dú)立的數(shù)據(jù)集市方法提供了靈活性、低花費(fèi),并能快速回報(bào)投資。然后,將分散的數(shù)據(jù)集市集成,形成一個(gè)一致的企業(yè)數(shù)據(jù)倉(cāng)庫(kù)時(shí),可能導(dǎo)致問(wèn)題。數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)自頂向下開(kāi)發(fā):一種系統(tǒng)的而解決方法,并能最大限度104數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)——一個(gè)推薦的方法定義高層數(shù)據(jù)模型數(shù)據(jù)集市數(shù)據(jù)集市分布式數(shù)據(jù)集市多層數(shù)據(jù)倉(cāng)庫(kù)企業(yè)數(shù)據(jù)倉(cāng)庫(kù)模型提煉模型提煉數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)——一個(gè)推薦的方法定義高層數(shù)據(jù)模型數(shù)據(jù)集市數(shù)據(jù)集105OLAP服務(wù)器類(lèi)型關(guān)系OLAP服務(wù)器(ROLAP)使用關(guān)系數(shù)據(jù)庫(kù)或擴(kuò)展的關(guān)系數(shù)據(jù)庫(kù)存放并管理數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù),而用OLAP中間件支持其余部分包括每個(gè)DBMS后端優(yōu)化,聚集導(dǎo)航邏輯的實(shí)現(xiàn),附加的工具和服務(wù)較大的可擴(kuò)展性多維OLAP服務(wù)器(MOLAP)基于數(shù)組的多維存儲(chǔ)引擎(稀疏矩陣技術(shù))能對(duì)預(yù)計(jì)算的匯總數(shù)據(jù)快速索引混合OLAP服務(wù)器(HOLAP)結(jié)合上述兩種技術(shù),更大的使用靈活性特殊的SQL服務(wù)器在星型和雪花模型上支持SQL查詢(xún)OLAP服務(wù)器類(lèi)型關(guān)系OLAP服務(wù)器(ROLAP)106數(shù)據(jù)倉(cāng)庫(kù)的實(shí)現(xiàn)難點(diǎn)海量數(shù)據(jù)快速反應(yīng)OLAP服務(wù)器要在幾秒內(nèi)響應(yīng)決策支持查詢(xún)方法高效的數(shù)據(jù)立方體計(jì)算技術(shù)高效的存取方法高效的查詢(xún)處理技術(shù)數(shù)據(jù)倉(cāng)庫(kù)的實(shí)現(xiàn)難點(diǎn)107數(shù)據(jù)立方體的有效計(jì)算數(shù)據(jù)立方體可以被看成是一個(gè)方體的格最底層的方體是基本方體最頂端的方體(頂點(diǎn))只包含一個(gè)單元的值一個(gè)n維的數(shù)據(jù)立方體,每維Li層,可能產(chǎn)生的方體總數(shù)是多少?數(shù)據(jù)立方體的物化(materialization)預(yù)先計(jì)算所有方體(全物化):需要海量存儲(chǔ)空間,存放預(yù)先計(jì)算的方體不預(yù)先計(jì)算任何“非基本”方體(不物化),在運(yùn)行時(shí)計(jì)算昂貴的多維聚集,可能很慢有選擇的計(jì)算一個(gè)所有方體的適當(dāng)子集(部分物化):相應(yīng)時(shí)間和存儲(chǔ)空間的折中。確定物化哪些方體考慮工作負(fù)荷下的查詢(xún)、它們的頻率和它們的開(kāi)銷(xiāo)等等數(shù)據(jù)立方體的有效計(jì)算數(shù)據(jù)立方體可以被看成是一個(gè)方體的格108方體的操作DMQL中的方體定義和計(jì)算definecubesales[item,city,year]:sum(sales_in_dollars)computecubesales上述的computecube子句可以轉(zhuǎn)化為一個(gè)類(lèi)似于SQL的語(yǔ)句SELECTitem,city,year,SUM(amount)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年鐵路貨物運(yùn)輸與專(zhuān)用線運(yùn)營(yíng)合同
- 2025年度建筑勞務(wù)分包合同標(biāo)的工程進(jìn)度與質(zhì)量監(jiān)管條款3篇
- 2024年贈(zèng)與股份合同:父子權(quán)益的傳遞與確認(rèn)
- 2024庭院園藝景觀設(shè)計(jì)與生態(tài)修復(fù)工程包工合同范本6篇
- 2024年電子商務(wù)平臺(tái)送貨員聘用合同
- 2024年航空航天產(chǎn)業(yè)投資合作意向書(shū)(國(guó)家戰(zhàn)略版)3篇
- 2024年社交媒體品牌建設(shè)與維護(hù)服務(wù)條款3篇
- 2024年版權(quán)許可合同違約責(zé)任認(rèn)定
- 2024年資產(chǎn)重組合同范本
- 2024物業(yè)管理實(shí)務(wù)客戶(hù)關(guān)系管理與滿意度調(diào)查合同3篇
- 中國(guó)馬克思主義與當(dāng)代思考題(附答案)
- ESD靜電防護(hù)檢測(cè)及管控標(biāo)準(zhǔn)
- 【求陰影部分面積】五年級(jí)上冊(cè)數(shù)學(xué)必考求陰影部分面積35題2023.9.27
- 結(jié)核病診斷-TSPOT-實(shí)驗(yàn)課件
- 業(yè)主搭建陽(yáng)光房申請(qǐng)書(shū)
- 小學(xué)語(yǔ)文分層作業(yè)設(shè)計(jì)案例
- 四川旭虹光電科技有限公司曲面顯示用蓋板玻璃生產(chǎn)項(xiàng)目環(huán)評(píng)報(bào)告
- 傷口愈合的病理生理及濕性愈合理論-課件
- GB/T 24475-2023電梯遠(yuǎn)程報(bào)警系統(tǒng)
- 科技計(jì)劃項(xiàng)目(課題)驗(yàn)收(結(jié)題)經(jīng)費(fèi)審計(jì)業(yè)務(wù)約定書(shū)
- SIS系統(tǒng)操作規(guī)程
評(píng)論
0/150
提交評(píng)論