版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數(shù)據倉庫和數(shù)據挖掘的OLAP技術數(shù)據倉庫庫和數(shù)據據挖掘的的OLAP技術什么是數(shù)數(shù)據倉庫庫?多維數(shù)據據模型數(shù)據倉庫庫的體系系結構數(shù)據倉庫庫實現(xiàn)數(shù)據立方方體技術術的進一一步發(fā)展展從數(shù)據倉倉庫到數(shù)數(shù)據挖掘掘什么是數(shù)數(shù)據倉庫庫?數(shù)據倉庫庫的定義義很多,,但卻很很難有一一種嚴格格的定義義它是一個個提供決決策支持持功能的的數(shù)據庫庫,它與與公司的的操作數(shù)數(shù)據庫分分開維護護。為統(tǒng)一的的歷史數(shù)數(shù)據分析析提供堅堅實的平平臺,對對信息處處理提供供支持“數(shù)據倉倉庫是一一個面向向主題的的、集成成的、隨隨時間而而變化的的、不容容易丟失失的數(shù)據據集合,,支持管管理部門門的決策策過程.”—W.H.Inmon(數(shù)據倉倉庫構造造方面的的領頭設設計師))建立數(shù)據據倉庫(datawarehousing)::構造和使使用數(shù)據據倉庫的的過程。。數(shù)據倉庫庫關鍵特特征一——面向主題題圍繞一些些主題,,如顧客客、供應應商、產產品等關注決策策者的數(shù)數(shù)據建模模與分析析,而不不是集中中于組織織機構的的日常操操作和事事務處理理。排除對于于決策無無用的數(shù)數(shù)據,提提供特定定主題的的簡明視視圖。數(shù)據倉庫庫關鍵特特征二——數(shù)據集成成一個數(shù)據據倉庫是是通過集集成多個個異種數(shù)數(shù)據源來來構造的的。關系數(shù)據據庫,一一般文件件,聯(lián)機機事務處處理記錄錄使用數(shù)據據清理和和數(shù)據集集成技術術。確保命名名約定、、編碼結結構、屬屬性度量量等的一一致性。。當數(shù)據被被移到數(shù)數(shù)據倉庫庫時,它它們要經經過轉化化。數(shù)據倉庫庫關鍵特特征三——隨時間而而變化數(shù)據倉庫庫的時間間范圍比比操作數(shù)數(shù)據庫系系統(tǒng)要長長的多。。操作數(shù)據據庫系統(tǒng)統(tǒng):主要保存存當前數(shù)數(shù)據。數(shù)據倉庫庫:從歷史的的角度提提供信息息(比如如過去5-10年)數(shù)據倉庫庫中的每每一個關關鍵結構構都隱式式或顯式式地包含含時間元元素,而而操作數(shù)數(shù)據庫中中的關鍵鍵結構可可能就不不包括時時間元素素。數(shù)據倉庫庫關鍵特特征四——數(shù)據不易易丟失盡管數(shù)據據倉庫中中的數(shù)據據來自于于操作數(shù)數(shù)據庫,,但他們們卻是在在物理上上分離保保存的。。操作數(shù)據據庫的更更新操作作不會出出現(xiàn)在數(shù)數(shù)據倉庫庫環(huán)境下下。不需要事事務處理理,恢復復,和并并發(fā)控制制等機制制只需要兩兩種數(shù)據據訪問:數(shù)據的初初始轉載載和數(shù)據據訪問((讀操作作)數(shù)據倉庫庫與異種種數(shù)據庫庫集成傳統(tǒng)的異異種數(shù)據據庫集成成:在多個異異種數(shù)據據庫上建建立包裝裝程序((wrappers)和中介介程序((mediators)查詢驅動動方法——當從客戶戶端傳過過來一個個查詢時時,首先先使用元元數(shù)據字字典將查查詢轉換換成相應應異種數(shù)數(shù)據庫上上的查詢詢;然后后,將這這些查詢詢映射和和發(fā)送到到局部查查詢處理理器缺點:復復雜的信信息過慮慮和集成成處理,,競爭資資源數(shù)據倉庫庫:更新驅動動將來自多多個異種種源的信信息預先先集成,,并存儲儲在數(shù)據據倉庫中中,供直直接查詢詢和分析析高性能數(shù)據倉庫庫與操作作數(shù)據庫庫系統(tǒng)操作數(shù)據據庫系統(tǒng)統(tǒng)的主要要任務是是聯(lián)機事事務處理理OLTP日常操作作:購買,庫庫存,銀銀行,制制造,工工資,注注冊,記記帳等數(shù)據倉庫庫的主要要任務是是聯(lián)機分分析處理理OLAP數(shù)據分析析和決策策OLTP和OLAP的主要區(qū)區(qū)別:用戶和系系統(tǒng)的面面向性:顧客VS.市場數(shù)據內容容:當前的、、詳細的的數(shù)據VS.歷史的、、匯總的的數(shù)據數(shù)據庫設設計:實體-聯(lián)聯(lián)系模型型(ER))和面向應應用的數(shù)數(shù)據庫設設計VS.星型/雪花模型型和面向向主題的的數(shù)據庫庫設計視圖:當前的、、企業(yè)內內部的數(shù)數(shù)據VS.經過演化化的、集集成的數(shù)數(shù)據訪問模式式:事務操作作VS.只讀查詢詢(但很很多是復復雜的查查詢)OLTP系統(tǒng)和OLAP系統(tǒng)的比比較特征OLTPOLAP任務特點操作處理信息處理面向事務分析用戶辦事員、DBA、數(shù)據庫專業(yè)人員經理、主管、數(shù)據分析員功能日常操作長期信息分析、決策支持DB設計基于E-R,面向應用星型/雪花,面向主體數(shù)據最新的、詳細的歷史的、匯總的視圖詳細的、二維關系型匯總的、多維的任務單位簡短的事務復雜的查詢訪問數(shù)據量數(shù)十個數(shù)百萬個用戶數(shù)數(shù)千個數(shù)百個DB規(guī)模100M-數(shù)GB100GB-數(shù)TB優(yōu)先性高性能、高可用性高靈活性、端點用戶自治度量事務吞吐量查詢吞吐量、響應時間為什么需需要一個個分離的的數(shù)據倉倉庫?提高兩個個系統(tǒng)的的性能DBMS是為OLTP而設計的的:存儲儲方式,索引,并發(fā)控制制,恢復數(shù)據倉庫庫是為OLAP而設計::復雜的的OLAP查詢,多維視圖圖,匯總總不同的功功能和不不同的數(shù)數(shù)據:歷史數(shù)據據:決策支持持需要歷歷史數(shù)據據,而這這些數(shù)據據在操作作數(shù)據庫庫中一般般不會去去維護數(shù)據匯總總:決策策支持需需要將來來自異種種源的數(shù)數(shù)據統(tǒng)一一(如聚聚集和匯匯總)數(shù)據質量量:不同的源源使用不不一致的的數(shù)據表表示、編編碼和格格式,對對這些數(shù)數(shù)據進行行有效的的分析需需要將他他們轉化化后進行行集成從關系表表和電子子表格到到數(shù)據立立方體數(shù)據倉庫庫和數(shù)據據倉庫技技術基于于多維數(shù)據據模型。這個模模型把數(shù)數(shù)據看作作是數(shù)據立方方體形式。多多維數(shù)據據模型圍圍繞中心心主題組組織,該該主題用用事實表表示。事實是數(shù)值度度量的。。數(shù)據立方方體允許以多多維數(shù)據據建模和和觀察。。它由維和事實定義。維是關于一一個組織織想要記記錄的視視角或觀觀點。每每個維都都有一個個表與之之相關聯(lián)聯(lián),稱為為維表。事實表包括事實實的名稱稱或度量量以及每每個相關關維表的的關鍵字字在數(shù)據倉倉庫的研研究文獻獻中,一一個n維的數(shù)據據的立方方體叫做做基本方體體。給定一一個維的的集合,,我們可可以構造造一個方體的格格,每個都都在不同同的匯總總級或不不同的數(shù)數(shù)據子集集顯示數(shù)數(shù)據,方方體的格格稱為數(shù)據立方方體。0維方體存存放最高高層的匯匯總,稱稱作頂點方體體;而存放放最底層層匯總的的方體則則稱為基本方體體。教科書第第31頁數(shù)據立方方體——一個方體體的格alltimeitemlocationsuppliertime,itemtime,locationtime,supplieritem,locationitem,supplierlocation,suppliertime,item,,locationtime,item,,suppliertime,location,supplieritem,location,suppliertime,item,location,supplier0-D((apex)cuboid1-Dcuboids2-Dcuboids3-Dcuboids4-D((base)cuboid數(shù)據倉庫庫的概念念模型最流行的的數(shù)據倉倉庫概念念模型是是多維數(shù)數(shù)據模型型。這種種模型可可以以星星型模式式、雪花花模式、、或事實實星座模模式的形形式存在在。星型模式式(Starschema):事實表在在中心,,周圍圍圍繞地連連接著維維表(每每維一個個),事事實表含含有大量量數(shù)據,,沒有冗冗余。雪花模式式(Snowflakeschema):是星型模模式的變變種,其其中某些些維表是是規(guī)范化化的,因因而把數(shù)數(shù)據進一一步分解解到附加加表中。。結果,,模式圖圖形成類類似于雪雪花的形形狀。事實星座座(Factconstellations):多個事實實表共享享維表,這種模式式可以看看作星型型模式集集,因此此稱為星星系模式式(galaxyschema),或者者事實星星座(factconstellation)星型模式式實例
time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcitystate_or_provincecountrylocationSalesFactTabletime_keyitem_keybranch__keylocation_keyunits_solddollars_soldavg__salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranch雪花模式式實例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcity_keylocationSalesFactTabletime_keyitem_keybranch__keylocation_keyunits_solddollars_soldavg__salesMeasuresitem_keyitem_namebrandtypesupplier_keyitembranch_keybranch_namebranch_typebranchsupplier_keysupplier_typesuppliercity_keycitystate_or_provincecountrycity事實星座座模式實實例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountrylocationSalesFactTabletime_keyitem_keybranch__keylocation_keyunits_solddollars_soldavg__salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranchShippingFactTabletime_keyitem_keyshipper_keyfrom_locationto_locationdollars_costunits_shippedshipper_keyshipper_namelocation_keyshipper_typeshipper一種數(shù)據據挖掘查查詢語言言:DMQLDMQL首先包括括定義數(shù)數(shù)據倉庫庫和數(shù)據據集市的的語言原原語,這這包括兩兩種原語語定義::一種是是立方體體定義,,一種是是維定義義立方體定定義(事實表)definecube<cube_name>[[<dimension_list>]::<<measure__list>維定義(維表)definedimension<dimension_name>>as(<attribute_or_subdimension__list>))特殊案例例(共享維表表的定義義)第一次作作為維表表定義“cubedefinition”然后:definedimension<dimension_name>>as<dimension_name__first__time>incube<cube_name_first_time>>實例:使使用DMQL定義星型型模式definecubesales_star[time,item,branch,,location]:dollars_sold==sum((sales__in__dollars),,avg_sales==avg(sales_in_dollars),units__sold==count(*))definedimensiontimeas(time_key,,day,day_of_week,,month,quarter,year)definedimensionitemas(item_key,,item__name,brand,,type,,supplier_type))definedimensionbranchas(branch_key,branch_name,,branch_type)definedimensionlocationas(location__key,street,,city,,province_or_state,country)實例:使使用DMQL定義雪花花模式definecubesales_snowflake[[time,,item,,branch,location]]:dollars_sold==sum((sales__in__dollars),,avg_sales==avg(sales_in_dollars),units__sold==count(*))definedimensiontimeas(time_key,,day,day_of_week,,month,quarter,year)definedimensionitemas(item_key,,item__name,brand,,type,,supplier(supplier_key,,supplier_type)))definedimensionbranchas(branch_key,branch_name,,branch_type)definedimensionlocationas(location__key,street,,city(city__key,province_or_state,country)))度量的分分類一個數(shù)據據立方體體的度量量是一個個數(shù)值函函數(shù),該該函數(shù)可可以對數(shù)數(shù)據立方方體的每每一個點點求值。。度量可可以根據據其所用用的聚集集函數(shù)分分為三類類:分布的(distributive):將函數(shù)數(shù)用于n個聚集值值得到的的結果和和將函數(shù)數(shù)用于所所有數(shù)據據得到的的結果一一樣。比如:count()),sum((),min((),max(()等代數(shù)的(algebraic):函數(shù)可可以由一一個帶M個參數(shù)的的代數(shù)函函數(shù)計算算(M為有界整整數(shù)),,而每個個參數(shù)值值都可以以有一個個分布的的聚集函函數(shù)求得得。比如:avg((),min__N()),standard_deviation(()整體的(holistic)):描述函函數(shù)的子子聚集所所需的存存儲沒有有一個常常數(shù)界。。比如:median((),mode(),rank()概念分層層:location維的一個個概念分分層allEuropeNorth_AmericaMexicoCanadaSpainGermanyVancouverM.WindL.Chan..................allregionofficecountryTorontoFrankfurtcity多維數(shù)據據模型上上的OLAP操作上卷(roll-up)::匯總數(shù)據據通過一個個維的概概念分層層向上攀攀升或者者通過維維規(guī)約下鉆(drill--down):上卷的的逆操作作由不太詳詳細的數(shù)數(shù)據到更更詳細的的數(shù)據,,可以通通過沿維維的概念念分層向向下或引引入新的的維來實實現(xiàn)切片和切切塊(sliceanddice))投影和選選擇操作作轉軸(pivot))立方體的的重定位位,可視視化,或或將一個個3維立方體體轉化維維一個2維平面序序列其他OLAP操作鉆過(drill__across):執(zhí)行涉涉及多個個事實表表的查詢詢鉆透(drill__through):使用關關系SQL機制,鉆鉆到數(shù)據據立方體體的底層層,到后后端關系系表數(shù)據倉庫庫設計::一個商商務分析析框架數(shù)據倉庫庫設計中中必須考考慮的四四種視圖圖自頂向下下視圖允許我們們選擇數(shù)數(shù)據倉庫庫所需的的相關信信息,這這些信息息能夠滿滿足當前前和未來來商務的的需求。。數(shù)據源視視圖揭示被操操作數(shù)據據庫系統(tǒng)統(tǒng)所捕獲獲、存儲儲和管理理的信息息數(shù)據倉庫庫視圖有事實表表和維表表所組成成,提供供存放在在數(shù)據倉倉庫內部部的信息息,包括括預先計計算的綜綜合與技技術,以以及關于于源、日日期和源源時間等等信息商務查詢詢視圖從最終用用戶的角角度透視視數(shù)據倉倉庫中的的數(shù)據數(shù)據倉庫庫的設計計過程((P43)自頂向下下法、自自底向上上法或者者兩者的的混合方方法自頂向下下法:由由總體設設計和規(guī)規(guī)劃開始始(成熟熟)自底向上上法:以以實驗和和原型開開始(快快速)從軟件過過程的觀觀點瀑布式方方法:在在進行下下一步前前,每一一步都進進行結構構化和系系統(tǒng)的分分析螺旋式方方法:功功能漸增增的系統(tǒng)統(tǒng)的快速速產生,,相繼版版本之間間間隔很很短典型的數(shù)數(shù)據倉庫庫設計過過程選取待建建模的商務過程程選取商務務過程的的粒度選取用于于每個事事實表記記錄的維選取將安安放在事事實表中中的度量三層數(shù)據據倉庫架架構DataWarehouseExtractTransformLoadRefreshOLAP服務器AnalysisQueryReportsDataminingMonitor&IntegratorMetadata數(shù)據源前端工具具ServeDataMartsOperational
DBsothersources數(shù)據倉庫庫服務器器OLAPServer三種數(shù)據據倉庫模模型(從從結構的的角度))企業(yè)倉庫庫搜集關于于跨越整整個組織織的主題題的所有有信息,,來自一一個或多多個操作作的系統(tǒng)統(tǒng),跨功功能的。。數(shù)據集市市企業(yè)范圍圍數(shù)據的的一個子子集,對對于特定定的客戶戶是有用用的。其其范圍限限于選定定的主題題,比如如一個商商場的數(shù)數(shù)據集市市獨立的數(shù)數(shù)據集市市VS.非獨立的的數(shù)據集集市(數(shù)數(shù)據來自自于企業(yè)業(yè)數(shù)據倉倉庫)虛擬倉庫庫操作數(shù)據據庫上的的一系列列視圖只有一些些可能的的匯總視視圖被物物化數(shù)據倉庫庫開發(fā)自頂向下下開發(fā)::一種系系統(tǒng)的而而解決方方法,并并能最大大限度地地減少集集成問題題。但費費用高,,長時間間開發(fā),,缺乏靈靈活性,,因為整整個組織織的共同同數(shù)據模模型達到到一致是是困難的的。自底向上上:設計、開開發(fā)、部部署獨立立的數(shù)據據集市方方法提供供了靈活活性、低低花費,,并能快快速回報報投資。。然后,,將分散散的數(shù)據據集市集集成,形形成一個個一致的的企業(yè)數(shù)數(shù)據倉庫庫時,可可能導致致問題。。數(shù)據倉庫庫開發(fā)——一個推薦薦的方法法定義高層層數(shù)據模模型數(shù)據集市市數(shù)據集市市分布式數(shù)數(shù)據集市市多層數(shù)據據倉庫企業(yè)數(shù)據據倉庫模型提煉煉模型提煉煉OLAP服務器類類型關系OLAP服務器(ROLAP))使用關系系數(shù)據庫庫或擴展展的關系系數(shù)據庫庫存放并并管理數(shù)數(shù)據倉庫庫的數(shù)據據,而用用OLAP中間件支支持其余余部分包括每個個DBMS后端優(yōu)化化,聚集集導航邏邏輯的實實現(xiàn),附附加的工工具和服服務較大的可可擴展性性多維OLAP服務器(MOLAP))基于數(shù)組組的多維維存儲引引擎(稀稀疏矩陣陣技術))能對預計計算的匯匯總數(shù)據據快速索索引混合OLAP服務器(HOLAP))結合上述述兩種技技術,更更大的使使用靈活活性特殊的SQL服務器在星型和和雪花模模型上支支持SQL查詢數(shù)據倉庫庫的實現(xiàn)現(xiàn)難點海量數(shù)據據快速反應應OLAP服務器要要在幾秒秒內響應應決策支支持查詢詢方法高效的數(shù)數(shù)據立方方體計算算技術高效的存存取方法法高效的查查詢處理理技術數(shù)據立方方體的有有效計算算數(shù)據立方方體可以以被看成成是一個個方體的格格最底層的的方體是是基本方方體最頂端的的方體((頂點))只包含含一個單單元的值值一個n維的數(shù)據據立方體體,每維維Li層,可能能產生的的方體總總數(shù)是多多少?數(shù)據立方方體的物化(materialization))預先計算算所有方方體(全物化):需要海量量存儲空空間,存存放預先先計算的的方體不預先計計算任何何“非基基本”方方體(不物化),在運運行時計計算昂貴貴的多維維聚集,,可能很很慢有選擇的的計算一一個所有有方體的的適當子子集(部分物化化):相應應時間和和存儲空空間的折折中。確定物化化哪些方方體考慮工作作負荷下下的查詢詢、它們們的頻率率和它們們的開銷銷等等方體的操操作DMQL中的方體體定義和和計算definecubesales[item,city,year]:sum(sales_in_dollars))computecubesales上述的computecube子句可以以轉化為為一個類類似于SQL的語句SELECTitem,city,year,SUM(amount))FROMSALESCUBEBYitem,city,year需要計算算以下的的groupby子句(item,city,year)(item,city),,(itemyear)),((city,year)(item),,(city),((year))()(item)(city)()(year)(city,item)(city,year)(item,year)(city,item,year)方體計算算:關系系型OLAP的方法((ROLAP)方體計算算的有效效方法基于ROLAP的方體算算法(Agarwaletal’96)基于數(shù)組組的算法法(MOLAP))(Zhaoetal’’97))自底向上上的計算算方法(Beyer&&Ramarkrishnan’99)H-cubing技術(Han,Pei,,Dong&&Wang:SIGMOD’01)基于ROLAP的方法將排序、、散列(hashing)和分組操操作應用用于維的的屬性,,以便對對相關元元組重新新排序和和聚類在某些子子聚集上上分組,,作為““部分分分組步驟驟”??梢杂梢砸郧坝嬎闼愕木奂嬎阈滦碌木奂徊槐赜谢臼聦崒嵄碛嬎闼惴襟w計算算的多路路數(shù)組聚聚集方法法(1)將數(shù)組分分成塊((chunk,一個可以以裝入內內存的小小子方))壓縮的稀稀疏數(shù)組組尋址::(chunk__id,,offset)通過訪問問立方體體單元,,計算聚聚集。可可以優(yōu)化化訪問單單元組的的次序,,使得每每個單元元被訪問問的次數(shù)數(shù)最小化化,從而而減少內內存訪問問和磁盤盤I/O的開銷。。A(month)B29303132123459131415166463626148474645a1a0c3c2c1c0b3b2b1b0a2a3C(item)B(city)442856402452362060哪個是多多路數(shù)組組聚集的的最佳遍遍歷次序序?方體計算算的多路路數(shù)組聚聚集方法法(2)A(month)40B29303132123459131415166463626148474645a1a0c3c2c1c0b3b2b1b0a2a3C(item)4000442856402452362060B(city))400方體計算算的多路路數(shù)組聚聚集方法法(3)AB29303132123459131415166463626148474645a1a0c3c2c1c0b3b2b1b0a2a3C442856402452362060B方體計算算的多路路數(shù)組聚聚集方法法(4)方法:各各平面要要按他們們大小的的升序排排列進行行排序和和計算詳見書P50例2.12思想:將將最小的的平面放放在內存存中,對對最大的的平面每每次只是是取并計計算一塊塊這種方法法的限制制:只有有在維數(shù)數(shù)比較小小的情況況下,效效果才比比較理想想(要計算的的立方體體隨維數(shù)數(shù)指數(shù)增增長)如果維的的數(shù)目比比較多,,可以考考慮使用用“自底底向上的的計算””或者時時“冰山山方體””計算算元數(shù)據存存儲在數(shù)據倉倉庫中,,元數(shù)據據就是定定義數(shù)據據倉庫對對象的數(shù)數(shù)據。關關于數(shù)據據的數(shù)據據。有以以下幾種種:數(shù)據倉庫庫結構的的描述倉庫模式式、視圖圖、維、、層次結結構、導導出數(shù)據據的定義義,以及及數(shù)據集集市的位位置和內內容操作元數(shù)數(shù)據包括數(shù)據據血統(tǒng)(datalineage)、數(shù)據類類別(currencyofdata),以及監(jiān)監(jiān)視信息息匯總用的的算法::包括度量量和維定定義算法法,數(shù)據據粒度、、分割、、主題領領域、聚聚集、匯匯總、預預定義的的查詢和和報告由操作環(huán)環(huán)境到數(shù)數(shù)據倉庫庫的映射射:數(shù)據提取取、清理理、轉換換規(guī)則、、剪裁規(guī)規(guī)則、安安全等關于系統(tǒng)統(tǒng)性能的的數(shù)據索引,profiles,數(shù)據刷刷新、更更新或復復制事件件的調度度和定時時商務元數(shù)數(shù)據商務術語語和定義義、數(shù)據據擁有者者信息、、收費政政策等元數(shù)據的的使用元數(shù)據與與數(shù)據一一起,構構成了數(shù)數(shù)據倉庫庫中的數(shù)數(shù)據模型型,元數(shù)數(shù)據所描描述的更更多的是是這個模模型的結結構方面面的信息息。在數(shù)據倉倉庫中,,元數(shù)據據的主要要用途包包括:用作目錄錄,幫助助決策支支持系統(tǒng)統(tǒng)分析者者對數(shù)據據倉庫的的內容定定義作為數(shù)據據倉庫和和操作性性數(shù)據庫庫之間進進行數(shù)據據轉換時時的映射射標準用于指導導當前細細節(jié)數(shù)據據和稍加加綜合的的數(shù)據之之間的匯匯總算法法,指導導稍加綜綜合的數(shù)數(shù)據和高高度綜合合的數(shù)據據之間的的匯總算算法。數(shù)據倉庫庫后端工工具和使使用程序序用于加載載和刷新新它的數(shù)數(shù)據數(shù)據提取?。簭亩鄠€外外部的異異構數(shù)據據源收集集數(shù)據數(shù)據清理理檢測數(shù)據據種的錯錯誤并作作可能的的訂正數(shù)據變換換將數(shù)據由由歷史或或主機的的格式轉轉化為數(shù)數(shù)據倉庫庫的格式式裝載排序、匯匯總、合合并、計計算視圖圖,檢查查完整性性,并建建立索引引和分區(qū)區(qū)刷新將數(shù)據源源的更新新傳播到到數(shù)據倉倉庫中數(shù)據倉庫庫的應用用數(shù)據倉庫庫的三種種應用信息處理理支持查詢詢和基本本的統(tǒng)計計分析,,并使用用交叉表表、表、、圖標和和圖進行行報表處處理分析處理理對數(shù)據倉倉庫中的的數(shù)據進進行多維維數(shù)據分分析支持基本本的OLAP操作,切切塊、切切片、上上卷、下下鉆、轉轉軸等數(shù)據挖掘掘從隱藏模模式中發(fā)發(fā)現(xiàn)知識識支持關聯(lián)聯(lián)分析,,構建分分析性模模型,分分類和預預測,并并用可視視化工具具呈現(xiàn)挖挖掘的結結果三種應用用間的差差別(P62)從聯(lián)機分分析處理理到聯(lián)機機分析挖挖掘為什么要要聯(lián)機分分析挖掘掘(P63)數(shù)據倉庫庫中有高高質量的的數(shù)據數(shù)據倉庫庫中存放放著整合合的、一一致的、、清理過過的數(shù)據據圍繞數(shù)據據倉庫的的信息處處理結構構存取、集集成、合合并多個個異種數(shù)數(shù)據庫的的轉換,,ODBC/OLEDB連接,Web訪問和訪訪問工具具等基于OLAP的探測式式數(shù)據分分析使用上卷卷、下鉆鉆、切片片、轉軸軸等技術術進行數(shù)數(shù)據挖掘掘數(shù)據挖掘掘功能的的聯(lián)機選選擇多種數(shù)據據挖掘功功能、算算法和任任務的整整合聯(lián)機分析析挖掘的的體系結結構數(shù)據倉庫庫元數(shù)據多維數(shù)據據庫OLAM引擎OLAP引擎用戶圖形形界面API數(shù)據方體體API數(shù)據庫API數(shù)據清理理數(shù)據集成成Layer3OLAP/OLAMLayer2多維數(shù)據據庫Layer1數(shù)據存儲儲Layer4用戶界面面數(shù)據的過過濾、集集成過濾數(shù)據庫基于約束束的數(shù)據據挖掘挖掘結果果數(shù)據預處處理主要內容容為什么要要預處理理數(shù)據??數(shù)據清理理數(shù)據集成成和變換換數(shù)據歸約約為什么要要預處理理數(shù)據??現(xiàn)實世界界的數(shù)據據是“骯骯臟的””不完整的的:有些些感興趣趣的屬性性缺少屬屬性值,,或僅包包含聚集集數(shù)據含噪聲的的:包含含錯誤或或者“孤孤立點””不一致的的:在編編碼或者者命名上上存在差差異沒有高質質量的數(shù)數(shù)據,就就沒有高高質量的的挖掘結結果高質量的的決策必必須依賴賴高質量量的數(shù)據據數(shù)據倉庫庫需要對對高質量量的數(shù)據據進行一一致地集集成數(shù)據質量量的多維維度量一個廣為為認可的的多維度度量觀點點:精確度完整度一致性合乎時機機可信度附加價值值可訪問性性跟數(shù)據本本身的含含義相關關的內在的、、上下文文的、表表象的數(shù)據預處處理的主主要任務務數(shù)據清理理填寫空缺缺的值,,平滑噪噪聲數(shù)據據,識別別、刪除除孤立點點,解決決不一致致性數(shù)據集成成集成多個個數(shù)據庫庫、數(shù)據據立方體體或文件件數(shù)據變換換規(guī)范化和和聚集數(shù)據歸約約得到數(shù)據據集的壓壓縮表示示,它小小得多,,但可以以得到相相同或相相近的結結果數(shù)據離散散化數(shù)據歸約約的一部部分,通通過概念念分層和和數(shù)據的的離散化化來規(guī)約約數(shù)據,,對數(shù)字字型數(shù)據據特別重重要數(shù)據預處處理的形形式空缺值數(shù)據并不不總是完完整的例如:數(shù)數(shù)據庫表表中,很很多條記記錄的對對應字段段沒有相相應值,,比如銷銷售表中中的顧客客收入引起空缺缺值的原原因設備異常常與其他已已有數(shù)據據不一致致而被刪刪除因為誤解解而沒有有被輸入入的數(shù)據據在輸入時時,有些些數(shù)據應應為得不不到重視視而沒有有被輸入入對數(shù)據的的改變沒沒有進行行日志記記載空缺值要要經過推推斷而補補上如何處理理空缺值值忽略元組組:當類類標號缺缺少時通通常這么么做(假假定挖掘掘任務設設計分類類或描述述),當當每個屬屬性缺少少值的百百分比變變化很大大時,它它的效果果非常差差。人工填寫寫空缺值值:工作作量大,,可行性性低使用一個個全局變變量填充充空缺值值:比如如使用unknown或-∞使用屬性性的平均均值填充充空缺值值使用與給給定元組組屬同一一類的所所有樣本本的平均均值使用最可可能的值值填充空空缺值::使用像像Bayesian公式或判判定樹這這樣的基基于推斷斷的方法法噪聲數(shù)據據噪聲:一一個測量量變量中中的隨機機錯誤或或偏差引起不正正確屬性性值的原原因數(shù)據收集集工具的的問題數(shù)據輸入入錯誤數(shù)據傳輸輸錯誤技術限制制命名規(guī)則則的不一一致其它需要要數(shù)據清清理的數(shù)數(shù)據問題題重復記錄錄不完整的的數(shù)據不一致的的數(shù)據如何處理理噪聲數(shù)數(shù)據分箱(binning)::首先排序序數(shù)據,,并將他他們分到到等深的的箱中然后可以以按箱的的平均值值平滑、、按箱中中值平滑滑、按箱箱的邊界界平滑等等等聚類:監(jiān)測并且且去除孤孤立點計算機和和人工檢檢查結合合計算機檢檢測可疑疑數(shù)據,,然后對對它們進進行人工工判斷回歸通過讓數(shù)數(shù)據適應應回歸函函數(shù)來平平滑數(shù)據據數(shù)據平滑滑的分箱箱方法price的排序后后數(shù)據((單位::美元)):4,8,15,21,21,24,25,28,34劃分為((等深的的)箱::箱1:4,8,15箱2:21,21,24箱3:25,28,34用箱平均均值平滑滑:箱1:9,9,9箱2:22,22,22箱3:29,29,29用箱邊界界平滑::箱1:4,4,15箱2:21,21,24箱3:25,25,34聚類回歸xyy=x++1X1Y1Y1’數(shù)據集成成數(shù)據集成成:將多個數(shù)數(shù)據源中中的數(shù)據據整合到到一個一一致的存存儲中模式集成成:整合不同同數(shù)據源源中的元元數(shù)據實體識別別問題::匹配來來自不同同數(shù)據源源的現(xiàn)實實世界的的實體,,比如::A.cust--id==B.customer_no檢測并解解決數(shù)據據值的沖沖突對現(xiàn)實世世界中的的同一實實體,來來自不同同數(shù)據源源的屬性性值可能能是不同同的可能的原原因:不不同的數(shù)數(shù)據表示示,不同同的度量量等等處理數(shù)據據集成中中的冗余余數(shù)據集成多個個數(shù)據庫庫時,經經常會出出現(xiàn)冗余余數(shù)據同一屬性性在不同同的數(shù)據據庫中會會有不同同的字段段名一個屬性性可以由由另外一一個表導導出,如如“年薪薪”有些冗余余可以被被相關分分析檢測測到仔細將多多個數(shù)據據源中的的數(shù)據集集成起來來,能夠夠減少或或避免結結果數(shù)據據中的冗冗余與不不一致性性,從而而可以提提高挖掘掘的速度度和質量量。數(shù)據變換換平滑:去去除數(shù)據據中的噪噪聲聚集:匯匯總,數(shù)數(shù)據立方方體的構構建數(shù)據概化化:沿概概念分層層向上匯匯總規(guī)范化::將數(shù)據據按比例例縮放,,使之落落入一個個小的特特定區(qū)間間最?。钭畲笠?guī)范范化z-score規(guī)范化小數(shù)定標標規(guī)范化化屬性構造造通過現(xiàn)有有屬性構構造新的的屬性,,并添加加到屬性性集中。。數(shù)據變換換——規(guī)范化最?。钭畲笠?guī)范范化z-score規(guī)范化小數(shù)定標標規(guī)范化化其中,j是使Max((|||)<<1的最小整整數(shù)數(shù)據歸約約策略數(shù)據倉庫庫中往往往存有海海量數(shù)據據,在其其上進行行復雜的的數(shù)據分分析與挖挖掘需要要很長的的時間數(shù)據歸約約數(shù)據歸約約可以用用來得到到數(shù)據集集的歸約約表示,,它小得得多,但但可以產產生相同同的(或或幾乎相相同的))分析結結果數(shù)據歸約約策略數(shù)據立方方體聚集集維歸約數(shù)據壓縮縮數(shù)值歸約約離散化和和概念分分層產生生用于數(shù)據據歸約的的時間不不應當超超過或““抵消””在歸約約后的數(shù)數(shù)據上挖挖掘節(jié)省省的時間間。數(shù)據立方方體聚集集最底層的的方體對對應于基基本方體體基本方體體對應于于感興趣趣的實體體在數(shù)據立立方體中中存在著著不同級級別的匯匯總數(shù)據立方方體可以以看成方方體的格格每個較高高層次的的抽象將將進一步步減少結結果數(shù)據據數(shù)據立方方體提供供了對預預計算的的匯總數(shù)數(shù)據的快快速訪問問使用與給給定任務務相關的的最小方方體在可能的的情況下下,對于于匯總數(shù)數(shù)據的查查詢應當當使用數(shù)數(shù)據立方方體維歸約通過刪除除不相干干的屬性性或維減減少數(shù)據據量屬性子集集選擇找出最小小屬性集集,使得得數(shù)據類類的概率率分布盡盡可能的的接近使使用所有有屬性的的原分布布減少出現(xiàn)現(xiàn)在發(fā)現(xiàn)現(xiàn)模式上上的屬性性的數(shù)目目,使得得模式更更易于理理解啟發(fā)式的的(探索索性的))方法逐步向前前選擇逐步向后后刪除向前選擇擇和向后后刪除相相結合判定歸納納樹探索性選選擇方法法d個屬性有有2d個可能的的子集逐步向前前選擇由空屬性性集開始始,選擇擇原屬性性集中最最好的屬屬性,并并將其添添加入該該集合,,重復該該步驟。。逐步向后后刪除由整個屬屬性集開開始,每每一步都都刪除掉掉尚在屬屬性集中中的最壞壞屬性向前選擇擇和向后后刪除相相結合每一步選選擇一個個最好屬屬性,并并刪除一一個最壞壞屬性可以使用用一個臨臨界值來來判定上上述三種種方法的的結束條條件判定歸納納樹數(shù)據壓縮縮有損壓縮縮VS.無損壓縮縮字符串壓壓縮有廣泛的的理論基基礎和精精妙的算算法通常是無無損壓縮縮在解壓縮縮前對字字符串的的操作非非常有限限音頻/視頻壓縮縮通常是有有損壓縮縮,壓縮縮精度可可以遞進進選擇有時可以以在不解解壓整體體數(shù)據的的情況下下,重構構某個片片斷兩種有損損數(shù)據壓壓縮的方方法:小小波變換換和主要要成分分分析數(shù)值歸約約通過選擇擇替代的的、較小小的數(shù)據據表示形形式來減減少數(shù)據據量有參方法法:使用用一個參參數(shù)模型型估計數(shù)數(shù)據,最最后只要要存儲參參數(shù)即可可。線性回歸歸方法::Y=α+βX多元回歸歸:線性性回歸的的擴充對數(shù)線性性模型::近似離離散的多多維數(shù)據據概率分分布無參方法法:直方圖聚類選樣直方圖一種流行行的數(shù)據據歸約技技術將某屬性性的數(shù)據據劃分為為不相交交的子集集,或桶桶,桶中中放置該該值的出出現(xiàn)頻率率桶和屬性性值的劃劃分規(guī)則則等寬等深V-最優(yōu)MaxDiff聚類將數(shù)據集集劃分為為聚類,,然后通通過聚類類來表示示數(shù)據集集如果數(shù)據據可以組組成各種種不同的的聚類,,則該技技術非常常有效,,反之如如果數(shù)據據界線模模糊,則則方法無無效數(shù)據可以以分層聚聚類,并并被存儲儲在多層層索引樹樹中聚類的定定義和算算法都有有很多選選擇選樣允許用數(shù)數(shù)據的較較小隨機機樣本((子集))表示大大的數(shù)據據集對數(shù)據集集D的樣本選選擇:簡單隨機機選擇n個樣本,,不回放放:由D的N個元組中中抽取n個樣本簡單隨機機選擇n個樣本,,回放::過程同同上,只只是元組組被抽取取后,將將被回放放,可能能再次被被抽取聚類選樣樣:D中元組被被分入M個互不相相交的聚聚類中,,可在其其中的m個聚類上上進行簡簡單隨機機選擇((m<M)分層選樣樣:D被劃分為為互不相相交的““層”,,則可通通過對每每一層的的簡單隨隨機選樣樣得到D的分層選選樣離散化三種類型型的屬性性值:名稱型——e..g.無序集合合中的值值序數(shù)——e..g.有序集合合中的值值連續(xù)值——e..g.實數(shù)離散化將連續(xù)屬屬性的范范圍劃分分為區(qū)間間有效的規(guī)規(guī)約數(shù)據據基于判定定樹的分分類挖掘掘基于判定定樹的分分類挖掘掘的大部部分時間間花在數(shù)數(shù)據的分分類和比比較上((比如一一個判定定條件為為:>400?,0-1000的整數(shù)將將在比較較1000次后得出出結果,,但是如如果先將將這1000個值劃分分為10個區(qū)間::0-100,100--200…900-1000,則只要要比較10次就可
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025學生食堂承包合同書
- 2025餐飲發(fā)服務業(yè)保密協(xié)議合同
- 2025石料運輸合同
- 2025年度青年人才公寓租賃合同關于房屋出租3篇
- 2025年度建筑鋼結構質量檢測與安全評估合同3篇
- 二零二五年度新能源汽車企業(yè)職工招聘與產業(yè)鏈整合合同3篇
- 2025年度餐飲連鎖合伙經營合同樣本2篇
- 二零二五年度農村有機垃圾堆肥處理與清理服務合同2篇
- 二零二五年度餐飲兼職煮飯人員培訓協(xié)議3篇
- 2025年度模特與造型師拍攝服務合同3篇
- 工行個人小額貸款合同樣本
- 江西省萍鄉(xiāng)市2023-2024學年高一上學期期末考試數(shù)學試題(解析版)
- Unit 5 Here and now Section B project 說課稿 2024-2025學年人教版(2024)七年級英語下冊標簽標題
- 2024-2025學年上學期深圳初中地理七年級期末模擬卷1
- 2024年地理知識競賽試題200題及答案
- 肝衰竭診治指南(2024年版)解讀
- 化學反應工程智慧樹知到期末考試答案章節(jié)答案2024年浙江工業(yè)大學
- 人生悟理-透過物理看人生智慧樹知到期末考試答案2024年
- 兒童劇劇本三只小豬
- 贏在執(zhí)行力:團隊執(zhí)行力-下
- 鉆孔灌注樁后注漿施工方案(最全版)
評論
0/150
提交評論