版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、第4章 數(shù)據(jù)倉庫的設(shè)計與開發(fā)24.1 數(shù)據(jù)倉庫分析與設(shè)計4.2 數(shù)據(jù)倉庫開發(fā)4.3 數(shù)據(jù)倉庫技術(shù)與開發(fā)的困難34.1數(shù)據(jù)倉庫分析與設(shè)計4.1.1 需求分析4.1.2概念模型設(shè)計4.1.3邏輯模型設(shè)計4.1.4物理模型設(shè)計4.1.5 數(shù)據(jù)倉庫的索引技術(shù)44.1.1 需求分析1.確定主題域2.支持決策的數(shù)據(jù)來源3.數(shù)據(jù)倉庫的成功標準和關(guān)鍵性能指標4.數(shù)據(jù)量與更新頻率51.確定主題域(1)明確對于決策分析最有價值的主題領(lǐng)域有哪些?(2)每個主題域的商業(yè)維度是哪些?每個維度的粒度層次有哪些?(3)制定決策的商業(yè)分區(qū)是什么?(4)不同地區(qū)需要哪些信息來制定決策?(5)對哪個區(qū)域提供特定的商品和服務(wù)?62
2、.支持決策的數(shù)據(jù)來源(1)哪些源數(shù)據(jù)(操作型)與商品主題有關(guān)?(2)在已有報表和在線查詢中得到什么樣的信息?(3)提供決策支持的細節(jié)程度是怎樣的?73.數(shù)據(jù)倉庫的成功標準和關(guān)鍵性能指標(1)衡量數(shù)據(jù)倉庫成功的標準是什么?(2)哪些關(guān)鍵的性能指標?如何監(jiān)控?(3)對數(shù)據(jù)倉庫的期望是什么?(4)對數(shù)據(jù)倉庫的預(yù)期用途有哪些?(5)對計劃中的數(shù)據(jù)倉庫的考慮要點是什么?84.數(shù)據(jù)量與更新頻率(1)數(shù)據(jù)倉庫的總數(shù)據(jù)量有多少?(2)決策支持所需的數(shù)據(jù)更新頻率是多少?時間間隔是多長?(3)每種決策分析與不同時間的標準對比如何?(4)數(shù)據(jù)倉庫中的信息需求的時間界限是什么?9通過需求分析,需要的數(shù)據(jù)包括:1.數(shù)據(jù)
3、源(1)可用的數(shù)據(jù)源(2)數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)(3)數(shù)據(jù)源的位置(4)數(shù)據(jù)源的計算機環(huán)境(5)數(shù)據(jù)抽取過程(6)可用的歷史數(shù)據(jù)102.數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)倉庫中的數(shù)據(jù)是為決策分析服務(wù),而源系統(tǒng)的數(shù)據(jù)為業(yè)務(wù)處理服務(wù)。需要決定如何正確地將這些源數(shù)據(jù)轉(zhuǎn)換成適合數(shù)據(jù)倉庫存儲的數(shù)據(jù)。 113.數(shù)據(jù)存儲數(shù)據(jù)倉庫所需要的數(shù)據(jù)的詳細程度,包括足夠的關(guān)于存儲需求的信息,估計數(shù)據(jù)倉庫需要多少歷史和存檔數(shù)據(jù)。124.決策分析(1)向下層鉆取分析(2)向上層鉆取分析(3)橫向鉆取分析(4)切片分析(5)特別查詢報表134.1.2 概念模型設(shè)計概念模型的特點是:(1)能真實反映現(xiàn)實世界,能滿足用戶對數(shù)據(jù)的分析,達到?jīng)Q策支持的要求,
4、它是現(xiàn)實世界的一個真實模型。(2)易于理解,便利和用戶交換意見,在用戶的參與下,能有效地完成對數(shù)據(jù)倉庫的成功設(shè)計。(3)易于更改,當用戶需求發(fā)生變化時,容易對概念模型修改和擴充。(4)易于向數(shù)據(jù)倉庫的數(shù)據(jù)模型(星型模型)轉(zhuǎn)換。14 概念模型最常用的表示方法是實體關(guān)系法(E-R法)。 E-R圖描述的是實體以及實體之間的聯(lián)系:用長方形表示實體,在數(shù)據(jù)倉庫中就表示主題,橢圓形表示主題的屬性,并用無向邊把主題與其屬性連接起來;用菱形表示主題之間的聯(lián)系,用無向邊把菱形分別與有關(guān)的主題連接。若主題之間的聯(lián)系也具有屬性,則把屬性和菱形也用無向邊連接上。15例子有兩個主題:商品和客戶,主題也是實體。商品有如下
5、屬性組:商品的固有信息(商品號、商品名、類別、價格等);商品庫存信息(商品號、庫房號、庫存量、日期等);商品銷售信息(商品號、客戶號、銷售量等);客戶有如下屬性組:客戶固有信息(客戶號、客戶名、住址、電話等);客戶購物信息(客戶號、商品號、售價、購買量等)。商品的銷售信息與用戶的購物信息是一致的,它們是兩個主題之間的聯(lián)系。16商品商品固有信息商品號商品庫存信息銷售信息購物信息 客戶客戶固有信息客戶號=174.1.3邏輯模型設(shè)計主要工作為:(1)主題域進行概念模型(ER圖)到邏輯模型(星型模型)的轉(zhuǎn)換(2)粒度層次劃分(3)關(guān)系模式定義(4)定義記錄系統(tǒng)181、主題域進行概念模型到邏輯模型的轉(zhuǎn)換
6、星型模型的設(shè)計步驟如下:(1)確定決策分析需求決策需求是建立多維數(shù)據(jù)模型的依據(jù)。(2)從需求中識別出事實選擇或設(shè)計反映決策主題業(yè)務(wù)的表,如在“商品”主題中,以“銷售業(yè)務(wù)”作為事實表。(3)確定維確定影響事實的各種因素,對銷售業(yè)務(wù)的維包括商店,地區(qū),部門,城市,時間,商品等,如圖4.2所示。19銷售數(shù)據(jù)和維銷售數(shù)據(jù)商品促銷時間部門城市地區(qū)商店圖4.2 銷售業(yè)務(wù)的多維數(shù)據(jù)(4)確定數(shù)據(jù)匯總水平 數(shù)據(jù)倉庫中對數(shù)據(jù)不同粒度的集成和綜合,形成了多層次、多種知識的數(shù)據(jù)結(jié)構(gòu)。 例如,對于時間維,可以以“年”、“月”或者“日”等不同水平進行匯總。(5)設(shè)計事實表和維表 設(shè)計事實表和維表的具體屬性。在事實表中應(yīng)
7、該記錄哪些屬性是由維表的數(shù)量決定的。 一般來說,與事實表相關(guān)的維表的數(shù)量應(yīng)該適中,太少的維表會影響查詢的質(zhì)量,用戶得不到需要的數(shù)據(jù),太多的維表又會影響查詢的速度。 (6)按使用的DBMS和分析用戶工具,證實設(shè)計方案的有效性 根據(jù)系統(tǒng)使用的DBMS,確定事實表和維表的具體實現(xiàn)。由于不同的DBMS對數(shù)據(jù)存儲有不同的要求,因此設(shè)計方案是否有效還要放在DBMS中進行檢驗 (7)隨著需求變化修改設(shè)計方案 隨著應(yīng)用需求的變化,整個數(shù)據(jù)倉庫的數(shù)據(jù)模式也可能會發(fā)生變化。因此在設(shè)計之初,充分考慮數(shù)據(jù)模型的可修改性可以節(jié)省系統(tǒng)維護的代價。22從的ER圖轉(zhuǎn)換成星型模型實例說明 (1)業(yè)務(wù)數(shù)據(jù)的E-R圖銷售銷售日期商
8、店號商品號銷售數(shù)量銷售單位商品商品號商品名商品類號存貨星期商店號商品號數(shù)量1m1m商店商店號商店名地址城市省郵編地區(qū)號1mm11商品類商品類號商品類名部門號m1m地區(qū)地區(qū)號地區(qū)名23(2)E-R圖向多維表的轉(zhuǎn)換該問題的多維表模型中,商品維包括部門、商品和商品大類,地點維包括地區(qū)和商店,忽略存貨,而只注意銷售事實。在E-R圖中不出現(xiàn)的時間,在多維模型中增加時間維。在多維模型中,實體與維之間建立映射關(guān)系,聯(lián)系多個實體的實體就成為事實,此處銷售實體作為事實,其他實體作為維。然后用維關(guān)鍵字將它轉(zhuǎn)換為星型模型,如圖4.5所示。24商品維地區(qū)維時間維部門地區(qū)年商品大類商店月商品周日銷售事實 圖4.4 E-
9、R圖向多維模型的轉(zhuǎn)換圖4.5 利用維關(guān)鍵字制定的星型模型26在各維中,只有部門,商品類,地區(qū),商店的編號沒有具體的說明。為了打印報表將增加這些編號的名稱說明,即部門名、商店名等,在維表中增加這些說明,即修改該星型模型 如圖4.6 所示。圖4.6 修改后的星型模型282、粒度層次劃分所謂粒度是指數(shù)據(jù)倉庫中數(shù)據(jù)單元的詳細程度和級別。數(shù)據(jù)越詳細,粒度越小,層次級別就越低;數(shù)據(jù)綜合度越高,粒度越大,層次級別就越高。 進行粒度劃分,首先要確定所有在數(shù)據(jù)倉庫中建立的表,然后估計每個表的大約行數(shù)。 293、關(guān)系模式定義在概念模型設(shè)計時,我們就確定了數(shù)據(jù)倉庫的基本主題,并對每個主題的公共碼鍵、基本內(nèi)容等做了描
10、述。在這一步里,我們將要對選定的當前實施的主題進行模式劃分,形成多個表,并確定各個表的關(guān)系模式。 30“商品”主題公共碼鍵:商品號。商品固有信息:商品表(商品號、商品名、類型、顏色)細節(jié)級商品銷售信息:銷售表1(商品號、客戶號、銷售量、)細節(jié)級銷售表2(商品號、時間段1、銷售量、)綜合級 銷售表n(商品號、時間段n、銷售量、)綜合級314、定義記錄系統(tǒng)定義記錄系統(tǒng)是建立數(shù)據(jù)倉庫中的數(shù)據(jù)以源系統(tǒng)中的數(shù)據(jù)的對照記錄。記錄系統(tǒng)的定義要記入數(shù)據(jù)倉庫的元數(shù)據(jù)。商品主題的記錄系統(tǒng)在元數(shù)據(jù)中可描述如 表4.2所示。32主題名屬性名數(shù)據(jù)源系統(tǒng)源表名源屬性名商品商品商品商品商品商品商品商品商品商品號商品名類別客
11、戶號銷售日期售價銷售量庫存量庫存號庫存子系統(tǒng)庫存子系統(tǒng)庫存子系統(tǒng)銷售子系統(tǒng)銷售子系統(tǒng)銷售子系統(tǒng)銷售子系統(tǒng)庫存子系統(tǒng)庫存子系統(tǒng)商品商品商品客戶銷售銷售銷售庫存?zhèn)}庫商品號商品名類別客戶號日期單價數(shù)量庫存量倉庫號表4.2 記錄系統(tǒng)的定義334.1.4 物理模型設(shè)計確定一個最適合應(yīng)用要求的物理結(jié)構(gòu)(包括存儲結(jié)構(gòu)和存取方法)。(1)估計存儲容量(2)確定數(shù)據(jù)的存儲計劃(3)確定索引策略(4)確定數(shù)據(jù)存放位置(5)確定存儲分配341.估計存儲容量(1)對每一個數(shù)據(jù)庫表確定數(shù)據(jù)量 (2)對所有的表確定索引 (3)估計臨時存儲352.確定數(shù)據(jù)的存儲計劃(1)建立聚集(匯總)計劃(2)確定數(shù)據(jù)分區(qū)方案(3)建立
12、聚類選項363.確定索引策略在數(shù)據(jù)倉庫中由于數(shù)據(jù)量很大,需要對數(shù)據(jù)的存取路徑進行仔細設(shè)計和選擇,建立專用的復(fù)雜的索引,以獲得最高的存取效率。采用BTree索引,它是一個高效的索引,見圖4.7所示。B樹是一個平衡(balance)樹,即每個葉結(jié)點到根節(jié)點的路徑長度相同。B樹索引是一個多級索引。374.確定數(shù)據(jù)存放位置在物理設(shè)計時,我們常常要按數(shù)據(jù)的重要程度、使用頻率以及對響應(yīng)時間的要求進行分類,并將不同類的數(shù)據(jù)分別存儲在不同的存儲設(shè)備中。重要程度高、經(jīng)常存取并對響應(yīng)時間要求高的數(shù)據(jù)就存放在高速存儲設(shè)備上,如硬盤;存取頻率低或?qū)Υ嫒№憫?yīng)時間要求低的數(shù)據(jù)則可以放在低速存儲設(shè)備上,如磁盤或磁帶。 38
13、5.確定存儲分配物理存儲中以文件、塊和記錄來實現(xiàn)。一個文件包括很多塊,每個塊包括若干條記錄。文件中的塊是數(shù)據(jù)庫的數(shù)據(jù)和內(nèi)存之間I/O傳輸?shù)幕締挝?,在那里對?shù)據(jù)進行操作。用一個簡例來說明邏輯模型和物理模型的內(nèi)容,見下圖所示。 名稱類型長度注釋產(chǎn)品維表包括公司所有產(chǎn)品的信息Product-Keyinteger10主鍵Product-Namechar25產(chǎn)品名稱Product-SKuchar20庫存單位銷售員維表包括不同地區(qū)的所有銷售員信息Salpers-Keyinteger15主鍵Salpers-Namechar30銷售員姓名Territorychar20銷售員所在區(qū)域Regionchar20所
14、在地區(qū)訂單事實表包括公司收到的所有訂單Order-Keyinteger10訂單鍵Order-Namechar20訂單名稱Product-refinteger10參考產(chǎn)品主鍵Salpers-refinteger15參考銷售員主鍵Order-AmountNum8,2銷售額Order-CostNum8,2訂單成本邏輯模型產(chǎn)品維表產(chǎn)品鍵產(chǎn)品名庫存單位品牌訂單事實表訂單鍵訂單名產(chǎn)品鍵銷售員鍵銷售額訂單成本銷售員維表銷售員鍵姓名地域地區(qū)404.1.5 數(shù)據(jù)倉庫的索引技術(shù)1.位索引技術(shù)2.標識技術(shù)3.廣義索引411.位索引技術(shù)(1)Bit-Wise索引技術(shù)(2)B-Tree技術(shù)與Bit-Wise索引技術(shù)對比
15、42對于每一個記錄的字段滿足查詢條件的真假值用“1”或“0”的方式表示,或者用該字段中不同取值(即多位二進制)來表示。 例如,檢索“美國加州有多少男性未申請保險?”利用BitWise技術(shù)得到有兩個記錄 滿足條件。 性別保險州1MYMA2MNCA3FYIL4MNCA=2男未保險加州10011100011144(2)B-Tree技術(shù)與Bit-Wise索引技術(shù)對比Bit-Wise索引技術(shù)比B-Tree技術(shù)能提高相應(yīng)速度10100倍。對于檢索“美國加州有多少男性未申請保險?”為例,假設(shè)數(shù)據(jù)庫有10M記錄,每個記錄長800個字節(jié),每一頁16K字節(jié)。按傳統(tǒng)的關(guān)系數(shù)據(jù)庫的檢索:需要經(jīng)過50萬次I/O操作。按
16、BitWise檢索:對于10M個記錄建立三列的BitWise索引。存取這些索引只要進行235次I/O操作。452.標識技術(shù) 姓名 籍貫 職稱 年齡陳文東 江西 教授 56何玉輝 河北 講師 32李寶 湖南 副教授 37施東 江蘇 講師 28曹文 湖南 副教授 36趙玉 吉林 講師 32黃小斌 江蘇 講師 28賽英花 山東 副教授 32彭宏 江西 講師 25廖宇宙 湖南 教授 42樣本記錄: 46數(shù)據(jù)庫中的每個實體創(chuàng)建一個標識。“江西”在籍貫中是01標識?!?8”在年齡中是02標識?!爸v師”在職稱名中有一個03標識。上面的數(shù)據(jù)庫可以被減化為一系列標識,如下面所示: 47姓名 籍貫 職稱 年齡陳文
17、東 01 江西 01 教授 01 25 01何玉輝 02 河北 02 副教授 02 28 02李寶 03 湖南 03 講師 03 32 03施東 04 江蘇 04 36 04曹文 05 吉林 05 37 05趙玉 06 山東 06 42 06黃小斌 07 56 07賽英花 08 彭宏 09 廖宇宙 10 48數(shù)據(jù)庫被精簡如下:記錄1 01,01,01,07記錄2 02,02,03,03記錄3 03,03,02,05記錄4 04,04,03,02記錄5 05,03,02,05記錄6 06,05,03,03記錄7 07,04,03,02記錄8 08,06,02,03記錄9 09,01,03,014
18、93.廣義索引對數(shù)據(jù)倉庫的一個很廣泛的應(yīng)用問題是“這個月銷售最好和最差的10種商品是哪些?”,我們可以設(shè)計這么一塊“黑板”,在上面標明了當月銷售最好和最差的10種商品的名稱或者它們相關(guān)記錄的存放地址。這塊“黑板”就是我們所說的“廣義索引”。504.2 數(shù)據(jù)倉庫開發(fā)4.3 數(shù)據(jù)倉庫技術(shù)與開發(fā)的困難514.2 數(shù)據(jù)倉庫開發(fā)4.2.1數(shù)據(jù)倉庫開發(fā)過程4.2.2 數(shù)據(jù)質(zhì)量與數(shù)據(jù)清洗4.2.3 數(shù)據(jù)粒度與維度建模524.2.1數(shù)據(jù)倉庫開發(fā)過程4.2.2.1 分析與設(shè)計階段 4.2.1.2 數(shù)據(jù)獲取階段4.2.1.3 決策支持階段4.2.1.4 維護與評估階段需求分析數(shù)據(jù)裝載信息查詢概念設(shè)計邏輯設(shè)計物理設(shè)
19、計數(shù)據(jù)抽取數(shù)據(jù)轉(zhuǎn)換知識探索數(shù)據(jù)倉庫增長數(shù)據(jù)倉庫維護數(shù)據(jù)倉庫評估數(shù)據(jù)倉庫開發(fā)過程544.2.1.1分析與設(shè)計階段 1.需求分析2.概念設(shè)計3.邏輯設(shè)計4.物理設(shè)計551.需求分析確定決策主題域分析主題域的商業(yè)維度分析支持決策的數(shù)據(jù)來源確定數(shù)據(jù)倉庫的數(shù)據(jù)量大小分析數(shù)據(jù)更新的頻率確定決策分析方法562.概念設(shè)計建立概念模型:對每個決策主題與屬性以及主題之間的關(guān)系用E-R圖模型表示。E-R圖將現(xiàn)實世界表示成信息世界,便利向計算機的表示形式進行轉(zhuǎn)化。573.邏輯設(shè)計將概念模型(E-R圖)轉(zhuǎn)換成邏輯模型,即計算機表示的數(shù)據(jù)模型。數(shù)據(jù)倉庫數(shù)據(jù)模型一般采用星型模型。星型模型由事實表、維表組成。584.物理設(shè)計
20、對邏輯模型設(shè)計的數(shù)據(jù)模型確定物理存儲結(jié)構(gòu)和存取方法。數(shù)據(jù)倉庫的星型模型在計算機中仍用關(guān)系型數(shù)據(jù)庫存儲。物理設(shè)計還需要進行存儲容量的估計;確定數(shù)據(jù)存儲的計劃;確定索引策略;確定數(shù)據(jù)存放位置以及確定存儲分配。594.2.1.2 數(shù)據(jù)獲取階段 1.數(shù)據(jù)抽取2.數(shù)據(jù)轉(zhuǎn)換3.數(shù)據(jù)裝載601.數(shù)據(jù)抽取對數(shù)據(jù)源的確認,確定數(shù)據(jù)抽取技術(shù),確認數(shù)據(jù)抽取頻率,按照時間要求抽取數(shù)據(jù)。由于源系統(tǒng)的差異性,如計算機平臺、操作系統(tǒng)、數(shù)據(jù)庫管理系統(tǒng)、網(wǎng)絡(luò)協(xié)議等的不同造成了抽取數(shù)據(jù)的困難。612.數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)格式的修正字段的解碼單個字段的分離信息的合并變量單位的轉(zhuǎn)化時間的轉(zhuǎn)化數(shù)據(jù)匯總623.數(shù)據(jù)裝載初始裝載:第一次裝入數(shù)據(jù)倉
21、庫。增量裝載:根據(jù)定期應(yīng)用需求裝入數(shù)據(jù)倉 庫。完全刷新:完全刪除現(xiàn)有數(shù)據(jù),重新裝入 新的數(shù)據(jù)。634.2.1.3 決策支持階段1.信息查詢2.知識探索641.信息查詢信息查詢者使用數(shù)據(jù)倉庫能發(fā)現(xiàn)目前存在的問題。創(chuàng)建數(shù)據(jù)陣列 將相關(guān)的數(shù)據(jù)(每月的數(shù)據(jù))放在同一個物理位置上。預(yù)連接表格 對于兩個或多個表格共享一個公用鏈。65預(yù)聚集數(shù)據(jù)以每天為基礎(chǔ)存儲數(shù)據(jù)。在一周結(jié)束時,以每周為基礎(chǔ)存儲數(shù)據(jù)(即累加每天的數(shù)據(jù))。月末時,則以每月為基礎(chǔ)存儲數(shù)據(jù)。聚類數(shù)據(jù)聚類將數(shù)據(jù)放置在同一地點,這樣可以提高對聚類數(shù)據(jù)的查詢。662.知識探索發(fā)現(xiàn)的問題并找出原因。 創(chuàng)建一個單獨的探索倉庫,不影響數(shù)據(jù)倉庫的常規(guī)用戶。同時
22、采用“標識技術(shù)”進行數(shù)據(jù)壓縮,提高數(shù)據(jù)分析速度。使用一些模型幫助決策分析,例如客戶分段、欺詐監(jiān)測、信用分險、客戶生存期、渠道響應(yīng)、推銷響應(yīng)等模型。通過模型的計算來得出一些有價值的商業(yè)知識。67采用數(shù)據(jù)挖掘工具來獲取商業(yè)知識。例如,得到如下一些知識:哪些商品一起銷售好?哪些商業(yè)事務(wù)處理可能帶有欺詐性?高價值客戶的共同點是什么?獲取的知識為企業(yè)領(lǐng)導(dǎo)者提供決策支持,達到保留客戶,減少欺詐,提高公司利潤具有重要作用。684.2.1.4 維護與評估階段1.數(shù)據(jù)倉庫增長2.數(shù)據(jù)倉庫維護3.數(shù)據(jù)倉庫評估691.數(shù)據(jù)倉庫增長數(shù)據(jù)倉庫建立以后,隨著用戶的不斷增加,時間的增長,用戶查詢需求更多,數(shù)據(jù)會迅速增長。
23、在數(shù)據(jù)倉庫的開發(fā)過程中需要適應(yīng)數(shù)據(jù)倉庫不斷增長的現(xiàn)實。702.數(shù)據(jù)倉庫維護適應(yīng)數(shù)據(jù)倉庫增長的維護數(shù)據(jù)增長的處理工作有:去掉沒有用的歷史數(shù)據(jù);根據(jù)用戶使用的情況,取消某些細節(jié)數(shù)據(jù)和無用的匯總數(shù)據(jù),增加些實用的匯總數(shù)據(jù)。 71正常系統(tǒng)維護數(shù)據(jù)倉庫的備份和恢復(fù)。 備份數(shù)據(jù)為系統(tǒng)恢復(fù)提供基礎(chǔ),一旦系統(tǒng)出現(xiàn)災(zāi)難時,利用備份數(shù)據(jù)可以很快將數(shù)據(jù)倉庫恢復(fù)到正常狀態(tài)。723.數(shù)據(jù)倉庫評估(1)系統(tǒng)性能評定(2)投資回報分析(3)數(shù)據(jù)質(zhì)量評估73(1)系統(tǒng)性能評定硬件平臺是否能夠支持大數(shù)據(jù)量的工作和多類用戶、多種工具的大量需求?軟件平臺是否是用一個高效的且優(yōu)化的方式來組織和管理數(shù)據(jù)?是否適應(yīng)系統(tǒng)(數(shù)據(jù)和處理)的擴
24、展?74(2)投資回報分析定量分析:計算投資回報率(ROI),即收益與成本的比率。 定性分析:企業(yè)與客戶之間關(guān)系狀態(tài)?對機會快速反應(yīng)能力如何?改善管理能力如何?75(3)數(shù)據(jù)質(zhì)量評估數(shù)據(jù)是準確的。數(shù)據(jù)符合它的類型要求和取值要求。數(shù)據(jù)具有完整性和一致性。數(shù)據(jù)是清晰的且符合商業(yè)規(guī)則。數(shù)據(jù)保持時效性并不能出現(xiàn)異常。764.2.2 數(shù)據(jù)質(zhì)量與數(shù)據(jù)清洗1. 數(shù)據(jù)質(zhì)量問題2.數(shù)據(jù)污染產(chǎn)生的原因3.數(shù)據(jù)清洗771. 數(shù)據(jù)質(zhì)量問題(1)字段中的虛假值。(2)數(shù)據(jù)值缺失。(3)不一致的值。(4)違反常規(guī)的不正確值。(5)一個字段有多種用途。(6)標法不唯一。782.數(shù)據(jù)污染產(chǎn)生的原因(1)系統(tǒng)轉(zhuǎn)換(2)數(shù)據(jù)老化
25、(3)復(fù)雜的系統(tǒng)集成 (4)數(shù)據(jù)輸入的不完整信息 (5)輸入錯誤 (6)欺詐 (7)缺乏相關(guān)政策 793.數(shù)據(jù)清洗只清洗那些重要的數(shù)據(jù),而忽略那些不重要的數(shù)據(jù)。數(shù)據(jù)在被存儲進數(shù)據(jù)倉庫之前就應(yīng)該進行清洗。找到適合源系統(tǒng)的字段和格式的清洗工具。建立數(shù)據(jù)質(zhì)量領(lǐng)導(dǎo)小組;建立數(shù)據(jù)質(zhì)量政策和標準;定義質(zhì)量指標參數(shù)和基準;識別受壞數(shù)據(jù)影響最大的商業(yè)功能。對有較大影響力的數(shù)據(jù)元素定制清洗計劃,并執(zhí)行數(shù)據(jù)清洗。804.2.3 數(shù)據(jù)粒度與維度建模數(shù)據(jù)粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)中保存數(shù)據(jù)的細化程度或綜合程度的級別。 數(shù)據(jù)粒度深深影響存放在數(shù)據(jù)倉庫中的數(shù)據(jù)量的大小,同時影響數(shù)據(jù)倉庫所能回答的查詢類型。811. 大維度與雪
26、花模型在數(shù)據(jù)倉庫中,客戶維度和產(chǎn)品維度是典型的大維度。大維度表采用雪花模型的數(shù)據(jù)組織,是一種有效的方法。對產(chǎn)品維度,產(chǎn)品是分屬于產(chǎn)品品牌,品牌又分屬于產(chǎn)品分類。對客戶維度,客戶分屬于地區(qū),地區(qū)分屬于國家。對于銷售的雪花模型如圖4.11所示。地區(qū)地區(qū)鍵地區(qū)名國家鍵產(chǎn)品鍵產(chǎn)品名品牌鍵包裝鍵包裝包裝鍵包裝類別銷售事實產(chǎn)品鍵時間鍵客戶鍵銷售數(shù)目銷售總價利潤時間時間鍵日期月季年客戶鍵客戶名地區(qū)鍵客戶分類品牌鍵品牌名分類鍵品牌分類鍵分類名產(chǎn)品國家鍵國家名國家圖4.11 銷售事實的雪花模型832. 綜合事實表大多數(shù)查詢不是基于基礎(chǔ)事實表上操作的,而是基于綜合數(shù)據(jù)的查詢。這樣建立綜合事實表是提高綜合數(shù)據(jù)查詢的非常有效的方法,且大大提高數(shù)據(jù)倉庫的性能。在多維表中,很多維都是具有層次結(jié)構(gòu),對不同維的層次的提升,將可建立多種綜合事實表。 從圖4.12可見,對基礎(chǔ)事實表查詢利用產(chǎn)品維表,對綜合事實表查詢,利用產(chǎn)品分類維表。 產(chǎn)品鍵產(chǎn)品名分類部門產(chǎn)品鍵時間鍵商店鍵銷售量銷售總價時間時間鍵日期月季年商店鍵商店名地域地區(qū)商店產(chǎn)品分類鍵分類名部門產(chǎn)品分類分類鍵時間鍵商店鍵銷售量銷售總價綜合事實表銷售事實表(基礎(chǔ)表)圖4.12 綜合事實表和衍生維
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 教育創(chuàng)新與家教的結(jié)合如何引導(dǎo)孩子在逆境中成長
- 科技創(chuàng)新企業(yè)如何構(gòu)建高效的營銷團隊
- 《少年閏土》教學設(shè)計與反思
- 2025年租賃合同提前解除市場影響
- 二級建造師合作合同樣本
- 互助市場拓展合作合同書
- 二手房屋購買合同誠意金約定
- 個人質(zhì)押與抵押合同
- XX公司員工培訓合同協(xié)議
- 產(chǎn)品設(shè)計與研發(fā)合作合同范例
- 2024年泰州職業(yè)技術(shù)學院高職單招數(shù)學歷年參考題庫含答案解析
- 樓梯 欄桿 欄板(一)22J403-1
- 學生綜合素質(zhì)評定與職業(yè)規(guī)劃的關(guān)聯(lián)性分析
- 特殊家長課后溝通技巧培訓
- 【MOOC】數(shù)字攝影技術(shù)與藝術(shù)-西南石油大學 中國大學慕課MOOC答案
- 心內(nèi)科心衰一病一品護理成果匯報
- 2025檢驗檢測中心年度工作總結(jié)及工作計劃
- 2024年總經(jīng)理助理年終工作總結(jié)(3篇)
- B區(qū)地下室碳纖維加固施工方案
- PEP人教版小學英語六年級下冊單詞表(含音標)
- 3人-機-環(huán)-管理本質(zhì)安全化措施課件
評論
0/150
提交評論