版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第2章數據倉庫設計1數據倉庫設計概述2數據倉庫規(guī)劃和需求分析3數據倉庫的三級模型數據倉庫概念模型數據倉庫邏輯模型數據倉庫物理模型4數據倉庫建模5數據倉庫設計的步驟6數據倉庫的建設過程7數據倉庫項目管理1.數據倉庫設計概述對比內容數據庫系統(tǒng)設計數據倉庫系統(tǒng)設計面向的處理類型面向應用面向分析應用需求比較明確不太明確系統(tǒng)設計的目標事務處理的并發(fā)性、安全性、高效性保證數據的四個特征和全局一致性數據來源業(yè)務操作員的輸入業(yè)務系統(tǒng)系統(tǒng)設計的方法需求驅動數據驅動1.1.1面向的處理類型數據庫系統(tǒng)設計面向應用來進行設計,根據具體的操作事件和操作對象(實體)來進行設計;目的是建立一個操作型的數據環(huán)境。數據倉庫設計面向分析的;從最基本的主題開始,不斷完善已有主題,發(fā)展新主題;最終建立起一個面向主題的分析型數據環(huán)境。1.1.2應用需求數據庫系統(tǒng)設計面向明確的應用需求設計人員能夠清晰地了解應用的需求和數據流程數據倉庫設計很難獲得對用戶需求的確切了解應用人員往往是企業(yè)的中高層人員他們自己一開始不知道想看什么,需要人引導后期又想什么東西都看,需要給他解釋1.1.3系統(tǒng)的設計目標數據庫系統(tǒng)設計為了進行OLAP處理通常是對一個或者一組記錄的查詢和修改主要為企業(yè)的特定應用服務的事務處理響應時間、數據的安全性和完整性是系統(tǒng)的目標數據倉庫設計為了分析決策主要目標是保證數據的四個特征(面向主題、集成的、穩(wěn)定的、時變的),建立起一個全局一致的數據環(huán)境,作為企業(yè)決策支持的基礎1.1.4數據來源數據庫系統(tǒng)設計數據來源主要是業(yè)務操作員的輸入描述如何通過操作員輸入獲取數據描述如何將獲取的數據按照OLAP的需求合理存放如何使得OLTP的性能更加優(yōu)化如何保證事務處理的安全性數據倉庫設計數據來源于業(yè)務系統(tǒng)主要解決如何從業(yè)務系統(tǒng)中得到完整一致的數據如何對數據進行轉換、清洗、綜合如何有效提高數據分析的效率與準確性1.1.5設計方法的不同數據庫系統(tǒng)設計“需求驅動”,先收集需求、分析需求,再進行設計和開發(fā);系統(tǒng)的需求在收集和分析需求階段之后就定下來了,一旦進入構建數據庫階段,系統(tǒng)的需求就基本不變了。所以系統(tǒng)設計一般采用系統(tǒng)生命周期法(SystemsDevelopmentLifeCycle,SDLC)。數據倉庫設計“數據驅動”,從業(yè)務系統(tǒng)已經存在的數據出發(fā),獲取之后對數據進行集成并檢查數據的準確性按照分析領域對數據及數據之間的聯(lián)系重新考察,組織數據倉庫中的主題?!皵祿寗印钡南到y(tǒng)設計方法的優(yōu)點是可以通過了解原有數據庫系統(tǒng)中的數據和需要建設的數據倉庫中主題的數據的共同性,最大限度地利用現(xiàn)有系統(tǒng),減少系統(tǒng)建設的工作量。對這種需求不確定的開發(fā)過程,設計方法有很大的不同,采用與SDLC相反的CLDS法。1.2數據倉庫的設計數據倉庫設計是建立一個面向企業(yè)決策者的分析環(huán)境或系統(tǒng)。1.2.1數據倉庫設計原則以業(yè)務和需求為中心:是指圍繞業(yè)務方向性需求、業(yè)務問題等,確定系統(tǒng)范圍和總體框架。以數據來驅動:是指其所有數據均建立在已有數據源基礎上,從已存在于操作型環(huán)境中的數據出發(fā)進行數據倉庫設計。1.2.2數據倉庫的構建模式先整體再局部的構建模式:W.H.Inmon模式先局部再整體的構建模式:RalphKimball模式1.2.3數據倉庫的設計步驟(1)數據倉庫的規(guī)劃和需求分析。(2)數據倉庫的建模。(3)數據倉庫物理模型設計。(4)數據倉庫的部署。(5)數據倉庫的維護。2數據倉庫規(guī)劃和需求分析2.1數據倉庫的規(guī)劃數據倉庫的策略規(guī)劃包括:明確用戶的戰(zhàn)略遠景、業(yè)務目標。確定建設數據倉庫的目的和目標。定義清楚數據倉庫的范圍、優(yōu)先順序、主題和針對的業(yè)務。定義衡量數據倉庫成功的要素。定義精簡的體系結構、使用技術、配置、容量要求等。定義操作數據和外部數據源。確定建設所需要的工具。概要性地定義數據獲取和質量控制的策略。數據倉庫管理及安全。2.2數據倉庫的需求分析主題分析數據分析環(huán)境要求分析3數據倉庫的三級模型3.1流行的三級模型概念模型從客觀世界到主觀認識的映射首先將現(xiàn)實世界抽象為概念模型,然后再用適合計算機世界的模型和語言來描述邏輯模型數據倉庫一般是建立在關系數據庫基礎上,所以采用的邏輯模型是關系模型主題還有主題之間的關系都用關系來表示邏輯模型描述了數據倉庫的主題的邏輯實現(xiàn),每個主題對應關系表的關系模式的定義物理模型邏輯模型在數據倉庫中的實現(xiàn),如數據存儲結構、數據的索引策略、數據的存儲策略以及存儲分配優(yōu)化等3.2Inmon提出的三級模型高級模型即概念模型,用E-R圖表示首先將現(xiàn)實世界抽象為概念模型,然后再用適合計算機世界的模型和語言來描述中級模型數據項(Dataitemset,DIS)模型E-R圖的細分每個主題都與一個DIS對應DIS中的數據份為4個組別:基本數據組、二級數據組、連接數據組和類型數據組低級模型物理數據模型3.3概念模型3.3.1概念模型是數據倉庫的數據模型的第一層或最高層。由于大多數業(yè)務數據是多維的,但傳統(tǒng)的數據模型表示三維以上的數據有一定困難。數據倉庫中可以采用信息包圖來表示概念模型信息包圖允許用戶設計多維信息包并與開發(fā)者和其他用戶建立聯(lián)系。這種模型集中在用戶對信息包的需要,信息包提供了分析人員思維模式的可視化表示。工作:確定系統(tǒng)邊界:決策類型、需要的信息、原始信息確定主題域及其內容:主題域的公共鍵碼、主題域之間的聯(lián)系、屬性組確定維度:如時間維、銷售位置維、產品維、組別維等確定級別:相應維的詳細層次確定度量:也稱指標和事實,用于進行分析的數值化信息3.3.2信息包圖畫出銷售分析的信息包圖概念首先根據銷售分析的實際需求,確定信息包的維度、類別和指標與事實:維度:包括日期維、銷售地點維、銷售產品維、年齡組別維、性別維等。(維度)級別:確定各維的詳細類別如:日期維包括年(10)、季度(40)、月(120)等類別,括號中的數字分別指出各類別的數量;銷售地點維包括國家(15)、區(qū)域(45)、城市(280)、區(qū)(880)、商店(2000)等類別,括號中的數字同樣分別指出各類別的數量;類似地,可以確定銷售產品、年齡組別維、性別維等的詳細類別。度量:確定用于進行分析的數值化信息,包括預測銷售量、實際銷售量和預測偏差等。3.3.3
維度維度是一個物理特性(如時間、地點、產品等),它是表達數據倉庫中信息的一個基本途徑,可作為標識數據的索引。通常的報表只包含有行和列兩維,但在數據倉庫中所存儲的數據大多是用多維(三維或三維以上)視圖表示的。維度是多維數據集的結構性特性。它們是事實數據表中用來描述數據的分類的有組織的層次結構(級別)。這些分類和級別描述了一些相似的成員集合。所有維度均直接或間接地基于表,定義此維度的列,選擇列的順序至關重要。例24月份我在北京賣掉了價值十萬美元的可樂例3(1)多維數據庫視圖:傳統(tǒng)型:二維(關系型)記錄、字段數據倉庫:多維(立方體)維、單一事實傳統(tǒng)型的一個二維表,在數據倉庫中可能需要多個立方體來表示;數據倉庫的一個立方體可能由多個傳統(tǒng)型的表組成;一個二維表的數據可裝載到兩個立方體(2)維的層次:關系數據庫在字段上做文章,數據倉庫在維上做文章;維不僅是查詢數據的一個角度,而且提供查詢的深度;同一屬性數據可有多種歸類層次:顧客->性別->所有顧客、顧客->文化程度->所有顧客(3)時間維每個數據倉庫都用到無限的;粒度要求高時,細分數據劇增。(4)維度的分解與合成是在一個維度內進一步細分數據或將數據按照另一標準組合的過程。例如,當以地理位置維觀察數據時,用戶可以首先以國家(如中國)為單位觀察數據,然后可以選擇觀察某一個地區(qū)(如華東地區(qū))的數據,接下來可以選擇觀察某一個省或城市(如上海)的數據,這就是數據分解的過程。合成則是分解的逆過程。例如用戶開始以省市為觀察對象,接著再以地區(qū)、國家等為觀察對象,就是一個數據合成的過程。維度分解我們有大量的會員年齡在20–60歲月薪在0–8000元55%的會員被我們認可為忠實會員(好會員)55%會員都是些什么會員?維度合成的例子——加拿大某大學數據庫“出生地”維度的級別“出生地”維度的級別年級與學位的維度級別將研究生數據合成出來??合成策略策略1:屬性移除(AttributeRemoval)Names這個屬性中有許多不同的屬性值,且沒有較高的概念層級可以表示它,所以Names屬性可以被移除策略2:維級別的爬升假如某一屬性在概念階層中存在著一個更高層級的概念,則該屬性值就以其更高層級的值來取代“history”、“physics”、“math”、“biology”會由“science”取代“l(fā)iterature”、“music”、“painting”會由“art”取代策略3:數據計數的傳播(votepropagation)屬性值向上爬升后,若產生相同的tuple,則將相同的tuple合并為一筆一般化tuple,并將vote值累加到歸納后的tuple中3.3.4維的層次結構層次結構是維度中成員的集合以及這些成員之間的相對位置。對于由數據挖掘模型創(chuàng)建的維度,其層次結構代表該挖掘模型的節(jié)點結構。(1)均衡層次結構和不均衡層次結構在均衡層次結構中,層次結構的所有分支都降至同一級別,而且每個成員的邏輯父代就是其上一級成員。所有的葉節(jié)點與根節(jié)點的距離相同洲—法國—巴黎洲—英國—倫敦在不均衡層次結構中,層次結構的分支降至不同級別。葉節(jié)點距根節(jié)點的距離不同的維度層次結構
CEO—職員CEO—部門經理—職員(2)不齊整層次結構在不齊整層次結構中,一個成員的邏輯父代至少有一個并不直接位于該成員上一級。這將導致層次結構的分支降至不同的級別。例如,Geography維度由級別Country、Province和City組成。Geneva的邏輯父代是Switzerland,因為Switzerland沒有劃分省份。(3)具有多個層次結構的維度3.3.5度量和度量值度量是基于特定維度的一組事實或指標。度量值是一組值,基于事實數據表中的一列,而且通常為數字。例如一個多維數據集具有以下架構和單個度量值Sales(基于Sales事實數據表中的Sales_Amount列)。使用聚合函數計算度量值使用聚合函數(Sum、Min、Max、Count等),可以獲得并查詢到需要的各種值,比如:1.對customerA,retailstoreA和productA的Sales度量值的查詢返回為8002.對customerA,retailstoreA和productcategoryAB的Sales度量值的查詢返回43.6單元單元是多維數據集的原子元素,或者為來自與該多維數據集相關聯(lián)的每個維度的某個成員的唯一邏輯交集。實質上,多維數據集由按度量值、級別以及維度組織的單元組成。例如,下列關系圖描述的多維數據集有一個帶陰影的單元“源”維度的“航空”成員。
“路線”維度的“非洲”成員。“時間”維度的“第四季度”成員?!岸攘恐怠本S度的“包”成員。
計算單元由下列三個元素構造1.計算子多維數據集維度(包括Measures維度)的所有成員,該選項通常不包括計算成員。維度(包括Measures維度)的單個指定的成員。維度中指定級別上的所有成員,該選項通常不包括計算成員。維度中指定成員的所有后代。維度中指定級別上指定成員的所有后代。解析為包含上述集合之一的集合中的MDX表達式。該列集合與該列集合中未指定的所有其它維度的每個其它成員的組合定義計算子多維數據集。2.計算條件進一步限制計算單元功能應用的MDX邏輯表達式。3.計算公式用來計算包含于計算子多維數據集中的單元的值的MDX值表達式。3.7多維數據集多維數據集是包含維度和度量值的多維結構。維度定義多維數據集的結構,而度量值提供最終用戶感興趣的數值。
多維數據集內的單元位置由各維度成員的交集確定,通過對度量值進行聚合得到單元中的值。多維數據集提供一種便于使用的查詢數據的機制,不但快捷,而且響應時間一致。多維數據集結構每個多維數據集架構均包括一個事實數據表以及一個或多個維度表。多維數據集的度量值出自事實數據表中的列,多維數據集的維度出自維度表中的列。多維數據集存儲可以使用不同的技術和多種模式存儲多維數據集的數據和聚合。多維數據集需要大量存儲空間,用以包含多維結構中的數據和聚合。影響存儲空間要求的一個因素是稀疏度。3.4數據倉庫的邏輯模型邏輯模型是數據倉庫數據模型的第二層。與傳統(tǒng)的關系模型相比,簡化了用戶分析所需的關系,進而數據結構也得到簡化從支持決策的角度去定義數據實體,更適合大量復雜查詢。有多個維(度)表,但是只有一個事實表通常有兩種邏輯模型表示法:星型模型和雪花模型工作分析主題,定義邏輯模型(星型模型或雪花模型)確定數據粒度的選擇確定數據分割策略如需要,增加導出字段等3.4.2星形模型星形模型包含三種邏輯實體:維度表邏輯上通過key關聯(lián)維度表往往包含相當多的屬性典型的屬性是文本的、離散的維度往往含有層次(級別)主鍵(primarykey)往往是系統(tǒng)產生的很可能是共享的事實表對應聯(lián)系維表用于存放維信息,包括維的屬性(列)和維的層次結構。一個維用一個維表表示。維表通常具有以下數據特征維通常使用使用解析過的時間、名字或地址元素,這樣可以使查詢更靈活。例如時間可分為年份、季度、月份和時期等,地址可用地理區(qū)域來區(qū)分,如國家、省、市、縣等。維表通常不使用業(yè)務數據庫的關鍵字作為主鍵,而是對每個維表另外增加一個額外的字段作為主鍵來識別維表中的對象。在維表中新設定的鍵也稱為代理鍵。維表中可以包含隨時間變化的字段,當數據集市或數據倉庫的數據隨時間變化而有額外增加或改變時,維表的數據行應有標識此變化的字段。維表中維的類型:維表中的概念分層維表中維一般包含著層次關系,也稱為概念分層,如在時間維上,按照“年份-季度-月份”形成了一個層次,其中年份、季度、月份成為這個層次的三個級別。概念分層的作用概念分層為不同級別上的數據匯總提供了一個良好的基礎。綜合概念分層和多維數據模型的潛力,可以對數據獲得更深入的洞察力。通過在多維數據模型中,在不同的維上定義概念分層,使得用戶在不同的維上從不同的層次對數據進行觀察成為可能。多維數據模型使得從不同的角度對數據進行觀察成為可能,而概念分層則提供了從不同層次對數據進行觀察的能力;結合這兩者的特征,我們可以在多維數據模型上定義各種OLAP操作,為用戶從不同角度不同層次觀察數據提供了靈活性。星形模型包含三種邏輯實體:維度表事實表一個數據倉庫(OLAP)模型只有一個事實表事實表經常有百萬行或更多事實往往是數字“量度”有些事實可以被累加,另一些不能最小粒度原則不歡迎描述性屬性(瘦高vs.矮胖)對應聯(lián)系事實表是多維模型的核心,是用來記錄業(yè)務事實并作相應指標統(tǒng)計的表,同維表相比,事實現(xiàn)具有如下特征:記錄數量很多,因此事實表應當盡量減小一條記錄的長度,避免事實表過大而難于管理。事實表中除度量外,其他字段都是維表或中間表(對于雪花模式)的關鍵字(外鍵)。如果事實相關的維很多,則事實表的字段個數也會比較多。事實表?維度表?在查詢事實表時,通常使用到聚集函數,一個聚集函數從多個事實表記錄中計算出一個結果。度量可以根據其所用的聚集函數分為三類:星形模型包含三種邏輯實體:維度表事實表對應聯(lián)系維度表與事實表不是絕對的同一個表,可以同時是維度表與事實表同一個表,可以有時是維度表,有時是事實表一個事實表對應多個不同維表一個維表可對應不同的事實表星型模式特點一個“銷售”數據倉庫的星形模式。該模式包含一個中心事實表“銷售事實表”和4個維表:時間維表、銷售商品維表、銷售地點維表和顧客維表。在銷售事實表中存儲著四個維表的主鍵和兩個度量“銷售量”和“銷售金額”。
例1例2例3多維模型3.4.3雪花模型雪花模式(Snowflakeschema)是對星形模式的擴展,每一個維表都可以向外連接多個詳細類別表。在這種模式中,維表除了具有星形模式中維表的功能外,還連接對事實表進行詳細描述的詳細類別表,詳細類別表通過對事實表在有關維上的詳細描述達到了縮小事實表和提高查詢效率的目的。雪花模型的特點維表進一步層次化,改善查詢性能增加表數量,增加查詢復雜性節(jié)省存儲空間層次性好雪花模型的基本結構在星形模式中,每維只用一個維表表示,而每個維表包含一組屬性。例如,銷售地點維表包含屬性集{Location_id,街道,城市,省,國家}。這種模式可能造成某些冗余,例如,可能存在城市、省、國家字段的數據冗余:可以對地點維表進一步規(guī)范化,這樣就構成了“銷售”數據倉庫的雪花模式。例1例23.4.4邏輯模型類型選擇兩種模型比較星型模型通過預連接和建立有選擇的數據冗余,為用戶訪問和分析過程大大簡化了數據。星型模型效率比較高,因為雪花模型維表層次多,查詢的時候連接操作較多。雪花模型通過最大限度的減少數據存儲量以及聯(lián)合較小的維表來改善查詢性能。雪花模型增加了用戶必須處理的表數量,增加了某些查詢的復雜性,但這種方式可以使系統(tǒng)進一步專業(yè)化和實用化,同時降低了系統(tǒng)的通用程度。雪花模型的維表可能是規(guī)范化形式,以便減少冗余,易于維護,節(jié)省存儲空間。選擇建議星型模型結構效率上優(yōu)于雪花模型,首選星型如果存儲空間上存在瓶頸,可以考慮使用雪花模型如果維護方面要求簡便性,可以考慮使用雪花模型3.4.5數據倉庫應用模型示例產品銷售事實表:銷售記錄銷售額成本產品件數維度表時間產品銷售人員客戶商店促銷網站分析事實表:點擊記錄人次數人數維度表時間網站IP(地域)瀏覽器電信行業(yè)事實表:打電話的記錄通話時間本地費長途費維度表時間客戶年齡客戶信息手機型號電信服務類型財務/預算分析事實表:財務歷史實際費用預算費用維度表時間部門科目3.4.6粒度選擇多級數據組織結構粒度的第一種形式粒度:對數據倉庫中的數據綜合程度高低的一個度量,它既影響數據倉庫中的數據量的多少,也影響數據倉庫所能回答詢問的種類。粒度越小,綜合程度越低,回答查詢的種類越多;粒度越高,綜合程度越高,查詢的效率也越高。在數據倉庫中可將小粒度的數據存儲在低速存儲器上;大粒度的數據存儲在高速存儲器上。粒度的第二種形式:樣本數據庫樣本數據庫:在分析過程中,有許多探索的過程有時分析的目的并不要求精確的結果,只需要得到相對準確、能反映趨勢的數據,所以可以提取出樣本數據庫。樣本數據庫的粒度:是根據采樣率的高低來劃分的,采樣粒度不同的樣本數據庫可以具有相同的綜合級別,它是按一定的采樣率從細節(jié)數據庫或輕度綜合數據庫中提取的一個子集。樣本數據庫的抽取按照數據的重要程度不同進行,利用樣本數據庫采集重要數據進行分析既可提高分析效率,又有助于抓住主要因素和主要矛盾。數據粒度級別原因:數據倉庫中數據量不同,需要解決的問題多種多樣(細節(jié)問題、綜合問題)因此,不同的問題采用不同的數據粒度級別。在數據量較小的環(huán)境下,可以采用單一的數據粒度;對于大數據量,需要采用雙重或多重粒度單一粒度直接存儲細節(jié)數據并定期在細節(jié)數據基礎上進行數據綜合從數據裝載之后,所有細節(jié)數據都將保留在數據倉庫中存儲期限(5~10年)到了之后,才會導到后備設備(如磁帶)中雙重粒度對于細節(jié)數據只保留近期的數據在數據倉庫中,當保留周期到達時,將距離當前較遠的數據導出到磁盤上,從而為新的數據騰出空間。數據倉庫中只保留在細節(jié)數據保留周期內的數據,對于這個周期之后的信息,數據倉庫只保留其綜合數據。兩者的區(qū)別細節(jié)數據在數據倉庫的高速存儲設備中存儲的時間長短不同如何確定數據粒度粒度選擇的標準主要是數據倉庫表的總行數。因為數據的存取通常是通過存取索引來實現(xiàn)的,而索引是對應表的行來組織的,即在某一索引中每一行總有個索引項,索引的大小只與表的總行數有關,而與表的數據量無關。Inmon的數據粒度策略影響粒度層次劃分的幾個因素要接受的分析類型粒度層次越高,就越不能進行細節(jié)分析如最低粒度層次定義為月份時,就不能進行按日匯總信息分析可接受的最低粒度粒度劃分策略一定要保證數據的粒度確實能夠滿足用戶的決策分析需要。能存儲數據的存儲容量若存儲容量有限,則只能采用較高粒度的數據粒度劃分策略3.4.7確定數據分割策略分割及其標準:分割:將邏輯上統(tǒng)一的數據分散到各自的物理單元中去以便能分別處理,提高數據處理效率,數據分割后的數據單元稱為分片。數據分割的標準:可按日期、地域、業(yè)務領域或按多個分割標準的組合。數據分割的目的:便于進行數據的重構、索引、重組、恢復、監(jiān)控、掃描數據分割考慮的因素數據量的大小數據量較小,可以不進行分割,或只用單一標準進行分割數據量很大,應當采用多重標準的組合來較細致地分割數據數據分析處理的實際情況數據分割是跟數據分析處理的對象緊密聯(lián)系的。簡單易行選擇用于數據分割的標準應當是自然的、易于實施的與粒度的劃分策略相統(tǒng)一同一粒度層次上的數據需要進行分割時,應當按照劃分粒度層次時使用的標準進行分割數據的穩(wěn)定性數據倉庫中的數據追加頻率不同,有的快,有的慢,將不同變化頻度的數據放在不同的表中進行更新處理3.4.8增加導出字段導出字段是在原始數據的基礎上進行總結或計算而生成的數據這些數據可以在以后的應用中直接利用,避免了重復計算3.5數據倉庫的物理模型數據倉庫的物理模型5.1存儲結構分布存儲方式采用磁盤陣列在多個節(jié)點間分布的方式來存儲數據物理上是分布的,但是邏輯上是統(tǒng)一的SCSI:SmallComputerSystemInterface;FC:FibreChannel集中式數據存儲方式將現(xiàn)有SAN(StorageAreaNetwork,存儲局域網)或者NAS(NetworkAttachedStorage,網絡接入存儲)作為服務器的存儲部分直接通過FC交換機來直接訪問所有的數據而不需要通過其他節(jié)點可以將節(jié)點從數據存儲管理的負擔中解脫出來,實現(xiàn)數據處理和數據存儲的分離。RAID磁盤陣列廉價冗余磁盤陣列(RedundantArrayofInexpensiveDisk)是一種采用多磁盤驅動器來存儲數據的數據存儲系統(tǒng)分為6個級別:RAID0、1、2、3、4、5及RAID0+1,2、3、4使用頻率較低,5、0、1、0+1使用較多。在RAID的各個級別中,RAID1和RAID0+1提供最佳的數據保護和最佳性能,但是就所需的磁盤而言會需要更多的成本。當硬盤成本不是限制因素時,就兼顧性能和容錯而言,RAID1或RAID0+1是最佳選擇。RAID5的成本比RAID1或RAID0+1低,但是它提供的容錯和寫入性能較差。RAID5的寫入性能大約只是RAID1或RAID0+1的一半,這是因為RAID5讀取和寫入奇偶校驗信息需要額外的I/O。數據倉庫的物理模型設計(1)確定存儲結構一個數據倉庫開發(fā)工具往往都提供多種存儲結構供設計人員選用,不同的存儲結構有不同的實現(xiàn)方式,各有各的適用范圍和優(yōu)缺點。設計人員在選擇合適的存儲結構時應該權衡三個方面的主要因素:存取時間、存儲空間利用率和維護代價。同一個主題的數據并不要求存放在相同的介質上。在物理設計時,常常要按數據的重要程度、使用頻率以及對響應時間的要求進行分類,并將不同類的數據分別存儲在不同的存儲設備中。重要程度高、經常存取并對響應時間要求高的數據就存放在高速存儲設備上,如硬盤;存取頻率低或對存取響應時間要求低的數據則可以放在低速存儲設備上,如磁盤或磁帶。常用策略:合并表組織引入冗余分割表組織生成導出數據(2)確定索引策略數據倉庫的數據量很大,因而需要對數據的存取路徑進行仔細的設計和選擇。由于數據倉庫的數據都是不常更新的,因而可以設計多種多樣的索引結構來提高數據存取效率。設計人員可以考慮對各個數據存儲建立專用的、復雜的索引,以獲得最高的存取效率。B樹索引,位圖索引,廣義索引,連接索引B樹索引位圖索引OLAP分析中,需要對大量數據進行綜合性查詢,而不是幾條記錄,這種情況下B樹索引就受到了很大限制。位圖索引是一種資源耗費很小、對于多維查詢性能很好的索引方法。位圖索引是一組0和1字符,表中每一條記錄都被分配一個在位圖中的相對位置且給定一個值(0或者1)。位圖中每個比特對應一條記錄,所以位圖索引占用的空間很小廣義索引廣義索引是在數據裝載的同時建立,它是一種元數據廣義索引涉及的是用戶最關心的問題,需要在數據加載前進行調查了解。比如使用頻率最高的10種藥物,使用頻率最低的藥物等。比較適合經常性的查詢,開銷比較小連接索引就是將事實表和維表中的索引項進行連接運算,然后將結果作為索引保留。如果對事實表和維表中的所有外鍵進行連接運算,將得到一個很大的表,這種索引稱為全連接索引。但是在一般情況下,不一定對所有外鍵都進行連接運算,可根據需要使用部分外鍵,生成不同的連接索引在實際應用中,通常先建立全連接索引,然后根據需要增加其他的連接索引。(3)確定存儲策略許多數據倉庫開發(fā)工具提供了一些存儲
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中國退役軍人合作協(xié)議
- 2025年度個人房產抵押貸款合同范文2篇
- 2025年個人房屋買賣合同示范文本下載
- 工地食堂承包協(xié)議
- 2025年度個人二手房買賣合同參考范本(全流程指導)
- 2025年全球及中國瓶到瓶回收行業(yè)頭部企業(yè)市場占有率及排名調研報告
- 2025-2030全球汽車啟動鋰電池行業(yè)調研及趨勢分析報告
- 2025-2030全球無人機起降系統(tǒng)行業(yè)調研及趨勢分析報告
- 2025版塔吊租賃及施工安全保障服務合同3篇
- 塔吊司機安全作業(yè)協(xié)議書
- 蛋糕店服務員勞動合同
- 土地買賣合同參考模板
- 2025高考數學二輪復習-專題一-微專題10-同構函數問題-專項訓練【含答案】
- 新能源行業(yè)市場分析報告
- 2025年天津市政建設集團招聘筆試參考題庫含答案解析
- 2024-2030年中國烘焙食品行業(yè)運營效益及營銷前景預測報告
- 巖土工程勘察.課件
- 60歲以上務工免責協(xié)議書
- 康復醫(yī)院患者隱私保護管理制度
- 2022年7月2日江蘇事業(yè)單位統(tǒng)考《綜合知識和能力素質》(管理崗)
- 沈陽理工大學《數》2022-2023學年第一學期期末試卷
評論
0/150
提交評論