數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu)模型.ppt_第1頁
數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu)模型.ppt_第2頁
數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu)模型.ppt_第3頁
數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu)模型.ppt_第4頁
數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu)模型.ppt_第5頁
已閱讀5頁,還剩64頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第 4 章,數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu)與模型,Inmon數(shù)據(jù)倉庫設(shè)計(jì), ,體系結(jié)構(gòu)化環(huán)境 三級模型, ,高級模型 中級模型 低級模型,性能優(yōu)化,目錄,數(shù)據(jù)倉庫設(shè)計(jì)概述, ,與數(shù)據(jù)庫設(shè)計(jì)的區(qū)別 處理類型 應(yīng)用需求 設(shè)計(jì)目標(biāo) 數(shù)據(jù)來源 設(shè)計(jì)方法,數(shù)據(jù)倉庫設(shè)計(jì)概述,數(shù)據(jù)倉庫與數(shù)據(jù)庫設(shè)計(jì)的區(qū)別,處理類型不同, ,數(shù)據(jù)庫系統(tǒng)設(shè)計(jì) 面向應(yīng)用來進(jìn)行設(shè)計(jì),根據(jù)具體的操作事件和操作對象 (實(shí)體)來進(jìn)行設(shè)計(jì); 目的是建立一個操作型的數(shù)據(jù)環(huán)境。 從需求開始,逐步展開 數(shù)據(jù)倉庫設(shè)計(jì) 面向分析的; 從最基本的主題開始,不斷完善已有主題,發(fā)展新主 題; 最終建立起一個面向主題的分析型數(shù)據(jù)環(huán)境。,應(yīng)用需求不同,數(shù)據(jù)庫系統(tǒng)設(shè)計(jì) 面向明確的應(yīng)用需求 設(shè)計(jì)人員能夠清晰地了解應(yīng)用的需求和數(shù)據(jù)流程 數(shù)據(jù)倉庫設(shè)計(jì) 很難獲得對用戶需求的確切了解 應(yīng)用人員往往是企業(yè)的中高層人員 他們自己一開始不知道想看什么,需要引導(dǎo) 后期又想什么東西都看,需要解釋,系統(tǒng)設(shè)計(jì)的目標(biāo),數(shù)據(jù)庫系統(tǒng)設(shè)計(jì), ,為了進(jìn)行OLTP處理 通常是對一個或者一組記錄的查詢和修改,“一次一集合” 主要為企業(yè)的特定應(yīng)用服務(wù)的 事務(wù)處理響應(yīng)時間、數(shù)據(jù)的安全性和完整性是系統(tǒng)的目標(biāo),數(shù)據(jù)倉庫設(shè)計(jì), ,為了分析決策 主要目標(biāo)是保證數(shù)據(jù)的四個特征(面向主題、集成的、穩(wěn)定的、時 變的),建立起一個全局一致的數(shù)據(jù)環(huán)境,作為企業(yè)決策支持的基 礎(chǔ) 只有查詢而無更新,“一次加載一批” 對響應(yīng)時間不敏感 數(shù)據(jù)量大,海量數(shù)據(jù),數(shù)據(jù)來源不同, ,數(shù)據(jù)庫系統(tǒng)設(shè)計(jì) 數(shù)據(jù)來源主要是業(yè)務(wù)操作員的輸入 描述如何通過操作員輸入獲取數(shù)據(jù) 描述如何將獲取的數(shù)據(jù)按照OLAP的需求合理存放 如何使得OLTP的性能更加優(yōu)化 如何保證事務(wù)處理的安全性 數(shù)據(jù)倉庫設(shè)計(jì) 數(shù)據(jù)主要來源于業(yè)務(wù)系統(tǒng) 主要解決如何從業(yè)務(wù)系統(tǒng)中得到完整一致的數(shù)據(jù) 如何對數(shù)據(jù)進(jìn)行轉(zhuǎn)換、清洗、綜合,ETL 如何有效提高數(shù)據(jù)分析的效率與準(zhǔn)確性,系統(tǒng)設(shè)計(jì)方法不同,數(shù)據(jù)庫系統(tǒng)設(shè)計(jì), ,“需求驅(qū)動”; 先收集需求、分析需求,再進(jìn)行設(shè)計(jì)和開發(fā); 系統(tǒng)的需求在收集和分析需求階段之后就定下來了,一旦進(jìn)入構(gòu)建 數(shù)據(jù)庫階段,系統(tǒng)的需求就基本不變了。,數(shù)據(jù)倉庫設(shè)計(jì), ,“數(shù)據(jù)驅(qū)動” 從業(yè)務(wù)系統(tǒng)已經(jīng)存在的數(shù)據(jù)出發(fā),獲取之后對數(shù)據(jù)進(jìn)行集成并檢查 數(shù)據(jù)的準(zhǔn)確性 按照分析領(lǐng)域?qū)?shù)據(jù)及數(shù)據(jù)之間的聯(lián)系重新考察,組織數(shù)據(jù)倉庫中 的主題。 “數(shù)據(jù)驅(qū)動”的系統(tǒng)設(shè)計(jì)方法的優(yōu)點(diǎn)是可以通過了解原有數(shù)據(jù)庫系統(tǒng) 中的數(shù)據(jù)和需要建設(shè)的數(shù)據(jù)倉庫中主題的數(shù)據(jù)的共同性,最大限度 地利用現(xiàn)有系統(tǒng),減少系統(tǒng)建設(shè)的工作量。,開發(fā)生命周期-CLDS, ,傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)的系統(tǒng)開發(fā)生命周期(SDLC)是需 求驅(qū)動的,而數(shù)據(jù)倉庫系統(tǒng)的開發(fā)生命周期則是數(shù)據(jù) 驅(qū)動的,與SDLC相反,一般寫作CLDS,這種寫法 沒有對應(yīng)的實(shí)際意義,是一種幽默的寫法。 CLDS由數(shù)據(jù)開始,一旦數(shù)據(jù)到手就集成數(shù)據(jù)。然 后,如果數(shù)據(jù)有偏差,就檢驗(yàn)看看數(shù)據(jù)存在什么偏差。 再針對數(shù)據(jù)寫程序,分析程序執(zhí)行結(jié)果。最后,系統(tǒng) 需求才得到了理解。 因此,CASE工具和技術(shù)用于數(shù)據(jù)倉庫領(lǐng)域是不合適 的。,數(shù)據(jù)倉庫 / DM 螺旋式方式,業(yè)務(wù)需求分析,設(shè)計(jì),建造,測試,培訓(xùn),試點(diǎn),部署,使用運(yùn)行,監(jiān)控,維護(hù),確認(rèn)新需求/改進(jìn),實(shí)施范圍,業(yè)務(wù)驅(qū)動的 需求分析,設(shè)計(jì),建造,測試,培訓(xùn),試點(diǎn)應(yīng)用,部署,使用,監(jiān)控,維護(hù),發(fā)掘新需求 和改進(jìn),兩種數(shù)據(jù)倉庫設(shè)計(jì),Inmon數(shù)據(jù)倉庫, ,數(shù)據(jù)庫設(shè)計(jì)的模式 三級模型(高級、中級、低級) 存儲:關(guān)系數(shù)據(jù)庫,Kimball數(shù)據(jù)倉庫, ,維度建模技術(shù) 維度設(shè)計(jì)/度量設(shè)計(jì) 存儲:多維數(shù)據(jù)庫/關(guān)系數(shù)據(jù)庫,兩種數(shù)據(jù)倉庫都需要面臨的主要設(shè)計(jì)問題, ,粒度與分割 元數(shù)據(jù) ETL 索引,小結(jié), ,數(shù)據(jù)倉庫的設(shè)計(jì)不同于事務(wù)處理的數(shù)據(jù)庫的設(shè)計(jì),是 一個循序漸近的過程。 數(shù)據(jù)倉庫的選型是一個非常重要的問題,當(dāng)前,選用 Kimball數(shù)據(jù)倉庫進(jìn)行設(shè)計(jì)是很流行的,因此,實(shí)踐 中可優(yōu)先考慮。 面對復(fù)雜的數(shù)據(jù),基于維度建模技術(shù)的Kimball數(shù)據(jù) 倉庫顯得無能為力,還需要深入探索,因此,面向復(fù) 雜數(shù)據(jù)類型的數(shù)據(jù)倉庫是目前的研究熱點(diǎn)。,數(shù)據(jù)庫設(shè)計(jì)的三級模型,概念模型, ,從客觀世界到主觀認(rèn)識的映射 首先將現(xiàn)實(shí)世界抽象為概念模型,然后再用適合計(jì)算機(jī)世界的模型 和語言來描述 ER圖,邏輯模型, ,ER模型關(guān)系模型 規(guī)范化 視圖 約束,物理模型, ,DBMS選型 選擇數(shù)據(jù)庫文件的存儲結(jié)構(gòu) 索引 分配存儲空間,Inmon的三級模型,高級模型(高層模型)(數(shù)據(jù)庫設(shè)計(jì)-概念模型), ,即概念模型,用E-R圖表示 首先將現(xiàn)實(shí)世界抽象為概念模型,然后再用適合計(jì)算機(jī)世界的模型 和語言來描述,中級模型(中層模型)(數(shù)據(jù)庫設(shè)計(jì)-邏輯模型), ,數(shù)據(jù)項(xiàng)(Data item set,DIS)模型 ER圖的細(xì)分 每個主題都與一個DIS對應(yīng) DIS中的數(shù)據(jù)分為4個組別:基本數(shù)據(jù)組、二級數(shù)據(jù)組、連接數(shù)據(jù) 組和類型數(shù)據(jù)組 關(guān)系表(原模型不存在,補(bǔ)充的),低級模型(底層模型)(數(shù)據(jù)庫設(shè)計(jì)-物理模型),物理數(shù)據(jù)模型,每個企業(yè)的業(yè)務(wù)模型只有一個,父,子1,子2,概念模型與實(shí)現(xiàn)無關(guān),只有一個,邏輯模型:概念模型的映射,多個,物理模型:與邏輯模型對應(yīng),為其實(shí)現(xiàn)方式,實(shí)體,主題,DIS,表,實(shí)體 對應(yīng) 主題?,目錄,Inmon數(shù)據(jù)倉庫設(shè)計(jì), ,體系結(jié)構(gòu)化環(huán)境 三級模型, ,高級模型 中級模型 低級模型,性能優(yōu)化,中級模型-DIS, ,中層模型通過所謂的DIS(Data Item Set, 數(shù)據(jù)項(xiàng)集) 描述,DIS是對高層模型的細(xì)分,高層模型中的每個 主題域(或?qū)嶓w)都要建立一個中間層模型,即對ER模 型的細(xì)分。 在中層數(shù)據(jù)模型上,有四個基本構(gòu)造:, ,初始數(shù)據(jù)組 二次數(shù)據(jù)組 連接件,表示主要主題域間的數(shù)據(jù)關(guān)系 數(shù)據(jù)“類型”, ,數(shù)據(jù)組之間通過鍵連接。 數(shù)據(jù)組劃分標(biāo)準(zhǔn):穩(wěn)定性 穩(wěn)定性順序:初始數(shù)據(jù)組二次數(shù)據(jù)組類型數(shù)據(jù)組 分組的目的:根據(jù)穩(wěn)定性將數(shù)據(jù)分開,提高加載效率,13,高級模型中級模型映射,一個實(shí)體/主題對應(yīng)一個DIS,初始數(shù)據(jù)組(主要數(shù)據(jù)組), ,每個主要主題域有且只有一個主要數(shù)據(jù)組,其中包含 了每個主要主題域只出現(xiàn)一次的屬性(穩(wěn)定)。 同所有的數(shù)據(jù)組一樣,初始數(shù)據(jù)組有屬性和鍵碼。 一個主要數(shù)據(jù)組對應(yīng)一個主題域。 初始數(shù)據(jù)組的數(shù)據(jù)穩(wěn)定性最高,一般情況下是不變化的。 姓名、性別、住址,二級數(shù)據(jù)分組, ,包含對每個主要主題域可以存在多次的屬性。有多少 可以出現(xiàn)多次的不同數(shù)據(jù)組,就含有多少二級數(shù)據(jù)組。 如一對多。 二級數(shù)據(jù)分組的數(shù)據(jù)穩(wěn)定性相對初級數(shù)據(jù)組要弱一 些,但比類型數(shù)據(jù)組的數(shù)據(jù)穩(wěn)定性要高。,連接件, ,表示兩個主要主題域間的數(shù)據(jù)關(guān)系,兩個主題的聯(lián)系。 將數(shù)據(jù)從一個組到另一個組聯(lián)系起來。在E-R圖層確 定的關(guān)系在DIS層都必須有與其對應(yīng)的連接件。主鍵 與外鍵。 連接器表明,數(shù)據(jù)倉庫中的主題域之間是關(guān)聯(lián)的,可 見,通過連接件實(shí)現(xiàn)Inmon數(shù)據(jù)倉庫 成為 有機(jī)整 體,這在Kimball數(shù)據(jù)倉庫中是不存在的。 討論:如果用于連接一個主題的不同數(shù)據(jù)組,連接件 就是就是ER模型中的聯(lián)系,連接不同主題域也是ER 模型中的聯(lián)系。具體通過鍵(無論ER模型中還是邏 輯模型都有這個概念)連接實(shí)現(xiàn)。結(jié)論:連接件=聯(lián) 系。,數(shù)據(jù)的“類型”, ,數(shù)據(jù)的“類型”由指向數(shù)據(jù)組的線段指示。左邊的數(shù)據(jù) 組是超類型,右邊的數(shù)據(jù)組是子類型。 類型數(shù)據(jù)組的數(shù)據(jù)的穩(wěn)定性最低,會經(jīng)常變化。 如,一個人的信息(主要數(shù)據(jù)分組)與他所做的事情 (類型,分類了:工作、生活、情感)。,DIS中的各組件,連接件,例子:DIS中數(shù)據(jù)組的穩(wěn)定性, ,顧客的顧客號、姓名、性別等描述信息基本報(bào)紙不 變,比較穩(wěn)定,可作為主要數(shù)據(jù)組 顧客的住址、文化程度、電話等也基本穩(wěn)定,但存在 改變的可能,相對主要數(shù)據(jù)組中的信息穩(wěn)定性要弱一 些,可作為二級數(shù)據(jù)組 顧客的采購記錄則經(jīng)常發(fā)生變化,其穩(wěn)定性低,因 此,作為類型數(shù)據(jù)組 這樣劃分的好處:結(jié)構(gòu)清晰、減少冗余,例子:一個DIS,連接件,基本數(shù)據(jù)組,商品ID,客戶ID 姓名 性別,身份證號碼,住址 文化程度 電話 Email,交易ID 商品金額 購買時間,交易ID 商品金額 購買時間 交易ID 商品金額 購買時間,類型數(shù)據(jù)組,電器,服裝 圖書,一個主題,商品ID 連接件 二級數(shù)據(jù)組 另一個主題,局部DIS與全局DIS, ,與企業(yè)ERD構(gòu)建方 法一樣(由反映不 同用戶群體的不同 ERD所建成,局部 ER全局ER), 企業(yè)DIS由多個DIS 建成,在進(jìn)行對個 別用戶的訪問或 JAD (聯(lián)合應(yīng)用程序 設(shè)計(jì))會議時,就要 生成一個DIS和一個 ERD。 小范圍的DIS和其他 所有DIS一起形成一 個反映企業(yè)觀點(diǎn)的 DIS。,目錄,Inmon數(shù)據(jù)倉庫設(shè)計(jì), ,體系結(jié)構(gòu)化環(huán)境 三級模型, ,高級模型 中級模型 低級模型,性能優(yōu)化,低級模型, ,底層模型是邏輯模型在數(shù)據(jù)倉庫中的具體實(shí)現(xiàn),如物 理存取方式、數(shù)據(jù)存儲結(jié)構(gòu)、數(shù)據(jù)存儲位置、存儲分 配等。 低級模型具體表現(xiàn)為一系列的關(guān)系表。 低級模型設(shè)計(jì)所要考慮的主要因素有, ,I/O存取時間、空間利用率和維護(hù)代價 數(shù)據(jù)倉庫性能優(yōu)化,如合并表、引入冗余等技術(shù),討論:DIS能直接實(shí)現(xiàn)嗎?, ,Inmon的設(shè)計(jì)模型沒有探討DIS是如何過渡到低級模 型的,中間似乎缺了一個重要的環(huán)節(jié)。 這個環(huán)節(jié)是:關(guān)系表。 關(guān)系表在原設(shè)計(jì)模型中沒有深入討論,遺憾!DIS仍 然處于概念模型階段,無非是細(xì)化了,低級模型則直 接實(shí)現(xiàn)了,關(guān)系表在哪里設(shè)計(jì)的?缺憾!應(yīng)該放在中 間模型比較合適。 補(bǔ)充:DIS 到 關(guān)系表 的映射,參考ER模型到關(guān)系 模型的轉(zhuǎn)化。有了關(guān)系表,具體實(shí)現(xiàn)(低級模型)就 沒有問題。,了解:低級模型-存儲結(jié)構(gòu),分布式存儲, ,采用磁盤陣列在多個節(jié)點(diǎn)間以分布的方式來存儲數(shù)據(jù) 物理上是分布的,但是邏輯上是統(tǒng)一的,集中式存儲, ,將現(xiàn)有SAN(存儲局域網(wǎng))或者NAS(網(wǎng)絡(luò)連接存儲)作為 服務(wù)器的存儲部分 直接通過FC交換機(jī)來直接訪問所有的數(shù)據(jù)而不需要通過其他 節(jié)點(diǎn) 可以將節(jié)點(diǎn)從數(shù)據(jù)存儲管理的負(fù)擔(dān)中解脫出來,實(shí)現(xiàn)數(shù)據(jù)處 理和數(shù)據(jù)存儲的分離。,分布式存儲,集中式存儲,RAID思想,RAID: Redundant Arrays of Inexpensive Disks (冗余 廉價磁 盤陣列 ),多盤聯(lián)合, 統(tǒng)一對外 ,高速 高容量, 高可靠性,high capacity,high speed high reliability, ,生活中的RAID, “三個臭皮匠抵上一個諸葛亮”,雇傭 三個 臭皮匠 還是雇傭 諸葛亮?三個臭皮匠的成本要低 攔截導(dǎo)彈 A型 命中率0.7 ,100萬美元 B型 命中率0.9 ,1000萬美元, ,用兩個A型,至少一個命中的概率 1-(1-0.7)2= 0.91 用3個A型,至少一個命中的概率 1-(1-0.7)3= 0.97 可用機(jī)關(guān)炮打巡航導(dǎo)彈(合算),用多個低價盤代高價盤, ,思想:冗余 提高可靠性,并行提高速度 后面的推理基于一個假定: 兩個廉價磁盤 在同一個修復(fù)時 間(幾小時)內(nèi)同時發(fā)生故障的概率 很低。,數(shù)據(jù)拆分, ,這么多冗余磁盤,怎么存儲數(shù)據(jù)?數(shù)據(jù)拆分 塊拆分 邏輯第 I 塊 放到(I mod N)+1號磁盤上,排排 坐 位拆分 當(dāng)塊的大小為1bit時,稱為 Bit-Level Striping 位拆分(比特級拆分),將字節(jié)按bit拆分,存儲到多 個磁盤上(如分到8個磁盤上),這樣多個磁盤就形 成一個邏輯上磁盤。讀取的數(shù)據(jù)量成倍放大,(如每 次訪問讀取一個磁盤的8倍數(shù)據(jù)量,I/O一次(并行), 數(shù)據(jù)量8倍,可觀!),RAID,RAID磁盤陣列, ,廉價冗余磁盤陣列是一種采用多磁盤驅(qū)動器來存儲數(shù)據(jù)的數(shù) 據(jù)存儲系統(tǒng) 分為6個級別:RAID0、1、2、3、4、5及RAID0+1,2、3、4 使用頻率較低,5、0、1、0+1使用較多。 在 RAID 的各個級別中,RAID 1 和 RAID 0+1 提供最佳的 數(shù)據(jù)保護(hù)和最佳性能,但是就所需的磁盤而言會需要更多的 成本。當(dāng)硬盤成本不是限制因素時,就兼顧性能和容錯而 言,RAID 1 或 RAID 0+1 是最佳選擇。 RAID 5 的成本比 RAID 1 或 RAID 0+1 低,但是它提供的容 錯和寫入性能較差。RAID 5 的寫入性能大約只是 RAID 1 或 RAID 0+1 的一半,這是因?yàn)?RAID 5 讀取和寫入奇偶校驗(yàn) 信息需要額外的 I/O。,RAID 0, ,塊級拆分,無冗余,多盤并發(fā) (實(shí)用中, 只用Level 1和5) 因?yàn)樵摷墑e使用名為條帶集的磁盤文件系統(tǒng),所以又將它稱作 磁盤條帶。數(shù)據(jù)被劃分成多個塊并按固定順序分布到陣列中的 所有磁盤上。RAID 0將多個操作分布到多個磁盤上,以便可以 同時獨(dú)立地執(zhí)行這些操作,從而改善了讀取/寫入性能。RAID 0類似于 RAID 5,但是 RAID 5 還提供容錯功能。,RAID 1-寫雙份,讀一份,因?yàn)樵摷墑e使用名為鏡像集的磁盤文件系統(tǒng),所以又 將它稱作磁盤鏡像。磁盤鏡像可提供一個與所選磁盤 完全相同的冗余副本。寫入主磁盤的所有數(shù)據(jù)都會寫 入鏡像磁盤。RAID 1 提供了容錯功能,而且通常可 以改進(jìn)讀取性能(但是可能會降低寫入性能) RAID1,RAID 2、3、4,RAID2-按位拆分+校驗(yàn)位,該級別通過使用將奇偶校驗(yàn)分布到所有磁盤上的糾錯方法來添加冗 余。它還利用磁盤條帶策略將一個文件分成多個字節(jié)并將該文件分 布到多個磁盤上。與鏡像 (RAID 1) 相比,該策略在磁盤利用率和 讀取/寫入性能方面只帶來了很小的改進(jìn)。RAID 2 不如其他 RAID 級別效率高,通常不使用它。,RAID3-按位拆分,交錯 帶 奇偶校驗(yàn),糾正錯誤是用校驗(yàn)碼和鏡像 恢復(fù),該級別使用與 RAID 2 相同的條帶化方法,但是糾錯方法只需一個 磁盤用于奇偶校驗(yàn)數(shù)據(jù)。磁盤空間的使用情況因數(shù)據(jù)磁盤的數(shù)量而 異。RAID 3 在讀取/寫入性能方面提供一些改進(jìn)。RAID 3 也極少 使用。,RAID4-按塊拆分,校驗(yàn)恢復(fù):鏡像 和 校驗(yàn),該級別使用的條帶數(shù)據(jù)塊或段比 RAID 2 或 RAID 3 大得多。與 RAID 3 一樣,糾錯方法只需一個磁盤用于奇偶校驗(yàn)數(shù)據(jù)。它將用 戶數(shù)據(jù)與糾錯數(shù)據(jù)分開。RAID 4 不如其他 RAID 級別效率高,通 常不使用。,RAID 5, ,寫雙份+奇偶校驗(yàn)頁。 以改善可 靠性。是新設(shè)計(jì)中最常用的策略。 與RAID 4相似,它將數(shù)據(jù)以大塊 形式條帶化到陣列中的磁盤上。 不同之處在于它在所有磁盤之間 寫入奇偶校驗(yàn)的方式。數(shù)據(jù)冗余 通過奇偶校驗(yàn)信息提供。數(shù)據(jù)和 奇偶校驗(yàn)信息會在磁盤陣列上排 列,所以這兩種信息總是位于不 同的磁盤上。 與磁盤鏡像 (RAID 1) 相比,具有 奇偶校驗(yàn)的條帶化可提供更好的,性能。但是,當(dāng)條帶成員丟失時 (例如,當(dāng)磁盤發(fā)生故障時),,讀取性能會下降。RAID 5 是最常 用的 RAID 配置之一。,RAID5,RAID 0+1, ,該級別又稱作具有條帶化的鏡像。該級別使用條帶化的磁盤陣列,而 該陣列又鏡像到另一組相同的條帶化磁盤。 例如,可使用四個磁盤創(chuàng)建一個條帶化的陣列。然后,條帶化的磁盤 陣列使用另一組(四個)條帶化的磁盤進(jìn)行鏡像。 RAID 10 提供磁盤條帶化帶來的性能益處以及鏡像帶來的磁盤冗余。 在所有的 RAID 級別中,RAID 10 提供的讀取/寫入性能最高,代價 是使用的磁盤數(shù)量是其他級別的兩倍。,RAID0+1,鏡像,低級模型-索引策略, ,B樹及B+樹索引、位圖索引等依然有效。 廣義索引, ,對于一些經(jīng)常性的查詢,利用一個規(guī)模小得多的“廣義索引”,比去 針對所有數(shù)據(jù)建立索引效率高,如上司的電話 廣義索引是在數(shù)據(jù)裝載的同時建立,它是一種元數(shù)據(jù) 廣義索引涉及的是用戶最關(guān)心的問題,需要在數(shù)據(jù)加載前進(jìn)行調(diào)查 了解。比如使用頻率最高的10種藥物,使用頻率最低的藥物等。 比較適合經(jīng)常性的查詢,開銷比較小,目錄,Inmon數(shù)據(jù)倉庫設(shè)計(jì), ,體系結(jié)構(gòu)化環(huán)境 三級模型, ,高級模型 中級模型 低級模型,性能優(yōu)化,數(shù)據(jù)倉庫的物理性能優(yōu)化, ,數(shù)據(jù)倉庫的具有數(shù)據(jù)量大,操作簡單(主要為查詢操作) 的特點(diǎn),因此,數(shù)據(jù)倉庫的性能優(yōu)化主要集中在物理I/O 的性能上,應(yīng)盡量減少I/O次數(shù),使每次I/O能夠返回盡量 多的記錄。 數(shù)據(jù)倉庫性能優(yōu)化所采取的措施有, ,劃分粒度 數(shù)據(jù)分割 表優(yōu)化, ,合并表 建立數(shù)據(jù)序列 引入冗余 表的物理分割 生成導(dǎo)出數(shù)據(jù) 建立廣義索引,數(shù)據(jù)倉庫中的數(shù)據(jù)是細(xì)節(jié)還是綜合?細(xì)節(jié)到 什么程度?綜合到什么程度?,綜合越高,數(shù)據(jù)量相對越小,查詢效率會更 高。故,合適的粒度設(shè)計(jì)會提高查詢效率。,性能優(yōu)化1:粒度設(shè)計(jì), ,粒度是數(shù)據(jù)倉庫的重要概念。粒度指的是數(shù)據(jù)倉 庫中數(shù)據(jù)單元的細(xì)節(jié)程度或綜合程度的級別 數(shù)據(jù)倉庫中存在著不同的綜合級別,粒度越大, 表示細(xì)節(jié)程度越低,綜合程度越高。,高細(xì)節(jié)級,高粒度級 低細(xì)節(jié)級 一個顧客一個 月的電話綜合,低粒度級 一個顧客一個 月的電話明細(xì), ,粒度影響數(shù)據(jù)倉庫的數(shù)據(jù)量的大小、查詢類型以 及效率,粒度具體表現(xiàn)為不同的層次,如時間、 組織結(jié)構(gòu)等 高粒度級數(shù)據(jù)是經(jīng)過壓縮后的,數(shù)據(jù)量小,查詢 效率高,但是查詢類型受到一定的限制 低粒度級的數(shù)據(jù)量大,查詢效率低,但支持的查 詢類型多 例如,對于高粒度級的數(shù)據(jù)倉庫可以回答“上個月 John從北京打出的長途電話有多少個?”,而不能 回答“今天John是否從北京打出長途電話?” 這樣 的問題需要低粒度級的數(shù)據(jù)倉庫 因此,采用高粒度還是低粒度需要做出權(quán)衡。對 于決策信息查詢一般采用高粒度級更為合適。,理解:粒度, ,粒度 與 官職 對應(yīng),大官 看 大粒度(大方向),小官 看 小粒度(細(xì)節(jié)) 為總理設(shè)計(jì),粒度 面向 全國,高粒度,超大粒度; 為省長設(shè)計(jì),粒度 面向 全省,較大粒度; 為縣長設(shè)計(jì),粒度 面向 全縣,大粒度; 為鄉(xiāng)長設(shè)計(jì),粒度 面向 全鄉(xiāng),小粒度,細(xì)粒度; 為村長設(shè)計(jì)(別拿村長不當(dāng)干部),粒度 面向 全村, 超細(xì)粒度,張家有田幾畝?李家人丁幾何?,都 要有。 把村長用的粒度與總理用的粒度調(diào)換一下便知粒度的 重要性了,兩個肯定都叫苦。 實(shí)際設(shè)計(jì)中,一般我們要確認(rèn)最低粒度,高粒度可以 由低粒度綜合而來。,粒度的形式,粒度可以分為三種形式, ,一般意義的粒度(指最低粒度,常用) 多重粒度(常用,效率高) 活樣本數(shù)據(jù)庫(效率高),在實(shí)際中,三種形式的粒度都有可能存在, ,第一種形式的粒度是對數(shù)據(jù)倉庫中的數(shù)據(jù)的綜合 程度高低的一個度量,指的是最低粒度。它既影 響數(shù)據(jù)倉庫中的數(shù)據(jù)量的多少,也影響數(shù)據(jù)倉庫 所能回答詢問的種類。細(xì)節(jié)程度越高,粒度級就 越低,回答查詢的種類就越多,(官越?。?。相 反,細(xì)節(jié)程度越低,粒度級就越高, (官越大),查詢效率將會提高。 數(shù)據(jù)倉庫的主要作用是DSS分析,因而其絕大部分 查詢都基于一定程度的綜合數(shù)據(jù)之上,而只有極 少的查詢涉及細(xì)節(jié)。所以,可以考慮將綜合數(shù)據(jù) 物化,即采用第二種粒度形式 多重粒度。,雙重粒度, ,當(dāng)一個企業(yè)或組織的數(shù)據(jù)倉庫中擁有大量數(shù)據(jù)、 資源足夠,并需要多種類型的查詢以及追求高效 率的情況下,可以考慮多重粒度。 常用的是雙重粒度,即輕度綜合級(高粒度)和最 低粒度級(低粒度,當(dāng)前細(xì)節(jié)級),輕度綜合級 April John Count:45 Average:14min ,最低粒度級 John 4.12 p.m. 6:01-6:12 4.12 p.m. 6:15-6:16 4.12 a.m. 9:12-9:23 , ,對于數(shù)據(jù)分析員來說,大部分時間是針對輕度綜合 級別(高粒度)的數(shù)據(jù)進(jìn)行分析,所以,數(shù)據(jù)可以存 儲在I/O效率高的介質(zhì)上。 低粒度級的數(shù)據(jù)可以存儲在I/O效率相對較低的介 質(zhì)上,當(dāng)DSS分析員需要分析更低的數(shù)據(jù)時,可以 對這些數(shù)據(jù)進(jìn)行操作。但是,需要犧牲效率。 雙重粒度適合大多數(shù)機(jī)構(gòu)或組織的數(shù)據(jù)倉庫構(gòu)建, 單重粒度則只適用于相對較少的數(shù)據(jù)情況。 這樣,對于絕大多數(shù)查詢,性能將大大提高。而萬 一需要對細(xì)節(jié)查詢,小粒度數(shù)據(jù)也可以滿足。 采用多重粒度的目標(biāo)是提高效率,不同級別物化, 當(dāng)然會提高查詢效率,如果軟件硬件技術(shù)足夠先 進(jìn),則另當(dāng)別論。,Cube中的粒度設(shè)計(jì),維度粒度:維度一般是有層次結(jié)構(gòu)的,而粒度一般是 指最細(xì)粒度。,如,時間維度:年、季度、月、周、日是有層次的,其中, 首先需要確定的是最細(xì)粒度“日”,只有這個粒度確定了其他 層次的粒度才可以確定。,事實(shí)粒度:事實(shí)是由事實(shí)單元(度量)構(gòu)成的,每個 度量與參與維度的最細(xì)粒度相對應(yīng),所以,事實(shí)存儲 的是所有參與維度的最細(xì)粒度的度量值。,如,一個事實(shí)單元為:2005年10月20日(時間維度最細(xì)粒 度)、玉泉路物美超市食品部冷鮮柜組(部門維度最細(xì)粒 度)、食品類海鮮海蝦、銷售量:350kg。 350kg為最細(xì)粒 度的度量值。,活樣本數(shù)據(jù), ,活樣本數(shù)據(jù)是指從數(shù)據(jù)倉庫中取得的真實(shí)檔案數(shù)據(jù) 或輕度綜合數(shù)據(jù)的一個子集 “樣本”的含義是指一個更大的數(shù)據(jù)庫的一個子集 “活”是指這個數(shù)據(jù)需要進(jìn)行周期刷新 與通常意義的粒度不同,活樣本數(shù)據(jù)庫的粒度級別 不是根據(jù)綜合程度的不同來劃分的,而是根據(jù)采樣 率的高低來劃分的 采樣粒度不同的樣本數(shù)據(jù)庫可以具有相同的綜合級 別,一般它是以一定的采樣率從細(xì)節(jié)檔案數(shù)據(jù)或輕 度綜合數(shù)據(jù)中抽取的一個子集。, ,活樣本數(shù)據(jù)庫不能回答一些細(xì)節(jié)性的問題 抽樣的方法很多,一般是隨機(jī)抽取?;顦颖緮?shù)據(jù)可以代 替源數(shù)據(jù)進(jìn)行模擬分析 經(jīng)驗(yàn)證明,在源數(shù)據(jù)量很大的情況下,抽樣數(shù)據(jù)量可大 大下降,如源數(shù)據(jù)量的1/100或1/1000,源數(shù)據(jù)量越大, 數(shù)據(jù)量下降的量越大,而得出的分析結(jié)果誤差極小,具 有很高的效率 活樣本數(shù)據(jù)庫的抽取可以按照數(shù)據(jù)的重要程度不同來進(jìn) 行。并不是所有的數(shù)據(jù)對于具體的分析來說都具有相同 的價值,不能不分主次地對數(shù)據(jù)進(jìn)行分析(選代表)。 利用活樣本數(shù)據(jù)庫的概念,可以收集重要的數(shù)據(jù)來進(jìn)行 分析,既可提高分析效率,也有助于抓住主要因素和主 要矛盾。,活樣本數(shù)據(jù)的特點(diǎn),活樣本數(shù)據(jù)庫的主要用途, ,特別是在分析工作中,有許多探索的過程,有時分析 的目的只是要建立起分析模型或是得到相對準(zhǔn)確、能 反映趨勢的數(shù)據(jù),從而驗(yàn)證用戶的猜想,為下一步的 策略確定方向或?qū)Ξ?dāng)前分析程序做出相應(yīng)調(diào)整,而并 不要求精確的結(jié)果。 這種情況下樣本數(shù)據(jù)就大有用武之地!,性能優(yōu)化2:分區(qū), ,分區(qū)又稱分割,與數(shù)據(jù)庫系統(tǒng)中的分片概念近 似,是將一個表模式按照一定標(biāo)準(zhǔn)分成兩個或多 個表的模式,將數(shù)據(jù)分割稱小的物理單元(分片) 的過程。 與數(shù)據(jù)庫系統(tǒng)的分片相似,數(shù)據(jù)倉庫的分割也分 為水平分割、垂直分割、混合分割和導(dǎo)出分割。 把數(shù)據(jù)庫分區(qū)的技術(shù)“拿來主義”。 分區(qū)的目標(biāo)仍然是提高數(shù)據(jù)倉庫的訪問效率,是 一種系統(tǒng)性能優(yōu)化策略。 優(yōu)點(diǎn):分區(qū)可以使數(shù)據(jù)裝載、數(shù)據(jù)訪問、數(shù)據(jù)存 檔、數(shù)據(jù)重組、數(shù)據(jù)監(jiān)控、數(shù)據(jù)存儲等操作變得 簡單高效。,分割方法, ,數(shù)據(jù)量決定是否需要分割,規(guī)則:小的主題不分大的分; 不同主題的數(shù)據(jù)分割方法也不同,如商品按品類,供應(yīng)商 按地址; 分割標(biāo)準(zhǔn)要簡單可行,一般與現(xiàn)實(shí)業(yè)務(wù)對應(yīng)比較適合作為 標(biāo)準(zhǔn); 分割與粒度掛鉤,即分片 對應(yīng) 粒度級別 恰當(dāng)?shù)臄?shù)據(jù)分區(qū)使得數(shù)據(jù)增長便于管理 如果數(shù)據(jù)分區(qū)不合理則會為數(shù)據(jù)增長和管理造成許多困難 簡單地說,數(shù)據(jù)倉庫的本質(zhì)之一是使數(shù)據(jù)訪問變得靈活高 效,如果都是大塊的數(shù)據(jù)就達(dá)不到這一目標(biāo) 因此,一般情況下,對所有當(dāng)前細(xì)節(jié)的數(shù)據(jù)倉庫都要進(jìn)行 分區(qū)。,分區(qū)標(biāo)準(zhǔn), ,數(shù)據(jù)分區(qū)的標(biāo)準(zhǔn)可以根據(jù)實(shí)際情況來確定,通常 可選擇按日期、地域、業(yè)務(wù)領(lǐng)域或組織單位等來 進(jìn)行分區(qū),也可以按多個分區(qū)標(biāo)準(zhǔn)的組合來進(jìn)行 一般而言,分區(qū)標(biāo)準(zhǔn)應(yīng)包括日期項(xiàng),它十分自然 而且分區(qū)均勻 分區(qū)之后,小單元內(nèi)的數(shù)據(jù)相對獨(dú)立,處理起來 更快、更容易,例子,一個按時間(年)和商品類型作為標(biāo)準(zhǔn)來組織的 分區(qū)例子,分區(qū)14 分區(qū)24 分區(qū)34 分區(qū)44,分區(qū)13 分區(qū)23 分區(qū)33 分區(qū)43,分區(qū)12 分區(qū)22 分區(qū)32 分區(qū)42,分區(qū)11 分區(qū)21 分區(qū)31 分區(qū)41,2000年 2001年 2

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論