版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第3章數(shù)據倉庫開發(fā)應用過程
數(shù)據倉庫的開發(fā)應用像生物一樣具有其特有的、完整的生命周期,數(shù)據倉庫的開發(fā)應用周期可以分成:數(shù)據倉庫規(guī)劃分析階段、數(shù)據倉庫設計實施階段以及數(shù)據倉庫的使用維護三個階段。這三個階段是一個不斷循環(huán)、完善、提高的過程。在一般情況下數(shù)據倉庫系統(tǒng)不可能在一個循環(huán)過程中完成,而是經過多次循環(huán)開發(fā),每次循環(huán)都會為系統(tǒng)增加新的功能,使數(shù)據倉庫的應用得到新的提高。本章學習目標:
(1)了解數(shù)據倉庫開發(fā)應用的特點。
(2)掌握數(shù)據倉庫的規(guī)劃、數(shù)據倉庫的概念模型設計、數(shù)據倉庫的邏輯模型設計、數(shù)據倉庫的物理模型設計和數(shù)據倉庫的實施。
(3)了解數(shù)據倉庫的應用、支持和增強。第3章數(shù)據倉庫開發(fā)應用過程
數(shù)據倉庫的開發(fā)應用像生物一樣具1
數(shù)據倉庫開發(fā)應用過程
3.1數(shù)據倉庫開發(fā)應用過程3.2數(shù)據倉庫的規(guī)劃3.3數(shù)據倉庫的概念模型設計3.4數(shù)據倉庫的邏輯模型設計3.5數(shù)據倉庫的物理模型設計3.6數(shù)據倉庫的實施3.7數(shù)據倉庫的應用、支持和增強練習
數(shù)據倉庫開發(fā)應用過程
3.1數(shù)據倉庫開發(fā)應用23.1數(shù)據倉庫開發(fā)應用的特點
3.1.1數(shù)據倉庫開發(fā)應用的階段性數(shù)據倉庫的開發(fā)應用過程劃分為:創(chuàng)始階段成長階段控制階段成熟階段
3.1數(shù)據倉庫開發(fā)應用的特點
3.1.1數(shù)據倉庫開發(fā)應33.1.2數(shù)據倉庫的螺旋式開發(fā)方法
規(guī)劃分析階段
數(shù)據倉庫開發(fā)過程設計實施使用維護階段階段
3.1.2數(shù)據倉庫的螺旋式開發(fā)方法43.2數(shù)據倉庫的規(guī)劃3.2.1選擇數(shù)據倉庫實現(xiàn)策略開發(fā)策略主要有:自頂向下:實際應用比較困難。自底向上:用于一個數(shù)據集市或一個部門的數(shù)據倉庫開發(fā),容易獲得成功。兩種策略的聯(lián)合使用:能夠快速地完成數(shù)據倉庫的開發(fā)與應用,而且還可以建立具有長遠價值的數(shù)據倉庫方案。在實際使用中難以操作。3.2數(shù)據倉庫的規(guī)劃3.2.1選擇數(shù)據倉庫實現(xiàn)策略開53.2.2確定數(shù)據倉庫的開發(fā)目標和實現(xiàn)范圍首要目標是確定所需要信息的范圍,確定數(shù)據倉庫在為用戶提供決策幫助時,在主題和指標領域需要哪些數(shù)據源。
另一個重要目標是確定利用哪些方法和工具訪問和導航數(shù)據?其它目標是確定數(shù)據倉庫內部數(shù)據的規(guī)模從用戶的角度分析從技術的角度分析3.2.2確定數(shù)據倉庫的開發(fā)目標和實現(xiàn)范圍首要目標是確定63.2.3數(shù)據倉庫的結構1.數(shù)據倉庫的應用結構基于業(yè)務處理系統(tǒng)的數(shù)據倉庫
單純數(shù)據倉庫
單純數(shù)據集市
數(shù)據倉庫和數(shù)據集市
2.數(shù)據倉庫的技術平臺結構單層結構
客戶/服務器兩層結構
三層客戶/服務器
多層式結構
3.2.3數(shù)據倉庫的結構1.數(shù)據倉庫的應用結構73.2.4數(shù)據倉庫使用方案和項目規(guī)劃預算3.2.4數(shù)據倉庫使用方案和項目規(guī)劃預算83.3數(shù)據倉庫的概念模型設計概念模型的設計可以分為以下幾個階段:用戶需求調查、模型定義、模型分析和模型設計。3.3.1概念模型的需求調查數(shù)據倉庫開發(fā)的任務書首先要明確用戶的信息需求了解管理人員在信息需求方面的內容了解關于信息的來源組織所使用的系統(tǒng)環(huán)境3.3數(shù)據倉庫的概念模型設計概念模型的設計可以分為以下幾93.3.2概念模型的定義1.數(shù)據倉庫用戶的決策分析2.支持決策的數(shù)據需求分析3.數(shù)據需求分析工具3.3.2概念模型的定義1.數(shù)據倉庫用戶的決策分析103.3.2概念模型的定義4.CRUD矩陣C:Create產生、R:Read引用、U:Update更新D:Delete刪除。3.3.2概念模型的定義4.CRUD矩陣C:Create113.3.2概念模型的定義5.企業(yè)業(yè)務處理系統(tǒng)數(shù)據存儲表3.3.2概念模型的定義5.企業(yè)業(yè)務處理系統(tǒng)數(shù)據存儲表123.3.3概念模型的分析客戶變動信息商品變動信息客戶號商品固有信息客戶固有信息客戶號供應商號開戶日期日期銷售數(shù)量日期商品號商品客戶銷售3.3.3概念模型的分析客戶變動信息商品變動信息客戶133.3.4概念模型的設計經濟(年收入)100萬以上10萬以上1萬以上1萬以下地點國家省市銷售銷售數(shù)量銷售價格銷售金額時間ID地點ID商品ID年齡60歲以上40歲以上30歲以上20歲以上20歲以下日期年月日商品種類ID小類ID商品ID信用10萬元以上1萬元以上1千元以上1千元以下0元3.3.4概念模型的設計經濟地點銷售年齡日期商品信用14經濟(年收入)100萬以上10萬以上1萬以上地點國家省市銷售銷售ID銷售數(shù)量銷售價格銷售金額時間ID地點ID商品ID年齡60歲以上40歲以上30歲以上20歲以上20歲以下日期年月日商品ID種類小類商品信用10萬元以上1萬元以上1千元以上1千元以下0元商品ID生產廠家進貨價格進貨日期客戶客戶ID姓名地址電話郵政編碼經濟地點銷售年齡日期商品ID信用商品ID客戶153.3.5概念模型文檔與評審1.概念模型設計文檔數(shù)據倉庫開發(fā)需求分析報告概念模型分析報告概念模型概念模型的評審報告。
2.概念模型的評審3.概念模型的評審人員4.概念模型的評審內容數(shù)據倉庫開發(fā)任務書;用戶決策分析信息需求調查表;數(shù)據倉庫主題;E-R圖、星型模型和雪花模型。
3.3.5概念模型文檔與評審1.概念模型設計文檔163.4數(shù)據倉庫的邏輯模型設計數(shù)據倉庫的邏輯模型設計任務:分析主題域,確定要裝載到數(shù)據倉庫的主題;確定粒度層次劃分;確定數(shù)據分割策略;關系模式的定義和記錄系統(tǒng)定義、確定數(shù)據抽取模型等。邏輯模型最終設計成果:每個主題的邏輯定義,并將相關內容記錄在數(shù)據倉庫的元數(shù)據中粒度劃分數(shù)據分割策略表劃分和數(shù)據來源等。
3.4數(shù)據倉庫的邏輯模型設計數(shù)據倉庫的邏輯模型設計任務:173.4.1分析主題域3.4.1分析主題域183.4.2粒度層次和聚集的確定3.4.3確定數(shù)據分割策略數(shù)據分割標準1.數(shù)據量2.數(shù)據分析處理的對象3.粒度分割的策略
3.4.4關系模型定義3.4.2粒度層次和聚集的確定3.4.3確定數(shù)據分割193.4.5數(shù)據倉庫的實體定義實體的邏輯分析實體所有列的具體特征
3.4.5數(shù)據倉庫的實體定義實體的邏輯分析203.4.5數(shù)據倉庫的實體定義3.4.5數(shù)據倉庫的實體定義213.4.6數(shù)據倉庫的數(shù)據抽取模型F1數(shù)據抽取規(guī)則 P2 清理數(shù)據記錄 F8數(shù)據清理規(guī)則 F2 KHCG F5CQLS_KHCGF6CQLS_KHCG F7SJCK_KHCG P4 加載到數(shù)據倉庫 F3 SPQK F4 ZGYJ P3 數(shù)據排序聚集 P1 抽取數(shù)據源記錄 3.4.6數(shù)據倉庫的數(shù)據抽取模型F1數(shù)據抽取規(guī)則 P223.4.6數(shù)據倉庫的數(shù)據抽取模型2.數(shù)據倉庫的數(shù)據抽取、轉換與加載計劃(1)影響數(shù)據抽取、轉換與加載的因素數(shù)據格式壞數(shù)據系統(tǒng)的兼容性數(shù)據源的變化數(shù)據抽取的時間
(2)數(shù)據抽取、轉換與加載對策
全庫比較利用程序日志利用數(shù)據庫日志利用時間戳或利用位圖索引3.4.6數(shù)據倉庫的數(shù)據抽取模型2.數(shù)據倉庫的數(shù)據抽取、233.4.6數(shù)據倉庫的數(shù)據抽取模型3.數(shù)據倉庫的數(shù)據清理轉換方法(1)類型轉換(2)串操作(3)數(shù)學函數(shù)(4)參照完整性(5)關鍵字翻譯(6)聚集運算4.數(shù)據倉庫的數(shù)據抽取、清理與轉換模型3.4.6數(shù)據倉庫的數(shù)據抽取模型3.數(shù)據倉庫的數(shù)據清理轉243.4.6數(shù)據倉庫的數(shù)據抽取模型數(shù)據源抽取對象表
3.4.6數(shù)據倉庫的數(shù)據抽取模型數(shù)據源抽取對象表253.4.6數(shù)據倉庫的數(shù)據抽取模型數(shù)據源抽取規(guī)則表3.4.6數(shù)據倉庫的數(shù)據抽取模型數(shù)據源抽取規(guī)則表263.4.6數(shù)據倉庫的數(shù)據抽取模型數(shù)據抽取的目標列與源列對應關系表3.4.6數(shù)據倉庫的數(shù)據抽取模型數(shù)據抽取的目標列與源列對273.4.6數(shù)據倉庫的數(shù)據抽取模型數(shù)據抽取過程的排序、概括和導出情況表3.4.6數(shù)據倉庫的數(shù)據抽取模型數(shù)據抽取過程的排序、概括283.4.6數(shù)據倉庫的數(shù)據抽取模型數(shù)據概括表與事實表對應關系3.4.6數(shù)據倉庫的數(shù)據抽取模型數(shù)據概括表與事實表對應關293.4.7數(shù)據倉庫的元數(shù)據模型建立與應用數(shù)據源⑼⑶物理模型查詢統(tǒng)計邏輯模型業(yè)務分組來源定義加載統(tǒng)計來源-目標映射元數(shù)據目錄數(shù)據倉庫前端展示工具⑴⑵⑷⑸a⑹⑺⑻⑽⑿⑸b3.4.7數(shù)據倉庫的元數(shù)據模型建立與應用⑼⑶物理模型303.4.8邏輯模型的評審邏輯模型的文檔內容:主題域分析報告,數(shù)據粒度劃分模型,數(shù)據分割策略,指標實體、維實體與詳細類別實體的關系模式和數(shù)據抽取模型。對邏輯模型的評審主要集中在主題域是否可以正確地反映用戶的決策分析需求。從用戶對概括數(shù)據使用的要求,評審數(shù)據粒度的劃分和數(shù)據分割策略是否可以滿足用戶決策分析的需要。為提高數(shù)據倉庫的運行效率是否需要對關系模式進行反規(guī)范化處理。數(shù)據的抽取模型是否正確地建立了數(shù)據源與數(shù)據倉庫的對應關系。數(shù)據的約束條件和業(yè)務規(guī)則是否在這些模型中得到了正確的反映。3.4.8邏輯模型的評審邏輯模型的文檔內容:主題域分析報313.5數(shù)據倉庫的物理模型設計表的數(shù)據結構類型、索引策略、數(shù)據存放位置以及數(shù)據存儲分配等等。物理模型設計因素:I/O存取時間、空間利用率和維護的代價。工作:全面了解所選用的數(shù)據庫管理系統(tǒng),特別是存儲結構和存取方法。了解數(shù)據環(huán)境、數(shù)據的使用頻率、使用方式、數(shù)據規(guī)模以及響應時間要求等。了解外部存儲設備的特征。3.5數(shù)據倉庫的物理模型設計表的數(shù)據結構類型、索引策略、323.5.1數(shù)據倉庫設計的規(guī)范3.5.1數(shù)據倉庫設計的規(guī)范333.5.2確定數(shù)據結構的類型數(shù)據非規(guī)范化處理的優(yōu)點有:·能減少對表聯(lián)結的需求,提高數(shù)據倉庫運行性能?!つ軠p少編寫專門決策支持應用程序的工作量,因為運用一些專門的查詢工具,可以更容易訪問數(shù)據。·可以讓用戶以直觀的易于理解的工具來操作數(shù)據,例如,可以利用電子報表來查看數(shù)據。3.5.2確定數(shù)據結構的類型數(shù)據非規(guī)范化處理的優(yōu)點有:343.5.3數(shù)據倉庫索引的創(chuàng)建1.索引創(chuàng)建策略建立索引時,按照索引使用的頻率,由高到低逐步添加。按主關鍵字和大多數(shù)外部關鍵字建立索引
2.事實表索引的創(chuàng)建事實表中一定要設置主鍵
3.維表索引的創(chuàng)建4.數(shù)據加載索引的創(chuàng)建3.5.3數(shù)據倉庫索引的創(chuàng)建1.索引創(chuàng)建策略353.5.4確定數(shù)據存放位置數(shù)據的布局原則:·不要把經常需要連接的幾張表放在同一存儲設備上?!と绻麕着_服務器之間的連接會造成嚴重的網絡業(yè)務量的問題,則要考慮服務器復制表格?!た紤]把整個企業(yè)共享的細節(jié)數(shù)據放在主機或其他集中式服務器上。·別把表格和它們的索引放在同一設備上。一般可以將索引存放在高速存儲設備上,而表格則存放在一般存儲設備上,以加快數(shù)據的查詢速度。3.5.4確定數(shù)據存放位置數(shù)據的布局原則:363.5.5確定存儲分配3.5.6數(shù)據倉庫物理模型的評審理設計評審的目標要確定:物理模型在滿足數(shù)據倉庫使用的靈活性、性能、數(shù)據完整性、系統(tǒng)可用性、數(shù)據的當前性和用戶的滿意度等
具體的評審項目有:表空間、分區(qū)、表格、數(shù)據壓縮、控制表和引用表、索引、數(shù)據量、數(shù)據分布、線路通信量、數(shù)據倉庫的更新、概況數(shù)據、預期變動和數(shù)據的文檔化。3.5.5確定存儲分配3.5.6數(shù)據倉庫物理模型的評373.6數(shù)據倉庫的實施
實施過程中需要完成的工作:建立數(shù)據倉庫與業(yè)務處理系統(tǒng)的接口數(shù)據倉庫的體系結構建立實現(xiàn)數(shù)據倉庫物理倉庫與元數(shù)據庫進行數(shù)據倉庫的數(shù)據初次加載完成數(shù)據倉庫的中間件設計進行數(shù)據倉庫的測試。
3.6數(shù)據倉庫的實施實施過程中需要完成的工作:383.6.1數(shù)據倉庫與業(yè)務處理系統(tǒng)接口的設計
接口應該具有這樣一些功能:從面向應用和操作環(huán)境生成完整的數(shù)據;數(shù)據基于時間的轉換;數(shù)據的聚集;對現(xiàn)有數(shù)據系統(tǒng)的有效掃描,以便今后數(shù)據倉庫的數(shù)據追加。3.6.1數(shù)據倉庫與業(yè)務處理系統(tǒng)接口的設計接口應該具有393.6.2數(shù)據倉庫的創(chuàng)建關系型數(shù)據庫、多維數(shù)據庫和對象數(shù)據庫
創(chuàng)建數(shù)據倉庫的工具:MSSQLServer2000Oracle9iSybaseInformixRedBrickDecisionServer3.6.2數(shù)據倉庫的創(chuàng)建關系型數(shù)據庫、多維數(shù)據庫和對象數(shù)403.6.3數(shù)據倉庫的數(shù)據加載、復制與發(fā)行3.6.3數(shù)據倉庫的數(shù)據加載、復制與發(fā)行413.6.4數(shù)據倉庫的中間件設計1.代碼發(fā)生器2.數(shù)據復制工具3.數(shù)據泵4.廣義數(shù)據獲取工具和設備拷貝中間件還應該能夠進行數(shù)據清潔工作可對記錄或列重組、去除業(yè)務數(shù)據、供給已丟失的字段值和檢查數(shù)據的完整性和一致性對列值的解碼和轉換增加數(shù)據的時間戳數(shù)據的概括或者衍生值的計算3.6.4數(shù)據倉庫的中間件設計1.代碼發(fā)生器423.6.5數(shù)據倉庫的測試1.單元測試單元測試的目的是尋找出存在于單個程序、存儲過程和其它位于一些獨立環(huán)境中模塊的錯誤。
2.系統(tǒng)集成測試測試目的是驗證每個單元與數(shù)據倉庫系統(tǒng)和子系統(tǒng)之間的接口是否完好,是否能夠正常傳遞數(shù)據與執(zhí)行系統(tǒng)的整體功能。
3.6.5數(shù)據倉庫的測試1.單元測試433.7數(shù)據倉庫的應用、支持和增強3.7.1數(shù)據倉庫的用戶培訓及支持1.用戶的培訓向用戶解釋清楚數(shù)據倉庫的作用與原理用各種案例向用戶說明如何使用數(shù)據倉庫
2.對數(shù)據倉庫用戶的支持對數(shù)據倉庫應用成功案例的推廣
初始階段的支持技術人員、商業(yè)分析人員與用戶一起討論3.7數(shù)據倉庫的應用、支持和增強3.7.1數(shù)據倉庫的443.7.2數(shù)據倉庫的使用方式1.信息處理2.分析處理3.數(shù)據挖掘3.7.3數(shù)據倉庫使用中的數(shù)據刷新1.從已有數(shù)據資源中獲取更多數(shù)據2.從單位內部獲取新的數(shù)據源3.獲取新的或更多的行業(yè)數(shù)據源3.7.2數(shù)據倉庫的使用方式1.信息處理3.7.3數(shù)453.7.4數(shù)據倉庫的增強1.元數(shù)據庫的局限性2.缺乏外部數(shù)據源3.數(shù)據倉庫數(shù)據加載性能不能滿足要求4.數(shù)據倉庫應用范圍的擴大5.數(shù)據倉庫整體性能的調整6.數(shù)據倉庫重新規(guī)劃3.7.4數(shù)據倉庫的增強1.元數(shù)據庫的局限性46練習
練習47練習
6.請為購買商品趨勢分析設計一個數(shù)據倉庫的星型模型,并給出維表的層次結構。7.請為航空公司的航班分析數(shù)據倉庫確定其主題的詳細描述。8.為航空公司的航班分析數(shù)據倉庫設計一種數(shù)據抽取和轉換方案,并提出選擇此方案的理由。9.在數(shù)據倉庫的開發(fā)過程中需要對哪些模型進行評審,不同模型的評審內容有哪些?練習6.請為購買商品趨勢分析設計一個數(shù)據倉庫的星型模型48第3章數(shù)據倉庫開發(fā)應用過程
數(shù)據倉庫的開發(fā)應用像生物一樣具有其特有的、完整的生命周期,數(shù)據倉庫的開發(fā)應用周期可以分成:數(shù)據倉庫規(guī)劃分析階段、數(shù)據倉庫設計實施階段以及數(shù)據倉庫的使用維護三個階段。這三個階段是一個不斷循環(huán)、完善、提高的過程。在一般情況下數(shù)據倉庫系統(tǒng)不可能在一個循環(huán)過程中完成,而是經過多次循環(huán)開發(fā),每次循環(huán)都會為系統(tǒng)增加新的功能,使數(shù)據倉庫的應用得到新的提高。本章學習目標:
(1)了解數(shù)據倉庫開發(fā)應用的特點。
(2)掌握數(shù)據倉庫的規(guī)劃、數(shù)據倉庫的概念模型設計、數(shù)據倉庫的邏輯模型設計、數(shù)據倉庫的物理模型設計和數(shù)據倉庫的實施。
(3)了解數(shù)據倉庫的應用、支持和增強。第3章數(shù)據倉庫開發(fā)應用過程
數(shù)據倉庫的開發(fā)應用像生物一樣具49
數(shù)據倉庫開發(fā)應用過程
3.1數(shù)據倉庫開發(fā)應用過程3.2數(shù)據倉庫的規(guī)劃3.3數(shù)據倉庫的概念模型設計3.4數(shù)據倉庫的邏輯模型設計3.5數(shù)據倉庫的物理模型設計3.6數(shù)據倉庫的實施3.7數(shù)據倉庫的應用、支持和增強練習
數(shù)據倉庫開發(fā)應用過程
3.1數(shù)據倉庫開發(fā)應用503.1數(shù)據倉庫開發(fā)應用的特點
3.1.1數(shù)據倉庫開發(fā)應用的階段性數(shù)據倉庫的開發(fā)應用過程劃分為:創(chuàng)始階段成長階段控制階段成熟階段
3.1數(shù)據倉庫開發(fā)應用的特點
3.1.1數(shù)據倉庫開發(fā)應513.1.2數(shù)據倉庫的螺旋式開發(fā)方法
規(guī)劃分析階段
數(shù)據倉庫開發(fā)過程設計實施使用維護階段階段
3.1.2數(shù)據倉庫的螺旋式開發(fā)方法523.2數(shù)據倉庫的規(guī)劃3.2.1選擇數(shù)據倉庫實現(xiàn)策略開發(fā)策略主要有:自頂向下:實際應用比較困難。自底向上:用于一個數(shù)據集市或一個部門的數(shù)據倉庫開發(fā),容易獲得成功。兩種策略的聯(lián)合使用:能夠快速地完成數(shù)據倉庫的開發(fā)與應用,而且還可以建立具有長遠價值的數(shù)據倉庫方案。在實際使用中難以操作。3.2數(shù)據倉庫的規(guī)劃3.2.1選擇數(shù)據倉庫實現(xiàn)策略開533.2.2確定數(shù)據倉庫的開發(fā)目標和實現(xiàn)范圍首要目標是確定所需要信息的范圍,確定數(shù)據倉庫在為用戶提供決策幫助時,在主題和指標領域需要哪些數(shù)據源。
另一個重要目標是確定利用哪些方法和工具訪問和導航數(shù)據?其它目標是確定數(shù)據倉庫內部數(shù)據的規(guī)模從用戶的角度分析從技術的角度分析3.2.2確定數(shù)據倉庫的開發(fā)目標和實現(xiàn)范圍首要目標是確定543.2.3數(shù)據倉庫的結構1.數(shù)據倉庫的應用結構基于業(yè)務處理系統(tǒng)的數(shù)據倉庫
單純數(shù)據倉庫
單純數(shù)據集市
數(shù)據倉庫和數(shù)據集市
2.數(shù)據倉庫的技術平臺結構單層結構
客戶/服務器兩層結構
三層客戶/服務器
多層式結構
3.2.3數(shù)據倉庫的結構1.數(shù)據倉庫的應用結構553.2.4數(shù)據倉庫使用方案和項目規(guī)劃預算3.2.4數(shù)據倉庫使用方案和項目規(guī)劃預算563.3數(shù)據倉庫的概念模型設計概念模型的設計可以分為以下幾個階段:用戶需求調查、模型定義、模型分析和模型設計。3.3.1概念模型的需求調查數(shù)據倉庫開發(fā)的任務書首先要明確用戶的信息需求了解管理人員在信息需求方面的內容了解關于信息的來源組織所使用的系統(tǒng)環(huán)境3.3數(shù)據倉庫的概念模型設計概念模型的設計可以分為以下幾573.3.2概念模型的定義1.數(shù)據倉庫用戶的決策分析2.支持決策的數(shù)據需求分析3.數(shù)據需求分析工具3.3.2概念模型的定義1.數(shù)據倉庫用戶的決策分析583.3.2概念模型的定義4.CRUD矩陣C:Create產生、R:Read引用、U:Update更新D:Delete刪除。3.3.2概念模型的定義4.CRUD矩陣C:Create593.3.2概念模型的定義5.企業(yè)業(yè)務處理系統(tǒng)數(shù)據存儲表3.3.2概念模型的定義5.企業(yè)業(yè)務處理系統(tǒng)數(shù)據存儲表603.3.3概念模型的分析客戶變動信息商品變動信息客戶號商品固有信息客戶固有信息客戶號供應商號開戶日期日期銷售數(shù)量日期商品號商品客戶銷售3.3.3概念模型的分析客戶變動信息商品變動信息客戶613.3.4概念模型的設計經濟(年收入)100萬以上10萬以上1萬以上1萬以下地點國家省市銷售銷售數(shù)量銷售價格銷售金額時間ID地點ID商品ID年齡60歲以上40歲以上30歲以上20歲以上20歲以下日期年月日商品種類ID小類ID商品ID信用10萬元以上1萬元以上1千元以上1千元以下0元3.3.4概念模型的設計經濟地點銷售年齡日期商品信用62經濟(年收入)100萬以上10萬以上1萬以上地點國家省市銷售銷售ID銷售數(shù)量銷售價格銷售金額時間ID地點ID商品ID年齡60歲以上40歲以上30歲以上20歲以上20歲以下日期年月日商品ID種類小類商品信用10萬元以上1萬元以上1千元以上1千元以下0元商品ID生產廠家進貨價格進貨日期客戶客戶ID姓名地址電話郵政編碼經濟地點銷售年齡日期商品ID信用商品ID客戶633.3.5概念模型文檔與評審1.概念模型設計文檔數(shù)據倉庫開發(fā)需求分析報告概念模型分析報告概念模型概念模型的評審報告。
2.概念模型的評審3.概念模型的評審人員4.概念模型的評審內容數(shù)據倉庫開發(fā)任務書;用戶決策分析信息需求調查表;數(shù)據倉庫主題;E-R圖、星型模型和雪花模型。
3.3.5概念模型文檔與評審1.概念模型設計文檔643.4數(shù)據倉庫的邏輯模型設計數(shù)據倉庫的邏輯模型設計任務:分析主題域,確定要裝載到數(shù)據倉庫的主題;確定粒度層次劃分;確定數(shù)據分割策略;關系模式的定義和記錄系統(tǒng)定義、確定數(shù)據抽取模型等。邏輯模型最終設計成果:每個主題的邏輯定義,并將相關內容記錄在數(shù)據倉庫的元數(shù)據中粒度劃分數(shù)據分割策略表劃分和數(shù)據來源等。
3.4數(shù)據倉庫的邏輯模型設計數(shù)據倉庫的邏輯模型設計任務:653.4.1分析主題域3.4.1分析主題域663.4.2粒度層次和聚集的確定3.4.3確定數(shù)據分割策略數(shù)據分割標準1.數(shù)據量2.數(shù)據分析處理的對象3.粒度分割的策略
3.4.4關系模型定義3.4.2粒度層次和聚集的確定3.4.3確定數(shù)據分割673.4.5數(shù)據倉庫的實體定義實體的邏輯分析實體所有列的具體特征
3.4.5數(shù)據倉庫的實體定義實體的邏輯分析683.4.5數(shù)據倉庫的實體定義3.4.5數(shù)據倉庫的實體定義693.4.6數(shù)據倉庫的數(shù)據抽取模型F1數(shù)據抽取規(guī)則 P2 清理數(shù)據記錄 F8數(shù)據清理規(guī)則 F2 KHCG F5CQLS_KHCGF6CQLS_KHCG F7SJCK_KHCG P4 加載到數(shù)據倉庫 F3 SPQK F4 ZGYJ P3 數(shù)據排序聚集 P1 抽取數(shù)據源記錄 3.4.6數(shù)據倉庫的數(shù)據抽取模型F1數(shù)據抽取規(guī)則 P703.4.6數(shù)據倉庫的數(shù)據抽取模型2.數(shù)據倉庫的數(shù)據抽取、轉換與加載計劃(1)影響數(shù)據抽取、轉換與加載的因素數(shù)據格式壞數(shù)據系統(tǒng)的兼容性數(shù)據源的變化數(shù)據抽取的時間
(2)數(shù)據抽取、轉換與加載對策
全庫比較利用程序日志利用數(shù)據庫日志利用時間戳或利用位圖索引3.4.6數(shù)據倉庫的數(shù)據抽取模型2.數(shù)據倉庫的數(shù)據抽取、713.4.6數(shù)據倉庫的數(shù)據抽取模型3.數(shù)據倉庫的數(shù)據清理轉換方法(1)類型轉換(2)串操作(3)數(shù)學函數(shù)(4)參照完整性(5)關鍵字翻譯(6)聚集運算4.數(shù)據倉庫的數(shù)據抽取、清理與轉換模型3.4.6數(shù)據倉庫的數(shù)據抽取模型3.數(shù)據倉庫的數(shù)據清理轉723.4.6數(shù)據倉庫的數(shù)據抽取模型數(shù)據源抽取對象表
3.4.6數(shù)據倉庫的數(shù)據抽取模型數(shù)據源抽取對象表733.4.6數(shù)據倉庫的數(shù)據抽取模型數(shù)據源抽取規(guī)則表3.4.6數(shù)據倉庫的數(shù)據抽取模型數(shù)據源抽取規(guī)則表743.4.6數(shù)據倉庫的數(shù)據抽取模型數(shù)據抽取的目標列與源列對應關系表3.4.6數(shù)據倉庫的數(shù)據抽取模型數(shù)據抽取的目標列與源列對753.4.6數(shù)據倉庫的數(shù)據抽取模型數(shù)據抽取過程的排序、概括和導出情況表3.4.6數(shù)據倉庫的數(shù)據抽取模型數(shù)據抽取過程的排序、概括763.4.6數(shù)據倉庫的數(shù)據抽取模型數(shù)據概括表與事實表對應關系3.4.6數(shù)據倉庫的數(shù)據抽取模型數(shù)據概括表與事實表對應關773.4.7數(shù)據倉庫的元數(shù)據模型建立與應用數(shù)據源⑼⑶物理模型查詢統(tǒng)計邏輯模型業(yè)務分組來源定義加載統(tǒng)計來源-目標映射元數(shù)據目錄數(shù)據倉庫前端展示工具⑴⑵⑷⑸a⑹⑺⑻⑽⑿⑸b3.4.7數(shù)據倉庫的元數(shù)據模型建立與應用⑼⑶物理模型783.4.8邏輯模型的評審邏輯模型的文檔內容:主題域分析報告,數(shù)據粒度劃分模型,數(shù)據分割策略,指標實體、維實體與詳細類別實體的關系模式和數(shù)據抽取模型。對邏輯模型的評審主要集中在主題域是否可以正確地反映用戶的決策分析需求。從用戶對概括數(shù)據使用的要求,評審數(shù)據粒度的劃分和數(shù)據分割策略是否可以滿足用戶決策分析的需要。為提高數(shù)據倉庫的運行效率是否需要對關系模式進行反規(guī)范化處理。數(shù)據的抽取模型是否正確地建立了數(shù)據源與數(shù)據倉庫的對應關系。數(shù)據的約束條件和業(yè)務規(guī)則是否在這些模型中得到了正確的反映。3.4.8邏輯模型的評審邏輯模型的文檔內容:主題域分析報793.5數(shù)據倉庫的物理模型設計表的數(shù)據結構類型、索引策略、數(shù)據存放位置以及數(shù)據存儲分配等等。物理模型設計因素:I/O存取時間、空間利用率和維護的代價。工作:全面了解所選用的數(shù)據庫管理系統(tǒng),特別是存儲結構和存取方法。了解數(shù)據環(huán)境、數(shù)據的使用頻率、使用方式、數(shù)據規(guī)模以及響應時間要求等。了解外部存儲設備的特征。3.5數(shù)據倉庫的物理模型設計表的數(shù)據結構類型、索引策略、803.5.1數(shù)據倉庫設計的規(guī)范3.5.1數(shù)據倉庫設計的規(guī)范813.5.2確定數(shù)據結構的類型數(shù)據非規(guī)范化處理的優(yōu)點有:·能減少對表聯(lián)結的需求,提高數(shù)據倉庫運行性能?!つ軠p少編寫專門決策支持應用程序的工作量,因為運用一些專門的查詢工具,可以更容易訪問數(shù)據?!た梢宰層脩粢灾庇^的易于理解的工具來操作數(shù)據,例如,可以利用電子報表來查看數(shù)據。3.5.2確定數(shù)據結構的類型數(shù)據非規(guī)范化處理的優(yōu)點有:823.5.3數(shù)據倉庫索引的創(chuàng)建1.索引創(chuàng)建策略建立索引時,按照索引使用的頻率,由高到低逐步添加。按主關鍵字和大多數(shù)外部關鍵字建立索引
2.事實表索引的創(chuàng)建事實表中一定要設置主鍵
3.維表索引的創(chuàng)建4.數(shù)據加載索引的創(chuàng)建3.5.3數(shù)據倉庫索引的創(chuàng)建1.索引創(chuàng)建策略833.5.4確定數(shù)據存放位置數(shù)據的布局原則:·不要把經常需要連接的幾張表放在同一存儲設備上?!と绻麕着_服務器之間的連接會造成嚴重的網絡業(yè)務量的問題,則要考慮服務器復制表格?!た紤]把整個企業(yè)共享的細節(jié)數(shù)據放在主機或其他集中式服務器上?!e把表格和它們的索引放在同一設備上。一般可以將索引存放在高速存儲設備上,而表格則存放在一般存儲設備上,以加快數(shù)據的查詢速度。3.5.4確定數(shù)據存放位置數(shù)據的布局原則:843.5.5確定存儲分配3.5.6數(shù)據倉庫物理模型的評審理設計評審的目標要確定:物理模型在滿足數(shù)據倉庫使用的靈活性、性能、數(shù)據完整性、系統(tǒng)可用性、數(shù)據的當前性和用戶的滿意度等
具體的評審項目有:表空間、分區(qū)、表格、數(shù)據壓縮、控制表和引用表、索引、數(shù)據量、數(shù)據分布、線路通信量、數(shù)據倉庫的更新、概況數(shù)據、預期變動和數(shù)據的文檔化。3.5.5確定存儲分配3.5.6數(shù)據倉庫物理模型的評853.6數(shù)據倉庫的實施
實施過程中需要完成的工作:建立數(shù)據倉庫與業(yè)務處理系統(tǒng)的接口數(shù)據倉庫的體系結
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024蘇州二手房交易協(xié)議樣式版B版
- 2024年研發(fā)合作協(xié)議的研發(fā)內容和成果分配
- 浙江農林大學《電算在建筑結構中的應用》2023-2024學年第一學期期末試卷
- 中南林業(yè)科技大學涉外學院《DSP原理及應用》2023-2024學年第一學期期末試卷
- 2025年度特種船舶租賃及維護服務協(xié)議3篇
- 2024手繪合同協(xié)議書范本
- 三人合資奶茶店經營合作合同書版B版
- 高爐知識培訓課件下載
- 2024年藥品連鎖銷售合同3篇
- 攝影影樓前臺接待總結
- 做一個遵紀守法的好學生主題班會-課件
- 加油站反恐專項經費保障制度
- 汽車車輛消防安全防火知識培訓教學課件
- 2023版關于構建安全風險分級管控和隱患排查治理雙重預防機制實施方案全
- 高考詞匯3500+500【默寫版】【打印版】
- 反循環(huán)鉆孔灌注樁施工方案方案
- 數(shù)學課怎樣分層教學案例
- 學校餐廳供貨者評價和退出機制
- 2023醫(yī)院招聘護士考試真題庫及參考答案
- JJG 1149-2022電動汽車非車載充電機(試行)
- 工程款支付報審表
評論
0/150
提交評論