




已閱讀5頁,還剩31頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
Copyright2007創(chuàng)智新程,數(shù)據倉庫和數(shù)據集市,Copyright2007-2009創(chuàng)智新程,Copyright2007創(chuàng)智新程,數(shù)據倉庫和數(shù)據集市,目標什么是數(shù)據倉庫數(shù)據倉庫系統(tǒng)體系結構操作數(shù)據庫與數(shù)據倉庫的區(qū)別維度建模的相關概念維度建模的基本步驟數(shù)據集市,Copyright2007創(chuàng)智新程,數(shù)據倉庫的定義,數(shù)據倉庫(DataWarehouse)是一個面向主題的(SubjectOriented)、集成的(Integrated)、相對穩(wěn)定的(Non-Volation)、反映歷史變化(TimeVariant)的集合數(shù)據,用于支持管理決策和信息的全局共享。-W.H.Inmon,Copyright2007創(chuàng)智新程,面向主題的,數(shù)據倉庫是面向不同的主題域進行組織。一個主題通常與多個操作型信息系統(tǒng)相關。,Copyright2007創(chuàng)智新程,集成的,數(shù)據倉庫中的數(shù)據是在對原有分散的數(shù)據庫數(shù)據抽取、清理的基礎上經過系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據中的不一致性,以保證數(shù)據倉庫內的信息是關于整個企業(yè)的一致的全局信息。,Copyright2007創(chuàng)智新程,相對穩(wěn)定的,數(shù)據倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。,Copyright2007創(chuàng)智新程,反映歷史變化的,數(shù)據倉庫中的數(shù)據通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某一時點(如開始應用數(shù)據倉庫的時點)到目前的各個階段的信息,通過這些信息,可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預測。,Copyright2007創(chuàng)智新程,數(shù)據倉庫系統(tǒng)體系結構,Copyright2007創(chuàng)智新程,數(shù)據倉庫系統(tǒng)體系結構,數(shù)據源數(shù)據存儲及管理OLAP引擎前端工具,Copyright2007創(chuàng)智新程,操作數(shù)據庫與數(shù)據倉庫的區(qū)別,操作數(shù)據庫系統(tǒng)的主要任務是聯(lián)機事務處理OLTP。數(shù)據倉庫在數(shù)據分析和決策方面為用戶提供服務,這種系統(tǒng)稱為聯(lián)機分析處理OLAP。,Copyright2007創(chuàng)智新程,維度建模的相關概念,數(shù)據倉庫數(shù)據集市事實維度數(shù)據挖掘,Copyright2007創(chuàng)智新程,維度建模的相關概念,分析空間數(shù)據倉庫中一定量的數(shù)據,用于進行數(shù)據挖掘以發(fā)現(xiàn)新信息同時支持管理決策。切片一種用來在數(shù)據倉庫中將多個維度中的分析空間限制為數(shù)據子集的技術。星型模型一種使用關系數(shù)據庫實現(xiàn)多維分析空間的模型。雪花模型不管什么原因,當星型模型的維度需要進行規(guī)范化時,星型模型就演化為雪花模型。,Copyright2007創(chuàng)智新程,多維數(shù)據模型,一種非規(guī)范化的關系模型。由一組屬性構成的表所組成。表跟表之間的關系通過關鍵字和外鍵來定義。以良好的可理解性和方便的產生報表來進行數(shù)據組織,很少考慮修改的性能。通過SQL或者相關的工具實現(xiàn)數(shù)據的查詢和維護。,Copyright2007創(chuàng)智新程,多維數(shù)據模型,數(shù)據倉庫和OLAP工具基于多維數(shù)據模型,該模型將數(shù)據看作數(shù)據立方體形式。數(shù)據立方體允許以多維對數(shù)據建模和觀察。,一個具有x、y、z維度的方塊,Copyright2007創(chuàng)智新程,多維數(shù)據模型的組成,維事實數(shù)據立方體,Copyright2007創(chuàng)智新程,多維數(shù)據模型舉例,關系表與多維Cube,Copyright2007創(chuàng)智新程,多維建模技術,星型和雪花模式是主要的存在形式。星型模式包含一個大的包含大批數(shù)據的事實表和一系列維表。雪花模式是星型模式的變種,不同的是將某些維表規(guī)范化。,Copyright2007創(chuàng)智新程,星型模式,Copyright2007創(chuàng)智新程,維表進一步層次化,改善查詢性能,增加表數(shù)量,增加查詢復雜性。,雪花模式,Copyright2007創(chuàng)智新程,事實表,每一個事實表通常包含了處理所關心的一系列的度量值。每一個事實表的行包括:具有可加性的數(shù)值型的度量值。文本事實通常具有不可預見的內容,很難進行分析。與維表相連接的外鍵。通常具有兩個和兩個以外的外鍵。外鍵之間表示維表之間多對多的關系。,Copyright2007創(chuàng)智新程,事實表,事實表的特征非常大包含幾百幾千條甚至幾萬、幾十萬的記錄。內容相對的窄列數(shù)較少經常發(fā)生變化現(xiàn)實世界中新事件的發(fā)生-事實表中增加一條記錄。典型情況下,僅僅是數(shù)據的追加。事實表的使用各類度量值的聚類計算,Copyright2007創(chuàng)智新程,維表,每一張維表對應現(xiàn)實世界中的一個對象或者概念。例如:客戶、產品、日期、地區(qū)、商場維表的特征包含了眾多描述性的列維表的范圍很寬(具有多個屬性)通常情況下,跟事實表相比,行數(shù)相對較少通常10萬條內容相對固定幾乎就是一類查找表,Copyright2007創(chuàng)智新程,任務一:設計Northwind數(shù)據庫的星型模型,解題步驟定義OLAP的數(shù)據集市:包括使用星型模型或雪花模型。事實的選擇:通過事實表的共有特性及四種常見樣式來選擇適當?shù)氖聦嵎N類。四種常見的事實樣式為:事務事實、快照事實、線性項目事實、事件/狀態(tài)事實。維的創(chuàng)建。聚合體的設計。,Copyright2007創(chuàng)智新程,任務一:設計Northwind數(shù)據庫的星型模型,設計分析OLAP數(shù)據來源:Northwind數(shù)據庫共有8個表,分別是Orders、OrderDetails、Customers、Products、Categories、Employees、Shippers及Suppliers。Time_Dim時間維Northwind銷售系統(tǒng)的日期以Orders的出貨日為事實的時間,因此產生一個Time_Dim。,Copyright2007創(chuàng)智新程,任務一:設計Northwind數(shù)據庫的星型模型,設計分析事實表的主軸:Orders和OrderDetails兩個表的連接。OrderDetails中包括了數(shù)值字段:UnitPrice、Quantity及Discount??梢酝扑愠鍪聦嵥枰亩攘恐担哼\費、銷售金額、銷售數(shù)量和折扣。四個維表Customer_Dim、Product_Dim、Employee_Dim及Shipper_Dim的確定。Orders及OrderDetails兩個表中的外部鍵有CustomerID、ProductID、EmployeeID及ShipperID。,Copyright2007創(chuàng)智新程,任務一:設計Northwind數(shù)據庫的星型模型,設計分析Product_Dim具有一個分層結構:產品類別,并且采用的是合并維分層結構。Northwind數(shù)據庫Categories的CategoriesID與Products的CategoriesID是一對多的關系,因此可以通過連接將Categories的CategoriesName合并到Product_Dim中。Northwind數(shù)據庫Suppliers的SupplierID與Products的SupplierID是一對多的關系,因此可以通過連接將Suppliers的CompanyName合并到Product_Dim的供應商中。,Copyright2007創(chuàng)智新程,任務一:設計Northwind數(shù)據庫的星型模型,設計實施建立Sales_Fact事實表主鍵是由時間序號、客戶序號、發(fā)貨人序號、產品序號及員工序號共同組成一個多值鍵,并且這幾個字段的值都是來自維表的外部鍵。,Copyright2007創(chuàng)智新程,任務一:設計Northwind數(shù)據庫的星型模型,設計實施建立Time_Dim維表。時間序號,是一個由標識(Identity)生成的代理鍵。出貨日,即Orders的ShippedDate。幾乎所有的數(shù)據倉庫中均包含時間維。數(shù)據倉庫是反映歷史變化的允許針對歷史的數(shù)據進行分析典型的粒度:eachrow=1day,Copyright2007創(chuàng)智新程,任務一:設計Northwind數(shù)據庫的星型模型,設計實施建立Customer_Dim維表客戶序號,是一個由標識生成的代理鍵。其他字段都是由Customers這個表來產生。,Copyright2007創(chuàng)智新程,任務一:設計Northwind數(shù)據庫的星型模型,設計實施建立Product_Dim維表。產品序號,是一個由標識生成的代理鍵。Product_Dim有一個分層結構:產品類別,并且采用的是合并維分層結構。所以產品類別這個字段從Categories的ProductID與Products的ProductID連接而來。其他字段都是由Products這個表來產生。,Copyright2007創(chuàng)智新程,任務一:設計Northwind數(shù)據庫的星型模型,設計實施建立Employee_Dim維表。員工序號,是一個由標識生成的代理鍵。員工姓名:由DTS的ActiveXScript將Northwind數(shù)據庫中的Employees這個表的lastname與firstname合并而成。年齡及年薪由Employees這個表的BirthDate、HireDate產生。年齡層及年薪層是基于分析便利而產生的統(tǒng)計組,當數(shù)據由OLTP轉換到OLAP時,由DTS的ActiveXScript來負責做建立分組的動作。其他字段都是由Employees這個表來產生。,Copyright2007創(chuàng)智新程,任務一:設計Northwind數(shù)據庫的星型模型,設計實施建立ShipperDim這個維表發(fā)貨人序號,是一個由標識生成的代理鍵。其他字段都是由Shippers這個表來產生。,Copyright2007創(chuàng)智新程,任務一:設計Northwind數(shù)據庫的星型模型,將五個維表Time_Dim、Customer_Dim、Product_Dim、Employee_Dim及Shipper_Dim與事實表Sales_Fact作
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年SIC涂層石英玻璃管合作協(xié)議書
- 2025年物理治療康復設備項目建議書
- 專業(yè)水平及證書考取成績證明書(5篇)
- 醫(yī)學專家職業(yè)能力證明書(5篇)
- 公司股份認購協(xié)議書條款內容
- 游戲玩家賬號買賣協(xié)議
- 快遞物流行業(yè)配送中心建設協(xié)議
- 綠色農產品供應購銷協(xié)議樣板文件
- 體育場館服務管理合同
- 漁業(yè)資源捕撈與供應保障協(xié)議
- 赤峰市垃圾焚燒發(fā)電項目
- 2025年心理咨詢師執(zhí)業(yè)資格考試試題及答案
- 殯葬單位面試題及答案
- 網絡科學在社會網絡分析中的應用-全面剖析
- 民法典講座課件
- 2024年蚌埠市龍子湖區(qū)產業(yè)發(fā)展有限公司招聘筆試真題
- 2025-2030中國螢石行業(yè)分析及供需形勢與投資風險研究報告
- 【安全隨行】新員工入場三級安全教育培訓
- 【《生育意愿及影響因素研究的國內外文獻綜述》3400字】
- 圖文廣告服務投標方案(技術方案)
- 建筑工地各工種安全操作規(guī)程
評論
0/150
提交評論