下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、數(shù)據(jù)倉庫系列為什么要維度建模凡是建設數(shù)據(jù)倉庫,一定會提到維度建模方法。這一方法是Kimball最先提出的,其最簡單的描述就是,按照事實表、維度表來構(gòu)建數(shù)據(jù)倉庫、數(shù)據(jù)集市。在維度建模方法體系中,維度是描述事實的角度,如日期、商品、地址等,事實是要度量的指標,如用戶數(shù)、銷售額等。按照一般書籍的介紹,維度建模還會分為星型模型、雪花模型等,各有優(yōu)缺點,但很少直接回答一個問題,也就是數(shù)據(jù)倉庫為什么要采用維度建模?這個問題的基本判斷在于,數(shù)據(jù)是否要開放給業(yè)務人員使用?采用維度建模構(gòu)建出來的數(shù)據(jù)庫結(jié)構(gòu)表更加符合普通人的直覺、易于被普通人所理解,從而有利于數(shù)據(jù)的推廣使用。下面以超市收銀小票為例說明常規(guī)的三范式
2、模型和維度模型。三范式的數(shù)據(jù)模型示意如下:維度模型示意如下:PK項冃TDFK2商品ID單價數(shù)量金額小票序號FK1小票項目PK日期維度TD期日年月曰日期維度表時間維度表PK時間維度TD時間小時分鐘秒收銀事實表PKPK,FK1PK,FK2PK,FK3PK,FK4小票序號收銀員TD商品IDH期維度TD時間維度ID單價數(shù)量金額收銀員維度表PK收銀員ID商品維度表PK商品ID商品名稱規(guī)格名稱以上兩個模型的最小數(shù)據(jù)粒度都是小票項目,可以容易看出來,維度模型是將關系模型的層次結(jié)構(gòu)展開平鋪而成。從上面的這個范例可以引出采用維度建模方法的基本理由,就是:數(shù)據(jù)結(jié)構(gòu)簡單。在決定是否要采用維度建模之前,必須回答一個問
3、題,“數(shù)據(jù)模型是否要開放給業(yè)務人員直接使用”,如果答案肯定,則應該采用維度建模的方法。維度模型這個概念有點學術化,但究其本質(zhì)而言,是將層次化的數(shù)據(jù)結(jié)構(gòu)展開為單一層次,有點類似于將一個業(yè)務過程的數(shù)據(jù)匯總到一個excel的sheet頁中。不過維度建模的代價也很明顯,就是其靈活性較差,數(shù)據(jù)冗余較多,所以,在很多書中提出了一個折中的辦法,即“雪花模型”,同時還煞有介事的對比了雪花模型與星型模型(即上面的示例)的優(yōu)缺點,讓很多初學者心中飄來了一個揮之不去的疑問,“既然雪花模型既有關系模型的優(yōu)點,還有維度模型的優(yōu)點,為什么還要存在星型模型呢”?。竊以為,這完全是多此一舉的做法,維度建模追求的是使用簡單,多
4、增加一級關聯(lián),增加的使用復雜度就會增加不止一點,會給多數(shù)不懂技術的業(yè)務人員帶來極大的障礙,是一種舍本逐末的做法。基于這種考慮,在建設數(shù)據(jù)倉庫的過程中,明細層和集市層分別采用不同的建模方法,也就是:明細層采用傳統(tǒng)的三范式關系模型。這一層次的數(shù)據(jù)模型要將業(yè)務過程描述清楚,將源數(shù)據(jù)(即業(yè)務系統(tǒng))中隱含的、有歧義的概念進行清晰化,如活躍用戶、VIP用戶等。該層次的數(shù)據(jù)模型追求的目標是靈活地表達業(yè)務過程,要保證數(shù)據(jù)一致性、唯一性、正確性,以盡量少的代價與源數(shù)據(jù)保持數(shù)據(jù)同步,同時該層次的數(shù)據(jù)模型不建議開給不懂技術的業(yè)務人員直接使用,因此,采用關系型的三范式模型是最佳的選擇。集市層采用維度模型。集市層是按照業(yè)務主題、分主題構(gòu)建出來的、面向特定部門或人員的數(shù)據(jù)集合,該層次的數(shù)據(jù)模型會開放給業(yè)務人員使用,進行數(shù)據(jù)挖掘及業(yè)務分析。由于業(yè)務員多數(shù)不懂數(shù)據(jù)庫技術,缺少將業(yè)務需求轉(zhuǎn)換為關系型數(shù)據(jù)結(jié)構(gòu)的邏輯思維,更寫不出復雜的SQL語句,因此,越簡單的數(shù)據(jù)模型,越能被他們所接受,因此,這個層次所構(gòu)建出來的數(shù)據(jù)模型,要按照業(yè)務過程進行組織,每個事實表代表一個獨立的業(yè)務過程,事實表之間不存在直接的依賴關系,這樣業(yè)務人員可以
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 四川西南航空職業(yè)學院《視傳藝術考察》2023-2024學年第一學期期末試卷
- 2024年花卉產(chǎn)業(yè)扶貧項目合作合同協(xié)議3篇
- 二零二五年度按揭貸款房屋改造貸款合同范本2篇
- 2024影視行業(yè)人才中介服務合同
- 二零二五版戶外廣告牌制作、安裝與維護全流程服務合同3篇
- 紹興文理學院元培學院《影視動畫海報設計》2023-2024學年第一學期期末試卷
- 個人所得稅代扣代繳協(xié)議(2024年版)
- 二零二五年度水泥管行業(yè)市場競爭策略合同
- 二零二五年度專業(yè)安保公司員工勞動合同范本2篇
- 山東輕工職業(yè)學院《期貨投資》2023-2024學年第一學期期末試卷
- 《胃癌靶向治療》課件
- 2024-2025學年遼寧省沈陽市高一上學期1月期末質(zhì)量監(jiān)測數(shù)學試題(含解析)
- 《少兒主持人》課件
- 北京市朝陽區(qū)2024-2025學年高二上學期期末考試生物試卷(含答案)
- 2025年西藏拉薩市柳梧新區(qū)城市投資建設發(fā)展集團有限公司招聘筆試參考題庫附帶答案詳解
- 2025年部編版一年級語文上冊期末復習計劃
- 儲罐維護檢修施工方案
- 地理2024-2025學年人教版七年級上冊地理知識點
- 2024 消化內(nèi)科專業(yè) 藥物臨床試驗GCP管理制度操作規(guī)程設計規(guī)范應急預案
- 2024-2030年中國電子郵箱行業(yè)市場運營模式及投資前景預測報告
- 基礎設施零星維修 投標方案(技術方案)
評論
0/150
提交評論