




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、數(shù)據(jù)倉庫(Data Warehouse)交流 數(shù)據(jù)倉庫簡介 數(shù)據(jù)倉庫的設(shè)計 數(shù)據(jù)倉庫的要素數(shù)據(jù)倉庫簡介 什么是數(shù)據(jù)倉庫數(shù)據(jù)倉庫,是在數(shù)據(jù)庫已經(jīng)大量存在的情況下,為了進(jìn)一步挖掘數(shù)據(jù)資源、為了決策需要而產(chǎn)生的,它并不是所謂的“大型數(shù)據(jù)庫”。數(shù)據(jù)倉庫的方案建設(shè)的目的,是為前端查詢和分析作為基礎(chǔ),由于有較大的冗余,所以需要的存儲也較大。數(shù)據(jù)倉庫簡介 數(shù)據(jù)倉庫的目的構(gòu)建數(shù)據(jù)倉庫環(huán)境是為了有組織地存儲來自源系統(tǒng)的歷史數(shù)據(jù)。業(yè)務(wù)系統(tǒng)是為了特定需求構(gòu)建的,比如銷售點處理、計費系統(tǒng)、庫存控制等待。這些系統(tǒng)往往不是企業(yè)的基礎(chǔ)系統(tǒng),不是為了數(shù)據(jù)分析或數(shù)據(jù)挖掘而構(gòu)建的。因此,為了企業(yè)整體使用,必須創(chuàng)建一個新的環(huán)境把這
2、些系統(tǒng)的數(shù)據(jù)匯集到一個集中式區(qū)域,即數(shù)據(jù)倉庫系統(tǒng)。數(shù)據(jù)倉庫簡介 如果沒有數(shù)據(jù)倉庫數(shù)據(jù)倉庫簡介 具備了數(shù)據(jù)倉庫數(shù)據(jù)倉庫簡介 數(shù)據(jù)倉庫的主要特點1. 數(shù)據(jù)倉庫是面向主題的,操作型數(shù)據(jù)庫的數(shù)據(jù)面向事務(wù)的,而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織。主題是指用戶使用數(shù)據(jù)倉庫進(jìn)行決策時所關(guān)心的重點方面,一個主題通常與多個操作型信息系統(tǒng)相關(guān)。2. 集成性:數(shù)據(jù)倉庫是集成的,數(shù)據(jù)倉庫的數(shù)據(jù)有來自于分散的操作型數(shù)據(jù),將所需數(shù)據(jù)從原來的數(shù)據(jù)中抽取出來,進(jìn)行加工與集成,統(tǒng)一與綜合之后才能進(jìn)入數(shù)據(jù)倉庫;數(shù)據(jù)倉庫中的數(shù)據(jù)是在對原有分散的數(shù)據(jù)庫數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不
3、一致性,以保證數(shù)據(jù)倉庫內(nèi)的信息是關(guān)于整個企業(yè)的一致的全局信息。3. 穩(wěn)定性和時變性:存量的歷史數(shù)據(jù)不會被頻繁的更新,數(shù)據(jù)倉庫不斷接受增量的數(shù)據(jù)。數(shù)據(jù)倉庫的設(shè)計 零售業(yè)數(shù)據(jù)倉庫樣例數(shù)據(jù)倉庫的設(shè)計 數(shù)據(jù)倉庫的第一層Landing層 一般進(jìn)入數(shù)據(jù)倉庫的數(shù)據(jù)源是來自各個事實操作性系統(tǒng),數(shù)據(jù)源類型可以是不同格式的文本數(shù)據(jù)文件、存于不同后臺庫的表數(shù)據(jù)、以及現(xiàn)在大數(shù)據(jù)要解決的一些非結(jié)構(gòu)化數(shù)據(jù)(比如圖片、視頻)等。 數(shù)據(jù)源導(dǎo)入到數(shù)據(jù)倉庫的第一層,叫Landing層,也可以叫做貼源層。 Landing層一般可以理解為數(shù)據(jù)緩沖層,用來接收源數(shù)據(jù),在一定時間里Hold住源數(shù)據(jù),一邊后續(xù)處理,甚至重復(fù)處理,這些處理可
4、以完全獨立于源系統(tǒng)。數(shù)據(jù)倉庫的設(shè)計 數(shù)據(jù)倉庫的第一層Landing層 這一步的要點: a)數(shù)據(jù)落地前后要保持一致性,避免對數(shù)據(jù)進(jìn)行復(fù)雜的處理,以保證數(shù)據(jù)的快速導(dǎo)入而盡量減少對業(yè)務(wù)系統(tǒng)的壓力,這就要求做好相應(yīng)的審計工作。 b)landing表里要標(biāo)明數(shù)據(jù)的來源庫。數(shù)據(jù)倉庫的設(shè)計 數(shù)據(jù)倉庫的第二步Staging層 Landing層到Staging層主要是對數(shù)據(jù)進(jìn)行必要的清洗工作。 數(shù)據(jù)從landing流入staging后數(shù)據(jù)要在landing層清除。數(shù)據(jù)倉庫的設(shè)計 數(shù)據(jù)倉庫第三層Integration DW 該層作為數(shù)據(jù)倉庫的集成部分,可以叫中央數(shù)據(jù)倉庫,包含兩種實體數(shù)據(jù):事實數(shù)據(jù)(fact en
5、tity)、維度數(shù)據(jù)(dimension entity)。 Fact entity:它是對某個事物(可能是某一筆交易,某一個項目,如一筆到貨明細(xì),某一個任務(wù)令)的各方面信息的描述,描述行的屬性包括:該事物各方面的度量信息,相關(guān)度量信息的維度信息。 Dimension entity:維度數(shù)據(jù)。這里的維度要支持業(yè)務(wù)上的最細(xì)粒度。要保證可以在最細(xì)粒度級別實現(xiàn)多維的分析。即能夠支持匯總數(shù)據(jù)以及明細(xì)數(shù)據(jù)的多維查詢。數(shù)據(jù)倉庫的設(shè)計數(shù)據(jù)倉庫第四層數(shù)據(jù)集市(Data Mart) 它是面向主題領(lǐng)域的專業(yè)的多維數(shù)據(jù)區(qū)。實現(xiàn)某一特定主題領(lǐng)域的多維查詢需求。這個部分也包括兩個實體(FACT ENTITY和DIMENS
6、ION ENTITY)兩部分,但是與中央數(shù)據(jù)倉庫不同的是這部分的FACT ENTITY和DIMENSION ENTITY都是為某一主題服務(wù)的。 什么是主題? 主題和技術(shù)無關(guān),是從業(yè)務(wù)角度出發(fā),定義你分析的某個專業(yè)方向,例如產(chǎn)品營銷、物流、財務(wù)、HR、CRM等,這些業(yè)務(wù)板塊就是主題。數(shù)據(jù)倉庫的設(shè)計 數(shù)據(jù)的原子性數(shù)據(jù)的原子性(atomic):數(shù)據(jù)的原子性指數(shù)據(jù)的細(xì)化水平和粒度。數(shù)據(jù)的細(xì)化水平是原子性數(shù)據(jù)水平,粒度是數(shù)據(jù)采集水平。數(shù)據(jù)倉庫的設(shè)計 數(shù)據(jù)倉庫的服務(wù)目標(biāo)用戶業(yè)務(wù)層 數(shù)據(jù)倉庫最底層的數(shù)據(jù)集市所形成的數(shù)據(jù)維度一般是直接面向于業(yè)務(wù)需求的。比如某個報表的數(shù)據(jù)已經(jīng)在某個表中被統(tǒng)計好,可直接從表中獲取
7、,不必通過多個表之間的關(guān)聯(lián)而取得目標(biāo)數(shù)據(jù)。這樣就大大提升了報表的性能。 數(shù)據(jù)集市的數(shù)據(jù)能具備良好的顆粒度,能極好的支持商業(yè)決策、數(shù)據(jù)分析、數(shù)據(jù)挖掘等工作。 報表技術(shù)的應(yīng)用,比如Cube。數(shù)據(jù)倉庫的要素維度、模型 主要模型:星型模型、雪花模型 維度變化的維護(hù):直接覆蓋、保留舊值 最底層數(shù)據(jù)要跟報表維度一致,以提高數(shù)據(jù)的提取性能 時間戳的應(yīng)用血緣關(guān)系、元數(shù)據(jù) 不同層次的數(shù)據(jù)之間的血緣關(guān)系要明了,要具備優(yōu)良的任務(wù)調(diào)度機制(Control-M),方便問題數(shù)據(jù)的追蹤;元素?fù)?jù)描素要清楚明了。數(shù)據(jù)冗余、一致性 不同維度上的數(shù)據(jù)統(tǒng)計存在冗余現(xiàn)象,為了提高查詢性能 不同維度表中的數(shù)據(jù)要保持一致 有時候數(shù)據(jù)的冗余為問題數(shù)據(jù)的查找提供了良好的條件。數(shù)據(jù)倉庫的要素 歷史數(shù)據(jù)的維護(hù) 根據(jù)用戶的業(yè)務(wù)需求,對歷史數(shù)據(jù)做合理的維護(hù),對不必要的歷史數(shù)據(jù)進(jìn)行清理,以節(jié)省存儲空間 增量的問題數(shù)據(jù)的處理 當(dāng)某條增量數(shù)據(jù)所在的維度值未能在數(shù)據(jù)倉庫中找到時,將此增量數(shù)據(jù)HOLD,待下一次導(dǎo)數(shù)據(jù)的時候再驗證。 可拓展性 針對新的業(yè)務(wù)需求,可在現(xiàn)有模型上擴展出新的模塊點 主要技術(shù) 并行、分區(qū)、數(shù)據(jù)壓縮數(shù)據(jù)倉庫的要素 具備
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 歌廳轉(zhuǎn)讓協(xié)議書范本
- 商務(wù)演出服務(wù)合同協(xié)議
- 正規(guī)租用合同協(xié)議模板
- 模板租賃銷售合同協(xié)議
- 員工社保補償合同協(xié)議
- 2025注冊會計師聘用合同范本
- 2025規(guī)范版本的學(xué)校食堂餐飲服務(wù)合同
- 模具承攬合同協(xié)議格式
- 正規(guī)底商出租合同協(xié)議
- 商業(yè)用地分租合同協(xié)議
- 防汛行政首長培訓(xùn)課件
- FBS-GC-001-分布式光伏施工日志
- 《裝備質(zhì)量問題歸零實施指南》
- 人衛(wèi)版肺部疾病教學(xué)課件
- 敬老院運營服務(wù)務(wù)投標(biāo)方案(技術(shù)方案)
- 外籍人員個人所得稅講義課件
- LED制程與工藝介紹
- 《馬克思主義中國化思想通史》導(dǎo)讀-南京林業(yè)大學(xué)中國大學(xué)mooc課后章節(jié)答案期末考試題庫2023年
- 北京中考語文詞語表
- 水資源利用智慧樹知到答案章節(jié)測試2023年西安理工大學(xué)
- 水質(zhì)對干豆腐品質(zhì)的影響機制及調(diào)控技術(shù)
評論
0/150
提交評論