數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse)簡(jiǎn)介_(kāi)第1頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse)簡(jiǎn)介_(kāi)第2頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse)簡(jiǎn)介_(kāi)第3頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse)簡(jiǎn)介_(kāi)第4頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse)簡(jiǎn)介_(kāi)第5頁(yè)
已閱讀5頁(yè),還剩12頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse)交流 數(shù)據(jù)倉(cāng)庫(kù)簡(jiǎn)介 數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì) 數(shù)據(jù)倉(cāng)庫(kù)的要素?cái)?shù)據(jù)倉(cāng)庫(kù)簡(jiǎn)介 什么是數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù),是在數(shù)據(jù)庫(kù)已經(jīng)大量存在的情況下,為了進(jìn)一步挖掘數(shù)據(jù)資源、為了決策需要而產(chǎn)生的,它并不是所謂的“大型數(shù)據(jù)庫(kù)”。數(shù)據(jù)倉(cāng)庫(kù)的方案建設(shè)的目的,是為前端查詢(xún)和分析作為基礎(chǔ),由于有較大的冗余,所以需要的存儲(chǔ)也較大。數(shù)據(jù)倉(cāng)庫(kù)簡(jiǎn)介 數(shù)據(jù)倉(cāng)庫(kù)的目的構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)環(huán)境是為了有組織地存儲(chǔ)來(lái)自源系統(tǒng)的歷史數(shù)據(jù)。業(yè)務(wù)系統(tǒng)是為了特定需求構(gòu)建的,比如銷(xiāo)售點(diǎn)處理、計(jì)費(fèi)系統(tǒng)、庫(kù)存控制等待。這些系統(tǒng)往往不是企業(yè)的基礎(chǔ)系統(tǒng),不是為了數(shù)據(jù)分析或數(shù)據(jù)挖掘而構(gòu)建的。因此,為了企業(yè)整體使用,必須創(chuàng)建一個(gè)新的環(huán)境把這

2、些系統(tǒng)的數(shù)據(jù)匯集到一個(gè)集中式區(qū)域,即數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)。數(shù)據(jù)倉(cāng)庫(kù)簡(jiǎn)介 如果沒(méi)有數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)簡(jiǎn)介 具備了數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)簡(jiǎn)介 數(shù)據(jù)倉(cāng)庫(kù)的主要特點(diǎn)1. 數(shù)據(jù)倉(cāng)庫(kù)是面向主題的,操作型數(shù)據(jù)庫(kù)的數(shù)據(jù)面向事務(wù)的,而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織。主題是指用戶(hù)使用數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行決策時(shí)所關(guān)心的重點(diǎn)方面,一個(gè)主題通常與多個(gè)操作型信息系統(tǒng)相關(guān)。2. 集成性:數(shù)據(jù)倉(cāng)庫(kù)是集成的,數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)有來(lái)自于分散的操作型數(shù)據(jù),將所需數(shù)據(jù)從原來(lái)的數(shù)據(jù)中抽取出來(lái),進(jìn)行加工與集成,統(tǒng)一與綜合之后才能進(jìn)入數(shù)據(jù)倉(cāng)庫(kù);數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是在對(duì)原有分散的數(shù)據(jù)庫(kù)數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過(guò)系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不

3、一致性,以保證數(shù)據(jù)倉(cāng)庫(kù)內(nèi)的信息是關(guān)于整個(gè)企業(yè)的一致的全局信息。3. 穩(wěn)定性和時(shí)變性:存量的歷史數(shù)據(jù)不會(huì)被頻繁的更新,數(shù)據(jù)倉(cāng)庫(kù)不斷接受增量的數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì) 零售業(yè)數(shù)據(jù)倉(cāng)庫(kù)樣例數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì) 數(shù)據(jù)倉(cāng)庫(kù)的第一層Landing層 一般進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)源是來(lái)自各個(gè)事實(shí)操作性系統(tǒng),數(shù)據(jù)源類(lèi)型可以是不同格式的文本數(shù)據(jù)文件、存于不同后臺(tái)庫(kù)的表數(shù)據(jù)、以及現(xiàn)在大數(shù)據(jù)要解決的一些非結(jié)構(gòu)化數(shù)據(jù)(比如圖片、視頻)等。 數(shù)據(jù)源導(dǎo)入到數(shù)據(jù)倉(cāng)庫(kù)的第一層,叫Landing層,也可以叫做貼源層。 Landing層一般可以理解為數(shù)據(jù)緩沖層,用來(lái)接收源數(shù)據(jù),在一定時(shí)間里Hold住源數(shù)據(jù),一邊后續(xù)處理,甚至重復(fù)處理,這些處理可

4、以完全獨(dú)立于源系統(tǒng)。數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì) 數(shù)據(jù)倉(cāng)庫(kù)的第一層Landing層 這一步的要點(diǎn): a)數(shù)據(jù)落地前后要保持一致性,避免對(duì)數(shù)據(jù)進(jìn)行復(fù)雜的處理,以保證數(shù)據(jù)的快速導(dǎo)入而盡量減少對(duì)業(yè)務(wù)系統(tǒng)的壓力,這就要求做好相應(yīng)的審計(jì)工作。 b)landing表里要標(biāo)明數(shù)據(jù)的來(lái)源庫(kù)。數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì) 數(shù)據(jù)倉(cāng)庫(kù)的第二步Staging層 Landing層到Staging層主要是對(duì)數(shù)據(jù)進(jìn)行必要的清洗工作。 數(shù)據(jù)從landing流入staging后數(shù)據(jù)要在landing層清除。數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì) 數(shù)據(jù)倉(cāng)庫(kù)第三層Integration DW 該層作為數(shù)據(jù)倉(cāng)庫(kù)的集成部分,可以叫中央數(shù)據(jù)倉(cāng)庫(kù),包含兩種實(shí)體數(shù)據(jù):事實(shí)數(shù)據(jù)(fact en

5、tity)、維度數(shù)據(jù)(dimension entity)。 Fact entity:它是對(duì)某個(gè)事物(可能是某一筆交易,某一個(gè)項(xiàng)目,如一筆到貨明細(xì),某一個(gè)任務(wù)令)的各方面信息的描述,描述行的屬性包括:該事物各方面的度量信息,相關(guān)度量信息的維度信息。 Dimension entity:維度數(shù)據(jù)。這里的維度要支持業(yè)務(wù)上的最細(xì)粒度。要保證可以在最細(xì)粒度級(jí)別實(shí)現(xiàn)多維的分析。即能夠支持匯總數(shù)據(jù)以及明細(xì)數(shù)據(jù)的多維查詢(xún)。數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)第四層數(shù)據(jù)集市(Data Mart) 它是面向主題領(lǐng)域的專(zhuān)業(yè)的多維數(shù)據(jù)區(qū)。實(shí)現(xiàn)某一特定主題領(lǐng)域的多維查詢(xún)需求。這個(gè)部分也包括兩個(gè)實(shí)體(FACT ENTITY和DIMENS

6、ION ENTITY)兩部分,但是與中央數(shù)據(jù)倉(cāng)庫(kù)不同的是這部分的FACT ENTITY和DIMENSION ENTITY都是為某一主題服務(wù)的。 什么是主題? 主題和技術(shù)無(wú)關(guān),是從業(yè)務(wù)角度出發(fā),定義你分析的某個(gè)專(zhuān)業(yè)方向,例如產(chǎn)品營(yíng)銷(xiāo)、物流、財(cái)務(wù)、HR、CRM等,這些業(yè)務(wù)板塊就是主題。數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì) 數(shù)據(jù)的原子性數(shù)據(jù)的原子性(atomic):數(shù)據(jù)的原子性指數(shù)據(jù)的細(xì)化水平和粒度。數(shù)據(jù)的細(xì)化水平是原子性數(shù)據(jù)水平,粒度是數(shù)據(jù)采集水平。數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì) 數(shù)據(jù)倉(cāng)庫(kù)的服務(wù)目標(biāo)用戶(hù)業(yè)務(wù)層 數(shù)據(jù)倉(cāng)庫(kù)最底層的數(shù)據(jù)集市所形成的數(shù)據(jù)維度一般是直接面向于業(yè)務(wù)需求的。比如某個(gè)報(bào)表的數(shù)據(jù)已經(jīng)在某個(gè)表中被統(tǒng)計(jì)好,可直接從表中獲取

7、,不必通過(guò)多個(gè)表之間的關(guān)聯(lián)而取得目標(biāo)數(shù)據(jù)。這樣就大大提升了報(bào)表的性能。 數(shù)據(jù)集市的數(shù)據(jù)能具備良好的顆粒度,能極好的支持商業(yè)決策、數(shù)據(jù)分析、數(shù)據(jù)挖掘等工作。 報(bào)表技術(shù)的應(yīng)用,比如Cube。數(shù)據(jù)倉(cāng)庫(kù)的要素維度、模型 主要模型:星型模型、雪花模型 維度變化的維護(hù):直接覆蓋、保留舊值 最底層數(shù)據(jù)要跟報(bào)表維度一致,以提高數(shù)據(jù)的提取性能 時(shí)間戳的應(yīng)用血緣關(guān)系、元數(shù)據(jù) 不同層次的數(shù)據(jù)之間的血緣關(guān)系要明了,要具備優(yōu)良的任務(wù)調(diào)度機(jī)制(Control-M),方便問(wèn)題數(shù)據(jù)的追蹤;元素?fù)?jù)描素要清楚明了。數(shù)據(jù)冗余、一致性 不同維度上的數(shù)據(jù)統(tǒng)計(jì)存在冗余現(xiàn)象,為了提高查詢(xún)性能 不同維度表中的數(shù)據(jù)要保持一致 有時(shí)候數(shù)據(jù)的冗余為問(wèn)題數(shù)據(jù)的查找提供了良好的條件。數(shù)據(jù)倉(cāng)庫(kù)的要素 歷史數(shù)據(jù)的維護(hù) 根據(jù)用戶(hù)的業(yè)務(wù)需求,對(duì)歷史數(shù)據(jù)做合理的維護(hù),對(duì)不必要的歷史數(shù)據(jù)進(jìn)行清理,以節(jié)省存儲(chǔ)空間 增量的問(wèn)題數(shù)據(jù)的處理 當(dāng)某條增量數(shù)據(jù)所在的維度值未能在數(shù)據(jù)倉(cāng)庫(kù)中找到時(shí),將此增量數(shù)據(jù)HOLD,待下一次導(dǎo)數(shù)據(jù)的時(shí)候再驗(yàn)證。 可拓展性 針對(duì)新的業(yè)務(wù)需求,可在現(xiàn)有模型上擴(kuò)展出新的模塊點(diǎn) 主要技術(shù) 并行、分區(qū)、數(shù)據(jù)壓縮數(shù)據(jù)倉(cāng)庫(kù)的要素 具備

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論