數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)_第1頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)_第2頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)_第3頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)_第4頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)_第5頁(yè)
已閱讀5頁(yè),還剩12頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)學(xué)習(xí)目標(biāo)2知識(shí)目標(biāo)●數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的內(nèi)容●數(shù)據(jù)倉(cāng)庫(kù)的創(chuàng)建能力目標(biāo)●OLAP/BI工具的使用●了解數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的概念學(xué)習(xí)任務(wù)3初步探索數(shù)據(jù)倉(cāng)庫(kù)的創(chuàng)建了解ETL的三個(gè)環(huán)節(jié)初步探索OLAP/BI工具了解數(shù)據(jù)立方體4目錄創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)ETL概述OLAP/BI工具數(shù)據(jù)立方體(DataCube)創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)5

數(shù)據(jù)倉(cāng)庫(kù)的創(chuàng)建方法和數(shù)據(jù)庫(kù)類(lèi)似,也是通過(guò)編寫(xiě)DDL語(yǔ)句來(lái)實(shí)現(xiàn)。在過(guò)去,數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)大都建立在RDBMS上,因?yàn)榫S度建模其實(shí)也可以看做是關(guān)系建模的一種。但如今隨著開(kāi)源分布式數(shù)據(jù)倉(cāng)庫(kù)工具如HadoopHive,SparkSQL的興起,開(kāi)發(fā)人員往往將建模和實(shí)現(xiàn)分離。使用專(zhuān)門(mén)的建模軟件進(jìn)行ER建模、關(guān)系建模、維度建模,而具體實(shí)現(xiàn)則在Hive/SparkSQL下進(jìn)行。6ETL概述ETL工作的實(shí)質(zhì)就是從各個(gè)數(shù)據(jù)源提取數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換,并最終加載填充數(shù)據(jù)到數(shù)據(jù)倉(cāng)庫(kù)維度建模后的表中。只有當(dāng)這些維度/事實(shí)表被填充好,ETL工作才算完成。接下來(lái)分別對(duì)抽取,轉(zhuǎn)換,加載這三個(gè)環(huán)節(jié)進(jìn)行講解:7抽取(Extract)

數(shù)據(jù)倉(cāng)庫(kù)是面向分析的,而操作型數(shù)據(jù)庫(kù)是面向應(yīng)用的。顯然,并不是所有用于支撐業(yè)務(wù)系統(tǒng)的數(shù)據(jù)都有拿來(lái)分析的必要。因此,該階段主要是根據(jù)數(shù)據(jù)倉(cāng)庫(kù)主題、主題域確定需要從應(yīng)用數(shù)據(jù)庫(kù)中提取的數(shù)。具體開(kāi)發(fā)過(guò)程中,開(kāi)發(fā)人員必然經(jīng)常發(fā)現(xiàn)某些ETL步驟和數(shù)據(jù)倉(cāng)庫(kù)建模后的表描述不符。這時(shí)候就要重新核對(duì)、設(shè)計(jì)需求,重新進(jìn)行ETL。正如數(shù)據(jù)庫(kù)系列的這篇中講到的,任何涉及到需求的變動(dòng),都需要重頭開(kāi)始并更新需求文檔。ETL概述8轉(zhuǎn)換(Transform)轉(zhuǎn)換步驟主要是指對(duì)提取好了的數(shù)據(jù)的結(jié)構(gòu)進(jìn)行轉(zhuǎn)換,以滿足目標(biāo)數(shù)據(jù)倉(cāng)庫(kù)模型的過(guò)程。此外,轉(zhuǎn)換過(guò)程也負(fù)責(zé)數(shù)據(jù)質(zhì)量工作,這部分也被稱(chēng)為數(shù)據(jù)清洗(datacleaning)。數(shù)據(jù)質(zhì)量涵蓋的內(nèi)容可具體參考這里。ETL概述9加載(Load)加載過(guò)程將已經(jīng)提取好了,轉(zhuǎn)換后保證了數(shù)據(jù)質(zhì)量的數(shù)據(jù)加載到目標(biāo)數(shù)據(jù)倉(cāng)庫(kù)。加載可分為兩種L:首次加載(firstload)和刷新加載(refreshload)。其中,首次加載會(huì)涉及到大量數(shù)據(jù),而刷新加載則屬于一種微批量式的加載。

如今隨著各種分布式、云計(jì)算工具的興起,ETL實(shí)則變成了ELT。就是業(yè)務(wù)系統(tǒng)自身不會(huì)做轉(zhuǎn)換工作,而是在簡(jiǎn)單的清洗后將數(shù)據(jù)導(dǎo)入分布式平臺(tái),讓平臺(tái)統(tǒng)一進(jìn)行清洗轉(zhuǎn)換等工作。這樣做能充分利用平臺(tái)的分布式特性,同時(shí)使業(yè)務(wù)系統(tǒng)更專(zhuān)注于業(yè)務(wù)本身。ETL概述10OLAP/BI工具數(shù)據(jù)倉(cāng)庫(kù)建設(shè)好以后,用戶就可以編寫(xiě)SQL語(yǔ)句對(duì)其進(jìn)行訪問(wèn)并對(duì)其中數(shù)據(jù)進(jìn)行分析。但每次查詢都要編寫(xiě)SQL語(yǔ)句的話,未免太麻煩,而且對(duì)維度建模數(shù)據(jù)進(jìn)行分析的SQL代碼套路比較固定。于是,便有了OLAP工具,它專(zhuān)用于維度建模數(shù)據(jù)的分析。而B(niǎo)I工具則是能夠?qū)LAP的結(jié)果以圖表的方式展現(xiàn)出來(lái),它和OLAP通常出現(xiàn)在一起。(注:本文所指的OLAP工具均指代這兩者。)11OLAP/BI工具在規(guī)范化數(shù)據(jù)倉(cāng)庫(kù)中OLAP工具和數(shù)據(jù)倉(cāng)庫(kù)的關(guān)系大致如圖:12OLAP/BI工具

這種情況下,OLAP不允許訪問(wèn)中心數(shù)據(jù)庫(kù)。一方面中心數(shù)據(jù)庫(kù)是采取規(guī)范化建模的,而OLAP只支持對(duì)維度建模數(shù)據(jù)的分析;另一方面規(guī)范化數(shù)據(jù)倉(cāng)庫(kù)的中心數(shù)據(jù)庫(kù)本身就不允許上層開(kāi)發(fā)人員訪問(wèn)。而在維度建模數(shù)據(jù)倉(cāng)庫(kù)中,OLAP/BI工具和數(shù)據(jù)倉(cāng)庫(kù)的關(guān)系則是這樣的:13OLAP/BI工具在維度建模數(shù)據(jù)倉(cāng)庫(kù)中,OLAP不但可以從數(shù)據(jù)倉(cāng)庫(kù)中直接取數(shù)進(jìn)行分析,還能對(duì)架構(gòu)在其上的數(shù)據(jù)集市群做同樣工作。對(duì)該部分講解感到模糊的讀者請(qǐng)重看上篇中三種數(shù)據(jù)倉(cāng)庫(kù)建模體系部分。14數(shù)據(jù)立方體(DataCube)很多年前,當(dāng)我們要手工從一堆數(shù)據(jù)中提取信息時(shí),我們會(huì)分析一堆數(shù)據(jù)報(bào)告。通常這些數(shù)據(jù)報(bào)告采用二維表示,是行與列組成的二維表格。但在真實(shí)世界里我們分析數(shù)據(jù)的角度很可能有多個(gè),數(shù)據(jù)立方體可以理解為就是維度擴(kuò)展后的二維表格。下圖展示了一個(gè)三維數(shù)據(jù)立方體:在介紹OLAP工具的具體使用前,先要了解這個(gè)概念:數(shù)據(jù)立方體(DataCube)。15數(shù)據(jù)立方體(DataCube)16數(shù)據(jù)立方體(DataCube)盡管這個(gè)例子是三維的,但更多時(shí)候數(shù)據(jù)立方體是N維的。它的實(shí)現(xiàn)有兩種方式,后面部分會(huì)講到。其中上一篇講到的星形模式就是其中一種,該模式其實(shí)是一種連接關(guān)系表與數(shù)據(jù)立方體的橋梁。但對(duì)于大多數(shù)純OLAP使用者來(lái)講,數(shù)據(jù)分析的對(duì)象就是這個(gè)邏輯概

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論