數(shù)據(jù)倉(cāng)庫(kù)技術(shù)分享課件_第1頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)技術(shù)分享課件_第2頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)技術(shù)分享課件_第3頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)技術(shù)分享課件_第4頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)技術(shù)分享課件_第5頁(yè)
已閱讀5頁(yè),還剩18頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

技術(shù)分享數(shù)據(jù)倉(cāng)庫(kù)————01初識(shí)數(shù)倉(cāng)PART/01什么是數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)-->OLTP:(on-linetransactionprocessing)翻譯為聯(lián)機(jī)事務(wù)處理

記錄某類業(yè)務(wù)事件的發(fā)生,如購(gòu)買行為,銀行交易行為,當(dāng)行為產(chǎn)生后,系統(tǒng)會(huì)記錄是誰(shuí)在何時(shí)何地做了何事,這樣的一行(或多行)數(shù)據(jù)會(huì)以增刪改的方式在數(shù)據(jù)庫(kù)中進(jìn)行數(shù)據(jù)的更新處理操作,要求實(shí)時(shí)性高、穩(wěn)定性強(qiáng)、確保數(shù)據(jù)及時(shí)更新成功,像公司常見(jiàn)的業(yè)務(wù)系統(tǒng)如ERP,CRM,OA等系統(tǒng)都屬于OLTP數(shù)據(jù)倉(cāng)庫(kù)-->OLAP:(On-LineAnalyticalProcessing)翻譯為聯(lián)機(jī)分析處理

當(dāng)數(shù)據(jù)積累到一定的程度,我們需要對(duì)過(guò)去發(fā)生的事情做一個(gè)總結(jié)分析時(shí),就需要把過(guò)去一段時(shí)間內(nèi)產(chǎn)生的數(shù)據(jù)拿出來(lái)進(jìn)行統(tǒng)計(jì)分析,從中獲取我們想要的信息,為公司做決策提供支持,這時(shí)候就是在做OLAP了 OLAP支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果PART/01什么是數(shù)據(jù)倉(cāng)庫(kù)PART/01什么是數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)(DataWarehouse)是一個(gè)面向主題的(SubjectOriented)、集成的(Integrated)、相對(duì)穩(wěn)定的(Non-Volatile)、反映歷史變化(TimeVariant)的數(shù)據(jù)集合,用于支持管理決策(DecisionMakingSupport)。

比爾·恩門(mén)(BillInmon)

《BuildingtheDataWarehouse》數(shù)據(jù)倉(cāng)庫(kù)是為企業(yè)所有決策制定過(guò)程,提供所有系統(tǒng)數(shù)據(jù)支持的戰(zhàn)略集合。通過(guò)對(duì)數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的分析,可以幫助企業(yè),改進(jìn)業(yè)務(wù)流程、控制成本、提高產(chǎn)品質(zhì)量等。數(shù)倉(cāng)并不是數(shù)據(jù)的最終目的地,而是為主句最終的目的地做好準(zhǔn)備。包括:清洗,轉(zhuǎn)義,分類,充足,合并,拆分,統(tǒng)計(jì)等。PART/01什么是數(shù)據(jù)倉(cāng)庫(kù)1、面向主題。操作型數(shù)據(jù)庫(kù)的數(shù)據(jù)組織面向事務(wù)處理任務(wù),各個(gè)業(yè)務(wù)系統(tǒng)之間各自分離,而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是按照一定的主題域——用戶使用數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行決策時(shí)所關(guān)心的重點(diǎn)方面,一個(gè)主題通常與多個(gè)操作型信息系統(tǒng)相關(guān)2、集成的。面向事務(wù)處理的操作型數(shù)據(jù)庫(kù)通常與某些特定的應(yīng)用相關(guān),數(shù)據(jù)庫(kù)之間相互獨(dú)立,并且往往是異構(gòu)的。而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是在對(duì)原有分散的數(shù)據(jù)庫(kù)數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過(guò)系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉(cāng)庫(kù)內(nèi)的信息是關(guān)于整個(gè)企業(yè)的一致的全局信息。PART/01什么是數(shù)據(jù)倉(cāng)庫(kù)3、相對(duì)穩(wěn)定的。操作型數(shù)據(jù)庫(kù)中的數(shù)據(jù)通常實(shí)時(shí)更新,數(shù)據(jù)根據(jù)需要及時(shí)發(fā)生變化。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)主要供查詢,數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)以后,一般將被長(zhǎng)期保留,也就是數(shù)據(jù)倉(cāng)庫(kù)中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。4、反映歷史變化。操作型數(shù)據(jù)庫(kù)主要關(guān)心當(dāng)前某一個(gè)時(shí)間段內(nèi)的數(shù)據(jù),而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過(guò)去某一時(shí)點(diǎn)(如開(kāi)始應(yīng)用數(shù)據(jù)倉(cāng)庫(kù)的時(shí)點(diǎn))到目前的各個(gè)階段的信息,通過(guò)這些信息,可以對(duì)企業(yè)的發(fā)展歷程和未來(lái)趨勢(shì)做出定量分析和預(yù)測(cè)。02數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)PART/02數(shù)倉(cāng)架構(gòu)經(jīng)典數(shù)倉(cāng)其實(shí)數(shù)據(jù)倉(cāng)庫(kù)很早之前就有了很多傳統(tǒng)的數(shù)倉(cāng)技術(shù),例如基于Teradata的數(shù)據(jù)倉(cāng)庫(kù),只不過(guò)在大數(shù)據(jù)背景下我們開(kāi)始拋棄傳統(tǒng)構(gòu)建數(shù)倉(cāng)的技術(shù),轉(zhuǎn)而選擇了更能滿足當(dāng)前時(shí)代需求的大數(shù)據(jù)技術(shù),當(dāng)然大數(shù)據(jù)技術(shù)并沒(méi)有完整的、徹底的取代傳統(tǒng)的技術(shù)實(shí)現(xiàn),我們依然可以在很多地方看見(jiàn)它們的身影數(shù)據(jù)源ETL存儲(chǔ)分析、及展示PART/02數(shù)倉(cāng)架構(gòu)經(jīng)典數(shù)倉(cāng)問(wèn)題隨著數(shù)據(jù)量暴增、數(shù)據(jù)源多樣化、服務(wù)對(duì)象變化,傳統(tǒng)經(jīng)典數(shù)倉(cāng)的不足凸顯:傳統(tǒng)數(shù)據(jù)分析更注重對(duì)高密度、高價(jià)值的結(jié)構(gòu)化數(shù)據(jù)的業(yè)務(wù)數(shù)據(jù)分析,對(duì)非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)的處理,如圖像、文本、音頻的存儲(chǔ)和分析非常薄弱。由于傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)采用結(jié)構(gòu)化存儲(chǔ),當(dāng)數(shù)據(jù)從其他系統(tǒng)導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)時(shí),我們通常會(huì)引入ETL過(guò)程。ETL與具體的業(yè)務(wù)有很強(qiáng)的的綁定性,通常需要一個(gè)專門(mén)的人或者團(tuán)隊(duì)與業(yè)務(wù)部門(mén)進(jìn)行連接,并決定如何進(jìn)行數(shù)據(jù)清洗、轉(zhuǎn)換及加載。隨著異構(gòu)數(shù)據(jù)源的增加,如視頻、文本、圖片,要分析數(shù)據(jù)內(nèi)容并進(jìn)入數(shù)據(jù)倉(cāng)庫(kù),就需要非常復(fù)雜的ETL,導(dǎo)致ETL過(guò)于龐大且臃腫數(shù)據(jù)庫(kù)范式等約束規(guī)則重點(diǎn)解決數(shù)據(jù)冗余問(wèn)題,以確保數(shù)據(jù)的一致性。原則上,數(shù)據(jù)倉(cāng)庫(kù)原始數(shù)據(jù)是只讀的,所以這些約束條件將成為影響性能的因素。數(shù)據(jù)量過(guò)大時(shí)性能稱為瓶頸。PART/02數(shù)倉(cāng)架構(gòu)離線數(shù)倉(cāng)Hadoop生態(tài)的出現(xiàn)從幾個(gè)維度解決了傳統(tǒng)數(shù)倉(cāng)在數(shù)據(jù)分析中遇到的瓶頸:分布式計(jì)算。多節(jié)點(diǎn)并行計(jì)算,強(qiáng)調(diào)數(shù)據(jù)的局部性,并盡量減少節(jié)點(diǎn)間的數(shù)據(jù)傳輸。分布式存儲(chǔ)。將一份大文件分成若干份,沒(méi)分獨(dú)立放在一個(gè)節(jié)點(diǎn)上。涉及到文件拷貝、碎片化、管理等操作。檢索與存儲(chǔ)結(jié)合。早期大數(shù)據(jù)系統(tǒng)中,存儲(chǔ)和計(jì)算比較單一。大數(shù)據(jù)框架下的存儲(chǔ)不僅存儲(chǔ)數(shù)據(jù)內(nèi)容自身,還增加了很多元數(shù)據(jù)。存算分離。數(shù)據(jù)庫(kù)系統(tǒng)出于性能的考慮,主要采用“計(jì)算和存儲(chǔ)緊耦合”的架構(gòu)。而在分析大量級(jí)的數(shù)據(jù)時(shí),往往結(jié)果間會(huì)相互影響,在這種情況下,單個(gè)計(jì)算引擎無(wú)法完全控制數(shù)據(jù)布局和文件系統(tǒng)。因此,需要存算分離。PART/02數(shù)倉(cāng)架構(gòu)離線數(shù)倉(cāng)缺點(diǎn)分布式存儲(chǔ)強(qiáng)調(diào)數(shù)據(jù)的只讀性,如HDFS的存儲(chǔ)方式不支持更新、寫(xiě)操作不支持并行等。在應(yīng)用上有一定局限性。存儲(chǔ)的耦合,副本機(jī)制造成了擴(kuò)展和容災(zāi)發(fā)生時(shí)的成本壓力和運(yùn)維壓力。尚缺乏完整的cube工具。雖然目前有部分開(kāi)源或者商業(yè)化的產(chǎn)品,擔(dān)任存在局限性。如cube缺乏靈活性和穩(wěn)定性,對(duì)于業(yè)務(wù)支持的靈活性不足。對(duì)于報(bào)表數(shù)量多或復(fù)雜的場(chǎng)景,就需要過(guò)多的人工定制。離線處理為主,缺乏實(shí)時(shí)性。PART/02數(shù)倉(cāng)架構(gòu)Lambda架構(gòu)在離線大數(shù)據(jù)架構(gòu)基礎(chǔ)上增加一個(gè)加速層(增加一條實(shí)時(shí)計(jì)算鏈路,并對(duì)數(shù)據(jù)源進(jìn)行流失改造,實(shí)時(shí)計(jì)算訂閱消息完成計(jì)算,推送到下游),使用流處理技術(shù)直接完成那些實(shí)時(shí)性要求高的指標(biāo)計(jì)算,然后和離線計(jì)算整合從而給用戶一個(gè)完整的實(shí)時(shí)計(jì)算結(jié)果。PART/02數(shù)倉(cāng)架構(gòu)Lambda架構(gòu)存在的問(wèn)題:同樣的需求要開(kāi)發(fā)兩套一樣的代碼,開(kāi)發(fā)成本、維護(hù)成本極高。同樣資源計(jì)算兩次,資源占用多。實(shí)時(shí)鏈路和離線鏈路計(jì)算結(jié)果容易讓人誤解,昨天和今天看到的數(shù)據(jù)不一致。下游需整合實(shí)時(shí)和離線處理結(jié)果。PART/02數(shù)倉(cāng)架構(gòu)kappa架構(gòu):使用不可改變的數(shù)據(jù)流作為主要的記錄源,而不使用數(shù)據(jù)庫(kù)或文件的時(shí)間點(diǎn)來(lái)表示。Kappa架構(gòu)將數(shù)據(jù)作為事件寫(xiě)入到持久化的流中,對(duì)代碼的修改只需要重放過(guò)去的事件即可。kappa架構(gòu)解決了lambda架構(gòu)中較冗余的部分,支持?jǐn)?shù)據(jù)重放,架構(gòu)簡(jiǎn)潔。但實(shí)現(xiàn)較為困難。PART/02數(shù)倉(cāng)架構(gòu)混合架構(gòu):在實(shí)際應(yīng)用上并不是完全規(guī)范的lambda或kappa架構(gòu),可以將兩者混合,大部分實(shí)時(shí)指標(biāo)采用kappa架構(gòu)完成計(jì)算,少量關(guān)鍵指標(biāo)(金額等)使用lambda架構(gòu)用批處理重新計(jì)算,增加一次校對(duì)過(guò)程。PART/02數(shù)倉(cāng)架構(gòu)03數(shù)倉(cāng)建模PART/03數(shù)倉(cāng)建模數(shù)倉(cāng)分層清晰數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)血緣追蹤減少重復(fù)開(kāi)發(fā)把復(fù)雜問(wèn)題簡(jiǎn)單化屏蔽原始數(shù)據(jù)的異常PART/03數(shù)倉(cāng)建模ODS層

保持?jǐn)?shù)據(jù)原貌不做任何修改,起到備份數(shù)據(jù)的作用。

數(shù)據(jù)采用壓縮,減少磁盤(pán)存儲(chǔ)空間

創(chuàng)建分區(qū)表,防止后續(xù)的全表掃描DWD層 DWD層需構(gòu)建維度模型,一般采用星型模型,呈現(xiàn)的狀態(tài)一般為星座模型。DWS層 DWS層統(tǒng)計(jì)各個(gè)主題對(duì)象的當(dāng)天行為,構(gòu)建主題對(duì)象的全量寬表。DWS層的寬表字段,是站在不同維度

的視角去看事實(shí)表,重點(diǎn)關(guān)注事實(shí)表的度量值,通過(guò)與之關(guān)聯(lián)的事實(shí)表,獲得不同的事實(shí)表的度量值。ADS層

分別對(duì),如:設(shè)備主題、會(huì)員主題、商品主題和營(yíng)銷主題進(jìn)行指標(biāo)分析,其中營(yíng)銷主題是用戶主題和商品

主題的跨主題分析案例PART/03數(shù)倉(cāng)建模星型模型和雪花模型PART/03數(shù)倉(cāng)建模維度建模

維度建模一般步驟:選擇業(yè)務(wù)過(guò)程→聲明粒度→確認(rèn)維度→確認(rèn)事實(shí)(1)選擇業(yè)務(wù)過(guò)程在業(yè)務(wù)系統(tǒng)中,如果業(yè)務(wù)表過(guò)多,挑選我們感興趣的業(yè)務(wù)線,比如下單業(yè)務(wù),支付業(yè)務(wù),退款業(yè)務(wù),物流業(yè)務(wù),一條業(yè)務(wù)線對(duì)應(yīng)一張事實(shí)表。(2)聲明粒度數(shù)據(jù)粒度指數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)中保存數(shù)據(jù)的細(xì)化程度或綜合程度的級(jí)別。聲明粒度意味著精確定義事實(shí)表中的一行數(shù)據(jù)表示什么,應(yīng)該盡可能選擇最小粒度,以此來(lái)應(yīng)各種各樣的需求

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論