版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、2021-11-202021-11-201數(shù)據(jù)倉庫與數(shù)據(jù)挖掘陳志泊 主編清華大學(xué)出版社十一五 普通高等教育“十一五”國家級規(guī)劃教材2021-11-202021-11-202第第1章章 數(shù)據(jù)倉庫的概數(shù)據(jù)倉庫的概念與體系結(jié)構(gòu)念與體系結(jié)構(gòu) 信息化建設(shè)-歷史數(shù)據(jù)-如何處理它們?刪除?備份+刪除?其它?數(shù)據(jù)倉庫系統(tǒng)2021-11-202021-11-2031.1 數(shù)據(jù)倉庫的概念、特點與組成數(shù)據(jù)倉庫的概念、特點與組成l數(shù)據(jù)倉庫的概念數(shù)據(jù)倉庫的概念 數(shù)據(jù)倉庫就是一個面向 主題的(Subject Oriented)+ 集成的(Integrate)+ 相對穩(wěn)定的(Non-Volatile)+ 反映歷史變化的(T
2、ime Variant) 數(shù)據(jù)集合,通常用于輔助決策支持(DDS)。 注:數(shù)據(jù)倉庫不是一個產(chǎn)品、一種語言、一個項目、一個模型, 而是一個數(shù)據(jù)庫環(huán)境。2021-11-202021-11-2041.1 數(shù)據(jù)倉庫的概念、特點與組成數(shù)據(jù)倉庫的概念、特點與組成l數(shù)據(jù)倉庫的特點數(shù)據(jù)倉庫的特點l面向主題面向主題l集成集成l相對穩(wěn)定相對穩(wěn)定l反映歷史變化反映歷史變化主題:指用戶使用數(shù)據(jù)倉庫進(jìn)行決策時所關(guān)心的重點領(lǐng)域。例如:顧客、供應(yīng)商、產(chǎn)品等。2021-11-202021-11-2051.1 數(shù)據(jù)倉庫的概念、特點與組成數(shù)據(jù)倉庫的概念、特點與組成l數(shù)據(jù)倉庫的組成數(shù)據(jù)倉庫的組成l數(shù)據(jù)倉庫數(shù)據(jù)庫數(shù)據(jù)倉庫數(shù)據(jù)庫l數(shù)據(jù)
3、抽取工具數(shù)據(jù)抽取工具l元數(shù)據(jù):技術(shù)元數(shù)據(jù)與業(yè)務(wù)元數(shù)據(jù)元數(shù)據(jù):技術(shù)元數(shù)據(jù)與業(yè)務(wù)元數(shù)據(jù)l訪問工具訪問工具l數(shù)據(jù)集市(數(shù)據(jù)集市(Data Marts)l數(shù)據(jù)倉庫管理數(shù)據(jù)倉庫管理l信息發(fā)布系統(tǒng)信息發(fā)布系統(tǒng)數(shù)據(jù)轉(zhuǎn)換包括:刪除無意義的數(shù)據(jù)、轉(zhuǎn)換成統(tǒng)一的數(shù)據(jù)名稱和定義、填補(bǔ)缺失數(shù)據(jù)等。元數(shù)據(jù)是描述數(shù)據(jù)倉庫內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù)。它為訪問數(shù)據(jù)倉庫提供了一個信息目錄。數(shù)據(jù)集市是為了特定的應(yīng)用數(shù)據(jù)集市是為了特定的應(yīng)用目的,從數(shù)據(jù)倉庫中獨立出目的,從數(shù)據(jù)倉庫中獨立出來的一部分?jǐn)?shù)據(jù)。來的一部分?jǐn)?shù)據(jù)。包括:安全與權(quán)限的管理、數(shù)據(jù)更新的跟蹤、數(shù)據(jù)質(zhì)量的檢查、元數(shù)據(jù)的管理與更新等。信息發(fā)布系統(tǒng)是把信息發(fā)布系統(tǒng)是把數(shù)據(jù)
4、倉庫中的數(shù)據(jù)數(shù)據(jù)倉庫中的數(shù)據(jù)或其他相關(guān)的數(shù)據(jù)或其他相關(guān)的數(shù)據(jù)發(fā)送給不同的地點發(fā)送給不同的地點或用戶。或用戶。2021-11-202021-11-2061.2 數(shù)據(jù)挖掘的概念與方法數(shù)據(jù)挖掘的概念與方法l數(shù)據(jù)挖掘的概念數(shù)據(jù)挖掘的概念l數(shù)據(jù)挖掘(Data Mining),就是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的過程。簡單的說,數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或“挖掘”知識,又被稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database, KDD) 。2021-11-202021-11-2071.2 數(shù)據(jù)挖掘的概念與方法數(shù)據(jù)挖掘的概念與方法l數(shù)據(jù)挖掘的
5、方法數(shù)據(jù)挖掘的方法l直接數(shù)據(jù)挖掘直接數(shù)據(jù)挖掘l間接數(shù)據(jù)挖掘間接數(shù)據(jù)挖掘利用可用數(shù)據(jù)建立一個模型,利用該模型對剩余數(shù)據(jù)進(jìn)行描述。例如:分類、估值、預(yù)測等。未選出某一變量并用模型描述,而是在所有變量中建立某種關(guān)系。例如:關(guān)聯(lián)規(guī)則、聚類等。2021-11-202021-11-2081.2 數(shù)據(jù)挖掘的概念與方法數(shù)據(jù)挖掘的概念與方法l數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的關(guān)系數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的關(guān)系l若將數(shù)據(jù)倉庫(Data Warehouse)比作礦井,那么數(shù)據(jù)挖掘(Data Mining)就是深入礦井采礦的工作 l數(shù)據(jù)挖掘是從數(shù)據(jù)倉庫中找出有用信息的一種過程與技術(shù) 2021-11-202021-11-2091.3 數(shù)據(jù)
6、倉庫的技術(shù)、方法與產(chǎn)品數(shù)據(jù)倉庫的技術(shù)、方法與產(chǎn)品1.聯(lián)機(jī)事務(wù)處理(On-Line Transaction Processing,OLTP)與聯(lián)機(jī)分析處理(On-Line Analytical Processing, OLAP)的比較l OLAP技術(shù)技術(shù)2021-11-202021-11-20102. OLAP技術(shù)的有關(guān)概念 (1)多維數(shù)據(jù)集 由一組維度和度量值定義的多維結(jié)構(gòu)。(2)維度 維度是OLAP技術(shù)的核心,即人們觀察客觀世界的角度,通過把一個實體的一些重要屬性定義為維,使用戶能對不同維屬性上的數(shù)據(jù)進(jìn)行比較研究。(3)度量值 是多維數(shù)據(jù)集中的一組數(shù)值。(4)多維分析 指對以維形式組織起來的
7、數(shù)據(jù)(多維數(shù)據(jù)集)采取切片、切塊、鉆取操作等各種分析動作,以求剖析數(shù)據(jù),使用戶能從不同角度、不同側(cè)面觀察數(shù)據(jù)倉庫中的數(shù)據(jù)。2021-11-202021-11-20112. OLAP技術(shù)的有關(guān)概念 2021-11-202021-11-20121.3 數(shù)據(jù)倉庫的技術(shù)、方法與產(chǎn)品數(shù)據(jù)倉庫的技術(shù)、方法與產(chǎn)品3. OLAP的分類 根據(jù)存儲數(shù)據(jù)的方式OLAP分為: (1)ROLAP 將多維數(shù)據(jù)集的多維結(jié)構(gòu)劃分為兩類表: 事實表和維表。星型模式和雪花模式。 (2)MOLAP 以多維數(shù)據(jù)組織方式為核心來存儲數(shù)據(jù),例如多維數(shù)組。 (3)HOLAP 4. OLAP工具 2021-11-202021-11-2013
8、3. OLAP的分類2021-11-202021-11-20141.3 數(shù)據(jù)倉庫的技術(shù)、方法與產(chǎn)品數(shù)據(jù)倉庫的技術(shù)、方法與產(chǎn)品l數(shù)據(jù)倉庫實施中的三個關(guān)鍵環(huán)節(jié)數(shù)據(jù)倉庫實施中的三個關(guān)鍵環(huán)節(jié)l數(shù)據(jù)抽取l數(shù)據(jù)存儲與管理 面對大量數(shù)據(jù)的存儲與管理 并行處理 查詢優(yōu)化-位圖索引機(jī)制 支持多維分析的查詢模式l數(shù)據(jù)表現(xiàn) 數(shù)據(jù)倉庫的展示界面2021-11-202021-11-20151.3 數(shù)據(jù)倉庫的技術(shù)、方法與產(chǎn)品數(shù)據(jù)倉庫的技術(shù)、方法與產(chǎn)品l數(shù)據(jù)倉庫實施方法論數(shù)據(jù)倉庫實施方法論 數(shù)據(jù)倉庫不是簡單的數(shù)據(jù)或產(chǎn)品堆砌,它是一個綜合集成解決方案和系統(tǒng)工程。在數(shù)據(jù)倉庫的實施過程中,技術(shù)決策至關(guān)重要,技術(shù)選擇或決策錯誤很可
9、能導(dǎo)致項目實施失敗 2021-11-202021-11-20161.3 數(shù)據(jù)倉庫的技術(shù)、方法與產(chǎn)品數(shù)據(jù)倉庫的技術(shù)、方法與產(chǎn)品l常用數(shù)據(jù)倉庫產(chǎn)品比較常用數(shù)據(jù)倉庫產(chǎn)品比較l常用OLAP工具介紹 SQL Server自帶的OLAP相關(guān)產(chǎn)品:SSAS、SSIS、SSRS l各數(shù)據(jù)倉庫廠商提供的解決方案 IBM、Oracle、NCR、Microsoft、SAS等OLAP功能功能集成到集成到SQL Server中。中。2021-11-202021-11-20171.4 數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)l數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)的分類數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)的分類(1)兩層架構(gòu)(Generic Tw
10、o-Level Architecture)(2)獨立型數(shù)據(jù)集市(Independent Data Mart)(3)依賴型數(shù)據(jù)集市和操作型數(shù)據(jù)存儲(Dependent Data Mart and Operational Data Store)(4)邏輯型數(shù)據(jù)集市和實時數(shù)據(jù)倉庫(Logical Data Mart and Real-Time Data Warehouse)2021-11-202021-11-20181.4 數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)l兩層數(shù)據(jù)倉庫體系結(jié)構(gòu)兩層數(shù)據(jù)倉庫體系結(jié)構(gòu) 2021-11-202021-11-20191.4 數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)數(shù)據(jù)倉庫系統(tǒng)的體
11、系結(jié)構(gòu)l基于獨立數(shù)據(jù)集市的數(shù)據(jù)倉庫體系結(jié)構(gòu)基于獨立數(shù)據(jù)集市的數(shù)據(jù)倉庫體系結(jié)構(gòu) 2021-11-202021-11-20201.4 數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)l基于依賴型數(shù)據(jù)集市和操作型數(shù)據(jù)存儲基于依賴型數(shù)據(jù)集市和操作型數(shù)據(jù)存儲(ODS)(ODS)的數(shù)據(jù)的數(shù)據(jù)倉庫體系結(jié)構(gòu)倉庫體系結(jié)構(gòu) 2021-11-202021-11-20211.4 數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)l邏輯型數(shù)據(jù)集市和實時數(shù)據(jù)倉庫的體系結(jié)構(gòu)邏輯型數(shù)據(jù)集市和實時數(shù)據(jù)倉庫的體系結(jié)構(gòu) 2021-11-202021-11-20221.5 數(shù)據(jù)倉庫的產(chǎn)生、發(fā)展與未來數(shù)據(jù)倉庫的產(chǎn)生、發(fā)展與未來l數(shù)據(jù)倉庫的產(chǎn)生數(shù)
12、據(jù)倉庫的產(chǎn)生 問題? 聯(lián)機(jī)事務(wù)處理系統(tǒng)(業(yè)務(wù)系統(tǒng))剛上線時,查詢不到數(shù)據(jù)是因為數(shù)據(jù)太少了,而幾十年后查詢不到有關(guān)數(shù)據(jù)是因為數(shù)據(jù)太多了。 解決方法: 針對這一問題,人們設(shè)想專門為業(yè)務(wù)數(shù)據(jù)的統(tǒng)計分析建立一個數(shù)據(jù)中心,它的數(shù)據(jù)從聯(lián)機(jī)事務(wù)處理系統(tǒng)中來、從異構(gòu)的外部數(shù)據(jù)源來、或從脫機(jī)的歷史業(yè)務(wù)數(shù)據(jù)中來,這個數(shù)據(jù)中心也是一個聯(lián)機(jī)系統(tǒng),它專門為分析統(tǒng)計和決策支持應(yīng)用服務(wù),通過它可獲取決策支持和聯(lián)機(jī)分析應(yīng)用所需要的一切數(shù)據(jù)。這個數(shù)據(jù)中心就叫做數(shù)據(jù)倉庫。2021-11-202021-11-20231.5 數(shù)據(jù)倉庫的產(chǎn)生、發(fā)展與未來數(shù)據(jù)倉庫的產(chǎn)生、發(fā)展與未來l數(shù)據(jù)倉庫的產(chǎn)生數(shù)據(jù)倉庫的產(chǎn)生l簡單地說,數(shù)據(jù)倉庫就是一
13、個作為決策支持和聯(lián)機(jī)分析應(yīng)用系統(tǒng)數(shù)據(jù)源的結(jié)構(gòu)化數(shù)據(jù)環(huán)境,數(shù)據(jù)倉庫要研究和解決的問題就是從數(shù)據(jù)庫中獲取信息的問題。 2021-11-202021-11-20241.5 數(shù)據(jù)倉庫的產(chǎn)生、發(fā)展與未來數(shù)據(jù)倉庫的產(chǎn)生、發(fā)展與未來l數(shù)據(jù)倉庫的發(fā)展數(shù)據(jù)倉庫的發(fā)展l以報表為主l以分析為主 l以預(yù)測模型為主 l以營運(yùn)導(dǎo)向為主 l以實時數(shù)據(jù)倉庫、自動決策應(yīng)用為主 2021-11-202021-11-20251.5 數(shù)據(jù)倉庫的產(chǎn)生、發(fā)展與未來數(shù)據(jù)倉庫的產(chǎn)生、發(fā)展與未來l數(shù)據(jù)倉庫的未來數(shù)據(jù)倉庫的未來l數(shù)據(jù)抽取方面 未來的技術(shù)發(fā)展將集中在系統(tǒng)集成化方面。它將互連、轉(zhuǎn)換、復(fù)制、調(diào)度、監(jiān)控納入標(biāo)準(zhǔn)化的統(tǒng)一管理,以適應(yīng)數(shù)據(jù)倉庫本身或數(shù)據(jù)源可能的變化,使系統(tǒng)更便于管理和維護(hù)。l數(shù)據(jù)管理方面 未來的發(fā)展將使數(shù)據(jù)庫廠商明確推出數(shù)據(jù)倉庫引擎,作為數(shù)據(jù)倉庫服務(wù)器產(chǎn)品與數(shù)據(jù)庫服務(wù)器并駕齊驅(qū)。在這一方面,帶有決策支持?jǐn)U展的并行關(guān)系數(shù)據(jù)庫將最具發(fā)展?jié)摿?/p>
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《行政職業(yè)能力測驗》2024年公務(wù)員考試阿克陶縣預(yù)測試卷含解析
- Unitech數(shù)據(jù)采集器PA690產(chǎn)品介紹
- 第16課 毛澤東開辟井岡山道路(解析版)
- 2024年體育個人工作總結(jié)
- 《特斯拉電動汽車》課件
- 新聞業(yè)的變革與挑戰(zhàn)
- 保險公司人事工作總結(jié)
- 《水利工程質(zhì)量管理》課件
- 2023-2024年項目部安全管理人員安全培訓(xùn)考試題及參考答案【A卷】
- 保護(hù)瀕危動物宣傳方案萬能2022
- erdas2015操作手冊給客戶imagine
- 裝配式鋼筋混凝土簡支T梁設(shè)計
- COMMERCIAL INVOICE 商業(yè)發(fā)票
- 大氣課程設(shè)計-—袋式除塵器
- 普天超五類檢測報告
- 會計師事務(wù)所業(yè)務(wù)培訓(xùn)制度
- CMM2-18錨桿機(jī)(新)說明書
- 12噸汽車起重機(jī)基本技術(shù)規(guī)格資料
- WEB開發(fā)基礎(chǔ)-2021秋本-計算機(jī)科學(xué)與技術(shù)本復(fù)習(xí)資料-國家開放大學(xué)2022年1月期末考試復(fù)習(xí)資料
- 安徽省政協(xié)機(jī)關(guān)文件材料歸檔范圍
- 本質(zhì)安全理論綜述研究
評論
0/150
提交評論