數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)概述PPT課件_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)概述PPT課件_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)概述PPT課件_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)概述PPT課件_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)概述PPT課件_第5頁
已閱讀5頁,還剩27頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、參考教材數(shù)據(jù)倉庫與數(shù)據(jù)挖掘原理及應(yīng)用技術(shù) 王麗珍等, 科學(xué)出版社,2004年 其它參考書Building the data warehouse,W.H Inmon, 機械工業(yè)出版社 2004The Data Warehouse Toolkit(2ndEdition) R.Kimball 電子工業(yè)出版社 2002Data Mining: Concepts and Techniques. JiaweiHan and MichelineKamber. 機械工業(yè)出版社, 2001.史忠植,知識發(fā)現(xiàn),清華大學(xué)出版社,2002第1頁/共32頁課程主要內(nèi)容 概述 數(shù)據(jù)倉庫 聯(lián)機分析處理 數(shù)據(jù)倉庫的設(shè)計 數(shù)據(jù)

2、預(yù)處理 維度建模 數(shù)據(jù)挖掘 聚類 關(guān)聯(lián)規(guī)則 分類第2頁/共32頁概述-數(shù)據(jù)倉庫基本概念 數(shù)據(jù)倉庫技術(shù)產(chǎn)生的背景 什么是數(shù)據(jù)倉庫技術(shù)第3頁/共32頁信息技術(shù)發(fā)展的幾個階段 1960s: 數(shù)據(jù)采集、數(shù)據(jù)庫創(chuàng)建階段 集中于原始文件的處理 層次數(shù)據(jù)庫和網(wǎng)狀數(shù)據(jù)庫 1970s: 關(guān)系數(shù)據(jù)庫管理系統(tǒng) 關(guān)系數(shù)據(jù)模型和關(guān)系數(shù)據(jù)庫管理系統(tǒng) E-R模型、SQL語言、查詢處理和優(yōu)化、OLTP(恢復(fù)和并發(fā)技術(shù)) 1980s: 高級數(shù)據(jù)庫管理系統(tǒng) 面向?qū)ο髷?shù)據(jù)庫、對象關(guān)系數(shù)據(jù)庫、主動數(shù)據(jù)庫、演繹數(shù)據(jù)庫、模糊數(shù)據(jù)庫、空間數(shù)據(jù)庫、時空數(shù)據(jù)庫、統(tǒng)計數(shù)據(jù)庫 數(shù)據(jù)挖掘技術(shù) 1990s: 數(shù)據(jù)倉庫、聯(lián)機分析處理和數(shù)據(jù)挖掘 數(shù)據(jù)倉庫

3、、聯(lián)機分析處理和數(shù)據(jù)挖掘, 多媒體數(shù)據(jù)庫, Web數(shù)據(jù)庫、Data Stream第4頁/共32頁企業(yè)信息化建設(shè)現(xiàn)狀 在數(shù)據(jù)庫技術(shù)的支持下,一大批成熟的業(yè)務(wù)信息系統(tǒng)投入運行,為企業(yè)發(fā)展作出了巨大貢獻 各類信息系統(tǒng)大多屬于面向事務(wù)處理的OLTP系統(tǒng) 信息系統(tǒng)多年運行,積累了大量的數(shù)據(jù) 數(shù)據(jù)是一種寶貴的資源,但沒有充分發(fā)揮作用 管理決策層對數(shù)據(jù)分析基礎(chǔ)平臺的需求日益強烈第5頁/共32頁企業(yè)信息化建設(shè)提出了更高的要求 市場競爭日益激烈創(chuàng)造競爭優(yōu)勢 需要及時、準(zhǔn)確的做出科學(xué)決策 科學(xué)決策必須以準(zhǔn)確、有效的數(shù)據(jù)為基礎(chǔ) 充分利用現(xiàn)有數(shù)據(jù),將它轉(zhuǎn)化為信息第6頁/共32頁分析人員典型的信息需求 覆蓋企業(yè)內(nèi)部信息

4、、合作伙伴信息和市場信息 覆蓋綜合信息和明細(xì)信息 覆蓋當(dāng)前數(shù)據(jù)和歷史數(shù)據(jù) 高可用性 高質(zhì)量的數(shù)據(jù)(一致性、完整性) 支持各種不同的分析方法 數(shù)據(jù)定義符合業(yè)務(wù)人員要求n組織內(nèi)部n橫向共享信息n數(shù)據(jù)的重構(gòu)n個人授權(quán)n服務(wù)和質(zhì)量管理n組織之間n合作伙伴n客戶驅(qū)動的解決方案n戰(zhàn)略聯(lián)盟n價值鏈和供應(yīng)鏈n市場n競爭對手n市場分割n實時的市場行情n全球化第7頁/共32頁操作型數(shù)據(jù)和分析型數(shù)據(jù)的區(qū)別原始數(shù)據(jù)/操作型數(shù)據(jù)導(dǎo)出數(shù)據(jù)/分析型數(shù)據(jù)面向應(yīng)用面向主題詳細(xì)的綜合的,或提煉的在訪問瞬間是準(zhǔn)確的代表過去的數(shù)據(jù),快照是為日常工作服務(wù)為管理者服務(wù)可更新不更新重復(fù)運行啟發(fā)式運行處理需求預(yù)先可知處理需求事先不知道非冗余

5、性總是存在冗余對性能要求高對性能要求寬松一次訪問一個單元一次訪問一個集合靜態(tài)結(jié)構(gòu):可變的內(nèi)容結(jié)構(gòu)靈活訪問頻繁訪問很少或不多第8頁/共32頁現(xiàn)有數(shù)據(jù)庫系統(tǒng)處理分析型應(yīng)用存在的問題數(shù)據(jù)可信性 數(shù)據(jù)沒有同一時間基準(zhǔn) 例如:一個企業(yè)的兩個部門向管理者呈送報表 部門A,于星期天傍晚抽取了分析所需的數(shù)據(jù),結(jié)論為業(yè)績上升10% 部門B,于星期三下午抽取了分析所需的數(shù)據(jù),結(jié)論為業(yè)績下降15% 算法不同 部門A使用的是舊帳號 部門B使用的是大帳號 多次抽取,擴大了上述兩個問題 用抽取程序從數(shù)據(jù)庫/文件中抽取數(shù)據(jù),并存放起來,然后又在此基礎(chǔ)上再次進行抽取,從數(shù)據(jù)進入系統(tǒng)到提供分析往往經(jīng)過8、9次的抽取。第9頁/共

6、32頁在實際中經(jīng)常存在這樣第10頁/共32頁“蜘蛛網(wǎng)”問題 沒有統(tǒng)一規(guī)劃和設(shè)計 數(shù)據(jù)模型不一致 數(shù)據(jù)定義不一致 數(shù)據(jù)準(zhǔn)確性差,冗余度高 業(yè)務(wù)流程發(fā)生變化 歷史數(shù)據(jù)不統(tǒng)一、不規(guī)范 解決方案: 深入、全面、客觀的數(shù)據(jù)源分析建立數(shù)據(jù)倉庫系統(tǒng)第11頁/共32頁數(shù)據(jù)可信性(續(xù)) 外部數(shù)據(jù)問題 一位分析員把華爾街日報的數(shù)據(jù)帶進系統(tǒng) 另一位將商業(yè)周刊的數(shù)據(jù)進入系統(tǒng) 數(shù)據(jù)一旦進入系統(tǒng),往往已失去“身份”,并且一位分析員也不知道另一位分析員所輸入的數(shù)據(jù)開始時就不是同一個公共的數(shù)據(jù)源 部門A最初來源于文件XYZ 部門B最初來源于DB ABC第12頁/共32頁現(xiàn)有數(shù)據(jù)庫系統(tǒng)處理分析型應(yīng)用存在的問題從數(shù)據(jù)到信息 例如

7、:“今年的帳戶情況與前五年比較” 涉及大量應(yīng)用:儲蓄應(yīng)用、貸款、即期匯票管理、信托,而這些應(yīng)用并未集成。 沒有足夠的歷史數(shù)據(jù): 貸款部門,擁有二年的數(shù)據(jù) 銀行存折處理,擁有一年的數(shù)據(jù) 即期匯票管理只有60天的數(shù)據(jù) 現(xiàn)金交易處理具有18個月的數(shù)據(jù)。 數(shù)據(jù)不一致問題:同名不同義、同義不同名,例如M/F,Male/Female 外部數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)第13頁/共32頁現(xiàn)有數(shù)據(jù)庫系統(tǒng)處理分析型應(yīng)用存在的問題生產(chǎn)率 為了生成一個企業(yè)報表,必須經(jīng)過 獲得源數(shù)據(jù) 定位和分析數(shù)據(jù):由于同名不同義、同義不同名,很難準(zhǔn)確定位和分析,可能造成進一步的混亂 把數(shù)據(jù)加工成報告 要寫許多程序,每個程序必須客戶化(與客戶環(huán)

8、境有關(guān)) 程序會涉及公司具有的各種技術(shù) 由于定位數(shù)據(jù)困難,檢索所要的數(shù)據(jù)是一件很麻煩的事 完成任務(wù)需要很長時間 定位數(shù)據(jù)+ 獲得數(shù)據(jù)+ 集成報告,完成任務(wù)所需時間較長 每份報告各自需求不同,因此每份報告所需要的時間都很長。第14頁/共32頁數(shù)據(jù)倉庫要解決的基本問題 全局范圍內(nèi)統(tǒng)一數(shù)據(jù)視圖 數(shù)據(jù)內(nèi)容 數(shù)據(jù)的完整性 數(shù)據(jù)的準(zhǔn)確性 數(shù)據(jù)的一致性 數(shù)據(jù)組織 面向分析決策第15頁/共32頁第一章數(shù)據(jù)倉庫基本概念 數(shù)據(jù)倉庫技術(shù)產(chǎn)生的背景 什么是數(shù)據(jù)倉庫技術(shù)第16頁/共32頁數(shù)據(jù)倉庫的定義 對數(shù)據(jù)倉庫的理解 數(shù)據(jù)倉庫用于支持管理和決策,面向分析型數(shù)據(jù)處理,它不同于企業(yè)現(xiàn)有的面向交易的操作型數(shù)據(jù)庫; 數(shù)據(jù)倉庫

9、是對多個異構(gòu)的數(shù)據(jù)源有效集成,集成后按照主題進行了重組,并包含歷史數(shù)據(jù)。 數(shù)據(jù)倉庫(Data Warehouse)是一個面向主題的(Subject Oriented )、集成的(Integrated)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策和信息的全局共享。 第17頁/共32頁面向主題的數(shù)據(jù)組織 主題:宏觀分析領(lǐng)域所涉及的分析對象 采用面向事務(wù)進行數(shù)據(jù)組織,其特點為: 充分考慮企業(yè)的部門組織結(jié)構(gòu)和業(yè)務(wù)活動 反映企業(yè)內(nèi)部數(shù)據(jù)流動情況,業(yè)務(wù)處理的數(shù)據(jù)流程 與業(yè)務(wù)處理流程中的單據(jù)、票證、文檔有良好的對應(yīng) 數(shù)據(jù)與應(yīng)用(數(shù)據(jù)的處理)有

10、一定的對應(yīng) 例:保險公司: 面向應(yīng)用(操作):財產(chǎn)險、壽險、健康險、意外險。 面向主題的數(shù)據(jù)組織方式:在較高的層次上對分析對象的數(shù)據(jù)的一個完整、一致的描述。 例:保險公司: 面向主題:客戶、保單、保費、理賠(賠款)。第18頁/共32頁第19頁/共32頁面向主題數(shù)據(jù)組織的實現(xiàn)舉例 多個表第20頁/共32頁面向主題數(shù)據(jù)組織的實現(xiàn)舉例(續(xù)一)第21頁/共32頁面向主題數(shù)據(jù)組織的實現(xiàn)舉例(續(xù)二)第22頁/共32頁數(shù)據(jù)倉庫的特點:集成的 操作型數(shù)據(jù)庫 面向特殊應(yīng)用 每一個數(shù)據(jù)庫面向特定的應(yīng)用,各類應(yīng)用(包括其相關(guān)的數(shù)據(jù)庫)之間相互獨立。 系統(tǒng)的發(fā)展經(jīng)歷一個長期的過程 數(shù)據(jù)倉庫 集成的 數(shù)據(jù)倉庫中的數(shù)據(jù)從

11、建立時開始,面向整個企業(yè)的分析處理,數(shù)據(jù)倉庫中的數(shù)據(jù)是已經(jīng)集成了的,消除了數(shù)據(jù)的不一致性. 在某個時間點完成設(shè)計,實現(xiàn)需要經(jīng)歷一個長期的不斷迭代的過程第23頁/共32頁數(shù)據(jù)倉庫的特點:集成的 消除沖突:不一致,同名異義、異名同義、單位不統(tǒng)一等等,需要進行數(shù)據(jù)清理(因為來源于不同的子系統(tǒng),與不同的主要邏輯捆綁) 數(shù)據(jù)的綜合和計算:可在抽取數(shù)據(jù)時;也可在進入DW以后。第24頁/共32頁數(shù)據(jù)倉庫的特點:相對穩(wěn)定的第25頁/共32頁數(shù)據(jù)倉庫的特點:相對穩(wěn)定的 一般不修改,只追加;過期限的數(shù)據(jù)可從DW中移走(刪去); 對DW,主要是查詢,DWMS比DBMS要簡單 可不考慮并發(fā)控制 要考慮性能(因為查詢數(shù)據(jù)量大)和界面友好(對高層管理者)第26頁/共32頁數(shù)據(jù)倉庫的特點:反映歷史變化第27頁/共32頁數(shù)據(jù)倉庫的特點:反映歷史變化 碼鍵包含時間項 不斷增加新的數(shù)據(jù)內(nèi)容; 刪去過時的數(shù)據(jù);例如:超過10年的數(shù)據(jù) 與時間有關(guān)的綜合數(shù)據(jù):隨時間變化而重新組合第28頁/共32頁數(shù)據(jù)倉庫的特點:反映歷史變化 操作型數(shù)據(jù)與DW中的數(shù)據(jù)比較 操作型環(huán)境 60-90天數(shù)據(jù) 記錄能被更新 碼中不一定包括時間元素 數(shù)據(jù)倉庫 5-10年數(shù)據(jù) 數(shù)據(jù)的復(fù)雜快照 碼中包括時間元素第29頁/共32頁第一章數(shù)據(jù)倉庫基本概念 數(shù)據(jù)倉庫技術(shù)產(chǎn)生的背景 什么是數(shù)據(jù)倉庫

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論