版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘分析型數(shù)據(jù)倉庫(DATA WAREHOUSE)交易型數(shù)據(jù)庫(DATA BASE)設計的目的查詢、分析、統(tǒng)計、報告,以主題為導向,以一組記錄為處理單位快速輸入、更新、刪除,以事務處理為導向,以單個記錄為處理單位實體關系特征反規(guī)范化,較少連接(joins),多為簡單的星型關系鏈規(guī)范化,很多連接(joins), 關系復雜 (網(wǎng)狀)信息冗余多處冗余很少表數(shù)量較少多記錄歷史長短用戶數(shù)量少很多表體積(字段數(shù))大小分析型數(shù)據(jù)倉庫和交易型數(shù)據(jù)庫的區(qū)別數(shù)據(jù)倉庫的星型結(jié)構(gòu)事實表(FACT TABLE)維度表(DIMENSIONAL TABLE)維度表(DIMENSIONAL TABLE)維度表(
2、DIMENSIONAL TABLE)維度表(DIMENSIONAL TABLE)維度表(DIMENSIONAL TABLE)維度表(DIMENSIONAL TABLE)注:此星型結(jié)構(gòu)不適合于動態(tài)查詢多、系統(tǒng)可擴展能力要求高或者數(shù)據(jù)量很大的場合 數(shù)據(jù)集市(DATA MART) 數(shù)據(jù)集市是一個針對某個主題的經(jīng)過預統(tǒng)計處理的部門級分析數(shù)據(jù)庫。目前,一般理解為企業(yè)級數(shù)據(jù)倉庫里的主題數(shù)據(jù)庫。將數(shù)據(jù)集市理解為一個部門級的數(shù)據(jù)倉庫也未嘗不可。 當一個企業(yè)里存在著多個相互獨立、數(shù)據(jù)定義不統(tǒng)一的數(shù)據(jù)集市時,就會導致信息的整合問題。因此,將原有的數(shù)據(jù)集市進行整合并歸入數(shù)據(jù)倉庫統(tǒng)一管理是一個必然的趨勢。 一個數(shù)據(jù)集
3、市可以由特定業(yè)務領域內(nèi)多個相關的“星”組成。比如,營銷集市可以由“訂單星”、“活動星”、“銷售機會星”、“售后服務星”、“報價星”和“客戶反饋星”等共同組成為一個營銷分析數(shù)據(jù)集市,為營銷人員提供查詢分析的數(shù)據(jù)源。數(shù)據(jù)獲取、精簡和轉(zhuǎn)換工具(ETL) 由于數(shù)據(jù)倉庫有自己的獨立數(shù)據(jù)庫系統(tǒng),字段長度、字段類型、索引定義等與交易數(shù)據(jù)庫有很大的不同,數(shù)據(jù)在導入之前,各種篩選、轉(zhuǎn)換工作是必然的。因此,必須具備有效的導入工具。 數(shù)據(jù)倉庫或數(shù)據(jù)庫提供商都有專門設計的數(shù)據(jù)導入工具,這些工具提供階段性的數(shù)據(jù)預處理工作,支持各種流行的數(shù)據(jù)源。 這些工具的工作效率、易用程度及糾錯能力是衡量數(shù)據(jù)倉庫系統(tǒng)的重要性能指標之一
4、。數(shù)據(jù)倉庫的管理平臺 由于數(shù)據(jù)倉庫存有大量的歷史數(shù)據(jù),它的數(shù)據(jù)容量比交易數(shù)據(jù)庫要大得多,并且為了獲得及時的分析數(shù)據(jù),數(shù)據(jù)倉庫必須定期從交易數(shù)據(jù)庫中導入最新數(shù)據(jù)(如每天)。數(shù)據(jù)倉庫的管理平臺是系統(tǒng)管理員的日常維護和管理環(huán)境,其主要管理任務包括批處理作業(yè)管理,數(shù)據(jù)安全管理,數(shù)據(jù)沖突解決,數(shù)據(jù)質(zhì)量核查,管理數(shù)據(jù)倉庫元數(shù)據(jù)的更新,數(shù)據(jù)刪除與復制,備份與恢復等,從而為保證數(shù)據(jù)倉庫正常運轉(zhuǎn)提供了基本的管理環(huán)境。數(shù)據(jù)倉庫的數(shù)據(jù)挖掘工具 在線分析處理是對歷史數(shù)據(jù)的統(tǒng)計,它只提供“事實數(shù)據(jù)”,對今后的預測則完全交由用戶靠自己的“人腦”判斷。在線分析處理的結(jié)果充其量只是“人腦處理系統(tǒng)”的一個輸入。 數(shù)據(jù)挖掘是從數(shù)
5、據(jù)倉庫中挖掘出有價值的帶有規(guī)律性的行為模式,并對未來趨勢作出預測的一個數(shù)據(jù)分析過程,因此,它更接近于人工智能范疇。它的目的是為了建立一個符合“歷史經(jīng)驗”的預測模型,既要幫助用戶回答諸如“明年那種預算可以獲得最佳回報”,“哪一種類型的客戶將是企業(yè)的主要收入來源”等決策。數(shù)據(jù)挖掘更注重于發(fā)現(xiàn)數(shù)據(jù)倉庫中所蘊藏的,目前不為人知的某種“規(guī)律”或模式,因而,是“挖掘”,是“發(fā)現(xiàn)”,是“探索”,而不是“瀏覽”或“觀望”眼前的事實結(jié)果。DM,ETL工具IBM產(chǎn)品ORECLE產(chǎn)品MICROSOFT產(chǎn)品數(shù)據(jù)倉庫數(shù)據(jù)挖掘工具OLAP工具數(shù)據(jù)源數(shù)據(jù)源數(shù)據(jù)源數(shù)據(jù)倉庫體系結(jié)構(gòu)報表工具建設數(shù)據(jù)倉庫的一些經(jīng)驗教訓1. 建設數(shù)
6、據(jù)倉庫的目的要利用數(shù)據(jù)倉庫解決什么問題?數(shù)據(jù)倉庫要達到什么目的?誰來用,如何評價其成功與否? 2. 建立數(shù)據(jù)倉庫應用時,應該以問題為導向而不能以方法為導向,要根據(jù)問題尋找產(chǎn)品和工具。建設數(shù)據(jù)倉庫的一些經(jīng)驗教訓3. 數(shù)據(jù)倉庫不是那種買來就可以使用的軟件產(chǎn)品,事實上,數(shù)據(jù)倉庫更像一個過程,一個用戶逐步認識自己、提高自己的過程。4. 數(shù)據(jù)倉庫不僅要反映出企業(yè)的現(xiàn)狀,而且還要依靠人做出最終的決策。 確定分析和預測目標了解數(shù)據(jù)數(shù)據(jù)準備數(shù)據(jù)相關性前期探索模型構(gòu)造模型評估與檢驗部署和應用檢驗達到預定成功率?預測變量相關性不正確?基礎數(shù)據(jù)不足或噪音太大?是是是否實施數(shù)據(jù)挖掘的基本步驟實施數(shù)據(jù)挖掘的基本步驟12
7、34567實施數(shù)據(jù)挖掘的基本步驟1.確定分析和預測目標a.明確業(yè)務目標通過數(shù)據(jù)挖掘解決什么樣的問題?達到什么目的?b.成功準則把要解決的問題轉(zhuǎn)化為可以測量的目標。c.確定項目期明確的計劃。2.了解數(shù)據(jù)a.數(shù)據(jù)源。b.分析數(shù)據(jù)的可用性與適用性。c.隨機地抽取一些數(shù)據(jù)檢驗其質(zhì)量,確認數(shù)據(jù)的可信度。實施數(shù)據(jù)挖掘的基本步驟3.數(shù)據(jù)準備a.對已確定的基本數(shù)據(jù)進行必要的轉(zhuǎn)換、清理、填補以及合并工作。b.數(shù)據(jù)準備工作比較繁瑣,但非常重要,因為,如果數(shù)據(jù)里噪音太多,就會影響建立模型的準確度,數(shù)據(jù)越完整,越準確,在此基礎上發(fā)掘的數(shù)據(jù)規(guī)律(pattern)就具有更高的可信度,從而更好地實現(xiàn)數(shù)據(jù)挖掘的目標,否則,從
8、“垃圾”數(shù)據(jù)里再怎么挖掘也只能是垃圾,這是毫無疑問的。實施數(shù)據(jù)挖掘的基本步驟4. 數(shù)據(jù)相關性前期探索a.有些數(shù)據(jù)挖掘工具在定性和數(shù)據(jù)分類方面使用方便,可以用作為更高一級預測分析的“探索”工具。比如,先用決策樹或聚類方法幫助找出數(shù)據(jù)的總體趨勢以及預測變量相關性之后,再用神經(jīng)網(wǎng)絡或規(guī)則導引方法有針對性的建模,一來可以細化數(shù)據(jù),提高性能,二來在某種程度上也可以幫助消除噪音;另一方面也可以作為不同方法比較之用。實施數(shù)據(jù)挖掘的基本步驟5.模型構(gòu)造 模型構(gòu)造階段是數(shù)據(jù)挖掘技術應用的關鍵階段,有以下幾個步驟:a.選擇使用的挖掘技術,因為每一種挖掘技術有其適用性。b.建立培訓數(shù)據(jù)(建立模型用)和測試數(shù)據(jù)(檢驗
9、模型用) 對基礎數(shù)據(jù)必須分為兩部分,一個是供模型建立的數(shù)據(jù),另一個供模型建立后檢驗其準確率的數(shù)據(jù)。兩者的使用目的是不一樣的。c.利用培訓數(shù)據(jù)采用相應算法建立模型。d.模型解釋-對模型進行分析和解釋,業(yè)務專家和數(shù)據(jù)庫專家同時參與,以找出模型中的實際意義。實施數(shù)據(jù)挖掘的基本步驟6.模型評估和檢驗 建立的模型用測試數(shù)據(jù)進行測試,計算誤差率,以確定模型的可信度,如果不令人滿意,未達到預期的誤差率目標,那么,就必須重新回到數(shù)據(jù)了解階段,重復相關過程,一直找到令人滿意的模型為止,當然,也有可能最終放棄導致項目失敗,在這種情況下,就有必要重新審視最初的挖掘目標是否合理。實施數(shù)據(jù)挖掘的基本步驟7.部署和應用
10、如果經(jīng)過測試和檢驗,所建立的模型可信、并在預定誤差率范圍內(nèi),那么,便可以按照這種模型計算輸出值,并按照輸出值確定決策的基本依據(jù),這樣就可以在企業(yè)范圍內(nèi)全面部署這個預測模型。在應用過程中,必須不斷用新數(shù)據(jù)進行檢驗,不斷測試其成功概率。經(jīng)過反復檢驗成功的模型就成為企業(yè)的一個重要的“知識”,為企業(yè)成功決策打下良好的基礎。確定分析和預測目標了解數(shù)據(jù)數(shù)據(jù)準備數(shù)據(jù)相關性前期探索模型構(gòu)造模型評估與檢驗部署和應用檢驗達到預定成功率?預測變量相關性不正確?基礎數(shù)據(jù)不足或噪音太大?是是是否1234567實施數(shù)據(jù)挖掘的基本步驟實施數(shù)據(jù)挖掘的基本步驟行銷控制財務控制產(chǎn)品控制人力資源資產(chǎn)管理決策支持系統(tǒng)需求規(guī)劃書決策支
11、持系統(tǒng)需求規(guī)劃書 部門:部門: 日期:日期: 功能分類功能分類信息展示種類信息展示種類1 12 23 34 45 51 12 2趨勢預測 環(huán)境預測外部信息利潤分析策略規(guī)劃 目標管理市場分析決策模式風險管理 財務控管投資控管信用風險市場風險績效評估 利潤分析成本分析預算分析現(xiàn)金流量功能分類功能分類信息展示信息展示1 1層層2 2層層3 3層層4 4層層5 5層層方式方式1 1方式方式2 2趨勢預測 環(huán)境預測外部信息利潤分析策略規(guī)劃 目標管理市場分析決策模式風險管理 財務控管投資控管信用風險市場風險績效評估 利潤分析成本分析預算分析現(xiàn)金流量管理控制 生產(chǎn)控制行銷控制財務控制產(chǎn)品控制人力資源資產(chǎn)管理
12、需需 求求 規(guī)規(guī) 劃劃實現(xiàn)功能所需的數(shù)據(jù)源實現(xiàn)功能所需的數(shù)據(jù)源行銷控制財務控制產(chǎn)品控制人力資源資產(chǎn)管理決策支持系統(tǒng)需求規(guī)劃書決策支持系統(tǒng)需求規(guī)劃書 部門:部門: 日期:日期: 功能分類功能分類信息展示種類信息展示種類1 12 23 34 45 51 12 2趨勢預測 環(huán)境預測外部信息利潤分析策略規(guī)劃 目標管理市場分析決策模式風險管理 財務控管投資控管信用風險市場風險績效評估 利潤分析成本分析預算分析現(xiàn)金流量行銷控制財務控制產(chǎn)品控制人力資源資產(chǎn)管理決策支持系統(tǒng)需求規(guī)劃書決策支持系統(tǒng)需求規(guī)劃書 部門:部門: 日期:日期: 功能分類功能分類信息展示種類信息展示種類1 12 23 34 45 51 1
13、2 2趨勢預測 環(huán)境預測外部信息利潤分析策略規(guī)劃 目標管理市場分析決策模式風險管理 財務控管投資控管信用風險市場風險績效評估 利潤分析成本分析預算分析現(xiàn)金流量銷售訂單完成情況主題數(shù)據(jù)庫銷售訂單板坯鋼卷發(fā)票發(fā)貨裝車清單結(jié)算清單品質(zhì)證明書行銷控制財務控制產(chǎn)品控制人力資源資產(chǎn)管理決策支持系統(tǒng)需求規(guī)劃書決策支持系統(tǒng)需求規(guī)劃書 部門:部門: 日期:日期: 功能分類功能分類信息展示種類信息展示種類1 12 23 34 45 51 12 2趨勢預測 環(huán)境預測外部信息利潤分析策略規(guī)劃 目標管理市場分析決策模式風險管理 財務控管投資控管信用風險市場風險績效評估 利潤分析成本分析預算分析現(xiàn)金流量行銷控制財務控制產(chǎn)品控制人力資源資產(chǎn)管理決策支持系統(tǒng)需求規(guī)劃書決策支持系統(tǒng)需求規(guī)劃書 部門:部門: 日期:日期: 功能分類功能分類信息展示種類信息展示種類1 12 23 34 45 51 12 2趨勢預測 環(huán)境預測外部信息利潤分析策略規(guī)劃 目標管理市場分析決策模式風險管理 財務控管投資控管信用風險市場風險績效評估 利潤分析成本分析預算分析現(xiàn)金流量物流主題數(shù)據(jù)庫試驗性能板坯數(shù)據(jù)鋼卷數(shù)據(jù)成品數(shù)據(jù)熔煉數(shù)據(jù)試樣號煉鋼成分爐號成品成分爐料數(shù)據(jù)鐵
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《外國檔案管理》課件
- 肇慶醫(yī)學高等??茖W校《招聘與面試技巧》2023-2024學年第一學期期末試卷
- 2024有房產(chǎn)離婚協(xié)議范本及財產(chǎn)保密協(xié)議3篇
- 高科技窗簾知識培訓課件
- 農(nóng)民農(nóng)藥知識培訓課件
- 網(wǎng)絡游戲銷售工作總結(jié)
- 倉鼠養(yǎng)鼠知識培訓課件
- 2024年行政流程優(yōu)化協(xié)議3篇
- 舞蹈演藝場所衛(wèi)生規(guī)范
- 環(huán)保行業(yè)工程師工作心得分享
- 安徽省合肥市廬陽區(qū)2023年九年級上學期期末化學試題附答案
- 2023宣武醫(yī)院輿情報告
- 小學語文三年級上冊 習作:這兒真美 課件
- 海南省天一大聯(lián)考2024屆高一物理第一學期期末監(jiān)測試題含解析
- 國家食源性疾病監(jiān)測工作標準手冊
- 混凝土攪拌車課件
- 重癥醫(yī)學科運用PDCA循環(huán)降低失禁性皮炎發(fā)生率品管圈成果匯報
- 關于新中國史簡介 新中國史簡介 最好
- 物理化學課件 第一章 熱力學第一定律
- 營養(yǎng)學概論演示
- 07S906給水排水構(gòu)筑物設計選用圖化糞池
評論
0/150
提交評論