版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、計算機(jī)網(wǎng)絡(luò)信息系統(tǒng)集成課程研究報告姓 名:陽 濤學(xué) 院:湖北工業(yè)大學(xué)班 級:控制工程班學(xué) 號:520130114時 間:2013年8月12日基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)分析研究摘 要基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)是一種對數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行深層次的加工和處理的過程,也是一種實(shí)現(xiàn)數(shù)據(jù)倉庫決策價值的方法和工具。文中分析了數(shù)據(jù)倉庫、數(shù)據(jù)挖掘等概念,并結(jié)合數(shù)據(jù)挖掘在實(shí)際決策支持系統(tǒng)中的應(yīng)用,說明了數(shù)據(jù)挖掘的基本方法、主要過程以及發(fā)展方向。關(guān)鍵詞:倉庫,儲存,數(shù)據(jù)采集3目 錄摘 要 錯誤!未定義書簽。目 錄3引 言41數(shù)據(jù)倉庫及其體系結(jié)構(gòu)52基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)63數(shù)據(jù)挖掘在實(shí)際決策支持系統(tǒng)中的應(yīng)用84
2、.結(jié)束語9參考文獻(xiàn)10 引 言 隨著數(shù)據(jù)庫技術(shù)的廣泛應(yīng)用,以及人們對當(dāng)今社會信息的高層次需求,以事務(wù)處理為核心、支持業(yè)務(wù)操作環(huán)境與平臺的數(shù)據(jù)庫技術(shù)已不能適應(yīng)人們在分析和決策層次上的需要。為了有效地為企業(yè)和政府的管理與決策過程提供重要的信息,需要根據(jù)決策的需要收集來自企業(yè)內(nèi)外的有關(guān)數(shù)據(jù),并加以適當(dāng)?shù)慕M織處理,以形成一個綜合的面向決策的環(huán)境。1 數(shù)據(jù)倉庫及其體系結(jié)構(gòu) 20世紀(jì)90年代初期,W.H.Inmon在5Building the Data Warehouse6一書中第一次提出了數(shù)據(jù)倉庫(Data Warehou
3、se,簡稱DW)的概念,并將它定義為:面向主題的、集成的、與時間相關(guān)的、穩(wěn)定的數(shù)據(jù)集合。所謂面向主題,是指按主題來組織數(shù)據(jù),按不同的決策和分析來綜合和歸并數(shù)據(jù);所謂集成,是指將來自不同數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行統(tǒng)一和綜合;所謂與時間相關(guān)是指可以根據(jù)決策的需要不斷地添加一些新的數(shù)據(jù),刪除一些舊的數(shù)據(jù);所謂穩(wěn)定是指集成以后的數(shù)據(jù)在內(nèi)容上保持較長時間的不變。 與傳統(tǒng)數(shù)據(jù)庫顯著不同的是,數(shù)據(jù)倉庫是一種服務(wù)于高層決策的數(shù)據(jù)庫,它不僅采集、組織和存儲大量的來自地理位置分散、構(gòu)造各異的信息源的數(shù)據(jù),而且還通過對這些歷史數(shù)據(jù)的加工和變換,得到一系列用于決策分析的數(shù)據(jù),利用這些數(shù)據(jù)可
4、以更好地為用戶提供決策支持。其次,數(shù)據(jù)倉庫是一種面向主題的數(shù)據(jù)庫,它按主題來組織數(shù)據(jù),按決策和分析的需要來提煉和凈化數(shù)據(jù)。另外,數(shù)據(jù)倉庫是一種包含歷史數(shù)據(jù)的數(shù)據(jù)庫,其中的數(shù)據(jù)不僅用于檢索等基本操作,還用于分析整個組織的運(yùn)行狀態(tài),以及未來的發(fā)展趨勢。 構(gòu)建數(shù)據(jù)倉庫的關(guān)鍵是ETL(Extract,Transform, Loading)技術(shù),即如何準(zhǔn)確、安全、可靠地從各種不同的業(yè)務(wù)數(shù)據(jù)庫中抽取數(shù)據(jù),并經(jīng)轉(zhuǎn)換、清洗以及集成后載入數(shù)據(jù)倉庫。自數(shù)據(jù)倉庫的概念提出以后,世界上不少著名的計算機(jī)公司(如IBM,Oracle等)都紛紛對此展開深入的研究,并相繼提出各自的研究方案
5、。雖然這些方案各有特色,但基本的框架一般都是通過數(shù)據(jù)采集和處理工具將各數(shù)據(jù)源的數(shù)據(jù)集成并載入數(shù)據(jù)倉庫(如圖1所示)。 圖1.數(shù)據(jù)倉庫基本框架圖 (1)數(shù)據(jù)源??梢詾槠胀ǖ臉I(yè)務(wù)數(shù)據(jù)庫,也可以是特定的數(shù)據(jù)文件或其他的數(shù)據(jù)源。 (2)數(shù)據(jù)采集和處理。負(fù)責(zé)從各數(shù)據(jù)源中抽取數(shù)據(jù),并經(jīng)轉(zhuǎn)換、集成后載入數(shù)據(jù)倉庫。 (3)數(shù)據(jù)倉庫。存儲兩類數(shù)據(jù)。一類是元數(shù)據(jù),它是數(shù)據(jù)倉庫的基本構(gòu)成單元,主要用于記錄數(shù)據(jù)的結(jié)構(gòu)以及數(shù)據(jù)倉庫的變化;另一類是實(shí)視圖,它是供決策人員分析處理用的數(shù)據(jù)。
6、60; (4)應(yīng)用。主要是服務(wù)于決策的在線分析(On-Line Analytical Processing,簡稱OLAP)和數(shù)據(jù)挖掘(Data Mining,簡稱DM)。 由上述基本框架圖可以看出,數(shù)據(jù)倉庫不是一種軟件產(chǎn)品,而是一種綜合的解決方案。它將原始的數(shù)據(jù)處理并轉(zhuǎn)換成服務(wù)于決策的綜合數(shù)據(jù),并提供一組功能強(qiáng)大的分析工具對其進(jìn)行多層次、多方位的分析處理。其次,數(shù)據(jù)倉庫要提供高質(zhì)量的數(shù)據(jù)和服務(wù),必須注意數(shù)據(jù)的一致性、完整性、準(zhǔn)確性以及可用性?,F(xiàn)有的數(shù)據(jù)倉庫模型未能充分考慮到這一點(diǎn)。通過擴(kuò)展元數(shù)據(jù)庫的方式,在元數(shù)據(jù)庫中融入質(zhì)量維度的質(zhì)量模型,建立系
7、統(tǒng)化的測量和提高數(shù)據(jù)質(zhì)量的方法體系,可以較好地解決數(shù)據(jù)倉庫的質(zhì)量問題。2 基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù) 構(gòu)建數(shù)據(jù)倉庫的最終目標(biāo)是為了從各類海量數(shù)據(jù)中提取出對有關(guān)決策和管理活動具有重要指導(dǎo)意義的規(guī)律性知識。但是,由于各類數(shù)據(jù)是分散于若干業(yè)務(wù)數(shù)據(jù)庫或其他數(shù)據(jù)源中,因此,要得到對各類決策分析有用的知識,必須具有相應(yīng)的從海量數(shù)據(jù)中提取價值信息的工具。數(shù)據(jù)挖掘就是用來挖掘價值信息的工具。 數(shù)據(jù)挖掘這一概念是由G.Piatetsky-Shapior,W.J.Frawley等人在1989年8月召開的第11屆國際人工智能學(xué)術(shù)會議上提出的。它
8、是數(shù)據(jù)庫技術(shù)和人工智能、數(shù)理統(tǒng)計等學(xué)科相結(jié)合的產(chǎn)物,是一個多學(xué)科相互交叉的具有廣泛應(yīng)用前景的新興研究領(lǐng)域,并利用人工智能和數(shù)理統(tǒng)計中一些較成熟的方法和技術(shù),如規(guī)則推理、人工神經(jīng)網(wǎng)絡(luò)、決策樹、鄰近搜索等。因此,也有人把它稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database,簡稱KDD)。對數(shù)據(jù)挖掘這一概念的定義,一般認(rèn)為是一種從大量數(shù)據(jù)中獲取潛在規(guī)律和知識的方法和技術(shù),是一個從大量數(shù)據(jù)中發(fā)掘潛在的、新穎的、可用的以及最終可理解的模式的高級過程。 面向主題、數(shù)據(jù)集成、與時間相關(guān)以及穩(wěn)定是數(shù)據(jù)倉庫區(qū)別于數(shù)據(jù)庫的顯著特點(diǎn),實(shí)現(xiàn)決策支
9、持是數(shù)據(jù)倉庫的最終應(yīng)用目標(biāo),而數(shù)據(jù)挖掘則是實(shí)現(xiàn)數(shù)據(jù)倉庫最終目標(biāo)的有力工具。因此,在實(shí)際應(yīng)用中,數(shù)據(jù)挖掘和數(shù)據(jù)倉庫密不可分。數(shù)據(jù)倉庫是數(shù)據(jù)挖掘的基礎(chǔ)和平臺,為數(shù)據(jù)挖掘提供必要的數(shù)據(jù)準(zhǔn)備,數(shù)據(jù)挖掘則是在數(shù)據(jù)倉庫的基礎(chǔ)上進(jìn)一步發(fā)掘?qū)?shí)際決策過程有益的知識和信息。 數(shù)據(jù)挖掘系統(tǒng)的基本結(jié)構(gòu)圖如圖2所示。 圖2.數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)圖 (1)數(shù)據(jù)采集與處理。根據(jù)數(shù)據(jù)挖掘的目標(biāo),從數(shù)據(jù)倉庫中選取相關(guān)的數(shù)據(jù)集合,并對其進(jìn)行數(shù)據(jù)一致性和數(shù)據(jù)完整性的檢查。 (2)知識庫。主要用于數(shù)據(jù)挖掘和知識評價。利
10、用知識庫中提供的有關(guān)知識,可以指導(dǎo)數(shù)據(jù)挖掘過程中的搜索操作,以及評價挖掘所得的結(jié)果數(shù)據(jù)(這些數(shù)據(jù)可以是概念,也可以是規(guī)則或模式)的興趣度。 (3)數(shù)據(jù)挖掘。主要是對數(shù)據(jù)倉庫中提取的有關(guān)數(shù)據(jù)進(jìn)行聚類、估值、分類、預(yù)言、關(guān)聯(lián)和描述等分析處理。 a.聚類。將相似的數(shù)據(jù)置于一類,目的在于描述數(shù)據(jù)的共同特征。 b.估值。處理未知連續(xù)變量的輸出。 c.分類。描述離散變量的輸出。典型的有線形回歸分類、決策樹分類、基于規(guī)則的分類以及神經(jīng)網(wǎng)絡(luò)分類等。
11、0; d.預(yù)言。通過估值或分類得到模型,以用于未來未知變量的評估。 e.關(guān)聯(lián)。挖掘數(shù)據(jù)或特征間的內(nèi)在聯(lián)系。 f.描述。表示數(shù)據(jù)挖掘的結(jié)果。 (4)知識評價。以興趣度作為衡量標(biāo)準(zhǔn)來查找和選擇對最終決策活動有益的知識,并以概念、規(guī)則、規(guī)律、模式、約束或可視化的形式來表示結(jié)果知識?;跀?shù)據(jù)倉庫的數(shù)據(jù)挖掘是一種對數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行深層次的加工和處理過程,也是一種實(shí)現(xiàn)數(shù)據(jù)倉庫決策價值的方法和工具。通過對數(shù)據(jù)倉庫中大量歷史數(shù)據(jù)的更高層次的抽象,不僅反映了數(shù)據(jù)間的內(nèi)在聯(lián)系和特性,同時也獲
12、得了許多直接用于決策分析的有用信息。3 數(shù)據(jù)挖掘在實(shí)際決策支持系統(tǒng)中的應(yīng)用 數(shù)據(jù)挖掘是在數(shù)據(jù)倉庫的基礎(chǔ)上進(jìn)行的深層的數(shù)據(jù)分析過程,它能揭示大量數(shù)據(jù)中隱含的、潛在的、有用的和感興趣的信息,并為用戶提供較好的決策支持。 自數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)出現(xiàn)至今,許多大公司、大企業(yè)紛紛構(gòu)建自己的數(shù)據(jù)倉庫,并通過對數(shù)據(jù)倉庫中大量歷史數(shù)據(jù)的挖掘,得到許多有用的信息,以支持企業(yè)內(nèi)部的生產(chǎn)經(jīng)營管理過程中的決策控制。實(shí)際的數(shù)據(jù)挖掘過程一般包括以下幾個步驟: (1)了解行業(yè)背景,熟悉基本數(shù)據(jù);
13、0; (2)確定數(shù)據(jù)挖掘的目標(biāo); (3)選取數(shù)據(jù)倉庫中相應(yīng)的數(shù)據(jù)集合; (4)給出合適的挖掘算法; (5)進(jìn)行實(shí)際的數(shù)據(jù)挖掘; (6)對所得的結(jié)果知識進(jìn)行評價并輸出。 目前,數(shù)據(jù)挖掘的主要應(yīng)用領(lǐng)域有:市場分析和預(yù)測;生產(chǎn)過程優(yōu)化;股票分析和預(yù)測;金融風(fēng)險分析;氣象預(yù)報等。例如,針對本單位的人力資源管理需要,構(gòu)建本單位的人力資源數(shù)據(jù)倉庫,并利用選擇樹分類器對其進(jìn)行數(shù)據(jù)挖掘。針對旅游業(yè)的管理需要,構(gòu)建旅游業(yè)數(shù)
14、據(jù)倉庫,并利用決策樹分類器挖掘其中的深層次規(guī)則。針對零售連鎖業(yè)的發(fā)展需要,構(gòu)建連鎖超市數(shù)據(jù)倉庫,并通過對其進(jìn)行數(shù)據(jù)挖掘?qū)崿F(xiàn)連鎖超市銷售分析與預(yù)測。 雖然這些基于數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)的實(shí)際決策支持系統(tǒng)的設(shè)計各有特色,但其基本的框架可以用一個簡單的模型來刻畫,如圖3所示。 圖3.決策支持系統(tǒng)模型圖 在實(shí)現(xiàn)實(shí)際的決策支持系統(tǒng)時,系統(tǒng)首先通過數(shù)據(jù)采集與加工模塊將各數(shù)據(jù)源中數(shù)據(jù)載入數(shù)據(jù)倉庫,然后各用戶再通過數(shù)據(jù)挖掘和在線分析來分析處理來自數(shù)據(jù)倉庫的數(shù)據(jù),并得到一系列用于實(shí)際決策過程的有用知識和信息。其中,數(shù)據(jù)挖掘是系統(tǒng)的核心部件,是決定數(shù)據(jù)倉庫決策價值的關(guān)鍵環(huán)節(jié)。4 結(jié)束語 數(shù)據(jù)挖掘是一個基于數(shù)據(jù)倉庫的有效的輔助決策支持工具,利用它可以發(fā)現(xiàn)數(shù)據(jù)倉庫中許多未知的、潛在的、深層次
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度旅游意外受傷賠償協(xié)議書范本2篇
- 乳腺癌患者蒙醫(yī)飲食起居治療方案研制及療效觀察
- 《儒林外史》 上課課件
- 面向自動調(diào)制識別模型的后門攻擊方法研究
- 應(yīng)急指揮系統(tǒng)的改進(jìn)與優(yōu)化
- 熟人借款合同三篇
- 2025版夏令營拓展訓(xùn)練項(xiàng)目代理商合作協(xié)議范本3篇
- 二零二五年度行政合同訂立實(shí)務(wù)操作與案例分享3篇
- 二零二五年版?zhèn)€人股東股權(quán)轉(zhuǎn)讓協(xié)議范本適用于所有企業(yè)股權(quán)變更19篇
- 二零二五年度品牌授權(quán)銷售系統(tǒng)合同樣本2篇
- 北京小客車指標(biāo)租賃協(xié)議五篇
- 輸液室運(yùn)用PDCA降低靜脈輸液患者外滲的發(fā)生率品管圈(QCC)活動成果
- YY/T 0681.2-2010無菌醫(yī)療器械包裝試驗(yàn)方法第2部分:軟性屏障材料的密封強(qiáng)度
- GB/T 8005.2-2011鋁及鋁合金術(shù)語第2部分:化學(xué)分析
- 不動產(chǎn)登記實(shí)務(wù)培訓(xùn)教程課件
- 不銹鋼制作合同范本(3篇)
- 2023年系統(tǒng)性硬化病診斷及診療指南
- 煙氣管道阻力計算
- 《英語教師職業(yè)技能訓(xùn)練簡明教程》全冊配套優(yōu)質(zhì)教學(xué)課件
- 城鄉(xiāng)環(huán)衛(wèi)一體化保潔服務(wù)迎接重大節(jié)日、活動的保障措施
- 冀教版八年級上冊Unit 1 單詞短語句型復(fù)習(xí)預(yù)習(xí)單
評論
0/150
提交評論