![數(shù)據(jù)倉庫 第六章-1課件_第1頁](http://file4.renrendoc.com/view/a83ba0dec87af562837ef805e0c72876/a83ba0dec87af562837ef805e0c728761.gif)
![數(shù)據(jù)倉庫 第六章-1課件_第2頁](http://file4.renrendoc.com/view/a83ba0dec87af562837ef805e0c72876/a83ba0dec87af562837ef805e0c728762.gif)
![數(shù)據(jù)倉庫 第六章-1課件_第3頁](http://file4.renrendoc.com/view/a83ba0dec87af562837ef805e0c72876/a83ba0dec87af562837ef805e0c728763.gif)
![數(shù)據(jù)倉庫 第六章-1課件_第4頁](http://file4.renrendoc.com/view/a83ba0dec87af562837ef805e0c72876/a83ba0dec87af562837ef805e0c728764.gif)
![數(shù)據(jù)倉庫 第六章-1課件_第5頁](http://file4.renrendoc.com/view/a83ba0dec87af562837ef805e0c72876/a83ba0dec87af562837ef805e0c728765.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、第二部分 數(shù)據(jù)挖掘概念與技術(shù)第六章 數(shù)據(jù)挖掘概述6.1 數(shù)據(jù)挖掘基本概念6.2 數(shù)據(jù)挖掘的數(shù)據(jù)源6.3 數(shù)據(jù)挖掘的功能6.4 數(shù)據(jù)挖掘的方法6.5 數(shù)據(jù)挖掘的應(yīng)用6.6 數(shù)據(jù)預(yù)處理6.1 數(shù)據(jù)挖掘基本概念 近年來數(shù)據(jù)挖掘引起了人們的極大關(guān)注,其主要原因是:存在大量的數(shù)據(jù),可以廣泛使用,并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識(shí)。獲取的信息和知識(shí)可以廣泛用于各種應(yīng)用,包括商務(wù)管理、生產(chǎn)控制、市場分析、工程設(shè)計(jì)和科學(xué)探索等。6.1 數(shù)據(jù)挖掘基本概念(續(xù)) 數(shù)據(jù)挖掘是信息技術(shù)自然演化的結(jié)果。數(shù)據(jù)收集和DB創(chuàng)建機(jī)制的早期開發(fā)已成為稍后數(shù)據(jù)管理有效機(jī)制開發(fā)的必備基礎(chǔ),隨著提供查詢和事務(wù)處理的大量DBS
2、廣泛付諸實(shí)踐,數(shù)據(jù)分析和理解自然成為下一個(gè)目標(biāo)。6.1 數(shù)據(jù)挖掘基本概念(續(xù)) 這必將帶來對(duì)強(qiáng)有力的數(shù)據(jù)分析工具的需求。實(shí)際上,面對(duì)快速增長的海量數(shù)據(jù),沒有強(qiáng)有力的工具,理解它們已遠(yuǎn)遠(yuǎn)超出了人們的能力。 回顧數(shù)據(jù)管理技術(shù):DB技術(shù):能有效地存儲(chǔ)數(shù)據(jù)和查詢數(shù)據(jù), 但不能有效地分析數(shù)據(jù)。6.1 數(shù)據(jù)挖掘基本概念(續(xù))DM技術(shù):特別強(qiáng)調(diào)挖掘隱藏在大型數(shù)據(jù)集中有趣的數(shù)據(jù)模式(知識(shí)、規(guī)律),用于決策過程控制、信息管理、查詢處理等。不但分析數(shù)據(jù),而且?guī)椭脩舻弥?,并預(yù)測未來。6.1 數(shù)據(jù)挖掘基本概念(續(xù)) 因此,數(shù)據(jù)挖掘被普遍認(rèn)為是非常有效的數(shù)據(jù)分析工具,是信息產(chǎn)業(yè)最重要的前沿之一,是最有前途的交叉學(xué)
3、科。6.1 數(shù)據(jù)挖掘基本概念(續(xù))廣義觀點(diǎn):數(shù)據(jù)挖掘是從存放在DB,DW或其他信息庫中的大量數(shù)據(jù)中挖掘有趣知識(shí)的過程。第六章 數(shù)據(jù)挖掘概述6.1 數(shù)據(jù)挖掘基本概念6.2 數(shù)據(jù)挖掘的數(shù)據(jù)源6.3 數(shù)據(jù)挖掘的功能6.4 數(shù)據(jù)挖掘的方法6.5 數(shù)據(jù)挖掘的應(yīng)用6.6 數(shù)據(jù)預(yù)處理6.2 數(shù)據(jù)挖掘的數(shù)據(jù)源1.關(guān)系數(shù)據(jù)庫2.數(shù)據(jù)倉庫3.事務(wù)數(shù)據(jù)庫4.高級(jí)數(shù)據(jù)庫系統(tǒng)和高級(jí)數(shù)據(jù)庫應(yīng)用 面向?qū)ο蟮臄?shù)據(jù)庫 對(duì)象關(guān)系數(shù)據(jù)庫第六章 數(shù)據(jù)挖掘概述6.1 數(shù)據(jù)挖掘基本概念6.2 數(shù)據(jù)挖掘的數(shù)據(jù)源6.3 數(shù)據(jù)挖掘的功能6.4 數(shù)據(jù)挖掘的方法6.5 數(shù)據(jù)挖掘的應(yīng)用6.6 數(shù)據(jù)預(yù)處理6.3 數(shù)據(jù)挖掘的功能數(shù)據(jù)挖掘任務(wù)分兩類:描述
4、式數(shù)據(jù)挖掘:刻劃DB中數(shù)據(jù)的一般特性。預(yù)測式數(shù)據(jù)挖掘:在當(dāng)前數(shù)據(jù)上進(jìn)行推斷,以進(jìn)行預(yù)測。1. 總結(jié)規(guī)則挖掘 它所要做的是從指定的大量數(shù)據(jù)中挖掘出(從不同的角度或在不同的層次上)平均值/極小值/極大值、總和、百分比等。挖掘結(jié)果運(yùn)用交叉表、特征規(guī)則和統(tǒng)計(jì)的曲線圖表等表示。2. 關(guān)聯(lián)規(guī)則挖掘 通過關(guān)聯(lián)分析發(fā)現(xiàn)關(guān)聯(lián)規(guī)則。即給定一組項(xiàng)和一個(gè)記錄集合,通過分析記錄集合,推導(dǎo)出項(xiàng)之間的相關(guān)性。2. 關(guān)聯(lián)規(guī)則挖掘(續(xù)) 典型的例子:購物籃分析,該過程通過發(fā)現(xiàn)顧客放入其購物籃中不同商品之間的聯(lián)系,分析顧客的購買習(xí)慣,通過了解哪些商品頻繁地被顧客同時(shí)購買,用于制定營銷政策。3. 分類規(guī)則挖掘 在已知訓(xùn)練數(shù)據(jù)的特征
5、和分類結(jié)果的基礎(chǔ)上,為每一種類別找到一個(gè)合理的描述或模型,然后再用這些分類的描述或模型來對(duì)未知的新數(shù)據(jù)進(jìn)行分類。4. 群集規(guī)則挖掘 又稱為無監(jiān)督式的分類,其目的在于實(shí)事求是地、即客觀地按被處理對(duì)象的特征分類,有相同特征的對(duì)象被歸為一類。它與分類規(guī)則挖掘的區(qū)別在于:分類面向訓(xùn)練數(shù)據(jù),而群集則直接對(duì)數(shù)據(jù)進(jìn)行處理。4. 群集規(guī)則挖掘(續(xù)) 在群集化作業(yè)中,我們并不需要事先定義好該如何分類,同時(shí)也不需要訓(xùn)練組的數(shù)據(jù),數(shù)據(jù)是依靠本身的相似性而群集在一起,而群集的意義也是要靠事后的解釋才能得知。5. 預(yù)測分析(續(xù)) 其中歷史數(shù)據(jù)就是很好的數(shù)據(jù)來源。歷史數(shù)據(jù)可以用來建立模型,以檢查近年來觀察值的變化。若運(yùn)用
6、最新數(shù)據(jù)作為輸入值,可以獲得未來變化的預(yù)測值。5. 預(yù)測分析(續(xù)) 像“購物籃”分析,就可以預(yù)測在超市中哪些商品總是會(huì)被同時(shí)購買。而經(jīng)過修正后,也可以通過最新的更新數(shù)據(jù)來預(yù)測未來的購買行為。7. 偏差分析 又稱比較分析,它找出一系列判別式的規(guī)則,以區(qū)別客戶設(shè)置的兩個(gè)不同類別。8. 孤立點(diǎn)分析 DB中有些數(shù)據(jù),它們與大多數(shù)數(shù)據(jù)的一般行為或模型不一致,稱其為孤立點(diǎn),大部分挖掘方法將孤立點(diǎn)視為噪聲或異常而丟棄。而在一些應(yīng)用中,罕見事件可能比正常出現(xiàn)的更有意義。第六章 數(shù)據(jù)挖掘概述6.1 數(shù)據(jù)挖掘基本概念6.2 數(shù)據(jù)挖掘的數(shù)據(jù)源6.3 數(shù)據(jù)挖掘的功能6.4 數(shù)據(jù)挖掘的方法6.5 數(shù)據(jù)挖掘的應(yīng)用6.6
7、數(shù)據(jù)預(yù)處理6.4 數(shù)據(jù)挖掘方法數(shù)據(jù)挖掘的主要方法及其重點(diǎn)如下:1.統(tǒng)計(jì)分析方法統(tǒng)計(jì)分析方法主要用于完成知識(shí)總結(jié)和關(guān)系型知識(shí)挖掘。對(duì)關(guān)系表中各屬性進(jìn)行統(tǒng)計(jì)分析,找到它們之間存在的關(guān)系。1. 統(tǒng)計(jì)分析方法(續(xù)) 在關(guān)系表的屬性間一般存在兩種關(guān)系: 函數(shù)關(guān)系 相關(guān)關(guān)系 但確定性關(guān)系和相關(guān)關(guān)系之間并沒有一道不可逾越的鴻溝。1. 統(tǒng)計(jì)分析方法(續(xù))由于有測量誤差等原因,確定性關(guān)系實(shí)際上往往通過相關(guān)關(guān)系呈現(xiàn)出來;當(dāng)事物內(nèi)部規(guī)律被得到了解時(shí),相關(guān)關(guān)系又可能轉(zhuǎn)化為確定性關(guān)系。 對(duì)它們可采用回歸分析,相關(guān)分析,主成分分析等方法。2. 決策樹 決策樹可用于分類,利用信息論中的信息增益尋找DB中具有最大信息量的字節(jié)
8、,建立決策樹的一個(gè)結(jié)點(diǎn),再根據(jù)字段的不同取值建立樹的分支。在每個(gè)分支子集中重復(fù)建立下層結(jié)點(diǎn)和分支,便生成一棵決策樹。2. 決策樹(續(xù)) 然后還要對(duì)決策樹進(jìn)行剪枝處理,最后將決策樹轉(zhuǎn)化為規(guī)則。運(yùn)用這些規(guī)則,可以對(duì)新事例進(jìn)行分類。 典型的決策樹方法有:分類回歸樹,ID3、C4.5、卡方自動(dòng)歸納法、卡方自動(dòng)互動(dòng)偵測器等。2. 決策樹(續(xù)) 決策樹可應(yīng)用在監(jiān)督式數(shù)據(jù)挖掘上,尤其是數(shù)據(jù)分類。它們能夠?qū)⒂?xùn)練模塊的記錄區(qū)分為獨(dú)立的子群,而其中子群都有自己的規(guī)律。3. 人工神經(jīng)網(wǎng)絡(luò) 人工神經(jīng)網(wǎng)絡(luò)用于分類、群集、特征挖掘、預(yù)測和模式識(shí)別。 人工神經(jīng)網(wǎng)絡(luò)仿真生物神經(jīng)網(wǎng)絡(luò),本質(zhì)上是一個(gè)分散型或矩陣結(jié)構(gòu),它通過對(duì)訓(xùn)練
9、數(shù)據(jù)的挖掘,逐步計(jì)算網(wǎng)絡(luò)連接的加權(quán)值。人工神經(jīng)網(wǎng)絡(luò)可分為下列三種:3. 人工神經(jīng)網(wǎng)絡(luò)(續(xù))前饋式網(wǎng)絡(luò)它以感應(yīng)機(jī)、逆向傳播模型、函數(shù)型網(wǎng)絡(luò)為代表,可用于預(yù)測及模式識(shí)別等方面。3. 人工神經(jīng)網(wǎng)絡(luò)(續(xù))反饋式網(wǎng)絡(luò)它以Hopfield的離散模型和連續(xù)模型為代表,分別用于聯(lián)想記憶和最優(yōu)化計(jì)算。自組織型網(wǎng)絡(luò)它以ART模型、Koholon模型為代表,用于群集。 3. 人工神經(jīng)網(wǎng)絡(luò)(續(xù)) 人工神經(jīng)網(wǎng)絡(luò)具有分散型或儲(chǔ)存信息、平行處理信息和進(jìn)行推理、自我組織和自我學(xué)習(xí)等特點(diǎn),解決了眾多以往方法很難解決的問題。3. 人工神經(jīng)網(wǎng)絡(luò)(續(xù)) 它在多數(shù)應(yīng)用中可以從訓(xùn)練數(shù)據(jù)組中學(xué)習(xí),并產(chǎn)生歸類和預(yù)測的模型。它也可以通過自我組
10、織圖和相關(guān)結(jié)構(gòu),應(yīng)用于非監(jiān)督或數(shù)據(jù)挖掘和時(shí)間原則分析,其新的應(yīng)用及結(jié)構(gòu)正在快速增加中。4. 基因算法 基因算法用于分類、關(guān)系型規(guī)則挖掘等?;蛩惴7氯斯みx擇培育良種的思路,從一個(gè)初始規(guī)則集合開始,逐代地通過交換對(duì)象成員產(chǎn)生群體,評(píng)估并擇優(yōu)復(fù)制,優(yōu)勝劣敗,逐代積累計(jì)算,最終得到最優(yōu)化的知識(shí)集。5. 粗糙集 粗糙集用于數(shù)據(jù)簡化、數(shù)據(jù)意義評(píng)估、對(duì)象相似性或共性分析、因果關(guān)系及范式挖掘等。粗糙集理論由Z. Pawlak在20世紀(jì)80年代提出,用于處理不確定性。其主要思路如下:5. 粗糙集(續(xù)) 把對(duì)象的屬性分為條件屬性和決策屬性,按各個(gè)屬性值相同劃分成等價(jià)類。條件屬性上的等價(jià)類E與決策屬性上的等價(jià)類
11、Y之間有三種情況:(1)下近似Y包含E;5. 粗糙集(續(xù))(2)上近似Y和E的交集并非空集合;(3)無關(guān)Y和E的交集為空集合。 對(duì)下近似建立確定性規(guī)則,對(duì)上近似建立不確定性規(guī)則(含可信度),而無關(guān)情況下不存在規(guī)則。6. 聯(lián)機(jī)分析處理技術(shù) 用具體圖形將信息模式、數(shù)據(jù)的關(guān)聯(lián)或趨勢呈現(xiàn)給決策者,使客戶能交互式地分析數(shù)據(jù)的關(guān)系,而OLAP技術(shù)將人的觀察力和智力融入挖掘系統(tǒng)中,極大地改善了系統(tǒng)挖掘的速度和深度。6. 聯(lián)機(jī)分析處理技術(shù)(續(xù)) “聯(lián)機(jī)分析處理系統(tǒng)”是以多維數(shù)據(jù)庫為基礎(chǔ)。多維數(shù)據(jù)庫是數(shù)據(jù)的典型代表,使得用戶能深入數(shù)據(jù)內(nèi)涵,了解重要的結(jié)論,它對(duì)數(shù)據(jù)轉(zhuǎn)化成信息或知識(shí)非常有幫助。第六章 數(shù)據(jù)挖掘概述6.1 數(shù)據(jù)挖掘基本概念6.2 數(shù)據(jù)挖掘的數(shù)據(jù)源6.3 數(shù)據(jù)挖掘的功能6.4 數(shù)據(jù)挖掘的方法6.5 數(shù)據(jù)挖掘的應(yīng)用6.6 數(shù)據(jù)預(yù)處理6.5 數(shù)據(jù)挖掘的應(yīng)用1.企業(yè)界的數(shù)據(jù)挖掘 直效行銷 顧客關(guān)系管理 交叉銷售 信用評(píng)估 財(cái)務(wù)預(yù)測2. 針對(duì)金融數(shù)據(jù)分析的數(shù)據(jù)挖掘 為多維數(shù)據(jù)分析和數(shù)據(jù)挖掘設(shè)計(jì)和構(gòu)造DW 貸款償還預(yù)測和客戶信用政策分析(特征選擇和屬性相關(guān)性計(jì)算) 2. 針對(duì)金融數(shù)據(jù)分析的數(shù)據(jù)挖掘(續(xù))對(duì)目標(biāo)市場客戶的分類與聚類 洗黑錢和其他金融犯罪的偵破(可視化工具,鏈接分析工具,分類工具,聚類分析,孤立點(diǎn)分析,序列模式分析)3. 零售業(yè)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 心電圖室獎(jiǎng)懲制度的制定意見
- 2025年度汽車維修廠汽車尾氣排放檢測與治理合同
- 金華浙江金華永康市古山鎮(zhèn)人民政府工作人員招聘筆試歷年參考題庫附帶答案詳解
- 金華2025年浙江金華浦江縣縣屬醫(yī)療衛(wèi)生單位招聘護(hù)理等專業(yè)人員16人筆試歷年參考題庫附帶答案詳解
- 浙江浙江省疾病預(yù)防控制中心招聘勞務(wù)派遣員工筆試歷年參考題庫附帶答案詳解
- 杭州2025年浙江杭州市教育局所屬事業(yè)單位招聘166人筆試歷年參考題庫附帶答案詳解
- 2025年中國雙層床架市場調(diào)查研究報(bào)告
- 2025年中國一次性使用PE手套市場調(diào)查研究報(bào)告
- 2025年規(guī)則導(dǎo)線剝皮機(jī)項(xiàng)目可行性研究報(bào)告
- 2025年罐頭盒蠟燭項(xiàng)目可行性研究報(bào)告
- 2024年西寧城市職業(yè)技術(shù)學(xué)院高職單招(英語/數(shù)學(xué)/語文)筆試歷年參考題庫含答案解析
- 2024年臨沂市高三一模(學(xué)業(yè)水平等級(jí)考試模擬試題)物理試卷
- 廣州獵德大橋三維曲面塔清水混凝土施工技術(shù)
- 我國糖尿病視網(wǎng)膜病變臨床診療指南2022解讀
- Python數(shù)據(jù)挖掘?qū)崙?zhàn)全套教學(xué)課件
- 高級(jí)茶藝師技能鑒定(協(xié)會(huì)版)備考題庫-下(多選、判斷題匯總)
- 特種設(shè)備作業(yè)人員體檢表(叉車)
- c30混凝土路面施工方案
- 加強(qiáng)師德師風(fēng)建設(shè)學(xué)校師德師風(fēng)警示教育講座培訓(xùn)課件
- 豬飼料購銷合同書
- 電商運(yùn)營銷售計(jì)劃Excel模版
評(píng)論
0/150
提交評(píng)論