數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概述(學(xué)時2)_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概述(學(xué)時2)_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概述(學(xué)時2)_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概述(學(xué)時2)_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概述(學(xué)時2)_第5頁
已閱讀5頁,還剩51頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 (DATA WAREHOUSING AND DATA MINING),石家莊鐵道大學(xué),課程介紹,21世紀是一個以計算機技術(shù)和知識經(jīng)濟為核心的信息化時代。隨著計算機技術(shù)、網(wǎng)絡(luò)技術(shù)的飛速發(fā)展和數(shù)據(jù)庫應(yīng)用的不斷深化,數(shù)據(jù)倉庫(Data Warehousing)和數(shù)據(jù)挖掘(Data Mining)技術(shù)及其應(yīng)用已成為計算機科學(xué)技術(shù)領(lǐng)域的熱點之一。,2-,課程介紹,數(shù)據(jù)庫技術(shù)及其應(yīng)用的發(fā)展: 從關(guān)系模型發(fā)展到面向?qū)ο竽P?從單機應(yīng)用發(fā)展到分布式應(yīng)用 從局域網(wǎng)數(shù)據(jù)庫應(yīng)用發(fā)展到Web數(shù)據(jù)庫應(yīng)用 從聯(lián)機事務(wù)處理(OLTP:On-Line Transaction Process)發(fā)展到聯(lián)機分析

2、處理(OLAP:On-Line Analysis Process) 從數(shù)據(jù)庫發(fā)展到數(shù)據(jù)倉庫 從數(shù)據(jù)的統(tǒng)計分析發(fā)展到數(shù)據(jù)挖掘,3-,課程介紹(Cont.),目前,計算機科學(xué)技術(shù)界的許多專家、學(xué)者都在大力研究數(shù)據(jù)倉庫的構(gòu)筑技術(shù)和基于各種模型的數(shù)據(jù)挖掘算法,并取得了可喜的成果。國內(nèi)外一些著名計算機企業(yè)也紛紛提出了數(shù)據(jù)倉庫實施戰(zhàn)略,推出了一些OLAP和數(shù)據(jù)挖掘工具。高等院校的研究生需要掌握這方面的新知識、新技術(shù),掌握數(shù)據(jù)倉庫與數(shù)據(jù)挖掘領(lǐng)域的基本理論、基本原理和實現(xiàn)技術(shù),適應(yīng)計算機科學(xué)技術(shù)新的發(fā)展趨勢。,4-,課程介紹(Cont.),本課程在數(shù)據(jù)倉庫部分全面深入地介紹數(shù)據(jù)倉庫的基本概念和體系結(jié)構(gòu),詳細闡

3、述數(shù)據(jù)倉庫的實現(xiàn)技術(shù);在數(shù)據(jù)挖掘部分介紹數(shù)據(jù)挖掘的各類算法(包括關(guān)聯(lián)規(guī)則挖掘算法、分類規(guī)則挖掘算法、聚類分析算法、WEB數(shù)據(jù)挖掘等)。,5-,學(xué)時及成績評定,學(xué)時:32=20+12 教學(xué)形式:講解、報告、實驗等 考核方式:C 方式C:平時(30%)+課程論文(70%) 平時:出勤、課堂表現(xiàn)、作業(yè)、報告等 課程論文: 專題論文、實驗報告等,6-,參考資料,1.王麗珍,周麗華 等. 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘原理及應(yīng)用. 北京:科學(xué)出版社,2005 2.安淑芝 等. 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘. 北京:清華大學(xué)出版社,2005 3.陳京民. 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù). 北京:電子工業(yè)出版社,2002 4.Data

4、Mining Concepts and Techniques. (影印版). 北京:高等教育出版社,2001 5.有關(guān)參考資料和文獻、學(xué)術(shù)刊物上有關(guān)論文,7-,主要內(nèi)容,數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概述 數(shù)據(jù)倉庫的數(shù)據(jù)模型與數(shù)據(jù)組織 數(shù)據(jù)倉庫的開發(fā)方法及開發(fā)過程 數(shù)據(jù)集市及開發(fā) OLAP概述、MOLAP與ROLAP 數(shù)據(jù)挖掘技術(shù)與算法 數(shù)據(jù)挖掘工具及其應(yīng)用,8-,第1章 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概述,本章要點 數(shù)據(jù)倉庫的發(fā)展 數(shù)據(jù)倉庫的基本概念 數(shù)據(jù)挖掘的發(fā)展 數(shù)據(jù)挖掘的基本概念 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的集成,9-,1. 引 言,在最近的幾十年當(dāng)中,有關(guān)數(shù)據(jù)庫新技術(shù)的研究有三件事情值得我們加以關(guān)注:,面向?qū)ο髷?shù)據(jù)

5、庫: 80年代末 ,數(shù) 據(jù) 倉 庫: 90年代初 ,對象-關(guān)系數(shù)據(jù)庫:90年代中 ,10-,數(shù)據(jù)庫方式,數(shù)據(jù)倉庫方式,80年代以后,90年代以后,以支持日常業(yè)務(wù)處理過程為目的(OLTP),以支持經(jīng)營管理過程中的決策制定為目的(DSS),進入90年代以后,數(shù)據(jù)庫系統(tǒng)的應(yīng)用從傳統(tǒng)的事務(wù)處理應(yīng)用擴展到輔助決策等新的集成應(yīng)用領(lǐng)域。,11-,面向?qū)ο髷?shù)據(jù)庫,數(shù)據(jù)倉庫,對象-關(guān)系數(shù)據(jù)庫,為傳統(tǒng)的RDB開拓了新的應(yīng)用途徑: 聯(lián)機分析處理(OLAP) 數(shù)據(jù)挖掘(DM),12-,2. 從數(shù)據(jù)庫到數(shù)據(jù)倉庫,基于數(shù)據(jù)庫技術(shù)的數(shù)據(jù)處理操作可以分為兩大類:,操作型處理,分析型處理,13-,操作型處理,分析型處理,也叫事

6、務(wù)處理,是指對數(shù)據(jù)庫的日常聯(lián)機訪問操作,所以也叫聯(lián)機事務(wù)處理(OLTP: On-Line Transaction Process)。 其訪問特點是: 通常僅僅是對一個或一組記錄的查詢或修改 執(zhí)行頻率高 人們關(guān)心的是處理的響應(yīng)時間、數(shù)據(jù)的安全性和完整性等指標(biāo)。,14-,操作型處理,分析型處理,也叫聯(lián)機分析處理(OLAP:On-Line Analyses Process).用于企業(yè)管理人員的決策分析,為制訂企業(yè)的未來經(jīng)營管理計劃提供輔助決策信息,如決策支持系統(tǒng)(DSS-Decision Support System )。 其訪問特點是: 需要執(zhí)行大量的統(tǒng)計操作 需要訪問大量的歷史數(shù)據(jù) 執(zhí)行頻率和對

7、響應(yīng)時間的要求都不高。,15-,決策支持系統(tǒng)是70年代興起的一種計算機應(yīng)用技術(shù),用于幫助企業(yè)領(lǐng)導(dǎo)作輔助性決策。 傳統(tǒng)的DSS系統(tǒng)由三個組成部分:數(shù)據(jù)、算法與模型、展示。其結(jié)構(gòu)模型如圖1所示:,16-,在傳統(tǒng)的以數(shù)據(jù)庫為核心的事務(wù)處理環(huán)境中不適宜建立DSS等分析型應(yīng)用的原因主要有以下五條:,事務(wù)處理:用戶每次操作處理的時間短,存取數(shù)據(jù)量小,但操作頻率高,并發(fā)程度大。 分析處理:每次分析可能需要連續(xù)運行很長的時間,存取數(shù)據(jù)量大,但很少做這樣的分析處理,也沒有并發(fā)執(zhí)行的要求。,(1) 事務(wù)處理和分析處理的性能特性不同,17-,分析處理:DSS需要集成的數(shù)據(jù),包括整個企業(yè)內(nèi)部各部門的相關(guān)數(shù)據(jù),還需要企

8、業(yè)外部、競爭對手等處的相關(guān)數(shù)據(jù)。全面而正確的數(shù)據(jù)是有效的分析和決策的首要前提。 因此用于分析處理的數(shù)據(jù)可能來自多種不同的數(shù)據(jù)源,包括: 同構(gòu)/異構(gòu)數(shù)據(jù)庫 文件系統(tǒng) Internet 外部的用戶數(shù)據(jù)。,(2)數(shù)據(jù)集成問題,事務(wù)處理:一般只需要與本部門業(yè)務(wù)有關(guān)的當(dāng)前細節(jié)數(shù)據(jù),而對整個企業(yè)范圍內(nèi)的集成應(yīng)用考慮很少,這就造成大部分企業(yè)內(nèi)部的數(shù)據(jù)是分散而非集成的。 事務(wù)處理應(yīng)用的分散性 “蜘蛛網(wǎng)”問題 數(shù)據(jù)不一致問題 外部數(shù)據(jù)(非結(jié)構(gòu)化數(shù)據(jù)),18-,對于需要集成數(shù)據(jù)的DSS應(yīng)用來說,在應(yīng)用程序中對事務(wù)處理環(huán)境中的這些紛繁復(fù)雜的數(shù)據(jù)進行集成將大大加重程序員的負擔(dān),而且每做一次分析,就需要進行一次這樣的集

9、成,也會導(dǎo)致分析處理的效率極低。,19-,靜態(tài)集成:對所需數(shù)據(jù)進行一次集成,以后就不再發(fā)生變化。在采用靜態(tài)集成策略時,如果數(shù)據(jù)源中的數(shù)據(jù)發(fā)生了變化,那么這些變化就不能反映給決策者,導(dǎo)致決策使用的是過時的數(shù)據(jù)。 動態(tài)集成:對集成后的數(shù)據(jù)進行周期性刷新。,(3)數(shù)據(jù)動態(tài)集成問題,20-,事務(wù)處理:一般只需要當(dāng)前數(shù)據(jù),數(shù)據(jù)庫中的過時數(shù)據(jù)雖然也能通過數(shù)據(jù)轉(zhuǎn)儲等方式保存下來,但往往被束之高閣,未能得到充分利用。 分析處理:更看重歷史數(shù)據(jù),可以通過對大量歷史數(shù)據(jù)的詳細分析來把握企業(yè)的發(fā)展趨勢。,(4)歷史數(shù)據(jù)問題,21-,分析處理:需要的往往是大量的總結(jié)性分析型數(shù)據(jù),而非數(shù)據(jù)庫中的細節(jié)性操作型數(shù)據(jù)。 事務(wù)

10、處理:需要的是當(dāng)前的細節(jié)性操作數(shù)據(jù)。,(5)數(shù)據(jù)的綜合問題,22-,事務(wù)處理系統(tǒng)中積累的是大量的細節(jié)數(shù)據(jù),而DSS并不對這些細節(jié)數(shù)據(jù)進行分析。這就是常說的數(shù)據(jù)庫中“數(shù)據(jù)豐富、信息匱乏”。 數(shù)據(jù)庫中太多的細節(jié)數(shù)據(jù)一方面會影響分析的效率,另一方面也不利于分析人員將注意力集中于有用的信息上。因此,在分析前往往需要對細節(jié)數(shù)據(jù)進行不同程度的綜合,在數(shù)據(jù)庫系統(tǒng)中,這種綜合還往往因為是一種數(shù)據(jù)冗余而被限制。,23-,分析處理:數(shù)據(jù)的訪問操作以讀操作為主,不需要實時的更新操作,但需要定時刷新。 事務(wù)處理:提供多種不同類型的數(shù)據(jù)訪問操作,對于需要修改的數(shù)據(jù)必須實時更新數(shù)據(jù)庫。,(6)數(shù)據(jù)的訪問問題,24-,綜上

11、所述,在事務(wù)處理環(huán)境中直接構(gòu)建分析處理應(yīng)用是不合適的,要提高分析處理和決策支持的效率和有效性,必須將分析型處理及其所需的綜合性數(shù)據(jù)從傳統(tǒng)的事務(wù)型處理和細節(jié)性數(shù)據(jù)中分離出來,按照DSS的需要重新進行組織,建立單獨的分析處理環(huán)境,數(shù)據(jù)倉庫正是為了建立這種新的分析處理環(huán)境而出現(xiàn)的一種數(shù)據(jù)存儲和組織技術(shù)。 目前,數(shù)據(jù)倉庫技術(shù)正成為企業(yè)信息集成和輔助決策應(yīng)用的關(guān)鍵技術(shù)之一。,25-,在現(xiàn)代計算機信息系統(tǒng)中,數(shù)據(jù)的作用有兩個方面:事務(wù)處理和分析處理(數(shù)據(jù)分析),不同的用戶需要不同的數(shù)據(jù)信息。 操作型數(shù)據(jù):事務(wù)處理所需要的細節(jié)性的數(shù)據(jù) 分析型數(shù)據(jù):分析處理所需的綜合性數(shù)據(jù),3. 數(shù)據(jù)分析與數(shù)據(jù)倉庫,26-,

12、表1 操作型數(shù)據(jù)與分析型數(shù)據(jù)的區(qū)別,27-,20世紀80年代中期,數(shù)據(jù)倉庫之父W.H.Inmon 對數(shù)據(jù)倉庫所下的定義: 數(shù)據(jù)倉庫就是一個面向主題的、集成的、不可更新的、隨時間不斷變化的數(shù)據(jù)集合。,28-,主題(Subject):特定的數(shù)據(jù)分析領(lǐng)域與目標(biāo)。 面向主題:為特定的數(shù)據(jù)分析領(lǐng)域提供數(shù)據(jù)支持。 為特定數(shù)據(jù)分析領(lǐng)域提供的數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)庫中的數(shù)據(jù)是有不同的。傳統(tǒng)數(shù)據(jù)庫中的數(shù)據(jù)是原始的、基礎(chǔ)的數(shù)據(jù),而特定分析領(lǐng)域數(shù)據(jù)則是需要對它們作必要的抽取、加工與總結(jié)而形成。,4. 數(shù)據(jù)倉庫的四大特色,(1)面向主題,29-,數(shù)據(jù)倉庫是面向分析、決策人員的主觀要求的,不同的用戶有不同的要求,同一個用戶的要

13、求也會隨時間而經(jīng)常變化,因此,數(shù)據(jù)倉庫中的主題有時會因用戶主觀要求的變化而變化的。 例1:一個面向事務(wù)處理的“商場”數(shù)據(jù)庫系統(tǒng),其數(shù)據(jù)模式如下:,30-,采購子系統(tǒng): 訂單(訂單號,供應(yīng)商號,總金額,日期) 訂單細則(訂單號,商品號,類別,單價,數(shù)量) 供應(yīng)商(供應(yīng)商號,供應(yīng)商名,地址,電話) 銷售子系統(tǒng): 顧客(顧客號,姓名,性別,年齡,文化程度,地址,電話) 銷售(員工號,顧客號,商品號,數(shù)量,單價,日期),31-,庫存管理子系統(tǒng): 領(lǐng)料單(領(lǐng)料單號,領(lǐng)料人,商品號,數(shù)量,日期) 進料單(進料單號,訂單號,進料人,收料人,日期) 庫存(商品號,庫房號,庫存量,日期) 庫房(庫房號,倉庫管理

14、員,地點,庫存商品描述) 人事管理子系統(tǒng): 員工(員工號,姓名,性別,年齡,文化程度,部門號) 部門(部門號,部門名稱,部門主管,電話),32-,上述數(shù)據(jù)模式基本上是按照企業(yè)內(nèi)部的業(yè)務(wù)活動及其需要的相關(guān)數(shù)據(jù)來組織數(shù)據(jù)的存儲的,沒有實現(xiàn)真正的數(shù)據(jù)與應(yīng)用分離,其抽象程度也不夠高。 如果按照面向主題的方式進行數(shù)據(jù)組織,首先應(yīng)該抽取主題,即按照管理人員的分析要求來確定主題,而與每個主題相關(guān)的數(shù)據(jù)又與有關(guān)的事務(wù)處理所需的數(shù)據(jù)不盡相同。,33-,商品固有信息:商品號,商品名,類別,顏色等 商品采購信息:商品號,供應(yīng)商號,供應(yīng)價,供應(yīng)日期,供應(yīng)量等 商品銷售信息:商品號,顧客號,售價,銷售日期,銷售量等 商

15、品庫存信息:商品號,庫房號,庫存量,日期等,主題一:商品,34-,供應(yīng)商固有信息:供應(yīng)商號,供應(yīng)商名,地址,電話等 供應(yīng)商品信息:供應(yīng)商號,商品號,供應(yīng)價,供應(yīng)日期,供應(yīng)量等,主題二:供應(yīng)商,35-,顧客固有信息:顧客號,顧客名,性別,年齡,文化程度,住址,電話等 顧客購物信息:顧客號,商品號,售價,購買日期,購買量等,主題三:顧客,36-,在每個主題中,都包含了有關(guān)該主題的所有信息,同時又拋棄了與分析處理無關(guān)或不需要的數(shù)據(jù),從而將原本分散在各個子系統(tǒng)中的有關(guān)信息集中在一個主題中,形成有關(guān)該主題的一個完整一致的描述。面向主題的數(shù)據(jù)組織方式所強調(diào)的就是要形成一個這樣一致的信息集合。 不同的主題之

16、間也有重疊的內(nèi)容,但這種重疊是邏輯上的,而不是物理存儲上的重疊;是部分細節(jié)的重疊,而不是完全的重疊。,37-,每個主題所需數(shù)據(jù)的物理存儲:,多維數(shù)據(jù)庫(MDDBMulti-Dimensional DataBase):用多維數(shù)組形式存儲數(shù)據(jù)。 關(guān)系數(shù)據(jù)庫:用一組關(guān)系來組織數(shù)據(jù)的存儲,同一主題的一組關(guān)系都有一個公共的關(guān)鍵字,存放的也不是細節(jié)性的業(yè)務(wù)數(shù)據(jù),而是經(jīng)過一定程度的綜合形成的綜合性數(shù)據(jù)。,38-,數(shù)據(jù)倉庫中的數(shù)據(jù)是為分析服務(wù)的,而分析需要多種廣泛的不同數(shù)據(jù)源以便進行比較、鑒別,因此數(shù)據(jù)倉庫中的數(shù)據(jù)必須從多個數(shù)據(jù)源中獲取,通過數(shù)據(jù)集成而形成數(shù)據(jù)倉庫中的數(shù)據(jù)。,(2)集成的,集成的方法: 統(tǒng)一:

17、消除不一致的現(xiàn)象 綜合:對原有數(shù)據(jù)進行綜合和計算,39-,數(shù)據(jù)倉庫中的數(shù)據(jù)是經(jīng)過抽取而形成的分析型數(shù)據(jù),不具有原始性,主要供企業(yè)決策分析之用,執(zhí)行的主要是“查詢”操作,一般不執(zhí)行“更新”操作。 但這也不等于數(shù)據(jù)倉庫中的數(shù)據(jù)不需要“更新”操作。 在需要進行新的分析決策時,可能需要進行新的數(shù)據(jù)抽取和“更新”操作 數(shù)據(jù)倉庫中的一些過時的數(shù)據(jù),也可以通過“刪除”操作丟棄掉。,(3)不可更新,40-,數(shù)據(jù)倉庫中的數(shù)據(jù)必須以一定時間段為單位進行統(tǒng)一更新。,(4)隨時間不斷變化,不斷增加新的數(shù)據(jù)內(nèi)容 不斷刪去舊的數(shù)據(jù)內(nèi)容 更新與時間有關(guān)的綜合數(shù)據(jù),41-,42-,數(shù)據(jù)挖掘(Data Mining,簡記為DM

18、):是指從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中提取隱含的、未知的、非平凡的及有潛在應(yīng)用價值的信息或模式的高級處理過程。 模式:即知識,它給出了數(shù)據(jù)特性或數(shù)據(jù)之間的關(guān)系,是對數(shù)據(jù)所包含的信息更抽象的描述。按功能可以分為預(yù)測型模式和描述型模式。在實際應(yīng)用中,可以細分為關(guān)聯(lián)模式、分類模式、聚類模式和序列模式等。,數(shù)據(jù)挖掘的定義,43-,沃爾瑪通過建立的數(shù)據(jù)倉庫,按周期統(tǒng)計產(chǎn)品的銷售信息,經(jīng)過科學(xué)建模后提煉決策層數(shù)據(jù)。結(jié)果發(fā)現(xiàn):每逢周末,位于某地區(qū)的沃爾瑪連鎖超市啤酒和尿布的銷量很大。進一步調(diào)查表明,在美國有孩子的家庭中,太太經(jīng)常囑咐他們的丈夫下班以后要為孩子買尿布,而丈夫們在買完尿布以后又順手帶回了自己愛喝的啤酒

19、,因此啤酒和尿布一起購買的機會是最多的。之后該店打破常規(guī),將啤酒和尿布的貨架放在了一起,使得啤酒和尿布的銷量進一步增長。,數(shù)據(jù)挖掘經(jīng)典舉例-啤酒和尿布,44-,數(shù)據(jù)挖掘和數(shù)據(jù)倉庫是作為兩種獨立的信息技術(shù)出現(xiàn)的。它們都可以完成對決策過程的支持,并且相互間有一定的內(nèi)在聯(lián)系。因此,將數(shù)據(jù)倉庫與數(shù)據(jù)挖掘集成到一個系統(tǒng)中將能夠更有效地提高系統(tǒng)的決策支持能力。 數(shù)據(jù)挖掘是一門交叉性學(xué)科,它涉及到機器學(xué)習(xí)、模式識別、統(tǒng)計學(xué)、智能數(shù)據(jù)庫、知識獲取、數(shù)據(jù)可視化、高性能計算、專家系統(tǒng)等多個領(lǐng)域。可廣泛地應(yīng)用于信息管理、過程控制、科學(xué)研究、決策支持等許多方面。,45-,數(shù)據(jù)挖掘的任務(wù)是從大量的數(shù)據(jù)中發(fā)現(xiàn)模式。根據(jù)數(shù)

20、據(jù)挖掘的任務(wù)可分為多種類型,其中比較典型的有: 預(yù)測模型 關(guān)聯(lián)分析 分類分析 聚類分析,數(shù)據(jù)挖掘的類型,序列分析 偏差檢測 模式相似性挖掘 Web數(shù)據(jù)挖掘,46-,預(yù)測模型(Predictive Modeling):所謂預(yù)測即從數(shù)據(jù)庫或數(shù)據(jù)倉庫中已知的數(shù)據(jù)推測未知的數(shù)據(jù)或?qū)ο蠹心承傩缘闹捣植?。如預(yù)測用戶的業(yè)務(wù)趨勢。 建立預(yù)測模型的常用方法: 回歸分析 線性模型 關(guān)聯(lián)規(guī)則,預(yù)測模型,決策樹預(yù)測 遺傳算法 神經(jīng)網(wǎng)絡(luò),47-,關(guān)聯(lián)(Association)分析:關(guān)聯(lián)規(guī)則描述了一組數(shù)據(jù)項之間的密切度或關(guān)系。關(guān)聯(lián)分析用于發(fā)現(xiàn)項目集之間的關(guān)聯(lián)。 關(guān)聯(lián)規(guī)則挖掘近幾年研究較多。現(xiàn)在,關(guān)聯(lián)規(guī)則的挖掘已經(jīng)從單

21、一概念層次關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)發(fā)展到多概念層次的關(guān)聯(lián)規(guī)則的發(fā)現(xiàn),并把研究的重點放在提高算法的效率和規(guī)??墒湛s性上。它廣泛地運用于幫助市場導(dǎo)向、商品目錄設(shè)計等商業(yè)決策過程中?!捌【坪湍虿肌笔墙?jīng)典的關(guān)聯(lián)分析。,關(guān)聯(lián)分析,48-,關(guān)聯(lián)分析算法:APRIORI算法、DHP算法、DIC算法、PARTITION算法及它們的各種改進算法等。另外,對于大規(guī)模、分布在不同站點上的數(shù)據(jù)庫或數(shù)據(jù)倉庫,關(guān)聯(lián)規(guī)則的挖掘可以使用并行算法,如:Count分布算法、Data分布算法、Candidate 分布算法、智能Data分布算法(IDD)和DMA分布算法等。,49-,分類(Classification)分析:根據(jù)數(shù)據(jù)的特征為每個類別建立一個模型,根據(jù)數(shù)據(jù)的屬性將數(shù)據(jù)分配到不同的組中。 分類分析已經(jīng)成功地用于顧客分類、疾病分類、商業(yè)建模和信用卡分析等。 分類分析的常用方法:決策樹、粗糙集(Rough Set) 、神經(jīng)網(wǎng)絡(luò)、統(tǒng)計分析法。,分類分析,50-,聚類(Clustering)分析:聚類分析是按照某種相近程度度量方法將數(shù)據(jù)分成互不相同的一些分組。每一個分組中的數(shù)據(jù)相近,不同分組之間的數(shù)據(jù)相差較大。 聚類分析的常用方法:隨機搜索聚類法、特征聚類、CF樹。,聚類分析,51-,序列(Sequence)分析:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論