《數(shù)據(jù)挖掘?qū)д摗方滩呐涮捉虒W(xué)PPT——第1章認(rèn)識數(shù)據(jù)挖掘_第1頁
《數(shù)據(jù)挖掘?qū)д摗方滩呐涮捉虒W(xué)PPT——第1章認(rèn)識數(shù)據(jù)挖掘_第2頁
《數(shù)據(jù)挖掘?qū)д摗方滩呐涮捉虒W(xué)PPT——第1章認(rèn)識數(shù)據(jù)挖掘_第3頁
《數(shù)據(jù)挖掘?qū)д摗方滩呐涮捉虒W(xué)PPT——第1章認(rèn)識數(shù)據(jù)挖掘_第4頁
《數(shù)據(jù)挖掘?qū)д摗方滩呐涮捉虒W(xué)PPT——第1章認(rèn)識數(shù)據(jù)挖掘_第5頁
已閱讀5頁,還剩60頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第1章 認(rèn)識數(shù)據(jù)挖掘數(shù)據(jù)挖掘定義機(jī)器學(xué)習(xí)數(shù)據(jù)查詢專家系統(tǒng)數(shù)據(jù)挖掘過程/作用/技術(shù)/應(yīng)用Weka數(shù)據(jù)挖掘軟件清華大學(xué)出版社本章目標(biāo)掌握數(shù)據(jù)挖掘的定義了解機(jī)器學(xué)習(xí)中的基本方法概念學(xué)習(xí)歸納學(xué)習(xí)有指導(dǎo)的學(xué)習(xí)無指導(dǎo)的聚類了解與數(shù)據(jù)挖掘有關(guān)的數(shù)據(jù)查詢、專家系統(tǒng)了解數(shù)據(jù)挖掘的過程、作用、技術(shù)、應(yīng)用掌握Weka數(shù)據(jù)挖掘軟件的使用方法2022年3月24日星期四第2頁,共65頁1.1 數(shù)據(jù)挖掘定義清華大學(xué)出版社數(shù)據(jù)挖掘(Data Mining) 技術(shù)角度 利用一種或多種計(jì)算機(jī)學(xué)習(xí)技術(shù),從數(shù)據(jù)中自動分析并提取信息的處理過程。 目的是尋找和發(fā)現(xiàn)數(shù)據(jù)中潛在的有價(jià)值的信息、知識、規(guī)律、聯(lián)系和模式。 數(shù)據(jù)挖掘與計(jì)算機(jī)科學(xué)有

2、關(guān),一般使用機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、聯(lián)機(jī)分析處理、專家系統(tǒng)和模式識別等多種方法來實(shí)現(xiàn)。 學(xué)科角度 數(shù)據(jù)挖掘是一門交叉學(xué)科,涉及數(shù)據(jù)庫技術(shù)、人工智能技術(shù)、統(tǒng)計(jì)學(xué)、可視化技術(shù)、并行計(jì)算等多種技術(shù)。2022年3月24日星期四第4頁,共65頁清華大學(xué)出版社 商業(yè)角度 商業(yè)智能信息處理技術(shù); 圍繞商業(yè)目標(biāo)開展的,對大量商業(yè)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù),揭示隱藏的、未知的或驗(yàn)證已知的規(guī)律性,是一種深層次的商業(yè)數(shù)據(jù)分析方法。 2022年3月24日星期四第5頁,共65頁數(shù)據(jù)挖掘(Data Mining)1.2 機(jī)器學(xué)習(xí)清華大學(xué)出版社1.2.1 概念學(xué)習(xí) 通過對大量實(shí)例進(jìn)行訓(xùn)練,從

3、中發(fā)現(xiàn)經(jīng)驗(yàn)化規(guī)律的過程。 機(jī)器學(xué)習(xí)結(jié)果的通常表現(xiàn)形式為概念。 機(jī)器最擅長的是學(xué)習(xí)概念。 概念(Concept) 具有某些共同特征的對象、符號或事件的集合。 概念可以從三個(gè)不同的角度來看待2022年3月24日星期四第7頁,共65頁清華大學(xué)出版社1.2.1 概念學(xué)習(xí)1、傳統(tǒng)角度(Classical View) 所有概念都有明確的定義。2、概率角度(Probabilistic View) 對個(gè)別樣本實(shí)例進(jìn)行概括性描述,概括性說明構(gòu)成了概率角度中的概念。3、樣本角度(Exemplar View) 樣本角度中的概念是將某個(gè)概念中的典型實(shí)例組成一個(gè)集合,使用該集合來描述概念定義。2022年3月24日星期四

4、第8頁,共65頁清華大學(xué)出版社1.2.2 歸納學(xué)習(xí)(Induction-Based Learning) 基于歸納的學(xué)習(xí) 機(jī)器學(xué)習(xí)方式 人類學(xué)習(xí)最重要方式之一 人類通過對事物的特定實(shí)例的觀察,對所掌握的已有經(jīng)驗(yàn)材料研究。 歸納學(xué)習(xí) 從歸納中獲取和探索新知識,并以概念的形式表現(xiàn)出來的學(xué)習(xí)。2022年3月24日星期四第9頁,共65頁清華大學(xué)出版社1.2.3 有指導(dǎo)的學(xué)習(xí)(Supervised Learning) 定義 通過對大量已知分類或輸出結(jié)果值的實(shí)例進(jìn)行訓(xùn)練,調(diào)整分類模型的結(jié)構(gòu),達(dá)到建立能夠準(zhǔn)確分類或預(yù)測未知模型的目的。這種基于歸納的概念學(xué)習(xí)過程被稱為有指導(dǎo)(監(jiān)督)的學(xué)習(xí)。 數(shù)據(jù)實(shí)例(Insta

5、nce) 用于有指導(dǎo)學(xué)習(xí)的樣本數(shù)據(jù) 訓(xùn)練實(shí)例(Training Instance) 用于訓(xùn)練的實(shí)例 檢驗(yàn)實(shí)例(Test Instance) 分類模型建立完成后,經(jīng)過檢驗(yàn)實(shí)例進(jìn)行檢驗(yàn),判斷模型是否能夠很好地應(yīng)用在未知實(shí)例的分類或預(yù)測中。2022年3月24日星期四第10頁,共65頁【例1.1】給定如表1.1所示的數(shù)據(jù)集T,使用有指導(dǎo)的學(xué)習(xí)方法建立分類模型,對未知類別的實(shí)例進(jìn)行分類。清華大學(xué)出版社表1.1 感冒診斷假想數(shù)據(jù)集序號Increased-lym淋巴細(xì)胞升高Leukocytosis白細(xì)胞升高Fever發(fā)燒Acute-onset起病急Sore-throat咽痛Cooling-effect退熱效

6、果Group群體發(fā)病Cold-type感冒類型1YesNoYesYesNoGoodYesViral2NoYesYesNoYesNot goodYesBacterial3YesNoYesYesYesGoodYesViral4YesNoNoYesNoUnknownNoViral5NoNoNoNoYesUnknownNoBacterial6NoYesYesYesYesNot goodNoBacterial7NoYesYesNoYesNot goodNoViral8YesNoYesNoNoGoodYesViral9YesYesYesYesYesGoodYesViral10YesYesYesNoYesN

7、ot goodNoBacterial2022年3月24日星期四第12頁,共65頁表1.1 感冒診斷假想數(shù)據(jù)集清華大學(xué)出版社決策樹(Decision Tree) 倒立樹,非葉子節(jié)點(diǎn)表示在一個(gè)屬性上的分類檢查,葉子節(jié)點(diǎn)表示決策判斷的結(jié)果,該結(jié)果選擇了正確分類較多實(shí)例的分類。 決策樹有很多算法(第2章)2022年3月24日星期四第13頁,共65頁圖1.1 感冒類型診斷C4.5決策樹清華大學(xué)出版社分類未知實(shí)例 分類模型建立和檢驗(yàn)完成后,就可以實(shí)際投入使用,即用該模型對未知分類的實(shí)例進(jìn)行分類。2022年3月24日星期四第14頁,共65頁表1.2 未知分類的數(shù)據(jù)實(shí)例序號Increased-lym淋巴細(xì)胞升

8、高Leukocytosis白細(xì)胞升高Fever發(fā)燒Acute-onset起病急Sore-throat咽痛Cooling-effect退熱效果Group群體發(fā)病Cold-type感冒類型NoYesYesNoNoNot goodNo?YesNoYesNoYesGoodNo?清華大學(xué)出版社產(chǎn)生式規(guī)則 決策樹一般都可以被翻譯為一個(gè)產(chǎn)生式規(guī)則集合。 產(chǎn)生式規(guī)則的格式為: IF 前提條件 THEN 結(jié)論 圖1.1翻譯為4條產(chǎn)生式規(guī)則(1)IF Sore-throat = No THEN Cold-type = Viral(2)IF Sore-throat = Yes & Cooling-effec

9、t = Good THEN Cold-type = Viral (3)IF Sore-throat = Yes & Cooling-effect = Not good THEN Cold-type = Bacterial(4)IF Sore-throat = Yes & Cooling-effect = Unknown THEN Cold-type = Bacterial2022年3月24日星期四第15頁,共65頁清華大學(xué)出版社1.2.4 無指導(dǎo)的聚類(Unsupervised Clustering) 無指導(dǎo)(監(jiān)督)聚類 一種無指導(dǎo)(無教師)的學(xué)習(xí); 在學(xué)習(xí)訓(xùn)練之前,無預(yù)先定義

10、好分類的實(shí)例,數(shù)據(jù)實(shí)例按照某種相似性度量方法,計(jì)算實(shí)例之間的相似程度,將最為相似的實(shí)例聚類在一個(gè)組簇(Cluster)中,再解釋和理解每個(gè)簇的含義,從中發(fā)現(xiàn)聚類的意義。2022年3月24日星期四第16頁,共65頁【例1.2】給定如表1.1所示的數(shù)據(jù)集T,使用無指導(dǎo)聚類方法,對所有實(shí)例進(jìn)行分類,解釋每個(gè)簇的含義。清華大學(xué)出版社挖掘準(zhǔn)備 刪除Cold-type(感冒類型)屬性 選擇算法 無指導(dǎo)聚類有很多種算法, K-means(K-均值)算法、凝聚聚類方法、概念分層Cobweb算法、EM算法等。 K-means算法是一種最為常用和易用的算法。 指定初始簇 K-means(K-均值)算法在聚類前指定

11、一個(gè)初始的簇的個(gè)數(shù),本例指定為2。2022年3月24日星期四第18頁,共65頁清華大學(xué)出版社聚類結(jié)果 聚類為兩個(gè)簇,每個(gè)簇有5個(gè)實(shí)例,分別為 Cluster0 = 1,3,4,8,9 Cluster1 = 2,5,6,7,10 每個(gè)簇的概念結(jié)構(gòu)可以表示為一個(gè)產(chǎn)生式規(guī)則(1)IFIncreased -lym = Yes & Cooling-effect =Good THEN Cluster = 0(rule accuracy = 4/4 = 100%,rule coverage = 4/5 = 80%)(2)IFSore-throat = Yes & Cooling-effect

12、 = Not good THEN Cluster = 1(rule accuracy = 4/4 = 100%,rule coverage = 4/5 = 80%)2022年3月24日星期四第19頁,共65頁1.3 數(shù)據(jù)查詢清華大學(xué)出版社數(shù)據(jù)查詢(Data Query) 通過數(shù)據(jù)查詢語言在數(shù)據(jù)中找出所需要的數(shù)據(jù)或信息。 什么時(shí)候使用數(shù)據(jù)挖掘,什么時(shí)候使用數(shù)據(jù)查詢呢? 獲取淺知識或多維知識(Multidimensional Knowledge) 獲取數(shù)據(jù)中潛在的、隱藏的信息或知識隱含知識(Hidden Knowledge)2022年3月24日星期四第21頁,共65頁1.4 專家系統(tǒng)清華大學(xué)出版社

13、專家系統(tǒng)(Expert System)一種具有“智能”的計(jì)算機(jī)軟件系統(tǒng)。能夠模擬某個(gè)領(lǐng)域的人類專家的決策過程,解決那些需要人類專家處理的復(fù)雜問題。一般包含以規(guī)則形式表示的領(lǐng)域?qū)<业闹R和經(jīng)驗(yàn),系統(tǒng)就是利用這些知識和方法進(jìn)行推理和判斷,從而解決該領(lǐng)域中實(shí)際問題。專家(Expert) 有能力解決領(lǐng)域中復(fù)雜問題的人通常被稱為該領(lǐng)域中的專家(Expert)2022年3月24日星期四第23頁,共65頁清華大學(xué)出版社專家系統(tǒng)方法 與 數(shù)據(jù)挖掘方法2022年3月24日星期四第24頁,共65頁圖1.2專家系統(tǒng)方法vs 數(shù)據(jù)挖掘方法1.5 數(shù)據(jù)挖掘的過程清華大學(xué)出版社KDD過程 數(shù)據(jù)挖掘是KDD過程中的一個(gè)階段

14、(第3章) 一次數(shù)據(jù)挖掘?qū)嶒?yàn)分為4個(gè)步驟(1)準(zhǔn)備數(shù)據(jù),包括準(zhǔn)備訓(xùn)練數(shù)據(jù)和檢驗(yàn)數(shù)據(jù)(2)選擇一種數(shù)據(jù)挖掘技術(shù)或算法,將數(shù)據(jù)提交給數(shù)據(jù)挖掘軟件(3)解釋和評估結(jié)果(4)模型應(yīng)用2022年3月24日星期四第26頁,共65頁圖1.3 數(shù)據(jù)挖掘?qū)嶒?yàn)過程示意圖清華大學(xué)出版社1.5.1 準(zhǔn)備數(shù)據(jù)是整個(gè)數(shù)據(jù)挖掘過程中較為重要和費(fèi)時(shí)費(fèi)力的階段。在明確數(shù)據(jù)挖掘目標(biāo)后,可以通過從傳統(tǒng)數(shù)據(jù)庫、數(shù)據(jù)倉庫和平面文件三種途徑收集和抽取數(shù)據(jù)。1、傳統(tǒng)數(shù)據(jù)庫 操作型數(shù)據(jù)庫(Operational Database),它是面向日常事務(wù)處理的數(shù)據(jù)庫,通常結(jié)構(gòu)為關(guān)系模型。數(shù)據(jù)庫中包含若干個(gè)規(guī)范化了的二維關(guān)系表。2、數(shù)據(jù)倉庫 數(shù)據(jù)倉

15、庫(Data Warehouse)是面向決策支持而不是日常事務(wù)處理而設(shè)計(jì)的。3、平面文件 一些數(shù)據(jù)量較小的數(shù)據(jù)集可以存儲在如Excel電子表格、.csv、.arff等平面文件中。2022年3月24日星期四第27頁,共65頁清華大學(xué)出版社1.5.2 挖掘數(shù)據(jù) 選擇一種數(shù)據(jù)挖掘技術(shù)或算法,將數(shù)據(jù)提交給數(shù)據(jù)挖掘工具,應(yīng)用該算法建立模型。 選擇數(shù)據(jù)挖掘技術(shù)或算法需要考慮(1)判斷學(xué)習(xí)是有指導(dǎo)的還是無指導(dǎo)的。(2)數(shù)據(jù)集中的哪些實(shí)例和屬性提交給數(shù)據(jù)挖掘工具;哪些數(shù)據(jù)實(shí)例作為訓(xùn)練數(shù)據(jù);哪些數(shù)據(jù)實(shí)例作為檢驗(yàn)數(shù)據(jù)。(3)如何設(shè)置數(shù)據(jù)挖掘算法的參數(shù)。2022年3月24日星期四第28頁,共65頁清華大學(xué)出版社1.

16、5.3 解釋和評估結(jié)果 對數(shù)據(jù)挖掘的輸出進(jìn)行檢查,評估其是否達(dá)到挖掘目標(biāo),確定所發(fā)現(xiàn)的信息或知識是有價(jià)值的。 數(shù)據(jù)挖掘的評估工具有多種(第5章) 如果結(jié)果不理想,可以(1)(2)進(jìn)行重復(fù)實(shí)驗(yàn),直到得到滿意結(jié)果為止。(1)使用或選擇新的數(shù)據(jù)實(shí)例或?qū)傩裕?)選擇新的數(shù)據(jù)挖掘算法或參數(shù) 一個(gè)數(shù)據(jù)挖掘過程是個(gè)迭代的過程。2022年3月24日星期四第29頁,共65頁清華大學(xué)出版社1.5.4 模型應(yīng)用 數(shù)據(jù)挖掘的終極目標(biāo)。可以應(yīng)用分類模型解決如例1.1中的疾病診斷問題;可以應(yīng)用聚類模型解決對顧客的分類,找出不同類中顧客的行為特征,從而為諸如促銷活動等提供決策支持;可以通過應(yīng)用關(guān)聯(lián)分析模型,找出顧客購買的商

17、品之間的關(guān)聯(lián)關(guān)系,對于貨架擺放、商品促銷等提供決策支持。2022年3月24日星期四第30頁,共65頁1.6 數(shù)據(jù)挖掘的作用清華大學(xué)出版社數(shù)據(jù)挖掘的作用 兩大類 建立有指導(dǎo)的學(xué)習(xí)模型和無指導(dǎo)聚類模型。 因變量(Dependent Variables) 有指導(dǎo)的學(xué)習(xí)模型中的輸出屬性的值依賴于輸入屬性的取值,所以輸出屬性又被稱為因變量 自變量(Independent Variables) 相對的,輸入屬性被稱為自變量2022年3月24日星期四第32頁,共65頁清華大學(xué)出版社數(shù)據(jù)挖掘的作用2022年3月24日星期四第33頁,共65頁圖1.4數(shù)據(jù)挖掘的作用1.7 數(shù)據(jù)挖掘技術(shù)清華大學(xué)出版社數(shù)據(jù)挖掘技術(shù)(

18、Data Mining Technique) 對一組數(shù)據(jù)應(yīng)用一種數(shù)據(jù)挖掘方法。 一般由一個(gè)數(shù)據(jù)挖掘算法和一個(gè)相關(guān)的知識結(jié)構(gòu),如樹結(jié)構(gòu)或規(guī)則來定義的。2022年3月24日星期四第35頁,共65頁清華大學(xué)出版社1.7.1 神經(jīng)網(wǎng)絡(luò)(Neural Network) 一種具有統(tǒng)計(jì)特性的數(shù)學(xué)模型。 創(chuàng)建思想源于人類神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)、功能和運(yùn)行過程。 試圖模擬人腦功能來完成學(xué)習(xí)。 已經(jīng)成功地應(yīng)用于多個(gè)領(lǐng)域的問題中,是非常流行的數(shù)據(jù)挖掘技術(shù)。 可以建立有指導(dǎo)學(xué)習(xí)模型和無指導(dǎo)聚類模型。 輸入屬性必須是數(shù)值的,輸出屬性可以是數(shù)值的也可以是分類的。2022年3月24日星期四第36頁,共65頁清華大學(xué)出版社前饋(Fe

19、ed-Forward)神經(jīng)網(wǎng) 常用的有指導(dǎo)的學(xué)習(xí)模型。 全連接 每一層的每個(gè)節(jié)點(diǎn)都與其下一層的所有節(jié)點(diǎn)相連接,而同層節(jié)點(diǎn)之間不相連。 每個(gè)網(wǎng)絡(luò)連接上都具有權(quán)重值,如w1j、w2j、w3j。2022年3月24日星期四第37頁,共65頁12kjo3輸入層輸入層輸出層輸出層隱層隱層WjoWkoW3kW3jW2kW2jW1kW1j iW1iW2iW3iWio 圖6.21.png圖1.5三層全連接前饋神經(jīng)網(wǎng)清華大學(xué)出版社建立神經(jīng)網(wǎng)絡(luò)模型的兩個(gè)階段 第一個(gè)階段學(xué)習(xí)訓(xùn)練階段 將每個(gè)實(shí)例的輸入屬性值提交給輸入層節(jié)點(diǎn)。神經(jīng)網(wǎng)絡(luò)使用輸入值和網(wǎng)絡(luò)連接權(quán)重值來計(jì)算每個(gè)實(shí)例的輸出。將每個(gè)實(shí)例的輸出和希望的網(wǎng)絡(luò)輸出進(jìn)行比

20、較,希望值和計(jì)算輸出值之間的誤差通過修改連接權(quán)值傳回網(wǎng)絡(luò)。當(dāng)達(dá)到一定的迭代次數(shù)后或當(dāng)網(wǎng)絡(luò)收斂到一個(gè)預(yù)定的最低錯(cuò)誤率時(shí),訓(xùn)練終止。 第二個(gè)階段檢驗(yàn)階段 固定網(wǎng)絡(luò)權(quán)重,將模型用于計(jì)算新實(shí)例的輸出值。2022年3月24日星期四第38頁,共65頁清華大學(xué)出版社1.7.2 回歸分析(Regression Analysis) 一種統(tǒng)計(jì)分析方法。 可以用來確定兩個(gè)或兩個(gè)以上變量之間的定量的依賴關(guān)系,并建立一個(gè)數(shù)學(xué)方程作為數(shù)學(xué)模型,來概化一組數(shù)值數(shù)據(jù),進(jìn)而進(jìn)行數(shù)值數(shù)據(jù)的估值和預(yù)測。 應(yīng)用非常廣泛。2022年3月24日星期四第39頁,共65頁清華大學(xué)出版社辦公樓數(shù)據(jù)集序號Space(x1)Offices(x2)

21、Entrances(x3)Age(x4)Value1231022201420002233322121440003235631.5331510004237932431500005240223531390006242542231690007244821.599126000824712234142900924943323163000102517445516900011254023221490002022年3月24日星期四第40頁,共65頁表1.3 辦公樓數(shù)據(jù)集清華大學(xué)出版社回歸模型2022年3月24日星期四第41頁,共65頁83.52317)24.234(21.255377.1252964.2743

22、21xxxxValuey = 27.642500 + 12 529.773 + 2553.212234.2425 + 52 317.83 = 158 257.56 使用回歸方程預(yù)估辦公樓的價(jià)值。設(shè)有一座未知價(jià)值的辦公樓,面積為 2500、3個(gè)辦公室、2 個(gè)入口,已使用 25 年,則其估計(jì)價(jià)值計(jì)算所得,為158 257.56。清華大學(xué)出版社1.7.3 關(guān)聯(lián)分析 一種關(guān)聯(lián)規(guī)則(Association Rule)挖掘技術(shù),用于發(fā)現(xiàn)數(shù)據(jù)中屬性之間的有價(jià)值的聯(lián)系。 關(guān)聯(lián)規(guī)則可以有多個(gè)輸出屬性,一個(gè)規(guī)則的輸出屬性可以在另一規(guī)則中作為輸入屬性。 關(guān)聯(lián)分析用來發(fā)現(xiàn)潛在的令人感興趣的商品購買組合,是購物籃分析的

23、常用技術(shù)。 關(guān)聯(lián)分析有多種算法,其中最著名的為Agrawal等人于1993年提出的Apriori關(guān)聯(lián)分析算法。 Apriori算法不支持?jǐn)?shù)值型數(shù)據(jù),在使用該算法之前,需要進(jìn)行必要的數(shù)據(jù)變換。2022年3月24日星期四第42頁,共65頁【例1.3】應(yīng)用Apriori算法,對表1.1中的數(shù)據(jù)集進(jìn)行關(guān)聯(lián)分析,找出感冒癥狀之間的關(guān)聯(lián)關(guān)系。清華大學(xué)出版社關(guān)聯(lián)規(guī)則 生成三條關(guān)聯(lián)規(guī)則(1)IF Leukocytosis = Yes THEN Fever = Yes(rule accuracy = 5/5 = 100%,rule coverage = 5/8 = 62.5%)(2)IF Increased-l

24、ym = No THEN Sore-throat=Yes(rule accuracy = 4/4 = 100%,rule coverage = 4/7 = 57.1%)(3) IF Cooling-effect = Good THEN Fever = Yes(rule accuracy = 4/4 = 100%,rule coverage = 4/8 = 50%)2022年3月24日星期四第44頁,共65頁清華大學(xué)出版社1.7.4 聚類技術(shù) 基于劃分的聚類方法(K-means算法) 基于分層的聚類方法 基于模型的聚類方法 。2022年3月24日星期四第45頁,共65頁1.8 數(shù)據(jù)挖掘的應(yīng)用清華

25、大學(xué)出版社1.8.1應(yīng)用領(lǐng)域2022年3月24日星期四第47頁,共65頁圖網(wǎng)站公布的2012年數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域清華大學(xué)出版社1.8.2 成功案例除了最著名的沃爾瑪?shù)哪虿己推【浦?,還有(1)Empire Blue Cross公司利用DWT,甄別出虛假開立醫(yī)療憑據(jù)的醫(yī)生,節(jié)省濫賠支出。(2)金融犯罪強(qiáng)制網(wǎng)絡(luò)AI系統(tǒng)(FAIS)使用DWT ,識別大型現(xiàn)金交易中可能存在的洗錢行為。(3)加拿大西門菲沙大學(xué)(Simon Fraser)的KDD研究組根據(jù)其擁有的十幾年的客戶數(shù)據(jù),進(jìn)行數(shù)據(jù)挖掘分析,提出了新的電話收費(fèi)和管理辦法,制定出公司和客戶都受益的優(yōu)惠政策。(4)美國梅隆(Mellon)銀行使用In

26、telligent Agent數(shù)據(jù)挖掘工具提高銷售和定價(jià)金融產(chǎn)品的準(zhǔn)確率。(5)美國西部通信(US West Communications)根據(jù)家庭大小、家庭成員平均年齡和所在地特征,使用數(shù)據(jù)挖掘和數(shù)據(jù)倉庫來確定客戶的傾向和需要,從而幫助簽約新客戶和增加與新客戶的交易額。(6)使用貝葉斯分類數(shù)據(jù)挖掘技術(shù),薩莎(Sacha)等人成功地通過心肌SPECT圖像對心肌灌注進(jìn)行分類,診斷患者是否患有冠心病。(7)20世紀(jì)Fox公司利用數(shù)據(jù)挖掘技術(shù)分析票房收入來確定在各個(gè)市場環(huán)境中更容易被接受的演員和故事情節(jié)。(8)科學(xué)界普遍認(rèn)為存在兩種射線爆。慕克吉(Mukherjee)等人使用統(tǒng)計(jì)聚類分析法發(fā)現(xiàn)了第三

27、類射線爆。(9)NBA球隊(duì)使用IBM公司開發(fā)的數(shù)據(jù)挖掘應(yīng)用軟件Advanced Scout系統(tǒng)來優(yōu)化他們的戰(zhàn)術(shù)組合。(10)全球十大視頻網(wǎng)站 之一Netflix公司應(yīng)用大數(shù)據(jù)的挖掘技術(shù),成功營銷熱播劇紙牌屋。2022年3月24日星期四第48頁,共65頁1.9 Weka數(shù)據(jù)挖掘軟件清華大學(xué)出版社1.9.1 Weka簡介Weka(Waikato Environment for Knowledge Analysis,懷卡托智能分析環(huán)境)誕生于 University of Waikato(新西蘭懷卡托大學(xué))?;贘ava 的免費(fèi)開源軟件。集成了有關(guān)數(shù)據(jù)挖掘的機(jī)器學(xué)習(xí)算法和統(tǒng)計(jì)技術(shù),具有數(shù)據(jù)預(yù)處理、分類

28、、聚類、關(guān)聯(lián)分析、屬性選擇和交互式可視化等功能。操作簡單、易學(xué)易用,作為入門軟件完成簡單挖掘工作。若未安裝 JRE,需下載包含 JRE 的 Weka 版本(Weka 3.6.10)2022年3月24日星期四第50頁,共65頁1. Weka的特點(diǎn)清華大學(xué)出版社Weka軟件特點(diǎn)(1)跨平臺;(2)支持結(jié)構(gòu)化文本文件、數(shù)據(jù)挖掘格式文件和數(shù)據(jù)庫接口;(3)可處理連續(xù)型數(shù)值數(shù)據(jù)和離散型(字符型和日期型)數(shù)據(jù);(4)具有缺失數(shù)據(jù)處理、噪聲處理、標(biāo)準(zhǔn)化、數(shù)據(jù)離散化、屬性構(gòu)造、轉(zhuǎn)換變量、拆分?jǐn)?shù)據(jù)、數(shù)據(jù)平滑等數(shù)據(jù)預(yù)處理功能;(5)具有分類、聚類、關(guān)聯(lián)和可視化等數(shù)據(jù)挖掘功能;(6)提供算法組合、用戶自定義算法嵌入、算法參數(shù)設(shè)置功能;(7)能夠生成基本報(bào)告、測試報(bào)告、輸出格式,實(shí)現(xiàn)模型解釋、模型比較、數(shù)據(jù)評分功能;(8)具有數(shù)據(jù)、挖掘過程及挖掘結(jié)果可視化功能。2022年3月24日星期四第52頁,共65頁2. Weka的文件格式清華大學(xué)出版社ARFF文件Weka默認(rèn)使用ARFF(Attribute-Relation File Format)。一種ASCII文本文件格式,由兩部分組成 第一部分為頭信息

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論