《數(shù)據(jù)挖掘?qū)д摗方滩呐涮捉虒W(xué)PPT-認(rèn)識數(shù)據(jù)挖掘_第1頁
《數(shù)據(jù)挖掘?qū)д摗方滩呐涮捉虒W(xué)PPT-認(rèn)識數(shù)據(jù)挖掘_第2頁
《數(shù)據(jù)挖掘?qū)д摗方滩呐涮捉虒W(xué)PPT-認(rèn)識數(shù)據(jù)挖掘_第3頁
《數(shù)據(jù)挖掘?qū)д摗方滩呐涮捉虒W(xué)PPT-認(rèn)識數(shù)據(jù)挖掘_第4頁
《數(shù)據(jù)挖掘?qū)д摗方滩呐涮捉虒W(xué)PPT-認(rèn)識數(shù)據(jù)挖掘_第5頁
已閱讀5頁,還剩60頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第1章認(rèn)識數(shù)據(jù)挖掘數(shù)據(jù)挖掘定義機(jī)器學(xué)習(xí)數(shù)據(jù)查詢專家系統(tǒng)數(shù)據(jù)挖掘過程/作用/技術(shù)/應(yīng)用Weka數(shù)據(jù)挖掘軟件本章目標(biāo)掌握數(shù)據(jù)挖掘的定義了解機(jī)器學(xué)習(xí)中的基本方法概念學(xué)習(xí)歸納學(xué)習(xí)有指導(dǎo)的學(xué)習(xí)無指導(dǎo)的聚類了解與數(shù)據(jù)挖掘有關(guān)的數(shù)據(jù)查詢、專家系統(tǒng)了解數(shù)據(jù)挖掘的過程、作用、技術(shù)、應(yīng)用掌握Weka數(shù)據(jù)挖掘軟件的使用方法03二月2023第2頁,共65頁1.1數(shù)據(jù)挖掘定義數(shù)據(jù)挖掘(DataMining)技術(shù)角度利用一種或多種計算機(jī)學(xué)習(xí)技術(shù),從數(shù)據(jù)中自動分析并提取信息的處理過程。目的是尋找和發(fā)現(xiàn)數(shù)據(jù)中潛在的有價值的信息、知識、規(guī)律、聯(lián)系和模式。數(shù)據(jù)挖掘與計算機(jī)科學(xué)有關(guān),一般使用機(jī)器學(xué)習(xí)、統(tǒng)計學(xué)、聯(lián)機(jī)分析處理、專家系統(tǒng)和模式識別等多種方法來實(shí)現(xiàn)。學(xué)科角度數(shù)據(jù)挖掘是一門交叉學(xué)科,涉及數(shù)據(jù)庫技術(shù)、人工智能技術(shù)、統(tǒng)計學(xué)、可視化技術(shù)、并行計算等多種技術(shù)。03二月2023第4頁,共65頁商業(yè)角度商業(yè)智能信息處理技術(shù);圍繞商業(yè)目標(biāo)開展的,對大量商業(yè)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù),揭示隱藏的、未知的或驗(yàn)證已知的規(guī)律性,是一種深層次的商業(yè)數(shù)據(jù)分析方法。03二月2023第5頁,共65頁數(shù)據(jù)挖掘(DataMining)1.2機(jī)器學(xué)習(xí)1.2.1概念學(xué)習(xí)通過對大量實(shí)例進(jìn)行訓(xùn)練,從中發(fā)現(xiàn)經(jīng)驗(yàn)化規(guī)律的過程。機(jī)器學(xué)習(xí)結(jié)果的通常表現(xiàn)形式為概念。機(jī)器最擅長的是學(xué)習(xí)概念。概念(Concept)具有某些共同特征的對象、符號或事件的集合。概念可以從三個不同的角度來看待03二月2023第7頁,共65頁1.2.1概念學(xué)習(xí)1、傳統(tǒng)角度(ClassicalView)所有概念都有明確的定義。2、概率角度(ProbabilisticView)對個別樣本實(shí)例進(jìn)行概括性描述,概括性說明構(gòu)成了概率角度中的概念。3、樣本角度(ExemplarView)樣本角度中的概念是將某個概念中的典型實(shí)例組成一個集合,使用該集合來描述概念定義。03二月2023第8頁,共65頁1.2.2歸納學(xué)習(xí)(Induction-BasedLearning)基于歸納的學(xué)習(xí)機(jī)器學(xué)習(xí)方式人類學(xué)習(xí)最重要方式之一人類通過對事物的特定實(shí)例的觀察,對所掌握的已有經(jīng)驗(yàn)材料研究。歸納學(xué)習(xí)從歸納中獲取和探索新知識,并以概念的形式表現(xiàn)出來的學(xué)習(xí)。03二月2023第9頁,共65頁1.2.3有指導(dǎo)的學(xué)習(xí)(SupervisedLearning)定義通過對大量已知分類或輸出結(jié)果值的實(shí)例進(jìn)行訓(xùn)練,調(diào)整分類模型的結(jié)構(gòu),達(dá)到建立能夠準(zhǔn)確分類或預(yù)測未知模型的目的。這種基于歸納的概念學(xué)習(xí)過程被稱為有指導(dǎo)(監(jiān)督)的學(xué)習(xí)。數(shù)據(jù)實(shí)例(Instance)用于有指導(dǎo)學(xué)習(xí)的樣本數(shù)據(jù)訓(xùn)練實(shí)例(TrainingInstance)用于訓(xùn)練的實(shí)例檢驗(yàn)實(shí)例(TestInstance)分類模型建立完成后,經(jīng)過檢驗(yàn)實(shí)例進(jìn)行檢驗(yàn),判斷模型是否能夠很好地應(yīng)用在未知實(shí)例的分類或預(yù)測中。03二月2023第10頁,共65頁【例1.1】給定如表1.1所示的數(shù)據(jù)集T,使用有指導(dǎo)的學(xué)習(xí)方法建立分類模型,對未知類別的實(shí)例進(jìn)行分類。表1.1感冒診斷假想數(shù)據(jù)集序號Increased

-lym淋巴細(xì)胞升高Leukocytosis白細(xì)胞升高Fever發(fā)燒Acute-onset起病急Sore-throat咽痛Cooling-effect退熱效果Group群體發(fā)病Cold-type感冒類型1YesNoYesYesNoGoodYesViral2NoYesYesNoYesNotgoodYesBacterial3YesNoYesYesYesGoodYesViral4YesNoNoYesNoUnknownNoViral5NoNoNoNoYesUnknownNoBacterial6NoYesYesYesYesNotgoodNoBacterial7NoYesYesNoYesNotgoodNoViral8YesNoYesNoNoGoodYesViral9YesYesYesYesYesGoodYesViral10YesYesYesNoYesNotgoodNoBacterial03二月2023第12頁,共65頁表1.1感冒診斷假想數(shù)據(jù)集決策樹(DecisionTree)倒立樹,非葉子節(jié)點(diǎn)表示在一個屬性上的分類檢查,葉子節(jié)點(diǎn)表示決策判斷的結(jié)果,該結(jié)果選擇了正確分類較多實(shí)例的分類。決策樹有很多算法(第2章)03二月2023第13頁,共65頁圖1.1感冒類型診斷C4.5決策樹分類未知實(shí)例分類模型建立和檢驗(yàn)完成后,就可以實(shí)際投入使用,即用該模型對未知分類的實(shí)例進(jìn)行分類。03二月2023第14頁,共65頁表1.2未知分類的數(shù)據(jù)實(shí)例序號Increased

-lym淋巴細(xì)胞升高Leukocytosis白細(xì)胞升高Fever發(fā)燒Acute-onset起病急Sore-throat咽痛Cooling-effect退熱效果Group群體發(fā)病Cold-type感冒類型

NoYesYesNoNoNotgoodNo?

YesNoYesNoYesGoodNo?產(chǎn)生式規(guī)則決策樹一般都可以被翻譯為一個產(chǎn)生式規(guī)則集合。產(chǎn)生式規(guī)則的格式為:IF

前提條件THEN

結(jié)論圖1.1翻譯為4條產(chǎn)生式規(guī)則(1)IF

Sore-throat=NoTHENCold-type=Viral(2)IF

Sore-throat=Yes&Cooling-effect=GoodTHENCold-type=Viral(3)IFSore-throat=Yes&Cooling-effect=NotgoodTHENCold-type=Bacterial(4)IFSore-throat=Yes&Cooling-effect=UnknownTHENCold-type=Bacterial03二月2023第15頁,共65頁1.2.4無指導(dǎo)的聚類(UnsupervisedClustering)無指導(dǎo)(監(jiān)督)聚類一種無指導(dǎo)(無教師)的學(xué)習(xí);在學(xué)習(xí)訓(xùn)練之前,無預(yù)先定義好分類的實(shí)例,數(shù)據(jù)實(shí)例按照某種相似性度量方法,計算實(shí)例之間的相似程度,將最為相似的實(shí)例聚類在一個組——簇(Cluster)中,再解釋和理解每個簇的含義,從中發(fā)現(xiàn)聚類的意義。03二月2023第16頁,共65頁【例1.2】給定如表1.1所示的數(shù)據(jù)集T,使用無指導(dǎo)聚類方法,對所有實(shí)例進(jìn)行分類,解釋每個簇的含義。挖掘準(zhǔn)備刪除Cold-type(感冒類型)屬性選擇算法無指導(dǎo)聚類有很多種算法,K-means(K-均值)算法、凝聚聚類方法、概念分層Cobweb算法、EM算法等。K-means算法是一種最為常用和易用的算法。指定初始簇K-means(K-均值)算法在聚類前指定一個初始的簇的個數(shù),本例指定為2。03二月2023第18頁,共65頁聚類結(jié)果聚類為兩個簇,每個簇有5個實(shí)例,分別為Cluster0={1,3,4,8,9}Cluster1={2,5,6,7,10}每個簇的概念結(jié)構(gòu)可以表示為一個產(chǎn)生式規(guī)則(1)IFIncreased

-lym=Yes&Cooling-effect=GoodTHENCluster=0(ruleaccuracy=4/4=100%,rulecoverage=4/5=80%)(2)IFSore-throat=Yes&Cooling-effect=NotgoodTHENCluster=1(ruleaccuracy=4/4=100%,rulecoverage=4/5=80%)03二月2023第19頁,共65頁1.3數(shù)據(jù)查詢數(shù)據(jù)查詢(DataQuery)通過數(shù)據(jù)查詢語言在數(shù)據(jù)中找出所需要的數(shù)據(jù)或信息。什么時候使用數(shù)據(jù)挖掘,什么時候使用數(shù)據(jù)查詢呢?獲取淺知識或多維知識(MultidimensionalKnowledge)獲取數(shù)據(jù)中潛在的、隱藏的信息或知識——隱含知識(HiddenKnowledge)03二月2023第21頁,共65頁1.4專家系統(tǒng)專家系統(tǒng)(ExpertSystem)一種具有“智能”的計算機(jī)軟件系統(tǒng)。能夠模擬某個領(lǐng)域的人類專家的決策過程,解決那些需要人類專家處理的復(fù)雜問題。一般包含以規(guī)則形式表示的領(lǐng)域?qū)<业闹R和經(jīng)驗(yàn),系統(tǒng)就是利用這些知識和方法進(jìn)行推理和判斷,從而解決該領(lǐng)域中實(shí)際問題。專家(Expert)有能力解決領(lǐng)域中復(fù)雜問題的人通常被稱為該領(lǐng)域中的專家(Expert)03二月2023第23頁,共65頁專家系統(tǒng)方法

數(shù)據(jù)挖掘方法03二月2023第24頁,共65頁圖1.2專家系統(tǒng)方法vs數(shù)據(jù)挖掘方法1.5數(shù)據(jù)挖掘的過程KDD過程數(shù)據(jù)挖掘是KDD過程中的一個階段(第3章)一次數(shù)據(jù)挖掘?qū)嶒?yàn)分為4個步驟(1)準(zhǔn)備數(shù)據(jù),包括準(zhǔn)備訓(xùn)練數(shù)據(jù)和檢驗(yàn)數(shù)據(jù)(2)選擇一種數(shù)據(jù)挖掘技術(shù)或算法,將數(shù)據(jù)提交給數(shù)據(jù)挖掘軟件(3)解釋和評估結(jié)果(4)模型應(yīng)用03二月2023第26頁,共65頁圖1.3數(shù)據(jù)挖掘?qū)嶒?yàn)過程示意圖1.5.1準(zhǔn)備數(shù)據(jù)是整個數(shù)據(jù)挖掘過程中較為重要和費(fèi)時費(fèi)力的階段。在明確數(shù)據(jù)挖掘目標(biāo)后,可以通過從傳統(tǒng)數(shù)據(jù)庫、數(shù)據(jù)倉庫和平面文件三種途徑收集和抽取數(shù)據(jù)。1、傳統(tǒng)數(shù)據(jù)庫操作型數(shù)據(jù)庫(OperationalDatabase),它是面向日常事務(wù)處理的數(shù)據(jù)庫,通常結(jié)構(gòu)為關(guān)系模型。數(shù)據(jù)庫中包含若干個規(guī)范化了的二維關(guān)系表。2、數(shù)據(jù)倉庫數(shù)據(jù)倉庫(DataWarehouse)是面向決策支持而不是日常事務(wù)處理而設(shè)計的。3、平面文件一些數(shù)據(jù)量較小的數(shù)據(jù)集可以存儲在如Excel電子表格、.csv、.arff等平面文件中。03二月2023第27頁,共65頁1.5.2挖掘數(shù)據(jù)選擇一種數(shù)據(jù)挖掘技術(shù)或算法,將數(shù)據(jù)提交給數(shù)據(jù)挖掘工具,應(yīng)用該算法建立模型。選擇數(shù)據(jù)挖掘技術(shù)或算法需要考慮(1)判斷學(xué)習(xí)是有指導(dǎo)的還是無指導(dǎo)的。(2)數(shù)據(jù)集中的哪些實(shí)例和屬性提交給數(shù)據(jù)挖掘工具;哪些數(shù)據(jù)實(shí)例作為訓(xùn)練數(shù)據(jù);哪些數(shù)據(jù)實(shí)例作為檢驗(yàn)數(shù)據(jù)。(3)如何設(shè)置數(shù)據(jù)挖掘算法的參數(shù)。03二月2023第28頁,共65頁1.5.3解釋和評估結(jié)果對數(shù)據(jù)挖掘的輸出進(jìn)行檢查,評估其是否達(dá)到挖掘目標(biāo),確定所發(fā)現(xiàn)的信息或知識是有價值的。數(shù)據(jù)挖掘的評估工具有多種(第5章)如果結(jié)果不理想,可以(1)(2)進(jìn)行重復(fù)實(shí)驗(yàn),直到得到滿意結(jié)果為止。

(1)使用或選擇新的數(shù)據(jù)實(shí)例或?qū)傩?/p>

(2)選擇新的數(shù)據(jù)挖掘算法或參數(shù)一個數(shù)據(jù)挖掘過程是個迭代的過程。03二月2023第29頁,共65頁1.5.4模型應(yīng)用數(shù)據(jù)挖掘的終極目標(biāo)??梢詰?yīng)用分類模型解決如例1.1中的疾病診斷問題;可以應(yīng)用聚類模型解決對顧客的分類,找出不同類中顧客的行為特征,從而為諸如促銷活動等提供決策支持;可以通過應(yīng)用關(guān)聯(lián)分析模型,找出顧客購買的商品之間的關(guān)聯(lián)關(guān)系,對于貨架擺放、商品促銷等提供決策支持。03二月2023第30頁,共65頁1.6數(shù)據(jù)挖掘的作用數(shù)據(jù)挖掘的作用兩大類建立有指導(dǎo)的學(xué)習(xí)模型和無指導(dǎo)聚類模型。因變量(DependentVariables)有指導(dǎo)的學(xué)習(xí)模型中的輸出屬性的值依賴于輸入屬性的取值,所以輸出屬性又被稱為因變量自變量(IndependentVariables)相對的,輸入屬性被稱為自變量03二月2023第32頁,共65頁數(shù)據(jù)挖掘的作用03二月2023第33頁,共65頁圖1.4數(shù)據(jù)挖掘的作用1.7數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘技術(shù)(DataMiningTechnique)對一組數(shù)據(jù)應(yīng)用一種數(shù)據(jù)挖掘方法。一般由一個數(shù)據(jù)挖掘算法和一個相關(guān)的知識結(jié)構(gòu),如樹結(jié)構(gòu)或規(guī)則來定義的。03二月2023第35頁,共65頁1.7.1神經(jīng)網(wǎng)絡(luò)(NeuralNetwork)一種具有統(tǒng)計特性的數(shù)學(xué)模型。創(chuàng)建思想源于人類神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)、功能和運(yùn)行過程。試圖模擬人腦功能來完成學(xué)習(xí)。已經(jīng)成功地應(yīng)用于多個領(lǐng)域的問題中,是非常流行的數(shù)據(jù)挖掘技術(shù)??梢越⒂兄笇?dǎo)學(xué)習(xí)模型和無指導(dǎo)聚類模型。輸入屬性必須是數(shù)值的,輸出屬性可以是數(shù)值的也可以是分類的。03二月2023第36頁,共65頁前饋(Feed-Forward)神經(jīng)網(wǎng)常用的有指導(dǎo)的學(xué)習(xí)模型。全連接每一層的每個節(jié)點(diǎn)都與其下一層的所有節(jié)點(diǎn)相連接,而同層節(jié)點(diǎn)之間不相連。每個網(wǎng)絡(luò)連接上都具有權(quán)重值,如w1j、w2j、w3j。03二月2023第37頁,共65頁圖1.5三層全連接前饋神經(jīng)網(wǎng)建立神經(jīng)網(wǎng)絡(luò)模型的兩個階段第一個階段——學(xué)習(xí)訓(xùn)練階段將每個實(shí)例的輸入屬性值提交給輸入層節(jié)點(diǎn)。神經(jīng)網(wǎng)絡(luò)使用輸入值和網(wǎng)絡(luò)連接權(quán)重值來計算每個實(shí)例的輸出。將每個實(shí)例的輸出和希望的網(wǎng)絡(luò)輸出進(jìn)行比較,希望值和計算輸出值之間的誤差通過修改連接權(quán)值傳回網(wǎng)絡(luò)。當(dāng)達(dá)到一定的迭代次數(shù)后或當(dāng)網(wǎng)絡(luò)收斂到一個預(yù)定的最低錯誤率時,訓(xùn)練終止。第二個階段——檢驗(yàn)階段固定網(wǎng)絡(luò)權(quán)重,將模型用于計算新實(shí)例的輸出值。03二月2023第38頁,共65頁1.7.2回歸分析(RegressionAnalysis)一種統(tǒng)計分析方法??梢杂脕泶_定兩個或兩個以上變量之間的定量的依賴關(guān)系,并建立一個數(shù)學(xué)方程作為數(shù)學(xué)模型,來概化一組數(shù)值數(shù)據(jù),進(jìn)而進(jìn)行數(shù)值數(shù)據(jù)的估值和預(yù)測。應(yīng)用非常廣泛。03二月2023第39頁,共65頁辦公樓數(shù)據(jù)集序號Space(x1)Offices(x2)Entrances(x3)Age(x4)Value1231022201420002233322121440003235631.5331510004237932431500005240223531390006242542231690007244821.5991260008247122341429009249433231630001025174455169000112540232214900003二月2023第40頁,共65頁表1.3辦公樓數(shù)據(jù)集回歸模型03二月2023第41頁,共65頁y=27.64×2500+12529.77×3+2553.21×2?234.24×25+52317.83=158257.56

使用回歸方程預(yù)估辦公樓的價值。設(shè)有一座未知價值的辦公樓,面積為2500、3個辦公室、2個入口,已使用25年,則其估計價值計算所得,為158257.56。1.7.3關(guān)聯(lián)分析一種關(guān)聯(lián)規(guī)則(AssociationRule)挖掘技術(shù),用于發(fā)現(xiàn)數(shù)據(jù)中屬性之間的有價值的聯(lián)系。關(guān)聯(lián)規(guī)則可以有多個輸出屬性,一個規(guī)則的輸出屬性可以在另一規(guī)則中作為輸入屬性。關(guān)聯(lián)分析用來發(fā)現(xiàn)潛在的令人感興趣的商品購買組合,是購物籃分析的常用技術(shù)。關(guān)聯(lián)分析有多種算法,其中最著名的為Agrawal等人于1993年提出的Apriori關(guān)聯(lián)分析算法。Apriori算法不支持?jǐn)?shù)值型數(shù)據(jù),在使用該算法之前,需要進(jìn)行必要的數(shù)據(jù)變換。03二月2023第42頁,共65頁【例1.3】應(yīng)用Apriori算法,對表1.1中的數(shù)據(jù)集進(jìn)行關(guān)聯(lián)分析,找出感冒癥狀之間的關(guān)聯(lián)關(guān)系。關(guān)聯(lián)規(guī)則生成三條關(guān)聯(lián)規(guī)則(1)IFLeukocytosis=YesTHENFever=Yes(ruleaccuracy=5/5=100%,rulecoverage=5/8=62.5%)(2)IFIncreased-lym=NoTHENSore-throat=Yes(ruleaccuracy=4/4=100%,rulecoverage=4/7=57.1%)(3)IFCooling-effect=GoodTHENFever=Yes(ruleaccuracy=4/4=100%,rulecoverage=4/8=50%)03二月2023第44頁,共65頁1.7.4聚類技術(shù)基于劃分的聚類方法(K-means算法)基于分層的聚類方法基于模型的聚類方法。。。03二月2023第45頁,共65頁1.8數(shù)據(jù)挖掘的應(yīng)用1.8.1應(yīng)用領(lǐng)域03二月2023第47頁,共65頁圖1.6網(wǎng)站公布的2012年數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域1.8.2成功案例除了最著名的沃爾瑪?shù)哪虿己推【浦?,還有(1)EmpireBlueCross公司利用DWT,甄別出虛假開立醫(yī)療憑據(jù)的醫(yī)生,節(jié)省濫賠支出。(2)金融犯罪強(qiáng)制網(wǎng)絡(luò)AI系統(tǒng)(FAIS)使用DWT,識別大型現(xiàn)金交易中可能存在的洗錢行為。(3)加拿大西門菲沙大學(xué)(SimonFraser)的KDD研究組根據(jù)其擁有的十幾年的客戶數(shù)據(jù),進(jìn)行數(shù)據(jù)挖掘分析,提出了新的電話收費(fèi)和管理辦法,制定出公司和客戶都受益的優(yōu)惠政策。(4)美國梅?。∕ellon)銀行使用IntelligentAgent數(shù)據(jù)挖掘工具提高銷售和定價金融產(chǎn)品的準(zhǔn)確率。(5)美國西部通信(USWestCommunications)根據(jù)家庭大小、家庭成員平均年齡和所在地特征,使用數(shù)據(jù)挖掘和數(shù)據(jù)倉庫來確定客戶的傾向和需要,從而幫助簽約新客戶和增加與新客戶的交易額。(6)使用貝葉斯分類數(shù)據(jù)挖掘技術(shù),薩莎(Sacha)等人成功地通過心肌SPECT圖像對心肌灌注進(jìn)行分類,診斷患者是否患有冠心病。(7)20世紀(jì)Fox公司利用數(shù)據(jù)挖掘技術(shù)分析票房收入來確定在各個市場環(huán)境中更容易被接受的演員和故事情節(jié)。(8)科學(xué)界普遍認(rèn)為存在兩種γ射線爆。慕克吉(Mukherjee)等人使用統(tǒng)計聚類分析法發(fā)現(xiàn)了第三類γ射線爆。(9)NBA球隊使用IBM公司開發(fā)的數(shù)據(jù)挖掘應(yīng)用軟件AdvancedScout系統(tǒng)來優(yōu)化他們的戰(zhàn)術(shù)組合。(10)全球十大視頻網(wǎng)站

之一Netflix公司應(yīng)用大數(shù)據(jù)的挖掘技術(shù),成功營銷熱播劇——《紙牌屋》。03二月2023第48頁,共65頁1.9Weka數(shù)據(jù)挖掘軟件1.9.1Weka簡介Weka(WaikatoEnvironmentforKnowledgeAnalysis,懷卡托智能分析環(huán)境)誕生于UniversityofWaikato(新西蘭懷卡托大學(xué))?;贘ava的免費(fèi)開源軟件。集成了有關(guān)數(shù)據(jù)挖掘的機(jī)器學(xué)習(xí)算法和統(tǒng)計技術(shù),具有數(shù)據(jù)預(yù)處理、分類、聚類、關(guān)聯(lián)分析、屬性選擇和交互式可視化等功能。操作簡單、易學(xué)易用,作為入門軟件完成簡單挖掘工作。若未安裝JRE,需下載包含JRE的Weka版本(Weka3.6.10)03二月2023第50頁,共65頁1.Weka的特點(diǎn)Weka軟件特點(diǎn)(1)跨平臺;(2)支持結(jié)構(gòu)化文本文件、數(shù)據(jù)挖掘格式文件和數(shù)據(jù)庫接口;(3)可處理連續(xù)型數(shù)值數(shù)據(jù)和離散型(字符型和日期型)數(shù)據(jù);(4)具有缺失數(shù)據(jù)處理、噪聲處理、標(biāo)準(zhǔn)化、數(shù)據(jù)離散化、屬性構(gòu)造、轉(zhuǎn)換變量、拆分?jǐn)?shù)據(jù)、數(shù)據(jù)平滑等數(shù)據(jù)預(yù)處理功能;(5)具有分類、聚類、關(guān)聯(lián)和可視化等數(shù)據(jù)挖掘功能;(6)提供算法組合、用戶自定義算法嵌入、算法參數(shù)設(shè)置功能;(7)能夠生成基本報告、測試報告、輸出格式,實(shí)現(xiàn)模型解釋、模型比較、數(shù)據(jù)評分功能;(8)具有數(shù)據(jù)、挖掘過程及挖掘結(jié)果可視化功能。03二月2023第52頁,共65頁2.Weka的文件格式ARFF文件Weka默認(rèn)使用ARFF(Attribute-RelationFileFormat)。一種ASCII文本文件格式,由兩部分組成第一部分為頭信息(HeadInformation),包括對關(guān)系的聲明和對屬性的聲明;第二部分為數(shù)據(jù)信息(Data

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論