WEKA中文詳細(xì)教程課件_第1頁(yè)
WEKA中文詳細(xì)教程課件_第2頁(yè)
WEKA中文詳細(xì)教程課件_第3頁(yè)
WEKA中文詳細(xì)教程課件_第4頁(yè)
WEKA中文詳細(xì)教程課件_第5頁(yè)
已閱讀5頁(yè),還剩295頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)挖掘工具--WEKA教程WEKA簡(jiǎn)介…….2數(shù)據(jù)集……..11數(shù)據(jù)準(zhǔn)備…..24數(shù)據(jù)預(yù)處理…36分類……………63聚類………….184關(guān)聯(lián)規(guī)則……225選擇屬性……244數(shù)據(jù)可視化…253知識(shí)流界面…2752023/8/101數(shù)據(jù)挖掘工具--WEKA教程WEKA簡(jiǎn)介…….22023/81、WEKA簡(jiǎn)介WEKA的全名是懷卡托智能分析環(huán)境(WaikatoEnvironmentforKnowledgeAnalysis)weka也是新西蘭的一種鳥名是新西蘭懷卡托大學(xué)WEKA小組用Java開發(fā)的機(jī)器學(xué)習(xí)/數(shù)據(jù)挖掘開源軟件。其源代碼獲取http://www.cs.waikato.ac.nz/ml/weka//weka/weka-3-6-6jre.exe2005年8月,在第11屆ACMSIGKDD國(guó)際會(huì)議上,懷卡托大學(xué)的WEKA小組榮獲了數(shù)據(jù)挖掘和知識(shí)探索領(lǐng)域的最高服務(wù)獎(jiǎng),WEKA系統(tǒng)得到了廣泛的認(rèn)可,被譽(yù)為數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)歷史上的里程碑,是現(xiàn)今最完備的數(shù)據(jù)挖掘工具之一。WEKA的每月下載次數(shù)已超過(guò)萬(wàn)次。2023/8/1021、WEKA簡(jiǎn)介WEKA的全名是懷卡托智能分析環(huán)境2023/WEKA軟件主要特點(diǎn)它是集數(shù)據(jù)預(yù)處理、學(xué)習(xí)算法(分類、回歸、聚類、關(guān)聯(lián)分析)和評(píng)估方法等為一體的綜合性數(shù)據(jù)挖掘工具。具有交互式可視化界面。提供算法學(xué)習(xí)比較環(huán)境通過(guò)其接口,可實(shí)現(xiàn)自己的數(shù)據(jù)挖掘算法WEKA的界面2023/8/103WEKA軟件WEKA的界面2023/8/13探索環(huán)境命令行環(huán)境知識(shí)流環(huán)境算法試驗(yàn)環(huán)境2023/8/104探索環(huán)境命令行環(huán)境知識(shí)流環(huán)境算法試驗(yàn)環(huán)境2023/8/14Explorer環(huán)境2023/8/105Explorer環(huán)境2023/8/15把“Explorer”界面分成8個(gè)區(qū)域區(qū)域1的幾個(gè)選項(xiàng)卡是用來(lái)切換不同的挖掘任務(wù)面板。Preprocess(數(shù)據(jù)預(yù)處理):選擇和修改要處理的數(shù)據(jù)。Classify(分類):訓(xùn)練和測(cè)試分類或回歸模型。Cluster(聚類):從數(shù)據(jù)中聚類。Associate(關(guān)聯(lián)分析):從數(shù)據(jù)中學(xué)習(xí)關(guān)聯(lián)規(guī)則。SelectAttributes(選擇屬性):選擇數(shù)據(jù)中最相關(guān)的屬性。Visualize(可視化):查看數(shù)據(jù)的二維散布圖。區(qū)域2是一些常用按鈕。包括打開、編輯、保存數(shù)據(jù)及數(shù)據(jù)轉(zhuǎn)換等功能。例如,我們可以把文件“bank-data.csv”另存為“bank-data.arff”。區(qū)域3中可以選擇(Choose)某個(gè)篩選器(Filter),以實(shí)現(xiàn)篩選數(shù)據(jù)或者對(duì)數(shù)據(jù)進(jìn)行某種變換。數(shù)據(jù)預(yù)處理主要就利用它來(lái)實(shí)現(xiàn)。2023/8/106把“Explorer”界面分成8個(gè)區(qū)域區(qū)域1的幾個(gè)選項(xiàng)卡是用區(qū)域4展示了數(shù)據(jù)集的關(guān)系名、屬性數(shù)和實(shí)例數(shù)等基本情況。區(qū)域5中列出了數(shù)據(jù)集的所有屬性。勾選一些屬性并“Remove”就可以刪除它們,刪除后還可以利用區(qū)域2的“Undo”按鈕找回。區(qū)域5上方的一排按鈕是用來(lái)實(shí)現(xiàn)快速勾選的。區(qū)域6中顯示在區(qū)域5中選中的當(dāng)前某個(gè)屬性的摘要。摘要包括屬性名(Name)、屬性類型(Type)、缺失值(Missing)數(shù)及比例、不同值(Distinct)數(shù)、唯一值(Unique)數(shù)及比例對(duì)于數(shù)值屬性和標(biāo)稱屬性,摘要的方式是不一樣的。圖中顯示的是對(duì)數(shù)值屬性“income”的摘要。數(shù)值屬性顯示最小值(Minimum)、最大值(Maximum)、均值(Mean)和標(biāo)準(zhǔn)差(StdDev)標(biāo)稱屬性顯示每個(gè)不同值的計(jì)數(shù)2023/8/107區(qū)域4展示了數(shù)據(jù)集的關(guān)系名、屬性數(shù)和實(shí)例數(shù)等基本情況。202區(qū)域7是區(qū)域5中選中屬性的直方圖。若數(shù)據(jù)集的最后一個(gè)屬性(這是分類或回歸任務(wù)的默認(rèn)目標(biāo)變量)是類標(biāo)變量(例如“pep”),直方圖中的每個(gè)長(zhǎng)方形就會(huì)按照該變量的比例分成不同顏色的段。要想換個(gè)分段的依據(jù),在區(qū)域7上方的下拉框中選個(gè)不同的分類屬性就可以了。下拉框里選上“NoClass”或者一個(gè)數(shù)值屬性會(huì)變成黑白的直方圖。2023/8/108區(qū)域7是區(qū)域5中選中屬性的直方圖。2023/8/18區(qū)域8窗口的底部區(qū)域,包括狀態(tài)欄、log按鈕和Weka鳥。狀態(tài)欄(Status)顯示一些信息讓你知道正在做什么。例如,如果Explorer正忙于裝載一個(gè)文件,狀態(tài)欄就會(huì)有通知。在狀態(tài)欄中的任意位置右擊鼠標(biāo)將會(huì)出現(xiàn)一個(gè)小菜單。這個(gè)菜單給了你兩個(gè)選項(xiàng):MemoryInformation--顯示W(wǎng)EKA可用的內(nèi)存量。Rungarbagecollector--強(qiáng)制運(yùn)行Java垃圾回收器,搜索不再需要的內(nèi)存空間并將之釋放,從而可為新任務(wù)分配更多的內(nèi)存。Log按鈕可以查看以weka操作日志。右邊的weka鳥在動(dòng)的話,說(shuō)明WEKA正在執(zhí)行挖掘任務(wù)。2023/8/109區(qū)域8窗口的底部區(qū)域,包括狀態(tài)欄、log按鈕和Weka鳥。2KnowledgeFlow環(huán)境2023/8/1010KnowledgeFlow環(huán)境2023/8/1102、WEKA數(shù)據(jù)集WEKA所處理的數(shù)據(jù)集是一個(gè).arff文件的二維表2023/8/10112、WEKA數(shù)據(jù)集WEKA所處理的數(shù)據(jù)集是一個(gè).arff文件表格里的一個(gè)橫行稱作一個(gè)實(shí)例(Instance),相當(dāng)于統(tǒng)計(jì)學(xué)中的一個(gè)樣本,或者數(shù)據(jù)庫(kù)中的一條記錄。豎行稱作一個(gè)屬性(Attribute),相當(dāng)于統(tǒng)計(jì)學(xué)中的一個(gè)變量,或者數(shù)據(jù)庫(kù)中的一個(gè)字段。這樣一個(gè)表格,或者叫數(shù)據(jù)集,在WEKA看來(lái),呈現(xiàn)了屬性之間的一種關(guān)系(Relation)。上圖中一共有14個(gè)實(shí)例,5個(gè)屬性,關(guān)系名稱為“weather”。WEKA存儲(chǔ)數(shù)據(jù)的格式是ARFF(Attribute-RelationFileFormat)文件,這是一種ASCII文本文件。上圖所示的二維表格存儲(chǔ)在如下的ARFF文件中。這也就是WEKA自帶的“weather.arff”文件,在WEKA安裝目錄的“data”子目錄下可以找到。2023/8/1012表格里的一個(gè)橫行稱作一個(gè)實(shí)例(Instance),相當(dāng)于統(tǒng)計(jì)@relationweather@attributeoutlook{sunny,overcast,rainy}@attributetemperaturereal@attributehumidityreal@attributewindy{TRUE,FALSE}@attributeplay{yes,no}@datasunny,85,85,FALSE,nosunny,80,90,TRUE,noovercast,83,86,FALSE,yesrainy,70,96,FALSE,yesrainy,68,80,FALSE,yesrainy,65,70,TRUE,noovercast,64,65,TRUE,yessunny,72,95,FALSE,nosunny,69,70,FALSE,yesrainy,75,80,FALSE,yessunny,75,70,TRUE,yesovercast,72,90,TRUE,yesovercast,81,75,FALSE,yesrainy,71,91,TRUE,no2023/8/1013@relationweather2023/8/113WEKA數(shù)據(jù)文件WEKA存儲(chǔ)數(shù)據(jù)的格式是ARFF(Attribute-RelationFileFormat)文件這是一種ASCII文本文件文件的擴(kuò)展名為.arff可以用寫字板打開、編輯ARFF文件文件中以“%”開始的行是注釋,WEKA將忽略這些行。除去注釋后,整個(gè)ARFF文件可以分為兩個(gè)部分:第一部分給出了頭信息(Headinformation),包括了對(duì)關(guān)系的聲明和對(duì)屬性的聲明。第二部分給出了數(shù)據(jù)信息(Datainformation),即數(shù)據(jù)集中給出的數(shù)據(jù)。從“@data”標(biāo)記開始,后面的就是數(shù)據(jù)信息了。2023/8/1014WEKA數(shù)據(jù)文件WEKA存儲(chǔ)數(shù)據(jù)的格式是ARFF(Attri2023/8/10152023/8/115關(guān)系聲明關(guān)系名稱在ARFF文件的第一個(gè)有效行來(lái)定義,格式為:

@relation<關(guān)系名><關(guān)系名>是一個(gè)字符串。如果這個(gè)字符串包含空格,它必須加上引號(hào)(指英文標(biāo)點(diǎn)的單引號(hào)或雙引號(hào))。2023/8/1016關(guān)系聲明關(guān)系名稱在ARFF文件的第一個(gè)有效行來(lái)定義,格式為:屬性聲明屬性聲明用一列以“@attribute”開頭的語(yǔ)句表示。數(shù)據(jù)集中的每一個(gè)屬性都有對(duì)應(yīng)的“@attribute”語(yǔ)句,來(lái)定義它的屬性名稱和數(shù)據(jù)類型(datatype):

@attribute<屬性名><數(shù)據(jù)類型>

其中<屬性名>必須以字母開頭的字符串。和關(guān)系名稱一樣,如果這個(gè)字符串包含空格,它必須加上引號(hào)。屬性聲明語(yǔ)句的順序很重要,它表明了該項(xiàng)屬性在數(shù)據(jù)部分的位置。例如,“humidity”是第三個(gè)被聲明的屬性,這說(shuō)明數(shù)據(jù)部分那些被逗號(hào)分開的列中,第2列(從第0列開始)數(shù)據(jù)85908696...是相應(yīng)的“humidity”值。其次,最后一個(gè)聲明的屬性被稱作class屬性,在分類或回歸任務(wù)中,它是默認(rèn)的目標(biāo)變量。2023/8/1017屬性聲明屬性聲明用一列以“@attribute”開頭的語(yǔ)句表數(shù)據(jù)類型WEKA支持四種數(shù)據(jù)類型numeric 數(shù)值型<nominal-specification> 標(biāo)稱(nominal)型string 字符串型date[<date-format>] 日期和時(shí)間型還可以使用兩個(gè)類型“integer”和“real”,但是WEKA把它們都當(dāng)作“numeric”看待。注意:“integer”,“real”,“numeric”,“date”,“string”這些關(guān)鍵字是區(qū)分大小寫的,而“relation”、“attribute”和“data”則不區(qū)分。2023/8/1018數(shù)據(jù)類型WEKA支持四種數(shù)據(jù)類型2023/8/118數(shù)值型屬性數(shù)值型屬性可以是整數(shù)或者實(shí)數(shù),但WEKA把它們都當(dāng)作實(shí)數(shù)看待。例如:

@attributetemperaturereal

字符串屬性字符串屬性可以包含任意的文本。例如:

@attributeLCCstring2023/8/1019數(shù)值型屬性2023/8/119標(biāo)稱屬性標(biāo)稱屬性由<nominal-specification>列出一系列可能的類別名稱并放在花括號(hào)中:{<nominal-name1>,<nominal-name2>,<nominal-name3>,...}。數(shù)據(jù)集中該屬性的值只能是其中一種類別。例如屬性聲明:@attributeoutlook{sunny,overcast,rainy}說(shuō)明“outlook”屬性有三種類別:“sunny”,“overcast”和“rainy”。而數(shù)據(jù)集中每個(gè)實(shí)例對(duì)應(yīng)的“outlook”值必是這三者之一。如果類別名稱帶有空格,仍需要將之放入引號(hào)中。2023/8/1020標(biāo)稱屬性2023/8/120日期和時(shí)間屬性日期和時(shí)間屬性統(tǒng)一用“date”類型表示,它的格式是:

@attribute<屬性名>date[<date-format>]其中<date-format>是一個(gè)字符串,來(lái)規(guī)定該怎樣解析和顯示日期或時(shí)間的格式,默認(rèn)的字符串是ISO-8601所給的日期時(shí)間組合格式:“yyyy-MM-ddHH:mm:ss”數(shù)據(jù)信息部分表達(dá)日期的字符串必須符合聲明中規(guī)定的格式要求,例如:@ATTRIBUTEtimestampDATE"yyyy-MM-ddHH:mm:ss"

@DATA

"2011-05-0312:59:55"2023/8/1021日期和時(shí)間屬性2023/8/121數(shù)據(jù)信息數(shù)據(jù)信息中“@data”標(biāo)記獨(dú)占一行,剩下的是各個(gè)實(shí)例的數(shù)據(jù)。每個(gè)實(shí)例占一行,實(shí)例的各屬性值用逗號(hào)“,”隔開。如果某個(gè)屬性的值是缺失值(missingvalue),用問(wèn)號(hào)“?”表示,且這個(gè)問(wèn)號(hào)不能省略。例如:

@data

sunny,85,85,FALSE,no

?,78,90,?,yes2023/8/1022數(shù)據(jù)信息數(shù)據(jù)信息中“@data”標(biāo)記獨(dú)占一行,剩下的是各個(gè)實(shí)稀疏數(shù)據(jù)有的時(shí)候數(shù)據(jù)集中含有大量的0值,這個(gè)時(shí)候用稀疏格式的數(shù)據(jù)存儲(chǔ)更加省空間。稀疏格式是針對(duì)數(shù)據(jù)信息中某個(gè)對(duì)象的表示而言,不需要修改ARFF文件的其它部分。例如數(shù)據(jù):@data

0,X,0,Y,"classA"

0,0,W,0,"classB"用稀疏格式表達(dá)的話就是

@data

{1X,3Y,4"classA"}

{2W,4"classB"}注意:ARFF數(shù)據(jù)集最左端的屬性列為第0列,因此,1X表示X為第1列屬性值。2023/8/1023稀疏數(shù)據(jù)有的時(shí)候數(shù)據(jù)集中含有大量的0值,這個(gè)時(shí)候用稀疏格式的3、數(shù)據(jù)準(zhǔn)備數(shù)據(jù)獲取直接使用ARFF文件數(shù)據(jù)。從CSV,C4.5,binary等多種格式文件中導(dǎo)入。通過(guò)JDBC從SQL數(shù)據(jù)庫(kù)中讀取數(shù)據(jù)。從URL(UniformResourceLocator)獲取網(wǎng)絡(luò)資源的數(shù)據(jù)。數(shù)據(jù)格式轉(zhuǎn)換ARFF格式是WEKA支持得最好的文件格式。使用WEKA作數(shù)據(jù)挖掘,面臨的第一個(gè)問(wèn)題往往是數(shù)據(jù)不是ARFF格式的。WEKA還提供了對(duì)CSV文件的支持,而這種格式是被很多其他軟件(比如Excel)所支持??梢岳肳EKA將CSV文件格式轉(zhuǎn)化成ARFF文件格式。2023/8/10243、數(shù)據(jù)準(zhǔn)備數(shù)據(jù)獲取2023/8/124數(shù)據(jù)資源WEKA自帶的數(shù)據(jù)集C:\ProgramFiles\Weka-3-6\data網(wǎng)絡(luò)數(shù)據(jù)資源

/ml/datasets.html2023/8/1025數(shù)據(jù)資源WEKA自帶的數(shù)據(jù)集2023/8/125.XLS.CSV.ARFFExcel的XLS文件可以讓多個(gè)二維表格放到不同的工作表(Sheet)中,只能把每個(gè)工作表存成不同的CSV文件。打開一個(gè)XLS文件并切換到需要轉(zhuǎn)換的工作表,另存為CSV類型,點(diǎn)“確定”、“是”忽略提示即可完成操作。在WEKA中打開一個(gè)CSV類型文件,再另存為ARFF類型文件即可。2023/8/1026.XLS.CSV.ARFFExcel的XLS文件可以打開Excel的Iris.xls文件2023/8/1027打開Excel的Iris.xls文件2023/8/1272023/8/10282023/8/128將iris.xls另存為iris.csv文件2023/8/1029將iris.xls另存為iris.csv文件2023/8/12023/8/10302023/8/1302023/8/10312023/8/131在weka的Explorer中打開Iris.csv文件2023/8/1032在weka的Explorer中打開Iris.csv文件2022023/8/10332023/8/133將iris.csv另存為iris.

arff文件2023/8/1034將iris.csv另存為iris.arff文件20232023/8/10352023/8/1354、數(shù)據(jù)預(yù)處理preprocess在WEKA中數(shù)據(jù)預(yù)處理工具稱作篩選器(filters)可以定義篩選器來(lái)以各種方式對(duì)數(shù)據(jù)進(jìn)行變換。Filter一欄用于對(duì)各種篩選器進(jìn)行必要的設(shè)置。Choose按鈕:點(diǎn)擊這個(gè)按鈕就可選擇WEKA中的某個(gè)篩選器。選定一個(gè)篩選器后,它的名字和選項(xiàng)會(huì)顯示在Choose按鈕旁邊的文本框中。2023/8/10364、數(shù)據(jù)預(yù)處理preprocess在WEKA中數(shù)據(jù)預(yù)處理工載入數(shù)據(jù)Explorer的預(yù)處理(preprocess)頁(yè)區(qū)域2的前4個(gè)按鈕用來(lái)把數(shù)據(jù)載入WEKA:Openfile....打開一個(gè)對(duì)話框,允許你瀏覽本地文件系統(tǒng)上的數(shù)據(jù)文件。OpenURL....請(qǐng)求一個(gè)存有數(shù)據(jù)的URL地址。OpenDB....從數(shù)據(jù)庫(kù)中讀取數(shù)據(jù)。Generate....從一些數(shù)據(jù)生成器(DataGenerators)中生成人造數(shù)據(jù)。2023/8/1037載入數(shù)據(jù)Explorer的預(yù)處理(preprocess)去除無(wú)用屬性通常對(duì)于數(shù)據(jù)挖掘任務(wù)來(lái)說(shuō),像ID這樣的信息是無(wú)用的,可以將之刪除。在區(qū)域5勾選屬性“id”,并點(diǎn)擊“Remove”。將新的數(shù)據(jù)集保存,并重新打開。2023/8/1038去除無(wú)用屬性通常對(duì)于數(shù)據(jù)挖掘任務(wù)來(lái)說(shuō),像ID這樣的信息是無(wú)用數(shù)據(jù)離散化有些算法(如關(guān)聯(lián)分析),只能處理標(biāo)稱型屬性,這時(shí)候就需要對(duì)數(shù)值型的屬性進(jìn)行離散化。對(duì)取值有限的數(shù)值型屬性可通過(guò)修改.arff文件中該屬性數(shù)據(jù)類型實(shí)現(xiàn)離散化。例如,在某數(shù)據(jù)集中的

“children”屬性只有4個(gè)數(shù)值型取值:0,1,2,3。我們直接修改ARFF文件,把

@attributechildrennumeric

改為

@attributechildren{0,1,2,3}

就可以了。在“Explorer”中重新打開“bank-data.arff”,看看選中“children”屬性后,區(qū)域6那里顯示的“Type”變成“Nominal”了。2023/8/1039數(shù)據(jù)離散化有些算法(如關(guān)聯(lián)分析),只能處理標(biāo)稱型屬性,這時(shí)候?qū)θ≈递^多的數(shù)值型屬性,離散化可借助WEKA中名為“Discretize”的Filter來(lái)完成。在區(qū)域2中點(diǎn)“Choose”,出現(xiàn)一棵“Filter樹”,逐級(jí)找到“weka.filters.unsupervised.attribute.Discretize”,點(diǎn)擊?,F(xiàn)在“Choose”旁邊的文本框應(yīng)該顯示“Discretize-B10-M-0.1-Rfirst-last”。點(diǎn)擊這個(gè)文本框會(huì)彈出新窗口以修改離散化的參數(shù)。2023/8/1040對(duì)取值較多的數(shù)值型屬性,離散化可借助WEKA中名為“Disc在weka的Explorer中打開Iris.arff文件2023/8/1041在weka的Explorer中打開Iris.arff文件202023/8/10422023/8/1422023/8/10432023/8/143查看Iris數(shù)據(jù)集2023/8/1044查看Iris數(shù)據(jù)集2023/8/1442023/8/10452023/8/145查看Iris數(shù)據(jù)屬性分布圖,選擇屬性2023/8/1046查看Iris數(shù)據(jù)屬性分布圖,選擇屬性2023/8/1462023/8/10472023/8/1472023/8/10482023/8/148通過(guò)觀察發(fā)現(xiàn)petallength最能區(qū)分各類2023/8/1049通過(guò)觀察發(fā)現(xiàn)petallength最能區(qū)分各類2023/8/將屬性petallength離散化2023/8/1050將屬性petallength離散化2023/8/1502023/8/10512023/8/1512023/8/10522023/8/1522023/8/10532023/8/1532023/8/10542023/8/1542023/8/10552023/8/155離散化成10段數(shù)據(jù)等頻離散化離散化成10段數(shù)據(jù)2023/8/1056離散化成10段數(shù)據(jù)等頻離散化離散化成10段數(shù)據(jù)2023/8/2023/8/10572023/8/1572023/8/10582023/8/1582023/8/10592023/8/1592023/8/10602023/8/160查看離散化后的Iris數(shù)據(jù)集2023/8/1061查看離散化后的Iris數(shù)據(jù)集2023/8/1612023/8/10622023/8/1625、分類ClassifyWEKA把分類(Classification)和回歸(Regression)都放在“Classify”選項(xiàng)卡中。在這兩個(gè)數(shù)據(jù)挖掘任務(wù)中,都有一個(gè)目標(biāo)屬性(類別屬性,輸出變量)。我們希望根據(jù)一個(gè)WEKA實(shí)例的一組特征屬性(輸入變量),對(duì)目標(biāo)屬性進(jìn)行分類預(yù)測(cè)。為了實(shí)現(xiàn)這一目的,我們需要有一個(gè)訓(xùn)練數(shù)據(jù)集,這個(gè)數(shù)據(jù)集中每個(gè)實(shí)例的輸入和輸出都是已知的。觀察訓(xùn)練集中的實(shí)例,可以建立起預(yù)測(cè)的分類/回歸模型。有了這個(gè)模型,就可以對(duì)新的未知實(shí)例進(jìn)行分類預(yù)測(cè)。衡量模型的好壞主要在于預(yù)測(cè)的準(zhǔn)確程度。2023/8/10635、分類ClassifyWEKA把分類(ClassificWEKA中的典型分類算法Bayes:貝葉斯分類器BayesNet:貝葉斯信念網(wǎng)絡(luò)Na?veBayes:樸素貝葉斯網(wǎng)絡(luò)Functions:人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)MultilayerPerceptron:多層前饋人工神經(jīng)網(wǎng)絡(luò)SMO:支持向量機(jī)(采用順序最優(yōu)化學(xué)習(xí)方法)Lazy:基于實(shí)例的分類器IB1:1-最近鄰分類器IBk:k-最近鄰分類器2023/8/1064WEKA中的典型分類算法Bayes:貝葉斯分類器2023/選擇分類算法Meta:組合方法AdaBoostM1:AdaBoostM1方法Bagging:袋裝方法Rules:基于規(guī)則的分類器JRip:直接方法-Ripper算法Part:間接方法-從J48產(chǎn)生的決策樹抽取規(guī)則Trees:決策樹分類器Id3:ID3決策樹學(xué)習(xí)算法(不支持連續(xù)屬性)J48:C4.5決策樹學(xué)習(xí)算法(第8版本)REPTree:使用降低錯(cuò)誤剪枝的決策樹學(xué)習(xí)算法RandomTree:基于決策樹的組合方法2023/8/1065選擇分類算法Meta:組合方法2023/8/165選擇分類算法2023/8/1066選擇分類算法2023/8/1662023/8/10672023/8/167選擇模型評(píng)估方法四種方法Usingtrainingset使用訓(xùn)練集評(píng)估Suppliedtestset使用測(cè)試集評(píng)估Cross-validation交叉驗(yàn)證設(shè)置折數(shù)FoldsPercentagesplit保持方法。使用一定比例的訓(xùn)練實(shí)例作評(píng)估設(shè)置訓(xùn)練實(shí)例的百分比2023/8/1068選擇模型評(píng)估方法四種方法2023/8/168選擇模型評(píng)估方法2023/8/1069選擇模型評(píng)估方法2023/8/169Outputmodel.輸出基于整個(gè)訓(xùn)練集的分類模型,從而模型可以被查看,可視化等。該選項(xiàng)默認(rèn)選中。Outputper-classstats.輸出每個(gè)class的準(zhǔn)確度/反饋率(precision/recall)和正確/錯(cuò)誤(true/false)的統(tǒng)計(jì)量。該選項(xiàng)默認(rèn)選中。Outputevaluationmeasures.輸出熵估計(jì)度量。該選項(xiàng)默認(rèn)沒(méi)有選中。Outputconfusionmatrix.輸出分類器預(yù)測(cè)結(jié)果的混淆矩陣。該選項(xiàng)默認(rèn)選中。Storepredictionsforvisualization.記錄分類器的預(yù)測(cè)結(jié)果使得它們能被可視化表示。Outputpredictions.輸出測(cè)試數(shù)據(jù)的預(yù)測(cè)結(jié)果。注意在交叉驗(yàn)證時(shí),實(shí)例的編號(hào)不代表它在數(shù)據(jù)集中的位置。Cost-sensitiveevaluation.誤差將根據(jù)一個(gè)價(jià)值矩陣來(lái)估計(jì)。Set…按鈕用來(lái)指定價(jià)值矩陣。Randomseedforxval/%Split.指定一個(gè)隨即種子,當(dāng)出于評(píng)價(jià)的目的需要分割數(shù)據(jù)時(shí),它用來(lái)隨機(jī)化數(shù)據(jù)。點(diǎn)擊Moreoptions按鈕可以設(shè)置更多的測(cè)試選項(xiàng):2023/8/1070Outputmodel.輸出基于整個(gè)訓(xùn)練集的分類模型,從文字結(jié)果分析單擊start按鈕,Classifieroutput窗口顯示的文字結(jié)果信息:Runinformation運(yùn)行信息Classifiermodel(fulltrainingset)使用全部訓(xùn)練數(shù)據(jù)構(gòu)造的分類模型Summary針對(duì)訓(xùn)練/檢驗(yàn)集的預(yù)測(cè)效果匯總。DetailedAccuracyByClass對(duì)每個(gè)類的預(yù)測(cè)準(zhǔn)確度的詳細(xì)描述。ConfusionMatrix混淆矩陣,其中矩陣的行是實(shí)際的類,矩陣的列是預(yù)測(cè)得到的類,矩陣元素就是相應(yīng)測(cè)試樣本的個(gè)數(shù)。2023/8/1071文字結(jié)果分析單擊start按鈕,Classifierout文字結(jié)果2023/8/1072文字結(jié)果2023/8/172主要指標(biāo)CorrectlyClassifiedInstances正確分類率IncorrectlyClassifiedInstances錯(cuò)誤分類率KappastatisticKappa統(tǒng)計(jì)數(shù)據(jù)Meanabsoluteerror平均絕對(duì)誤差Rootmeansquarederror根均方差Relativeabsoluteerror相對(duì)絕對(duì)誤差Rootrelativesquarederror相對(duì)平方根誤差TPRate(bad/good)正確肯定率FPRate(bad/good)錯(cuò)誤肯定率Precision(bad/good)精確率Recall(bad/good)反饋率F-Measure(bad/good)F測(cè)量Timetakentobuildmodel建模花費(fèi)的時(shí)間

2023/8/1073主要指標(biāo)CorrectlyClassifiedInsta輸出圖形結(jié)果鼠標(biāo)右鍵2023/8/1074輸出圖形結(jié)果鼠標(biāo)右鍵2023/8/174Viewinmainwindow(查看主窗口)。在主窗口中查看輸出結(jié)果。Viewinseparatewindow(查看不同的窗口)。打開一個(gè)獨(dú)立的新窗口來(lái)查看結(jié)果。Saveresultbuffer(保存結(jié)果的緩沖區(qū))。彈出對(duì)話框來(lái)保存輸出結(jié)果的文本文件。Loadmodel(下載模式)。從二進(jìn)制文件中載入一個(gè)預(yù)訓(xùn)練模式對(duì)象。Savemodel(保存模式)。將一個(gè)模式對(duì)象保存到二進(jìn)制文件中,也就是保存在JAVA的串行對(duì)象格式中。Re-evaluatemodeloncurrenttestset(對(duì)當(dāng)前測(cè)試集進(jìn)行重新評(píng)估)。通過(guò)已建立的模式,并利用Suppliedtestset(提供的測(cè)試集)選項(xiàng)下的Set..按鈕來(lái)測(cè)試指定的數(shù)據(jù)集。2023/8/1075Viewinmainwindow(查看主窗口)。在主窗Visualizeclassifiererrors(可視化分類器錯(cuò)誤)。彈出一個(gè)可視化窗口來(lái)顯示分類器的結(jié)果圖。其中,正確分類的實(shí)例用叉表示,然而不正確分類的實(shí)例則是以小正方形來(lái)表示的。Visualizetree(樹的可視化)。如果可能的話,則彈出一個(gè)圖形化的界面來(lái)描述分類器模型的結(jié)構(gòu)(這只有一部分分類器才有的)。右鍵單擊空白區(qū)域彈出一個(gè)菜單,在面板中拖動(dòng)鼠標(biāo)并單擊,就可以看見(jiàn)每個(gè)節(jié)點(diǎn)對(duì)應(yīng)的訓(xùn)練實(shí)例。Visualizemargincurve(邊際曲線的可視化)。產(chǎn)生一個(gè)散點(diǎn)圖來(lái)描述預(yù)測(cè)邊際的情況。邊際被定義為預(yù)測(cè)為真實(shí)值的概率和預(yù)測(cè)為真實(shí)值之外的其它某類的最高概率之差。例如加速算法通過(guò)增加訓(xùn)練數(shù)據(jù)集的邊際來(lái)更好地完成測(cè)試數(shù)據(jù)集的任務(wù)。2023/8/1076Visualizeclassifiererrors(可視Visualizethresholdcurve(閾曲線的可視化)。產(chǎn)生一個(gè)散點(diǎn)圖來(lái)描述預(yù)測(cè)中的權(quán)衡問(wèn)題,其中權(quán)衡是通過(guò)改變類之間閾值來(lái)獲取的。例如,缺省閾值為0.5,一個(gè)實(shí)例預(yù)測(cè)為positive的概率必須要大于0.5,因?yàn)?.5時(shí)實(shí)例正好預(yù)測(cè)為positive。而且圖表可以用來(lái)對(duì)精確率/反饋率權(quán)衡進(jìn)行可視化,如ROC曲線分析(正確的正比率和錯(cuò)誤的正比率)和其它的曲線。Visualizecostcurve(成本曲線的可視化)。產(chǎn)生一個(gè)散點(diǎn)圖,來(lái)確切描述期望成本,正如Drummond和Holte所描述的一樣。

2023/8/1077Visualizethresholdcurve(閾曲線的Visualizeclassifiererrors.可視化分類錯(cuò)誤實(shí)際類與預(yù)測(cè)類的散布圖。其中正確分類的結(jié)果用叉表示,分錯(cuò)的結(jié)果用方框表示。2023/8/1078Visualizeclassifiererrors.可Visualizetree可視化樹2023/8/1079Visualizetree可視化樹2023/8/1792023/8/10802023/8/1802023/8/10812023/8/181可視化邊際曲線(Visualizemargincurve)創(chuàng)建一個(gè)散點(diǎn)圖來(lái)顯示預(yù)測(cè)邊際值。四個(gè)變量Margin:預(yù)測(cè)邊際值Instance_number:檢驗(yàn)實(shí)例的序號(hào)Current:具有當(dāng)前預(yù)測(cè)邊際值的實(shí)例個(gè)數(shù)Cumulative:小于或等于預(yù)測(cè)邊際值的實(shí)例個(gè)數(shù)(與Instance_number一致)2023/8/1082可視化邊際曲線(Visualizemargincurv2023/8/10832023/8/183單擊8號(hào)檢驗(yàn)實(shí)例,顯示該點(diǎn)的邊際值為0.5,有7個(gè)實(shí)例的邊際值小于0.5。2023/8/1084單擊8號(hào)檢驗(yàn)實(shí)例,顯示該點(diǎn)的邊際值為0.5,有7個(gè)實(shí)例的邊際可視化閾值曲線(基于類)閾值是將檢驗(yàn)實(shí)例歸為當(dāng)前類的最小概率,使用點(diǎn)的顏色表示閾值曲線上的每個(gè)點(diǎn)通過(guò)改變閾值的大小生成可以進(jìn)行ROC分析X軸選假正率Y軸選真正率2023/8/1085可視化閾值曲線(基于類)閾值是將檢驗(yàn)實(shí)例歸為當(dāng)前類的最小概率2023/8/10862023/8/1862023/8/10872023/8/187ROC曲線ROC曲線(ReceiverOperatingCharacteeristicCurve)是顯示Classification模型真正率和假正率之間折中的一種圖形化方法。假設(shè)樣本可分為正負(fù)兩類,解讀ROC圖的一些概念定義:真正(TruePositive,TP),被模型預(yù)測(cè)為正的正樣本

假負(fù)(FalseNegative,FN)被模型預(yù)測(cè)為負(fù)的正樣本假正(FalsePositive,FP)被模型預(yù)測(cè)為正的負(fù)樣本

真負(fù)(TrueNegative,TN)被模型預(yù)測(cè)為負(fù)的負(fù)樣本真正率(TruePositiveRate,TPR)或靈敏度(sensitivity)

TPR=TP/(TP+FN)

正樣本預(yù)測(cè)結(jié)果數(shù)/正樣本實(shí)際數(shù)假正率(FalsePositiveRate,FPR)

FPR=FP/(FP+TN)

被預(yù)測(cè)為正的負(fù)樣本結(jié)果數(shù)/負(fù)樣本實(shí)際數(shù)

(TPR=1,FPR=0)是理想模型

一個(gè)好的分類模型應(yīng)該盡可能靠近圖形的左上角。2023/8/1088ROC曲線ROC曲線(ReceiverOperatingIRIS分類示例

2023/8/1089IRIS分類示例2023/8/189在weka的Explorer中打開Iris.arff文件2023/8/1090在weka的Explorer中打開Iris.arff文件20在weka的Explorer中打開Iris.arff文件2023/8/1091在weka的Explorer中打開Iris.arff文件202023/8/10922023/8/192選擇分類(Classify)數(shù)據(jù)挖掘任務(wù)2023/8/1093選擇分類(Classify)數(shù)據(jù)挖掘任務(wù)2023/8/193選擇分類算法2023/8/1094選擇分類算法2023/8/194選擇決策樹算法Trees->J482023/8/1095選擇決策樹算法Trees->J482023/8/195設(shè)置相關(guān)參數(shù)2023/8/1096設(shè)置相關(guān)參數(shù)2023/8/1962023/8/10972023/8/1972023/8/10982023/8/198選擇檢驗(yàn)方法2023/8/1099選擇檢驗(yàn)方法2023/8/1992023/8/101002023/8/11002023/8/101012023/8/11012023/8/101022023/8/11022023/8/101032023/8/11032023/8/101042023/8/1104執(zhí)行分類算法,建立決策樹模型2023/8/10105執(zhí)行分類算法,建立決策樹模型2023/8/1105查看算法執(zhí)行的輸出信息2023/8/10106查看算法執(zhí)行的輸出信息2023/8/11062023/8/101072023/8/1107查看決策樹分類模型2023/8/10108查看決策樹分類模型2023/8/11082023/8/101092023/8/11092023/8/101102023/8/1110查看分類錯(cuò)誤散點(diǎn)圖2023/8/10111查看分類錯(cuò)誤散點(diǎn)圖2023/8/11112023/8/101122023/8/1112選擇其他的分類算法2023/8/10113選擇其他的分類算法2023/8/11132023/8/101142023/8/1114選擇貝葉斯分類算法bayes->Naivebayes2023/8/10115選擇貝葉斯分類算法bayes->Naivebayes202選擇檢驗(yàn)方法2023/8/10116選擇檢驗(yàn)方法2023/8/1116執(zhí)行分類算法,建立貝葉斯模型2023/8/10117執(zhí)行分類算法,建立貝葉斯模型2023/8/1117進(jìn)行ROC分析2023/8/10118進(jìn)行ROC分析2023/8/11182023/8/101192023/8/11192023/8/101202023/8/1120選擇其他的分類算法2023/8/10121選擇其他的分類算法2023/8/1121選擇決策樹用戶自分類法trees->UserClssifier2023/8/10122選擇決策樹用戶自分類法trees->UserClssifie選擇檢驗(yàn)方法2023/8/10123選擇檢驗(yàn)方法2023/8/1123執(zhí)行算法2023/8/10124執(zhí)行算法2023/8/11242023/8/101252023/8/1125數(shù)據(jù)散點(diǎn)圖2023/8/10126數(shù)據(jù)散點(diǎn)圖2023/8/1126但擊鼠標(biāo),確定分類邊界2023/8/10127但擊鼠標(biāo),確定分類邊界2023/8/1127查看相應(yīng)的分類樹2023/8/10128查看相應(yīng)的分類樹2023/8/1128預(yù)測(cè)指定屬性值2023/8/10129預(yù)測(cè)指定屬性值2023/8/1129選擇預(yù)測(cè)屬性2023/8/10130選擇預(yù)測(cè)屬性2023/8/11302023/8/101312023/8/1131選擇算法2023/8/10132選擇算法2023/8/11322023/8/101332023/8/1133執(zhí)行算法2023/8/10134執(zhí)行算法2023/8/1134觀察輸出信息2023/8/10135觀察輸出信息2023/8/11352023/8/101362023/8/1136查看分類錯(cuò)誤散點(diǎn)圖2023/8/10137查看分類錯(cuò)誤散點(diǎn)圖2023/8/11372023/8/101382023/8/1138點(diǎn)擊實(shí)例,察看詳細(xì)信息2023/8/10139點(diǎn)擊實(shí)例,察看詳細(xì)信息2023/8/1139該實(shí)例petallength的實(shí)際值為5.1,預(yù)測(cè)值為5.892023/8/10140該實(shí)例petallength的實(shí)際值為5.1,預(yù)測(cè)值為5.8訓(xùn)練BANK-DATA分類模型示例bank-data數(shù)據(jù)各屬性的含義如下:

id: auniqueidentificationnumber

age: ageofcustomerinyears(numeric)

sex: MALE/FEMALE

region: inner_city/rural/suburban/town

income: incomeofcustomer(numeric)

married: isthecustomermarried(YES/NO)

children: numberofchildren(numeric)

car: doesthecustomerownacar(YES/NO)

save_act: doesthecustomerhaveasavingaccount(YES/NO)

current_act:doesthecustomerhaveacurrentaccount(YES/NO)

mortgage:doesthecustomerhaveamortgage(YES/NO)

pep(目標(biāo)變量):didthecustomerbuyaPEP(PersonalEquityPlan,個(gè)人參股計(jì)劃)afterthelastmailing(YES/NO)2023/8/10141訓(xùn)練BANK-DATA分類模型示例bank-data數(shù)據(jù)各屬瀏覽bank-data.xls數(shù)據(jù)2023/8/10142瀏覽bank-data.xls數(shù)據(jù)2023/8/1142數(shù)據(jù)準(zhǔn)備—將數(shù)據(jù)另存為.csv格式2023/8/10143數(shù)據(jù)準(zhǔn)備—將數(shù)據(jù)另存為.csv格式2023/8/11432023/8/101442023/8/1144數(shù)據(jù)準(zhǔn)備—在WEKA中打開bank-data.csv2023/8/10145數(shù)據(jù)準(zhǔn)備—在WEKA中打開bank-data.csv2022023/8/101462023/8/11462023/8/101472023/8/11472023/8/101482023/8/1148數(shù)據(jù)準(zhǔn)備—在WEKA中瀏覽數(shù)據(jù)2023/8/10149數(shù)據(jù)準(zhǔn)備—在WEKA中瀏覽數(shù)據(jù)2023/8/11492023/8/101502023/8/1150數(shù)據(jù)準(zhǔn)備—將數(shù)據(jù)另存為.arff格式2023/8/10151數(shù)據(jù)準(zhǔn)備—將數(shù)據(jù)另存為.arff格式2023/8/1151在寫字板中瀏覽bank-data.arff文件2023/8/10152在寫字板中瀏覽bank-data.arff文件2023/8/2023/8/101532023/8/1153數(shù)據(jù)預(yù)處理去除無(wú)用屬性 通常對(duì)于數(shù)據(jù)挖掘任務(wù)來(lái)說(shuō),ID這樣的信息是無(wú)用的,我們將之刪除。勾選屬性“id”,并點(diǎn)擊“Remove”。將新的數(shù)據(jù)集保存為“bank-data.arff”,重新打開。離散化 在這個(gè)數(shù)據(jù)集中有3個(gè)變量是數(shù)值型的,分別是“age”,“income”和“children”。

其中“children”只有4個(gè)取值:0,1,2,3。這時(shí)我們直接修改ARFF文件,把

@attributechildrennumeric

改為

@attributechildren{0,1,2,3}

就可以了。

在“Explorer”中重新打開“bank-data.arff”,看看選中“children”屬性后,顯示的“Type”變成“Nominal”了。2023/8/10154數(shù)據(jù)預(yù)處理去除無(wú)用屬性2023/8/1154數(shù)據(jù)預(yù)處理“age”和“income”的離散化可借助WEKA中名為“Discretize”的Filter來(lái)完成。點(diǎn)“Choose”,出現(xiàn)一棵“Filter樹”,逐級(jí)找到“weka.filters.unsupervised.attribute.Discretize”,點(diǎn)擊?,F(xiàn)在“Choose”旁邊的文本框應(yīng)該顯示“Discretize-B10-M-0.1-Rfirst-last”。點(diǎn)擊這個(gè)文本框會(huì)彈出新窗口以修改離散化的參數(shù)。

我們不打算對(duì)所有的屬性離散化,只是針對(duì)對(duì)第1個(gè)和第4個(gè)屬性(見(jiàn)屬性名左邊的數(shù)字),故把a(bǔ)ttributeIndices右邊改成“1,4”。計(jì)劃把這兩個(gè)屬性都分成3段,于是把“bins”改成“3”。其它框里不用更改。點(diǎn)“OK”回到“Explorer”,可以看到“age”和“income”已經(jīng)被離散化成分類型的屬性。若想放棄離散化可以點(diǎn)“Undo”。經(jīng)過(guò)上述操作得到的數(shù)據(jù)集我們保存為bank-data-final.arff。2023/8/10155數(shù)據(jù)預(yù)處理“age”和“income”的離散化可借助WEKA數(shù)據(jù)預(yù)處理--去除無(wú)用屬性

2023/8/10156數(shù)據(jù)預(yù)處理--去除無(wú)用屬性2023/8/11562023/8/101572023/8/1157數(shù)據(jù)預(yù)處理—children數(shù)據(jù)離散化2023/8/10158數(shù)據(jù)預(yù)處理—children數(shù)據(jù)離散化2023/8/1158數(shù)據(jù)預(yù)處理—children數(shù)據(jù)離散化用寫字板打開bank-data.arff文件2023/8/10159數(shù)據(jù)預(yù)處理—children數(shù)據(jù)離散化用寫字板打開bank-2023/8/101602023/8/1160在WEKA中重新打開bank-data.arff文件。2023/8/10161在WEKA中重新打開bank-data.arff文件。2022023/8/101622023/8/1162觀察children屬性。2023/8/10163觀察children屬性。2023/8/1163數(shù)據(jù)預(yù)處理—離散化“age”和“income”

2023/8/10164數(shù)據(jù)預(yù)處理—離散化“age”和“income”2023/8數(shù)據(jù)預(yù)處理—數(shù)據(jù)離散化2023/8/10165數(shù)據(jù)預(yù)處理—數(shù)據(jù)離散化2023/8/11652023/8/101662023/8/11662023/8/101672023/8/11672023/8/101682023/8/11682023/8/101692023/8/11692023/8/101702023/8/11702023/8/101712023/8/1171在寫字板中重新觀察bank-data.arff數(shù)據(jù)2023/8/10172在寫字板中重新觀察bank-data.arff數(shù)據(jù)2023/訓(xùn)練分類模型2023/8/10173訓(xùn)練分類模型2023/8/11732023/8/101742023/8/11742023/8/101752023/8/1175評(píng)估分類模型2023/8/10176評(píng)估分類模型2023/8/1176選擇不同的分類算法或參數(shù)2023/8/10177選擇不同的分類算法或參數(shù)2023/8/11772023/8/101782023/8/1178選擇模型2023/8/10179選擇模型2023/8/11792023/8/101802023/8/11802023/8/101812023/8/11812023/8/101822023/8/11822023/8/101832023/8/11836、聚類cluster聚類分析是把對(duì)象分配給各個(gè)簇,使同簇中的對(duì)象相似,而不同簇間的對(duì)象相異。WEKA在“Explorer”界面的“Cluster”提供聚類分析工具選擇聚類算法2023/8/101846、聚類cluster聚類分析是把對(duì)象分配給各個(gè)簇,使同WEKA中的聚類算法2023/8/10185WEKA中的聚類算法2023/8/1185主要算法包括:SimpleKMeans—支持分類屬性的K均值算法DBScan—支持分類屬性的基于密度的算法EM—基于混合模型的聚類算法FathestFirst—K中心點(diǎn)算法OPTICS—基于密度的另一個(gè)算法Cobweb—概念聚類算法sIB—基于信息論的聚類算法,不支持分類屬性XMeans—能自動(dòng)確定簇個(gè)數(shù)的擴(kuò)展K均值算法,不支持分類屬性2023/8/10186主要算法包括:2023/8/1186參數(shù)設(shè)置SimpleKMeans重要參數(shù)N—簇個(gè)數(shù)DBScan重要參數(shù)E—Eps半徑M—MinPts,Eps半徑內(nèi)點(diǎn)個(gè)數(shù)2023/8/10187參數(shù)設(shè)置SimpleKMeans重要參數(shù)2023/8/118SimpleKMeans重要參數(shù)2023/8/10188SimpleKMeans重要參數(shù)2023/8/1188displayStdDevs:是否顯示數(shù)值屬性標(biāo)準(zhǔn)差和分類屬性個(gè)數(shù)distanceFunction:選擇比較實(shí)例的距離函數(shù)(默認(rèn):weka.core.EuclideanDistance)dontReplaceMissingValues:是否不使用均值/眾數(shù)(mean/mode)替換缺失值。maxIterations:最大迭代次數(shù)numClusters:聚類的簇?cái)?shù)preserveInstancesOrder:是否預(yù)先排列實(shí)例的順序Seed:設(shè)定的隨機(jī)種子值2023/8/10189displayStdDevs:是否顯示數(shù)值屬性標(biāo)準(zhǔn)差和分類屬聚類模式ClusterMode2023/8/10190聚類模式ClusterMode2023/8/1190使用訓(xùn)練集(Usetrainingset)—報(bào)告訓(xùn)練對(duì)象的聚類結(jié)果和分組結(jié)果使用附加的檢驗(yàn)集(Suppliedtestset)—報(bào)告訓(xùn)練對(duì)象的聚類結(jié)果和附加的檢驗(yàn)對(duì)象的分組結(jié)果百分比劃分(Percentagesplit)—報(bào)告全部對(duì)象的聚類結(jié)果、訓(xùn)練對(duì)象的聚類結(jié)果,以及檢驗(yàn)對(duì)象的分組結(jié)果監(jiān)督評(píng)估(Classestoclustersevaluation)—報(bào)告訓(xùn)練對(duì)象的聚類結(jié)果和分組結(jié)果、類/簇混淆矩陣和錯(cuò)誤分組信息2023/8/10191使用訓(xùn)練集(Usetrainingset)—報(bào)告訓(xùn)執(zhí)行聚類算法點(diǎn)擊“Start”按鈕,執(zhí)行聚類算法2023/8/10192執(zhí)行聚類算法點(diǎn)擊“Start”按鈕,執(zhí)行聚類算法2023/8觀察聚類結(jié)果觀察右邊“Clustereroutput”給出的聚類結(jié)果。也可以在左下角“Resultlist”中這次產(chǎn)生的結(jié)果上點(diǎn)右鍵,“Viewinseparatewindow”在新窗口中瀏覽結(jié)果。2023/8/10193觀察聚類結(jié)果觀察右邊“Clustereroutput”給出===Runinformation===%運(yùn)行信息Scheme:weka.clusterers.SimpleKMeans-N3-A“weka.core.EuclideanDistance-Rfirst-last”-I500-S10%

算法的參數(shù)設(shè)置:-N3-A“weka.core.EuclideanDistance-Rfirst-last”-I500-S10;%

各參數(shù)依次表示:%-N3–聚類簇?cái)?shù)為3;%-A“weka.core.EuclideanDistance–中心距離為歐氏距離;%-I500--最多迭代次數(shù)為500;%-S10--隨機(jī)種子值為10。Relation:iris%數(shù)據(jù)集名稱Instances:150%數(shù)據(jù)集中的實(shí)例個(gè)數(shù)2023/8/10194===Runinformation===%運(yùn)Attributes:5%數(shù)據(jù)集中的屬性個(gè)數(shù)及屬性名稱sepallengthsepalwidthpetallengthpetalwidthIgnored:%忽略的屬性classTestmode:Classestoclustersevaluationontrainingdata%測(cè)試模式===Modelandevaluationontainingset===%基于訓(xùn)練數(shù)據(jù)集的模型與評(píng)價(jià)kMeans%使用kMeans算法======Numberofiterations:6kMeans%迭代次數(shù)Winthinclustersumofsquarederrors:6.998114004826762%SSE(誤差的平方和)Missingvaluesgloballyreplacedwithmean/mode%用均值/眾數(shù)替代缺失值2023/8/10195Attributes:5%數(shù)據(jù)集中的屬性Clustercentroids:%各個(gè)簇的質(zhì)心Cluster#AttributeFullData012(150)(61)(60)(39)========================================sepallength5.84335.88855.0066.8462sepalwidth3.0642.73773,4183.0821petallength3.75874,39671,4645.7026petalwidth1.19871.4180.2442.0795Timetakentobuildmodel(fulltrainingdata):0.03seconds%建模用的時(shí)間===Modalandevaluationontrainingset===ClusteredInstances%各個(gè)簇中的實(shí)例個(gè)數(shù)及百分比。061(41%)150(33%)239(26%)2023/8/10196Clustercentroids:%各個(gè)簇的質(zhì)心202注意:采用有監(jiān)督聚類(即已知建模數(shù)據(jù)集的類標(biāo)號(hào)),

才會(huì)出現(xiàn)以下執(zhí)行信息。Classattribute:class%類標(biāo)號(hào)屬性名稱ClassestoClusters:%類簇混淆矩陣012<--assignedtocluster0500|Iris-setosa4703|Iris-versicolor14036|Iris-virginisaCluster0<--Iris-versicolorCluster1<--Iris-setosaCluster2<--Iris-virginicaIncorrectlyclusteredinstances:17.011.3333%%錯(cuò)分實(shí)例個(gè)數(shù)及百分比2023/8/10197注意:采用有監(jiān)督聚類(即已知建模數(shù)據(jù)集的類標(biāo)號(hào)),

文字分析SimpleKMeans非監(jiān)督模式:運(yùn)行信息、KMeans結(jié)果(迭代次數(shù)、SSE、簇中心)、檢驗(yàn)對(duì)象的分組信息監(jiān)督模式:運(yùn)行信息、KMeans結(jié)果(迭代次數(shù)、SSE、簇中心)、類/簇混淆矩陣、錯(cuò)誤分組的對(duì)象個(gè)數(shù)和比例簇中心:對(duì)于數(shù)值屬性為均值,對(duì)于分類屬性為眾數(shù)DBScan非監(jiān)督模式:運(yùn)行信息、DBScan結(jié)果(迭代次數(shù)、各個(gè)訓(xùn)練對(duì)象的分組信息)、檢驗(yàn)對(duì)象的分組信息監(jiān)督模式:運(yùn)行信息、DBScan結(jié)果(迭代次數(shù)、各個(gè)訓(xùn)練對(duì)象的分組信息)、類/簇混淆矩陣、錯(cuò)誤分組的對(duì)象個(gè)數(shù)和比例圖形分析(必須將storeclustersforvisualization勾上)可視化簇指派(Visualizeclusterassignments):2D散布圖,能夠可視化類/簇混淆矩陣2023/8/10198文字分析2023/8/1198SimpleKMeans聚類結(jié)果分析重要的輸出信息“Withinclustersumofsquarederrors

”評(píng)價(jià)聚類好壞的標(biāo)準(zhǔn)—SSE,即誤差的平方和。SSE值越小說(shuō)明聚類結(jié)果越好。“Clustercentroids:”之后列出了各個(gè)簇中心的位置。對(duì)于數(shù)值型的屬性,簇中心就是它的均值(Mean),分類型的就是它的眾數(shù)(Mode)?!癈lusteredInstances”是各個(gè)簇中實(shí)例的數(shù)目及百分比。

2023/8/10199SimpleKMeans聚類結(jié)果分析重要的輸出信息2023/觀察可視化的聚類結(jié)果在左下方“Resultlist”列出的結(jié)果上右擊,點(diǎn)“Visualizeclusterassignments”。彈出的窗口給出了各實(shí)例的散點(diǎn)圖。最上方的兩個(gè)框是選擇橫坐標(biāo)和縱坐標(biāo),第二行的”color”是散點(diǎn)圖著色的依據(jù),默認(rèn)是根據(jù)不同的簇“Cluster”給實(shí)例標(biāo)上不同的顏色。

2023/8/10200觀察可視化的聚類結(jié)果在左下方“Resultlist”列出的示例:對(duì)IRIS數(shù)據(jù)集作聚類分析2023/8/10201示例:對(duì)IRIS數(shù)據(jù)集作聚類分析2023/8/1201采用無(wú)監(jiān)督聚類,刪除原有的類標(biāo)號(hào)2023/8/10202采用無(wú)監(jiān)督聚類,刪除原有的類標(biāo)號(hào)2023/8/1202選擇聚類數(shù)據(jù)挖掘任務(wù)2023/8/10203選擇聚類數(shù)據(jù)挖掘任務(wù)2023/8/1203選擇聚類算法2023/8/10204選擇聚類算法2023/8/1204選中SimpleKMeans算法2023/8/10205選中SimpleKMeans算法2023/8/1205設(shè)置參數(shù)2023/8/10206設(shè)置參數(shù)2023/8/1206聚類簇?cái)?shù)numCluster=32023/8/10207聚類簇?cái)?shù)numCluster=32023/8/1207執(zhí)行聚類算法2023/8/10208執(zhí)行聚類算法2023/8/1208觀察聚類結(jié)果2023/8/10209觀察聚類結(jié)果2023/8/12092023/8/102102023/8/1210可視化聚類結(jié)果2023/8/10211可視化聚類結(jié)果2023/8/1211保存聚類結(jié)果2023/8/10212保存聚類結(jié)果2023/8/12122023/8/102132023/8/1213在寫字板中觀察實(shí)例的簇2023/8/10214在寫字板中觀察實(shí)例的簇2023/8/1214聚類實(shí)驗(yàn)—銀行客戶分類

本次實(shí)驗(yàn)利用Weka中提供的simpleKmeans(K-均值)算法對(duì)“bank-data”數(shù)據(jù)進(jìn)行聚類分析,其目的是發(fā)現(xiàn)相似客戶群,以滿足銀行的客戶細(xì)分需求,為銀行針對(duì)不同客戶群體的營(yíng)銷策略提供支持。2023/8/10215聚類實(shí)驗(yàn)—銀行客戶分類本次實(shí)驗(yàn)利用Weka中提供的simp數(shù)據(jù)的準(zhǔn)備及預(yù)處理

原始數(shù)據(jù)“bank-data.xls”是excel文件格式的數(shù)據(jù),需要轉(zhuǎn)換成Weka支持的ARFF文件格式的。轉(zhuǎn)換方法:在excel中打開“bank-data.xls”,選擇菜單文件—>另存為,在彈出的對(duì)話框中,文件名輸入“bank-data”,保存類型選擇“CSV(逗號(hào)分隔)”,保存,我們便可得到“bank-data.csv”文件;然后,打開Weka的Exporler,點(diǎn)擊Openfile按鈕,打開剛才得到的“bank-data.csv”文件;點(diǎn)擊“save”按鈕,在彈出的對(duì)話框中,文件名輸入“bank-data.arff”,文件類型選擇“Arffdatafiles(*.arff)”,這樣得到的數(shù)據(jù)文件為“bank-data.arff”。

2023/8/10216數(shù)據(jù)的準(zhǔn)備及預(yù)處理原始數(shù)據(jù)“bank-data.xls”是K均值算法只能處理數(shù)值型的屬性,遇到分類型的屬性時(shí)要把它變?yōu)槿舾蓚€(gè)取值0和1的屬性。WEKA將自動(dòng)實(shí)施這個(gè)分類型到數(shù)值型的變換,而且WEKA會(huì)自動(dòng)對(duì)數(shù)值型的數(shù)據(jù)作標(biāo)準(zhǔn)化。因此,對(duì)于ARFF格式的原始數(shù)據(jù)“bank-data.arff”,我們所做的預(yù)處理只是刪去屬性“id”,修改屬性“children”為分類型。

修改過(guò)程如下:打開“bank-data.arff”,將@attributechildrennumeric改成如下:

2023/8/10217K均值算法只能處理數(shù)值型的屬性,遇到分類型的屬性時(shí)要把它變?yōu)槭褂肳EKA聚類用“Explorer”打開包含600條實(shí)例“bank-data.arff”,并切換到“Cluster”。點(diǎn)擊“Choose”按鈕,選擇“SimpleKMeans”。點(diǎn)擊旁邊的文本框,修改參數(shù)“numClusters”為6,說(shuō)明我們希望把這600條實(shí)例聚成6類,即K=6。下面的“seed”參數(shù)是要設(shè)置一個(gè)隨機(jī)種子,依此產(chǎn)生一個(gè)隨機(jī)數(shù),用來(lái)得到K均值算法中第一次給出的K個(gè)簇中心的位置。我們暫時(shí)讓它就為10。選中“ClusterMode”的“Usetrainingset”點(diǎn)擊“Start”按鈕觀察右邊“Clustereroutput”給出的聚類結(jié)果。

2023/8/10218使用WEKA聚類用“Explorer”打開包含600條實(shí)例“2023/8/102192023/8/12192023/8/102202023/8/12202023/8/102212023/8/1221結(jié)果分析

當(dāng)前Withinclustersumofsquarederrors:1604.7416693522332,調(diào)整“seed”參數(shù),觀察Withinclustersumofsquarederrors(SSE)變化。采納SSE最小的一個(gè)結(jié)果?!癈lustercentroids:”之后列出了各個(gè)簇中心的位置。對(duì)于數(shù)值型的屬性,簇中心就是它的均值(Mean),如cluster0的數(shù)值型變量age的均值37.1299;分類型的就是它的眾數(shù)(Mode),如cluster0的分類型變量children的眾數(shù)為3,也就是說(shuō)這個(gè)屬性上取值為眾數(shù)值3(有3個(gè)孩子)的實(shí)例最多。為了觀察可視化的聚類結(jié)果,在左下方“Resultlist”列出的結(jié)果上右擊,點(diǎn)“Visualizeclusterassignments”。彈出的窗口給出了各實(shí)例的散點(diǎn)圖。最上方的兩個(gè)框是選擇橫坐標(biāo)和縱坐標(biāo),第二行的”color”是散點(diǎn)圖著色的依據(jù),默認(rèn)是根據(jù)不同的簇“Cluster”給實(shí)例標(biāo)上不同的顏色。例如,橫坐標(biāo)選擇Instance_number,縱坐標(biāo)選擇income。2023/8/10222結(jié)果分析當(dāng)前Withinclustersumofs2023/8/102232023/8/1223點(diǎn)擊“Save”,把聚類結(jié)果保存成bank_Cluster.arff文件??梢栽趯懽职逯写蜷_觀察聚類結(jié)果文件。在這個(gè)新的ARFF文件中,“instance_number”屬性表示某實(shí)例的編號(hào),“Cluster”屬性表示聚類算法給出的該實(shí)例所在的簇。2023/8/10224點(diǎn)擊“Save”,把聚類結(jié)果保存成bank_Cluster.7、關(guān)聯(lián)規(guī)則associationsWEKA關(guān)聯(lián)規(guī)則學(xué)習(xí)能夠發(fā)現(xiàn)屬性組之間的依賴關(guān)系:例如,milk,butterbread,eggs(置信度0.9a

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論