數(shù)據(jù)挖掘算法培訓(xùn)講義分類和預(yù)測_第1頁
數(shù)據(jù)挖掘算法培訓(xùn)講義分類和預(yù)測_第2頁
數(shù)據(jù)挖掘算法培訓(xùn)講義分類和預(yù)測_第3頁
數(shù)據(jù)挖掘算法培訓(xùn)講義分類和預(yù)測_第4頁
數(shù)據(jù)挖掘算法培訓(xùn)講義分類和預(yù)測_第5頁
已閱讀5頁,還剩58頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)挖掘算法培訓(xùn)講義分類和預(yù)測第一頁,共六十六頁,2022年,8月28日2023/2/251數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)DM算法-1分類和預(yù)測什么是分類?什么是預(yù)測?關(guān)于分類與預(yù)測的問題通過決策樹歸納來分類貝葉斯分類通過反向傳播來分類基于關(guān)聯(lián)規(guī)則挖掘的概念來分類其它分類方法預(yù)測分類準(zhǔn)確率總結(jié)第二頁,共六十六頁,2022年,8月28日2023/2/252數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)分類:

預(yù)測分類標(biāo)簽基于訓(xùn)練集和分類屬性值(分類標(biāo)簽)構(gòu)造分類模型,然后用該模型分類新數(shù)據(jù)預(yù)測:對連續(xù)函數(shù)建模,即預(yù)測未知的或缺失的數(shù)據(jù)典型應(yīng)用信用審核目標(biāo)營銷醫(yī)療診斷治療效果分析分類與預(yù)測第三頁,共六十六頁,2022年,8月28日2023/2/253數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)分類—兩步驟過程

建立一個(gè)模型:描述預(yù)定的數(shù)據(jù)類或概念集假定每個(gè)元組/樣本可以通過類標(biāo)簽屬性來確定它屬于某個(gè)預(yù)定義的類用于創(chuàng)建模型的元組集合:訓(xùn)練集模型可以用分類規(guī)則,決策樹,或數(shù)學(xué)公式來表達(dá)使用模型:對未知(分類標(biāo)簽的)對象進(jìn)行分類模型估計(jì)準(zhǔn)確率已知測試樣本的分類標(biāo)簽,將其和模型的分類結(jié)果比較模型在給定測試集上的準(zhǔn)確率是正確被模型分類的測試樣本的百分比測試集應(yīng)獨(dú)立于訓(xùn)練集,否則可能導(dǎo)致過度擬合第四頁,共六十六頁,2022年,8月28日2023/2/254數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)分類過程(1):模型創(chuàng)建訓(xùn)練數(shù)據(jù)分類算法IFrank=‘professor’ORyears>6THENtenured=‘yes’分類器(模型)第五頁,共六十六頁,2022年,8月28日2023/2/255數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)分類過程(2):使用模型來預(yù)測分類器測試數(shù)據(jù)新數(shù)據(jù)(Jeff,Professor,4)Tenured?第六頁,共六十六頁,2022年,8月28日2023/2/256數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)有指導(dǎo)的vs.無指導(dǎo)的學(xué)習(xí)有指導(dǎo)的學(xué)習(xí)(分類)指導(dǎo):模型的學(xué)習(xí)在被告知每個(gè)訓(xùn)練樣本屬于哪個(gè)類的“指導(dǎo)”下進(jìn)行基于訓(xùn)練集對新數(shù)據(jù)進(jìn)行分類無指導(dǎo)的學(xué)習(xí)

(聚類)訓(xùn)練數(shù)據(jù)的類標(biāo)簽是未知的給定一組樣本,試圖建立分類或數(shù)據(jù)的聚類第七頁,共六十六頁,2022年,8月28日2023/2/257數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)DM算法-1分類和預(yù)測什么是分類?什么是預(yù)測?關(guān)于分類與預(yù)測的問題通過決策樹歸納來分類貝葉斯分類通過反向傳播來分類基于關(guān)聯(lián)規(guī)則挖掘的概念來分類其它分類方法預(yù)測分類準(zhǔn)確率總結(jié)第八頁,共六十六頁,2022年,8月28日2023/2/258數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)分類與預(yù)測相關(guān)問題(1):數(shù)據(jù)準(zhǔn)備數(shù)據(jù)清洗數(shù)據(jù)準(zhǔn)備是為了減少噪聲數(shù)據(jù),并處理缺失值相關(guān)分析(特征選取)刪除無關(guān)屬性和冗余屬性數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)的泛化和歸一化第九頁,共六十六頁,2022年,8月28日2023/2/259數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)分類與預(yù)測的相關(guān)問題(2):分類方法的評估預(yù)測準(zhǔn)確率速度和擴(kuò)展能力創(chuàng)建模型所需時(shí)間應(yīng)用模型所需時(shí)間健壯性可以處理噪聲和缺失值擴(kuò)展能力在大型數(shù)據(jù)庫上的處理能力可解釋性模型能否增強(qiáng)用戶對數(shù)據(jù)的理解和洞察力是否良好的規(guī)則決策樹的大小分類規(guī)則的簡潔程度第十頁,共六十六頁,2022年,8月28日2023/2/2510數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)DM算法-1分類和預(yù)測什么是分類?什么是預(yù)測?關(guān)于分類與預(yù)測的問題通過決策樹歸納來分類貝葉斯分類通過反向傳播來分類基于關(guān)聯(lián)規(guī)則挖掘的概念來分類其它分類方法預(yù)測分類準(zhǔn)確率總結(jié)第十一頁,共六十六頁,2022年,8月28日2023/2/2511數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)通過決策樹歸納進(jìn)行分類決策樹類似于流程圖的樹型結(jié)構(gòu)內(nèi)部節(jié)點(diǎn)代表對某個(gè)屬性的一次測試分支代表測試的輸出結(jié)果葉節(jié)點(diǎn)代表分類標(biāo)簽或分布決策樹的生成包括兩個(gè)階段樹的創(chuàng)建首先,所有訓(xùn)練樣本都位于根節(jié)點(diǎn)遞歸地基于選擇屬性來劃分樣本集樹的修剪識別并刪除那些反映噪聲或孤立點(diǎn)的分支應(yīng)用決策樹:對未知樣本進(jìn)行分類在決策樹上測試樣本的各個(gè)屬性值第十二頁,共六十六頁,2022年,8月28日2023/2/2512數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)訓(xùn)練數(shù)據(jù)集接下來是Quinlan’sID3算法示例第十三頁,共六十六頁,2022年,8月28日2023/2/2513數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)輸出:預(yù)測“是否會購買計(jì)算機(jī)”的決策樹age?overcaststudent?creditrating?noyesfairexcellent<=30>40nonoyesyesyes30..40第十四頁,共六十六頁,2022年,8月28日2023/2/2514數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)決策樹歸納算法基本算法(貪婪算法)樹的創(chuàng)建是一種自頂向下遞歸的分而治之方法首先,所有訓(xùn)練樣本都位于根節(jié)點(diǎn)屬性都是類別型變量(若為連續(xù)值,則需先離散化)基于選擇的屬性,對樣本進(jìn)行遞歸劃分通過啟發(fā)式搜索或統(tǒng)計(jì)量來選取測試屬性(例如,信息增益)停止劃分的條件對于某個(gè)給定節(jié)點(diǎn),所有樣本都屬于同一分類沒有剩余屬性可供進(jìn)一步劃分–按照少數(shù)服從多數(shù)的原則來確定葉節(jié)點(diǎn)的分類所有樣本都已分類完畢第十五頁,共六十六頁,2022年,8月28日2023/2/2515數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)屬性選取的度量信息增益

(ID3/C4.5)所有屬性應(yīng)為類別型變量可以通過改進(jìn)來處理連續(xù)值屬性Gini索引(IBMIntelligentMiner)所有屬性應(yīng)為連續(xù)值變量對于每個(gè)屬性,假定已存在若干可能的切分點(diǎn)可能需要其它工具(如聚類)的輔助來獲取切分點(diǎn)可以通過改進(jìn)來處理類別型屬性第十六頁,共六十六頁,2022年,8月28日2023/2/2516數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)信息增益(ID3/C4.5)選取具有最高信息增益的屬性假定存在兩個(gè)分類,P

和N樣本集S中包含p個(gè)樣本屬于類別P,n個(gè)樣本屬于類別N用于判別S中任意樣本屬于類別P

或N

的信息量,定義為第十七頁,共六十六頁,2022年,8月28日2023/2/2517數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)決策樹歸納中的信息增益假定通過屬性A可以將樣本集S劃分為多個(gè)集合{S1,S2,…,Sv}如果Si

包含pi

個(gè)P類樣本和ni

個(gè)N類樣本,熵,或?qū)所有子樹中的對象進(jìn)行分類所需的期望信息i

定義為在A上分枝將獲得的編碼信息是第十八頁,共六十六頁,2022年,8月28日2023/2/2518數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)通過計(jì)算信息增益來選取屬性類別P:buys_computer=“yes”類別N:buys_computer=“no”I(p,n)=I(9,5)=0.940計(jì)算屬性age的熵:因此同樣的第十九頁,共六十六頁,2022年,8月28日2023/2/2519數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)Gini

索引(IBMIntelligentMiner)如果數(shù)據(jù)集T

包含n種類別的樣本,giniindex,gini(T)定義如下

其中pj

是類別j

在T中所占的百分比如果數(shù)據(jù)集T

被劃分為兩個(gè)子集T1

和T2,大小分別為N1

和N2,該劃分的giniindexgini(T)定義為選取具有最小ginisplit(T)的屬性,對T進(jìn)行分裂(對每個(gè)屬性,需枚舉出所有可能的切分點(diǎn)).第二十頁,共六十六頁,2022年,8月28日2023/2/2520數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)從樹中抽取分類規(guī)則用IF-THEN規(guī)則來作為知識表示從根節(jié)點(diǎn)到葉節(jié)點(diǎn)的每條路徑,對于于一條規(guī)則路徑上的每個(gè)(屬性-值)對被聯(lián)合起來葉節(jié)點(diǎn)給出了類別預(yù)測規(guī)則非常易懂示例IFage=“<=30”ANDstudent=“no”THENbuys_computer=“no”IFage=“<=30”ANDstudent=“yes”THENbuys_computer=“yes”IFage=“31…40” THENbuys_computer=“yes”IFage=“>40”ANDcredit_rating=“excellent”THENbuys_computer=“yes”IFage=“>40”ANDcredit_rating=“fair”THENbuys_computer=“no”第二十一頁,共六十六頁,2022年,8月28日2023/2/2521數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)避免分類中的過度訓(xùn)練生成的樹可能會過度擬合了訓(xùn)練數(shù)據(jù)分支太多,某些分支其實(shí)反映的是特例(由噪聲數(shù)據(jù)或孤立點(diǎn)引起的)導(dǎo)致預(yù)測未知樣本的準(zhǔn)確率很差避免過度訓(xùn)練的兩種方法預(yù)修剪:盡早中止樹的創(chuàng)建—當(dāng)某個(gè)分裂會導(dǎo)致優(yōu)度度量低于給定閾值時(shí),就不再分裂節(jié)點(diǎn)難于確定合適的閾值后修剪:從“已長成的”樹中刪除分支—得到多個(gè)修剪后的樹使用與訓(xùn)練數(shù)據(jù)不同的驗(yàn)證集來決定哪個(gè)是“最佳剪枝樹”第二十二頁,共六十六頁,2022年,8月28日2023/2/2522數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)決定最終樹大小的方法將數(shù)據(jù)集的2/3作為訓(xùn)練集,1/3作為測試集使用交叉驗(yàn)證,例如,10-fold交叉驗(yàn)證使用全部數(shù)據(jù)來訓(xùn)練但運(yùn)用統(tǒng)計(jì)檢驗(yàn)(例如,chi-square)來估計(jì)對某個(gè)節(jié)點(diǎn)的分裂或修剪是否能改善整體分布使用最小描述長度(MDL)原則:當(dāng)編碼量達(dá)到最小時(shí)停止樹的生長第二十三頁,共六十六頁,2022年,8月28日2023/2/2523數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)決策樹歸納的改進(jìn)允許處理連續(xù)值屬性動(dòng)態(tài)地對連續(xù)屬性值離散化(劃分為若干區(qū)間)處理缺失的屬性值賦以最常見的屬性值計(jì)算各種取值的概率屬性創(chuàng)建基于樹中很少出現(xiàn)的那些屬性,創(chuàng)建新的屬性(例如對類別型變量分組,因?yàn)樾畔⒃鲆嫫蛴谌≈刀嗟膶傩?避免碎片(過細(xì)的分支),重復(fù)(屬性在路徑上被多次測試)和復(fù)制(出現(xiàn)相同子樹)第二十四頁,共六十六頁,2022年,8月28日2023/2/2524數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)大型數(shù)據(jù)庫中的分類分類—對于分類算法,很多統(tǒng)計(jì)學(xué)家和機(jī)器學(xué)習(xí)研究者進(jìn)行了廣泛的研究擴(kuò)展性:對于具有上百萬的樣本和數(shù)百個(gè)屬性類別的數(shù)據(jù)集,分類所需時(shí)間可接受為什么要采用決策樹歸納?比較快的學(xué)習(xí)速度(和其它分類方法相比)可以轉(zhuǎn)換為簡單易懂的分類規(guī)則可以用SQL查詢來實(shí)現(xiàn)分類準(zhǔn)確率和其它方法相近第二十五頁,共六十六頁,2022年,8月28日2023/2/2525數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)DM算法-1分類和預(yù)測什么是分類?什么是預(yù)測?關(guān)于分類與預(yù)測的問題通過決策樹歸納來分類貝葉斯分類通過反向傳播來分類基于關(guān)聯(lián)規(guī)則挖掘的概念來分類其它分類方法預(yù)測分類準(zhǔn)確率總結(jié)第二十六頁,共六十六頁,2022年,8月28日2023/2/2526數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)貝葉斯分類:為什么?概率學(xué)習(xí):計(jì)算假設(shè)的先驗(yàn)概率,是處理某些學(xué)習(xí)問題的常見方法遞增的:每個(gè)訓(xùn)練樣本可以逐步增加/降低假設(shè)正確的概率.已有知識可以與觀察數(shù)據(jù)合并.概率預(yù)測:對多個(gè)假設(shè)進(jìn)行預(yù)測,根據(jù)概率賦于不同權(quán)重標(biāo)志的:盡管貝葉斯分類方法不容易實(shí)施,它們依然可以提供決策制定的優(yōu)化標(biāo)準(zhǔn),對其它方法進(jìn)行評估第二十七頁,共六十六頁,2022年,8月28日2023/2/2527數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)貝葉斯定理給定訓(xùn)練數(shù)據(jù)D,假設(shè)h的后驗(yàn)概率,P(h|D)滿足貝葉斯定理MAP(最大后驗(yàn)概率)假設(shè)難以實(shí)施:需要首先知道多個(gè)概率,計(jì)算開銷大第二十八頁,共六十六頁,2022年,8月28日2023/2/2528數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)樸素貝葉斯分類器(I)簡化假設(shè):屬性間彼此條件獨(dú)立:極大減少了計(jì)算開銷,只用統(tǒng)計(jì)類別分布即可第二十九頁,共六十六頁,2022年,8月28日2023/2/2529數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)樸素貝葉斯分類器(II)給定一個(gè)訓(xùn)練集,可以計(jì)算如下概率第三十頁,共六十六頁,2022年,8月28日2023/2/2530數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)貝葉斯分類分類問題被形式化為計(jì)算后驗(yàn)概率:計(jì)算P(C|X)=元組X(=<x1,…,xk>)屬于類別C的概率例如P(類別=N|outlook=sunny,windy=true,…)主要思想:將樣本X分類到P(C|X)取最大值的類別標(biāo)簽C第三十一頁,共六十六頁,2022年,8月28日2023/2/2531數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)后驗(yàn)概率的估計(jì)貝葉斯定理:P(C|X)=P(X|C)·P(C)/P(X)對于所有類別來說,P(X)是不變的P(C)=屬于類別C的樣本占總體的比率使得P(C|X)取最大值的類別C=

使得P(X|C)·P(C)取最大值的類別C問題:要計(jì)算P(X|C)并不容易!第三十二頁,共六十六頁,2022年,8月28日2023/2/2532數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)樸素貝葉斯分類樸素假設(shè):屬性無關(guān)性P(x1,…,xk|C)=P(x1|C)·…·P(xk|C)如果第i個(gè)屬性是類別型屬性:

將P(xi|C)估計(jì)為類別C中第i個(gè)屬性取值為xi的樣本所占百分比如果第i個(gè)屬性是連續(xù)型屬性:

將P(xi|C)估計(jì)為其高斯密度函數(shù)兩種情況下都容易計(jì)算出來第三十三頁,共六十六頁,2022年,8月28日2023/2/2533數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)“去不去打網(wǎng)球”示例:估計(jì)P(xi|C)outlookP(sunny|p)=2/9P(sunny|n)=3/5P(overcast|p)=4/9P(overcast|n)=0P(rain|p)=3/9P(rain|n)=2/5temperatureP(hot|p)=2/9P(hot|n)=2/5P(mild|p)=4/9P(mild|n)=2/5P(cool|p)=3/9P(cool|n)=1/5humidityP(high|p)=3/9P(high|n)=4/5P(normal|p)=6/9P(normal|n)=2/5windyP(true|p)=3/9P(true|n)=3/5P(false|p)=6/9P(false|n)=2/5P(p)=9/14P(n)=5/14第三十四頁,共六十六頁,2022年,8月28日2023/2/2534數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)“去不去打網(wǎng)球”示例:對X分類未知樣本X=<rain,hot,high,false>P(X|p)·P(p)=

P(rain|p)·P(hot|p)·P(high|p)·P(false|p)·P(p)=3/9·2/9·3/9·6/9·9/14=0.010582P(X|n)·P(n)=

P(rain|n)·P(hot|n)·P(high|n)·P(false|n)·P(n)=2/5·2/5·4/5·2/5·5/14=0.018286樣本X被分類為類別n(不去打網(wǎng)球)第三十五頁,共六十六頁,2022年,8月28日2023/2/2535數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)無關(guān)性假設(shè)……方便了計(jì)算…當(dāng)假設(shè)滿足時(shí)可以得到最佳的分類器…但實(shí)際上該假設(shè)很難滿足,因?yàn)閷傩?變量)常常是相關(guān)的克服限制的做法:貝葉斯網(wǎng)絡(luò),將貝葉斯推理和屬性間的因果關(guān)系相結(jié)合決策樹,每次僅對單個(gè)屬性進(jìn)行判斷,首先考慮最重要的屬性第三十六頁,共六十六頁,2022年,8月28日2023/2/2536數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)貝葉斯信念網(wǎng)絡(luò)(I)家族病史肺癌X光透視為+煙民肺氣腫呼吸困難LC~LC(FH,S)(FH,~S)(~FH,S)(~FH,~S)0.80.20.50.50.70.30.10.9貝葉斯信念網(wǎng)絡(luò)肺癌(LungCancer)變量的條件概率第三十七頁,共六十六頁,2022年,8月28日2023/2/2537數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)貝葉斯信念網(wǎng)絡(luò)(II)貝葉斯信念網(wǎng)絡(luò)允許變量子集是條件無關(guān)的因果關(guān)系的圖模型在以下情況下訓(xùn)練貝葉斯信念網(wǎng)絡(luò)(權(quán)重的計(jì)算)給定網(wǎng)狀結(jié)構(gòu)和全部變量:容易給定網(wǎng)狀結(jié)構(gòu)和部分變量(梯度下降方法)事先未知網(wǎng)狀結(jié)構(gòu)第三十八頁,共六十六頁,2022年,8月28日2023/2/2538數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)DM算法-1分類和預(yù)測什么是分類?什么是預(yù)測?關(guān)于分類與預(yù)測的問題通過決策樹歸納來分類貝葉斯分類通過反向傳播來分類基于關(guān)聯(lián)規(guī)則挖掘的概念來分類其它分類方法預(yù)測分類準(zhǔn)確率總結(jié)第三十九頁,共六十六頁,2022年,8月28日2023/2/2539數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)神經(jīng)網(wǎng)絡(luò)優(yōu)點(diǎn)預(yù)測準(zhǔn)確率一般較高穩(wěn)定,可以適應(yīng)包含臟數(shù)據(jù)的訓(xùn)練樣本可以輸出離散值,連續(xù)值,或者由多個(gè)(離散或連續(xù))屬性組成的向量對訓(xùn)練好的模型可以快速評估缺點(diǎn)訓(xùn)練時(shí)間長模型(權(quán)重)難以理解難以結(jié)合領(lǐng)域知識第四十頁,共六十六頁,2022年,8月28日2023/2/2540數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)神經(jīng)元通過向量積和非線性函數(shù),將n維輸入向量x

映射到向量ymk-f加權(quán)求和輸入向量x輸出y激活函數(shù)權(quán)重向量w?w0w1wnx0x1xn第四十一頁,共六十六頁,2022年,8月28日2023/2/2541數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)訓(xùn)練神經(jīng)網(wǎng)絡(luò)訓(xùn)練的最終目標(biāo)得到一組權(quán)重,使得訓(xùn)練集中的絕大多數(shù)元組可以被正確分類步驟用隨機(jī)數(shù)來初始化權(quán)重逐個(gè)處理元組,作為神經(jīng)網(wǎng)絡(luò)的輸入層對于每個(gè)單元計(jì)算該單元全部輸入的線性組合,作為其凈輸入使用激活函數(shù)來計(jì)算該單元的輸出值誤差的計(jì)算調(diào)整權(quán)重和偏置第四十二頁,共六十六頁,2022年,8月28日2023/2/2542數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)多層感知器輸出層節(jié)點(diǎn)輸入層節(jié)點(diǎn)隱層節(jié)點(diǎn)輸出向量輸入向量:xiwij第四十三頁,共六十六頁,2022年,8月28日2023/2/2543數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)網(wǎng)絡(luò)修剪與規(guī)則抽取網(wǎng)絡(luò)修剪完全連接的網(wǎng)絡(luò)難以解釋N

個(gè)輸入節(jié)點(diǎn),h

個(gè)隱層節(jié)點(diǎn)和m

個(gè)輸出節(jié)點(diǎn)的網(wǎng)絡(luò)具有h(m+N)

個(gè)權(quán)重修剪:刪除那些對網(wǎng)絡(luò)分類準(zhǔn)確率影響很小的連接從訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)中抽取規(guī)則對活躍值進(jìn)行離散化;用聚類來替代單個(gè)活躍值,同時(shí)保證一定的網(wǎng)絡(luò)準(zhǔn)確率根據(jù)這些活躍值來枚舉出全部輸出值,從而可以總結(jié)出活躍值和輸出值間的關(guān)系發(fā)現(xiàn)輸入值和活躍值的關(guān)系綜合以上兩個(gè)步驟,產(chǎn)生輸入值和輸出值之間的規(guī)則(關(guān)系)第四十四頁,共六十六頁,2022年,8月28日2023/2/2544數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)DM算法-1分類和預(yù)測什么是分類?什么是預(yù)測?關(guān)于分類與預(yù)測的問題通過決策樹歸納來分類貝葉斯分類通過反向傳播來分類基于關(guān)聯(lián)規(guī)則挖掘的概念來分類其它分類方法預(yù)測分類準(zhǔn)確率總結(jié)第四十五頁,共六十六頁,2022年,8月28日2023/2/2545數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)其它分類方法K-近鄰分類器(k-nearestneighborclassifier)基于案例的推理(case-basedreasoning)遺傳算法 (Geneticalgorithm)粗糙集方法 (Roughsetapproach)模糊集方法 (Fuzzysetapproaches)第四十六頁,共六十六頁,2022年,8月28日2023/2/2546數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)基于實(shí)例的方法基于實(shí)例的學(xué)習(xí):保存訓(xùn)練樣本并延遲處理(“懶惰的評估”),知道需要對新的實(shí)例進(jìn)行分類時(shí)再進(jìn)行學(xué)習(xí)常見方法k近鄰方法用歐式空間中的點(diǎn)來代表實(shí)例局部加權(quán)回歸構(gòu)造局部估計(jì)值基于案例的推理使用符號表達(dá)方式和基于知識的推理第四十七頁,共六十六頁,2022年,8月28日2023/2/2547數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)K-近鄰算法所有實(shí)例都對應(yīng)于n維空間中的點(diǎn)根據(jù)歐式距離來定義最近的鄰居目標(biāo)函數(shù)可以輸出離散值或連續(xù)值對于離散值,k-NN返回xq的k個(gè)近鄰中最常見的值Vonoroi圖:決策面由某個(gè)典型訓(xùn)練集的1-NN決定.

._+_xq+__+__+.....第四十八頁,共六十六頁,2022年,8月28日2023/2/2548數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)k-NN算法討論k-NN算法對連續(xù)值的處理計(jì)算k

近鄰的均值加權(quán)距離的近鄰算法根據(jù)每個(gè)鄰居和查詢點(diǎn)xq之間的距離予以加權(quán)越近的鄰居,權(quán)重越大對于實(shí)數(shù)值的處理與之類似由于用k個(gè)近鄰來判別,因此在臟數(shù)據(jù)上表現(xiàn)穩(wěn)定維度的負(fù)面影響:無關(guān)屬性可能會嚴(yán)重影響距離的準(zhǔn)確計(jì)算可以拉伸坐標(biāo)軸或者除去最不相關(guān)的屬性第四十九頁,共六十六頁,2022年,8月28日2023/2/2549數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)基于案例的推理(CBR)同樣采用:

懶惰評估+分析類似實(shí)例差異:

實(shí)例不再是“歐式空間中的點(diǎn)”示例:CADET中的水龍頭問題(Sycaraetal’92)方法使用符號描述來表示實(shí)例(例如,功能圖)合并多個(gè)檢索出來的案例案例檢索,基于知識的推理,和問題解決的緊密耦合研究問題基于句法相似度的索引技術(shù),如果解答之間出現(xiàn)不相容,可能需要退回搜索其它解第五十頁,共六十六頁,2022年,8月28日2023/2/2550數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)評論懶惰學(xué)習(xí)和積極學(xué)習(xí)基于實(shí)例的學(xué)習(xí):

懶惰評估決策樹和貝葉斯分類:積極學(xué)習(xí)主要差異懶惰方法進(jìn)行決策時(shí)要在訓(xùn)練集D上對新實(shí)例xq查詢積極方法則不需要,因?yàn)樗鼈円呀?jīng)有了全局估計(jì)效率:懶惰學(xué)習(xí)-訓(xùn)練時(shí)間短,但預(yù)測所需時(shí)間長準(zhǔn)確率懶惰方法可以有效利用一個(gè)更廣闊的假設(shè)空間,因?yàn)椴捎昧硕鄠€(gè)局部線性函數(shù)來構(gòu)造出目標(biāo)函數(shù)的全局估計(jì)積極方法:必須對整個(gè)實(shí)例空間提交單個(gè)假設(shè),來覆蓋整個(gè)空間第五十一頁,共六十六頁,2022年,8月28日2023/2/2551數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)遺傳算法GA:基于對生物進(jìn)化的模擬每個(gè)規(guī)則用位串(stringofbits)表達(dá)創(chuàng)建一個(gè)由隨機(jī)產(chǎn)生的規(guī)則組成的初始群體例如,規(guī)則”IFA1andNotA2thenC2”,可被編碼為100根據(jù)適者生存的原則,形成由當(dāng)前群體中最適合的規(guī)則組成新的群體,以及這些規(guī)則的子女規(guī)則的適應(yīng)程度,用它對訓(xùn)練樣本集的分類準(zhǔn)確率評估子女通過使用諸如交叉和變異等遺傳操作來創(chuàng)建第五十二頁,共六十六頁,2022年,8月28日2023/2/2552數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)粗糙集方法粗糙集用于近似地(粗糙地)定義等價(jià)類給定類C的粗糙集定義用兩個(gè)集合近似:C的下近似(確定為C類)和C的上近似(不能判斷它不屬于C類)找出最小屬性子集(用于特征選取)是NP-難處理的,但可以使用識別矩陣存放每對數(shù)據(jù)樣本屬性值之間的差別,以降低計(jì)算復(fù)雜度第五十三頁,共六十六頁,2022年,8月28日2023/2/2553數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)模糊集方法模糊邏輯使用0.0和1.0之間的真值(truthvalue)表示一個(gè)特定的值屬于給定類的程度,而不是用類或集合的精確截?cái)?例如使用模糊關(guān)系圖)屬性值被轉(zhuǎn)換為模糊值例如,將連續(xù)屬性”收入”的值映射到離散分類{low,medium,high}上,并計(jì)算模糊成員關(guān)系或真值一個(gè)給定值可以對應(yīng)多個(gè)模糊值每個(gè)可用規(guī)則對樣本的分類進(jìn)行投票組合上面得到的和,得到一個(gè)系統(tǒng)返回的值第五十四頁,共六十六頁,2022年,8月28日2023/2/2554數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)DM算法-1分類和預(yù)測什么是分類?什么是預(yù)測?關(guān)于分類與預(yù)測的問題通過決策樹歸納來分類貝葉斯分類通過反向傳播來分類基于關(guān)聯(lián)規(guī)則挖掘的概念來分類其它分類方法預(yù)測分類準(zhǔn)確率總結(jié)第五十五頁,共六十六頁,2022年,8月28日2023/2/2555數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)什么是預(yù)測?預(yù)測和分類相似首先,建立一個(gè)模型然后,使用模型來預(yù)測未知值主要的預(yù)測方法是回歸線性和多元回歸非線性回歸預(yù)測和分類不同分類用于預(yù)測類別標(biāo)簽預(yù)測對連續(xù)函數(shù)建模第五十六頁,共六十六頁,2022年,8月28日2023/2/2556數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)建立預(yù)測模型:預(yù)測數(shù)據(jù)的取值,或者是基于數(shù)據(jù)庫中的數(shù)據(jù)建立泛化的線性模型只能預(yù)測值域或類別分布一般步驟:

最小的泛化

屬性相關(guān)分析

創(chuàng)建泛化的線性模型

預(yù)測識別出對預(yù)測產(chǎn)生影響的主要因子數(shù)據(jù)相關(guān)分析:不確定性度量,熵分析,專家判斷,等待多層次預(yù)測:下鉆和上卷分析數(shù)據(jù)庫中建立預(yù)測模型第五十七頁,共六十六頁,2022年,8月28日2023/2/2557數(shù)據(jù)挖掘:概念與技術(shù)(翻譯張磊)線性回歸:Y=+X兩個(gè)參數(shù),和決定一條直線.可以根據(jù)數(shù)據(jù)估計(jì)出這兩個(gè)參數(shù)的值在已知數(shù)據(jù)Y1,Y2,…,X1,X2,…上使用最小二乘法求解多元回歸:Y=b0+b1X1+b2X2.很多非線性函數(shù)可轉(zhuǎn)換為上述形式對數(shù)-線性模型:通過低階表的乘積來近似出聯(lián)合概率多路表概率:p(a,b,c,d)=abacadbcd預(yù)測中的回歸分析和對數(shù)-線性模型第五十八頁,共六十六頁,2022年,8月28日2023/2/2558數(shù)據(jù)挖掘:概念與技術(shù)(翻譯

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論