線性判別分析_第1頁(yè)
線性判別分析_第2頁(yè)
線性判別分析_第3頁(yè)
線性判別分析_第4頁(yè)
線性判別分析_第5頁(yè)
已閱讀5頁(yè),還剩1頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、用線性判別分析(Linear Discriminant Analysis)對(duì)Wine數(shù)據(jù)集進(jìn)行分類(lèi)1. 線性判別分析(LDA)原理LDA是統(tǒng)計(jì)學(xué)上一種經(jīng)典的分析方法,在醫(yī)學(xué)中的患者疾病分級(jí)、經(jīng)濟(jì)學(xué)的市場(chǎng)定位、產(chǎn)品管理、市場(chǎng)研究、人臉識(shí)別和機(jī)器學(xué)習(xí)等領(lǐng)域有廣泛的應(yīng)用。LDA可以用于對(duì)數(shù)據(jù)進(jìn)行分類(lèi),首先,我們要用事先分好類(lèi)的數(shù)據(jù)對(duì)LDA進(jìn)行訓(xùn)練,建立判別模型,所以LDA屬于監(jiān)督學(xué)習(xí)的算法。LDA的基本思想是投影,將n維數(shù)據(jù)投影到低維空間,使得投影后組與組之間盡可能分開(kāi),即在該空間中有最佳的可分離性,而衡量標(biāo)準(zhǔn)是新的子空間有最大的類(lèi)間距離和最小的類(lèi)內(nèi)距離。LDA的目標(biāo)是求出使新的子空間有最大的類(lèi)間距

2、離和最小的類(lèi)內(nèi)距離的向量a,構(gòu)造出判別模型。形象地理解,如圖1,紅色點(diǎn)和藍(lán)色點(diǎn)分別代表兩個(gè)類(lèi)別的數(shù)據(jù),他們是二維的,取二維空間中的任一個(gè)向量,作各點(diǎn)到該向量的投影,可以看到,右圖比左圖投影后的分類(lèi)效果好。再如圖2,是三維空間的各點(diǎn)作投影到二維空間,可以看到左圖比右圖分類(lèi)效果好。有時(shí)需要根據(jù)實(shí)際選擇投影到幾維才能實(shí)現(xiàn)最好的分類(lèi)效果。構(gòu)造判別模型的過(guò)程:(1) 作投影設(shè)n維數(shù)據(jù)樣本集X=xi|i=1,2,3j,這j個(gè)樣本可以分為k個(gè)類(lèi)別X1,X2,Xk.令w為n維空間中任一向量,則樣本xi在w上的投影為wTxi,得到的是一維數(shù)據(jù).(2) 計(jì)算投影后的類(lèi)內(nèi)距離與類(lèi)間距離其中利用了方差分析的思想: 類(lèi)

3、內(nèi)距離:E0= t=1kxXt(wTx-wTXt)2 Xt表示 Xt中的樣本未投影前的平均. 整理得 E0=wTE w 其中矩陣E=t=1kxXtx-Xtx-XtT 類(lèi)間距離:B0= t=1knt(wTXt-wTX)2 X表示所有樣本未投影前的平均,nt表示Xt中樣本數(shù)整理得 B0=wTBw 其中矩陣B= t=1knt(Xt-X)(Xt-X)T(3) 構(gòu)造目標(biāo)函數(shù)為了得到最佳的w,我們希望E0盡量小,B0盡量大,因此構(gòu)造J(w)= B0E0 問(wèn)題轉(zhuǎn)化為求w使J(w)達(dá)到極大值,但使J(w)達(dá)到最大值的w不唯一,于是我們加上一個(gè)約束條件E0=1即求w,使J(w)在約束條件E0=1下達(dá)到極大值(4

4、) 拉格朗日乘數(shù)法求w利用拉格朗日乘數(shù)法我們可以得到以下等式(E-1B)w=w 為拉格朗日乘子即為E-1B 的特征值,w為對(duì)應(yīng)的特征矩陣由特征方程|E-1B-I|= 0 可解除 特征值 和特征向量 w(5) 導(dǎo)出線性判別函數(shù)把特征值由大到小排列,取最大的特征值,所求w就是對(duì)應(yīng)的特征向量w導(dǎo)出線性判別函數(shù)為u(x)=wx若用一個(gè)線性判別函數(shù)不能很好區(qū)別各個(gè)總體,可用第二大特征根,第三大特征根對(duì)應(yīng)的特征向量構(gòu)造線性判別函數(shù)進(jìn)行判別(即上面所說(shuō)根據(jù)實(shí)際選擇降維到幾維空間),線性判別函數(shù)個(gè)數(shù)不超過(guò)k-1個(gè)。至此,已構(gòu)造出判別模型,利用判別模型對(duì)新的樣本代入判別函數(shù),把結(jié)果與設(shè)定的閥指比較,把新樣本判給

5、不同的類(lèi)別。2. 利用R語(yǔ)言中的lda()函數(shù)對(duì)wine數(shù)據(jù)集進(jìn)行分類(lèi)lda()函數(shù)用于線性判別分析,在MASS包中wineattach(wine)library(MASS)wine.ldawine.lda #輸出結(jié)果wine.predaabarplot(a,beside=T,legend.text=attr(a,dimnames)$wine.pred)#畫(huà)條形圖表示分類(lèi)結(jié)果代碼如下:Call:lda(Cultivars Alcohol + Malic.acid + Ash + + Magnesium + Total.phenols + Flavanoids + Nonflavanoid.ph

6、enols + Proanthocyanins + Censity + Hue + OD280.OD315.of.diluted.wines + Proline, data = wine)Prior probabilities of groups: #先驗(yàn)概率 1 2 3 0.3314607 0.3988764 0.2696629 Group means: #每組的平均向量 Alcohol Malic.acid Ash Magnesium Total.phenols1 13.74475 2.010678 2.455593 17.03729 106.3390 2.8401692

7、12.27873 1.932676 2.244789 20.23803 94.5493 2.2588733 13.15375 3.333750 2.437083 21.41667 99.3125 1.678750 Flavanoids Nonflavanoid.phenols Proanthocyanins Censity Hue1 2.9823729 0.290000 1.899322 5.528305 1.06203392 2.0808451 0.363662 1.630282 3.086620 1.05628173 0.7814583 0.447500 1.153542

8、7.396250 0.6827083 OD280.OD315.of.diluted.wines Proline1 3.157797 1115.71192 2.785352 519.50703 1.683542 629.8958Coefficients of linear discriminants: #線性判別函數(shù)系數(shù) LD1 LD2 Alcohol -0.403399781 0.8717930699Malic.acid 0.165254596 0.3053797325Ash -0.369075256 2.3458497486 0.154797889 -0.1463807654Magnesiu

9、m -0.002163496 -0.0004627565Total.phenols 0.618052068 -0.0322128171Flavanoids -1.661191235 -0.4919980543Nonflavanoid.phenols -1.495818440 -1.6309537953Proanthocyanins 0.134092628 -0.3070875776Censity 0.355055710 0.2532306865Hue -0.818036073 -1.5156344987 -1.157559376 0.0511839665Proline -0.002691206 0.0028529846Proportion of trace: #第i個(gè)判別式對(duì)區(qū)分各組的貢獻(xiàn)大小 LD1 LD2 0.6875 0.31253. 運(yùn)行結(jié)果及解釋用table()得到的列聯(lián)表: Cultivarswine.pred 1 2 3 1 59 0 0 2 0 71 0 3 0 0 48解釋?zhuān)毫凶兞勘硎久總€(gè)樣本本身所屬類(lèi)別,行變量表示每

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論