費(fèi)希爾判別法理論_第1頁
費(fèi)希爾判別法理論_第2頁
費(fèi)希爾判別法理論_第3頁
費(fèi)希爾判別法理論_第4頁
費(fèi)希爾判別法理論_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、費(fèi)希爾判別費(fèi)希爾判別(或稱典型判別)的基本思想是投影(或降維):用維向量的少數(shù)幾個(gè)線性組合(稱為費(fèi)希爾判別函數(shù)或典型變量)(一般明顯小于)來代替原始的個(gè)變量,以達(dá)到降維的目的,并根據(jù)這個(gè)判別函數(shù)對(duì)樣品的歸屬做出判別或?qū)⒏鹘M分離。成功的降維將使樣品的歸類或組的分離更為方便和有效,并且可以對(duì)前三個(gè)判別函數(shù)作圖,從直觀的幾何圖像上區(qū)別各組。在降維的過程中難免會(huì)有部分有用信息的損失,但只要使用的方法得當(dāng),我們可以最大限度地減少這種損失,從而保留盡可能多的有用信息,即關(guān)于能夠反應(yīng)組之間差異的信息。為便于理解,我們以下用一個(gè)簡單的二維例子來加以說明。圖 投影到某個(gè)方向再判別如圖 所示,兩個(gè)組的所有樣品都測

2、量了兩個(gè)變量和,將所有()點(diǎn)畫于直角坐標(biāo)系上,一組的樣品點(diǎn)用“×”表示,另一組的樣品點(diǎn)用“”表示。假定我們希望將二維空間的點(diǎn)投影到某個(gè)一維空間,即一條直線上,然后再對(duì)兩組進(jìn)行判別,則投影到不同的直線上,判別的效果一般是不同的。從圖 中可見,如果兩組的點(diǎn)都投影到直線上則這兩組的投影點(diǎn)在該直線上的分布幾乎無任何差異,他們完全混合在一起,我們無法將這兩組的點(diǎn)區(qū)別開來,這樣的降維把反應(yīng)兩組間差異的信息都給損失了,顯然是不可取的。事實(shí)上,最好的投影是投影到直線上,因?yàn)樗褍山M的投影點(diǎn)很清楚地區(qū)分了開來,這種降維把有關(guān)兩組差異的信息很好地保留了下來,幾乎沒有任何損失,如此就完全可以在一維的直線上

3、作判別分析。我們現(xiàn)考慮在中將組的維數(shù)據(jù)向量投影到某個(gè)具有最佳方向的上,即投影到上的點(diǎn)能最大限度地顯現(xiàn)出各組之間的差異。設(shè)來自組的維觀測值為,將它們共同投影到某一維常數(shù)向量上,得到的投影點(diǎn)可分別對(duì)應(yīng)線性組合,。這樣,所有的維觀測值就簡化為一維觀測值。下面我們用表示組中的均值,表示所有組組的的總均值,即式中,。對(duì)于任一用來投影的,我們需要給出一個(gè)能反映組之間分離程度的度量。比較圖 中的上、下半圖,上半圖三組均值之間的差異程度與下半圖是相同的,而前者組之間的分離程度卻明顯高于后者,原因就在于前者的組內(nèi)變差要遠(yuǎn)小于后者,后者組之間有較多重疊。因此,可以考慮將組之間的分離程度度量為相對(duì)其組內(nèi)變差的組間變

4、差。在以下的討論中,我們需假定各組的協(xié)方差矩陣相同,即。圖 三組之間的分離程度的組間平方和式中為組間平方和及叉積和矩陣。的組內(nèi)平方和式中為組內(nèi)平方和及叉積和矩陣??捎脕矶攘康慕M之間分離程度的一個(gè)量是我們應(yīng)選擇這樣的,使得達(dá)到最大。由于對(duì)任意非零常數(shù),用代替上式中的,將保持不變,故考慮對(duì)加以約束。我們希望判別函數(shù)具有單位方差,即,但因未知,于是用其聯(lián)合無偏估計(jì)替代,所以的約束條件實(shí)際應(yīng)為,即判別函數(shù)的聯(lián)合樣本方差為1。設(shè)的全部非零特征值依次為,這里,且有 (5.4.2)(通常情況下上式等號(hào)成立),相應(yīng)的特征向量依次記為(標(biāo)準(zhǔn)化為,)。由(1.8.5)式知,當(dāng)時(shí)達(dá)到最大值。所以,選擇投影到上能使各

5、組的投影點(diǎn)最大限度地分離,稱為費(fèi)希爾第一線性判別函數(shù),簡稱第一判別函數(shù)。在許多情況下(如組數(shù)是大的,或者原始的數(shù)據(jù)向量維數(shù)是大的),僅僅使用第一判別函數(shù)也許不夠,因?yàn)閮H在這一個(gè)投影方向上組之間的差異可能還不夠清晰,各組未能很好地分開。這時(shí),我們應(yīng)考慮建立第二線性組合,為使降維最具效率,應(yīng)要求(在線性關(guān)系的意義上)不重復(fù)中的信息,即用代替未知的,于是我們?cè)诩s束條件下尋找,使得達(dá)到最大。按(1.8.6)式,當(dāng)時(shí)達(dá)到最大值,稱為第二判別函數(shù)。如還不夠,可再建立第三判別函數(shù),依次類推。一般地,我們要求第個(gè)線性組合不重復(fù)前個(gè)判別函數(shù)中的信息,即,用代替,上式變?yōu)椋覀兿M诩s束條件()下尋找,使得達(dá)到最

6、大。由(1.8.6)式知,當(dāng)時(shí)達(dá)到最大值,稱為第判別函數(shù),。附:1.85-1.86設(shè)是階對(duì)稱矩陣,是階正定矩陣,是的個(gè)特征值,相應(yīng)的一組特征向量,滿足,則() () ,綜上所述,費(fèi)希爾判別函數(shù)具有這樣一些特點(diǎn):(1)各判別函數(shù)都具有單位(聯(lián)合樣本)方差;(2)各判別函數(shù)彼此之間不相關(guān)(確切地說,是彼此之間的聯(lián)合樣本協(xié)方差為零);(3)判別函數(shù)方向并不正交,但作圖時(shí)仍將它們畫成直角坐標(biāo)系,雖有些變形,但通常并不嚴(yán)重。依(5.4.2)式可知,組數(shù)時(shí)只有一個(gè)判別函數(shù),時(shí)最多只有兩個(gè)判別函數(shù)。這從直觀上也不難理解,(不重合的)兩個(gè)組重心(即組均值點(diǎn))可在(一維)直線上有最大分離,(不在一直線上的)三個(gè)

7、組重心也可在(二維)平面上有最大分開。一般地,由全部維空間可最大限度地分離個(gè)組重心。表明了第判別函數(shù)對(duì)分離各組的貢獻(xiàn)大小,在所有個(gè)判別函數(shù)中的貢獻(xiàn)率為而前個(gè)判別函數(shù)的累計(jì)貢獻(xiàn)率為它表明了能代表進(jìn)行判別的能力。在實(shí)際應(yīng)用中,通常我們并不使用所有個(gè)判別函數(shù),除非很小,因?yàn)橘M(fèi)希爾判別法的基本思想就是要降維。如果前個(gè)判別函數(shù)的累計(jì)貢獻(xiàn)率已達(dá)到了一個(gè)較高的比例(如75%95%),則就采用這個(gè)判別函數(shù)進(jìn)行判別。在確定了需使用的個(gè)判別函數(shù)之后,可制定相應(yīng)的判別規(guī)則。由于各判別函數(shù)都具有單位方差且彼此不相關(guān),故此時(shí)的馬氏距離等同于歐式距離。我們采用距離判別法,依據(jù)()值,判別新樣品歸屬離它最近的那一組,即判別

8、規(guī)則為,若 (5.4.6)其中,為第判別函數(shù)在組的樣本均值的平方歐式距離,。(5.4.6)式也可表達(dá)為,若如果只使用一個(gè)判別函數(shù)進(jìn)行判別(即),則(5.4.6)式可簡化為,若 (5.4.7)式中和分別是(5.4.6)式中的和。有時(shí)我們也使用中心化的費(fèi)希爾判別函數(shù),即,式中為個(gè)組的總均值,仍使用(5.4.6)式進(jìn)行判別。例5.4.1(有用結(jié)論) 組數(shù)時(shí)的費(fèi)希爾判別。由于,故組間矩陣假設(shè)組內(nèi)矩陣是可逆的(必須有),則有一中的性質(zhì)(2)知有唯一的非零特征值這是一個(gè)正數(shù)(因?yàn)椋?。令為相?yīng)的特征向量,它應(yīng)滿足即于是易見,滿足上述方程,這里為聯(lián)合協(xié)方差矩陣。為此,費(fèi)希爾判別函數(shù)為按(5.4.7)式,判別規(guī)

9、則為其中,。注意到,。因此,上述判別規(guī)則等價(jià)于也可以表達(dá)為此正為(5.2.6)式。上例表明,對(duì)于兩組的判別,費(fèi)希爾判別等價(jià)于協(xié)方差矩陣相等的距離判別,對(duì)兩個(gè)正態(tài)組也等價(jià)于協(xié)方差相等且先驗(yàn)概率和誤判代價(jià)也均相同的貝葉斯判別。當(dāng)使用的判別函數(shù)個(gè)數(shù)時(shí),可將各樣品的兩個(gè)判別函數(shù)得分畫成平面直角坐標(biāo)系上的散點(diǎn)圖,用目測法對(duì)新樣品的歸屬進(jìn)行判別或?qū)碜愿鹘M樣品的分離情況及結(jié)構(gòu)進(jìn)行觀測評(píng)估。當(dāng)時(shí),可利用SAS的交互式數(shù)據(jù)分析菜單系統(tǒng),讓樣本中來自不同組的樣品點(diǎn)呈現(xiàn)不同顏色(或不同形狀)以區(qū)分各組,然后作(三維)旋轉(zhuǎn)圖從多角度來辨別新樣品的歸屬或觀測評(píng)估各組之間的分離效果,但其目測效果一般明顯不如時(shí)清楚。能夠利用降維后生成的圖形用目測法進(jìn)行判別是費(fèi)希爾判別的最重要應(yīng)用,圖中常常能清晰地展示出(通過計(jì)算未必能得到的)豐富的信息,如發(fā)現(xiàn)構(gòu)成各組的結(jié)構(gòu)、離群樣品點(diǎn)和數(shù)據(jù)中的其他異常情況等。附:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論