第三章判別分析_第1頁
第三章判別分析_第2頁
第三章判別分析_第3頁
第三章判別分析_第4頁
第三章判別分析_第5頁
已閱讀5頁,還剩57頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第三章判別分析判別分析(discriminantanalysis)是研究判斷個體所屬類型的一種統(tǒng)計方法。判別分析的應(yīng)用十分廣泛。如判別產(chǎn)品質(zhì)量的等級;判斷一個國家的經(jīng)濟發(fā)展程度;判斷該地的礦物類型;判斷病人患哪種疾?。慌袛嗝魈焓乔?、多云或有雨等等。判斷分析所處理的問題往往是包含大量的數(shù)據(jù)資料,且其數(shù)量指標(biāo)往往是多元的。判別分析是一種有效的多元數(shù)據(jù)分析方法,它能科學(xué)地判斷得到的樣品屬于什么類型,揭示內(nèi)在的規(guī)律,做出正確的判斷。判別分析的模型如下:設(shè)有k個總體G1,…,Gk,都是p元總體,其數(shù)量指標(biāo)是設(shè)Gi的分布函數(shù)Fi(x),概率密度fi(x)=fi(x1,x2,…,xp)。對任一樣品

x=(x1,x2,…,xp)T,判斷它來自哪個總體。X=(X1,X2,…,Xp)T

由于判別準(zhǔn)則不同,則有不同的判別分析方法,本章主要介紹距離判別、Bayes

判別和Fisher判別。一、兩個總體的情況設(shè)有兩個總體G1和G2,x=(x1,x2,…,xp)是一個樣品,若能定義x到G1和G2的距離d(x,G1)和d(x,G2),則判別規(guī)則為§3.1

距離判斷

定義3.1設(shè)x,y是從均值向量為、協(xié)方差矩陣為的總體G中抽取的兩個樣品,則x,y兩點之間的馬氏距離平方是

定義3.1設(shè)x,y是從均值向量為、協(xié)方差矩陣為的總體G中抽取的兩個樣品,則x,y兩點之間的馬氏距離平方是又定義x與總體G的馬氏距離平方是當(dāng)兩總體G1和G2的均值向量分別為(1)和(2),協(xié)方差矩陣均為1和2,則當(dāng)兩總體G1和G2的均值向量分別為(1)和(2),協(xié)方差矩陣均為1和2,則若1=2=,則其中1.兩個總體協(xié)方差矩陣相等的情況是x的線性函數(shù),稱為線性判別函數(shù)。判別準(zhǔn)則為其中其中若記其中W(x)也是線性函數(shù)。實際上,這種情況還可以進一步簡化為判別規(guī)則:當(dāng),(1),(2)未知時,用樣本估計。設(shè)來自兩個總體的樣本,均值和協(xié)方差矩陣的估計為當(dāng)∑1=∑2=∑時,的無偏估計為此時為非線性判別。2.兩個總體協(xié)方差矩陣不等的情況:∑1≠∑2判別準(zhǔn)則為當(dāng)1,2

,1,2未知時的樣本估計為二、

判別準(zhǔn)則的評價

當(dāng)一個判別法則提出以后,還要研究其優(yōu)良性??疾煲粋€判別法則的優(yōu)良性,要考察誤判率,即考察

x屬于G1而誤判為屬于G2或x屬于G2而誤判為屬于G1

的概率。1.誤差率回代估計法設(shè)分別是來自兩個總體的樣本,將每個樣品進行回代判別,其判別結(jié)果如下表:回判情況實際歸類G1

G2G1G2n11

n12n21

n221.誤差率回代估計法設(shè)分別是來自兩個總體的樣本,將每個樣品進行回代判別,其判別結(jié)果如下表:回判情況實際歸類G1

G2G1G2n11

n12n21

n22其中n11+n12=n1,n12為樣品屬于G1而誤判為G2的個數(shù);n21+n22=n2,n21為樣品屬于G2而誤判為G1的個數(shù).誤判率的回代估計為2.誤判率的交叉確認估計誤判率的交叉確認估計是每次剔除樣本中的一個樣品,利用其余n1+n2-1樣品建立判別準(zhǔn)則,再用所建立的判別準(zhǔn)則對刪除的那個樣品作判別.對樣本中的每個樣品作上述分析,以其誤判比例作為誤判概率的估計。

設(shè)G1的n1個樣品中,有n*12個樣品被誤判;G2的n*21個樣品被誤判。則誤判率的交叉確認估計為

SAS系統(tǒng)可以計算誤判率的交叉確認估計。例3.1馬尾松苗紫化病是一種生理性病害,現(xiàn)從病苗(紫化苗)中選取12株,健苗中選取8株分別測定其每平方厘米葉片所含5種元素的微克數(shù),其數(shù)據(jù)見表3.1,試據(jù)此作距離判別分析。表3.1馬尾松苗數(shù)據(jù)G1:健苗G2:紫花苗序號

x1

x2

x3

x4

x5序號

x1

x2

x3

x4

x51234567812.50.65.20.10.512.10.87.80.20.411.10.65.20.20.79.40.66.10.10.67.00.55.20.20.48.40.54.30.10.47.10.56.10.10.511.20.74.90.10.5

12345678910111212.10.42.80.20.612.80.52.80.10.511.40.54.90.40.88.50.45.00.30.610.00.44.20.20.79.40.43.90.20.68.60.42.20.20.77.10.43.40.30.49.50.34.20.70.87.80.44.00.20.7

7.00.42.70.20.77.50.32.20.30.6解

SAS程序:dataex3_1;inputgroup$x1-x5@@;cards;a12.50.65.20.10.5………….a11.20.74.90.10.5b12.10.42.80.20.6……………b7.50.32.20.30.6;數(shù)據(jù)步procdiscrimdata=ex3_1pool=testslpool=0.1method=normaldistancesimplelistcrosslisterrwcovpcov;classgroup;varx1-x5;run;說明:pool=test檢驗方差陣相等(或=yes或=no);slpool=0.1指定顯著性水平,僅與pool=test匹配;method=normal(或npar非參數(shù)方法)前者為缺??;distance輸出各組間距離并進行檢驗,理論從略;simple輸出簡單統(tǒng)計量;過程步crosslisterr輸出交叉確認法誤判率信息;list輸出每個樣品的判別結(jié)果;wcov輸出各類的組內(nèi)協(xié)差陣;pcov輸出聯(lián)合協(xié)方差矩陣。輸出結(jié)果:(1)簡單統(tǒng)計量(2)協(xié)方差矩陣(3)協(xié)方差矩陣是否相等的檢驗檢驗結(jié)果不顯著(p=0.7341>0.1),即兩總體的協(xié)方差矩陣相等。(4)類間距離的檢驗檢驗結(jié)果顯著(p=0.0007),兩總體間差異顯著。(5)線性判別函數(shù)W1(x)=-41.05361–0.74441x1+100.24194x2+1.39795x3+4.56860x4+41.67557x5W2(x)=-30.81622+0.11215x1+67.67498x2-0.28010x3+12.18045x4+48.55509x5(6)樣品回判結(jié)果(7)回判結(jié)果概要與誤判率(8)交叉確認回判結(jié)果概要與誤判率協(xié)方差矩陣分別為1,2,…,k。類似兩總體距離判別,計算新樣品到各總體的馬氏距離,距離最短者屬于響應(yīng)的總體。三、多個總體的距離判斷設(shè)有k個總體G1,G2,…Gk,均值向量分別為1,2,….,k任取兩個總體Gi,Gj,考察x到Gi,Gj的馬氏距離的平方差1.總體協(xié)方差矩陣相等其中:這樣,得到多總體在總體協(xié)方差矩陣相等時的距離判別準(zhǔn)則:若總體Gj0滿足易見則判定x屬于Gj0。當(dāng)總體均值j和協(xié)方差矩陣未知時,用樣本估計。設(shè)是來自總體Gj的樣本,均值和協(xié)方差矩陣的估計為總體協(xié)方差矩陣∑j不全相等計算x至各總體Gj的馬氏平方距離記二次判別函數(shù)判別準(zhǔn)則:若總體Gj0滿足則判定x屬于Gj0。當(dāng)總體均值j和協(xié)方差矩陣j未知時,用樣本估計。其估計值為對多總體的距離判別,同兩總體情況一樣,做出誤判率的回代估計及交叉確認估計。3.2貝葉斯(Bayes)判別

Bayes統(tǒng)計思想是假定對研究對象已有一定的認識,常用先驗概率分布來描述這種認識。然后取得一個樣本,用樣本來修正已有的認識(先驗概率分布)得后驗概率分布,各種統(tǒng)計推斷都通過后驗概率分布來進行。將Bayes統(tǒng)計思想用于判別分析就得到Bayes判別。設(shè)有k個總體G1,G2,…,Gk分別具有p維密度函數(shù)f1(x),f2(x),…,fk(x),已知出現(xiàn)這k個總體的先驗概率為q1,q2,…,qk(q1+q2+…+qk=1),我們希望建立判別函數(shù)和判別規(guī)則。用D1,D2,…,Dk表示p維歐氏空間RP的一個劃分,即D1,D2,…,Dk互不相交,且D1∪D2∪…∪Dk=RP。如果這個劃分取得適當(dāng),正好對應(yīng)于這k個總體,這時判別規(guī)則可以采用如下辦法:設(shè)有k個總體G1,G2,…,Gk分別具有p維密度函數(shù)f1(x),f2(x),…,fk(x),已知出現(xiàn)這k個總體的先驗概率為q1,q2,…,qk(q1+q2+…+qk=1),我們希望建立判別函數(shù)和判別規(guī)則。問題是如何獲得這個劃分?x∈Gi

若x落入Di,i=1,2,…,k

用c(j|i)表示樣品來自Gi而誤判為Gj的損失,這一誤判的概率為于是由判別規(guī)則所帶來的平均損失ECM(expectedcostofmiscalculation)為我們總是定義c(i|i)=0。目的是求D1,D2,…,Dk使ECM達到最小??梢宰C明定理3.1

在本節(jié)假定下,Bayes判別解D1,D2,…,Dk為其中Dt={x|ht(x)<hj(x),j≠t,j=1,2,…,k},t=1,2,…,k

例3.2

當(dāng)k=2時h1(x)=q2f2(x)c(1|2),h2(x)=q1f1(x)c(2|1)從而D1={x|q2f2(x)c(1|2)<q1f1(x)c(2|1)}D2={x|q2f2(x)c(1|2)>q1f1(x)c(2|1)}h1(x)=q2f2(x)c(1|2),h2(x)=q1f1(x)c(2|1)從而D1={x|q2f2(x)c(1|2)<q1f1(x)c(2|1)}D2={x|q2f2(x)c(1|2)>q1f1(x)c(2|1)}若令判別函數(shù)為V(x)=f1(x)/f2(x),d=q2c(1|2)/q1c(2|1)則判別規(guī)則可表示為例3.3

若f1(x)與f2(x)分別為p維正態(tài)分布Np(1,),Np(2,)的密度函數(shù),此時V(x)=f1(x)/f2(x)其中W(x)與距離判別的相同。則判別規(guī)則可表示為當(dāng)q1=q2,c(1|2)=c(2|1),則d=1,lnd=0。此時即為距離判別。定理5.1

在本節(jié)假定下,Bayes判別解D1,D2,…,Dk為其中實際中,損失c(j|i)不易給出,常取c(j|i)=1,i≠j。Dt={x|ht(x)<hj(x),j≠t,j=1,2,…,k},t=1,2,…,k

推論如果c(j|i)=1,i≠j,則Bayes解為Dt={x|qtft(x)>qjfj(x),j≠t,j=1,2,…,k},t=1,2,…,k

例如設(shè)G1,…,Gk的分布為Np(1,),…,Np(k,),則推論如果c(j|i)=1,i≠j,則Bayes解為Dt={x|qtft(x)>qjfj(x),j≠t,j=1,2,…,k},t=1,2,…,k

例如設(shè)G1,…,Gk的分布為Np(1,),…,Np(k,),則其中線性判別函數(shù)Wi(x)為:判別規(guī)則也可以寫為:對協(xié)方差陣不同的情況有類似的結(jié)果。標(biāo)準(zhǔn)的貝葉斯方法要計算后驗概率分布。即計算當(dāng)樣品x已知時,它屬于Gt的概率,記作P(Gt|x),這個概率作為樣品歸類的尺度,其概率意義更為直接。易見判別規(guī)則為:標(biāo)準(zhǔn)的貝葉斯方法要計算后驗概率分布。即計算當(dāng)樣品x已知時,它屬于Gt的概率,記作P(Gt/x),這個概率作為樣品歸類的尺度,其概率意義更為直接。易見或?qū)憺椋豪?.5某城市環(huán)保監(jiān)測站在全市均勻地布置了14個監(jiān)測點,測得污染元素含量數(shù)據(jù)如下表。污染情況分為三類:第一類為嚴(yán)重污染(6,8,9,13號監(jiān)測點);第二類為一般污染(1,2,3,7,10,14號監(jiān)測點);第三類為基本沒有污染(4,5,11,12號監(jiān)測點)。該城市另有2個單位在同一期間測定了所在單位大氣中三種污染元素的含量(表中最后2行),試判斷這2個單位的污染情況屬哪一類。x1—二氧化硫;x2—氮氧化物;x3—飄塵。大氣污染數(shù)據(jù)樣品號類別號污染元素

x1

x2

x31234567891011121314222331211233120.0450.0430.2650.0660.0390.2640.0940.0610.1940.0030.0030.1020.0480.0150.1060.2100.0660.2630.0860.0720.2740.1960.0720.2110.1870.0820.3010.0630.0600.2090.0200.0080.1120.0350.0150.1700.2050.0680.2840.0880.0580.21512..0.1010.0520.1810.0450.0050.122dataex3_5;inputgroup$x1-x3@@;cards;20.0450.0430.265……………….10.2050.0680.28420.0880.0580.215.0.1010.0520.181.0.0450.0050.122;procdiscrimpool=nodistancesimplelist;classgroup;varx1-x3;priorsprop;/*先驗概率,prop為樣本頻率ni/n。*/run;輸出主要結(jié)果:由此知,兩單位被判為第二類,即屬于一般污染地區(qū)。3.3Fisher判別*設(shè)從k個總體分別取得k組p維觀察值如下:n=n1+n2+…+nk令a為RP中的向量,U(x)=ax為x向以a為法線方向的投影,上述數(shù)據(jù)的投影為:令a為RP中的向量,U(x)=ax為x向以a為法線方向的投影,上述數(shù)據(jù)的投影為:正好組成單因素方差分析數(shù)據(jù),其組間平方和為正好組成單因素方差分析數(shù)據(jù),其組間平方和為組內(nèi)(誤差)平方和為若k組均值有顯著差異,則若k組均值有顯著差異,則應(yīng)充分大,或應(yīng)充分大。故我們可以求a使(a)達到極大。由特征根的極值性質(zhì)知,a為|B-E|=0(或E-1B)的最大特征根1對應(yīng)的特征向量1。(1)=1稱為判別效率。第一線性判別函數(shù)為u(x)=1Tx,同理有第二線性判別函數(shù),…若存在唯一的i0使則否則再用第二、三等線性判別函數(shù)。例3.7(胃癌的鑒別)有三個總體:胃癌、萎縮性胃炎和非胃炎患者。從每個總體中抽5個病人,每個病人化驗4項生化指標(biāo):血清銅藍蛋白(x1)、藍色反應(yīng)(x2)、尿吲哚乙酸(x3)和中性硫化物(x4),數(shù)據(jù)如下表。試用Fisher方法建立判別準(zhǔn)則并對這15個樣品進行判別歸類。胃癌檢驗的生化指標(biāo)值類別序號

x1

x2

x3

x4胃癌患者胃癌患者12345228134201120016712271001672014245134104017015078非胃癌患者萎縮性胃炎患者678910225125714130100612150117761201331026160100510

非胃炎患者1112131415185115519165142531701256413510821210011772

dataex3_7;inputgroup$x1-x4@@;cards;12281342011……310011772;proccandiscdata=ex3_7out=c103ncan=2distancesimple;classgroup;varx1-x4;run;procdiscrimdata=c103distancelist;classgroup;varcan1can2;run;解

SAS程序如下:說明:out=c103生成含原數(shù)據(jù)和典變量得分數(shù)據(jù)集;ncan=2(≤p)選兩個典變量can1,can2.類間距離的檢驗2與3兩總體間差異不顯著。樣品回判結(jié)果3.4逐步判別與回歸分析一樣,變量選擇是否恰當(dāng),是判別效果成敗的關(guān)鍵。如果忽略了主要變量,判別效果一定不好。如果變量過多,由于變量間的相關(guān)性,判別效果也不一定好。一般開始選用較多的變量,然后進行篩選。篩選的方法有前進法、后退法和逐步法。逐步判別原理為其樣本。n=n1+…+nk設(shè)有k個總體G1,G2,…,Gk,Gj~Np(j,),j=1,2,…,k逐步判別原理為其樣本。n=n1+…+nk設(shè)有k個總體G1,G2,…,Gk,Gj~Np(j,),j=1,2,…,k分別為組內(nèi)離差矩陣和組間離差矩陣。總離差矩陣為

W(0)=E(0)+B(0)記從矩陣W(0)與E(0)開始,作所謂的消去變換,每一次消去變換,都是在上一次變換的基礎(chǔ)上進行的。例如,假設(shè)對矩陣W(0)、E(0)已作了r次消去變換而得到

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論