第三章判別分析_第1頁
第三章判別分析_第2頁
第三章判別分析_第3頁
第三章判別分析_第4頁
第三章判別分析_第5頁
已閱讀5頁,還剩57頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第三章判別分析判別分析(discriminantanalysis)是研究判斷個體所屬類型的一種統(tǒng)計(jì)方法。判別分析的應(yīng)用十分廣泛。如判別產(chǎn)品質(zhì)量的等級;判斷一個國家的經(jīng)濟(jì)發(fā)展程度;判斷該地的礦物類型;判斷病人患哪種疾??;判斷明天是晴、多云或有雨等等。判斷分析所處理的問題往往是包含大量的數(shù)據(jù)資料,且其數(shù)量指標(biāo)往往是多元的。判別分析是一種有效的多元數(shù)據(jù)分析方法,它能科學(xué)地判斷得到的樣品屬于什么類型,揭示內(nèi)在的規(guī)律,做出正確的判斷。判別分析的模型如下:設(shè)有k個總體G1,…,Gk,都是p元總體,其數(shù)量指標(biāo)是設(shè)Gi的分布函數(shù)Fi(x),概率密度fi(x)=fi(x1,x2,…,xp)。對任一樣品

x=(x1,x2,…,xp)T,判斷它來自哪個總體。X=(X1,X2,…,Xp)T

由于判別準(zhǔn)則不同,則有不同的判別分析方法,本章主要介紹距離判別、Bayes

判別和Fisher判別。一、兩個總體的情況設(shè)有兩個總體G1和G2,x=(x1,x2,…,xp)是一個樣品,若能定義x到G1和G2的距離d(x,G1)和d(x,G2),則判別規(guī)則為§3.1

距離判斷

定義3.1設(shè)x,y是從均值向量為、協(xié)方差矩陣為的總體G中抽取的兩個樣品,則x,y兩點(diǎn)之間的馬氏距離平方是

定義3.1設(shè)x,y是從均值向量為、協(xié)方差矩陣為的總體G中抽取的兩個樣品,則x,y兩點(diǎn)之間的馬氏距離平方是又定義x與總體G的馬氏距離平方是當(dāng)兩總體G1和G2的均值向量分別為(1)和(2),協(xié)方差矩陣均為1和2,則當(dāng)兩總體G1和G2的均值向量分別為(1)和(2),協(xié)方差矩陣均為1和2,則若1=2=,則其中1.兩個總體協(xié)方差矩陣相等的情況是x的線性函數(shù),稱為線性判別函數(shù)。判別準(zhǔn)則為其中其中若記其中W(x)也是線性函數(shù)。實(shí)際上,這種情況還可以進(jìn)一步簡化為判別規(guī)則:當(dāng),(1),(2)未知時,用樣本估計(jì)。設(shè)來自兩個總體的樣本,均值和協(xié)方差矩陣的估計(jì)為當(dāng)∑1=∑2=∑時,的無偏估計(jì)為此時為非線性判別。2.兩個總體協(xié)方差矩陣不等的情況:∑1≠∑2判別準(zhǔn)則為當(dāng)1,2

,1,2未知時的樣本估計(jì)為二、

判別準(zhǔn)則的評價

當(dāng)一個判別法則提出以后,還要研究其優(yōu)良性。考察一個判別法則的優(yōu)良性,要考察誤判率,即考察

x屬于G1而誤判為屬于G2或x屬于G2而誤判為屬于G1

的概率。1.誤差率回代估計(jì)法設(shè)分別是來自兩個總體的樣本,將每個樣品進(jìn)行回代判別,其判別結(jié)果如下表:回判情況實(shí)際歸類G1

G2G1G2n11

n12n21

n221.誤差率回代估計(jì)法設(shè)分別是來自兩個總體的樣本,將每個樣品進(jìn)行回代判別,其判別結(jié)果如下表:回判情況實(shí)際歸類G1

G2G1G2n11

n12n21

n22其中n11+n12=n1,n12為樣品屬于G1而誤判為G2的個數(shù);n21+n22=n2,n21為樣品屬于G2而誤判為G1的個數(shù).誤判率的回代估計(jì)為2.誤判率的交叉確認(rèn)估計(jì)誤判率的交叉確認(rèn)估計(jì)是每次剔除樣本中的一個樣品,利用其余n1+n2-1樣品建立判別準(zhǔn)則,再用所建立的判別準(zhǔn)則對刪除的那個樣品作判別.對樣本中的每個樣品作上述分析,以其誤判比例作為誤判概率的估計(jì)。

設(shè)G1的n1個樣品中,有n*12個樣品被誤判;G2的n*21個樣品被誤判。則誤判率的交叉確認(rèn)估計(jì)為

SAS系統(tǒng)可以計(jì)算誤判率的交叉確認(rèn)估計(jì)。例3.1馬尾松苗紫化病是一種生理性病害,現(xiàn)從病苗(紫化苗)中選取12株,健苗中選取8株分別測定其每平方厘米葉片所含5種元素的微克數(shù),其數(shù)據(jù)見表3.1,試據(jù)此作距離判別分析。表3.1馬尾松苗數(shù)據(jù)G1:健苗G2:紫花苗序號

x1

x2

x3

x4

x5序號

x1

x2

x3

x4

x51234567812.50.65.20.10.512.10.87.80.20.411.10.65.20.20.79.40.66.10.10.67.00.55.20.20.48.40.54.30.10.47.10.56.10.10.511.20.74.90.10.5

12345678910111212.10.42.80.20.612.80.52.80.10.511.40.54.90.40.88.50.45.00.30.610.00.44.20.20.79.40.43.90.20.68.60.42.20.20.77.10.43.40.30.49.50.34.20.70.87.80.44.00.20.7

7.00.42.70.20.77.50.32.20.30.6解

SAS程序:dataex3_1;inputgroup$x1-x5@@;cards;a12.50.65.20.10.5………….a11.20.74.90.10.5b12.10.42.80.20.6……………b7.50.32.20.30.6;數(shù)據(jù)步procdiscrimdata=ex3_1pool=testslpool=0.1method=normaldistancesimplelistcrosslisterrwcovpcov;classgroup;varx1-x5;run;說明:pool=test檢驗(yàn)方差陣相等(或=yes或=no);slpool=0.1指定顯著性水平,僅與pool=test匹配;method=normal(或npar非參數(shù)方法)前者為缺??;distance輸出各組間距離并進(jìn)行檢驗(yàn),理論從略;simple輸出簡單統(tǒng)計(jì)量;過程步crosslisterr輸出交叉確認(rèn)法誤判率信息;list輸出每個樣品的判別結(jié)果;wcov輸出各類的組內(nèi)協(xié)差陣;pcov輸出聯(lián)合協(xié)方差矩陣。輸出結(jié)果:(1)簡單統(tǒng)計(jì)量(2)協(xié)方差矩陣(3)協(xié)方差矩陣是否相等的檢驗(yàn)檢驗(yàn)結(jié)果不顯著(p=0.7341>0.1),即兩總體的協(xié)方差矩陣相等。(4)類間距離的檢驗(yàn)檢驗(yàn)結(jié)果顯著(p=0.0007),兩總體間差異顯著。(5)線性判別函數(shù)W1(x)=-41.05361–0.74441x1+100.24194x2+1.39795x3+4.56860x4+41.67557x5W2(x)=-30.81622+0.11215x1+67.67498x2-0.28010x3+12.18045x4+48.55509x5(6)樣品回判結(jié)果(7)回判結(jié)果概要與誤判率(8)交叉確認(rèn)回判結(jié)果概要與誤判率協(xié)方差矩陣分別為1,2,…,k。類似兩總體距離判別,計(jì)算新樣品到各總體的馬氏距離,距離最短者屬于響應(yīng)的總體。三、多個總體的距離判斷設(shè)有k個總體G1,G2,…Gk,均值向量分別為1,2,….,k任取兩個總體Gi,Gj,考察x到Gi,Gj的馬氏距離的平方差1.總體協(xié)方差矩陣相等其中:這樣,得到多總體在總體協(xié)方差矩陣相等時的距離判別準(zhǔn)則:若總體Gj0滿足易見則判定x屬于Gj0。當(dāng)總體均值j和協(xié)方差矩陣未知時,用樣本估計(jì)。設(shè)是來自總體Gj的樣本,均值和協(xié)方差矩陣的估計(jì)為總體協(xié)方差矩陣∑j不全相等計(jì)算x至各總體Gj的馬氏平方距離記二次判別函數(shù)判別準(zhǔn)則:若總體Gj0滿足則判定x屬于Gj0。當(dāng)總體均值j和協(xié)方差矩陣j未知時,用樣本估計(jì)。其估計(jì)值為對多總體的距離判別,同兩總體情況一樣,做出誤判率的回代估計(jì)及交叉確認(rèn)估計(jì)。3.2貝葉斯(Bayes)判別

Bayes統(tǒng)計(jì)思想是假定對研究對象已有一定的認(rèn)識,常用先驗(yàn)概率分布來描述這種認(rèn)識。然后取得一個樣本,用樣本來修正已有的認(rèn)識(先驗(yàn)概率分布)得后驗(yàn)概率分布,各種統(tǒng)計(jì)推斷都通過后驗(yàn)概率分布來進(jìn)行。將Bayes統(tǒng)計(jì)思想用于判別分析就得到Bayes判別。設(shè)有k個總體G1,G2,…,Gk分別具有p維密度函數(shù)f1(x),f2(x),…,fk(x),已知出現(xiàn)這k個總體的先驗(yàn)概率為q1,q2,…,qk(q1+q2+…+qk=1),我們希望建立判別函數(shù)和判別規(guī)則。用D1,D2,…,Dk表示p維歐氏空間RP的一個劃分,即D1,D2,…,Dk互不相交,且D1∪D2∪…∪Dk=RP。如果這個劃分取得適當(dāng),正好對應(yīng)于這k個總體,這時判別規(guī)則可以采用如下辦法:設(shè)有k個總體G1,G2,…,Gk分別具有p維密度函數(shù)f1(x),f2(x),…,fk(x),已知出現(xiàn)這k個總體的先驗(yàn)概率為q1,q2,…,qk(q1+q2+…+qk=1),我們希望建立判別函數(shù)和判別規(guī)則。問題是如何獲得這個劃分?x∈Gi

若x落入Di,i=1,2,…,k

用c(j|i)表示樣品來自Gi而誤判為Gj的損失,這一誤判的概率為于是由判別規(guī)則所帶來的平均損失ECM(expectedcostofmiscalculation)為我們總是定義c(i|i)=0。目的是求D1,D2,…,Dk使ECM達(dá)到最小??梢宰C明定理3.1

在本節(jié)假定下,Bayes判別解D1,D2,…,Dk為其中Dt={x|ht(x)<hj(x),j≠t,j=1,2,…,k},t=1,2,…,k

例3.2

當(dāng)k=2時h1(x)=q2f2(x)c(1|2),h2(x)=q1f1(x)c(2|1)從而D1={x|q2f2(x)c(1|2)<q1f1(x)c(2|1)}D2={x|q2f2(x)c(1|2)>q1f1(x)c(2|1)}h1(x)=q2f2(x)c(1|2),h2(x)=q1f1(x)c(2|1)從而D1={x|q2f2(x)c(1|2)<q1f1(x)c(2|1)}D2={x|q2f2(x)c(1|2)>q1f1(x)c(2|1)}若令判別函數(shù)為V(x)=f1(x)/f2(x),d=q2c(1|2)/q1c(2|1)則判別規(guī)則可表示為例3.3

若f1(x)與f2(x)分別為p維正態(tài)分布Np(1,),Np(2,)的密度函數(shù),此時V(x)=f1(x)/f2(x)其中W(x)與距離判別的相同。則判別規(guī)則可表示為當(dāng)q1=q2,c(1|2)=c(2|1),則d=1,lnd=0。此時即為距離判別。定理5.1

在本節(jié)假定下,Bayes判別解D1,D2,…,Dk為其中實(shí)際中,損失c(j|i)不易給出,常取c(j|i)=1,i≠j。Dt={x|ht(x)<hj(x),j≠t,j=1,2,…,k},t=1,2,…,k

推論如果c(j|i)=1,i≠j,則Bayes解為Dt={x|qtft(x)>qjfj(x),j≠t,j=1,2,…,k},t=1,2,…,k

例如設(shè)G1,…,Gk的分布為Np(1,),…,Np(k,),則推論如果c(j|i)=1,i≠j,則Bayes解為Dt={x|qtft(x)>qjfj(x),j≠t,j=1,2,…,k},t=1,2,…,k

例如設(shè)G1,…,Gk的分布為Np(1,),…,Np(k,),則其中線性判別函數(shù)Wi(x)為:判別規(guī)則也可以寫為:對協(xié)方差陣不同的情況有類似的結(jié)果。標(biāo)準(zhǔn)的貝葉斯方法要計(jì)算后驗(yàn)概率分布。即計(jì)算當(dāng)樣品x已知時,它屬于Gt的概率,記作P(Gt|x),這個概率作為樣品歸類的尺度,其概率意義更為直接。易見判別規(guī)則為:標(biāo)準(zhǔn)的貝葉斯方法要計(jì)算后驗(yàn)概率分布。即計(jì)算當(dāng)樣品x已知時,它屬于Gt的概率,記作P(Gt/x),這個概率作為樣品歸類的尺度,其概率意義更為直接。易見或?qū)憺椋豪?.5某城市環(huán)保監(jiān)測站在全市均勻地布置了14個監(jiān)測點(diǎn),測得污染元素含量數(shù)據(jù)如下表。污染情況分為三類:第一類為嚴(yán)重污染(6,8,9,13號監(jiān)測點(diǎn));第二類為一般污染(1,2,3,7,10,14號監(jiān)測點(diǎn));第三類為基本沒有污染(4,5,11,12號監(jiān)測點(diǎn))。該城市另有2個單位在同一期間測定了所在單位大氣中三種污染元素的含量(表中最后2行),試判斷這2個單位的污染情況屬哪一類。x1—二氧化硫;x2—氮氧化物;x3—飄塵。大氣污染數(shù)據(jù)樣品號類別號污染元素

x1

x2

x31234567891011121314222331211233120.0450.0430.2650.0660.0390.2640.0940.0610.1940.0030.0030.1020.0480.0150.1060.2100.0660.2630.0860.0720.2740.1960.0720.2110.1870.0820.3010.0630.0600.2090.0200.0080.1120.0350.0150.1700.2050.0680.2840.0880.0580.21512..0.1010.0520.1810.0450.0050.122dataex3_5;inputgroup$x1-x3@@;cards;20.0450.0430.265……………….10.2050.0680.28420.0880.0580.215.0.1010.0520.181.0.0450.0050.122;procdiscrimpool=nodistancesimplelist;classgroup;varx1-x3;priorsprop;/*先驗(yàn)概率,prop為樣本頻率ni/n。*/run;輸出主要結(jié)果:由此知,兩單位被判為第二類,即屬于一般污染地區(qū)。3.3Fisher判別*設(shè)從k個總體分別取得k組p維觀察值如下:n=n1+n2+…+nk令a為RP中的向量,U(x)=ax為x向以a為法線方向的投影,上述數(shù)據(jù)的投影為:令a為RP中的向量,U(x)=ax為x向以a為法線方向的投影,上述數(shù)據(jù)的投影為:正好組成單因素方差分析數(shù)據(jù),其組間平方和為正好組成單因素方差分析數(shù)據(jù),其組間平方和為組內(nèi)(誤差)平方和為若k組均值有顯著差異,則若k組均值有顯著差異,則應(yīng)充分大,或應(yīng)充分大。故我們可以求a使(a)達(dá)到極大。由特征根的極值性質(zhì)知,a為|B-E|=0(或E-1B)的最大特征根1對應(yīng)的特征向量1。(1)=1稱為判別效率。第一線性判別函數(shù)為u(x)=1Tx,同理有第二線性判別函數(shù),…若存在唯一的i0使則否則再用第二、三等線性判別函數(shù)。例3.7(胃癌的鑒別)有三個總體:胃癌、萎縮性胃炎和非胃炎患者。從每個總體中抽5個病人,每個病人化驗(yàn)4項(xiàng)生化指標(biāo):血清銅藍(lán)蛋白(x1)、藍(lán)色反應(yīng)(x2)、尿吲哚乙酸(x3)和中性硫化物(x4),數(shù)據(jù)如下表。試用Fisher方法建立判別準(zhǔn)則并對這15個樣品進(jìn)行判別歸類。胃癌檢驗(yàn)的生化指標(biāo)值類別序號

x1

x2

x3

x4胃癌患者胃癌患者12345228134201120016712271001672014245134104017015078非胃癌患者萎縮性胃炎患者678910225125714130100612150117761201331026160100510

非胃炎患者1112131415185115519165142531701256413510821210011772

dataex3_7;inputgroup$x1-x4@@;cards;12281342011……310011772;proccandiscdata=ex3_7out=c103ncan=2distancesimple;classgroup;varx1-x4;run;procdiscrimdata=c103distancelist;classgroup;varcan1can2;run;解

SAS程序如下:說明:out=c103生成含原數(shù)據(jù)和典變量得分?jǐn)?shù)據(jù)集;ncan=2(≤p)選兩個典變量can1,can2.類間距離的檢驗(yàn)2與3兩總體間差異不顯著。樣品回判結(jié)果3.4逐步判別與回歸分析一樣,變量選擇是否恰當(dāng),是判別效果成敗的關(guān)鍵。如果忽略了主要變量,判別效果一定不好。如果變量過多,由于變量間的相關(guān)性,判別效果也不一定好。一般開始選用較多的變量,然后進(jìn)行篩選。篩選的方法有前進(jìn)法、后退法和逐步法。逐步判別原理為其樣本。n=n1+…+nk設(shè)有k個總體G1,G2,…,Gk,Gj~Np(j,),j=1,2,…,k逐步判別原理為其樣本。n=n1+…+nk設(shè)有k個總體G1,G2,…,Gk,Gj~Np(j,),j=1,2,…,k分別為組內(nèi)離差矩陣和組間離差矩陣??傠x差矩陣為

W(0)=E(0)+B(0)記從矩陣W(0)與E(0)開始,作所謂的消去變換,每一次消去變換,都是在上一次變換的基礎(chǔ)上進(jìn)行的。例如,假設(shè)對矩陣W(0)、E(0)已作了r次消去變換而得到

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論