判別分析方法_第1頁
判別分析方法_第2頁
判別分析方法_第3頁
判別分析方法_第4頁
判別分析方法_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、判別分析距離判別分析距離判別的最直觀的想法是計(jì)算樣品到第i類總體的平均數(shù)的距離,哪個距離最小就將它判歸哪個總體,所以,我們首先考慮的是是否能夠構(gòu)造一個恰當(dāng)?shù)木嚯x函數(shù),通過樣本與某類別之間距離的大小,判別其所屬類別。設(shè)*=(?,?和丫=(?,?菊是從期望為呼(濟(jì),,南)和方差陣生(??>0的總體G抽得的兩個觀測值,則稱X與Y之間的馬氏距離?為:?=(?-?K1(?-?)樣本X與?歡間的馬氏距離定義為X與?裱重心間的距離,即:O.、一?=(?-?二1(?-?=1,2,?附注:1、 馬氏距離與歐式距離的關(guān)聯(lián):生I,馬氏距離轉(zhuǎn)換為歐式距離;2、 馬氏距離與歐式距離的差異:馬氏距離不受計(jì)量單位的影

2、響,馬氏距離是標(biāo)準(zhǔn)化的歐式距離兩總體距離判別先考慮兩個總體的情況,設(shè)有兩個協(xié)差陣相同的p維正態(tài)總體,對給定的樣本Y,判別一個樣本Y到底是來自哪一個總體,一個最直觀的想法是計(jì)算Y到兩個總體的距離。故我們用馬氏距離來給定判別規(guī)則,有:jy?G,如d2(y,G)<d2(y,G2)?y?G2,如d2(y,G2)<d2(y,GJ?待判,如d2(y,G)=d2(y,G2)22d2(y,G2)-d2(y,Gi)-1-1/、二(y-mJ®(y-mJ-(y-m)S(y-m)1)111,1yy2y222(yy2y2y1(12)(12)1(12)2y(2)1(12)1(i2)(ai,a2,ap

3、)(y)_ap(ypp)W(y)(y-)_ai(Vii)aya1則前面的判別法則表示為jy?G,如W(y)>0,?一jy?G2)如W(y)<0。?待判,如W(Y)=0-1,、當(dāng)??、?和已知時,a=S(m-m2)是一個已知的p維向量,W(y)是y的線性函數(shù),稱為線性判別函數(shù)。稱為判別系數(shù)。用線性判別函數(shù)進(jìn)行判別分析非常直觀,使用起來最方便,在實(shí)際中的應(yīng)用也最廣泛。當(dāng)總體的協(xié)方差已知且不相等y?G,如d2(y,G)<d2(y,G2),?W?G2,如d2(y,G2)<d2(y,G)?待判,如d2(y,G)=d2(y,G2)22d(y,G2)-d(y,Gi)-i-i=(y-成

4、電(y-m2)-(y-m2(y-m)此判別函數(shù)是y的二次函數(shù)多總體距離判別分為協(xié)方差陣相同和協(xié)方差陣不同兩種情況,它們的判別函數(shù)有差異,而判別準(zhǔn)則無差異。一般來說,用距離最近準(zhǔn)則判別是符合習(xí)慣的,但會發(fā)生誤判,各總體發(fā)生誤判的概率和閥值的選擇有關(guān)。當(dāng)總體靠得很近,無論用那種方法誤判概率都很大,作判別分析無意義。因此,判別分析的前提是各總體均值必須有顯著差異。設(shè)有個K總體,分別有均值向量Mi=1,2,拗協(xié)方差陣2=2各總體出現(xiàn)的先驗(yàn)概率相等。又設(shè)Y是一個待判樣品。則與的距離為(即判別函數(shù))2_1d2(y,Gi)(yi)(yi)y1y2ylii1i上式中的第一項(xiàng)?w1?芍沈關(guān),則舍去,得一個等價的

5、函數(shù)gi(Y)=-2yS-1m+mS-1RC將上式中提-2,得gi(Y)=-2(y1m-0.5mS-1m)令fi(Y)=(yS-1m-0.5mS-1m)則距離判別法的判別函數(shù)為令f(Y)=(yS-1m-0.5mS-1m)判別規(guī)則為fl(y)=maxfi(x),貝1y?Gli丈i丈k距離判別只要求知道總體的數(shù)字特征,不涉及總體的分布函數(shù),當(dāng)參數(shù)和協(xié)方差未知時,就用樣本的均值和協(xié)方差矩陣來估計(jì)。距離判別方法簡單實(shí)用,但沒有考慮到每個總體出現(xiàn)的機(jī)會大小,即先驗(yàn)概率,沒有考慮到錯判的損失。貝葉斯判別法正是為了解決這兩個問題提出的判別分析方法。Bayes判別法基本思想貝葉斯判別法是源于貝葉斯統(tǒng)計(jì)思想的一

6、種判別分析法。這種方法先假定對研究對象已有一定的認(rèn)識,這種認(rèn)識以先驗(yàn)概率來描述,然后取得一個樣本,用樣本來修正已有的認(rèn)識,得到后驗(yàn)概率分布,比較這些概率的大小,將待判樣品判歸為來自概率最大的總體。對多個總體的判別考慮的不是建立判別式,而是比較后驗(yàn)概率的大小。Bayes判別法1、引例辦公室新來了一個雇員小王,小王是好人還是壞人大家都在猜測。按人們主觀意識,一個人是好人或壞人的概率均為0.5。壞人總是要做壞事,好人總是做好事,偶爾也會做一件壞事,一般好人做好事的概率為0.9,壞人做好事的概率為0.2,一大,小王做了一件好事,小王是好人的概率有多大,你現(xiàn)在把小王判為何種人。P(好人/做好事)_P(好

7、人)P(做好事/好人)一P0子人)P(做好事/好人)+P(壞人)P(做好事/壞人)050.90.5'0.9+0.5'0.2=0.82P(壞人/做好事)P(壞人)P(做好事/壞人)-P0子人)P(做好事/好人)+P(壞人)P(做好事/壞人)=0.18050.20.5'0.9+0.5'0.2貝葉斯公式:P(Bi|A)=P(A|Bj)P(Bj)SP(A|BJP(B)2、bayes判別法設(shè)總體?陽尖1,2,,k),?具有密度函數(shù)??(?)并且根據(jù)以往的統(tǒng)計(jì)分析,知道??出現(xiàn)的概率為???當(dāng)樣本??發(fā)生時,它屬于某類的概率為:P(Gi|x°)二qiU)Sqjfj

8、(xe)則判別規(guī)則:則??屬于???等價于P(G|%)q1f尸qjfj(x。)qfi(%)max一11kqjfj(x。)qifi(x0)_maxqifi(%),1£國?屬于??特別情況下,如總體服從正態(tài)分布,則對應(yīng)的bayes判別法推到如下:若"x)=(2PS嚴(yán)exp-;(x-m(i)S1(x-m(i)則,qf(x)=q1exp-1(x-m)6-1(x-m)(2pSI)2上式兩邊取對數(shù)并去掉與i無關(guān)的項(xiàng),則等價的判別函數(shù)為:z(x)=ln(qifi(x)lnqi1ln|i|l(x)J(x)問題轉(zhuǎn)化為若Zl(x)=m型乙(x),則判x?Gl當(dāng)協(xié)方差陣相等,即二.二二則判別函數(shù)

9、退化為:Zi(x)lnqi2(xJ)21(xJ)12lnqi(xx(i)21(x/)令Fi(x)21nqi(x3二/J)P(x)=-2lnq-2/c2-1x+/寸J)問題轉(zhuǎn)化為若P(x)=%inP(x),則判x?Gl再令:111(i)(i),(i)J-1mi(x)=lnqi-S+Sx2問題轉(zhuǎn)化為若成工axm(x),則判x?Gli當(dāng)先驗(yàn)概率相等,麥,有m/y'1'1(i)(i)、1VF(x)u'dl2jx完全成為距離判別法2二、最小平均誤判代價準(zhǔn)則在進(jìn)行判別分析時難免會發(fā)生誤判,各種誤判的后果有所不同。我們可以根據(jù)誤判的代價來規(guī)定判別規(guī)則,最小平均誤判代價準(zhǔn)則。設(shè)總體?炎

10、?笑1,2,,k),?具有密度函數(shù)??)并且根據(jù)以往的統(tǒng)計(jì)分析,知道??"現(xiàn)的概率為????+?+?+?=1又Di,D2,Dk是R(p)的一個分劃,判別法則為:當(dāng)樣品X落入Di時,則判X?G=關(guān)鍵的問題是尋找Di,D2,Dk分劃,這個分劃應(yīng)該使平均錯判率最小。1、平均錯判損失用P(j/i)表示將來自總體Gi的樣品錯判到總體Gj的條件概率p(j/i)P(XDj/Gi)fi(x)dxijDjc(j/i)表示相應(yīng)錯判所造成的損失。?c(j/i)P(j/i)(i=1,2,3,L,k)則來于第i個總體被錯判到其它總體的錯判損失為:U由于不同的總體有不同的先驗(yàn)概率,則總平均損失ECM為kkECM

11、=?qi?c(j/i)P(j/i)i=1j=1使ECM最小的分劃,是Bayes判別分析解2、定理若總體G1,G2,Gk的先驗(yàn)概率為近=123,用且相應(yīng)的密度函數(shù)為?),損失為C(j/i),則劃分的Bayes解為Q=,|九(x)=mi叫(x)ji=1,2,3,,左其中khj(x)=?qQ(j/i)fi(x)i=1含義是:當(dāng)抽取了一個未知總體的樣品值x,要判別它屬于那個總體,只要先計(jì)算出k個按先驗(yàn)概率加權(quán)的誤判平均損失然后比較其大小,選取其中最小的,則判定樣品屬于該總體。為了直觀說明,作為例子,我們討論k=2的情形ECMqC(2/1)i(x)dxq2c(1/2)f2(x)dxD2D1qC(2/1)

12、(x)dxq2c(1/2)f2(x)dxD1RD1=q1c(2/1)of1(x)dx+q2c(1/2)0f2(x)dxD1R-D1=qG(2/1)-q2c(2/1),1(x)dx+q2c(1/2),2(x)dxDiDi=qQ(2/1)+護(hù)2c(1/2)f2(x)-qQ(2/1)fKx)dxDi由此可見,要使ECM最小,被積函數(shù)必須在Di是負(fù)數(shù),則有分劃Di=x|q2c(1/2)f2(x)-qQ(2/1)f1(x)<0q2c(1/2)f2(x)-q1c(2/1)f1(x)<0f1(x)/f2(x)>q2c(2/1)/q1c(1/2)V=f1(x)/f2(x)d=q2c(2/1)

13、/q1c(1/2)Bayes判別準(zhǔn)則為:u?y?tx?G1若v(x)>dx?G2若v(x)<d待判若v(x)=dFisher判別分析基本思想巾sher判別分析的基本思想是投影,即將k組m元數(shù)據(jù)按向量投影為一元數(shù)據(jù),同時使得組間距離最大,同組內(nèi)距離最小。其中組間距離可用利用組問平方和統(tǒng)計(jì),組內(nèi)距離利用組內(nèi)平方和統(tǒng)計(jì)。兩總體fisher判別法投影函數(shù)???=c?它將m元數(shù)據(jù)投影到一維直線上。兩總體為:?總體:??D,?¥),?)?總體:?),?'),璃其中X?(?,?窩?,(j=1,2;i=1,2,?|?)分別從兩個總體中的樣品值,代入判別函數(shù)中:?%=?到+?2+?

14、+?1,2,,?袈=?縱+?國2+?+?1,2,?有:而?一x?)=1-12?)=E?£?總體的重心”?=i?=1?馬?7(2)=?E?)=E??總體的重心”,?=i?=i考察:a-?2)?-?%?=?-?涔?使得越大越好。記?=(蜃1)-?華)2為組問離差,?=又?.?幺)-評?)2+、?"?)-組內(nèi)離差,則有:?=?In?In?-In?n?n?n?_?=?-?一?x=?-X=?2?(?!)2=(E?-E?)=£?-?=i?=i?=i?(工?)2?=i其中:??=密-鴛?=2(工?&?=i?2?=£(?考)-兩?)2+£(?2?=1?

15、=1?二三?陽?2?-?)2?=1?=1?-灣2=二三?訟(?據(jù)?-掰2?=1?=1?=1?EE2Q歸徵)?£?怒?媒,?)?=1?=1?££?2(?2?-蜜)?二?/?需?-卷?)從而?=Z2?=1?=1?=1?=1££?我£(?-?)(?-雷?=1?=1?=1?2?£(?*?"蜜)(?-?)=EE?=1(?>?=i?=1?2?)(?;?-%+匯(?盟?-鍛(?-鴛)?=1?=2E?=1?1.、-(E?&?=工?=1?=1?1?之以上?皆??,?=1?不依束于k,僅僅起到擴(kuò)大?淵作用,對投影向量無影

16、響。令2?則有方程組:?浮匯?=1即:?=?.?=?對于兩總體先驗(yàn)概率相等的前提下,一般常取?孫步),?伊)的加權(quán)均值即?二?1)+?2)?+?如有原始數(shù)據(jù)求得T?1)芳)則針對一新樣品X=(?,?),將其帶入判別函數(shù)中求值?如滿足判?e?(判?e?待判當(dāng)?>?當(dāng)??<?當(dāng)?=?,?),將其帶入判別函數(shù)中如有原始數(shù)據(jù)求得?1)<?2)則針對一新樣品X=(?,求值?如滿足判?口?當(dāng)?<?判?e?當(dāng)??>?待判當(dāng)?=?多總體fisher判別法設(shè)從總體3(?=1,2,k)分布抽取m元樣本如下:?)=(?嶄1,?(t=1,?=1,?令c=(c1,c2,,cm)為m維空間中

17、任一向量,???=c?必X按?勺法線方向上的投影,上述k個組中的m元數(shù)據(jù)投影后為:?:?,c?D,c?)記??1=E?幺)?=1''?:c?2),c?f),c?)記?)=工三?留?=1''?>?c?),c?),c?名?)記?)=.喘)"?=1那么組問平方和:?,一一,一,一',?=E?(c?-c?P?P?,F(xiàn)2,4,'?=/E(c?-c?)=cE/(?-?)(?*?-?)?=1?=1?=1?=1=c?其中”/cb/ce'A=二?=£?"?-?)(?婷-?)為組內(nèi)差異陣(或?yàn)榻徊娉朔e陣);因此,為保證k個

18、樣本差異顯著,則比值?c?c?'J?=c二?/?-野(?(?-?=c?=1?=1其中一C,一J(1) B=二?=1?(?-?(?(?-方稱為組間離差陣;(2) ?=?逮?1?町為G?的樣本均值;(3) 於13?=1二?:1?f為總樣本均值;組內(nèi)平方和:應(yīng)充分大。實(shí)際是要求c或Cc(C為常數(shù))使得?(?達(dá)到極大值。故增加約束條件,、一一,'一、一.一.'.'.一.、選取c,使得c?1。即上述問題轉(zhuǎn)化為求c,使?(?=c?c?1條件下達(dá)到極大。利用拉格朗日乘子法求條件極值令?%?=c?(&?1)解方程組?=2(?-?=0?''?,'一=1-c?0?顯然?是??111?勺特征值,c是相應(yīng)的特征向量_<<<?(c)=c?c?c?1?勺特征值設(shè)為大>方?,立?對應(yīng)的特征向量為。,Q,c?2取?=c1時,可使?(c)達(dá)到最大,最大值為、。?(c)的大小可衡量判別函數(shù)?(??=c?勺判別效果,故稱為?(c)的判別效率Fisher判別分析結(jié)論在日sher準(zhǔn)則下,線性判別函數(shù)?=c?勺解c即為特征方程|?|?0的特征根?斯對應(yīng)的滿足?1的特征向量?且相

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論