應(yīng)用多元分析之第五章判別分析_第1頁(yè)
應(yīng)用多元分析之第五章判別分析_第2頁(yè)
應(yīng)用多元分析之第五章判別分析_第3頁(yè)
應(yīng)用多元分析之第五章判別分析_第4頁(yè)
應(yīng)用多元分析之第五章判別分析_第5頁(yè)
已閱讀5頁(yè),還剩91頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第五章判別分析

discriminantanalysis§5.1引言§5.2距離判別§5.3貝葉斯判別§5.4費(fèi)希爾判別§5.1引言在科學(xué)研究和日常生活中,我們經(jīng)常會(huì)遇到“根據(jù)觀測(cè)到的數(shù)據(jù)來(lái)對(duì)研究對(duì)象進(jìn)行分類的問(wèn)題”。分析的目標(biāo)主要有:(1)將研究對(duì)象分為兩個(gè)或更多的類——聚類分析。(2)將某個(gè)樣品判歸某一類型——判別分析§5.1引言(2)可以用“分類”或“分配”來(lái)描述目標(biāo)1目標(biāo)2繼續(xù)使用R.A.Fisher引進(jìn)的概念“判別”。為了達(dá)到判別的目的,需要用圖形(三維或更低維的)方法或代數(shù)方法描述來(lái)自若干個(gè)已知總體的對(duì)象(觀察值)的差異性。我們?cè)噲D找到這樣的一些“判別量”,根據(jù)這些判別量的數(shù)值能盡可能地將這些總體分離。因此,對(duì)目標(biāo)2而言更具描述性的詞應(yīng)是“分離”§5.1引言(3)判別分析的概念

判別分析是根據(jù)新樣品的p維指標(biāo)值對(duì)該樣品的類(組)別歸屬進(jìn)行判別的一種多元統(tǒng)計(jì)方法。需要判別其歸屬的新樣品,稱為“待判樣品”。按數(shù)學(xué)模型線性判別非線性判別按判別的組數(shù)兩組判別多組判別按處理變量方法序貫判別逐步判別距離判別貝葉斯判別費(fèi)歇爾判別按判別方法判別分析的分類§5.1引言(4)§5.1引言(5)判別分析的常用判別準(zhǔn)則馬氏距離最小準(zhǔn)則——距離判別Fisher準(zhǔn)則——Fisher判別最大概率準(zhǔn)則——貝葉斯判別

最大似然準(zhǔn)則平均損失最小準(zhǔn)則§5.1引言(6)判別分析與聚類分析的不同之處

判別分析是在已知研究對(duì)象分成了若干類型(or組別),并已取得各種類型的一批樣品觀測(cè)數(shù)據(jù),在此基礎(chǔ)上根據(jù)某些規(guī)則建立判別式(判別量),然后對(duì)未知類型的樣品進(jìn)行判別分類。

判別分析產(chǎn)生于20世紀(jì)30年代。近年來(lái),在自然科學(xué)、社會(huì)學(xué)及經(jīng)濟(jì)管理學(xué)科中都有廣泛的應(yīng)用。

判別分析的特點(diǎn)是根據(jù)已掌握的、歷史上每個(gè)類別的若干樣本的數(shù)據(jù)信息,總結(jié)出客觀事物分類的規(guī)律性,建立判別公式和判別準(zhǔn)則。然后,當(dāng)遇到新的樣品時(shí),只要根據(jù)總結(jié)出來(lái)的判別公式和判別準(zhǔn)則,就能判別該樣品所屬的類別。

§5.1引言(7)例如:中小企業(yè)的破產(chǎn)模型為了研究中小企業(yè)的破產(chǎn)模型,選定4個(gè)經(jīng)濟(jì)指標(biāo):

X1:總資產(chǎn)收益率(現(xiàn)金收益/總資產(chǎn))

X2:收益性指標(biāo)(純收入/總財(cái)產(chǎn))

X3:短期支付能力(流動(dòng)資產(chǎn)/流動(dòng)負(fù)債)

X4:生產(chǎn)效率性指標(biāo)(流動(dòng)資產(chǎn)/純銷(xiāo)售額)對(duì)17個(gè)破產(chǎn)企業(yè)(1類)和21個(gè)正常運(yùn)行企業(yè)(2類)進(jìn)行了調(diào)查,得如下資料:總資產(chǎn)收益率收益性指標(biāo)短期支付能力生產(chǎn)效率指標(biāo)類別-.45-.411.09.451-.56-.311.51.161.06.021.01.401-.07-.091.45.261-.10-.091.56.671-.14-.07.71.281-.23-.30.22.181.07.021.31.251.01.002.15.701-.28-.231.19.661.15.051.88.271.37.111.99.381-.08-.081.51.421.05.031.68.951.01.001.26.601.12.111.14.171-.28-.271.27.511.51.102.49.542.08.022.01.532.38.113.27.552.19.052.25.332.32.074.24.632.31.054.45.692.12.052.52.692-.02.022.05.352.22.082.35.402.17.071.80.522.15.052.17.552-.10-1.012.50.582.14-.03.46.262.14.072.61.522-.33-.093.01.472.48.091.24.182.56.114.29.452.20.081.99.302.47.142.92.452.17.042.45.142.58.045.06.132.04.011.50.71待判-.06-.061.37.40待判.07-.011.37.34待判-.13-.141.42.44待判.15.062.23.56待判.16.052.31.20待判.29.061.84.38待判.54.112.33.48待判企業(yè)序號(hào)判別類型判別函數(shù)值判別為1的概率判別為2的概率11-.56509.69479.3052121-.89817.80234.1976631-.59642.70620.2938041-1.02182.83420.1658052.25719.35312.6468862.34253.32005.6799572.27925.34442.65558821.24010.09012.90988建立判別模型Bayes概率二、判別分析方法距離判別貝葉斯判別典型(Fisher)判別逐步判別-選擇判別變量

§5.2距離判別一、距離判別法的基本思想

距離判別的基本思想是計(jì)算樣品到第i類總體重心(平均數(shù))的距離,哪個(gè)距離最小就將它判歸哪個(gè)總體,或者說(shuō),待判樣品到哪一類重心的距離最短就將它判歸該類!所以,我們首先考慮的是是否能夠構(gòu)造一個(gè)恰當(dāng)?shù)木嚯x函數(shù),通過(guò)樣品與某類別之間距離的大小,判別其所屬類別。

設(shè)是從期望μ=和方差陣Σ=的總體G抽得的兩個(gè)觀測(cè)值,則稱

(2)樣品X和Gi類之間的馬氏距離定義為X與Gi類重心間的距離:

(1)X與Y之間的Mahalanobis距離定義為

二、馬氏(Malanobis)距離馬氏距離和歐氏距離之間的比較

馬氏距離歐氏距離馬氏距離的特點(diǎn):2、歐氏距離是馬氏距離的特例—標(biāo)準(zhǔn)化變量1、馬氏距離不受計(jì)量單位的影響變量標(biāo)準(zhǔn)化歐氏距離馬氏距離3、若變量之間是相互無(wú)關(guān)的,則協(xié)方差矩陣為對(duì)角矩陣統(tǒng)計(jì)距離加權(quán)的歐氏距離三、距離判別方法(一)兩總體距離判別(二)多總體距離判別

(一)兩個(gè)總體的距離判別法

首先考慮兩個(gè)總體的情況。設(shè)有兩個(gè)協(xié)差陣相同的p維正態(tài)總體G1和G2,對(duì)給定的樣品x,判別樣品X可能是來(lái)自哪一個(gè)總體?一個(gè)最直觀的想法是計(jì)算x到兩個(gè)總體的距離。故我們用馬氏距離來(lái)給定判別規(guī)則。1.方差相等則前面的判別法則表示為

當(dāng)和已知時(shí),

是一個(gè)已知的p維向量,W(x)是x的線性函數(shù),稱為線性判別函數(shù)。稱為判別系數(shù)。用線性判別函數(shù)進(jìn)行判別分析非常直觀,使用起來(lái)最方便,在實(shí)際中的應(yīng)用也最廣泛。

例在企業(yè)的考核中,可以根據(jù)企業(yè)的生產(chǎn)經(jīng)營(yíng)情況把企業(yè)分為優(yōu)秀企業(yè)(G1)和一般企業(yè)(G2)。考核企業(yè)經(jīng)營(yíng)狀況的指標(biāo)有:

x1:資金利潤(rùn)率=利潤(rùn)總額/資金占用總額

x2:勞動(dòng)生產(chǎn)率=總產(chǎn)值/職工平均人數(shù)

x3:產(chǎn)品凈值率=凈產(chǎn)值/總產(chǎn)值

三個(gè)指標(biāo)的均值向量和協(xié)方差矩陣見(jiàn)下頁(yè)?,F(xiàn)有二個(gè)待判企業(yè)的觀測(cè)值分別為:(7.8,39.1,9.6)′和(8.1,34.2,6.9)′,問(wèn)這兩個(gè)企業(yè)應(yīng)該屬于哪一類?變量均值向量協(xié)方差矩陣優(yōu)秀一般資金利潤(rùn)率13.55.468.3940.2421.41

勞動(dòng)生產(chǎn)率40.729.840.2454.5811.67

產(chǎn)品凈值率10.76.221.4111.677.90建立線性判別函數(shù):利用線性判別函數(shù)對(duì)待判樣品進(jìn)行判別:根據(jù)判別規(guī)則將第一個(gè)待判樣品判歸G1。根據(jù)判別規(guī)則將第二個(gè)待判樣品判歸G2。2.當(dāng)總體的協(xié)方差已知,且不相等判別規(guī)則:

隨著計(jì)算機(jī)計(jì)算能力的增強(qiáng)和計(jì)算機(jī)的普及,距離判別法的判別函數(shù)也在逐步改進(jìn),一種等價(jià)的距離判別為:設(shè)有個(gè)K總體,分別有均值向量μi(i=1,2,…,k)和協(xié)方差陣Σi=Σ,各總體出現(xiàn)的先驗(yàn)概率相等。又設(shè)x是一個(gè)待判樣品。則與類Gi的馬氏距離為(可以構(gòu)造判別函數(shù)):(二)多總體的距離判別法

上式中的第一項(xiàng)x’Σ-1x與i無(wú)關(guān),可以舍去,得一個(gè)等價(jià)的函數(shù):

將上式中提-2,得則距離判別法的判別函數(shù)為:注:這與前面所提出的距離判別是等價(jià)的。判別規(guī)則為判別函數(shù)四、抽取樣本估計(jì)有關(guān)未知參數(shù)法1.兩總體判別2.多總體判別備注:例子:計(jì)算出樣本均值向量、協(xié)方差陣及其逆矩陣計(jì)算兩總體的判別函數(shù)見(jiàn)下頁(yè)Constant-4.38162-6.75397x14.035195.29456x2-18.38748-10.01991x31.615883.30560x412.193769.94926選擇最大值選擇最大的值五、對(duì)判別效果做出檢驗(yàn)

1、錯(cuò)判概率

由上面的分析可以看出,馬氏距離判別法是合理的,但是這并不意謂著不會(huì)發(fā)生誤判。兩總體分別服從

其判別函數(shù)為正確判斷的概率:從上圖中可以看出,兩個(gè)正態(tài)總體越是分開(kāi),兩個(gè)誤判概率就越小,此時(shí)的判別效果也就越佳。當(dāng)兩個(gè)正態(tài)總體很接近時(shí),兩個(gè)誤判概率都將很大,這時(shí)作判別分析就沒(méi)有什么實(shí)際意義。錯(cuò)判概率圖示:2、交叉核實(shí)交叉核實(shí)法的思想是:為了判斷第i個(gè)觀測(cè)的判別正確與否,用刪除第i個(gè)觀測(cè)的樣本數(shù)據(jù)集計(jì)算出判別函數(shù),然后用此判別函數(shù)來(lái)判別第i個(gè)觀測(cè)。對(duì)每一個(gè)觀測(cè)都這樣進(jìn)行。交叉核實(shí)檢查比較嚴(yán)格,能說(shuō)明所選擇判別方法的有效性。交叉核實(shí)可以檢驗(yàn)所用方法是否穩(wěn)定。交叉核實(shí)可以解決樣本容量不大的情形,改變樣本,來(lái)檢驗(yàn)方法是否穩(wěn)定的問(wèn)題。

判類原類合計(jì)界定組之間是否已過(guò)于接近我們可對(duì)假設(shè)進(jìn)行檢驗(yàn),若檢驗(yàn)不拒絕原假設(shè),則說(shuō)明兩總體均值之間無(wú)顯著差異,此時(shí)作判別分析一般會(huì)是徒勞的;若檢驗(yàn)拒絕,則兩總體均值之間雖然存在顯著差異,但這種差異對(duì)進(jìn)行有效的判別分析未必足夠大(即此時(shí)作判別分析未必有實(shí)際意義),故此時(shí)還應(yīng)看誤判概率是否超過(guò)了一個(gè)合理的水平。加權(quán)錯(cuò)判率:

設(shè)qi是第i類的先驗(yàn)概率,pi是第i類的錯(cuò)判概率,則加權(quán)錯(cuò)判率為簡(jiǎn)單錯(cuò)判率:

距離判別只要求知道總體的數(shù)字特征,不涉及總體的分布函數(shù),當(dāng)參數(shù)未知時(shí),就用樣本的均值和協(xié)方差矩陣來(lái)估計(jì)。因此,距離判別方法簡(jiǎn)單實(shí)用,但沒(méi)有考慮到每個(gè)總體出現(xiàn)的機(jī)會(huì)大小,即先驗(yàn)概率,沒(méi)有考慮到錯(cuò)判的損失。貝葉斯判別法正是為了解決這兩個(gè)問(wèn)題提出的判別分析方法。本節(jié)思考題1.由于計(jì)算馬氏距離需要已知總體均值向量和協(xié)方差陣,而總體參數(shù)又往往未知。請(qǐng)問(wèn)該如何處理?2.請(qǐng)問(wèn)能不能利用歐氏距離進(jìn)行距離判別?為什么?下面學(xué)習(xí)第五章的第三節(jié)……

辦公室新來(lái)了一個(gè)雇員小王,小王是好人還是壞人大家都在猜測(cè)。按人們主觀意識(shí),一個(gè)人是好人或壞人的概率均為0.5。壞人總是要做壞事,好人總是要做好事,偶爾也會(huì)做一件壞事,一般來(lái)說(shuō),好人做好事的概率為0.9,壞人做好事的概率為0.2。某一天,小王做了一件好事,小王是好人的概率有多大?你現(xiàn)在把小王判為何種人?§5.3貝葉斯判別法一、最大后驗(yàn)概率準(zhǔn)則

距離判別簡(jiǎn)單直觀,很實(shí)用,但是距離判別的方法把總體等同看待,沒(méi)有考慮到總體會(huì)以不同的概率(先驗(yàn)概率)出現(xiàn),也沒(méi)有考慮誤判之后所造成的損失的差異。一個(gè)好的判別方法,既要考慮到各個(gè)總體出現(xiàn)的先驗(yàn)概率,又要考慮到錯(cuò)判造成的損失,Bayes判別就具有這些優(yōu)點(diǎn),其判別效果更加理想,應(yīng)用也更廣泛。貝葉斯公式是一個(gè)我們熟知的公式

設(shè)有總體,具有概率密度函數(shù)。并且根據(jù)以往的統(tǒng)計(jì)分析,知道出現(xiàn)的概率為。即當(dāng)樣本發(fā)生時(shí),求他屬于某類的概率。由貝葉斯公式計(jì)算后驗(yàn)概率,有:則判給。在正態(tài)的假定下,為正態(tài)分布的密度函數(shù)。例5-3-1設(shè)有G1、G2、G3三組,欲判某一樣品x0屬于何組。已知:現(xiàn)根據(jù)貝葉斯判別法:計(jì)算x0屬于各組的后驗(yàn)概率,判別其屬于后驗(yàn)概率最大的一組。

則判給。

上式兩邊取對(duì)數(shù)并去掉與i無(wú)關(guān)的項(xiàng),則等價(jià)的判別函數(shù)為:

特別,總體服從正態(tài)分布的情形問(wèn)題轉(zhuǎn)化為若,則判。當(dāng)協(xié)方差陣相等

定義:則判別函數(shù)退化為令

問(wèn)題轉(zhuǎn)化為若,則判。

完全成為距離判別法。令有問(wèn)題轉(zhuǎn)化為若,則判。當(dāng)先驗(yàn)概率相等,二、最小平均誤判代價(jià)準(zhǔn)則

設(shè)有總體,具有概率密度函數(shù)。并且根據(jù)以往的統(tǒng)計(jì)分析,知道出現(xiàn)的概率為。又D1,D2,┅,Dk是R(p)的一個(gè)分劃,判別法則為:當(dāng)樣品X落入Di時(shí),則判

關(guān)鍵的問(wèn)題是尋找D1,D2,┅,Dk分劃,這個(gè)分劃應(yīng)該使平均錯(cuò)判率最小。

【定義】(平均錯(cuò)判損失)

用P(j/i)表示將來(lái)自總體Gi的樣品錯(cuò)判到總體Gj的條件概率。

C(j/i)表示相應(yīng)錯(cuò)判所造成的損失。

則平均錯(cuò)判損失為:

使ECM最小的分劃,是Bayes判別分析的解。

【定理】若總體G1,G2,,Gk的先驗(yàn)概率為且相應(yīng)的密度函數(shù)為,損失為則劃分的Bayes解為其中

含義是:當(dāng)抽取了一個(gè)未知總體的樣品值x,要判別它屬于那個(gè)總體,只要先計(jì)算出k個(gè)按先驗(yàn)概率加權(quán)的誤判平均損失為了直觀說(shuō)明,作為例子,我們討論k=2的情形。

然后比較其大小,選取其中最小的,則判定樣品屬于該總體。

由此可見(jiàn),要使ECM最小,被積函數(shù)必須在D1是負(fù)數(shù),則有分劃

Bayes判別準(zhǔn)則為:特別地此時(shí),就與標(biāo)準(zhǔn)Bayes判別等價(jià)了!例5-3-4設(shè)有G1、G2、G3三組,欲判某一樣品x0屬于何組。已知:現(xiàn)采用最小ECM準(zhǔn)則進(jìn)行判斷。真實(shí)\判為G1G2G3G1C(1/1)=0C(2/1)=10C(3/1)=200G2C(1/2)=20C(2/2)=0C(3/2)=100G3C(1/3)=60C(2/3)=50C(3/3)=0例5-3-4【解】首先計(jì)算Sqjfj(x0)C(i/j);然后選擇其中最小者,就將待判樣品判歸該組。min

下表是某金融機(jī)構(gòu)客戶的個(gè)人資料,這些資料對(duì)一個(gè)金融機(jī)構(gòu)來(lái)說(shuō),對(duì)于客戶信用度的了解至關(guān)重要,因?yàn)槔眠@些資料,可以挖掘出許多的信息,建立客戶的信用度評(píng)價(jià)體系。所選變量為:

x1:月收入

x2:月生活費(fèi)支出

x3:虛擬變量,住房的所有權(quán),自己的為“1”,租用的“0”x4:目前工作的年限

x5:前一個(gè)工作的年限

x6:目前

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論