版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、1 應用多元統(tǒng)計分析 第五章第五章 判判 別別 分分 析析 判別準則:判別準則:用于衡量新樣品與各已知組別接近程度的思路原則。 判別函數(shù):判別函數(shù): 基于一定的判別準則計算出的用于衡量新樣品與各已知組別接近程度的描述指標。按照判別準則來分有 距離判別、費希爾判別與貝葉斯判別。距離判別法 判別準則:對于任給一次觀測值,若它與第 類的重心距離最近,就認為它來自于第 類。ii馬氏距離馬氏距離)()(),(2YXYXYXd1)()(),(2XXGXd11222222121GdGdGGdGdG,如,如,yyyyyy1、協(xié)方差相等 兩總體的距離判別 先考慮兩個總體的情況,設有兩個協(xié)差陣相同的p維正態(tài)總體
2、和 ,對給定的樣本Y Y,判別一個樣本Y Y到底是來自哪一個總體,一個最直觀的想法是計算Y Y到兩個總體的距離。我們用馬氏距離來指定判別規(guī)則,有:1G2G因此有。)(如,)(如,0021yyyyWGWG)yyy()()(W)()(111pppyayay2121,0GGGGWyyy相反則,則)(如果221其中),()(21paaa211 判別函數(shù):判別函數(shù): 2、當總體的協(xié)方差已知,但不相等、當總體的協(xié)方差已知,但不相等1222222121GdGdGGdGdG,如,如,yyyyyy)()()()(),(),(111121221222yyyyyyGdGd 3、當總體的協(xié)方差未知時,用樣本的離差陣代
3、替, 步驟如下: (1)分別計算各組的離差矩陣 和 ; (2)計算 (3)計算類的均值 (4)計算 (5)計算 (6)生成判別函數(shù),將檢驗樣本代入,判類。22121nnAA2,2121121,)(211判別函數(shù)的系數(shù))(221121)判別函數(shù)的常數(shù)項(1A2A多總體的距離判別法多總體的距離判別法)(min)(22XdXdiil則lGX 設有 個 元總體 ,分別有均值向量 和協(xié)方差陣 ,對任給的 元樣品 ,判斷它來自哪個總體ikikGG,1mmX計算 到 個總體的馬氏距離,比較后,把 判歸給距離最小的那個總體,若XkX例例 在企業(yè)的考核中,可以根據(jù)企業(yè)的生產(chǎn)經(jīng)營情況把企業(yè)分為優(yōu)秀企業(yè)和一般企業(yè)。
4、考核企業(yè)經(jīng)營狀況的指標有: 資金利潤率=利潤總額/資金占用總額 勞動生產(chǎn)率=總產(chǎn)值/職工平均人數(shù) 產(chǎn)品凈值率=凈產(chǎn)值/總產(chǎn)值 三個指標的均值向量和協(xié)方差矩陣如下?,F(xiàn)有二個企業(yè),觀測值分別為(7.8,39.1,9.6)和(8.1,34.2,6.9),問這兩個企業(yè)應該屬于哪一類?變量均值向量協(xié)方差矩陣優(yōu)秀一般資金利潤率13.55.468.3940.2421.41 勞動生產(chǎn)率40.729.840.2454.5811.67 產(chǎn)品凈值率10.76.221.4111.677.905 . 49 .101 . 890. 767.1141.2167.1158.5424.4041.2124.4039.6845.
5、825.3545. 9(1321)xxx7359.1883679. 125362. 060581. 0321xxx)(2)()(21121xxW線性判別函數(shù):0)(0021xWxWGxxWGx如待判,。)(如,)(如,判別準則:1230.605810.253621.8367918.7359yxxx 10.60581 7.80.25362 39.1 1.83679 9.6 18.735964.08920y 20.60581 8.1 0.25362 34.2 1.83679 6.9 18.735962.29560y 線性判別函數(shù):故屬于優(yōu)秀企業(yè)故屬于優(yōu)秀企業(yè)故屬于一般企業(yè)故屬于一般企業(yè)錯判概率錯判
6、概率 由上面的分析可以看出,馬氏距離判別法是合理的,但是這并不意謂著不會發(fā)生誤判。 )(1)(2)(221xxW221其中設兩總體 , 分別服從 其線性判別函數(shù)為: AGBG不妨設 ,則當 時,21xAGX )2()2()(2122221222XPXPXP)2(2122XP)2(121 當兩總體靠得比較近時,即兩總體的均值差異較小時,無論用何種判別方法,判錯的概率都比較大,這時的判別分析也是沒有意義的,因此只有當兩總體的均值有明顯差異時,進行判別分析才有意義,為此,要對兩總體的均值差異性進行檢驗. 辦公室新來了一個雇員小王,小王是好人還是壞人大家都在猜測。按人們主觀意識,一個人是好人或壞人的概
7、率均為0.5。壞人總是要做壞事,好人總是做好事,偶爾也會做一件壞事,一般好人做好事的概率為0.9,壞人做好事的概率為0.2,一天,小王做了一件好事,小王是好人的概率有多大,你現(xiàn)在把小王判為何種人。貝葉斯判別法一一 、標準的、標準的Bayes判別判別做好事)壞人/(P18. 02 . 05 . 09 . 05 . 02 . 05 . 0做好事)好人/(P82. 02 . 05 . 09 . 05 . 09 . 05 . 0)/()()/(/壞人做好事壞人好人做好事好人好人做好事好人PPPPPP )/()()/(/壞人做好事壞人好人做好事好人壞人做好事壞人PPPPPP 一個好的判別方法,既要考慮到
8、各個總體出現(xiàn)的先驗概率,又要考慮到錯判造成的損失,貝葉斯(Bayes)Bayes)判別就具有這些優(yōu)點,其判別效果更加理想,應用也更廣泛。貝葉斯公式是一個我們熟知的公式 )()|()()|()|(iiiiiBPBAPBPBAPABP 距離判別簡單直觀,很實用,但是距離判別的方法把總體等同看待,沒有考慮到總體會以不同的概率(先驗概率)出現(xiàn),也沒有考慮誤判之后所造成的損失的差異。)()()|(000 xfqxfqxGPjjiii)()()|(000 xfqxfqxGPjjlll)()(001maxxfqxfqjjiiki則 判給 ,在正態(tài)的假定下, 為正態(tài)分布的密度函數(shù)。0 xlG)(xfi 設有總
9、體 , 具有概率密度函 數(shù) 。并且根據(jù)以往的統(tǒng)計分析,知道 出現(xiàn)的概率為 。即當樣本 發(fā)生時,求 屬于某類的概率。由貝葉斯公式計算后驗概率,有:iG)(xfiiGiq0 x), 2 , 1(kiGi0 x判別規(guī)則),(max)(010 xfqxfqiikill則 判給 。0 xlG)()(21exp)2(1)()(1)(21iiiiixxxf若)()(21exp)2(1)(,)(1)(21iiiiiiixxqxfq則上式兩邊取對數(shù)下面討論總體服從正態(tài)分布的情形)(ln(xfqii|ln212ln21lniiq)()(21)(1)(iiixx問題轉化為若 ,則判 。)(max)(1xZxZiki
10、llGx當協(xié)方差陣相等時 k1即|ln21lniiq)()(21)(1)(iiixx)(xzi去掉與i無關的項,等價的判別函數(shù)為: 判別函數(shù)退化為iiqxzln)()(21(i)1(i)(x)xiqln221)(i)1(i)(x)x令 )(i)1(i)(x)(xiiqxFln2)(問題轉化為若 ,則判 。)(min)(1xPxPikillGx(i)1)(i1)(ix2ln2)(iiqxP(i)1(i)(i)11(i)1xxxxiqln2令 xx1)(i(i)1)(i21ln)(iiqm完全成為距離判別法 。令)(xmi(i)1(i)21x1(i)有)21(ln2)(xx1(i)(i)1(i)i
11、iqP問題轉化為若 ,則判 。)(max)(1xmxmikillGxkqqk11當先驗概率相等,即 時二、 考慮錯判損失的Bayes判別分析 設有總體 , 具有概率密度函 數(shù) 。并且根據(jù)以往的統(tǒng)計分析,知道 出現(xiàn)的概率為 , 。iG)(xfiiGiq), 2 , 1(kiGi) 1(1kqqD1,D2, ,Dk是R(p)的一個分劃,判別法則為: 關鍵的問題是尋找D1,D2, ,Dk分劃,這個分劃應該使平均錯判率最小。 iDX ki, 3 , 2 , 1當樣品X落入Di時,判 【定義定義】(平均錯判損失)(平均錯判損失)jDiijdxxfGDXPijp)()/()/(ji C(j/i)表示相應錯
12、判所造成的損失。 則平均錯判損失為: kiijiijPijCqECM1)/()/(使ECM最小的分劃,是Bayes判別分析的解。 用 表示將來自總體Gi的樣品錯判到總體Gj的條件概率。 )/(ijp【定理】且相應的密度函數(shù)為 ,損失為 時,劃分的貝葉斯解為kiqi, 3 , 2 , 1,)(xfi)/(ijCkihhDjkjii, 3 , 2 , 1, )(min)(|1xxxkiiijfijCqh1)()/()(xx若總體G1,G2,Gk的先驗概率為其中 含義是:當抽取了一個未知總體的樣品值x,要判別它屬于哪個總體,只要先計算出k個按先驗概率加權的誤判平均損失 然后比較其大小,選取其中最小的
13、,則判定樣品屬于該總體。kiiijfijCqh1)()/()(xx下面在k=2的情形下,計算作為例子,我們討論。 12)()2/1 ()() 1/2(),(221121DDdxxfCqdxxfCqDDECMdxxfCqdxxfCqDRD11)()2/1 ()() 1/2(22111)() 1/2() 1/2(111DdxxfCqCq1)()2/1 (22DdxxfCq) 1/2(1Cq1)() 1/2()()2/1 (1122DdxxfCqxfCq 由此可見,被積函數(shù)在D1是負數(shù)時,可使ECM最小,則有分劃0)() 1/2()()2/1 (|11221xfCqxfCqxD0)() 1/2()(
14、)2/1 (1122xfCqxfCq)2/1 () 1/2()()(1221CqCqxfxfBayes判別準則為: dxvGxdxvGx)()(21若若)()()(21xfxfxW) 1/2()2/1 (12CqCqd 令 特別地,若kiiijfijCqh1)()/()(xxjijiijC01)/(kjiiijfqh)()(xxkijjiijfqfqh1)()()(xxx越小kijjiijfqfqh1)()()(xxx越大)(xjjfq),(max)(1kiiillfqfqxx則 判給 。與標準Bayes判別等價xlG當錯判概率廣義平方距離法廣義平方距離法),()()()(2122igigXd
15、XDiiki, 1 其中 定義樣品X到總體Gi的廣義平方距離為:全相等;若各組的協(xié)方差陣,不全相等,若各組的協(xié)方差陣iii1 0 |,|ln)(SigjijiijC01)/(若先驗概率全相等;,若先驗概率不全相等, 0 |,|ln2)(i2qig), 1,()()(22kiilXDXDil時當,lGX 判判別準則:判別準則:31 兩總體判別 簡例1 :記二維正態(tài)總體N2(i), )為Gi(i=1,2)(兩總體協(xié)差陣相同),已知來自Gi(i=1,2)的樣本數(shù)據(jù)陣為 (1) 試求兩總體的樣本組內(nèi)離差陣A1, A2和合并樣本協(xié)差陣S. (2) 今有樣品x0 =(2,8),試問按馬氏距離準則樣品x0應
16、判歸哪一類. 3, 42, 2.549375,1038310412221)2(23)1(24nnmkXX32 (1)解: 8222)(,2021018222)(,00200121)2()2(2)2(23)1()1(1)1(24XXAXXAXX.74,103)2()1(XX33,411154164445121,16444822282222121AnnSAAAA故為樣本合并組內(nèi)離差陣11141251114544825,25483251641115412SS而且344167. 512135171, 21251211141251, 2)()()()2(01)2(0022XxSXxxd(2)解一:計算馬
17、氏距離5362, 11252111141252, 1)()()() 1 (01) 1 (0021XxSXxxd.),()(10022021Gxxdxd故判因35因而其中,21125311114125)(5 . 85 . 37410321)(21)2()1(1)2()1(*XXSaXXX).5 .132(12521)5 . 8, 5 . 3(125)(2121XXXXXW(2)解二:計算線性判別函數(shù)W(X)aXXXYXYXdXdXW)()()()()(21)(*212122., 0245)5 .13822(125)(100GxxW故判由于36 簡例2(簡例1的續(xù)) :已知先驗概率q1=0.4,
18、q2=0.6,且L(2|1)=L(1|2)=1.對簡例1中提供的資料,試用Bayes 準則對樣品x0 =(2,8) 進行判別歸類. 解一:計算廣義平方距離D2(X,Gi)(i=1,2).),()(,4383. 6)6 . 0(Ln24167. 5)(,8326. 6)4 . 0(Ln25)(.4167. 5)(, 5)(1)2 , 1(Ln2)()(2002102202202102202122GxxDxDxDxDxdxdiqXdXDiii故判因故知由簡例37解二:計算線性判別函數(shù)Yi (X)(i=1,2).7191.35)1123(125)(,7496.41)1322(125)(,7191.3
19、5)(21Ln(0.6),7496.41)(21Ln(0.4),1123125,1322125,1)2 , 1()(212211)2(1)2(20)1(1)1(10)2(12)1(110XXXYXXXYXSXCXSXCXSaXSaiCaXXYiii知由簡例)(1iiiXSaC38 .),()(,1142.207191.358333.557496.41)811223(125)(,9171.197496.416667.617496.41)813222(125)(,8220010202010GxxYxYxYxYx故判因時當39 解三:計算qifi(x0)(i=1,2)(利用定理5.2.1的推論).4
20、167. 5)(, 5)(1.2205. 02832. 638564. 12|92. 125316354411154|)2 , 1()(21exp|21)(0220212/12022/10 xdxdSSixdSxfii知由簡例其中40 .),()(.008817. 024167. 5exp2205. 06 . 0)(,007240. 025exp2205. 04 . 0)(20011022022011Gxxfqxfqxfqxfq故判因41 解四:計算后驗概率P(i |x0)(i=1,2) 由后驗概率的計算公式: .5491. 0008817. 0007240. 0008817. 0)|2(,4
21、509. 0008817. 0007240. 0007240. 0)| 1 ()2 , 1()()()|(0021000 xPxPixfqxfqxiPjjjii42因 P(2| x0 ) P(1| x0 ),故判x0 G2)4383. 6)(,8326. 6)()2 , 1()(5 . 0exp()(5 . 0exp()|(:0220212102020 xDxDixDxDxiPjji由解一知可得公式或者由后驗概率的另一.5492.003999.003283.003999.0)|2(,4508.003999.003283.003283.0)|1(00 xPxP43 例5.2.2(胃癌的鑒別) 下表是從病例中隨機抽取的部分資料.這里有三個總體:胃癌 、萎縮性胃炎和非胃炎病者.從每個總體抽
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 愛心傳遞正能量
- 2025年全球及中國電磁儲能行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025-2030全球塑料桶襯里行業(yè)調(diào)研及趨勢分析報告
- 科技改變小學科學情感教育的未來趨勢
- 校園內(nèi)的味蕾大戰(zhàn)以創(chuàng)意促發(fā)的學生餐廳文化建設
- 小學科學教育中跨學科課程的實施與評估
- 未來酒店兒童活動空間的設計策略與建議
- 山東省臨沂市2021-2022學年高三下學期一??荚囌Z文試題 附解析
- 小學生網(wǎng)絡安全教育與家長責任探討
- 2025年度現(xiàn)代農(nóng)業(yè)土地承包流轉服務合同4篇
- 成品移動公廁施工方案
- 2025年度部隊食堂食材采購與質(zhì)量追溯服務合同3篇
- 新人教版一年級下冊數(shù)學教案集體備課
- 消防產(chǎn)品目錄(2025年修訂本)
- 地方性分異規(guī)律下的植被演替課件高三地理二輪專題復習
- 繪本 課件教學課件
- 光伏項目風險控制與安全方案
- 9.2提高防護能力教學設計 2024-2025學年統(tǒng)編版道德與法治七年級上冊
- 催收培訓制度
- 牧場物語-礦石鎮(zhèn)的伙伴們-完全攻略
- ISO 22003-1:2022《食品安全-第 1 部分:食品安全管理體系 審核與認證機構要求》中文版(機翻)
評論
0/150
提交評論