判別分析課件_第1頁(yè)
判別分析課件_第2頁(yè)
判別分析課件_第3頁(yè)
判別分析課件_第4頁(yè)
判別分析課件_第5頁(yè)
已閱讀5頁(yè),還剩144頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、1判別分析2判別分析的基本思想及意義若研究對(duì)象用某種方法已劃分為若干類(lèi)型。當(dāng)?shù)玫揭粋€(gè)新的樣品數(shù)據(jù)(通常是多元的),要確定該樣品屬于已知類(lèi)型中哪一類(lèi),這類(lèi)問(wèn)題屬于判別分析。質(zhì)量等級(jí) 天氣預(yù)報(bào) 地質(zhì)勘探礦物類(lèi)型 營(yíng)銷(xiāo)數(shù)據(jù) 金融市場(chǎng)風(fēng)險(xiǎn) 醫(yī)學(xué)診斷等 3判別分析的基本思想及意義設(shè)有 個(gè)總體 ,它們都是 元總體,其數(shù)量指標(biāo)是 設(shè)總體 的分布函數(shù)是 通常是連續(xù)型總體,即 具有概率密度 對(duì)于任一新樣品數(shù)據(jù) 要判斷它來(lái)自哪一個(gè)總體 。 4判別分析的基本思想及意義通常各個(gè)總體 的分布是未知的,由從各個(gè)總體取得的樣本(訓(xùn)練樣本)來(lái)估計(jì)。一般,先估計(jì)各個(gè)總體的均值向量與協(xié)方差矩陣。從統(tǒng)計(jì)學(xué)的角度,要求判別準(zhǔn)則在某種

2、準(zhǔn)則下是最優(yōu)的,例如錯(cuò)判的概率最小等。根據(jù)不同的判別準(zhǔn)則,有不同的判別方法,這里主要介紹距離判別和Bayes判別。5兩個(gè)總體的距離判別對(duì)于 元空間中的兩個(gè)點(diǎn): 最常見(jiàn)的是歐氏距離,其平方和距離是 而歐氏距離是6兩個(gè)總體的距離判別設(shè)有兩個(gè)一元總體 與 。有一個(gè)樣品,其值在A處。問(wèn):A點(diǎn)離哪個(gè)總體較 “近”? 從絕對(duì)長(zhǎng)度來(lái)看, 從統(tǒng)計(jì)學(xué)的觀點(diǎn)看,7兩個(gè)總體的距離判別因此,對(duì)一元總體,樣本點(diǎn) 距一元正態(tài)總體 的馬氏平方距離是 即使總體非正態(tài),而其均值為 ,標(biāo)準(zhǔn)差為 ,其馬氏平方距離也可用上式度量。推廣到多元總體的情況,馬氏距離應(yīng)該如下定義: 定義(1)設(shè) 是從均值向量為 、協(xié)方差矩陣為 的總體 中抽

3、取的兩個(gè)樣品,則 兩點(diǎn)之間的馬氏平方距離是 8兩個(gè)總體的距離判別 又定義 與總體 的馬氏平方距離是 (2)設(shè)有兩總體 和 , 的均值向量是 , 的均值向量是 ,又 , 的協(xié)方差矩陣相等,皆為 ,則總體 , 間馬氏平方距離是 9兩個(gè)總體的距離判別設(shè) 是從均值向量為 、協(xié)方差矩陣為 抽取的兩個(gè)樣品, 和 之間的馬氏距離是 至總體 的馬氏距離是10兩個(gè)總體的距離判別馬氏距離滿足距離的三條基本性質(zhì):設(shè) 是來(lái)自總體 的三個(gè)樣品,則 11兩個(gè)總體的距離判別設(shè) , 為兩個(gè)不同的 元已知總體, 的均值向量是 , , 的協(xié)方差矩陣是 , 。設(shè) 是一個(gè)待判樣品,距離判別準(zhǔn)則為 即當(dāng) 到 的馬氏距離不超過(guò)到 的馬氏

4、距離時(shí),判 來(lái)自 ;反之,判 來(lái)自 。12兩個(gè)總體的距離判別兩個(gè)總體協(xié)方差矩陣相等的情況 考慮樣品 到兩總體的馬氏距離的平方差:13兩個(gè)總體的距離判別兩個(gè)總體協(xié)方差矩陣相等的情況 記 則 因此,距離判別法則化為14兩個(gè)總體的距離判別兩個(gè)總體協(xié)方差矩陣相等的情況 皆是 的線性函數(shù)。因此,當(dāng) 時(shí),兩總體的距離判別簡(jiǎn)化為線性判別, 稱為線性判別函數(shù)。 我們將這種情況進(jìn)一步簡(jiǎn)化為15兩個(gè)總體的距離判別兩個(gè)總體協(xié)方差矩陣相等的情況 其中 ,即 是兩總體均值向量的平均。記 其中 ,則 距離判別更簡(jiǎn)化為 其中 也是線性判別函數(shù)。16兩個(gè)總體的距離判別兩個(gè)總體協(xié)方差矩陣相等的情況在實(shí)際問(wèn)題中, 及 通常都是未

5、知的,數(shù)據(jù)資料是來(lái)自兩個(gè)總體的訓(xùn)練樣本。 設(shè) 是來(lái)自總體 的訓(xùn)練樣本,容量為 ; 是來(lái)自總體 的訓(xùn)練樣本,容量為 ; 每個(gè)樣品皆是 元向量。17兩個(gè)總體的距離判別兩個(gè)總體協(xié)方差矩陣相等的情況 要以訓(xùn)練樣本估計(jì) 及 。 的估計(jì)是各訓(xùn)練樣本的均值向量,即 又兩個(gè)訓(xùn)練樣本的協(xié)方差矩陣各為18兩個(gè)總體的距離判別兩個(gè)總體協(xié)方差矩陣相等的情況 當(dāng) 時(shí), 的一個(gè)無(wú)偏估計(jì)是 這樣,線性判別函數(shù) 和 的估計(jì)各為19兩個(gè)總體的距離判別兩個(gè)總體協(xié)方差矩陣相等的情況 這樣,兩個(gè)總體的距離判別法則為20兩個(gè)總體的距離判別兩個(gè)總體協(xié)方差矩陣不等的情況: 這時(shí),可令 按下列判別法則: 其中 分別是樣品 到兩個(gè)總體 的馬氏平

6、方距離,它們皆是 的二次函數(shù),稱為二次判別函數(shù)。21兩個(gè)總體的距離判別兩個(gè)總體協(xié)方差矩陣不等的情況: 實(shí)際問(wèn)題中, , 往往未知,他們可用各總體的訓(xùn)練樣本作估計(jì),即分別以 估計(jì) 分別以 估計(jì) ,得 的估計(jì)分別為 判別法則為22判別準(zhǔn)則的評(píng)價(jià)當(dāng)一個(gè)判別準(zhǔn)則提出以后,還要研究其優(yōu)良性??疾煲粋€(gè)判別準(zhǔn)則的優(yōu)良性,要考察誤判概率,即考察 屬于 而誤判為屬于 ,或 屬于 而誤判為屬于 的概率。首先,介紹以訓(xùn)練樣本為基礎(chǔ)用回代法估計(jì)誤判率的方法: 1)誤差率回代估計(jì)法; 2)誤判率的交叉確認(rèn)估計(jì);23判別準(zhǔn)則的評(píng)價(jià)誤差率回代估計(jì)法 設(shè) 為兩個(gè)總體, 與 是分別來(lái)自 的訓(xùn)練樣本,其容量分別是 與 。以全體訓(xùn)

7、練樣本作為 個(gè)新樣品,逐個(gè)代入已建立的判別準(zhǔn)則中判別其歸屬,這個(gè)過(guò)程稱為回判。結(jié)果如表:24判別準(zhǔn)則的評(píng)價(jià)誤差率回代估計(jì)法 其中 是將屬于 的樣品誤判為 的個(gè)數(shù), 是將屬于 的樣品誤判為 的個(gè)數(shù),總的錯(cuò)誤個(gè)數(shù)是 ,而兩總體訓(xùn)練樣品的總數(shù)是 ,誤判率的回代估計(jì)為 注: 是由建立判別函數(shù)的數(shù)據(jù)反過(guò)來(lái)用作評(píng)估準(zhǔn)則的數(shù)據(jù)而得到的,因此 往往比真實(shí)誤判率小。當(dāng)訓(xùn)練樣本容量較大時(shí), 可以作為真實(shí)誤判率的一種估計(jì)。25判別準(zhǔn)則的評(píng)價(jià)誤判率的交叉確認(rèn)估計(jì)基本思想:每次剔除訓(xùn)練樣本中的一個(gè)樣品,利用其余容量為 的訓(xùn)練樣本建立判別準(zhǔn)則,再用所建立的判別準(zhǔn)則對(duì)刪除的那個(gè)樣品作判別。對(duì)訓(xùn)練樣本中的每個(gè)樣品作上述分析,

8、以其誤判的比例作為誤判概率的估計(jì)。26判別準(zhǔn)則的評(píng)價(jià)誤判率的交叉確認(rèn)估計(jì)具體步驟: 1)從總體 的容量為 的訓(xùn)練樣本開(kāi)始,剔除其中的一個(gè)樣品,用剩余的容量為 的訓(xùn)練樣本和總體 的容量為 的訓(xùn)練樣本建立判別函數(shù); 2)用建立的判別函數(shù)對(duì)刪除的那個(gè)樣品作判別; 3)重復(fù)步驟1),2),直到 的訓(xùn)練樣本中的 個(gè)樣品依次被刪除,又進(jìn)行判別。其誤判樣品個(gè)數(shù)記為 。27判別準(zhǔn)則的評(píng)價(jià)誤判率的交叉確認(rèn)估計(jì)具體步驟: 4)對(duì)總體 的訓(xùn)練樣本重復(fù)步驟1),2)與3),并記其誤判樣品個(gè)數(shù)為 ,以 作為誤判率的估計(jì)。28PROC DISCRIMPROC DISCRIM options; CLASS variable

9、; VAR variables; PRIORS probabilities; TESTCLASS variable; run;29PROC DISCRIMPROC DISCRIM options; 此語(yǔ)句中,“options”部分可包含下列內(nèi)容: 1)待分析的數(shù)據(jù)集選擇: DATASAS data set:指定用以建立判別函數(shù)的SAS數(shù)據(jù)集(即訓(xùn)練樣本數(shù)據(jù)集)。 TESTDATA SAS data set:指定用以檢驗(yàn)判別準(zhǔn)則的SAS數(shù)據(jù)集名稱。除分類(lèi)變量外,改數(shù)據(jù)集中的變量應(yīng)和訓(xùn)練樣本數(shù)據(jù)集中的變量一致。30PROC DISCRIMPROC DISCRIM options; 此語(yǔ)句中,“op

10、tions”部分可包含下列內(nèi)容: 2)輸出數(shù)據(jù)集的選擇: OUTSTATSAS data set:定義一個(gè)輸出SAS數(shù)據(jù)集名稱,該數(shù)據(jù)集包括原訓(xùn)練樣本集中各變量的均值、標(biāo)準(zhǔn)差及相關(guān)系數(shù)等。若METHODMORMAL被使用,該數(shù)據(jù)集中還包括判別函數(shù)的系數(shù); OUTSAS data set:命名一個(gè)輸出SAS數(shù)據(jù)集,其中包括訓(xùn)練樣本集的數(shù)據(jù)及變量、后驗(yàn)概率以及回判結(jié)果;31PROC DISCRIMPROC DISCRIM options; 此語(yǔ)句中,“options”部分可包含下列內(nèi)容: 2)輸出數(shù)據(jù)集的選擇: OUTCROSSSAS data set:定義一個(gè)輸出的SAS數(shù)據(jù)集,其中包括訓(xùn)練樣本

11、數(shù)據(jù)及變量、后驗(yàn)概率以及由交叉確認(rèn)法所得的回判結(jié)果等; TESTOUT=SAS data set:定義一個(gè)輸出的SAS數(shù)據(jù)集,其中包括檢驗(yàn)數(shù)據(jù)集中的變量和數(shù)據(jù)、后驗(yàn)概率以及利用所建立的判別準(zhǔn)測(cè)對(duì)檢驗(yàn)數(shù)據(jù)集的判別結(jié)果。此項(xiàng)當(dāng)“options”中有“TESTDATA SAS data set”時(shí)運(yùn)用。32PROC DISCRIMPROC DISCRIM options; 此語(yǔ)句中,“options”部分可包含下列內(nèi)容: 3)判別分析方法的選擇: METHODNORMAL(或NPAR):指出建立判別函數(shù)的方法。當(dāng)“METHODNORMAL”被指定,則在各總體為正態(tài)分布的假定下通過(guò)利用訓(xùn)練樣本估計(jì)各總

12、體均值向量和協(xié)方差矩陣,并視各總體的協(xié)方差矩陣是否相等而分別建立線性及二次判別函數(shù);當(dāng)指定“METHOD NPAR”,則使用非參數(shù)方法建立判別函數(shù)。前者是SAS系統(tǒng)默認(rèn)的方法。33PROC DISCRIMPROC DISCRIM options; 此語(yǔ)句中,“options”部分可包含下列內(nèi)容: 3)判別分析方法的選擇: POOLYES(或NO,TEST):在選擇“METHODNORMAL”的前提下,“POOLYES”意味著假定各總體的協(xié)方差矩陣相等,而用各訓(xùn)練樣本的樣本協(xié)方差矩陣聯(lián)合估計(jì)公共的協(xié)方差矩陣,這時(shí)建立的判別函數(shù)是線性的;若假定“ POOLNO”,則意味著假定各總體的協(xié)方差矩陣不等

13、而建立二次判別函數(shù); “ POOLTEST”即要求首先利用修正的Bartlett似然比方法檢驗(yàn)各總體的協(xié)方差矩陣是否相等,若檢驗(yàn)結(jié)果在由語(yǔ)句“SLPOOLp”所指定的顯著水平p下顯著,則建立二次判別函數(shù),否則利用聯(lián)合協(xié)方差矩陣估計(jì)建立線性判別函數(shù)。對(duì)線性判別函數(shù),輸出結(jié)果中才給出判別函數(shù)的系數(shù)。 34PROC DISCRIMPROC DISCRIM options; 此語(yǔ)句中,“options”部分可包含下列內(nèi)容: 3)判別分析方法的選擇: SLPOOLp:指定檢驗(yàn)協(xié)方差矩陣是否相等的顯著水平。只有當(dāng)選擇“POOLTEST”時(shí),才可出現(xiàn)此語(yǔ)句,若省去此語(yǔ)句,則SAS系統(tǒng)默認(rèn)p0.10。35PR

14、OC DISCRIMPROC DISCRIM options; 此語(yǔ)句中,“options”部分可包含下列內(nèi)容: 4)回判結(jié)果輸出選擇: LIST:打印出每個(gè)樣品的回判結(jié)果; LISTERR:僅打印出回判中判錯(cuò)的樣本信息; NOCLASSIFY:不需要對(duì)訓(xùn)練樣本數(shù)據(jù)作回判分析。36PROC DISCRIMPROC DISCRIM options; 此語(yǔ)句中,“options”部分可包含下列內(nèi)容: 5)交叉確認(rèn)法回判結(jié)果的輸出選擇: 當(dāng)下列語(yǔ)句出現(xiàn)時(shí),則交叉確認(rèn)法被使用對(duì)訓(xùn)練樣本作出回判分析。 CROSSVALIDATE:要求對(duì)訓(xùn)練樣本數(shù)據(jù)集進(jìn)行交叉確認(rèn)回判分析; CROSSLISTERR:僅打

15、印出使用交叉確認(rèn)法判別而判錯(cuò)的樣本信息; CROSSLIST:打印出每個(gè)樣品的交叉確認(rèn)法回判分析結(jié)果。37PROC DISCRIMPROC DISCRIM options; 此語(yǔ)句中,“options”部分可包含下列內(nèi)容: 6)檢驗(yàn)數(shù)據(jù)集判別結(jié)果的輸出選擇: TESTLIST:列出對(duì)檢驗(yàn)數(shù)據(jù)集的判別結(jié)果; TESTLISTERR:僅列出對(duì)檢驗(yàn)數(shù)據(jù)集中判錯(cuò)的樣品信息。 38PROC DISCRIMPROC DISCRIM options; 此語(yǔ)句中,“options”部分可包含下列內(nèi)容: 7)控制打印結(jié)果 WCORR(WCOV):打印各總體的訓(xùn)練樣本相關(guān)(協(xié)方差)矩陣; PCORR(PCOV):

16、打印由各總體的樣本相關(guān)矩陣所得的聯(lián)合相關(guān)(協(xié)方差)矩陣估計(jì); ALL:打印出所有的相關(guān)結(jié)果; SHORT:只打印一些主要結(jié)果。39PROC DISCRIMCLASS variable; 其中的“variable”即描述各類(lèi)別的變量名稱。該變量可以是數(shù)值化變量、也可以是非數(shù)值變量。該語(yǔ)句是進(jìn)行判別分析所必需的語(yǔ)句。VAR variable; 其中的“variable”即列出參與分析的描述各種樣品特征的變量名稱,省略時(shí)即數(shù)據(jù)集中所有的數(shù)值變量。 40PROC DISCRIMPRIORS probabilities; 此語(yǔ)句的功能即指出總體的先驗(yàn)概率分布。其中的“probabilities”應(yīng)是下列

17、三種選擇之一: EQUAL:即各總體的先驗(yàn)概率相等; PROPORTIONAL(或PROP):即各總體的先驗(yàn)概率與各總體的訓(xùn)練樣本容量成比例。 41PROC DISCRIMPRIORS probabilities; 具體指定各總體的先驗(yàn)概率: a.若描述各總體類(lèi)別的變量(即“CLASS variable”中的變量)是非數(shù)值變量,則在各類(lèi)取值后給出先驗(yàn)概率并用等號(hào)連起來(lái)。 例:描述各總體類(lèi)別的變量“GRADE”取A,B,C,D四個(gè)值,各總體先驗(yàn)概率分布為0.1, 0.3,0.5和0.1,則 PRIORS A0.1 B0.3 C0.5 D0.1; 42PROC DISCRIMPRIORS prob

18、abilities; 具體指定各總體的先驗(yàn)概率: b.若描述各總體類(lèi)別的變量是數(shù)值化變量或是小寫(xiě)字母,這時(shí)要將這些值用“”引起來(lái)寫(xiě)在上式等號(hào)前。 PRIORS 1=0.1 PRIORS a=0.1 注:1 若指定的先驗(yàn)概率之和非1,SAS會(huì)自動(dòng)用其和除各值而是概率之和為1; 2 “EQUAL”是SAS系統(tǒng)默認(rèn)的形式。43PROC DISCRIMTESTCLASS variable; 其中“variable”是描述檢驗(yàn)數(shù)據(jù)集中的各總體類(lèi)別的變量名,它可以和原訓(xùn)練樣本數(shù)據(jù)集中類(lèi)別變量相同,也可以不同,但二者必須是同類(lèi)型的(即同為數(shù)值或非數(shù)值變量)。若變量采用格式化輸入,則二者的輸入格式也應(yīng)相同。4

19、4例 5.1某氣象站預(yù)報(bào)某地區(qū)有無(wú)春旱的觀測(cè)資料中,x1與x2是與氣象有關(guān)的綜合預(yù)報(bào)因子。數(shù)據(jù)包括發(fā)生春旱的6個(gè)年份的x1,x2觀測(cè)值和無(wú)春旱的8個(gè)年份的相應(yīng)觀測(cè)值。試建立距離判別函數(shù)并估計(jì)誤判率。G1:春旱G2:無(wú)春旱序號(hào)X1X2序號(hào)X1X2124.8-2.0122.1-0.7224.7-2.4221.6-1.4326.6-3.0322.0-0.8423.5-1.9422.8-1.6525.5-2.1522.7-1.5627.4-3.1621.5-1.0722.1-1.2821.4-1.345例 5.1data chunhan;input y$ x1 x2;cards;y1 24.8 -2.

20、0y1 24.7 -2.4y1 26.6 -3.0y1 23.5 -1.9y1 25.5 -2.1y1 27.4 -3.1y2 22.1 -0.7y2 21.6 -1.4y2 22.0 -0.8y2 22.8 -1.6y2 22.7 -1.5y2 21.5 -1.0y2 22.1 -1.2y2 21.4 -1.3;proc discrim data=chunhan out=a1 outstat=a2 outcross=a3 list all;class y;var x1 x2;run;464748495051例 5.21991年全國(guó)各省、區(qū)、市城鎮(zhèn)居民月平均消費(fèi)情況如表。120號(hào)省份為第一類(lèi),

21、記為G1;2127號(hào)省份為第二類(lèi),記為G2??疾煜铝兄笜?biāo),試判別西藏、上海、廣東應(yīng)屬于哪一類(lèi)。 X1:人均糧食支出(元/人); X2:人均副食支出(元/人); X3:人均煙酒茶支出(元/人); X4:人均其他副食支出(元/人); X5:人均衣著商品支出(元/人); X6:人均日用品支出(元/人); X7:人均燃料支出(元/人); X8:人均非商品支出(元/人);52例 5.2data pjxf;input y $ x1-x8;cards;y1 8.35 23.53 7.51 8.62 17.42 10.00 1.04 11.21y2 7.78 48.44 8.00 20.51 22.12 15

22、.73 1.15 16.61;data pjxf1;input x1-x8;cards;7.94 39.65 20.97 20.82 22.52 12.41 1.75 7.908.28 64.34 8.00 22.22 20.06 15.12 0.72 22.8912.47 76.39 5.52 11.24 14.52 22.00 5.46 25.50;proc discrim data=pjxf testdata=pjxf1 out=a1 outstat=a2 outcross=a3 testout=a4 method=normal list all crosslist testlist;c

23、lass y;var x1-x8;priors proportional;run;535455565758多個(gè)總體的距離判別設(shè)有 個(gè)總體 ,均值向量分別為 協(xié)方差矩陣分別為 。類(lèi)似兩總體距離判別方法,計(jì)算新樣品 到各總體的馬氏距離,比較這 個(gè)距離,判定 屬于其馬氏距離最短的總體。 若最短距離在不只一個(gè)總體達(dá)到,則可將 判歸具有最短距離總體的任一個(gè)。59多個(gè)總體的距離判別總體協(xié)方差矩陣相等: 任意取兩個(gè)總體 , ,考察 到 和 的馬氏距離的平方差: 其中60多個(gè)總體的距離判別總體協(xié)方差矩陣相等: 易見(jiàn) 這樣,得到多總體在總體協(xié)方差矩陣相等時(shí)的距離判別準(zhǔn)則:若總體 滿足 則判定 。 注:若多于一個(gè)

24、 使上式成立,則可判定 屬于滿足上述等式的任何一個(gè) 。61多個(gè)總體的距離判別總體協(xié)方差矩陣相等: 當(dāng)總體均值向量 及公共協(xié)方差矩陣 未知時(shí),可利用各總體的訓(xùn)練樣本作估計(jì)。設(shè) 是來(lái)自總體 的訓(xùn)練樣本, 記 62多個(gè)總體的距離判別總體協(xié)方差矩陣相等: 則 是 的無(wú)偏估計(jì),又 的一個(gè)無(wú)偏估計(jì)為 以 (即 ),S(即 )分別代 , ,得相應(yīng)的 的估計(jì)為 其中 63多個(gè)總體的距離判別總體協(xié)方差矩陣相等: 這樣,多總體的距離判別準(zhǔn)則為:若總體 滿足 則判定 。64多個(gè)總體的距離判別總體協(xié)方差矩陣 不全相等 計(jì)算 至各總體 的馬氏平方距離: 記 是二次判別函數(shù),得到下列多總體距離判別法則: 若總體 滿足 則

25、判定 。65多個(gè)總體的距離判別總體協(xié)方差矩陣 不全相等 若 , , 未知,可用它的估計(jì) , 代替,得到二次判別函數(shù) 的估計(jì)為 對(duì)于多總體的距離判別,也可同兩個(gè)總體的情況一樣,做出誤判率的回代估計(jì)及交叉確認(rèn)估計(jì)。66例 5.31991年全國(guó)各省、區(qū)、市城鎮(zhèn)居民月平均收入情況見(jiàn)表。111號(hào)省份為第一類(lèi)G1;1222號(hào)省份為第二類(lèi)G2;2328號(hào)省份為第三類(lèi)G3??疾煜铝兄笜?biāo): X1 人均生活費(fèi)收入(元/人); X2 人均全民所有制職工工資(元/人); X3 人均來(lái)源于全民標(biāo)準(zhǔn)工資(元/人); X4 人均集體所有制工資(元/人); X5 人均集體職工標(biāo)準(zhǔn)工資(元/人); X6 人均各種獎(jiǎng)金及超額工資

26、(元/人); X7 人均各種津貼(元/人); X8 職工人均從工作單位得到的其他收入(元/人); X9 個(gè)體勞動(dòng)者收入(元/人); 67例 5.3判定廣東、西藏兩省區(qū)屬于哪種收入類(lèi)型,并用回代法及交叉確認(rèn)法對(duì)誤判率作出估計(jì)。6869例 5.3data yuejunshouru1;input x1-x8;cards;211.30 114.0 41.44 33.2 11.2 48.72 30.77 14.9 11.1175.93 163.8 57.89 4.22 3.37 17.81 82.32 15.7 0.00;proc discrim data=yuejunshouru testdata=y

27、uejunshouru1 out=a1 outstat=a2 outcross=a3testout=a4 method=normal list all crosslist testlist;class y;var x1-x8;run;7071727374Bayes判別的基本思想基本思想:假定對(duì)所研究的對(duì)象(總體)在抽樣前已有一定的認(rèn)識(shí),常用先驗(yàn)分布來(lái)描述這種認(rèn)識(shí),然后基于抽取的樣本對(duì)先驗(yàn)知識(shí)作修正,得到后驗(yàn)分布。根據(jù)后驗(yàn)分布,得到判別規(guī)則,這就是Bayes判別。Bayes判別時(shí),要考慮誤判引起的損失(具體見(jiàn)后面內(nèi)容)。75Bayes判別的例子一個(gè)Bayes判別的例子研究對(duì)象:西門(mén)子手機(jī)的質(zhì)量問(wèn)

28、題 先驗(yàn)分布(知識(shí)):西門(mén)子手機(jī)質(zhì)量好的占多 抽樣:2003年西門(mén)子手機(jī)質(zhì)量調(diào)查表 根據(jù)抽樣和先驗(yàn)分布,得到后驗(yàn)分布。 根據(jù)后驗(yàn)分布,可以判別2004年10月西門(mén)子生產(chǎn)的手機(jī)的質(zhì)量好壞。76兩個(gè)總體的Bayes判別 (I)一般討論:假設(shè)兩個(gè)p元總體 . 它們分別具有概率密度函數(shù) . 設(shè) 出現(xiàn)的先驗(yàn)概率為其中 . 注:p元總體指的是該總體的對(duì)象具有p個(gè)屬性,表示為 ,它的取值范圍是77兩個(gè)總體的Bayes判別 (II)一個(gè)判別準(zhǔn)則實(shí)質(zhì)上是對(duì)空間 的一個(gè)劃分,記為 與 ,并滿足下列條件:例如,在兩個(gè)總體的距離判別中,當(dāng) 時(shí),判 來(lái)自 當(dāng) 是,判 來(lái)自 78兩個(gè)總體的Bayes判別(III) 的劃分

29、記為 . 它相當(dāng)于一個(gè)判別準(zhǔn)則R. 在判別準(zhǔn)則R下,將來(lái)自 的樣品誤認(rèn)為 的概率是而將來(lái)自G2的樣品誤認(rèn)為G1的概率是設(shè)將 誤判為 的損失是 ,而將 誤判為 的損失是 . Bayes判別即尋求 ,使得平均誤判損失達(dá)到最小。 79兩個(gè)總體的Bayes判別(IV)先考慮 . 下面總假定 .當(dāng)?shù)玫叫聵悠?后,由Bayes公式得總體 的后驗(yàn)概率是 80兩個(gè)總體的Bayes判別(V)我們證明:當(dāng) 時(shí),兩總體Bayes判別的一個(gè)最優(yōu)劃分是該劃分對(duì)應(yīng)了兩個(gè)總體的Bayes判別準(zhǔn)則:這時(shí),最優(yōu)劃分 使得平均誤判概率 達(dá)到最小。81兩個(gè)總體的Bayes判別(VI)證明如下:設(shè) ,則平均誤判損失為 . 因此, 使

30、 達(dá)到最小等價(jià)于使 達(dá)到最小,而這里用到82顯然,若取 ,則可使 達(dá)到最小,這時(shí) .再由后驗(yàn)概率表達(dá)式(5.29),得到兩個(gè)總體的Bayes準(zhǔn)則如式(5.31)所示。證畢。上面考慮的是兩個(gè)總體誤判代價(jià)相等的情況,現(xiàn)在考慮當(dāng) 時(shí)的情況。對(duì)于 而言,錯(cuò)判造成的平均損失是兩個(gè)總體的Bayes判別(VII)83兩個(gè)總體的Bayes判別(VIII)對(duì)于 而言,誤判造成的平均損失是因此,關(guān)于先驗(yàn)分布 ,誤判造成的平均損失是仿上可證,Bayes判別(即使 達(dá)到最小)的最優(yōu)劃分是:84兩個(gè)總體的Bayes判別(IX)或當(dāng) 時(shí),有當(dāng) 時(shí),有85兩個(gè)正態(tài)總體的Bayes判別(I)前面討論了具有一般分布的兩個(gè)總體的

31、Bayes判別,下面重點(diǎn)討論兩個(gè)正態(tài)總體的Bayes判別。先討論 的情況。(1)設(shè)總體 的協(xié)方差矩陣相等且為 ,其概率密度則 86兩個(gè)正態(tài)總體的Bayes判別(II)這時(shí)記 ,其中 ,其中得到其中 都是線性判別函數(shù)。87兩個(gè)正態(tài)總體的Bayes判別(III)這樣,就得到了兩個(gè)正態(tài)總體( 時(shí) )的Bayes判別規(guī)則為:當(dāng) 及 未知時(shí),分別由 的訓(xùn)練樣本算得的均值 及 來(lái)代替,線性判別函數(shù)為 88兩個(gè)正態(tài)總體的Bayes判別(IV)再考察后驗(yàn)概率 . 因又其中 稱為廣義平方距離函數(shù),可得89兩個(gè)正態(tài)總體的Bayes判別(V)當(dāng) 及 未知時(shí),分別由 的訓(xùn)練樣本算得的均值 及 來(lái)估計(jì),得后驗(yàn)概率的估計(jì)

32、這時(shí),Bayes判別規(guī)則為90兩個(gè)正態(tài)總體的Bayes判別(VI)(2)這時(shí),總體 的協(xié)方差矩陣分別為 ,其概率密度為則91兩個(gè)正態(tài)總體的Bayes判別(VII)類(lèi)似前面的推導(dǎo)過(guò)程,易得92兩個(gè)正態(tài)總體的Bayes判別(VIII)記廣義平方距離函數(shù)為的最優(yōu)劃分為又后驗(yàn)概率為93兩個(gè)正態(tài)總體的Bayes判別(IX)當(dāng) 及 未知時(shí),分別由 的訓(xùn)練樣本算得的均值 及 來(lái)估計(jì),得這時(shí),Bayes判別規(guī)則為94兩個(gè)正態(tài)總體的Bayes判別(X)通過(guò)上面的分析,我們看到當(dāng) 時(shí),若則兩正態(tài)總體的Bayes判別與兩總體的距離判別是等價(jià)的。而當(dāng) 時(shí),兩個(gè)正態(tài)總體的Bayes判別與距離判別是不一樣的。在Bayes

33、判別中,判別函數(shù)是而在距離判別中,判別函數(shù)是因?yàn)榫嚯x判別函數(shù)只依賴總體均值向量 及總體協(xié)方差矩陣 ,而對(duì)總體的分布沒(méi)有假定,因此距離判別方法有其獨(dú)立存在的意義。95兩個(gè)正態(tài)總體的Bayes判別(XI)前面討論了 時(shí)兩個(gè)正態(tài)總體在協(xié)方差相等和不相等兩種情況下的Bayes判別。下面我們討論 時(shí)的情況,這時(shí)其中96又而當(dāng) 時(shí),可得而 , 其中 , 其中兩個(gè)正態(tài)總體的Bayes判別(XII)97誤判率的計(jì)算(1)關(guān)于誤判率的計(jì)算,是一個(gè)相當(dāng)困難的問(wèn)題。我們僅就兩個(gè)正態(tài)總體 的協(xié)方差矩陣相等的情況加以討論。設(shè) ,類(lèi)似于兩個(gè)總體距離判別的討論,這時(shí),最優(yōu)劃分也可以用一個(gè)線性判別函數(shù) 表示,即其中而 98誤

34、判率的計(jì)算(2)誤判概率 記 則 是總體 的馬氏平方距離。若 是來(lái)自 元正態(tài)總體的樣品,則隨機(jī)變量 也服從正態(tài)分布。當(dāng) 來(lái)自總體 時(shí),其均值 99誤判率的計(jì)算(3)而其方差 以上推導(dǎo)表明:若 來(lái)自 ,則 類(lèi)似可得,若 來(lái)自 ,則100誤判率的計(jì)算(4)對(duì)劃分 ,將來(lái)自 的樣品 誤判為來(lái)自 的概率為 其中 是標(biāo)準(zhǔn)正態(tài)分布函數(shù)。101誤判率的計(jì)算(5)類(lèi)似地,有 對(duì)于最優(yōu)劃分 ,平均誤判概率是102誤判率的計(jì)算(6)其中 因此,當(dāng)總體 的馬氏平方距離越大時(shí),即兩總體的分離程度越大時(shí),平均誤判概率越小。當(dāng) 及 未知時(shí),分別以 及 估計(jì),得 的估計(jì): 以 替代 ,計(jì)算平均誤判概率。103誤判率的計(jì)算(

35、7)關(guān)于先驗(yàn)概率通常用下列兩種方法: 。采用誤判率的回代估計(jì), 的一個(gè) 粗略估計(jì)是 , 的一個(gè)粗略估計(jì)是 ,此 時(shí),平均誤判概率的一個(gè)粗略估計(jì)為104誤判率的計(jì)算(8) 按訓(xùn)練樣本的容量 的比例選取,即 這時(shí),平均誤判概率的一個(gè)粗略估計(jì)(誤判率的回代估計(jì))為105例5.4下面的例題都假設(shè)損失對(duì)例5.1的數(shù)據(jù),假定 ,又先驗(yàn)概率按比例分配,即 進(jìn)行兩總體的Bayes判別。106107108109110例 5.5對(duì)例5.2的數(shù)據(jù),先驗(yàn)概率采用按比例分配,即 (1)在 的假定下進(jìn)行Bayes判別,并用交叉確認(rèn)法對(duì)誤判率進(jìn)行估計(jì); (2)對(duì)待判樣品西藏、上海、廣東進(jìn)行Bayes判別。111112113114115116117118多個(gè)總體的Bayes判別一般討論 設(shè)有 個(gè)總體 , 的概率密度為 , 各總體出現(xiàn)的先驗(yàn)概率 滿足 。119多個(gè)總體的Bayes判別一般討論一個(gè)判別準(zhǔn)則實(shí)質(zhì)上是對(duì)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論