




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、一, 問(wèn)題的重述人們到醫(yī)院就診時(shí),通常要化驗(yàn)一些指標(biāo)來(lái)協(xié)助醫(yī)生的診斷。診斷就診人員是否患腎炎時(shí)通常要化驗(yàn)人體內(nèi)各種元素含量。表B.1是確診病例的化驗(yàn)結(jié)果,其中130號(hào)病例是已經(jīng)確診為腎炎病人的化驗(yàn)結(jié)果;3160號(hào)病例是已經(jīng)確定為健康人的結(jié)果。表B.2是就診人員的化驗(yàn)結(jié)果。我們的問(wèn)題是:1根據(jù)表B.1中的數(shù)據(jù),提出一種或多種簡(jiǎn)便的判別方法,判別屬于患者或健康人的方法,并檢驗(yàn)?zāi)闾岢龇椒ǖ恼_性。2按照1提出的方法,判斷表B.2中的30名就診人員的化驗(yàn)結(jié)果進(jìn)行判別,判定他(她)們是腎炎病人還是健康人。3能否根據(jù)表B.1的數(shù)據(jù)特征,確定哪些指標(biāo)是影響人們患腎炎的關(guān)鍵或主要因素,以便減少化驗(yàn)的指標(biāo)。4根
2、據(jù)3的結(jié)果,重復(fù)2的工作。5對(duì)2和4的結(jié)果作進(jìn)一步的分析。二, 問(wèn)題的假設(shè)一,人體中各元素都會(huì)有一個(gè)標(biāo)準(zhǔn)值,并且健康人的各元素相對(duì)含量都和標(biāo)準(zhǔn)值的偏差不大。二,元素相對(duì)值的偏離狀況能反映人的健康情況,偏離過(guò)大則患病。三,年齡,性別,生活環(huán)境對(duì)人體內(nèi)的元素的標(biāo)準(zhǔn)值影響不大,使用該方法均可以判別。四,所有的檢測(cè)數(shù)據(jù)都準(zhǔn)確可靠。五,該就診群體中只有患腎炎和不患腎炎兩種人。三, 部分符號(hào)的說(shuō)明x:就診人員個(gè)體元素含量的行向量;G1:表示患病的總體; G2:表示正常的總體;d(x,G1):到總體一的距離;d(x,G2):到總體二的距離;:馬氏距離判別函數(shù);:馬是距離判別法修正因子;,:fisher判別法
3、的兩個(gè)判別函數(shù)名稱;P:不患腎炎的概率;Q:患腎炎的概率;E:變量的組內(nèi)離差陣;T: 變量的總離差陣;:wilks統(tǒng)計(jì)量;:含有h個(gè)因子的組內(nèi)離差平方和陣;:含有h個(gè)因子的總離差平方和陣;:Rao近似式中的檢驗(yàn)統(tǒng)計(jì)量;四, 與問(wèn)題相關(guān)的模型建立與求解對(duì)問(wèn)題一建模和求解對(duì)于問(wèn)題一和問(wèn)題二可以歸結(jié)為判別分析問(wèn)題。判別分析的特點(diǎn)是根據(jù)已掌握的、歷史上每個(gè)類別的若干樣本的數(shù)據(jù)信息,總結(jié)出客觀事物分類的規(guī)律性,建立判別公式和判別準(zhǔn)則,從而判別樣本點(diǎn)所屬的類別。首先我們用excel對(duì)B.1做了初步的處理,分別針對(duì)7種元素,先分兩類即患腎炎和不換腎炎按該元素從低到高排序,然后分別畫(huà)出各元素在患腎炎和非患腎炎
4、群體中的折線圖:Zn元素的分布折線圖,系列一為腎炎患者,系列二為正常人群Cu元素的分布折線圖,系列一為腎炎患者,系列二為正常人群Fe元素的分布折線圖,系列一為腎炎患者,系列二為正常人群Ca元素的分布折線圖,系列一為腎炎患者,系列二為正常人群Mg元素的分布折線圖,系列一為腎炎患者,系列二為正常人群K元素的分布折線圖,系列一為腎炎患者,系列二為正常人群Na元素的分布折線圖,系列一為腎炎患者,系列二為正常人群從上面的七個(gè)圖中,我們可以直觀的觀察到患腎炎的和正常人之間元素的差異性總體說(shuō)還是很大的,可以使用判別分析法進(jìn)行分類判別。我們還可以定性的給出Ca,Mg三種元素正常人與患者之間的分布差異比較大,可
5、能是決定判斷的關(guān)鍵因子。Zn,Na,F(xiàn)e元素正常人與患者之間的分布差異適中,而Cu,K正常人與患者之間的分布差異較小。馬氏距離判別法然后,針對(duì)該判別分析,我們首先使用了比較傳統(tǒng)的馬氏距離判別法對(duì)樣本進(jìn)行判別分析。我們把樣本中患病和正?;蓛蓚€(gè)總體,G1(患?。?,G2(正常)。定義到總體G1和G2的距離為d(x,G1)和d(x,G2)用如下規(guī)則進(jìn)行判別:若樣本x到G1的距離小于到總體G2的距離,則認(rèn)為樣品x屬于總體G1,反之,則認(rèn)為屬于G2。如果距離相等則讓它待判。用下式描述:距離選用馬氏距離,即:,分別表示G1,G2的均值和協(xié)方差陣。通過(guò)SPSS軟件求解可以發(fā)現(xiàn)協(xié)方差陣并不相等,用判別規(guī)則可簡(jiǎn)
6、化為:SPSS軟件中也提供了相應(yīng)工具進(jìn)行求解,通過(guò)回帶對(duì)判別效果進(jìn)行檢驗(yàn),我們可以得到回帶判別結(jié)果:馬氏距離判別驗(yàn)證回帶的結(jié)果(0患病,1健康)患者編號(hào)123456789101112131415不患病概率000000000000000患者編號(hào)161718192021222324252627282930不患病概率000000000000000患者編號(hào)313233343536373839404142434445不患病概率100111100111111患者編號(hào)464748495051525354555657585960不患病概率111111111111110對(duì)結(jié)果進(jìn)行分析我們發(fā)現(xiàn)32,33,38,3
7、9,60號(hào)在回帶驗(yàn)證時(shí)出現(xiàn)了誤判,并且都將正常人誤判成患者,誤判率為8.3%。對(duì)此,我們針對(duì)模型進(jìn)行了更深入的思考,對(duì)于判別的結(jié)果可能的解釋為:一,誤差都出現(xiàn)在正常人被誤判成患者,說(shuō)明距離判斷出現(xiàn)誤差,可以考慮加入修正判別函數(shù)的修正因子:修正因子與有一定的函數(shù)關(guān)系,由于本問(wèn)題中樣本數(shù)已經(jīng)確定,在可直接用常數(shù)代替進(jìn)行試算,直到不出現(xiàn)回帶誤判,或者回帶誤判出現(xiàn)在患者和健康人中分布均勻?yàn)橹?。二,考慮到馬氏距離判別法要求樣本中各判別變量之間具有多元正態(tài)分布,即每個(gè)變量對(duì)于其他變量的固定值有正態(tài)分布,本題中由于樣本數(shù)量有限,沒(méi)有辦法驗(yàn)證是否滿足此條件,故判別結(jié)果可能有所偏差。三,樣本個(gè)別個(gè)體的元素含量偏
8、離總體過(guò)大,比如40,41號(hào)的Fe含量比平均值高出8倍左右,可能由于該個(gè)體的特殊的生活工作環(huán)境有關(guān),并不能反映整體特征,但是本問(wèn)題中樣本容量小,在馬氏距離求解中可能會(huì)對(duì)距離值產(chǎn)生較大影響,從而造成誤差??梢钥紤]刪除個(gè)別異常數(shù)據(jù)在進(jìn)行求解。fisher判別法通過(guò)上述的分析抗可以發(fā)現(xiàn),傳統(tǒng)的馬氏判別法存在很大局限性和判定結(jié)果的不穩(wěn)定性,而且各判別變量之間具有多元正態(tài)分布這一假設(shè)前提較難滿足。我們用fisher判別法進(jìn)行了進(jìn)一步的判別分析,該法對(duì)總體的分布沒(méi)有什么特定的要求,其基本原理是利用投影技術(shù),將k組p維的數(shù)據(jù)投影到某個(gè)方向,使得數(shù)據(jù)的投影組與組之間盡可能的分開(kāi)。組與組的分開(kāi)借用了方差分析思想
9、,本題中即考慮2組7維的分布投影問(wèn)題。本題中研究的是從兩個(gè)總體中抽取具有p(p=7)個(gè)指標(biāo)的樣品觀察數(shù)據(jù),根據(jù)方差分析的思想構(gòu)造一個(gè)判別函數(shù):其中系數(shù)確定的原則是使兩組間的區(qū)別最大,而使每個(gè)組內(nèi)部的離差最小。有了判別式后,對(duì)于一個(gè)新的樣品,將它的個(gè)指標(biāo)值代入判別函數(shù)中求出值,然后與判別臨界值(或稱分界點(diǎn)后面給出)進(jìn)行比較,就可以判別它應(yīng)屬于哪一個(gè)總體。2.判別函數(shù)的導(dǎo)出本題中有兩個(gè)總體,總體的樣品個(gè)數(shù)為30個(gè)。假設(shè)新建立的判別函數(shù)為,現(xiàn)將屬于不同總體的樣品觀測(cè)值代入判別函數(shù)中,得: 對(duì)上邊兩式分別左右相加,再除以相應(yīng)的樣品個(gè)數(shù),則有: 第一組樣品的“重心” 第二組樣品的“重心”此時(shí),最優(yōu)的線性
10、判別函數(shù)為:兩重心的距離越大越好,兩個(gè)組內(nèi)的離差平方和越小越好。綜合上述思想,就是要求愈大愈好。在費(fèi)希爾模型的計(jì)算中,我們使用spss軟件中的Discriminant模塊進(jìn)行判別分析。該軟件直接給出了預(yù)測(cè)的結(jié)果,并對(duì)前六十個(gè)數(shù)據(jù)給出了回代判別,最終對(duì)初始分組案例中的93.3%進(jìn)行了正確分類。在該分析中,我們還采用了交叉驗(yàn)證的方法進(jìn)行分類驗(yàn)證,對(duì)分組案例中91.7%個(gè)進(jìn)行了正確分類。這些數(shù)據(jù)說(shuō)明我們的判別分析方法是有效的。下面給出spss軟件進(jìn)行費(fèi)希爾判別分析的計(jì)算過(guò)程:分類函數(shù)系數(shù)VAR00009.001.00VAR00002.097.101VAR00003.069-.131VAR00004-
11、.001.018VAR00005.000.003VAR00006-.010.001VAR00007.001.002VAR00008.011.007(常量)-10.259-14.965Fisher 的線性判別式函數(shù)上表從spss輸出結(jié)果中導(dǎo)出,該表是費(fèi)希爾線性判別函數(shù)的系數(shù)。根據(jù)系數(shù)可以總結(jié)出各類判別函數(shù)如下:腎炎患者: =0.097* Zn+0.069* Cu-0.001* Fe+0* Ca-0.01* Mg+0.001* K+0.011* Na-10.259健康者:=0.101*Zn-0.131*Cu+0.018*Fe+0.003*Ca+0.001*Mg+0.002*K+0.007* Na-
12、14.965判別方法為:將待檢測(cè)人員的七種元素含量代入上面兩式中,得到兩個(gè)函數(shù)值。比較這兩個(gè)函數(shù)值,若大,則該待檢測(cè)人員患有腎炎,反之為健康者。fisher判別驗(yàn)證回帶的結(jié)果患者編號(hào)123456789101112131415不患病概率000000000000000患者編號(hào)161718192021222324252627282930不患病概率000000000000000患者編號(hào)313233343536373839404142434445不患病概率101111100111111患者編號(hào)464748495051525354555657585960不患病概率111111111111110對(duì)結(jié)果的分析
13、和進(jìn)一步思考:一,從上述表中可以看出32,38,39,60回帶時(shí)出現(xiàn)了誤判,誤判率為6.6%。其中四組誤判與前面的馬氏距離判別分析相同,并沒(méi)有明顯的回帶誤判率的降低,而且出現(xiàn)誤判的也都出現(xiàn)在后三十組中。二,與馬氏距離判別類似,我們可以對(duì)F1和F2的常數(shù)進(jìn)行修正,使得回帶誤判個(gè)數(shù)減少或消失,或者誤判在患病和不患病群體中分布均勻。三,F(xiàn)isher判別法也是建立在各判別變量不能高度線性相關(guān)的基礎(chǔ)上,所以其結(jié)果也不是十分理想和同樣也不具有很好的理論解釋能力。不過(guò),fisher判別法的假設(shè)前提條件較馬氏距離判別法有所降低,回帶誤判率有一定的下降,模型的適應(yīng)能力和穩(wěn)定性都有所提高,總體說(shuō)還是優(yōu)于馬氏距離判
14、別法。四,fisher判別分析計(jì)算量大于馬氏距離判別分析不適合對(duì)大規(guī)模數(shù)據(jù)進(jìn)行處理分析。logisitic回歸法從前面的分析中我們看到判別分析依賴于嚴(yán)格的多元正態(tài)性和相等協(xié)方差陣的假設(shè),這種情況在實(shí)際種可能達(dá)不到。用0表示患病表示健康,可知判別結(jié)果的解釋變量只有兩個(gè)。由于上述因素,我們用logisitic回歸法進(jìn)行判斷。Logisitic回歸沒(méi)有類似的假設(shè),而且這些假設(shè)不滿足時(shí),結(jié)果非常穩(wěn)定。另外,logistic回歸類似于回歸分析,兩者都有直接的統(tǒng)計(jì)檢驗(yàn),都能包含非線性效果和大范圍的診斷。因?yàn)楸疚牡难芯繉?duì)象是就診人員患腎炎和不患腎炎實(shí)際問(wèn)題只研究二分類Logistic回歸。Logistic模
15、型概率計(jì)算公式如下:本文中,p為不患腎炎的概率,x1,xk,表示17種化學(xué)元素含量,上式所確定的模型相當(dāng)于廣義線性模型,可以系統(tǒng)的應(yīng)用線性模型方法在處理時(shí)比較方便。SPSS軟件里提供了求解過(guò)程:我們得到:b1b2b3b4b5b6b7b0logistic系數(shù)-0.489-0.3471.4790.088-0.021-0.234-0.015-33.47 我們將系數(shù)回帶到上式中驗(yàn)證表B.1已知的診斷結(jié)果,即:這樣,通過(guò)matlab回帶B.1中60組數(shù)據(jù)進(jìn)行判別效果檢驗(yàn),我們得到回帶結(jié)果:logistic回歸判別的回帶驗(yàn)證結(jié)果(0患病,1健康)患者編號(hào)123456789101112131415不患病概率
16、000000000000000患者編號(hào)161718192021222324252627282930不患病概率000000000000000患者編號(hào)313233343536373839404142434445不患病概率111111111111111患者編號(hào)464748495051525354555657585960不患病概率111111111111111對(duì)結(jié)果的分析和進(jìn)一步思考:一,我們發(fā)現(xiàn)logistic回歸法的回帶誤判數(shù)為0,即六十組數(shù)據(jù)的判別結(jié)果完全正確,誤判率為0%。從原理上說(shuō),這與logistic回歸法對(duì)數(shù)據(jù)具有非常高的敏感性有關(guān)。二,對(duì)比前面的方法,logistic回歸法在適用條件上
17、要求有很大降低而回帶驗(yàn)證的精度卻有顯著提高,而且計(jì)算量也并不是很大,所以,我們推薦使用logistic回歸法進(jìn)行判斷。三,由于樣本的數(shù)目不多而且logistic本身就是通過(guò)預(yù)留樣本迭代修正的,所以并不能說(shuō)明它對(duì)后30組數(shù)據(jù)的判斷也具有100%的準(zhǔn)確率。四,對(duì)比馬氏距離判別法和fisher判別法,logistic回歸法的具有穩(wěn)定性相當(dāng)高,回帶誤判率很低,要求前提條件很少三方面的優(yōu)勢(shì)。所以,logistic無(wú)疑要優(yōu)于前兩種判別算法。對(duì)問(wèn)題二的求解在提出的上述幾種判別模型以及方法之后,我們分別用這幾種方法對(duì)表B.2中的30名就診人員的化驗(yàn)結(jié)果進(jìn)行判別。其結(jié)果如下表所示:判別結(jié)果(0患病,1健康)編號(hào)
18、616263646566676869707172737475fisher判別001000100100010馬氏距離判別001000000100010logistic回歸判別000000000100011編號(hào)767778798081828384858687888990fisher判別011011101011111馬氏距離判別001011100011111logistic回歸判別011011101010111對(duì)結(jié)果的分析和進(jìn)一步思考:一,不同的判別方案對(duì)樣本的判別結(jié)果是不同的,可以從表中看出63,67,75,77,84,87三種方法的判別結(jié)果不一致,不一致率為20%。說(shuō)明三種方法的誤差出入率還是相
19、當(dāng)大的。兩兩之間的的不一致個(gè)數(shù)可由下表給出:不一致數(shù)fisher判別馬氏距離判別logistic回歸判別fisher判別034馬氏距離判別05logistic回歸判別0二,從回帶誤差來(lái)看,馬氏和fisher判別法具有8.3%和6.7%誤判率。如果在后三十個(gè)中的誤判率相同,那么馬氏誤判個(gè)數(shù)的期望是2.49。而fisher判別法的誤判個(gè)數(shù)期望是2.01。實(shí)際的不一致數(shù)都超過(guò)了這一范圍。三,針對(duì)醫(yī)院實(shí)際診斷情況,從上述結(jié)果中看出兩兩判別法之間的出入率相當(dāng),對(duì)判別結(jié)果不同的就診人員我們建議醫(yī)院進(jìn)行進(jìn)一步的化驗(yàn)和診斷措施才能判別出來(lái)。問(wèn)題三和問(wèn)題四的建模與求解要根據(jù)表B.1的數(shù)據(jù)特征,確定哪些指標(biāo)是影響
20、人們患腎炎的關(guān)鍵或主要因素,以便減少化驗(yàn)的指標(biāo)。我們用到前面的有關(guān)結(jié)論和圖表。一,根據(jù)元素分布折線圖定性判斷并驗(yàn)證首先,如問(wèn)題一中所述,我們從各元素在患腎炎和非患腎炎群體中的折線圖中可以定性的看出Ca,Mg三種元素正常人與患者之間的分布差異比較大,可能是決定判斷的關(guān)鍵因子。Na,Zn, Fe元素正常人與患者之間的分布差異適中,而Cu, K正常人與患者之間的分布差異較小。所以我們先是選取Zn,F(xiàn)e,Ca,Mg,Na作為影響人們患腎炎的關(guān)鍵或主要因素。通過(guò)這五種元素,我們選用回帶誤判率最低的logistic模型進(jìn)行判別分析并得出結(jié)果??紤]到是不是可以進(jìn)一步的刪減元素,然后我們嘗試分別去掉正常人與患
21、者之間的分布差異適中的Na,Zn,F(xiàn)e元素,分別只利用(Zn,Ca,Mg,F(xiàn)e),(Fe,Ca,Mg,Na),(Zn,Ca,Mg,Na)進(jìn)行判斷;進(jìn)一步刪減元素,只留下分布差異較大的Ca,Mg再一用logistic進(jìn)行判斷。其結(jié)果如下圖所示:選取不同元素的logistic的判別的回帶誤判率選取的元素回帶誤判率Zn,F(xiàn)e,Ca,Mg,Na0%Zn,Ca,Mg,F(xiàn)e0%Fe,Ca,Mg,Na0%Zn,Ca,Mg,Na6.7%觀察前三組數(shù)據(jù)我們發(fā)現(xiàn)使用logistic的回帶誤判率都只有0%,且三組元素中都含有Fe,Ca,Mg元素。表示這三種元素對(duì)判別分析會(huì)有很大意義,使我們聯(lián)想到只用這三種元素進(jìn)行進(jìn)
22、一步的篩選工作,其結(jié)果如下:選取不同元素的logistic的判別的回帶誤判率選取的元素回帶誤判率Fe,Ca,Mg0%Fe,Ca0%Ca,Mg6.7%Fe,Mg8.3%從上述結(jié)果中可以發(fā)現(xiàn)Fe,Ca兩個(gè)元素對(duì)判斷產(chǎn)生至關(guān)重要的影響,我們利用(Fe,Ca,Mg)和(Fe,Ca)對(duì)表B.2中的數(shù)據(jù)再次進(jìn)行判別分析其結(jié)果為:選取Fe,Ca,Mg對(duì)表B.2中的數(shù)據(jù)再次進(jìn)行判別的結(jié)果編號(hào)616263646566676869707172737475logistic判別結(jié)果000000000100011編號(hào)767778798081828384858687888990logistic判別結(jié)果0110111110
23、11111選取Fe,Ca對(duì)表B.2中的數(shù)據(jù)再次進(jìn)行判別的結(jié)果編號(hào)616263646566676869707172737475logistic判別結(jié)果000000000100011編號(hào)767778798081828384858687888990logistic判別結(jié)果011011111011111對(duì)比上述兩個(gè)表格可以發(fā)現(xiàn)選取(Fe,Ca,Mg)和(Fe,Ca)的判別結(jié)果完全相同;且其結(jié)果與問(wèn)題二中通過(guò)7種元素進(jìn)行判別只有83,87號(hào)出現(xiàn)偏差,其他結(jié)果完全相同,利用全部元素和利用(Fe,Ca)元素判對(duì)表B.2別結(jié)果的吻合率達(dá)到93.3%。通過(guò)上述從定性的圖形直觀判斷到定量的logistic逐步演化
24、試算以及相關(guān)的結(jié)果,我們篩選了(Fe,Ca)作為影響人們患腎炎的關(guān)鍵或主要因素。對(duì)結(jié)果的進(jìn)一步思考:一,通過(guò)圖形直接進(jìn)行判斷元素對(duì)判別結(jié)果的影響具有一定的不穩(wěn)定性,比如說(shuō)從圖像中發(fā)現(xiàn)Ca,Mg三種元素正常人與患者之間的分布差異比較大,但是最終的結(jié)果Mg元素的去除對(duì)判別結(jié)果影響并不明顯。反而,正常人與患者之間的分布差異適中的Fe元素對(duì)判別分析起到關(guān)鍵的作用。二,該方法并沒(méi)有考慮到元素之間具有相關(guān)性這一特點(diǎn),比如Ca,Mg具有顯著的線性相關(guān)性,表明Ca,Mg所含有的信息量是重復(fù)的。所以兩者只需取其一。二,追求最高的判別準(zhǔn)確率來(lái)進(jìn)行篩選元素在第三問(wèn)中,我們還有一種思路是通過(guò)追求最高的判別準(zhǔn)確率來(lái)進(jìn)行
25、篩選元素。具體的算法如下:(1)依次舍去七種元素中的一種元素,用另外六種元素進(jìn)行fisher判別分析,考察判別分析得到的回代準(zhǔn)確率,并且和用七種元素進(jìn)行fisher判別分析時(shí)得到的結(jié)果進(jìn)行比對(duì),可以得出缺少某種元素進(jìn)行判決時(shí)的準(zhǔn)確率,舍掉準(zhǔn)確率最高對(duì)應(yīng)的那個(gè)元素。(2)按照第一步進(jìn)行判別,直到找到判別時(shí)使用元素較少,而準(zhǔn)確率又相對(duì)較高的元素組合。算法實(shí)現(xiàn)的過(guò)程:用(1,2,3,4,5,6,7)代表(Zn, Cu, Fe, Ca, Mg, K, Na);第一步:分別去掉七種元素中的一種元素:去掉的元素號(hào)1234567去掉元素后回代準(zhǔn)確率93.3%91.7%91.7%85%91.7%93.3%91
26、.7%由上表發(fā)現(xiàn),元素1和元素6在回代準(zhǔn)確率上持平,再比較與 預(yù)測(cè)的吻合度去除元素1去除元素6吻合度100%93.3% 因此從表中看出,在去除元素以后吻合度為100%,所以應(yīng)該去除元素1。第二步:分別去掉剩余六種元素中的一種元素:去掉的元素號(hào)234567去掉元素后回代準(zhǔn)確率93.3%93.3%88.3%91.7%93.3%93.3%由上表發(fā)現(xiàn),元素2、3、6、7在回代準(zhǔn)確率上持平,再比較與 預(yù)測(cè)的吻合度去除元素2去除元素3去除元素6去除元素7吻合度86.67%93.33%100%96.67%可以看出3、6、7這三種元素相差不大,而且影響都不太大。元素2與其它元素的差別挺大,在以上的兩步回代判別
27、中,我們可以發(fā)現(xiàn)4號(hào)和5號(hào)元素一直對(duì)準(zhǔn)確率有較大的影響,所以我們初步判斷出能留下的三種元素序號(hào)為2、4、5。第三步:在2、4、5號(hào)元素的基礎(chǔ)上,分別加入3、6、7號(hào)元素,進(jìn)行fisher判別分析,進(jìn)而比較判別的結(jié)果。發(fā)現(xiàn):元素號(hào)2、4、5、32、4、5、62、4、5、7回代準(zhǔn)確率86.7%86.7%86.7%回代準(zhǔn)確率都相同,再比較與預(yù)測(cè)的吻合度:元素號(hào)2、4、5、32、4、5、62、4、5、7吻合度90%96.67%93.33%經(jīng)過(guò)比較,發(fā)現(xiàn)元素組合為2、4、5、6時(shí)的吻合度最高。因此我們最總確定下來(lái)的元素為2、4、5、6是影響人們患腎炎的關(guān)鍵或主要因素。用這四種元素進(jìn)行費(fèi)舍爾分析的結(jié)果為:
28、選取Cu、Ca、Mg、K元素進(jìn)行費(fèi)希爾判別的結(jié)果編號(hào)616263646566676869707172737475判別結(jié)果001000110100010編號(hào)767778798081828384858687888990判別結(jié)果011011101011111通過(guò)上述的方法篩選判別再篩選重復(fù)進(jìn)行操作得到相關(guān)的結(jié)果,我們篩選了(Cu、Ca、Mg、K)作為影響人們患腎炎的關(guān)鍵或主要因素。對(duì)結(jié)果的進(jìn)一步思考:一,該種方法遍歷了幾乎所有可能的元素組合,然后對(duì)比回帶誤判率,選出幾種元素作為主要判別因素,具有較高統(tǒng)計(jì)意義和可實(shí)現(xiàn)行。從結(jié)果可以看出吻合率高達(dá)96.67%,結(jié)果相當(dāng)精確。二,該種方法比較繁雜,而且同樣
29、沒(méi)能顧及到元素之間的相關(guān)性對(duì)判別結(jié)果的影響,是一種較為粗糙的算法模型。三,逐步判別法由于上述兩種方法是通過(guò)定性判斷和窮舉遍歷的方法進(jìn)行的,不一定能反映元素中的內(nèi)在聯(lián)系和對(duì)判別結(jié)果的影響程度。從第一問(wèn)中建立的判別函數(shù)可以看出各個(gè)變量在判別式中所起到的作用不同,我們可以在不影響判別準(zhǔn)確率的前提下剔除部分次要指標(biāo),使判別函數(shù)更加簡(jiǎn)潔。為此,我們引入逐步判別法,采用“有進(jìn)有出”的算法,通過(guò)假設(shè)檢驗(yàn)找出顯著性變量,最終確定參加判別分析的主要化驗(yàn)指標(biāo)。逐步判別法的引入變量 假定計(jì)算h步,并且變量,已選入(k不一定等于h),今考察第h+1步添加一個(gè)新變量的判別能力。此時(shí)將變量分為兩組,第一組為前k個(gè)已選入的
30、變量,第二組僅為一個(gè)變量,這k+1個(gè)變量的組內(nèi)離差陣和總離差陣分別為E和T。= = 含有k個(gè)因子的判別方程的判別能力通過(guò)wilks統(tǒng)計(jì)量表示。 =式中表示含有h個(gè)因子的組內(nèi)離差平方和陣,表示含有h個(gè)因子的總離差平方和陣。越小表示判別方程的判別能力越強(qiáng)。第h+1步添加一個(gè)新變量的判別能力以表示,可以證明: =*, 其中=所以: -1= 其中=服從Wilks分布,但是由于Wilks分布的數(shù)值表一般書(shū)上沒(méi)有,所以常用Rao近似公式。將上式帶入Rao近似式中得到引入變量的檢驗(yàn)統(tǒng)計(jì)量:=*F(i-1,n-h-i)若>(i-1,n-h-1),則判別能力顯著,我們將判別能力最顯著的變量中最大的變量作為
31、入選變量記為。逐步判別法的剔除變量考察對(duì)已入選變量的判別能力,可以設(shè)想已計(jì)算了h步,并引入了包括在內(nèi)的某L個(gè)為量?,F(xiàn)在假設(shè)在第h+1步中剔除變量的判別能力,為方便起見(jiàn),可以假設(shè)是在第h步引入的。因此問(wèn)題轉(zhuǎn)化為考察第h步引入變量的判斷能力,此時(shí)有: =對(duì)相應(yīng)的、,再作一次消去變換,可證明: =從而得到剔除變量的檢驗(yàn)統(tǒng)計(jì)量: =*F(i-1,n-(k-1)-i)在已入選的所有變量中,找出具有最大的一個(gè)變量進(jìn)行檢驗(yàn)。若<= ,則認(rèn)為判別能力不顯著,可把它從判別式中剔除。逐步計(jì)算后再次建立判別函數(shù)對(duì)樣本判別分類:篩選出重要變量之后,再次通過(guò)fisher判別法建立判別函數(shù)和判別準(zhǔn)則(重復(fù)問(wèn)題一的過(guò)
32、程)對(duì)后30名就診人員的化驗(yàn)結(jié)果進(jìn)行判斷。通過(guò)SPSS軟件進(jìn)行結(jié)果分析:輸入的/刪除的變量a,b,c,d步驟輸入的Wilks 的 Lambda統(tǒng)計(jì)量df1df2df3精確 F統(tǒng)計(jì)量df1df2Sig.1Ca.4991158.00058.347158.000.0002Cu.3932158.00044.083257.000.0003Fe.3583158.00033.470356.000.000上表顯示了逐步判別中變量進(jìn)入和剔除的情況。從表中可以看出,第一步納入的是Ca,到第三步就停止納入新的變量;精確F欄中的統(tǒng)計(jì)量的值是變量均方與誤差均方的比值,該值越大,Sig值越小,Sig值最小對(duì)應(yīng)的變量先進(jìn)入
33、判別方程。所以說(shuō)該剔除變量過(guò)程中,最終只選擇了Ca,Cu,F(xiàn)e,三種元素進(jìn)入判別方程。分析中的變量步驟容差要?jiǎng)h除的 FWilks 的 Lambda1Ca1.00058.3472Ca.42377.333.925Cu.42315.366.4993Ca.40780.574.873Cu.32621.693.497Fe.7115.415.393該表格顯示了每一步變量進(jìn)入判別方程的統(tǒng)計(jì)情況。根據(jù)Wilks Lambda 逐步的進(jìn)行變量選擇和F檢驗(yàn),每步都使得Wilks Lambda中的最小值的變量進(jìn)入判別函數(shù)。Wilks 的 Lambda函數(shù)檢驗(yàn)Wilks 的 Lambda卡方dfSig.1.35858.
34、0323.000該表格給出了典型判別方程的有效性檢驗(yàn)。從表中的Sig欄我們可以看到該典型判別能力是顯著的。標(biāo)準(zhǔn)化的典型判別式函數(shù)系數(shù) 函數(shù)1Ca1.503Cu-1.155Fe.440由圖我們可以根據(jù)系數(shù)寫(xiě)出標(biāo)準(zhǔn)化典型判別函數(shù)表達(dá)式:Y1=1.503*Ca-1.155*Cu+0.44*Fe典型判別式函數(shù)系數(shù) 函數(shù)1Ca.002Cu-.067Fe.008(常量)-1.815非標(biāo)準(zhǔn)化系數(shù)根據(jù)系數(shù)寫(xiě)出為標(biāo)準(zhǔn)化的典型判別方程:Y1=-0.002*Ca-0.067*Cu+0.008*Fe-1.815分類函數(shù)系數(shù) VAR00008.001.00Ca.001.005Cu.013-.164Fe.003.024(
35、常量)-1.014-5.792Fisher 的線性判別式函數(shù)該表給出了貝葉斯的fisher線性判斷方程的系數(shù)。方程為:Y1=-0.001*Ca-0.013*Cu-0.003*Fe-1.014Y2=-0.005*Ca-0.164*Cu-0.024*Fe-5.792分類結(jié)果b,cVAR00008預(yù)測(cè)組成員合計(jì).001.00初始計(jì)數(shù).00300301.0052530未分組的案例181230%.00100.0.0100.01.0016.783.3100.0未分組的案例60.040.0100.0交叉驗(yàn)證a計(jì)數(shù).00300301.0052530%.00100.0.0100.01.0016.783.3100
36、.0a. 僅對(duì)分析中的案例進(jìn)行交叉驗(yàn)證。 在交叉驗(yàn)證中,每個(gè)案例都是按照從該案例以外的所有其他案例派生的函數(shù)來(lái)分類的。b. 已對(duì)初始分組案例中的 91.7% 個(gè)進(jìn)行了正確分類。c. 已對(duì)交叉驗(yàn)證分組案例中的 91.7% 個(gè)進(jìn)行了正確分類。選取Cu、Ca、Fe元素進(jìn)行判別的結(jié)果編號(hào)616263646566676869707172737475判別結(jié)果001000000100010編號(hào)767778798081828384858687888990判別結(jié)果001011100011111對(duì)結(jié)果分析和作進(jìn)一步的分析:一,由該表中我們可以清楚的看到對(duì)初始分組案例中的91.7%進(jìn)行了正確分類,對(duì)交叉驗(yàn)證分組案例
37、中的91.7%進(jìn)行了正確的分類。所以我們從結(jié)果來(lái)看,只用了Ca,Cu,F(xiàn)e三個(gè)化驗(yàn)指標(biāo)就可以對(duì)就診人員進(jìn)行較為準(zhǔn)確的判斷。二,逐步判別法通過(guò)引入新變量,剔除對(duì)判別影響不大的舊變量,不斷重復(fù)篩選,這套方案具有更強(qiáng)的數(shù)學(xué)理論依據(jù),從問(wèn)題的本質(zhì)上給出篩選的結(jié)果。對(duì)問(wèn)題五分析對(duì)問(wèn)題二和問(wèn)題四的結(jié)果作進(jìn)一步的分析:一,在問(wèn)題四的求解結(jié)果中我們已經(jīng)得到三種減少化驗(yàn)指標(biāo)的方法和利用關(guān)鍵或主要因素對(duì)表B.2進(jìn)行再判斷的詳細(xì)結(jié)果,對(duì)比發(fā)現(xiàn)使用第一種方案對(duì)表B.2與問(wèn)題二中的判斷結(jié)果有2個(gè)不吻合,使用第二種方案對(duì)表B.2與問(wèn)題二中的判斷結(jié)果有1個(gè)不吻合,使用第三種方案對(duì)表B.2與問(wèn)題二中的判斷結(jié)果有3個(gè)不吻合。吻
38、合率都達(dá)到了90%以上。二,三種方案中都保有Fe,Ca元素,說(shuō)明這兩種元素對(duì)判斷起著重要的作用,醫(yī)院里可做相關(guān)的研究以確定Fe,Ca元素的含量與腎炎之間的類在聯(lián)系,從而根據(jù)內(nèi)在原因更好的判斷。三,針對(duì)上述的結(jié)果,我們可以得知,適當(dāng)?shù)臏p少化驗(yàn)指標(biāo)是可行的,且利用剩下的元素檢驗(yàn)回帶誤判率并沒(méi)有明顯上升,對(duì)B.2的的再一次分析判別吻合率也是很高。我們針對(duì)不同的算法給出了三種不同的減少化驗(yàn)指標(biāo)的方案,可以看出三種方案中都含有Fe,Ca元素。我們對(duì)醫(yī)院的建議是,可以適當(dāng)減少化驗(yàn)指標(biāo)但是不能去除Fe,Ca元素這兩個(gè)指標(biāo),否則將大大影響到判別精確度。根據(jù)實(shí)際情況提高模型的實(shí)用價(jià)值和對(duì)模型進(jìn)行穩(wěn)定性檢測(cè)考慮到
39、實(shí)際情況中,我們需要知道某一個(gè)就診人員的患病概率決定是否對(duì)其進(jìn)行進(jìn)一步的化驗(yàn)和檢查以確定該就診人員是否患腎炎。所以我們引入神經(jīng)網(wǎng)絡(luò)模型:(1)、初始化網(wǎng)絡(luò)權(quán)重:每?jī)蓚€(gè)神經(jīng)元之間的連接權(quán)重被初始化為一個(gè)很小的隨機(jī)數(shù),同時(shí),每個(gè)神經(jīng)元有一個(gè)偏置,也被初始化成一個(gè)隨機(jī)數(shù)。(2)、向前傳播輸入:首先,根據(jù)訓(xùn)練樣本X提供網(wǎng)絡(luò)的輸入層,通過(guò)計(jì)算得到每個(gè)神經(jīng)元的輸出。每個(gè)神經(jīng)元的輸入具體公式:=,是上一層的單元i的輸出;是本單元的偏置,用來(lái)充當(dāng)閥值,可以改變單元的活性。(3)、反向誤差傳播:由步驟(2)一直向前,最終在輸出層輸出,可以通過(guò)與預(yù)期輸出相比較得到每個(gè)輸出單元j的誤差。得到的誤差需要從后向前傳播,
40、前面的一層單元j誤差可以通過(guò)和它連接的后面一層的所有單元k的誤差計(jì)算所得,具體公式:=(1-) 依次得到最后一個(gè)隱含層到第一個(gè)隱含層每個(gè)神經(jīng)元的誤差。(4)、網(wǎng)絡(luò)權(quán)重與神經(jīng)元偏置調(diào)整:調(diào)整權(quán)重是從輸入層與第一隱含層的連接權(quán)重開(kāi)始,依次向后進(jìn)行,每個(gè)連接權(quán)重根據(jù)公式=+=+(L)進(jìn)行調(diào)整。神經(jīng)元偏置的調(diào)整方法是對(duì)每個(gè)神經(jīng)元j進(jìn)行如公式:=+=+(L)所示的更新。其中L是學(xué)習(xí)效率,通常取0-1之間的常數(shù)。(5)、判斷結(jié)束:對(duì)于每個(gè)樣本,如果最終的輸出誤差小于可以接受的范圍或者迭代次數(shù)t達(dá)到了一定的閥值,則選取下一個(gè)樣本,轉(zhuǎn)到步驟(2)重新執(zhí)行;否則迭代次數(shù)t加1,然后轉(zhuǎn)向步驟(2)繼續(xù)使用當(dāng)前樣本
41、進(jìn)行計(jì)算。SPSS軟件里提供了對(duì)Bp神經(jīng)網(wǎng)絡(luò)模型的計(jì)算方案。定義Q為患病的概率,在20次重復(fù)求解中,該就診個(gè)體判別結(jié)果為0的次數(shù)設(shè)為N,Q=N/20;Q=0或者Q=1,我們認(rèn)為結(jié)果穩(wěn)定。首先,我們通過(guò)SPSS軟件對(duì)全部元素進(jìn)行20次重復(fù)求解并歸納總結(jié)判別結(jié)果:在前60組中我們發(fā)現(xiàn)只有第13,30,38,43就診個(gè)體數(shù)據(jù)值不穩(wěn)定, 其他就診個(gè)體均給出明確的判斷,經(jīng)過(guò)驗(yàn)證發(fā)現(xiàn)Bp神經(jīng)網(wǎng)絡(luò)進(jìn)行判別分析的回代準(zhǔn)確率為100%,所以應(yīng)用該模型來(lái)判斷后30組就診個(gè)體是可行的。經(jīng)過(guò)SPSS軟件的操作,我們發(fā)現(xiàn)后30組只有第67,79就診個(gè)體數(shù)據(jù)值不穩(wěn)定,說(shuō)明利用該模型預(yù)測(cè)結(jié)果穩(wěn)定,對(duì)于67,79就診個(gè)體我們不能判斷是否患病,建議醫(yī)院采取進(jìn)一步化驗(yàn)分析。然后,我們用神經(jīng)網(wǎng)絡(luò)模型檢驗(yàn)了三種元素篩選法選出的主要因素穩(wěn)定性。利用問(wèn)題三中的篩選結(jié)果,我們利用神經(jīng)網(wǎng)絡(luò)模型再次進(jìn)行了了20次重復(fù)求解并歸納總結(jié)判別結(jié)果:通過(guò)SPSS軟件對(duì)問(wèn)題(3)中第一種篩選方案選出的Fe,Ca元素進(jìn)行求解的結(jié)果:在前60組中我們發(fā)現(xiàn)只有第18,38就診個(gè)體數(shù)據(jù)值不穩(wěn)定,對(duì)于已經(jīng)給出明確判斷結(jié)果的回代驗(yàn)證準(zhǔn)確率為100%,同樣說(shuō)明應(yīng)用該模型來(lái)判斷后30組就診個(gè)體是可行的。經(jīng)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 湖北省煙草專賣局(公司)真題2024
- 昆明市公安局勤務(wù)輔警招聘筆試真題2024
- 2025版中建工地安全文明標(biāo)準(zhǔn)化觀摩手冊(cè)
- 2025年英語(yǔ)六級(jí)6月試題
- 論杜威對(duì)西方傳統(tǒng)哲學(xué)中二元論思維的批判與超越
- 區(qū)域性廢棄物資源化處理工藝與設(shè)備選擇
- 業(yè)財(cái)融合視角下農(nóng)業(yè)副產(chǎn)品的全生命周期管理
- 高中語(yǔ)文和外語(yǔ)通跨學(xué)科教學(xué)中的互動(dòng)式課堂設(shè)計(jì)
- 2025至2030年中國(guó)豬光面獵裝女裙行業(yè)投資前景及策略咨詢報(bào)告
- 2025至2030年中國(guó)煉油三劑行業(yè)投資前景及策略咨詢報(bào)告
- 餐飲服務(wù)管理制度
- 054.產(chǎn)科危急重癥早期識(shí)別中國(guó)專家共識(shí)(2024年版)
- 以“勝任力”為導(dǎo)向的腎臟泌尿整合智慧樹(shù)知到答案2024年上海市同濟(jì)醫(yī)院
- 車站值班員(中級(jí))鐵路職業(yè)技能鑒定考試題及答案
- 2024年陜西省西安市中考地理試題卷(含答案逐題解析)
- 2024屆廣東省深圳市南山區(qū)數(shù)學(xué)五下期末統(tǒng)考試題含解析
- 信訪工作條例應(yīng)知應(yīng)會(huì)考試題庫(kù)300題(含答案)
- 人工智能訓(xùn)練師(中級(jí)數(shù)據(jù)標(biāo)注員)理論考試題庫(kù)(含答案)
- 2024年廣東清遠(yuǎn)連平縣事業(yè)單位招聘工作人員51人公開(kāi)引進(jìn)高層次人才和急需緊缺人才筆試參考題庫(kù)(共500題)答案詳解版
- 銀行智能化方案設(shè)計(jì)
- 2024屆四川省瀘州市龍馬潭區(qū)六年級(jí)語(yǔ)文小升初摸底考試含答案
評(píng)論
0/150
提交評(píng)論