多元回歸分析肺吸蟲(chóng)囊蚴脫囊影響因素中有關(guān)異常點(diǎn)的探討_第1頁(yè)
多元回歸分析肺吸蟲(chóng)囊蚴脫囊影響因素中有關(guān)異常點(diǎn)的探討_第2頁(yè)
多元回歸分析肺吸蟲(chóng)囊蚴脫囊影響因素中有關(guān)異常點(diǎn)的探討_第3頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、多元回歸分析肺吸蟲(chóng)囊蚴脫囊影響因素中有關(guān)異常點(diǎn)的探討          作者:曲桂玉 陳景武 杜國(guó)防【摘要】  目的: 探討準(zhǔn)確發(fā)現(xiàn)、合理處理實(shí)驗(yàn)資料中異常點(diǎn),資料滿足多元線性回歸分析條件,確保分析結(jié)果真實(shí)可靠。方法: 采用殘差圖、殘差分析、影響分析、穩(wěn)健回歸及根據(jù)專業(yè)知識(shí)判斷。結(jié)果: 第一組資料所對(duì)應(yīng)的點(diǎn)為異常點(diǎn),刪去異常點(diǎn),最小二乘法建立的方程與穩(wěn)健回歸建立的方程一致。結(jié)論: 多種方法結(jié)合判斷異常點(diǎn),進(jìn)一步提高了專業(yè)結(jié)論的科學(xué)性。 【關(guān)鍵詞】  異常點(diǎn); 多元回歸分析; 穩(wěn)健回歸為

2、了研究肺吸蟲(chóng)囊蚴脫囊的影響因素,我們進(jìn)行了正交試驗(yàn)并對(duì)其試驗(yàn)資料進(jìn)行多元線性回歸分析,旨在建立多元線性回歸模型,分析探討其影響因素作用的性質(zhì)和大小。在回歸模型中,異常點(diǎn)是指對(duì)既定模型偏離很大的數(shù)據(jù)點(diǎn)。尤其是數(shù)據(jù)集中的那些對(duì)統(tǒng)計(jì)量的取值有非常大的影響力的強(qiáng)影響點(diǎn)1。一旦發(fā)現(xiàn)異常數(shù)據(jù)應(yīng)及時(shí)進(jìn)行相應(yīng)的處理,以提高回歸方程的質(zhì)量。1  資料和方法11  資料根據(jù)專業(yè)知識(shí)選定影響肺吸蟲(chóng)囊蚴脫囊的4個(gè)主要因素及水平 ,選用L16(45)正交表安排試驗(yàn),試驗(yàn)資料收集如表1。表1  正交試驗(yàn)數(shù)據(jù)(略)12  學(xué)生化殘差值為了考察各個(gè)觀測(cè)數(shù)據(jù)相對(duì)于擬合的回歸是否為異常點(diǎn),

3、常用的方法是考察殘差的數(shù)值或?qū)W生化殘差。因?yàn)闅埐畹慕^對(duì)值越大,就表示回歸對(duì)這一觀測(cè)擬合得越不好,相對(duì)于擬合的回歸這一觀測(cè)就是異常的數(shù)據(jù)。學(xué)生化殘差(student residual)ri=ei     s1-rii(i=1,2,n)式中的S為誤差的標(biāo)準(zhǔn)差。在擬合回歸時(shí),對(duì)不同的自變量值其擬合的誤差是不同的。對(duì)絕對(duì)值相同的殘差,其自變量不同,有不同的含義,從這個(gè)角度來(lái)考慮,就需要將殘差的數(shù)值除以它的標(biāo)準(zhǔn)差來(lái)標(biāo)準(zhǔn)化,通常稱為“學(xué)生化”。在回歸診斷中,通常用學(xué)生化殘差來(lái)判斷異常點(diǎn),對(duì)于較大的ri(例如|ri|>2)的觀察值稱為異常值2(outlier)。

4、本研究中第一組數(shù)據(jù)觀察值|ri|=2.44,所以認(rèn)為此值為異常值。它所對(duì)應(yīng)的點(diǎn)為異常點(diǎn)。13  殘差圖多元線性回歸分析資料殘差圖一般要求n個(gè)點(diǎn)的散布是無(wú)規(guī)則的。當(dāng)殘差圖中的點(diǎn)呈現(xiàn)某種規(guī)律或趨向時(shí),就可以對(duì)模型的假設(shè)提出懷疑。用殘差圖(residual plot)作為一種直觀但經(jīng)常有效的非正式檢查方法。本研究以學(xué)生化殘差ri為Y軸,以預(yù)測(cè)值為X軸作標(biāo)準(zhǔn)化殘差圖(圖1),大部分散點(diǎn)落在|ri|2的水平帶狀區(qū)域內(nèi),只有第一組觀察值落在該范圍外,所以直觀上認(rèn)為該觀察值所對(duì)應(yīng)的點(diǎn)為一個(gè)異常點(diǎn)。由于學(xué)生化殘差考慮了自變量空間中試驗(yàn)點(diǎn)的位置(由hii測(cè)得),所以學(xué)生化殘差比普通殘差更為合理,作圖更

5、易發(fā)現(xiàn)異常點(diǎn)2。14  影響分析 影響分析是研究每個(gè)觀測(cè)點(diǎn)對(duì)于參數(shù)估計(jì)的影響,目的在于找出對(duì)參數(shù)估計(jì)影響大的觀測(cè)值。這對(duì)于樣本量較小的回歸分析尤為重要。對(duì)于參數(shù)估計(jì)值影響較大的觀測(cè)值,稱為強(qiáng)影響點(diǎn)。圖1  殘差圖(略)141  CookD值CookD統(tǒng)計(jì)量法是觀察回歸方程及剔除第i個(gè)觀察之后的回歸方程中的預(yù)測(cè)值與實(shí)際值之間Cook距離來(lái)判斷第i個(gè)觀測(cè)值是否為大的影響點(diǎn)的方法。Di(M,c)=(i)-)M(i)-)     c 通常Di>1就認(rèn)為第i組數(shù)據(jù)是一個(gè)強(qiáng)影響點(diǎn)。而在實(shí)際中,當(dāng)Di>0.8或Di>0.

6、6(當(dāng)其余的Di較小)時(shí)就是一個(gè)強(qiáng)影響點(diǎn)3。本研究中第一組數(shù)據(jù)CookD為0.83,因此可認(rèn)為該觀察點(diǎn)為強(qiáng)影響點(diǎn)。142  DFFITS它是通過(guò)測(cè)量一個(gè)觀測(cè)值排除是否對(duì)其預(yù)測(cè)值有影響,從而判斷該觀測(cè)值是否為強(qiáng)影響點(diǎn)2。 DFFITSi=(i-(i)s(i)hii,其中i表示用全部數(shù)據(jù)擬合回歸對(duì)yi的預(yù)測(cè)值,(i)表示將第i個(gè)觀測(cè)值排除在外后擬合回歸對(duì)yi的預(yù)測(cè)值。通常以2為其界值。本研究中第一組數(shù)據(jù)DFFTIS值為-2.8688,其絕對(duì)值大于2。15  根據(jù)專業(yè)知識(shí)判斷產(chǎn)生異常值通常有兩個(gè)方面的因素:一是環(huán)境因素的顯著變化;二是人為因素。對(duì)于環(huán)境因素,異常值的出現(xiàn)恰恰是反映

7、實(shí)況的突變,所以應(yīng)結(jié)合實(shí)際,慎重分析。我們來(lái)看,本課題中認(rèn)為的異常點(diǎn),第一組觀察值中自變量胃酶濃度為0,膽鹽濃度為0,胰酶濃度為0,胃酶作用時(shí)間5分鐘,從專業(yè)角度看,幾乎相當(dāng)于所有觀察指標(biāo)皆為0,與要模擬的實(shí)際狀況是不相符合的。于是從專業(yè)來(lái)看第一組資料所對(duì)應(yīng)的點(diǎn)可看作異常點(diǎn)。16  穩(wěn)健回歸有學(xué)者認(rèn)為,一個(gè)樣本點(diǎn)是否為異常值,不能單憑它在最小二乘法之下計(jì)算的殘差去判定,除了經(jīng)驗(yàn)以及對(duì)這樣本是如何獲得的了解外,用M估計(jì)也能有一些幫助1。在M估計(jì)中,被診斷為“異常值”的觀察點(diǎn),給予的權(quán)重都較小,最小二乘法中殘差越小的或越接近0的點(diǎn),給予的權(quán)重越大。在此我們采用穩(wěn)健回歸的M估計(jì),根據(jù)反復(fù)迭

8、代加權(quán)最小二乘法,我們知道權(quán)重小的點(diǎn)是我們考慮的異常點(diǎn)4。本研究中發(fā)現(xiàn)第一組試驗(yàn)數(shù)據(jù)所給與的權(quán)重最小,穩(wěn)健回歸得出第一組資料所對(duì)應(yīng)的點(diǎn)為異常點(diǎn)。列出各點(diǎn)最小二乘殘差rls及穩(wěn)健回歸中各點(diǎn)的權(quán)重:y     r     wt1     7     -3.435641     0.031686812     22    

9、2.192429     0.873486393     10     -0.4852421     0.90536394     7     -0.6966451     0.999696385     14     0.4464198&

10、#160;    0.990269526     15     1.599765     0.891493097     12     -0.1546714     0.988987028     13     0.6672604 

11、0;   0.9447489     3     -1.466972     0.739517810     13     0.7086987     0.9219137811     9     -0.0951291   

12、60; 0.9546443512     8     -0.3320152     0.9640339513     8     -0.0474304     0.9996977914     10     0.4162532     0.9969310415     1     -0.5415038     0.999778316     4     0.0685466     0.985117932  結(jié)果由學(xué)生化殘差、殘差圖、cookD值、DFFITS值及穩(wěn)健回歸等可得出

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論