生物統(tǒng)計學教案_第1頁
生物統(tǒng)計學教案_第2頁
生物統(tǒng)計學教案_第3頁
生物統(tǒng)計學教案_第4頁
生物統(tǒng)計學教案_第5頁
已閱讀5頁,還剩9頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、. z.生物統(tǒng)計學教案第十章 一元回歸及簡單相關分析教學時間:5學時教學方法:課堂板書講授教學目的:重點掌握一元線性回歸方程,掌握一元線性回歸方程的檢驗和相關,了解一元非線性回歸和多元回歸與相關。講授難點:一元線性回歸方程的檢驗和相關10.1 回歸與相關的根本概念函數關系:Fma相關關系:單位面積的施肥量、播種量和產量;血壓和年齡;胸徑和高度;玉米的穗長和穗重;身高和體重。相關:設有兩個隨機變量*和Y,對于任一隨機變量的每一個可能的值,另一個隨機變量都有一個分布與之相對應,稱*和Y存在相關?;貧w:對于變量*的每一個可能的值*i,都有隨機變量Y的一個分布相對應,則稱隨機變量Y對變量*存在回歸。*

2、稱為自變量,Y稱為因變量。條件平均數:當*i時Y的平均數Y.*i,稱為條件平均數。10.2 一元線性回歸方程10.2.1 散點圖NaCl含量*(g/kg土壤) 00.81.62.43.24.04.8干重Y(mg/dm2)809095115130115135例 不同NaCl含量對單位葉面積干物質的影響從上圖雖可以看出Y對*的線性關系,但點子并不在一條直線上。例 每一NaCl含量下干物質10次重復值干重(mg/dm2)重復值NaCl含量(g/kg土壤)00.81.62.43.24.04.81 80 90 951151301151352100 85 89 941061251373 751071151

3、031031281284 89 93 921101101431275 911031151131281321556 79 921201081311211327101 78 951211171291488 85105 951101211121179 83 9310510811412013410 79 85 98111116130132平均值 86.2 93.1101.9109.3117.6125.5134.5如果增加每一NaCl濃度下的重復次數,用其平均值畫成散點圖,則點子直線化的程度要好得多。上表給出10次重復的平均值,從下列圖中可見,點子更接近在一條直線上。當以Y的條件平均數所做的散點圖,則完

4、全在一條上。10.2.2 一元正態(tài)線性回歸模型 *i和各*i上Y的條件平均數y.*可構成一條直線:Y*對于變量*的每一個值,都有一個Y的分布,其平均數是上式所示的線性函數。對于隨機變量Y:Y*:NID(0,2) Y:NID(+*,2)上式稱為一元正態(tài)線性回歸模型。10.2.3 參數和的估計 在實際工作中,我們是無法得到和的,只能得到它們的估計值a和b,從而得到一條估計的回歸線:上式稱為Y對*的回歸方程,所畫出的直線稱為回歸線。a是直線的截距,稱為常數項;b是直線的斜率,稱為回歸系數。對于因變量Y的每一個觀測值yi:yi = a + b*i + eiyi 的回歸估計值是對的估計,因此也是平均數。

5、在各種離差平方和中,以距平均數的離差平方和為最小。因此我們就把ei = yi-平方和為最小的直線作為最好的回歸線。記,求出使L到達最小時的a和b,這種方法稱為最小二乘法。為使到達最小,令:可以得到以下一組聯(lián)立方程:解該方程組,得到的最小二乘估計:及a的最小二乘估計:公式的分子局部稱為*和Y的校正穿插乘積和,以S*Y表示。分母局部稱為*的校正平方和,以S*表示。因變量Y的 平方和稱為總平方和,以SYY表示。因此,b又可以表示為:回歸方程的計算*=*-2.4*2YY=Y-110Y2*Y0 -2.4 5.76 80 -30 900 720.8 -1.6 2.56 90 -20 400 321.6 -

6、0.8 0.64 95 -15 225 122.4 0 0115 5 25 0 3.2 0.8 0.64130 20 400 164.0 1.6 2.56115 5 25 84.8 2.4 5.76135 25 625 60和 017.92 -102600 200由此得出回歸方程:回歸系數的含義是:當自變量*每變動一個單位,因變量Y平均變動11.16個單位。10.3 一元線性回歸的檢驗10.3.1 b和a的數學期望和方差上式中的2是由得到的,是實際觀測值與總體回歸估計值的離差。由于和都是未知的,因此無法得到i,只能用i的估計值ei,。稱為誤差平方和即為SSe可以證明MSe是2的無偏估計量,因此

7、樣本回歸系數b的方差a的方差 根據表102中的7套重復數據細線所示,和它們的平均數粗虛線所示所繪出的回歸線。如果無限增加重復次數,最終將得到一條直線Y*。實際上這條直線是無法獲得的,只能得到它的估計直線由一套或幾套數據獲得,。這些估計直線是總體回歸線的無偏估計。它們有自己的分布,因此有自己的期望和方差。10.3.2 b和a的顯著性檢驗10.3.2.1 b的顯著性檢驗b的顯著性檢驗原理與第五章所講的假設檢驗原理類似。決定回歸線的傾斜程度,當0時兩變量間不存在回歸關系。b有自己的分布,。根據b的分布,在0這一假設下計算出,獲得回歸系數為b的這一事件出現的概率很小,而實際上它卻出現了,說明假設的條件

8、不正確,從而拒絕假設。上面已經說過,b2無法得到,只能用sb2估計,因此需用t檢驗。所使用的檢驗統(tǒng)計量為:服從n2自由度的t分布。因回歸系數是由Y.*的估計值得到的,因此sb是標準誤差,而不是標準差。例 對前述回歸方程的回歸系數的顯著性作檢驗。解 H0:0HA:0計算MSe,檢驗統(tǒng)計量t5,0.005=4.032,t t0.005,P 0.01,拒絕H0。結論是干物重在NaCl含量上的回歸極顯著。t檢驗還可以檢驗具有*一給定值的假設。例 對前述方程的以下假設做檢驗H0:7HA:7檢驗統(tǒng)計量t5,0.025=2.571,t 0.05,承受H0。b很可能抽自7的總體。10.3.2.2 a的顯著性檢

9、驗檢驗統(tǒng)計量,在H0:0的假設下, 具n - 2自由度在H0:0的假設下, 具n - 2自由度例 對前述方程的a的顯著性做檢驗解 H0: =0HA: 0先計算sa,計算統(tǒng)計量的值t5,0.025=2.571,t t5,0.025,Pt0.025,P F1,n-2,時拒絕H0。在實際計算時,可以利用以下二式求出誤差平方和及回歸平方和。SSeSYYbS*ySSRSYYSSebS*Y最后,將計算結果列成方差分析表。例 對前例的方程做方差分析。SYY2585.71,S*Y200,b11.16。由此計算出 SSRbS*Y11.162002232,SSeSYYbS*Y =2585.712232=353.7

10、1。將上述結果列成方差分析表變差來源平方和 自由度 均 方 F 回歸 2232 1 2232 31.55* 剩余 353.715 70.74 總和 2585.71 6 *0.01F F1,5,0.01,結果是回歸極顯著。10.3.4.2 有重復時的一元回歸的方差分析如果同一自變量,因變量重復觀測兩次以上,則稱為有重復觀測。這時誤差平方和可以通過重復平方和獲得,因此總平方和可以做如下分解:SYYSSRSSLOFSSpe其中SSpe稱為純實驗誤差平方和,是通過重復觀測獲得的。SSLOF稱為失擬平方和,是剩余平方和除掉純實驗誤差平方和之后的剩余局部,這局部是由于模型選擇不當造成的。各項平方和的計算如

11、下:設實驗共收集i=1,2,n對數據,在每一*i下做了j=1,2,m次重復,各平方和由以下各式給出自由度分別為:回歸項為1,失擬項為n2,純誤差項為mnn,總和為mn-1。從而得出各項均方。在作檢驗時,首先用純誤差均方對失擬均方作檢驗如果結果是顯著的,可能有以下幾個原因:除*外,還有其它影響Y的因素。模型選擇不當,*、Y之間可能是非線性關系。*和Y無關。這時沒有必要用SSLOF對MSR做檢驗。假設結果是不顯著的,說明失擬平方和根本是由實驗誤差造成的,這時需將失擬平方和與純誤差平方和合并,用合并的平方和對回歸平方和做檢驗。假設檢驗的結果仍不顯著,可能的原因有:*和Y不存在回歸關系。實驗誤差過大。

12、例 以10.2節(jié)所給出的前兩次重復為例,做方差分析。 NaCl含量00.81.62.43.24.04.8干重復I 80 90 95 115 130 115 135重重復II 100 85 89 94 106 125 137和16400153251694622061281362885036994 16471232400306253385643681556965760073984 327842由以上數據計算出回歸方程:,以及SYY4853.71和SSR3744.61。純誤差平方和代入上表右下角數字,得。失擬平方和SSLOFSYYSSRSSpe4853.713744.61791.00318.10。將

13、以上結果列成方差分析表:變差來源平方和自由度均 方F回 歸 3744.61 1 3744.61 40.52失 擬 318.10 5 63.62 0.56純誤差 791.00 7 113.00總 和 4853.71 13對失擬做檢驗的結果,F0.56。將失擬平方和與誤差平方和合并后對回歸做檢驗的結果F40.52。FF0.01,Y與*存在極顯著的回歸關系。10.3.6 一元回歸分析的意義 1、預報 2、減少實驗誤差10.4 一元非線性回歸10.4.2 對數變換例 用*射線照射大麥種子,記處理株第一葉平均高度占對照株高度的百分數為*,存活百分數為Y,得到以下結果。*28324050607280808

14、5Y81218283055618580在直角坐標紙上做成的散點圖和線性回歸線如下:可以明顯看出用直線擬合散點是不適宜的。為了能夠以直線擬合散點,對*和Y進展坐標變換,取*=lg*,Y=lgY,重新作圖如下:這時可按直線回歸,求出線性方程:將*=lg*,Y=lgY代入上式,經整理得到如下回歸方程:例 鉤蟲病人的重復治療次數*和復查陽性率Y如下表:治療次數 *12345678復查陽性率 Y63.936.017.110.57.34.52.81.7散點圖如下:從散點圖可見,Y和*顯然不是線性關系,很可能呈指數函數關系。令Y=lnY,變換后的散點圖可用直線擬合,求出Y和*的線性方程,以lnY代替,整理后

15、得到以下回歸方程:圖中的實線就是根據該方程繪出的。10.4.3 概率對數變換 在尋找半致死劑量時,常用到這種變換。例 用不同劑量的射線照射小麥品種庫班克調查死苗率,得到以下結果:劑量(Kr)*14161820222426死苗率(%)Y6104070809395散點圖和擬合曲線如下:上圖為一S形曲線,曲線的下半部比擬陡峭,上半部比擬平緩。將劑量*作對數變換,變換后的圖形,成為對稱的S形曲線。該曲線的形狀與正態(tài)分布累積分布曲線的形狀是一樣的。因此,只要把死亡率的百分率坐標變換為概率坐標,S形曲線便化作為直線。有時為了防止出現負值,將變換后的每一個值都加上5。當然,不做這樣處理也可以。本例中,劑量是

16、自變量,死亡率是因變量,因此劑量為橫坐標,死亡率為縱坐標。但是在計算半致死劑量時,要求在死亡50時的劑量,這時經常將死亡率作為橫坐標,劑量作為縱坐標。經概率坐標變換的圖形如下:于是可以得到一個線性方程,。在半致死劑量處,*50,*0,回歸方程變?yōu)椤0胫滤绖┝縇D50可由下式得到:。上例經變換后所得回歸方程為:半致死劑量的估計為:。10.4.5 曲線擬合優(yōu)劣的檢驗10.4.5.1 通過比擬剩余均方來判斷曲線擬合好壞對于一個未知的曲線,可以用幾種不同的方法擬合。在幾種不同的擬合曲線中,必然有一種是最好的。為了得到最優(yōu)擬合曲線,可以計算各種擬合曲線的剩余平方和,哪一個剩余平方和最小,哪一個就是最優(yōu)擬合。但在計算剩余平方和時一定要用實測點與回歸估計點離差的平方和來計算,這一點至關重要。10.4.5.2 根據失擬均方的大小判斷曲線擬合優(yōu)劣 對于有重復的實驗數據,可以采取多種方法直線化,求出直線方程,按有重復實驗方差分析方法進展分析。用純誤差均方對失擬均方做檢驗,所得F值不顯著的擬合最好。10.4.5.3 根據相關指數做判斷相關指數記為R2。在計算上式的SS剩余時,不能使用變換后的*和Y根據來計算,而應由實測值與回歸估計值之差的平方和來計算。R2越大

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論