醫(yī)學統(tǒng)計學:直線相關(guān)和回歸分析_第1頁
醫(yī)學統(tǒng)計學:直線相關(guān)和回歸分析_第2頁
醫(yī)學統(tǒng)計學:直線相關(guān)和回歸分析_第3頁
醫(yī)學統(tǒng)計學:直線相關(guān)和回歸分析_第4頁
醫(yī)學統(tǒng)計學:直線相關(guān)和回歸分析_第5頁
已閱讀5頁,還剩92頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、直線相關(guān)和回歸分析Medical statistics醫(yī)學統(tǒng)計學直線相關(guān)分析Linear Correlation AnalysisPage 3相關(guān)分析:主要內(nèi)容問題的提出相關(guān)關(guān)系與確定性關(guān)系相關(guān)和直線相關(guān)的概念直線相關(guān)的圖示直線相關(guān)系數(shù)的計算直線相關(guān)系數(shù)的假設(shè)檢驗和區(qū)間估計Page 4問題的提出以往方法的局限僅限于考察一個觀察指標Page 5問題的提出人的體重往往隨著身高的增加而增加。二者之間是否存在某種關(guān)聯(lián)?如果存在,可否用身高來推測體重的多少?兒童所能發(fā)出的最長音調(diào)往往和年齡有關(guān)。同樣,是否可以建立年齡和音調(diào)長度的數(shù)量關(guān)系?人的肺活量往往隨著胸圍的增加而增加。舉重運動員所能舉起的最大重量是

2、否與他的體重有關(guān)?Page 6相關(guān)關(guān)系與確定性關(guān)系所謂確定性關(guān)系是指兩變量間的關(guān)系是函數(shù)關(guān)系。已知一個變量的值,另一個變量的值可以通過這種函數(shù)關(guān)系精確計算出來。C =2RS=vt非確定性關(guān)系是指兩變量在宏觀上存在關(guān)系,但并未精確到可以用函數(shù)關(guān)系來表達。青少年身高隨年齡增長而增高;體表面積與體重有關(guān)Page 72.相關(guān)的概念當兩個數(shù)值變量之間出現(xiàn)如下情況:當一個變量增大,另一個也隨之增大(或減少),我們稱這種現(xiàn)象為共變,也就是有相關(guān)關(guān)系。若兩個變量同時增加或減少,變化趨勢是同向的,則兩變量之間的關(guān)系為正相關(guān)(positive correlation);若一個變量增加時,另一個變量減少,變化趨勢是

3、反向的,則稱為負相關(guān)(negative correlation)。 Page 8直線相關(guān)的概念直線相關(guān)(linear correlation),又稱簡單相關(guān),用以描述兩個呈正態(tài)分布的變量之間的線性共變關(guān)系,常簡稱為相關(guān)。Page 9用以說明具有直線關(guān)系的兩個變量間相關(guān)關(guān)系的密切程度和相關(guān)方向的指標,稱為相關(guān)系數(shù)(correlation coefficient),又稱為積差相關(guān)系數(shù)(coefficient of product-moment correlation),Pearson相關(guān)系數(shù) ??傮w相關(guān)系數(shù)用希臘字母r表示,而樣本相關(guān)系數(shù)用r表示,取值范圍均為-1,1。Page 10r=0r=0r

4、-1r1完全正相關(guān)完全負相關(guān)零相關(guān)零相關(guān)0r1-1r0r=0 r=0零相關(guān)正相關(guān)負相關(guān)零相關(guān)直線相關(guān)的圖示Page 11r =-1-1r 0r =0直線相關(guān)的圖示與相關(guān)系數(shù)的關(guān)系0r 1r =1Page 12直線相關(guān)系數(shù)的計算Page 13以下資料選自Galton的一項研究,目的是探討成年時身高是否與兩歲時的身高(單位:英寸)有關(guān)。兩歲時的身高(英寸)3930323435363630成年身高(英寸)7163636768687064Page 14繪制散點圖Y 成年后身高(單位:英寸)X 2歲時的身高(單位:英寸)3032343638406365676971Page 15Page 16Page 1

5、7相關(guān)系數(shù)的假設(shè)檢驗H0:r0,兩變量間無直線相關(guān)的關(guān)系;H1:r0。Page 18H0:0,兩變量間無直線相關(guān)的關(guān)系;H1:0,兩變量間有直線相關(guān)的關(guān)系;a =0.05=8-2=6以自由度為6查附表2的t界值表,得P0.01,按=0.05的水準拒絕H0,接受H1,認為2歲時的身高和成年身高之間存在正相關(guān)。Page 19總體相關(guān)系數(shù)的區(qū)間估計從相關(guān)系數(shù)不等于0的總體中抽樣,樣本相關(guān)系數(shù)的分布是偏態(tài)的。 Page 20相關(guān)系數(shù)的抽樣分布( = - 0.8)-0.8-0.6-0.4-0.20.00100200300-1.0Page 21相關(guān)系數(shù)的抽樣分布( = 0)-1.0-0.8-0.6-0.4

6、-0.20.00.20.40.60.81.00100200300Page 22相關(guān)系數(shù)的抽樣分布( =0.8) 00.20.40.60.81.00100200300Page 23R.A. Fisher(1921) 的 z 變換 z近似服從均數(shù)為 ,標準差為 的正態(tài)分布。 Page 24相關(guān)系數(shù)的z 值的抽樣分布( = - 0.8)00.51.01.52.0050100150200Page 25相關(guān)系數(shù)的z 值的抽樣分布( = 0)-2-1012050100150200Page 26相關(guān)系數(shù)的z 值的抽樣分布( = 0.8) 01234050100150200Page 27相關(guān)系數(shù)的可信區(qū)間估計

7、將 r 變換為 z ;根據(jù) z 服從正態(tài)分布,估計 Z 的可信區(qū)間;再將 z變換回 r 。Page 28相關(guān)系數(shù)的可信區(qū)間估計 Fishers 變換 r z 正態(tài)近似 Fishers 反變換 的95%CI Z的95%CI Page 29該可信區(qū)間有什么含義?直線回歸分析Linear Regression AnalysisPage 31直線回歸分析:主要內(nèi)容引言直線回歸的定義直線回歸方程的求解回歸系數(shù)的t檢驗回歸問題的方差分析直線回歸系數(shù)和回歸方程的解釋與直線回歸有關(guān)的區(qū)間估計相關(guān)與回歸的區(qū)別和聯(lián)系正確應用Page 32引言對于2歲時的身高和成年后身高間的關(guān)系即便具有相同的2歲身高,成年后的身高

8、也不一定相同; 2歲身高X與成年后身高Y的散點圖Y 成年后的身高(英寸)X 兩歲時的身高(英寸)3032343638406365676971Page 33引言對于女大學生的體重和肺活量間的關(guān)系即便具有相同的體重,肺活量也不一定相同;Y 肺活量(L)X 體重(kg)40602.04.03.02.53.5504555女大學生體重(X)與肺活量(Y)的散點圖Page 34折衷的解釋2歲身高影響成年的身高,但并非確定地決定它(determine it exactly) ;女學生的體重雖然影響了肺活量;但并非確定地決定它;因此,雖然它們之間有數(shù)量關(guān)系,但并非確定性的數(shù)量關(guān)系。是一種非確定性關(guān)系;一種宏觀

9、的關(guān)系!Page 35所謂確定性關(guān)系是指兩變量間的關(guān)系是函數(shù)關(guān)系。已知一個變量的值,另一個變量的值可以通過這種函數(shù)關(guān)系精確計算出來。非確定性關(guān)系是指兩變量在宏觀上存在關(guān)系,但并未精確到可以用函數(shù)關(guān)系來表達。Page 36直線回歸的定義宏觀上來講,他們呈直線關(guān)系,但并不能用來描述。所以我們用“hat”表示估計值,給定X時Y的條件均數(shù)(Y均數(shù)的估計值)Page 37 Y 因變量,響應變量 (dependent variable, response variable) X 自變量,解釋變量 (independent variable, explanatory variable) b 回歸系數(shù) (re

10、gression coefficient, slope) a 截距 (intercept)Page 38不同斜率時回歸直線的表現(xiàn)XYPage 39直線回歸方程的求解兩歲時的身高(英寸)3930323435363630成年身高(英寸)7163636768687064Page 40直線回歸方程的求解:最小二乘原理Y 成年后身高(單位:英寸)X 2歲時的身高(單位:英寸)3032343638406365676971Page 41直線回歸方程的求解最小二乘法(Least Square Method)Page 42最小二乘法求解(了解) 根據(jù)微積分學中的求極值的方法,令 Q對a、b的一階偏導數(shù)等于0,即

11、:Page 43最小二乘法求解(了解)Page 44直線回歸方程的求解2歲身高和成年身高之間關(guān)系Page 45直線回歸方程Page 46直線回歸系數(shù)的t檢驗回歸系數(shù)也有抽樣誤差!檢驗方法針對回歸系數(shù)b的檢驗:t檢驗針對回歸方程的檢驗:F檢驗Page 47直線回歸系數(shù)的t檢驗總體回歸系數(shù) =0,則回歸關(guān)系不存在。H0:總體回歸系數(shù)為0, =0;H1:總體回歸系數(shù)不為0,0;=0.05。Page 48直線回歸系數(shù)的t檢驗Y的剩余標準差扣除X的影響(即回歸所能解釋的部分)后Y本身的變異程度Page 49直線回歸系數(shù)的t檢驗名詞辨析: Y的變異 Y本身的變異 Y 體重增加量(g)X 進食量(g)600

12、650700750800850900950120140160180200154.42gSY22.630SY.X12.39Page 50直線回歸系數(shù)的t檢驗H0:總體回歸系數(shù)0;H1:總體回歸系數(shù)0; =0.05。 =8-2=6按=6查t界值表,得P0.01。按 =0.05水準拒絕H0,接受H1。認為成年身高和2歲時的身高間存在直線回歸關(guān)系。 Page 51回歸系數(shù)與相關(guān)系數(shù)的假設(shè)檢驗結(jié)果等價Page 52回歸方程的方差分析:因變量總變異的分解X P (X,Y)YQLSPage 53Page 54上式兩端平方,然后對所有的n點求和,則有Page 55 Page 56Y的總變異分解未引進回歸時的總

13、變異: (sum of squares about the mean of Y)引進回歸以后的變異(剩余): (sum of squares about regression)回歸的貢獻,回歸平方和: (sum of squares due to regression)Page 57Y的總變異分解 總n1 回1 剩余n2 總回SSSSr=2Page 58Y的總變異可以用回歸來解釋的部分即與X有關(guān)的部分不能用X來解釋的部分即與X無關(guān)的部分(隨機誤差)份額的大小可以用相關(guān)系數(shù)的平方來衡量(決定系數(shù))Page 59回歸方程的方差分析Page 60H0:2歲身高和成年身高無直線回歸關(guān)系;H1: 2歲身

14、高和成年身高有直線回歸關(guān)系;=0.05。 SS總 =67.5000SS剩 =60.3571SS回 = SS總-SS剩 =67.50-60.36=7.14列方差分析表Page 61方差分析表 F=50.70,今1=1,2=6,查 F界值表,得P0.0001,按 =0.05水準拒絕H0,接受H1,故可認為2歲和成年身高之間有線性回歸關(guān)系。變異來源SSvMSFP總變異67.50007回 歸60.3571160.357150.700.0001剩 余7.142961.1905Page 62直線回歸中三種假設(shè)檢驗間的關(guān)系在直線回歸中,相關(guān)系數(shù)的假設(shè)檢驗,回歸系數(shù)的假設(shè)檢驗,以及回歸方程的方差分析結(jié)果等價。

15、tr=tb=7.12=F1/2=50.701/2Page 63回歸系數(shù)和回歸方程的意義及性質(zhì)b 的意義a 的意義 和 的意義 的意義Page 64b的含義 b的涵義:兩歲身高每高1英寸,成年后的身高平均高0.9286英寸。Page 65a 的意義a 截距(intercept, constant)X=0 時,Y的估計值a的單位與Y值相同當X可能取0時,a才有實際意義。Page 66估計值 的意義X=39, = 71.3929 即兩歲身高為39英寸時,其成年后身高均數(shù)的估計值為71.3929英寸X=35, = 67.6786 即兩歲身高為35英寸時,其成年后身高均數(shù)的估計值為67.6786英寸給定

16、X時,Y的均數(shù)的估計值。當 時,Page 67編號2歲(英寸)X成年(英寸)Y估計值殘差1397171.3929-0.39292306363.0357-0.03573326364.8929-1.89294346766.75000.25005356867.67860.32146366868.6071-0.60717367068.60711.39298306463.03570.9643合計272534534.00000.0000估計值與殘差Page 68圖7.2 2歲身高X與成年后身高Y的散點圖X 2歲時身高3032343638406365676971XY 成年后身高(單位:英寸)Page 69殘

17、差平方和 (residual sum of squares).綜合表示點距直線的距離。在所有的直線中,回歸直線的殘差平方和是最小的。(最小二乘) 的意義Page 70與直線回歸有關(guān)的區(qū)間估計回歸系數(shù)的可信區(qū)間估計估計值 的可信區(qū)間估計個體Y值的容許區(qū)間估計Page 71復習 可信區(qū)間 容許區(qū)間均數(shù)的可信區(qū)間: 均數(shù)界值標準誤 個體的容許區(qū)間(參考值范圍): 均數(shù)界值標準差 Page 72總體回歸系數(shù) 的可信區(qū)間估計根據(jù) t 分布原理估計:Page 73本例中已計算得sb=0.1304(0.9286-2.4470.1304, 0.9286-2.4470.1304)=( 0.6095,1.2477

18、)含義用(0.6095, 1.2477)來估計兩歲身高與成年身高間的直線回歸系數(shù),可信度為95%。Page 74 的可信區(qū)間估計 樣本 總體Y的總平均給定X時Y的平均 (Y的條件均數(shù)) 根據(jù) t 分布原理:Page 75X=38時,求 的95%可信區(qū)間 =34,lXX=77159.67, =12.3921當X=34 時, =70.464470.46442.4470.4688=(68.88,70.05) 即身高為34英寸的兩歲兒童,估計其成年后平均身高為70.4644英寸,95可信區(qū)間為(68.88,70.05) (g)。Page 76Y的容許區(qū)間估計 給定 X 時 Y 的估計值是 Y 的均數(shù)的

19、一個估計。給定X 時 Y 值的容許區(qū)間是 Y 值的可能范圍。 Y的100(1- )%容許限:Page 7770.46442.4471.2694=(67.3583,73.5705)即所有身高為34英寸的兩歲兒童,估計其成年后有95的個體身高在(67.36,73.57) 之間。Page 78剩余標準差、條件標準誤、條件標準差抽樣誤差抽樣誤差個體變異Page 792歲身高(英寸)成年身高(英寸)(英寸)的95%可信區(qū)間Y的95%容許區(qū)間下限上限下限上限306463.035761.448264.623259.929666.1419306363.035761.448264.623259.929666.1

20、419326364.892963.753466.032361.990167.7957346766.750065.806167.693963.918269.5818356867.678666.682268.675064.828970.5283366868.607167.467769.746665.704471.5099367068.607167.467769.746665.704471.5099397171.392969.539073.246768.142574.6432Page 80估計值、95%可信區(qū)間和95%容許區(qū)間成年后身高英寸X 2歲時的身高(單位:英寸)30 32 34 36 38 58 60 62 64 66 68 70 72 74 76 31 33 35 37 39 Page 81直線回歸與直線相關(guān)的區(qū)別與聯(lián)系聯(lián)系均表示線性關(guān)系;符號相同:共變方向一致;假設(shè)檢驗結(jié)果相同:是否存在共變關(guān)系;二者間可以相互換算用回歸解釋相關(guān)Page 82直線回歸與直線相關(guān)的區(qū)別與聯(lián)系區(qū)別r 沒有單位,b有單位;所以,相關(guān)系數(shù)與單位無關(guān),回歸系數(shù)與單位有關(guān);相關(guān)表示相互關(guān)系;回歸表示依存關(guān)系;對資料的要求不同:當X和Y都是隨機的,可以進行相關(guān)和回歸分析;當Y是隨機的(X是控制的),理論上只能作回歸而不能作相關(guān)分析; I型回歸:X是精確控制的;II型回歸:X是隨機的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論