醫(yī)學(xué)統(tǒng)計學(xué)教學(xué)課件:第11-12章 線性相關(guān)與回歸_第1頁
醫(yī)學(xué)統(tǒng)計學(xué)教學(xué)課件:第11-12章 線性相關(guān)與回歸_第2頁
醫(yī)學(xué)統(tǒng)計學(xué)教學(xué)課件:第11-12章 線性相關(guān)與回歸_第3頁
醫(yī)學(xué)統(tǒng)計學(xué)教學(xué)課件:第11-12章 線性相關(guān)與回歸_第4頁
醫(yī)學(xué)統(tǒng)計學(xué)教學(xué)課件:第11-12章 線性相關(guān)與回歸_第5頁
已閱讀5頁,還剩114頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、第11-12章 線性相關(guān)與回歸第一節(jié) 直線相關(guān)直線相關(guān)的意義直線相關(guān)系數(shù)的計算直線相關(guān)系數(shù)的假設(shè)檢驗身高與體重是否有關(guān)?體溫與脈搏是否有關(guān)?產(chǎn)前檢查與嬰兒體重?背景乙肝病毒感染與乙肝?小孩的身高與小樹的樹高?背景相關(guān)就是用于研究和解釋兩個變量之間相互關(guān)系的,給兩個變量定性。例1 某地12名一年級女大學(xué)生的體重(kg)與肺活量(L)數(shù)據(jù)見下表1。 表1 某地12名一年級女大學(xué)生的體重與肺活量數(shù)據(jù)編號體重(kg)肺活量(L)1422.552422.23462.754462.45462.86502.817503.418503.19523.4610522.8511583.512583.31 問題:怎么

2、判斷這兩個變量是否相關(guān)、如何相關(guān)及如何度量相關(guān)?散點圖的特點:1.呈現(xiàn)某種趨勢2.變化方向一致圖1 12名女大學(xué)生體重和肺活量的散點圖 直線相關(guān)的意義直線相關(guān)概念用于描述兩個變量之間的線性相關(guān)程度,又稱簡單相關(guān)。相關(guān)種類根據(jù)散點圖中點的分布即線性相關(guān)的性質(zhì)和相關(guān)之間的密切程度,分為:正相關(guān)負(fù)相關(guān)不相關(guān)散點圖可幫助了解線性相關(guān)的方向和相關(guān)的密切程度正相關(guān):兩個變量之間伴隨同時增大或同時減小的直線趨勢稱為線性正相關(guān)(linear positive correlation)。負(fù)相關(guān):如果研究指標(biāo)之間的變化關(guān)系是相反的,這種直線變化趨勢稱為線性負(fù)相關(guān)(linear negative correlati

3、on)。零相關(guān):如果兩變量之間無任何直線伴隨變化趨勢。直線相關(guān)系數(shù)的計算又稱Pearson積矩相關(guān)系數(shù),是定量描述兩個變量間線性關(guān)系的密切程度與相關(guān)方向的統(tǒng)計指標(biāo),沒有單位,其值介于-1和1之間 。符號r表示樣本相關(guān)系數(shù);符號表示其總體相關(guān)系數(shù)。相關(guān)系數(shù)的計算計算 r 時,分別可用上述公式代替。算得:X, Y, XY, X2, Y2,將這些數(shù)值入公式即可用標(biāo)準(zhǔn)差標(biāo)化了量綱的協(xié)方差 r 沒有單位,其數(shù)值介于 -1與 +1之間。 相關(guān)系數(shù)為正,表示Y 隨由X 的增加而增加,稱為正相關(guān);當(dāng)r = 1時,稱為完全正相關(guān); 相關(guān)系數(shù)為負(fù),表示Y 隨著X 的增加反而減少,稱為負(fù)相關(guān)。當(dāng)r = -1時,稱為

4、完全負(fù)相關(guān)。注:而當(dāng)r 接近0或等于0時,只說明兩個變量間的線性相關(guān)性很差,但并不是說兩變量間不可能存在其他的相關(guān)性(比如曲線相關(guān)等)例2 某校測得15名女中學(xué)生的胸圍(cm)和肺活量(ml),數(shù)據(jù)見如下表2所示,試做相關(guān)分析.編號胸圍X肺活量YX2Y2XY172240051845760000172800268220046244840000149600378275060847562500214500466180043563240000118800570270049007290000189000665250042256250000162500774265054767022500196100864

5、210040964410000134400969200047614000000138000107126005041676000018460011652300422552900001495001260190036003610000114000137024004900576000016800014752500562562500001875001569235047615522500162150合計10363515071858835675002441450計算例子中的相關(guān)系數(shù) r三、相關(guān)系數(shù)的假設(shè)檢驗 例子中所求得的 r = 0.7194是一個由樣本數(shù)據(jù)計算出的統(tǒng)計指標(biāo), 必然有抽樣誤差。在=0的總體

6、里是否有可能遇到 r = 0.7194 的樣本呢?即能否用抽樣誤差來解釋 r = 0.7194呢?統(tǒng)計推斷-假設(shè)檢驗!相關(guān)系數(shù)的假設(shè)檢驗基本思想假設(shè)在一個X與Y無關(guān)總體中做隨機抽樣,由于抽樣誤差影響,所得的樣本相關(guān)系數(shù)也常常不等于0。因此要判斷兩個變量X與Y是否真的存在相關(guān)關(guān)系,仍需根據(jù)r做總體相關(guān)系數(shù)=0的假設(shè)檢驗。 前提:在假設(shè)X和Y服從二元正態(tài)分布的前提下進行。三、相關(guān)系數(shù)的假設(shè)檢驗假設(shè)檢驗: H0 : = 0, H1: 0決策:若P=0.05,拒絕零假設(shè),認(rèn)為兩個變量間的相關(guān)性具有統(tǒng)計學(xué)意義;反之,不能決絕零假設(shè)。方法一:直接查相關(guān)系數(shù)臨界值表,自由度是n-2方法二:采用自由度是n-2

7、 的t檢驗前提:在假設(shè)X和Y服從二元正態(tài)分布的前提下進行。三、相關(guān)系數(shù)的假設(shè)檢驗假設(shè)檢驗: H0 : = 0, H1: 0決策:若P r0.05(13), 故 0.05,拒絕H0 結(jié)論:可認(rèn)為在 0的總體中抽取的樣本,r = 0.7194的可能性小于5%。因此,拒絕H0 。即可認(rèn)為胸圍與肺活量間存在線性相關(guān)關(guān)系。方法一: 查“相關(guān)系數(shù)界值表”方法二: t檢驗(實際應(yīng)用更普遍)Sr為樣本相關(guān)系數(shù)r的標(biāo)準(zhǔn)誤當(dāng)H0成立時,統(tǒng)計量 服從于自由度為n-2的t分布并比較|tr|與臨界值的大小相關(guān)系數(shù)的可信區(qū)間 統(tǒng)計推斷包括假設(shè)檢驗和區(qū)間估計,前面已學(xué)過相關(guān)系數(shù)的假設(shè)檢驗,假設(shè)檢驗只是回答了總體相關(guān)系數(shù) 是

8、否存在的問題,如果想知道的 大致范圍,就需要計算的 可信區(qū)間。 由于r呈非正態(tài)分布,故不能直接用r求可信區(qū)間,而是首先對r作Z轉(zhuǎn)換,以消除這種偏態(tài) 轉(zhuǎn)換后的Z統(tǒng)計量服從方差為 的正態(tài)分布,用下式計算Z統(tǒng)計量總體均數(shù)的100(1- )%可信區(qū)間。當(dāng) 時,即為95%可信區(qū)間。最后,對此區(qū)間的上下限作反變換,課本204例12-1 測得某地15名正常成年人血鉛X(mmol/L)和24小時尿鉛Y(mmol/L)如表12-1,試分析血鉛與24小時尿鉛之間是否直線相關(guān)?編號XYXYX2Y210.110.140.01540.01210.019620.250.250.06250.06250.062530.230

9、.280.06440.05290.078440.240.250.06000.05760.062550.260.280.07280.06760.078460.090.100.00900.00810.010070.250.270.06750.06250.072980.060.090.00540.00360.008190.230.240.05520.05290.0576100.330.300.09900.10890.0900110.150.160.02400.02250.0256120.040.050.00200.00160.0025130.200.200.04000.04000.0400140.3

10、40.320.10880.11560.1024150.220.240.05280.04840.0576合計3.003.170.73880.71680.7681表12-1 15例志愿者的血鉛和24小時尿鉛測量值例12-1 算得r=0.9787,試估計總體相關(guān)系數(shù)95%的可信區(qū)間。線性相關(guān)分析注意事項1、散點圖輔助我們直觀的審視數(shù)據(jù)有無線性趨勢2、兩變量皆隨機變量,服從二元正態(tài)分布3、其它種類的相關(guān)不能由線性相關(guān)系數(shù)準(zhǔn)確的測量出來,一個接近于0的線性相關(guān)系數(shù)并不意味著這兩個變量間無相關(guān),只能說明無線性相關(guān) 下面圖中顯示的是兩個變量細(xì)菌生長率和溫度的關(guān)系。計算可得這兩個變量間的相關(guān)系數(shù)是 0.21,

11、 p = 0.521,但是從圖中我們可以看出無線性關(guān)系,呈現(xiàn)的是二次關(guān)系4. 相關(guān)關(guān)系與因果關(guān)系不等同僅憑2個變量間存在具有統(tǒng)計意義的正相關(guān)或負(fù)相關(guān)不能得出這兩個變量間存在因果關(guān)系,即,X的增長導(dǎo)致了y上的增長或減小 故事 1 兒子與樹 12年后, 相關(guān)系數(shù)結(jié)論: 樹使兒子快速生長, 或兒子使樹快速生長?!故事 2 游泳與冰淇淋相關(guān)系數(shù)結(jié)論: 游泳者喜歡冰淇淋, 或 買冰淇淋者喜歡游泳?!1) 不要把任意兩個變量放在一起算相關(guān)系數(shù) - 在專業(yè)上, 兩者必須可能存在聯(lián)系2) 簡單相關(guān) = 直接聯(lián)系 + 間接聯(lián)系 簡單相關(guān)不一定意味著直接聯(lián)系 兒子樹?時間游泳人數(shù)買冰淇淋 人數(shù)? 氣溫5. 分層資

12、料盲目合并易出現(xiàn)假象,異常值存在時慎用相關(guān)見圖P200 115有異常值存在的情況不相關(guān)的兩個樣本合并為正相關(guān)正相關(guān)的兩個樣本合并為不相關(guān)正相關(guān)的兩個樣本合并為負(fù)相關(guān)第二節(jié) Spearman相關(guān)適用資料: 不服從雙變量正態(tài)分布 總體分布類型未知 原始數(shù)據(jù)用等級表示等級相關(guān)系數(shù) rs(即Spearman Correlation Coefficient)反映兩變量間相關(guān)的密切程度與方向 。將各變量X,Y分別編秩p,q ;計算 p與 q的Pearson相關(guān);所得結(jié)果即為Spearman秩相關(guān)rs 。rs的統(tǒng)計學(xué)意義同r。當(dāng)n50時,查“rs界值表”。當(dāng)n50時,用 t 檢驗。例3 某研究者對15例30

13、-50歲成年男子的舒張壓與夜間最低血氧含量分級進行研究,結(jié)果見表3,試分析兩者的關(guān)聯(lián)性編號(1)舒張壓X(2)秩次pi(3)夜間最低血氧含量分級Y(4)秩次qi (5)1751122802.5123802.525.54905.5125905.525.56905.525.57905.539.58958.525.59958.539.51010010.539.51110010.539.51211012413.51311513413.51412014413.51512515413.5合計-120-120秩相關(guān)的假設(shè)檢驗當(dāng)n50時,查“rs界值表”。當(dāng)n50時,用 t 檢驗。對例3 的秩相關(guān)系數(shù)作假設(shè)檢

14、驗(1)建立檢驗假設(shè),確定檢驗水準(zhǔn)H0:s=0,即舒張壓與夜間最低血氧含量的分級無相關(guān)關(guān)系H1:s 0,即舒張壓與夜間最低血氧含量的分級有相關(guān)關(guān)系= 0.05(2)計算檢驗統(tǒng)計量 rs=0.897(3)確定P值,做出統(tǒng)計推斷本例n=1550,查等級相關(guān)系數(shù)界值表,得rsr15,0.001=0.779,Pr0.05( n-2)時,可認(rèn)為兩變量X與Y間( )A有一定關(guān)系 B. 有正相關(guān)關(guān)系C一定有直線關(guān)系 D. 有直線關(guān)系答案: 練習(xí)題:相關(guān)系數(shù)檢驗的無效假設(shè)H0是( )A=0 B. 0C0 D. 0: 回歸線與縱軸交點在原點上方。a 0: 回歸線與縱軸交點在原點下方。a =0: 回歸線通過原點。

15、統(tǒng)計學(xué)意義a 表示自變量X取值為0時相應(yīng)Y總體均數(shù)的估計值。 a的單位與Y值相同 當(dāng)X可能取0時,a才有實際意義。xY回歸系數(shù)b的統(tǒng)計學(xué)意義b表示自變量X變化一個單位時應(yīng)變量Y的平均改變量。1-7歲兒童以年齡(歲)估計體重(kg)的回歸方程:糖尿病患者以胰島素水平(mU/L)估計血糖水平(mmol/L)的回歸方程:直線回歸方程的求解:最小二乘原理YX 最小二乘原則:觀測點與所配直線縱向距離的平方和最小 最小二乘估計殘差(residual)或剩余值,即實測值Y與假定回歸線上的估計值 的縱向距離 。 求解a、b實際上就是“合理地”找到一條能最好地代表數(shù)據(jù)點分布趨勢的直線。原則:最小二乘法(leas

16、t sum of squares),即可保證各實測點至直線的縱向距離的平方和最小 回歸系數(shù)及其計算找一條直線使殘差平方和最小 利用微積分知識,容易得到 這條線一定過兩個點 和例1 根據(jù)表1數(shù)據(jù),對大白鼠的體重增加量進行回歸分析。 表1 12只大白鼠的進食量(g)與體重增加量(g)測量結(jié)果 散點圖解題步驟a 此直線必然通過點( , )且與縱坐標(biāo)軸相交于截距 。如果散點圖沒有從坐標(biāo)系原點開始,可在自變量實測范圍內(nèi)遠(yuǎn)端取易于讀數(shù)的 值代入回歸方程得到一個點的坐標(biāo),連接此點與點( , )也可繪出回歸直線。 線性回歸分析的前提條件線性(linear)反應(yīng)變量Y與自變量X呈線性變化趨勢獨立(indepen

17、dent)任意兩個觀察值相互獨立,一個個體的取值不受其他個體的影響給定X時,Y正態(tài)分布(normal)給定X取值時,Y的取值服從正態(tài)分布等方差(equal variance)指對應(yīng)于不同的X值,Y值的總體變異相同直線回歸應(yīng)用條件LINE示意圖給定X時,Y是正態(tài)分布、不等方差示意圖回歸方程有統(tǒng)計學(xué)意義嗎 建立樣本直線回歸方程,只是完成了統(tǒng)計分析中兩變量關(guān)系的統(tǒng)計描述,這種關(guān)系是否有統(tǒng)計學(xué)意義,還需要進一步進行假設(shè)檢驗。檢驗回歸模型是否成立:方差分析檢驗總體回歸系數(shù)是否為零:t檢驗總變異的分解數(shù)理統(tǒng)計可證明:上式用符號表示為 式中 上述三個平方和,各有其相應(yīng)的自由度 ,并有如下的關(guān)系: 如果兩變量間總體回歸關(guān)系確實存在,回歸的貢獻就要大于隨機誤差,大到何種程度時可以認(rèn)為具有統(tǒng)計

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論