




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第九章第九章 回歸與相關(guān)回歸與相關(guān)n變量間關(guān)系問(wèn)題:年齡變量間關(guān)系問(wèn)題:年齡身高、肺活量身高、肺活量體重、藥物劑體重、藥物劑量與動(dòng)物死亡率等。量與動(dòng)物死亡率等。n關(guān)系的表現(xiàn)形式關(guān)系的表現(xiàn)形式n確定性形式確定性形式又稱(chēng)為函數(shù)關(guān)系、因果關(guān)系。又稱(chēng)為函數(shù)關(guān)系、因果關(guān)系。 如如S=r2n不確定性形式不確定性形式又稱(chēng)為隨機(jī)形式、伴隨關(guān)系。如年齡與血又稱(chēng)為隨機(jī)形式、伴隨關(guān)系。如年齡與血壓,相同年齡血壓不一定相同。壓,相同年齡血壓不一定相同。 在醫(yī)學(xué)研究中常需分析變量間的關(guān)系,如血壓與年齡,胰島素與在醫(yī)學(xué)研究中常需分析變量間的關(guān)系,如血壓與年齡,胰島素與血糖水平,肺活量與體重?;貧w(血糖水平,肺活量與體重。
2、回歸(regression)與相關(guān)()與相關(guān)(correlation)是研究?jī)蓚€(gè)或多個(gè)隨機(jī)變量之間相互關(guān)系的一種重要的統(tǒng)計(jì)分析方法,是研究?jī)蓚€(gè)或多個(gè)隨機(jī)變量之間相互關(guān)系的一種重要的統(tǒng)計(jì)分析方法,應(yīng)用較廣。應(yīng)用較廣。 回歸是研究隨機(jī)變量之間的數(shù)量依存關(guān)系,相關(guān)是研究隨機(jī)變量回歸是研究隨機(jī)變量之間的數(shù)量依存關(guān)系,相關(guān)是研究隨機(jī)變量間相互聯(lián)系的密切程度和方向。間相互聯(lián)系的密切程度和方向。 本章介紹一種最簡(jiǎn)單的情形,即只涉及兩個(gè)變量,記為本章介紹一種最簡(jiǎn)單的情形,即只涉及兩個(gè)變量,記為X和和Y,而,而且它們之間呈直線(xiàn)關(guān)系。首先討論直線(xiàn)回歸分析方法,然后討論直線(xiàn)且它們之間呈直線(xiàn)關(guān)系。首先討論直線(xiàn)回歸分析
3、方法,然后討論直線(xiàn)相關(guān)分析方法。相關(guān)分析方法。 第一節(jié)第一節(jié) 直線(xiàn)回歸直線(xiàn)回歸 一、直線(xiàn)回歸方程一、直線(xiàn)回歸方程 例例14-l 為了解年齡與總膽固醇之間的數(shù)量關(guān)系,隨機(jī)抽查了為了解年齡與總膽固醇之間的數(shù)量關(guān)系,隨機(jī)抽查了20名高血脂病人治療前的總膽固醇水平(名高血脂病人治療前的總膽固醇水平(mmol/L)與年齡,測(cè)定值)與年齡,測(cè)定值見(jiàn)表見(jiàn)表14-1。試以膽固醇為應(yīng)變量。試以膽固醇為應(yīng)變量Y,年齡為自變量,年齡為自變量X建立直線(xiàn)回歸建立直線(xiàn)回歸方程。方程。 X:自變量(:自變量( independent variable),又稱(chēng)解釋變量),又稱(chēng)解釋變量 只有只有1個(gè)自變量個(gè)自變量簡(jiǎn)單回歸簡(jiǎn)單回
4、歸 多個(gè)自變量多個(gè)自變量多元回歸多元回歸 Y:應(yīng)變量(:應(yīng)變量(dependent variable ),又稱(chēng)反應(yīng)變量),又稱(chēng)反應(yīng)變量 以以20名高血脂病人治療前的膽固醇與年齡作散點(diǎn)圖名高血脂病人治療前的膽固醇與年齡作散點(diǎn)圖14-1,在描,在描述膽固醇與年齡的數(shù)量關(guān)系時(shí),專(zhuān)業(yè)上將年齡作為自變量,用述膽固醇與年齡的數(shù)量關(guān)系時(shí),專(zhuān)業(yè)上將年齡作為自變量,用X表表示,膽固醇為應(yīng)變量,用示,膽固醇為應(yīng)變量,用Y表示。表示。 由圖由圖14-1可見(jiàn),膽固醇可見(jiàn),膽固醇Y有隨年齡有隨年齡X增加而增加的趨勢(shì),且散點(diǎn)增加而增加的趨勢(shì),且散點(diǎn)呈直線(xiàn)趨勢(shì),但并非所有點(diǎn)子都在一條直線(xiàn)上,這與兩變量間嚴(yán)呈直線(xiàn)趨勢(shì),但并非
5、所有點(diǎn)子都在一條直線(xiàn)上,這與兩變量間嚴(yán)格對(duì)應(yīng)的函數(shù)關(guān)系不同,稱(chēng)為直線(xiàn)回歸。直線(xiàn)回歸分析仍是用直格對(duì)應(yīng)的函數(shù)關(guān)系不同,稱(chēng)為直線(xiàn)回歸。直線(xiàn)回歸分析仍是用直線(xiàn)方程來(lái)描述兩變量間的直線(xiàn)關(guān)系。由自變量線(xiàn)方程來(lái)描述兩變量間的直線(xiàn)關(guān)系。由自變量X推算應(yīng)變量推算應(yīng)變量Y的直的直線(xiàn)回歸方程為線(xiàn)回歸方程為(14 1)YabX直線(xiàn)回歸方程一般表達(dá)式: a:截距:截距(intercept),直線(xiàn)與,直線(xiàn)與Y軸交點(diǎn)的縱坐標(biāo)。軸交點(diǎn)的縱坐標(biāo)。b:斜率:斜率(slope),回歸系數(shù),回歸系數(shù)(regression coefficient)。 意義:意義:X每改變一個(gè)單位,每改變一個(gè)單位,Y平均改變平均改變b個(gè)單位。個(gè)單位。
6、 b0,Y隨隨X的的增大增大而而增大(減少而減少)增大(減少而減少) 斜上斜上; b t0.05/2(18),故有,故有P0.05。按。按0.05水準(zhǔn)拒絕水準(zhǔn)拒絕無(wú)效假設(shè),故可以認(rèn)為回歸系數(shù)具有統(tǒng)計(jì)學(xué)意義,即總體無(wú)效假設(shè),故可以認(rèn)為回歸系數(shù)具有統(tǒng)計(jì)學(xué)意義,即總體回歸系數(shù)回歸系數(shù)0。以上兩種檢驗(yàn)結(jié)果一致,均表明血中膽固醇水平與年齡之以上兩種檢驗(yàn)結(jié)果一致,均表明血中膽固醇水平與年齡之間具有直線(xiàn)關(guān)系。間具有直線(xiàn)關(guān)系。 1.37950.02073216.950bS 四、直線(xiàn)回歸方程的應(yīng)用四、直線(xiàn)回歸方程的應(yīng)用1.統(tǒng)計(jì)預(yù)測(cè)統(tǒng)計(jì)預(yù)測(cè)是指當(dāng)自變量是指當(dāng)自變量X為某一定值時(shí),應(yīng)變量為某一定值時(shí),應(yīng)變量Y的取的
7、取值。值。2.統(tǒng)計(jì)控制統(tǒng)計(jì)控制 是指當(dāng)要求應(yīng)變量是指當(dāng)要求應(yīng)變量Y在一定范圍內(nèi)波動(dòng)時(shí),在一定范圍內(nèi)波動(dòng)時(shí),如何控制自變量如何控制自變量X的取值。的取值。 例如,為使一名糖尿病人的血糖維持在正常范圍例如,為使一名糖尿病人的血糖維持在正常范圍(4.446.66mmol/L),如何控制血中胰島素水平?這),如何控制血中胰島素水平?這可以通過(guò)對(duì)回歸方程的逆運(yùn)算來(lái)實(shí)現(xiàn)。例如資料已建立了可以通過(guò)對(duì)回歸方程的逆運(yùn)算來(lái)實(shí)現(xiàn)。例如資料已建立了由胰島素估計(jì)血糖平均水平的直線(xiàn)回歸方程,問(wèn):欲將血由胰島素估計(jì)血糖平均水平的直線(xiàn)回歸方程,問(wèn):欲將血糖水平控制在正常范圍的上界即糖水平控制在正常范圍的上界即6.66mmol
8、/L以?xún)?nèi)時(shí),血以?xún)?nèi)時(shí),血中胰島素應(yīng)維持在什么水平上?中胰島素應(yīng)維持在什么水平上?已知回歸方程為:已知回歸方程為:,取,取0.05,本例是求當(dāng)個(gè)體本例是求當(dāng)個(gè)體Y值取值取6.66mmol/L時(shí)的時(shí)的X值,故取值,故取t界界值表的單側(cè)值表的單側(cè)t 0.05(18)1.734,所得方程為,所得方程為 解得解得X32.64(mU/L),即如欲將一名病人的血糖),即如欲將一名病人的血糖控制在控制在6.66mmol/L以?xún)?nèi),胰島素可維持在以?xún)?nèi),胰島素可維持在32.64(mU/L)以上。)以上。18.79570.4585,20,1.6324YYX nS0.05(18)6.66(18.7957 0.4585
9、) 1.734 1.6324 21.6262 0.4585YY tSXX 直線(xiàn)回歸的注意事項(xiàng)n回歸分析要有實(shí)際意義回歸分析要有實(shí)際意義 只有將兩個(gè)具有內(nèi)在只有將兩個(gè)具有內(nèi)在聯(lián)系的變量放在一起進(jìn)行回歸分析才是有意義聯(lián)系的變量放在一起進(jìn)行回歸分析才是有意義的。的。n因變量是隨機(jī)變量,自變量可以是隨機(jī)變量因變量是隨機(jī)變量,自變量可以是隨機(jī)變量(型回歸),也可以是給定的變量(型回歸),也可以是給定的變量(型回型回歸)。歸)。n回歸方程建立后要進(jìn)行假設(shè)檢驗(yàn)?;貧w方程建立后要進(jìn)行假設(shè)檢驗(yàn)。nX的取值以自變量的取值范圍為限。的取值以自變量的取值范圍為限。 第二節(jié)第二節(jié) 直線(xiàn)相關(guān)直線(xiàn)相關(guān) 欲了解兩個(gè)隨機(jī)變量欲
10、了解兩個(gè)隨機(jī)變量X與與Y之間相關(guān)關(guān)系及其之間相關(guān)關(guān)系及其密切程度,可用直線(xiàn)相關(guān)分析方法。直線(xiàn)相關(guān)密切程度,可用直線(xiàn)相關(guān)分析方法。直線(xiàn)相關(guān)(linear regression)又稱(chēng)簡(jiǎn)單相關(guān),此方法適)又稱(chēng)簡(jiǎn)單相關(guān),此方法適用于用于X和和Y都服從正態(tài)分布的資料。都服從正態(tài)分布的資料。 一、相關(guān)系數(shù)一、相關(guān)系數(shù)兩變量之間的相互關(guān)聯(lián)情況用相關(guān)系數(shù)兩變量之間的相互關(guān)聯(lián)情況用相關(guān)系數(shù)r(correlation coefficient)表示。)表示。r的計(jì)算公式為:的計(jì)算公式為:按式(按式(14-15)計(jì)算的相關(guān)系數(shù))計(jì)算的相關(guān)系數(shù)r又稱(chēng)又稱(chēng)Pearson相關(guān)系數(shù)相關(guān)系數(shù)(Pearson correlati
11、on coefficient)或積差相關(guān)系數(shù))或積差相關(guān)系數(shù)(product moment correlation coefficient)。)。 22()()(14 15)()()iiXYXX YYiiXX YYlrllXXYY r的取值范圍為的取值范圍為r1。當(dāng)。當(dāng)r為負(fù)值時(shí),表示當(dāng)一個(gè)為負(fù)值時(shí),表示當(dāng)一個(gè)變量的取值增大時(shí),另一個(gè)變量的取值減小,即呈相變量的取值增大時(shí),另一個(gè)變量的取值減小,即呈相反的變化方向,稱(chēng)為負(fù)相關(guān);當(dāng)反的變化方向,稱(chēng)為負(fù)相關(guān);當(dāng)r為正值時(shí),表示兩為正值時(shí),表示兩個(gè)變量的變化方向一致,稱(chēng)為正相關(guān)。個(gè)變量的變化方向一致,稱(chēng)為正相關(guān)。 |r|=1 完全相關(guān)完全相關(guān) |r|
12、=0 零相關(guān)零相關(guān) r的絕對(duì)值大小表示兩變量之間直線(xiàn)聯(lián)系的密切程度。的絕對(duì)值大小表示兩變量之間直線(xiàn)聯(lián)系的密切程度。所以相關(guān)系數(shù)所以相關(guān)系數(shù)r是表示兩個(gè)隨機(jī)變量之間呈直線(xiàn)相關(guān)是表示兩個(gè)隨機(jī)變量之間呈直線(xiàn)相關(guān)的強(qiáng)度和方向的統(tǒng)計(jì)量。的強(qiáng)度和方向的統(tǒng)計(jì)量。圖144 相關(guān)系數(shù)示意圖 散點(diǎn)呈橢圓形分布,稱(chēng)為散點(diǎn)呈橢圓形分布,稱(chēng)為部分相關(guān)部分相關(guān)X X、Y Y 同時(shí)增減同時(shí)增減-正相關(guān)正相關(guān)(positive correlation)positive correlation); X X、Y Y 此增彼減此增彼減-負(fù)相關(guān)負(fù)相關(guān)(negative correlation) (negative correlati
13、on) 。 散點(diǎn)在一條直線(xiàn)上,散點(diǎn)在一條直線(xiàn)上, X X、Y Y 變化趨勢(shì)相同變化趨勢(shì)相同-完全正相關(guān)完全正相關(guān); ;反向變化反向變化-完全負(fù)相關(guān)完全負(fù)相關(guān)。圖145 相關(guān)系數(shù)示意圖 X X、Y Y 變化互不影響變化互不影響-零相關(guān)零相關(guān)(zero correlation)(zero correlation) 當(dāng)當(dāng)r r0 0時(shí),觀察點(diǎn)的分布時(shí),觀察點(diǎn)的分布或?yàn)樗?,或?yàn)榇怪保驗(yàn)榛驗(yàn)樗?,或?yàn)榇怪?,或?yàn)檎龍A形,為完全無(wú)關(guān)或無(wú)線(xiàn)正圓形,為完全無(wú)關(guān)或無(wú)線(xiàn)性相關(guān)。性相關(guān)。 當(dāng)當(dāng)X X與與Y Y之間呈曲線(xiàn)關(guān)系時(shí),之間呈曲線(xiàn)關(guān)系時(shí),直線(xiàn)相關(guān)系數(shù)直線(xiàn)相關(guān)系數(shù)r r仍接近于仍接近于0 0,所以不宜用直線(xiàn)相
14、關(guān)系數(shù)來(lái)所以不宜用直線(xiàn)相關(guān)系數(shù)來(lái)描述曲線(xiàn)關(guān)系。描述曲線(xiàn)關(guān)系。二、相關(guān)系數(shù)的計(jì)算二、相關(guān)系數(shù)的計(jì)算 現(xiàn)仍用例現(xiàn)仍用例14-1膽固醇與年齡的資料說(shuō)明直線(xiàn)相關(guān)分膽固醇與年齡的資料說(shuō)明直線(xiàn)相關(guān)分析的步驟。析的步驟。 1.繪制散點(diǎn)圖觀察兩變量間是否呈直線(xiàn)趨勢(shì)繪制散點(diǎn)圖觀察兩變量間是否呈直線(xiàn)趨勢(shì) 從圖從圖14-1中可見(jiàn),膽固醇與年齡之間有直線(xiàn)趨勢(shì),且這種中可見(jiàn),膽固醇與年齡之間有直線(xiàn)趨勢(shì),且這種趨勢(shì)的方向相同。趨勢(shì)的方向相同。 2計(jì)算相關(guān)系數(shù)計(jì)算相關(guān)系數(shù) 當(dāng)初步判定兩變量之間存在直線(xiàn)趨勢(shì)當(dāng)初步判定兩變量之間存在直線(xiàn)趨勢(shì)之后,用式(之后,用式(14-15)計(jì)算相關(guān)系數(shù))計(jì)算相關(guān)系數(shù)r。對(duì)例。對(duì)例14-1,已
15、經(jīng)在,已經(jīng)在回歸分析中得到了所需數(shù)據(jù):回歸分析中得到了所需數(shù)據(jù):lXX3216.950,lXY453.7385,lYY88.8081,代入式(,代入式(14-15)中得相關(guān)系)中得相關(guān)系數(shù)數(shù)r為:為: 從這一個(gè)樣本計(jì)算出的從這一個(gè)樣本計(jì)算出的r0.849來(lái)看,顯示膽固醇與來(lái)看,顯示膽固醇與年齡之間呈較強(qiáng)的正相關(guān)。但還需進(jìn)行假設(shè)檢驗(yàn)以確定其年齡之間呈較強(qiáng)的正相關(guān)。但還需進(jìn)行假設(shè)檢驗(yàn)以確定其是否具有統(tǒng)計(jì)學(xué)意義。是否具有統(tǒng)計(jì)學(xué)意義。453.73850.8493216.950 88.8081r 三、相關(guān)系數(shù)的假設(shè)檢驗(yàn)三、相關(guān)系數(shù)的假設(shè)檢驗(yàn)根據(jù)樣本資料計(jì)算出的相關(guān)系數(shù)是一個(gè)樣本統(tǒng)計(jì)量,存根據(jù)樣本資料計(jì)算
16、出的相關(guān)系數(shù)是一個(gè)樣本統(tǒng)計(jì)量,存在抽樣誤差。因此必須對(duì)在抽樣誤差。因此必須對(duì)r進(jìn)行檢驗(yàn),以判斷其是否來(lái)自進(jìn)行檢驗(yàn),以判斷其是否來(lái)自總體相關(guān)系數(shù)總體相關(guān)系數(shù)0的一個(gè)樣本。檢驗(yàn)統(tǒng)計(jì)量的一個(gè)樣本。檢驗(yàn)統(tǒng)計(jì)量 t的計(jì)算公式的計(jì)算公式如下:如下: 求得求得t值后查值后查t界值表,按所取的檢驗(yàn)水準(zhǔn)作出推斷結(jié)論。界值表,按所取的檢驗(yàn)水準(zhǔn)作出推斷結(jié)論。亦可按亦可按vn-2查查r界值表,得界值表,得P值,以節(jié)省時(shí)間。值,以節(jié)省時(shí)間。 20,2(14 16)(1)/(2)rtvnrn例例14-6 就上述所求得的相關(guān)系數(shù),檢驗(yàn)?zāi)懝檀寂c年齡之間是否就上述所求得的相關(guān)系數(shù),檢驗(yàn)?zāi)懝檀寂c年齡之間是否有直線(xiàn)關(guān)系。有直線(xiàn)關(guān)系
17、。 檢驗(yàn)步驟為檢驗(yàn)步驟為 (1)建立檢驗(yàn)假設(shè)并確定檢驗(yàn)水準(zhǔn))建立檢驗(yàn)假設(shè)并確定檢驗(yàn)水準(zhǔn) H0:0,即膽固醇與年齡間無(wú)直線(xiàn)關(guān)系,即膽固醇與年齡間無(wú)直線(xiàn)關(guān)系 H1:0,即膽固醇與年齡間有直線(xiàn)關(guān)系,即膽固醇與年齡間有直線(xiàn)關(guān)系0.05 (2)計(jì)算檢驗(yàn)統(tǒng)計(jì)量)計(jì)算檢驗(yàn)統(tǒng)計(jì)量用式(用式(14-16)對(duì)膽固醇和年齡之間的直線(xiàn)相關(guān)系數(shù))對(duì)膽固醇和年齡之間的直線(xiàn)相關(guān)系數(shù)r0.849進(jìn)行進(jìn)行假設(shè)檢驗(yàn)的結(jié)果如下:假設(shè)檢驗(yàn)的結(jié)果如下: 20.84906.817(1 0.849 )/(202)t(3)確定)確定P值下結(jié)論值下結(jié)論 查附表(查附表(t界值表),得界值表),得t0.05/2(18)2.101,故,故 P0.
18、05。按按0.05水準(zhǔn),拒絕水準(zhǔn),拒絕H0,接受,接受H1故可以認(rèn)為膽固醇與年故可以認(rèn)為膽固醇與年齡之間呈正的直線(xiàn)相關(guān)關(guān)系。齡之間呈正的直線(xiàn)相關(guān)關(guān)系。 對(duì)回歸系數(shù)對(duì)回歸系數(shù)b的假設(shè)檢驗(yàn)等價(jià)于對(duì)相關(guān)系數(shù)的假設(shè)檢驗(yàn)等價(jià)于對(duì)相關(guān)系數(shù)r的假設(shè)檢的假設(shè)檢驗(yàn),讀者可以核對(duì)兩種檢驗(yàn)方法所得到的驗(yàn),讀者可以核對(duì)兩種檢驗(yàn)方法所得到的t值均為值均為6.817。所以當(dāng)對(duì)所以當(dāng)對(duì)b作了假設(shè)檢驗(yàn)之后就不必再對(duì)作了假設(shè)檢驗(yàn)之后就不必再對(duì)r作假設(shè)檢驗(yàn)。作假設(shè)檢驗(yàn)。 相關(guān)分析的任務(wù)就是對(duì)相關(guān)程度給以定量的描述。存在相關(guān)分析的任務(wù)就是對(duì)相關(guān)程度給以定量的描述。存在相關(guān)關(guān)系并不一定表示一個(gè)變量的改變是另一個(gè)變量變化相關(guān)關(guān)系并不一
19、定表示一個(gè)變量的改變是另一個(gè)變量變化的原因,有可能同受另一個(gè)因素的影響。的原因,有可能同受另一個(gè)因素的影響。 四、應(yīng)用相關(guān)系數(shù)時(shí)應(yīng)注意的問(wèn)題四、應(yīng)用相關(guān)系數(shù)時(shí)應(yīng)注意的問(wèn)題 1相關(guān)關(guān)系不等于因果關(guān)系。兩變量之間相關(guān)系數(shù)有統(tǒng)計(jì)相關(guān)關(guān)系不等于因果關(guān)系。兩變量之間相關(guān)系數(shù)有統(tǒng)計(jì)學(xué)意義,只是從統(tǒng)計(jì)學(xué)上反映出它們之間的變化存在某種學(xué)意義,只是從統(tǒng)計(jì)學(xué)上反映出它們之間的變化存在某種規(guī)律性,不能直接把這種相關(guān)性解釋為因果關(guān)系。有無(wú)因規(guī)律性,不能直接把這種相關(guān)性解釋為因果關(guān)系。有無(wú)因果關(guān)系的結(jié)論還須從專(zhuān)業(yè)角度作進(jìn)一步的研究。果關(guān)系的結(jié)論還須從專(zhuān)業(yè)角度作進(jìn)一步的研究。 2當(dāng)觀察例數(shù)較少,例如當(dāng)觀察例數(shù)較少,例如n
20、15時(shí),相關(guān)系數(shù)容易受個(gè)別時(shí),相關(guān)系數(shù)容易受個(gè)別觀察對(duì)象的特殊值所影響,故不夠穩(wěn)定。觀察對(duì)象的特殊值所影響,故不夠穩(wěn)定。 3在實(shí)際工作中,應(yīng)區(qū)別相關(guān)有統(tǒng)計(jì)學(xué)意義與相關(guān)強(qiáng)度。在實(shí)際工作中,應(yīng)區(qū)別相關(guān)有統(tǒng)計(jì)學(xué)意義與相關(guān)強(qiáng)度。相關(guān)具有統(tǒng)計(jì)學(xué)意義指該樣本相關(guān)系數(shù)相關(guān)具有統(tǒng)計(jì)學(xué)意義指該樣本相關(guān)系數(shù)r來(lái)自相關(guān)系數(shù)來(lái)自相關(guān)系數(shù)=0的總體的概率很小。而相關(guān)強(qiáng)度表示兩變量間相互聯(lián)系的的總體的概率很小。而相關(guān)強(qiáng)度表示兩變量間相互聯(lián)系的密切程度,其大小是用密切程度,其大小是用r的絕對(duì)值來(lái)反映的。的絕對(duì)值來(lái)反映的。 4.分析兩個(gè)變量間有無(wú)相關(guān)關(guān)系,要先繪制散點(diǎn)分析兩個(gè)變量間有無(wú)相關(guān)關(guān)系,要先繪制散點(diǎn)圖。當(dāng)散點(diǎn)圖呈直線(xiàn)
21、趨勢(shì),再做分析。圖。當(dāng)散點(diǎn)圖呈直線(xiàn)趨勢(shì),再做分析。5.資料要求服從雙變量正態(tài)分布。資料要求服從雙變量正態(tài)分布。6.要判斷兩個(gè)事物間是否存在相關(guān)關(guān)系,需要做要判斷兩個(gè)事物間是否存在相關(guān)關(guān)系,需要做假設(shè)檢驗(yàn)。假設(shè)檢驗(yàn)。 五、直線(xiàn)相關(guān)與回歸的區(qū)別與聯(lián)系五、直線(xiàn)相關(guān)與回歸的區(qū)別與聯(lián)系 相關(guān)與回歸都是用來(lái)研究變量之間的相互關(guān)系的,兩者相關(guān)與回歸都是用來(lái)研究變量之間的相互關(guān)系的,兩者既有聯(lián)系又有區(qū)別。既有聯(lián)系又有區(qū)別。 1區(qū)別區(qū)別 (1)資料要求不同,回歸要求應(yīng)變量)資料要求不同,回歸要求應(yīng)變量Y是隨機(jī)變量,服從是隨機(jī)變量,服從正態(tài)分布,自變量可以是非隨機(jī)變量(正態(tài)分布,自變量可以是非隨機(jī)變量(型回歸模型
22、)型回歸模型)也可以是隨機(jī)變量(也可以是隨機(jī)變量( 型回歸模型)。相關(guān)要求型回歸模型)。相關(guān)要求X與與Y都是隨機(jī)變量,服從雙變量正態(tài)分布。都是隨機(jī)變量,服從雙變量正態(tài)分布。 對(duì)于對(duì)于型回歸模型,可計(jì)算兩個(gè)回歸方程:型回歸模型,可計(jì)算兩個(gè)回歸方程: 由由 X推推 Y的回歸方程的回歸方程 由由 Y推推 X的回歸方程的回歸方程 (2)在意義和應(yīng)用不同,回歸反映兩變量間的依)在意義和應(yīng)用不同,回歸反映兩變量間的依存關(guān)系,是單向的;相關(guān)則反映兩變量間關(guān)系存關(guān)系,是單向的;相關(guān)則反映兩變量間關(guān)系的大小和方向,是雙向的。的大小和方向,是雙向的。 (3) r無(wú)單位,無(wú)單位,b一般有單位一般有單位(4)r的取值
23、范圍為的取值范圍為-1,1,b的取值范圍無(wú)限制的取值范圍無(wú)限制.Y XY XYabX.X YX YXabY2聯(lián)系聯(lián)系(1)同一資料的)同一資料的r、b為符號(hào)相同,如為符號(hào)相同,如r為正,說(shuō)明為正,說(shuō)明X增大(或減?。?,增大(或減?。?,Y也增大(或減少);也增大(或減少);b為正,說(shuō)為正,說(shuō)明明X增加一個(gè)單位,增加一個(gè)單位,Y平均增加平均增加b個(gè)單位。個(gè)單位。(2)r和和b的假設(shè)檢驗(yàn)等價(jià):即對(duì)同一樣本,兩者的的假設(shè)檢驗(yàn)等價(jià):即對(duì)同一樣本,兩者的t值等價(jià)。由于值等價(jià)。由于r的假設(shè)檢驗(yàn)可直接查表,較為簡(jiǎn)單,的假設(shè)檢驗(yàn)可直接查表,較為簡(jiǎn)單,而而b的假設(shè)檢驗(yàn)較復(fù)雜,故可用的假設(shè)檢驗(yàn)較復(fù)雜,故可用r的假設(shè)
24、檢驗(yàn)代替的假設(shè)檢驗(yàn)代替b的的假設(shè)檢驗(yàn),假設(shè)檢驗(yàn), (3)r與與b可以相互換算:可以相互換算: (4)回歸與相關(guān)可以相互解釋?zhuān)┗貧w與相關(guān)可以相互解釋?zhuān)?r2SS回回SS總總(1417) 即相關(guān)系數(shù)的平方即相關(guān)系數(shù)的平方r2是應(yīng)變量是應(yīng)變量Y的總變異中歸因于的總變異中歸因于X的部分。的部分。 r2又稱(chēng)確定系數(shù)(又稱(chēng)確定系數(shù)(determinant coefficient)。當(dāng)遇到兩)。當(dāng)遇到兩變量之間的相關(guān)系數(shù)具有統(tǒng)計(jì)學(xué)意義,如變量之間的相關(guān)系數(shù)具有統(tǒng)計(jì)學(xué)意義,如r0.6,P0.01,則,則r2 0.36,即指應(yīng)變量的變異僅有,即指應(yīng)變量的變異僅有36可由可由X的的變異解釋?zhuān)硗膺€有變異解釋?zhuān)?/p>
25、外還有64的變異是由其它因素的變異所解的變異是由其它因素的變異所解釋。釋。YYXXllbr 第三節(jié)第三節(jié)Spearman秩相秩相 關(guān)關(guān) 上一節(jié)中介紹的積差相關(guān)系數(shù)適用于兩個(gè)變量(上一節(jié)中介紹的積差相關(guān)系數(shù)適用于兩個(gè)變量(X,Y)都服從正態(tài)分布的資料。但有時(shí)其中一個(gè)甚至兩)都服從正態(tài)分布的資料。但有時(shí)其中一個(gè)甚至兩個(gè)變量都不服從正態(tài)分布,例如按等級(jí)分類(lèi)或二項(xiàng)分個(gè)變量都不服從正態(tài)分布,例如按等級(jí)分類(lèi)或二項(xiàng)分類(lèi)資料,這時(shí)需用非參數(shù)相關(guān)分析方法。這里介紹常類(lèi)資料,這時(shí)需用非參數(shù)相關(guān)分析方法。這里介紹常用的秩相關(guān)分析方法用的秩相關(guān)分析方法Spearman秩相關(guān),這一方法是秩相關(guān),這一方法是Spearma
26、n提出的。提出的。 一、秩相關(guān)系數(shù)一、秩相關(guān)系數(shù) 秩相關(guān)系數(shù)(秩相關(guān)系數(shù)(rank correlation coefficient)又稱(chēng))又稱(chēng)等級(jí)相關(guān)系數(shù)。其基本思想是,對(duì)于不符合正態(tài)分布等級(jí)相關(guān)系數(shù)。其基本思想是,對(duì)于不符合正態(tài)分布的資料,不用原始數(shù)據(jù)計(jì)算相關(guān)系數(shù),而是將原始觀的資料,不用原始數(shù)據(jù)計(jì)算相關(guān)系數(shù),而是將原始觀察值由小到大編秩,然后根據(jù)秩次來(lái)計(jì)算秩相關(guān)系數(shù)。察值由小到大編秩,然后根據(jù)秩次來(lái)計(jì)算秩相關(guān)系數(shù)。 設(shè)有設(shè)有n例觀察對(duì)象,對(duì)每一例觀察對(duì)象同時(shí)取得兩個(gè)測(cè)例觀察對(duì)象,對(duì)每一例觀察對(duì)象同時(shí)取得兩個(gè)測(cè)定值(定值(Xi,Yi),分別按),分別按Xi、Yi(il,2,3,n)的值)的值
27、由小到大編秩為由小到大編秩為 1,2,3,n。用。用 RXi表示表示Xi的秩次,的秩次,RYi表示表示Yi的秩次。因?yàn)榈闹却巍R驗(yàn)?n是固定的,所以總秩相等即是固定的,所以總秩相等即 以及平均秩。但以及平均秩。但Xi的秩順序不一的秩順序不一定與定與Yi的秩順序相同,故所對(duì)應(yīng)的的秩順序相同,故所對(duì)應(yīng)的RXi與與RYi不一定相等。不一定相等。只要求出只要求出后就可按式(后就可按式(14-18)計(jì)算秩相關(guān)系數(shù)計(jì)算秩相關(guān)系數(shù)rs。 223(1)/2,()()()/12iiiiRXRYn nRXRXRYRYnn(1)/2RXRYn()()iiRXRXRYRY它與式(它與式(14-15)具有相同的形式,只
28、是用秩次代替了原始觀察值。)具有相同的形式,只是用秩次代替了原始觀察值。令同一觀察對(duì)象的兩個(gè)秩次差為:令同一觀察對(duì)象的兩個(gè)秩次差為: di=RXi-RYi(i=1,2,3,n)()(14-19)由式(由式(14-18)及式()及式(14-19)得到計(jì)算秩相關(guān)系數(shù)的簡(jiǎn)化公式為:)得到計(jì)算秩相關(guān)系數(shù)的簡(jiǎn)化公式為: 式(式(14-20)中的)中的 n為觀察例數(shù)。為觀察例數(shù)。rs的取值為的取值為rs1。它的解釋與。它的解釋與簡(jiǎn)單相關(guān)系數(shù)簡(jiǎn)單相關(guān)系數(shù) r一致。一致。22()()(14 18)()()iisiiRXRXRYRYrRXRXRYRY2361(1420)isdrnn 二、秩相關(guān)系數(shù)的計(jì)算二、秩相
29、關(guān)系數(shù)的計(jì)算 下面舉例說(shuō)明計(jì)算下面舉例說(shuō)明計(jì)算rs的具體步驟。的具體步驟。 例例14-3 某地方病防治所隨機(jī)抽樣調(diào)查了某縣某地方病防治所隨機(jī)抽樣調(diào)查了某縣10個(gè)村飲個(gè)村飲水中氟含量與氟骨癥中毒患病率,資料列于表水中氟含量與氟骨癥中毒患病率,資料列于表14-4中的第中的第(2)及第()及第(4)欄。試分析該縣飲水中氟含量與氟骨癥患)欄。試分析該縣飲水中氟含量與氟骨癥患病率間的關(guān)系。病率間的關(guān)系。表表14-4飲水中氟含量(飲水中氟含量(X)與氟骨癥患病率()與氟骨癥患病率(Y)村編號(hào)村編號(hào)飲水氟含量(飲水氟含量(mg/L)患病率()患病率()秩次秩次秩次差值秩次差值測(cè)定值測(cè)定值秩次秩次測(cè)定值測(cè)定值
30、秩次秩次差值差值的平方的平方IXiRXiYiRYidi=RXi-RYidi2(1)(2)(3)(4)(5)(6)(7)10.50120.132-1121.20322.643.5-0.50.2535.751039.1891141.62522.643.51.52.2550.65218.9711162.61724.8661171.53423.015-1182.39626.717-1193.72938.90811103.22846.7510-24合計(jì)合計(jì)013.5 從表從表14-4的第(的第(2)列氟含量)列氟含量Xi的測(cè)定值可見(jiàn),第的測(cè)定值可見(jiàn),第3號(hào)號(hào)的測(cè)定值遠(yuǎn)高于其它各值,有可能的測(cè)定值遠(yuǎn)高于其
31、它各值,有可能X不符合正態(tài)分布,故不符合正態(tài)分布,故宜用式(宜用式(14-20)計(jì)算秩相關(guān)系數(shù)來(lái)描述氟含量與氟骨癥)計(jì)算秩相關(guān)系數(shù)來(lái)描述氟含量與氟骨癥患病率之間的相關(guān)關(guān)系?;疾÷手g的相關(guān)關(guān)系。 按簡(jiǎn)化式(按簡(jiǎn)化式(14-19)計(jì)算秩相關(guān)系數(shù)的步驟為;)計(jì)算秩相關(guān)系數(shù)的步驟為; l編秩編秩 將各將各Xi由小到大編秩得由小到大編秩得RXi,列于表,列于表14-4中第中第(3)列。采用相同的排秩規(guī)則將)列。采用相同的排秩規(guī)則將Yi的記分列于表中第(的記分列于表中第(5)列列 RYi。當(dāng)遇到相等的測(cè)定值時(shí)則用平均秩。如。當(dāng)遇到相等的測(cè)定值時(shí)則用平均秩。如 Y2Y422.64,按編秩為,按編秩為3與與
32、4,這兩個(gè)測(cè)定值的平均秩為(,這兩個(gè)測(cè)定值的平均秩為(3+4)/23.5,故有,故有RY2=RY4=3.5。 2秩次差秩次差 求每例觀察對(duì)象的秩次差求每例觀察對(duì)象的秩次差diRXiRYi,列于表中第,列于表中第(6)列。應(yīng)有)列。應(yīng)有 。本例的合計(jì)。本例的合計(jì) ,表示排秩無(wú)誤,表示排秩無(wú)誤,可作核對(duì)之用??勺骱藢?duì)之用。 3并求和并求和 計(jì)算出的計(jì)算出的 列于表中第(列于表中第(7)列。本例有)列。本例有 4計(jì)算秩相關(guān)系數(shù)計(jì)算秩相關(guān)系數(shù)rs 本例本例n10,代入式(,代入式(14-20)中得到:)中得到: 式(式(14-20)適用于資料中取相同秩次的例數(shù)不多的情況,但如果?。┻m用于資料中取相同秩次的例數(shù)不多的情況,但如果取和同秩次的例數(shù)較多時(shí),就使得計(jì)算的結(jié)果偏差較大,這時(shí)應(yīng)直接用和同秩次的例數(shù)較多時(shí),就使得計(jì)算的結(jié)果偏差較大,這時(shí)應(yīng)直接用式(式(14-18)來(lái)計(jì)算秩相關(guān)系數(shù)。)來(lái)計(jì)算秩相關(guān)系數(shù)。 0id 0id 2id2id213.5id 213.5id 36 13.510.9181010sr 三、秩相關(guān)系數(shù)的假設(shè)檢驗(yàn)三、秩相關(guān)系數(shù)的假設(shè)檢驗(yàn)rs是樣本秩相關(guān)系數(shù),由于存在抽樣誤差,需要檢驗(yàn)是樣本秩相關(guān)系數(shù),由于存在抽樣誤差,需要檢驗(yàn) rs是否來(lái)自秩相是否來(lái)自秩相關(guān)系數(shù)關(guān)系數(shù)s 0的總體。根據(jù)樣本含量的總體。根據(jù)樣
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 民宿可行性報(bào)告
- 新能源汽車(chē)配送合作協(xié)議
- 技術(shù)交流平臺(tái)活躍度統(tǒng)計(jì)表
- 2025年度北京市房地產(chǎn)權(quán)證寄存與保管服務(wù)合同
- 新能源行業(yè)儲(chǔ)能技術(shù)與應(yīng)用推廣方案
- 生物質(zhì)顆粒燃料 河北
- 機(jī)械行業(yè)智能制造標(biāo)準(zhǔn)化與規(guī)范化方案
- 廣告?zhèn)髅叫袠I(yè)營(yíng)銷(xiāo)策略手冊(cè)
- 跨境電商智能倉(cāng)儲(chǔ)與分揀優(yōu)化策略研究
- 農(nóng)業(yè)生產(chǎn)三農(nóng)村新能源利用技術(shù)手冊(cè)
- 青島版科學(xué)(2017)六三制六年級(jí)下冊(cè)1-5《觸覺(jué)》課件
- 建筑用砂標(biāo)準(zhǔn)及特點(diǎn)-課件
- 部編版六年級(jí)語(yǔ)文下冊(cè)《語(yǔ)文園地三》優(yōu)秀課件
- 四年級(jí)數(shù)學(xué)思維訓(xùn)練社團(tuán)活動(dòng)(素質(zhì)拓展)電子教案
- 蒙古族文化課件
- 瀘州老窖股權(quán)激勵(lì)方案案例分析
- 火電廠廠用電系統(tǒng)與廠用電接線(xiàn)運(yùn)行特點(diǎn)分析
- 部編版小學(xué)語(yǔ)文三年級(jí)(下冊(cè))學(xué)期課程綱要
- _重大事故后果分析(精)
- 水泥攪拌樁施工監(jiān)理質(zhì)量控制要點(diǎn)
- 初級(jí)診斷師培訓(xùn)課程QC基礎(chǔ)知識(shí)
評(píng)論
0/150
提交評(píng)論