版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、 第九章第九章 雙變量回歸與相關(guān)雙變量回歸與相關(guān)圖圖 英國肺癌死亡率和煙草消耗量英國肺癌死亡率和煙草消耗量.(1950,DollHill) 圖圖 美國肺癌的監(jiān)測數(shù)據(jù)年及美國煙草消耗量的數(shù)據(jù)(美國肺癌的監(jiān)測數(shù)據(jù)年及美國煙草消耗量的數(shù)據(jù)(American Cancer Society 2005) 第九章第九章 直線相關(guān)與直線回歸直線相關(guān)與直線回歸112021-12-21117.3 119.6 121.9 125.1 117.0 115.4 124.7 120.1 123.0 122.8 120.6 121.5 125.0 125.9 123.2 126.6 122.0 127.6 125.1 12
2、0.1 119.5 126.1 126.4 125.6 118.9 130.4 124.9 125.8 126.1 120.9 116.1124.0 124.6 118.7 119.1 121.9118.0117.0114.6 123.9 116.0 125.3 123.6 123.6126.4115.5 119.2 114.0 123.4 126.6 117.3 113.6 127.6 120.5113.6130.2128.3118.2124.7122.4 118.8 123.1122.7126.6127.8125.9 110.5124.8 115.2119.4 128.0 116.7 13
3、2.4 129.3 121.7 115.0120.4122.1 127.0135.3125.7 111.2 124.3 124.2 124.7 121.7 121.3124.1 119.9121.7 113.8 116.7 129.9 128.5 126.5 122.8 120.1118.2 122.5 127.7124.9 123.3 120.3 125.7 某市某市19951995年年104104名男童名男童身高(身高(cmcm)資料如下資料如下單變量資料單變量資料變量變量122021-12-21大鼠對(duì)號(hào)大鼠對(duì)號(hào) 正常飼料組正常飼料組 維生素維生素 E E缺乏組缺乏組 (1 1) (2 2
4、) (3 3) 1 1 35503550 24502450 2 2 2000 2400 3 3 3000 1800 4 4 3950 3200 5 5 3800 3250 6 6 3750 2700 7 7 3450 2500 8 8 3050 1750 合計(jì) 26550 20050表表1 1 不同飼料組大鼠肝中不同飼料組大鼠肝中維生素維生素A A含量含量(IU/gIU/g) 變量變量單單變變量量資資料料患者號(hào)患者號(hào)血清血清IL-6腦脊液腦脊液IL-6122.4134.0251.6167.0358.1132.3425.180.2565.9100.0679.7139.1775.3187.2832
5、.497.2996.4192.31085.7199.4132021-12-21表表2 SAH2 SAH患者血清和腦脊液患者血清和腦脊液IL-6(pg/ml)IL-6(pg/ml)檢測結(jié)果檢測結(jié)果變量變量Y Y變量變量 x x雙變量資料雙變量資料142021-12-21SAHSAH患者血清和腦脊液患者血清和腦脊液IL-6IL-6散點(diǎn)圖散點(diǎn)圖v 醫(yī)學(xué)上,許多現(xiàn)象之間都有相互聯(lián)系,例如:身高與體重、體溫與脈搏、年齡與血壓、產(chǎn)前檢查與嬰兒體重、乙肝病毒與乙肝、胰島素與血糖水平、毒物劑量與動(dòng)物的存活時(shí)間等。v 在這些有關(guān)系的現(xiàn)象中,它們之間聯(lián)系的程度和性質(zhì)也各不相同。這里,體溫和脈搏的關(guān)系就比產(chǎn)前檢查與
6、嬰兒體重之間的關(guān)系密切得多,而體重和身高的關(guān)系則介與二者之間。另外,可以說乙肝病毒感染是前因,得了乙肝是后果,乙肝病毒和乙肝之間是因果關(guān)系;但是,有的現(xiàn)象之間因果不清,只是伴隨關(guān)系,例如丈夫的身高和妻子的身高之間,就不能說有因果關(guān)系。152021-12-21回歸分析與相關(guān)分析回歸分析與相關(guān)分析162021-12-21 變量間關(guān)系問題:變量間關(guān)系問題:年齡年齡身高、肺活量身高、肺活量體重、體重、藥物劑量與動(dòng)物死亡率等。藥物劑量與動(dòng)物死亡率等。兩個(gè)關(guān)系:兩個(gè)關(guān)系: 依存關(guān)系:應(yīng)變量依存關(guān)系:應(yīng)變量Y Y 隨自變量隨自變量X X 變化而變化變化而變化 回歸分析回歸分析(1)(1)互依關(guān)系:應(yīng)變量互依
7、關(guān)系:應(yīng)變量Y Y 與自變量與自變量X X間間的彼此關(guān)系的彼此關(guān)系相關(guān)分析相關(guān)分析第九章第九章 直線相關(guān)與直線回歸直線相關(guān)與直線回歸第一節(jié) 直線回歸第二節(jié) 直線相關(guān)第三節(jié) 等級(jí)相關(guān) 第四節(jié) 加權(quán)直線回歸第五節(jié) 曲線擬合172021-12-21182021-12-21第一節(jié)第一節(jié) 直線回歸直線回歸一、直線回歸的概念一、直線回歸的概念二、直線回歸方程的求法二、直線回歸方程的求法三、直線回歸中的統(tǒng)計(jì)推斷三、直線回歸中的統(tǒng)計(jì)推斷四、直線回歸方程的圖示四、直線回歸方程的圖示五、直線回歸的區(qū)間估計(jì)五、直線回歸的區(qū)間估計(jì)六、直線回歸方程的應(yīng)用六、直線回歸方程的應(yīng)用192021-12-21編號(hào)(1)尿雌三醇m
8、g/24h(2)產(chǎn)兒體重kg(3)編號(hào)(1)尿雌三醇mg/24h(2)產(chǎn)兒體重kg(3)172.517173.2292.518253.2392.519273.44122.720153.45142.721153.46162.722153.57162.423163.58143.024193.49163.025183.510163.126173.611173.027183.712193.128203.813213.029224.014242.830253.915153.231244.316163.2表表2 2 孕婦尿中雌三醇含量與產(chǎn)兒的體重孕婦尿中雌三醇含量與產(chǎn)兒的體重202021-12-21兩變量
9、的散點(diǎn)圖兩變量的散點(diǎn)圖212021-12-21表表3 123 12名一年級(jí)女大學(xué)生體重與肺活量名一年級(jí)女大學(xué)生體重與肺活量 編號(hào)編號(hào) 體重體重 (kgkg) 肺活量肺活量 (L L) 1 1 42 2.55 2 2 42 2.2 3 3 46 2.75 4 4 46 2.4 5 5 46 2.8 6 6 50 2.81 7 7 50 3.41 8 8 50 3.1 9 52 3.46 1010 52 2.85 1111 58 3.5 1212 58 3 222021-12-21兩變量的散點(diǎn)圖兩變量的散點(diǎn)圖232021-12-21 英國統(tǒng)計(jì)學(xué)家英國統(tǒng)計(jì)學(xué)家Pearson KPearson K(1
10、85718571936)19031936)1903年搜集了年搜集了10781078個(gè)家庭人員的身高、前臂長等指標(biāo)的記錄,發(fā)現(xiàn)兒子身高個(gè)家庭人員的身高、前臂長等指標(biāo)的記錄,發(fā)現(xiàn)兒子身高(Y Y,英寸)與父親身高(,英寸)與父親身高(X X,英寸)存在線形關(guān)系:,英寸)存在線形關(guān)系: 回歸的由來回歸的由來Y= 33.73+0.516 X242021-12-21回歸的由來回歸的由來 即高個(gè)子父親兒子的平均身高雖然比矮個(gè)子父親兒即高個(gè)子父親兒子的平均身高雖然比矮個(gè)子父親兒子的平均身高要高一些,但稍矮于其父親的平均身高;子的平均身高要高一些,但稍矮于其父親的平均身高;而矮個(gè)子父親兒子的平均身高雖然比高個(gè)
11、子父親兒子的而矮個(gè)子父親兒子的平均身高雖然比高個(gè)子父親兒子的平均身高要矮一些,但稍高于其父親的平均身高。英國平均身高要矮一些,但稍高于其父親的平均身高。英國人類學(xué)家人類學(xué)家Galton FGalton F(1822182219111911)將這種趨向于種族穩(wěn))將這種趨向于種族穩(wěn)定的現(xiàn)象稱之為定的現(xiàn)象稱之為“回歸回歸”。 至此,至此,“回歸回歸”逐漸發(fā)展成為分析逐漸發(fā)展成為分析兩個(gè)變量兩個(gè)變量或或多個(gè)多個(gè)變量變量之間之間某種數(shù)量依存關(guān)系某種數(shù)量依存關(guān)系的一類統(tǒng)計(jì)方法。的一類統(tǒng)計(jì)方法。Galton數(shù)據(jù)散點(diǎn)圖(英寸)數(shù)據(jù)散點(diǎn)圖(英寸)7570656075706560height of fatherh
12、eight of son252021-12-21262021-12-21一、直線回歸的概念一、直線回歸的概念 在實(shí)際生活當(dāng)中,由于其它因素的干擾,許在實(shí)際生活當(dāng)中,由于其它因素的干擾,許多雙變量之間的關(guān)系呈直線趨勢(shì),但并不是嚴(yán)格多雙變量之間的關(guān)系呈直線趨勢(shì),但并不是嚴(yán)格的直線關(guān)系,為了區(qū)別于兩變量間的直線關(guān)系,的直線關(guān)系,為了區(qū)別于兩變量間的直線關(guān)系,我們稱這種關(guān)系為我們稱這種關(guān)系為直線回歸。直線回歸。 直線回歸仍用直線方程來描述兩變量間的回直線回歸仍用直線方程來描述兩變量間的回歸關(guān)系,但稱為直線回歸方程歸關(guān)系,但稱為直線回歸方程. .: 確定。例如 園周長與半徑:y=2r 272021-12
13、-21不確定。例如血壓和年齡的關(guān)系,稱為直線回歸不確定。例如血壓和年齡的關(guān)系,稱為直線回歸(linear regression)(linear regression)。 建立直線回歸方程建立直線回歸方程 ( linear regression equation)( linear regression equation)282021-12-21SAHSAH患者血清和腦脊液患者血清和腦脊液IL-6IL-6散點(diǎn)圖散點(diǎn)圖292021-12-21 醫(yī)學(xué)上,還有許多現(xiàn)象之間也都有類似的或強(qiáng)或醫(yī)學(xué)上,還有許多現(xiàn)象之間也都有類似的或強(qiáng)或弱的相互依存的關(guān)系,例如:身高與體重、體溫與弱的相互依存的關(guān)系,例如:身高
14、與體重、體溫與脈搏、年齡與血壓、胰島素與血糖水平、毒物劑量脈搏、年齡與血壓、胰島素與血糖水平、毒物劑量與動(dòng)物的存活時(shí)間等等與動(dòng)物的存活時(shí)間等等直線回歸方程:302021-12-21 a: a:截截 距距 b:b:回歸系數(shù)回歸系數(shù) Ya bXx x為自變量,一般為資料中能精確測定和控制的量為自變量,一般為資料中能精確測定和控制的量 為因變量為因變量Y Y的估計(jì)值的估計(jì)值YSimple Linear Regression Model|Y X|Y X|Y XX312021-12-21Y的總均數(shù)的總均數(shù)自變量自變量Slope總體斜率總體斜率Intercept總體截距總體截距根據(jù)散點(diǎn)圖可以假定,對(duì)于根據(jù)
15、散點(diǎn)圖可以假定,對(duì)于x x各個(gè)取值,相應(yīng)的各個(gè)取值,相應(yīng)的Y Y的總體均數(shù)的總體均數(shù) 在一條直線上,在一條直線上, 實(shí)際上是實(shí)際上是x x對(duì)應(yīng)的對(duì)應(yīng)的Y Y的總體均數(shù)的總體均數(shù) 的一個(gè)樣本估的一個(gè)樣本估計(jì)值。計(jì)值。Y322021-12-21Yx直線回歸模型的四個(gè)假定v線性LINEARITY 反應(yīng)變量均數(shù)與X間呈直線關(guān)系|Y XX332021-12-21LINE 假定xyv標(biāo)準(zhǔn)差相等標(biāo)準(zhǔn)差相等EQUAL STANDARD DEVIATION 對(duì)于任何對(duì)于任何X X值,隨機(jī)變量值,隨機(jī)變量Y Y的標(biāo)準(zhǔn)差的標(biāo)準(zhǔn)差 Y|XY|X相等相等v獨(dú)立獨(dú)立INDEPENDENCE 每一觀察值之間彼此獨(dú)立每一觀察
16、值之間彼此獨(dú)立y|X = + xv正態(tài)正態(tài) NORMALITY 對(duì)于任何給定的對(duì)于任何給定的 X, Y X, Y 服從正態(tài)分布,服從正態(tài)分布,均數(shù)為均數(shù)為 Y|XY|X,標(biāo)準(zhǔn)差為,標(biāo)準(zhǔn)差為 Y|XY|X2021-12-2134直線回歸方程直線回歸方程:YabXa:常數(shù)項(xiàng),回歸直線在常數(shù)項(xiàng),回歸直線在Y軸上的截距軸上的截距(intercept) ,其統(tǒng)計(jì),其統(tǒng)計(jì)意義是當(dāng)意義是當(dāng)X0時(shí)相應(yīng)時(shí)相應(yīng)Y的均數(shù)估計(jì)值的均數(shù)估計(jì)值)b:斜率:斜率(slope),回歸系數(shù),回歸系數(shù)(regression coefficient)。意義:當(dāng)意義:當(dāng)X變化一個(gè)單位時(shí)變化一個(gè)單位時(shí)Y的平均改變的估計(jì)值的平均改變的估
17、計(jì)值(b個(gè)單位)個(gè)單位) b0,Y隨隨X的的增大增大而而增大(減少增大(減少 而而減少)減少) 斜上;斜上; b0,Y隨隨X的的增大增大而而減?。p少減?。p少 而而增加)增加) 斜下;斜下; b=0,Y與與X無直線關(guān)系無直線關(guān)系 水平水平。b越大,表示越大,表示Y隨隨X變化越快,直線越陡峭。變化越快,直線越陡峭。352021-12-21xyYab X()YY22() ( - -) iiiiSSEYYY a bX2YY362021-12-21二、直線回歸方程的求法二、直線回歸方程的求法回歸系數(shù)與截距的計(jì)算回歸系數(shù)與截距的計(jì)算求解求解a,b實(shí)際就是如何合理找到一條最好代表數(shù)據(jù)點(diǎn)分布趨實(shí)際就是如何
18、合理找到一條最好代表數(shù)據(jù)點(diǎn)分布趨勢(shì)的直線。若將實(shí)測值勢(shì)的直線。若將實(shí)測值Y與假定回歸直線上的估計(jì)值與假定回歸直線上的估計(jì)值 稱為稱為殘差或剩余值殘差或剩余值 ,所求直線應(yīng)為各點(diǎn)殘差縱向距離最短,所求直線應(yīng)為各點(diǎn)殘差縱向距離最短,由于殘差有正有負(fù),即取各點(diǎn)殘差平方和由于殘差有正有負(fù),即取各點(diǎn)殘差平方和 最小為最小為所求,即最小二乘法原理所求,即最小二乘法原理此回歸直線必過此回歸直線必過 這一點(diǎn)這一點(diǎn)( , )X YY最小二乘最小二乘 (Least squares)法圖解法圖解372021-12-21Y Y(Y的估計(jì)值)= a + bX= a + bXi Yi尋找使尋找使S(S(殘差殘差i i)
19、)2 2 最小的直線最小的直線 估計(jì)值估計(jì)值i iiY殘差殘差i i= =Y Yi i估計(jì)值估計(jì)值i iiY382021-12-21222-XXlXXXXnXYXYXXYYXYnl=aYbX2XYXXXXY YllXXb392021-12-21例例1 1 在腦血管疾病的診斷治療中,腦脊液白細(xì)胞介素在腦血管疾病的診斷治療中,腦脊液白細(xì)胞介素-6-6(IL-6IL-6)水平是影響診斷與預(yù)后分析的一項(xiàng)重要指標(biāo),但腦)水平是影響診斷與預(yù)后分析的一項(xiàng)重要指標(biāo),但腦脊液在臨床上有時(shí)又不容易采集到。某醫(yī)生欲了解急性腦血脊液在臨床上有時(shí)又不容易采集到。某醫(yī)生欲了解急性腦血管病病人血清管病病人血清IL-6(pg
20、/ml)IL-6(pg/ml)與腦脊液與腦脊液IL-6 (pg/ml)IL-6 (pg/ml)水平,隨機(jī)水平,隨機(jī)抽取了某醫(yī)院確診的抽取了某醫(yī)院確診的1010例例蛛網(wǎng)膜下腔出血(蛛網(wǎng)膜下腔出血(SAHSAH)患者患者2424小時(shí)小時(shí)內(nèi)血清內(nèi)血清IL-6IL-6和腦脊液和腦脊液IL-6IL-6數(shù)據(jù)如表數(shù)據(jù)如表2 2,問,問SAHSAH患者血清患者血清IL-6IL-6和和腦脊液腦脊液IL-6IL-6間是否有直線相關(guān)關(guān)系存在?間是否有直線相關(guān)關(guān)系存在?402021-12-21例例1 1 進(jìn)行回歸分析進(jìn)行回歸分析 患者號(hào)患者號(hào)血清血清IL-6腦脊液腦脊液IL-6122.4134.0251.6167.0
21、358.1132.3425.180.2565.9100.0679.7139.1775.3187.2832.497.2996.4192.31085.7199.4表表2 SAH2 SAH患者血清和腦脊液患者血清和腦脊液IL-6(pg/ml)IL-6(pg/ml)檢測結(jié)果檢測結(jié)果412021-12-211 1、繪制散點(diǎn)圖:、繪制散點(diǎn)圖:2 2、計(jì)算:、計(jì)算:XXYYXYXYlll、 、 、患者號(hào)患者號(hào)血清血清IL-6腦脊液腦脊液IL-6122.4134.0251.6167.0358.1132.3425.180.2565.9100.0679.7139.1775.3187.2832.497.2996.4
22、192.31085.7199.4422021-12-21表表2 SAH2 SAH患者血清和腦脊液患者血清和腦脊液IL-6(pg/ml)IL-6(pg/ml)檢測結(jié)果檢測結(jié)果XY592.61428.702Y41222.422036.472XXY91866.4622.4134.0. X Y59.26142.876104.66416242.1017201.698XXYYXYXYlll432021-12-212 2、計(jì)算:、計(jì)算:XXYYXYXYlll、 、442021-12-21aYbX=72.9610XYXXbll=1.17973 3、求回歸系數(shù)、求回歸系數(shù)b b和截距和截距a a :452021
23、-12-214.4.列出回歸方程:列出回歸方程:Y = 72.96 + 1.18X462021-12-21v 1. 1. 斜率斜率 ( (b b) ) 當(dāng)當(dāng)X X每增加每增加1 1個(gè)單位時(shí),個(gè)單位時(shí), Y Y改變改變b b個(gè)單位個(gè)單位 本例本例b b=1.1797=1.1797,表明在所研究對(duì)象范圍內(nèi),血清,表明在所研究對(duì)象范圍內(nèi),血清IL-6IL-6每增加每增加1pg/ml1pg/ml,腦脊液,腦脊液IL-6IL-6增加增加1.1797pg/ml 1.1797pg/ml v 2. Y2. Y的截距的截距 (a)(a) x=0 x=0時(shí)時(shí)Y Y的平均值的平均值 本例本例a a72.9672.9
24、6,表示血清,表示血清IL-6IL-6為為0 0時(shí),腦脊液時(shí),腦脊液IL-6IL-6期望值為期望值為72.96pg/ml72.96pg/ml (注意有時(shí)這種解釋無實(shí)際意義)(注意有時(shí)這種解釋無實(shí)際意義)回歸方程中回歸方程中a a、b b的解釋的解釋472021-12-21 編號(hào)編號(hào) 體重體重(kgkg) 肺活量肺活量 (L L) 1 1 42 2.55 2 2 42 2.2 3 3 46 2.75 4 4 46 2.4 5 5 46 2.8 6 6 50 2.81 7 7 50 3.41 8 8 50 3.1 9 52 3.46 1010 52 2.85 1111 58 3.5 1212 58
25、 3 表表3 123 12名一年級(jí)女大學(xué)生體重與肺活量名一年級(jí)女大學(xué)生體重與肺活量例例2 2: 某地一年級(jí)某地一年級(jí)1212名女大學(xué)生的體重與肺活量數(shù)據(jù)如下,名女大學(xué)生的體重與肺活量數(shù)據(jù)如下,試分析肺活量與體重關(guān)系試分析肺活量與體重關(guān)系482021-12-211 1、繪制散點(diǎn)圖:、繪制散點(diǎn)圖:2.2.計(jì)算計(jì)算XXXYYXY、Y、l 、l 、l49.332.9025306.66671.889218.04xxyyxyXYlll492021-12-212.2.計(jì)算計(jì)算XXYYXYXYlll、 、502021-12-21 0.000419aYbX0.058826xyxxbll3 3、求回歸系數(shù)、求回歸
26、系數(shù)b b和截距和截距a a:512021-12-214.4.列出回歸方程:列出回歸方程:Y=0.000419+0.058826X三、三、直線回歸中的統(tǒng)計(jì)推斷直線回歸中的統(tǒng)計(jì)推斷(一)、回歸方程的假設(shè)檢驗(yàn) 方差分析 t檢驗(yàn)522021-12-21532021-12-21回歸系數(shù)的假設(shè)檢驗(yàn):方差分析法回歸系數(shù)的假設(shè)檢驗(yàn):方差分析法方差分析的基本思想:方差分析的基本思想: 把總的離均差平方和把總的離均差平方和( (即總變異即總變異) )分解為至少兩個(gè)部分分解為至少兩個(gè)部分,其中有一部分表示處理因素的效應(yīng),有一部分表示抽,其中有一部分表示處理因素的效應(yīng),有一部分表示抽樣誤差的影響,然后比較兩者的均方
27、,計(jì)算樣誤差的影響,然后比較兩者的均方,計(jì)算F F值,若值,若F F值值遠(yuǎn)大于遠(yuǎn)大于1 1,可認(rèn)為處理有效應(yīng),否則認(rèn)為處理無效應(yīng)。,可認(rèn)為處理有效應(yīng),否則認(rèn)為處理無效應(yīng)。542021-12-21應(yīng)變量應(yīng)變量Y Y的離均差平方和的分解的離均差平方和的分解Y YY YYY YY- -Y YY YX XY YQYabx(X,Y)()XY,(,)X Y552021-12-21應(yīng)變量應(yīng)變量Y Y的離均差平方和的分解的離均差平方和的分解SS總總 = SS回回 + SS殘殘)YYYYYY()(22()YYYYYY()(22()()( - )YYYYY Y2562021-12-21幾個(gè)平方和的意義幾個(gè)平方和的
28、意義1. SS總總 即即 ,為,為Y Y的總離均差平方和,表示未的總離均差平方和,表示未考慮考慮X X與與Y Y的回歸關(guān)系時(shí),的回歸關(guān)系時(shí),Y Y的總變異。的總變異。 2()YY2)(YY3. SS殘殘 即即 ,為殘差平方和,為殘差平方和(residual sum of squares)x對(duì)對(duì)Y的線性影響之外的一切因素對(duì)的線性影響之外的一切因素對(duì)Y的變異,即總變異中,的變異,即總變異中,無法用無法用x解釋的部分。解釋的部分。SS殘殘?jiān)叫?,回歸效果越好越小,回歸效果越好。2)(YY2. SS回回,即,即 ,為回歸平方和,為回歸平方和(regression sum of squares) 由于由于
29、x與與Y的直線關(guān)系而使的直線關(guān)系而使Y變異減小的部分變異減小的部分,即總變異中,即總變異中,可可 以用以用Y與與X直線關(guān)系解釋的部分直線關(guān)系解釋的部分。SS回回越大,回歸效果越好。越大,回歸效果越好。 572021-12-21回歸系數(shù)的方差分析回歸系數(shù)的方差分析582021-12-21例例3 3對(duì)例對(duì)例1 1建立的回歸方程的回歸系數(shù)進(jìn)行假設(shè)檢驗(yàn)建立的回歸方程的回歸系數(shù)進(jìn)行假設(shè)檢驗(yàn) H H0 0:=0=0 H H1 1:00 =0.05 =0.05 計(jì)算統(tǒng)計(jì)量計(jì)算統(tǒng)計(jì)量F F,求得求得概率值概率值P P 做出推斷:做出推斷:592021-12-21回歸系數(shù)方差分析表回歸系數(shù)方差分析表變異來源變異
30、來源SSDFMSFP回回 歸歸8495.873718495.87378.77420.018剩剩 余余7746.22738968.2784總變異總變異16242.10109回歸系數(shù)的假設(shè)檢驗(yàn):回歸系數(shù)的假設(shè)檢驗(yàn): t檢驗(yàn)法檢驗(yàn)法0bbSbt.2()Y XY Xxxbxlxsss602021-12-21其中其中S SY.XY.X為回歸的剩余標(biāo)準(zhǔn)差,表示去除為回歸的剩余標(biāo)準(zhǔn)差,表示去除X X影響影響后后Y Y的變異大小的變異大小 = n-2= n-22.2()2()XYY XYYXXY YnlYYlls612021-12-21 剩余(殘差)標(biāo)準(zhǔn)差剩余(殘差)標(biāo)準(zhǔn)差 SY.X22.222Y Xy xY
31、YSSSMSnnn剩剩殘差=度量了實(shí)際散點(diǎn)遠(yuǎn)離回歸直線的離散程度,反度量了實(shí)際散點(diǎn)遠(yuǎn)離回歸直線的離散程度,反映了模型的可靠性映了模型的可靠性; ;越小模型越好。越小模型越好。 注意: 1.對(duì)回歸系數(shù)的假設(shè)檢驗(yàn)可用方差分析和t檢驗(yàn),兩種檢驗(yàn)是完全等價(jià)的,即 622021-12-21tF632021-12-21直線回歸方程的圖示直線回歸方程的圖示 在自變量在自變量X X的的實(shí)測范圍內(nèi)實(shí)測范圍內(nèi)任取相距較遠(yuǎn)且易讀數(shù)的兩任取相距較遠(yuǎn)且易讀數(shù)的兩X X值值代入回歸方程求得兩點(diǎn)坐標(biāo)、連線即得其回歸直線。代入回歸方程求得兩點(diǎn)坐標(biāo)、連線即得其回歸直線。注意:注意:1.1.回歸直線不應(yīng)超出回歸直線不應(yīng)超出x x
32、的實(shí)測值范圍的實(shí)測值范圍 2.2.所繪回歸直線必然通過所繪回歸直線必然通過 3.3.將直線的左端延長與縱軸交點(diǎn)縱坐標(biāo)必等于截距將直線的左端延長與縱軸交點(diǎn)縱坐標(biāo)必等于截距a,a,據(jù)此可判斷所繪圖形是否正確。據(jù)此可判斷所繪圖形是否正確。 (,)X Y(二) 總體回歸系數(shù) 的可信區(qū)間642021-12-21/2,.2.()2bY XbxxY XbtssslYYsn652021-12-21(二)總體回歸系數(shù)(二)總體回歸系數(shù) 的可信區(qū)間的可信區(qū)間樣本回歸系數(shù)的標(biāo)準(zhǔn)誤樣本回歸系數(shù)的標(biāo)準(zhǔn)誤殘差標(biāo)準(zhǔn)差殘差標(biāo)準(zhǔn)差 SY.X為為Y的殘差標(biāo)準(zhǔn)差的殘差標(biāo)準(zhǔn)差扣除扣除X的影響后的影響后Y的變異程度。的變異程度。662
33、021-12-21(三)(三) 利用回歸方程進(jìn)行估計(jì)與預(yù)測利用回歸方程進(jìn)行估計(jì)與預(yù)測000/2,20.2()11()YYY XYtSXXSSnXX672021-12-212 2、個(gè)體、個(gè)體Y Y值的預(yù)測區(qū)間值的預(yù)測區(qū)間總體中,總體中,X X為一定值為一定值X X0 0時(shí),個(gè)體時(shí),個(gè)體Y Y值的波動(dòng)范圍值的波動(dòng)范圍S SY Y是是x x取定值時(shí),個(gè)體取定值時(shí),個(gè)體Y Y值的標(biāo)準(zhǔn)差值的標(biāo)準(zhǔn)差(三)(三) 利用回歸方程進(jìn)行估計(jì)與預(yù)測利用回歸方程進(jìn)行估計(jì)與預(yù)測當(dāng)X=X0時(shí),相應(yīng)Y的均數(shù)的可信區(qū)間表示在固定的X0處,反復(fù)抽樣100次,可算得100個(gè)相應(yīng)Y的總體均數(shù)的可信區(qū)間,平均有95個(gè)可信區(qū)間包含總體
34、均數(shù)。當(dāng)X=X0時(shí),其個(gè)體Y值的預(yù)測區(qū)間是一個(gè)預(yù)測值的取值范圍,即平均有95%個(gè)體在此范圍內(nèi)682021-12-21692021-12-21第二節(jié)第二節(jié) 直線相關(guān)直線相關(guān)一、直線相關(guān)的概念一、直線相關(guān)的概念二、相關(guān)系數(shù)的意義與計(jì)算二、相關(guān)系數(shù)的意義與計(jì)算三、相關(guān)系數(shù)的統(tǒng)計(jì)推斷三、相關(guān)系數(shù)的統(tǒng)計(jì)推斷(linear correlation)702021-12-21一、直線相關(guān)的概念一、直線相關(guān)的概念 直線相關(guān)分析直線相關(guān)分析: :描述兩變量間是否有直線關(guān)系以及直線描述兩變量間是否有直線關(guān)系以及直線關(guān)系的關(guān)系的方向方向和和密切程度密切程度的分析方法。的分析方法。 條件:兩變量(條件:兩變量(X,YX
35、,Y)都是來自正態(tài)分布的隨機(jī)變量。)都是來自正態(tài)分布的隨機(jī)變量。 在1926年美國經(jīng)濟(jì)學(xué)家喬治泰勒(George Taylor)創(chuàng)造了裙擺指數(shù)理論v所謂裙擺理論,就是指在經(jīng)濟(jì)的繁榮程度和女性的裙擺長度成正比例關(guān)系。簡單通俗的說就是:經(jīng)濟(jì)繁榮時(shí)代,女性的裙擺會(huì)越來越短;經(jīng)濟(jì)一旦進(jìn)入衰退,短裙則隨之變成長裙。 http:/ v 年輕女性通過裙擺的高度來反映她們的生活態(tài)度。經(jīng)濟(jì)繁榮,女性樂觀而自信,愿意展示自己美好的身體,而自家庭預(yù)算中劃分出添置一條迷你裙徹底的奢侈品的錢,不存在任何困難;經(jīng)濟(jì)不景氣,女性失去了自由自在的心情,包裹式的長裙給她們以安全感,說到家庭預(yù)算,如果必須添置新衣,那只能是實(shí)用的
36、,可以在很多場合出現(xiàn)的長裙。 小腿一瞥會(huì)給人一種獨(dú)立感和信心;掃帚裙子則是謙小腿一瞥會(huì)給人一種獨(dú)立感和信心;掃帚裙子則是謙遜和樸素的跡象。遜和樸素的跡象。v 而現(xiàn)在,要在具有個(gè)性化特征的中國通過觀察女性裙擺長度來判斷股市更是難上加難,那些前衛(wèi)的女孩你根本不知道她們穿的是什么,進(jìn)一步說,對(duì)于好多前衛(wèi)女生,你連她是男是女也分不清。 762021-12-21直線相關(guān)示意圖直線相關(guān)示意圖r =1完全正相關(guān)完全正相關(guān)r = -1完全負(fù)相關(guān)完全負(fù)相關(guān)-1 r 0負(fù)相關(guān)負(fù)相關(guān)0 r 1正相關(guān)正相關(guān) 散點(diǎn)在一條直線上,散點(diǎn)在一條直線上, x x、Y Y 變化趨勢(shì)相同變化趨勢(shì)相同-完全正相關(guān)完全正相關(guān); ; 反
37、向變化反向變化-完全負(fù)相關(guān)。完全負(fù)相關(guān)。散點(diǎn)呈橢圓形分布,散點(diǎn)呈橢圓形分布,X X、Y Y 同時(shí)增減同時(shí)增減-正相關(guān)正相關(guān)(positive correlation)positive correlation) X X、Y Y 此增彼減此增彼減-負(fù)相關(guān)負(fù)相關(guān)(negative correlation)(negative correlation)772021-12-21零相關(guān)零相關(guān)r = 0 非線性相關(guān)非線性相關(guān)r = 0直線相關(guān)示意圖直線相關(guān)示意圖零相關(guān)零相關(guān)r = 0零相關(guān)零相關(guān)r = 0X X、Y Y變化互不影響或無直變化互不影響或無直線相關(guān)關(guān)系線相關(guān)關(guān)系-零相關(guān)零相關(guān) (zero corr
38、elation)(zero correlation)782021-12-21二、相關(guān)系數(shù)的意義與計(jì)算二、相關(guān)系數(shù)的意義與計(jì)算 直線相關(guān)系數(shù)直線相關(guān)系數(shù):又稱:又稱pearsonpearson積差相關(guān)系數(shù),是說積差相關(guān)系數(shù),是說明具有直線關(guān)系的兩變量間相關(guān)的密切程度與相明具有直線關(guān)系的兩變量間相關(guān)的密切程度與相關(guān)方向的指標(biāo)。關(guān)方向的指標(biāo)。 r -r -樣本相關(guān)系數(shù)樣本相關(guān)系數(shù) -總體相關(guān)系數(shù)總體相關(guān)系數(shù) 22xyxx yyxylxxyyrl lxxyyxylxxyyxyn792021-12-21二、相關(guān)系數(shù)的意義與計(jì)算二、相關(guān)系數(shù)的意義與計(jì)算r無單位,無單位,-1 r 1。r 值為正值為正 正相
39、關(guān),正相關(guān), 為負(fù)為負(fù) 負(fù)相關(guān);負(fù)相關(guān);|r|=1 完全相關(guān),完全相關(guān),|r|=0 零相關(guān)。零相關(guān)?;颊咛?hào)患者號(hào)血清血清IL-6腦脊液腦脊液IL-6122.4134.0251.6167.0358.1132.3425.180.2565.9100.0679.7139.1775.3187.2832.497.2996.4192.31085.7199.4802021-12-21表表2 SAH2 SAH患者血清和腦脊液患者血清和腦脊液IL-6(pg/ml)IL-6(pg/ml)檢測結(jié)果檢測結(jié)果812021-12-21直線相關(guān)分析步驟直線相關(guān)分析步驟1 1、繪制散點(diǎn)圖:、繪制散點(diǎn)圖:患者號(hào)患者號(hào)血清血清IL
40、-6腦脊液腦脊液IL-6122.4134.0251.6167.0358.1132.3425.180.2565.9100.0679.7139.1775.3187.2832.497.2996.4192.31085.7199.4822021-12-21表表2 SAH2 SAH患者血清和腦脊液患者血清和腦脊液IL-6(pg/ml)IL-6(pg/ml)檢測結(jié)果檢測結(jié)果xy592.61428.702y41222.422036.472xxy91866.46x.y22.4134.0. 222()() /22036.47 1428.70 /1016242.101yylyyyyn()()()()/91866.4
41、6592.6 1428.77201.698xylyyxxxyxyn832021-12-212 2、計(jì)算:、計(jì)算:222()() /41222.14592.6 /106104.664xxlxxxxn7201.6980.72326104.664 16242.101xyxx yylrl l樣本相關(guān)系數(shù)與樣本量樣本相關(guān)系數(shù)與樣本量 樣本相關(guān)系數(shù)r的大小與樣本量有關(guān)。 特別n=2,當(dāng)兩個(gè)點(diǎn)的連線不平行與橫軸和縱軸時(shí),r1或r=1。 樣本相關(guān)系數(shù)大小不能直接評(píng)價(jià)兩個(gè)變量之間的相關(guān)性。 通常研究者首先關(guān)心的是0 ?842021-12-21三、相關(guān)系數(shù)的統(tǒng)計(jì)推斷三、相關(guān)系數(shù)的統(tǒng)計(jì)推斷852021-12-21(
42、一)相關(guān)系數(shù)的假設(shè)檢驗(yàn)(一)相關(guān)系數(shù)的假設(shè)檢驗(yàn) 1 1、t t 檢驗(yàn)檢驗(yàn) 2 2、查表法、查表法三、相關(guān)系數(shù)的統(tǒng)計(jì)推斷三、相關(guān)系數(shù)的統(tǒng)計(jì)推斷20212rrrrtnSrnSr,為相關(guān)系數(shù) 的標(biāo)準(zhǔn)誤862021-12-211 1、t t 檢驗(yàn)檢驗(yàn)檢驗(yàn)統(tǒng)計(jì)量檢驗(yàn)統(tǒng)計(jì)量對(duì)于同一資料,對(duì)于同一資料,tbtr,檢驗(yàn)完全等價(jià),檢驗(yàn)完全等價(jià)r0原因: 由于抽樣誤差引起, =0 存在相關(guān)關(guān)系, 0872021-12-21例例1 1 SAH SAH患者血清患者血清IL-6IL-6和腦脊液和腦脊液IL-6IL-6間相關(guān)系間相關(guān)系數(shù)的假設(shè)檢驗(yàn)步驟:數(shù)的假設(shè)檢驗(yàn)步驟:H H0 0 : =0 =0 即即SAHSAH患者血
43、清患者血清IL-6IL-6和腦脊液和腦脊液IL-6IL-6間無直線相關(guān)關(guān)系間無直線相關(guān)關(guān)系H H1 1 : 0 0即即SAHSAH患者血清患者血清IL-6IL-6和腦脊液和腦脊液IL-6IL-6間有直線相關(guān)關(guān)系間有直線相關(guān)關(guān)系 =0.05=0.052200.72322.96211 0.72322102rrrtSrn882021-12-21 r=0.7232, n=10, r=0.7232, n=10, 代入公式代入公式 計(jì)算得計(jì)算得 根據(jù)根據(jù) =10-2=8=10-2=8查查t t界值表得界值表得0.010.01 P 0.02 P 0.02,按,按 =0.05=0.05的檢驗(yàn)水準(zhǔn),拒絕的檢驗(yàn)水
44、準(zhǔn),拒絕H H0 0,接受,接受H H1 1 ,可認(rèn)為,可認(rèn)為SAHSAH患者血清患者血清IL-6IL-6和腦脊液和腦脊液IL-6IL-6間有直線相關(guān)關(guān)系間有直線相關(guān)關(guān)系三、相關(guān)系數(shù)的統(tǒng)計(jì)推斷三、相關(guān)系數(shù)的統(tǒng)計(jì)推斷892021-12-212 2、查表法、查表法 根據(jù)根據(jù)r r值及值及 =n-2=n-2查附表查附表13(P13(P828828) ) 相關(guān)系數(shù)相關(guān)系數(shù)r r界值表界值表 r=0.7232r=0.7232, =8=8查查r r界值表得界值表得 r r0.05/2,80.05/2,8= 0.632, r= 0.632, r0.02/2,80.02/2,8=0.715=0.715, r
45、r0.01/2,80.01/2,8=0.765=0.765, 所以所以 0.010.01 P P 0.020.02 ,按,按 =0.05=0.05的檢驗(yàn)水準(zhǔn),拒絕的檢驗(yàn)水準(zhǔn),拒絕H H0 0,接,接受受H H1 1 ,可認(rèn)為體重指數(shù)和收縮壓之間存在正相關(guān)關(guān)系。,可認(rèn)為體重指數(shù)和收縮壓之間存在正相關(guān)關(guān)系。r:呈非正態(tài)分布,必須作正態(tài)變換:902021-12-21111tanhln21rZrZr或(二)總體相關(guān)系數(shù)的可信區(qū)間(二)總體相關(guān)系數(shù)的可信區(qū)間221tanh1zzerZre或912021-12-21Z的總體均數(shù)的100(1-)%可信區(qū)間:/2/3Z un922021-12-21-10.91
46、tanh0.911.5334rZr例、例、 根據(jù)體重指數(shù)和收縮壓間樣本相關(guān)系數(shù)根據(jù)體重指數(shù)和收縮壓間樣本相關(guān)系數(shù)r=0.91,求總體,求總體相關(guān)系數(shù)相關(guān)系數(shù) 的的95%可信區(qū)間可信區(qū)間932021-12-21/2/31.5334 1.96/ 16 30.98982.0770ZuntanhrZtanh0.9898 tanh2.0770=0.760.97總體相關(guān)系數(shù)總體相關(guān)系數(shù) 的的95%CI: (0.76, 0.97 )四四 決定系數(shù)決定系數(shù)v*決定系數(shù)(coefficient of determination):回歸平方和與總的離均差平方和平方和之比v 相關(guān)系數(shù)的平方r2,數(shù)值大小反映了回歸貢
47、獻(xiàn)的相對(duì)程度,即應(yīng)變量Y的總變異中可用回歸關(guān)系解釋的百分比。v SS總不變,SS回大小決定了相關(guān)系數(shù)r絕對(duì)值大小, SS回越接近SS總,r絕對(duì)值越接近1,說明相關(guān)的實(shí)際效果越好。22XYXX YYsslRssll回總942021-12-21四四 決定系數(shù)決定系數(shù)v*決定系數(shù)(coefficient of determination):v對(duì)直線回歸的擬合優(yōu)度檢驗(yàn)等價(jià)于對(duì)總體回歸系數(shù)的假設(shè)檢驗(yàn),其952021-12-21212212(1)/(2rSSMSRFnRSSMSnFt回回殘殘殘,)962021-12-21五五 直線回歸與相關(guān)應(yīng)用的注意事項(xiàng)直線回歸與相關(guān)應(yīng)用的注意事項(xiàng)(1 1)根據(jù)分析目的選
48、擇變量及統(tǒng)計(jì)方法)根據(jù)分析目的選擇變量及統(tǒng)計(jì)方法(2 2)進(jìn)行相關(guān)、回歸分析前應(yīng)繪制散點(diǎn)圖;)進(jìn)行相關(guān)、回歸分析前應(yīng)繪制散點(diǎn)圖;(3 3)用)用殘差圖殘差圖考察數(shù)據(jù)是否符合模型的假設(shè)條件(考察數(shù)據(jù)是否符合模型的假設(shè)條件(P P196196)(4 4)結(jié)果的解釋及正確應(yīng)用)結(jié)果的解釋及正確應(yīng)用972021-12-21直線相關(guān)與回歸的區(qū)別與聯(lián)系直線相關(guān)與回歸的區(qū)別與聯(lián)系區(qū)別:區(qū)別: 1. 1. 資料要求不同。資料要求不同。 直線回歸要求應(yīng)變量直線回歸要求應(yīng)變量Y Y服從正態(tài)分布,服從正態(tài)分布,X X可以是精確測量和嚴(yán)格控制的可以是精確測量和嚴(yán)格控制的變量,一般稱為變量,一般稱為型回歸;直線相關(guān)要求
49、兩個(gè)變量型回歸;直線相關(guān)要求兩個(gè)變量X X、Y Y服從雙變量正態(tài)分服從雙變量正態(tài)分布,這種資料若要進(jìn)行回歸分析稱為布,這種資料若要進(jìn)行回歸分析稱為型回歸。型回歸。 2.2.應(yīng)用情況不同:應(yīng)用情況不同:直線回歸說明兩變量間依存變化的數(shù)量關(guān)系,直線相關(guān)則是說明兩變量的相直線回歸說明兩變量間依存變化的數(shù)量關(guān)系,直線相關(guān)則是說明兩變量的相關(guān)關(guān)系關(guān)關(guān)系 3. r3. r與與b b有區(qū)別;有區(qū)別; 1 1). . 取值范圍不同:取值范圍不同: -1-1r r 1, +b-1, +b- 2 2). . 意義不同意義不同:r:r說明具有直線關(guān)系的兩個(gè)變量間關(guān)系的密切程度與說明具有直線關(guān)系的兩個(gè)變量間關(guān)系的密切程度與相關(guān)方向相關(guān)方向; b; b表示表示X X每改變一個(gè)單位,每改變一個(gè)單位,Y Y平均改變平均改變b b個(gè)單位。個(gè)單位。 3 3)回歸系數(shù)與原度量單位有關(guān),而相關(guān)系數(shù)無單位)回歸系數(shù)與原度量單位有關(guān),而相關(guān)系數(shù)無單位 22xyxx yylssrssl l回總982021-12-211. 1. r r與與b b正負(fù)號(hào)一致:正負(fù)號(hào)一致: r r為正時(shí),為正時(shí),b b也為正,表示兩變量是正相關(guān),是同向變化。也為正,表示兩變量是正相關(guān),是同向變化。r r為負(fù)時(shí),為負(fù)時(shí),b b也為負(fù),表示兩變量是負(fù)相關(guān),是反向變化。也為負(fù),表
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度廣告公司與廣告主之間的廣告發(fā)布合同2篇
- 二零二五年度房產(chǎn)買賣合同10(附帶車位)3篇
- 2025版鍋爐設(shè)備報(bào)廢回收買賣合同范本及處理流程3篇
- 2025年協(xié)議離婚財(cái)產(chǎn)分割執(zhí)行與婚姻關(guān)系終止全程服務(wù)合同3篇
- 二零二五年度家庭健康體檢與評(píng)估合同3篇
- 二零二五年度康師傅飲品系列產(chǎn)品定制加工及全球銷售合同3篇
- 二零二五年度出口貿(mào)易合同的國際貿(mào)易人才培養(yǎng)與合作開發(fā)協(xié)議2篇
- 海南職業(yè)技術(shù)學(xué)院《電力電子數(shù)字控制》2023-2024學(xué)年第一學(xué)期期末試卷
- 海南衛(wèi)生健康職業(yè)學(xué)院《微納加工與制造》2023-2024學(xué)年第一學(xué)期期末試卷
- 海南外國語職業(yè)學(xué)院《建筑與規(guī)劃設(shè)計(jì)》2023-2024學(xué)年第一學(xué)期期末試卷
- 陜西2020-2024年中考英語五年真題匯編學(xué)生版-專題09 閱讀七選五
- 多源數(shù)據(jù)融合平臺(tái)建設(shè)方案
- 2023-2024學(xué)年上海市普陀區(qū)三年級(jí)(上)期末數(shù)學(xué)試卷
- 居家養(yǎng)老上門服務(wù)投標(biāo)文件
- 浙江省寧波市鄞州區(qū)2024年七年級(jí)上學(xué)期期末數(shù)學(xué)試題【含答案】
- 浙江省杭州市錢塘區(qū)2023-2024學(xué)年四年級(jí)上學(xué)期語文期末試卷
- 《聞泰科技并購安世半導(dǎo)體的風(fēng)險(xiǎn)應(yīng)對(duì)案例探析》8200字(論文)
- 肝斷面引流管護(hù)理
- GB/T 44713-2024節(jié)地生態(tài)安葬服務(wù)指南
- 2024年形勢(shì)與政策 第一講《讀懂中國式現(xiàn)代化》
- 2024-2025學(xué)年蘇教版四年級(jí)上冊(cè)期末自主測試數(shù)學(xué)試卷(一)(含答案解析)
評(píng)論
0/150
提交評(píng)論