研-統(tǒng)計(jì)8雙變量回歸與相關(guān)_第1頁
研-統(tǒng)計(jì)8雙變量回歸與相關(guān)_第2頁
研-統(tǒng)計(jì)8雙變量回歸與相關(guān)_第3頁
研-統(tǒng)計(jì)8雙變量回歸與相關(guān)_第4頁
研-統(tǒng)計(jì)8雙變量回歸與相關(guān)_第5頁
已閱讀5頁,還剩78頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

Eg:某醫(yī)師收集并測(cè)定95例糖尿病患者的體重指數(shù)BMI(kg/cm2)、HOMA-R指數(shù)、胰島素與瘦素比值A(chǔ)/L等指標(biāo),試估計(jì)這些指標(biāo)之間的相關(guān)性?分析年齡與冠狀動(dòng)脈粥樣硬化等級(jí)之間的相關(guān)關(guān)系。

年齡(歲)冠狀動(dòng)脈硬化等級(jí)合計(jì)

++++++203040》5070224227249316231379201514

98635958合計(jì)122894126278例某地方病研究所調(diào)查了8名正常兒童的尿肌酐含量(mmol/24h),估計(jì)年齡與尿肌酐含量間有無關(guān)系,是否可由年齡推算尿肌酐含量。雙變量回歸與相關(guān)linearregressionandcorrelation回歸分析與相關(guān)分析雙變量間關(guān)系:年齡~身高、肺活量~體重、藥物劑量與動(dòng)物死亡率等。

依存關(guān)系:應(yīng)變量(dependentvariable)Y隨自變量(independentvariable)X變化而變化?!?/p>

回歸分析

互依關(guān)系:應(yīng)變量Y與自變量X間的彼此關(guān)系

———

相關(guān)分析雙變量計(jì)量資料:每個(gè)個(gè)體有兩個(gè)變量值

總體:無限或有限對(duì)變量值樣本:從總體隨機(jī)抽取的n對(duì)變量值

(X1,Y1),(X2,Y2),…,(Xn,Yn)

目的:研究X和Y的數(shù)量關(guān)系

方法:回歸與相關(guān)簡(jiǎn)單、基本——直線回歸、直線相關(guān)“一因一果”,即一個(gè)自變量與一個(gè)依變量一元回歸分析; 研究“多因一果”,即多個(gè)自變量與一個(gè)依變量的回歸分析稱為多元回歸分析。 一元回歸分析又分為直線回歸分析與曲線回歸分析兩種; 多元回歸分析又分為多元線性回歸分析與多元非線性回歸分析兩種。第一節(jié)直線回歸(linearregression線性回歸)1.直線回歸的概念:直線回歸是分析兩變量間線性依存變化的數(shù)量關(guān)系?!盎貧w”的由來英國(guó)統(tǒng)計(jì)學(xué)家F·Galton

和他的學(xué)生、現(xiàn)代統(tǒng)計(jì)學(xué)的奠基者之一K·Pearson在研究父母身高與其子女身高的遺傳問題時(shí),觀察了1078對(duì)夫婦,以每對(duì)夫婦中父親的身高作為自變量X,而取他們的一個(gè)成年兒子的身高作為應(yīng)變量Y,將結(jié)果在平面直角坐標(biāo)系上繪成散點(diǎn)圖,發(fā)現(xiàn)趨勢(shì)近乎一條直線。兒子身高(Y,英寸)與父親身高(X,英寸)存在線性關(guān)系:。也即高個(gè)子父代的子代在成年之后的身高平均來說不是更高,而是稍矮于其父代水平,而矮個(gè)子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton將這種趨向于種族穩(wěn)定的現(xiàn)象稱之“回歸”。目前,“回歸”已成為表示變量之間某種數(shù)量依存關(guān)系的統(tǒng)計(jì)學(xué)術(shù)語,并且衍生出“回歸方程”“回歸系數(shù)”等統(tǒng)計(jì)學(xué)概念。如研究糖尿病人血糖與其胰島素水平的關(guān)系,研究?jī)和挲g與體重的關(guān)系等。3.函數(shù)關(guān)系與回歸關(guān)系函數(shù)關(guān)系:確定。例如園周長(zhǎng)與半徑:y=2πr回歸關(guān)系:不確定。例如血壓和年齡的關(guān)系,直線回歸的任務(wù)就是找出一條最能描述變量間非確定性數(shù)量關(guān)系的一條直線,此直線為回歸直線,相應(yīng)的直線方程稱為直線回歸方程(linearregressionequation)。

4.直線回歸方程的一般表達(dá)式為

為各X處Y的總體均數(shù)的估計(jì)。a為回歸直線在y軸上的截距0yxa>0a=0a<0a0yxb>0b=0b<0

b為回歸系數(shù),即回歸直線的斜率;其統(tǒng)計(jì)學(xué)意義是x增加(減)一個(gè)單位,y平均變動(dòng)b個(gè)單位

b=0

a:截距(intercept),直線與Y軸交點(diǎn)的縱坐標(biāo)(X=0)。b:斜率(slope),回歸系數(shù)(regressioncoefficient)。意義:X每改變一個(gè)單位,Y平均改變b個(gè)單位。

b>0,Y隨X的增大而增大(減少而減少)——斜上;

b<0,Y隨X的增大而減?。p少而增加)——斜下;

b=0,Y與X無直線關(guān)系——

水平。

|b|越大,表示Y隨X變化越快,直線越陡峭。

,a與b分是與相應(yīng)的樣本估計(jì)值5.直線回歸方程參數(shù)的計(jì)算y=a+bx

^

最小二乘法原則(leastsquaremethod):使各實(shí)際散點(diǎn)(Y)到直線()的縱向距離的平方和最小。即使(殘差或剩余值)最小。Yi(Y的估計(jì)值)

=a+bXi

Yi估計(jì)值i殘差i=Yi–估計(jì)值i殘差(residual)或剩余值,即實(shí)測(cè)值Y與假定回歸線上的估計(jì)值的縱向距離。求解a、b實(shí)際上就是“合理地”找到一條能最好地代表數(shù)據(jù)點(diǎn)分布趨勢(shì)的直線。因?yàn)橹本€一定經(jīng)過“均數(shù)”點(diǎn)例9-1

某地方病研究所調(diào)查了8名正常兒童的尿肌酐含量(mmol/24h)如表9-1。估計(jì)尿肌酐含量(Y)對(duì)其年齡(X)的回歸方程。

表9-18名正常兒童的年齡(歲)與尿肌酐含量(mmol/24h)

(1)

由原始數(shù)據(jù)作散點(diǎn)圖,觀察兩變量間的趨勢(shì)8名正常兒童的年齡(歲)與尿肌酐含量(mmol/24h)可在自變量實(shí)測(cè)范圍內(nèi)遠(yuǎn)端取易于讀數(shù)的X值代入回歸方程得到一個(gè)點(diǎn)的坐標(biāo),連接此點(diǎn)與點(diǎn)(,)也可繪出回歸直線。6、直線回歸中的統(tǒng)計(jì)推斷(一)回歸方程的假設(shè)檢驗(yàn)建立樣本直線回歸方程,只是完成了統(tǒng)計(jì)分析中兩變量關(guān)系的統(tǒng)計(jì)描述,研究者還須回答它所來自的總體的直線回歸關(guān)系是否確實(shí)存在,即是否對(duì)總體有存在?1.方差分析

X或如果兩變量間總體回歸關(guān)系確實(shí)存在,回歸的貢獻(xiàn)就要大于隨機(jī)誤差,大到何種程度時(shí)可以認(rèn)為具有統(tǒng)計(jì)意義,可計(jì)算統(tǒng)計(jì)量F目的:推斷總體回歸系數(shù)是否為0,確定所求得的回歸方程是否成立。2.t檢驗(yàn)即各實(shí)際點(diǎn)與回歸線縱軸方向的離散程度,即標(biāo)準(zhǔn)估計(jì)誤差例9-2

檢驗(yàn)例9-1數(shù)據(jù)得到的直線回歸方程是否成立?

(1)方差分析

表9-2方差分析表

列出方差分析表如表9-2。決定系數(shù)(coefficientofdetermination):回歸平方和與總平方和之比,取值在0到1之間且無單位,其大小反映了回歸貢獻(xiàn)的相對(duì)程度,也就是在Y的總變異中回歸關(guān)系所能解釋的百分比。(2)t檢驗(yàn)(二)總體回歸系數(shù)的可信區(qū)間

利用上述對(duì)回歸系數(shù)的t檢驗(yàn),可以得到β的1-雙側(cè)可信區(qū)間為

例9-3

根據(jù)例9-1中所得b=0.1392,估計(jì)其總體回歸系數(shù)的雙側(cè)95%可信區(qū)間。(0.1392-2.447×0.0304,0.1392+2.447×0.0304)=(0.0648,0.2136)(三)利用回歸方程進(jìn)行估計(jì)和預(yù)測(cè)

(9-15)

(9-14)

反映其抽樣誤差大小的標(biāo)準(zhǔn)誤為(9-16)

(9-17)

例9-4用例9-1所得直線回歸方程,計(jì)算當(dāng)X0=12時(shí),的95%可信區(qū)間和相應(yīng)個(gè)體值的95%預(yù)測(cè)區(qū)間。計(jì)算步驟例9-1、例9-2已計(jì)算出

95%μ的可信區(qū)間與個(gè)體Yi的預(yù)測(cè)范圍有關(guān)數(shù)據(jù)編號(hào)XYY_hat均數(shù)標(biāo)準(zhǔn)誤個(gè)值標(biāo)準(zhǔn)誤均數(shù)下限均數(shù)上限個(gè)值下限個(gè)值上限1133.543.4710.12710.23443.16023.78242.89774.04492113.013.1930.08320.21382.98923.39662.66973.7161393.092.9150.07130.20952.74013.08892.40203.4270462.482.4970.12710.23442.18582.80801.92333.0705582.562.7750.08320.21382.57162.97902.25213.29856103.363.0540.07130.20952.87933.22812.54123.56627123.183.3320.10310.22233.07993.58432.78823.8760872.652.6360.10310.22232.38392.88832.09223.1800直線回歸方程的應(yīng)用描述兩變量的依存數(shù)量關(guān)系;利用回歸方程進(jìn)行預(yù)測(cè):由易測(cè)的變量值估算難算的變量值(由x估計(jì)y);X:汽車流量(輛/小時(shí)),y:NOx(mg/M3)y=-1.674+0.0001838x

^利用回歸方程進(jìn)行控制:即利用回歸方程進(jìn)行逆估計(jì)(由y估計(jì)x)。第二節(jié)直線相關(guān)

(linearcorrelation)

簡(jiǎn)單相關(guān)(simplecorrelation),用于雙變量正態(tài)分布資料。進(jìn)行直線相關(guān)分析的基本任務(wù)在于根據(jù)x、y的實(shí)際觀測(cè)值計(jì)算表示兩個(gè)相關(guān)變量x與y線性相關(guān)程度和性質(zhì)的統(tǒng)計(jì)指標(biāo)—相關(guān)系數(shù)r,并進(jìn)行顯著性檢驗(yàn)。

1.直線相關(guān)的概念

直線相關(guān)是研究?jī)勺兞縳、y之間協(xié)同變化的線性關(guān)系

的分析方法。體重(kg),x肺活量(),YL十名女中學(xué)生體重與肺活量散點(diǎn)圖2.對(duì)資料的要求

x、y都是正態(tài)分布資料的隨機(jī)變量。3.相關(guān)系數(shù)

(correlationcoefficient,r)

表示方法:

-1r

1*意義:描述兩個(gè)變量直線相關(guān)的方向與密切程度的指標(biāo)。正相關(guān)負(fù)相關(guān)0<r<1-1<r<0相關(guān)系數(shù)示意:r=1r=-1完全正相關(guān)完全負(fù)相關(guān)相關(guān)系數(shù)示意r=0r=0r=0零相關(guān)零相關(guān)零相關(guān)計(jì)算方法:__(x-x)(y-y)l

xyr=————————————=——————___________________________(x-x)2(y-y)2

l

xx·l

yy__(x)(y)l

xy=(x-x)(y-y)=xy-—————n__(x)2lxx=(x-x)2=x2-————n_(y)2lyy=(y-y)2=y2-————n_10名女中學(xué)生的體重(x)與肺活量(y)的直線相關(guān)計(jì)算編號(hào)XYX2Y2XY

(1)(2)(3)(4)(5)(6)

1351.6012252.560056.002371.6013692.560059.203372.4013695.760088.804402.1016004.410084.005402.6016006.7600104.006422.5017646.2500105.007422.6517647.0225111.308432.7518497.5625118.259442.7519367.5625121.00452.2020254.840099.00∑40523.151650155.2875946.55___________________________(x-x)2(y-y)2

l

xx·l

yy計(jì)算:__(x-x)(y-y)l

xyr=————————————=——————__(x)(y)l

xy=(x-x)(y-y)=xy-—————n__=8.975(x)2lxx=(x-x)2=x2-————n_=98.5

(y)2lyy=(y-y)2=y2-————n_=1.69525r=8.975√98.51.69525=0.69454.相關(guān)系數(shù)的假設(shè)檢驗(yàn)?zāi)康模簷z驗(yàn)r

是否來自總體相關(guān)系數(shù)=0

的 總體,推斷兩變量的相關(guān)關(guān)系是否成立。r-0rt=———=——————,Sr

1-r2———n-2________=n-2Sr為相關(guān)系數(shù)的標(biāo)準(zhǔn)誤公式:

檢驗(yàn)假設(shè):H0:=0,H1:0,=0.05r-0rt=———=——————,Sr

1-r2———n-2________=n-2t=0.6945(1-0.69452)/(10-2)√=2.730=n–2=10–2=8P<0.05結(jié)論:可認(rèn)為該地女中學(xué)生的體重與肺活量有正相關(guān)關(guān)系由例9-1算得,按公式(9-18)

例9-5

對(duì)例9-1數(shù)據(jù)(見表9-1),計(jì)算8名兒童的尿肌酐含量與其年齡的相關(guān)系數(shù)。例9-6對(duì)例9-5所得r值,檢驗(yàn)?zāi)蚣◆颗c年齡是否有直線相關(guān)關(guān)系?檢驗(yàn)步驟本例n=8,r=0.8818,按公式(9-19)決定系數(shù)(coefficientofdetermination)

定義為回歸平方和與總平方和之比,計(jì)算公式為:(9-23)

取值在0到1之間且無單位,其數(shù)值大小反映了回歸貢獻(xiàn)的相對(duì)程度,也就是在Y的總變異中回歸關(guān)系所能解釋的百分比。

五、直線回歸與相關(guān)應(yīng)用的注意事項(xiàng)

1.根據(jù)分析目的選擇變量及統(tǒng)計(jì)方法直線相關(guān)用于說明兩變量之間直線關(guān)系的方向和密切程度,X與Y沒有主次之分(反映兩變量的相互關(guān)系)。直線回歸則進(jìn)一步地用于定量刻畫應(yīng)變量Y對(duì)自變量X在數(shù)值上的依存關(guān)系(反映兩變量的依存關(guān)系),其中應(yīng)變量的定奪主要依專業(yè)要求而定,可以考慮把易于精確測(cè)量的變量作為X,另一個(gè)隨機(jī)變量作Y,例如用身高估計(jì)體表面積。兩個(gè)變量的選擇一定要結(jié)合專業(yè)背景,不能把毫無關(guān)聯(lián)的兩種現(xiàn)象勉強(qiáng)作回歸或相關(guān)分析。2.進(jìn)行相關(guān)、回歸分析前應(yīng)繪制散點(diǎn)圖

(1)

散點(diǎn)圖可考察兩變量是否有直線趨勢(shì);(2)

可發(fā)現(xiàn)離群點(diǎn)(outlier)。

散點(diǎn)圖對(duì)離群點(diǎn)的識(shí)別與處理需要從專業(yè)知識(shí)和現(xiàn)有數(shù)據(jù)兩方面來考慮,結(jié)果可能是現(xiàn)有回歸模型的假設(shè)錯(cuò)誤需要改變模型形式,也可能是抽樣誤差造成的一次偶然結(jié)果甚至過失誤差。需要認(rèn)真核對(duì)原始數(shù)據(jù)并檢查其產(chǎn)生過程認(rèn)定是過失誤差,或者通

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論