第十章直線相關(guān)與回歸_第1頁
第十章直線相關(guān)與回歸_第2頁
第十章直線相關(guān)與回歸_第3頁
第十章直線相關(guān)與回歸_第4頁
第十章直線相關(guān)與回歸_第5頁
已閱讀5頁,還剩9頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第十章 直線相關(guān)與回歸一、教學大綱要求(一) 掌握內(nèi)容直線相關(guān)與回歸的基本概念。相關(guān)系數(shù)與回歸系數(shù)的意義及計算。相關(guān)系數(shù)與回歸系數(shù)相互的區(qū)別與聯(lián)系。(二)熟悉內(nèi)容相關(guān)系數(shù)與回歸系數(shù)的假設(shè)檢驗。直線回歸方程的應用。秩相關(guān)與秩回歸的意義。(三)了解內(nèi)容曲線直線化。二、 學內(nèi)容精要(一) 直線回歸1. 基本概念直線回歸(linear regression)建立一個描述應變量依自變量變化而變化的直線方程,并要求各點與該直線縱向距離的平方和為最小。直線回歸是回歸分析中最基本、最簡單的一種,故又稱簡單回歸(simple regression)。直線回歸方程中,a、b是決定直線的兩個系數(shù),見表10-1。表1

2、0-1 直線回歸方程a、b兩系數(shù)對比ab含義回歸直線在Y軸上的截距(intercept)。表示X為零時,Y的平均水平的估計值?;貧w系數(shù)(regression coefficient),即直線的斜率。表示X每變化一個單位時,Y的平均變化量的估計值。系數(shù)0a0表示直線與縱軸的交點在原點的上方b0,表示直線從左下方走向右上方,即Y隨X增大而增大系數(shù)0a0表示直線與縱軸的交點在原點的下方br0.05( n-2)時,可認為兩變量X與Y間( )A有一定關(guān)系 B. 有正相關(guān)關(guān)系C一定有直線關(guān)系 D. 有直線關(guān)系答案: D評析 本題考點:直線相關(guān)系數(shù)假設(shè)檢驗的理解。因為直線相關(guān)系數(shù)r是樣本的相關(guān)系數(shù),它是相應

3、總體相關(guān)系數(shù)的估計值。由于抽樣誤差的影響,必須進行顯著性檢驗。r的假設(shè)檢驗是檢驗兩變量是否有直線相關(guān)關(guān)系。|r|r0.05( n-2)時,P0 D. 0,b0,b0Cr0 D. r與b的符號毫無關(guān)系答案: B評析 本題考點:直線相關(guān)與回歸的區(qū)別與聯(lián)系的理解。因為對同一資料而言直線相關(guān)系數(shù)與回歸系數(shù)的方向一致,若能同時計算b和r,它們的符號一致。因此,同一雙變量資料,進行直線相關(guān)與回歸分析,有r0,b0。四、習 題(一) 單項選擇題1 下列( )式可出現(xiàn)負值。A(X)2 BY 2(Y)2/nC(Y) 2 D(X)(Y)2 Y=14+4X是17歲兒童以年齡(歲)估計體重(市斤)的回歸方程,若體重換

4、成國際單位kg,則此方程( )。A截距改變 B回歸系數(shù)改變C兩者都改變 D兩者都不改變3 已知r=1,則一定有( )。Ab=1 Ba=1CSY. X=0 DSY. X= SY4 用最小二乘法確定直線回歸方程的原則是各觀察點( )。A距直線的縱向距離相等B距直線的縱向距離的平方和最小C與直線的垂直距離相等D與直線的垂直距離的平方和最小5 直線回歸分析中,X的影響被扣除后,Y方面的變異可用指標( )表示。A B. C. D. 6 直線回歸系數(shù)假設(shè)檢驗,其自由度為( )。An Bn1Cn2 D2n17 應變量Y的離均差平方和劃分,可出現(xiàn)( )。ASS剩=SS回 BSS總=SS剩CSS總=SS回 D以

5、上均可8 下列計算SS剩的公式不正確的是( )。A B C. D 9 直線相關(guān)系數(shù)可用( )計算。A BC D 以上均可10 當r=0時,回歸方程中有( )。Aa必大于零 B. a必等于Ca必等于零 D. a必等于(二) 名詞解釋1. 直線回歸 2. 回歸系數(shù) 3. 剩余平方和 4. 回歸平方和 5. 直線相關(guān)6. 零相關(guān) 7. 相關(guān)系數(shù) 8. 決定系數(shù) 9. 曲線直線化 10.秩相關(guān)(三) 是非題1 剩余平方和SS剩1=SS剩2,則r1必然等于r2。2 直線回歸反映兩變量間的依存關(guān)系,而直線相關(guān)反映兩變量間的相互直線關(guān)系。3 兩變量關(guān)系越密切r值越大。(四)簡答題1 用什么方法考察回歸直線圖

6、示是否正確?2 剩余標準差的意義和用途?3 某資料n=100,X與Y的相關(guān)系數(shù)為r=0.1,可否認為X與Y有較密切的相關(guān)關(guān)系?4 r與rs的應用條件有何不同?5 應用直線回歸和相關(guān)分析時應注意哪些問題?6 舉例說明如何用直線回歸方程進行預測和控制?7 直線回歸分析時怎樣確定因變量與自變量?(五)計算題110名20歲男青年身高與前臂長的數(shù)據(jù)見表10-2。計算相關(guān)系數(shù)并對=0進行假設(shè)檢驗;計算總體的95%可信區(qū)間。表10-2 10名20歲男青年身高與前臂長身 高(cm)170173160155173188178183180165前臂長(cm)454244414750474649432 某單位研究代

7、乳粉營養(yǎng)價值時,用大白鼠作實驗,得到大白鼠進食量和增加體重的數(shù)據(jù)見表10-3。此資料有無可疑的異常點?求直線回歸方程并對回歸系數(shù)作假設(shè)檢驗。試估計進食量為900g時,大白鼠的體重平均增加多少,計算其95%的可信區(qū)間,并說明其含義。求進食量為900g時,個體Y值的95%容許區(qū)間,并解釋其意義。表10-3 八只大白鼠的進食量和體重增加量鼠號12345678進食量(g)800780720867690787934750增量(g)1851581301801341671861333 某省衛(wèi)生防疫站對八個城市進行肺癌死亡回顧調(diào)查,并對大氣中苯并(a)芘進行監(jiān)測,結(jié)果如下,試檢驗兩者有無相關(guān)?表10-4 八個

8、城市的肺癌標化死亡率和大氣中苯并(a)芘濃度城市編號12345678肺癌標化死亡率(1/10萬)5.6018.5016.2311.4013.808.1318.0012.10苯并(a)芘(g/100m3)0.051.171.050.100.750.500.651.204 就下表資料分析血小板和出血癥的關(guān)系。表10-5 12例病人的血小板濃度和出血癥的關(guān)系病例號123456789101112血小板數(shù)(109/L)12013016031042054074010601260123014402000出血癥狀+五、習題答題要點(一) 單項選擇題1.D 2.C 3.C 4.B 5.C 6.C 7.D 8.B

9、 9.D 10.D(二) 名詞解釋1 直線回歸(linear regression)建立一個描述應變量依自變量變化而變化的直線方程,并要求各點與該直線縱向距離的平方和為最小。直線回歸是回歸分析中最基本、最簡單的一種,故又稱簡單回歸(simple regression)。2 回歸系數(shù)(regression coefficient)即直線的斜率(slope),在直線回歸方程中用b表示,b的統(tǒng)計意義為X每增(減)一個單位時,Y平均改變b個單位。3 剩余平方和(residual sum of squares),SS剩即,它反映X對Y的線性影響之外的一切因素對Y的變異的作用,也就是在總平方和中無法用X解

10、釋的部分。在散點圖中,各實測點離回歸直線越近,也就越小,說明直線回歸的估計誤差越小。4 回歸平方和(regression sum of squares),SS回即,它反映由于X與Y的直線關(guān)系而使Y的總變異所減小的部分,也就是在總平方和中可以用X解釋的部分。回歸平方和越大,說明回歸效果越好。5 直線相關(guān)(linear correlation)又稱簡單相關(guān)(simple correlation),用于雙變量正態(tài)分布資料。有正相關(guān)、負相關(guān)和零相關(guān)等關(guān)系。直線相關(guān)的性質(zhì)可由散點圖直觀的說明。6 零相關(guān)(zerro correlation)是指兩變量間沒有直線相關(guān)關(guān)系。11 相關(guān)系數(shù)又稱積差相關(guān)系數(shù)(c

11、oefficient of product-moment correlation),以符號r表示樣本相關(guān)系數(shù),表示總體相關(guān)系數(shù)。它是說明具有直線關(guān)系的兩個變量間,相關(guān)關(guān)系的密切程度與相關(guān)方向的指標。12 決定系數(shù)(coefficient of determination)即r的平方,說明當SS總固定不變時,回歸平方和的大小決定了r平方的大小。回歸平方和越接近總平方和,則r平方值越接近1。13 曲線直線化(rectification)是曲線擬合的重要手段之一。對于某些非線性的資料可以通過簡單的變量變換使之直線化,用直線回歸分析方法來分析。14. 秩相關(guān)又稱等級相關(guān)(rank correlatio

12、n),是用雙變量等級數(shù)據(jù)作直線相關(guān)分析,適用于下列資料:不服從雙變量正態(tài)分布而不宜作積差相關(guān)分析;總體分布型未知;用等級表示的原始數(shù)據(jù)。(三)是非題1錯。兩樣本剩余平方和SS剩1=SS剩2,但兩樣本總平方和SS總及回歸平方和SS回不一定相等,故兩樣本相關(guān)系數(shù)r1與 r2不一定相等。2正確。3錯。相關(guān)系數(shù)r有正負之分,其值為1r1,在總體相關(guān)系數(shù)不為零,即兩變量確有直線關(guān)系前提下,r絕對值愈接近1,兩個變量間的直線相關(guān)愈密切;愈接近0,相關(guān)愈不密切。(四)簡答題1用以下三種方法判定:直線必須通過點()。若縱坐標、橫坐標無折斷號時,將此線左端延長與縱軸相交,交點的縱坐標必等于截距a。直線是否在自變

13、量X的實測范圍內(nèi)。2剩余標準差用sY. X表示: 其意義是指當X對Y的影響被扣除后,Y方面仍有變異頁:91考慮b=0時,y估計值是相等的,但此時仍然有剩余平方和存在;y的估計值不相等,講的恰好是回歸平方和,因為此時估計值與y的均數(shù)存在離差。這部分變異與X無關(guān),純屬抽樣變異。故sY. X是用來反映Y的剩余變異的,即不考慮X以后Y本身的隨機變異。剩余標準差可用于:估計回歸系數(shù)b的標準誤,進行回歸系數(shù)的區(qū)間估計和假設(shè)檢驗。估計總體中當X為某一定值時,估計值的標準誤。 并可計算的可信區(qū)間,sY. X可作為預報精度的指標。估計總體中當X為某一定值時,個體Y值的標準差。,并計算個體Y值的容許區(qū)間。3n=1

14、00,r=0.1時,對相關(guān)系數(shù)進行t檢驗,按檢驗水準=0.05,拒絕H0(=0),接受H1(0),認為兩變量有相關(guān)關(guān)系,但決定系數(shù)r2=0.12=0.01,表示回歸平方和在總平方和中僅占1%,說明兩變量間的相關(guān)關(guān)系實際意義不大。4積差相關(guān)系數(shù)r用于描述雙變量正態(tài)分布資料的相關(guān)關(guān)系。等級相關(guān)系數(shù)rs適用于下列資料:不服從雙變量正態(tài)分布而不宜作積差相關(guān)分析的資料;總體分布型未知的資料;原始資料是用等級表示的資料。5注意以下五個問題作回歸分析和相關(guān)分析時要有實際意義,不能把毫無關(guān)聯(lián)的兩種現(xiàn)象作回歸、相關(guān)分析,必須對兩種現(xiàn)象間的內(nèi)在聯(lián)系有所認識。在進行回歸分析和相關(guān)分析之前,應繪制散點圖。但觀察點的分

15、布有直線趨勢時,才適宜作回歸、相關(guān)分析。如果散點圖呈明顯曲線趨勢,應使之直線化再行分析。散點圖還能提示資料有無可疑異常點。直線回歸方程的應用范圍一般以自變量的取值范圍為限。若無充分理由證明超過自變量取值范圍外還是直線,應避免外延。雙變量的小樣本經(jīng)t檢驗只能推斷兩變量間有無直線關(guān)系,而不能推斷相關(guān)的緊密程度,要推斷相關(guān)的緊密程度,樣本含量必須很大。相關(guān)或回歸關(guān)系不一定是因果關(guān)系,也可能是伴隨關(guān)系,有相關(guān)或回歸關(guān)系不能證明事物間確有內(nèi)在聯(lián)系。6用直線回歸方程進行預測和控制的步驟根據(jù)研究目的確定預報因子(X)和預報量(Y),由X估計Y值,收集資料。建立預報方程,并進行回歸系數(shù)假設(shè)檢驗。若P小于臨界值

16、,則回歸方程成立。根據(jù)回歸方程在X實測范圍內(nèi)對Y進行預測,并計算X為某定值時,個體Y值波動范圍(容許區(qū)間)。例如,17歲兒童,X為年齡,Y為體重,可根據(jù)年齡預測(估計)體重。統(tǒng)計控制是利用回歸方程進行逆估計,如要求因變量Y值在一定范圍內(nèi)波動,可以通過控制自變量X的取值來實現(xiàn)。步驟同前。例如,針刺啞門穴,進針深度Y與頸圍X間存在直線關(guān)系,可根據(jù)X取值達到控制Y的目的。7型回歸中,X為精密測量和嚴格控制的變量,Y為正態(tài)變量。型回歸中,X、Y均為服從正態(tài)分布的隨機變量,可計算兩個回歸方程。何者為X,何者為Y,根據(jù)研究目的確定。例如,測得某一人群的身高和體重兩變量,若目的只是由身高估計體重,則確定X為

17、身高,Y為體重。 (五)計算題1由原始數(shù)據(jù)及散點圖的初步分析(圖10-1),估計本資料有直線趨勢。(1)計算相關(guān)系數(shù)與=0進行假設(shè)檢驗。H0:=0,即身高與前臂長間無直線相關(guān)關(guān)系H1:0,即身高與前臂長間有直線相關(guān)關(guān)系=0.05,查t界值表,得0.002P0.005,按=0.05水準拒絕H0,接受H1,故可認為20歲男青年身高與前臂長呈正直線相關(guān)。 算總體的95%可信區(qū)間。對r作z變換:或,z=tanh10.8227=1.1651z的95%可信區(qū)間:按r=tanhz對z作反變換,得20歲男青年身高與與前臂長總體相關(guān)系數(shù)的95%可信區(qū)間為(0.4005,0.9567)。2由原始數(shù)據(jù)及散點圖初步分

18、析(圖10-2),估本資料有直線趨勢,故作下列計算。X=6328,X2=,Y=1273,Y2=, ,XY= Y=172.94+0.42XY=47.33+0.26XY=78.29+0.10X 圖10-2 大白鼠的進食量與增加體重散點圖(1)回歸系數(shù)假設(shè)檢驗:H0:0,即進食量與增重之間無直線關(guān)系H1:0,即進食量與增重之間有直線關(guān)系0.05 方差分析,見表10-6。表10-6 方差分析表變異來源SSMSF總變異4052.8757回歸2954.90512954.90516.147剩余1097.9706182.995計算得F=16.147,查F界值表,得PP0.05,按0.05水準,拒絕H0,接受H

19、1,結(jié)論同上。本題故可用直線回歸方程來描述大白鼠的進食量與增加體重的關(guān)系。異常點即對應于殘差(Y)絕對值特大的觀測數(shù)據(jù)見表10-7。表10-7 殘差的計算序號XY Y1800185161.47423.5262780158156.2541.7463720130140.59410.5944867180178.9611.0395690134132.7641.2366787167158.0818.9197934186196.44810.4488750133148.42415.424由散點圖及殘差分析,第一號點(X=800,Y=185)為可疑的異常點。根據(jù)以上的計算結(jié)果,進一步求其總體回歸系數(shù)的95%可

20、信區(qū)間。繪制回歸直線并圖示回歸系數(shù)的95%可信區(qū)間??傮w回歸系數(shù)的95%可信區(qū)間:(bt0.05(n2) Sb,bt0.05(n2) Sb)=(0.2612.44713.5107,0.2612.44713.5107)=(0.1022,0.4198)取X1=690,代入回歸方程=47.326+0.261X,得Y1=132.76;X2=934,Y2=196.45。在圖上確定(690,132.76)和(934,196.45)兩個點,以直線連接即得回歸直線的圖形見圖10-2。按回歸系數(shù)的95%可信區(qū)間下限和上限分別代入,得=78.285,=172.937。回歸系數(shù)的95%可信區(qū)間上、下限對應的兩條直線

21、,即圖10-2中兩條回歸直線,回歸方程為:=78.285+0.1022X,=172.937+0.4198X估計進食量為900g時,大白鼠的體重平均增加多少,計算其95%的可信區(qū)間,并說明其含義。當X=900時,的95%可信區(qū)間:(t0.05(6) ,t0.05(6) )=(187.5742.4478.5446,187.5742.4478.5446)=(166.67,208.48)即總體中,進食量為900g時,大白鼠的體重平均增加187.574g,其95%的可信區(qū)間為166.67208.48g。其含義為:當進食量為900g時,相應的平均增重服從一個正態(tài)分布(此正態(tài)分布的樣本均數(shù)估計值為187.5

22、74g),如果從此正態(tài)分布中重復抽樣100次,這100個可信區(qū)間中理論上將有95個區(qū)間包含真正的總體均數(shù)(雖然這個總體均數(shù)真值是未知的)。求進食量為900g時,個體Y值的95%容許區(qū)間,并解釋其意義。當X=900時,=47.326+0.261X=187.574,個體Y值的95%容許區(qū)間:(t0.05(6)SY ,t0.05(6)SY)=(187.5742.44716.0002,187.5742.44716.0002)=(148.42,226.73)即估計總體中,進食量為900g時,有95%的大白鼠增加體重在148.42226.73g范圍內(nèi)。3本題資料不服從雙變量正態(tài)分布,宜計算等級相關(guān)系數(shù)。計算過程見表10-8表10-8 八個城市的肺癌標化死亡率和大氣中苯并(a)芘的相關(guān)分析肺癌標化死亡率(1/10萬)苯并(a)芘城市編號X等級Y等級d=d215.6010.0

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論