版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、直線回歸分析Linear Regression AnalysisPage 2直線回歸分析:主要內(nèi)容引言直線回歸的定義直線回歸方程的求解回歸系數(shù)的t檢驗(yàn)回歸問(wèn)題的方差分析直線回歸系數(shù)和回歸方程的解釋與直線回歸有關(guān)的區(qū)間估計(jì)相關(guān)與回歸的區(qū)別和聯(lián)系正確應(yīng)用Page 3引言對(duì)于2歲時(shí)的身高和成年后身高間的關(guān)系即便具有相同的2歲身高,成年后的身高也不一定相同; 2歲身高X與成年后身高Y的散點(diǎn)圖Y 成年后的身高(英寸)X 兩歲時(shí)的身高(英寸)3032343638406365676971Page 4引言對(duì)于女大學(xué)生的體重和肺活量間的關(guān)系即便具有相同的體重,肺活量也不一定相同;Y 肺活量(L)X 體重(kg)
2、40602.04.03.02.53.5504555女大學(xué)生體重(X)與肺活量(Y)的散點(diǎn)圖Page 5折衷的解釋2歲身高影響成年的身高,但并非確定地決定它(determine it exactly) ;女學(xué)生的體重雖然影響了肺活量;但并非確定地決定它;因此,雖然它們之間有數(shù)量關(guān)系,但并非確定性的數(shù)量關(guān)系。是一種非確定性關(guān)系;一種宏觀的關(guān)系!Page 6所謂確定性關(guān)系是指兩變量間的關(guān)系是函數(shù)關(guān)系。已知一個(gè)變量的值,另一個(gè)變量的值可以通過(guò)這種函數(shù)關(guān)系精確計(jì)算出來(lái)。非確定性關(guān)系是指兩變量在宏觀上存在關(guān)系,但并未精確到可以用函數(shù)關(guān)系來(lái)表達(dá)。Page 7直線回歸的定義宏觀上來(lái)講,他們呈直線關(guān)系,但并不能
3、用來(lái)描述。所以我們用“hat”表示估計(jì)值,給定x時(shí)y的條件均數(shù)Page 8 Y 因變量,響應(yīng)變量 (dependent variable, response variable) X 自變量,解釋變量 (independent variable, explanatory variable) b 回歸系數(shù) (regression coefficient, slope) a 截距 (intercept)Page 9不同斜率時(shí)回歸直線的表現(xiàn)XYPage 10小插曲:為什么叫”回歸“? F. Galton K.PearsonPage 11直線回歸方程的求解兩歲時(shí)的身高(英寸)39303234353636
4、30成年身高(英寸)7163636768687064Page 12直線回歸方程的求解:最小二乘原理Y 成年后身高(單位:英寸)X 2歲時(shí)的身高(單位:英寸)3032343638406365676971Page 13直線回歸方程的求解最小二乘法(Least Square Method)Page 14直線回歸方程的求解2歲身高和成年身高之間關(guān)系Page 15直線回歸方程Page 16直線回歸系數(shù)的t檢驗(yàn)回歸系數(shù)也有抽樣誤差!檢驗(yàn)方法針對(duì)回歸系數(shù)b的檢驗(yàn):t檢驗(yàn)針對(duì)回歸方程的檢驗(yàn):F檢驗(yàn)Page 17直線回歸系數(shù)的t檢驗(yàn)總體回歸系數(shù) =0,則回歸關(guān)系不存在。H0:總體回歸系數(shù)為0, =0;H1:總體
5、回歸系數(shù)不為0,0;=0.05。Page 18直線回歸系數(shù)的t檢驗(yàn)Y的剩余標(biāo)準(zhǔn)差扣除X的影響(即回歸所能解釋的部分)后Y本身的變異程度Page 19直線回歸系數(shù)的t檢驗(yàn)名詞辨析: Y的變異 Y本身的變異 Y 體重增加量(g)X 進(jìn)食量(g)600650700750800850900950120140160180200154.42gSY22.630SY.X12.39Page 20直線回歸系數(shù)的t檢驗(yàn)H0:總體回歸系數(shù)0;H1:總體回歸系數(shù)0; =0.05。 =8-2=6按=6查t界值表,得P0.01。按 =0.05水準(zhǔn)拒絕H0,接受H1。認(rèn)為成年身高和2歲時(shí)的身高間存在直線回歸關(guān)系。 Page
6、21回歸系數(shù)與相關(guān)系數(shù)的假設(shè)檢驗(yàn)結(jié)果等價(jià)Page 22回歸方程的方差分析:因變量總變異的分解X P (X,Y)YPage 23Page 24Y的總變異分解未引進(jìn)回歸時(shí)的總變異: (sum of squares about the mean of Y)引進(jìn)回歸以后的變異(剩余): (sum of squares about regression)回歸的貢獻(xiàn),回歸平方和: (sum of squares due to regression)Page 25Y的總變異分解 總n1 回1 剩余n2 總回SSSSr=2Page 26Y的總變異可以用回歸來(lái)解釋的部分即與X有關(guān)的部分不能用X來(lái)解釋的部分即與X
7、無(wú)關(guān)的部分(隨機(jī)誤差)份額的大小可以用相關(guān)系數(shù)的平方來(lái)衡量(決定系數(shù))Page 27回歸方程的方差分析Page 28H0:2歲身高和成年身高無(wú)直線回歸關(guān)系;H1: 2歲身高和成年身高有直線回歸關(guān)系;=0.05。 SS總 =67.5000SS剩 =60.3571SS回 = SS總-SS剩 =67.50-60.36=7.14列方差分析表Page 29方差分析表 F=50.70,今1=1,2=6,查 F界值表,得P0.0001,按 =0.05水準(zhǔn)拒絕H0,接受H1,故可認(rèn)為2歲和成年身高之間有線性回歸關(guān)系。變異來(lái)源SSvMSFP總變異67.50007回 歸60.3571160.357150.700.
8、0001剩 余7.142961.1905Page 30直線回歸中三種假設(shè)檢驗(yàn)間的關(guān)系在直線回歸中,相關(guān)系數(shù)的假設(shè)檢驗(yàn),回歸系數(shù)的假設(shè)檢驗(yàn),以及回歸方程的方差分析結(jié)果等價(jià)。tr=tb=7.12=F1/2=50.701/2Page 31回歸系數(shù)和回歸方程的意義及性質(zhì)b 的意義a 的意義 和 的意義 的意義Page 32b的含義 b的涵義:兩歲身高每高1英寸,成年后的身高平均高0.9286英寸。Page 33a 的意義a 截距(intercept, constant)X=0 時(shí),Y的估計(jì)值a的單位與Y值相同當(dāng)X可能取0時(shí),a才有實(shí)際意義。Page 34估計(jì)值 的意義X=39, = 71.3929 即
9、兩歲身高為39英寸時(shí),其成年后身高均數(shù)的估計(jì)值為71.3929英寸X=35, = 67.6786 即兩歲身高為35英寸時(shí),其成年后身高均數(shù)的估計(jì)值為67.6786英寸給定X時(shí),Y的均數(shù)的估計(jì)值。當(dāng) 時(shí),Page 35編號(hào)2歲(英寸)X成年(英寸)Y估計(jì)值殘差1397171.3929-0.39292306363.0357-0.03573326364.8929-1.89294346766.75000.25005356867.67860.32146366868.6071-0.60717367068.60711.39298306463.03570.9643合計(jì)272534534.00000.0000估
10、計(jì)值與殘差Page 36圖 2歲身高X與成年后身高Y的散點(diǎn)圖X 2歲時(shí)身高3032343638406365676971XY 成年后身高(單位:英寸)Page 37殘差平方和 (residual sum of squares).綜合表示點(diǎn)距直線的距離。在所有的直線中,回歸直線的殘差平方和是最小的。(最小二乘) 的意義Page 38與直線回歸有關(guān)的區(qū)間估計(jì)回歸系數(shù)的可信區(qū)間估計(jì)估計(jì)值 的可信區(qū)間估計(jì)個(gè)體Y值的容許區(qū)間估計(jì)Page 39復(fù)習(xí) 可信區(qū)間 容許區(qū)間均數(shù)的可信區(qū)間: 均數(shù)界值標(biāo)準(zhǔn)誤 個(gè)體的容許區(qū)間(參考值范圍): 均數(shù)界值標(biāo)準(zhǔn)差 Page 40總體回歸系數(shù) 的可信區(qū)間估計(jì)根據(jù) t 分布原理
11、估計(jì):Page 41本例中已計(jì)算得sb=0.1304(0.9286-2.4470.1304, 0.9286-2.4470.1304)=( 0.6095,1.2477)含義用(0.6095, 1.2477)來(lái)估計(jì)兩歲身高與成年身高間的直線回歸系數(shù),可信度為95。Page 42 的可信區(qū)間估計(jì) 樣本 總體Y的總平均給定X時(shí)Y的平均 (Y的條件均數(shù)) 根據(jù) t 分布原理:Page 43X=38時(shí),求 的95%可信區(qū)間 =34,lXX=77159.67, =12.3921當(dāng)X=34 時(shí), =70.464470.46442.4470.4688=(68.88,70.05) 即身高為34英寸的兩歲兒童,估計(jì)
12、其成年后平均身高為70.4644英寸,95可信區(qū)間為(68.88,70.05) (g)。Page 44Y的容許區(qū)間估計(jì) 給定 X 時(shí) Y 的估計(jì)值是 Y 的均數(shù)的一個(gè)估計(jì)。給定X 時(shí) Y 值的容許區(qū)間是 Y 值的可能范圍。 Y的100(1- )%容許限:Page 4570.46442.4471.2694=(67.3583,73.5705)即所有身高為34英寸的兩歲兒童,估計(jì)其成年后有95的個(gè)體身高在(67.36,73.57) 之間。Page 46剩余標(biāo)準(zhǔn)差、條件標(biāo)準(zhǔn)誤、條件標(biāo)準(zhǔn)差抽樣誤差抽樣誤差個(gè)體變異Page 472歲身高(英寸)成年身高(英寸)(英寸)的95%可信區(qū)間Y的95%容許區(qū)間下限
13、上限下限上限306463.035761.448264.623259.929666.1419306363.035761.448264.623259.929666.1419326364.892963.753466.032361.990167.7957346766.750065.806167.693963.918269.5818356867.678666.682268.675064.828970.5283366868.607167.467769.746665.704471.5099367068.607167.467769.746665.704471.5099397171.392969.539073.
14、246768.142574.6432Page 48估計(jì)值、95%可信區(qū)間和95%容許區(qū)間成年后身高英寸X 2歲時(shí)的身高(單位:英寸)30 32 34 36 38 58 60 62 64 66 68 70 72 74 76 31 33 35 37 39 Page 49兩條回歸直線的比較 在實(shí)際工作中,有時(shí)需要對(duì)兩條回歸直線進(jìn)行比較,以推斷相應(yīng)的兩總體回歸直線是否平行?是否重疊? 即檢驗(yàn)1=2和1=2 Page 501.兩回歸系數(shù)的比較 H0:12 H1:12 =0.05檢驗(yàn)統(tǒng)計(jì)量t= , -4 兩回歸系數(shù)之差b1-b2的標(biāo)準(zhǔn)誤 Page 51 , 分別指兩樣本自變量的離均差平方和 合并剩余均方
15、Page 52例 某醫(yī)院分別測(cè)定正常成年男子12人和正常成年女子12人的心率(X,次/分)與心臟左室電機(jī)械收縮時(shí)間QS(Y,毫秒)的數(shù)據(jù)見(jiàn)表,試對(duì)兩個(gè)回歸方程進(jìn)行比較。Page 53作散點(diǎn)圖,以判斷兩變量間是否有線性趨勢(shì) 5060708090100300350400450心率(次/分)收縮時(shí)間(毫秒)5060708090300350400450100心率(次/分)收縮時(shí)間(毫秒)Page 54分別對(duì)男子和女子建立回歸方程,并進(jìn)行假設(shè)檢驗(yàn) 男子:t=5.941,=10,P0.001女子:t=7.317,=10,P0.50,按 = 0.05水準(zhǔn),不拒絕H0,可認(rèn)為兩總體回歸系數(shù)相等,即兩條直線平行
16、。 Page 562.兩樣本截距的比較 斜率相等,說(shuō)明兩條回歸線平行。若需進(jìn)一步了解這兩條回歸線是否重合,還須檢驗(yàn)兩條回歸線的截距是否相等。如果斜率不等,則沒(méi)有必要對(duì)截距進(jìn)行檢驗(yàn)。Page 57合并的離均差平方和合并剩余標(biāo)準(zhǔn)差為: 合并回歸系數(shù)為兩個(gè)回歸系數(shù)的加權(quán)平均: Page 58兩截距的假設(shè)檢驗(yàn)統(tǒng)計(jì)量為:自由度為: Page 59例(上例續(xù)) 比較兩回歸線的截距是否相等?建立假設(shè):H0:兩總體截距相等;H1:兩總體截距不等。 =0.10Page 60(lXX)c=858.6667+1338.9167 =2197.5834(lXY)c= -1427.3333+(2351.25) = -37
17、78.5833(lYY)c=3044.9167+4900.25 =7945.1667則:Page 61按自由度=12+12-3=21查t界值表,得t0.10,21=1.721,P0.10,按0.10水準(zhǔn),拒絕H0,可認(rèn)為兩總體回歸線的截距不等。Page 62過(guò)定點(diǎn)的直線回歸 例 在用熒光光度法測(cè)定全血硒的研究中,分別取不同硒含量的標(biāo)準(zhǔn)液,消化后測(cè)定其熒光強(qiáng)度,試作標(biāo)準(zhǔn)直線。含硒量(g)X熒光強(qiáng)度Y0.0000.000.0254.360.0509.310.10017.130.15025.030.20036.22Page 63若作類似于上節(jié)的直線回歸得若要以硒含量去估計(jì)熒光強(qiáng)度的話,有一樣本,其硒
18、含量為0,理論上熒光強(qiáng)度為0,但用回歸方程去估計(jì)為-0.078,不切合實(shí)際。Page 64醫(yī)學(xué)研究中應(yīng)用直線回歸,經(jīng)常會(huì)遇到這種特殊情況,即所求回歸直線除了要根據(jù)若干對(duì)觀察值進(jìn)行最佳擬合外,還要求所擬合的直線必須經(jīng)過(guò)某一定點(diǎn)(X0,Y0)。這在應(yīng)用光電比色分析、熒光分析、火焰光度測(cè)定以及同位素測(cè)定等實(shí)驗(yàn)方法來(lái)繪制標(biāo)準(zhǔn)直線時(shí)常會(huì)遇到。Page 65設(shè)有n對(duì)觀察值及定點(diǎn)(X0,Y0),求經(jīng)過(guò)此定點(diǎn)并擬合此n對(duì)(X,Y) 值的直線回歸方程為: - Y0 = b (X- X0 )方程中只有一個(gè)待定參數(shù)b。由最小二乘法可得回歸系數(shù)b的計(jì)算公式為: 剩余平方和為: Page 66剩余標(biāo)準(zhǔn)差為: 回歸系數(shù)標(biāo)
19、準(zhǔn)誤sb為:回歸系數(shù)的檢驗(yàn)統(tǒng)計(jì)量為:=n-1 Page 67Page 68直線回歸與直線相關(guān)的區(qū)別與聯(lián)系聯(lián)系均表示線性關(guān)系;符號(hào)相同:共變方向一致;假設(shè)檢驗(yàn)結(jié)果相同:是否存在共變關(guān)系;二者間可以相互換算用回歸解釋相關(guān)Page 69直線回歸與直線相關(guān)的區(qū)別與聯(lián)系區(qū)別r 沒(méi)有單位,b有單位;所以,相關(guān)系數(shù)與單位無(wú)關(guān),回歸系數(shù)與單位有關(guān);相關(guān)表示相互關(guān)系;回歸表示依存關(guān)系;對(duì)資料的要求不同:當(dāng)X和Y都是隨機(jī)的,可以進(jìn)行相關(guān)和回歸分析;當(dāng)Y是隨機(jī)的(X是控制的),理論上只能作回歸而不能作相關(guān)分析; I型回歸:X是精確控制的;II型回歸:X是隨機(jī)的。由X推算Y:由Y推算X:Page 70直線相關(guān)和回歸分
20、析的正確應(yīng)用1.相關(guān)和回歸要有實(shí)際意義,謹(jǐn)防多個(gè)變量間的相關(guān)性所帶來(lái)的虛假關(guān)系Page 71鸛帶來(lái)孩子?Texas鸛的數(shù)目和孩子數(shù)目的相關(guān)系數(shù)為0.8250;鸛的數(shù)目和婦女?dāng)?shù)目的相關(guān)系數(shù)為0.9145;多個(gè)變量間的相關(guān)帶來(lái)的假性相關(guān)Page 72直線相關(guān)和回歸分析的正確應(yīng)用2.充分利用散點(diǎn)圖,判斷:線性趨勢(shì)離群值 對(duì)資料本身的要求:雙變量正態(tài)分布 同質(zhì)性 Page 73散點(diǎn)圖的作用飛行員的著陸操作評(píng)分(Y)與焦慮程度(X)Page 74例 Anscomebe(1973)給出了下表中兩個(gè)變量x與y的四組數(shù)據(jù),其中第一、二、三組的x值相同。請(qǐng)對(duì)這四組數(shù)據(jù)分別作直線回歸分析,并加討論。Page 75四組數(shù)據(jù)的回歸方程均為 F=18.0 p=0.0022Page 76Page 77Page 78Page 79Page 80我國(guó)19401988年間不同月份的男性嬰兒死亡率()的季節(jié)性分析男性嬰兒死亡率()月份Page 81事故發(fā)生數(shù)與時(shí)間的關(guān)系170事故數(shù)時(shí)間 (月)010203040506070809010
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 病床控制系統(tǒng)課程設(shè)計(jì)
- 玻璃安全評(píng)價(jià)課程設(shè)計(jì)
- 玻璃制品的設(shè)計(jì)課程設(shè)計(jì)
- 愛(ài)跳的猴子幼兒課程設(shè)計(jì)
- 愛(ài)護(hù)環(huán)境中班課程設(shè)計(jì)
- 爆破行業(yè)整合方案
- 爆炸技術(shù)課程設(shè)計(jì)
- 澳洲酒店收入審計(jì)方案
- 泵車公司薪酬方案
- 泵房實(shí)施封閉檢查方案
- 天藍(lán)色商務(wù)發(fā)展歷程時(shí)間軸PPT模板課件
- 各潮位站基面關(guān)系
- 高處安全作業(yè)票填寫模板(2022更新)
- 幼兒園繪本故事:《媽媽買綠豆》 PPT課件
- 急腹癥(課堂PPT)
- 物流中心崗位設(shè)置及崗位職責(zé)
- 九年級(jí)人自然社會(huì)教案
- 某市康復(fù)醫(yī)院建立的可行性報(bào)告
- 配位化學(xué) 第2章 配合物的結(jié)構(gòu)和成鍵理論
- 化妝品半成品成品檢驗(yàn)規(guī)程
- 2021年春二年級(jí)語(yǔ)文期中試卷
評(píng)論
0/150
提交評(píng)論