![第七章相關與回歸_第1頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/22/caeac3f9-cfa5-418c-be3f-8c8c1a4d6caf/caeac3f9-cfa5-418c-be3f-8c8c1a4d6caf1.gif)
![第七章相關與回歸_第2頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/22/caeac3f9-cfa5-418c-be3f-8c8c1a4d6caf/caeac3f9-cfa5-418c-be3f-8c8c1a4d6caf2.gif)
![第七章相關與回歸_第3頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/22/caeac3f9-cfa5-418c-be3f-8c8c1a4d6caf/caeac3f9-cfa5-418c-be3f-8c8c1a4d6caf3.gif)
![第七章相關與回歸_第4頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/22/caeac3f9-cfa5-418c-be3f-8c8c1a4d6caf/caeac3f9-cfa5-418c-be3f-8c8c1a4d6caf4.gif)
![第七章相關與回歸_第5頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/22/caeac3f9-cfa5-418c-be3f-8c8c1a4d6caf/caeac3f9-cfa5-418c-be3f-8c8c1a4d6caf5.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、數(shù)據、模型與決策數(shù)據、模型與決策第七章第七章相關與回歸分析相關與回歸分析正相關關系與正比例關系正相關關系與正比例關系l假設速度為每小時5公里,則行駛總路程與行駛時間之間有正比例關系: 行駛總路程(公里)5(公里/小時)行駛時間(小時)l人的身高與腳印長度有這樣的正相關關系正相關關系: 人的身高6.876腳印長度誤差l腳印長度一樣的人,長得并不一樣高,這有多個方面的原因。他們來自不同的家庭,遺傳基因不同、健康狀況不同、飲食不同、運動習慣不同等都可能是造成腳印一樣長但身高不一樣的原因。每一個原因都可能產生誤差,而正相關關系右邊的誤差是這一系列誤差的總和。負相關關系負相關關系 美國紐約州的一所醫(yī)院全
2、年的289411份處方中905份處方有錯誤。平均每天發(fā)生2.5份錯誤處方。醫(yī)生的工作年限和經驗與處方的錯誤率有極為密切的關系。第一年工作的醫(yī)生平均錯誤率為0.425%,第二年工作的平均為0.234%,第三年工作的平均為0.198%,第四年工作的平均為0.081%。醫(yī)生的工作年限與錯誤率有負相負相關關系關關系。不論醫(yī)生的工作年限是長還是短,都有可能開錯處方??偟膩碚f,工作年限短的醫(yī)生開錯處方的可能性比工作年限長的醫(yī)生大。父親及其成年兒子的身高正相關父親及其成年兒子的身高正相關 英國著名生物和統(tǒng)計學家高爾頓(F. Galton,1822 1911)和他的學生,著名統(tǒng)計學家皮爾遜(K. Pearso
3、n,1856 1936)對測量得到的1078個父親及其成年兒子身高的成對數(shù)據進行了研究。研究結果發(fā)現(xiàn),他們之間有正相關關系。父親比較高則其成年兒子往往也比較高,而父親比較矮則其成年兒子往往也比較矮。這也就是說,若父親比較高則其成年兒子總的趨勢也比較高。同樣道理,比較矮的父親其成年兒子總的趨勢也比較矮。父親身高與兒子身高的父親身高與兒子身高的1078對數(shù)據的散點圖對數(shù)據的散點圖 兒子身高父親身高兒子身高的回歸兒子身高的回歸 成年兒子的身高(厘米) 其父親的身高(厘米)誤差l成年兒子的身高的分布為正態(tài)分布 ,l均值 其父親的身高l成年兒子的平均身高為 其父親的身高。l成年兒子的身高超過與低于 其父
4、親的身高 的可能性都等于0.5。516. 067.85516. 067.85516. 067.85516. 067.85),(2N長得比較高的父親其成年兒子往往比較高長得比較高的父親其成年兒子往往比較高 1)比父親還高的兒子少一些;比父親還高的兒子少一些; 2)沒有父親高的兒子多一些。沒有父親高的兒子多一些。 成年兒子的身高(厘米) 其父親的身高(厘米)誤差l倘若某父親比較高,例如身高180厘米,那么他的成年兒子的身高超過 厘米 的可能性正好等于0.5。l由此可見,成年兒子的身高比他父親身高180厘米還高的可能性不到0.5,而沒有超過他父親身高的可能性大于0.5。516. 067.8555.1
5、78180516. 067.85長得比較矮的父親其成年兒子往往比較矮長得比較矮的父親其成年兒子往往比較矮 1)比父親還矮的兒子少一些;比父親還矮的兒子少一些; 2)沒有父親矮的兒子多一些。沒有父親矮的兒子多一些。 成年兒子的身高(厘米) 其父親的身高(厘米)誤差l倘若某父親比較矮,例如身高165厘米,那么他的成年兒子的身高超過 厘米 的可能性正好等于0.5。l由此可見,成年兒子的身高比他父親身高165厘米還矮的可能性不到0.5,而超過他父親身高的可能性大于0.5。516. 067.8581.171165516. 067.85兒子身高的回歸兒子身高的回歸 成年兒子往往比較高長得比較高的父親其成年
6、兒子往往比較矮長得比較矮的父親其比 父 親還比 父 親還高 的 兒子高 的 兒子少一些少一些沒有父沒有父親高的親高的兒子多兒子多一些一些沒有父沒有父親矮的親矮的兒子多兒子多一些一些比 父 親還比 父 親還矮 的 兒子矮 的 兒子少一些少一些由父親身高由父親身高預測預測兒兒子身高子身高l成年兒子的身高(厘米) 其父親的身高(厘米) 9.51厘米,概率95%l某父親身高170厘米,則預測其成年兒子身高為 厘米,上下誤差不超過9.51厘米,概率95%。l身高170厘米的父親,其成年兒子身高的置信水平為95%的預測區(qū)間為 (厘米),即l區(qū)間的長度19.02厘米, 太大了。39.173170516. 0
7、67.85516. 067.8551. 939.1739 .182,88.16351. 939.173,51. 939.173身高身高l遺傳因素不可忽視。它能改變一個人身高的25% 。l受到經濟狀況制約。繁榮時期人類身體長高,危機時期人類身體長矮。 上個世紀德國人長高,例如男性平均長高18厘米。 然而東德人的身高比西德人增長得慢。在東德城市里的食品供應遠好于農村,因而東德的農村居民比城市居民矮2.2厘米 身高增長特別快的是日本人。 美國人卻往胖里長,甚至變矮成趨勢。今天30歲的美國人比20歲的美國人高。由父母親身高由父母親身高預測預測孩子孩子身高身高l成年兒子身高 56.6990.419父親身
8、高(厘米) 0.265母親身高(厘米)3厘米,概率95% l成年女兒身高 40.0890.306父親身高(厘米) 0.431母親身高(厘米)3厘米,概率95% 倘若根據父親和祖父的身高預測成年兒子的身高好不好?回歸模型:回歸模型:y = ax + b + el回歸模型中有兩類變量:自變量和因變量?;貧w模型可用來根據自變量的數(shù)值預測因變量。l在美國黃石國家公園間歇噴泉的例子中,可觀察的“噴發(fā)的持續(xù)時間“稱為是自變量,記為x。待預報的“到下一次噴發(fā)間隔時間”稱為是因變量,記為y。l線性回歸模型(簡稱回歸模型):y = ax + b + e 其中a是斜率,b是截距,e是誤差(error)。l如果斜率
9、a大于0,自變量x和因變量y直線正相關(簡稱正相關)。如果斜率a小于0,自變量x和因變量y直線負相關(簡稱負相關) 。 回歸模型:回歸模型:y = ax + b + el回歸模型: 問題1) 估計斜率a; 問題2) 估計截距b。l有了斜率a與截距b的估計,就可以在知道自變量x之后,計算因變量y的預測值。l通常假設誤差e是正態(tài)分布 。 問題3)估計誤差標準差 。l有了誤差標準差的估計,就可以計算因變量y的概率例如為95%的預測誤差。), 0(2Nebaxy預測問題的第預測問題的第1步工作是收集數(shù)據步工作是收集數(shù)據 1978 年 8 月 1 日至 8 月 8 日清晨 8 時至午夜老忠實間歇噴泉的噴
10、發(fā)持續(xù)時間(x 分鐘)和到下一次噴發(fā)的間隔時間(y 分鐘)的 107 對數(shù)據8 月 1 日 8 月 2 日8月3日 8 月4 日 8月5日 8 月 6 日 8月7日 8月8日y xy xy x y xy x y xy x y x784.4743.9684.0764.0803.5844.1502.3934.7551.7764.9581.7744.6753.4804.3561.7803.9693.7573.1904.0421.8914.1511.8793.2531.9824.6512.0764.5823.9844.3532.3863.8511.9854.6451.8884.7511.8804.64
11、91.9823.5754.0733.7673.7684.3863.6723.8753.8753.8662.5844.5704.1793.7603.8863.4714.0672.3814.4764.1834.3763.3552.0734.3562.9834.6571.9713.6723.7773.7551.8754.6733.5704.0833.7501.7954.6511.7824.0541.8834.4511.9804.6782.9813.5532.0894.3441.8784.1611.8734.7754.2733.9764.3551.8864.5482.0774.2734.4704.18
12、84.1754.0834.1612.7784.6611.9814.5512.0804.8794.1預測問題的第預測問題的第2步工作步工作制作交叉分組列表判斷變量之間的相關性制作交叉分組列表判斷變量之間的相關性 到下一次噴發(fā)的間隔時間911000000012819000036114718000151511861702210430516017111100415061000001.62.02.12.52.63.03.13.53.64.04.14.54.65.0噴發(fā)持續(xù)時間預測問題的第預測問題的第2步工作步工作通常畫散點圖判斷變量之間的相關性通常畫散點圖判斷變量之間的相關性噴發(fā)持續(xù)時間與到下一次噴發(fā)的
13、間隔時間噴發(fā)持續(xù)時間與到下一次噴發(fā)的間隔時間直線正相關關系直線正相關關系 有了這條直線如何預報有了這條直線如何預報 到下一次噴發(fā)的間隔時間到下一次噴發(fā)的間隔時間 回歸模型:回歸模型:y = ax + b + el噴發(fā)持續(xù)時間與到下一次噴發(fā)的間隔時間之間的回歸模型: 到下一次噴發(fā)的間隔時間 噴發(fā)持續(xù)時間 , 其中誤差 有正態(tài)分布 。l三個問題; 1) 計算斜率 的估計; 2) 計算截距 的估計; 3) 計算誤差標準差 的估計。 aebe), 0(2Nab預測問題的第預測問題的第3步工作步工作 計算計算斜率斜率a和截距和截距b的估計的估計 建立數(shù)據文件,將噴發(fā)持續(xù)時間的數(shù)據放在A列的第1至第107
14、個單元格,到下一次噴發(fā)的間隔時間的數(shù)據放在B列的第1至第107個單元格; 在其它任意兩個單元格上分別輸入: “=slope(b1:b107,a1:a107)”; “=intercept(b1:b107,a1:a107)”。 則得斜率(Slope) ; 截距(Intercept) 。 注意:注意:首先輸入待預報的因變量的數(shù)據首先輸入待預報的因變量的數(shù)據b1:b107,然,然后輸入可觀察的自變量的數(shù)據后輸入可觀察的自變量的數(shù)據a1:a107。輸入的次序。輸入的次序不能顛倒。不能顛倒。74097.10a82821.33b預測問題的第預測問題的第3步工作:計算回歸直線步工作:計算回歸直線l 有了斜率
15、和截距 的估計,就有了回歸直線:l 有了回歸直線,我們就能根據噴發(fā)持續(xù)時間 的觀察值,預測到下一次噴發(fā)的間隔時間 。倘若這一次噴發(fā)持續(xù) 分鐘,則 到下一次噴發(fā)的間隔時間 的預報值l 預報下一次噴發(fā)大概在66.05112分鐘后發(fā)生。這說明噴發(fā)持續(xù)3分鐘時,到下一次噴發(fā)的間隔時間可能超過66.05112分鐘,有正誤差;也可能不到66.05112分鐘,有負誤差;其平均為66.05112分鐘。波動的幅度,誤差的范圍多大?ab82821.3374097.10 xyxy3xy05112.6682821.33374097.10預測問題的第預測問題的第4步工作步工作 計算回歸標準誤計算回歸標準誤l回歸模型 ,
16、誤差 有正態(tài)分布l誤差標準差 用回歸標準誤來估計。l輸入“=yxste(b1:b107,a1:a107)”,則得因變量y關于自變量x的回歸標準誤(standard error),它等于6.68261。這就是誤差標準差 的估計。 注意:首先輸入待預報的因變量的數(shù)據b1:b107,然后輸入可觀察的自變量的數(shù)據a1:a107。輸入的次序不能顛倒。ebaxye), 0(2N概率與系數(shù)概率與系數(shù)2816. 16449. 19 96 60 00 0. .1 15758. 22816. 16449. 196009600. .1 1 5758. 2%80%90%95%99) 1, 0(N預測問題的第預測問題的
17、第4步工作步工作 給出預測誤差和概率給出預測誤差和概率 得到因變量得到因變量 y 關于自變量關于自變量 x 的回歸標準誤為的回歸標準誤為6.68261之后,就可以計算預報誤差:之后,就可以計算預報誤差:l預報誤差在預報誤差在 之間的之間的概率概率(比例比例)為為80%;l預報誤差在預報誤差在 之間的之間的概率概率(比例比例)為為90%;l預報誤差在預報誤差在 之間之間的概率的概率(比例比例)為為95%;l預報誤差在預報誤差在 之間之間的概率的概率(比例比例)為為99%。 概率越大,預報誤差越大,區(qū)間長度越長。概率越大,預報誤差越大,區(qū)間長度越長。56443. 868261. 62816. 19
18、9223.1068261. 66449. 109792.1368261. 69600. 121307.1768261. 65758. 2美國黃石國家公園間歇噴泉的預報問題美國黃石國家公園間歇噴泉的預報問題l 到下一次噴發(fā)的間隔時間的預報值到下一次噴發(fā)的間隔時間的預報值 (10.74097這一次噴發(fā)持續(xù)時間這一次噴發(fā)持續(xù)時間 33.82821)8.56443分鐘,概率分鐘,概率80%。l 到下一次噴發(fā)的間隔時間的預報值到下一次噴發(fā)的間隔時間的預報值 (10.74097這一次噴發(fā)持續(xù)時間這一次噴發(fā)持續(xù)時間 33.82821)10.99223分鐘,概率分鐘,概率90%。l 到下一次噴發(fā)的間隔時間的預
19、報值到下一次噴發(fā)的間隔時間的預報值 (10.74097這一次噴發(fā)持續(xù)時間這一次噴發(fā)持續(xù)時間 33.82821)13.09792分鐘,概率分鐘,概率95%。l 到下一次噴發(fā)的間隔時間的預報值到下一次噴發(fā)的間隔時間的預報值 (10.74097這一次噴發(fā)持續(xù)時間這一次噴發(fā)持續(xù)時間 33.82821)17.21307分鐘,概率分鐘,概率99%。 使用回歸模型進行預測的使用回歸模型進行預測的4個步驟個步驟 收集數(shù)據;收集數(shù)據;畫散點圖判斷變量之間有沒有相關性;畫散點圖判斷變量之間有沒有相關性;計算斜率和截距的估計,得到回歸直線,計算斜率和截距的估計,得到回歸直線,給出預測值;給出預測值;計算回歸標準誤,
20、給出預測誤差和概率。計算回歸標準誤,給出預測誤差和概率。 畫散點圖判斷變量之間有沒有相關性這個步畫散點圖判斷變量之間有沒有相關性這個步驟能否省略?驟能否省略?異常值異常值 異異常常值值強影響力觀察值強影響力觀察值 異異常常值值強影響力觀察值強影響力觀察值成對數(shù)據成對數(shù)據 有有n對觀察數(shù)據:對觀察數(shù)據: l變量一的變量一的(樣本樣本)均值均值 、方差、方差 和標準差和標準差 。l變量二的變量二的(樣本樣本)均值均值 、方差、方差 和標準差和標準差 。l計算變量一和變量計算變量一和變量2的的(樣本樣本)相關系數(shù)相關系數(shù) : “=correl(起始格:終止格,起始格:終止起始格:終止格,起始格:終止
21、格格) 注意:輸入的次序可以先變量一,然后變量注意:輸入的次序可以先變量一,然后變量二。也可以先變量二,然后變量一。輸入的次二。也可以先變量二,然后變量一。輸入的次序可以顛倒。序可以顛倒。 變變量量二二變變量量一一 nnyxyxyx,221121s22s1s2s1x2xr相關系數(shù)相關系數(shù)l變量一和變量二的相關系數(shù)變量一和變量二的相關系數(shù) 與量綱與量綱(單位單位)沒沒有關系,其值一定在有關系,其值一定在1和和1之間。之間。l變量一和變量二正相關時,相關系數(shù)變量一和變量二正相關時,相關系數(shù) 大于大于0。相關系數(shù)相關系數(shù) 越接近越接近1,變量一和變量二就越正,變量一和變量二就越正相關。相關。l變量一
22、和變量二負相關時,相關系數(shù)變量一和變量二負相關時,相關系數(shù) 小于小于0。相關系數(shù)相關系數(shù) 越接近越接近1,變量一和變量二就越負,變量一和變量二就越負相關。相關。l總之,總之, 越大,變量一和變量二就越相關。越大,變量一和變量二就越相關。l變量一和變量二相互獨立時,相關系數(shù)變量一和變量二相互獨立時,相關系數(shù) 等于等于0。相關系數(shù)。相關系數(shù) 越接近越接近0,變量一和變量二就越,變量一和變量二就越相互獨立。相互獨立。rrrrrrr2rr父親及其成年兒子的身高父親及其成年兒子的身高 著名統(tǒng)計學家著名統(tǒng)計學家Karl Pearson(英國,英國,1857-1936)曾進行了一項研究,研究家庭成員曾進行了
23、一項研究,研究家庭成員間的相似性。作為這項研究的一部分,間的相似性。作為這項研究的一部分,他測量了他測量了1078個父親及其成年兒子的身個父親及其成年兒子的身高。經計算,高。經計算,l父親平均身高為父親平均身高為68英寸英寸(即即172.7cm),標,標準差為準差為2.7英寸英寸(即即6.86cm);l兒子平均身高為兒子平均身高為69英寸英寸(即即175.3cm),標,標準差為準差為2.7英寸英寸(即即6.86cm);l它們之間的相關系數(shù)為它們之間的相關系數(shù)為0.5。 噴發(fā)持續(xù)時間和到下一次噴發(fā)的間隔時間噴發(fā)持續(xù)時間和到下一次噴發(fā)的間隔時間 1978年年8月月1日至日至8月月8日清晨日清晨8時
24、至午夜老時至午夜老忠實間歇噴泉的噴發(fā)持續(xù)時間和到下一忠實間歇噴泉的噴發(fā)持續(xù)時間和到下一次噴發(fā)的間隔時間的次噴發(fā)的間隔時間的107對數(shù)據。對數(shù)據。l噴發(fā)持續(xù)時間:平均為噴發(fā)持續(xù)時間:平均為3.46分鐘,標準差分鐘,標準差為為1.04分鐘;分鐘;l到下一次噴發(fā)的間隔時間:平均為到下一次噴發(fā)的間隔時間:平均為71分分鐘,標準差為鐘,標準差為12.97分鐘;分鐘;l它們之間的相關系數(shù)為它們之間的相關系數(shù)為0.8584測定系數(shù)測定系數(shù)l 回歸模型回歸模型l 計算自變量計算自變量 與因變量與因變量 的相關系數(shù)的相關系數(shù)l 稱為回歸模型稱為回歸模型 的測定系數(shù)的測定系數(shù)l , 越接近越接近1,自變量與因變量
25、就越相關。,自變量與因變量就越相關。l 正比例關系:因變量正比例關系:因變量 y (行駛總路程行駛總路程) 5(公里公里/小時小時)自變量自變量 x (行駛時間行駛時間) 因變量因變量 y 的變異完全由自變量的變異完全由自變量 x 的變異而產生的變異而產生l 回歸模型回歸模型 ,因變量,因變量 y 變異并不完全由變異并不完全由自變量自變量 x 的變異而產生。它有多方面的原因,其中的變異而產生。它有多方面的原因,其中有有 的變異是由自變量的變異是由自變量 x 的變異而產生的。這也就的變異而產生的。這也就是說,自變量是說,自變量 x 可以解釋因變量可以解釋因變量 y 的的 個變異。個變異。 eba
26、xy xyr2r2rebaxy 102 r2r2rebaxy 噴發(fā)持續(xù)時間和到下一次噴發(fā)的間隔時間噴發(fā)持續(xù)時間和到下一次噴發(fā)的間隔時間l噴發(fā)持續(xù)時間和到下一次噴發(fā)的間隔時間的相關系數(shù) ,測定系數(shù) 。這107個到下一次噴發(fā)的間隔時間的觀察值的約73.69%的變異是因噴發(fā)持續(xù)時間 的不同而產生的。所建立的回歸直線是比較有效的。l噴發(fā)持續(xù)時間和到下一次噴發(fā)的間隔時間回歸直線: 到下一次噴發(fā)的間隔時間 噴發(fā)持續(xù)時間 其回歸標準誤等于6.68261,概率95%的預報誤差為13.09792分鐘。這個誤差范圍可以接受。7369. 02 r82821.33 8584. 0 r 74097.10父親身高與父親身
27、高與孩子孩子成年后成年后身高身高l 父親身高與其成年兒子身高的相關系數(shù)父親身高與其成年兒子身高的相關系數(shù) ,測定系數(shù)測定系數(shù) 。成年兒子為什么有的高,有的。成年兒子為什么有的高,有的矮,其四分之一的變異是因父親身高的不同而產生矮,其四分之一的變異是因父親身高的不同而產生的,剩余的四分之三是其他原因造成的。這說明所的,剩余的四分之三是其他原因造成的。這說明所建立的回歸直線并不是很有效的。建立的回歸直線并不是很有效的。l 成年兒子的身高的回歸直線:成年兒子的身高的回歸直線: 成年兒子的身高成年兒子的身高 其父親的身高其父親的身高(厘米厘米) 概率概率95%的誤差為的誤差為9.51厘米。誤差范圍偏大
28、。厘米。誤差范圍偏大。l 回歸直線有改進的余地。為此再尋找一個對成年兒回歸直線有改進的余地。為此再尋找一個對成年兒子身高有影響的因素子身高有影響的因素(例如母親身高例如母親身高),建立兩個自,建立兩個自變量的二元回歸模型。變量的二元回歸模型。25. 02 r67.85 5 . 0 r 516. 0使用回歸模型進行預測的使用回歸模型進行預測的6個步驟個步驟 收集數(shù)據;收集數(shù)據;畫散點圖,判斷變量之間有沒有相關性,有沒畫散點圖,判斷變量之間有沒有相關性,有沒有異常值和強影響力觀察值;有異常值和強影響力觀察值;計算相關系數(shù);計算相關系數(shù);計算斜率和截距,得到回歸直線,給出預測值;計算斜率和截距,得到
29、回歸直線,給出預測值;計算回歸標準誤、預測誤差和概率,分析給出計算回歸標準誤、預測誤差和概率,分析給出的預測誤差和概率是否滿足要求。的預測誤差和概率是否滿足要求。計算測定系數(shù),分析得到回歸直線有沒有改進計算測定系數(shù),分析得到回歸直線有沒有改進的余地。若需要改進,則根據問題的實際意義,的余地。若需要改進,則根據問題的實際意義,尋找新的自變量。尋找新的自變量。注:有時,在步驟還馬上計算測定系數(shù),看是否注:有時,在步驟還馬上計算測定系數(shù),看是否有尋找新的自變量的需要。有尋找新的自變量的需要。買書支出買書支出與與家庭收入家庭收入買書支出 家庭收入 買書支出 家庭收入 (y元/年) (x元/月) (y元
30、/年) (x元/月) 450.5 1712 793.2 3331 507.7 1742 660.8 3660 613.9 2043 792.7 3509 563.4 2187 580.8 3579 501.5 2194 612.7 3590 781.5 2404 890.8 3719 541.8 2735 1121 4353 611.1 2948 1094.2 5239 1222.1 3302 1253 6041買書支出買書支出與與家庭收入家庭收入的散點圖的散點圖020040060080010001200140001000200030004000500060007000家庭收入買書支出買書支出
31、買書支出與與家庭收入家庭收入的的相關系數(shù)與測定系數(shù)相關系數(shù)與測定系數(shù)經計算, 買書支出與家庭收入的相關系數(shù)為0.7885; 買書支出關于家庭收入的回歸模型的測定系數(shù)為0.6217。l因變量 y(買書支出)的62.17%的變異依附于自變量 x (家庭收入)的變異。 y尚有超過三分之一的變異需用其他的變量來解釋??磥?,若能尋找到能解釋因變量 y變異的新的自變量,那就更好了。買書支出買書支出與與(家庭收入家庭收入,幾年級學生,幾年級學生)買書支出 家庭收入 年級 買書支出 家庭收入 年級 (y元/年) ( 元/月) (y元/年) ( 元/月) 450.5 1712 4 793.2 3331 7 50
32、7.7 1742 4 660.8 3660 5 613.9 2043 5 792.7 3509 6 563.4 2187 4 580.8 3579 4 501.5 2194 4 612.7 3590 5 781.5 2404 7 890.8 3719 7 541.8 2735 4 1121 4353 9 611.1 2948 5 1094.2 5239 8 1222.1 3302 10 1253 6041 101x1x2x2x多元回歸模型多元回歸模型l二元回歸模型: ,誤差e是正態(tài)分布 。 問題1) 估計自變量 的斜率 與自變量 的斜率 ; 問題2) 估計截距b。l有了斜率 、 與截距b的估計
33、,就可以在知道自變量 與 之后,計算因變量y的預測值。 問題3)估計誤差標準差 。l有了誤差標準差的估計,就可以計算因變量y的概率例如為95%的預測誤差。), 0(2Nebxaxay22111x1a2x2a1a2a1x2xExcel回歸分析功能回歸分析功能 1) 將學生購買書籍支出將學生購買書籍支出(y)的因變量數(shù)據放在的因變量數(shù)據放在A列的列的第第1至第至第18個單元格,將家庭收入個單元格,將家庭收入( )和是幾年級學和是幾年級學生生( )的自變量數(shù)據分別放在的自變量數(shù)據分別放在B和和C列的第列的第1至第至第18個單元格。自變量的數(shù)據并排個單元格。自變量的數(shù)據并排(B和和C列列)輸入。輸入。
34、 2) 選擇工具下拉菜單;選擇工具下拉菜單; 3) 選擇數(shù)據分析選項;選擇數(shù)據分析選項; 4) 選擇回歸選項:選擇回歸選項: 5) 在回歸對話框中在回歸對話框中 在在Y值輸入區(qū)域值輸入區(qū)域(Y)欄中鍵入欄中鍵入a1:a18;在;在X值輸值輸入區(qū)域入區(qū)域(X)欄中鍵入欄中鍵入b1:c18。 置信度的默認值為置信度的默認值為95% 選擇輸出區(qū)域,并在輸出區(qū)域欄中鍵入例如選擇輸出區(qū)域,并在輸出區(qū)域欄中鍵入例如e1 6) 單擊確定單擊確定1x2x計算結果的第一張表:回歸統(tǒng)計計算結果的第一張表:回歸統(tǒng)計 回歸統(tǒng)計Multiple R0.9898R Square0.9797Adjusted R Squar
35、e0.9770標準誤差39.21觀測值18第 1 行,y與(1x和2x)的復相關系數(shù)(Multiple R)第 2 行,測定系數(shù)(R Square)第 3 行,修正的測定系數(shù)(Adjusted R Square)可忽略不看。第 4 行,y關于(1x和2x)的回歸標準誤第 5 行,21,xxy的觀測值有18n對多元回歸模型的復相關系數(shù)多元回歸模型的復相關系數(shù)l計算復相關系數(shù)計算復相關系數(shù) 的思路:首先將自變量的思路:首先將自變量 和和 組合在一起,令組合在一起,令 , 其中其中 和和 是任意給定的常數(shù)。然后計算因變量是任意給定的常數(shù)。然后計算因變量 與與 之間的相關系數(shù)。最后討論一個最大值問之間
36、的相關系數(shù)。最后討論一個最大值問題,在題,在 和和 取什么值的時候,這個相關系數(shù)取什么值的時候,這個相關系數(shù)最大。這個最大的相關系數(shù)就稱為是因變量最大。這個最大的相關系數(shù)就稱為是因變量 與自變量與自變量 之間的復相關系數(shù)。之間的復相關系數(shù)。l復相關系數(shù)復相關系數(shù) 在在0與與1之間,之間, 越接近越接近1, 與與 就越相關。就越相關。 ,買書支出與,買書支出與(家家庭收入,幾年級學生庭收入,幾年級學生)有很強的相關性。有很強的相關性。R1x2211xcxcz 2x1c2cyz1c2c),(21xxRRy),(21xxy9898. 0 R多元回歸模型的測定系數(shù)多元回歸模型的測定系數(shù)l因變量因變量
37、與自變量與自變量 的復相關系數(shù)的復相關系數(shù) 的平的平方,方, 稱為是二元回歸模型稱為是二元回歸模型 的測定系數(shù)。的測定系數(shù)。l測定系數(shù)測定系數(shù) 在在0與與1之間。因變量之間。因變量 y 的的 的的變異是由自變量變異是由自變量 的變異而產生的。這的變異而產生的。這也就是說,自變量也就是說,自變量 可以解釋因變量可以解釋因變量 y 的的 個變異。個變異。l ,因變量,因變量 y(買書支出買書支出)的的97.97%的的變異依附于自變量變異依附于自變量 (家庭收入家庭收入)與與 (幾年級幾年級學生學生)的變異。可想而知,這個二元回歸模型的變異。可想而知,這個二元回歸模型 是有效的。是有效的。yRebx
38、axay 2211),(21xx),(21xx),(21xx2R2R2R2R9797. 02 R1x2xebxaxay 2211多元回歸模型的回歸標準誤多元回歸模型的回歸標準誤l二元回歸模型:二元回歸模型: ,誤差,誤差e是是正態(tài)分布正態(tài)分布 。l二元回歸模型的誤差標準差二元回歸模型的誤差標準差 用因變量用因變量 y關于關于自變量自變量 的回歸標準誤來估計的回歸標準誤來估計l “買書支出買書支出”關于自變量關于自變量(“家庭收入家庭收入”,“幾年級學生幾年級學生”)的標準誤為的標準誤為39.21元。這就是元。這就是誤差標準差誤差標準差 的估計。的估計。l根據學生的家庭收入與他是幾年級學生,預根
39、據學生的家庭收入與他是幾年級學生,預測他的買書支出,其概率為測他的買書支出,其概率為95%的預測誤差的預測誤差為為 元。預測一年的買書支元。預測一年的買書支出,上下有出,上下有75元左右的波動,是可以接受的。元左右的波動,是可以接受的。ebxaxay 2211),(21xx), 0(2 N 85.7621.399600. 1 計算結果的第二張表:方差分析計算結果的第二張表:方差分析 方差分析dfSSMSFSignificance F回歸21114549.38557274.68362.442.00E-13殘差1523063.271537.5511總計17 1137612.65回歸分析、殘差和總計
40、的自由度(df)依次為自變量個數(shù)2 p、151 pn和171 ndf(SS):MS平方和,MSMS:F殘差的殘差的回歸的回歸的Significance F 就是 p 值。p 值為131000. 2 非常的小。檢驗模型有沒有意義檢驗模型有沒有意義l 二元回歸模型:二元回歸模型: 有沒有意義的有沒有意義的檢驗問題的原假設為檢驗問題的原假設為 ,回歸模型沒有意義;,回歸模型沒有意義; 備擇假設默認為備擇假設默認為 和和 不全等于不全等于0,回歸模型有意義。,回歸模型有意義。l 方差分析表的第方差分析表的第5與第與第6兩列是解這個檢驗問題的關兩列是解這個檢驗問題的關鍵。在第鍵。在第5列的列的F 值比較
41、大的時候拒絕原假設,認為值比較大的時候拒絕原假設,認為回歸模型有意義。第回歸模型有意義。第6列是列是 p 值,它就是比第值,它就是比第5列這列這個個F 值還要大的概率。若第值還要大的概率。若第6列的列的p值比較小,這意值比較小,這意味著第味著第5列的列的F值比較大,則拒絕原假設。所以我們值比較大,則拒絕原假設。所以我們在第在第6列的列的p值比較小的時候認為回歸模型有意義值比較小的時候認為回歸模型有意義。l 。p 值如此之小,說明值如此之小,說明F值非常的大,值非常的大,因而我們拒絕原假設,認為因而我們拒絕原假設,認為 與與 不全等于不全等于0,描,描述學生購買書籍的支出與其家庭收入和他所在年級
42、述學生購買書籍的支出與其家庭收入和他所在年級之間的回歸模型是有意義的。之間的回歸模型是有意義的。 ebxaxay 22110:H210 aa2a131000. 2 p1a2a1a計算結果的第三張表:斜率與截距計算結果的第三張表:斜率與截距 估計標準誤t StatP-valueIntercept-0.9830.322-0.0320.975X Variable10.400.1163.460.0035X Variable2104.316.40916.286.1E-11l 計算結果的第三張表用來討論斜率與截距是否等于 0 的檢驗,以及他們的估計問題。這些檢驗問題的原假設是這些檢驗問題的原假設是“截距截
43、距(或斜率或斜率)等于等于 0” ,而且它,而且它們都是在們都是在t t的絕對值的絕對值, | |t t| |比較大的時候拒絕原假設比較大的時候拒絕原假設, 認為認為截距截距(或斜率或斜率)不等于不等于 0。斜率與截距是否等于斜率與截距是否等于0的檢驗,及其估計的檢驗,及其估計 二元回歸模型:二元回歸模型: l截距檢驗問題的原假設截距檢驗問題的原假設 。由于它的。由于它的p值為值為0.975很大,這說明截距為很大,這說明截距為0。l(X Variable 1)檢驗問題的原假設檢驗問題的原假設 。由于它的由于它的p值為值為0.0035很小,這說明自變量很小,這說明自變量 前面的系數(shù)前面的系數(shù) 不
44、等于不等于0,其估計為,其估計為0.40。l(X Variable 2)檢驗問題的原假設檢驗問題的原假設 。由于它的由于它的p值為值為 非常的小,這說明自非常的小,這說明自變量變量 前面的系數(shù)前面的系數(shù) 不等于不等于0,其估計為,其估計為104.31。l回歸直線回歸直線ebxaxay 22110:H0 b1a2a11101 . 6 1x2x0:H10 a0:H20 a11101 . 6 2131.10440. 0 xxy 買書支出買書支出與與(家庭收入家庭收入,幾年級學生,幾年級學生)回歸直線:回歸直線: 學生購買書籍等支出學生購買書籍等支出 其家庭收入其家庭收入 他是幾年級學生他是幾年級學生l 回歸標準誤回歸標準誤39.21,概率,概率95%的預測誤差為的預測誤差為 (元元) l 第一個學生家庭收入第一個學生家庭收入171.2元,元,4年級學生。據回歸年級學生。據回歸直線他購買書籍支出的預測值為直線他購買書籍支出的預測值為 其預測區(qū)間為其預測區(qū)間為 ,即,即l 第一個學生買書支出的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中國多能互補市場現(xiàn)狀調研及投資可行性分析報告2025年
- 2025年冷凍飲品項目經營分析報告
- 藥盒行業(yè)行業(yè)發(fā)展趨勢及投資戰(zhàn)略研究分析報告
- 2025年度酒水產品定制化禮品包裝購銷合同
- 2025年家具行業(yè)市場調研與分析合同-@-1
- 中國桂魚產品流通行業(yè)市場運營現(xiàn)狀及投資研究建議報告
- 2025年度農業(yè)大數(shù)據分析軟件產品銷售與服務合同
- 主管護師申請書
- 2025年中國煤氣體火頭行業(yè)市場發(fā)展前景及發(fā)展趨勢與投資戰(zhàn)略研究報告
- 2024-2030年中國睡衣衫褲行業(yè)市場全景監(jiān)測及投資策略研究報告
- 部編小學語文(6年級下冊第6單元)作業(yè)設計
- 餐飲服務與管理(高職)PPT完整全套教學課件
- 成人學士學位英語1000個高頻必考詞匯匯總
- 2023年菏澤醫(yī)學專科學校單招綜合素質模擬試題及答案解析
- 常見食物的嘌呤含量表匯總
- 人教版數(shù)學八年級下冊同步練習(含答案)
- SB/T 10752-2012馬鈴薯雪花全粉
- 2023年湖南高速鐵路職業(yè)技術學院高職單招(英語)試題庫含答案解析
- 濕型砂中煤粉作用及檢測全解析
- 積累運用表示動作的詞語課件
- 機動車登記證書英文證書模板
評論
0/150
提交評論