回歸分析的基本思想及其初步應用_第1頁
回歸分析的基本思想及其初步應用_第2頁
回歸分析的基本思想及其初步應用_第3頁
回歸分析的基本思想及其初步應用_第4頁
回歸分析的基本思想及其初步應用_第5頁
已閱讀5頁,還剩21頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、哈爾濱市第三中學哈爾濱市第三中學 郜新利郜新利(1)作散點圖(用樣本點是否呈直線)作散點圖(用樣本點是否呈直線 趨勢來判斷兩個變量是否線性相趨勢來判斷兩個變量是否線性相關)關)想一想?想一想?求回歸直線方程步驟:求回歸直線方程步驟:復習回顧復習回顧(3)根據回歸直線方程進行預報)根據回歸直線方程進行預報(2)求回歸直線方程)求回歸直線方程axby用什么方法求用什么方法求 ?, a b最小二乘法最小二乘法. 利用最小二乘法可以得到利用最小二乘法可以得到 的計算公式為的計算公式為:, a b1122211()()()( )nniiiiiinniiiixxyyx ynxybxxxn xaybx 11

2、niixxn11niiyyn 為樣本中心點為樣本中心點.),(yx例例1.1. 從某大學中隨機選出從某大學中隨機選出8 8名女大學生,其身名女大學生,其身高和體重數據如下表:高和體重數據如下表:編號編號1 12 23 34 45 56 67 78 8身高身高(cm)(cm) 165165165165157157170170175175165165155155170170體重體重(kg)(kg) 48485757505054546464616143435959求根據一名女大學生的身高預報她的體重的求根據一名女大學生的身高預報她的體重的回歸方程,并預報一名身高為回歸方程,并預報一名身高為17217

3、2c c的女大的女大學生的體重學生的體重. .探索新知探索新知身身高高1 17 72 2c cm m女女大大學學生生體體重重y y= =0 0. .8 84 49 9 1 17 72 2- -8 85 5. .7 71 12 2= =6 60 0. .3 31 16 6( (k kg g) )是體重的精確是體重的精確值嗎?值嗎?平均體重平均體重的估計值的估計值大多數身高為大多數身高為172c172c的女大學生體重在的女大學生體重在60.316kg附近!附近!712.85849. 0 xy由最小二乘法得到:由最小二乘法得到: 由圖形觀察可以看出,樣本點呈由圖形觀察可以看出,樣本點呈條狀分布,不共

4、線條狀分布,不共線, ,因此線性函數模型因此線性函數模型只能近似地刻畫身高與體重之間的關系只能近似地刻畫身高與體重之間的關系. .回歸模型的基本思想回歸模型的基本思想抽抽 樣樣分分 析析樣本樣本)(xfy 模模 擬擬)(xfy 實際實際)(xfy 從散點圖可以看到,樣本點散布在某一條直從散點圖可以看到,樣本點散布在某一條直線的附近,而不是一條直線上,這時我們用下面線的附近,而不是一條直線上,這時我們用下面的的線性回歸模型線性回歸模型來描述身高和體重的關系:來描述身高和體重的關系: , ,其中其中 和和 為模型的為模型的未知參數未知參數, 是是y y與與樣本的回歸直線樣本的回歸直線 之間的誤差之

5、間的誤差, ,通常通常 為隨機變量,稱為為隨機變量,稱為隨機誤差隨機誤差. .eabxyabeeabxy(注解:(注解: 是身高是身高 所對應的真實體重值;所對應的真實體重值; 中,中, 與與 分別是分別是 與與 的的估計值估計值,即,即 是是 的的估計值估計值.)xyaxbyabba yy 一般假定一般假定 的均值為的均值為0,方差,方差2)(, 0)(edeee0)(2ed這樣,線性回歸模型的完整表達式為:這樣,線性回歸模型的完整表達式為:eabxy 只能解釋部分只能解釋部分 的變化的變化 ,因此,因此 稱為解釋變量,稱為解釋變量, 為為預報變量預報變量.xx 越小越小,通過,通過樣本樣本

6、回歸直線回歸直線 預報真實值預報真實值 的精度就越高的精度就越高. 2abxyyyy隨機誤差隨機誤差 的主要來源的主要來源(3)模型誤差)模型誤差(2)觀測誤差)觀測誤差(1)忽略了某些因素影響)忽略了某些因素影響用線性回歸模型近似真實模型所引起的誤差用線性回歸模型近似真實模型所引起的誤差影響變量影響變量 的因素不只變量的因素不只變量 一個一個 xye測量工具造成的誤差測量工具造成的誤差線性回歸模型中,線性回歸模型中, 是用是用 預報真實值預報真實值 的誤差,的誤差,它是一個不可觀測的量它是一個不可觀測的量.ey想一想?想一想?如何來衡量預報的精度呢?又應該怎樣如何來衡量預報的精度呢?又應該怎

7、樣研究隨機誤差?研究隨機誤差?用方差用方差 衡量隨機誤差的大小衡量隨機誤差的大小2為了衡量預報的精度為了衡量預報的精度, ,需要需要估計估計 的值的值!2y解決問題的途徑是通過解決問題的途徑是通過樣本樣本的估計值來的估計值來估計估計 .2隨機誤差隨機誤差 , yye因為因為 是是 的估計量,的估計量,yy e所以,所以, 是是 的估計量的估計量.yye對于樣本點對于樣本點)( ,),(),(2211nnyxyxyx而言而言,相應它們的隨機誤差為:相應它們的隨機誤差為:, 2 , 1,niabxyyyeiiiii, 2 , 1, niaxbyyyeiiiii其估計值為:其估計值為:ie 稱為相應

8、于點稱為相應于點 的的殘差殘差.),(iiyx類比樣本方差估計總體方差的思想,可以用類比樣本方差估計總體方差的思想,可以用)2)(, (2121122nbaqnennii作為作為 的估計量,的估計量,2), (baq稱為稱為殘差平方和殘差平方和,2越小越小,預報精度越高,預報精度越高. 計算下表中女大學生身高和體重的原始數計算下表中女大學生身高和體重的原始數據的相應的據的相應的殘差數據殘差數據. . 編號編號1 12 23 34 45 56 67 78 8身高身高(cm)(cm)165165165165157157170170175175165165155155170170體重體重(kg)(k

9、g)48485757505054546464616143435959殘差殘差ie 373. 6627. 2618. 4419. 2627. 6137. 1883. 2382. 0712.85849. 0 xyiy 373.54373.5411.47618.58863.62373.54883.45618.58 坐標軸縱軸為殘差,橫軸可以選為樣本編坐標軸縱軸為殘差,橫軸可以選為樣本編號或身高數據等,這樣做出的圖形稱為號或身高數據等,這樣做出的圖形稱為殘差圖殘差圖. 錯誤數據若模型選擇的正確,若模型選擇的正確,殘差圖中的點應該分布在殘差圖中的點應該分布在以橫軸為心的帶形區(qū)域以橫軸為心的帶形區(qū)域;異常

10、點異常點對于遠離橫軸的點,要特別注意對于遠離橫軸的點,要特別注意. 模型問題帶狀區(qū)域寬度帶狀區(qū)域寬度越窄,模型擬越窄,模型擬合精度越高合精度越高 研究兩個變量間關系時,首先根據散點圖來研究兩個變量間關系時,首先根據散點圖來粗略判斷它們是否線性相關,是否可以用線性回粗略判斷它們是否線性相關,是否可以用線性回歸模型來擬合數據,然后歸模型來擬合數據,然后通過殘差通過殘差 來判斷模型擬合的效果,來判斷模型擬合的效果,這種分析工作稱為這種分析工作稱為殘差殘差分析分析. .1, 2, 3, .ne e ee 通過殘差分析,可以使回歸方程達到更好通過殘差分析,可以使回歸方程達到更好的擬合效果的擬合效果.另外

11、,還可以用相關指數另外,還可以用相關指數 來刻畫來刻畫回歸的擬合效果回歸的擬合效果.2r相關指數相關指數 計算公式為:計算公式為:2rniiniiiyyyyr12122)()(1 越大,模型擬合越大,模型擬合效果越好效果越好.2r 越接近越接近1,回歸的效果越好;,回歸的效果越好;若用幾種若用幾種不同回歸方程不同回歸方程進行回歸分析,選進行回歸分析,選 擇擇 大大的模型的模型.2r2r在含有一個解釋在含有一個解釋變量變量 的線性模的線性模型中,型中,r2=r2 .x 殘差平方和越小,殘差平方和越小,模型擬合效越好模型擬合效越好.64. 02r表明表明“女大學生的身高解釋了女大學生的身高解釋了

12、的體重變的體重變化化”或者說或者說“女大學生的體重差異有女大學生的體重差異有 是由身高引起的是由身高引起的” .%64%64預報時應該注意的問題預報時應該注意的問題(1) 回歸方程只適用于我們所研究的樣本的總體回歸方程只適用于我們所研究的樣本的總體(2) 回歸方程具有時間性回歸方程具有時間性(3) 回歸方程有適用范圍回歸方程有適用范圍(4) 預報值不是精確值預報值不是精確值是平均值是平均值的估計值的估計值例如:例如:175,157x(2)畫出散點圖畫出散點圖 建立回歸模型的基本步驟建立回歸模型的基本步驟是否存在線性關系是否存在線性關系(1)確定解釋變量和預報變量)確定解釋變量和預報變量(3)確

13、定回歸方程類型)確定回歸方程類型 (4)求出回歸方程)求出回歸方程 (5)分析殘差圖)分析殘差圖是否存在異常點是否存在異常點小小 結結 實際問題實際問題y = f(x)y = f(x) 樣本分析樣本分析y = f(x)y = f(x) 回歸模型回歸模型y = f(x)y = f(x)抽樣抽樣回歸分回歸分析析預報精預報精度度預報預報殘差分析殘差分析作業(yè)作業(yè):90習題習題. 第題第題郵箱:郵箱:天天 數數2 24 45 56 68 8銷售量銷售量 30304040606050507070現有如下兩個模型:現有如下兩個模型:5 .175 . 6xy(1)177 xy(2)試比較哪一個擬合效果更好試比較哪一個擬合效果更好.xy 練習練習1. 某書店統(tǒng)計某種書近期的銷售量,銷售某書店統(tǒng)計某種書近期的銷售量,銷售 天數天數 及當天銷售量及當天銷售量 (本)的部分數據如下:(本)的部分數據如下:xy參照公式:參照公式:niiniiiyyyyr12122)()(1合作探究合作探究天天 數數2 24 45 56 68 8銷售量銷售量30304040606050507070(1 1)(1 1)殘差)殘差(2 2)(2 2)殘差)殘差分析:只需比較分析:只需比較 的大小的大小.512)(i

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論