版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
8.2.2一元線性回歸模型參數(shù)的最小二乘估計(4)1.經(jīng)驗回歸方程:我們將
稱為Y關(guān)于x的經(jīng)驗回歸方程,也稱經(jīng)驗回歸函數(shù)或經(jīng)驗回歸公式,其圖形稱為經(jīng)驗回歸直線.
這種求經(jīng)驗回歸方程的方法叫做最小二乘法.2.最小二乘估計:經(jīng)驗回歸方程中的參數(shù)計算公式為:
復(fù)習(xí)引入3.殘差:對于響應(yīng)變量Y,通過觀測得到的數(shù)據(jù)稱為
值,通過經(jīng)驗回歸方程得到的
稱為
,
減去
稱為殘差,即
.4.殘差分析:
是隨機誤差的估計結(jié)果,通過對
的分析可以判斷模型刻畫數(shù)據(jù)的效果,以及判斷原始數(shù)據(jù)中是否存在可疑數(shù)據(jù)等,這方面工作稱為
.觀測預(yù)測值觀測值預(yù)測值殘差殘差殘差分析5.殘差圖法:在殘差圖中,如果殘差點比較均勻地落在水平的帶狀區(qū)域內(nèi),帶狀區(qū)域越窄,則說明擬合效果越好.6.求非線性經(jīng)驗回歸方程的步驟:
(1)確定研究對象,明確哪個是解釋變量,哪個是響應(yīng)變量;(2)由經(jīng)驗確定非線性經(jīng)驗回歸方程的模型;(3)通過變換,將非線性經(jīng)驗回歸模型轉(zhuǎn)化為線性經(jīng)驗回歸模型;(4)按照公式計算經(jīng)驗回歸方程中的參數(shù),得到經(jīng)驗回歸方程;(5)消去新元,得到非線性經(jīng)驗回歸方程.編號12345678年份18961912192119301936195619601968記錄/s11.8010.6010.4010.3010.2010.1010.009.95問題:人們常將男子短跑100m的高水平運動員稱為“百米飛人”.下表給出了1968年之前男子短跑100m世界紀錄產(chǎn)生的年份和世界紀錄的數(shù)據(jù).試依據(jù)這些成對數(shù)據(jù),建立男子短跑100m世界紀錄關(guān)于紀錄產(chǎn)生年份的經(jīng)驗回歸方程.以成對數(shù)據(jù)中的世界紀錄產(chǎn)生年份為橫坐標(biāo),世界紀錄為縱坐標(biāo)作散點圖,得到下圖令x=ln(t-1895).通過x=ln(t-1895),將年份變量數(shù)據(jù)進行變換,得到新的成對數(shù)據(jù)(精確到0.01),如下表所示.編號12345678x0.002.833.263.563.714.114.174.29Y/s11.8010.6010.4010.3010.2010.1010.009.95根據(jù)最小二乘法,可得新的經(jīng)驗回歸方程為①將x=ln(t-1895)代入(*)式,得到由創(chuàng)紀錄年份預(yù)報世界紀錄的經(jīng)驗回歸方程(1)直接觀察法在同一坐標(biāo)系中畫出成對數(shù)據(jù)散點圖、非線性經(jīng)驗回歸方程②的圖象(藍色)以及經(jīng)驗回歸方程①的圖象(紅色),如圖(5)所示.我們發(fā)現(xiàn),散點圖中各散點都非常靠近②的圖象,表明非線性經(jīng)驗回歸方程②對于原始數(shù)據(jù)的擬合效果遠遠好于經(jīng)驗回歸方程①.(5)下面通過殘差來比較這兩個經(jīng)驗回歸方程對數(shù)據(jù)刻畫的好壞.思考:對于男子短跑100m世界紀錄關(guān)于紀錄產(chǎn)生年份關(guān)系的問題,我們建立了兩個回歸模型,得到了兩個回歸方程,你能判斷哪個回歸方程擬合的精度更好嗎?在上表中,用ti表示編號為i的年份數(shù)據(jù),用yi表示編號為i的紀錄數(shù)據(jù),則經(jīng)驗回歸方程①和②的殘差計算公式分別為兩個經(jīng)驗回歸方程的殘差(精確到0.001)如下表所示.觀察各項殘差的絕對值,發(fā)現(xiàn)經(jīng)驗回歸方程②遠遠小于①,即經(jīng)驗回歸方程②的擬合效果要遠遠好于①.編號12345678t189619121921193019361956196019680.591-0.284-0.301-0.218-0.1960.1110.0920.205-0.0010.007-0.0120.015-0.0180.052-0.021-0.022
②①編號12345678年份18961912192119301936195619601968記錄/s11.8010.6010.4010.3010.2010.1010.009.95在一般情況下,直接比較兩個模型的殘差比較困難,因為在某些散點上一個模型的殘差的絕對值比另一個模型的小,而另一些散點的情況則相反.可以通過比較殘差的平方和來比較兩個模型的效果.由可知Q2小于Q1.因此在殘差平方和最小的標(biāo)準下,非線性回歸模型的擬合效果要優(yōu)于一元線性回歸模型的擬合效果.(2)
殘差分析通過前面的討論我們知道,當(dāng)殘差的平方和越小,經(jīng)驗回歸模型的擬合效果就越好,故我們可以用決定系數(shù)R2來驗證模型的擬合效果.決定系數(shù)R2的計算公式為在R2表達式中,由于與經(jīng)驗回歸方程無關(guān),殘差平方和
與經(jīng)驗回歸方程有關(guān),因此R2越大,表示殘差平方和越小,即模型的擬合效果越好;
R2越小,表示殘差平方和越大,即模型的擬合效果越差.(3)利用決定系數(shù)R2刻畫回歸效果.顯然0≤R2≤1,R2越接近1,則線性回歸刻畫的效果越好.還可以證明,在一元線性回歸模型中R2=r2,即決定系數(shù)R2等于響應(yīng)變量與解釋變量的樣本相關(guān)系數(shù)r的平方.決定系數(shù)R2的計算公式為編號12345678t189619121921193019361956196019680.591-0.284-0.301-0.218-0.1960.1110.0920.205-0.0010.007-0.0120.015-0.0180.052-0.021-0.022由上述殘差表可算出經(jīng)驗回歸方程①和②的決定系數(shù)R2分別為由于因此經(jīng)驗回歸方程②的刻畫效果比經(jīng)驗回歸方程①的好很多.課本120頁在回歸分析中,分析殘差能夠幫助我們解決哪些問題?解:分析殘差可以幫助我們解決以下幾個問題:(1)尋找殘差明顯比其他殘差大很多的異常點,如果有,檢查相應(yīng)的樣本數(shù)據(jù)是否有錯.(2)分析殘差圖可以診斷選擇的模型是否合適,如果不合適,可以參考殘差圖提出修改模型的思路.例:為研究質(zhì)量x(單位:g)對彈簧長度y(單位:cm)的影響,對不同質(zhì)量的6個物體進行測量,數(shù)據(jù)如表所示:
(1)作出散點圖,并求經(jīng)驗回歸方程;(2)求出R2;(3)進行殘差分析.x51015202530y7.258.128.959.9010.911.8例題(2)求出R2;x51015202530y7.258.128.959.9010.911.8解:列表如下:0.050.005-0.08-0.0450.040.025-2.24-1.37-0.540.411.412.31解:由殘差表中的數(shù)值可以看出第3個樣本點的殘差比較大,需要確認在采集這個數(shù)據(jù)的時候是否有人為的錯誤,如果有的話,需要糾正數(shù)據(jù),重新建立回歸模型;由表中數(shù)據(jù)可以看出殘差點比較均勻地落在不超過0.15的狹窄的水平帶狀區(qū)域中,說明選用的回歸模型的精度較高,由以上分析可知,彈簧長度與質(zhì)量成線性關(guān)系.0.050.005-0.08-0.0450.040.025-2.24-1.37-0.540.411.412.31(3)進行殘差分析.(1)確定研究對象,明確哪個變量是解釋變量,哪個變量是響應(yīng)變量.(2)畫出解釋變量與響應(yīng)變量的散點圖,觀察它們之間的關(guān)系(如是否存在線性關(guān)系等).(3)由經(jīng)驗確定回歸方程的類型.(4)按一定規(guī)則(如最小二乘法)估計經(jīng)驗回歸方程中的參數(shù).(5)得出結(jié)果后需進行線性回歸分析.①殘差平方和越小,模型的擬合效果越好.②決定系數(shù)R2取值越大,說明模型的擬合效果越好.建立線性回歸模型的基本步驟:注意:若題中給出了檢驗回歸方程是否理想的條件,則根據(jù)題意進行分析檢驗即可.歸納總結(jié)1.已知某種商品的單價x(單位:元)與需求量y(單位:件)之間的關(guān)系有如下一組數(shù)據(jù):x1416182022y1210753求y關(guān)于x的經(jīng)驗回歸方程,并說明回歸模型擬合效果的好壞.解:練習(xí)列殘差表如下:y1210753129.77.45.12.800.3-0.4-0.10.24.62.6-0.4-2.4-4.4故回歸模型的擬合效果很好.(1)作GDP和年份的散點圖,根據(jù)該圖猜想它們之間的關(guān)系可以用什么模型描述;課本120頁2.1997-2006年我國的國內(nèi)生產(chǎn)總值(GDP)的數(shù)據(jù)如下:年份GDP/億元年份GDP/億元199779715.02002121727.4199885195.52003137422.0199990564.42004161840.22000100280.12005187318.92001110863.12006219438.5解:畫GDP與年份的散點圖,如圖所示,可以觀察到隨著年份的增加GDP也隨之增加,GDP值與年份呈現(xiàn)近似線性關(guān)系,可以用一元線性回歸模型刻畫.(2)建立年份為解釋變量,GDP為響應(yīng)變量的一元線性回歸模型,并計算殘差;課本120頁2.1997-2006年我國的國內(nèi)生產(chǎn)總值(GDP)的數(shù)據(jù)如下:年份GDP/億元年份GDP/億元199779715.02002121727.4199885195.52003137422.0199990564.42004161840.22000100280.12005187318.92001110863.12006219438.5解:用y表示GDP的值,t表示年份,用一元線性回歸模型擬合數(shù)據(jù),用統(tǒng)計軟件計算,得到經(jīng)驗回歸方程為殘差的計算結(jié)果見下表.年份1997199819992000200120022003200420052006殘差171267752-1734-6873-11145-15145-14296-4732589223157(3)根據(jù)你得到的一元線性回歸模型,預(yù)測2017年的GDP,看看你的預(yù)測值與實際的GDP的誤差是多少;課本120頁2.1997-2006年我國的國內(nèi)生產(chǎn)總值(GDP)的數(shù)據(jù)如下:年份GDP/億元年份GDP/億元199779715.02002121727.4199885195.52003137422.0199990564.42004161840.22000100280.12005187318.92001110863.12006219438.5解:2017年的GDP預(yù)報值為359684億元,2017年的實際的GDP為820754億元,預(yù)測值比實際值少461070億元.(4)你認為這個模型能較好地刻畫GDP和年份的關(guān)系嗎?請說明理由.課本120頁2.1997-2006年我國的國內(nèi)生產(chǎn)總值(GDP)的數(shù)據(jù)如下:年份GDP/億元年份GDP/億元199779715.02002121727.4199885195.52003137422.0199990564.42004161840.22000100280.12005187318.92001110863.12006219438.5解:上面建立的回歸方程的R2=0.9213,說明在1997-2006年內(nèi),該模型年份能夠解釋92.13%的GDP值變化,因此所建立的模型較好地刻畫了GDP和年份的關(guān)系.但因為殘差呈現(xiàn)一定的規(guī)律性,中間是負數(shù),兩邊是正數(shù),所以可以考慮用非線性回歸模型擬合數(shù)據(jù).(5)隨著時間的發(fā)展,又收集到2007-2016年的GDP數(shù)據(jù)如下:建立年份(1997-2016)為解釋變量,GDP為響應(yīng)變量的經(jīng)驗回歸方程,并預(yù)測2017年的GDP,與實際的GDP誤差是多少?你能發(fā)現(xiàn)什么?年份GDP/億元年份GDP/億元2007270232.32012540367.42008319515.52013595244.42009349081.42014643974.02010413030.32015689052.12011489300.62016744127.2課本120頁解:仍用y表示GDP的值,t表示年份,用一元線性回歸模型擬合1997-2016年的數(shù)據(jù),用統(tǒng)計軟件計算,得到經(jīng)驗回歸方程為利用上述模型,預(yù)測2017年的GDP值為704025億元,而2017年GDP的實際值820754億元,預(yù)測值比實際值少116729億元通過兩個模型預(yù)測2017年的GDP值,發(fā)現(xiàn)第2個模型預(yù)測的更準確,說明建立的模型自變量的取值范圍決定了模型的適用范圍,通常不能超出太多,否則會出現(xiàn)較大的誤差.在使用經(jīng)驗回歸方程進行預(yù)測時,需要注意下列問題:(1)經(jīng)驗回歸方程只適用于所研究的樣本的總體.例如,根據(jù)我國父親身高與兒子身高的數(shù)據(jù)建立的經(jīng)驗回歸方程,不能用來描述美國父親身高與兒子身高之間的關(guān)系.同樣,根據(jù)生長在南方多雨地區(qū)的樹高與胸徑的數(shù)據(jù)建立的經(jīng)驗回歸方程,不能用來描述北方干旱地區(qū)的樹高與胸徑之間的關(guān)系.(2)經(jīng)驗回歸方程一般都有時效性.例如,根據(jù)20世紀80年代的父親身高與兒子身高的數(shù)據(jù)建立的經(jīng)驗回歸方程,不能用來描述現(xiàn)在的父親身高與兒子身高之間的關(guān)系.(3)解釋變量的取值不能離樣本數(shù)據(jù)的范圍太遠.一般解釋變量的取值在樣本數(shù)據(jù)范圍內(nèi),經(jīng)驗回歸方程的預(yù)報效果會比較好,超出這個范圍越遠,預(yù)報的效果越差.(4)不能期望經(jīng)驗回歸方程得到的預(yù)報值就是響應(yīng)變量的精確值.事實上,它是響應(yīng)變量的可能取值的平均值.哪位同學(xué)建立的回歸模型擬合效果最好()A.甲B.乙C.丙D.丁1.甲、乙、丙、丁四位同學(xué)在建立變量x,y的回歸模型時,分別選擇了4種不同模型,計算可得它們的決定系數(shù)R2分別如下表:
甲乙丙丁R20.980.780.500.85解析:決定系數(shù)R2越大,表示回歸模型的擬合效果越好.隨堂檢測哪位同學(xué)的試驗結(jié)果體現(xiàn)擬合A,B兩變量關(guān)系的模型擬合精度高(
)A.甲B.乙C.丙D.丁
甲乙丙丁散點圖殘差平方和1151061241033.某工廠為研究某種產(chǎn)品產(chǎn)量x(噸)與所需某種原料y(噸)的相關(guān)性,在生產(chǎn)過程中收集4組對應(yīng)數(shù)據(jù)(x,y)如下表所示:5.9x3467y2.534m解析:根據(jù)樣本(4,3)處的殘差為-0.15,4.某電腦公司有6名產(chǎn)品推銷員,其工作年限與
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 廣西玉林市2022-2023學(xué)年五年級上學(xué)期英語期末試卷
- 物業(yè)管理常識與法規(guī)培訓(xùn)講義
- 三年戰(zhàn)略規(guī)劃報告
- 二零二五年度住宅小區(qū)監(jiān)控設(shè)備采購與安裝合同3篇
- 基于U-Net變體的醫(yī)學(xué)圖像分割算法綜述
- 陜西省渭南市尚德中學(xué)2024-2025學(xué)年高二上學(xué)期第二次質(zhì)量檢測歷史試卷(含答案)
- 城市社區(qū)居家養(yǎng)老服務(wù)體系的政策網(wǎng)絡(luò)治理-以政府購買公共服務(wù)模式為例
- 大功率電力半導(dǎo)體器件及新型功率器件產(chǎn)業(yè)化項目可行性研究報告寫作模板-申批立項
- 第18課 美國的獨立 課件(19張)
- 湖南省益陽市2024-2025學(xué)年高一(上)期末考試物理試卷(含答案)
- 化妝品生產(chǎn)許可申請表樣板
- 電工工具報價單
- 教科版三年級上冊科學(xué)教案(全冊)
- 勞動力安排計劃及勞動力計劃表(樣板)
- 利潤表4(通用模板)
- 教育評價學(xué)全套ppt課件完整版教學(xué)教程
- 注塑領(lǐng)班作業(yè)指導(dǎo)書
- ASTM B330-20 Standard Test Methods for Estimating Average Particle Size of Metal Powders and Related Compounds Using%2
- 顧客忠誠度論文
- 血氣分析及臨床應(yīng)用
- 浙江省市政工程安全臺賬完整
評論
0/150
提交評論