M10-數學建模課件_第1頁
M10-數學建模課件_第2頁
M10-數學建模課件_第3頁
M10-數學建模課件_第4頁
M10-數學建模課件_第5頁
已閱讀5頁,還剩59頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第十章第十章 統(tǒng)計回歸模型統(tǒng)計回歸模型10.1 牙膏的銷售量牙膏的銷售量10.2 軟件開發(fā)人員的薪金軟件開發(fā)人員的薪金10.3 酶促反應酶促反應10.4 投資額與生產總值和物價指數投資額與生產總值和物價指數10.5 教學評估教學評估10.6 冠心病與年齡冠心病與年齡回歸模型回歸模型是用統(tǒng)計分析方法建立的最常用的一類模型是用統(tǒng)計分析方法建立的最常用的一類模型. 數學建模的基本方法數學建模的基本方法機理分析機理分析測試分析測試分析通過對數據的通過對數據的統(tǒng)計分析統(tǒng)計分析,找出與數據擬合最好的模型,找出與數據擬合最好的模型. 不涉及回歸分析的數學原理和方法不涉及回歸分析的數學原理和方法 . 通過通過

2、實例實例討論如何選擇不同類型的模型討論如何選擇不同類型的模型 . 對軟件得到的結果進行對軟件得到的結果進行分析分析,對模型進行,對模型進行改進改進. 由于客觀事物內部規(guī)律的復雜及人們認識程度的限制由于客觀事物內部規(guī)律的復雜及人們認識程度的限制,無法分析實際對象內在的因果關系,建立合乎機理規(guī)無法分析實際對象內在的因果關系,建立合乎機理規(guī)律的數學模型律的數學模型. 10.1 牙膏的銷售量牙膏的銷售量 問問題題建立建立牙膏銷售量與價格、廣告投入之間的牙膏銷售量與價格、廣告投入之間的模型模型;預測預測在不同價格和廣告費用下的牙膏在不同價格和廣告費用下的牙膏銷售量銷售量. 收集了收集了30個銷售周期本公

3、司牙膏銷售量、價格、個銷售周期本公司牙膏銷售量、價格、廣告費用,及同期其他廠家同類牙膏的平均售價廣告費用,及同期其他廠家同類牙膏的平均售價 .9.260.556.804.253.70307.930.055.803.853.80298.510.256.754.003.7527.38-0.055.503.803.851銷售量銷售量(百萬支百萬支)價格差價格差(元)(元)廣告費用廣告費用(百萬元百萬元)其他廠家其他廠家價格價格(元元)本公司價本公司價格格(元元)銷售銷售周期周期基本模型基本模型y 公司牙膏銷售量公司牙膏銷售量x1其他廠家與本公司其他廠家與本公司價格差價格差x2公司廣告費用公司廣告費用

4、110 xy222210 xxy55.566.577.577.588.599.510 x2y-0.200.20.40.677.588.599.510 x1y22322110 xxxyx1, x2解釋變量解釋變量(回歸變量回歸變量, 自變量自變量) y被解釋變量(因變量)被解釋變量(因變量) 0, 1 , 2 , 3 回歸系數回歸系數 隨機隨機誤差(誤差(均值為零的均值為零的正態(tài)分布隨機變量)正態(tài)分布隨機變量)MATLAB 統(tǒng)計工具箱統(tǒng)計工具箱 模型求解模型求解b,bint,r,rint,stats=regress(y,x,alpha) 輸入輸入 x= n 4數數據矩陣據矩陣, 第第1列為全列為

5、全1向量向量1 2221xxxalpha(置信置信水平水平,0.05) 22322110 xxxyb 的的估計值估計值 bintb的置信區(qū)間的置信區(qū)間 r 殘差向量殘差向量y-xb rintr的置信區(qū)間的置信區(qū)間 Stats檢驗統(tǒng)計量檢驗統(tǒng)計量 R2,F, p,s2 yn維數據向量維數據向量輸出輸出 由數據由數據 y,x1,x2估計估計 參數參數參數估計值參數估計值置信區(qū)間置信區(qū)間17.32445.7282 28.92061.30700.6829 1.9311 -3.6956-7.4989 0.1077 0.34860.0379 0.6594 R2=0.9054 F=82.9409 p0.00

6、01 s2=0.0490 0 1 2 3結果分析結果分析y的的90.54%可由模型確定可由模型確定 參數參數參數估計值參數估計值置信區(qū)間置信區(qū)間17.32445.7282 28.92061.30700.6829 1.9311 -3.6956-7.4989 0.1077 0.34860.0379 0.6594 R2=0.9054 F=82.9409 p0.0001 s2=0.0490 0 1 2 322322110 xxxyF值遠超過值遠超過F檢驗的臨界值檢驗的臨界值 p值遠小于值遠小于 =0.05 2的置信區(qū)間包含零點的置信區(qū)間包含零點(右端點距零點很近右端點距零點很近) x2對因變量對因變量

7、y 的的影響不太顯著影響不太顯著x22項顯著項顯著 可將可將x2保留在模型中保留在模型中 模型從整體上看成立模型從整體上看成立22322110 xxxy銷售量預測銷售量預測 價格差價格差x1=其他廠家其他廠家價格價格x3-本公司本公司價格價格x4估計估計x3調整調整x4控制價格差控制價格差x1=0.2元,投入廣告費元,投入廣告費x2=6.5百萬元百萬元銷售量預測區(qū)間為銷售量預測區(qū)間為 7.8230,8.7636(置信度(置信度95%)上限用作庫存管理的目標值上限用作庫存管理的目標值 下限用來把握公司的現金流下限用來把握公司的現金流 若估計若估計x3=3.9,設定,設定x4=3.7,則可以,則可

8、以95%的把握的把握知道銷售額在知道銷售額在 7.8230 3.7 29(百萬元)以上(百萬元)以上控制控制x1通過通過x1, x2預測預測y2933.822322110 xxxy(百萬支百萬支)模型改進模型改進x1和和x2對對y的的影響獨立影響獨立 22322110 xxxy21422322110 xxxxxy參數參數參數估計值參數估計值置信區(qū)間置信區(qū)間17.32445.7282 28.92061.30700.6829 1.9311 -3.6956-7.4989 0.1077 0.34860.0379 0.6594 R2=0.9054 F=82.9409 p0.0001 s2=0.0426

9、0 1 2 3參數參數參數估計值參數估計值置信區(qū)間置信區(qū)間29.113313.7013 44.525211.13421.9778 20.2906 -7.6080-12.6932 -2.5228 0.67120.2538 1.0887 -1.4777-2.8518 -0.1037 R2=0.9209 F=72.7771 p0.0001 s2=0.0490 3 0 1 2 4x1和和x2對對y的影響有的影響有交互作用交互作用兩模型銷售量預測兩模型銷售量預測比較比較21422322110 xxxxxy22322110 xxxy預測區(qū)間預測區(qū)間 7.8230,8.7636預測區(qū)間預測區(qū)間 7.8953

10、,8.7592 控制價格差控制價格差x1=0.2元,投入廣告費元,投入廣告費x2=6.5百萬元百萬元預測區(qū)間長度更短預測區(qū)間長度更短 略有增加略有增加 y 2933. 8 y預測值預測值3272. 8 y預測值預測值x2=6.5x1=0.2 -0.200.20.40.67.588.59x1y -0.200.20.40.67.588.59x1y 56787.588.599.510 x2y 567888.599.51010.5x2y 22322110 xxxy21422322110 xxxxxy兩模型兩模型 與與x1, ,x2關系的關系的比較比較y 交互作用影響的討論交互作用影響的討論2221 .

11、 06712. 07558. 72267.301xxyx價格差價格差 x1=0.1 價格差價格差 x1=0.32223 . 06712. 00513. 84535.321xxyx21422322110 xxxxxy5357. 72x加大廣告投入使銷售量增加加大廣告投入使銷售量增加 ( x2大于大于6百萬元)百萬元)價格差較小時增價格差較小時增加的速率更大加的速率更大 56787.588.599.51010.5x1=0.1x1=0.3x2y 1 . 03 . 011xxyy價格優(yōu)勢會使銷售量增加價格優(yōu)勢會使銷售量增加 價格差較小時更需要靠價格差較小時更需要靠廣告來吸引顧客的眼球廣告來吸引顧客的眼

12、球 完全二次多項式模型完全二次多項式模型 22521421322110 xxxxxxyMATLAB中有命令中有命令rstool直接求解直接求解00.20.47.588.599.5105.566.57y ),(543210從輸出從輸出 Export 可得可得鼠標移動十字線鼠標移動十字線(或下方窗口輸入或下方窗口輸入)可改變可改變x1, x2, 左邊窗口顯示預測值左邊窗口顯示預測值 及預測區(qū)間及預測區(qū)間y 牙膏的銷售量牙膏的銷售量 建立統(tǒng)計回歸模型的基本步驟建立統(tǒng)計回歸模型的基本步驟 根據已知數據從常識和經驗分析根據已知數據從常識和經驗分析, 輔之以作圖輔之以作圖, 決定回歸變量及函數形式決定回歸

13、變量及函數形式(先取盡量簡單的形式先取盡量簡單的形式). 用用軟件軟件(如如MATLAB統(tǒng)計工具箱統(tǒng)計工具箱)求解求解. 對結果作對結果作統(tǒng)計分析統(tǒng)計分析: R2,F, p, s2是對模型整體的評價是對模型整體的評價, 回歸系數置信區(qū)間是否含零點,用于檢驗回歸變量回歸系數置信區(qū)間是否含零點,用于檢驗回歸變量 對因變量的對因變量的影響是否顯著影響是否顯著. 模型改進模型改進, 如增添二次項、交互項等如增添二次項、交互項等. 對因變量進行對因變量進行預測預測.10.2 軟件開發(fā)人員的薪金軟件開發(fā)人員的薪金資歷資歷 從事專業(yè)工作的年數;管理從事專業(yè)工作的年數;管理 1= =管理人員管理人員, ,0=

14、 =非管理人員;非管理人員;教育教育 1= =中學,中學,2= =大學,大學,3= =更高程度更高程度. .建立模型研究薪金與資歷、管理責任、教育程度的關系建立模型研究薪金與資歷、管理責任、教育程度的關系. .分析人事策略的合理性,作為新聘用人員薪金的參考分析人事策略的合理性,作為新聘用人員薪金的參考. . 編編號號薪金薪金資資歷歷管管理理教教育育0113876111021160810303187011130411283102編編號號薪金薪金資資歷歷管管理理教教育育422783716124318838160244174831601451920717024619346200146名軟件開發(fā)人員的

15、檔案資料名軟件開發(fā)人員的檔案資料 分析與假設分析與假設 y 薪金,薪金,x1 資歷(年)資歷(年)x2 = = 1 管理人員,管理人員,x2 = = 0 非管理人員非管理人員1= =中學中學2= =大學大學3= =更高更高其他中學,013x其他大學,014x 資歷每加一年資歷每加一年, ,薪金的增長是常數;薪金的增長是常數; 管理、教育、資歷之間無交互作用管理、教育、資歷之間無交互作用. . 教教育育443322110 xaxaxaxaay線性回歸模型線性回歸模型 a0, a1, , a4是待估計的回歸系數,是待估計的回歸系數, 是隨機誤差是隨機誤差 中學:中學:x3=1, x4=0 ;大學:

16、大學:x3=0, x4=1; 更高:更高:x3=0, x4=0 假設假設模型求解模型求解443322110 xaxaxaxaay參數參數參數估計值參數估計值置信區(qū)間置信區(qū)間a011033 10258 11807 a1546 484 608 a26883 6248 7517 a3-2994 -3826 -2162 a4148 -636 931 R2=0.9567 F=226 p0.0001 s2=106R2,F, p 模型整體上可用模型整體上可用資歷增加資歷增加1年年薪金增長薪金增長546 管理人員薪金管理人員薪金多多6883 中學程度薪金比中學程度薪金比更高的少更高的少2994 大學程度薪金比

17、大學程度薪金比更高的多更高的多148 a4置信區(qū)間包含零置信區(qū)間包含零點,解釋不可靠點,解釋不可靠! !中學:中學:x3=1, x4=0;大學:大學:x3=0, x4=1; 更高:更高:x3=0, x4=0. x2 = = 1 管理,管理,x2 = = 0 非管理非管理x1資歷資歷( (年年) )殘差分析方法殘差分析方法 結果分析結果分析443322110 xaxaxaxaay殘差殘差yyee 與資歷與資歷x1的關系的關系 05101520-2000-1000010002000 e與管理與管理教育組合的關系教育組合的關系 123456-2000-1000010002000殘差全為正殘差全為正,

18、 ,或全為負或全為負, ,管管理理教育組合處理不當教育組合處理不當. . 殘差大概分成殘差大概分成3個水平個水平, ,6種管理種管理教育組合混在教育組合混在一起,未正確反映一起,未正確反映.應在模型中增加管理應在模型中增加管理x2與與教育教育x3, x4的交互項的交互項 .組合組合123456管理管理010101教育教育112233管理與教育的組合管理與教育的組合426325443322110 xxaxxaxaxaxaxaay進一步的模型進一步的模型增加管理增加管理x2與教育與教育x3, x4的交互項的交互項參數參數參數估計值參數估計值置信區(qū)間置信區(qū)間a01120411044 11363a14

19、97486 508a270486841 7255a3-1727-1939 -1514a4-348-545 152a5-3071-3372 -2769a618361571 2101R2=0.9988 F=554 p0.0001 s2=3 104 R2, ,F有改進有改進, ,所有回歸系數置所有回歸系數置信區(qū)間不含零點信區(qū)間不含零點, ,模型完全可用模型完全可用 消除了不正?,F象消除了不正?,F象 異常數據異常數據( (33號號) )應去掉應去掉! ! 05101520-1000-5000500e x1 123456-1000-5000500e 組合組合去掉異常數據后去掉異常數據后的結果的結果參數參

20、數參數估計值參數估計值置信區(qū)間置信區(qū)間a01120011139 11261a1498494 503a270416962 7120a3-1737-1818 -1656a4-356-431 281a5-3056-3171 2942a619971894 2100R2= 0.9998 F=36701 p0.0001 s2=4 10305101520-200-1000100200e x1 123456-200-1000100200e 組合組合R2: 0.9567 0.99880.9998F:226 554 36701 s2: 104 3 104 4 103置信區(qū)間長度更短置信區(qū)間長度更短殘差殘差圖十分正

21、常圖十分正常最終模型的結果可以應最終模型的結果可以應用用模型應用模型應用 制訂制訂6種管理種管理教育組合人員的教育組合人員的“基礎基礎”薪金薪金( (資歷為資歷為0)組合組合管理管理教育教育系數系數“基礎基礎”薪金薪金101a0+a39463211a0+a2+a3+a513448302a0+a410844412a0+a2+a4+a619882503a011200613a0+a218241426325443322110 xxaxxaxaxaxaxaay中學:中學:x3=1, x4=0 ;大學:;大學:x3=0, x4=1; 更高:更高:x3=0, x4=0 x1= = 0; x2 = = 1 管

22、理,管理,x2 = = 0 非管理非管理大學程度管理人員比更高程度管理人員的薪金高大學程度管理人員比更高程度管理人員的薪金高. . 大學程度非管理人員比更高程度非管理人員的薪金略低大學程度非管理人員比更高程度非管理人員的薪金略低. . 對定性因素對定性因素( (如管理、教育如管理、教育) )可以可以引入引入0- -1變量變量處理,處理,0- -1變量的個數可比定性因素的水平少變量的個數可比定性因素的水平少1. 軟件開發(fā)人員的薪金軟件開發(fā)人員的薪金殘差分析方法殘差分析方法可以發(fā)現模型的缺陷,可以發(fā)現模型的缺陷,引入交互作用項引入交互作用項常常能夠改善模型常常能夠改善模型. . 剔除異常數據剔除異

23、常數據,有助于得到更好的結果,有助于得到更好的結果. .注:可以直接對注:可以直接對6種管理種管理教育組合引入教育組合引入5個個0- -1變量變量. . 10.3 酶促反應酶促反應 問問題題研究酶促反應(研究酶促反應(酶催化反應)酶催化反應)中嘌呤霉素對反中嘌呤霉素對反應速度與底物應速度與底物(反應物)(反應物)濃度之間關系的影響濃度之間關系的影響. 建立數學模型,反映該酶促反應的速度與底建立數學模型,反映該酶促反應的速度與底物濃度以及經嘌呤霉素處理與否之間的關系物濃度以及經嘌呤霉素處理與否之間的關系. 設計了兩個實驗設計了兩個實驗 :酶經過嘌呤霉素處理;:酶經過嘌呤霉素處理;酶未經嘌呤霉素處

24、理酶未經嘌呤霉素處理. 實驗數據見下表實驗數據見下表. 方方案案底物濃度底物濃度(ppm)0.020.060.110.220.561.10反應反應速度速度處理處理764797107123 139 159 152 191 201 207 200未處理未處理6751848698115 131 124 144 158 160/基本模型基本模型 Michaelis-Menten模型模型y 酶促反應的速度酶促反應的速度, x 底物濃度底物濃度 xxxfy21),( 1 , 2 待定待定系數系數 底物濃度較小時,反應速度大致與濃度成正比;底物濃度較小時,反應速度大致與濃度成正比;底物濃度很大、漸進飽和時,

25、反應速度趨于固定值底物濃度很大、漸進飽和時,反應速度趨于固定值.酶促反應的基本性質酶促反應的基本性質 xyO 1實驗實驗數據數據00.511.5050100150200250經嘌呤霉經嘌呤霉素處理素處理xy00.511.5050100150200250未經嘌呤未經嘌呤霉素處理霉素處理xy線性化模型線性化模型 經嘌呤霉素處理后實驗數據的估計結果經嘌呤霉素處理后實驗數據的估計結果 參數參數參數估計值(參數估計值(10-3)置信區(qū)間(置信區(qū)間(10-3) 15.10723.5386 6.6758 20.24720.1757 0.3188R2=0.8557 F=59.2975 p0.0001 s2=3

26、.5806 10-68027.195/11104841. 0/122xxy21xy111121對對 1 , 2非線性非線性 對對 1, 2線性線性 x121線性化模型結果分析線性化模型結果分析 x較大時,較大時,y有較大偏差有較大偏差 1/x較小時有很好的較小時有很好的線性趨勢,線性趨勢,1/x較大較大時出現很大的起落時出現很大的起落. . 參數估計時,參數估計時,x較小較小( (1/x很大很大) )的數據控的數據控 制了回歸參數的確定制了回歸參數的確定. . 0102030405000.0050.010.0150.020.0251/y1/xxy112100.511.5050100150200

27、250 xxy21xybeta,R,J = nlinfit (x,y,model,beta0) beta的置信區(qū)間的置信區(qū)間MATLAB 統(tǒng)計工具箱統(tǒng)計工具箱 輸入輸入 x自變量自變量數據矩陣數據矩陣y 因變量數據向量因變量數據向量beta 參數的估計值參數的估計值R 殘差,殘差,J 估計預估計預測誤差的測誤差的Jacobi矩陣矩陣 model 模型的函數模型的函數M文件名文件名beta0 給定的參數初值給定的參數初值 輸出輸出 betaci =nlparci(beta,R,J) 非線性模型參數估計非線性模型參數估計function y=f1(beta, x)y=beta(1)*x./(bet

28、a(2)+x);xxy21x= ; y= ;beta0=195.8027 0.04841;beta,R,J=nlinfit(x,y,f1,beta0);betaci=nlparci(beta,R,J);beta, betaci beta0線性化線性化模型估計結果模型估計結果 非線性模型結果分析非線性模型結果分析參數參數參數估計值參數估計值置信區(qū)間置信區(qū)間 1212.6819197.2029 228.1609 20.06410.0457 0.0826 畫面左下方的畫面左下方的Export 輸出其他統(tǒng)計結果輸出其他統(tǒng)計結果.拖動畫面的十字線,得拖動畫面的十字線,得y的預測值和預測區(qū)間的預測值和預測

29、區(qū)間剩余標準差剩余標準差s= 10.9337xxy21最終反應速度為最終反應速度為6831.2121其他輸出其他輸出命令命令nlintool 給出交互畫面給出交互畫面00.511.5050100150200250o 原始數據原始數據+ 擬合結果擬合結果 00.20.40.60.81-500501001502002500641. 02半速度點半速度點(達到最終速度達到最終速度一半時的一半時的x值值 )為為混合反應模型混合反應模型 x1為底物濃度,為底物濃度, x2為一示性變量為一示性變量 x2=1表示經過處理,表示經過處理,x2=0表示未經處理表示未經處理 1是未經處理的最終反應速度是未經處理的

30、最終反應速度 1是經處理后最終反應速度的增長值是經處理后最終反應速度的增長值 2是未經處理的反應的半速度點是未經處理的反應的半速度點 2是經處理后反應的半速度點的增長值是經處理后反應的半速度點的增長值 在同一模型中考慮嘌呤霉素處理的影響在同一模型中考慮嘌呤霉素處理的影響xxy2112221211)(xxxxy)(o 原始數據原始數據+ 擬合結果擬合結果 混合模型求解混合模型求解用用nlinfit 和和 nlintool命令命令,17001,6001,05. 00201. 002估計結果和預測估計結果和預測剩余標準差剩余標準差s=10.4000 參數參數參數估計值參數估計值置信區(qū)間置信區(qū)間 11

31、60.2802145.8466 174.7137 20.04770.0304 0.0650 152.403532.4130 72.3941 20.0164-0.0075 0.0403 2置信區(qū)間包含零點,置信區(qū)間包含零點,表明表明 2對因變量對因變量y的影響不顯著的影響不顯著12221211)(xxxxy)(參數初值參數初值(基于對數據的分析基于對數據的分析)經嘌呤霉素處理的作用不影響半速度點參數經嘌呤霉素處理的作用不影響半速度點參數未經未經處理處理經處理經處理o 原始數據原始數據+ 擬合結果擬合結果 未經未經處理處理經處理經處理簡化的混合模型簡化的混合模型 簡化的混合模型簡化的混合模型形式簡

32、單,形式簡單,參數置信區(qū)間參數置信區(qū)間不含零點不含零點.剩余標準差剩余標準差 s = 10.5851,比一般混合模型略大,比一般混合模型略大. 12221211)(xxxxy)(121211xxxy)(估計結果和預測估計結果和預測參參數數參數估參數估計值計值置信區(qū)間置信區(qū)間 1166.6025 154.4886 178.7164 20.05800.0456 0.0703 142.025228.9419 55.1085一般混合模型與簡化混合模型預測比較一般混合模型與簡化混合模型預測比較實際值實際值一般模型預測值一般模型預測值(一般一般模型模型)簡化模型預測值簡化模型預測值(簡化簡化模型模型)67

33、47.34439.207842.73585.44465147.34439.207842.73585.44468489.28569.571084.73567.0478191190.83299.1484189.05748.8438201190.83299.1484189.05748.8438207200.968811.0447198.183710.1812200200.968811.0447198.183710.1812簡化混合模型的預測區(qū)間較短,更為實用、有效簡化混合模型的預測區(qū)間較短,更為實用、有效.12221211)(xxxxy)(121211xxxy)(預測區(qū)間為預測區(qū)間為預測值預測值 注

34、:非線性模型擬合程度的評價無法直接利用注:非線性模型擬合程度的評價無法直接利用線性模型的方法,但線性模型的方法,但R2 與與s仍然有效仍然有效.酶促反應酶促反應 反應速度與底物濃度的關系反應速度與底物濃度的關系非線性非線性關系關系求解求解線性模型線性模型 求解非線性模型求解非線性模型機理分析機理分析嘌呤霉素處理對反應速度與底物濃度關系的影響嘌呤霉素處理對反應速度與底物濃度關系的影響混合模型混合模型 發(fā)現問題,發(fā)現問題,得參數初值得參數初值引入引入0-1變量變量簡化模型簡化模型 檢查檢查參數置信區(qū)間參數置信區(qū)間是否包含零點是否包含零點10.4 投資額與生產總值和物價指數投資額與生產總值和物價指數

35、 問問題題建立投資額模型,研究建立投資額模型,研究某地區(qū)某地區(qū)實際投資額與國實際投資額與國民生產總值民生產總值 ( GNP ) 及物價指數及物價指數 ( PI ) 的關系的關系.2.06883073.0424.5201.00001185.9195.0101.95142954.7474.9190.96011077.6166.491.78422631.7401.9180.9145 992.7144.281.63422417.8423.0170.8679 944.0149.371.50422163.9386.6160.8254 873.4133.361.40051918.3324.1150.7906

36、 799.0122.851.32341718.0257.9140.7676 756.0125.741.25791549.2206.1130.7436 691.1113.531.15081434.2228.7120.7277 637.797.421.05751326.4 229.8110.7167 596.7 90.91物價物價指數指數國民生國民生產總值產總值投資額投資額年份年份序號序號物價物價指數指數國民生產國民生產總值總值投資額投資額年份年份序號序號根據對未來根據對未來GNP及及PI的估計,預測未來投資額的估計,預測未來投資額. . 該地區(qū)該地區(qū)連續(xù)連續(xù)20年的統(tǒng)計數據年的統(tǒng)計數據 時間序列

37、中同一變量的順序觀測值之間存在時間序列中同一變量的順序觀測值之間存在自相關自相關.以時間為序的數據,稱為以時間為序的數據,稱為時間序列時間序列. .分分析析許多經濟數據在時間上有一定的許多經濟數據在時間上有一定的滯后滯后性性. . 需要診斷并消除數據的自相關性,建立新的模型需要診斷并消除數據的自相關性,建立新的模型.若采用普通回歸模型直接處理,將會出現不良后果若采用普通回歸模型直接處理,將會出現不良后果. . 投資額與國民生產總值和物價指數投資額與國民生產總值和物價指數 1.32341718.0257.9140.7676 756.0125.741.25791549.2206.1130.7436

38、 691.1113.531.15081434.2228.7120.7277 637.797.421.05751326.4 229.8110.7167 596.7 90.91物價物價指數指數國民生國民生產總值產總值投資額投資額年份年份序號序號物價物價指數指數國民生產國民生產總值總值投資額投資額年份年份序號序號基本回歸模型基本回歸模型投資額與投資額與 GNP及物價指數間均有很強的線性關系及物價指數間均有很強的線性關系ttttxxy22110t 年份,年份, yt 投資額,投資額,x1t GNP, x2t 物價指數物價指數 0, 1, 2 回歸系數回歸系數 x1tytx2tyt t 對對t相互相互獨

39、立的零均值正態(tài)隨機變量獨立的零均值正態(tài)隨機變量基本回歸模型的結果與分析基本回歸模型的結果與分析 tttxxy21479.8596185. 0725.322MATLAB 統(tǒng)計工具箱統(tǒng)計工具箱 參數參數參數估計值參數估計值置信區(qū)間置信區(qū)間 0322.7250224.3386 421.1114 10.61850.4773 0.7596 2-859.4790-1121.4757 -597.4823 R2= 0.9908 F= 919.8529 p 0 0如何估計如何估計 如何消除自相關如何消除自相關性性D-W統(tǒng)計量統(tǒng)計量D-W檢驗檢驗 ut 對對t相互相互獨立的零均值正態(tài)隨機變量獨立的零均值正態(tài)隨機變

40、量存在負存在負自相關性自相關性存在正存在正自相關性自相關性廣義差分法廣義差分法 D-W統(tǒng)計量與統(tǒng)計量與D-W檢驗檢驗 nttnttteeeDW22221)(檢驗水平檢驗水平, ,樣本容量,樣本容量,回歸變量數目回歸變量數目D-W分布分布表表nttnttteee222112)(12n較大較大nttnttteee2221/4011DWDW4-dU44-dLdUdL20正正自自相相關關負負自自相相關關不不能能確確定定不不能能確確定定無無自自相相關關20DW01DW41DW檢驗檢驗臨界值臨界值dL和和dU由由DW值的大小確定值的大小確定自相關性自相關性廣義差分變換廣義差分變換 )1 (0*0以以 0

41、*, 1 , 2 為為回歸系數的普通回歸模型回歸系數的普通回歸模型原模型原模型 DW值值 D-W檢驗檢驗無自相關無自相關 有自相關有自相關 廣義廣義差分差分繼續(xù)此繼續(xù)此過程過程原模型原模型 新模型新模型 新模型新模型 ttttuxxy*22*11*0*步驟步驟 原模型原模型tttttttuxxy122110,1*tttyyy2, 1,1,*ixxxtiitit變換變換)(12DW21DW不能確定不能確定增加數據量;增加數據量;選用其他方法選用其他方法.投資額新模型的建立投資額新模型的建立 DWold dL 作變換作變換 原模型原模型殘差殘差et樣本容量樣本容量n=20, 回歸回歸變量數目變量數

42、目k=3, =0.05 查表查表臨界值臨界值dL=1.10, dU=1.54DWold=0.8754原模型有原模型有正自相關正自相關1*5623. 0tttyyy2 , 1,5623. 01,*ixxxtiititnttnttteeeDW22221)(5623. 02/1DWDW4-dU44-dLdUdL20正正自自相相關關負負自自相相關關不不能能確確定定不不能能確確定定無無自自相相關關參數參數參數估計值參數估計值置信區(qū)間置信區(qū)間 *0163.49051265.4592 2005.2178 10.69900.5751 0.8247 2-1009.0333-1235.9392 -782.1274

43、R2= 0.9772 F=342.8988 p0.0001 s2=96.58ttttuxxy*22*11*0*21*0*2*1*,,估計系數由數據tttxxy總體效果良好總體效果良好 剩余標準差剩余標準差 snew= 9.8277 sold=12.7164投資額新模型的建立投資額新模型的建立 1*5623. 0tttyyy2 , 1,5623. 01,*ixxxtiitit新模型的自相關性檢驗新模型的自相關性檢驗dU DWnew 4-dU 新模型新模型殘差殘差et樣本容量樣本容量n=19, 回歸回歸變量數目變量數目k=3, =0.05 查表查表臨界值臨界值dL=1.08, dU=1.53DWn

44、ew=1.5751新模型無自相關性新模型無自相關性DW4-dU44-dLdUdL20正正自自相相關關負負自自相相關關不不能能確確定定不不能能確確定定無無自自相相關關1,2,21, 1, 113794.5670333.10093930. 0699. 05623. 04905.163ttttttxxxxyy*2*1*033.1009699.04905.163tttxxy新模型新模型還原為還原為原始變量原始變量一階自回歸模型一階自回歸模型一階自回歸一階自回歸模型殘差模型殘差et比比基本回歸基本回歸模型要小模型要小.05101520-30-20-1001020新模型新模型 et *,原模型原模型 et

45、 +殘差圖比較殘差圖比較051015200100200300400500新模型新模型 t *,新模型新模型 t +擬合圖比較擬合圖比較模型結果比較模型結果比較tttxxy21479.8596185. 0725.322基本回歸模型基本回歸模型一階自回歸模型一階自回歸模型1, 2, 21, 1, 113794.5670333.10093930. 0699. 05623. 04905.163ttttttxxxxyy投資額預測投資額預測對未來投資額對未來投資額yt 作預測,需先作預測,需先估計出未來的國民估計出未來的國民生產總值生產總值x1t 和物價指數和物價指數 x2t設已知設已知 t=21時,時,

46、 x1t =3312,x2t=2.19387638.469 ty一階自回歸模型一階自回歸模型2.06883073.0424.5201.95142954.7474.9191.78422631.7401.9180.7436 691.1113.530.7277 637.7 97.420.7167 596.7 90.91物價物價指數指數國民生國民生產總值產總值投資額投資額年份年份序號序號物價物價指數指數國民生產國民生產總值總值投資額投資額年份年份序號序號一階自回歸模型一階自回歸模型7638.469 ty基本回歸模型基本回歸模型6720.485 tyt 較小是由于較小是由于yt-1=424.5過小所致過

47、小所致10.5 教學評估教學評估為了考評教師的教學質量,教學研究部門對學生為了考評教師的教學質量,教學研究部門對學生進行問卷調查進行問卷調查 ,得到,得到15門課程各項評分的平均值門課程各項評分的平均值. 問問題題X1 內容組織的合理性;內容組織的合理性;X2 問題展開的邏輯性;問題展開的邏輯性;X3 回答學生的有效性;回答學生的有效性;X4 課下交流的有助性;課下交流的有助性;X5 教材的幫助性;教材的幫助性;X6 考試的公正性;考試的公正性;Y 總體評價總體評價.編號編號X1X2X3X4X5X6Y2014.464.424.234.104.564.374.112244.113.823.293

48、.603.993.823.384244.244.384.354.484.154.504.33建立建立Y 與與X1 X6間簡單、有效的模型,間簡單、有效的模型,給教師提出建議給教師提出建議. rxdtdx從從X1 X6中挑選出對中挑選出對Y影響顯著的變量建立回歸模型影響顯著的變量建立回歸模型.將所有對將所有對Y影響顯著的影響顯著的X都選入模型,而影響不顯著都選入模型,而影響不顯著的的X都不選入模型,使模型中自變量個數盡可能少都不選入模型,使模型中自變量個數盡可能少. 問題分析問題分析 繼續(xù)進行,直到不能引入和移出為止繼續(xù)進行,直到不能引入和移出為止 . 確定一個包含若干確定一個包含若干X的初始集

49、合的初始集合S0 . 從從S0外的外的X中引入一個對中引入一個對Y影響最大的影響最大的, S0 S1 . 對對S1中的中的X進行檢驗,移出一個影響最小的進行檢驗,移出一個影響最小的, S1 S2 . 引入和移出都以給定的顯著引入和移出都以給定的顯著 性水平為標準性水平為標準. 解決辦法解決辦法利用利用逐步回歸逐步回歸rxdtdx MATLAB統(tǒng)計工具箱中的逐步回歸統(tǒng)計工具箱中的逐步回歸輸入輸入x自變量集合的自變量集合的nk 數據矩陣(數據矩陣(n是數據容量是數據容量, k是變量數目),是變量數目), y因變量數據向量(因變量數據向量(n維)維) stepwise (x,y,inmodel,pe

50、nter,premove) Inmodel初始模型初始模型S0中包括的自變量集合的指標中包括的自變量集合的指標(即矩陣(即矩陣x的列序數,缺省時為無自變量)的列序數,缺省時為無自變量) penter引入變量的顯著性水平(缺省時為引入變量的顯著性水平(缺省時為0.05) premove移出移出變量的顯著性水平(缺省時為變量的顯著性水平(缺省時為0.10) 輸出幾個交互式畫面,供使用者人工選擇變量,輸出幾個交互式畫面,供使用者人工選擇變量,進行統(tǒng)計分析進行統(tǒng)計分析. MATLAB統(tǒng)計工具箱中的逐步回歸統(tǒng)計工具箱中的逐步回歸stepwise (x,y) 其中其中x為為X1 X6數據矩陣數據矩陣, y

51、為為Y 向量向量0123X1X2X3X4X5X6Coefficients with Error Bars C o e f f . t - s t a t p - v a l 0 . 8 8 3 3 4 9 7 . 3 3 1 2 0 . 0 0 0 0 1 . 0 6 3 8 9 9 . 6 1 3 2 0 . 0 0 0 0 1 . 2 4 5 7 5 7 . 9 9 5 1 0 . 0 0 0 0 1 . 2 0 8 0 3 5 . 2 0 2 9 0 . 0 0 0 2 0 . 1 6 0 3 6 5 0 . 6 5 3 5 0 . 5 2 4 8 1 . 9 8 2 4 7 5 . 2

52、 5 5 4 0 . 0 0 0 21-1012Model HistoryRMSE輸出交互式畫面輸出交互式畫面按照提示點擊按照提示點擊x2的熱點引入的熱點引入x2 MATLAB統(tǒng)計工具箱中的逐步回歸統(tǒng)計工具箱中的逐步回歸依次按照提示依次按照提示: Move x3 in, Move x1 in, Move x2 out -0.500.51X1X2X3X4X5X6Coefficients with Error Bars C o e f f . t - s t a t p - v a l 0 . 5 0 9 9 0 6 8 . 7 2 4 1 0 . 0 0 0 0 - 0 . 1 1 3 7 1

53、8 - 0 . 6 3 3 0 0 . 5 3 9 7 0 . 7 6 7 7 9 4 9 . 4 6 2 7 0 . 0 0 0 0 0 . 0 8 3 2 9 9 7 0 . 7 4 0 9 0 . 4 7 4 3 - 0 . 0 1 7 9 9 7 6 - 0 . 4 1 6 2 0 . 6 8 5 3 0 . 1 1 0 8 9 6 0 . 5 2 9 8 0 . 6 0 6 81234500.51Model HistoryRMSE按照提示按照提示, 包含包含x1,x3的模型是最終結果的模型是最終結果最終模型最終模型2471. 17678. 05099. 031XXYrxdtdx模型解

54、釋模型解釋計算計算X1 X6, Y 的相關系數矩陣的相關系數矩陣(MATLAB的的corrcoef ): 1.0000 0.9008 0.6752 0.7361 0.2910 0.6471 0.8973 0.9008 1.0000 0.8504 0.7399 0.2775 0.8026 0.9363 0.6752 0.8504 1.0000 0.7499 0.0808 0.8490 0.9116 0.7361 0.7399 0.7499 1.0000 0.4370 0.7041 0.8219 0.2910 0.2775 0.0808 0.4370 1.0000 0.1872 0.1783 0.

55、6471 0.8026 0.8490 0.7041 0.1872 1.0000 0.8246 0.8973 0.9363 0.9116 0.8219 0.1783 0.8246 1.0000 與與Y的相關系數大于的相關系數大于0.85的是的是X1, X2, X3 . X2與與X1, X3 的相關系數大于的相關系數大于0.85.為什么只有為什么只有X1, X2 進入最終模型進入最終模型?X1提高提高1分分Y提高提高0.5分分, X3提高提高1分分Y提高提高0.77分分.模型解釋模型解釋X1 內容組織的合理性;內容組織的合理性;X2 問題展開的邏輯性;問題展開的邏輯性;X3 回答學生的有效性回答學

56、生的有效性;X4 課下交流的有助性;課下交流的有助性;X5 教材的幫助性;教材的幫助性;X6 考試的公正性;考試的公正性;Y 總體評價總體評價.2471. 17678. 05099. 031XXY 逐步回歸是從眾多變量中挑選出影響顯著變量逐步回歸是從眾多變量中挑選出影響顯著變量 的有效方法的有效方法. 原有變量的平方項、交互項等也可以作為新變量原有變量的平方項、交互項等也可以作為新變量 加入到候選行列,用逐步回歸處理加入到候選行列,用逐步回歸處理. 逐步回歸逐步回歸10.6 冠心病與年齡冠心病與年齡 冠心病是一種常見的心臟疾病冠心病是一種常見的心臟疾病, 嚴重危害人類的健康嚴重危害人類的健康.

57、 多項研究表明多項研究表明, 冠心病冠心病發(fā)病率隨著發(fā)病率隨著年齡年齡的增加而上升的增加而上升. 在冠心病流行病學研究中在冠心病流行病學研究中年齡年齡是最常見的混雜因素之一是最常見的混雜因素之一. 100名被觀察者的名被觀察者的年齡年齡及他們是否及他們是否患冠心病患冠心病的數據的數據 根據以上數據建立數學模型根據以上數據建立數學模型, ,分析發(fā)病率與年齡的關系分析發(fā)病率與年齡的關系, ,并進行統(tǒng)計預測并進行統(tǒng)計預測. . 序序號號年年齡齡冠心冠心病病序序號號年年齡齡冠心冠心病病序序號號年年齡齡冠心冠心病病序序號號年年齡齡冠心冠心病病1200263505144176551253405044075

58、551100691分析與假設分析與假設 被觀察者獨立選取被觀察者獨立選取 x被觀察者被觀察者年齡年齡, Y患病情況患病情況 (Y=1患病患病, Y=0不患病不患病) 202530354045505560657000.10.20.30.40.50.60.70.80.91AgeCHD202530354045505560650.10.20.30.40.50.60.70.8AgeProportion of CHD年齡段年齡段段中點段中點人數人數患病人數患病人數患病比例患病比例20-2924.51010.130-34321520.1360-6964.51080.80合計合計100430.43按年齡段按年

59、齡段分組分組統(tǒng)計患病人數及統(tǒng)計患病人數及比例比例 患病比例隨年齡增大而遞增患病比例隨年齡增大而遞增,是介于是介于0與與1之間的之間的S型曲線型曲線. 無法建立前面那樣的回歸模型無法建立前面那樣的回歸模型,需要對數據進行預處理需要對數據進行預處理. 患病比例患病比例y是是年齡段中點年齡段中點x時時Y的平均值的平均值分析與假設分析與假設 Y取值取值 0, 1 ; y 取值取值 0, 1 332210 xxxy用普通方法建立回歸方程用普通方法建立回歸方程 202530354045505560657000.10.20.30.40.50.60.70.80.91AgeProportion of CHD y

60、取值不一定在取值不一定在0,1中中. 誤差項誤差項只能取值只能取值0,1, 不具不具有正態(tài)性有正態(tài)性, 且具有異方差性且具有異方差性.違反普通回歸分析的前提條件違反普通回歸分析的前提條件! 當因變量當因變量Y為一個為一個二分類二分類(或多分類或多分類)變量時,需變量時,需要用到要用到新的回歸模型新的回歸模型.)|(xYEy Y的的條件期望條件期望Logit 模型模型 )|1()(xYPx)|(xYEy Y的的(條件條件)期望期望(x)年齡年齡x的患病概率的患病概率(患病比例患病比例y)(1)()|(xxxYD方差方差 (x) S型曲線型曲線, 取值取值0,1 0101e( )1 exxxxxx

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論