統(tǒng)計(jì)模型在數(shù)學(xué)建模的應(yīng)用_第1頁
統(tǒng)計(jì)模型在數(shù)學(xué)建模的應(yīng)用_第2頁
統(tǒng)計(jì)模型在數(shù)學(xué)建模的應(yīng)用_第3頁
統(tǒng)計(jì)模型在數(shù)學(xué)建模的應(yīng)用_第4頁
統(tǒng)計(jì)模型在數(shù)學(xué)建模的應(yīng)用_第5頁
已閱讀5頁,還剩49頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、統(tǒng)計(jì)模型在數(shù)學(xué)建模中的應(yīng)用,統(tǒng)計(jì)回歸模型,牙膏的銷售量 軟件開發(fā)人員的薪金 投資額與生產(chǎn)總值和物價(jià)指數(shù) 教學(xué)評(píng)估 冠心病與年齡,回歸模型是用統(tǒng)計(jì)分析方法建立的最常用的一類模型.,數(shù)學(xué)建模的基本方法,機(jī)理分析,測(cè)試分析,通過對(duì)數(shù)據(jù)的統(tǒng)計(jì)分析,找出與數(shù)據(jù)擬合最好的模型.,不涉及回歸分析的數(shù)學(xué)原理和方法 .,通過實(shí)例討論如何選擇不同類型的模型 .,對(duì)軟件得到的結(jié)果進(jìn)行分析,對(duì)模型進(jìn)行改進(jìn).,由于客觀事物內(nèi)部規(guī)律的復(fù)雜及人們認(rèn)識(shí)程度的限制,無法分析實(shí)際對(duì)象內(nèi)在的因果關(guān)系,建立合乎機(jī)理規(guī)律的數(shù)學(xué)模型.,1 牙膏的銷售量,問題,建立牙膏銷售量與價(jià)格、廣告投入之間的模型;,預(yù)測(cè)在不同價(jià)格和廣告費(fèi)用下的牙膏銷

2、售量.,收集了30個(gè)銷售周期本公司牙膏銷售量、價(jià)格、廣告費(fèi)用,及同期其他廠家同類牙膏的平均售價(jià) .,基本模型,y 公司牙膏銷售量,x1其他廠家與本公司價(jià)格差,x2公司廣告費(fèi)用,x1, x2解釋變量(回歸變量, 自變量),y被解釋變量(因變量),0, 1 , 2 , 3 回歸系數(shù),隨機(jī)誤差(均值為零的正態(tài)分布隨機(jī)變量),MATLAB 統(tǒng)計(jì)工具箱,模型求解,b,bint,r,rint,stats=regress(y,x,alpha),輸入,x= n4數(shù)據(jù)矩陣, 第1列為全1向量,alpha(置信水平,0.05),b的估計(jì)值,bintb的置信區(qū)間,r 殘差向量y-xb,rintr的置信區(qū)間,Stat

3、s 檢驗(yàn)統(tǒng)計(jì)量 R2,F, p,s2,yn維數(shù)據(jù)向量,輸出,由數(shù)據(jù) y,x1,x2估計(jì),結(jié)果分析,y的90.54%可由模型確定,F值遠(yuǎn)超過F檢驗(yàn)的臨界值,p值遠(yuǎn)小于=0.05,2的置信區(qū)間包含零點(diǎn)(右端點(diǎn)距零點(diǎn)很近),x2對(duì)因變量y 的影響不太顯著,x22項(xiàng)顯著,可將x2保留在模型中,模型從整體上看成立,銷售量預(yù)測(cè),價(jià)格差x1=其他廠家價(jià)格x3-本公司價(jià)格x4,估計(jì)x3,調(diào)整x4,控制價(jià)格差x1=0.2元,投入廣告費(fèi)x2=6.5百萬元,銷售量預(yù)測(cè)區(qū)間為 7.8230,8.7636(置信度95%),上限用作庫存管理的目標(biāo)值,下限用來把握公司的現(xiàn)金流,若估計(jì)x3=3.9,設(shè)定x4=3.7,則可以9

4、5%的把握知道銷售額在 7.82303.7 29(百萬元)以上,(百萬支),模型改進(jìn),x1和x2對(duì)y的影響?yīng)毩?兩模型銷售量預(yù)測(cè)比較,預(yù)測(cè)區(qū)間 7.8230,8.7636,預(yù)測(cè)區(qū)間 7.8953,8.7592,控制價(jià)格差x1=0.2元,投入廣告費(fèi)x2=6.5百萬元,預(yù)測(cè)區(qū)間長(zhǎng)度更短,略有增加,預(yù)測(cè)值,預(yù)測(cè)值,x2=6.5,x1=0.2,x1,x1,x2,x2,兩模型 與x1,x2關(guān)系的比較,交互作用影響的討論,價(jià)格差 x1=0.1,價(jià)格差 x1=0.3,加大廣告投入使銷售量增加 ( x2大于6百萬元),價(jià)格差較小時(shí)增加的速率更大,x2,完全二次多項(xiàng)式模型,MATLAB中有命令rstool直接求

5、解,從輸出 Export 可得,鼠標(biāo)移動(dòng)十字線(或下方窗口輸入)可改變x1, x2, 左邊窗口顯示預(yù)測(cè)值 及預(yù)測(cè)區(qū)間,牙膏的銷售量,建立統(tǒng)計(jì)回歸模型的基本步驟,根據(jù)已知數(shù)據(jù)從常識(shí)和經(jīng)驗(yàn)分析, 輔之以作圖, 決定回歸變量及函數(shù)形式(先取盡量簡(jiǎn)單的形式).,用軟件(如MATLAB統(tǒng)計(jì)工具箱)求解.,對(duì)結(jié)果作統(tǒng)計(jì)分析: R2,F, p, s2是對(duì)模型整體的評(píng)價(jià), 回歸系數(shù)置信區(qū)間是否含零點(diǎn),用于檢驗(yàn)回歸變量 對(duì)因變量的影響是否顯著.,模型改進(jìn), 如增添二次項(xiàng)、交互項(xiàng)等.,對(duì)因變量進(jìn)行預(yù)測(cè).,2 軟件開發(fā)人員的薪金,資歷 從事專業(yè)工作的年數(shù);管理 1=管理人員,0=非管理人員;教育 1=中學(xué),2=大學(xué)

6、,3=更高程度.,建立模型研究薪金與資歷、管理責(zé)任、教育程度的關(guān)系.,分析人事策略的合理性,作為新聘用人員薪金的參考.,分析與假設(shè),y 薪金,x1 資歷(年),x2 = 1 管理人員,x2 = 0 非管理人員,1=中學(xué)2=大學(xué)3=更高,資歷每加一年,薪金的增長(zhǎng)是常數(shù); 管理、教育、資歷之間無交互作用.,教育,線性回歸模型,a0, a1, , a4是待估計(jì)的回歸系數(shù),是隨機(jī)誤差,假設(shè),模型求解,R2,F, p 模型整體上可用,資歷增加1年薪金增長(zhǎng)546,管理人員薪金多6883,中學(xué)程度薪金比更高的少2994,大學(xué)程度薪金比更高的多148,a4置信區(qū)間包含零點(diǎn),解釋不可靠!,殘差分析方法,結(jié)果分析

7、,殘差,e 與資歷x1的關(guān)系,e與管理教育組合的關(guān)系,殘差全為正,或全為負(fù),管理教育組合處理不當(dāng).,殘差大概分成3個(gè)水平, 6種管理教育組合混在一起,未正確反映.,應(yīng)在模型中增加管理x2與教育x3, x4的交互項(xiàng) .,進(jìn)一步的模型,增加管理x2與教育x3, x4的交互項(xiàng),R2,F有改進(jìn),所有回歸系數(shù)置信區(qū)間不含零點(diǎn),模型完全可用,消除了不正?,F(xiàn)象,異常數(shù)據(jù)(33號(hào))應(yīng)去掉!,e x1,e 組合,去掉異常數(shù)據(jù)后的結(jié)果,e x1,e 組合,R2: 0.9567 0.99880.9998 F:226 554 36701 s2: 104 3104 4103 置信區(qū)間長(zhǎng)度更短,殘差圖十分正常,最終模型的

8、結(jié)果可以應(yīng)用,模型應(yīng)用,制訂6種管理教育組合人員的“基礎(chǔ)”薪金(資歷為0),中學(xué):x3=1, x4=0 ;大學(xué):x3=0, x4=1; 更高:x3=0, x4=0,x1= 0; x2 = 1 管理,x2 = 0 非管理,大學(xué)程度管理人員比更高程度管理人員的薪金高.,大學(xué)程度非管理人員比更高程度非管理人員的薪金略低.,對(duì)定性因素(如管理、教育)可以引入0-1變量處理,0-1變量的個(gè)數(shù)可比定性因素的水平少1.,軟件開發(fā)人員的薪金,殘差分析方法可以發(fā)現(xiàn)模型的缺陷,引入交互作用項(xiàng)常常能夠改善模型.,剔除異常數(shù)據(jù),有助于得到更好的結(jié)果.,注:可以直接對(duì)6種管理教育組合引入5個(gè)0-1變量.,3 投資額與生

9、產(chǎn)總值和物價(jià)指數(shù),問題,建立投資額模型,研究某地區(qū)實(shí)際投資額與國民生產(chǎn)總值 ( GNP ) 及物價(jià)指數(shù) ( PI ) 的關(guān)系.,根據(jù)對(duì)未來GNP及PI的估計(jì),預(yù)測(cè)未來投資額.,該地區(qū)連續(xù)20年的統(tǒng)計(jì)數(shù)據(jù),時(shí)間序列中同一變量的順序觀測(cè)值之間存在自相關(guān).,以時(shí)間為序的數(shù)據(jù),稱為時(shí)間序列.,分析,許多經(jīng)濟(jì)數(shù)據(jù)在時(shí)間上有一定的滯后性.,需要診斷并消除數(shù)據(jù)的自相關(guān)性,建立新的模型.,若采用普通回歸模型直接處理,將會(huì)出現(xiàn)不良后果.,投資額與國民生產(chǎn)總值和物價(jià)指數(shù),基本回歸模型,投資額與 GNP及物價(jià)指數(shù)間均有很強(qiáng)的線性關(guān)系,t 年份, yt 投資額,x1t GNP, x2t 物價(jià)指數(shù),0, 1, 2 回歸

10、系數(shù),t 對(duì)t相互獨(dú)立的零均值正態(tài)隨機(jī)變量,基本回歸模型的結(jié)果與分析,MATLAB 統(tǒng)計(jì)工具箱,剩余標(biāo)準(zhǔn)差 s=12.7164,沒有考慮時(shí)間序列數(shù)據(jù)的滯后性影響.,R20.9908,擬合度高,模型優(yōu)點(diǎn),模型缺點(diǎn),可能忽視了隨機(jī)誤差存在自相關(guān);如果存在自相關(guān)性,用此模型會(huì)有不良后果.,自相關(guān)性的定性診斷,殘差診斷法,模型殘差,作殘差 etet-1 散點(diǎn)圖,大部分點(diǎn)落在第1, 3象限,大部分點(diǎn)落在第2, 4象限,自相關(guān)性直觀判斷,在MATLAB工作區(qū)中輸出,et為隨機(jī)誤差t 的估計(jì)值,自回歸性的定量診斷,自回歸模型,自相關(guān)系數(shù),0, 1, 2 回歸系數(shù),= 0, 0, 0,如何估計(jì),如何消除自相關(guān)

11、性,D-W檢驗(yàn),ut 對(duì)t相互獨(dú)立的零均值正態(tài)隨機(jī)變量,D-W統(tǒng)計(jì)量與D-W檢驗(yàn),檢驗(yàn)水平,樣本容量,回歸變量數(shù)目,檢驗(yàn)臨界值dL和dU,由DW值的大小確定自相關(guān)性,廣義差分變換,以0 *, 1 , 2 為回歸系數(shù)的普通回歸模型,原模型 DW值,無自相關(guān),有自相關(guān),新模型,新模型,步驟,原模型,變換,不能確定,投資額新模型的建立,DWold dL,作變換,原模型殘差et,樣本容量n=20, 回歸變量數(shù)目k=3, =0.05,臨界值dL=1.10, dU=1.54,總體效果良好,剩余標(biāo)準(zhǔn)差 snew= 9.8277 sold=12.7164,投資額新模型的建立,新模型的自相關(guān)性檢驗(yàn),dU DWn

12、ew 4-dU,新模型殘差et,樣本容量n=19, 回歸變量數(shù)目k=3, =0.05,臨界值dL=1.08, dU=1.53,新模型,還原為 原始變量,一階自回歸模型,一階自回歸模型殘差et比基本回歸模型要小.,模型結(jié)果比較,基本回歸模型,一階自回歸模型,投資額預(yù)測(cè),對(duì)未來投資額yt 作預(yù)測(cè),需先估計(jì)出未來的國民生產(chǎn)總值x1t 和物價(jià)指數(shù) x2t,設(shè)已知 t=21時(shí), x1t =3312,x2t=2.1938,一階自回歸模型,基本回歸模型,t 較小是由于yt-1=424.5過小所致,5 教學(xué)評(píng)估,為了考評(píng)教師的教學(xué)質(zhì)量,教學(xué)研究部門對(duì)學(xué)生進(jìn)行問卷調(diào)查 ,得到15門課程各項(xiàng)評(píng)分的平均值.,問題,

13、X1 內(nèi)容組織的合理性;X2 問題展開的邏輯性; X3 回答學(xué)生的有效性;X4 課下交流的有助性; X5 教材的幫助性;X6 考試的公正性;Y 總體評(píng)價(jià).,建立Y 與X1 X6間簡(jiǎn)單、有效的模型,給教師提出建議.,從X1 X6中挑選出對(duì)Y影響顯著的變量建立回歸模型.,將所有對(duì)Y影響顯著的X都選入模型,而影響不顯著的X都不選入模型,使模型中自變量個(gè)數(shù)盡可能少.,問題分析,繼續(xù)進(jìn)行,直到不能引入和移出為止 .,確定一個(gè)包含若干X的初始集合S0 .,從S0外的X中引入一個(gè)對(duì)Y影響最大的, S0 S1 .,對(duì)S1中的X進(jìn)行檢驗(yàn),移出一個(gè)影響最小的, S1 S2 .,引入和移出都以給定的顯著 性水平為標(biāo)

14、準(zhǔn).,解決辦法,利用逐步回歸,MATLAB統(tǒng)計(jì)工具箱中的逐步回歸,輸入x自變量集合的nk 數(shù)據(jù)矩陣(n是數(shù)據(jù)容量, k是變量數(shù)目), y因變量數(shù)據(jù)向量(n維),stepwise (x,y,inmodel,penter,premove),Inmodel初始模型S0中包括的自變量集合的指標(biāo)(即矩陣x的列序數(shù),缺省時(shí)為無自變量),penter引入變量的顯著性水平(缺省時(shí)為0.05),premove移出變量的顯著性水平(缺省時(shí)為0.10),輸出幾個(gè)交互式畫面,供使用者人工選擇變量,進(jìn)行統(tǒng)計(jì)分析.,MATLAB統(tǒng)計(jì)工具箱中的逐步回歸,stepwise (x,y),其中x為X1 X6數(shù)據(jù)矩陣, y為Y 向

15、量,輸出交互式畫面,MATLAB統(tǒng)計(jì)工具箱中的逐步回歸,依次按照提示: Move x3 in, Move x1 in, Move x2 out,最終模型,模型解釋,計(jì)算X1 X6, Y 的相關(guān)系數(shù)矩陣(MATLAB的corrcoef ):,1.0000 0.9008 0.6752 0.7361 0.2910 0.6471 0.8973 0.9008 1.0000 0.8504 0.7399 0.2775 0.8026 0.9363 0.6752 0.8504 1.0000 0.7499 0.0808 0.8490 0.9116 0.7361 0.7399 0.7499 1.0000 0.437

16、0 0.7041 0.8219 0.2910 0.2775 0.0808 0.4370 1.0000 0.1872 0.1783 0.6471 0.8026 0.8490 0.7041 0.1872 1.0000 0.8246 0.8973 0.9363 0.9116 0.8219 0.1783 0.8246 1.0000,與Y的相關(guān)系數(shù)大于0.85的是X1, X2, X3 .,X2與X1, X3 的相關(guān)系數(shù)大于0.85.,為什么只有X1, X2 進(jìn)入最終模型?,X1提高1分Y提高0.5分, X3提高1分Y提高0.77分.,模型解釋,X1 內(nèi)容組織的合理性;X2 問題展開的邏輯性; X3 回答

17、學(xué)生的有效性;X4 課下交流的有助性; X5 教材的幫助性;X6 考試的公正性;Y 總體評(píng)價(jià).,逐步回歸是從眾多變量中挑選出影響顯著變量 的有效方法.,原有變量的平方項(xiàng)、交互項(xiàng)等也可以作為新變量 加入到候選行列,用逐步回歸處理.,逐步回歸,10.6 冠心病與年齡,冠心病是一種常見的心臟疾病, 嚴(yán)重危害人類的健康.,多項(xiàng)研究表明, 冠心病發(fā)病率隨著年齡的增加而上升.,在冠心病流行病學(xué)研究中年齡是最常見的混雜因素之一.,100名被觀察者的年齡及他們是否患冠心病的數(shù)據(jù),根據(jù)以上數(shù)據(jù)建立數(shù)學(xué)模型,分析發(fā)病率與年齡的關(guān)系,并進(jìn)行統(tǒng)計(jì)預(yù)測(cè).,分析與假設(shè),被觀察者獨(dú)立選取,x被觀察者年齡, Y患病情況 (Y

18、=1患病, Y=0不患病),按年齡段分組統(tǒng)計(jì)患病人數(shù)及比例,患病比例隨年齡增大而遞增,是介于0與1之間的S型曲線.,無法建立前面那樣的回歸模型,需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理.,患病比例y是年齡段中點(diǎn)x時(shí)Y的平均值,分析與假設(shè),Y取值 0, 1 ; y 取值 0, 1,用普通方法建立回歸方程,y取值不一定在0,1中.,誤差項(xiàng)只能取值0,1, 不具有正態(tài)性, 且具有異方差性.,違反普通回歸分析的前提條件!,當(dāng)因變量Y為一個(gè)二分類(或多分類)變量時(shí),需要用到新的回歸模型.,Y的條件期望,Logit 模型,Y的(條件)期望,(x)年齡x的患病概率(患病比例y),方差,(x) S型曲線, 取值0,1,Logit

19、模型 (Logistic回歸模型),(x)的變換,Logit 模型,數(shù)據(jù)預(yù)處理: 將年齡分成k(=8)組.,xi第i組年齡, ni被觀察人數(shù), mi患病人數(shù), i=1, k,患病概率,0,1回歸系數(shù),設(shè)mi服從二項(xiàng)分布,回歸系數(shù)可用極大似然法估計(jì)得到.,Logit 模型,模型求解,Logit模型可用MATLAB命令glmfit求解,b = glmfit(x, y, distr, link) b,dev,stats = glmfit(x, y, distr, link),x自變量數(shù)據(jù)矩陣(第1列自動(dòng)添加列向量1).,y因變量數(shù)據(jù)向量(對(duì)distr =binomial, y可取矩陣: 第1列為 “成功”次數(shù), 第2列為觀察次數(shù)).,distr 估計(jì)系數(shù)所用分布(binomial,poisson 等),缺省時(shí)為 normal .,link logit,probit 等(缺省時(shí)為logit).,b回歸系數(shù)的估計(jì)值, d

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論