




已閱讀5頁,還剩18頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
實(shí)驗十四 回歸分析簡介,由于客觀事物內(nèi)部規(guī)律的復(fù)雜及人們認(rèn)識程度的限制, 無法分析實(shí)際對象內(nèi)在的因果關(guān)系, 建立合乎機(jī)理規(guī)律的數(shù)學(xué)模型.,數(shù)學(xué)建模的基本方法: 機(jī)理分析和測試分析.,通過對數(shù)據(jù)的統(tǒng)計分析, 找出與數(shù)據(jù)擬合最好的模型. 回歸模型是用統(tǒng)計分析方法建立的最常用的一類模型.,簡單介紹回歸分析的數(shù)學(xué)原理和方法; 通過實(shí)例討論如何選擇不同類型的模型; 對軟件得到的結(jié)果進(jìn)行分析, 對模型進(jìn)行改進(jìn).,一、線性回歸分析基本概念,例1:F.Galton斷言:兒子的身高會受父親身高的影響, 但身高偏離父代平均水平的父親, 其兒子身高有回歸子代平均水平的趨勢. K.Pearson給出了如下樣本(單位: 英吋):,父親身高 60 62 64 65 66 67 68 70 72 74 兒子身高 63.6 65.2 66.0 65.5 66.9 67.1 67.4 68.3 70.1 70.0,設(shè)父親身高為x, 兒子身高為y. 顯然, y與x有關(guān)系, 但這種關(guān)系并不是確定的, 即父親身高x相同時其兒子身高 y并不是確定的, 也就是說, y 除受 x這一主要因,素的影響外, 還受到諸多隨機(jī)因素的影響. 這種關(guān)系被稱為相關(guān)關(guān)系.,在一般情況下, y為隨機(jī)變量, 而 x為可控制或可精確觀察的變量, 如年齡, 身高, 溫度, 壓力, 時間等, 因此不把x看作隨機(jī)變量. 由于y為隨機(jī)變量, 則對于x的每一個確定的值, 有它的分布. 若 y 的數(shù)學(xué)期望 Ey 存在, 則 Ey 取值隨 x 的取值而定, 因此Ey是 x 的函數(shù), 記作(x), 稱(x)為 y 關(guān)于 x 的回歸. 由于(x)的大小在一定程度上反映在 x 處隨機(jī)變量 y 的觀測值的大小, 因此, 如果能通過一組樣本來估計(x), 則在一定條件下我們就能解決如下問題: (1)在給定的置信度下, 估計出當(dāng) x 取某一確定值時, 隨機(jī)變量 y 的取值范圍, 即所謂預(yù)測問題; (2)在給定的置信度下, 控制自變量 x 的取值范圍, 使 y在給定范圍內(nèi)取值, 即所謂控制問題.,對于 x 的取定的一組不完全相同的值x1, x2, , xn,作獨(dú)立的試驗, 得到 n 對(一組)觀察結(jié)果: (x1, y1), (x2, y2), , (xn, yn), 其中 yi 是 x=xi 處對隨機(jī)變量 y 的觀測結(jié)果. 這 n 對觀察結(jié)果就是一個容量為 n 的樣本. 由樣本估計(x), 首先需要推測(x)的形式. 方法一, 根據(jù)所述問題的實(shí)際意義, 可以知道(x)的形式; 方法二, 當(dāng)自變量僅有一個時, 描繪出樣本的散點(diǎn)圖; 方法三, 試探性回歸. 對于父子身高問題, 我們根本就不知道其關(guān)系的形式, 但我們通過散點(diǎn)圖, 發(fā)現(xiàn)兒子身高與父親身高呈線性關(guān)系, 因此可設(shè): y = a + bx + 其中N(0, 2), 即yN(a + bx, 2), a, b, 與x無關(guān).,利用mathematica5.0軟件包作線性回歸:,StatisticsLinearRegression(*調(diào)入線性回歸軟件包*) d=60,63.6,62,65.2,64,66,65,65.5,66,66.9,67,67.1, 68,67.4,70,68.3,72,70.1,74, 70;(*輸入數(shù)據(jù)*) Regressd,1,x,x(*線性回歸*),父子身高的線性回歸分析表:,模型可靠性非常好.,回歸方程: y = 35.9768+0.46457x. 方差估計值為: s2 = 0.186697,二、線性回歸分析計算,輸出結(jié)果的說明:,ParameterTable:參數(shù)表,Estimate: 系數(shù)估計,SE: 標(biāo)準(zhǔn)差,TStat:T 統(tǒng)計量,PValue: 檢驗統(tǒng)計量的概率值,RSquared:相關(guān)系數(shù)R2,AdjustedRSquared:修正的相關(guān)系數(shù),EstimatedVariance:方差2的估計值s2.,ANOVATable:方差分析表,Model:模型,Error:誤差,Total:總和,DF: 自由度,SumOfSq: 平方和,MeanSq: 均方偏差,FRatio: F比,三、一元線性回歸的預(yù)測區(qū)間:,由于,則 y0的置信度為1的預(yù)測區(qū)間為:,其中s為均方差的估計值; 為y在x0處的估計值; Sxx為自變量x的偏差平方和, 可以用回歸(或模型)的平方和除以b的估計值 計算.,稱為預(yù)測半徑.,在父子身高問題中,則預(yù)測半徑為:,由此公式, 當(dāng)輸入父親的身高值, 即可推算出兒子身高的估計值和預(yù)測區(qū)間.,當(dāng)父親身高為65.5英吋, 其子身高的估計值為66.41英吋, 95%的預(yù)測半徑為1.05, 置信區(qū)間為: (66.411.05, 66.41+1.05) (65.36, 67.46),四、一元線性回歸的控制問題:,由于預(yù)測問題的預(yù)測半徑的表達(dá)式過于復(fù)雜, 經(jīng)常使用如下的近似表達(dá)式:,95%的預(yù)測區(qū)間:,99%的預(yù)測區(qū)間:,這是由于常假設(shè)回歸模型的誤差 N(0, 2).,用近似預(yù)測區(qū)間來解決控制問題變得簡單.,控制問題的描述: 當(dāng)隨機(jī)變量 y 以概率1-落在區(qū)間(A, B)內(nèi)即AyB時, 自變量x應(yīng)控制在什么范圍內(nèi)?,回歸方程: y = 35.9768+0.46457x. 方差估計值為: s2 = 0.186697,由于,反解不等式組:,即可求得x1, x2.,當(dāng)x(x1, x2)時, 可滿足AyB.,True(False): 當(dāng)取默認(rèn)值True時, 即使基函數(shù)表中沒有1, 回歸方程中也會有常數(shù)項, 取False時, 基函數(shù)表中沒有1, 則沒有常數(shù)項; Weights-w1,w2,(Automatic): 給出y1,y2,權(quán)重, 默認(rèn)值時權(quán)重均為1; BasisNames- g1,g2,(Automatic): 分析報告顯示基函數(shù)名為g1,g2,; 取默認(rèn)值時顯示基函數(shù)表的函數(shù)名; ConfidenceLevel-0.95: 回歸分析報告中所考慮置信區(qū)間的置信水平;,Mathematica5.0線性回歸分析命令:,RegressionReport-SummaryReport: 默認(rèn)值時輸出標(biāo)準(zhǔn)報告, 包括: ParameterTable(參數(shù)分析表), RSquared(相關(guān)系數(shù)R2), AdjustedRSquared(調(diào)整后的相關(guān)系數(shù)=1-(1-R2)(n-1)/(n-p-1), EstimatedVariance (方差2的無偏估計s2), ANOVATable(方差分析表). 常用的還有ParameterCITable (參數(shù)置信區(qū)間表), BestFit (最佳擬合(回歸)方程), SinglePredictionCITable(因變量的預(yù)測區(qū)間表), PredictedResponse(因變量的預(yù)測值)等. 其它參數(shù)用命令RegressionReportValuesRegress查詢.其參數(shù)總數(shù)共31項.,牙膏的銷售量,問題: 建立牙膏銷售量與價格、廣告投入之間的模型; 預(yù)測在不同價格和廣告費(fèi)用下的牙膏銷售量. 收集了30個銷售周期本公司牙膏銷售量、價格、廣告費(fèi)用, 及同期其它廠家同類牙膏的平均售價.,五、多元回歸問題的例子:,1 3.85 3.80 5.50 -0.05 7.38 2 3.75 4.00 6.75 0.25 8.51 3 3.70 4.30 7.25 0.60 9.52 4 3.70 3.70 5.50 0.00 7.50 5 3.60 3.85 7.00 0.25 9.33 6 3.60 3.80 6.50 0.20 8.28 7 3.60 3.75 6.75 0.15 8.75 8 3.80 3.85 5.25 0.05 7.87 9 3.80 3.65 5.25 -0.15 7.10 10 3.85 4.00 6.00 0.15 8.00 11 3.90 4.10 6.50 0.20 7.89 12 3.90 4.00 6.25 0.10 8.15 13 3.70 4.10 7.00 0.40 9.10 14 3.75 4.20 6.90 0.45 8.86 15 3.75 4.10 6.80 0.35 8.90,16 3.80 4.10 6.80 0.30 8.87 17 3.70 4.20 7.10 0.50 9.26 18 3.80 4.30 7.00 0.50 9.00 19 3.70 4.10 6.80 0.40 8.75 20 3.80 3.75 6.50 -0.05 7.95 21 3.80 3.75 6.25 -0.05 7.65 22 3.75 3.65 6.00 -0.10 7.27 23 3.70 3.90 6.50 0.20 8.00 24 3.55 3.65 7.00 0.10 8.50 25 3.60 4.10 6.80 0.50 8.75 26 3.65 4.25 6.80 0.60 9.21 27 3.70 3.65 6.50 -0.05 8.27 28 3.75 3.75 5.75 0.00 7.67 29 3.80 3.85 5.80 0.05 7.93 30 3.70 4.25 6.80 0.55 9.26,基本模型,y 公司的牙膏銷售量, x1 與其它廠家的價格差, x2 廣告費(fèi)用.,y = 0 +1 x2 +2 x22 + 2.,y = 0 + 1x1 + 1.,y = 0 + 1x1 + 2 x2 +3 x22 + .,推斷回歸模型為:,RegressA,1,x1,x2,x22,x4,x3,x2,x1,從輸出表中可以得出如下結(jié)論:,1) 回歸方程為:,= 17.3244 + 1.30699x1 3.69559 x2 + 0.348612 x22 .,2) 相關(guān)系數(shù)R2=0.9054, 指銷售量 y 的90.45%可由此模型確定; 3) F值產(chǎn)生的概率值p遠(yuǎn)小于0.05或0.01, 即此模型高度顯著, 整體可用.,但2 的估計值產(chǎn)生的概率值 p =0.05635490.5, 故廣告費(fèi) x2 一項在此模型中不是非常顯著, 模型有待修改.,當(dāng)維持價格差為x1=0.2(元), 投入廣告費(fèi)用為x2= 6.5(百萬元)時, 則預(yù)計銷售量 y可由回歸方程計算得,= 17.3244 + 1.30699x1 3.69559 x2 + 0.348612 x22 .,=8.2933(百萬支),故其95%的近似預(yù)測區(qū)間為:,由于方差的估計值 s2 = 0.0489719, s = 0.2213.,(8.29332s, 8.2933+2s)(8.29330.4426, 8.2933+0.4426) =(7.8507, 8.7359),較精確的預(yù)測區(qū)間為:(7.8230, 8.7636).,RegressA,1,x1,x2,x22,x1*x2,x4,x3,x2,x1,如果增加x1, x2的交叉項, 模型的可信度也是非常高的, 且相關(guān)系數(shù)R2=0.9209有所增加. s2有所減少.,當(dāng)維持價格差為x1=0.2(元), 投入廣告費(fèi)用為x2= 6.5(百萬元)時, 則預(yù)計銷售量 y可由回歸方程計算得,其95%的近似預(yù)測區(qū)間為:(7.9145, 8.7399).,(百萬支),較精確的預(yù)測區(qū)間為:(7.8867, 8.7678).,結(jié)果分析,上述兩模型, 后者要優(yōu)于前者.,前者銷售量的估計值為8.2933(百萬支), 其95%的近似預(yù)測區(qū)間為(7.8507, 8.7359). 后者銷售量的估計值為8.3272(百萬支), 其95%的近似預(yù)測區(qū)間為(7.9145, 8.7399).,六、多元回歸問題的預(yù)測半徑:,其中, n為樣本數(shù)據(jù)個數(shù), m為回歸項的項數(shù),特例, 當(dāng)m=1時,可以導(dǎo)出一元線性回歸的預(yù)測半徑公式.,關(guān)于牙膏銷售問題的預(yù)測半徑公式可以利用計算機(jī)進(jìn)行計算:,= 17.3244 + 1.30699x1 3.69559 x2 + 0.348612 x22 .,對于模型1:,取x0=(1, x01, x02, x022)T =(1, 0.2, 6.5, 6.52)T.,= 29.1133+11.1342x17.6080x2+0.6712x221.4777x1x2,取x0=(1, x01, x02, x022, x01x02)T =(1, 0.2, 6.5, 6.52, 0.26.5)T.,對于模型2:,輸入計算機(jī)計算得:,模型1較精確的預(yù)測區(qū)間為:(7.8230, 8.7636), =0.4703.,模型2較精確的預(yù)測區(qū)間為:(7.8867, 8.7678). =0.4405.,關(guān)于多元回歸的控制問題, 即使是使用簡化的估計公式, 反解多個自變量的值也存在較多的問題. 因此,只有對每一個變量逐一進(jìn)行分析計算. 不再介紹.,程序,練習(xí): 小麥赤霉病通常發(fā)病期在三月下旬至四月上旬的開花灌漿期, 根據(jù)經(jīng)驗知: 發(fā)病率y(%)與該期間的總降雨天數(shù)x1(d)和降雨量x2(mm)密切相關(guān). 收集到24個觀測數(shù)據(jù)列于下表, 試建立y與x1, x2之間的線性相關(guān)關(guān)系.,k d mm % 1 11 224 40 2 9 47 10 3 12 144 20
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 深入了解創(chuàng)業(yè)扶持試題及答案
- 童年小學(xué)生試題及答案
- 強(qiáng)化風(fēng)險管理意識的商務(wù)英語試題及答案
- 泵與泵站試題題庫及答案
- 尖端大學(xué)化學(xué)研究方向試題及答案
- 建筑施工規(guī)范與安全生產(chǎn)管理試題及答案
- 聯(lián)想式幼兒園數(shù)學(xué)考題及答案
- 河南公務(wù)員考試行測真題
- 2024年棗莊市市屬事業(yè)單位考試真題
- 2024年盤錦市融媒體中心招聘考試真題
- 全球汽車產(chǎn)業(yè)發(fā)展現(xiàn)狀與趨勢
- T-COFA 0021-2022 漁用油電混合多旋翼無人機(jī)安全檢查和維 護(hù)保養(yǎng)要求
- 2025貴州畢節(jié)市七星關(guān)區(qū)招聘城市社區(qū)工作者186人筆試備考題庫及答案解析
- 2025屆河北省“五個一”名校聯(lián)盟高三下學(xué)期4月聯(lián)考化學(xué)試題(含答案)
- 山東省泰安市2025屆高三二輪模擬檢測考試政治(泰安二模)(含答案)
- 2025-2030中國環(huán)境監(jiān)測發(fā)展分析及發(fā)展趨勢與投資前景研究報告
- 2025年教師資格證面試結(jié)構(gòu)化模擬題:教師心理健康維護(hù)試題集
- 大疆精靈4 RTK無人機(jī)操作與測繪培訓(xùn)指南
- 2025屆江蘇省南京一中高三第二次模擬考試物理試卷含解析
- 初中語文第16課《有為有不為》課件-2024-2025學(xué)年統(tǒng)編版語文七年級下冊
- 2025年內(nèi)蒙古化工職業(yè)學(xué)院單招職業(yè)技能考試題庫必考題
評論
0/150
提交評論