




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
回歸分析初步與計算機模第1頁/共33頁回歸分析的基本思想和方法在客觀世界中普遍存在著變量之間的關系,變量之間的關系一般來說可分為確定性的與非確定性的兩種。確定性關系是指變量之間可以用確定的函數(shù)關系來表達(插值或擬合)。非確定性關系,例如人的身高和體重的關系、人的血壓和年齡的關系、某產(chǎn)品的廣告投入與銷售額間的關系等,它們之間是有關聯(lián)的,但又不能用普通函數(shù)來表示,我們稱這類非確定性關系為相關關系。具有相關關系的變量在很多時候涉及到隨機變量,雖然不具有確定的函數(shù)關系,但是可以借助函數(shù)關系來近似表示它們之間的統(tǒng)計規(guī)律,這種近似地表示它們之間的相關關系的函數(shù)被稱為回歸函數(shù),對應的數(shù)學方法稱為回歸分析。第2頁/共33頁回歸分析的基本思想和方法回歸分析是數(shù)學建模的有力工具,那么我們要建立回歸函數(shù)的數(shù)學模型,一般需要以下步驟:1、采集一組包含自變量和因變量的數(shù)據(jù);2、選定自變量與因變量之間的模型,利用數(shù)據(jù)按照最小二乘準則計算模型中的系數(shù);3、利用統(tǒng)計分析方法對不同的模型進行比較,找出與數(shù)據(jù)擬合得最好的模型;4、判斷得到的模型是否適合于這組數(shù)據(jù),診斷有無不適合回歸模型的異常數(shù)據(jù);5、利用模型對因變量做出預測或解釋。
附注:在第2步中,選定自變量與因變量的模型時,一般是憑經(jīng)驗選取模型?;貧w分析主要包括一元線性回歸,多元線性回歸以及非線性回歸第3頁/共33頁一元線性回歸(linearregression)基于最小二乘的一元線性回歸函數(shù)regress:UnaryLinearRegressionAnalysis:b=regress(y,X)[b,bint,r,rint,stats]=regress(y,X,alpha)范例
為實時地調(diào)整切削機床,需測定刀具的磨損程度,每隔一小時測量刀具的厚度得到以下的數(shù)據(jù),試建立刀具厚度關于切削時間的回歸模型,對模型和系數(shù)進行檢驗,預測15小時后刀具的厚度:時間(h)012345678910厚度(cm)30.629.128.428.128.027.727.527.227.026.826.5第4頁/共33頁一元線性回歸(linearregression)1、對原始數(shù)據(jù)進行觀察,確定回歸模型:x=0:1:10;y=[30.6,29.1,28.4,28.1,28.0,27.7,27.5,27.2,27.0,26.8,26.5];plot(x,y,'rs','linewidth',2);從原始數(shù)據(jù)上看,可以建立一元線性回歸模型:第5頁/共33頁一元線性回歸(linearregression)2、線性回歸函數(shù)regress相關參數(shù)的統(tǒng)計學意義:其中,alpha表示顯著性水平,缺省時為0.05;b為回歸系數(shù)估計值,bint為回歸系數(shù)的置信區(qū)間;r是殘差,rint是殘差的置信區(qū)間;stats是用于檢驗回歸模型的統(tǒng)計量。統(tǒng)計量stats有三個數(shù)值:一是相關系數(shù)
R的平方(用于相關系數(shù)評價,R的絕對值間于0.8~1,越靠近1表明回歸顯著)
;二是統(tǒng)計量F(用于F檢驗法,F(xiàn)的值大于F1-a(v1,v2)表明回歸顯著);三是與F對應的概率P(P≤alpha表明回歸顯著,一般0.01<P≤0.05被認為是具有統(tǒng)計學意義,而0.001≤P≤0.01被認為具有高度統(tǒng)計學意義)第6頁/共33頁一元線性回歸(linearregression)3、計算回歸模型各項系數(shù)并繪制時序殘差圖:x=0:1:10;y=[30.6,29.1,28.4,28.1,28.0,27.7,27.5,27.2,27.0,26.8,26.5];alpha=0.05;x=[ones(length(x),1),x'];y=y';[b,bint,r,rint,stats]=regress(y,x,alpha);%線性回歸disp(['回歸系數(shù)b估計值:',num2str(b')]);disp(['相關系數(shù)R絕對值:',num2str(sqrt(stats(1)))]);%此值至少間于0.8~1,越接近1越顯著disp(['假設檢驗統(tǒng)計量F:',num2str(stats(2))]);%此值大于F分布查表值finv(0.95,1,9),越大于越顯著disp(['統(tǒng)計量F對應概率P:',num2str(stats(3))]);%此值小于alpha(默認0.05),越小于越顯著rcoplot(r,rint)%畫出殘差及其置信區(qū)間(時序殘差圖)fprintf('回歸函數(shù)為y=%.4f+%.4f*x\n',b(1),b(2));第7頁/共33頁一元線性回歸(linearregression)4、診斷并剔除不適合回歸模型的異常數(shù)據(jù):%為了方便多次回歸,此處daoju.m已作適當改寫
觀察殘差分布,發(fā)現(xiàn)第一個數(shù)據(jù)(0,30.6)殘差的置信區(qū)間不包括零點,應視為異常點,將其剔除后,用剩余的數(shù)據(jù)點重新進行計算:再次計算,發(fā)現(xiàn)原始數(shù)據(jù)中的第二個數(shù)據(jù)(1,29.1)殘差的置信區(qū)間也不包括零點,仍將該點視為異常點,將其剔除,重新計算:第8頁/共33頁一元線性回歸(linearregression)5、綜合三種評價指數(shù)一時序殘差圖選定最佳回歸:最后一次回歸的數(shù)據(jù)殘差的置信區(qū)間全部包括零點,無異常點。對比分析:對比兩次剔除異常點前后的變化,發(fā)現(xiàn)置信區(qū)間明顯縮小,相關系數(shù)F平方和明顯變大,表明異常點的剔除有利于更好的建立模型。第9頁/共33頁一元線性回歸(linearregression)6、殘差向量正態(tài)性的圖形檢驗:目的是為了檢驗誤差的正態(tài)性假設是否合理,常用的圖形檢驗方法與三種:normplotqqplothistqqplot分位圖hist頻度統(tǒng)計圖第10頁/共33頁一元線性回歸(linearregression)7、利用回歸模型對因變量做出預測或解釋:代入最后一次回歸系數(shù)估計值:28.8667-0.233333對比采樣點和回歸模型,并預測15小時后刀具的厚度:xdata=0:1:10;ydata=[30.6,29.1,28.4,28.1,28.0,27.7,27.5,27.2,27.0,26.8,26.5];plot(xdata,ydata,'rs','linewidth',2);holdon;x=0:0.01:16;y=b(1)+b(2)*x;plot(x,y,'b-','linewidth',2);y=b(1)+b(2)*15%ans=25.3667即該切削機床15小時后的刀具厚度預測值為25.3667
cm第11頁/共33頁多元線性回歸(linearregression)基于最小二乘的多元線性回歸函數(shù)regress:MultipleLinearRegressionAnalysis:b=regress(y,X)[b,bint,r,rint,stats]=regress(y,X,alpha)范例
現(xiàn)有23位病人對醫(yī)院的服務工作進行綜合打分(百分制),同時也調(diào)查病人的簡單情況,項目包括,病人對醫(yī)院服務工作的滿意程度Y,病人的年齡X1,病情嚴重程度X2,病人憂慮程度X3,具體調(diào)查表格如下(參見p89-90,此處略)第12頁/共33頁多元線性回歸(linearregression)1、對原始數(shù)據(jù)進行觀察,確定回歸模型:loadhospital.mat%載入數(shù)據(jù)源subplot(1,3,1);plot(x(1,:),y,'rs','linewidth',2);title('年齡vs評分');subplot(1,3,2);plot(x(2,:),y,'gs','linewidth',2);title('病情vs評分');subplot(1,3,3);plot(x(3,:),y,'bs','linewidth',2);title('憂慮vs評分');由散點圖分析知:自變量年齡、病情、憂慮與因變量評分呈顯著線性關系,所以可以建立多元線性回歸模型第13頁/共33頁多元線性回歸(linearregression)2、利用數(shù)據(jù)按照最小二乘準則計算模型中的系數(shù):loadhospital.mat%載入數(shù)據(jù)源alpha=0.05;x=[ones(length(x),1),x'];y=y';[b,bint,r,rint,stats]=regress(y,x,alpha);disp(['回歸系數(shù)b估計值:',
num2str(b')]);disp(['相關系數(shù)R絕對值:',num2str(sqrt(stats(1)))]);disp(['假設檢驗統(tǒng)計量F:',num2str(stats(2))]);%ffenbu(0.95,3,19)disp(['統(tǒng)計量F對應概率P:',num2str(stats(3))]);rcoplot(r,rint)%畫出殘差及其置信區(qū)間(時序殘差圖)fprintf('回歸函數(shù)為y=%.4f+%.4f*x1+%.4f*x2+%.4f*x3',b(1),b(2),b(3),b(4));第14頁/共33頁多元線性回歸(linearregression)3、找出與數(shù)據(jù)擬合得最好的模型:經(jīng)過對stats統(tǒng)計量和時序殘差圖的綜合分析,回歸顯著,回歸函數(shù)具有統(tǒng)計學意義第15頁/共33頁多元線性回歸(linearregression)4、利用模型對因變量做出預測或解釋:代入最后回歸系數(shù)估計值:162.88-1.2103-0.66591-8.613如果有一個新病人,其特征是年齡53,病情嚴重程度60,憂慮程度2.5,試預測該病人對醫(yī)院服務工作的評分:x=[1,53,60,2.5];y=x*b>>y=37.2421即該病人對醫(yī)院服務工作的評分預測值為37.2421第16頁/共33頁多元線性回歸(linearregression)5、利用rstool二次響應曲面交互工具分析預測區(qū)間:StatisticsToolbox/rstoolInteractivefittingandvisualizationofaresponsesurfaceloadhospital.mat%載入數(shù)據(jù)源x=x';y=y';rstool(x,y);%37.2421是預測值,[14.7613,59.7229]是預測區(qū)間第17頁/共33頁非線性回歸(nonlinearregression)前面假定因變量和自變量之間的相關關系可以用線性方程來近似地反映,但是,在現(xiàn)實生活中,非線性關系是大量存在的,在許多場合,非線性的回歸函數(shù)比線性回歸函數(shù)更能夠正確地反映客觀現(xiàn)象之間的相互聯(lián)系。非線性回歸模型是回歸函數(shù)關于未知參數(shù)具有非線性結(jié)構的回歸模型,模型的擬合一般很困難。處理非線性回歸的通行方法是,通過變量變換,將非線性回歸轉(zhuǎn)化為線性回歸,然后用線性回歸方法處理。第18頁/共33頁非線性回歸(nonlinearregression)非線性回歸通常需要猜測未知的初始值,然后反復迭代,每次迭代都會修正當前的估計值,直至算法收斂為止。但是,如果設定的參數(shù)初始值不當則計算難以收斂,無法求得正確結(jié)果(或陷入局部最優(yōu)),在實際應用當中,對大多數(shù)用戶來說,給出(猜出)恰當?shù)某跏贾凳羌喈斃щy的事。第19頁/共33頁非線性回歸(nonlinearregression)非線性回歸轉(zhuǎn)化為線性回歸(常用變量代換參考):1、雙曲曲線y=1/(a+b/x)symsabx;y=1/(a+b/x);f=subs(y,[a,b],[3,4]);ezplot(f);grid;第20頁/共33頁非線性回歸(nonlinearregression)非線性回歸轉(zhuǎn)化為線性回歸(常用變量代換參考):2、冪函數(shù)曲線symsabx;y=a*x^b;f=subs(y,[a,b],[3,4]);ezplot(f);grid;第21頁/共33頁非線性回歸(nonlinearregression)非線性回歸轉(zhuǎn)化為線性回歸(常用變量代換參考):3、指數(shù)曲線symsabx;y=a*exp(b*x);f=subs(y,[a,b],[3,4]);ezplot(f);grid;第22頁/共33頁非線性回歸(nonlinearregression)非線性回歸轉(zhuǎn)化為線性回歸(常用變量代換參考):4、倒指數(shù)曲線symsabx;y=a*exp(b/x);f=subs(y,[a,b],[3,4]);ezplot(f);grid;第23頁/共33頁非線性回歸(nonlinearregression)非線性回歸轉(zhuǎn)化為線性回歸(常用變量代換參考):5、對數(shù)曲線symsabx;y=a+b*log(x);f=subs(y,[a,b],[3,4]);ezplot(f);grid;第24頁/共33頁非線性回歸(nonlinearregression)非線性回歸轉(zhuǎn)化為線性回歸(常用變量代換參考):6、S型曲線symsabx;y=1/(a+b*exp(-x));f=subs(y,[a,b],[3,4]);ezplot(f);grid;第25頁/共33頁非線性回歸(nonlinearregression)非線性回歸轉(zhuǎn)化為線性回歸(更多變量代換參考):第26頁/共33頁非線性回歸(nonlinearregression)基于最小二乘的非線性回歸函數(shù)nlinfit:NonlinearRegression
Analysis:beta=nlinfit(X,y,FUN,beta0)[beta,r,J]=nlinfit(X,y,FUN,beta0)
范例為研究三種化學物質(zhì):氫、n-戊烷和異戊烷與某物質(zhì)的反應速度Y(%)之間的關系,測得表7.2所示的數(shù)據(jù),試建立非線性回歸模型,并進行統(tǒng)計分析(參見p103,此處略)第27頁/共33頁非線性回歸(linearregression)方法一利用已知經(jīng)驗回歸函數(shù)(非線性)進行回歸假設由實際問題背景分析可以預先確定經(jīng)驗回歸函數(shù)形式編寫被調(diào)M函數(shù)文件reacfun.m內(nèi)容如下:functionyhat=reacfun(b,x)x1=x(:,1);x2=x(:,2);x3=x(:,3);yhat=(b(1)*x2-x3/b(5))./(1+b(2)*x1+b(3)*x2+b(4)*x3);導入數(shù)據(jù)并利用nlinfit進行非線性回歸:loadreaction.mat%此數(shù)據(jù)Matlab已自帶,只需導入x=reactants;y=rate;b=[1,0.05,0.02,0.1,2];%預備初值b=nlinfit(x,y,'reacfun',b)結(jié)論:nlinfit對初值的選取有嚴重依賴,很難給出恰當初值第28頁/共33頁非線性回歸(linearregression)方法一利用已知經(jīng)驗回歸函數(shù)(非線性)進行回歸下面給出非線性回歸模型代入系數(shù),定義內(nèi)斂函數(shù)的方法:forn=1:5,eval(['symsb',num2str(n)]);end%定義符號變量forn=1:3,eval(['symsx',num2str(n)]);end%定義符號變量y=(b1*x2-x3/b5)/(1+b2*x1+b3*x2+b4*x3);%符號表達式f=inline(subs(y,[b1,b2,b3,b4,b5],b));%代入系數(shù)并定義函數(shù)%在定義好內(nèi)聯(lián)函數(shù)后,只要按格式f(x1,x2,x3)調(diào)用即可問題:估計氫取值134、n-戊烷取值347和異戊烷取值32時的該物質(zhì)的反應速度?f(134,345,32)ans=18.4831第29頁/共33頁非線性回歸(linearregression)方法二利用rstool二次響應曲面交互工具進行回歸rstool工具共有4種模式可供選擇(參見p103,此處略)loadreac
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 廣東省湛江市第二十三中學人教版高中歷史必修一第8課美國聯(lián)邦政府的建立測試題
- 河北省邯鄲市名校2024-2025學年高三下學期開學考試歷史試題2
- 2017-2018學年人教A版高中數(shù)學選修2-2課后提升訓練二十一312復數(shù)的幾何意義
- 廣東省茂名市高三上學期第一次綜合測試(一模)英語試題
- 高考化學二輪復習浙江選考版速練20
- 廣東省深圳市普通高中2017-2018學年下學期高二英語3月月考試題05
- 基于Goldberg+IT-PIR的最近鄰LBS隱私查詢協(xié)議研究及并行實現(xiàn)
- 基于ANSYS的鋼筋混凝土倒虹吸非線性有限元分析及優(yōu)化設計
- 互聯(lián)網(wǎng)背景下企業(yè)思政工作創(chuàng)新研究
- 老年2型糖尿病住院患者焦慮抑郁狀態(tài)相關分析
- 2024年全國國家版圖知識競賽題庫及答案(共200題)
- PICC常見并發(fā)癥處理
- NB∕T 10391-2020 水工隧洞設計規(guī)范
- 口腔主治醫(yī)師 《基礎知識》題庫及答案解析1000題
- HJ 651-2013 礦山生態(tài)環(huán)境保護與恢復治理技術規(guī)范(試行)
- 2024年遼寧省中考模擬提升練習英語試卷
- 孕產(chǎn)婦高危五色管理(醫(yī)學講座培訓課件)
- 2024年陪診師準入理論考核試題
- 拼多多企業(yè)戰(zhàn)略分析報告
- 梁柱加固施工方案
- 孕婦枕行業(yè)深度研究報告
評論
0/150
提交評論