Matlab與統(tǒng)計分析知識分享_第1頁
Matlab與統(tǒng)計分析知識分享_第2頁
Matlab與統(tǒng)計分析知識分享_第3頁
Matlab與統(tǒng)計分析知識分享_第4頁
Matlab與統(tǒng)計分析知識分享_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、Good is good, but better carries it.精益求精,善益求善。Matlab與統(tǒng)計分析-Matlab與統(tǒng)計分析一、回歸分析1、多元線性回歸1.1命令regress(),實現(xiàn)多元線性回歸,調用格式為b,bint,r,rint,stats=regress(y,x,alpha)其中因變量數(shù)據(jù)向量Y和自變量數(shù)據(jù)矩陣x按以下排列方式輸人對一元線性回歸,取k=1即可。alpha為顯著性水平(缺省時設定為0.05),輸出向量b,bint為回歸系數(shù)估計值和它們的置信區(qū)間,r,rint為殘差及其置信區(qū)間,stats是用于檢驗回歸模型的統(tǒng)計量,有三個數(shù)值,第一個是,其中R是相關系數(shù),第

2、二個是F統(tǒng)計量值,第三個是與統(tǒng)計量F對應的概率P,當時拒絕,回歸模型成立.注:1、兩組數(shù)據(jù)的相關系數(shù)在概率論的標準定義是:R=E(x-Ex)*(y-Ey)/(sqrt(x-Ex)2)*sqrt(y-Ey)2)E求取期望值。也就是兩組數(shù)據(jù)協(xié)方差與兩者標準差乘積的商。如果|R|=1說明兩者相關,R=0說明兩者不相關.F是方差分析中的一個指標,一般方差分析是比較組間差異的。F值越大,P值越小,表示結果越可靠.1.2命令rcoplot(r,rint),畫出殘差及其置信區(qū)間.1.3實例1已知某胡八年來湖水中COD濃度實測值(v)與影響因素湖區(qū)工業(yè)產值(x1)、總人口數(shù)(x2)、捕魚量(x3)、降水量(x

3、4)資料,建立污染物Y的水質分析模型.Step1輸入數(shù)據(jù)x1=1.376,1.375,1.387,1.401,1.412,1.428,1.445,1.477;x2=0.450,0.475,0.485,0.500,0.535,0.545,0.550,0.575;x3=2.170,2.554,2.676,2.713,2.823,3.088,3.122,3.262;x4=0.8922,1.1610,0.5346,0.9589,1.0239,10499,1.1065,1.1387;Y=5.19,5.30,5.60,5.82,6.00,6.06,6.45,6.95;Step2保存數(shù)據(jù)(以數(shù)據(jù)文件.mat

4、形式保存,便于以后調用)savedatax1x2x3x4yloaddata%取出數(shù)據(jù)Step3執(zhí)行回歸命令x=ones(8,1),x1,x2,x3,x4;b,bint,r,rint,stats=regress(y,x)得到結果:b=(-16.5283,15.7206,2.0327-0.2106,-0.1991)stats=(0.9908,80.9530,0.0022)即Y=-16.5283+15.7206x1+2.0327x2-0.2106xl+0.1991x4=0.9908,F=80.9530,P=0.0022非線性回歸2.1命令nlinfit()實現(xiàn)非線性回歸,調用格式為beta,r,J=

5、nlinfit(x,y,model,beta0)其中,輸入數(shù)據(jù)x,y分別為nm矩陣和n維列向量,對一元非線性回歸,x為n維列向量;model是事先用m-文件定義的非線性函數(shù),beta0是回歸系數(shù)的初值beta是估計出的回歸系數(shù),r是殘差,J是Jacobian矩陣,它們是估計預測誤差需要的數(shù)據(jù).2.2命令nlpredci()預測和預測誤差的估計,調用格式為y,delta=npredci(model,x,beta,r,j)2.3實例2對實例1中COD濃度實測值(Y),建立時序預測模型,這里選用logistic模型,即Step1建立非線性函數(shù)對所要擬合的非線性模型建立m-文件model.m如下fun

6、ctionyhat=model(beta,t)yhat=beta(1).(1+beta(2)*exp(-beta(3)*t)Step2輸入數(shù)據(jù)t=1:8loaddatay(在datamat中取出數(shù)據(jù)y)beta0=50,10,1Step3求回歸系數(shù)beta,r,J=nlinfit(t,Y,model,beta0)得結果:beta=(56.1157,10.4006,0.0445)即Step4預測及作圖YY,delta=nlpredci(model,x,beta,r,J);plot(x,y,k+,x,YY,r)逐步回歸逐步回歸的命令是stepwise,它提供了一個交互式畫面通過此工具可自由地選擇變

7、量,進行統(tǒng)計分析.調用格式為:stepwise(x,y,inmodel,alpha)其中x是自變量數(shù)據(jù),是階矩陣,y是因變量數(shù)據(jù),階矩陣,inmodel是矩陣的列數(shù)指標(給出初始模型中包括的子集(缺省時設定為全部自變量),alpha是顯著性水平(缺省時為0.5).運行stepwise命令時產生三個圖形窗口:StepwisePlot,StepwiseTable,StepwiseHistory.在StepwisePlot窗口,顯示出各項的回歸系數(shù)及其置信區(qū)間.StepwiseTable窗口中列出了一個統(tǒng)計表,包括回歸系數(shù)及其置信區(qū)間,以及模型的統(tǒng)計量剩余標準差(RMSE)、相關系數(shù)(R-squar

8、e)、F值、與F對應的概率P.主成分分析這里給出江蘇省生態(tài)城市主成份分析實例。我們對江蘇省十個城市的生態(tài)環(huán)境狀況進行了調查,得到生態(tài)環(huán)境指標的指數(shù)值,見表1?,F(xiàn)對生態(tài)環(huán)境水平進行分析和評價。我們利用Matlab65中的princomp命令實現(xiàn)。具體程序如下x=07883073910811106587065430825908486068340849507846076330728707629085520756407455078000949008918089540474505126088100890308288078500803208862039870397008246076030688808977

9、0792607856065090890206799098770879108736081830944609202092630918509505086200887309538092570928509434091540887109357087600957909741087850854208537090270872908485084730904408866090350630506187063130741506398061420573408980061860738208928078310560808419084640761608234063840960408514x=x;stdr=std(x);求各變量

10、標準差n,m=size(x);sddata=x.stdr(ones(n,1),:);標準化變換p,princ,egenvalue=princomp(sddata)調用主成分分析程序p3=p(:,1:3)輸出前三個主成分系數(shù)sc=princ(:,1:3)輸出前三個主成分得分egenvalue輸出特征根per=100*egenvaluesum(egenvalue)輸出各個主成分貢獻率執(zhí)行后得到所要結果,這里是前三個主成分、主成分得分、特征根。即egenvalue=38811,26407,10597,per=4312,2934,11971這樣,前三個主成分為Zl=-03677xl+03702x2+0

11、1364x3+04048x4+03355x5-01318x6+04236x7+04815x8-00643x9Z2=01442xl+02313x2-05299x3+01812x4-01601x5+05273x6+03116x7-00267x8+04589x9Z3=-03282xl-03535x2+00498x3+00582x4+05664x5-00270 x6-00958x7-02804x8+05933x9第一主成分貢獻率為43.12,第二主成分貢獻率為29.34,第三主成分貢獻率為11.97,前三個主成分累計貢獻率達8424。如果按80以上的信息量選取新因子,則可以選取前三個新因子。第一新因子

12、Z1包含的信息量最大為43.12,它的主要代表變量為x8(城市文明)、x7(生產效率)、x4(城市綠化),其權重系數(shù)分別為04815、04236、04048,反映了這三個變量與生態(tài)環(huán)境水平密切相關,第二新因子Z2包含的信息量次之為2934,它的主要代表變量為x3(地理結構)、x6(資源配置)、x9(可持續(xù)性),其權重系數(shù)分別為05299、05273、04589,第三新因子Z3包含的信息量為1197,代表總量為x9(可持續(xù)性)、x5(物質還原),權重系數(shù)分別為05933、05664。這些代表變量反映了各自對該新因子作用的大小,它們是生態(tài)環(huán)境系統(tǒng)中最重要的影響因素。根據(jù)前三個主成分得分,用其貢獻率

13、加權,即得十個城市各自的總得分F=4312princ(:,1)+2934princ(:,2)+1197princ(:,3)=00970,-06069,-15170,11801,00640,-08178,-09562,11383,01107,13077根據(jù)總得分排序,結果見表1。聚類分析我們對蘇州所轄張家港市2003年七條河流中主要污染因子(指標),即CODmn,BOD5,非離子氨,氨氮,揮發(fā)酚,石油類共6個變量(資料見表2,來源于張家港市2003年環(huán)境質量報告書),進行聚類分析。我們利用Matlab65中的cluster命令實現(xiàn)。具體程序如下x=3.148.4123.7825.794.176.

14、475.479.5726.4823.796.426.583.14.3121.222.485.346.545.679.5410.2320.874.26.86.819.0516.1824.565.25.456.217.0821.0531.566.158.214.878.9726.5434.565.588.07;n,m=size(x);stdr=sta(x);xx=x.stdr(ones(n,1),:);標準化變換y=pdist(xx);計算各樣本間距離(這里為歐氏距離)z=linkage(y);進行聚類(這里為最短距離法)h=dendrogram(z);畫聚類譜系圖t=cluster(z,3)將全部樣本分為3類find(t=2);找出屬于第2類的樣品編號執(zhí)行后得到所要結果,聚類譜系圖見圖1.t=3,1,3,1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論