方差分析 線性回歸_第1頁
方差分析 線性回歸_第2頁
方差分析 線性回歸_第3頁
方差分析 線性回歸_第4頁
方差分析 線性回歸_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

本文格式為Word版,下載可任意編輯——方差分析線性回歸1線性回歸

1.1原理分析

要研究最大積雪深度x與澆灌面積y之間的關(guān)系,測試得到近10年的數(shù)據(jù)如下表:

使用線性回歸的方法可以估計(jì)x與y之間的線性關(guān)系。線性回歸方程式:

對應(yīng)的估計(jì)方程式為

線性回歸完成的任務(wù)是,依據(jù)觀測數(shù)據(jù)集(x1,y1),(x2,y2),...,(xn,yn)使用線性擬合估計(jì)回歸方程中的參數(shù)a和b。a,b都為估計(jì)結(jié)果,原方程中的真實(shí)值一般用α和β表示。

為什么要做這種擬合呢?

答案是:為了預(yù)計(jì)。譬如根據(jù)前期的股票數(shù)據(jù)擬合得到股票的變化趨勢(當(dāng)然股票的變化可就不是這么簡單的線性關(guān)系了)。線性回歸的擬合過程使用最小二乘法,

最小二乘法的原理是:選擇a,b的值,使得殘差的平方和最小。

為什么是平方和最小,不是絕對值的和?答案是,絕對值也可以,但是,絕對值進(jìn)行代數(shù)運(yùn)算沒有平方那樣的便利,4次方又顯得太繁雜,數(shù)學(xué)中這種“轉(zhuǎn)化化歸〞的思路表現(xiàn)得是那么的幽美!殘差平方和Q,

求最小,方法有好多。代數(shù)方法是求導(dǎo),還有一些運(yùn)籌學(xué)優(yōu)化的方法(梯度下降、牛頓法),這里只需要使用求導(dǎo)就OK了,

為表示便利,引入一些符號(hào),

最終估計(jì)參數(shù)a與b的結(jié)果是:

自此,針對前面的例子,只要將觀測數(shù)據(jù)帶入上面表達(dá)式即可計(jì)算得到擬合之后的a和b。不妨試一試?

從線性函數(shù)的角度,b表示的擬合直線的斜率,不考慮數(shù)學(xué)的嚴(yán)謹(jǐn)性,從應(yīng)用的角度,結(jié)果的b可以看成是離散點(diǎn)的斜率,表示變化趨勢,b的絕對值越大,表示數(shù)據(jù)的變化越快。

線性回歸的估計(jì)方法存在誤差,誤差的大小通過Q衡量。

1.2誤差分析

考慮獲取觀測數(shù)據(jù)的試驗(yàn)中存在其它的影響因素,將這些因素全部考慮到e~N(0,δ^2)中,回歸方程重寫為y=a+bx+e

由此計(jì)算估計(jì)量a與b的方差結(jié)果為,

a與b的方差不僅與δ和x的波動(dòng)大小有關(guān),而且還與觀測數(shù)據(jù)的個(gè)數(shù)有關(guān)。在設(shè)計(jì)觀測試驗(yàn)時(shí),x的取值越分散,估計(jì)ab的誤差就越小,數(shù)據(jù)量越大,估計(jì)量b的效果越好。這可能能為設(shè)計(jì)試驗(yàn)搜集數(shù)據(jù)提供某些指導(dǎo)。

1.3擬合優(yōu)度檢驗(yàn)及統(tǒng)計(jì)量

擬合優(yōu)度檢驗(yàn)?zāi)P蛯颖居^測值的擬合程度,其方法是構(gòu)造一個(gè)可以表征擬合程度的指標(biāo),稱為統(tǒng)計(jì)量,統(tǒng)計(jì)量是樣本的函數(shù)。從檢驗(yàn)對象中計(jì)算出該統(tǒng)計(jì)量的數(shù)值,然后與某一標(biāo)準(zhǔn)進(jìn)行比較,得出檢驗(yàn)結(jié)論。

這是又會(huì)問了,最小二乘法不是保證了模型最好的擬合樣本觀測值了嗎?為什么還要檢驗(yàn)擬合程度?

最小二乘法保證的是同一個(gè)樣本集使用最小二乘法擬合程度最好,而擬合優(yōu)度檢驗(yàn)結(jié)果表示的是多個(gè)不同樣本集各自進(jìn)行擬合后對擬合效果的比較。譬如,下面的直線方程都是使用最小二乘法擬合的結(jié)果,但二者對樣本觀測值的擬合程度顯然不同。

為構(gòu)造統(tǒng)計(jì)量,先定義三個(gè)表達(dá)式:

通過推倒可以發(fā)現(xiàn):

越大,則觀測值

表示觀測值y1,y2,y3,...yn與它們的平均值的離差平方和,的波動(dòng)越大。因此稱總離差平方和。

表示回歸直線上點(diǎn)的縱坐標(biāo)^y1,^y2,...,^yn與與觀測值均值的離差平方和。所以稱為回歸平方和。

反映出回歸直線因素對

的影響。

是最小二乘法中殘差平方和Q的最小值,它是實(shí)際觀測值yi與回歸直線上的點(diǎn)(xi,^yi)的縱坐標(biāo)^yi的離差平方和。稱為殘差平方和。

顯然,一個(gè)擬合得比較好的模型,與因此,可以通過構(gòu)造某種

?

是扣除線性影響外的剩余平方和,因此

應(yīng)當(dāng)比較接近,而應(yīng)當(dāng)盡可能的小。

與的表達(dá)式作為擬合優(yōu)度檢驗(yàn)中的統(tǒng)計(jì)量。

構(gòu)造統(tǒng)計(jì)量——相關(guān)系數(shù)

因此,構(gòu)造相關(guān)系數(shù)

不同的r值有不同的線性相關(guān)表示,如下圖

結(jié)論:

當(dāng)|r|->0時(shí),表示x與y之間的線性關(guān)系不明顯,不適合使用線性回歸建模。反之,當(dāng)|r|越接近1時(shí),表示x與y之間的線性關(guān)系越密切。

?

構(gòu)造統(tǒng)計(jì)量——F

F值越小表示線性關(guān)系越密切,反之線性關(guān)系越弱。

?

構(gòu)造統(tǒng)計(jì)量——t

|t|越大,x與y之間的線性關(guān)系越密切;反之,越小,x與y之間的線性關(guān)系越微弱。

不管是相關(guān)系數(shù),還是F,或者t,都能用于描述x與y之間的線性相關(guān)程度。并且可以通過驗(yàn)證,這三種統(tǒng)計(jì)量用于下面的顯著性檢驗(yàn)是完全一致的。

1.4顯著性檢驗(yàn)

顯著性檢驗(yàn),

以開頭“最大積雪深度x與澆灌面積y之間的關(guān)系〞的線性關(guān)系是否顯著為例,使用上面構(gòu)造的統(tǒng)計(jì)量進(jìn)行顯著性檢驗(yàn)的過程如下:

在當(dāng)中,計(jì)算線性回歸及顯著性檢驗(yàn)使用到如下的公式,下面的公式不用記住,使用時(shí)查詢即可。

相關(guān)系數(shù)的查表參見相關(guān)系數(shù)顯著性檢驗(yàn)表

1.5置信區(qū)間

回歸系數(shù)α以1-α為置信度的置信區(qū)間為

回歸系數(shù)β以1-α為置信度的置信區(qū)間為

其中S都為,

1.6使用Matlab做回歸分析

使用最小二乘法做多元線性回歸分析的函數(shù)為:

[b,bint,r,rint,stats]=regress(y,X,alpha);

%alpha為顯著性水平

%bbint為回歸系數(shù)估計(jì)值向量及其置信區(qū)間

%rrint為殘差向量及其置信區(qū)間,可用rcoplot(r,rint)繪圖

下面是一個(gè)使用Matlab做線性回歸分析的實(shí)例:

EG:

x0.100.110.120.130.140.150.160.170.18y42.041.545.045.545.047.549.055.050.0

Matlab代碼如下:

clearallclfcloseall

%繪制(X,Y)散點(diǎn)圖figure,

x=0.1:0.01:0.18;

y=[42,41.5,45.0,45.5,45.0,47.5,49.0,55.0,50.0];plot(x,y,'+')

%線性回歸分析x1=x';y1=y';

x2=[ones(9,1),x1];

[b,bint,r,rint,stats]=regress(y1,x2);

%繪制擬合直線

y=b(2)*x+b(1);holdon,plot(x,y,'r');

%繪制殘差圖

figure,rcoplot(r,rint);

結(jié)果為擬合直線圖和殘差圖如下:

在Matlab中還可以使用polyfit函數(shù)十分便利的對數(shù)據(jù)進(jìn)行擬合,polyfit除了能進(jìn)行線性擬合,還可以進(jìn)行非線性的擬合。使用polyfit擬合方法如下:

%繪制(X,Y)散點(diǎn)圖figure,

x=0.1:0.01:0.18;

y=[42,41.5,45.0,45.5,45.0,47.5,49.0,55.0,50.0];plot(x,y,'+');

%繪制擬合直線holdon,

p=polyfit(x',y',1);y=p(1).*x+p(2);plot(x,y2,'r');

擬合結(jié)果與上面的一樣。

1.7回歸分析的實(shí)際操作步驟

回歸分析的主要內(nèi)容是通過試驗(yàn)或觀測數(shù)據(jù),尋覓相關(guān)變量之間的統(tǒng)計(jì)規(guī)律性,再利用自變量的值有效預(yù)計(jì)因變量的可能取值。其實(shí)際操作的步驟是:1.設(shè)定回歸方程

2.根據(jù)誤差分析,考慮搜集數(shù)據(jù)對回歸方程參數(shù)的影響,有目的的搜集數(shù)據(jù)3.確定回歸系數(shù)4.進(jìn)行相關(guān)性檢驗(yàn)5.預(yù)計(jì)

2方差分析

2.1引入

如上圖,對A1~A4共4種不同燈絲的燈泡進(jìn)行抽樣檢測燈泡壽命,根據(jù)測試數(shù)據(jù),現(xiàn)在要問:燈泡壽命是否與燈絲材料的不同有關(guān)。問題特點(diǎn)有:

???

1項(xiàng)指標(biāo)(因變量):壽命影響指標(biāo)的因素(因子):燈絲

因素存在多個(gè)不同狀態(tài)(水平),要求分析因素的不同狀態(tài)是否對指標(biāo)有顯著影響

這就是方差分析問題:用數(shù)理統(tǒng)計(jì)分析試驗(yàn)結(jié)果、鑒別各因素對結(jié)果影響程度的方法稱為方差分析(AnalysisOfVariance),記作ANOVA。

2.2單因素方差分析

其它因素不變,只考慮一個(gè)因素A,因素存在多個(gè)水平,在每個(gè)水平上做若干次試驗(yàn),從試驗(yàn)結(jié)果推斷是否該因素對指標(biāo)有顯著影響?這就是單因素的方差分析,上面的例子就是單因素方差分析的例子。

?

前提假設(shè)

設(shè)因素A的r個(gè)水平為A1,A1,...,Ar,每個(gè)水平下的指標(biāo)聽從正態(tài)分布N(u1,δ2),N(u2,δ2),...,N(ur,δ2)。

?

模型建立

試驗(yàn)數(shù)據(jù)的格式:

因子對指標(biāo)是否有影響取決于指標(biāo)的正態(tài)分布是否一致,假使有影響,則正態(tài)分布應(yīng)當(dāng)存在差異,而正態(tài)分布由均值和方差決定,假設(shè)中方差一致,因此各個(gè)水平下的正態(tài)分布均值直接決定因素是否對指標(biāo)有影響。所以,問題可以轉(zhuǎn)化為假設(shè)檢驗(yàn),設(shè)H0:u1=u2=u3=...=ur

檢驗(yàn)結(jié)果假使拒絕原假設(shè),則認(rèn)為因素A對指標(biāo)有顯著影響,否則認(rèn)為無顯著影響。設(shè)

u=(1/r)\\sum_1^a{ui}αi=ui-u

則,H0假設(shè)改寫成H0:α1=α2=α3=...=αr=0

?

構(gòu)造統(tǒng)計(jì)量(摘自《數(shù)學(xué)建模Matlab大全》)

?

單因素方差分析表

過對上面模型中相關(guān)參數(shù)進(jìn)行計(jì)算,為計(jì)算分析便利,將結(jié)果填入下表中:

表中的Pr反映的就是>F值的概率,F(xiàn)值通過因素A均方除以誤差均方獲得。因此,有

1.假使Pr大于α,則接受H0,因素對指標(biāo)無顯著影響2.假使Pr小于α,則拒絕H0,因素對指標(biāo)有顯著影響

Matlab的輸出結(jié)果即為上面的方差分析表,因此,用matlab很簡單進(jìn)行方差分析。

2.3用Matlab進(jìn)行單因素方差分析

能否認(rèn)為這三所小學(xué)五年級男學(xué)生的平均身高一致?取顯著水平α=0.05.假設(shè)H0:這三所小學(xué)五年級男學(xué)生的平均身高一致。

data=[...

128.1134.1131.1138.9140.8127.4;...150.3147.9136.8126.0150.7155.8;...140.6143.1144.5143.7148.5146.4...];

data=data';

P=anova1(data);%方差分析函數(shù)anova1

Matlab程序的運(yùn)行結(jié)果為:

∵Pr=0.0275

?

考慮雙因素間是否有交互影響

無交互影響時(shí)可簡化測試的試驗(yàn)數(shù)據(jù)數(shù),每組測一個(gè)數(shù)據(jù)(令t=1)即可,由于無交互影響雙因素方差分析表中各量都與t無關(guān)。

有交互影響的方差分析表如下:

從方差分析表中可以看出:與單因素方差分析相比,雙因素方差分析只是多了一個(gè)因素,因此方差分析表中多了一行而已,再加上要考慮交互影響,則方差分析表中再增加1行。

?

考慮如何使用Matlab進(jìn)行分析

Matlab中通過

p=anova2(x,reps)

進(jìn)行雙因素的方差分析,不妨使用

>>helpanova2

查看anova2函數(shù)的使用方法。

對無交互關(guān)系的雙因素方差分析,此時(shí)每個(gè)單元只需要測一個(gè)值,reps=1對于交互關(guān)系的雙因素方差分析,此時(shí)每個(gè)單元需要測多個(gè)值(t>1),reps=2

參數(shù)x的格式為:

%列因素有3個(gè)水平(s=3),行因素有2個(gè)水平(r=2),每組測試2個(gè)數(shù)據(jù)(t=2)x=[x111x121x131x112x122x132x211x221x231x221x222x232]

1.無交互作用雙因素方差分析的例子

一種火箭使用了四種燃料、三種推進(jìn)器,進(jìn)行射程試驗(yàn),對于每種燃料與每種推進(jìn)器的組合作一次試驗(yàn),得到如下數(shù)據(jù)表,問各種燃料之間及各種推進(jìn)器之間有無顯著差異?設(shè)顯著性水平α=0.05.

Matlab解題代碼如下:

x=[58.256.265.349.154.151.660.170.939.275.858.248.7];

[p,t,st]=anova2(x,1);

分析結(jié)果的方差分析表如下:

求得p=[0.44910.7387],都大于α,所以各種燃料之間及各種推進(jìn)器的差異都對火箭射程沒影響。

2.有交互作用雙因素方差分析的例子

一種火箭使用了四種燃料、三種推進(jìn)器,進(jìn)行射程試驗(yàn),對于每種燃料與每種推進(jìn)器的組合作2次試驗(yàn),得到如下數(shù)據(jù)表,問各種燃料之間及各種推進(jìn)器之間有無顯著差異?兩因素的交互作用是否顯著?設(shè)顯著性水平

α=0.05.

Matlab解題代碼如下:

x0=[58.2,52.656.2,41.265.3,60.849.1,42.854.1,50.551.6,48.460.1,58.370.9,73.239.2,40.775.8,71.558.2,51

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論