![數(shù)學(xué)建模培訓(xùn)統(tǒng)計分析模型與SAS軟件課件_第1頁](http://file4.renrendoc.com/view/4246694c8dd6f7dd35701a7af70aabdc/4246694c8dd6f7dd35701a7af70aabdc1.gif)
![數(shù)學(xué)建模培訓(xùn)統(tǒng)計分析模型與SAS軟件課件_第2頁](http://file4.renrendoc.com/view/4246694c8dd6f7dd35701a7af70aabdc/4246694c8dd6f7dd35701a7af70aabdc2.gif)
![數(shù)學(xué)建模培訓(xùn)統(tǒng)計分析模型與SAS軟件課件_第3頁](http://file4.renrendoc.com/view/4246694c8dd6f7dd35701a7af70aabdc/4246694c8dd6f7dd35701a7af70aabdc3.gif)
![數(shù)學(xué)建模培訓(xùn)統(tǒng)計分析模型與SAS軟件課件_第4頁](http://file4.renrendoc.com/view/4246694c8dd6f7dd35701a7af70aabdc/4246694c8dd6f7dd35701a7af70aabdc4.gif)
![數(shù)學(xué)建模培訓(xùn)統(tǒng)計分析模型與SAS軟件課件_第5頁](http://file4.renrendoc.com/view/4246694c8dd6f7dd35701a7af70aabdc/4246694c8dd6f7dd35701a7af70aabdc5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
2011年數(shù)學(xué)建模培訓(xùn)
統(tǒng)計分析模型與軟件
張景祥2011年數(shù)學(xué)建模培訓(xùn)
統(tǒng)計分析模型與軟件
張景祥1一、統(tǒng)計學(xué)分析方法1.1回歸分析1.2聚類分析1.3數(shù)據(jù)分類1.4判別分析1.5主成分分析1.6因子分析1.7殘差分析1.8典型相關(guān)分析1.9時間序列一、統(tǒng)計學(xué)分析方法27月10日(培訓(xùn)主要內(nèi)容)
第一部分回歸模型
第二部分與數(shù)據(jù)7月10日(培訓(xùn)主要內(nèi)容)
第一部分回歸模型
3回歸分析模型一元線性回歸一元非線性回歸多元線性回歸多元非線性回歸主要應(yīng)用于變量間相關(guān)關(guān)系的分析回歸分析模型一元線性回歸主要應(yīng)用于變量間相關(guān)關(guān)系的分析4回歸這一術(shù)語是1886年英國生物學(xué)家高爾頓在研究遺傳現(xiàn)象時引進的.他發(fā)現(xiàn):雖然高個子的先代會有高個子的后代,但后代的增高并不與先代的增高等量.他稱這一現(xiàn)象為“向平常高度的回歸”.回歸這一術(shù)語是1886年英國生物學(xué)家高爾頓在研究遺傳現(xiàn)象時5爾后,他的朋友麥爾遜等人搜集了上千個家庭成員的身高數(shù)據(jù):0.51633.73(英寸)分析出兒子的身高y和父親的身高x大致為如下關(guān)系:爾后,他的朋友麥爾遜等人搜集了上千個家庭成員的身高數(shù)據(jù):0.6這意味著,若父親身高超過父親平均身高6英寸,那么其兒子的身高大約只超過兒子平均身高3英寸,可見有向平均值返回的趨勢.誠然,如今對回歸這一概念的理解并不是高爾頓的原意,但這一名詞卻一直沿用下來,成為統(tǒng)計學(xué)中最常用的概念之一.6英寸3英寸這意味著,若父親身高超過父親平均身高6英寸,那么其兒子的7在回歸分析中,當變量只有兩個時,稱為一元回歸分析;當變量在兩個以上時,稱為多元回歸分析.變量間成線性關(guān)系,稱線性回歸,變量間不具有線性關(guān)系,稱非線性回歸.一元回歸多元回歸線性非線性在這一講里,我們主要討論的是一元線性回歸.它是處理兩個變量之間關(guān)系的最簡單的模型.它雖然比較簡單,但我們從中可以了解到回歸分析的基本思想、方法和應(yīng)用.在回歸分析中,當變量只有兩個時,稱為一元8設(shè)隨機變量y與變量x之間存在著某種相關(guān)關(guān)系,其中x是能夠控制或可以精確測量的變量.年齡身高施肥量積雪深度x…y灌溉面積產(chǎn)量血壓體重…為了今后研究方便,我們把x當作普通變量,而不把它看作隨機變量.設(shè)隨機變量y與變量x之間存在著某種相關(guān)關(guān)系,其9對于x的一組不完全相同的值x1,x2,…作獨立觀察,得到隨機變量y相應(yīng)的觀察值y12,…,構(gòu)成n對數(shù)據(jù).用這n對數(shù)據(jù)可作出一個散點圖,直觀地描述一下兩變量之間的關(guān)系.yxo············對于x的一組不完全相同的值x1,x2,…作獨立觀察,得到10這里有三幅散點圖.yxo··········(1)oyx············(2)yxo····················(3)這里有三幅散點圖.yxo··········(1)oyx··11根據(jù)散點圖,考慮以下幾個問題:(1)兩變量之間的關(guān)系是否密切,或者說我們能否由x來估計y.(2)兩變量之間的關(guān)系是呈一條直線還是呈某種曲線.(3)是否存在某個點偏離過大.(4)是否存在其它規(guī)律.根據(jù)散點圖,考慮以下幾個問題:(1)兩變量之間的關(guān)系是否12yxo··········(1)oyx············(2)yxo····················(3)考慮采用線性方程擬合采用非線性方程擬合yxo··········(1)oyx···········13一元線性回歸為了估計山上積雪融化后對下游灌溉的影響,在山上建立了一個觀測站,測量了最大積雪深度x與當年灌溉面積y,得到連續(xù)10年的數(shù)據(jù)如下表:年序最大積雪深度x(米)灌溉面積y(公頃)15.1190723.5128737.1269346.2237358.8326067.8300074.5194785.6227398.03113106.42493一元線性回歸為了估計山上積雪融化后對下游灌溉的影14為了研究這些數(shù)據(jù)中所蘊含的規(guī)律性,我們由10對數(shù)據(jù)作出散點圖.從圖看到,數(shù)據(jù)點大致落在一條直線附近,這告訴我們變量x和y之間大致可看作線性關(guān)系.yxo4000300020001000246810···········從圖中還看到,這些點又不完全在一條直線上,這表明x和y的關(guān)系并沒有確切到給定x就可以唯一確定y的程度.為了研究這些數(shù)據(jù)中所蘊含的規(guī)律性,我們由10對15事實上,還有許多其它因素對y產(chǎn)生影響,如當年的平均氣溫、當年的降雨量等等,都是影響y取什么值的隨機因素.其中a和b是未知常數(shù),稱回歸系數(shù),ε表示其它隨機因素對灌溉面積的影響.σ2未知yε如果我們只研究x和y的關(guān)系,可以假定有如下結(jié)構(gòu)式:實際中常假定ε服從正態(tài)分布N(0,σ2),即事實上,還有許多其它因素對y產(chǎn)生影響,16
y=a+bx+ε,ε~N(0,)(1)為一元線性回歸模型.通常稱由(1)式,我們不難算得y的數(shù)學(xué)期望:E(y)該式表示當x已知時,可以精確地算出E(y).由于ε是不可控制的隨機因素,通常就用E(y)作為y的估計,記作.這樣我們得到稱此方程為y關(guān)于x的回歸方程.(2)y=a+bx+ε,ε~N(0,)17現(xiàn)對模型(1)中的變量x,y進行了n次獨立觀察,得樣本(x1,y1),…,(xn,yn)(3)據(jù)(1)式,此樣本的構(gòu)造可由方程
y=a+bx+ε,ε~N(0,)(1),i=1,2,…,n(4)這里是第i次觀察時隨機誤差所取的值,它是不能觀察的.來描述.現(xiàn)對模型(1)中的變量x,y進行了n次獨立觀察181,2,…(5)(4)式和(5)式結(jié)合,給出了樣本(x11),…,()的概率性質(zhì).它是對理論模型進行統(tǒng)計分析推斷的依據(jù).也常稱(4)+(5)為一元線性回歸模型.由于各次觀察獨立,有,i=1,2,…,n(4)1,2,…(5)(4)式19由于此方程的建立有賴于通過觀察或試驗積累的數(shù)據(jù),所以有時又稱其為經(jīng)驗回歸方程或經(jīng)驗公式.(6)
回歸分析的任務(wù)是利用n組獨立觀察數(shù)據(jù)(x1,y1),…,(xn,yn)來估計a和b,以估計值和分別代替(2)式中的a和b,得回歸方程那么要問,如何利用n組獨立觀察數(shù)據(jù)來估計a和b?由于此方程的建立有賴于通過觀察或試驗積累的數(shù)據(jù),所以有時201.用最小二乘法估計首先舉例說明最小二乘法的思想:假設(shè)為估計某物體的重量,對它進行了n次稱量,因稱量有誤差,故n次稱量結(jié)果x1,x2,…,xn有差異,現(xiàn)在用數(shù)去估計物重,則它與上述n次稱量結(jié)果的偏差的平方和是:1.用最小二乘法估計首先舉例說明最小二乘法的思想:21于是就提出了下面的估計原則:用這種方法作出的估計叫最小二乘估計.最小二乘法認為,一個好的估計,應(yīng)使這個平方和盡可能地小.尋找,使上述平方和達到最小,以這個作為物重的估計值,這就是最小二乘法.于是就提出了下面的估計原則:用這種方法作出的估計叫最小二乘估22現(xiàn)在的情況是,對(x,y)作了n次觀察或試驗,得到n對數(shù)據(jù),我們想找一條直線,盡可能好地擬合這些數(shù)據(jù).
yx
由回歸方程,當x取值xi時,應(yīng)取值a+bxi,而實際觀察到的為yi,這樣就形成了偏差現(xiàn)在的情況是,對(x,y)作了n次觀察或試驗,得23依照最小二乘法的思想,提出目標量Q(7)它是所有實測值yi與回歸值的偏差平方和.yx依照最小二乘法的思想,提出目標量Q(7)它是所有實測值yi與24yx我們可設(shè)法求出a,b的估計值,,使偏差平方和Q達到最小.(7)yx我們可設(shè)法求出a,b的估計值,,使偏差平25(7)我們可設(shè)法求出a,b的估計值,,使偏差平方和Q達到最小.由此得到的回歸直線是在所有直線中偏差平方和Q最小的一條.yx(7)我們可設(shè)法求出a,b的估計值,,使偏差26通常可采用微積分中求極值的辦法,求出使Q達到最小的,.(7)即解方程:得(8)其中通??刹捎梦⒎e分中求極值的辦法,求出使Q達到最小27從而得到回歸方程按照上述準則,我們可求出前面例子中灌溉面積y對最大積雪深度x的回歸方程是:可以看出,最大積雪深度每增加一個單位,灌溉面積平均增加364個單位.從而得到回歸方程按照上述準則,我們可求出前面例子中灌溉面積y28可以證明,我們用最小二乘法求出的估計分別是a,b的無偏估計,它們都是y1,y2,…,yn的線性函數(shù),而且在所有y1,y2,…,yn的線性函數(shù)中,最小二乘估計的方差最小.可以證明,我們用最小二乘法求出的估計分別是29
求出回歸方程,問題尚未結(jié)束,由于是從觀察得到的回歸方程,它會隨觀察結(jié)果的不同改變,并且它只反映了由x的變化引起的y的變化,而沒有包含誤差項.(1)回歸方程是否有意義?即自變量x的變化是否真的對因變量y有影響?因此,有必要對回歸效果作出檢驗.因此在獲得這樣的回歸方程后,通常要問這樣的問題:求出回歸方程,問題尚未結(jié)束,30(2)如果方程真有意義,用它預(yù)測y時,預(yù)測值與真值的偏差能否估計?(1)回歸方程是否有意義?即自變量x的變化是否真的對因變量y有影響?因此,有必要對回歸效果作出檢驗.2.回歸方程的顯著性檢驗對任意兩個變量的一組觀察因此需要考察y與x間是否確有線性相關(guān)關(guān)系,這就是回歸效果的檢驗問題.都可以用最小二乘法形式上求得y對x的回歸方程,如果y與x沒有線性相關(guān)關(guān)系,這種形式的回歸方程就沒有意義.(,),1,2,…,n(2)如果方程真有意義,用它預(yù)測y時,預(yù)測值與真值的偏差能31我們注意到只反映了x對y的影響,所以回歸值就是yi中只受xi影響的那一部分,而
則是除去xi的影響后,受其它種種因素影響的部分,故將
稱為殘差.
我們注意到32于是觀測值yi可以分解為兩部分和,
并且也可分解為兩部分.因此,y1,y2,…,的總變差為:(9)于是觀測值yi可以分解為兩部分和33可以證明即可以分解為兩部分:回歸平方和與殘差平方和.(10)可以證明即可以分解為兩部分:回歸平方和34(10)反映了由于自變量x的變化引起的因變量y的差異,體現(xiàn)了x對y的影響;而反映了種種其它因素對y的影響,這些因素沒有反映在自變量中,它們可作為隨機因素看待.(10)反映了由于自變量x的變化引起35可見,/為x的影響部分與隨機因素影響部分的相對比值.它的作用和隨機因素的作用相當,于是由數(shù)據(jù)得到的回歸方程就沒有什么意義.若它不是顯著地大,表明我們所選的x,并不是一個重要的因素.可見,/為x的影響部分與隨機因素影響36可見,/為x的影響部分與隨機因素影響部分的相對比值.如果它顯著地大,表明x的作用是顯著地比隨機因素大,這樣,方程就有意義.通常我們可假設(shè)y和x沒有線性相關(guān)關(guān)系,對回歸方程是否有意義進行顯著性檢驗.可見,/為x的影響部分與隨機因素影響37(11)
因此用來檢驗b的絕對值是否顯著大于0(或者說檢驗回歸方程是否有意義).可以證明:的關(guān)系式中b=0時,有當(1,2)(12)(11)因此用來檢驗b的絕對值是否顯著大于0(或者說檢38給定顯著性水平,通過查F分布分位數(shù)表,求出否定域,便可判斷回歸方程是否有意義.拒絕域為:
由上面的討論可知,要問回歸方程是否有意義,就是要檢驗假設(shè)H0:0;H1:b≠0使用的檢驗統(tǒng)計量為:~F(1,n-2)給定顯著性水平,通過查F分布分位數(shù)表,求出否定域,39我們可以用更簡單的公式計算回歸平方和與殘差平方和:
(14)(13)我們可以用更簡單的公式計算回歸平方和與殘差平方40現(xiàn)在對例中建立的回歸方程進行檢驗,可計算得:=3393025-3318355=355.5對α=0.01,由F表查得=11.26,由于F>,故回歸方程有意義.現(xiàn)在對例中建立的回歸方程進行檢驗,可計算得:=33941當檢驗認為回歸方程確有意義.則可用來進行予測或控制,這也是建立回歸方程的重要目的.當檢驗認為回歸方程確有意義.則可用來進行予測或控制,這也42對給定的x值,由回歸方程就可得的值.3.預(yù)測當已知最大積雪深度為9.2米時,就可以預(yù)測灌溉面積:=142+364×9.2=3489(公頃).由灌溉面積y對最大積雪深度x的回歸方程例如,對給定的x值,由回歸方程43實際的y與預(yù)測的不一定相等,重要的是它們的偏差有多大.即事實上我們無法確切定出y-的值,只能估計的范圍.通??杉俣ㄍㄟ^對σ的估計,就知道的取值范圍.已知有所以實際的y與預(yù)測的不一定相等,重要的是它們的偏差有多大.即44根據(jù)建立回歸方程時算得的,可以算得.于是可以用去估計標準差,記它為,即(15)用3倍標準差準則,就有(16)(17)這樣估計y的值落在區(qū)間[]內(nèi)或[]內(nèi),相應(yīng)的概率分別為0.99和0.95.
根據(jù)建立回歸方程時算得的,可以算得.45可見,利用回歸方程預(yù)測y,可歸結(jié)為,對給定的x,以一定的置信水平預(yù)測對應(yīng)的y的觀察值的取值范圍,即所謂預(yù)測區(qū)間.比如,某一年測得最大積雪深度為9.2米,以99%的置信水平預(yù)測灌溉面積在3199公頃與3779公頃之間.根據(jù)可見,利用回歸方程預(yù)測y46上面的方法中,由于是估計值,上面兩式只是近似式,在一些要求不高的問題中,這是可行的.如要求出更為精確的值,可進一步查閱回歸分析的書.上面的方法中,由于是估計值,上面兩式只是近似式,在一些47在許多實際問題中,兩個變量之間并不一定是線性關(guān)系,而是某種曲線關(guān)系,應(yīng)該用曲線來擬合.在有些情況下,可以進行適當?shù)淖兞看鷵Q,把它線性化,這樣就把一個非線性回歸問題化為線性回歸問題而得以解決.非線性回歸問題在許多實際問題中,兩個變量之間并不一定是線性48非線性回歸模型當自變量與因變量存在某種曲線相關(guān)關(guān)系時,可擬合曲線回歸模型。例如:雙曲線:a>0b>0a>0b<0xxyy指數(shù)曲線:b>0b<0xxyyy非線性回歸模型當自變量與因變量存在某種曲線相關(guān)關(guān)系時,可49冪函數(shù)曲線:a>0b>0xyb<11b>1曲線模型的判別方法:理論和經(jīng)驗判斷;觀察散點圖曲線模型的確定方法:通常用變量代換法將曲線轉(zhuǎn)換為直線。按線性模型求解參數(shù),而后再變換為曲線模型。冪函數(shù)曲線:a>0b>0xyb<11b>1曲線模型的判別50線性回歸多元線性回歸模型1·多元線性回歸模型的性質(zhì)與模型的確定二元線性回歸模型:總體多元線性回歸模型的一般形式Y(jié)的數(shù)學(xué)期望E(Y)隨機誤差表明自變量共同變動引起的Y的平均變動。也稱總體的二元線性回歸方差。常數(shù)項,和Y構(gòu)成的平面與Y軸的截距偏回歸系數(shù),表示在固定時每變化一個單位引起的Y的平均變動;案例線性回歸多元線性回歸模型1·多元線性回歸模型的性質(zhì)與模型51偏回歸系數(shù),表示在固定時每變化一個單位引起的Y的平均變動;隨機誤差,其理論假定與一元線性回歸模型中的一樣。在多元回歸模型中,還要求各自變量之間不存在顯著相關(guān),或高度相關(guān)也即不得存在多重共線性。樣本多元線性回歸模型的一般形式二元線性回歸模型為:其數(shù)學(xué)期望也稱樣本(或估計的)二元線性回歸方程。偏回歸系數(shù),表示在固定時每變化一個單位引起52二元線性回歸方程的確定根據(jù)實際資料,用最小平方法,即使,分別對a、b1、b2求編導(dǎo)并令其為零,求得三個標準方程:解此聯(lián)立方程便可得到a、b1、b2。二元線性回歸方程的確定根據(jù)實際資料,用最小平方法,即使532·多元線性回歸模型的判定系數(shù)和估計標準誤判定系數(shù)0<r2<1修正的判定余數(shù):2·多元線性回歸模型的判定系數(shù)和估計標準誤判定系數(shù)0<r254估計標準誤((x1、x2))r2和(x1、x2)都是對回歸模型擬合優(yōu)度的評價指標。(x1、x2)也是用自變量對因變量進行區(qū)間估計的抽樣誤差。估計標準誤((x1、x2))r2和(x1、x2)都是對回歸553·多元回歸模型的顯著性檢驗對偏回歸系數(shù)的t檢驗H0:β1=0,H1:β1≠0; H0:β2=0, H1:β2≠0。檢驗統(tǒng)計量:3·多元回歸模型的顯著性檢驗對偏回歸系數(shù)的t檢驗H0:56按顯著性水平α和自由度(3)查t表可得到臨界值t0模型整體的F檢驗檢驗統(tǒng)計量:(k—自變量個數(shù))或按給定的α和自由度(2)和(3)查F表可得到臨界值Fα按顯著性水平α和自由度(3)查t表可得到臨界值t0模型整體574·多元回歸中的相關(guān)分析復(fù)相關(guān):指一個因變量同多個自變量的相關(guān)關(guān)系。復(fù)相關(guān)系數(shù)恒取正值。偏相關(guān)(凈相關(guān))指各個自變量在其他自變量固定不變時,單個變量同因變量的相關(guān)關(guān)系。計算偏相關(guān)系數(shù)需借助相關(guān)系數(shù)矩陣表的資料。二元回歸中的相關(guān)系數(shù)矩陣表yyx1x1x2x212r121.001.001.00x1與y的偏相關(guān)系數(shù):x2與y的偏相關(guān)系數(shù):案例4·多元回歸中的相關(guān)分析復(fù)相關(guān):指一個因變量同多個自585·應(yīng)用多元回歸方程進行區(qū)間估計Y的平均值的區(qū)間估計Y的特點值的區(qū)間估計式中,是即區(qū)間估計的抽樣誤差。的抽樣分布的標準差,式中,是的抽樣分布的標準差,即區(qū)間估計的抽樣誤差。5·應(yīng)用多元回歸方程進行區(qū)間估計Y的平均值的區(qū)間估計Y的特點59數(shù)學(xué)建模培訓(xùn)統(tǒng)計分析模型與SAS軟件60牙膏的銷售量問題建立牙膏銷售量與價格、廣告投入之間的模型預(yù)測在不同價格和廣告費用下的牙膏銷售量收集了30個銷售周期本公司牙膏銷售量、價格、廣告費用,及同期其它廠家同類牙膏的平均售價9.260.556.804.253.70307.930.055.803.853.80298.510.256.754.003.7527.38-0.055.503.803.851銷售量(百萬支)價格差(元)廣告費用(百萬元)其它廠家價格(元)本公司價格(元)銷售周期牙膏的銷售量問題建立牙膏銷售量與價格、廣告投入之間的模型61基本模型y~公司牙膏銷售量x1~其它廠家與本公司價格差x2~公司廣告費用x2yx1yx1,x2~解釋變量(回歸變量,自變量)被解釋變量(因變量)0,1,2,3~回歸系數(shù)~隨機誤差(均值為零的正態(tài)分布隨機變量)基本模型y~公司牙膏銷售量x1~其它廠家與本公司價格差x262統(tǒng)計工具箱模型求解[]()輸入x=~n4數(shù)據(jù)矩陣,第1列為全1向量(置信水平,0.05)的估計值的置信區(qū)間r~殘差向量的置信區(qū)間檢驗統(tǒng)計量R2,p維數(shù)據(jù)向量輸出由數(shù)據(jù)12估計參數(shù)參數(shù)估計值置信區(qū)間17.3244[5.728228.9206]1.3070[0.68291.9311]-3.6956[-7.49890.1077]0.3486[0.03790.6594]R2=0.9054F=82.9409p=0.00000123統(tǒng)計工具箱模型求解[]()輸入x=63結(jié)果分析y的90.54%可由模型確定參數(shù)參數(shù)估計值置信區(qū)間17.3244[5.728228.9206]1.3070[0.68291.9311]-3.6956[-7.49890.1077]0.3486[0.03790.6594]R2=0.9054F=82.9409p=0.00000123F遠超過F檢驗的臨界值p遠小于=0.052的置信區(qū)間包含零點(右端點距零點很近)x2對因變量y的影響不太顯著x22項顯著可將x2保留在模型中模型從整體上看成立結(jié)果分析y的90.54%可由模型確定參數(shù)參數(shù)估計值置信區(qū)間64銷售量預(yù)測價格差x1=其它廠家價格x3-本公司價格x4估計x3調(diào)整x4控制價格差x1=0.2元,投入廣告費x2=650萬元銷售量預(yù)測區(qū)間為[7.8230,8.7636](置信度95%)上限用作庫存管理的目標值下限用來把握公司的現(xiàn)金流若估計x3=3.9,設(shè)定x4=3.7,則可以95%的把握知道銷售額在7.83203.729(百萬元)以上控制x1通過x1,x2預(yù)測y(百萬支)銷售量預(yù)測價格差x1=其它廠家價格x3-本公司價格x4估計65模型改進x1和x2對y的影響?yīng)毩?shù)參數(shù)估計值置信區(qū)間17.3244[5.728228.9206]1.3070[0.68291.9311]-3.6956[-7.49890.1077]0.3486[0.03790.6594]R2=0.9054F=82.9409p=0.00000123參數(shù)參數(shù)估計值置信區(qū)間29.1133[13.701344.5252]11.1342[1.977820.2906]-7.6080[-12.6932-2.5228]0.6712[0.25381.0887]-1.4777[-2.8518-0.1037]R2=0.9209F=72.7771p=0.000030124x1和x2對y的影響有交互作用模型改進x1和x2對y的影響?yīng)毩?shù)參數(shù)估計值置信區(qū)間1766兩模型銷售量預(yù)測比較(百萬支)區(qū)間[7.8230,8.7636]區(qū)間[7.8953,8.7592](百萬支)控制價格差x1=0.2元,投入廣告費x2=6.5百萬元預(yù)測區(qū)間長度更短略有增加兩模型銷售量預(yù)測比較(百萬支)區(qū)間[7.8230,8.7667x2=6.5x1=0.2x1x1x2x2兩模型與x1,x2關(guān)系的比較x2=6.5x1=0.2x1x1x2x2兩模型與x168交互作用影響的討論價格差x1=0.1價格差x1=0.3加大廣告投入使銷售量增加(x2大于6百萬元)價格差較小時增加的速率更大x2價格優(yōu)勢會使銷售量增加
價格差較小時更需要靠廣告來吸引顧客的眼球交互作用影響的討論價格差x1=0.1價格差x1=0.369完全二次多項式模型中有命令直接求解x1x2從輸出Export可得完全二次多項式模型中有命令直接求解x1x2從輸出Expo70第二部分與數(shù)據(jù)系統(tǒng)是用于數(shù)據(jù)分析與決策支持的大型集成式模塊化軟件包。(其早期的名稱為)第二部分與數(shù)據(jù)系統(tǒng)是用于數(shù)據(jù)分析與決策支持的大型集成式模71系統(tǒng)介紹數(shù)據(jù)訪問
數(shù)據(jù)管理
.
數(shù)據(jù)分析,,,數(shù)據(jù)呈現(xiàn)
,,,,,開發(fā)工具分布式計算環(huán)境
系統(tǒng)介紹數(shù)據(jù)訪問數(shù)據(jù)管理數(shù)據(jù)分析,數(shù)據(jù)呈現(xiàn)開分72啟動SAS:在Windows桌面系統(tǒng)下雙擊
SAS圖標系統(tǒng)簡介
提供的基本運行環(huán)境或運行系統(tǒng)目錄下(例C:\)的可
執(zhí)行程序常用的是交互運行方式。也可用提交批作業(yè)方式運行的啟動SAS:在Windows桌面系統(tǒng)下雙擊
SAS圖標系統(tǒng)73為交互方式運行提供的環(huán)境顯示管理系統(tǒng)
下拉菜單(彈出菜單) 命令框、工具欄 三個基本窗口窗口、窗口、窗口工作界面介紹74為交互方式運行提供的環(huán)境工作界面介紹74訪問和編輯已有的SAS程序編寫新的SAS程序遞交SAS程序?qū)AS程序存為文件是一個基本的窗口,缺省地打開依次記錄SAS進程中各程序運行的信息可用命令清空是一個基本的敞口,缺省地打開依次記錄程序輸出的結(jié)果有結(jié)果輸出時自動轉(zhuǎn)到前臺訪問和編輯已有的SAS程序是一個基本的窗口,缺省地打開是一個75編程基本概念用戶提交的程序由許多程序步構(gòu)成。數(shù)據(jù)步
過程步
原始數(shù)據(jù)表表報告數(shù)據(jù)步常用于創(chuàng)建數(shù)據(jù)集過程步常用于處理數(shù)據(jù)集(生成報表、圖形和實現(xiàn)數(shù)據(jù)分析功能)編程基本概念用戶提交的程序由許多程序步構(gòu)成。數(shù)據(jù)步過程步76一與數(shù)據(jù)的轉(zhuǎn)換1數(shù)據(jù)輸入,了解數(shù)據(jù)步語言的格式。2.調(diào)用數(shù)據(jù)3輸出結(jié)果的保存與轉(zhuǎn)化成數(shù)據(jù)二.數(shù)據(jù)圖表與曲線,掌握數(shù)據(jù)步語言的作用數(shù)學(xué)建模培訓(xùn)統(tǒng)計分析模型與SAS軟件77[格式]:數(shù)據(jù)集名;[功能]:標志數(shù)據(jù)步的開始,并定義所建數(shù)據(jù)集的名稱。例:a;b;1.語句2.語句[格式]:變量名表;[功能]:讀入由語句指定的數(shù)據(jù)列;為相應(yīng)數(shù)據(jù)定義變量名;確定變量格式及讀入方式。[格式]:數(shù)據(jù)集名;1.語句2.語句[781)列表輸入或自由格式例:$;說明:$表示為字符型變量;表示連續(xù)讀入記錄,如果缺省,表示僅讀下每行第一個記錄。3種描述記錄值的方法:2)列方式例:$1-20$2224-25;說明:要求各變量數(shù)據(jù)在數(shù)據(jù)區(qū)排列在固定區(qū)域,在語句的變量表中要在變量名后指出該變量所占的列范圍。1)列表輸入或自由格式例:$;3種描述793)格式化輸入例:$10.4.2;說明:要求在變量后給出一個輸入格式,用來說明變量的數(shù)據(jù)類型和字段的寬度。3)格式化輸入例:$10.4.2;說明:要803.語句[格式];數(shù)據(jù)塊;[功能]引導(dǎo)數(shù)據(jù)行。例:a1;$$;;08160.50826408359.5;;;3.語句例:a1;08160.50826814.賦值語句[格式]:Z=X+Y;Y=Y+1;[功能]:利用現(xiàn)有變量產(chǎn)生新變量。
b1;xy;(x);();;
;;;例:12441664.賦值語句[格式]:Z=X+Y;Y=Y+825.語句[常用格式]數(shù)據(jù)集1數(shù)據(jù)集2...;[功能]調(diào)用數(shù)據(jù)集或縱向聯(lián)接數(shù)據(jù)集。數(shù)據(jù)步語句例:B;A;打開數(shù)據(jù)集B,并從數(shù)據(jù)集A讀入數(shù)據(jù)。C;AB;將A和B縱向聯(lián)接起來,存放在數(shù)據(jù)集C中。5.語句[常用格式][功能]調(diào)用數(shù)據(jù)集或縱向聯(lián)接數(shù)據(jù)83程序?qū)嵗齜1;$;;;;;b2;$;;;;;b3;b1b2;;;
語言基礎(chǔ)17165.219167.120168.918156.321180.2程序?qū)嵗?4創(chuàng)建數(shù)據(jù)集的途徑1)將數(shù)據(jù)行直接寫在語句后,以“;”結(jié)束。例:a;xy;;;123456創(chuàng)建數(shù)據(jù)集的途徑1)將數(shù)據(jù)行直接寫在語句后,以“;”結(jié)束。85*2)其他軟件產(chǎn)生的標準格式文件與數(shù)據(jù)集之間的互相轉(zhuǎn)換,如:,文件等。
863)利用已經(jīng)創(chuàng)建的數(shù)據(jù)集產(chǎn)生所需的新數(shù)據(jù)集。
使用語句、語句可利用已創(chuàng)建的數(shù)據(jù)集產(chǎn)生所需的新數(shù)據(jù)集。*:縱向聯(lián)接:橫向聯(lián)接3)利用已經(jīng)創(chuàng)建的數(shù)據(jù)集產(chǎn)生所需的新數(shù)據(jù)集。87*4)從外部文件讀取數(shù)據(jù)。
使用語句指定從哪一文件中讀入數(shù)據(jù)。例:03; 'd:\統(tǒng)計實習(xí)\03';$$$;;;*4)從外部文件讀取數(shù)據(jù)。
使用語句指定從哪一文件中88練習(xí)建立數(shù)據(jù)集1,包含以下數(shù)據(jù):建立數(shù)據(jù)集2,包含以下數(shù)據(jù):將1、2縱向合并,存放在數(shù)據(jù)集中,并生成新變量z,z為y值取常用對數(shù)。練習(xí)建立數(shù)據(jù)集1,包含以下數(shù)據(jù):89附錄一數(shù)據(jù)輸入和調(diào)用數(shù)據(jù)、輸出結(jié)果轉(zhuǎn)化成表格一維數(shù)據(jù)輸入:E21;N$x1x2x3;/*說明N是字符型變量后加$*/121*x21**3;/*用加,乘,乘方產(chǎn)生新變量*/;/*說明以下輸入數(shù)據(jù)*/A1.12.63.8B4.55.76.0C7.68.29.7;/*空語句說明數(shù)據(jù)輸入結(jié)束*/;/*有此打印語句則在窗口有輸出,否則只在—儲存*/;程序不區(qū)分大小寫字母請看演示附錄一數(shù)據(jù)輸入和調(diào)用數(shù)據(jù)、輸出結(jié)果轉(zhuǎn)化成表格一維數(shù)據(jù)輸入:90數(shù)據(jù)輸入(帶三個下標的一維變量)數(shù)據(jù)輸入(帶三個下標的一維變量)91數(shù)學(xué)建模培訓(xùn)統(tǒng)計分析模型與SAS軟件92數(shù)據(jù)輸入(帶二個下標的二維變量())數(shù)據(jù)輸入(帶二個下標的二維變量())93數(shù)學(xué)建模培訓(xùn)統(tǒng)計分析模型與SAS軟件94數(shù)學(xué)建模培訓(xùn)統(tǒng)計分析模型與SAS軟件95輸出結(jié)果轉(zhuǎn)化成表或進行修改的方法將的輸出結(jié)果保存后,重點,點,點,”文件類型”選中”””,打到該文件后,右擊,選中記事本打開方式,重新存入某位置(要記住該位置)(如果需要修改或解釋此時可在記事本上進行);打開空白,>數(shù)據(jù)>導(dǎo)入外部數(shù)據(jù)>導(dǎo)入數(shù)據(jù)>找到記事本所在位置并打開>按提示進行:將數(shù)據(jù)文件f66轉(zhuǎn)化成文件1.打開,運行p252.點擊保存(設(shè)起名為f66)3.(點擊后)點,文件類型選擇為后找到保存的文件,右擊文件名f66,選擇用記事本打開,并重新保存在某位置。4.打開空白,>數(shù)據(jù)>導(dǎo)入外部數(shù)據(jù)>導(dǎo)入數(shù)據(jù)>找到記事本所在位置并打開f66>按提示進行(選擇按”固定寬度”),最后對文件保存輸出結(jié)果轉(zhuǎn)化成表或進行修改的方法96插值與回歸(擬合)由數(shù)據(jù)表研究變量x與y的關(guān)系插值問題:例1.機翼與樣條函數(shù)2.降雨量特點:要求(插值)函數(shù)經(jīng)過數(shù)據(jù)點回歸問題:例蒸汽量與氣溫(例E621)特點:要求回歸方程在數(shù)據(jù)點附近經(jīng)過xx1x2…yy1y2…插值與回歸(擬合)由數(shù)據(jù)表xx1x2…yy1y2…97回歸分析問題:研究一個或多個連續(xù)變量x1,x2,…,和連續(xù)變量y之間的關(guān)系(給出回歸方程)在現(xiàn)實世界中,存在著大量這樣的情況:一個變量和一個或多個變量,譬如y和x1,x2,…,有一些依賴關(guān)系,由x1,x2,…,可以部分地決定y的值,但這種決定往往不很確切.常常用來說明這種依賴關(guān)系的最簡單、直觀的例子是體重與身高、腰圍.若用x1表示某人的身高,用x2表示某人的腰圍,用y表示他的體重,眾所周知,一般說來,當x1,x2大時,y也傾向于大,但由x1,x2不能嚴格地決定y.類似的例子還很多.變量之間的這種關(guān)系稱為“相關(guān)關(guān)系”,回歸模型就是研究相關(guān)關(guān)系的一個有力工具.回歸分析問題:研究一個或多個連續(xù)變量x1,x2,…,和連續(xù)98回歸方程的最小二乘估計
一元線性回歸的例6.2.1E621;$yx;;數(shù)據(jù)略;;;請看演示回歸方程的最小二乘估計
99例6.2.1散點圖例6.2.1散點圖100回歸模型的檢驗不能替我們選擇模型,模型的選擇是我們決定的.但可以幫我們判斷模型選擇的好壞,與此有關(guān)的就是方程的顯著性檢驗和失擬檢驗.看例E123;x;;0.11.100.21.360.31.380.41.450.51.560.61.410.71.390.81.360.91.081.00.96;;;回歸模型的檢驗101用直線擬合數(shù)據(jù)E123用直線擬合數(shù)據(jù)E123102用拋物線擬合數(shù)據(jù)E123用拋物線擬合數(shù)據(jù)E123103關(guān)于參數(shù)的線性模型例6.6.1經(jīng)鉆探某地區(qū)煤礦上表面高度數(shù)據(jù)如表6.6.1,其中x為橫坐標,y為縱坐標,為了作趨勢面分析,建立上表面高度h的回歸方程.我們用二次多項式擬合這組數(shù)據(jù),從而建立回歸模型0123x245y2+ε(6.6.1)其中ε是零均值隨機變量,結(jié)合表6.6.1,我們得表6.6.1地質(zhì)鉆探數(shù)據(jù)關(guān)于參數(shù)的線性模型例6.6.1經(jīng)鉆探某地區(qū)煤礦上表面104只要令x22,*y,y22,則模型(6.6.1)式就變成5個自變量的線性回歸模型:0123x245y2+ε(6.6.2)從而可以用線性回歸的計算公式和檢驗方法.用軟件來計算例6.6.1的程序是:/*數(shù)據(jù)h可看成帶行、列下標的變量*/230.25;y=64–0.5;h;x2**2**2;;;;;只要令x22,*y,y22,則模型(6.6.1)式就變105-110102031-11-191930-12-281929-13-271828-141361727;;yx2y2;;一般,如果回歸模型形如01f1(x12,…)+…(x12,…)+ε其中(x12,…)是不含未知參數(shù)的函數(shù),則稱為關(guān)于參數(shù)的線性模型,令(x12,…)(1,2,…)就可轉(zhuǎn)化成線性回歸模型01X1+…ε從而采用回歸程序數(shù)學(xué)建模培訓(xùn)統(tǒng)計分析模型與SAS軟件106數(shù)學(xué)建模培訓(xùn)統(tǒng)計分析模型與SAS軟件10764;xy;1;1;;2106.423108.204109.585109.507110.008109.9310110.4911110.5914110.6015110.9016110.7618111.0019111.20;;;然后進行u對v的回歸,請看演示64;108非線性回歸非線性回歸是指模型從參數(shù)角度為非線性的且無法線性化的模型,例如01x12x211x1212x1x222x22是諸參數(shù)及的線性模型(從自變量x12角度模型是非線性的),是可以線性化的非線性模型(線性化后(y)*(a),而(())是非線性的且無法線性化的模型.此時采用非線性回歸程序非線性回歸非線性回歸是指模型從參數(shù)角度為非線性的且無法線109程序形式:=…;因變量=非線性函數(shù)表達式;參數(shù)1=初值參數(shù)2=初值…;.參數(shù)1=偏導(dǎo)表達式;.參數(shù)2=偏導(dǎo)表達式;……………;;方法:采用迭代求參數(shù),要給出參數(shù)的一階偏導(dǎo)表達式.參數(shù)=…;,要賦參數(shù)初值參數(shù)=…;請看例子演示程序形式:110;xy;;數(shù)據(jù)(略);;/*調(diào)用進行非線性回歸*/自由度=變量個數(shù)-約束方程個數(shù)譬如在單因素方差分析中:();/*簡化記號*/*;/*因變量=非線性函數(shù)表達式,即(())*/701.10.2;/*賦參數(shù)初值*/;/*給出參數(shù)的一階偏導(dǎo)表達式*/**;*x**;;;111當隨便賦初值導(dǎo)致不收斂時初值的采用方法一:分析函數(shù)是否可以使參數(shù)形式上具線性
方法二:對于參數(shù)的適當范圍用均勻設(shè)計得參數(shù)的多組值試行當隨便賦初值導(dǎo)致不收斂時初值的采用方法一:分析函數(shù)是否可以使112以下是Excel數(shù)據(jù)P48中變量x分別與變量y、z、u、v的散點圖由上面圖可以直觀地看出大致的相關(guān)性類型和相關(guān)程度。對線性相關(guān)性進一步進行定量討論以下是Excel數(shù)據(jù)P48中變量x分別與變量y、z、u、v的113演講完畢,謝謝觀看!演講完畢,謝謝觀看!1142011年數(shù)學(xué)建模培訓(xùn)
統(tǒng)計分析模型與軟件
張景祥2011年數(shù)學(xué)建模培訓(xùn)
統(tǒng)計分析模型與軟件
張景祥115一、統(tǒng)計學(xué)分析方法1.1回歸分析1.2聚類分析1.3數(shù)據(jù)分類1.4判別分析1.5主成分分析1.6因子分析1.7殘差分析1.8典型相關(guān)分析1.9時間序列一、統(tǒng)計學(xué)分析方法1167月10日(培訓(xùn)主要內(nèi)容)
第一部分回歸模型
第二部分與數(shù)據(jù)7月10日(培訓(xùn)主要內(nèi)容)
第一部分回歸模型
117回歸分析模型一元線性回歸一元非線性回歸多元線性回歸多元非線性回歸主要應(yīng)用于變量間相關(guān)關(guān)系的分析回歸分析模型一元線性回歸主要應(yīng)用于變量間相關(guān)關(guān)系的分析118回歸這一術(shù)語是1886年英國生物學(xué)家高爾頓在研究遺傳現(xiàn)象時引進的.他發(fā)現(xiàn):雖然高個子的先代會有高個子的后代,但后代的增高并不與先代的增高等量.他稱這一現(xiàn)象為“向平常高度的回歸”.回歸這一術(shù)語是1886年英國生物學(xué)家高爾頓在研究遺傳現(xiàn)象時119爾后,他的朋友麥爾遜等人搜集了上千個家庭成員的身高數(shù)據(jù):0.51633.73(英寸)分析出兒子的身高y和父親的身高x大致為如下關(guān)系:爾后,他的朋友麥爾遜等人搜集了上千個家庭成員的身高數(shù)據(jù):0.120這意味著,若父親身高超過父親平均身高6英寸,那么其兒子的身高大約只超過兒子平均身高3英寸,可見有向平均值返回的趨勢.誠然,如今對回歸這一概念的理解并不是高爾頓的原意,但這一名詞卻一直沿用下來,成為統(tǒng)計學(xué)中最常用的概念之一.6英寸3英寸這意味著,若父親身高超過父親平均身高6英寸,那么其兒子的121在回歸分析中,當變量只有兩個時,稱為一元回歸分析;當變量在兩個以上時,稱為多元回歸分析.變量間成線性關(guān)系,稱線性回歸,變量間不具有線性關(guān)系,稱非線性回歸.一元回歸多元回歸線性非線性在這一講里,我們主要討論的是一元線性回歸.它是處理兩個變量之間關(guān)系的最簡單的模型.它雖然比較簡單,但我們從中可以了解到回歸分析的基本思想、方法和應(yīng)用.在回歸分析中,當變量只有兩個時,稱為一元122設(shè)隨機變量y與變量x之間存在著某種相關(guān)關(guān)系,其中x是能夠控制或可以精確測量的變量.年齡身高施肥量積雪深度x…y灌溉面積產(chǎn)量血壓體重…為了今后研究方便,我們把x當作普通變量,而不把它看作隨機變量.設(shè)隨機變量y與變量x之間存在著某種相關(guān)關(guān)系,其123對于x的一組不完全相同的值x1,x2,…作獨立觀察,得到隨機變量y相應(yīng)的觀察值y12,…,構(gòu)成n對數(shù)據(jù).用這n對數(shù)據(jù)可作出一個散點圖,直觀地描述一下兩變量之間的關(guān)系.yxo············對于x的一組不完全相同的值x1,x2,…作獨立觀察,得到124這里有三幅散點圖.yxo··········(1)oyx············(2)yxo····················(3)這里有三幅散點圖.yxo··········(1)oyx··125根據(jù)散點圖,考慮以下幾個問題:(1)兩變量之間的關(guān)系是否密切,或者說我們能否由x來估計y.(2)兩變量之間的關(guān)系是呈一條直線還是呈某種曲線.(3)是否存在某個點偏離過大.(4)是否存在其它規(guī)律.根據(jù)散點圖,考慮以下幾個問題:(1)兩變量之間的關(guān)系是否126yxo··········(1)oyx············(2)yxo····················(3)考慮采用線性方程擬合采用非線性方程擬合yxo··········(1)oyx···········127一元線性回歸為了估計山上積雪融化后對下游灌溉的影響,在山上建立了一個觀測站,測量了最大積雪深度x與當年灌溉面積y,得到連續(xù)10年的數(shù)據(jù)如下表:年序最大積雪深度x(米)灌溉面積y(公頃)15.1190723.5128737.1269346.2237358.8326067.8300074.5194785.6227398.03113106.42493一元線性回歸為了估計山上積雪融化后對下游灌溉的影128為了研究這些數(shù)據(jù)中所蘊含的規(guī)律性,我們由10對數(shù)據(jù)作出散點圖.從圖看到,數(shù)據(jù)點大致落在一條直線附近,這告訴我們變量x和y之間大致可看作線性關(guān)系.yxo4000300020001000246810···········從圖中還看到,這些點又不完全在一條直線上,這表明x和y的關(guān)系并沒有確切到給定x就可以唯一確定y的程度.為了研究這些數(shù)據(jù)中所蘊含的規(guī)律性,我們由10對129事實上,還有許多其它因素對y產(chǎn)生影響,如當年的平均氣溫、當年的降雨量等等,都是影響y取什么值的隨機因素.其中a和b是未知常數(shù),稱回歸系數(shù),ε表示其它隨機因素對灌溉面積的影響.σ2未知yε如果我們只研究x和y的關(guān)系,可以假定有如下結(jié)構(gòu)式:實際中常假定ε服從正態(tài)分布N(0,σ2),即事實上,還有許多其它因素對y產(chǎn)生影響,130
y=a+bx+ε,ε~N(0,)(1)為一元線性回歸模型.通常稱由(1)式,我們不難算得y的數(shù)學(xué)期望:E(y)該式表示當x已知時,可以精確地算出E(y).由于ε是不可控制的隨機因素,通常就用E(y)作為y的估計,記作.這樣我們得到稱此方程為y關(guān)于x的回歸方程.(2)y=a+bx+ε,ε~N(0,)131現(xiàn)對模型(1)中的變量x,y進行了n次獨立觀察,得樣本(x1,y1),…,(xn,yn)(3)據(jù)(1)式,此樣本的構(gòu)造可由方程
y=a+bx+ε,ε~N(0,)(1),i=1,2,…,n(4)這里是第i次觀察時隨機誤差所取的值,它是不能觀察的.來描述.現(xiàn)對模型(1)中的變量x,y進行了n次獨立觀察1321,2,…(5)(4)式和(5)式結(jié)合,給出了樣本(x11),…,()的概率性質(zhì).它是對理論模型進行統(tǒng)計分析推斷的依據(jù).也常稱(4)+(5)為一元線性回歸模型.由于各次觀察獨立,有,i=1,2,…,n(4)1,2,…(5)(4)式133由于此方程的建立有賴于通過觀察或試驗積累的數(shù)據(jù),所以有時又稱其為經(jīng)驗回歸方程或經(jīng)驗公式.(6)
回歸分析的任務(wù)是利用n組獨立觀察數(shù)據(jù)(x1,y1),…,(xn,yn)來估計a和b,以估計值和分別代替(2)式中的a和b,得回歸方程那么要問,如何利用n組獨立觀察數(shù)據(jù)來估計a和b?由于此方程的建立有賴于通過觀察或試驗積累的數(shù)據(jù),所以有時1341.用最小二乘法估計首先舉例說明最小二乘法的思想:假設(shè)為估計某物體的重量,對它進行了n次稱量,因稱量有誤差,故n次稱量結(jié)果x1,x2,…,xn有差異,現(xiàn)在用數(shù)去估計物重,則它與上述n次稱量結(jié)果的偏差的平方和是:1.用最小二乘法估計首先舉例說明最小二乘法的思想:135于是就提出了下面的估計原則:用這種方法作出的估計叫最小二乘估計.最小二乘法認為,一個好的估計,應(yīng)使這個平方和盡可能地小.尋找,使上述平方和達到最小,以這個作為物重的估計值,這就是最小二乘法.于是就提出了下面的估計原則:用這種方法作出的估計叫最小二乘估136現(xiàn)在的情況是,對(x,y)作了n次觀察或試驗,得到n對數(shù)據(jù),我們想找一條直線,盡可能好地擬合這些數(shù)據(jù).
yx
由回歸方程,當x取值xi時,應(yīng)取值a+bxi,而實際觀察到的為yi,這樣就形成了偏差現(xiàn)在的情況是,對(x,y)作了n次觀察或試驗,得137依照最小二乘法的思想,提出目標量Q(7)它是所有實測值yi與回歸值的偏差平方和.yx依照最小二乘法的思想,提出目標量Q(7)它是所有實測值yi與138yx我們可設(shè)法求出a,b的估計值,,使偏差平方和Q達到最小.(7)yx我們可設(shè)法求出a,b的估計值,,使偏差平139(7)我們可設(shè)法求出a,b的估計值,,使偏差平方和Q達到最小.由此得到的回歸直線是在所有直線中偏差平方和Q最小的一條.yx(7)我們可設(shè)法求出a,b的估計值,,使偏差140通??刹捎梦⒎e分中求極值的辦法,求出使Q達到最小的,.(7)即解方程:得(8)其中通??刹捎梦⒎e分中求極值的辦法,求出使Q達到最小141從而得到回歸方程按照上述準則,我們可求出前面例子中灌溉面積y對最大積雪深度x的回歸方程是:可以看出,最大積雪深度每增加一個單位,灌溉面積平均增加364個單位.從而得到回歸方程按照上述準則,我們可求出前面例子中灌溉面積y142可以證明,我們用最小二乘法求出的估計分別是a,b的無偏估計,它們都是y1,y2,…,yn的線性函數(shù),而且在所有y1,y2,…,yn的線性函數(shù)中,最小二乘估計的方差最小.可以證明,我們用最小二乘法求出的估計分別是143
求出回歸方程,問題尚未結(jié)束,由于是從觀察得到的回歸方程,它會隨觀察結(jié)果的不同改變,并且它只反映了由x的變化引起的y的變化,而沒有包含誤差項.(1)回歸方程是否有意義?即自變量x的變化是否真的對因變量y有影響?因此,有必要對回歸效果作出檢驗.因此在獲得這樣的回歸方程后,通常要問這樣的問題:求出回歸方程,問題尚未結(jié)束,144(2)如果方程真有意義,用它預(yù)測y時,預(yù)測值與真值的偏差能否估計?(1)回歸方程是否有意義?即自變量x的變化是否真的對因變量y有影響?因此,有必要對回歸效果作出檢驗.2.回歸方程的顯著性檢驗對任意兩個變量的一組觀察因此需要考察y與x間是否確有線性相關(guān)關(guān)系,這就是回歸效果的檢驗問題.都可以用最小二乘法形式上求得y對x的回歸方程,如果y與x沒有線性相關(guān)關(guān)系,這種形式的回歸方程就沒有意義.(,),1,2,…,n(2)如果方程真有意義,用它預(yù)測y時,預(yù)測值與真值的偏差能145我們注意到只反映了x對y的影響,所以回歸值就是yi中只受xi影響的那一部分,而
則是除去xi的影響后,受其它種種因素影響的部分,故將
稱為殘差.
我們注意到146于是觀測值yi可以分解為兩部分和,
并且也可分解為兩部分.因此,y1,y2,…,的總變差為:(9)于是觀測值yi可以分解為兩部分和147可以證明即可以分解為兩部分:回歸平方和與殘差平方和.(10)可以證明即可以分解為兩部分:回歸平方和148(10)反映了由于自變量x的變化引起的因變量y的差異,體現(xiàn)了x對y的影響;而反映了種種其它因素對y的影響,這些因素沒有反映在自變量中,它們可作為隨機因素看待.(10)反映了由于自變量x的變化引起149可見,/為x的影響部分與隨機因素影響部分的相對比值.它的作用和隨機因素的作用相當,于是由數(shù)據(jù)得到的回歸方程就沒有什么意義.若它不是顯著地大,表明我們所選的x,并不是一個重要的因素.可見,/為x的影響部分與隨機因素影響150可見,/為x的影響部分與隨機因素影響部分的相對比值.如果它顯著地大,表明x的作用是顯著地比隨機因素大,這樣,方程就有意義.通常我們可假設(shè)y和x沒有線性相關(guān)關(guān)系,對回歸方程是否有意義進行顯著性檢驗.可見,/為x的影響部分與隨機因素影響151(11)
因此用來檢驗b的絕對值是否顯著大于0(或者說檢驗回歸方程是否有意義).可以證明:的關(guān)系式中b=0時,有當(1,2)(12)(11)因此用來檢驗b的絕對值是否顯著大于0(或者說檢152給定顯著性水平,通過查F分布分位數(shù)表,求出否定域,便可判斷回歸方程是否有意義.拒絕域為:
由上面的討論可知,要問回歸方程是否有意義,就是要檢驗假設(shè)H0:0;H1:b≠0使用的檢驗統(tǒng)計量為:~F(1,n-2)給定顯著性水平,通過查F分布分位數(shù)表,求出否定域,153我們可以用更簡單的公式計算回歸平方和與殘差平方和:
(14)(13)我們可以用更簡單的公式計算回歸平方和與殘差平方154現(xiàn)在對例中建立的回歸方程進行檢驗,可計算得:=3393025-3318355=355.5對α=0.01,由F表查得
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 環(huán)保政策與生產(chǎn)安全管理的深度融合
- 現(xiàn)貨電商的現(xiàn)代化物流體與管理系統(tǒng)優(yōu)化
- 現(xiàn)代遠程教育的國際合作項目
- 現(xiàn)代餐飲業(yè)革新發(fā)展現(xiàn)狀與未來趨勢
- 【基礎(chǔ)卷】同步分層練習(xí):五年級下冊語文第5課《草船借箭》(含答案)
- 2025年度國際貿(mào)易實務(wù)實訓(xùn)報告標準合同范本
- 滬教版(上海)七年級地理第一學(xué)中國區(qū)域篇(上)2《自主學(xué)習(xí) 認識區(qū)域-浙江省》聽課評課記錄
- 環(huán)境科學(xué)在醫(yī)療環(huán)境改善中的作用
- 現(xiàn)代物流業(yè)中的信息安全與隱私保護
- 2025年度環(huán)保設(shè)備購置及污染賠償合同
- 2025版職業(yè)院校與企業(yè)合作育人合同3篇
- 自動化設(shè)備項目評估報告模板范文
- 商標法基礎(chǔ)知識
- 2025年高考物理一輪復(fù)習(xí)之機械振動
- 《道路交通安全法》課件完整版
- 初中2025教學(xué)工作計劃
- 2024年度市政工程項目三方合作協(xié)議3篇
- 【大學(xué)課件】機電設(shè)備管理技術(shù)概論
- (2024)甘肅省公務(wù)員考試《行測》真題及答案解析
- 《STP營銷戰(zhàn)略概述》課件
- 醫(yī)院醫(yī)務(wù)人員醫(yī)德考評標準
評論
0/150
提交評論