




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
第第27頁,共#頁24022262202351112001363131801231601113列和(f)3614115140280260)240斤220公200(180量160獲140收120畝100每80均280260)240斤220公200(180量160獲140收120畝100每80均60平402023236212211253XI002468101214161820降雨量(毫米)圖9-3降雨量與收獲量之間相關圖三、簡單相關系數(shù)(一)簡單相關系數(shù)的意義簡單線性相關圖表雖然直觀,但不能精確地描述現(xiàn)象間的相關關系。測量兩個變量之間線性相關程度和相關方向的指標,稱為簡單相關系數(shù)??傮w相關系數(shù)一般用R表示,定義式為G2,R二亠(式9.1)XY式中,Gx和Gy表示變量X和Y的標準差,對有限總體而言,其計算公式為(式9.2)式9.3)G2XY表示兩個變量X和Y之間的協(xié)方差,計算公式為
E(XE(X)Y(X)Y-■X-N式9.4)這里,變量X和Y為總體變量,N為總體單位數(shù),卩和卩分別為變量X及YXY的總體平均數(shù),計算式為yv卩=(式9.5)XNyY卩=(式9.6)YN要理解相關系數(shù)R的意義,首先要明確協(xié)方差b2和標準差c、b在反映變XYXY量之間相關關系中的作用。協(xié)方差b2XY反映了變量X和Y的共變性,可以顯示兩個變量的相關方向和相關關系的密切程度,它可能出現(xiàn)以下幾種情況:第一,所有相關點均為正相關,則b2XY0,說明兩個變量之間正線性相關。第二,所有相關點均為負相關,則b2XY0,說明兩個變量之間負線性相關。第三,在全部相關點中,既有正相關、又有負相關和零相關,在計算協(xié)方差時就會出現(xiàn)正負抵銷。抵銷的結果如為正數(shù)則是正相關,如為負數(shù)則是負相關。數(shù)值大表示相關程度強,數(shù)值小則表示相關關系弱。若正、負全部低銷掉了,結果為零,則表示不相關。第三種情況是實際經(jīng)濟生活中最常見到的情況。此外,還有兩種極端的情況:當所有相關點都是零相關時,抵銷結果為零,表示兩個變量完全沒有相關關系。當所有相關點全部落在直線上時,表示兩個變量完全線性相關,即存在函數(shù)關系。進一步,相關系數(shù)是一個界于+1和T之間的數(shù),即-1WRW1,若R=l,說明兩個變量之間存在完全正線性相關;若R=-1說明兩個變量之間存在完全負線性相關;若0R1,說明兩個變量之間存在一定程度的正線性相關;若-1R0,說明兩個變量之間存在一定程度的負線性相關;若R=0,說明兩個變量之間沒有線性相關關系。(二)簡單相關系數(shù)的計算在實際工作中,總體相關系數(shù)R一般是未知的,往往需要用樣本資料推斷總體的相關情況,因而需要計算樣本相關系數(shù)。1?固定簡單線性相關系數(shù)的計算設x和y為樣本變量,其中y為隨機變量,x為非隨機變量,n為樣本容量,X、
y分別為變量Xy分別為變量X及y的樣本平均數(shù),S、x差及它們之間的樣本協(xié)方差,其計算為_Exx=-n__Eyy=一n'E(x—X)2sx=n—s和s2分別表示變量X和y的樣本標準yxy(式9.7)(式9.8)-(式9.9)式9.10)(式9.11)s=壬(y-y)2式9.10)(式9.11)yYn2E(x—X)(y—y)xyn于是,就可得到與總體相關系數(shù)計算形式相同的樣本相關系數(shù)(記為r)的公式s2r=(式9.12)ssxy經(jīng)過簡單的推導,上式還可變化為下面易于計算的形式式9.13)nExy—ExEy式9.13)I1InEx2—(Ex)2pnEy2—(Ey)2根據(jù)表9-1的資料計算相關系數(shù)如表9-3所示:表9-3固定簡單線性相關系數(shù)計算表序號人均收入水平(元)X食品支出占生活費支出比重(%)yX2y2xy128068.3784004664.8919124232067.51024004556.2521600339066.21521004382.4425818453064.92809004212.0134397565056.74225003214.8936855667060.24489003624.0440334779054.46241002959.3642976888049.07744002401.0043120991050.58281002550.254595510105043.611025001900.9645780合計6470581.3481430034466.09355959將表9-3數(shù)字代入上述相關系數(shù)計算公式,得:nExy-ExEyIfx:'nEx2-(Ex)2nEy2-(Ey)210X355959-6470x581.3門甘==—0.9810x4814300-64702\10x34466.09-581.322.隨機簡單線性相關系數(shù)的計算如果x和y均為隨機變量,計算樣本相關系數(shù)的基本式仍為s2r=xy_ssxy但由于存在聯(lián)合頻數(shù)(fi)其具體的計算略有變化,經(jīng)過不復雜的類推可得下式EfExyf-ExfEyfr=ijijijiijj(式9.14)NEx2f-(Exf)2;EfEy2f-(Eyf)2'IIIii¥jjjjj根據(jù)表9—2資料計算相關系數(shù),計算過程如表9—4、表9—5、表9—6所示:表9-4降雨量(x)數(shù)據(jù)的計算表降雨量(毫米)xfX2XfX2fiiiiiii83642419210610060600121414416820161411196154215616525680128018132418324合計40一5046568表9-5平均每畝收獲量(y)數(shù)據(jù)的計算表平均每畝收獲量(公斤)yfjy2jyfjjy2fjjj1603256004807680018033240054097200200134000026005200002201148400242053240024065760014403456002604676001040270400合計40一85201842400表9-6平均每畝收獲量(y)數(shù)據(jù)的計算表降雨量(毫米)X平均每畝收獲量(公斤)yfxyfijijijij816011280818011440820011600101601160010200360001022024400121601192012180243201220061440012220379201224025760142003840014220515400142402672014260136401622013520162402768016260283201626014680合計——40109000根據(jù)以上各表資料可得:r-YfYxyf11~~j——YxfYyf耳1~1j—jN%2f—(Yxf)2習%2f_(Yyf)2iiiiivjjjjj=40x109000—504x8520=?-■'40x6568—5042\;40x1842400—85202=0.67四、相關系數(shù)的統(tǒng)計推斷總體相關系數(shù)R一般是未知的,能夠計算出的只是樣本相關系數(shù)r,r雖然能夠提供關于總體相關程度與方向的某種信息,r愈大,在一定程度上說明總體相關程度愈高,但也可能犯錯誤。這就需要根據(jù)樣本資料對總體相關系數(shù)R進行檢驗和估計。(一)關于總體相關系數(shù)R的檢驗由于相關系數(shù)r的分布復雜,不能直接利用它去進行統(tǒng)計推斷,但如果設111+R卜Z=ln()(式9.15)R21—Rz=ln()(式9.16)r21—r可以證明,當樣本(x,y)抽自正態(tài)分布總體時,z近似服從平均值為Z,方差rR
為丄7的正態(tài)分布,于是n-3z=(z—Z)*:n—3(式9.17)rR近似服從標準正態(tài)分布。據(jù)此可以檢驗H:R=R(R工0)000利用例9.1資料,計算的樣本相關系數(shù)r=-0.98,是否可以認為總體相關系數(shù)R=-0.90,統(tǒng)計假設為H:R=—0.900H:Rh—0.901此時,I〕1+R、111—0.90、Z=ln()=ln()=-1.472R21—R21+0.9011+廠、11—0.98z=ln()=ln()=—2.298r21—./21+0.98于是,檢驗統(tǒng)計量z=(z-Z)i;n—3rR=(-2.298+1.472)J10—3=—2.185當顯著水平a=5%時,查正態(tài)分布表可得Z=Z=—1.96>Z=—2.186,a0.0252故否定H°,接受片,即不能認為總體的相關系數(shù)R=-0.90。同理,也可以對總體相關系數(shù)進行單邊檢驗。(二)關于總體相關系數(shù)R的區(qū)間估計首先,求出Z的估計區(qū)間。若與估計保證程度對應的概率度為Z,Z的估計區(qū)間RR就為z-rz-rr對于例9.1,Z的95%置信估計區(qū)間為R1.961.96-2.298-<Z<-2.298+<10—3R<10—3即-3.039<Z<-1.557R根據(jù)Z的置信區(qū)間,可以換算出R的置信區(qū)間:Rri+r、當Z=ln()=-3.039時,R=-0.99R21-Rri+r、當Z=ln()=-1.557時,R=-0.92R21-R計算結果說明,居民人均收入水平與食品支出占生活費支出比重之間的總體相關系數(shù)R的95%的置信區(qū)間為-0.99至-0.92。同理,也可類似地對例9.2進行分析,請讀者自己思考。第二節(jié)簡單線性回歸分析一、回歸分析的概念和種類從歷史上看,“回歸”概念的提出是要早于“相關”的,生物統(tǒng)計學家高爾頓在研究豌豆和人體的身高遺傳規(guī)律時,首先提出“回歸”的思想。1887年,他第一次將“回復"(Reversion)作為統(tǒng)計概念使用,后改為“回歸”(Regression)一詞。1888年他又引入“相關”(Correlation)的概念。原來,他在研究人類身高的遺傳時發(fā)現(xiàn),不管祖先的身高是高還是低,成年后代的身高總有向一般人口的平均身高回歸的傾向。通俗的講就是,高個子父母,其子女一般不象他們那樣高,而矮個子父母,其子女一般也不象他們那樣矮,因為子女的身高不僅受到父母的影響(盡管程度最強),還要受其上兩代共四個雙親的影響(盡管程度相對弱一些),上三代共八個雙親的影響(盡管程度更加弱一些),如此等等,即子女的身高要受到其2n(n趨近無窮)個祖先的整體(即總體)影響,是遺傳和變異的統(tǒng)一結果?;貧w和相關已成為統(tǒng)計學中最基本的概念之一,其分析方法已是最標準、最常用的統(tǒng)計工具之一。從狹義上看,相關分析的任務主要是評判現(xiàn)象之間的相關程度高低以及相關的方向的,而回歸分析則是在相關分析的基礎上進一步借用數(shù)學方程將那種顯著存在的相關關系表示出來,從而使這種被揭示出的關系具體化并可運用于實踐中去。但也常從廣義的角度去理解相關和回歸,此時回歸分析就包含著相關分析?;貧w分析最基本的分類就是一元回歸和多元回歸,前者是指兩個變量之間的回歸分析,如收入與意愿支出之間的關系;后者則是指三個或三個以上變量之間的關系,如消費支出與收入及商品價格之間的關系等。進一步,一元回歸還可細分為線性回歸和非線性回歸兩種,前者是指兩個相關變量之間的關系可以通過數(shù)學中的線性組合來描述,后者則沒有這種特征,即兩個相關變量之間的關系不能通過數(shù)學中的線性組合來描述,而表現(xiàn)為某種曲線模型。二、簡單線性回歸方程總體的簡單線性回歸模型可表示為
Y=A+BX+e(式9.18)上式中,X稱為自變量,Y稱為因變量,e稱為隨機誤差值。從這里可以看出相關分析與回歸分析的顯著區(qū)別,在前述的相關分析中通常可以將變量X和Y視作是某種“對等”的因素,而在這里的回歸分析中,它們卻是不“對等”的。自變量是解釋變量或預測變量,并假定它是可以控制的無測量誤差的非隨機變量;相反,因變量是被解釋變量或被預測變量,它是隨機變量,即相同的Y可能是由于不同的X所造成,或者相同的X可能引起不同的Y,其表現(xiàn)正是隨機誤差項e。隨機誤差值e是觀察值Y能被自變量X解釋后所剩下的值,故又稱為殘差值,它是隨機變量。A和B為未知待估的總體參數(shù),又稱其為回歸系數(shù)。由此可見,實際觀測值Y被分割為兩個部分:一是可解釋的肯定項A+BX,二是不可解釋的隨機項e。與相關分析類似,總體的回歸模型Y=A+BX+e是未知的,如何根據(jù)樣本資料去估計它就成為回歸分析的基本任務。由此可以假設樣本的回歸方程如下:Y=a+bx(式9.19)上式中,Y、a和b分別為Y、A和B的估計值。如果對變量X和Y聯(lián)合進行n次觀察,就可以獲得一個樣本(x,y),據(jù)此就可求出a、b的值。求a、b的方法有多種,但一般是采用最小平方法。它要求觀察值y與估計值Y的離差平方和達到最小值,即Q=》(y-Y)2(y-a-bx)2=最小值滿足這一要求的a和b可由下述標準方程求出工y=na+b工x工xy=a工x+b工x2解方程得:b」(X一X)(y一刃二畑-Z(式9.20)Z(x一x)2nZx2一(Zx)2a=ya=y-bx=N-b竺nn式9.21)例9.3為研究某類企業(yè)的生產(chǎn)量和單位成本之間的關系,現(xiàn)隨機抽取10個企業(yè),得如下數(shù)據(jù)(見表9-7):根據(jù)該資料,經(jīng)計算可得表9-8
表9-710個企業(yè)的生產(chǎn)量和單位成本情況編號12345678910產(chǎn)量(萬件)2344566789單位成本(元/件)52545248484645444038表9-8一元線性回歸計算表編號產(chǎn)量(萬件)x單位成本(元/件)yX2y2xy7KYy-Y12524270410454.35-2.3523549291616252.101.90345216270420849.852.15444816230419247.85-1.85554825230424047.600.40664636211627645.350.65764536202527045.35-0.35874449193630843.100.90984064160032040.85-0.851093881144434238.60-0.60合計544673362205324224670由上表資料,可得:nZxy-SxZy10x2422-54x467門卄b===-2.25nSx2-(Yx)210x336-542=58.85a=豈-bYX=也-(-2.25)塁=58.85nn1010這樣就可以得到生產(chǎn)量(x)和單位成本(y)之間的樣本回歸方程Y=a+bx=58.85-2.25x在簡單線性回歸方程Y二a+bx中,a為截距,b為斜率,后者表示自變量x變化一個單位時,Y將平均變化b個單位。當b取正值時,表明x和y的變化方向相同,當b取負值時,表明x和y的變化方向相反。本例中,b=-2.25,表明產(chǎn)量每增加1萬件時,單位成本將平均下降2.25元。根據(jù)樣本資料獲得的回歸方程Y=a+bx又稱為經(jīng)驗方程,如果計算出觀察值y的估計值Y,并進一步求出殘差y-Y,就可以觀察回歸方程對總體方程擬合的優(yōu)良程度。對于某一特定的自變量x而言,觀察值y同其估計值Y是有一定差別的,比如,
當產(chǎn)量為5萬件時,實際單位成本為48元,而其估計值為47.60元,兩者相差0.4元,但全部殘差項之和等于零(見表9-8),這說明估計值平均來說是無偏的。事實上,最小平方估計量還滿足下式工(y-Y)=0zY這里,Y表示估計值Y的平均值,即Y二——n從理論上講,最小平方法具有優(yōu)良特性,因為參數(shù)A、B的最小平方估計量a、b是最優(yōu)的線性無偏估計量,這一性質(zhì)通常稱為“高斯—馬爾科夫定理”,這也是最小平方法獲得廣泛應用的主要原因。此外,如果記隨機誤差項e的方差為02,它也是未知的總體參數(shù),其無偏估計量為式9.22)Q_Z(y-Y)2式9.22)n-2n-2上式中,Q_y-Y)2稱為剩余離差平方和或殘差平方和,n-2為自由度。三、離差分析對于某一個觀察值y.,其離差大小可通過觀察值y.與全部觀察值的均值y之差iiy-y表示出來,y-y又可進一步分解為Y-y和y-Y兩部分,即iiiiiy-y=(Y-y)+(y-Y)
iiii可以證明,當變量X和Y之間線性相關時,還進一步存在下述等式關系z(y-y)2=z(Y-y)2+z(y-Y)2通常記t=z(y-y)2R=z(Y-y)2Q_z(y-Y)2分別稱T、R和Q為總離差平方和、回歸離差平方和和剩余離差平方和??傠x差
平方和反映了樣本中全部數(shù)據(jù)的總波動程度;回歸離差平方和反映了回歸估計值自身的離散程度,它是由于回歸方程及自變量X取值不同所造成的,是可以解釋的差別;剩余離差平方和是回歸擬合后所剩下的部分,是不能解釋的變差,故又稱為殘差平方和。顯然,T中R的比重愈大,或者Q的比重愈小,則說明線性回歸擬合愈好,反之,擬合就愈差。由此可以建立下述指標r2r2=—T式9.23)稱r2為樣本相關程度的判定系數(shù),r=;R為樣本相關系數(shù)。由此就可直觀地看T出r2和r的特性:r2<1或T<rJ+1|r|愈接近于1,相關程度愈強;|r|愈接近于0相關程度愈弱。r取正值時表明正相關,r取負值時表明負相關。r只能表明總體是否可能存在線性相關,當|r|很小甚至接近于0時,只能說明總體可能不存在線性相關,但是否存在非線性相關還需進一步判定。從計算角度看,上述幾種離差還可表示為T=S(y-y)2=Yy2—_(Yy)2n八__1R二》(Y-y)2=b2^(X—x)2=b2[Sx2—(Sx)2]nQ=S(y—Y)2=T—R對于例9.3,有T=Sy2—-(Sy)2=22053——X(467)2=244.10n10R=b2[Sx2—-(Sx)2]=(—2.25)2X[336—丄X(54)2]=224.78n10Q=T—R=244.1—224.78=19.32計算結果說明:單位成本的總離差平方和為244.10,其中由于產(chǎn)量變化所造成的為224.78,占92.09%,由于產(chǎn)量以外的所有因素共同造成的為19.55,占8.01%。據(jù)此計算的相關系數(shù)為r=T=:224.78r=T=:224.78\T飛244.10=0.96四、統(tǒng)計推斷依據(jù)樣本數(shù)據(jù)得到的經(jīng)驗回歸方程,是否能夠較好地擬合了總體的實際情況,必須通過統(tǒng)計檢驗加以判斷??梢宰C明:當變量Y服從正態(tài)分布時,從中隨機抽取樣本(x,y),回歸系數(shù)A和B的最小平方估計值a和b也服從正態(tài)分布,其平均值分別為a=A式9.24)a=A式9.24)b=B式9.25)方差分別為nL(方差分別為nL(x-x)2b2Ex2n[Ex2一丄(Ex)2]n式9.26)b2b2b2b2=bE(x-x)2b2Ex2一丄(Ex)2n式9.27)于是,就可建立兩個標準正態(tài)統(tǒng)計量于是,就可建立兩個標準正態(tài)統(tǒng)計量a-a-AZ二——ba式9.28)b-b-Az二——bb式9.29)并且,并且,b2和b2的計算式中b2一般未知,但其無偏估計量為ab二乂_E(y-Y)2n一2n一2據(jù)此對A和B進行統(tǒng)計假設檢驗的步驟如下(仍以例9.3的資料):(1)檢驗A第一步:建立統(tǒng)計假設H:A=00H:AhO1第二步:計算z統(tǒng)計量由于£2亠=竺=2.415n-210-2£2a£2Ex2n[Ex2-(Ex)2]n2.415x3361=1.82810x[336-—x542]10八£a因此,檢驗統(tǒng)計量為=<1.828=1.352a-A58.85-0Z一二—=1.352=43'528a第三步:確定顯著水平a,做出判斷若設a=5%,經(jīng)查表得z1-a2=Z0.975=*=43?528,拒絕零假設,即認為回歸系數(shù)A顯著的不為零。(2)檢驗B同理,可對回歸系數(shù)B進行檢驗。若統(tǒng)計假設為H:B=00H:BhO1此時£2=b2.415]1=0.054Ex2--(Ex)2336-—542n10£2=J0.054=0.233b-A-2.25-0檢驗統(tǒng)計量z===-9.657£0.233b由于Z=Z=1.96<|z|=9.657,拒絕零假設,即認為回歸系數(shù)B也顯著的不1a0.97512等于零,說明單位成本同產(chǎn)量之間存在顯著的線性相關關系。與前面的討論類似,也可對A和B進行單邊檢驗以及A和B是否顯著的與某一確定值相同或不相同的檢驗。但通常進行的是對A=0和B=0的檢驗。對A=0的檢驗是考察回歸直線是否通過坐標原點;由于B表示X變化一個單位時對Y的影響程度,因此對B=0的檢驗實際是考察這種程度是否為零,即是否存在線性相關關系。另外,通過最小平方法獲得的a和b只是A和B的點估計量,在此基礎上可進一步給出它們的區(qū)間估計。當置信度為1—a時,A和B的置信區(qū)間分別為這里a-A<A<a+Aaab這里a-A<A<a+Aaab-A<A<b+Abbaa2=zG2式9.30)(式9.31)式9.32)式9.33)對于例9.3,當置信概率為95%時aa1aa1_2zGab1_2=1.96X0.233=0.46于是可得A和B的置信區(qū)間分別為58.85-2.65<A<58.85+2.65即56.20<A<61.50-2.55-0.46<B<-2.55+0.46即-3.01<B<2.09五、回歸預測擬合的回歸方程及其參數(shù)通過檢驗后,經(jīng)常要應用它去預測,顯然,給定x=x0時,Y的點預測量為Y=a+bx(式9.34)00Y的置信度為1-a的區(qū)間預測量為Y-A<Y<Y+A(式9.35)0Y00Y0這里A=zG(式9.36)Y)i_aYo2
a2=02[1+1+(x0—x)2]
YonZ(x—X)2=02[1+-+式9.37)TOC\o"1-5"\h\z(X—x)2[=02[1+-+式9.37)Ex2—(Ex)2n接上面的例子,當產(chǎn)量為10萬件時,單位成本的點預測值為Y=a+bx=58.85-2.2510=36.35(元)oo由于02Yo02Yo=a2[i+1+(x—x)2_Ex2—(Ex)2n2.415[1+1^+(10—)22.415[1+1^+101]=3.807336——x54210&=€3.807=1.951當產(chǎn)量為10萬件,置信度為95%時,由于A=za=1.96X1.951=3.82ya01—2Y0于是可得單位成本的預測區(qū)間為八八八八Y-A<Y<Y+A0Y00Y036.35-3.82<Y<36.35+3.82即32.53元<Y<40.17元必須指出的是,給定的x如果在樣本(x,x,…,x)的最小值至最大值之間取012n值,預測過程稱為內(nèi)插預測,否則,稱為外推預測。進行外推預測時,誤差一般較大,這是由兩方面原因引起的:一是xo遠離x,二是回歸方程通過檢驗后,雖然能代表總體的線性相關關系,但這種關系只能在樣本范圍內(nèi)成立,在其之外就有可能出錯誤,并且,隨著情況的變化,原樣本也可能不再能反映總體的現(xiàn)狀,這樣,預測的效果就不好甚至失敗。
第三節(jié)多元線性回歸與相關分析、多元線性回歸分析簡單線性回歸與相關分析是對客觀現(xiàn)象之間的關系進行高度簡化的結果,但在實際問題中,影響因變量的因素往往不只一個,而是多個。比如,產(chǎn)品的成本不僅取決于該產(chǎn)品的生產(chǎn)量,而且也與原材料價格、技術水平、管理水平等因素有關;再如,影響農(nóng)作物收獲量的因素,除施肥量外,還有種子、氣候條件、耕作技術等因素。多元線性回歸與相關所研究的就是三個或三個以上的變量之間的數(shù)量關系問題。總體的多元線性回歸方程為Y=A+BX+BX+-+BX+e(式9.38)1122kk總體回歸方程一般未知,需要通過樣本去估計。設估計方程為Y=a+bx+bx+???+bx(式9.39)1122kk上式中,a、b、b、…、b稱為回歸系數(shù),其中,b(i=l,2,…,k)又稱為偏回12ki歸系數(shù),它表示當其它自變量均為零時,x每變化一個單位對因變量影響的數(shù)值。i設樣本為(x「x2,…,xk,y),利用最小平方法可估計出回歸方程中的參數(shù),即要求Q=Z(y-Y)2=Z[y-(a+bixi+b2x2+^+bkxk)]2=最小值據(jù)此可得下列聯(lián)立標準方程Zx+bZx+…+bZx22kka據(jù)此可得下列聯(lián)立標準方程Zx+bZx+…+bZx22kkaZx+bZx2+bZxx+???+bZxx12kx2+???+bZxx2kZy=na+b1ZZ1x1y=x2y=1112a工x+bZxx+bZ211221k2kZ當k=2時,標準方程為變?yōu)閆y=na+bZx+bZx1122aZx+bZx2+bZ1112xky=aZxk+b1Zx1xk+b2Zxx+…+bZ2kx2k11Zxy=1Zxy=2xx12aZx+bZxx+bZx2211222解方程,可得,Y解方程,可得,Y(x-x)2E(x-x)(y-y)_Y(xb=才1.—x)(x—x)E(x—x)(y—y)111112222E(x—x)2E(x—x)2—[E(x—x)E(x—x)]211221122(式9.40)》(x—x)2E(x—x)(y—y)—E(x—x)(x—x)E(x—x)(y—y)1122TT221LE(x一x)2E(x一x)2—[E(x一x)E(x一x)]211221122(式9.41)
式9.42)_7_7-Yy7Yx7式9.42)a=y-bx-bx=-b1-b21122n1n2n為計算方便,上述各因子項還可表示為(x-x)2=Z11(x-x)2(x-x)2=Z11(x-x)2=Z221x21n1x22nZx1)2式9.43)(x-x)(x112-x)=Z2_1(y-y)2=z乎—nx)2
21
xx—Z12n式9.44)xZx(式9.45)12式9.46)__1
(x-x)(y-y)=Zxy-—Z111n__1(x2-x2)(y-y)=Zx2y-—Zx2Zyx1Zy式9.47)式9.48)可以證明,最小平方估計量a、b、b、…、b是總體參數(shù)A、B、B、…、B的12k12k最優(yōu)線性無偏估計量。例9.4為研究某商品的需求量、價格、消費者收入三者之間的關系,經(jīng)調(diào)查得如表9-9所示資料:表9-9某商品的需求量、價格及消費者收入資料編號需求量(件)收入(百元)價格(元)11015328105381844710354866610571019381116291018110597根據(jù)上表資料,可得如表9-10的回歸計算表:據(jù)表中數(shù)據(jù),如果設需求量(y)與收入(xi)及價格(x2)之間的回歸方程為:Y=a+bx+bx1122可通過最小平方法求出a、耳和b2,經(jīng)計算可得:
11x2(Zx)2=1935——xl332=166.11n110_11(x2—x)2=Zx2—(Zx)2=183—x39(x22n21012345678910合計(件)12345678910合計(件)y收入(百元)x價格(元)xy2x21x22xx12x1yx2y10115231002259451503081056410025508040818464324167214432710349100930702148616643648322461053610025506030101931003619571903011162121256432176221018110032411818010597258149634535791333967519351834651127274表9-10回歸數(shù)據(jù)計算表__11(x—x)(x—x)=Zxx—ZxZx=456—x133x39=—53.7112212n1210_11(y—y)2=Zy2—(Zy)2=675—x792=50.9n10--11(x—x)(y—y)=Zxy—ZxZy=1127—x133x79=76.3111n110__11(x—x)(y—y)=Zxy—ZxZy=274—x39x79=—34.122八丿八/n210于是可得30.9x論-(-53?7)x(-34?D=0.234166.1x30.9—(—53.7)2呃1x(-M-(-53?7)x訟=—0.697166.1x30.9—(—53.7)2___79a=y—bx—bX=—0.234112210從而可得經(jīng)驗方程133応-(-0?697)39=7.50610Y=a+bx+bx=7.506+0.234x—0.697x112212回歸方程表明:在價格不變情況下,消費者收入增加1百元時,對該商品的需求平均上升0.234件;在消費者收入不變情況下,價格每上漲1元時,對該商品的需求平均下降0.697件。從數(shù)學角度看,回歸方程Y=7.506+0.234xi-0.697x2是一個以Y為縱坐標軸、xi和X2為橫坐標軸的回歸平面。此外,回歸方程Y=A+BX+BX+-+BX+e中的隨機誤差項e的方差O2也是未知的,1122kk其無偏估計量為QY(y-Y)2Q2==—n-k-1n-k-1上式中,n-k-1為自由度。從這里可以看出,樣本容量n必須大于或等于k+2,即n三K+2,否則就無法估計02。事實上,實踐中進行回歸分析時,樣本觀察值數(shù)目要比k+2大得多。二、多元線性相關分析對多元線性回歸方程而言,總離差平方和T同樣可以分解為回歸離差平方和R及殘差平方和Q兩部分,即T=R+Q由此,可以定義出樣本的復判定系數(shù),即RrRr2=——T式9.49)r2反映了經(jīng)驗方程對總體線性相關關系的擬合優(yōu)度的大小,其值愈大,說明回歸方程的擬合優(yōu)度愈高,反之,擬合優(yōu)度愈低。顯然,0Wr2W1,r稱為復相關系數(shù),它測定了因變量y與k個自變量x、x、…、x之間線性相關程度的大小。r稱為復12k相關系數(shù),它為式9.50)對于例9.4,由于T=》(y—y)2=Sy2—1(Ey)2=675-丄X(79)2=50.9n10Q二E(y-Y)2=Zy2-aZy-bZxy-bZxy1122=675-7.506x79-0.234x1127-(-0.697)x274=9.286R=T-Q=50.9-9.286=41.614因此可得R41.614r2===0.82T50.9r^'0.82=0.90復相關系數(shù)r總是取正值,因為在多個自變量情況下,偏回歸系數(shù)有兩個以上,無法說明y與k個x變量線性關系的方向。與簡單線性回歸及相關分析不同,一般說來,進行多元線性回歸分析時,隨著自變量個數(shù)的增加,總離差平方和T雖不發(fā)生變化,但回歸離差平方和R卻隨之增大,殘差平方和Q隨之縮小。對于例9.4,若只進行需求量(y)和收入(3)之間的回歸分析,設回歸方程為Y=a+b1x1此時,a和耳的取值分別為nZxy-ZxZy10x1127-133x79b二i1二=0.4591nZx2-(Zx)210x1935-133211a=◎-b芻=79nn79—0.459a=◎-b芻=79nn1010回歸方程為Y=1.795+0.459x1此時T=Z(y-y)2=Zy2—1(Zy)2=675-丄X(79)2=50.9n101R=Z(Y-y)2=b2[Zx2—(Zx)2]11n11=(0.459)2X[1935-10X(133)2]=34.99Q=T-R=50.9-34.99=15.91
由此可以看出,價格因素(篤)未加入前,R=34.99,它小于價格因素(篤)加入后的R=41.614,兩者相差41.614-34.99=6.624,它表示在原方程Y=a+bx的基礎上,將價格因素%)納入后而凈增加的回歸離差平方和,稱之為價格%)效應,并用R/x表示。當k=2時,如果將未加入x之前的R、Q分別記作R和Q,納入x之后的R、2x1x12x1,x2x1,x1,x2x1,x2R=R+Rx1,x2x1x2/x1R=Q-Qx2/x1x1x1,x對于例9.4,有R+R=34.99+6.624=41.614x1,x2x1xx1,x2R=Q-Q=15.91-9.286=6.624x2/x1x1x1,x2由上面的討論知道,復判定系數(shù)r2及復相關系數(shù)r同自變量的個數(shù)k有關,k愈大,□值也愈大。有時,某個變量同因變量之間沒有什么明顯的關系,但將其納入方程后,也能增加□的值,這樣就造成r2或r高估了變量間的相關程度。因此,應當對r2的值加以修正,其一般修正式是式9.51)r2=1-(1-r2)式9.51)式中,n為樣本容量,k為自變量的個數(shù),r2
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 智能倉庫物流
- 房地產(chǎn)項目投資可行性研究報告
- 高新技術企業(yè)研發(fā)團隊建設與管理
- 軟件工程流程與開發(fā)方法
- rdpac腫瘤復習測試卷含答案
- 外科總論復習測試題
- 保育員考試練習卷含答案
- 護師.主管護師復習測試卷
- 主管護師內(nèi)科護理復習測試附答案(一)
- 網(wǎng)絡優(yōu)化方案與實施步驟
- 小學六年級數(shù)學學情分析及提升方案
- 事業(yè)單位考試(公共基礎知識)3000題每日練習
- 新會計法下加強企業(yè)財會監(jiān)督策略研究
- 人力資源社會保障宣傳工作計劃及打算
- 2024年秋兒童發(fā)展問題的咨詢與輔導終考期末大作業(yè)案例分析1-5答案
- 廣東省廣州市2021年中考道德與法治試卷(含答案)
- 2024年貴州省公務員錄用考試《行測》真題及答案解析
- 2024-2030年中國滑板車行業(yè)競爭策略及發(fā)展前景預測報告
- 學校軍事化管理培訓
- 喪葬費家庭協(xié)議書范文范本
- 中小學生德育工作指南2022版
評論
0/150
提交評論