第5章 回歸分析_第1頁
第5章 回歸分析_第2頁
第5章 回歸分析_第3頁
第5章 回歸分析_第4頁
第5章 回歸分析_第5頁
已閱讀5頁,還剩180頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

.,1,第五章相關(guān)和回歸分析,第一節(jié)相關(guān)的意義和種類第二節(jié)相關(guān)圖表和相關(guān)系數(shù)第三節(jié)一元線性回歸分析第四節(jié)多元線性回歸分析第五節(jié)非線性回歸分析,.,2,相關(guān)和回歸分析是研究事物的相互關(guān)系,測定它們聯(lián)系的緊密程度,揭示其變化的具體形式和規(guī)律性的統(tǒng)計方法,是構(gòu)造各種經(jīng)濟模型、進行結(jié)構(gòu)分析、政策評價、預測和控制的重要工具。,.,3,本章學習目的,1.理解相關(guān)的意義、主要形式、以及相關(guān)分析的基本內(nèi)容。2.掌握相關(guān)系數(shù)的設計原理,以及相關(guān)關(guān)系顯著性檢驗。3.回歸和相關(guān)的區(qū)別和聯(lián)系4.普通最小二乘法的原理以及回歸參數(shù)的意義。5.估計標準誤差的分析等。,.,4,第一節(jié)相關(guān)的意義和種類,一、問題的提出二、相關(guān)關(guān)系的概念三、相關(guān)關(guān)系的種類四、相關(guān)關(guān)系的主要內(nèi)容,.,5,一、問題的提出,相關(guān),.,6,伊拉克戰(zhàn)爭,correlation?,SARS,?,.,7,蝴蝶翅膀振動,候鳥遷徙,海嘯,死亡人數(shù),correlation?,.,8,一、相關(guān)關(guān)系的概念,客觀現(xiàn)象之間的數(shù)量聯(lián)系存在著兩種不同的類型:函數(shù)關(guān)系和相關(guān)關(guān)系函數(shù)關(guān)系:即當一個(或一組)變量每取一個值時,相應的另一個變量必然有一個確定值與之對應。,.,9,(函數(shù)關(guān)系),(1)是一一對應的確定關(guān)系(2)設有兩個變量x和y,變量y隨變量x一起變化,并完全依賴于x,當變量x取某個數(shù)值時,y依確定的關(guān)系取相應的值,則稱y是x的函數(shù),記為y=f(x),其中x稱為自變量,y稱為因變量(3)各觀測點落在一條線上,.,10,自變量與因變量,如果變量之間有因果關(guān)系,那么原因變量就叫作自變量,而受自變量影響的變量就稱因變量。自變量通常發(fā)生在因變量之前。(不是所有先發(fā)生的變量都是自變量)一般自變量記為X,因變量記為Y。,.,11,【例】,某種商品的銷售額(y)與銷售量(x)之間的關(guān)系可表示為y=px(p為單價)圓的面積(S)與半徑之間的關(guān)系可表示為S=R2企業(yè)的原材料消耗額(y)與產(chǎn)量(x1)、單位產(chǎn)量消耗(x2)、原材料價格(x3)之間的關(guān)系可表示為y=x1x2x3,.,12,停下來想一想?,在下面的幾對變量中,哪一個是自變量哪一個是因變量?1.產(chǎn)品產(chǎn)量與總成本。2.銷售稅的總量與商品總成本。3.電影院里爆米花的銷售率與垃圾袋的使用率。4.發(fā)電量與熱天的天數(shù)。,.,13,相關(guān)關(guān)系(correlationanalysis):,相關(guān)關(guān)系:變量之間存在有依存關(guān)系,但這種關(guān)系是不完全確定的隨機關(guān)系,即當一個(或一組)變量每取一個值時,相應的另一個變量可能有多個不同值與之對應。,.,14,因果關(guān)系,相關(guān)關(guān)系,互為因果關(guān)系,共變關(guān)系,隨機性依存關(guān)系,確定性依存關(guān)系,函數(shù)關(guān)系,變量之間關(guān)系,.,15,相關(guān)關(guān)系,(1)變量間關(guān)系不能用函數(shù)關(guān)系精確表達;(2)一個變量的取值不能由另一個變量唯一確定;(3)當變量x取某個值時,變量y的取值可能有幾個;(4)各觀測點分布在曲線周圍。,.,16,【例】,商品的消費量(y)與居民收入(x)之間的關(guān)系商品銷售額(y)與廣告費支出(x)之間的關(guān)系糧食畝產(chǎn)量(y)與施肥量(x1)、降雨量(x2)、溫度(x3)之間的關(guān)系收入水平(y)與受教育程度(x)之間的關(guān)系父母親身高(y)與子女身高(x)之間的關(guān)系身高與體重的關(guān)系,.,17,停下來想一想?,下列變量之間存在相關(guān)關(guān)系嗎?1抽煙與肺癌之間的關(guān)系2懷孕期婦女的飲酒量與嬰兒出生體重之間的關(guān)系3納稅者年齡和他們交納稅款的數(shù)量之間的關(guān)系4采光量與植物的生產(chǎn)量之間的關(guān)系5一個人的投票傾向性與其年齡之間的關(guān)系,.,18,相關(guān)關(guān)系與函數(shù)關(guān)系的關(guān)系:在一定的條件下互相轉(zhuǎn)化.具有函數(shù)關(guān)系的變量,當存在觀測誤差和隨機因素影響時,其函數(shù)關(guān)系往往以相關(guān)的形式表現(xiàn)出來.具有相關(guān)關(guān)系的變量之間的聯(lián)系,如果我們對它們有了深刻的規(guī)律性認識,并且能夠把影響因變量變動的因素全部納入方程,這時相關(guān)關(guān)系也可轉(zhuǎn)化為函數(shù)關(guān)系.相關(guān)關(guān)系也具有某種變動規(guī)律,所以,相關(guān)關(guān)系也經(jīng)常可以用一定的函數(shù)形式去近似地描述.,.,19,二、相關(guān)關(guān)系的種類,1.按相關(guān)的程度分:,例:完全相關(guān):在價格P不變的情況下,銷售收入Y與銷售量X的關(guān)系;不相關(guān):股票價格的高低與氣溫的高低是不相關(guān)的;,.,20,2.按相關(guān)的方向分:,正相關(guān):兩個變量之間的變化方向一致,都是增長趨勢或下降趨勢。例:收入與消費的關(guān)系;工人的工資隨勞動生產(chǎn)率的提高而提高。,負相關(guān):兩個變量變化趨勢相反,一個下降而另一個上升,或一個上升而另一個下降。例:物價與消費的關(guān)系;商品流轉(zhuǎn)的規(guī)模愈大,流通費用水平則越低。,.,21,3.按相關(guān)的形式分:,線性相關(guān)(直線相關(guān)):當一個變量每變動一個單位時,另一個變量按一個大致固定的增(減)量變動。例:人均消費水平與人均收入水平,非線性相關(guān)(曲線相關(guān)):當一個變量變動時,另一個變量也相應發(fā)生變動,但這種變動是不均等的。,例:產(chǎn)品的平均成本與總產(chǎn)量;農(nóng)產(chǎn)量與施肥量.,.,22,4.按相關(guān)的影響因素多少分:,偏相關(guān),單相關(guān)(一元相關(guān)):只有一個自變量。,復相關(guān)(多元相關(guān)):有兩個及兩個以上的自變量。,如:居民的收入與儲蓄額;成本與產(chǎn)量,如:某種商品的需求與其價格水平以及收入水平之間的相關(guān)關(guān)系便是一種復相關(guān)。,.,23,偏相關(guān):在某一現(xiàn)象與多種現(xiàn)象相關(guān)的場合,假定其他變量不變,專門考察其中兩個變量的相關(guān)關(guān)系稱為偏相關(guān)。如:在假定人們的收入水平不變的條件下,某種商品的需求與其價格水平的關(guān)系就是一種偏相關(guān)。,.,24,真實相關(guān)是現(xiàn)象的內(nèi)在聯(lián)系所決定.,虛假相關(guān):如某人曾觀察過某一國家歷年的國內(nèi)生產(chǎn)總值與精神病患者人數(shù)的關(guān)系,呈相當高的正相關(guān).,.,25,討論下面的關(guān)系是因果關(guān)系還是偽關(guān)系?,1.冰淇淋的銷量與兒童出事故次數(shù)之間2.街上警察數(shù)量與犯罪數(shù)量之間3.歷史上,婦女裙子的長度與經(jīng)濟的好壞有關(guān)系:裙子越短,經(jīng)濟越景氣。4.鸛的數(shù)量與丹麥鄉(xiāng)間嬰兒出生率的關(guān)系,.,26,圖示,.,27,三、相關(guān)分析的主要內(nèi)容,根據(jù)研究目的,搜集有關(guān)資料編制相關(guān)圖表計算相關(guān)系數(shù)建立回歸方程進行統(tǒng)計檢驗,.,28,第二節(jié)相關(guān)圖表和相關(guān)系數(shù),一、相關(guān)表和相關(guān)圖二、簡單相關(guān)系數(shù),.,29,相關(guān)分析:就是用一個指標來表明現(xiàn)象間相互依存關(guān)系的密切程度。廣義的相關(guān)分析包括相關(guān)關(guān)系的分析(狹義的相關(guān)分析)和回歸分析。,.,30,定性分析,是依據(jù)研究者的理論知識和實踐經(jīng)驗,對客觀現(xiàn)象之間是否存在相關(guān)關(guān)系,以及何種關(guān)系作出判斷。,定量分析,在定性分析的基礎上,通過編制相關(guān)表、繪制相關(guān)圖、計算相關(guān)系數(shù)等方法,來判斷現(xiàn)象之間相關(guān)的方向、形態(tài)及密切程度。,相關(guān)關(guān)系的判斷,.,31,一、相關(guān)表和相關(guān)圖,相關(guān)表和相關(guān)圖是研究相關(guān)關(guān)系的直觀工具,在進行詳細的定量分析之前,可以先利用它們對現(xiàn)象之間存在的相關(guān)關(guān)系的方向、形式、和密切程度作大致的判斷。,.,簡單相關(guān)表:將自變量x的數(shù)值按照從小到大的順序,并配合因變量y的數(shù)值一一對應而平行排列的表。,居民消費和收入的相關(guān)表,單位:百元,.,33,相關(guān)圖:又稱散點圖。將x置于橫軸上,y置于縱軸上,將(x,y)繪于坐標圖上。用來反映兩變量之間相關(guān)關(guān)系的圖形。,.,34,例:國家教育部決定將各高校的后勤社會化。某從事飲食業(yè)的企業(yè)家認為這是一個很好的投資機會,他得到十組高校人數(shù)與周邊飯店的季銷售額的數(shù)據(jù)資料,并想根據(jù)高校的數(shù)據(jù)決策其投資規(guī)模。,.,35,二、簡單相關(guān)系數(shù),(一)簡單相關(guān)系數(shù)的概念是度量兩個變量之間線性相關(guān)密切程度和相關(guān)方向的統(tǒng)計指標。包括簡單相關(guān)系數(shù)、復相關(guān)系數(shù)、偏相關(guān)系數(shù)、曲線相關(guān)系數(shù)(相關(guān)指數(shù)).簡單相關(guān)系數(shù)又稱皮爾遜(1890年,英國)相關(guān)系數(shù),或積矩相關(guān)系數(shù)或動差相關(guān)系數(shù)。若相關(guān)系數(shù)是根據(jù)總體全部數(shù)據(jù)計算的,稱為總體相關(guān)系數(shù),記為.若是根據(jù)樣本數(shù)據(jù)計算的,則稱為樣本相關(guān)系數(shù),記為r.樣本相關(guān)系數(shù)是總體相關(guān)系數(shù)的一致估計量.,.,36,樣本簡單相關(guān)系數(shù)的計算公式(積差法),(二)簡單相關(guān)系數(shù)的計算公式,式中:,(1),1.用計算器計算,協(xié)方差Sxy,.,37,(1)式可化簡為如下公式:,或:,.,38,用計算機計算選取“工具”-“數(shù)據(jù)分析”選“相關(guān)系數(shù)”選“確定”輸入“輸入?yún)^(qū)域”輸入“輸出區(qū)域”在“分組方式”中選“逐列”選“標志位于第一行”確定出現(xiàn)結(jié)果如下:,.,39,1.r的取值范圍是-1,1|r|=1,為完全相關(guān)r=1,為完全正相關(guān)r=-1,為完全負相關(guān)2.r=0,不存在線性相關(guān)關(guān)系3.-1rr0.05(10-2)=0.632,所以總體人均消費支出與人均可支配收入之間的線性相關(guān)關(guān)系顯著。,.,50,相關(guān)系數(shù)檢驗表的使用,若IrI大于表上的=5%相應的值,小于表上1%相應的值,稱變量x與y之間有顯著的線性關(guān)系若IrI大于表上=1%相應的值,稱變量x與y之間有十分顯著的線性關(guān)系若IrI小于表上=5%相應的值,稱變量x與y之間沒有明顯的線性關(guān)系根據(jù)前例的r0.9987=5%(n-2)=0.553,表明人均消費金額與人均國民收入之間有十分顯著的線性相關(guān)關(guān)系,.,51,第三節(jié)一元線性回歸分析,一、回歸分析概念二、回歸分析的種類三、一元線性回歸分析,.,2008-1-4,52,回歸方程一詞是怎么來的,.,53,一、回歸分析的概念,是指對具有相關(guān)關(guān)系的現(xiàn)象,根據(jù)其相關(guān)關(guān)系的具體形態(tài),選擇一個合適的數(shù)學模型(稱為回歸方程式),用來近似地表達變量間的平均變化關(guān)系的一種統(tǒng)計分析方法。,.,54,二、回歸分析的內(nèi)容,從一組樣本數(shù)據(jù)出發(fā),確定變量之間的數(shù)學關(guān)系式。對這些關(guān)系式的可信程度進行各種統(tǒng)計檢驗,并從影響某一特定變量的諸多變量中找出哪些變量的影響顯著,哪些不顯著。利用所求的關(guān)系式,根據(jù)一個或幾個變量的取值來預測或控制另一個特定變量的取值,并給出這種預測或控制的精確程度。,.,55,回歸分析和相關(guān)分析的區(qū)別相關(guān)分析中,變量x變量y處于平等的地位;回歸分析中,變量y稱為因變量,處在被解釋的地位,x稱為自變量,用于預測因變量的變化.相關(guān)分析中所涉及的變量x和y都是隨機變量;回歸分析中,因變量y是隨機變量,自變量x則作為研究時給定的非隨機變量。相關(guān)分析主要是描述兩個變量之間線性關(guān)系的密切程度;回歸分析不僅可以揭示變量x對變量y的影響大小,還可以由回歸方程進行預測和控制,.,56,相關(guān)分析與回歸分析的聯(lián)系,相關(guān)分析和回歸分析有著密切的聯(lián)系,它們不僅具有共同的研究對象,而且在具體應用時,常常必須互相補充。相關(guān)分析需要依靠回歸分析來表明現(xiàn)象數(shù)量相關(guān)的具體形式,而回歸分析則需要依靠相關(guān)分析來表明現(xiàn)象數(shù)量變化的相關(guān)程度。只有當變量之間存在著高度相關(guān)時,進行回歸分析尋求其相關(guān)的具體形式才有意義。簡單說:1.相關(guān)分析是回歸分析的基礎和前提;2.回歸分析是相關(guān)分析的深入和繼續(xù)。,.,57,三、回歸分析的種類,1.按自變量的個數(shù)分:,2.按回歸方程的形式分:,本章主要介紹一元線性回歸。,.,例5.1合金的強度y(107Pa)與合金中碳的含量x(%)有關(guān)。為研究兩個變量間的關(guān)系。首先是收集數(shù)據(jù),我們把收集到的數(shù)據(jù)記為(xi,yi),i=1,2,n。本例中,我們收集到12組數(shù)據(jù),列于表5.1中,.,表5.1合金鋼強度y與碳含量x的數(shù)據(jù),.,為找出兩個量間存在的回歸函數(shù)的形式,可以畫一張圖:把每一對數(shù)(xi,yi)看成直角坐標系中的一個點,在圖上畫出n個點,稱這張圖為散點圖,見圖5.1,.,從散點圖我們發(fā)現(xiàn)12個點基本在一條直線附近,這說明兩個變量之間有一個線性相關(guān)關(guān)系,這個相關(guān)關(guān)系可以表示為y=0+1x+(5.1)這便是y關(guān)于x的一元線性回歸的數(shù)據(jù)結(jié)構(gòu)式。通常假定E()=0,Var()=2(5.2)在對未知參數(shù)作區(qū)間估計或假設檢驗時,還需要假定誤差服從正態(tài)分布,即yN(0+1x,2)(5.3)顯然,假定(5.3)比(5.2)要強。,.,由于0,1均未知,需要我們從收集到的數(shù)據(jù)(xi,yi),i=1,2,n,出發(fā)進行估計。在收集數(shù)據(jù)時,我們一般要求觀察獨立地進行,即假定y1,y2,yn,相互獨立。綜合上述諸項假定,我們可以給出最簡單、常用的一元線性回歸的數(shù)學模型:,.,由數(shù)據(jù)(xi,yi),i=1,2,n,可以獲得0,1的估計,稱,為y關(guān)于x的經(jīng)驗回歸函數(shù),簡稱為回歸方程,其圖形稱為回歸直線。給定x=x0后,稱為回歸值(在不同場合也稱其為擬合值、預測值)。,.,4.1一元線性回歸方法,1.一般形式,一元回歸模型的一般形式記為:,并設觀察值為y,則:,是未知的待定系數(shù),稱其為回歸系數(shù),.,2.模型分析:,假設,即,是相互獨立的rv,,則隨機變量,假設有一組試驗數(shù)據(jù),并假設,其中,是相互獨立的隨機變量,且,若用,分別表示,的估計值,則稱,為y關(guān)于x的一元線性回歸方程,.,下面我們要研究的問題是,(2)如何檢驗回歸方程的可信度?,解決第一個問題采用最小二乘估計,解決第二個問題采用統(tǒng)計檢驗的方法,(1)如何根據(jù),來求,的估計值?,.,隨機誤差的平方和達到最小,4.1.2參數(shù),的最小二乘估計,最小二乘法估計,,即取,的估計值使,若記,為使與的擬合最佳,則,顯然,,且關(guān)于,可微,,.,則由多元函數(shù)存在極值的必要條件得:,此方程為正規(guī)方程組,求解可得到:,稱為的最小二乘估計,其中,即,.,.,的性質(zhì):,(1),(2),(3)三者相互獨立,(4),(5),.,4.1.3回歸方程的顯著性檢驗,前面是根據(jù)回歸方程求出了估計值,,現(xiàn)在的問題是:y與x之間是否存在這種關(guān)系?,即回歸方程是否一定有意義?即當x變化時,y是否為,這就需要對回歸方程作出顯著性檢驗,實際上,只要,統(tǒng)計量。,從而有,一常數(shù),也就是說這里是否為0?,檢驗是否為真,這就需要建立一個檢驗的,.,之間的差異,回歸變量x的變化所引起的誤差,它的大小反映了x的,重要程度。,先考慮總偏差平方和,表示,其中是殘差平方和,表示由隨即誤差和其它未,加控制的因素所引起的誤差,是回歸平方和,表示由,.,事實上,由正規(guī)方程組知,.,由于每一個平方和都有一個自由度(free)(即相互獨立的不受約束隨機變量的個數(shù)),用表示,則總偏差平方和的自由度,回歸平方和的自由度,殘差平方和的自由度,可以證明,.,在的假設下,給定一個模型的顯著性水平,通過查表得到F分布的值,記為,,若,是顯著的,反之是不顯著的。,則表明是小概率事件,確實算出,說明不成立,,說明必不可少。換言之,模型對水平而言,.,4.1.4回歸方程的擬合檢驗,通過對回歸方程的顯著性檢驗,在顯著的情況,即說明x對y的影響是顯著的,但不能肯定y與x的關(guān)系一定是線性的,也可能還存在其他的影響因素。為此,就需要在同一個xi下進行重復試驗,檢驗回歸方程的擬合問題。,假設對同一個,進行次試驗,得到觀測數(shù),據(jù),,.,為建立統(tǒng)計量,考慮相應的殘差平方和,其中,為第i組試驗數(shù)據(jù)的平均值,.,這有兩種可能:y不是x的線性關(guān)系?;貧w變量的個數(shù)不夠,需要增加新的變量,究竟屬于哪一種需要找出原因作進一步的改進。,.,4.2多元線性回歸方法,4.2.1多元線性回歸模型,(4.2),假設作了n次試驗得到n組觀測值為:,.,代入(4.3)中可得,該模型關(guān)于回歸系數(shù)是線性的,u為一般向量,若用矩陣形式,(4.4)變?yōu)椋?.,即,其中X是模型設計矩陣,Y與是隨機向量,且,(I為n階單位陣),是不可觀測的隨機誤差向量,是回歸系數(shù)構(gòu)成的向量,是未知、待定的常數(shù)向量。,.,4.2.2回歸系數(shù)的最小二乘估計,.,由上式,(正規(guī)方程組),記系數(shù)矩陣,常數(shù)矩陣,如果存在,稱其為相關(guān)矩陣,.,1.可以證明:對任意給定的X,Y,正規(guī)方程組總有解,雖然當X不滿秩時,其解不唯一,但對任意一組解都能是殘差平方和最小,即,3.性質(zhì),2.當X滿秩時,即則正規(guī)方程組的解為,即為回歸系數(shù)的估計值,.,4.2.3回歸分析模型的顯著性檢驗,主要是檢驗模型是否一定與解釋變量有密切的關(guān)系,類似一元情形,考慮,總變差平方和SST=總變差平方和SSR+殘差平方和SSE,.,86,離差平方和的分解(三個平方和的意義),總平方和(SST)反映因變量的n個觀察值與其均值的總離差?;貧w平方和(SSR)反映自變量x的變化對因變量y取值變化的影響,或者說,是由于x與y之間的線性關(guān)系引起的y的取值變化,也稱為可解釋的平方和。殘差平方和(SSE)反映除x以外的其他因素對y取值的影響,也稱為不可解釋的平方和或剩余平方和。,.,回歸分析表,,回歸與響應關(guān)系越密切,定義:負相關(guān)系數(shù),.,對于給定顯著水平,當,模型不顯著,是成立的,即與u不存在明顯的函數(shù)關(guān)系。,.,4.2.4回歸模型的擬合性檢驗,在模型的檢驗顯著的情況下,需要進一步地做擬合性檢驗,目的是檢驗是否一定為(4.2)所給的形式,即是否還存在其他的影響因素沒有考慮到。,相應也可以分為k組,即第i組觀測值為,.,為建立統(tǒng)計量,考慮相應的殘差平方和,其中,為第i組試驗數(shù)據(jù)的平均值,.,當,說明模型擬合比較好,是不顯著的,省略所造成誤差不大。,當,模型擬合不好,是顯著的,省略所造成的誤差影響不可忽略,需要增加新的變量。,這有兩種可能:y不是x的線性關(guān)系?;貧w變量的個數(shù)不夠,需要增加新的變量,究竟屬于哪一種需要找出原因作進一步的改進。,.,4.3回歸模型的選擇方法,由上面擬合性檢驗結(jié)果:,引入新的解釋變量,從模型中去掉,模型擬合性檢驗是顯著的,即未考慮到的因素的影響不可忽略。,模型擬合性檢驗是不顯著的,即模型中的解釋變量已經(jīng)足夠了,但是并不足說明模型中所有的變量都是必須的,有可能有多余的變量。,.,引入,去掉都涉及到模型的選擇,模型選擇的基本原則:即不遺漏一個重要的解釋變量,但也不把一個無用的解釋變量保留在模型中。,用偏回歸平方和的大小來衡量一個解釋變量在模型中的重要性。,假設給定一組解釋變量,它的殘差平方和為:,.,4.3.1去掉解釋變量,.,4.3.2增加解釋變量,m個變量的回歸系數(shù)的估計值取為:,相應的殘差平方和為:,.,而,可以證明:的偏回歸平方和為,.,4.4回歸模型的正交設計法,由前面幾節(jié)知:多元線性回歸有兩個基本缺點:,一是計算復雜,其復雜程度隨著自變量個數(shù)的增加而迅速增加。,二是由于回歸系數(shù)之間存在相關(guān)性,當剔除某個自變量后,還必須重新計算回歸系數(shù)。,多元線性回歸的兩個基本缺點是由于系數(shù)矩陣A不是對角陣造成的,因此如何使A為對角矩陣是問題的關(guān)鍵所在。,.,.,4.4.1正交的概念,則稱是正交的,.,如何構(gòu)造正交函數(shù)系呢?,通常情況下,正交函數(shù)都為正交多項式,首先對于一維回歸變量u來說明構(gòu)造正交多項式的方法。,設有點列,取,,其中,其中,.,.,且第k個解釋變量的偏回歸平方和為:,所以殘差平方和為:,.,4.5多重線性與有偏估計,定理1.,這里trA表示方陣A的跡,即A的對角元素和,.,這里為的特征值,.,故從這里可以看出為的特征值,,再利用,以及,得,所以,.,為病態(tài)方程。,從這個表達式中我們可以看出,如果至少有一個特征根非常小,即非常接近于零,那么就會很大,這時,從均方誤差的標準來看,這時的最小二乘估計就不是一個好的估計,,并且稱正規(guī)方程組,.,衡量多重共線性程度量用,來表示,1)k100時,則不存在多重共線性,2)100k1000時,則存在較強的多重共線性,3)當k1000時,則存在嚴重的多重共線性,.,4.5.2回歸系數(shù)的有偏估計,從上面討論我們知道,當設計矩陣存在復共線關(guān),系時,最小二乘估計的性質(zhì)不理想,有時甚至很壞。,在這種情況下我們就需要些新的估計方法,近三十年,來,人們提出了許多種新估計,其中在理論上最有影,響并且得到廣泛應用的就是嶺估計。,回歸系數(shù)的嶺估計定義為:,.,這里k0是可選擇參數(shù),稱為嶺參數(shù)或偏參數(shù),,當k取不同值時,我們就得到不同的估計,因此,嶺估計是一個估計量。,主成份估計的方法:,1)做正交變換Z=XP,獲得新的自變量,稱為主成份,.,本章例題:,(1)問題,研究學者,得到如下數(shù)據(jù)(i為學者序號)(見表8.1)。,某類研究學者的年薪,工薪階層關(guān)心年薪與哪些因素有關(guān),以此可制定,出它們自己的奮斗目標。,某科學基金會希望估計從事某研究的學者的年薪,Y與他們的研究成果(論文、著作等)的質(zhì)量指標X1、,從事研究工作的時間X2、能成功獲得資助的指標X3,之間的關(guān)系,為此按一定的實驗設計方法調(diào)查了24位,.,表4.1從事某種研究的學者的相關(guān)指標數(shù)據(jù),.,試建立Y與X1,X2,X3之間關(guān)系的數(shù)學模型,并得出有關(guān)結(jié)論和作統(tǒng)計分析。,(2)作出因變量Y與各自變量的樣本散點圖,作散點圖的目的主要是觀察因變量Y與各自變量,間是否有比較好的線性關(guān)系,以便選擇恰當?shù)臄?shù)學模,型形式。圖4.1分別為年薪Y(jié)與成果質(zhì)量指標x1、研究,工作時間x2、獲得資助的指標x3之間的散點圖,從圖,4.1可以看出這些點大致分布在一條直線旁邊,因此,,有比較好的線性關(guān)系,可以采用線性回歸。,.,圖8.1因變量Y與各自變量的樣本散點圖,.,(3)利用Matlab統(tǒng)計工具得到初步的回歸方程,設回歸方程為:,建立m-文件輸入如下程序數(shù)據(jù):,x1=3.55.35.15.84.26.06.85.53.17.24.54.98.06.56.53.76.27.04.04.55.95.64.83.9;,x2=9201833311325305472511233539217403523353921740352333273415;,.,x3=6.16.47.46.77.55.96.04.05.88.35.06.47.67.05.04.05.57.06.03.54.94.38.05.0;,Y=33.240.338.746.841.437.539.040.730.152.938.231.843.344.142.533.634.248.038.035.940.436.845.235.1;,n=24;m=3;,X=ones(n,1),x1,x2,x3;,b,bint,r,rint,s=regress(Y,X,0.05);,b,bint,r,rint,s,.,運行后即得到結(jié)果如表4.2所示。,表4.2對初步回歸模型的計算結(jié)果,.,計算結(jié)果包括回歸系數(shù),m-1)計算。因此我們得到初步的回歸方程為:,統(tǒng)計變量stats,它包含四個檢驗統(tǒng)計量;相關(guān)系,且置信區(qū)間均不包含零點;殘差及置信區(qū)間;,p,的值7.0以前版本也可由程序sum(r.2)/(n-,數(shù)的平方,假設檢驗統(tǒng)計量F,與F對應的概率,.,由結(jié)果對模型的判斷,表明線性相關(guān)性較強。,有較強的線性相關(guān)性。本例中R的絕對值為0.9542,,值在0.81范圍內(nèi),可判斷回歸自變量與因變量具,相關(guān)系數(shù)R的評價:一般地,相關(guān)系數(shù)絕對,驗統(tǒng)計量R、F、p的值判斷該模型是否可用。,殘差在零點附近也表示模型較好,接著就是利用檢,回歸系數(shù)置信區(qū)間不包含零點表示模型較好,,F檢驗法:當,即認為因變,.,查F分布表或輸入命令finv(0.95,3,20)計算。,系;否則認為因變量y與自變量之間線,量y與自變量之間顯著地有線性相關(guān)關(guān),性相關(guān)關(guān)系不顯著。本例,p值檢驗:若(為預訂顯著水平),,線性相關(guān)關(guān)系。本例輸出結(jié)果,顯然滿,則說明因變量y與自變量之間顯著地有,足。,.,以上三種統(tǒng)計推斷方法推斷的結(jié)果是一致的,,(4)模型的精細分析和改進,在模型改進時作為參考。,說明因變量y與自變量之間顯著地有線性相關(guān)關(guān)系,,所得線性回歸模型可用。當然越小越好,這主要,殘差分析。殘差,是,各種觀測值與回歸方程所對應得到的擬合值,之差,實際上,它是線性回歸模型中誤差的估計,值。即有零均值和常值方差,利用殘差的,.,這種特性反過來考察模型的合理性就是殘差分析的,基本思想。利用Matlab進行殘差分析則是通過殘差,自變量的高次項及交叉項等問題給出直觀的檢驗。,差的等方差性以及回歸函數(shù)中是否包含其他自變量、,觀察殘差圖,可以對奇異點進行分析,還可以對誤,變量的觀測值;c.橫坐標為因變量的擬合值。通過,坐標為觀測時間或觀測值序號;b.橫坐標為某個自,其他指定的量為橫坐標的散點圖。主要包括:a.橫,圖或時序殘差圖。殘差圖是指以殘差為縱坐標,以,.,以觀測值序號為橫坐標,殘差為縱坐標所得到,模型為,如果作為奇異點看待,去掉后重新擬合,則得回歸,第4、12、19這三個樣本點的殘差偏離原點較遠,,差大多分布在零的附近,因此還是比較好的,不過,語句為rcoplot(r,rint)(見圖4.2)??梢郧宄吹綒?的散點圖稱為時序殘差圖,畫出時序殘差圖的Matlab,.,圖8.2時序殘差圖,.,且回歸系數(shù)的置信區(qū)間更小,均不包含原點,統(tǒng)計,得到改進。,115.5586,0.0000,比較可知R,F(xiàn)均增加,模型,變量stats包含的三個檢驗統(tǒng)計量:相關(guān)系數(shù)的平方,,假設檢驗統(tǒng)計量F,概率P,分別為0.9533,,變量間的交互作用討論。變量間的交互作用,包括:不同自變量之間的交互作用以及同一變量的,自相關(guān)性。,a.不同自變量之間的交互作用。有時,在實驗,.,中不僅單因素對指標有影響,而且因素間還會聯(lián)合,項則為:,入這兩個自變量的乘積項。本文案例如果加入交互,用。處理兩個因素間交互作用的一個簡單辦法是加,起來對指標產(chǎn)生影響,常稱這種聯(lián)合作用為交互作,用表8.2的數(shù)據(jù),利用Matlab統(tǒng)計工具箱得到,回歸系數(shù)分別為:27.0727,1.1147,-0.0215,,-0.1843,0.0033,-0.0054,0.0511。但它們的置,.,信區(qū)間均包含原點,其他指標也不理想,因此,本,b.自相關(guān)性的診斷和處理。若數(shù)據(jù)以時間為序,,去意義。自相關(guān)的診斷主要有圖示檢驗法、相關(guān)系,的回歸模型直接處理,將產(chǎn)生不良后果,使預測失,一旦數(shù)據(jù)中存在這種自相關(guān)序列,如果仍采用普通,量的順序觀測值之間出現(xiàn)的相關(guān)現(xiàn)象稱為自相關(guān)。,則稱為時間序列數(shù)據(jù)。在時間序列數(shù)據(jù)中,同一變,型好。,例中其交互作用并不顯著,該模型不如前面兩個模,數(shù)法和DW檢驗法。圖示檢驗法是通過繪制殘差,.,編程計算統(tǒng)計量:,負的序列相關(guān)。對DW檢驗法可以利用Matlab軟件,關(guān);如果大部分點落在第,象限,表明存在著,部分點落在第,象限,表明存在著正的序列相,散點圖觀察,如果散布點大,然后查閱DW檢驗上下界表,以決定模型的自相關(guān),狀態(tài)。,.,當一個回歸模型存在序列相關(guān)性時,首先要查明序,內(nèi)容可參見相關(guān)概率統(tǒng)計參考文獻。,關(guān)性,則需要采用差分法、迭代法等處理,更詳細,則應增加自變量;如果以上方法都不能消除序列相,應該用適當?shù)幕貧w模型;如果是缺少重要的自變量,,列相關(guān)產(chǎn)生的原因。如果是回歸模型選用不當,則,.,129,(三)回歸方程的顯著性檢驗,1.回歸模型檢驗的種類回歸模型的檢驗包括理論意義檢驗、一級檢驗和二級檢驗。理論意義:檢驗主要涉及參數(shù)估計值的符號和取值區(qū)間.如食品支出的恩格爾函數(shù)中,b的取值區(qū)間應在0-1之間;,.,130,一級檢驗又稱統(tǒng)計學檢驗,它是利用統(tǒng)計學中的抽樣理論來檢驗樣本回歸方程的可靠性,具體又可分為擬合程度評價和顯著性檢驗.一級檢驗對所有的現(xiàn)象進行回歸分析時都必須通過的檢驗.二級檢驗又稱經(jīng)濟計量學檢驗,它是對標準線性回歸模型的假定條件能否得到滿足進行檢驗,具體包括序列相關(guān)檢驗,異方差性檢驗等.,.,131,2.顯著性檢驗包括兩方面的內(nèi)容:(1)對整個回歸方程的顯著性檢驗-F檢驗回歸方程的顯著性檢驗即對自變量和因變量之間線性關(guān)系整體上是否顯著進行檢驗。,(2)對回歸系數(shù)的顯著性檢驗:-t檢驗,.,132,(1)對整個回歸方程的顯著性檢驗-即擬合程度的評價所謂擬合程度,是指樣本觀測值聚集在樣本回歸線周圍的緊密程度。判斷回歸模型擬合程度優(yōu)劣最常用的數(shù)量尺度是樣本可決系數(shù)(又稱判定系數(shù))。它是建立在對總離差平方和進行分解的基礎之上的。,.,133,分析:因變量Y的取值是不同的,Y取值的這種波動稱為變差。變差來源于兩個方面:由于自變量x的取值不同造成的除x以外的其他因素(如x對y的非線性影響、測量誤差、隨機因素等)的影響對一個具體的觀測值來說,變差的大小可以通過該實際觀測值與其均值之差來表示,.,離差平方和的分解:回歸平方和SSR與剩余平方和SSE含義如下:,SST=SSR+SSE,.,135,圖示:總變差平方和的分解,.,136,離差平方和的分解(三個平方和的意義),A、總平方和(SST)反映因變量的n個觀察值與其均值的總離差B、回歸平方和(SSR)反映自變量x的變化對因變量y取值變化的影響,或者說,是由于x與y之間的線性關(guān)系引起的y的取值變化,也稱為可解釋的平方和C、殘差平方和(SSE)反映除x以外的其他因素對y取值的影響,也稱為不可解釋的平方和或剩余平方和,.,137,對整個回歸方程的顯著性檢驗有兩種方法:a.F檢驗檢驗具體方法是將回歸平方和(SSR)同剩余平方和(SSE)加以比較,應用F檢驗來分析二者之間的差別是否顯著。,.,138,樣本判定系數(shù)(可決系數(shù)r2),回歸平方和占總離差平方和的比例,r2表示全部偏差中有百分之幾的偏差可由x與y的回歸關(guān)系來解釋。,.,139,反映回歸直線的擬合程度取值范圍在0,1之間r21,說明回歸方程擬合的越好;r20,說明回歸方程擬合的越差判定系數(shù)等于相關(guān)系數(shù)的平方,即r2(r)2可決系數(shù)是樣本觀測值的函數(shù),它是一個統(tǒng)計量.,.,140,1.提出假設H0:=0(線性關(guān)系不顯著),2.計算檢驗統(tǒng)計量F,確定顯著性水平,并根據(jù)分子自由度1和分母自由度n-2找出臨界值F作出決策:若FF,拒絕H0;若Ft,拒絕H0;tt=2.201,拒絕H0,表明人均收入與人均消費之間有線性關(guān)系,例:對前例的回歸系數(shù)進行顯著性檢驗(0.05),.,154,回歸系數(shù)的顯著性檢驗(Excel輸出的結(jié)果),.,155,(六)利用回歸方程進行估計和預測,根據(jù)自變量x的取值估計或預測因變量y的取值.當給出的x屬于樣本內(nèi)的數(shù)據(jù)時,計算的yc值稱為內(nèi)插檢驗或事后預測,當給出的x在樣本之外時,計算的yc值稱為外推預測或事前預測.估計或預測的類型點估計y的平均值的點估計y的個別值的點估計區(qū)間估計y的平均值的置信區(qū)間估計y的個別值的預測區(qū)間估計,.,156,點估計:,2.點估計值y的平均值的點估計y的個別值的點估計3.在點估計條件下,平均值的點估計和個別值的的點估計是一樣的,但在區(qū)間估計中則不同,對于自變量x的一個給定值x0,根據(jù)回歸方程得到因變量y的一個估計值,.,157,y的平均值的點估計利用估計的回歸方程,對于自變量x的一個給定值x0,求出因變量y的平均值的一個估計值E(y0),就是平均值的點估計在前面的例子中,假如我們要估計人均國民收入為2000元時,所有年份人均消費金額的的平均值,就是平均值的點估計。根據(jù)估計的回歸方程得,.,158,y的個別值的點估計,利用估計的回歸方程,對于自變量x的一個給定值x0,求出因變量y的一個個別值的估計值,就是個別值的點估計,2.比如,如果我們只是想知道1990年人均國民收入為1250.7元時的人均消費金額是多少,則屬于個別值的點估計。根據(jù)估計的回歸方程得,.,159,區(qū)間估計:,點估計不能給出估計的精度,點估計值與實際值之間是有誤差的,因此需要進行區(qū)間估計對于自變量x的一個給定值x0,根據(jù)回歸方程得到因變量y的一個估計區(qū)間區(qū)間估計有兩種類型置信區(qū)間估計預測區(qū)間估計,.,160,y的平均值的置信區(qū)間估計利用估計的回歸方程,對于自變量x的一個給定值x0,求出因變量y的平均值E(y0)的估計區(qū)間,這一估計區(qū)間稱為置信區(qū)間E(y0)在1-置信水平下的置信區(qū)間為,式中:Sy為估計標準誤差,.,161,【例】根據(jù)前例,求出人均國民收入為1250.7元時,人均消費金額95%的置信區(qū)間解:根據(jù)前面的計算結(jié)果712.57,Sy=14.95,t(13-2)2.201,n=13置信區(qū)間為,人均消費金額95%的置信區(qū)間為702.305元722.835元之間,712.5710.265,.,162,y的個別值的預測區(qū)間估計利用估計的回歸方程,對于自變量x的一個給定值x0,求出因變量y的一個個別值的估計區(qū)間,這一區(qū)間稱為預測區(qū)間y0在1-置信水平下的預測區(qū)間為,.,163,【例】根據(jù)前例,求出1990年人均國民收入為1250.7元時,人均消費金額的95%的預測區(qū)間解:根據(jù)前面的計算結(jié)果有712.57,Sy=14.95,t(13-2)2.201,n=13置信區(qū)間為,712.5734.469,人均消費金額95%的預測區(qū)間為678.101元747.039元之間,.,164,影響區(qū)間寬度的因素,1.置信水平(1-)區(qū)間寬度隨置信水平的增大而增大2.數(shù)據(jù)的離散程度(s)區(qū)間寬度隨離散程度的增大而增大3.樣本容量區(qū)間寬度隨樣本容量的增大而減小用于預測的xp與x的差異程度區(qū)間寬度隨xp與x的差異程度的增大而增大,.,165,置信區(qū)間、預測區(qū)間、回歸方程,.,166,第三節(jié)多元線性相關(guān)與回歸分析,一、多元線性回歸模型一個因變量與兩個及兩個以上自變量之間的回歸.描述因變量y如何依賴于自變量x1,x2,xp和誤差項的方程稱為多元線性回歸模型涉及p個自變量的多元線性回歸模型可表示為,b0,b1,b2,bp是參數(shù),常數(shù)項,,和Y構(gòu)成的平面與Y軸的截距,偏回歸系數(shù),表示在其他固定時每變化一個單位引起的Y的平均變動;,.,167,偏回歸系數(shù),表示在其他固定時每變化一個單位引起的Y的平均變動;,是被稱為誤差項的隨機變量y是x1,,x2,xp的線性函數(shù)加上誤差項說明了包含在y里面但不能被p個自變量的線性關(guān)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論