應(yīng)用回歸分析課件_第1頁
應(yīng)用回歸分析課件_第2頁
應(yīng)用回歸分析課件_第3頁
應(yīng)用回歸分析課件_第4頁
應(yīng)用回歸分析課件_第5頁
已閱讀5頁,還剩576頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

應(yīng)用回歸分析

AppliedRegressionAnalysis(ARA)2024/4/61關(guān)于RA的發(fā)展情況:如果從高斯(Gauss,1777-1855)1809年提出最小二乘法為回歸分析的開端到今年正好是202周年Galton(1822-1911)在1886年發(fā)表了關(guān)于回歸的開山論文《遺傳結(jié)構(gòu)中向中心的回歸(Regressiontowardsmediocrityinhereditystructure)》到現(xiàn)在是130年2024/4/62References:[1]Seber,G.A.F.,LinearRegressionAnalysis,JohnWiley,1977.[2]N.R.DraperH.SmithAppliedRegressionAnalysis,NewYork,1981.2024/4/63[3]陳希孺,王松桂,近代回歸分析,合肥:安徽教育出版社,1987。2024/4/64[4]方開泰,實用回歸分析,北京:科學(xué)出版社,1988。2024/4/65[5]張勇,王國明,趙秀珍譯,[美]約翰·內(nèi)特,應(yīng)用線性回歸模型北京:中國統(tǒng)計出版社,1990。2024/4/66[6]周紀(jì)薌,回歸分析,上海:華東師范大學(xué)出版社,1993。2024/4/67[7]2024/4/68[8]何曉群,回歸分析與經(jīng)濟(jì)數(shù)據(jù)建模,北京:中國人民大學(xué)出版社,1997。2024/4/69[9]2024/4/610[10]2024/4/611[11]2024/4/612[12]2024/4/613有關(guān)RA應(yīng)用的情況:50年代計算機(jī)的發(fā)展促進(jìn)了RA的應(yīng)用70年代中國應(yīng)用90年代中國開始廣泛應(yīng)用經(jīng)濟(jì)領(lǐng)域中的應(yīng)用自然科學(xué)中的應(yīng)用社會科學(xué)中的應(yīng)用2024/4/614主要內(nèi)容:第1章回歸分析概述第2章一元線性回歸第3章多元線性回歸第4章違背基本假定的情況第5章自變量選擇與逐步回歸第6章多重共線性的情形及其處理第7章嶺回歸第8章主成分回歸與偏最小二乘第9章非線性回歸第10章含定性變量的回歸模型2024/4/615第1章回歸分析概述1.1變量間的統(tǒng)計關(guān)系1.2回歸方程與回歸名稱的由來1.3回歸分析的主要內(nèi)容及其一般模型1.4建立實際問題回歸模型的過程1.5回歸分析應(yīng)用與發(fā)展述評思考與練習(xí)2024/4/6161.1變量間的統(tǒng)計關(guān)系函數(shù)關(guān)系商品的銷售額與銷售量之間的關(guān)系y=px圓的面積與半徑之間的關(guān)系S=

R2

原材料消耗額與產(chǎn)量(x1)

、單位產(chǎn)量消耗(x2)

、原材料價格(x3)之間的關(guān)系y=x1x2x3

2024/4/6171.1變量間的統(tǒng)計關(guān)系2024/4/6181.1變量間的統(tǒng)計關(guān)系相關(guān)關(guān)系的例子子女身高(y)與父親身高(x)之間的關(guān)系收入水平(y)與受教育程度(x)之間的關(guān)系糧食畝產(chǎn)量(y)與施肥量(x1)、降雨量(x2)、溫度(x3)之間的關(guān)系商品的消費量(y)與居民收入(x)之間的關(guān)系商品銷售額(y)與廣告費支出(x)之間的關(guān)系2024/4/6191.1變量間的統(tǒng)計關(guān)系2024/4/6201.2回歸方程與回歸名稱的由來英國統(tǒng)計學(xué)家F.Galton(1822-1911年)。F.Galton和他的學(xué)生、現(xiàn)代統(tǒng)計學(xué)的奠基者之一K.Pearson(1856—1936年)在研究父母身高與其子女身高的遺傳問題時,觀察了1078對夫婦,2024/4/6212024/4/622

1.3回歸分析的主要內(nèi)容及其一般模型回歸分析的主要內(nèi)容2024/4/622f(x)=E(y|x) (1.1)(1.2)2024/4/623 (1.3) (1.7)

1.4建立實際問題回歸模型的過程設(shè)置指標(biāo)變量收集整理數(shù)據(jù)構(gòu)造理論模型估計模型參數(shù)修改

N模型運用Y經(jīng)濟(jì)因素分析經(jīng)濟(jì)變量控制

經(jīng)濟(jì)決策預(yù)測實際問題模型檢驗2024/4/6242024/4/625

建立實際問題回歸模型的過程

這里要說明的是,當(dāng)變量及樣本較多時,參數(shù)估計的計算量很大,只有依靠計算機(jī)才能得到可靠的結(jié)果。現(xiàn)在這方面的現(xiàn)成計算機(jī)軟件很多,如Minitab、SPSS、SAS等都是參數(shù)估計的基本軟件。2024/4/6252024/4/6261.5回歸分析應(yīng)用與發(fā)展述評從Gauss提出最小二乘法算起,回歸分析已經(jīng)有200年的歷史。回歸分析的應(yīng)用非常廣泛,我們大概很難找到不用它的領(lǐng)域,這也正是一百多年來經(jīng)久不衰,生命力強(qiáng)大的根本原因。這里簡述回歸分析在經(jīng)濟(jì)領(lǐng)域的廣泛應(yīng)用。我們知道計量經(jīng)濟(jì)學(xué)是現(xiàn)代經(jīng)濟(jì)學(xué)中影響最大的一門獨立學(xué)科。諾貝爾經(jīng)濟(jì)學(xué)獎獲得者薩繆爾森曾經(jīng)說過:第二次世界大戰(zhàn)后的經(jīng)濟(jì)學(xué)是計量經(jīng)濟(jì)學(xué)的時代。然而,計量經(jīng)濟(jì)學(xué)中的基本計量方法就是回歸分析,計量經(jīng)濟(jì)學(xué)的一個重要理論支柱是回歸分析理論。2024/4/6262024/4/627

回歸分析應(yīng)用與發(fā)展述評自從1969年設(shè)立諾貝爾經(jīng)濟(jì)學(xué)獎以來,已有60多位學(xué)者獲獎,其中絕大部分獲獎?wù)呤墙y(tǒng)計學(xué)家、計量經(jīng)濟(jì)學(xué)家、數(shù)學(xué)家。從大多數(shù)獲獎?wù)叩闹骺?他們對統(tǒng)計學(xué)及回歸分析方法的應(yīng)用都有嫻熟的技巧。這足以說明統(tǒng)計學(xué)方法在現(xiàn)代經(jīng)濟(jì)研究中的重要作用。矩陣?yán)碚摵陀嬎銠C(jī)技術(shù)的發(fā)展為回歸分析模型在經(jīng)濟(jì)研究中的應(yīng)用提供了極大的方便。國民經(jīng)濟(jì)是一個錯綜復(fù)雜的系統(tǒng),對于宏觀經(jīng)濟(jì)問題常需要涉及幾十個甚至幾千個變量和方程,如果沒有先進(jìn)的計算機(jī)和求解線性方程組的矩陣計算理論,要研究復(fù)雜的經(jīng)濟(jì)問題是不可想象的。2024/4/6272024/4/628

回歸分析應(yīng)用與發(fā)展述評一個20階的線性方程組要用克萊姆法則去求解,就需要計算1022次乘法運算,這可是一個天文數(shù)字。然而用矩陣變換的方法只需6000次乘法運算。也正是由于計算方法的改進(jìn)和現(xiàn)代計算機(jī)的發(fā)展,使得過去不可想象的事情變成了現(xiàn)實。計量經(jīng)濟(jì)學(xué)研究中涉及的變量和方程也越來越多。例如英國劍橋大學(xué)的多部門動態(tài)模型,多達(dá)2759個方程,7484個變量;由諾貝爾經(jīng)濟(jì)學(xué)獎獲得者克萊因發(fā)起的國際連接系統(tǒng),使用了7447個方程和3368個外生變量。2024/4/6282024/4/629

回歸分析應(yīng)用與發(fā)展述評模型技術(shù)在經(jīng)濟(jì)問題研究中的應(yīng)用在我國也已盛行起來。從20世紀(jì)80年代初期以來,每年都有許多國家級和省級鑒定的計量經(jīng)濟(jì)應(yīng)用成果。特別是在一些省級以上的重點經(jīng)濟(jì)課題中,經(jīng)濟(jì)學(xué)碩士學(xué)位的論文中,如果沒有模型技術(shù)的應(yīng)用,給人的印象總感分量不足。這些足以說明模型技術(shù)的應(yīng)用在我國也倍受重視。這里要強(qiáng)調(diào)說明的是,回歸分析方法是模型技術(shù)中最基本的內(nèi)容?;貧w分析的理論和方法研究200年來也得到不斷發(fā)展。統(tǒng)計學(xué)中的許多重要方法都與回歸分析有著密切的聯(lián)系。如時間序列分析、判別分析、主成分分析、因子分析、典型相關(guān)分析等。這些都極大地豐富了統(tǒng)計學(xué)方法的寶庫。2024/4/6292024/4/630

回歸分析應(yīng)用與發(fā)展述評回歸分析方法自身的完善和發(fā)展至今是統(tǒng)計學(xué)家研究的熱點課題。例如自變量的選擇、穩(wěn)健回歸、回歸診斷、投影尋蹤、非參數(shù)回歸模型等近年仍有大量研究文獻(xiàn)出現(xiàn)。在回歸模型中,當(dāng)自變量代表時間,因變量不獨立并且構(gòu)成平穩(wěn)序列時,這種回歸模型的研究就是統(tǒng)計學(xué)中的另一個重要分支——時間序列分析。它提供了一系列動態(tài)數(shù)據(jù)的處理方法,幫助人們科學(xué)地研究分析所獲得的動態(tài)數(shù)據(jù),從而建立描述動態(tài)數(shù)據(jù)的數(shù)學(xué)模型,以達(dá)到預(yù)測、控制的目的。2024/4/6302024/4/631回歸分析應(yīng)用與發(fā)展述評因變量y和自變量x都是一維時,稱它為一元回歸模型;當(dāng)x是多維,y是一維時,則它為多元回歸模型;若x是多維,y也是多維的,則稱它為多重回歸模型。特別是當(dāng)因變量觀察矩陣Y的諸行向量假定是獨立的,而列向量假定是相關(guān)的,就稱為半相依回歸方程系統(tǒng)。對于滿足基本假設(shè)的回歸模型,它的理論已經(jīng)成熟,但對于違背基本假設(shè)的回歸模型的參數(shù)估計問題近些年仍有較多研究。2024/4/6312024/4/632

回歸分析應(yīng)用與發(fā)展述評在實際問題的研究應(yīng)用中,人們發(fā)現(xiàn)經(jīng)典的最小二乘估計的結(jié)果并不總是令人滿意,統(tǒng)計學(xué)家們從多方面進(jìn)行努力試圖克服經(jīng)典方法的不足。例如,為了克服設(shè)計矩陣的病態(tài)性,提出了以嶺估計為代表的多種有偏估計。Stein于1955年證明了當(dāng)維數(shù)p大于2時,正態(tài)均值向量最小二乘估計的不可容許性,即能夠找到另一個估計在某種意義上一致優(yōu)于最小二乘估計.從此之后人們提出了許多新的估計,其中主要有嶺估計,主成分估計,Stein估計,以及特征根估計,偏最小二乘法。這些估計的共同點是有偏的,即它們的均值并不等于待估參數(shù)。于是人們把這些估計稱為有偏估計。當(dāng)設(shè)計矩陣X呈病態(tài)時,這些估計都改進(jìn)了最小二乘估計。2024/4/632

一元線性回歸2.1一元線性回歸模型2.2參數(shù)β0、β1的估計2.3最小二乘估計的性質(zhì)2.4回歸方程的顯著性檢驗2.5殘差分析2.6回歸系數(shù)的區(qū)間估計2.7預(yù)測和控制2.8本章小結(jié)與評注2024/4/6332.1一元線性回歸模型例2.1

表2.1列出了15起火災(zāi)事故的損失及火災(zāi)發(fā)生地與最近的消防站的距離。2024/4/634表2.1 火災(zāi)損失表2024/4/635【例2.2】在研究我國城鎮(zhèn)人均支出和人均收入之間關(guān)系的問題中,把城鎮(zhèn)家庭平均每人全年消費性支出記作y(元);把城鎮(zhèn)家庭平均每人可支配收入記作(元)。我們收集到1990——2012年23年的樣本數(shù)據(jù)。數(shù)據(jù)見表2.2;樣本分布情況見圖2.2。2024/4/6362024/4/6372024/4/638圖2-22.1一元線性回歸模型一元線性回歸模型

y=β0+β1x+ε2024/4/639回歸方程E(y|x)=β0+β1x2.1一元線性回歸模型樣本模型

yi=β0+β1xi+εi, i=1,2,…,n2024/4/640回歸方程E(yi)=β0+β1xi,var(yi)=σ2,樣本觀測值(x1,y1),(x2,y2),…,(xn,yn)經(jīng)驗回歸方程

回歸方程平均意義的解釋2.2參數(shù)β0、β1的估計一、普通最小二乘估計

(OrdinaryLeastSquareEstimation,簡記為OLSE)2024/4/641最小二乘法就是尋找參數(shù)β0、β1的估計值使離差平方和達(dá)極小稱為yi的回歸擬合值,簡稱回歸值或擬合值

稱為yi的殘差有人用絕對值2.2參數(shù)β0、β1的估計2024/4/6422.2參數(shù)β0、β1的估計2024/4/643經(jīng)整理后,得正規(guī)方程組2.2參數(shù)β0、β1的估計2024/4/644得OLSE為記2.2參數(shù)β0、β1的估計2024/4/645續(xù)例2.1回歸方程2.2參數(shù)β0、β1的估計2024/4/646二、最大似然估計

連續(xù)型:是樣本的聯(lián)合密度函數(shù):離散型:是樣本的聯(lián)合概率函數(shù)。似然函數(shù)并不局限于獨立同分布的樣本。似然函數(shù)在假設(shè)εi~N(0,σ2)時,由(2.10)式知yi服從如下正態(tài)分布:2.2參數(shù)β0、β1的估計2024/4/647二、最大似然估計

y1,y2,…,yn的似然函數(shù)為:對數(shù)似然函數(shù)為:與最小二乘原理完全相同

2.3最小二乘估計的性質(zhì)2024/4/648一、線性

是y1,y2,…,yn的線性函數(shù)

:2.3最小二乘估計的性質(zhì)2024/4/649其中用到

二、無偏性

無偏性的意義2.3最小二乘估計的性質(zhì)2024/4/650三、的方差

回歸系數(shù)的相關(guān)情況2.3最小二乘估計的性質(zhì)2024/4/651三、的方差

在正態(tài)假設(shè)下GaussMarkov條件

2.4回歸方程的顯著性檢驗2024/4/652一、t

檢驗

原假設(shè):H0:β1=0 對立假設(shè):H1

:β1≠0

由當(dāng)原假設(shè)H0:β1=0成立時有:

2.4回歸方程的顯著性檢驗2024/4/653一、t

檢驗

構(gòu)造t統(tǒng)計量

其中2.4回歸方程的顯著性檢驗2024/4/654二、用統(tǒng)計軟件計算

1.例2.1用Excel軟件計算什么是P值?

(P-value)P值即顯著性概率值

SignificenceProbabilityValue是當(dāng)原假設(shè)為真時得到比目前的樣本更極端的樣本的概率,所謂極端就是與原假設(shè)相背離它是用此樣本拒絕原假設(shè)所犯棄真錯誤的真實概率,被稱為觀察到的(或?qū)崪y的)顯著性水平2024/4/655雙側(cè)檢驗的P值2024/4/656

/

2

/

2

t拒絕拒絕H0值臨界值計算出的樣本統(tǒng)計量計算出的樣本統(tǒng)計量臨界值1/2P值1/2P值左側(cè)檢驗的P值2024/4/657H0值臨界值a樣本統(tǒng)計量拒絕域抽樣分布1-

置信水平計算出的樣本統(tǒng)計量P值右側(cè)檢驗的P值2024/4/658H0值臨界值a拒絕域抽樣分布1-

置信水平計算出的樣本統(tǒng)計量P值利用P值進(jìn)行檢驗的決策準(zhǔn)則若p-值>

,不能拒絕H0若p-值<

,拒絕H0雙側(cè)檢驗p-值=2×單側(cè)檢驗p-值2024/4/6592.4回歸方程的顯著性檢驗2024/4/660二、用統(tǒng)計軟件計算2.例2.1用SPSS軟件計算2.4回歸方程的顯著性檢驗2024/4/661二、用統(tǒng)計軟件計算2.用SPSS軟件計算2.4回歸方程的顯著性檢驗2024/4/662三、F檢驗平方和分解式

SST=SSR+SSE構(gòu)造F檢驗統(tǒng)計量

可以證明SSR和SSE均服從卡方分布2.4回歸方程的顯著性檢驗2024/4/663三、F檢驗一元線性回歸方差分析表方差來源自由度平方和均方F值P值回歸殘差總和1n-2n-1SSRSSESSTSSR/1SSE/(n-2)P(F>F值)=P值2.4回歸方程的顯著性檢驗2024/4/664四、相關(guān)系數(shù)的顯著性檢驗

2.4回歸方程的顯著性檢驗2024/4/665四、相關(guān)系數(shù)的顯著性檢驗

2.4回歸方程的顯著性檢驗2024/4/666四、相關(guān)系數(shù)的顯著性檢驗

附表1相關(guān)系數(shù)的臨界值表n-25%1%n-25%1%n-25%1%10.9971.000160.4680.590350.3250.41820.9500.990170.4560.575400.3040.39330.8780.959180.4440.561450.2880.37240.8110.947190.4330.549500.2730.35450.7540.874200.4230.537600.2500.32560.7070.834210.4130.526700.2320.30270.6660.798220.4040.515800.2170.28380.6320.765230.3960.505900.2050.26790.6020.735240.3880.4961000.1950.254100.5760.708250.3810.4871250.1740.228110.5530.684260.3740.4781500.1590.208120.5320.661270.3670.4702000.1380.181130.5140.641280.3610.4633000.1130.148140.4970.623290.3550.4564000.0980.128150.4820.606300.3490.44910000.0620.0812.4回歸方程的顯著性檢驗2024/4/667四、相關(guān)系數(shù)的顯著性檢驗

用SPSS軟件做相關(guān)系數(shù)的顯著性檢驗

2.4回歸方程的顯著性檢驗2024/4/668四、相關(guān)系數(shù)的顯著性檢驗

兩變量間相關(guān)程度的強(qiáng)弱分為以下幾個等級:當(dāng)|r|≥0.8時,視為高度相關(guān);當(dāng)0.5≤|r|<0.8時,視為中度相關(guān);當(dāng)0.3≤|r|<0.5時,視為低度相關(guān);當(dāng)|r|<0.3時,表明兩個變量之間的相關(guān)程度極弱,在實際應(yīng)用中可視為不相關(guān)。2.4回歸方程的顯著性檢驗2024/4/669五、三種檢驗的關(guān)系H0:b=0H0:r=0H0:回歸無效2.4回歸方程的顯著性檢驗2024/4/670六、樣本決定系數(shù)

可以證明2.5殘差分析

2024/4/671一、殘差概念與殘差圖

殘差

誤差項

殘差ei是誤差項ei的估計值。

2.5殘差分析

2024/4/672一、殘差概念與殘差圖

2.5殘差分析

2024/4/673一、殘差概念與殘差圖

圖2.6火災(zāi)損失數(shù)據(jù)殘差圖2.5殘差分析

2024/4/674二、殘差的性質(zhì)

性質(zhì)1E(ei)=0

證明:2.5殘差分析

2024/4/675二、殘差的性質(zhì)

性質(zhì)2其中稱為杠桿值

2.5殘差分析

2024/4/676二、殘差的性質(zhì)

2.5殘差分析

2024/4/677二、殘差的性質(zhì)

性質(zhì)3.

殘差滿足約束條件:

這表明殘差是相關(guān)的,不是獨立的.2.5殘差分析

2024/4/678三、改進(jìn)的殘差

標(biāo)準(zhǔn)化殘差學(xué)生化殘差2.6回歸系數(shù)的區(qū)間估計2024/4/679

等價于β1的1-α置信區(qū)間2.7預(yù)測和控制

2024/4/680一、單值預(yù)測

2.7預(yù)測和控制

2024/4/681

二、區(qū)間預(yù)測找一個區(qū)間(T1,T2),使得

需要首先求出其估計值的分布

1.因變量新值的區(qū)間預(yù)測二、區(qū)間預(yù)測1因變量新值的區(qū)間預(yù)測2024/4/682以下計算的方差從而得二、區(qū)間預(yù)測1因變量新值的區(qū)間預(yù)測2024/4/683記于是有

則二、區(qū)間預(yù)測1因變量新值的區(qū)間預(yù)測2024/4/684y0的置信概率為1-α的置信區(qū)間為

y0的置信度為95%的置信區(qū)間近似為

能不能兩全其美二、區(qū)間預(yù)測2因變量平均值的區(qū)間估計2024/4/685得E(y0)的1-α的置信區(qū)間為

E(y0)=β0+β1x0是常數(shù)二、區(qū)間預(yù)測計算2024/4/686

對例2.1的火災(zāi)損失數(shù)據(jù),假設(shè)保險公司希望預(yù)測一個距最近的消防隊x0=3.5公里的居民住宅失火的損失

點估計值95%區(qū)間估計單個新值:(22.32,32.67)平均值E(y0):(26.19,28.80)

的95%的近似置信區(qū)間為

=(27.50-2×2.316,27.50+2×2.316)=(22.87,32.13)三、控制問題

2024/4/687

給定y的預(yù)期范圍(T1,T2),如何控制自變量x的值才能以1-α的概率保證

用近似的預(yù)測區(qū)間來確定x。如果α=0.05,則要求

把帶入2.8本章小結(jié)與評注

一、一元線性回歸模型從建模到應(yīng)用的全過程(略)例2.2

全國人均消費金額記作y(元);人均國民收入記為x(元)2024/4/688表2.2 人均國民收入表具體看書2.8本章小結(jié)與評注

二、有關(guān)回歸假設(shè)檢驗問題

1973年Anscombe構(gòu)造了四組數(shù)據(jù),這四組數(shù)據(jù)所建的回歸方程是相同的,決定系數(shù),F統(tǒng)計量也都相同,且均通過顯著性檢驗。

2024/4/6892.8本章小結(jié)與評注2024/4/690多元線性回歸

3.1多元線性回歸模型3.2回歸參數(shù)的估計3.3參數(shù)估計量的性質(zhì)3.4回歸方程的顯著性檢驗3.5中心化和標(biāo)準(zhǔn)化3.6相關(guān)陣與偏相關(guān)系數(shù)3.7本章小結(jié)與評注2024/4/6913.1多元線性回歸模型一、多元線性回歸模型的一般形式

2024/4/692y=β0+β1x1+β2x2+…+βpxp+ε3.1多元線性回歸模型一、多元線性回歸模型的一般形式

2024/4/693對n組觀測數(shù)據(jù)(xi1,xi2,…,xip;yi),i=1,2,…,n,線性回歸模型表示為:3.1多元線性回歸模型一、多元線性回歸模型的一般形式

2024/4/694寫成矩陣形式為:y=Xβ+ε,其中,2024/4/695i=1,2,3j=1,2k=1,2為種第i種小麥并施了第J種化肥的第K塊地的產(chǎn)量寫出這個雙因素方差分析模型的矩陣形式,并把每個矩陣的具體形式寫出來。作業(yè):設(shè)有3.1多元線性回歸模型二、多元線性回歸模型的基本假定

2024/4/6961.解釋變量x1,x2,…,xp是確定性變量,不是隨機(jī)變量,且要求rk(X)=p+1<n。表明設(shè)計矩陣X中的自變量列之間不相關(guān),X是一滿秩矩陣。3.1多元線性回歸模型二、多元線性回歸模型的基本假定

2024/4/6972.隨機(jī)誤差項具有0均值和等方差,即

這個假定稱為Gauss-Markov條件

3.1多元線性回歸模型二、多元線性回歸模型的基本假定

2024/4/6983.正態(tài)分布的假定條件為:

用矩陣形式(3.5)式表示為:

ε~N(0,s2In)3.1多元線性回歸模型二、多元線性回歸模型的基本假定

2024/4/699在正態(tài)假定下:

y~N(Xβ,s2In)E(y)=Xβ

var(y)=s2In

3.1多元線性回歸模型三、多元線性回歸方程的解釋

2024/4/6100y表示空調(diào)機(jī)的銷售量,x1表示空調(diào)機(jī)的價格,x2表示消費者可用于支配的收入。y=β0+β1x1+β2x2+εE(y)=β0+β1x1+β2x2

在x2保持不變時,有在x1保持不變時,有3.1多元線性回歸模型三、多元線性回歸方程的解釋

2024/4/6101考慮國內(nèi)生產(chǎn)總值GDP和三次產(chǎn)業(yè)增加值的關(guān)系,

GDP=x1+x2+x3現(xiàn)在做GDP對第二產(chǎn)業(yè)增加值x2的一元線性回歸,得回歸方程本章思考與練習(xí)中表3—103.1多元線性回歸模型2024/4/6102年份GDP第一產(chǎn)業(yè)增加值x1第二產(chǎn)業(yè)增加值x2第三產(chǎn)業(yè)增加值x3199018547.95017.07717.45813.5199121617.85288.69102.27227.0199226638.15800.011699.59138.6199334634.46882.116428.511323.8199446759.49457.222372.214930.0...............2006216314.424040.0103719.588554.92007265810.328627.0125831.4111351.92008314045.433702.0149003.4131340.02009340902.835226.0157638.8148038.02010401512.840533.6187383.2173596.02011473104.047486.2220412.8205205.02012518942.152373.6235162.0231406.53.1多元線性回歸模型三、多元線性回歸方程的解釋

2024/4/6103建立GDP對x1和x2的回歸,得二元回歸方程=2914.6+0.607x1+1.709x2你能夠合理地解釋兩個回歸系數(shù)嗎?3.2回歸參數(shù)的估計

一、回歸參數(shù)的普通最小二乘估計

2024/4/6104最小二乘估計要尋找3.2回歸參數(shù)的估計

一、回歸參數(shù)的普通最小二乘估計

2024/4/61053.2回歸參數(shù)的估計

一、回歸參數(shù)的普通最小二乘估計

2024/4/6106經(jīng)整理后得用矩陣形式表示的正規(guī)方程組

移項得存在時,即得回歸參數(shù)的最小二乘估計為:3.2回歸參數(shù)的估計

二、回歸值與殘差2024/4/6107為回歸值

稱為帽子矩陣,其主對角線元素記為hii

,則此式的證明只需根據(jù)跡的性質(zhì)tr(AB)=tr(BA),因而3.2回歸參數(shù)的估計

二、回歸值與殘差2024/4/6108

cov(e,e)=cov((I-H)Y,(I-H)Y)=(I-H)cov(Y,Y)(I-H)′=σ2(I-H)In(I-H)′=σ2(I-H)得

D(ei)=(1-hii)σ2,i=1,2,…,n3.2回歸參數(shù)的估計

二、回歸值與殘差2024/4/6109

是σ2的無偏估計

3.2回歸參數(shù)的估計

三、回歸參數(shù)的最大似然估計

2024/4/6110

y~N(Xβ,σ2In)似然函數(shù)為

等價于使(y-Xβ)′(y-Xβ)達(dá)到最小,這又完全與OLSE一樣四、實例分析【例3.1】現(xiàn)實生活中,影響一個地區(qū)居民消費的因素有很多,例如,一個地區(qū)的人均生產(chǎn)總值、收入水平、消費價格指數(shù)、生活必需品的花費等。本例選取9個解釋變量研究城鎮(zhèn)居民家庭平均每人全年的消費性支出y,解釋變量為居民的食品花費,居民的服裝花費,居民的居住花費,居民的醫(yī)療花費,居民的教育花費,地區(qū)的職工平均工資,地區(qū)的人均GDP,地區(qū)的消費價格指數(shù),地區(qū)的失業(yè)率。本例選取2013年《中國統(tǒng)計年鑒》我國30個省、市、自治區(qū)(西藏地區(qū)失業(yè)率數(shù)據(jù)缺失,因此從樣本中去除西藏)2012年的數(shù)據(jù),以居民的消費性支出(元)為因變量,以如上9個變量為自變量作多元線性回歸。數(shù)據(jù)見表3.1,其中,自變量單位為元,因變量單位為百分?jǐn)?shù)。2024/4/6111表3.12024/4/6112地區(qū)北京753526391971165836968474287475106.51.324046天津734418811854155622546151493173107.53.620024河北421115421502104712043865836584104.13.712531山西38561529143990615064423633628108.83.312212內(nèi)蒙古546327301584135419724655763886109.63.717717遼寧580920421433131018444185856649107.73.616594吉林4635204515941448164338407434151113.714614黑龍江468718071337118112173640635711104.84.212984上海9656211117901017372478673853731063.126253江蘇665819161437105830785063968347112.63.118825浙江755221101552122829975019763374104.5321545.................................陜西555117891322121220794307338564109.43.215333甘肅460216311288105013883767921978108.62.712847青海46671512123290610974648333181110.63.412346寧夏476918761193106315164743636394105.54.214067新疆523920311167102812814457633796114.83.413892用SPSS22.0計算出的回歸系數(shù)見輸出結(jié)果3.1(65頁)輸出結(jié)果3.1

回歸系數(shù)表2024/4/6113因而y對9個自變量的線性回歸方程為2024/4/61143.3參數(shù)估計量的性質(zhì)

2024/4/6115

性質(zhì)1

是隨機(jī)向量y的一個線性變換。性質(zhì)2

是β的無偏估計。

2024/4/61163.3參數(shù)估計量的性質(zhì)

2024/4/6117

當(dāng)p=1時

即可得(2.41)、(2.42)、(2.45)式利用SPSS軟件可以方便的計算出的協(xié)方差陣與相關(guān)陣,的協(xié)方差陣與相關(guān)陣不屬于默認(rèn)輸出值,在LinearRegression對話框中點選Statistics→Covariancematrix即可。例3.1的數(shù)據(jù)計算出的的相關(guān)陣與協(xié)方差陣如表3.2、表3.3所示,其中表的格式已略作修改。2024/4/61183.3參數(shù)估計量的性質(zhì)

2024/4/6119

性質(zhì)4Gauss-Markov定理預(yù)測函數(shù)

是的線性函數(shù)

Gauss-Markov定理

在假定E(y)=Xβ,D(y)=σ2In時,β的任一線性函數(shù)的最小方差線性無偏估計(BestLnearUnbiasedEstimator簡記為BLUE)為c′,其中c是任一p+1維向量,是β的最小二乘估計。3.3參數(shù)估計量的性質(zhì)

2024/4/6120

第一,取常數(shù)向量c的第j(j=0,1,…,p)個分量為1,其余分量為0,這時G-M定理表明最小二乘估計是βj的最小方差線性無偏估計。第二,可能存在y1,y2,…,yn的非線性函數(shù),作為的無偏估計,比最小二乘估計的方差更小。第三,可能存在的有偏估計量,在某種意義(例如均方誤差最?。┫卤茸钚《斯烙嫺?。第四,在正態(tài)假定下,是的最小方差無偏估計。也就是說,既不可能存在y1,y2,…,yn的非線性函數(shù),也不可能存在y1,y2,…,yn的其它線性函數(shù),作為的無偏估計,比最小二乘估計方差更小。3.3參數(shù)估計量的性質(zhì)

2024/4/6121性質(zhì)5cov(,e)=0此性質(zhì)說明與e不相關(guān),在正態(tài)假定下等價于與e獨立,從而與獨立。性質(zhì)6

在正態(tài)假設(shè)(1)(2)3.4回歸方程的顯著性檢驗2024/4/6122

一、F檢驗

H0:β1=β2=…=βp=0SST=SSR+SSE

當(dāng)H0成立時服從方差來源自由度平方和均方F值P值回歸殘差總和pn-p-1n-1SSRSSESSTSSR/pSSE/(n-p-1)P(F>F值)=P值3.4回歸方程的顯著性檢驗2024/4/6123

一、F檢驗

對例3.1的數(shù)據(jù),用SPSS軟件計算出的方差分析表見輸出結(jié)果3.2。輸出結(jié)果3.2F=298.8822024/4/61243.4回歸方程的顯著性檢驗2024/4/6125

二、回歸系數(shù)的顯著性檢驗(t檢驗)H0j:βj=0,j=1,2,…,p~N(β,σ2(X'X)-1)記(X'X)-1=(cij)i,j=0,1,2,…,p構(gòu)造t統(tǒng)計量

其中3.4回歸方程的顯著性檢驗2024/4/6126

二、回歸系數(shù)的顯著性檢驗輸出結(jié)果3.1輸出結(jié)果3.32024/4/6127輸出結(jié)果3.42024/4/61283.4回歸方程的顯著性檢驗2024/4/6129

二、回歸系數(shù)的顯著性檢驗

從另外一個角度考慮自變量xj的顯著性。y對自變量x1,x2,…,xp線性回歸的殘差平方和為SSE,回歸平方和為SSR,在剔除掉xj后,用y對其余的p-1個自變量做回歸,記所得的殘差平方和為SSE(j),回歸平方和為SSR(j),則自變量xj對回歸的貢獻(xiàn)為ΔSSR(j)=SSR-SSR(j),稱為xj的偏回歸平方和。由此構(gòu)造偏F統(tǒng)計量3.4回歸方程的顯著性檢驗2024/4/6130

二、回歸系數(shù)的顯著性檢驗

當(dāng)原假設(shè)H0j

:βj=0成立時,(3.42)式的偏F統(tǒng)計量Fj服從自由度為(1,n-p-1)的F分布,此F檢驗與(3.40)式的t檢驗是一致的,可以證明Fj=tj2(3.42)3.4回歸方程的顯著性檢驗2024/4/6131

三、回歸系數(shù)的置信區(qū)間可得βj的置信度為1-α的置信區(qū)間為:3.4回歸方程的顯著性檢驗2024/4/6132四、擬合優(yōu)度

決定系數(shù)為:

y關(guān)于x1,x2,…,xp的樣本復(fù)相關(guān)系數(shù)3.5中心化和標(biāo)準(zhǔn)化

2024/4/6133

一、中心化

經(jīng)驗回歸方程

經(jīng)過樣本中心

將坐標(biāo)原點移至樣本中心,即做坐標(biāo)變換:

回歸方程轉(zhuǎn)變?yōu)椋夯貧w常數(shù)項為3.5中心化和標(biāo)準(zhǔn)化

2024/4/6134

二、標(biāo)準(zhǔn)化回歸系數(shù)

樣本數(shù)據(jù)的標(biāo)準(zhǔn)化公式為:

得標(biāo)準(zhǔn)化的回歸方程

3.5中心化和標(biāo)準(zhǔn)化

2024/4/6135

二、標(biāo)準(zhǔn)化回歸系數(shù)

當(dāng)自變量的單位不同時普通最小二乘估計的回歸系數(shù)不具有可比性,例如有一回歸方程為:其中x1的單位是噸,x2的單位是公斤3.6相關(guān)陣與偏相關(guān)系數(shù)

2024/4/6136

一、樣本相關(guān)陣(第78頁表3.5)自變量樣本相關(guān)陣

增廣的樣本相關(guān)陣為:

3.6相關(guān)陣與偏相關(guān)系數(shù)

2024/4/6137二、偏判定系數(shù)

當(dāng)其他變量被固定后,給定的任兩個變量之間的相關(guān)系數(shù),叫偏相關(guān)系數(shù)。

偏相關(guān)系數(shù)可以度量p+1個變量y,x1,x2,xp之中任意兩個變量的線性相關(guān)程度,而這種相關(guān)程度是在固定其余p-1個變量的影響下的線性相關(guān)。

3.6相關(guān)陣與偏相關(guān)系數(shù)

2024/4/6138

二、偏判定系數(shù)

偏判定系數(shù)測量在回歸方程中已包含若干個自變量時,再引入某一個新的自變量后y的剩余變差的相對減少量,它衡量y的變差減少的邊際貢獻(xiàn)。3.6相關(guān)陣與偏相關(guān)系數(shù)

2024/4/6139

1.兩個自變量的偏判定系數(shù)二元線性回歸模型為:yi=β0+β1xi1+β2xi2+εi記SSE(x2)是模型中只含有自變量x2時y的殘差平方和,SSE(x1,x2)是模型中同時含有自變量x1和x2時y的殘差平方和。因此模型中已含有x2時再加入x1使y的剩余變差的相對減小量為:此即模型中已含有x2時,y與x1的偏判定系數(shù)。3.6相關(guān)陣與偏相關(guān)系數(shù)

2024/4/6140

1.兩個自變量的偏判定系數(shù)同樣地,模型中已含有x1時,y與x2的偏判定系數(shù)為:3.6相關(guān)陣與偏相關(guān)系數(shù)

2024/4/6141

2.一般情況在模型中已含有x2,…,xp時,y與x1的偏判定系數(shù)為:3.6相關(guān)陣與偏相關(guān)系數(shù)

2024/4/6142

三、偏相關(guān)系數(shù)

偏判定系數(shù)的平方根稱為偏相關(guān)系數(shù),其符號與相應(yīng)的回歸系數(shù)的符號相同。

例3.2

研究北京市各經(jīng)濟(jì)開發(fā)區(qū)經(jīng)濟(jì)發(fā)展與招商投資的關(guān)系,因變量y為各開發(fā)區(qū)的銷售收入(百萬元),選取兩個自變量,

x1為截至1998年底各開發(fā)區(qū)累計招商數(shù)目,

x2為招商企業(yè)注冊資本(百萬元)。表中列出了至1998年底招商企業(yè)注冊資本x2在5億至50億元的15個開發(fā)區(qū)的數(shù)據(jù)。3.6相關(guān)陣與偏相關(guān)系數(shù)

2024/4/6143

三、偏相關(guān)系數(shù)

北京開發(fā)區(qū)數(shù)據(jù)x1x2yx1x2y253547.79553.967671.13122.2420896.34208.555322863.3214006750.323.175116046410012087.052815.440862.757.55251639.311052.12187672.99224.188253357.73427122901.76538.94120808.47442.82743546.182442.7928520.2770.123.6相關(guān)陣與偏相關(guān)系數(shù)

2024/4/6144

三、偏相關(guān)系數(shù)

偏相關(guān)系數(shù)表書后有part解釋3.6相關(guān)陣與偏相關(guān)系數(shù)

2024/4/6145

三、偏相關(guān)系數(shù)

用y與x1做一元線性回歸時,x1能消除y的變差SST的比例為再引入x2時,x2能消除剩余變差SSE(X1)的比例為因而自變量x1和x2消除y變差的總比例為=1-(1-0.651)(1-0.546)=0.842=84.2%。這個值84.2%恰好是y對x1和x2二元線性回歸的判定系數(shù)R23.6相關(guān)陣與偏相關(guān)系數(shù)

2024/4/6146

三、偏相關(guān)系數(shù)

對任意p個變量x1,x2,…,xp定義它們之間的偏相關(guān)系數(shù)其中符號Δij表示相關(guān)陣第i行第j列元素的代數(shù)余子式驗證以x1表示某種商品的銷售量,

x2表示消費者人均可支配收入,

x3表示商品價格。從經(jīng)驗上看,銷售量x1與消費者人均可支配收入x2之間應(yīng)該有正相關(guān),簡單相關(guān)系數(shù)r12應(yīng)該是正的。但是如果你計算出的r12是個負(fù)數(shù)也不要感到驚訝,這是因為還有其它沒有被固定的變量在發(fā)揮影響,例如商品價格x3在這期間大幅提高了。反映固定x3后x1與x2相關(guān)程度的偏相關(guān)系數(shù)r12;3會是個正數(shù)。2024/4/61473.7本章小結(jié)與評注

2024/4/6148

例3.3中國民航客運量的回歸模型。y—民航客運量(萬人),x1—國民收入(億元),x2—消費額(億元),x3—鐵路客運量(萬人),x4—民航航線里程(萬公里),x5—來華旅游入境人數(shù)(萬人)。根據(jù)《1994年統(tǒng)計摘要》獲得1978-1993年統(tǒng)計數(shù)據(jù)3.7本章小結(jié)與評注

2024/4/6149

年份yx1x2x3x4x51978231301018888149114.89180.921979298335021958638916.00420.391980343368825319220419.53570.251981401394127999530021.82776.711982445425830549992223.27792.4319833914736335810604422.91947.7019845545652390511035326.021285.2219857447020487911211027.721783.3019869977859555210857932.432281.95198713109313638611242938.912690.231988144211738803812264537.383169.481989128313176900511380747.192450.14199016601438496639571250.682746.201991217816557109699508155.913335.651992288620223129859969383.663311.5019933383248821594910545896.084152.703.7本章小結(jié)與評注

2024/4/6150

3.7本章小結(jié)與評注

2024/4/6151

3.7本章小結(jié)與評注

2024/4/6152

當(dāng)回歸模型的未知參數(shù)估計出來后,我們實際上是由n組樣本觀測數(shù)據(jù)得到一個經(jīng)驗回歸方程,這個經(jīng)驗回歸方程是否真正反映了變量y和變量x1,x2,…,xp之間的線性關(guān)系,這就需要進(jìn)一步對回歸方程進(jìn)行檢驗。一種檢驗方法是擬合優(yōu)度檢驗,即用樣本決定系數(shù)的大小來衡量模型的擬合優(yōu)度。樣本決定系數(shù)R2越大,說明回歸方程擬合原始數(shù)據(jù)y的觀測值的效果越好。但由于R2的大小與樣本容量n以及自變量個數(shù)p有關(guān),當(dāng)n與p的數(shù)目接近時,R2容易接近于1,這說明R2中隱含著一些虛假成分。因此,僅由R2的值很大,去推斷模型優(yōu)劣一定要慎重。前幾年我們在著名的《經(jīng)濟(jì)研究》雜志也看到有作者忽略了這一問題,犯了統(tǒng)計方法應(yīng)用的低級錯誤。2024/4/6153對于回歸方程的顯著性檢驗,我們用F統(tǒng)計量去判斷假設(shè)H0:β1=β2=…=βp=0是否成立。當(dāng)給定顯著性水平α?xí)r,F>Fα(p,n-p-1),則拒絕假設(shè)H0,否則不拒絕H0。接受假設(shè)H0和拒絕假設(shè)H0對于回歸方程來說意味著什么,這仍需慎重對待。2024/4/6154一般來說,當(dāng)接受假設(shè)H0時,認(rèn)為在給定的顯著性水平α之下,自變量x1,x2,…,xp對因變量y無顯著性影響,于是通過x1,x2,…,xp去推斷y也就無多大意義。在這種情況下,一方面可能這個問題本來應(yīng)該用非線性模型去描述,而我們誤用線性模型描述了,使得自變量對因變量無顯著影響;另一方面可能是在考慮自變量時由于我們認(rèn)識上的局限性把一些影響因變量y的自變量漏掉了。這就從兩個方面提醒我們?nèi)ブ匦驴紤]建模問題。2024/4/6155當(dāng)我們拒絕了假設(shè)H0時,我們也不能過于相信這個檢驗,認(rèn)為這個回歸模型已經(jīng)很完美了。其實當(dāng)拒絕H0時,我們只能認(rèn)為這個回歸模型在一定程度上說明了自變量x1,x2,…,xp與因變量y的線性關(guān)系。因為這時仍不能排除我們漏掉了一些重要的自變量。參考文獻(xiàn)[2]的作者認(rèn)為,此檢驗只宜用于輔助性的、事后驗證性質(zhì)的目的。研究者在事前根據(jù)專業(yè)知識及經(jīng)驗,認(rèn)為已把較重要的自變量選入了,且在一定誤差限度內(nèi)認(rèn)為模型為線性是合理的。經(jīng)過樣本數(shù)據(jù)計算后,可以用來驗證一下,原先的考慮是否周全。這時,若拒絕H0,可認(rèn)為至少并不與他原來的設(shè)想矛盾。如果接受H0,可以認(rèn)為模型是不能反映因變量y與自變量x1,x2,…,xp的線性關(guān)系,這個模型就不能應(yīng)用于實際預(yù)測和分析。2024/4/6156當(dāng)樣本容量n較小,變量個數(shù)p較大時,F檢驗或t檢驗的自由度太小,這時盡管樣本決定系數(shù)R2很大,但參數(shù)估計的效果很不穩(wěn)定。我們曾發(fā)現(xiàn)一個實際應(yīng)用例子暴露出這方面的問題。有文獻(xiàn)在研究建筑業(yè)降低成本率y對流動資金x1、固定資金x2、優(yōu)良品率x3、竣工面積x4、勞動生產(chǎn)率x5、施工產(chǎn)值x6的關(guān)系時,利用書上表3.8數(shù)據(jù)建立回歸方程,得回歸方程SST=154.7646,SSR=143.45,SSE=11.3146F=4.226,R2=0.926792024/4/6157由于R2=0.92679,所以該文獻(xiàn)中作者認(rèn)為上述回歸方程非常顯著。其實進(jìn)一步作F檢驗,給定α=0.05,查F分布表,F0.05(p,n-p-1)=F0.05(6,2)=19.3。F=4.226<F0.05(6,2)=19.3?;貧w方程沒有通過F檢驗??墒窃撐墨I(xiàn)當(dāng)時給錯了自由度,查F0.05(6,9)=3.37。結(jié)果F>F0.05(6,9),通過了檢驗,從而進(jìn)一步肯定了上述回歸方程。之所以R2在0.9以上,已接近1,方程還通不過F檢驗,這就是樣本容量個數(shù)n太小,而自變量又較多造成R2的虛假現(xiàn)象。如果樣本容量再稍作改變,未知參數(shù)就會發(fā)生較大變化,即表現(xiàn)出很不穩(wěn)定的狀況。2024/4/6158違背基本假設(shè)的情況2024/4/6159

4.1異方差性產(chǎn)生的背景和原因4.2一元加權(quán)最小二乘估計4.3多元加權(quán)最小二乘估計4.4自相關(guān)性問題及其處理4.5BOX-COX變換4.6異常值與強(qiáng)影響點4.7本章小結(jié)與評注第四章違背基本假設(shè)的情況2024/4/6160

Gauss-Markov條件

4.1異方差性產(chǎn)生的背景和原因

2024/4/6161

一、異方差產(chǎn)生的原因

例4.1居民收入與消費水平有著密切的關(guān)系。用xi表示第i戶的收入量,yi表示第i戶的消費額,一個簡單的消費模型為:yi=β0+β1xi+εi,i=1,2,…,n低收入的家庭購買差異性比較小,高收入的家庭購買行為差異就很大。導(dǎo)致消費模型的隨機(jī)項εi具有不同的方差。4.1異方差性產(chǎn)生的背景和原因

2024/4/6162

二、異方差性帶來的問題

當(dāng)存在異方差時,普通最小二乘估計存在以下問題:(1)參數(shù)估計值雖是無偏的,但不是最小方差線性無偏估計;(2)參數(shù)的顯著性檢驗失效;(3)回歸方程的應(yīng)用效果極不理想。4.2一元加權(quán)最小二乘估計

2024/4/6163

一、異方差性的檢驗(一)殘差圖分析法

圖2.5(b)存在異方差4.2一元加權(quán)最小二乘估計

2024/4/6164

一、異方差性的檢驗(二)等級相關(guān)系數(shù)法

等級相關(guān)系數(shù)檢驗法又稱斯皮爾曼(Spearman)檢驗,是一種應(yīng)用較廣泛的方法。這種檢驗方法既可用于大樣本,也可用于小樣本。進(jìn)行等級相關(guān)系數(shù)檢驗通常有三個步驟。第一步,作y關(guān)于x的普通最小二乘回歸,求出ei的估計值,即ei的值。4.2一元加權(quán)最小二乘估計

2024/4/6165

(二)等級相關(guān)系數(shù)法

第二步,取ei的絕對值,分別把xi和|ei|按遞增(或遞減)的次序分成等級,按下式計算出等級相關(guān)系數(shù):其中,n為樣本容量,di為對應(yīng)于xi和|ei|的等級的差數(shù)。4.2一元加權(quán)最小二乘估計

2024/4/6166

(二)等級相關(guān)系數(shù)法

第三步,做等級相關(guān)系數(shù)的顯著性檢驗。在n>8的情況下,用下式對樣本等級相關(guān)系數(shù)rs進(jìn)行t檢驗。檢驗統(tǒng)計量為:如果t≤tα/2(n-2)可認(rèn)為異方差性問題不存在,如果t>tα/2(n-2),說明xi與|ei|之間存在系統(tǒng)關(guān)系,異方差性問題存在。4.2一元加權(quán)最小二乘估計

2024/4/6167

例4.3設(shè)某地區(qū)的居民收入與儲蓄額的歷史統(tǒng)計數(shù)據(jù)如表4.1。(1)用普通最小二乘法建立儲蓄y與居民收入x的回歸方程,并畫出殘差散點圖;(2)診斷該問題是否存在異方差;序號儲蓄y(萬元)居民收入x(萬元)1 2 3

31264 105 90 …23008777 9210 9954 …382004.2一元加權(quán)最小二乘估計

2024/4/6168

序號儲蓄y居民收入xxi等級殘差ei|ei||ei|等級di126487771169.0169.016-15225210592102-26.626.63-1139099543-104.6104.67-4164131105084-110.5110.58-4165122109795-159.4159.415-101006107119126-253.4253.423-172897406127477-25.125.1252585031349988.28.217499431142699-129.0129.0900105881552210-78.078.04636118981673011129.7129.71011129501766312102.7102.76636137791857513-145.5145.514-11148191963514-195.3195.319-525151222211631578.478.4510100………………………3123003820031-286.1286.1247494.2一元加權(quán)最小二乘估計

2024/4/6169

圖4.1殘差圖4.2一元加權(quán)最小二乘估計

2024/4/6170

用SPSS計算等級相關(guān)系數(shù)。

4.2一元加權(quán)最小二乘估計

2024/4/6171

(2)計算等級相關(guān)系數(shù)。

t=5.076>2.0454.2一元加權(quán)最小二乘估計

2024/4/6172

Spearman等級相關(guān)系數(shù)可以反映非線性相關(guān)的情況,Pearson簡單相關(guān)系數(shù)不能反映非線性相關(guān)的情況。例如x與y的取值如下,序號12345678910x12345678910y149162536496481100容易計算出y與x的簡單相關(guān)系數(shù)r=0.9746,而y與x的等級相關(guān)系數(shù)rs=1具有完全的曲線相關(guān)。4.2一元加權(quán)最小二乘估計

2024/4/6173

二、一元加權(quán)最小二乘估計消除異方差性的方法通常有:加權(quán)最小二乘法,Box-Cox變換法,(參考文獻(xiàn)[1])

方差穩(wěn)定性變換法加權(quán)最小二乘法(WeightedLeastSquare,簡記為WLS)是一種最常用的消除異方差性的方法。4.2一元加權(quán)最小二乘估計

2024/4/6174

二、一元加權(quán)最小二乘估計一元線性回歸普通最小二乘法的殘差平方和為:

一元線性回歸的加權(quán)最小二乘的離差平方和為:

第96頁4.2一元加權(quán)最小二乘估計

2024/4/6175

加權(quán)最小二乘估計為:

其中,

是自變量的加權(quán)平均;

是因變量的加權(quán)平均。

4.2一元加權(quán)最小二乘估計

2024/4/6176

觀測值的權(quán)數(shù)應(yīng)該是觀測值誤差項方差的倒數(shù),即在實際問題中,誤差項的方差是未知的,常與自變量x的冪函數(shù)xm成比例,其中m是待定的未知參數(shù)。此時權(quán)函數(shù)為所以誤差項的方差較大的觀測值接受較小的權(quán)數(shù);誤差項的方差較小的觀測值接受較大的權(quán)數(shù)。4.2一元加權(quán)最小二乘估計

2024/4/6177

三、尋找最優(yōu)權(quán)函數(shù)利用SPSS軟件可以確定冪指數(shù)m的最優(yōu)取值。依次點選Analyze-Regression-WeightEstimation進(jìn)入估計權(quán)函數(shù)對話框,默認(rèn)的冪指數(shù)m的取值為m=-2.0,-1.5,-1.0,-0.5,0,0.5,1.0,1.5,2.0。先將因變量y與自變量x選入各自的變量框,再把x選入Weight變量框,冪指數(shù)(Power)取默認(rèn)值,計算結(jié)果如下(格式略有變動):4.2一元加權(quán)最小二乘估計

2024/4/6178

4.2一元加權(quán)最小二乘估計

2024/4/61794.2一元加權(quán)最小二乘估計

2024/4/6180

冪指數(shù)m的最優(yōu)取值為m=1.5。加權(quán)最小二乘的r2=0.9360,F(xiàn)值=423.741;普通最小二乘的r2=0.912,F(xiàn)值=300.732。說明加權(quán)最小二乘估計的效果好于普通最小二乘的效果。4.2一元加權(quán)最小二乘估計

2024/4/6181

圖4.2加權(quán)最小二乘殘差圖殘差圖序號小方差組126487771.2161E-06169211210592101.1314E-06-271439099541.0069E-06-105-664131105089.2837E-07-111-745122109798.6927E-07-159-1246107119127.6917E-07-253-2217406127476.9485E-07-2548503134996.3760E-078359431142695.8669E-07-129-10510588155225.1710E-07-78-584.2一元加權(quán)最小二乘估計

2024/4/6182

序號中等方差組11898167304.6212E-0713014612950176634.2599E-0710311613779185753.9501E-07-146-13514819196353.6346E-07-195-188151222211633.2481E-077880161702228802.8895E-07413409171578241272.6684E-07183176181654256042.4408E-07134122191400265002.3181E-07-195-211201829276702.1726E-07134115212200283002.1005E-074524314.2一元加權(quán)最小二乘估計

2024/4/6183

序號大方差組222017274302.2012E-07343324232105295601.9676E-07250225241600281502.1173E-07-135-156252250321001.7388E-07180147262420325001.7068E-07317281272570352501.5110E-07234190281720335001.6309E-07-468-507291900360001.4640E-07-500-546302100362001.4519E-07-317-364312300382001.3394E-07-286-3404.2一元加權(quán)最小二乘估計

2024/4/6184

不是像小殘差組那樣得到改善,而是誤差變得更大。其道理也很簡單,加權(quán)最小二乘估計照顧小殘差項是以犧牲大殘差項為代價的,有得必有失,也是有局限性的。從上面的分析看到,當(dāng)回歸模型存在異方差時,加權(quán)最小二乘估計只是對普通最小二乘估計的改進(jìn),這種改進(jìn)有可能是細(xì)微的,不能理解為加權(quán)最小二乘估計一定會得到與普通最小二乘估計截然不同的回歸方程,或者一定有大幅度的改進(jìn)。實際上,可以構(gòu)造出這樣的數(shù)據(jù),回歸模型存在很強(qiáng)的異方差,但是普通最小二乘與加權(quán)最小二乘所得的回歸方程卻完全一樣。另外,加權(quán)最小二乘以犧牲大方差項的擬合效果為代價改善了小方差項的擬合效果,這也并不總是研究者所需要的。在社會經(jīng)濟(jì)現(xiàn)象中,通常變量取值大時方差也大,在以經(jīng)濟(jì)總量為研究目標(biāo)時,更關(guān)心的是變量取值大的項,而普通最小二乘恰好能滿足這個要求。所以在這樣的一些特定場合下,即使數(shù)據(jù)存在異方差,也仍然可以選擇使用普通最小二乘估計。2024/4/61854.3多元加權(quán)最小二乘

2024/4/6186當(dāng)誤差項εi存在異方差時,加權(quán)離差平方和為記加權(quán)最小二乘估計WLS的矩陣表達(dá)4.3多元加權(quán)最小二乘估計

2024/4/6187

通常取權(quán)函數(shù)W為某個自變量xj(j=1,2,…,p)的冪函數(shù),即,在x1,x2,…,xp這p個自變量中取哪一

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論