版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
應(yīng)用回歸分析
AppliedRegressionAnalysis(ARA)2024/4/61關(guān)于RA的發(fā)展情況:如果從高斯(Gauss,1777-1855)1809年提出最小二乘法為回歸分析的開端到今年正好是202周年Galton(1822-1911)在1886年發(fā)表了關(guān)于回歸的開山論文《遺傳結(jié)構(gòu)中向中心的回歸(Regressiontowardsmediocrityinhereditystructure)》到現(xiàn)在是130年2024/4/62References:[1]Seber,G.A.F.,LinearRegressionAnalysis,JohnWiley,1977.[2]N.R.DraperH.SmithAppliedRegressionAnalysis,NewYork,1981.2024/4/63[3]陳希孺,王松桂,近代回歸分析,合肥:安徽教育出版社,1987。2024/4/64[4]方開泰,實(shí)用回歸分析,北京:科學(xué)出版社,1988。2024/4/65[5]張勇,王國(guó)明,趙秀珍譯,[美]約翰·內(nèi)特,應(yīng)用線性回歸模型北京:中國(guó)統(tǒng)計(jì)出版社,1990。2024/4/66[6]周紀(jì)薌,回歸分析,上海:華東師范大學(xué)出版社,1993。2024/4/67[7]2024/4/68[8]何曉群,回歸分析與經(jīng)濟(jì)數(shù)據(jù)建模,北京:中國(guó)人民大學(xué)出版社,1997。2024/4/69[9]2024/4/610[10]2024/4/611[11]2024/4/612[12]2024/4/613有關(guān)RA應(yīng)用的情況:50年代計(jì)算機(jī)的發(fā)展促進(jìn)了RA的應(yīng)用70年代中國(guó)應(yīng)用90年代中國(guó)開始廣泛應(yīng)用經(jīng)濟(jì)領(lǐng)域中的應(yīng)用自然科學(xué)中的應(yīng)用社會(huì)科學(xué)中的應(yīng)用2024/4/614主要內(nèi)容:第1章回歸分析概述第2章一元線性回歸第3章多元線性回歸第4章違背基本假定的情況第5章自變量選擇與逐步回歸第6章多重共線性的情形及其處理第7章嶺回歸第8章主成分回歸與偏最小二乘第9章非線性回歸第10章含定性變量的回歸模型2024/4/615第1章回歸分析概述1.1變量間的統(tǒng)計(jì)關(guān)系1.2回歸方程與回歸名稱的由來1.3回歸分析的主要內(nèi)容及其一般模型1.4建立實(shí)際問題回歸模型的過程1.5回歸分析應(yīng)用與發(fā)展述評(píng)思考與練習(xí)2024/4/6161.1變量間的統(tǒng)計(jì)關(guān)系函數(shù)關(guān)系商品的銷售額與銷售量之間的關(guān)系y=px圓的面積與半徑之間的關(guān)系S=
R2
原材料消耗額與產(chǎn)量(x1)
、單位產(chǎn)量消耗(x2)
、原材料價(jià)格(x3)之間的關(guān)系y=x1x2x3
2024/4/6171.1變量間的統(tǒng)計(jì)關(guān)系2024/4/6181.1變量間的統(tǒng)計(jì)關(guān)系相關(guān)關(guān)系的例子子女身高(y)與父親身高(x)之間的關(guān)系收入水平(y)與受教育程度(x)之間的關(guān)系糧食畝產(chǎn)量(y)與施肥量(x1)、降雨量(x2)、溫度(x3)之間的關(guān)系商品的消費(fèi)量(y)與居民收入(x)之間的關(guān)系商品銷售額(y)與廣告費(fèi)支出(x)之間的關(guān)系2024/4/6191.1變量間的統(tǒng)計(jì)關(guān)系2024/4/6201.2回歸方程與回歸名稱的由來英國(guó)統(tǒng)計(jì)學(xué)家F.Galton(1822-1911年)。F.Galton和他的學(xué)生、現(xiàn)代統(tǒng)計(jì)學(xué)的奠基者之一K.Pearson(1856—1936年)在研究父母身高與其子女身高的遺傳問題時(shí),觀察了1078對(duì)夫婦,2024/4/6212024/4/622
1.3回歸分析的主要內(nèi)容及其一般模型回歸分析的主要內(nèi)容2024/4/622f(x)=E(y|x) (1.1)(1.2)2024/4/623 (1.3) (1.7)
1.4建立實(shí)際問題回歸模型的過程設(shè)置指標(biāo)變量收集整理數(shù)據(jù)構(gòu)造理論模型估計(jì)模型參數(shù)修改
N模型運(yùn)用Y經(jīng)濟(jì)因素分析經(jīng)濟(jì)變量控制
經(jīng)濟(jì)決策預(yù)測(cè)實(shí)際問題模型檢驗(yàn)2024/4/6242024/4/625
建立實(shí)際問題回歸模型的過程
這里要說明的是,當(dāng)變量及樣本較多時(shí),參數(shù)估計(jì)的計(jì)算量很大,只有依靠計(jì)算機(jī)才能得到可靠的結(jié)果?,F(xiàn)在這方面的現(xiàn)成計(jì)算機(jī)軟件很多,如Minitab、SPSS、SAS等都是參數(shù)估計(jì)的基本軟件。2024/4/6252024/4/6261.5回歸分析應(yīng)用與發(fā)展述評(píng)從Gauss提出最小二乘法算起,回歸分析已經(jīng)有200年的歷史?;貧w分析的應(yīng)用非常廣泛,我們大概很難找到不用它的領(lǐng)域,這也正是一百多年來經(jīng)久不衰,生命力強(qiáng)大的根本原因。這里簡(jiǎn)述回歸分析在經(jīng)濟(jì)領(lǐng)域的廣泛應(yīng)用。我們知道計(jì)量經(jīng)濟(jì)學(xué)是現(xiàn)代經(jīng)濟(jì)學(xué)中影響最大的一門獨(dú)立學(xué)科。諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)獲得者薩繆爾森曾經(jīng)說過:第二次世界大戰(zhàn)后的經(jīng)濟(jì)學(xué)是計(jì)量經(jīng)濟(jì)學(xué)的時(shí)代。然而,計(jì)量經(jīng)濟(jì)學(xué)中的基本計(jì)量方法就是回歸分析,計(jì)量經(jīng)濟(jì)學(xué)的一個(gè)重要理論支柱是回歸分析理論。2024/4/6262024/4/627
回歸分析應(yīng)用與發(fā)展述評(píng)自從1969年設(shè)立諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)以來,已有60多位學(xué)者獲獎(jiǎng),其中絕大部分獲獎(jiǎng)?wù)呤墙y(tǒng)計(jì)學(xué)家、計(jì)量經(jīng)濟(jì)學(xué)家、數(shù)學(xué)家。從大多數(shù)獲獎(jiǎng)?wù)叩闹骺?他們對(duì)統(tǒng)計(jì)學(xué)及回歸分析方法的應(yīng)用都有嫻熟的技巧。這足以說明統(tǒng)計(jì)學(xué)方法在現(xiàn)代經(jīng)濟(jì)研究中的重要作用。矩陣?yán)碚摵陀?jì)算機(jī)技術(shù)的發(fā)展為回歸分析模型在經(jīng)濟(jì)研究中的應(yīng)用提供了極大的方便。國(guó)民經(jīng)濟(jì)是一個(gè)錯(cuò)綜復(fù)雜的系統(tǒng),對(duì)于宏觀經(jīng)濟(jì)問題常需要涉及幾十個(gè)甚至幾千個(gè)變量和方程,如果沒有先進(jìn)的計(jì)算機(jī)和求解線性方程組的矩陣計(jì)算理論,要研究復(fù)雜的經(jīng)濟(jì)問題是不可想象的。2024/4/6272024/4/628
回歸分析應(yīng)用與發(fā)展述評(píng)一個(gè)20階的線性方程組要用克萊姆法則去求解,就需要計(jì)算1022次乘法運(yùn)算,這可是一個(gè)天文數(shù)字。然而用矩陣變換的方法只需6000次乘法運(yùn)算。也正是由于計(jì)算方法的改進(jìn)和現(xiàn)代計(jì)算機(jī)的發(fā)展,使得過去不可想象的事情變成了現(xiàn)實(shí)。計(jì)量經(jīng)濟(jì)學(xué)研究中涉及的變量和方程也越來越多。例如英國(guó)劍橋大學(xué)的多部門動(dòng)態(tài)模型,多達(dá)2759個(gè)方程,7484個(gè)變量;由諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)獲得者克萊因發(fā)起的國(guó)際連接系統(tǒng),使用了7447個(gè)方程和3368個(gè)外生變量。2024/4/6282024/4/629
回歸分析應(yīng)用與發(fā)展述評(píng)模型技術(shù)在經(jīng)濟(jì)問題研究中的應(yīng)用在我國(guó)也已盛行起來。從20世紀(jì)80年代初期以來,每年都有許多國(guó)家級(jí)和省級(jí)鑒定的計(jì)量經(jīng)濟(jì)應(yīng)用成果。特別是在一些省級(jí)以上的重點(diǎn)經(jīng)濟(jì)課題中,經(jīng)濟(jì)學(xué)碩士學(xué)位的論文中,如果沒有模型技術(shù)的應(yīng)用,給人的印象總感分量不足。這些足以說明模型技術(shù)的應(yīng)用在我國(guó)也倍受重視。這里要強(qiáng)調(diào)說明的是,回歸分析方法是模型技術(shù)中最基本的內(nèi)容?;貧w分析的理論和方法研究200年來也得到不斷發(fā)展。統(tǒng)計(jì)學(xué)中的許多重要方法都與回歸分析有著密切的聯(lián)系。如時(shí)間序列分析、判別分析、主成分分析、因子分析、典型相關(guān)分析等。這些都極大地豐富了統(tǒng)計(jì)學(xué)方法的寶庫(kù)。2024/4/6292024/4/630
回歸分析應(yīng)用與發(fā)展述評(píng)回歸分析方法自身的完善和發(fā)展至今是統(tǒng)計(jì)學(xué)家研究的熱點(diǎn)課題。例如自變量的選擇、穩(wěn)健回歸、回歸診斷、投影尋蹤、非參數(shù)回歸模型等近年仍有大量研究文獻(xiàn)出現(xiàn)。在回歸模型中,當(dāng)自變量代表時(shí)間,因變量不獨(dú)立并且構(gòu)成平穩(wěn)序列時(shí),這種回歸模型的研究就是統(tǒng)計(jì)學(xué)中的另一個(gè)重要分支——時(shí)間序列分析。它提供了一系列動(dòng)態(tài)數(shù)據(jù)的處理方法,幫助人們科學(xué)地研究分析所獲得的動(dòng)態(tài)數(shù)據(jù),從而建立描述動(dòng)態(tài)數(shù)據(jù)的數(shù)學(xué)模型,以達(dá)到預(yù)測(cè)、控制的目的。2024/4/6302024/4/631回歸分析應(yīng)用與發(fā)展述評(píng)因變量y和自變量x都是一維時(shí),稱它為一元回歸模型;當(dāng)x是多維,y是一維時(shí),則它為多元回歸模型;若x是多維,y也是多維的,則稱它為多重回歸模型。特別是當(dāng)因變量觀察矩陣Y的諸行向量假定是獨(dú)立的,而列向量假定是相關(guān)的,就稱為半相依回歸方程系統(tǒng)。對(duì)于滿足基本假設(shè)的回歸模型,它的理論已經(jīng)成熟,但對(duì)于違背基本假設(shè)的回歸模型的參數(shù)估計(jì)問題近些年仍有較多研究。2024/4/6312024/4/632
回歸分析應(yīng)用與發(fā)展述評(píng)在實(shí)際問題的研究應(yīng)用中,人們發(fā)現(xiàn)經(jīng)典的最小二乘估計(jì)的結(jié)果并不總是令人滿意,統(tǒng)計(jì)學(xué)家們從多方面進(jìn)行努力試圖克服經(jīng)典方法的不足。例如,為了克服設(shè)計(jì)矩陣的病態(tài)性,提出了以嶺估計(jì)為代表的多種有偏估計(jì)。Stein于1955年證明了當(dāng)維數(shù)p大于2時(shí),正態(tài)均值向量最小二乘估計(jì)的不可容許性,即能夠找到另一個(gè)估計(jì)在某種意義上一致優(yōu)于最小二乘估計(jì).從此之后人們提出了許多新的估計(jì),其中主要有嶺估計(jì),主成分估計(jì),Stein估計(jì),以及特征根估計(jì),偏最小二乘法。這些估計(jì)的共同點(diǎn)是有偏的,即它們的均值并不等于待估參數(shù)。于是人們把這些估計(jì)稱為有偏估計(jì)。當(dāng)設(shè)計(jì)矩陣X呈病態(tài)時(shí),這些估計(jì)都改進(jìn)了最小二乘估計(jì)。2024/4/632
一元線性回歸2.1一元線性回歸模型2.2參數(shù)β0、β1的估計(jì)2.3最小二乘估計(jì)的性質(zhì)2.4回歸方程的顯著性檢驗(yàn)2.5殘差分析2.6回歸系數(shù)的區(qū)間估計(jì)2.7預(yù)測(cè)和控制2.8本章小結(jié)與評(píng)注2024/4/6332.1一元線性回歸模型例2.1
表2.1列出了15起火災(zāi)事故的損失及火災(zāi)發(fā)生地與最近的消防站的距離。2024/4/634表2.1 火災(zāi)損失表2024/4/635【例2.2】在研究我國(guó)城鎮(zhèn)人均支出和人均收入之間關(guān)系的問題中,把城鎮(zhèn)家庭平均每人全年消費(fèi)性支出記作y(元);把城鎮(zhèn)家庭平均每人可支配收入記作(元)。我們收集到1990——2012年23年的樣本數(shù)據(jù)。數(shù)據(jù)見表2.2;樣本分布情況見圖2.2。2024/4/6362024/4/6372024/4/638圖2-22.1一元線性回歸模型一元線性回歸模型
y=β0+β1x+ε2024/4/639回歸方程E(y|x)=β0+β1x2.1一元線性回歸模型樣本模型
yi=β0+β1xi+εi, i=1,2,…,n2024/4/640回歸方程E(yi)=β0+β1xi,var(yi)=σ2,樣本觀測(cè)值(x1,y1),(x2,y2),…,(xn,yn)經(jīng)驗(yàn)回歸方程
回歸方程平均意義的解釋2.2參數(shù)β0、β1的估計(jì)一、普通最小二乘估計(jì)
(OrdinaryLeastSquareEstimation,簡(jiǎn)記為OLSE)2024/4/641最小二乘法就是尋找參數(shù)β0、β1的估計(jì)值使離差平方和達(dá)極小稱為yi的回歸擬合值,簡(jiǎn)稱回歸值或擬合值
稱為yi的殘差有人用絕對(duì)值2.2參數(shù)β0、β1的估計(jì)2024/4/6422.2參數(shù)β0、β1的估計(jì)2024/4/643經(jīng)整理后,得正規(guī)方程組2.2參數(shù)β0、β1的估計(jì)2024/4/644得OLSE為記2.2參數(shù)β0、β1的估計(jì)2024/4/645續(xù)例2.1回歸方程2.2參數(shù)β0、β1的估計(jì)2024/4/646二、最大似然估計(jì)
連續(xù)型:是樣本的聯(lián)合密度函數(shù):離散型:是樣本的聯(lián)合概率函數(shù)。似然函數(shù)并不局限于獨(dú)立同分布的樣本。似然函數(shù)在假設(shè)εi~N(0,σ2)時(shí),由(2.10)式知yi服從如下正態(tài)分布:2.2參數(shù)β0、β1的估計(jì)2024/4/647二、最大似然估計(jì)
y1,y2,…,yn的似然函數(shù)為:對(duì)數(shù)似然函數(shù)為:與最小二乘原理完全相同
2.3最小二乘估計(jì)的性質(zhì)2024/4/648一、線性
是y1,y2,…,yn的線性函數(shù)
:2.3最小二乘估計(jì)的性質(zhì)2024/4/649其中用到
二、無偏性
無偏性的意義2.3最小二乘估計(jì)的性質(zhì)2024/4/650三、的方差
回歸系數(shù)的相關(guān)情況2.3最小二乘估計(jì)的性質(zhì)2024/4/651三、的方差
在正態(tài)假設(shè)下GaussMarkov條件
2.4回歸方程的顯著性檢驗(yàn)2024/4/652一、t
檢驗(yàn)
原假設(shè):H0:β1=0 對(duì)立假設(shè):H1
:β1≠0
由當(dāng)原假設(shè)H0:β1=0成立時(shí)有:
2.4回歸方程的顯著性檢驗(yàn)2024/4/653一、t
檢驗(yàn)
構(gòu)造t統(tǒng)計(jì)量
其中2.4回歸方程的顯著性檢驗(yàn)2024/4/654二、用統(tǒng)計(jì)軟件計(jì)算
1.例2.1用Excel軟件計(jì)算什么是P值?
(P-value)P值即顯著性概率值
SignificenceProbabilityValue是當(dāng)原假設(shè)為真時(shí)得到比目前的樣本更極端的樣本的概率,所謂極端就是與原假設(shè)相背離它是用此樣本拒絕原假設(shè)所犯棄真錯(cuò)誤的真實(shí)概率,被稱為觀察到的(或?qū)崪y(cè)的)顯著性水平2024/4/655雙側(cè)檢驗(yàn)的P值2024/4/656
/
2
/
2
t拒絕拒絕H0值臨界值計(jì)算出的樣本統(tǒng)計(jì)量計(jì)算出的樣本統(tǒng)計(jì)量臨界值1/2P值1/2P值左側(cè)檢驗(yàn)的P值2024/4/657H0值臨界值a樣本統(tǒng)計(jì)量拒絕域抽樣分布1-
置信水平計(jì)算出的樣本統(tǒng)計(jì)量P值右側(cè)檢驗(yàn)的P值2024/4/658H0值臨界值a拒絕域抽樣分布1-
置信水平計(jì)算出的樣本統(tǒng)計(jì)量P值利用P值進(jìn)行檢驗(yàn)的決策準(zhǔn)則若p-值>
,不能拒絕H0若p-值<
,拒絕H0雙側(cè)檢驗(yàn)p-值=2×單側(cè)檢驗(yàn)p-值2024/4/6592.4回歸方程的顯著性檢驗(yàn)2024/4/660二、用統(tǒng)計(jì)軟件計(jì)算2.例2.1用SPSS軟件計(jì)算2.4回歸方程的顯著性檢驗(yàn)2024/4/661二、用統(tǒng)計(jì)軟件計(jì)算2.用SPSS軟件計(jì)算2.4回歸方程的顯著性檢驗(yàn)2024/4/662三、F檢驗(yàn)平方和分解式
SST=SSR+SSE構(gòu)造F檢驗(yàn)統(tǒng)計(jì)量
可以證明SSR和SSE均服從卡方分布2.4回歸方程的顯著性檢驗(yàn)2024/4/663三、F檢驗(yàn)一元線性回歸方差分析表方差來源自由度平方和均方F值P值回歸殘差總和1n-2n-1SSRSSESSTSSR/1SSE/(n-2)P(F>F值)=P值2.4回歸方程的顯著性檢驗(yàn)2024/4/664四、相關(guān)系數(shù)的顯著性檢驗(yàn)
2.4回歸方程的顯著性檢驗(yàn)2024/4/665四、相關(guān)系數(shù)的顯著性檢驗(yàn)
2.4回歸方程的顯著性檢驗(yàn)2024/4/666四、相關(guān)系數(shù)的顯著性檢驗(yàn)
附表1相關(guān)系數(shù)的臨界值表n-25%1%n-25%1%n-25%1%10.9971.000160.4680.590350.3250.41820.9500.990170.4560.575400.3040.39330.8780.959180.4440.561450.2880.37240.8110.947190.4330.549500.2730.35450.7540.874200.4230.537600.2500.32560.7070.834210.4130.526700.2320.30270.6660.798220.4040.515800.2170.28380.6320.765230.3960.505900.2050.26790.6020.735240.3880.4961000.1950.254100.5760.708250.3810.4871250.1740.228110.5530.684260.3740.4781500.1590.208120.5320.661270.3670.4702000.1380.181130.5140.641280.3610.4633000.1130.148140.4970.623290.3550.4564000.0980.128150.4820.606300.3490.44910000.0620.0812.4回歸方程的顯著性檢驗(yàn)2024/4/667四、相關(guān)系數(shù)的顯著性檢驗(yàn)
用SPSS軟件做相關(guān)系數(shù)的顯著性檢驗(yàn)
2.4回歸方程的顯著性檢驗(yàn)2024/4/668四、相關(guān)系數(shù)的顯著性檢驗(yàn)
兩變量間相關(guān)程度的強(qiáng)弱分為以下幾個(gè)等級(jí):當(dāng)|r|≥0.8時(shí),視為高度相關(guān);當(dāng)0.5≤|r|<0.8時(shí),視為中度相關(guān);當(dāng)0.3≤|r|<0.5時(shí),視為低度相關(guān);當(dāng)|r|<0.3時(shí),表明兩個(gè)變量之間的相關(guān)程度極弱,在實(shí)際應(yīng)用中可視為不相關(guān)。2.4回歸方程的顯著性檢驗(yàn)2024/4/669五、三種檢驗(yàn)的關(guān)系H0:b=0H0:r=0H0:回歸無效2.4回歸方程的顯著性檢驗(yàn)2024/4/670六、樣本決定系數(shù)
可以證明2.5殘差分析
2024/4/671一、殘差概念與殘差圖
殘差
誤差項(xiàng)
殘差ei是誤差項(xiàng)ei的估計(jì)值。
2.5殘差分析
2024/4/672一、殘差概念與殘差圖
2.5殘差分析
2024/4/673一、殘差概念與殘差圖
圖2.6火災(zāi)損失數(shù)據(jù)殘差圖2.5殘差分析
2024/4/674二、殘差的性質(zhì)
性質(zhì)1E(ei)=0
證明:2.5殘差分析
2024/4/675二、殘差的性質(zhì)
性質(zhì)2其中稱為杠桿值
2.5殘差分析
2024/4/676二、殘差的性質(zhì)
2.5殘差分析
2024/4/677二、殘差的性質(zhì)
性質(zhì)3.
殘差滿足約束條件:
這表明殘差是相關(guān)的,不是獨(dú)立的.2.5殘差分析
2024/4/678三、改進(jìn)的殘差
標(biāo)準(zhǔn)化殘差學(xué)生化殘差2.6回歸系數(shù)的區(qū)間估計(jì)2024/4/679
等價(jià)于β1的1-α置信區(qū)間2.7預(yù)測(cè)和控制
2024/4/680一、單值預(yù)測(cè)
2.7預(yù)測(cè)和控制
2024/4/681
二、區(qū)間預(yù)測(cè)找一個(gè)區(qū)間(T1,T2),使得
需要首先求出其估計(jì)值的分布
1.因變量新值的區(qū)間預(yù)測(cè)二、區(qū)間預(yù)測(cè)1因變量新值的區(qū)間預(yù)測(cè)2024/4/682以下計(jì)算的方差從而得二、區(qū)間預(yù)測(cè)1因變量新值的區(qū)間預(yù)測(cè)2024/4/683記于是有
則二、區(qū)間預(yù)測(cè)1因變量新值的區(qū)間預(yù)測(cè)2024/4/684y0的置信概率為1-α的置信區(qū)間為
y0的置信度為95%的置信區(qū)間近似為
能不能兩全其美二、區(qū)間預(yù)測(cè)2因變量平均值的區(qū)間估計(jì)2024/4/685得E(y0)的1-α的置信區(qū)間為
E(y0)=β0+β1x0是常數(shù)二、區(qū)間預(yù)測(cè)計(jì)算2024/4/686
對(duì)例2.1的火災(zāi)損失數(shù)據(jù),假設(shè)保險(xiǎn)公司希望預(yù)測(cè)一個(gè)距最近的消防隊(duì)x0=3.5公里的居民住宅失火的損失
點(diǎn)估計(jì)值95%區(qū)間估計(jì)單個(gè)新值:(22.32,32.67)平均值E(y0):(26.19,28.80)
的95%的近似置信區(qū)間為
=(27.50-2×2.316,27.50+2×2.316)=(22.87,32.13)三、控制問題
2024/4/687
給定y的預(yù)期范圍(T1,T2),如何控制自變量x的值才能以1-α的概率保證
用近似的預(yù)測(cè)區(qū)間來確定x。如果α=0.05,則要求
把帶入2.8本章小結(jié)與評(píng)注
一、一元線性回歸模型從建模到應(yīng)用的全過程(略)例2.2
全國(guó)人均消費(fèi)金額記作y(元);人均國(guó)民收入記為x(元)2024/4/688表2.2 人均國(guó)民收入表具體看書2.8本章小結(jié)與評(píng)注
二、有關(guān)回歸假設(shè)檢驗(yàn)問題
1973年Anscombe構(gòu)造了四組數(shù)據(jù),這四組數(shù)據(jù)所建的回歸方程是相同的,決定系數(shù),F統(tǒng)計(jì)量也都相同,且均通過顯著性檢驗(yàn)。
2024/4/6892.8本章小結(jié)與評(píng)注2024/4/690多元線性回歸
3.1多元線性回歸模型3.2回歸參數(shù)的估計(jì)3.3參數(shù)估計(jì)量的性質(zhì)3.4回歸方程的顯著性檢驗(yàn)3.5中心化和標(biāo)準(zhǔn)化3.6相關(guān)陣與偏相關(guān)系數(shù)3.7本章小結(jié)與評(píng)注2024/4/6913.1多元線性回歸模型一、多元線性回歸模型的一般形式
2024/4/692y=β0+β1x1+β2x2+…+βpxp+ε3.1多元線性回歸模型一、多元線性回歸模型的一般形式
2024/4/693對(duì)n組觀測(cè)數(shù)據(jù)(xi1,xi2,…,xip;yi),i=1,2,…,n,線性回歸模型表示為:3.1多元線性回歸模型一、多元線性回歸模型的一般形式
2024/4/694寫成矩陣形式為:y=Xβ+ε,其中,2024/4/695i=1,2,3j=1,2k=1,2為種第i種小麥并施了第J種化肥的第K塊地的產(chǎn)量寫出這個(gè)雙因素方差分析模型的矩陣形式,并把每個(gè)矩陣的具體形式寫出來。作業(yè):設(shè)有3.1多元線性回歸模型二、多元線性回歸模型的基本假定
2024/4/6961.解釋變量x1,x2,…,xp是確定性變量,不是隨機(jī)變量,且要求rk(X)=p+1<n。表明設(shè)計(jì)矩陣X中的自變量列之間不相關(guān),X是一滿秩矩陣。3.1多元線性回歸模型二、多元線性回歸模型的基本假定
2024/4/6972.隨機(jī)誤差項(xiàng)具有0均值和等方差,即
這個(gè)假定稱為Gauss-Markov條件
3.1多元線性回歸模型二、多元線性回歸模型的基本假定
2024/4/6983.正態(tài)分布的假定條件為:
用矩陣形式(3.5)式表示為:
ε~N(0,s2In)3.1多元線性回歸模型二、多元線性回歸模型的基本假定
2024/4/699在正態(tài)假定下:
y~N(Xβ,s2In)E(y)=Xβ
var(y)=s2In
3.1多元線性回歸模型三、多元線性回歸方程的解釋
2024/4/6100y表示空調(diào)機(jī)的銷售量,x1表示空調(diào)機(jī)的價(jià)格,x2表示消費(fèi)者可用于支配的收入。y=β0+β1x1+β2x2+εE(y)=β0+β1x1+β2x2
在x2保持不變時(shí),有在x1保持不變時(shí),有3.1多元線性回歸模型三、多元線性回歸方程的解釋
2024/4/6101考慮國(guó)內(nèi)生產(chǎn)總值GDP和三次產(chǎn)業(yè)增加值的關(guān)系,
GDP=x1+x2+x3現(xiàn)在做GDP對(duì)第二產(chǎn)業(yè)增加值x2的一元線性回歸,得回歸方程本章思考與練習(xí)中表3—103.1多元線性回歸模型2024/4/6102年份GDP第一產(chǎn)業(yè)增加值x1第二產(chǎn)業(yè)增加值x2第三產(chǎn)業(yè)增加值x3199018547.95017.07717.45813.5199121617.85288.69102.27227.0199226638.15800.011699.59138.6199334634.46882.116428.511323.8199446759.49457.222372.214930.0...............2006216314.424040.0103719.588554.92007265810.328627.0125831.4111351.92008314045.433702.0149003.4131340.02009340902.835226.0157638.8148038.02010401512.840533.6187383.2173596.02011473104.047486.2220412.8205205.02012518942.152373.6235162.0231406.53.1多元線性回歸模型三、多元線性回歸方程的解釋
2024/4/6103建立GDP對(duì)x1和x2的回歸,得二元回歸方程=2914.6+0.607x1+1.709x2你能夠合理地解釋兩個(gè)回歸系數(shù)嗎?3.2回歸參數(shù)的估計(jì)
一、回歸參數(shù)的普通最小二乘估計(jì)
2024/4/6104最小二乘估計(jì)要尋找3.2回歸參數(shù)的估計(jì)
一、回歸參數(shù)的普通最小二乘估計(jì)
2024/4/61053.2回歸參數(shù)的估計(jì)
一、回歸參數(shù)的普通最小二乘估計(jì)
2024/4/6106經(jīng)整理后得用矩陣形式表示的正規(guī)方程組
移項(xiàng)得存在時(shí),即得回歸參數(shù)的最小二乘估計(jì)為:3.2回歸參數(shù)的估計(jì)
二、回歸值與殘差2024/4/6107為回歸值
稱為帽子矩陣,其主對(duì)角線元素記為hii
,則此式的證明只需根據(jù)跡的性質(zhì)tr(AB)=tr(BA),因而3.2回歸參數(shù)的估計(jì)
二、回歸值與殘差2024/4/6108
cov(e,e)=cov((I-H)Y,(I-H)Y)=(I-H)cov(Y,Y)(I-H)′=σ2(I-H)In(I-H)′=σ2(I-H)得
D(ei)=(1-hii)σ2,i=1,2,…,n3.2回歸參數(shù)的估計(jì)
二、回歸值與殘差2024/4/6109
是σ2的無偏估計(jì)
3.2回歸參數(shù)的估計(jì)
三、回歸參數(shù)的最大似然估計(jì)
2024/4/6110
y~N(Xβ,σ2In)似然函數(shù)為
等價(jià)于使(y-Xβ)′(y-Xβ)達(dá)到最小,這又完全與OLSE一樣四、實(shí)例分析【例3.1】現(xiàn)實(shí)生活中,影響一個(gè)地區(qū)居民消費(fèi)的因素有很多,例如,一個(gè)地區(qū)的人均生產(chǎn)總值、收入水平、消費(fèi)價(jià)格指數(shù)、生活必需品的花費(fèi)等。本例選取9個(gè)解釋變量研究城鎮(zhèn)居民家庭平均每人全年的消費(fèi)性支出y,解釋變量為居民的食品花費(fèi),居民的服裝花費(fèi),居民的居住花費(fèi),居民的醫(yī)療花費(fèi),居民的教育花費(fèi),地區(qū)的職工平均工資,地區(qū)的人均GDP,地區(qū)的消費(fèi)價(jià)格指數(shù),地區(qū)的失業(yè)率。本例選取2013年《中國(guó)統(tǒng)計(jì)年鑒》我國(guó)30個(gè)省、市、自治區(qū)(西藏地區(qū)失業(yè)率數(shù)據(jù)缺失,因此從樣本中去除西藏)2012年的數(shù)據(jù),以居民的消費(fèi)性支出(元)為因變量,以如上9個(gè)變量為自變量作多元線性回歸。數(shù)據(jù)見表3.1,其中,自變量單位為元,因變量單位為百分?jǐn)?shù)。2024/4/6111表3.12024/4/6112地區(qū)北京753526391971165836968474287475106.51.324046天津734418811854155622546151493173107.53.620024河北421115421502104712043865836584104.13.712531山西38561529143990615064423633628108.83.312212內(nèi)蒙古546327301584135419724655763886109.63.717717遼寧580920421433131018444185856649107.73.616594吉林4635204515941448164338407434151113.714614黑龍江468718071337118112173640635711104.84.212984上海9656211117901017372478673853731063.126253江蘇665819161437105830785063968347112.63.118825浙江755221101552122829975019763374104.5321545.................................陜西555117891322121220794307338564109.43.215333甘肅460216311288105013883767921978108.62.712847青海46671512123290610974648333181110.63.412346寧夏476918761193106315164743636394105.54.214067新疆523920311167102812814457633796114.83.413892用SPSS22.0計(jì)算出的回歸系數(shù)見輸出結(jié)果3.1(65頁(yè))輸出結(jié)果3.1
回歸系數(shù)表2024/4/6113因而y對(duì)9個(gè)自變量的線性回歸方程為2024/4/61143.3參數(shù)估計(jì)量的性質(zhì)
2024/4/6115
性質(zhì)1
是隨機(jī)向量y的一個(gè)線性變換。性質(zhì)2
是β的無偏估計(jì)。
2024/4/61163.3參數(shù)估計(jì)量的性質(zhì)
2024/4/6117
當(dāng)p=1時(shí)
即可得(2.41)、(2.42)、(2.45)式利用SPSS軟件可以方便的計(jì)算出的協(xié)方差陣與相關(guān)陣,的協(xié)方差陣與相關(guān)陣不屬于默認(rèn)輸出值,在LinearRegression對(duì)話框中點(diǎn)選Statistics→Covariancematrix即可。例3.1的數(shù)據(jù)計(jì)算出的的相關(guān)陣與協(xié)方差陣如表3.2、表3.3所示,其中表的格式已略作修改。2024/4/61183.3參數(shù)估計(jì)量的性質(zhì)
2024/4/6119
性質(zhì)4Gauss-Markov定理預(yù)測(cè)函數(shù)
是的線性函數(shù)
Gauss-Markov定理
在假定E(y)=Xβ,D(y)=σ2In時(shí),β的任一線性函數(shù)的最小方差線性無偏估計(jì)(BestLnearUnbiasedEstimator簡(jiǎn)記為BLUE)為c′,其中c是任一p+1維向量,是β的最小二乘估計(jì)。3.3參數(shù)估計(jì)量的性質(zhì)
2024/4/6120
第一,取常數(shù)向量c的第j(j=0,1,…,p)個(gè)分量為1,其余分量為0,這時(shí)G-M定理表明最小二乘估計(jì)是βj的最小方差線性無偏估計(jì)。第二,可能存在y1,y2,…,yn的非線性函數(shù),作為的無偏估計(jì),比最小二乘估計(jì)的方差更小。第三,可能存在的有偏估計(jì)量,在某種意義(例如均方誤差最?。┫卤茸钚《斯烙?jì)更好。第四,在正態(tài)假定下,是的最小方差無偏估計(jì)。也就是說,既不可能存在y1,y2,…,yn的非線性函數(shù),也不可能存在y1,y2,…,yn的其它線性函數(shù),作為的無偏估計(jì),比最小二乘估計(jì)方差更小。3.3參數(shù)估計(jì)量的性質(zhì)
2024/4/6121性質(zhì)5cov(,e)=0此性質(zhì)說明與e不相關(guān),在正態(tài)假定下等價(jià)于與e獨(dú)立,從而與獨(dú)立。性質(zhì)6
在正態(tài)假設(shè)(1)(2)3.4回歸方程的顯著性檢驗(yàn)2024/4/6122
一、F檢驗(yàn)
H0:β1=β2=…=βp=0SST=SSR+SSE
當(dāng)H0成立時(shí)服從方差來源自由度平方和均方F值P值回歸殘差總和pn-p-1n-1SSRSSESSTSSR/pSSE/(n-p-1)P(F>F值)=P值3.4回歸方程的顯著性檢驗(yàn)2024/4/6123
一、F檢驗(yàn)
對(duì)例3.1的數(shù)據(jù),用SPSS軟件計(jì)算出的方差分析表見輸出結(jié)果3.2。輸出結(jié)果3.2F=298.8822024/4/61243.4回歸方程的顯著性檢驗(yàn)2024/4/6125
二、回歸系數(shù)的顯著性檢驗(yàn)(t檢驗(yàn))H0j:βj=0,j=1,2,…,p~N(β,σ2(X'X)-1)記(X'X)-1=(cij)i,j=0,1,2,…,p構(gòu)造t統(tǒng)計(jì)量
其中3.4回歸方程的顯著性檢驗(yàn)2024/4/6126
二、回歸系數(shù)的顯著性檢驗(yàn)輸出結(jié)果3.1輸出結(jié)果3.32024/4/6127輸出結(jié)果3.42024/4/61283.4回歸方程的顯著性檢驗(yàn)2024/4/6129
二、回歸系數(shù)的顯著性檢驗(yàn)
從另外一個(gè)角度考慮自變量xj的顯著性。y對(duì)自變量x1,x2,…,xp線性回歸的殘差平方和為SSE,回歸平方和為SSR,在剔除掉xj后,用y對(duì)其余的p-1個(gè)自變量做回歸,記所得的殘差平方和為SSE(j),回歸平方和為SSR(j),則自變量xj對(duì)回歸的貢獻(xiàn)為ΔSSR(j)=SSR-SSR(j),稱為xj的偏回歸平方和。由此構(gòu)造偏F統(tǒng)計(jì)量3.4回歸方程的顯著性檢驗(yàn)2024/4/6130
二、回歸系數(shù)的顯著性檢驗(yàn)
當(dāng)原假設(shè)H0j
:βj=0成立時(shí),(3.42)式的偏F統(tǒng)計(jì)量Fj服從自由度為(1,n-p-1)的F分布,此F檢驗(yàn)與(3.40)式的t檢驗(yàn)是一致的,可以證明Fj=tj2(3.42)3.4回歸方程的顯著性檢驗(yàn)2024/4/6131
三、回歸系數(shù)的置信區(qū)間可得βj的置信度為1-α的置信區(qū)間為:3.4回歸方程的顯著性檢驗(yàn)2024/4/6132四、擬合優(yōu)度
決定系數(shù)為:
y關(guān)于x1,x2,…,xp的樣本復(fù)相關(guān)系數(shù)3.5中心化和標(biāo)準(zhǔn)化
2024/4/6133
一、中心化
經(jīng)驗(yàn)回歸方程
經(jīng)過樣本中心
將坐標(biāo)原點(diǎn)移至樣本中心,即做坐標(biāo)變換:
回歸方程轉(zhuǎn)變?yōu)椋夯貧w常數(shù)項(xiàng)為3.5中心化和標(biāo)準(zhǔn)化
2024/4/6134
二、標(biāo)準(zhǔn)化回歸系數(shù)
樣本數(shù)據(jù)的標(biāo)準(zhǔn)化公式為:
得標(biāo)準(zhǔn)化的回歸方程
3.5中心化和標(biāo)準(zhǔn)化
2024/4/6135
二、標(biāo)準(zhǔn)化回歸系數(shù)
當(dāng)自變量的單位不同時(shí)普通最小二乘估計(jì)的回歸系數(shù)不具有可比性,例如有一回歸方程為:其中x1的單位是噸,x2的單位是公斤3.6相關(guān)陣與偏相關(guān)系數(shù)
2024/4/6136
一、樣本相關(guān)陣(第78頁(yè)表3.5)自變量樣本相關(guān)陣
增廣的樣本相關(guān)陣為:
3.6相關(guān)陣與偏相關(guān)系數(shù)
2024/4/6137二、偏判定系數(shù)
當(dāng)其他變量被固定后,給定的任兩個(gè)變量之間的相關(guān)系數(shù),叫偏相關(guān)系數(shù)。
偏相關(guān)系數(shù)可以度量p+1個(gè)變量y,x1,x2,xp之中任意兩個(gè)變量的線性相關(guān)程度,而這種相關(guān)程度是在固定其余p-1個(gè)變量的影響下的線性相關(guān)。
3.6相關(guān)陣與偏相關(guān)系數(shù)
2024/4/6138
二、偏判定系數(shù)
偏判定系數(shù)測(cè)量在回歸方程中已包含若干個(gè)自變量時(shí),再引入某一個(gè)新的自變量后y的剩余變差的相對(duì)減少量,它衡量y的變差減少的邊際貢獻(xiàn)。3.6相關(guān)陣與偏相關(guān)系數(shù)
2024/4/6139
1.兩個(gè)自變量的偏判定系數(shù)二元線性回歸模型為:yi=β0+β1xi1+β2xi2+εi記SSE(x2)是模型中只含有自變量x2時(shí)y的殘差平方和,SSE(x1,x2)是模型中同時(shí)含有自變量x1和x2時(shí)y的殘差平方和。因此模型中已含有x2時(shí)再加入x1使y的剩余變差的相對(duì)減小量為:此即模型中已含有x2時(shí),y與x1的偏判定系數(shù)。3.6相關(guān)陣與偏相關(guān)系數(shù)
2024/4/6140
1.兩個(gè)自變量的偏判定系數(shù)同樣地,模型中已含有x1時(shí),y與x2的偏判定系數(shù)為:3.6相關(guān)陣與偏相關(guān)系數(shù)
2024/4/6141
2.一般情況在模型中已含有x2,…,xp時(shí),y與x1的偏判定系數(shù)為:3.6相關(guān)陣與偏相關(guān)系數(shù)
2024/4/6142
三、偏相關(guān)系數(shù)
偏判定系數(shù)的平方根稱為偏相關(guān)系數(shù),其符號(hào)與相應(yīng)的回歸系數(shù)的符號(hào)相同。
例3.2
研究北京市各經(jīng)濟(jì)開發(fā)區(qū)經(jīng)濟(jì)發(fā)展與招商投資的關(guān)系,因變量y為各開發(fā)區(qū)的銷售收入(百萬元),選取兩個(gè)自變量,
x1為截至1998年底各開發(fā)區(qū)累計(jì)招商數(shù)目,
x2為招商企業(yè)注冊(cè)資本(百萬元)。表中列出了至1998年底招商企業(yè)注冊(cè)資本x2在5億至50億元的15個(gè)開發(fā)區(qū)的數(shù)據(jù)。3.6相關(guān)陣與偏相關(guān)系數(shù)
2024/4/6143
三、偏相關(guān)系數(shù)
北京開發(fā)區(qū)數(shù)據(jù)x1x2yx1x2y253547.79553.967671.13122.2420896.34208.555322863.3214006750.323.175116046410012087.052815.440862.757.55251639.311052.12187672.99224.188253357.73427122901.76538.94120808.47442.82743546.182442.7928520.2770.123.6相關(guān)陣與偏相關(guān)系數(shù)
2024/4/6144
三、偏相關(guān)系數(shù)
偏相關(guān)系數(shù)表書后有part解釋3.6相關(guān)陣與偏相關(guān)系數(shù)
2024/4/6145
三、偏相關(guān)系數(shù)
用y與x1做一元線性回歸時(shí),x1能消除y的變差SST的比例為再引入x2時(shí),x2能消除剩余變差SSE(X1)的比例為因而自變量x1和x2消除y變差的總比例為=1-(1-0.651)(1-0.546)=0.842=84.2%。這個(gè)值84.2%恰好是y對(duì)x1和x2二元線性回歸的判定系數(shù)R23.6相關(guān)陣與偏相關(guān)系數(shù)
2024/4/6146
三、偏相關(guān)系數(shù)
對(duì)任意p個(gè)變量x1,x2,…,xp定義它們之間的偏相關(guān)系數(shù)其中符號(hào)Δij表示相關(guān)陣第i行第j列元素的代數(shù)余子式驗(yàn)證以x1表示某種商品的銷售量,
x2表示消費(fèi)者人均可支配收入,
x3表示商品價(jià)格。從經(jīng)驗(yàn)上看,銷售量x1與消費(fèi)者人均可支配收入x2之間應(yīng)該有正相關(guān),簡(jiǎn)單相關(guān)系數(shù)r12應(yīng)該是正的。但是如果你計(jì)算出的r12是個(gè)負(fù)數(shù)也不要感到驚訝,這是因?yàn)檫€有其它沒有被固定的變量在發(fā)揮影響,例如商品價(jià)格x3在這期間大幅提高了。反映固定x3后x1與x2相關(guān)程度的偏相關(guān)系數(shù)r12;3會(huì)是個(gè)正數(shù)。2024/4/61473.7本章小結(jié)與評(píng)注
2024/4/6148
例3.3中國(guó)民航客運(yùn)量的回歸模型。y—民航客運(yùn)量(萬人),x1—國(guó)民收入(億元),x2—消費(fèi)額(億元),x3—鐵路客運(yùn)量(萬人),x4—民航航線里程(萬公里),x5—來華旅游入境人數(shù)(萬人)。根據(jù)《1994年統(tǒng)計(jì)摘要》獲得1978-1993年統(tǒng)計(jì)數(shù)據(jù)3.7本章小結(jié)與評(píng)注
2024/4/6149
年份yx1x2x3x4x51978231301018888149114.89180.921979298335021958638916.00420.391980343368825319220419.53570.251981401394127999530021.82776.711982445425830549992223.27792.4319833914736335810604422.91947.7019845545652390511035326.021285.2219857447020487911211027.721783.3019869977859555210857932.432281.95198713109313638611242938.912690.231988144211738803812264537.383169.481989128313176900511380747.192450.14199016601438496639571250.682746.201991217816557109699508155.913335.651992288620223129859969383.663311.5019933383248821594910545896.084152.703.7本章小結(jié)與評(píng)注
2024/4/6150
3.7本章小結(jié)與評(píng)注
2024/4/6151
3.7本章小結(jié)與評(píng)注
2024/4/6152
當(dāng)回歸模型的未知參數(shù)估計(jì)出來后,我們實(shí)際上是由n組樣本觀測(cè)數(shù)據(jù)得到一個(gè)經(jīng)驗(yàn)回歸方程,這個(gè)經(jīng)驗(yàn)回歸方程是否真正反映了變量y和變量x1,x2,…,xp之間的線性關(guān)系,這就需要進(jìn)一步對(duì)回歸方程進(jìn)行檢驗(yàn)。一種檢驗(yàn)方法是擬合優(yōu)度檢驗(yàn),即用樣本決定系數(shù)的大小來衡量模型的擬合優(yōu)度。樣本決定系數(shù)R2越大,說明回歸方程擬合原始數(shù)據(jù)y的觀測(cè)值的效果越好。但由于R2的大小與樣本容量n以及自變量個(gè)數(shù)p有關(guān),當(dāng)n與p的數(shù)目接近時(shí),R2容易接近于1,這說明R2中隱含著一些虛假成分。因此,僅由R2的值很大,去推斷模型優(yōu)劣一定要慎重。前幾年我們?cè)谥摹督?jīng)濟(jì)研究》雜志也看到有作者忽略了這一問題,犯了統(tǒng)計(jì)方法應(yīng)用的低級(jí)錯(cuò)誤。2024/4/6153對(duì)于回歸方程的顯著性檢驗(yàn),我們用F統(tǒng)計(jì)量去判斷假設(shè)H0:β1=β2=…=βp=0是否成立。當(dāng)給定顯著性水平α?xí)r,F>Fα(p,n-p-1),則拒絕假設(shè)H0,否則不拒絕H0。接受假設(shè)H0和拒絕假設(shè)H0對(duì)于回歸方程來說意味著什么,這仍需慎重對(duì)待。2024/4/6154一般來說,當(dāng)接受假設(shè)H0時(shí),認(rèn)為在給定的顯著性水平α之下,自變量x1,x2,…,xp對(duì)因變量y無顯著性影響,于是通過x1,x2,…,xp去推斷y也就無多大意義。在這種情況下,一方面可能這個(gè)問題本來應(yīng)該用非線性模型去描述,而我們誤用線性模型描述了,使得自變量對(duì)因變量無顯著影響;另一方面可能是在考慮自變量時(shí)由于我們認(rèn)識(shí)上的局限性把一些影響因變量y的自變量漏掉了。這就從兩個(gè)方面提醒我們?nèi)ブ匦驴紤]建模問題。2024/4/6155當(dāng)我們拒絕了假設(shè)H0時(shí),我們也不能過于相信這個(gè)檢驗(yàn),認(rèn)為這個(gè)回歸模型已經(jīng)很完美了。其實(shí)當(dāng)拒絕H0時(shí),我們只能認(rèn)為這個(gè)回歸模型在一定程度上說明了自變量x1,x2,…,xp與因變量y的線性關(guān)系。因?yàn)檫@時(shí)仍不能排除我們漏掉了一些重要的自變量。參考文獻(xiàn)[2]的作者認(rèn)為,此檢驗(yàn)只宜用于輔助性的、事后驗(yàn)證性質(zhì)的目的。研究者在事前根據(jù)專業(yè)知識(shí)及經(jīng)驗(yàn),認(rèn)為已把較重要的自變量選入了,且在一定誤差限度內(nèi)認(rèn)為模型為線性是合理的。經(jīng)過樣本數(shù)據(jù)計(jì)算后,可以用來驗(yàn)證一下,原先的考慮是否周全。這時(shí),若拒絕H0,可認(rèn)為至少并不與他原來的設(shè)想矛盾。如果接受H0,可以認(rèn)為模型是不能反映因變量y與自變量x1,x2,…,xp的線性關(guān)系,這個(gè)模型就不能應(yīng)用于實(shí)際預(yù)測(cè)和分析。2024/4/6156當(dāng)樣本容量n較小,變量個(gè)數(shù)p較大時(shí),F檢驗(yàn)或t檢驗(yàn)的自由度太小,這時(shí)盡管樣本決定系數(shù)R2很大,但參數(shù)估計(jì)的效果很不穩(wěn)定。我們?cè)l(fā)現(xiàn)一個(gè)實(shí)際應(yīng)用例子暴露出這方面的問題。有文獻(xiàn)在研究建筑業(yè)降低成本率y對(duì)流動(dòng)資金x1、固定資金x2、優(yōu)良品率x3、竣工面積x4、勞動(dòng)生產(chǎn)率x5、施工產(chǎn)值x6的關(guān)系時(shí),利用書上表3.8數(shù)據(jù)建立回歸方程,得回歸方程SST=154.7646,SSR=143.45,SSE=11.3146F=4.226,R2=0.926792024/4/6157由于R2=0.92679,所以該文獻(xiàn)中作者認(rèn)為上述回歸方程非常顯著。其實(shí)進(jìn)一步作F檢驗(yàn),給定α=0.05,查F分布表,F0.05(p,n-p-1)=F0.05(6,2)=19.3。F=4.226<F0.05(6,2)=19.3。回歸方程沒有通過F檢驗(yàn)??墒窃撐墨I(xiàn)當(dāng)時(shí)給錯(cuò)了自由度,查F0.05(6,9)=3.37。結(jié)果F>F0.05(6,9),通過了檢驗(yàn),從而進(jìn)一步肯定了上述回歸方程。之所以R2在0.9以上,已接近1,方程還通不過F檢驗(yàn),這就是樣本容量個(gè)數(shù)n太小,而自變量又較多造成R2的虛假現(xiàn)象。如果樣本容量再稍作改變,未知參數(shù)就會(huì)發(fā)生較大變化,即表現(xiàn)出很不穩(wěn)定的狀況。2024/4/6158違背基本假設(shè)的情況2024/4/6159
4.1異方差性產(chǎn)生的背景和原因4.2一元加權(quán)最小二乘估計(jì)4.3多元加權(quán)最小二乘估計(jì)4.4自相關(guān)性問題及其處理4.5BOX-COX變換4.6異常值與強(qiáng)影響點(diǎn)4.7本章小結(jié)與評(píng)注第四章違背基本假設(shè)的情況2024/4/6160
Gauss-Markov條件
4.1異方差性產(chǎn)生的背景和原因
2024/4/6161
一、異方差產(chǎn)生的原因
例4.1居民收入與消費(fèi)水平有著密切的關(guān)系。用xi表示第i戶的收入量,yi表示第i戶的消費(fèi)額,一個(gè)簡(jiǎn)單的消費(fèi)模型為:yi=β0+β1xi+εi,i=1,2,…,n低收入的家庭購(gòu)買差異性比較小,高收入的家庭購(gòu)買行為差異就很大。導(dǎo)致消費(fèi)模型的隨機(jī)項(xiàng)εi具有不同的方差。4.1異方差性產(chǎn)生的背景和原因
2024/4/6162
二、異方差性帶來的問題
當(dāng)存在異方差時(shí),普通最小二乘估計(jì)存在以下問題:(1)參數(shù)估計(jì)值雖是無偏的,但不是最小方差線性無偏估計(jì);(2)參數(shù)的顯著性檢驗(yàn)失效;(3)回歸方程的應(yīng)用效果極不理想。4.2一元加權(quán)最小二乘估計(jì)
2024/4/6163
一、異方差性的檢驗(yàn)(一)殘差圖分析法
圖2.5(b)存在異方差4.2一元加權(quán)最小二乘估計(jì)
2024/4/6164
一、異方差性的檢驗(yàn)(二)等級(jí)相關(guān)系數(shù)法
等級(jí)相關(guān)系數(shù)檢驗(yàn)法又稱斯皮爾曼(Spearman)檢驗(yàn),是一種應(yīng)用較廣泛的方法。這種檢驗(yàn)方法既可用于大樣本,也可用于小樣本。進(jìn)行等級(jí)相關(guān)系數(shù)檢驗(yàn)通常有三個(gè)步驟。第一步,作y關(guān)于x的普通最小二乘回歸,求出ei的估計(jì)值,即ei的值。4.2一元加權(quán)最小二乘估計(jì)
2024/4/6165
(二)等級(jí)相關(guān)系數(shù)法
第二步,取ei的絕對(duì)值,分別把xi和|ei|按遞增(或遞減)的次序分成等級(jí),按下式計(jì)算出等級(jí)相關(guān)系數(shù):其中,n為樣本容量,di為對(duì)應(yīng)于xi和|ei|的等級(jí)的差數(shù)。4.2一元加權(quán)最小二乘估計(jì)
2024/4/6166
(二)等級(jí)相關(guān)系數(shù)法
第三步,做等級(jí)相關(guān)系數(shù)的顯著性檢驗(yàn)。在n>8的情況下,用下式對(duì)樣本等級(jí)相關(guān)系數(shù)rs進(jìn)行t檢驗(yàn)。檢驗(yàn)統(tǒng)計(jì)量為:如果t≤tα/2(n-2)可認(rèn)為異方差性問題不存在,如果t>tα/2(n-2),說明xi與|ei|之間存在系統(tǒng)關(guān)系,異方差性問題存在。4.2一元加權(quán)最小二乘估計(jì)
2024/4/6167
例4.3設(shè)某地區(qū)的居民收入與儲(chǔ)蓄額的歷史統(tǒng)計(jì)數(shù)據(jù)如表4.1。(1)用普通最小二乘法建立儲(chǔ)蓄y與居民收入x的回歸方程,并畫出殘差散點(diǎn)圖;(2)診斷該問題是否存在異方差;序號(hào)儲(chǔ)蓄y(萬元)居民收入x(萬元)1 2 3
…
31264 105 90 …23008777 9210 9954 …382004.2一元加權(quán)最小二乘估計(jì)
2024/4/6168
序號(hào)儲(chǔ)蓄y居民收入xxi等級(jí)殘差ei|ei||ei|等級(jí)di126487771169.0169.016-15225210592102-26.626.63-1139099543-104.6104.67-4164131105084-110.5110.58-4165122109795-159.4159.415-101006107119126-253.4253.423-172897406127477-25.125.1252585031349988.28.217499431142699-129.0129.0900105881552210-78.078.04636118981673011129.7129.71011129501766312102.7102.76636137791857513-145.5145.514-11148191963514-195.3195.319-525151222211631578.478.4510100………………………3123003820031-286.1286.1247494.2一元加權(quán)最小二乘估計(jì)
2024/4/6169
圖4.1殘差圖4.2一元加權(quán)最小二乘估計(jì)
2024/4/6170
用SPSS計(jì)算等級(jí)相關(guān)系數(shù)。
4.2一元加權(quán)最小二乘估計(jì)
2024/4/6171
(2)計(jì)算等級(jí)相關(guān)系數(shù)。
t=5.076>2.0454.2一元加權(quán)最小二乘估計(jì)
2024/4/6172
Spearman等級(jí)相關(guān)系數(shù)可以反映非線性相關(guān)的情況,Pearson簡(jiǎn)單相關(guān)系數(shù)不能反映非線性相關(guān)的情況。例如x與y的取值如下,序號(hào)12345678910x12345678910y149162536496481100容易計(jì)算出y與x的簡(jiǎn)單相關(guān)系數(shù)r=0.9746,而y與x的等級(jí)相關(guān)系數(shù)rs=1具有完全的曲線相關(guān)。4.2一元加權(quán)最小二乘估計(jì)
2024/4/6173
二、一元加權(quán)最小二乘估計(jì)消除異方差性的方法通常有:加權(quán)最小二乘法,Box-Cox變換法,(參考文獻(xiàn)[1])
方差穩(wěn)定性變換法加權(quán)最小二乘法(WeightedLeastSquare,簡(jiǎn)記為WLS)是一種最常用的消除異方差性的方法。4.2一元加權(quán)最小二乘估計(jì)
2024/4/6174
二、一元加權(quán)最小二乘估計(jì)一元線性回歸普通最小二乘法的殘差平方和為:
一元線性回歸的加權(quán)最小二乘的離差平方和為:
第96頁(yè)4.2一元加權(quán)最小二乘估計(jì)
2024/4/6175
加權(quán)最小二乘估計(jì)為:
其中,
是自變量的加權(quán)平均;
是因變量的加權(quán)平均。
4.2一元加權(quán)最小二乘估計(jì)
2024/4/6176
觀測(cè)值的權(quán)數(shù)應(yīng)該是觀測(cè)值誤差項(xiàng)方差的倒數(shù),即在實(shí)際問題中,誤差項(xiàng)的方差是未知的,常與自變量x的冪函數(shù)xm成比例,其中m是待定的未知參數(shù)。此時(shí)權(quán)函數(shù)為所以誤差項(xiàng)的方差較大的觀測(cè)值接受較小的權(quán)數(shù);誤差項(xiàng)的方差較小的觀測(cè)值接受較大的權(quán)數(shù)。4.2一元加權(quán)最小二乘估計(jì)
2024/4/6177
三、尋找最優(yōu)權(quán)函數(shù)利用SPSS軟件可以確定冪指數(shù)m的最優(yōu)取值。依次點(diǎn)選Analyze-Regression-WeightEstimation進(jìn)入估計(jì)權(quán)函數(shù)對(duì)話框,默認(rèn)的冪指數(shù)m的取值為m=-2.0,-1.5,-1.0,-0.5,0,0.5,1.0,1.5,2.0。先將因變量y與自變量x選入各自的變量框,再把x選入Weight變量框,冪指數(shù)(Power)取默認(rèn)值,計(jì)算結(jié)果如下(格式略有變動(dòng)):4.2一元加權(quán)最小二乘估計(jì)
2024/4/6178
4.2一元加權(quán)最小二乘估計(jì)
2024/4/61794.2一元加權(quán)最小二乘估計(jì)
2024/4/6180
冪指數(shù)m的最優(yōu)取值為m=1.5。加權(quán)最小二乘的r2=0.9360,F(xiàn)值=423.741;普通最小二乘的r2=0.912,F(xiàn)值=300.732。說明加權(quán)最小二乘估計(jì)的效果好于普通最小二乘的效果。4.2一元加權(quán)最小二乘估計(jì)
2024/4/6181
圖4.2加權(quán)最小二乘殘差圖殘差圖序號(hào)小方差組126487771.2161E-06169211210592101.1314E-06-271439099541.0069E-06-105-664131105089.2837E-07-111-745122109798.6927E-07-159-1246107119127.6917E-07-253-2217406127476.9485E-07-2548503134996.3760E-078359431142695.8669E-07-129-10510588155225.1710E-07-78-584.2一元加權(quán)最小二乘估計(jì)
2024/4/6182
序號(hào)中等方差組11898167304.6212E-0713014612950176634.2599E-0710311613779185753.9501E-07-146-13514819196353.6346E-07-195-188151222211633.2481E-077880161702228802.8895E-07413409171578241272.6684E-07183176181654256042.4408E-07134122191400265002.3181E-07-195-211201829276702.1726E-07134115212200283002.1005E-074524314.2一元加權(quán)最小二乘估計(jì)
2024/4/6183
序號(hào)大方差組222017274302.2012E-07343324232105295601.9676E-07250225241600281502.1173E-07-135-156252250321001.7388E-07180147262420325001.7068E-07317281272570352501.5110E-07234190281720335001.6309E-07-468-507291900360001.4640E-07-500-546302100362001.4519E-07-317-364312300382001.3394E-07-286-3404.2一元加權(quán)最小二乘估計(jì)
2024/4/6184
不是像小殘差組那樣得到改善,而是誤差變得更大。其道理也很簡(jiǎn)單,加權(quán)最小二乘估計(jì)照顧小殘差項(xiàng)是以犧牲大殘差項(xiàng)為代價(jià)的,有得必有失,也是有局限性的。從上面的分析看到,當(dāng)回歸模型存在異方差時(shí),加權(quán)最小二乘估計(jì)只是對(duì)普通最小二乘估計(jì)的改進(jìn),這種改進(jìn)有可能是細(xì)微的,不能理解為加權(quán)最小二乘估計(jì)一定會(huì)得到與普通最小二乘估計(jì)截然不同的回歸方程,或者一定有大幅度的改進(jìn)。實(shí)際上,可以構(gòu)造出這樣的數(shù)據(jù),回歸模型存在很強(qiáng)的異方差,但是普通最小二乘與加權(quán)最小二乘所得的回歸方程卻完全一樣。另外,加權(quán)最小二乘以犧牲大方差項(xiàng)的擬合效果為代價(jià)改善了小方差項(xiàng)的擬合效果,這也并不總是研究者所需要的。在社會(huì)經(jīng)濟(jì)現(xiàn)象中,通常變量取值大時(shí)方差也大,在以經(jīng)濟(jì)總量為研究目標(biāo)時(shí),更關(guān)心的是變量取值大的項(xiàng),而普通最小二乘恰好能滿足這個(gè)要求。所以在這樣的一些特定場(chǎng)合下,即使數(shù)據(jù)存在異方差,也仍然可以選擇使用普通最小二乘估計(jì)。2024/4/61854.3多元加權(quán)最小二乘
2024/4/6186當(dāng)誤差項(xiàng)εi存在異方差時(shí),加權(quán)離差平方和為記加權(quán)最小二乘估計(jì)WLS的矩陣表達(dá)4.3多元加權(quán)最小二乘估計(jì)
2024/4/6187
通常取權(quán)函數(shù)W為某個(gè)自變量xj(j=1,2,…,p)的冪函數(shù),即,在x1,x2,…,xp這p個(gè)自變量中取哪一
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 《大學(xué)計(jì)算機(jī)基礎(chǔ)》課件-第5章 電子表格處理軟件
- 填報(bào)志愿 合同
- 《正向間接血凝試驗(yàn)》課件
- 2025年吐魯番道路貨運(yùn)駕駛員從業(yè)資格考試題庫(kù)
- 2025年湖北貨運(yùn)從業(yè)資格證考試模擬考試題目
- 2025年長(zhǎng)沙貨運(yùn)從業(yè)資格證考試題目和答案
- 2025年張掖駕??荚囏涍\(yùn)從業(yè)資格證模擬考試
- 2025年河源考貨運(yùn)資格證考試內(nèi)容
- 工業(yè)用地交易中介合同樣本
- 水利工程機(jī)械施工安全協(xié)議
- 脊柱外科臨床指南
- 萬千教育學(xué)前透視幼兒的戶外學(xué)習(xí)
- 《抗菌藥物知識(shí)培訓(xùn)》課件
- 2024年北京市安全員A證考試題庫(kù)附答案
- 醫(yī)療專業(yè)人員的情緒管理培訓(xùn)
- 森林法培訓(xùn)課件
- 儀器分析題庫(kù)(含答案)
- 招標(biāo)法律法規(guī)匯總
- 湖北省黃岡市2022-2023學(xué)年高一上學(xué)期元月期末數(shù)學(xué)試題(原卷版)
- 2023配電網(wǎng)線損理論計(jì)算導(dǎo)則
- 審計(jì)人員保密守則
評(píng)論
0/150
提交評(píng)論