第四講 stata線性回歸_第1頁(yè)
第四講 stata線性回歸_第2頁(yè)
第四講 stata線性回歸_第3頁(yè)
第四講 stata線性回歸_第4頁(yè)
第四講 stata線性回歸_第5頁(yè)
已閱讀5頁(yè),還剩59頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第九章 線性回歸(Linear Regression)導(dǎo)論統(tǒng)計(jì)分析:根據(jù)統(tǒng)計(jì)數(shù)據(jù)提供的資料,揭示變量之間的關(guān)系,并由此推演為事物之間內(nèi)在聯(lián)系的規(guī)律性為什么學(xué)習(xí)回歸分析u回歸分析探討客觀事物之間的聯(lián)系,表現(xiàn)為變量之間的統(tǒng)計(jì)關(guān)系u建立在對(duì)客觀事物進(jìn)行大量實(shí)驗(yàn)和觀察的基礎(chǔ)上,用來(lái)尋找隱藏在看起來(lái)不確定的現(xiàn)象中的統(tǒng)計(jì)規(guī)律的統(tǒng)計(jì)方法u因因變量衡量方式的不同,回歸分析可分為線性回歸和非線性回歸u線性回歸適用于因變量為連續(xù)衡量的場(chǎng)合u非線性回歸多適用于因變量為虛擬變量、多分類變量、計(jì)數(shù)變量等場(chǎng)合u即便在這兩大類中,分析方法又可區(qū)分為許多不同的類型u根據(jù)處理的變量多少來(lái)看,回歸分析又分為:u簡(jiǎn)單相關(guān)和一元回歸

2、:研究的是兩個(gè)變量之間的關(guān)系u多元相關(guān)或多元回歸:研究的是多個(gè)變量之間的關(guān)系本章主要內(nèi)容9.1變量間的相關(guān)關(guān)系(correlation)9.2線性回歸概述9.3. 一元線性回歸9.4. 多元線性回歸9.1變量間的相關(guān)關(guān)系(correlation)1、函數(shù)關(guān)系u回歸分析前,首先必須掌握變量之間是否相關(guān);只有變量之間存在關(guān)系,才有必要進(jìn)行回歸分析u假若x增加時(shí),y的取值發(fā)生相應(yīng)變化,則x和y之間是相關(guān)的u假若x增加時(shí),y的取值沒(méi)有確定的變化,x則y和之間是不相關(guān)的,或是沒(méi)有相關(guān)關(guān)系的u變量之間的相關(guān)關(guān)系歸納起來(lái)可以分為兩種:函數(shù)關(guān)系函數(shù)關(guān)系和統(tǒng)統(tǒng)計(jì)關(guān)系計(jì)關(guān)系2 2、統(tǒng)計(jì)相關(guān)、統(tǒng)計(jì)相關(guān)u現(xiàn)實(shí)事物之間

3、的聯(lián)系不像函數(shù)關(guān)系那樣容易確定u現(xiàn)象之間存在關(guān)聯(lián);但無(wú)法確定具體關(guān)系,不能像函數(shù)關(guān)系那樣,用一個(gè)公式將它們的關(guān)系準(zhǔn)確地描述出來(lái);當(dāng)一個(gè)變量取一定的值時(shí),另一個(gè)變量可能有多個(gè)取值u當(dāng)一個(gè)變量的值不能由另一個(gè)變量的值唯一確定時(shí),這種當(dāng)一個(gè)變量的值不能由另一個(gè)變量的值唯一確定時(shí),這種關(guān)系稱為統(tǒng)計(jì)關(guān)系關(guān)系稱為統(tǒng)計(jì)關(guān)系u統(tǒng)計(jì)關(guān)系不如函數(shù)關(guān)系直接和明確;但通過(guò)對(duì)大量數(shù)據(jù)的觀察和研究,就會(huì)發(fā)現(xiàn)許多變量之間確實(shí)存在著某種關(guān)聯(lián),強(qiáng)弱各不相同3、相關(guān)關(guān)系的特點(diǎn)u雙向變化關(guān)系;u一個(gè)變量的取值不能由另一個(gè)變量的取值唯一確定;當(dāng)x取一定的值時(shí),y可能有多個(gè)取值,因?yàn)檫€受到其他因素的影響;u不確定關(guān)系難以用函數(shù)關(guān)系來(lái)衡

4、量和描述,但這并不表示x和y之間無(wú)規(guī)律可循;u類似定性描述u相關(guān)分為線性相關(guān)和非線性相關(guān)。4、相關(guān)分析u對(duì)兩(多)個(gè)變量之間的關(guān)系進(jìn)行描述,分析它們對(duì)兩(多)個(gè)變量之間的關(guān)系進(jìn)行描述,分析它們u是否相關(guān)是否相關(guān)u關(guān)系是否密切關(guān)系是否密切u關(guān)系的性質(zhì)是什么(是正相關(guān)還是負(fù)相關(guān))關(guān)系的性質(zhì)是什么(是正相關(guān)還是負(fù)相關(guān))u隨著隨著x x的變化,的變化,y y值的變化程度就確定二者是否相關(guān)和相關(guān)的強(qiáng)值的變化程度就確定二者是否相關(guān)和相關(guān)的強(qiáng)度度u當(dāng)當(dāng)x x增加(減少)時(shí),增加(減少)時(shí),y y的取值也隨之增加(減少),則的取值也隨之增加(減少),則x x和和y y之之間呈正相關(guān)關(guān)系;相反,當(dāng)間呈正相關(guān)關(guān)系

5、;相反,當(dāng)x x增加(減少)時(shí),增加(減少)時(shí),y y的取值卻隨之的取值卻隨之減少(增加),則和之間呈負(fù)相關(guān)關(guān)系減少(增加),則和之間呈負(fù)相關(guān)關(guān)系u相關(guān)分析的方法包括相關(guān)分析的方法包括散點(diǎn)圖和相關(guān)系數(shù)散點(diǎn)圖和相關(guān)系數(shù)相關(guān)散點(diǎn)圖(scatter plot)0246810246810a_完全正線性關(guān)系0246810246810b_完全負(fù)線性關(guān)系02468100246810c_正線性關(guān)系02468102468d_負(fù)線性關(guān)系123450246810e_非線性關(guān)系02468100246810f_不相關(guān)相關(guān)系數(shù)相關(guān)系數(shù)u圖形雖然直觀,但不夠精確;對(duì)散點(diǎn)圖的視覺(jué)分析帶有很大的主觀性;需要更精確和更客觀的度量

6、;u相關(guān)系數(shù)可準(zhǔn)確地描述變量之間的線性相關(guān)程度;u線性相關(guān)系數(shù)相關(guān)系數(shù)是衡量變量之間相關(guān)程度的統(tǒng)計(jì)量,是描述兩變量線性關(guān)系強(qiáng)度及方向的數(shù)值;u若相關(guān)系數(shù)是根據(jù)總體數(shù)據(jù)計(jì)算的,稱為總體相關(guān)系數(shù),記為;若是根據(jù)樣本計(jì)算出來(lái)的,則稱為樣本相關(guān)系數(shù),記為r r;u在統(tǒng)計(jì)學(xué)中,一般用樣本相關(guān)系數(shù)來(lái)推斷總體相關(guān)系數(shù)。相關(guān)系數(shù):性質(zhì)與方向niYiXisyysxxnr1)(11相關(guān)系數(shù):程度根據(jù)經(jīng)驗(yàn),可以將相關(guān)程度分為幾等:但這種解釋必須建立在對(duì)相關(guān)系數(shù)進(jìn)行顯著性檢驗(yàn)的基礎(chǔ)之上。相關(guān)系數(shù):其它特征相關(guān)系數(shù)的計(jì)算u. correlate 變量名變量名 u u u :. correlate也可寫(xiě)為corr,是生成

7、變量之間相關(guān)系數(shù)矩陣、協(xié)相關(guān)矩陣、回歸系數(shù)相關(guān)矩陣的基本命令;u :需要生成相關(guān)關(guān)系的變量名稱u如:如:corr age edu weight heightu若要給出相關(guān)系數(shù)(每個(gè)變量的上行)及其假定檢驗(yàn)的若要給出相關(guān)系數(shù)(每個(gè)變量的上行)及其假定檢驗(yàn)的P指,使用命令:指,使用命令:u pwcorr 變量名變量名,sig 9.29.2線性回歸概述線性回歸概述“回歸回歸”一詞來(lái)自英國(guó)學(xué)者、優(yōu)生學(xué)的創(chuàng)始人一詞來(lái)自英國(guó)學(xué)者、優(yōu)生學(xué)的創(chuàng)始人S. F. S. F. GaltonGalton(1822-19111822-1911)。)。GaltonGalton在對(duì)遺傳現(xiàn)象進(jìn)在對(duì)遺傳現(xiàn)象進(jìn)行研究后發(fā)現(xiàn),當(dāng)高

8、個(gè)的夫妻或矮個(gè)的夫妻有了行研究后發(fā)現(xiàn),當(dāng)高個(gè)的夫妻或矮個(gè)的夫妻有了孩子時(shí),這些孩子的身高趨于回歸到更典型的、孩子時(shí),這些孩子的身高趨于回歸到更典型的、同一性別的人的平均身高。同一性別的人的平均身高。1 1、回歸分析、回歸分析u通過(guò)找出代表變量之間關(guān)系的直線圖形或直線方程來(lái)描述變量之間的數(shù)學(xué)關(guān)系u這條直線稱為回歸直線;u該直線方程稱為回歸方程。u一元線性回歸是回歸分析中最簡(jiǎn)單、最基本的回歸分析,描述兩個(gè)變量之間的關(guān)系。u它是根據(jù)統(tǒng)計(jì)資料,尋求一個(gè)變量與另一個(gè)變量關(guān)系的恰當(dāng)數(shù)學(xué)表達(dá)式的經(jīng)驗(yàn)方程,來(lái)近似地表示變量間的平均變化關(guān)系的一種統(tǒng)計(jì)分析方法:u其中一個(gè)變量作為DV或被解釋變量,通常用y表示;u

9、另一個(gè)變量IV(預(yù)測(cè)變量或解釋變量)通常用x表示。2 2、相關(guān)分析與回歸分析之別、相關(guān)分析與回歸分析之別u依存關(guān)系與平等關(guān)系依存關(guān)系與平等關(guān)系?;貧w反映兩個(gè)變量的依存關(guān)系,一個(gè)變量的改變引起另一個(gè)變量的變化,是一種單向的關(guān)系;其y變量稱為因變量,被解釋變量;在相關(guān)分析中,變量和變量處于平等地位:雙向關(guān)系u關(guān)系程度與影響大小關(guān)系程度與影響大小。相關(guān)分析主要是刻畫(huà)兩類變量間線形相關(guān)的密切程度;而回歸分析不僅要揭示自變量對(duì)因變量的影響大小,還可以由回歸方程進(jìn)行預(yù)測(cè)和控制。因此,回歸是對(duì)兩(多)個(gè)變量作定量描述,研究變量之間的數(shù)量關(guān)系,從已知的一個(gè)變量的取值預(yù)測(cè)另一個(gè)變量的取值,得到定量結(jié)果。3 3、

10、回歸分析的目的、回歸分析的目的u從一組樣本數(shù)據(jù)出發(fā),確定解釋變量(從一組樣本數(shù)據(jù)出發(fā),確定解釋變量( IV IV )與被解釋變量)與被解釋變量(DVDV)之間的數(shù)學(xué)關(guān)系式;回歸方程就是要找出一條最好地描)之間的數(shù)學(xué)關(guān)系式;回歸方程就是要找出一條最好地描述兩個(gè)變量之間關(guān)系的直線方程。述兩個(gè)變量之間關(guān)系的直線方程。u對(duì)該關(guān)系式的可信程度進(jìn)行各種統(tǒng)計(jì)檢驗(yàn);從影響對(duì)該關(guān)系式的可信程度進(jìn)行各種統(tǒng)計(jì)檢驗(yàn);從影響DVDV的一組的一組IVIV中找出哪些變量的影響是顯著的,那些是不顯著的。中找出哪些變量的影響是顯著的,那些是不顯著的。u利用直線方程(即所求的關(guān)系),根據(jù)一個(gè)或幾個(gè)變量的取值利用直線方程(即所求的

11、關(guān)系),根據(jù)一個(gè)或幾個(gè)變量的取值來(lái)估計(jì)或預(yù)測(cè)來(lái)估計(jì)或預(yù)測(cè)DVDV的取值,并給出這種估計(jì)或預(yù)測(cè)的置信度。的取值,并給出這種估計(jì)或預(yù)測(cè)的置信度。u預(yù)測(cè)是有規(guī)律的。如,預(yù)測(cè)是有規(guī)律的。如,u利用汽車的速度來(lái)預(yù)測(cè)它剎車所需要的距離利用汽車的速度來(lái)預(yù)測(cè)它剎車所需要的距離u利用學(xué)生的中學(xué)成績(jī)來(lái)預(yù)測(cè)考上大學(xué)的成功率利用學(xué)生的中學(xué)成績(jī)來(lái)預(yù)測(cè)考上大學(xué)的成功率u精確的精確的y y值是不可預(yù)測(cè)的,靠近實(shí)際值。值是不可預(yù)測(cè)的,靠近實(shí)際值。4、回歸分析的用途u用于研究一個(gè)用于研究一個(gè)IVIV對(duì)一個(gè)數(shù)值型對(duì)一個(gè)數(shù)值型DVDV在數(shù)量上的影響程度。在數(shù)量上的影響程度。設(shè)有兩個(gè)變量,設(shè)有兩個(gè)變量,x x,y y,其中,其中,y

12、 y的取值隨的取值隨x x取值的變化而取值的變化而變化,故變化,故y y是是DVDV,x x是是IVIV。-5-214710131605101520age in 2004u對(duì)于這兩個(gè)變量,通過(guò)觀察或試驗(yàn)得到若干組數(shù)據(jù),記為1,2,n)。若x以代表年齡,以y代表教育,則從散點(diǎn)圖中,可以清楚地確認(rèn)x與y存在線性關(guān)系線性回歸模型:回歸直線兒童的年齡與教育之間存在很強(qiáng)的正向相關(guān)關(guān)系線條就是回歸直線回歸直線(regression lineregression line)如何將變量之間的相關(guān)關(guān)系用數(shù)學(xué)關(guān)系的代數(shù)表達(dá)式表達(dá)出來(lái)-5-214710131605101520age in 2004線性回歸的理論模型

13、u等式(9.1)稱為一元線性回歸模型,描述因變量y如何依賴于自變量x和誤差項(xiàng)e而異。在該模型中,y是x的線性函數(shù)(0+1x 部分)加上誤差項(xiàng)e。其中, u0和1是模型的未知參數(shù),前者稱為回歸常數(shù)項(xiàng)(或截距,intercept);后者稱為回歸系數(shù)(coefficient);0+1x反映了由于x的變化而引起的y的變化,也稱為邊際變化(當(dāng)變量邊際變化(當(dāng)變量x變化一個(gè)單位時(shí),變量變化一個(gè)單位時(shí),變量y改變的數(shù)量)改變的數(shù)量)ue是被稱為誤差項(xiàng)的隨機(jī)變量,代表因主觀和客觀原因而不可觀測(cè)的隨機(jī)誤差,反映了除x和y之間的線性關(guān)系之外的隨機(jī)因素對(duì)y的影響,是不能由x和y的線性關(guān)系所揭示的變異性。xy10(9

14、.1)線性回歸模型的基本假定(1)零均值,即 。誤差項(xiàng)是一個(gè)期望值=0 的隨機(jī)變量在自變量取一定值的條件下,其總體各誤差項(xiàng)的條件平均值為0。這意味著,在等式(9.1)中,由于0和1都是常數(shù)或系數(shù),故有因此,對(duì)于一個(gè)給定的x值,y的期望值為(2)等方差,即對(duì)于所有的x值,e的方差2都相同(3)誤差項(xiàng)服從正態(tài)分布,且相互獨(dú)立,即0)(E00)(E11)(ExyE10)(), 0(2N(9.2)總體回歸方程 (equation)(I)根據(jù)回歸模型的假定,誤差項(xiàng)的期望值為0;因此,y的期望值等于一元總體回歸方程總體回歸方程:xyE10)(xy10 (9.4)(9.3)總體回歸方程(II)(預(yù)測(cè)的)回歸

15、方程回歸分析的三種檢驗(yàn)F檢驗(yàn)用于檢驗(yàn)回歸方程的顯著性R2用于測(cè)度回歸直線對(duì)觀測(cè)數(shù)據(jù)的擬合程度;也稱判定系數(shù)、可決系數(shù)(coefficient of determination)t檢驗(yàn)用于檢驗(yàn)自變量回歸系數(shù)的顯著性reg edu ageu上部分分為左右兩個(gè)區(qū)域上部分分為左右兩個(gè)區(qū)域u左邊是方差分析。方差部分給出回歸平方和(Model)、殘差平方和(Residual),總平方和(Total),自由度(df),回歸和殘差的均方(MS)u右邊是回歸統(tǒng)計(jì)量。包括檢驗(yàn)統(tǒng)計(jì)量(F),F(xiàn)檢驗(yàn)的顯著水平(ProbF),R2(R-square)(判定系數(shù)),Adj R-squared(調(diào)整后的R2),觀測(cè)值的個(gè)數(shù)

16、(即樣本量),估計(jì)標(biāo)準(zhǔn)誤差(Root MSE)u下部分是參數(shù)估計(jì)的內(nèi)容下部分是參數(shù)估計(jì)的內(nèi)容。包括回歸方程截距(_cons)和斜率(Coef)的參數(shù)估計(jì)、標(biāo)準(zhǔn)誤、t 統(tǒng)計(jì)量,P值(P|t|),置信區(qū)間(95% Conf. Interval)(1)判定系數(shù)R2:概念與計(jì)算對(duì)估計(jì)的回歸方程擬合優(yōu)度的度量,也就是要檢驗(yàn)樣本數(shù)據(jù)聚集在樣本回歸直線周圍的密集程度,從而判定回歸方程對(duì)樣本數(shù)據(jù)的代表程度;該指標(biāo)是建立在對(duì)總離差(deviation)平方和進(jìn)行分解的基礎(chǔ)之上。顯然,各樣本觀測(cè)點(diǎn)(散點(diǎn))與樣本回歸直線靠得越緊,SSR/SST則越大,直線擬合得越好。將該比例定義為判定系數(shù)或可決系數(shù),記為R2222

17、)() (11yyyySSTSSESSTSSRR(1)判定系數(shù)R2:意義u若所有觀測(cè)值都落在回歸直線上,則 R2 = 1,擬合是完全的,模型具有完全解釋能力;如果回歸直線沒(méi)有解釋任何離差,則y的總離差全部歸于殘差平方和,即SST=SSE, R2 = 0,表示自變量x對(duì)因變量y的變異缺乏解釋能力u通常觀測(cè)值都是部分地落在回歸線上,即0 R2 1uR2 越接近1,表明回歸直線的擬合優(yōu)度越好;反之, R2 越接近于0,則回歸直線的擬合程度就越差。u就上面的例子而言,判定系數(shù)的實(shí)際意義是,在教育水平取值的離差中,有將近86%可以由年齡與教育之間的線性關(guān)系來(lái)解釋;即86%的差異是由孩子的年齡決定的孩子年

18、齡可以解釋教育差異的86%。(2)F檢驗(yàn):概念u對(duì)總體回歸方程的顯著性檢驗(yàn),是對(duì)因變量與所有自變量之間的線性關(guān)系是否顯著的一種假設(shè)檢驗(yàn);u回歸分析的主要目的是,根據(jù)所建立的估計(jì)方程用自變量x來(lái)估計(jì)、預(yù)測(cè)因變量y的取值;u當(dāng)我們建立了估計(jì)方程后,還不能馬上進(jìn)行估計(jì)或預(yù)測(cè),因?yàn)樵摴烙?jì)方程是根據(jù)樣本數(shù)據(jù)得出的,它是否真實(shí)地反映了變量x和y之間的關(guān)系,需要通過(guò)檢驗(yàn)后才能證實(shí);u該檢驗(yàn)利用方差分析的方法進(jìn)行。F統(tǒng)計(jì)量定義為:平均的回歸平方和與平均的殘差平方和(均方誤差)之比。(2)F檢驗(yàn):計(jì)算方法uMSR(mean square regression)即回歸均方,等于回歸平方和除以它的自由度;uMSE(

19、mean square error)即殘差均方,等于殘差平方和除以它的自由度;u統(tǒng)計(jì)量F服從第一自由度為1,第二自由度為n-2的F分布。)21 ()2/(1/nFMSEMSRnSSESSRF,(2)F檢驗(yàn)步驟u利用F統(tǒng)計(jì)量進(jìn)行回歸方程顯著性檢驗(yàn)的步驟如下:u(1)提出假設(shè):uH0: 1 = 0(兩個(gè)變量之間的線性關(guān)系不明顯)uH1: 1 0 (兩個(gè)變量之間存在顯著的線性關(guān)系)u若原假設(shè)成立,說(shuō)明回歸總體缺乏顯著線性關(guān)系,反之表明回歸總體存在顯著的線性關(guān)系,即自變量x對(duì)y有顯著的線性作用,解釋變量總體系數(shù)不為零。u(2)計(jì)算回歸方程的F統(tǒng)計(jì)量值u(3)根據(jù)給定的顯著水平確定臨界值F(1,n-2)

20、,或計(jì)算F值對(duì)應(yīng)的P值u(4)做出判斷。若F值大于臨界值F(1,n-2)或pp F = 0.0000,有充分的理由拒絕原假設(shè),教育與孩子年齡之間的線性關(guān)系是顯著的(3 3)T T檢驗(yàn)檢驗(yàn)定義定義u對(duì)回歸系數(shù)顯著性的檢驗(yàn),檢驗(yàn)自變量對(duì)因變量的影響是檢驗(yàn)自變量對(duì)因變量的影響是否顯著,也即是否顯著,也即是檢驗(yàn)各解釋變量的回歸系數(shù)是否等于檢驗(yàn)各解釋變量的回歸系數(shù)是否等于0 0;u之所以對(duì)回歸系數(shù)進(jìn)行顯著性檢驗(yàn),是因?yàn)榛貧w方程的顯著性檢驗(yàn)只能檢驗(yàn)所有回歸系數(shù)是否同時(shí)與0有顯著差別,它不提供回歸方程中的各自變量回歸系數(shù)與因變量關(guān)系的顯著性;u在一元線性回歸模型中,如果回歸系數(shù) 1 = 0,則回歸線是一條水

21、平線,表明因變量的取值不因自變量而異,即兩個(gè)變量之間沒(méi)有線性關(guān)系;u如果回歸系數(shù)1 0 ,也不能得出兩個(gè)變量之間存在線性關(guān)系的結(jié)論。該結(jié)論依賴于這種關(guān)系是否具有統(tǒng)計(jì)意義上的顯著性。(3)T檢驗(yàn)檢驗(yàn)步驟(a)首先提出原假設(shè)和備擇假設(shè):H0: 1 = 0H1: 1 0 (b)計(jì)算回歸系數(shù)t 的統(tǒng)計(jì)量值(c)根據(jù)給定的顯著水平確定臨界值,或計(jì)算t值所對(duì)應(yīng)的P值(d)作出判斷。若t值大于臨界值或p|t| Beta-+- yrsch | -.5025551 .0705833 -7.12 0.000 -.0942719 income | -.0011525 .0000518 -22.25 0.000 -.

22、294639 _cons | 29.46081 .5690665 51.77 .-回歸方程為: 0011525. 0.5025551046081.2921xxy標(biāo)準(zhǔn)回歸系數(shù) . regress hhwktot yrsch income, beta-hhwktot | Coef. Std. Err. t P|t| Beta-+- yrsch | -.5025551 .0705833 -7.12 0.000 -.0942719 income | -.0011525 .0000518 -22.25 0.000 -.294639 _cons | 29.46081 .5690665 51.77 .-輸出

23、結(jié)果不同:置信區(qū)間換成了標(biāo)準(zhǔn)回歸系數(shù)常數(shù)項(xiàng)的標(biāo)準(zhǔn)偏回歸系數(shù)總是0,故沒(méi)有輸出結(jié)果;其余內(nèi)容不變從標(biāo)準(zhǔn)回歸系數(shù)判斷,income的作用顯然遠(yuǎn)遠(yuǎn)超過(guò)yrsch的作用逐步回歸(Stepwise regression) 后退法后退法(backward):事先給定從方程中剔出自變量的臨界值pr。模型開(kāi)始包括所有變量,其后,每個(gè)回合去掉一個(gè)p值最大的自變量;直到所有自變量的p值都等于或低于指定的臨界值前進(jìn)法前進(jìn)法(forward):事先挑選自變量進(jìn)入方程的臨界值pe。開(kāi)始時(shí)方程中沒(méi)有自變量,然后,按照自變量對(duì)因變量貢獻(xiàn)的大小依次挑選進(jìn)入方程,每選入一個(gè)變量,都要對(duì)已在模型中的變量進(jìn)行檢驗(yàn),剔除p值大于臨界

24、值的變量,直到方程外變量的p值均大于指定的臨界值、再?zèng)]有自變量可引入方程為止。這樣保證最后所得的變量子集中的所有變量都是有統(tǒng)計(jì)學(xué)意義的. sw. sw regress hhwktot age girl hanzu chuzhong gaozh dazue income urban,prpr(0.05) begin with full modelp = 0.9464 = 0.0500 removing hanzu p = 0.4427 = 0.0500 removing gaozhongp = 0.5929 = 0.0500 removing dazue p = 0.3556 = 0.0500

25、removing chuzhong Source | SS df MS Number of obs = 1219-+- F( 4, 1214) = 169.01 Model | 115091.899 4 28772.9746 Prob F = 0.0000 Residual | 206678.564 1214 170.245934 R-squared = 0.3577-+- Adj R-squared = 0.3556 Total | 321770.463 1218 264.179362 Root MSE = 13.048- hhwktot | Coef. Std. Err. t P|t| 9

26、5% Conf. Interval-+- age | .2317112 .0955109 2.43 0.015 .0443264 .419096 girl | 15.90959 .770415 20.65 0.000 14.3981 17.42108 urban | -4.693933 .8519099 -5.51 0.000 -6.365312 -3.022554 income | -.0007623 .0001057 -7.21 0.000 -.0009697 -.0005548 _cons | 9.226292 3.255478 2.83 0.005 2.839304 15.61328-

27、. sw. sw regress hhwktot age girl hanzu chuzhong gaozh dazue income urban,pepe(0.05) begin with empty modelp = 0.0000 0.0500 adding girl p = 0.0000 0.0500 adding incomep = 0.0000 0.0500 adding urbanp = 0.0154 F = 0.0000 Residual | 206678.564 1214 170.245934 R-squared = 0.3577-+- Adj R-squared = 0.35

28、56 Total | 321770.463 1218 264.179362 Root MSE = 13.048- hhwktot | Coef. Std. Err. t P|t| 95% Conf. Interval-+- girl | 15.90959 .770415 20.65 0.000 14.3981 17.42108 income | -.0007623 .0001057 -7.21 0.000 -.0009697 -.0005548 urban | -4.693933 .8519099 -5.51 0.000 -6.365312 -3.022554 age | .2317112 .

29、0955109 2.43 0.015 .0443264 .419096 _cons | 9.226292 3.255478 2.83 0.005 2.839304 15.61328-多重共線性然而,在實(shí)際問(wèn)題中,一些基本假定往往不能滿足,使OLS方法失去BLUE性質(zhì)一般情況下,隨機(jī)擾動(dòng)項(xiàng)均值等于0的假設(shè)條件基本能夠得到滿足;即便不滿足也不會(huì)影響解釋變量的系數(shù),只會(huì)影響截距項(xiàng)同樣,隨機(jī)擾動(dòng)項(xiàng)正態(tài)分布的假設(shè)通常也能夠成立。即便不成立,在大樣本的情況下也會(huì)近似成立截面數(shù)據(jù)時(shí),可能出現(xiàn)異方差,從而使分析結(jié)果產(chǎn)生偏差自變量之間不高度相關(guān)的假定有時(shí)得不到滿足,造成多重共線性現(xiàn)象縱向數(shù)據(jù)中,隨機(jī)擾動(dòng)項(xiàng)可能自相關(guān),造成由

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論