簡(jiǎn)單線(xiàn)性相關(guān)(一元線(xiàn)性回歸分析)_第1頁(yè)
簡(jiǎn)單線(xiàn)性相關(guān)(一元線(xiàn)性回歸分析)_第2頁(yè)
簡(jiǎn)單線(xiàn)性相關(guān)(一元線(xiàn)性回歸分析)_第3頁(yè)
簡(jiǎn)單線(xiàn)性相關(guān)(一元線(xiàn)性回歸分析)_第4頁(yè)
簡(jiǎn)單線(xiàn)性相關(guān)(一元線(xiàn)性回歸分析)_第5頁(yè)
已閱讀5頁(yè),還剩10頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第十三講 簡(jiǎn)單線(xiàn)性相關(guān)(一元線(xiàn)性回歸分析)對(duì)于兩個(gè)或更多變量之間的關(guān)系,相關(guān)分析考慮的只是變量之間是否相關(guān)、相關(guān)的程度,而回歸分析關(guān)心的問(wèn)題是:變量之間的因果關(guān)系如何?;貧w分析是處理一個(gè)或多個(gè)自變量與因變量間線(xiàn)性因果關(guān)系的統(tǒng)計(jì)方法。如婚姻狀況與子女生育數(shù)量,相關(guān)分析可以求出兩者的相關(guān)強(qiáng)度以及是否具有統(tǒng)計(jì)學(xué)意義,但不對(duì)誰(shuí)決定誰(shuí)作出預(yù)設(shè),即可以相互解釋?zhuān)貧w分析則必須預(yù)先假定誰(shuí)是因誰(shuí)是果,誰(shuí)明確誰(shuí)為因與誰(shuí)為果的前提下展開(kāi)進(jìn)一步的分析。一、一元線(xiàn)性回歸模型及其對(duì)變量的要求(一)一元線(xiàn)性回歸模型 1、一元線(xiàn)性回歸模型示例兩個(gè)變量之間的真實(shí)關(guān)系一般可以用以下方程來(lái)表示: Y=A + BX + 方程中的A

2、 、B是待定的常數(shù),稱(chēng)為模型系數(shù),是殘差,是以X預(yù)測(cè)Y產(chǎn)生的誤差。兩個(gè)變量之間擬合的直線(xiàn)是:是 y的擬合值或預(yù)測(cè)值,它是在X條件下Y條件均值的估計(jì)a 、b是回歸直線(xiàn)的系數(shù),是總體真實(shí)直線(xiàn)A、B的估計(jì)值,a即 constant是截距,當(dāng)自變量的值為0時(shí),因變量的值。 b稱(chēng)為回歸系數(shù),指在其他所有的因素不變時(shí),每一單位自變量的變化引起的因變量的變化。 可以對(duì)回歸方程進(jìn)行標(biāo)準(zhǔn)化,得到標(biāo)準(zhǔn)回歸方程:為標(biāo)準(zhǔn)回歸系數(shù),表示其他變量不變時(shí),自變量變化一個(gè)標(biāo)準(zhǔn)差單位(),因變量Y的標(biāo)準(zhǔn)差的平均變化。由于標(biāo)準(zhǔn)化消除了原來(lái)自變量不同的測(cè)量單位,標(biāo)準(zhǔn)回歸系數(shù)之間是可以比較的,絕對(duì)值的大小代表了對(duì)因變量作用的大小,反

3、映自變量對(duì)Y的重要性。(二)對(duì)變量的要求:回歸分析的假定條件回歸分析對(duì)變量的要求是:自變量可以是隨機(jī)變量,也可以是非隨機(jī)變量。自變量X值的測(cè)量可以認(rèn)為是沒(méi)有誤差的,或者說(shuō)誤差可以忽略不計(jì)?;貧w分析對(duì)于因變量有較多的要求,這些要求與其它的因素一起,構(gòu)成了回歸分析的基本條件:獨(dú)立、線(xiàn)性、正態(tài)、等方差。(三)數(shù)據(jù)要求模型中要求一個(gè)因變量,一個(gè)或多個(gè)自變量(一元時(shí)為1個(gè)自變量)。因變量:要求間距測(cè)度,即定距變量。自變量:間距測(cè)度(或虛擬變量)。二、在對(duì)話(huà)框中做一元線(xiàn)性回歸模型例1:試用一元線(xiàn)性回歸模型,分析大專(zhuān)及以上人口占6歲及以上人口的比例(edudazh)與人均國(guó)內(nèi)生產(chǎn)總值(agdp)之間的關(guān)系。

4、本例使用的數(shù)據(jù)為st2004.sav,操作步驟及其解釋如下:(一)對(duì)兩個(gè)變量進(jìn)行描述性分析在進(jìn)行回歸分析以前,一個(gè)比較好的習(xí)慣是看一下兩個(gè)變量的均值、標(biāo)準(zhǔn)差、最大值、最小值和正態(tài)分布情況,觀(guān)察數(shù)據(jù)的質(zhì)量、缺少值和異常值等,缺少值和異常值經(jīng)常對(duì)線(xiàn)性回歸分析產(chǎn)生重要影響。最簡(jiǎn)單的,我們可以先做出散點(diǎn)圖,觀(guān)察變量之間的趨勢(shì)及其特征。通過(guò)散點(diǎn)圖,考察是否存在線(xiàn)性關(guān)系,如果不是,看是否通過(guò)變量處理使得能夠進(jìn)行回歸分析。如果進(jìn)行了變量轉(zhuǎn)換,那么應(yīng)當(dāng)重新繪制散點(diǎn)圖,以確保在變量轉(zhuǎn)換以后,線(xiàn)性趨勢(shì)依然存在。打開(kāi)st2004.sav數(shù)據(jù) 單擊Graphs Scatter 打開(kāi)Scatterplot對(duì)話(huà)框 單擊S

5、imple 單擊 Define 打開(kāi) Simple Scatterplot對(duì)話(huà)框 點(diǎn)選 agdp到 Y Axis框 點(diǎn)選 edudazh到 X Aaxis框內(nèi) 單擊 OK按鈕 在SPSS的Output窗口輸出所需圖形。圖121 大專(zhuān)及以上人口占6歲及以上人口比例與人均國(guó)內(nèi)生產(chǎn)總值的散點(diǎn)圖判斷:線(xiàn)性趨勢(shì)較明顯。(二)SPSS線(xiàn)性回歸主對(duì)話(huà)框介紹 打開(kāi)線(xiàn)性回歸主對(duì)話(huà)框的操作方法是: 在st2004.sav數(shù)據(jù)界面上 單擊Analyze RegressionLinear打開(kāi)Linear Regression主對(duì)話(huà)框 圖122 Linear Regression 命令位置 圖123 Linear Re

6、gression主對(duì)話(huà)框 Linear Regression 主對(duì)話(huà)框的功能有:1、選擇因變量Dependent框:放置因變量,一次只能放一個(gè)因變量。本例點(diǎn)選agdp進(jìn)入Dependent框。2、選擇自變量Independent框: 放置自變量,可以放置多個(gè)自變量。本例點(diǎn)選edudazh進(jìn)入Independent框。3、對(duì)自變量進(jìn)行分組Block按鈕組:由Previous 和Next兩個(gè)按鈕組成,用來(lái)對(duì)自變量框中的自變量進(jìn)行分組,在多元回歸時(shí)會(huì)用到。4、變量進(jìn)入方式Method框:Enter: 一元回歸時(shí),只選擇這種方法,強(qiáng)行進(jìn)入。所有變量依次進(jìn)入。Stepwise: 逐步回歸,將所有滿(mǎn)足條件

7、的都進(jìn)入方程,不滿(mǎn)足的剔除。Remove: 強(qiáng)行移出法,這一方法必須在這一組自變量在前面一步已經(jīng)納入到回歸時(shí)才用,否則沒(méi)有可以剔除的。Backward:自后消除法,將滿(mǎn)足剔除標(biāo)準(zhǔn)的剔除Forward:向前加入法,所有滿(mǎn)足進(jìn)入回歸方程的變量都可以進(jìn)入。在一元回歸時(shí),只用Enter即可。本例選擇變量進(jìn)入的方式為Enter。5、選擇篩選變量Selection Variable框:選入一個(gè)篩選變量,并利用右側(cè)的Rules建立條件,這樣,只有滿(mǎn)足這個(gè)條件的記錄才會(huì)進(jìn)入回歸分析, 當(dāng)然,我們也可以用Data菜單中的Select Case過(guò)程來(lái)做,效果相同。6、個(gè)案標(biāo)簽Case Labels 選擇一個(gè)變量,

8、其取值作為每條記錄的標(biāo)簽,最典型的是使用記錄ID個(gè)案號(hào)的變量 。7、加權(quán)最小二乘法計(jì)算WLS Weight框;利用該按鈕可進(jìn)行加權(quán)最小二乘法的計(jì)算。選入權(quán)重變量進(jìn)入該框即可。使用條件:當(dāng)應(yīng)變量的變異程度具有某種趨勢(shì),即不是等方差時(shí),通過(guò)加權(quán),進(jìn)行分析,是一種有偏估計(jì)。8、選擇統(tǒng)計(jì)量Statistics框:可以選擇回歸系數(shù)、殘差診斷、模型擬合度等多種回歸分析非常重要的統(tǒng)計(jì)量,在下文將詳細(xì)介紹。9、輸出圖形Plots框:可輸出多種用于檢驗(yàn)回歸分析假定條件的圖形,在下文將將詳細(xì)介紹。10、保存回歸分析結(jié)果Save框:可以把回歸分析的結(jié)果存起來(lái),然后用得到的殘差、預(yù)測(cè)值等做進(jìn)一步的分析。單擊圖123中

9、的Save按鈕,打開(kāi)Linear Regression的Save對(duì)話(huà)框(見(jiàn)圖124),研究者可以根據(jù)自己的需要進(jìn)行選擇。圖124 Linear Regression的Save對(duì)話(huà)框圖124中:可以保持的回歸分析結(jié)果主要有:Predicated values:各種預(yù)測(cè)值.Unstandardized 保存模型對(duì)因變量的原始預(yù)測(cè)值.Standardized: 保存進(jìn)行標(biāo)準(zhǔn)化后的預(yù)測(cè)值,均數(shù)0,方差1.Adjusted: 保存調(diào)整后的殘差。S.E. of mean predictions: 保存預(yù)測(cè)值的標(biāo)準(zhǔn)差.Residuals:殘差。Unstandardized : 保存非標(biāo)準(zhǔn)化的殘差,Stand

10、ardized: 保存進(jìn)行標(biāo)準(zhǔn)化后的殘差Studentlized: 保存學(xué)生化殘差Deleted: 它保存被排除進(jìn)入相關(guān)系數(shù)計(jì)算的觀(guān)察量的殘差,是因變量與預(yù)測(cè)值之間的差值, 通過(guò)它可以發(fā)現(xiàn)可疑的強(qiáng)影響點(diǎn)Studentlized Deleted: 對(duì)上一個(gè)預(yù)測(cè)值進(jìn)行t變換Distances: 用來(lái)測(cè)量數(shù)據(jù)點(diǎn)離擬合模型距離的指標(biāo)Mahalanobis: 個(gè)案值離樣本平均值的距離,如果某個(gè)個(gè)案多個(gè)自變量出現(xiàn)大的這種距離,可以認(rèn)為它是離群值Cooks 表示去除這個(gè)個(gè)案后,模型的殘差會(huì)發(fā)生多大的變化,一般認(rèn)為如果這個(gè)值大于1,則有離群值或強(qiáng)影響點(diǎn)Leverage values: 用來(lái)測(cè)量數(shù)據(jù)點(diǎn)的影響強(qiáng)度

11、,如中心杠杠值的變動(dòng)范圍是0(N-1)/NInfluence statistics:用來(lái)判斷強(qiáng)影響點(diǎn)的統(tǒng)計(jì)量DfBeta : Difference in Beta 去除某個(gè)觀(guān)測(cè)值后回歸系數(shù)的變化standardized DfBeta 標(biāo)準(zhǔn)化的DfBeta 值,當(dāng)它大于1/Sqrt(N)時(shí),該點(diǎn)為強(qiáng)影響點(diǎn),DfFit. : Difference in fit value 去除這個(gè)觀(guān)測(cè)值后預(yù)測(cè)值的變化值Covariance ratio 去除這個(gè)觀(guān)測(cè)值后,斜方差陣與包含全部觀(guān)測(cè)值的斜方差陣的比率,如果絕對(duì)值大于3*P/N, 這個(gè)觀(guān)測(cè)值為強(qiáng)影響點(diǎn)或離群值。11、置信水平和缺少值處理方式選擇 Optio

12、ns框:當(dāng)自變量進(jìn)入方式采取逐步回歸時(shí),打開(kāi)Options對(duì)話(huà)框可以設(shè)定選擇變量進(jìn)入的和剔除的條件??梢詫?duì)缺少值的處理方式進(jìn)行選擇。(三)回歸分析統(tǒng)計(jì)量選擇單擊圖123中的Statistics按鈕,打開(kāi)一個(gè)Linear Regression的Statistics對(duì)話(huà)框(見(jiàn)圖125),研究者可以根據(jù)自己的需要進(jìn)行選擇。圖125 Linear Regression的Statistics對(duì)話(huà)框1、回歸系數(shù)及其基本含義圖125中的Regression Coefficients,提供了關(guān)于回歸系數(shù)的三種選項(xiàng)。Estimates選項(xiàng):點(diǎn)選后可輸出回歸方程中關(guān)于回歸系數(shù)的基本情況,輸出的數(shù)值有:B值、 Be

13、ta、 t值、t值的雙尾檢驗(yàn)。來(lái)看例1關(guān)于“大專(zhuān)及以上人口占6歲及以上人口比例與人均國(guó)內(nèi)生產(chǎn)總值”線(xiàn)性回歸方程的回歸系數(shù)(見(jiàn)表121)。2、置信區(qū)間 點(diǎn)選圖125中的Confidence intervals ,可以求得回歸系數(shù)的95%置信區(qū)間,在置信度95%時(shí),置信區(qū)間為: 式中為樣本標(biāo)準(zhǔn)差,為回歸系數(shù)。來(lái)看例1關(guān)于“大專(zhuān)及以上人口占6歲及以上人口比例與人均國(guó)內(nèi)生產(chǎn)總值”線(xiàn)性回歸方程的回歸系數(shù)(見(jiàn)表122)。 表132給出了回歸系數(shù)B的95的置信區(qū)間,置信區(qū)間的下限為1593.071,上限為2849.639。 3、模型擬合度 點(diǎn)選圖125中的 Model Fit ,可以輸出對(duì)模型擬合度進(jìn)行評(píng)價(jià)

14、的統(tǒng)計(jì)量。模型擬合統(tǒng)計(jì)量主要有:R、 RRsquare、 R adj 。這些值主要用來(lái)判斷模型的擬合度或解釋力怎么樣。表133和表134為“大專(zhuān)及以上人口占6歲及以上人口比例與人均國(guó)內(nèi)生產(chǎn)總值”線(xiàn)性回歸方程模型的擬合度統(tǒng)計(jì)量。 (1)相關(guān)系數(shù) R表133中的相關(guān)系數(shù)R0.802,反映了真實(shí)數(shù)據(jù)與回歸直線(xiàn)靠近的程度,直接反映了一元線(xiàn)性回歸或多元性回歸預(yù)測(cè)效果的好壞程度。(2)判定系數(shù) R Square R Square 也叫判定系數(shù)或確定系數(shù)(Coefficient of Determination ),它等于(總平方和- 余差平方和)/總平方和總平方和(Total Sum of Square)

15、的計(jì)算公式是;TSS= 表示觀(guān)察值圍繞均值的情況,表示總的分散程度。TSS相當(dāng)于PRE中的E1,因?yàn)楫?dāng)不知道自變量 x和因變量y有關(guān)系時(shí),對(duì)因變量的最好的估計(jì)就是因變量的均值,而每一個(gè)真實(shí)的因變量的觀(guān)察值和因變量的均值的差,就構(gòu)成了每次估計(jì)的誤差?;貧w平方和(Regression Sum of Square)為回歸方程能夠解釋因變量Y變化的部分,其計(jì)算公式為:RSS= 式中:= a+ bxRSS反映了因變量Y的觀(guān)察值偏離回歸直線(xiàn)的程度,相當(dāng)于PRE中的E2,也就是知道Y與X有關(guān)系以后,估計(jì)Y值時(shí)產(chǎn)生的總誤差。余差平方和(Error Sum of Square)為回歸直線(xiàn)不能解釋因變量Y變化的部

16、分,是不可解釋的殘差。TSS(總平方和)ESS(回歸直線(xiàn)未能解釋的誤差 )=RSS(通過(guò)回歸直線(xiàn)被解釋掉的誤差。 R Square =(TSS-ESS)/TSS R Square越大,說(shuō)明被解釋掉的誤差越大,說(shuō)明模型擬合度越好,從而可以反映出自變量對(duì)回歸模型的貢獻(xiàn),其解釋能力越強(qiáng)。本例的 R Square為0.643,表示模型的擬合度為64.3%,或者說(shuō)當(dāng)僅以大專(zhuān)及以上人口占6歲及以上人口比例與人均國(guó)內(nèi)生產(chǎn)總值來(lái)建構(gòu)線(xiàn)性回歸模型時(shí),自變量大專(zhuān)及以上人口占6歲及以上人口比例能夠解釋掉64.3的人均國(guó)內(nèi)生產(chǎn)總值的差異。(3)修正的R平方Adjusted R Square 為修正的判定系數(shù)。 隨著自

17、變量個(gè)數(shù)的增加,剩余平方和逐漸減少,R平方也隨之增大,所以R平方是一個(gè)受自變量的個(gè)數(shù)與樣本規(guī)模的比例影響很大的系數(shù)。一般當(dāng)自變量與樣本規(guī)模的比例是1:10 以上比較好,當(dāng)這個(gè)比值小于1:5時(shí),R平方會(huì)高估實(shí)際的擬合優(yōu)度,為了避免這種情況的出現(xiàn),就用調(diào)整的Adjusted R Square代替R Square。修正的R平方的計(jì)算公式為: 當(dāng)樣本數(shù)量遠(yuǎn)遠(yuǎn)大于自變量的個(gè)數(shù)時(shí),調(diào)整的R平方就非常接近R平方。本例修正的R平方為0.631,比 R Square(0.643)略小。(4)回歸方程的檢驗(yàn) 表123 回歸方差分析表來(lái)源自由度df平方和sum of square均方和mean squareF值顯著

18、水平Sig .回歸RegressionKRSSRSS/K余差Residualn- k 1ESSESS/(NK -1)總n - 1TSSF檢驗(yàn)的假設(shè)是:原假設(shè):自變量與因變量之間無(wú)線(xiàn)性相關(guān),各個(gè)回歸系數(shù)相等。也就是能否肯定總體回歸系數(shù)中至少有一個(gè)不等于0。研究假設(shè):自變量與因變量之間存在線(xiàn)性相關(guān),是至少有一個(gè)回歸系數(shù)不等于0。如果接受原假設(shè),那么自變量與因變量之間的線(xiàn)性關(guān)系就不顯著,如果拒絕原假設(shè),接受研究假設(shè),那么自變量與因變量之間存在線(xiàn)性關(guān)系。如果計(jì)算的顯著性小于,(事先確定的標(biāo)準(zhǔn),社會(huì)科學(xué)研究中通常取0.05或0.01),則拒絕原假設(shè),接受研究假設(shè)。表134 為大專(zhuān)及以上人口占6歲及以上人

19、口比例與人均國(guó)內(nèi)生產(chǎn)總值線(xiàn)性回歸模型的方差分析表,模型的回歸平方和為2188940608.45,自由度為1,回歸均方和為2188940608.45。余差平方和為1214014234.91,自由度為29,余差均方和為41862559.82。F值52.2892188940608/41862559.82,F(xiàn)的顯著性Sig.000,小于5%,所以,本例的模型擬合度R Square具有統(tǒng)計(jì)學(xué)意義。(四)回歸分析假定條件的檢查1、正態(tài)分布檢查 一般用標(biāo)準(zhǔn)化誤差直方圖、標(biāo)準(zhǔn)化誤差正態(tài)概率散點(diǎn)圖、標(biāo)準(zhǔn)化誤差和標(biāo)準(zhǔn)化預(yù)測(cè)值的散點(diǎn)圖來(lái)對(duì)正態(tài)分布進(jìn)行檢查。操作方法:第一步:?jiǎn)螕魣D123中的Plots 打開(kāi)Regre

20、ssion Linear:Plots作圖對(duì)話(huà)框。圖126 Regression Linear:Plots作圖對(duì)話(huà)框第二步:點(diǎn)選*ZRESID(標(biāo)準(zhǔn)化誤差頻數(shù))到框(設(shè)為縱坐標(biāo)) 點(diǎn)選*ZPRED(標(biāo)準(zhǔn)化誤差)到(設(shè)為橫坐標(biāo))。第三步:?jiǎn)螕?*ZRESID(標(biāo)準(zhǔn)化誤差頻數(shù))到框(設(shè)為縱坐標(biāo)) 點(diǎn)選*SRESID到(設(shè)為橫坐標(biāo)) 點(diǎn)選 Histogram(即要求輸出殘差統(tǒng)計(jì)量的正態(tài)分布圖) 點(diǎn)選 Normal probability plot(即要求輸出標(biāo)準(zhǔn)殘差正態(tài)分布圖) 單擊Continue 返回Linear Regression對(duì)話(huà)框 單擊OK 輸出圖形(見(jiàn)圖12-7和圖128)圖137是標(biāo)準(zhǔn)化誤差正態(tài)概率散點(diǎn)圖,如果總體誤差項(xiàng)服從正態(tài)分布,則散點(diǎn)將完全落在由原點(diǎn)出發(fā)的參照線(xiàn)上,橫坐標(biāo)0.5代表誤差由負(fù)到正的分界點(diǎn),即這一點(diǎn)代表誤差為0的情況,由這點(diǎn)向左側(cè)延伸代表負(fù)誤差值越來(lái)越大,由這點(diǎn)向右側(cè)延伸代表正誤差值越來(lái)越大。顯然,本例總體誤差項(xiàng)并不完全服從正態(tài)分布,因?yàn)橛幸徊糠稚Ⅻc(diǎn)遠(yuǎn)離了參照線(xiàn)。圖138為標(biāo)準(zhǔn)化誤差直方

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論