版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
27.回歸分析回歸分析是研究一個或多個變量(因變量)與另一些變量(自變量)之間關系的統(tǒng)計方法。主要思想是用最小二乘法原理擬合因變量與自變量間的最佳回歸模型(得到確定的表達式關系)。其作用是對因變量做解釋、控制、或預測?;貧w與擬合的區(qū)別:擬合側重于調整曲線的參數(shù),使得與數(shù)據(jù)相符;而回歸重在研究兩個變量或多個變量之間的關系。它可以用擬合的手法來研究兩個變量的關系,以及出現(xiàn)的誤差?;貧w分析的步驟:(1)獲取自變量和因變量的觀測值;(2)繪制散點圖,并對異常數(shù)據(jù)做修正;(3)寫出帶未知參數(shù)的回歸方程;(4)確定回歸方程中參數(shù)值;(5)假設檢驗,判斷回歸方程的擬合優(yōu)度;(6)進行解釋、控制、或預測。(一)一元線性回歸一、原理概述一元線性回歸模型:Y=o+1X+£其中X是自變量,Y是因變量,0,1是待求的未知參數(shù),0也稱為截距;£是隨機誤差項,也稱為殘差,通常要求£滿足:£的均值為0;£的方差為2;③協(xié)方差COV(£,£.)=0,當i的時。即對所有的i卻£與£互不1j1j相關。用最小二乘法原理,得到最佳擬合效果的B,B值:o1E3-x)(y-y)p=^-^=!,B=y-Bx1廠o1乙(X一X)2ii=1模型檢驗擬合優(yōu)度檢驗計算R2,反映了自變量所能解釋的方差占總方差的百分比,值越大說明模型擬合效果越好。通??梢哉J為當R2大于0.9時,所得到的回歸直線擬合得較好,而當R2小于0.5時,所得到的回歸直線很難說明變量之間的依賴關系?;貧w方程參數(shù)的檢驗回歸方程反應了因變量Y隨自變量X變化而變化的規(guī)律,若廣0,則Y不隨X變化,此時回歸方程無意義。所以,要做如下假設檢驗:H0:廣0,H1:1#0;①F檢驗若廣0為真,則回歸平方和RSS與殘差平方和ESS/(N-2)都是2的無偏估計,因而采用F統(tǒng)計量:來檢驗原假設禹=0是否為真。②T檢驗對H0:1=0的T檢驗與F檢驗是等價的(t2=F)。用回歸方程做預測得到回歸方程Y=B+BX后,預測X=x處的Y值y=B+BX.0i000ioy0的預測區(qū)間為:其中t,,的自由度為N-2.a/2二、R語言實現(xiàn)使用lm()函數(shù)實現(xiàn),基本格式為:lm(formula,data,subset,weights,na.action,
method="qr",...)其中,formula為要擬合的回歸模型的形式,一元線性回歸的格式為:y?x,y表示因變量,x表示自變量,若不想包含截距項,使用y?x-1;data為數(shù)據(jù)框或列表;subset選取部分子集;weights取NULL時表示最小二乘法擬合,若取值為權重向量,則用加權最小二乘法;na.action設定是否忽略缺失值;method指定擬合的方法,目前只支持“qr”(QR分解),method=“model.frame”返回模型框架。三、實例例1現(xiàn)有埃及卡拉馬村莊每月記錄兒童身高的數(shù)據(jù),做一元線性回歸。
datas<-data.frame(age=18:29,height=c(76.1,77,78.1,78.2,78.8,79.7,79.9,81.1,81.2,81.8,82.8,83.5))datasageheightTOC\o"1-5"\h\z1876.11977.02078.12178.22278.82379.72479.92581.12681.22781.82882.82983.5plot(datas)#繪制散點圖res.reg<-lm(height~age,datas)#做一元線性回歸summary(res.reg)Residuals:summary(res.reg)Residuals:#輸出模型的匯總結果Min1QMedian3QMax-0.27238-0.24248-0.027620.160140.47238Coefficients:tvaluePr(>|t|)tvaluePr(>|t|)127.71<2e-16***29.664.43e-11***(Intercept)64.92830.5084age0.63500.0214Signif.codes:0‘***’0.001‘心’0.01‘*’0.05‘.’0.1‘’1Residualstandarderror:0.256on10degreesoffreedomMultipleR-squared:0.9888,AdjustedR-squared:0.9876F-statistic:880on1and10DF,p-value:4.428e-11說明:輸出了殘差信息Residuals;回歸系數(shù)估計值、標準誤、t統(tǒng)計量值、p值,可得到回歸方程:height=64.9283+0.6350*age回歸系數(shù)p值(<2e-16,4.43e-11)很小,非常顯著的手0***也表示顯著程度非常顯著。擬合優(yōu)度R2=0.9888>0.5,表示擬合程度很好。F統(tǒng)計量=880,p值=4.428e-11遠小于0.05,表示整個回歸模型顯著,適合估計height這一因變量。coefficients(res.reg)#返回模型的回歸系數(shù)估計值(Intercept)age64.9283220.634965confint(res.reg,parm="age”,level=0.95)#輸出參數(shù)age的置信區(qū)間,若不指定parm將返回所有參數(shù)的置信區(qū)間2.5%97.5%age0.58727220.6826578fitted(res.reg)#輸出回歸模型的預測值12345678910111276.3576976.9926677.6276278.2625978.8975579.5325280.1674880.8024581.4374182.0723882.7073483.34231anova(res.reg)#輸出模型的方差分析表Response:heightDfSumSqMeanSqFvaluePr(>F)age157.65557.655879.994.428e-11***Residuals100.6550.066—Signif.codes:0‘***’0.001‘心’0.01‘*’0.05‘.’0.1‘’1vcov(res.reg)#輸出模型的協(xié)方差矩陣(Intercept)age(Intercept)0.-0.00age-0.010766860.0004581642residuals(res.reg)#輸出模型的殘差123456789101112-0.80.0073426570.2-0.0-0.00.7-0.70.8-0.7-0.20.00.8AlC(res.reg)#輸出模型的AIC值5.161407BlC(res.reg)#輸出模型的BIC值6.616127logLik(res.reg)#輸出模型的對數(shù)似然值'logLik.'0.4192965(df=3)abline(res.reg)#給散點圖加上一條回歸線par(mfrow=c(2,2))plot(res.reg)#繪制回歸診斷圖說明:分別是殘差與擬合值圖,二者越無關聯(lián)越好,若有明顯的曲線關系,則說明需要對線性回歸模型加上高次項;殘差的Q-Q圖,看是否服從正態(tài)分布;標準化殘差與擬合值圖,也叫位置-尺度圖,縱坐標是標準化殘差的平方根,殘差越大,點的位置越高,用來判斷模型殘差是否等方差,若滿足則水平線周圍的點應隨機分布;殘差與杠桿圖,虛線表示Cooks距離(每個數(shù)據(jù)點對回歸線的影響力)等高線,從中可以鑒別出離群點(第3個點較大,表示刪除該數(shù)據(jù)點,回歸系數(shù)將有實質上的改變,為異常值點)、高杠桿點、強影響點。datas<-datas[-3,]#刪除第3個樣本點,重新做一元線性回歸res.reg2<-lm(height~age,datas)summary(res.reg2)新的回歸方程為:height=64.5540+0.6489*age,擬合優(yōu)度R2=0.993,擬合效果變得更好。#用回歸模型預測ages<-data.frame(age=30:34)pre.res<-predict(res.reg2,ages,interval="prediction",level=0.95)#注意predict函數(shù)的第1個參數(shù)必須是回歸模型的自變量數(shù)據(jù)構成的數(shù)據(jù)框或列表pre.resfitlwrupr84.0203483.4683984.5722884.6692184.0971185.2413285.3180984.7236585.9125485.9669785.3482586.5856986.6158585.9711487.26056多元線性回歸一、基本原理1.多元線性回歸模型:Y=0+1Xi+..?+/產其中X1,…,XN是自變量,Y是因變量,0,]...,N是待求的未知參數(shù),£是隨機誤差項(殘差),若記多元線性回歸模型可寫為矩陣形式:Y=Xp+s通常要求:矩陣X的秩為k+1(保證不出現(xiàn)共線性),且k<N;£為正態(tài)分布,E(£)=0和E(££’)二21,其中I為NXN單位矩陣。用最小二乘法原理,令殘差平方和最小,得到為P的最佳線性無偏估計量(高斯一馬爾可夫定理)。2.2的估計和T檢驗選取2的估計量:則假如t值的絕對值相當大,就可以在適當選定的置信水平上否定原假設,參數(shù)的1-a置信區(qū)間可由下式得出:其中t〃為與a%顯著水平有關的t分布臨界值。a/23.R2和F檢驗若因變量不具有0平均值,則必須對R2做如下改進:隨著模型中增添新的變量,R2的值必定會增大,為了去掉這種增大的干擾,還需要對R2進行修正(校正擬合優(yōu)度對自由度的依賴關系):做假設檢驗:H0:1二??=N=0;H1:1...,N至少有一個NO;使用F統(tǒng)計量做檢驗,若F值較大,則否定原假設。4.回歸診斷(1)殘差圖分析殘差圖就是以殘差£=y-y為縱坐標,某一個合適的自變量為橫坐標的散點圖?;貧w模型中總是假定誤差項是獨立的正態(tài)分布隨機變量,且均值為零和方差相等為2.如果模型適合于觀察到的數(shù)據(jù),那么殘差作為誤差的無偏估計,應基本反映誤差的假設特征。即殘差圖應該在零點附近對稱地密布,越遠離零點的地方就疏散(在形象上似有正態(tài)趨勢),則認為模型與數(shù)據(jù)擬合得很好。若殘差圖呈現(xiàn)如圖(a)所示的形式,則認為建立的回歸模型正確,更進一步再診斷“學生化殘差”是否具有正態(tài)性:圖(b)表明數(shù)據(jù)有異常點,應處理掉它重新做回歸分析(在SAS的REG回歸過程步中用來度量異常點影響大小的統(tǒng)計量是COOKD統(tǒng)計量);圖(c)殘差隨x的增大而增大,圖(d)殘差隨x的增大而先增后減,都屬于異方差。此時應該考慮在回歸之前對數(shù)據(jù)y或x進行變換,實現(xiàn)方差穩(wěn)定后再擬合回歸模型。原則上,當誤差方差變化不太快時取變換、廳;當誤差方差變化較快時取變換logy或lny;當誤差方差變化很快時取變換1/y;還有其他變換,如著名的Box-Cox幕變換"-1.力圖(e)(f)表示選用回歸模型是錯誤的。共線性回歸分析中很容易發(fā)生模型中兩個或兩個以上的自變量高度相關,從而引起最小二乘估計可能很不精確(稱為共線性問題)。在實際中最常見的問題是一些重要的自變量很可能由于在假設檢驗中t值不顯著而被不恰當?shù)靥蕹恕9簿€性診斷問題就是要找出哪些變量間存在共線性關系。誤差的獨立性回歸分析之前,要檢驗誤差的獨立性。若誤差項不獨立,那么回歸模型的許多處理,包括誤差項估計、假設檢驗等都將沒有推導依據(jù)。由于殘差是誤差的合理估計,因此檢驗統(tǒng)計量通常是建立在殘差的基礎上。檢驗誤差獨立性的最常用方法,是對殘差的一階自相關性進行Durbin-Watson檢驗。H0:誤差項是相互獨立的;H1:誤差項是相關的檢驗統(tǒng)計量:DW接近于0,表示殘差中存在正自相關;如果DW接近于4,表示殘差中存在負自相關;如果DW接近于2,表示殘差獨立性。二、R語言實現(xiàn)還是用函數(shù)實現(xiàn),不同是需要設置更復雜的formula格式:y?x1+x2只考慮自變量的主效應(y=k1x1+k2x2),y?.表示全部自變量的主效應;y?x1+x2+x1:x2考慮主效應和交互效應(y=kix1+k2x2+k3x1x2);y?x1*x2——考慮全部主效應和交互效應的簡寫(效果同上);y?(x1+x2+x3)A2考慮主效應以及至2階以下的交互效應,相當于x1+x2+x3+x1:x2+x2:x3+x1:x3y?x1%in%x2x1含于x2,相當于x2+x2:x1y~(x1+x2)A2-x1:x2表示從(x1+x2)A2中去掉x1:x2y~x1+I((x2+x3)A2)使用I()函數(shù),相當于用(x2+x3)A2計算出新變量h,然后y?x1+hfunction在表達式中使用數(shù)學函數(shù),例如log(y)?x1+x2三、實例例2現(xiàn)有1990?2009年財政收入的數(shù)據(jù)revenue.txt:各變量分別表示:y:財政收入(億元)x1:第一產業(yè)國內生產總值(億元)x2:第二產業(yè)國內生產總值(億元)x3:第三產業(yè)國內生產總值(億元)x4:人口數(shù)(萬人)x5:社會消費品零售總額(億元)x6:受災面積(萬公頃)做多元線性回歸分析。setwd("E:/辦公資料/R語言/R語言學習系列/codes")revenue=read.table("revenue.txt",header=TRUE)Im.reg=lm(y~x1+x2+x3+x4+x5+x6,revenue)summary(lm.reg)Residuals:Min1QMedian3QMax-295.71-173.5226.5990.16370.01Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)6.046e+043.211e+0318.8298.12e-11'加HZ?x1-1.171e-018.638e-02-1.3560.19828x23.427e-023.322e-021.0320.32107x36.182e-014.103e-0215.0671.31e-0944*x4-5.152e-012.930e-02-17.5851.91e-1044*x5-1.104e-012.878e-02-3.8370.00206**x6-1.864e-021.023e-02-1.8230.09143.—Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1Residualstandarderror:234.8on13degreesoffreedomMultipleR-squared:0.9999,AdjustedR-squared:0.9999F-statistic:2.294e+04on6and13DF,p-value:<2.2e-16說明:擬合優(yōu)度R2=0.9999,效果非常好。但是多元回歸時,自變量個數(shù)越多,擬合優(yōu)度必然越好,所以還要看檢驗效果和回歸系數(shù)是否顯著。結果解釋、回歸方程、回歸預測與前文類似(略)。結合顯著性代碼可看出:x1和x2不顯著,x6只在0.1顯著水平下顯著,故應考慮剔除x1和x2.R語言中提供了update()函數(shù),用來在原模型的基礎上進行修正,還可以對變量進行運算,其基本格式為:update(object,formula.,...,evaluate=TRUE)其中,object為前面擬合好的原模型對象;formula指定模型的格式,原模型不變的部分用“.”表示,只寫出需要修正的地方即可,例如update(lm.reg,.?.+x7)表示添加一個新的變量叩date(lm.reg,sqrt(.)?.)表示對因變量y開方,再重新擬合回歸模型lm.reg2<-update(lm.reg,.~.-x1-x2)#剔除自變量x1,x2summary(lm.reg2)Residuals:Min1QMedian3QMax-325.62-147.5414.07108.28427.42Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)6.339e+042.346e+0327.0203.89e-14***x36.584e-011.548e-0242.523<2e-16***TOC\o"1-5"\h\zx4-5.438e-011.981e-02-27.4453.09e-14***x5-1.392e-011.918e-02-7.2562.80e-06***x6-1.803e-029.788e-03-1.8420.0854.—Signif.codes:0‘心*’0.001‘心’0.01‘*’0.05‘.’0.1‘’1Residualstandarderror:233.6on15degreesoffreedomMultipleR-squared:0.9999,AdjustedR-squared:0.9999F-statistic:3.476e+04on4and15DF,p-value:<2.2e-16逐步回歸多元線性回歸模型中,并不是所有的自變量都與因變量有顯著關系,有時有些自變量的作用可以忽略。這就需要考慮怎樣從所有可能有關的自變量中挑選出對因變量有顯著影響的部分自變量。逐步回歸的基本思想是,將變量一個一個地引入或剔出,引入或剔出變量的條件是“偏相關系數(shù)”經檢驗是顯著的,同時每引入或剔出一個變量后,對已選入模型的變量要進行逐個檢驗,將不顯著變量剔除或將顯著的變量引入,這樣保證最后選入的所有自變量都是顯著的。逐步回歸每一步只有一個變量引入或從當前的回歸模型中剔除,當沒有回歸因子能夠引入或剔出模型時,該過程停止。R語言中,用step()函數(shù)進行逐步回歸,以AIC信息準則作為選入和剔除變量的判別條件。AIC是日本統(tǒng)計學家赤池弘次,在熵概念的基礎上建立的:AIC=2(p+1)-2ln(L)其中,p為回歸模型的自變量個數(shù),L是似然函數(shù)。注:AIC值越小越被優(yōu)先選入?;靖袷剑簊tep(object,direction=,steps=,k=2,...)其中,object是線性模型或廣義線性模型的返回結果;direction確定逐步回歸的方法,默認“both”綜合向前向后法,“backward”向后法(先把全部自變量加入模型,若無統(tǒng)計學意義則剔出模型),“forward”向前法(先將部分自變量加入模型,再逐個添加其它自變量,若有統(tǒng)計學意義則選入模型);steps表示回歸的最大步數(shù),默認1000;k默認=2,輸出為AIC值,=log(n)有時輸出BIC或SBC值。另外,有時還需要借助使用drop1(object)和add1(object)函數(shù),其中object為逐步回歸的返回結果,判斷剔除或選入一個自變量,AIC值的變化情況,以篩選選入模型的自變量。lm.step<-step(lm.reg)summary(lm.step)Call:lm(formula=y~x3+x4+x5+x6,data=revenue)Residuals:Min1QMedian3QMax-325.62-147.5414.07108.28427.42Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)6.339e+042.346e+0327.0203.89e-14***x36.584e-011.548e-0242.523<2e-16***TOC\o"1-5"\h\zx4-5.438e-011.981e-02-27.4453.09e-14***x5-1.392e-011.918e-02-7.2562.80e-06***x6-1.803e-029.788e-03-1.8420.0854.—Signif.codes:0‘***’0.001‘心’0.01‘*’0.05‘.’0.1‘’1Residualstandarderror:233.6on15degreesoffreedomMultipleR-squared:0.9999,AdjustedR-squared:0.9999F-statistic:3.476e+04on4and15DF,p-value:<2.2e-16
最終得到最優(yōu)的模型。說明:默認輸出每步的結果(略),進行了3步回歸,逐步剔除最終得到最優(yōu)的模型。SingletermdeletionsModel:y~x3+x4+x5+x6DfSumofSqRSSAIC<none>818775222.40x31316.40x41299.12x5128739293692704250.52x611851231003898224.47dropl(lm.step)了自變量x1和x2,AIC值逐步減小,lm.reg3<-lm(y~x3+x4+x5,revenue)summary(lm.reg3)Call:lm(formula=y~Residuals:Min1Q-336.34-186.82Coefficients:Estimate(Intercept)6.284e+04x36.614e-01x4-5.467e-01x5-1.412e-01x3+x4Median1.52+x5,data=revenue)3QMax89.46437.84Std.Error2.494e+031.651e-022.118e-022.053e-02tvalue25.19140.066-25.813-6.877Pr(>|t|)2.66e-14<2e-161.81e-143.72e-06Signif.codes:0‘***’0.001‘心’0.01‘*’0.05‘.’0.1‘Residualstandarderror:250.5on16degreesoffreedomMultipleR-squared:0.9999,AdjustedR-squared:0.9998F-statistic:4.032e+04on3and16DF,p-value:<2.2e-16說明:使用drop1()函數(shù)考察分別剔除每個自變量,AIC值變化的情況,可以看出不剔除x6與剔除x6,AIC值只從222.40變大到224.47,相對其它自變量變化很小。所以,可以考慮剔除掉x6,重新做多元線性回歸。(四)回歸診斷回歸分析之后,還需要從殘差的隨機性、強影響分析、共線性方面進行診斷。一、殘差診斷殘差y.res<-lm.reg3$residuals#回歸模型的殘差y.fit<-predict(lm.reg3)#回歸模型的預測值plot(y.res~y.fit,main="殘差圖”)#繪制殘差圖,以預測值作為橫坐標說明:從圖形看,殘差分布比較均勻,大致滿足隨機性。shapiro.test(y.res)#殘差的正態(tài)性檢驗Shapiro-Wilknormalitytestdata:y.resW=0.94206,p-value=0.2622說明:p值=0.2622>0.05,接受原假設,即殘差服從正態(tài)分布。標準化殘差殘差與數(shù)據(jù)的數(shù)量級有關,除以標準誤差后得到標準化殘差。理想的標準化殘差服從N(0,1).rs<-rstandard(lm.reg3)#得到標準化殘差plot(rs~y.fit,main="標準殘差圖”)shapiro.test(rs)#標準化殘差的正態(tài)性檢驗Shapiro-Wilknormalitytestdata:rsW=0.97766,p-value=0.9004學生化殘差為了回避標準化殘差的方差齊性假設,使用學生化殘差。rst<-rstudent(lm.reg3)plot(rs~y.fit,main="學生化殘差圖”)shapiro.test(rst)Shapiro-Wilknormalitytestdata:rstW=0.97463,p-value=0.848⑷殘差自相關性的Durbin-Watson檢驗使用car包中的函數(shù):durbinwatsonTest(model,alternative=c("two.side","positive","negative"))H0:序列不存在自相關性library(car)durbinWatsonTest(lm.reg3)lagAutocorrelationd-wStatisticp-value2.425790.77rho2.425790.77rho!=0Alternativehypothesis:二、強影響分析對參數(shù)估計或預測值有異常影響的數(shù)據(jù),稱為強影響數(shù)據(jù)?;貧w模型應當具有一定的穩(wěn)定性,若個別一兩組數(shù)據(jù)對估計有異常大的影響,剔除后將得到與原來差異很大的回歸方程,從而有理由懷疑原回歸方程是否真正描述了變量間的客觀存在的關系。1.反映這種強影響的統(tǒng)計量有4種及函數(shù):Leveragehatvalues(model)DEFITS——dffits(model)Cook’s距離cooks.distance(model)COVRATIOcovratio(model)另外,influence.measures(model)函數(shù),可以匯總上述4種統(tǒng)計量,判斷強影響點。influence.measures(lm.reg3)Influencemeasuresoflm(formula=y~x3+x4+x5,data=revenue):dfb.1_dfb.x3dfb.x4dfb.x5dffitcov.rcook.dhatinfTOC\o"1-5"\h\z0.344152-3.04124-0.4612242.916617-3.409450.8102.14e+000.6347*0.679128-0.09558-0.7071590.3090341.617040.5155.04e-010.3127*-1.7022341.565061.816261-1.982696-3.334521.4262.25e+000.6996*說明:判斷出第18,19,20個樣本是強影響點。2.Bonferroni離群點檢驗使用car包中的函數(shù)outlierTest(model)library(car)outlierTest(lm.reg3)NoStudentizedresidualswithBonferonnip<0.05Largest|rstudent|:rstudentunadjustedp-valueBonferonnip18-2.5866470.020640.4128注:去掉強影響點,重新做多元線性回歸(略)。三、共線性診斷回歸分析中很容易發(fā)生模型中兩個或兩個以上的自變量高度相關,從而引起最小二乘估計可能很不精確(稱為共線性問題)。在實際中最常見的問題是一些重要的自變量很可能由于在假設檢驗中t值不顯著而被不恰當?shù)靥蕹?。共線性診斷問題就是要找出哪些變量間存在共線性關系。模型條件數(shù)檢驗使用函數(shù)kappa(z,exact=FALSE,…),其中,z為矩陣XTX,或lm、glm的返回對象;exact設置是否精確計算。一般認為:當K<100時不存在多重共線性;當100WK<1000時存在較強的多重共線性;當KN1000時存在嚴重的多重共線性。x<-scale(revenue[,3:8])#取出自變量數(shù)據(jù),做標準化xx=crossprod(x)#求x’x即矩陣的叉積kappa(xx)[1]6132.142方差膨脹因子(VIF)檢驗使用car包中的函數(shù)vif(model),該函數(shù)還能判斷哪些自變量間存在共線性。般認為:當vif<10時不存在多重共線性;當10Wvif<100時,存在較強的多重共線性;當vifN100時存在嚴重的多重共線性。Im.reg<-lm(y~x1+x2+x3+x4+x5+x6,revenue)vif(lm.reg)x1x2x3x4x5x6196.993779777.7625221014.24830610.484018342.6054901.278766cor(revenue$x2,revenue$x3)#x2和x3的vif值最大,考察二者的相關性[1]0.9977899可見,x2和x3存在嚴重的共線性,應該考慮剔除其中的一個。嶺回歸多元線性回歸分析中,我們會在眾多變量中選擇對因變量顯著性影響大的那些自變量。但常常會遇到一個問題:在某些情況下,增加或剔除一個自變量后,回歸系數(shù)變化很大甚至改變符號。主要原因就是變量之間存在多重共線性。嶺回歸分析是一種專用于共線性數(shù)據(jù)分析的有偏估計回歸方法,實質上是一種改良的最小二乘估計法,通過放棄最小二乘法的無偏性,以損失部分信息、降低精度為代價,獲得回歸系數(shù)更為符合實際、更可靠的回歸方法?;驹恚寒斪宰兞块g存在多重共線性時,有|X『X周0,考慮加上一個正常數(shù)矩陣kI,(k>0),則xtx+kI接近奇異的程度就會比xtx小很多,從而消除了多重共線性??紤]到變量的量綱,應先對數(shù)據(jù)進行標準
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 四川省德陽市羅江中學2025屆物理高二上期末質量跟蹤監(jiān)視模擬試題含解析
- 2025屆山東省濱州市惠民縣中學物理高二第一學期期末質量檢測模擬試題含解析
- 山西省重點中學協(xié)作體2025屆高一物理第一學期期末檢測試題含解析
- 2025屆陜西省南鄭中學物理高一上期末復習檢測模擬試題含解析
- 甘肅省天水市一中2025屆物理高一上期末聯(lián)考試題含解析
- 2025屆四川省瀘縣一中物理高二第一學期期末質量檢測模擬試題含解析
- 云南省景東一中2025屆物理高二第一學期期末調研試題含解析
- 2025屆湖南懷化市中小學課程改革教育質量監(jiān)測物理高一上期末質量跟蹤監(jiān)視試題含解析
- 安徽省安慶二中、天成中學2025屆物理高三第一學期期末綜合測試模擬試題含解析
- 山西省大同市第一中學2025屆物理高二上期末達標檢測試題含解析
- 各工序的產能計算
- 家長會課件:三年級上冊期中數(shù)學家長會課件
- 中國國民心理健康報告2022
- 地鐵應急管理知識培訓44
- 廉潔提醒談話記錄表 (空表)
- 《急性胰腺炎診治指南》解讀急性胰腺炎外科診治現(xiàn)狀與進展
- 二年級上冊語文全冊教材分析
- 游戲綜合YY頻道設計模板
- 三字經注解備要(清)賀興思撰
- 互聯(lián)網醫(yī)院功能說明-版
- 【深信服】大云云計算PT2認證考試(重點)復習題庫(含答案)
評論
0/150
提交評論