《回歸分析》完整筆記_第1頁
《回歸分析》完整筆記_第2頁
《回歸分析》完整筆記_第3頁
《回歸分析》完整筆記_第4頁
《回歸分析》完整筆記_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

《回歸分析》完整筆記第一章:引言1.1回歸分析的基本概念回歸分析是一種統(tǒng)計(jì)學(xué)方法,用于研究一個(gè)或多個(gè)自變量(預(yù)測變量)與因變量(響應(yīng)變量)之間的關(guān)系。它幫助我們理解這些變量如何相互作用,并且能夠基于已知的自變量值來預(yù)測未知的因變量值。線性回歸是最簡單的形式之一,它假設(shè)因變量和自變量之間存在線性關(guān)系。1.2回歸分析的應(yīng)用領(lǐng)域經(jīng)濟(jì)領(lǐng)域:評(píng)估廣告支出對銷售額的影響。醫(yī)學(xué)研究:探究特定治療方案對患者恢復(fù)速度的作用。社會(huì)科學(xué)研究:探索教育水平與收入的關(guān)系。環(huán)境科學(xué):分析污染程度與健康問題的相關(guān)性。商業(yè)決策:通過歷史銷售數(shù)據(jù)預(yù)測未來趨勢。表1-1不同領(lǐng)域中應(yīng)用回歸分析的例子領(lǐng)域自變量示例因變量示例經(jīng)濟(jì)廣告費(fèi)用銷售額醫(yī)學(xué)治療類型康復(fù)時(shí)間社會(huì)科學(xué)教育年限個(gè)人年收入環(huán)境科學(xué)PM2.5濃度呼吸系統(tǒng)疾病率商業(yè)季節(jié)性促銷活動(dòng)產(chǎn)品銷量增長1.3本課程的目標(biāo)和結(jié)構(gòu)本課程旨在向?qū)W生介紹回歸分析的基礎(chǔ)理論、方法及其在實(shí)際中的應(yīng)用。我們將從最基礎(chǔ)的簡單線性回歸模型開始,逐步過渡到更復(fù)雜的多元回歸及非參數(shù)回歸等高級(jí)主題。通過本課程的學(xué)習(xí),你將掌握以下技能:建立并解釋回歸模型進(jìn)行有效的模型選擇使用軟件工具執(zhí)行回歸分析識(shí)別并解決回歸分析中常見的問題第二章:簡單線性回歸2.1簡單線性回歸模型簡單線性回歸是回歸分析中最基本的形式之一,涉及一個(gè)單一的自變量XX與一個(gè)因變量YY之間的關(guān)系。該模型可以表示為:Y=β0+β1X+?Y=β0?+β1?X+?其中,YY

是因變量;XX

是自變量;β0β0?

是截距項(xiàng),代表當(dāng)X=0X=0時(shí)YY的期望值;β1β1?

是斜率系數(shù),指示每增加一個(gè)單位的XX時(shí),YY平均變化的數(shù)量;??

是誤差項(xiàng),代表了模型未捕捉到的所有其他影響因素。2.2參數(shù)估計(jì):最小二乘法為了確定β0β0?和β1β1?的具體數(shù)值,通常采用最小二乘法來尋找最佳擬合直線。這個(gè)過程旨在最小化所有觀測點(diǎn)與擬合直線之間垂直距離的平方和。給定一組觀測數(shù)據(jù)(xi,yi)(xi?,yi?),最小二乘估計(jì)量β^0β^?0?和β^1β^?1?可以通過解下面的方程組得到:∑(yi?y^i)2∑(yi??y^?i?)2這里y^i=β^0+β^1xiy^?i?=β^?0?+β^?1?xi?是根據(jù)當(dāng)前參數(shù)估計(jì)值計(jì)算出的預(yù)測值。具體來說,最小二乘估計(jì)公式為:β^1=∑(xi?xˉ)(yi?yˉ)∑(xi?xˉ)2β^?1?=∑(xi??xˉ)2∑(xi??xˉ)(yi??yˉ?)?β^0=yˉ?β^1xˉβ^?0?=yˉ??β^?1?xˉ其中,xˉxˉ和yˉyˉ?分別是樣本均值。2.3模型評(píng)估:擬合優(yōu)度、殘差分析一旦建立了回歸模型,下一步就是評(píng)估其表現(xiàn)。常用的指標(biāo)包括:決定系數(shù)

R2R2:表示模型解釋的變異占總變異的比例。它的取值范圍是從0到1,越接近1說明模型擬合得越好。調(diào)整后的R2R2:在考慮模型復(fù)雜性的同時(shí)提供了一個(gè)更為準(zhǔn)確的擬合度量。殘差圖:用來檢查模型是否滿足正態(tài)性假設(shè)、同方差性和獨(dú)立性。理想情況下,殘差應(yīng)該隨機(jī)分布于零線上下。此外,還應(yīng)關(guān)注標(biāo)準(zhǔn)化殘差,它們可以幫助識(shí)別潛在的離群點(diǎn)或異常值,這些都可能對模型產(chǎn)生不利影響。第三章:假設(shè)檢驗(yàn)與區(qū)間估計(jì)3.1t檢驗(yàn)與F檢驗(yàn)在回歸分析中,我們經(jīng)常需要測試某些參數(shù)是否顯著不同于零,這時(shí)就用到了t檢驗(yàn)。對于簡單線性回歸而言,主要關(guān)心的是斜率系數(shù)β1β1?是否不等于0,這反映了自變量XX是否對因變量YY有顯著影響。t檢驗(yàn):零假設(shè)

H0:β1=0H0?:β1?=0備擇假設(shè)

Ha:β1≠0Ha?:β1?=0t統(tǒng)計(jì)量:

t=β^1SE(β^1)t=SE(β^?1?)β^?1??p值:如果p值小于預(yù)設(shè)的顯著性水平(如0.05),則拒絕零假設(shè),認(rèn)為自變量對因變量具有顯著影響。F檢驗(yàn):用于整體模型顯著性的檢驗(yàn)。F統(tǒng)計(jì)量:

F=MSregressionMSerrorF=MSerror?MSregression??其中,MSregressionMSregression?是回歸部分的均方,而MSerrorMSerror?是誤差部分的均方。同樣地,如果對應(yīng)的p值足夠小,則可以拒絕所有系數(shù)同時(shí)為零的假設(shè),表明至少有一個(gè)自變量對因變量有顯著貢獻(xiàn)。3.2置信區(qū)間與預(yù)測區(qū)間置信區(qū)間提供了關(guān)于未知參數(shù)真實(shí)值所在范圍的信息,而預(yù)測區(qū)間則是對未來觀測值可能出現(xiàn)的位置給出估計(jì)。兩者都是基于樣本數(shù)據(jù)計(jì)算得出的概率陳述。置信區(qū)間:對于β1β1?的100(1?α)%100(1?α)%置信區(qū)間可表示為:

β^1±tα/2,n?2?SE(β^1)β^?1?±tα/2,n?2??SE(β^?1?)

這里tα/2,n?2tα/2,n?2?是自由度為n?2n?2的學(xué)生t分布的臨界值。預(yù)測區(qū)間:當(dāng)給定新的x?x??時(shí),預(yù)測Y?Y??的100(1?α)%100(1?α)%預(yù)測區(qū)間為:

Y^?±tα/2,n?2MSE(1+1n+(x??xˉ)2∑(xi?xˉ)2)Y^??±tα/2,n?2?MSE(1+n1?+∑(xi??xˉ)2(x???xˉ)2?)?

其中MSEMSE是均方誤差,衡量了模型的平均預(yù)測誤差大小。3.3假設(shè)檢驗(yàn)的類型I和類型II錯(cuò)誤在進(jìn)行任何假設(shè)檢驗(yàn)時(shí),都有可能發(fā)生兩種類型的錯(cuò)誤:第一類錯(cuò)誤(TypeIError):當(dāng)實(shí)際上零假設(shè)為真時(shí)錯(cuò)誤地拒絕了它。這類錯(cuò)誤的發(fā)生概率通常用αα表示。第二類錯(cuò)誤(TypeIIError):當(dāng)零假設(shè)為假時(shí)卻未能拒絕它。這類錯(cuò)誤的概率常用ββ來標(biāo)記,而相應(yīng)的正確拒絕假零假設(shè)的能力稱為功效(Power),即1?β1?β。理解這兩種錯(cuò)誤以及如何權(quán)衡它們之間的關(guān)系對于正確解讀統(tǒng)計(jì)結(jié)果至關(guān)重要。例如,在設(shè)計(jì)實(shí)驗(yàn)時(shí),適當(dāng)?shù)倪x擇樣本大小可以有效地降低犯錯(cuò)的風(fēng)險(xiǎn)。第四章:多元線性回歸4.1多元線性回歸模型介紹多元線性回歸是簡單線性回歸的擴(kuò)展,它允許使用多個(gè)自變量來預(yù)測一個(gè)因變量。這種模型對于研究復(fù)雜的現(xiàn)實(shí)世界問題非常有用,因?yàn)楹苌儆星闆r是一個(gè)單一因素能夠完全解釋一個(gè)結(jié)果。多元線性回歸模型可以表示為:Y=β0+β1X1+β2X2+...+βkXk+?Y=β0?+β1?X1?+β2?X2?+...+βk?Xk?+?其中,YY

是因變量;X1,X2,...,XkX1?,X2?,...,Xk?

是kk個(gè)自變量;β0β0?

是截距項(xiàng);β1,β2,...,βkβ1?,β2?,...,βk?

分別對應(yīng)每個(gè)自變量的系數(shù);??

是誤差項(xiàng)。4.2參數(shù)估計(jì)方法在多元線性回歸中,參數(shù)估計(jì)同樣采用最小二乘法。給定一組觀測數(shù)據(jù)(xi1,xi2,...,xik,yi)(xi1?,xi2?,...,xik?,yi?),目標(biāo)是最小化殘差平方和(RSS):RSS=∑(yi?y^i)2RSS=∑(yi??y^?i?)2這里y^i=β^0+β^1xi1+β^2xi2+...+β^kxiky^?i?=β^?0?+β^?1?xi1?+β^?2?xi2?+...+β^?k?xik?。通過求解以下方程組可以獲得參數(shù)估計(jì)值:?RSS?β^j=0,j=0,1,2,...,k?β^?j??RSS?=0,j=0,1,2,...,k表4-1不同自變量對因變量影響的例子自變量系數(shù)(βjβj?)解釋年齡0.5每增加一年,因變量平均增加0.5單位教育水平0.2每提高一個(gè)教育等級(jí),因變量平均增加0.2單位工作經(jīng)驗(yàn)0.4每多一年工作經(jīng)驗(yàn),因變量平均增加0.4單位家庭收入0.1家庭收入每增加一單位,因變量平均增加0.1單位4.3多重共線性問題及其診斷當(dāng)模型中的兩個(gè)或多個(gè)自變量高度相關(guān)時(shí),就存在多重共線性的問題。這會(huì)導(dǎo)致回歸系數(shù)的標(biāo)準(zhǔn)誤增大,使得某些重要的自變量可能顯得不顯著。多重共線性的診斷工具包括:方差膨脹因子(VIF):VIF用于衡量由于其他自變量的存在而導(dǎo)致某一自變量的估計(jì)標(biāo)準(zhǔn)誤擴(kuò)大的程度。一般而言,如果某個(gè)自變量的VIF大于10,則認(rèn)為存在嚴(yán)重的多重共線性。條件指數(shù):條件指數(shù)是基于特征值計(jì)算得出的,用來評(píng)估設(shè)計(jì)矩陣的條件數(shù)。較高的條件指數(shù)指示了潛在的多重共線性問題。解決多重共線性的策略包括移除相關(guān)的自變量、合并相關(guān)變量以及使用正則化技術(shù)如嶺回歸等。第五章:回歸中的變量選擇5.1變量選擇準(zhǔn)則有效的變量選擇可以幫助簡化模型并提高其解釋力。常用的變量選擇標(biāo)準(zhǔn)包括:AIC(Akaike信息準(zhǔn)則)BIC(貝葉斯信息準(zhǔn)則)調(diào)整后的R平方這些準(zhǔn)則是通過對模型復(fù)雜性和擬合優(yōu)度之間的權(quán)衡來選擇最佳模型。通常情況下,AIC傾向于選擇更復(fù)雜的模型,而BIC則偏好較簡單的模型。5.2向前選擇、向后剔除及逐步回歸向前選擇:從無任何自變量開始,每次加入一個(gè)能最大程度改善模型的變量,直到?jīng)]有更多的變量可以改進(jìn)模型為止。向后剔除:從包含所有候選變量的全模型開始,逐步移除最不重要的變量,直至模型不能再被簡化。逐步回歸:結(jié)合了向前選擇與向后剔除的優(yōu)點(diǎn),在每一步既考慮加入新變量也考慮移除現(xiàn)有變量,以尋找最優(yōu)子集。5.3最佳子集回歸最佳子集回歸是一種窮盡搜索方法,它考慮所有可能的變量組合,并從中選出符合特定準(zhǔn)則的最佳模型。盡管這種方法可以找到理論上的最優(yōu)解,但由于計(jì)算成本隨變量數(shù)量的增加呈指數(shù)級(jí)增長,實(shí)際應(yīng)用中往往只適用于少數(shù)幾個(gè)自變量的情況。第六章:非線性關(guān)系6.1曲線擬合:多項(xiàng)式回歸當(dāng)自變量與因變量之間不是簡單的線性關(guān)系時(shí),我們可以嘗試使用多項(xiàng)式回歸來捕捉它們之間的曲線關(guān)聯(lián)。多項(xiàng)式回歸可以通過引入自變量的高次冪項(xiàng)來實(shí)現(xiàn),例如二次多項(xiàng)式回歸模型可以寫作:Y=β0+β1X+β2X2+?Y=β0?+β1?X+β2?X2+?6.2對數(shù)變換和其他函數(shù)形式有時(shí),通過對自變量或因變量進(jìn)行適當(dāng)?shù)臄?shù)學(xué)變換,可以使原本非線性的關(guān)系變得線性。常見的變換方法包括對數(shù)變換、指數(shù)變換以及倒數(shù)變換等。例如,當(dāng)響應(yīng)變量呈現(xiàn)出指數(shù)增長趨勢時(shí),取自然對數(shù)可能會(huì)使模型更加直觀且易于解釋。6.3非線性回歸簡介對于那些無法通過簡單的線性或多項(xiàng)式變換轉(zhuǎn)化為線性形式的關(guān)系,需要使用非線性回歸。非線性回歸模型的一般形式為:Y=f(X,β)+?Y=f(X,β)+?其中ff是一個(gè)已知但非線性的函數(shù)。這類模型的參數(shù)估計(jì)通常比線性模型更為復(fù)雜,常用的方法包括梯度下降法、牛頓-拉夫森算法等數(shù)值優(yōu)化技術(shù)。第七章:定性預(yù)測變量7.1虛擬編碼(啞變量)在回歸分析中,定性預(yù)測變量或分類變量的處理是通過引入虛擬編碼(也稱為啞變量)來實(shí)現(xiàn)的。對于一個(gè)具有kk個(gè)水平的分類變量,我們通常會(huì)創(chuàng)建k?1k?1個(gè)虛擬變量。這是因?yàn)槿绻麨槊總€(gè)水平都創(chuàng)建一個(gè)虛擬變量,則會(huì)導(dǎo)致完全共線性問題,即所謂的“虛擬變量陷阱”。表7-1定性預(yù)測變量與虛擬編碼示例員工編號(hào)性別部門工資(元)001男銷售部5000002女技術(shù)部6000003男人力資源4500004女銷售部5500將上述數(shù)據(jù)轉(zhuǎn)換為包含虛擬變量的形式后,可以得到:員工編號(hào)性別_男性別_女部門_銷售部部門_技術(shù)部部門_人力資源工資(元)001101005000002010106000003100014500004011005500這里,“性別”和“部門”兩個(gè)定性變量分別被轉(zhuǎn)換成了相應(yīng)的虛擬變量。7.2定性與定量變量交互作用當(dāng)研究中既包括定性又包括定量預(yù)測變量時(shí),有時(shí)需要考慮它們之間的交互作用。交互作用是指一個(gè)自變量對因變量的影響取決于另一個(gè)自變量的取值。例如,在工資模型中,性別可能會(huì)影響不同部門間的薪資差異程度。為了在模型中加入這種交互項(xiàng),我們可以簡單地將相關(guān)的虛擬變量與連續(xù)變量相乘。例如,如果我們想要研究性別與工作經(jīng)驗(yàn)?zāi)晗拗g的交互作用對工資的影響,那么模型就可以表示為:Y=β0+β1X經(jīng)驗(yàn)+β2D女+β3(X經(jīng)驗(yàn)×D女)+?Y=β0?+β1?X經(jīng)驗(yàn)?+β2?D女?+β3?(X經(jīng)驗(yàn)?×D女?)+?其中,YY

是員工工資;X經(jīng)驗(yàn)X經(jīng)驗(yàn)?

是工作經(jīng)驗(yàn)?zāi)晗?;D女D女?

是指示女性員工的虛擬變量(男性為參考組);β3β3?

表示了工作經(jīng)驗(yàn)?zāi)晗迣ε詥T工工資影響的不同斜率。7.3ANCOVA(協(xié)方差分析)ANCOVA(AnalysisofCovariance)是一種結(jié)合了ANOVA(方差分析)與回歸分析的方法,用于比較不同組之間均值的同時(shí)控制其他連續(xù)變量的影響。這在實(shí)驗(yàn)設(shè)計(jì)中特別有用,因?yàn)樗试S研究人員調(diào)整潛在的混雜因素。例如,假設(shè)我們要評(píng)估兩種不同的教學(xué)方法對學(xué)生考試成績的影響,并且我們知道學(xué)生的初始知識(shí)水平(如入學(xué)前的成績)可能會(huì)對該結(jié)果產(chǎn)生重要影響。在這種情況下,使用ANCOVA可以幫助我們更準(zhǔn)確地估計(jì)教學(xué)方法的效果。第八章:回歸診斷8.1標(biāo)準(zhǔn)化殘差標(biāo)準(zhǔn)化殘差是對原始?xì)埐钸M(jìn)行尺度變換后的結(jié)果,它有助于識(shí)別異常值以及檢查模型的基本假設(shè)是否成立。標(biāo)準(zhǔn)化殘差定義為:ei?=eiMSE(1?hii)ei??=MSE(1?hii?)?ei??其中,eiei?

是第ii個(gè)觀測點(diǎn)的殘差;MSEMSE

是誤差平方和的均值;hiihii?

是杠桿值,反映了該點(diǎn)對自身預(yù)測值的影響程度。一般而言,若標(biāo)準(zhǔn)化殘差的絕對值大于2,則認(rèn)為該觀測點(diǎn)可能是離群值;大于3則表明它是極端離群值。8.2影響點(diǎn)與離群值離群值:指的是那些偏離大部分?jǐn)?shù)據(jù)點(diǎn)較遠(yuǎn)的數(shù)據(jù)點(diǎn)。影響點(diǎn):則是指那些對回歸系數(shù)估計(jì)有較大影響的數(shù)據(jù)點(diǎn)。影響點(diǎn)不一定總是離群值,但它們往往具有較高的杠桿值。常用的度量影響點(diǎn)的技術(shù)包括庫克距離(Cook'sDistance),它綜合考慮了殘差大小和杠桿值。一個(gè)大的庫克距離意味著移除該點(diǎn)會(huì)導(dǎo)致回歸系數(shù)發(fā)生顯著變化。8.3異方差性與自相關(guān)性檢測異方差性:指的是誤差項(xiàng)的方差不是恒定的情況??梢酝ㄟ^繪制殘差圖(特別是殘差與擬合值的關(guān)系圖)來直觀判斷是否存在異方差性。正式檢驗(yàn)方法包括布雷施-帕甘檢驗(yàn)(Breusch-Pagantest)等。自相關(guān)性:主要出現(xiàn)在時(shí)間序列數(shù)據(jù)中,指的是誤差項(xiàng)之間存在相關(guān)關(guān)系。杜賓-沃森統(tǒng)計(jì)量(Durbin-Watsonstatistic)是一個(gè)常用的自相關(guān)性檢測工具。該統(tǒng)計(jì)量的取值范圍在0到4之間,接近2表示無自相關(guān)性,而遠(yuǎn)離2則表明可能存在正自相關(guān)或負(fù)自相關(guān)。解決異方差性和自相關(guān)性的方法包括加權(quán)最小二乘法(WLS)、廣義最小二乘法(GLS)以及采用適當(dāng)?shù)腁RIMA模型等。第九章:正則化方法9.1嶺回歸嶺回歸是一種正則化技術(shù),旨在解決多重共線性問題并提高模型的泛化能力。它通過對回歸系數(shù)加上L2范數(shù)懲罰項(xiàng)來實(shí)現(xiàn)這一點(diǎn)。具體來說,嶺回歸的目標(biāo)函數(shù)為:RSS+λ∑j=1pβj2RSS+λ∑j=1p?βj2?其中,RSSRSS

是殘差平方和;λλ

是調(diào)節(jié)參數(shù),控制著懲罰強(qiáng)度;βjβj?

是回歸系數(shù)。隨著λλ的增加,回歸系數(shù)的絕對值逐漸減小,從而降低了模型復(fù)雜度。選擇合適的λλ值通常是通過交叉驗(yàn)證來完成的。9.2LASSOLASSO(LeastAbsoluteShrinkageandSelectionOperator)也是一種正則化方法,但它使用的是L1范數(shù)作為懲罰項(xiàng)。LASSO不僅能夠減少回歸系數(shù)的大小,還能使某些系數(shù)精確變?yōu)榱悖瑥亩_(dá)到變量選擇的效果。其目標(biāo)函數(shù)為:RSS+λ∑j=1p∣βj∣RSS+λ∑j=1p?∣βj?∣LASSO的特點(diǎn)在于它能夠產(chǎn)生稀疏解,即只有部分重要的變量會(huì)被保留下來,這對于高維數(shù)據(jù)集尤其有用。9.3彈性網(wǎng)絡(luò)彈性網(wǎng)絡(luò)結(jié)合了嶺回歸和LASSO的優(yōu)點(diǎn),它同時(shí)采用了L1和L2范數(shù)作為懲罰項(xiàng)。這種方法可以在保持模型穩(wěn)定的同時(shí)提供一定程度的變量選擇。彈性網(wǎng)絡(luò)的目標(biāo)函數(shù)形式如下:RSS+αλ∑j=1p∣βj∣+(1?α)λ∑j=1pβj2RSS+αλ∑j=1p?∣βj?∣+(1?α)λ∑j=1p?βj2?其中,αα控制L1與L2懲罰的比例,當(dāng)α=1α=1時(shí)退化為LASSO,而α=0α=0時(shí)退化為嶺回歸。正則化方法的應(yīng)用不僅限于線性回歸,它們也被廣泛應(yīng)用于其他類型的機(jī)器學(xué)習(xí)模型,如邏輯回歸、支持向量機(jī)等。通過合理選擇正則化技術(shù)和調(diào)參策略,可以有效地提高模型的穩(wěn)健性和解釋力。第十章:廣義線性模型10.1廣義線性模型框架**廣義線性模型(GLM)**擴(kuò)展了經(jīng)典線性回歸模型,使其能夠處理非正態(tài)分布的數(shù)據(jù)。GLM由三個(gè)組成部分構(gòu)成:隨機(jī)成分:指定了因變量YY的分布類型,比如二項(xiàng)分布、泊松分布等。系統(tǒng)成分:定義了預(yù)測變量與響應(yīng)變量之間的關(guān)系,通常是通過一個(gè)線性組合來表示。連接函數(shù):將系統(tǒng)成分中的線性預(yù)測器η=β0+β1X1+...+βkXkη=β0?+β1?X1?+...+βk?Xk?與隨機(jī)成分中的均值μμ聯(lián)系起來。表10-1常見的廣義線性模型及其應(yīng)用模型類型分布假設(shè)連接函數(shù)應(yīng)用示例Logistic回歸二項(xiàng)分布Logit信用評(píng)分、疾病診斷Poisson回歸泊松分布Log交通事故次數(shù)、網(wǎng)站訪問量Gamma回歸Gamma分布Inverse等待時(shí)間、保險(xiǎn)索賠額Probit回歸二項(xiàng)分布Probit生物統(tǒng)計(jì)學(xué)中劑量-反應(yīng)關(guān)系10.2Logistic回歸Logistic回歸是一種用于分類問題的廣義線性模型,特別適用于二分類問題。其核心是使用logit函數(shù)作為連接函數(shù),將線性預(yù)測器映射到0和1之間的一個(gè)概率值。具體形式為:log?(p1?p)=β0+β1X1+...+βkXklog(1?pp?)=β0?+β1?X1?+...+βk?Xk?其中,pp

是事件發(fā)生的概率;p1?p1?pp?

稱為優(yōu)勢比(oddsratio),它衡量了事件發(fā)生與不發(fā)生的相對可能性。通過求解上述方程,我們可以得到事件發(fā)生的概率估計(jì):p=11+e?(β0+β1X1+...+βkXk)p=1+e?(β0?+β1?X1?+...+βk?Xk?)1?Logistic回歸不僅提供了概率預(yù)測,還允許我們計(jì)算每個(gè)自變量對事件發(fā)生概率的影響程度,這通常通過優(yōu)勢比來表達(dá)。如果某個(gè)自變量的優(yōu)勢比大于1,則表明該變量增加會(huì)提高事件發(fā)生的概率;反之亦然。10.3Poisson回歸Poisson回歸用于建模計(jì)數(shù)數(shù)據(jù),即因變量是非負(fù)整數(shù)的情況。這類數(shù)據(jù)通常遵循泊松分布。在Poisson回歸中,常用的連接函數(shù)是對數(shù)函數(shù),模型可以寫作:log?(μ)=β0+β1X1+...+βkXklog(μ)=β0?+β1?X1?+...+βk?Xk?這里,μμ

是因變量的期望值,也就是平均計(jì)數(shù)值;對數(shù)連接函數(shù)確保了預(yù)測值總是正數(shù)。Poisson回歸的一個(gè)關(guān)鍵假設(shè)是均值等于方差(均值-方差相等性)。然而,在實(shí)際應(yīng)用中,這一假設(shè)往往被違反,導(dǎo)致過度離散或欠離散的問題。對于這種情況,可以考慮使用負(fù)二項(xiàng)回歸或者引入額外的分散參數(shù)來調(diào)整模型。第十一章:時(shí)間序列數(shù)據(jù)的回歸11.1時(shí)間序列的特點(diǎn)時(shí)間序列數(shù)據(jù)是一系列按照時(shí)間順序記錄的觀測值,它具有以下幾個(gè)特點(diǎn):趨勢:長期方向性的變化。季節(jié)性:周期性出現(xiàn)的模式。循環(huán):不是固定周期的波動(dòng)。隨機(jī)波動(dòng):無法預(yù)測的短期變動(dòng)。在進(jìn)行時(shí)間序列分析時(shí),需要考慮到這些特征,并且要保證數(shù)據(jù)的平穩(wěn)性,即統(tǒng)計(jì)特性隨時(shí)間不變。11.2自回歸模型自回歸(AR)模型假設(shè)當(dāng)前的觀測值依賴于過去的若干個(gè)觀測值加上一個(gè)誤差項(xiàng)。最簡單的自回歸模型是AR(1),其形式為:Yt=c+?1Yt?1+?tYt?=c+?1?Yt?1?+?t?其中,YtYt?

是時(shí)刻tt的觀測值;cc

是常數(shù)項(xiàng);?1?1?

是自回歸系數(shù);?t?t?

是誤差項(xiàng),假定為白噪聲過程。更高階的AR模型可以通過包含更多滯后項(xiàng)來構(gòu)建,例如AR(p)模型包括了前pp個(gè)觀測值的影響。11.3移動(dòng)平均模型移動(dòng)平均(MA)模型則假設(shè)當(dāng)前的觀測值受到過去若干個(gè)誤差項(xiàng)的影響。最簡單的移動(dòng)平均模型是MA(1),其形式為:Yt=μ+θ1?t?1+?tYt?=μ+θ1??t?1?+?t?其中,μμ

是序列的均值;θ1θ1?

是移動(dòng)平均系數(shù);?t?1?t?1?

?t?t?

分別是滯后一期和當(dāng)期的誤差項(xiàng)。類似地,更復(fù)雜的MA(q)模型會(huì)包含前qq個(gè)誤差項(xiàng)的影響。自回歸和移動(dòng)平均模型可以結(jié)合形成自回歸移動(dòng)平均(ARMA)模型,而當(dāng)考慮時(shí)間序列的非平穩(wěn)性時(shí),還可以進(jìn)一步發(fā)展成自回歸積分移動(dòng)平均(ARIMA)模型。ARIMA模型通過差分操作來消除序列的趨勢和季節(jié)性成分,從而實(shí)現(xiàn)平穩(wěn)化。第十二章:面板數(shù)據(jù)回歸12.1面板數(shù)據(jù)概述面板數(shù)據(jù)是指同時(shí)包含橫截面單位(如個(gè)人、公司、國家等)和時(shí)間維度的數(shù)據(jù)集。這種數(shù)據(jù)結(jié)構(gòu)能夠提供更多的信息,使得研究者能夠在控制個(gè)體異質(zhì)性和時(shí)間效應(yīng)的同時(shí),更好地理解變量間的關(guān)系。面板數(shù)據(jù)的優(yōu)點(diǎn)在于它可以捕捉到跨時(shí)間和跨個(gè)體的變化,從而提供更為全面的視角。常見的面板數(shù)據(jù)類型包括平衡面板(所有單位在每個(gè)時(shí)間點(diǎn)都有觀測值)和非平衡面板(某些單位可能在某些時(shí)間點(diǎn)缺失數(shù)據(jù))。12.2固定效應(yīng)與隨機(jī)效應(yīng)模型固定效應(yīng)模型:假設(shè)每個(gè)個(gè)體有一個(gè)特定但未知的截距項(xiàng),這些截距項(xiàng)被視為固定的參數(shù)。固定效應(yīng)模型通過引入虛擬變量來控制個(gè)體間的差異,適合于研究那些不可觀測的個(gè)體特征對結(jié)果的影響。隨機(jī)效應(yīng)模型:假設(shè)個(gè)體間的差異是隨機(jī)的,并且服從某種分布(通常是正態(tài)分布)。隨機(jī)效應(yīng)模型將個(gè)體效應(yīng)視為隨機(jī)變量,并將其納入誤差項(xiàng)中。這種方法適用于當(dāng)個(gè)體效應(yīng)與解釋變量不相關(guān)時(shí)的情形。選擇固定效應(yīng)還是隨機(jī)效應(yīng)模型,通?;诶碚撘罁?jù)以及Hausman檢驗(yàn)的結(jié)果。如果Hausman檢驗(yàn)拒絕了原假設(shè)(即個(gè)體效應(yīng)與解釋變量相關(guān)),則應(yīng)采用固定效應(yīng)模型;否則,隨機(jī)效應(yīng)模型可能是更好的選擇。12.3Hausman檢驗(yàn)Hausman檢驗(yàn)用于確定是否應(yīng)該使用固定效應(yīng)模型還是隨機(jī)效應(yīng)模型。該檢驗(yàn)的基本思想是比較兩種模型下參數(shù)估計(jì)的一致性。具體步驟如下:估計(jì)固定效應(yīng)模型,得到參數(shù)估計(jì)β^FEβ^?FE?。估計(jì)隨機(jī)效應(yīng)模型,得到參數(shù)估計(jì)β^REβ^?RE?。計(jì)算兩個(gè)估計(jì)量之間的差異向量δ^=β^FE?β^REδ^=β^?FE??β^?RE?。構(gòu)造Hausman統(tǒng)計(jì)量:

H=(δ^?0)′[Var(β^FE)?Var(β^RE)]?1(δ^?0)H=(δ^?0)′[Var(β^?FE?)?Var(β^?RE?)]?1(δ^?0)在大樣本下,若H統(tǒng)計(jì)量顯著,則拒絕隨機(jī)效應(yīng)模型,選擇固定效應(yīng)模型;否則,可以選擇隨機(jī)效應(yīng)模型。Hausman檢驗(yàn)可以幫助研究人員根據(jù)數(shù)據(jù)的具體情況做出更合理的模型選擇決策,從而提高估計(jì)的準(zhǔn)確性和可靠性。第十三章:工具變量與兩階段最小二乘13.1內(nèi)生性問題在回歸分析中,內(nèi)生性問題是指自變量與誤差項(xiàng)之間存在相關(guān)關(guān)系的情況。這通常會(huì)導(dǎo)致估計(jì)的回歸系數(shù)出現(xiàn)偏差,使得因果效應(yīng)無法被準(zhǔn)確識(shí)別。內(nèi)生性可能由多種因素引起,包括遺漏變量、測量誤差以及同時(shí)性偏差等。13.2工具變量的選擇標(biāo)準(zhǔn)為了解決內(nèi)生性問題,可以使用**工具變量(IV)**方法。一個(gè)有效的工具變量需要滿足以下兩個(gè)條件:相關(guān)性:工具變量必須與內(nèi)生自變量有顯著的相關(guān)性。外生性:工具變量必須與模型中的誤差項(xiàng)不相關(guān),即它不能直接影響因變量,除非通過影響內(nèi)生自變量來間接作用。選擇合適的工具變量是關(guān)鍵,因?yàn)槿绻ぞ咦兞坎环仙鲜鰳?biāo)準(zhǔn),則可能會(huì)導(dǎo)致更嚴(yán)重的估計(jì)偏差。表13-1常見的內(nèi)生性問題及對應(yīng)的工具變量示例內(nèi)生性問題類型描述可能的工具變量示例遺漏變量模型中遺漏了重要變量外部政策變化、自然實(shí)驗(yàn)的結(jié)果測量誤差自變量的測量包含誤差代理變量、歷史數(shù)據(jù)同時(shí)性偏差自變量和因變量相互影響個(gè)體特征、地理位置13.3兩階段最小二乘(2SLS)估計(jì)**兩階段最小二乘法(2SLS)**是一種常用的工具變量估計(jì)方法,具體步驟如下:第一階段:將內(nèi)生自變量作為因變量,使用所有外生變量(包括工具變量)進(jìn)行回歸,得到內(nèi)生自變量的預(yù)測值。X=γ0+γ1Z+γ2W+uX=γ0?+γ1?Z+γ2?W+u其中,XX

是內(nèi)生自變量;ZZ

是工具變量;WW

是其他外生控制變量;uu

是誤差項(xiàng)。第二階段:將第一階段得到的預(yù)測值X^X^代入原回歸方程,替代原來的內(nèi)生自變量XX,然后進(jìn)行最小二乘估計(jì)。Y=β0+β1X^+β2W+?Y=β0?+β1?X^+β2?W+?2SLS方法可以有效地解決內(nèi)生性問題,并且提供一致的參數(shù)估計(jì)。然而,2SLS估計(jì)的有效性依賴于工具變量的質(zhì)量,如果工具變量較弱或者數(shù)量不足,可能會(huì)導(dǎo)致估計(jì)結(jié)果不穩(wěn)定或不可靠。第十四章:非參數(shù)回歸14.1核平滑核平滑是一種非參數(shù)回歸方法,它通過局部加權(quán)平均來估計(jì)函數(shù)?;舅枷胧窃诿總€(gè)點(diǎn)處,根據(jù)其鄰近點(diǎn)的權(quán)重計(jì)算出該點(diǎn)的估計(jì)值。常用的核函數(shù)包括高斯核、均勻核等。核平滑的公式為:m^(x)=∑i=1nKh(x?xi)yi∑i=1nKh(x?xi)m^(x)=∑i=1n?Kh?(x?xi?)∑i=1n?Kh?(x?xi?)yi??其中,Kh(u)=1hK(uh)Kh?(u)=h1?K(hu?)

是核函數(shù),hh

是帶寬;KK

是基礎(chǔ)核函數(shù),如高斯核

K(u)=12πe?u22K(u)=2π?1?e?2u2?。帶寬的選擇對核平滑的效果至關(guān)重要。較小的帶寬可以使估計(jì)更加靈活但可能導(dǎo)致過擬合;較大的帶寬則會(huì)使估計(jì)更為平滑但可能丟失細(xì)節(jié)信息。常用的方法包括交叉驗(yàn)證和規(guī)則化選擇準(zhǔn)則。14.2局部加權(quán)回歸**局部加權(quán)回歸(LOWESS/LOESS)**是一種基于局部多項(xiàng)式擬合的非參數(shù)回歸方法。它通過在每個(gè)點(diǎn)附近擬合一個(gè)低階多項(xiàng)式來估計(jì)函數(shù)值。具體步驟如下:選擇一個(gè)點(diǎn)

x0x0?,并確定其鄰域內(nèi)的觀測點(diǎn)。賦予權(quán)重:根據(jù)距離

x0x0?

的遠(yuǎn)近,給這些觀測點(diǎn)賦予不同的權(quán)重。多

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論