《回歸分析》完整筆記

上傳人：1*** IP屬地：四川上傳時(shí)間：2024-11-13 格式：DOCX 頁(yè)數(shù)：22 大小：126.46KB 積分：9.6 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩17頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

《回歸分析》完整筆記第一章：引言1.1回歸分析的基本概念回歸分析是一種統(tǒng)計(jì)學(xué)方法，用于研究一個(gè)或多個(gè)自變量（預(yù)測(cè)變量）與因變量（響應(yīng)變量）之間的關(guān)系。它幫助我們理解這些變量如何相互作用，并且能夠基于已知的自變量值來(lái)預(yù)測(cè)未知的因變量值。線(xiàn)性回歸是最簡(jiǎn)單的形式之一，它假設(shè)因變量和自變量之間存在線(xiàn)性關(guān)系。1.2回歸分析的應(yīng)用領(lǐng)域經(jīng)濟(jì)領(lǐng)域：評(píng)估廣告支出對(duì)銷(xiāo)售額的影響。醫(yī)學(xué)研究：探究特定治療方案對(duì)患者恢復(fù)速度的作用。社會(huì)科學(xué)研究：探索教育水平與收入的關(guān)系。環(huán)境科學(xué)：分析污染程度與健康問(wèn)題的相關(guān)性。商業(yè)決策：通過(guò)歷史銷(xiāo)售數(shù)據(jù)預(yù)測(cè)未來(lái)趨勢(shì)。表1-1不同領(lǐng)域中應(yīng)用回歸分析的例子領(lǐng)域自變量示例因變量示例經(jīng)濟(jì)廣告費(fèi)用銷(xiāo)售額醫(yī)學(xué)治療類(lèi)型康復(fù)時(shí)間社會(huì)科學(xué)教育年限個(gè)人年收入環(huán)境科學(xué)PM2.5濃度呼吸系統(tǒng)疾病率商業(yè)季節(jié)性促銷(xiāo)活動(dòng)產(chǎn)品銷(xiāo)量增長(zhǎng)1.3本課程的目標(biāo)和結(jié)構(gòu)本課程旨在向?qū)W生介紹回歸分析的基礎(chǔ)理論、方法及其在實(shí)際中的應(yīng)用。我們將從最基礎(chǔ)的簡(jiǎn)單線(xiàn)性回歸模型開(kāi)始，逐步過(guò)渡到更復(fù)雜的多元回歸及非參數(shù)回歸等高級(jí)主題。通過(guò)本課程的學(xué)習(xí)，你將掌握以下技能：建立并解釋回歸模型進(jìn)行有效的模型選擇使用軟件工具執(zhí)行回歸分析識(shí)別并解決回歸分析中常見(jiàn)的問(wèn)題第二章：簡(jiǎn)單線(xiàn)性回歸2.1簡(jiǎn)單線(xiàn)性回歸模型簡(jiǎn)單線(xiàn)性回歸是回歸分析中最基本的形式之一，涉及一個(gè)單一的自變量XX與一個(gè)因變量YY之間的關(guān)系。該模型可以表示為：Y=β0+β1X+?Y=β0?+β1?X+?其中，YY

是因變量；XX

是自變量；β0β0?

是截距項(xiàng)，代表當(dāng)X=0X=0時(shí)YY的期望值；β1β1?

是斜率系數(shù)，指示每增加一個(gè)單位的XX時(shí)，YY平均變化的數(shù)量；??

是誤差項(xiàng)，代表了模型未捕捉到的所有其他影響因素。2.2參數(shù)估計(jì)：最小二乘法為了確定β0β0?和β1β1?的具體數(shù)值，通常采用最小二乘法來(lái)尋找最佳擬合直線(xiàn)。這個(gè)過(guò)程旨在最小化所有觀(guān)測(cè)點(diǎn)與擬合直線(xiàn)之間垂直距離的平方和。給定一組觀(guān)測(cè)數(shù)據(jù)(xi,yi)(xi?,yi?)，最小二乘估計(jì)量β^0β^?0?和β^1β^?1?可以通過(guò)解下面的方程組得到：∑(yi?y^i)2∑(yi??y^?i?)2這里y^i=β^0+β^1xiy^?i?=β^?0?+β^?1?xi?是根據(jù)當(dāng)前參數(shù)估計(jì)值計(jì)算出的預(yù)測(cè)值。具體來(lái)說(shuō)，最小二乘估計(jì)公式為：β^1=∑(xi?xˉ)(yi?yˉ)∑(xi?xˉ)2β^?1?=∑(xi??xˉ)2∑(xi??xˉ)(yi??yˉ?)?β^0=yˉ?β^1xˉβ^?0?=yˉ??β^?1?xˉ其中，xˉxˉ和yˉyˉ?分別是樣本均值。2.3模型評(píng)估：擬合優(yōu)度、殘差分析一旦建立了回歸模型，下一步就是評(píng)估其表現(xiàn)。常用的指標(biāo)包括：決定系數(shù)

R2R2:表示模型解釋的變異占總變異的比例。它的取值范圍是從0到1，越接近1說(shuō)明模型擬合得越好。調(diào)整后的R2R2:在考慮模型復(fù)雜性的同時(shí)提供了一個(gè)更為準(zhǔn)確的擬合度量。殘差圖:用來(lái)檢查模型是否滿(mǎn)足正態(tài)性假設(shè)、同方差性和獨(dú)立性。理想情況下，殘差應(yīng)該隨機(jī)分布于零線(xiàn)上下。此外，還應(yīng)關(guān)注標(biāo)準(zhǔn)化殘差，它們可以幫助識(shí)別潛在的離群點(diǎn)或異常值，這些都可能對(duì)模型產(chǎn)生不利影響。第三章：假設(shè)檢驗(yàn)與區(qū)間估計(jì)3.1t檢驗(yàn)與F檢驗(yàn)在回歸分析中，我們經(jīng)常需要測(cè)試某些參數(shù)是否顯著不同于零，這時(shí)就用到了t檢驗(yàn)。對(duì)于簡(jiǎn)單線(xiàn)性回歸而言，主要關(guān)心的是斜率系數(shù)β1β1?是否不等于0，這反映了自變量XX是否對(duì)因變量YY有顯著影響。t檢驗(yàn):零假設(shè)

H0:β1=0H0?:β1?=0備擇假設(shè)

Ha:β1≠0Ha?:β1?=0t統(tǒng)計(jì)量:

t=β^1SE(β^1)t=SE(β^?1?)β^?1??p值:如果p值小于預(yù)設(shè)的顯著性水平（如0.05），則拒絕零假設(shè)，認(rèn)為自變量對(duì)因變量具有顯著影響。F檢驗(yàn):用于整體模型顯著性的檢驗(yàn)。F統(tǒng)計(jì)量:

F=MSregressionMSerrorF=MSerror?MSregression??其中，MSregressionMSregression?是回歸部分的均方，而MSerrorMSerror?是誤差部分的均方。同樣地，如果對(duì)應(yīng)的p值足夠小，則可以拒絕所有系數(shù)同時(shí)為零的假設(shè)，表明至少有一個(gè)自變量對(duì)因變量有顯著貢獻(xiàn)。3.2置信區(qū)間與預(yù)測(cè)區(qū)間置信區(qū)間提供了關(guān)于未知參數(shù)真實(shí)值所在范圍的信息，而預(yù)測(cè)區(qū)間則是對(duì)未來(lái)觀(guān)測(cè)值可能出現(xiàn)的位置給出估計(jì)。兩者都是基于樣本數(shù)據(jù)計(jì)算得出的概率陳述。置信區(qū)間:對(duì)于β1β1?的100(1?α)%100(1?α)%置信區(qū)間可表示為:

β^1±tα/2,n?2?SE(β^1)β^?1?±tα/2,n?2??SE(β^?1?)

這里tα/2,n?2tα/2,n?2?是自由度為n?2n?2的學(xué)生t分布的臨界值。預(yù)測(cè)區(qū)間:當(dāng)給定新的x?x??時(shí)，預(yù)測(cè)Y?Y??的100(1?α)%100(1?α)%預(yù)測(cè)區(qū)間為:

Y^?±tα/2,n?2MSE(1+1n+(x??xˉ)2∑(xi?xˉ)2)Y^??±tα/2,n?2?MSE(1+n1?+∑(xi??xˉ)2(x???xˉ)2?)?

其中MSEMSE是均方誤差，衡量了模型的平均預(yù)測(cè)誤差大小。3.3假設(shè)檢驗(yàn)的類(lèi)型I和類(lèi)型II錯(cuò)誤在進(jìn)行任何假設(shè)檢驗(yàn)時(shí)，都有可能發(fā)生兩種類(lèi)型的錯(cuò)誤：第一類(lèi)錯(cuò)誤（TypeIError）:當(dāng)實(shí)際上零假設(shè)為真時(shí)錯(cuò)誤地拒絕了它。這類(lèi)錯(cuò)誤的發(fā)生概率通常用αα表示。第二類(lèi)錯(cuò)誤（TypeIIError）:當(dāng)零假設(shè)為假時(shí)卻未能拒絕它。這類(lèi)錯(cuò)誤的概率常用ββ來(lái)標(biāo)記，而相應(yīng)的正確拒絕假零假設(shè)的能力稱(chēng)為功效（Power），即1?β1?β。理解這兩種錯(cuò)誤以及如何權(quán)衡它們之間的關(guān)系對(duì)于正確解讀統(tǒng)計(jì)結(jié)果至關(guān)重要。例如，在設(shè)計(jì)實(shí)驗(yàn)時(shí)，適當(dāng)?shù)倪x擇樣本大小可以有效地降低犯錯(cuò)的風(fēng)險(xiǎn)。第四章：多元線(xiàn)性回歸4.1多元線(xiàn)性回歸模型介紹多元線(xiàn)性回歸是簡(jiǎn)單線(xiàn)性回歸的擴(kuò)展，它允許使用多個(gè)自變量來(lái)預(yù)測(cè)一個(gè)因變量。這種模型對(duì)于研究復(fù)雜的現(xiàn)實(shí)世界問(wèn)題非常有用，因?yàn)楹苌儆星闆r是一個(gè)單一因素能夠完全解釋一個(gè)結(jié)果。多元線(xiàn)性回歸模型可以表示為：Y=β0+β1X1+β2X2+...+βkXk+?Y=β0?+β1?X1?+β2?X2?+...+βk?Xk?+?其中，YY

是因變量；X1,X2,...,XkX1?,X2?,...,Xk?

是kk個(gè)自變量；β0β0?

是截距項(xiàng)；β1,β2,...,βkβ1?,β2?,...,βk?

分別對(duì)應(yīng)每個(gè)自變量的系數(shù)；??

是誤差項(xiàng)。4.2參數(shù)估計(jì)方法在多元線(xiàn)性回歸中，參數(shù)估計(jì)同樣采用最小二乘法。給定一組觀(guān)測(cè)數(shù)據(jù)(xi1,xi2,...,xik,yi)(xi1?,xi2?,...,xik?,yi?)，目標(biāo)是最小化殘差平方和（RSS）:RSS=∑(yi?y^i)2RSS=∑(yi??y^?i?)2這里y^i=β^0+β^1xi1+β^2xi2+...+β^kxiky^?i?=β^?0?+β^?1?xi1?+β^?2?xi2?+...+β^?k?xik?。通過(guò)求解以下方程組可以獲得參數(shù)估計(jì)值：?RSS?β^j=0,j=0,1,2,...,k?β^?j??RSS?=0,j=0,1,2,...,k表4-1不同自變量對(duì)因變量影響的例子自變量系數(shù)(βjβj?)解釋年齡0.5每增加一年，因變量平均增加0.5單位教育水平0.2每提高一個(gè)教育等級(jí)，因變量平均增加0.2單位工作經(jīng)驗(yàn)0.4每多一年工作經(jīng)驗(yàn)，因變量平均增加0.4單位家庭收入0.1家庭收入每增加一單位，因變量平均增加0.1單位4.3多重共線(xiàn)性問(wèn)題及其診斷當(dāng)模型中的兩個(gè)或多個(gè)自變量高度相關(guān)時(shí)，就存在多重共線(xiàn)性的問(wèn)題。這會(huì)導(dǎo)致回歸系數(shù)的標(biāo)準(zhǔn)誤增大，使得某些重要的自變量可能顯得不顯著。多重共線(xiàn)性的診斷工具包括：方差膨脹因子（VIF）:VIF用于衡量由于其他自變量的存在而導(dǎo)致某一自變量的估計(jì)標(biāo)準(zhǔn)誤擴(kuò)大的程度。一般而言，如果某個(gè)自變量的VIF大于10，則認(rèn)為存在嚴(yán)重的多重共線(xiàn)性。條件指數(shù):條件指數(shù)是基于特征值計(jì)算得出的，用來(lái)評(píng)估設(shè)計(jì)矩陣的條件數(shù)。較高的條件指數(shù)指示了潛在的多重共線(xiàn)性問(wèn)題。解決多重共線(xiàn)性的策略包括移除相關(guān)的自變量、合并相關(guān)變量以及使用正則化技術(shù)如嶺回歸等。第五章：回歸中的變量選擇5.1變量選擇準(zhǔn)則有效的變量選擇可以幫助簡(jiǎn)化模型并提高其解釋力。常用的變量選擇標(biāo)準(zhǔn)包括：AIC（Akaike信息準(zhǔn)則）BIC（貝葉斯信息準(zhǔn)則）調(diào)整后的R平方這些準(zhǔn)則是通過(guò)對(duì)模型復(fù)雜性和擬合優(yōu)度之間的權(quán)衡來(lái)選擇最佳模型。通常情況下，AIC傾向于選擇更復(fù)雜的模型，而B(niǎo)IC則偏好較簡(jiǎn)單的模型。5.2向前選擇、向后剔除及逐步回歸向前選擇：從無(wú)任何自變量開(kāi)始，每次加入一個(gè)能最大程度改善模型的變量，直到?jīng)]有更多的變量可以改進(jìn)模型為止。向后剔除：從包含所有候選變量的全模型開(kāi)始，逐步移除最不重要的變量，直至模型不能再被簡(jiǎn)化。逐步回歸：結(jié)合了向前選擇與向后剔除的優(yōu)點(diǎn)，在每一步既考慮加入新變量也考慮移除現(xiàn)有變量，以尋找最優(yōu)子集。5.3最佳子集回歸最佳子集回歸是一種窮盡搜索方法，它考慮所有可能的變量組合，并從中選出符合特定準(zhǔn)則的最佳模型。盡管這種方法可以找到理論上的最優(yōu)解，但由于計(jì)算成本隨變量數(shù)量的增加呈指數(shù)級(jí)增長(zhǎng)，實(shí)際應(yīng)用中往往只適用于少數(shù)幾個(gè)自變量的情況。第六章：非線(xiàn)性關(guān)系6.1曲線(xiàn)擬合：多項(xiàng)式回歸當(dāng)自變量與因變量之間不是簡(jiǎn)單的線(xiàn)性關(guān)系時(shí)，我們可以嘗試使用多項(xiàng)式回歸來(lái)捕捉它們之間的曲線(xiàn)關(guān)聯(lián)。多項(xiàng)式回歸可以通過(guò)引入自變量的高次冪項(xiàng)來(lái)實(shí)現(xiàn)，例如二次多項(xiàng)式回歸模型可以寫(xiě)作：Y=β0+β1X+β2X2+?Y=β0?+β1?X+β2?X2+?6.2對(duì)數(shù)變換和其他函數(shù)形式有時(shí)，通過(guò)對(duì)自變量或因變量進(jìn)行適當(dāng)?shù)臄?shù)學(xué)變換，可以使原本非線(xiàn)性的關(guān)系變得線(xiàn)性。常見(jiàn)的變換方法包括對(duì)數(shù)變換、指數(shù)變換以及倒數(shù)變換等。例如，當(dāng)響應(yīng)變量呈現(xiàn)出指數(shù)增長(zhǎng)趨勢(shì)時(shí)，取自然對(duì)數(shù)可能會(huì)使模型更加直觀(guān)且易于解釋。6.3非線(xiàn)性回歸簡(jiǎn)介對(duì)于那些無(wú)法通過(guò)簡(jiǎn)單的線(xiàn)性或多項(xiàng)式變換轉(zhuǎn)化為線(xiàn)性形式的關(guān)系，需要使用非線(xiàn)性回歸。非線(xiàn)性回歸模型的一般形式為：Y=f(X,β)+?Y=f(X,β)+?其中ff是一個(gè)已知但非線(xiàn)性的函數(shù)。這類(lèi)模型的參數(shù)估計(jì)通常比線(xiàn)性模型更為復(fù)雜，常用的方法包括梯度下降法、牛頓-拉夫森算法等數(shù)值優(yōu)化技術(shù)。第七章：定性預(yù)測(cè)變量7.1虛擬編碼（啞變量）在回歸分析中，定性預(yù)測(cè)變量或分類(lèi)變量的處理是通過(guò)引入虛擬編碼（也稱(chēng)為啞變量）來(lái)實(shí)現(xiàn)的。對(duì)于一個(gè)具有kk個(gè)水平的分類(lèi)變量，我們通常會(huì)創(chuàng)建k?1k?1個(gè)虛擬變量。這是因?yàn)槿绻麨槊總€(gè)水平都創(chuàng)建一個(gè)虛擬變量，則會(huì)導(dǎo)致完全共線(xiàn)性問(wèn)題，即所謂的“虛擬變量陷阱”。表7-1定性預(yù)測(cè)變量與虛擬編碼示例員工編號(hào)性別部門(mén)工資(元)001男銷(xiāo)售部5000002女技術(shù)部6000003男人力資源4500004女銷(xiāo)售部5500將上述數(shù)據(jù)轉(zhuǎn)換為包含虛擬變量的形式后，可以得到：?jiǎn)T工編號(hào)性別_男性別_女部門(mén)_銷(xiāo)售部部門(mén)_技術(shù)部部門(mén)_人力資源工資(元)001101005000002010106000003100014500004011005500這里，“性別”和“部門(mén)”兩個(gè)定性變量分別被轉(zhuǎn)換成了相應(yīng)的虛擬變量。7.2定性與定量變量交互作用當(dāng)研究中既包括定性又包括定量預(yù)測(cè)變量時(shí)，有時(shí)需要考慮它們之間的交互作用。交互作用是指一個(gè)自變量對(duì)因變量的影響取決于另一個(gè)自變量的取值。例如，在工資模型中，性別可能會(huì)影響不同部門(mén)間的薪資差異程度。為了在模型中加入這種交互項(xiàng)，我們可以簡(jiǎn)單地將相關(guān)的虛擬變量與連續(xù)變量相乘。例如，如果我們想要研究性別與工作經(jīng)驗(yàn)?zāi)晗拗g的交互作用對(duì)工資的影響，那么模型就可以表示為：Y=β0+β1X經(jīng)驗(yàn)+β2D女+β3(X經(jīng)驗(yàn)×D女)+?Y=β0?+β1?X經(jīng)驗(yàn)?+β2?D女?+β3?(X經(jīng)驗(yàn)?×D女?)+?其中，YY

是員工工資；X經(jīng)驗(yàn)X經(jīng)驗(yàn)?

是工作經(jīng)驗(yàn)?zāi)晗蓿籇女D女?

是指示女性員工的虛擬變量（男性為參考組）；β3β3?

表示了工作經(jīng)驗(yàn)?zāi)晗迣?duì)女性員工工資影響的不同斜率。7.3ANCOVA(協(xié)方差分析)ANCOVA（AnalysisofCovariance）是一種結(jié)合了ANOVA（方差分析）與回歸分析的方法，用于比較不同組之間均值的同時(shí)控制其他連續(xù)變量的影響。這在實(shí)驗(yàn)設(shè)計(jì)中特別有用，因?yàn)樗试S研究人員調(diào)整潛在的混雜因素。例如，假設(shè)我們要評(píng)估兩種不同的教學(xué)方法對(duì)學(xué)生考試成績(jī)的影響，并且我們知道學(xué)生的初始知識(shí)水平（如入學(xué)前的成績(jī)）可能會(huì)對(duì)該結(jié)果產(chǎn)生重要影響。在這種情況下，使用ANCOVA可以幫助我們更準(zhǔn)確地估計(jì)教學(xué)方法的效果。第八章：回歸診斷8.1標(biāo)準(zhǔn)化殘差標(biāo)準(zhǔn)化殘差是對(duì)原始?xì)埐钸M(jìn)行尺度變換后的結(jié)果，它有助于識(shí)別異常值以及檢查模型的基本假設(shè)是否成立。標(biāo)準(zhǔn)化殘差定義為：ei?=eiMSE(1?hii)ei??=MSE(1?hii?)?ei??其中，eiei?

是第ii個(gè)觀(guān)測(cè)點(diǎn)的殘差；MSEMSE

是誤差平方和的均值；hiihii?

是杠桿值，反映了該點(diǎn)對(duì)自身預(yù)測(cè)值的影響程度。一般而言，若標(biāo)準(zhǔn)化殘差的絕對(duì)值大于2，則認(rèn)為該觀(guān)測(cè)點(diǎn)可能是離群值；大于3則表明它是極端離群值。8.2影響點(diǎn)與離群值離群值：指的是那些偏離大部分?jǐn)?shù)據(jù)點(diǎn)較遠(yuǎn)的數(shù)據(jù)點(diǎn)。影響點(diǎn)：則是指那些對(duì)回歸系數(shù)估計(jì)有較大影響的數(shù)據(jù)點(diǎn)。影響點(diǎn)不一定總是離群值，但它們往往具有較高的杠桿值。常用的度量影響點(diǎn)的技術(shù)包括庫(kù)克距離（Cook'sDistance），它綜合考慮了殘差大小和杠桿值。一個(gè)大的庫(kù)克距離意味著移除該點(diǎn)會(huì)導(dǎo)致回歸系數(shù)發(fā)生顯著變化。8.3異方差性與自相關(guān)性檢測(cè)異方差性：指的是誤差項(xiàng)的方差不是恒定的情況。可以通過(guò)繪制殘差圖（特別是殘差與擬合值的關(guān)系圖）來(lái)直觀(guān)判斷是否存在異方差性。正式檢驗(yàn)方法包括布雷施-帕甘檢驗(yàn)（Breusch-Pagantest）等。自相關(guān)性：主要出現(xiàn)在時(shí)間序列數(shù)據(jù)中，指的是誤差項(xiàng)之間存在相關(guān)關(guān)系。杜賓-沃森統(tǒng)計(jì)量（Durbin-Watsonstatistic）是一個(gè)常用的自相關(guān)性檢測(cè)工具。該統(tǒng)計(jì)量的取值范圍在0到4之間，接近2表示無(wú)自相關(guān)性，而遠(yuǎn)離2則表明可能存在正自相關(guān)或負(fù)自相關(guān)。解決異方差性和自相關(guān)性的方法包括加權(quán)最小二乘法（WLS）、廣義最小二乘法（GLS）以及采用適當(dāng)?shù)腁RIMA模型等。第九章：正則化方法9.1嶺回歸嶺回歸是一種正則化技術(shù)，旨在解決多重共線(xiàn)性問(wèn)題并提高模型的泛化能力。它通過(guò)對(duì)回歸系數(shù)加上L2范數(shù)懲罰項(xiàng)來(lái)實(shí)現(xiàn)這一點(diǎn)。具體來(lái)說(shuō)，嶺回歸的目標(biāo)函數(shù)為：RSS+λ∑j=1pβj2RSS+λ∑j=1p?βj2?其中，RSSRSS

是殘差平方和；λλ

是調(diào)節(jié)參數(shù)，控制著懲罰強(qiáng)度；βjβj?

是回歸系數(shù)。隨著λλ的增加，回歸系數(shù)的絕對(duì)值逐漸減小，從而降低了模型復(fù)雜度。選擇合適的λλ值通常是通過(guò)交叉驗(yàn)證來(lái)完成的。9.2LASSOLASSO（LeastAbsoluteShrinkageandSelectionOperator）也是一種正則化方法，但它使用的是L1范數(shù)作為懲罰項(xiàng)。LASSO不僅能夠減少回歸系數(shù)的大小，還能使某些系數(shù)精確變?yōu)榱?，從而達(dá)到變量選擇的效果。其目標(biāo)函數(shù)為：RSS+λ∑j=1p∣βj∣RSS+λ∑j=1p?∣βj?∣LASSO的特點(diǎn)在于它能夠產(chǎn)生稀疏解，即只有部分重要的變量會(huì)被保留下來(lái)，這對(duì)于高維數(shù)據(jù)集尤其有用。9.3彈性網(wǎng)絡(luò)彈性網(wǎng)絡(luò)結(jié)合了嶺回歸和LASSO的優(yōu)點(diǎn)，它同時(shí)采用了L1和L2范數(shù)作為懲罰項(xiàng)。這種方法可以在保持模型穩(wěn)定的同時(shí)提供一定程度的變量選擇。彈性網(wǎng)絡(luò)的目標(biāo)函數(shù)形式如下：RSS+αλ∑j=1p∣βj∣+(1?α)λ∑j=1pβj2RSS+αλ∑j=1p?∣βj?∣+(1?α)λ∑j=1p?βj2?其中，αα控制L1與L2懲罰的比例，當(dāng)α=1α=1時(shí)退化為L(zhǎng)ASSO，而α=0α=0時(shí)退化為嶺回歸。正則化方法的應(yīng)用不僅限于線(xiàn)性回歸，它們也被廣泛應(yīng)用于其他類(lèi)型的機(jī)器學(xué)習(xí)模型，如邏輯回歸、支持向量機(jī)等。通過(guò)合理選擇正則化技術(shù)和調(diào)參策略，可以有效地提高模型的穩(wěn)健性和解釋力。第十章：廣義線(xiàn)性模型10.1廣義線(xiàn)性模型框架**廣義線(xiàn)性模型（GLM）**擴(kuò)展了經(jīng)典線(xiàn)性回歸模型，使其能夠處理非正態(tài)分布的數(shù)據(jù)。GLM由三個(gè)組成部分構(gòu)成：隨機(jī)成分：指定了因變量YY的分布類(lèi)型，比如二項(xiàng)分布、泊松分布等。系統(tǒng)成分：定義了預(yù)測(cè)變量與響應(yīng)變量之間的關(guān)系，通常是通過(guò)一個(gè)線(xiàn)性組合來(lái)表示。連接函數(shù)：將系統(tǒng)成分中的線(xiàn)性預(yù)測(cè)器η=β0+β1X1+...+βkXkη=β0?+β1?X1?+...+βk?Xk?與隨機(jī)成分中的均值μμ聯(lián)系起來(lái)。表10-1常見(jiàn)的廣義線(xiàn)性模型及其應(yīng)用模型類(lèi)型分布假設(shè)連接函數(shù)應(yīng)用示例Logistic回歸二項(xiàng)分布Logit信用評(píng)分、疾病診斷Poisson回歸泊松分布Log交通事故次數(shù)、網(wǎng)站訪(fǎng)問(wèn)量Gamma回歸Gamma分布Inverse等待時(shí)間、保險(xiǎn)索賠額Probit回歸二項(xiàng)分布Probit生物統(tǒng)計(jì)學(xué)中劑量-反應(yīng)關(guān)系10.2Logistic回歸Logistic回歸是一種用于分類(lèi)問(wèn)題的廣義線(xiàn)性模型，特別適用于二分類(lèi)問(wèn)題。其核心是使用logit函數(shù)作為連接函數(shù)，將線(xiàn)性預(yù)測(cè)器映射到0和1之間的一個(gè)概率值。具體形式為：log?(p1?p)=β0+β1X1+...+βkXklog(1?pp?)=β0?+β1?X1?+...+βk?Xk?其中，pp

是事件發(fā)生的概率；p1?p1?pp?

稱(chēng)為優(yōu)勢(shì)比（oddsratio），它衡量了事件發(fā)生與不發(fā)生的相對(duì)可能性。通過(guò)求解上述方程，我們可以得到事件發(fā)生的概率估計(jì)：p=11+e?(β0+β1X1+...+βkXk)p=1+e?(β0?+β1?X1?+...+βk?Xk?)1?Logistic回歸不僅提供了概率預(yù)測(cè)，還允許我們計(jì)算每個(gè)自變量對(duì)事件發(fā)生概率的影響程度，這通常通過(guò)優(yōu)勢(shì)比來(lái)表達(dá)。如果某個(gè)自變量的優(yōu)勢(shì)比大于1，則表明該變量增加會(huì)提高事件發(fā)生的概率；反之亦然。10.3Poisson回歸Poisson回歸用于建模計(jì)數(shù)數(shù)據(jù)，即因變量是非負(fù)整數(shù)的情況。這類(lèi)數(shù)據(jù)通常遵循泊松分布。在Poisson回歸中，常用的連接函數(shù)是對(duì)數(shù)函數(shù)，模型可以寫(xiě)作：log?(μ)=β0+β1X1+...+βkXklog(μ)=β0?+β1?X1?+...+βk?Xk?這里，μμ

是因變量的期望值，也就是平均計(jì)數(shù)值；對(duì)數(shù)連接函數(shù)確保了預(yù)測(cè)值總是正數(shù)。Poisson回歸的一個(gè)關(guān)鍵假設(shè)是均值等于方差（均值-方差相等性）。然而，在實(shí)際應(yīng)用中，這一假設(shè)往往被違反，導(dǎo)致過(guò)度離散或欠離散的問(wèn)題。對(duì)于這種情況，可以考慮使用負(fù)二項(xiàng)回歸或者引入額外的分散參數(shù)來(lái)調(diào)整模型。第十一章：時(shí)間序列數(shù)據(jù)的回歸11.1時(shí)間序列的特點(diǎn)時(shí)間序列數(shù)據(jù)是一系列按照時(shí)間順序記錄的觀(guān)測(cè)值，它具有以下幾個(gè)特點(diǎn)：趨勢(shì)：長(zhǎng)期方向性的變化。季節(jié)性：周期性出現(xiàn)的模式。循環(huán)：不是固定周期的波動(dòng)。隨機(jī)波動(dòng)：無(wú)法預(yù)測(cè)的短期變動(dòng)。在進(jìn)行時(shí)間序列分析時(shí)，需要考慮到這些特征，并且要保證數(shù)據(jù)的平穩(wěn)性，即統(tǒng)計(jì)特性隨時(shí)間不變。11.2自回歸模型自回歸（AR）模型假設(shè)當(dāng)前的觀(guān)測(cè)值依賴(lài)于過(guò)去的若干個(gè)觀(guān)測(cè)值加上一個(gè)誤差項(xiàng)。最簡(jiǎn)單的自回歸模型是AR(1)，其形式為：Yt=c+?1Yt?1+?tYt?=c+?1?Yt?1?+?t?其中，YtYt?

是時(shí)刻tt的觀(guān)測(cè)值；cc

是常數(shù)項(xiàng)；?1?1?

是自回歸系數(shù)；?t?t?

是誤差項(xiàng)，假定為白噪聲過(guò)程。更高階的AR模型可以通過(guò)包含更多滯后項(xiàng)來(lái)構(gòu)建，例如AR(p)模型包括了前pp個(gè)觀(guān)測(cè)值的影響。11.3移動(dòng)平均模型移動(dòng)平均（MA）模型則假設(shè)當(dāng)前的觀(guān)測(cè)值受到過(guò)去若干個(gè)誤差項(xiàng)的影響。最簡(jiǎn)單的移動(dòng)平均模型是MA(1)，其形式為：Yt=μ+θ1?t?1+?tYt?=μ+θ1??t?1?+?t?其中，μμ

是序列的均值；θ1θ1?

是移動(dòng)平均系數(shù)；?t?1?t?1?

和

?t?t?

分別是滯后一期和當(dāng)期的誤差項(xiàng)。類(lèi)似地，更復(fù)雜的MA(q)模型會(huì)包含前qq個(gè)誤差項(xiàng)的影響。自回歸和移動(dòng)平均模型可以結(jié)合形成自回歸移動(dòng)平均（ARMA）模型，而當(dāng)考慮時(shí)間序列的非平穩(wěn)性時(shí)，還可以進(jìn)一步發(fā)展成自回歸積分移動(dòng)平均（ARIMA）模型。ARIMA模型通過(guò)差分操作來(lái)消除序列的趨勢(shì)和季節(jié)性成分，從而實(shí)現(xiàn)平穩(wěn)化。第十二章：面板數(shù)據(jù)回歸12.1面板數(shù)據(jù)概述面板數(shù)據(jù)是指同時(shí)包含橫截面單位（如個(gè)人、公司、國(guó)家等）和時(shí)間維度的數(shù)據(jù)集。這種數(shù)據(jù)結(jié)構(gòu)能夠提供更多的信息，使得研究者能夠在控制個(gè)體異質(zhì)性和時(shí)間效應(yīng)的同時(shí)，更好地理解變量間的關(guān)系。面板數(shù)據(jù)的優(yōu)點(diǎn)在于它可以捕捉到跨時(shí)間和跨個(gè)體的變化，從而提供更為全面的視角。常見(jiàn)的面板數(shù)據(jù)類(lèi)型包括平衡面板（所有單位在每個(gè)時(shí)間點(diǎn)都有觀(guān)測(cè)值）和非平衡面板（某些單位可能在某些時(shí)間點(diǎn)缺失數(shù)據(jù)）。12.2固定效應(yīng)與隨機(jī)效應(yīng)模型固定效應(yīng)模型：假設(shè)每個(gè)個(gè)體有一個(gè)特定但未知的截距項(xiàng)，這些截距項(xiàng)被視為固定的參數(shù)。固定效應(yīng)模型通過(guò)引入虛擬變量來(lái)控制個(gè)體間的差異，適合于研究那些不可觀(guān)測(cè)的個(gè)體特征對(duì)結(jié)果的影響。隨機(jī)效應(yīng)模型：假設(shè)個(gè)體間的差異是隨機(jī)的，并且服從某種分布（通常是正態(tài)分布）。隨機(jī)效應(yīng)模型將個(gè)體效應(yīng)視為隨機(jī)變量，并將其納入誤差項(xiàng)中。這種方法適用于當(dāng)個(gè)體效應(yīng)與解釋變量不相關(guān)時(shí)的情形。選擇固定效應(yīng)還是隨機(jī)效應(yīng)模型，通常基于理論依據(jù)以及Hausman檢驗(yàn)的結(jié)果。如果Hausman檢驗(yàn)拒絕了原假設(shè)（即個(gè)體效應(yīng)與解釋變量相關(guān)），則應(yīng)采用固定效應(yīng)模型；否則，隨機(jī)效應(yīng)模型可能是更好的選擇。12.3Hausman檢驗(yàn)Hausman檢驗(yàn)用于確定是否應(yīng)該使用固定效應(yīng)模型還是隨機(jī)效應(yīng)模型。該檢驗(yàn)的基本思想是比較兩種模型下參數(shù)估計(jì)的一致性。具體步驟如下：估計(jì)固定效應(yīng)模型，得到參數(shù)估計(jì)β^FEβ^?FE?。估計(jì)隨機(jī)效應(yīng)模型，得到參數(shù)估計(jì)β^REβ^?RE?。計(jì)算兩個(gè)估計(jì)量之間的差異向量δ^=β^FE?β^REδ^=β^?FE??β^?RE?。構(gòu)造Hausman統(tǒng)計(jì)量：

H=(δ^?0)′[Var(β^FE)?Var(β^RE)]?1(δ^?0)H=(δ^?0)′[Var(β^?FE?)?Var(β^?RE?)]?1(δ^?0)在大樣本下，若H統(tǒng)計(jì)量顯著，則拒絕隨機(jī)效應(yīng)模型，選擇固定效應(yīng)模型；否則，可以選擇隨機(jī)效應(yīng)模型。Hausman檢驗(yàn)可以幫助研究人員根據(jù)數(shù)據(jù)的具體情況做出更合理的模型選擇決策，從而提高估計(jì)的準(zhǔn)確性和可靠性。第十三章：工具變量與兩階段最小二乘13.1內(nèi)生性問(wèn)題在回歸分析中，內(nèi)生性問(wèn)題是指自變量與誤差項(xiàng)之間存在相關(guān)關(guān)系的情況。這通常會(huì)導(dǎo)致估計(jì)的回歸系數(shù)出現(xiàn)偏差，使得因果效應(yīng)無(wú)法被準(zhǔn)確識(shí)別。內(nèi)生性可能由多種因素引起，包括遺漏變量、測(cè)量誤差以及同時(shí)性偏差等。13.2工具變量的選擇標(biāo)準(zhǔn)為了解決內(nèi)生性問(wèn)題，可以使用**工具變量（IV）**方法。一個(gè)有效的工具變量需要滿(mǎn)足以下兩個(gè)條件：相關(guān)性：工具變量必須與內(nèi)生自變量有顯著的相關(guān)性。外生性：工具變量必須與模型中的誤差項(xiàng)不相關(guān)，即它不能直接影響因變量，除非通過(guò)影響內(nèi)生自變量來(lái)間接作用。選擇合適的工具變量是關(guān)鍵，因?yàn)槿绻ぞ咦兞坎环仙鲜鰳?biāo)準(zhǔn)，則可能會(huì)導(dǎo)致更嚴(yán)重的估計(jì)偏差。表13-1常見(jiàn)的內(nèi)生性問(wèn)題及對(duì)應(yīng)的工具變量示例內(nèi)生性問(wèn)題類(lèi)型描述可能的工具變量示例遺漏變量模型中遺漏了重要變量外部政策變化、自然實(shí)驗(yàn)的結(jié)果測(cè)量誤差自變量的測(cè)量包含誤差代理變量、歷史數(shù)據(jù)同時(shí)性偏差自變量和因變量相互影響個(gè)體特征、地理位置13.3兩階段最小二乘(2SLS)估計(jì)**兩階段最小二乘法（2SLS）**是一種常用的工具變量估計(jì)方法，具體步驟如下：第一階段：將內(nèi)生自變量作為因變量，使用所有外生變量（包括工具變量）進(jìn)行回歸，得到內(nèi)生自變量的預(yù)測(cè)值。X=γ0+γ1Z+γ2W+uX=γ0?+γ1?Z+γ2?W+u其中，XX

是內(nèi)生自變量；ZZ

是工具變量；WW

是其他外生控制變量；uu

是誤差項(xiàng)。第二階段：將第一階段得到的預(yù)測(cè)值X^X^代入原回歸方程，替代原來(lái)的內(nèi)生自變量XX，然后進(jìn)行最小二乘估計(jì)。Y=β0+β1X^+β2W+?Y=β0?+β1?X^+β2?W+?2SLS方法可以有效地解決內(nèi)生性問(wèn)題，并且提供一致的參數(shù)估計(jì)。然而，2SLS估計(jì)的有效性依賴(lài)于工具變量的質(zhì)量，如果工具變量較弱或者數(shù)量不足，可能會(huì)導(dǎo)致估計(jì)結(jié)果不穩(wěn)定或不可靠。第十四章：非參數(shù)回歸14.1核平滑核平滑是一種非參數(shù)回歸方法，它通過(guò)局部加權(quán)平均來(lái)估計(jì)函數(shù)。基本思想是在每個(gè)點(diǎn)處，根據(jù)其鄰近點(diǎn)的權(quán)重計(jì)算出該點(diǎn)的估計(jì)值。常用的核函數(shù)包括高斯核、均勻核等。核平滑的公式為：m^(x)=∑i=1nKh(x?xi)yi∑i=1nKh(x?xi)m^(x)=∑i=1n?Kh?(x?xi?)∑i=1n?Kh?(x?xi?)yi??其中，Kh(u)=1hK(uh)Kh?(u)=h1?K(hu?)

是核函數(shù)，hh

是帶寬；KK

是基礎(chǔ)核函數(shù)，如高斯核

K(u)=12πe?u22K(u)=2π?1?e?2u2?。帶寬的選擇對(duì)核平滑的效果至關(guān)重要。較小的帶寬可以使估計(jì)更加靈活但可能導(dǎo)致過(guò)擬合；較大的帶寬則會(huì)使估計(jì)更為平滑但可能丟失細(xì)節(jié)信息。常用的方法包括交叉驗(yàn)證和規(guī)則化選擇準(zhǔn)則。14.2局部加權(quán)回歸**局部加權(quán)回歸（LOWESS/LOESS）**是一種基于局部多項(xiàng)式擬合的非參數(shù)回歸方法。它通過(guò)在每個(gè)點(diǎn)附近擬合一個(gè)低階多項(xiàng)式來(lái)估計(jì)函數(shù)值。具體步驟如下：選擇一個(gè)點(diǎn)

x0x0?，并確定其鄰域內(nèi)的觀(guān)測(cè)點(diǎn)。賦予權(quán)重：根據(jù)距離

x0x0?

的遠(yuǎn)近，給這些觀(guān)測(cè)點(diǎn)賦予不同的權(quán)重。多

人人文庫(kù)> 全部分類(lèi)> 教育資料 > 考試試卷

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

《回歸分析》完整筆記

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

《回歸分析》完整筆記

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔