統(tǒng)計(jì)分析模型診斷_第1頁(yè)
統(tǒng)計(jì)分析模型診斷_第2頁(yè)
統(tǒng)計(jì)分析模型診斷_第3頁(yè)
統(tǒng)計(jì)分析模型診斷_第4頁(yè)
統(tǒng)計(jì)分析模型診斷_第5頁(yè)
已閱讀5頁(yè),還剩24頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、統(tǒng)計(jì)與數(shù)量分析第1講1.3 模型診斷 I普通最小二乘2022年3月19日/下午7時(shí)41分 普通最小二乘普通最小二乘相關(guān)系數(shù) 相關(guān)系數(shù)(Correlation Coefficient)是度量?jī)蓚€(gè)變量之間線性相關(guān)的方向和強(qiáng)度的測(cè)度。 散點(diǎn)圖只是粗略地刻畫(huà)兩個(gè)變量之間線性相關(guān)關(guān)系的方向、強(qiáng)度和形式,不能確切地度量變量之間的相關(guān)關(guān)系的密切程度。相關(guān)系數(shù)可以具體度量變量之間的相關(guān)關(guān)系的密切程度,并且用一個(gè)相對(duì)數(shù)數(shù)值表述出來(lái),使之具有直接的可比性。 一般使用樣本統(tǒng)計(jì)量來(lái)估計(jì)總體相關(guān)系數(shù)的數(shù)值水平,有 相關(guān)系數(shù)所反映的是線性相關(guān)關(guān)系。 該相關(guān)系數(shù)是數(shù)值型變量的統(tǒng)計(jì)量。yyxxxyLLLr 2022年3月19

2、日/下午7時(shí)41分 普通最小二乘普通最小二乘 相關(guān)系數(shù)是總體相關(guān)系數(shù)真值的樣本統(tǒng)計(jì)量。因此,相關(guān)系數(shù)只是總體相關(guān)系數(shù)的在一定樣本分布下的估計(jì)值,尤其是當(dāng)計(jì)算相關(guān)系數(shù)的樣本容量較小時(shí),相關(guān)系數(shù)的數(shù)值的變異增大。所以,必須對(duì)不同樣本容量情況下計(jì)算出來(lái)的相關(guān)系數(shù)的統(tǒng)計(jì)顯著性進(jìn)行假設(shè)檢驗(yàn)。 有假設(shè) 相關(guān)系數(shù)的抽樣分布,服從于自由度為n-2的t分布。一般采用T檢驗(yàn)統(tǒng)計(jì)量對(duì)相關(guān)系數(shù)進(jìn)行顯著性檢驗(yàn), 2122ntrnrT00:H2022年3月19日/下午7時(shí)41分 普通最小二乘普通最小二乘一元線性回歸模型 1理論模型 從回歸模型的一般形式可以表述為 回歸模型(Regression Model)是指因變量依賴

3、自變量和隨機(jī)誤差項(xiàng)取值的方程。 因變量的取值由兩個(gè)部分構(gòu)成。一部分反映了自變量的變動(dòng)引起的線性變化;另一部分為剩余變動(dòng),反映了不能為自變量和因變量之間的線性關(guān)系所解釋的其它剩余的變異。 在理論上,回歸分析總是假定一元線性回歸模型,即具有統(tǒng)計(jì)顯著性,有效地解釋了因變量的變動(dòng),剩余變動(dòng)為不可觀測(cè)的隨機(jī)誤差。因此,上式為一元線性回歸理論模型。 xy102022年3月19日/下午7時(shí)41分 普通最小二乘普通最小二乘 關(guān)于隨機(jī)誤差,線性回歸理論模型具有以下三項(xiàng)假定。(1) 0均值。剩余變動(dòng)為不可觀測(cè)的隨機(jī)誤差,其數(shù)學(xué)期望為0。(2)方差齊性。對(duì)于所有的自變量x,隨機(jī)誤差的方差相同。(3)獨(dú)立性。各項(xiàng)隨機(jī)

4、誤差之間,以及各項(xiàng)隨機(jī)誤差與對(duì)應(yīng)的自變量之間均不相關(guān),即有0jiEnji, 2 , 1,ji 0iixE2022年3月19日/下午7時(shí)41分 普通最小二乘普通最小二乘2回歸方程 根據(jù)回歸理論模型中對(duì)隨機(jī)誤差的三項(xiàng)假定,有 因此有變量的數(shù)學(xué)期望為自變量的線性函數(shù)。 回歸方程(Regression Equation)是指因變量y的數(shù)學(xué)期望依賴自變量x取值的方程。 有一元線性回歸方程為 一元線性回歸方程在直角坐標(biāo)系中為一條直線,所以也稱為直線回歸方程。 20,N xyE102022年3月19日/下午7時(shí)41分 普通最小二乘普通最小二乘3估計(jì)的回歸方程 由回歸方程中可知,當(dāng)回歸系數(shù)確定之后,可以計(jì)算出

5、因變量在給定自變量數(shù)值時(shí)的數(shù)學(xué)期望。在回歸方程中的回歸系數(shù)和隨機(jī)誤差的方差均為未知,需要利用樣本數(shù)據(jù)進(jìn)行統(tǒng)計(jì)估計(jì)。當(dāng)根據(jù)樣本推斷出回歸方程中的回歸系數(shù)的估計(jì)量時(shí),就得到了由樣本推斷出來(lái)的估計(jì)的回歸方程。 估計(jì)的回歸方程(Estimated Regression Equation)是指根據(jù)樣本數(shù)據(jù)的估計(jì)量構(gòu)成的回歸方程。 估計(jì)的一元線性回歸方程為 當(dāng)估計(jì)的一元線性回歸方程式中的自變量給定某一具體數(shù)值時(shí),因變量的對(duì)應(yīng)的取值,也就隨之確定下來(lái)了。xy102022年3月19日/下午7時(shí)41分 普通最小二乘普通最小二乘一元線性回歸方程的最小二乘估計(jì) 最小二乘估計(jì)(Least Square Estimat

6、ion)是指估計(jì)量使因變量的觀察值與其估計(jì)值的離差平方和最小的方法。這里介紹的是普通最小二乘估計(jì)(Ordinary Least Square Estimation, OLSE)。 根據(jù)回歸方程和最小二乘估計(jì)定義,一元線性回歸方程關(guān)于回歸系數(shù)估計(jì)量的解為非負(fù)二次函數(shù),必然存在最小值。 因而,可以得出求解一元線性回歸方程回歸系數(shù)估計(jì)量的正規(guī)方程組,并利用離差平方和的形式,可寫(xiě)為 計(jì)算得到的就是一元線性回歸方程回歸系數(shù)的普通最小二乘估計(jì)(OLS)估計(jì)量。xyLLxxxy1012022年3月19日/下午7時(shí)41分 普通最小二乘普通最小二乘一元線性回歸方程的擬合優(yōu)度 將回歸直線與觀察值的距離作為評(píng)價(jià)回歸

7、方程擬合精度的測(cè)度,稱為擬合優(yōu)度(Goodness of Fit)。 1判定系數(shù) 在回歸分析中,將因變量的觀察值之間的變異稱為的總離差,反映了因變量的觀察值與其均值的離差的距離;并將總離差分解為自變量能夠解釋的部分,和自變量不能解釋的兩個(gè)部分。 為了避免離差的正負(fù)相抵,采用離差平方和的形式,來(lái)度量因變量的總離差,并對(duì)其進(jìn)行分解。將因變量的個(gè)觀察值與其均值的離差平方和稱為因變量的總離差平方和(Total Deviation Sum of Squares),記為SST,實(shí)際上這一總離差平方和就是變量的離差平方和Lyy。有yyniiTLyySS122022年3月19日/下午7時(shí)41分 普通最小二乘普

8、通最小二乘 可將SST分解為 式中等號(hào)右邊估計(jì)值與觀察值的均值的離差平方和,稱為回歸離差平方和(Regression Sum of Squares),記為SSR。反映了在觀察值的總變異中,估計(jì)的回歸方程所解釋的這一部分變異的總和。有 niiniiiiiiniiTyyyyyyyyyySS1212212niiRyySS122022年3月19日/下午7時(shí)41分 普通最小二乘普通最小二乘 式中等號(hào)右邊觀察值與其估計(jì)值的離差平方和,稱為剩余離差平方和,或殘差離差平方和(Residual Sum of Squares),記為SSE。反映了在觀察值的總變異中,估計(jì)的回歸方程所未能解釋的那一部分變異的總和。有

9、 從而,可將式(9.15)記為 回歸直線擬合程度決定于SSR與SSE的比較,當(dāng)SSR的數(shù)值越是顯著大于SSE時(shí),說(shuō)明各觀察值與回歸直線的離差之和越小,回歸直線對(duì)于因變量的解釋能力越強(qiáng)。而SSR與SSE又是對(duì)總離差平方和的一個(gè)完備的分割,兩者存在互為消長(zhǎng)的數(shù)量關(guān)系。因此以與之比作為度量回歸方程的擬合優(yōu)度的測(cè)度,稱之為判定系數(shù)。niiiEyySS12ERTSSSSSS2022年3月19日/下午7時(shí)41分 普通最小二乘普通最小二乘 判定系數(shù)(Coefficient of Determination)是指回歸離差平方和占總離差平方和的比重,有 由于 ,所以 可知,判定系數(shù)就是相關(guān)系數(shù)的平方。判定系數(shù)的

10、取值在0到1 之間,當(dāng)判定系數(shù)的取值趨近于1時(shí),表示回歸直線的擬合程度很好;當(dāng)判定系數(shù)的取值趨近于0時(shí),則表示回歸直線的擬合程度很差。TRSSSSr 2xyxyxxniiRLLLyy SS22112yyxxxTRLLLSSSSr2y22022年3月19日/下午7時(shí)41分 普通最小二乘普通最小二乘 判定系數(shù)是度量回歸直線擬合優(yōu)度的重要測(cè)度。有 ( 判定系數(shù)是一個(gè)重要的數(shù)量界限,它將因變量的離差平方和分為了能夠?yàn)樽宰兞克忉尩牟糠?,和不能為自變量所解釋的部分。判定系?shù)就是在因變量的總離差平方和中自變量所解釋的部分所占的份額。yyTRLrSSrSS22yyTELrSSrSS22112022年3月19

11、日/下午7時(shí)41分 普通最小二乘普通最小二乘一元線性回歸方程的顯著性檢驗(yàn) 估計(jì)的回歸方程是依據(jù)樣本數(shù)據(jù)擬合的,樣本容量大小,因變量和自變量的抽樣分布,都會(huì)對(duì)回歸方程中估計(jì)量的與總體參數(shù)真值之間的誤差生產(chǎn)影響,僅憑回歸方程擬合優(yōu)度的有關(guān)測(cè)度,不能認(rèn)定因變量與自變量之間是否真的存在這種線性關(guān)系,還需要對(duì)估計(jì)的回歸方程進(jìn)行假設(shè)檢驗(yàn)。 一元回歸方程的顯著性檢驗(yàn)的原假設(shè)為參數(shù)的真值為0,即 當(dāng)原假設(shè)成立,可將因變量的變異歸結(jié)于剩余因素,表明自變量對(duì)因變量不具有顯著的線性關(guān)系,一元線性方程對(duì)于因變量沒(méi)有顯著的解釋能力。這時(shí),估計(jì)的回歸方程不具備任何實(shí)際意義,不能用于預(yù)測(cè)和控制。若原假設(shè)不成立,說(shuō)明因變量的

12、變異顯著地來(lái)源于自變量,這時(shí)估計(jì)的回歸方程才具有實(shí)際意義。010:H2022年3月19日/下午7時(shí)41分 普通最小二乘普通最小二乘 在一元線性回歸分析中,有回歸均方與剩余均方分別服從自由度為1和自由度為n-2的卡方分布,則由回歸均方與剩余均方的比值構(gòu)造的F檢驗(yàn)統(tǒng)計(jì)量服從第一自由度為1和第二自由度為n-2的F分布。即 利用判定系數(shù),可寫(xiě)為便于計(jì)算的形式,即 2121nFMSMSnSSSSFERER,2112212222nrrrLnrLnSSSSFyyyyER2022年3月19日/下午7時(shí)41分 普通最小二乘普通最小二乘 同樣,可以采用方差分析表來(lái)反映在一元線性回歸分析的顯著性檢驗(yàn)中,對(duì)變量的離差

13、平方和分解的分析過(guò)程和有關(guān)數(shù)據(jù)。一元線性回歸的方差分析表構(gòu)成差異源平方和自由度均方F檢驗(yàn)統(tǒng)計(jì)量回歸1剩余總和RSSRMSERERMSMSnSSSSF21ESSEMSTSS1nTMS2n多重共線性與主成分分析指標(biāo)綜合的方法很多,最簡(jiǎn)單的方法是將這些指標(biāo)用線型組合的方法將它們組合起來(lái)。因此,可設(shè)定其綜合指標(biāo)的形式為這些指標(biāo)的線型組合,即 y1 =11 x1 + 12 x2 + + 1p xp顯然,各指標(biāo)組合的系數(shù)不同,就得到不同的綜合指標(biāo)。 假如希望構(gòu)造少數(shù)幾個(gè)這樣的綜合指標(biāo),并且這幾個(gè)綜合指標(biāo)之間是不相關(guān)的。并且,這少數(shù)幾個(gè)綜合指標(biāo)應(yīng)該在一定程度上反映原始觀測(cè)指標(biāo)的變動(dòng)。其中反映原始觀測(cè)指標(biāo)的變

14、動(dòng)程度最大的綜合指標(biāo)最重要,我們稱其為原始觀測(cè)指標(biāo)的第一主成分;而反映原始觀測(cè)指標(biāo)的變動(dòng)程度次大的綜合指標(biāo),稱為原始觀測(cè)指標(biāo)的第二主成分;反映原始觀測(cè)指標(biāo)變動(dòng)程度第三大的綜合指標(biāo),稱為第三主成分;,即以反映原始觀測(cè)指標(biāo)變動(dòng)的大小順序排列,第k 個(gè)綜合指標(biāo)稱為原始觀測(cè)指標(biāo)的第 k個(gè)主成分。主成分的概念主成分的概念設(shè) 個(gè)p指標(biāo)(隨機(jī)變量) 是 p維隨機(jī)變量,其協(xié)方差矩陣為 式中,協(xié)方差 ?,F(xiàn)求X的線性函數(shù) 使得 的方差盡可能的大。TKXXXX),(21PPPPPPppXCOV212222111211)()()(jjiiijXEXXEXEXT)1 (XT)1 (根據(jù)線性代數(shù)的理論, 就是1相應(yīng)的特征

15、向量,成為隨機(jī)向量的第一主成分。第一主成分可能只說(shuō)明了p個(gè)指標(biāo)的一大部分變動(dòng),如果只用第一主成分可能喪失的信息太多,則往往還要計(jì)算 的第二主成分 。 顯然,第二主成分不應(yīng)該在重復(fù)反映第一主成分已經(jīng)反映的內(nèi)容,所以求第二主成分時(shí),還必須加上第二主成分與第一主成分不相關(guān)這一條件,即 即第二主成分的特征向量必須與第一主成分的特征向量正交。類似地,我們可以求出第三主成分,和第p主成分。)1(0),()1 ()2()1 ()2(XXCOVTT由于協(xié)方差矩陣 為非負(fù)定矩陣,故有p個(gè)非負(fù)特征根, 從而可求出p個(gè)特征向量 。將每一個(gè)特征向量作為一個(gè)主成分的系數(shù)向量,就可得出 p個(gè)主成分。若記p 個(gè)主成分組成的

16、主成分向量為 ,特征向量 組成的矩陣為A,即則可寫(xiě)成主成向量的表達(dá)形式為021pTPFFFF),(21)()2()1(,p),()()2()1(pAXAFT有 即 不相關(guān),各自的方差為 ,總的方差是我們從 中,選出對(duì)方差貢獻(xiàn)最大的部分指標(biāo),達(dá)到主成分分析的目的。PTOOAXCOVAFCOV1)()(PFF,1p,1tr1PFF,1樣本主成分計(jì)算樣本主成分計(jì)算在解決實(shí)際問(wèn)題時(shí),總體的協(xié)方差和相關(guān)陣往往都是未知的,需要通過(guò)樣本來(lái)進(jìn)行估計(jì)。樣本協(xié)方差矩陣為 用標(biāo)準(zhǔn)化變換后的數(shù)據(jù)矩陣 可計(jì)算出樣本相關(guān)矩陣為 然后計(jì)算求出樣本主成分。)()(111ijTiniisxxxxnS)(jjijsxxXXXnr

17、RTij11)(主成分的提取主成分的提取由主成分分析的基本思想和計(jì)算過(guò)程可以看出,主成分分析是把 p個(gè)隨機(jī)變量的總方差分解為p個(gè)不相關(guān)的隨機(jī)變量的方差之和 。各個(gè)主成分的方差即相應(yīng)的特征根表明了該主成分的方差,方差 的值越大,表明該主成分對(duì)綜合原始變量 X的能力越強(qiáng)。在實(shí)際應(yīng)用中,通常第一主成分并不足以代表原始變量,所以要選取幾個(gè)方差最大的主成分。按照方差從大到小的順序排列,前幾個(gè)主成分的方差之和與總方差的比值稱為主成分 的累計(jì)貢獻(xiàn)率。在研究實(shí)際問(wèn)題時(shí),一般要求累計(jì)貢獻(xiàn)率不小于85。由于主成分的方差 一般下降較快,所以只要取為數(shù)不多的主成分就足以反映 個(gè)原始變量的變化情況。當(dāng)用它進(jìn)行預(yù)測(cè)時(shí),就可使預(yù)測(cè)因子減少,達(dá)到降維的作用。piimiim11并沒(méi)有表達(dá)某個(gè)變量被提取了多少信息,因此僅僅使用累計(jì)貢獻(xiàn)率這一準(zhǔn)則,并不能保證每個(gè)變量都被提取了足夠的信息。此時(shí),往往需要另外一個(gè)輔助的準(zhǔn)則。為原

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論