第九章回歸與相關(guān)分析_第1頁
第九章回歸與相關(guān)分析_第2頁
第九章回歸與相關(guān)分析_第3頁
第九章回歸與相關(guān)分析_第4頁
第九章回歸與相關(guān)分析_第5頁
已閱讀5頁,還剩43頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第九章第九章 回歸與相關(guān)分析回歸與相關(guān)分析學(xué)習(xí)目標(biāo)1. 1. 變量間的相關(guān)關(guān)系與相關(guān)系數(shù)的計算變量間的相關(guān)關(guān)系與相關(guān)系數(shù)的計算2. 2. 總體回歸函數(shù)與樣本回歸函數(shù)總體回歸函數(shù)與樣本回歸函數(shù)3. 3. 線性回歸的基本假定線性回歸的基本假定4. 4. 簡單線性回歸參數(shù)的估計與檢驗簡單線性回歸參數(shù)的估計與檢驗實例實例1: 1:中國婦女生育水平的決定因素是什么中國婦女生育水平的決定因素是什么? ?婦女生育水平除了受計劃生育政策影響以外,還可能與社會、經(jīng)濟(jì)、文化等多種因素有關(guān)。1. 影響中國婦女生育率變動的因素有哪些?2. 各種因素對生育率的作用方向和作用程度如何?3. 哪些因素是影響婦女生育率主要的

2、決定性因素?4. 如何評價計劃生育政策在生育水平變動中的作用?5. 計劃生育政策與經(jīng)濟(jì)因素比較,什么是影響生育率的決定因素?6. 如果某些地區(qū)的計劃生育政策及社會、經(jīng)濟(jì)、文化 等因素發(fā)生重大變化,預(yù)期對這些地區(qū)的婦女生育 水平會產(chǎn)生怎樣的影響? 據(jù)世界衛(wèi)生組織統(tǒng)計,全球肥胖癥患者達(dá)3億人,其中兒童占2200萬人,11億人體重過重。肥胖癥和體重超常早已不是發(fā)達(dá)國家的“專利”,已遍及五大洲。目前,全球因”吃”致病乃至死亡的人數(shù)已高于因饑餓死亡的人數(shù)。 (引自光明日報)問題: 肥胖癥和體重超常與死亡人數(shù)真有顯著 的數(shù)量關(guān)系嗎?這些類型的問題可以運用相關(guān)分析與回歸分析的這些類型的問題可以運用相關(guān)分析與

3、回歸分析的方法去解決。方法去解決。實例2:全球吃死的人比餓死的人多?第一節(jié)第一節(jié) 相關(guān)與回歸的基本概念相關(guān)與回歸的基本概念一、變量間的相互關(guān)系變量間的相互關(guān)系二、相關(guān)關(guān)系的類型二、相關(guān)關(guān)系的類型三、相關(guān)分析與回歸分析三、相關(guān)分析與回歸分析 一、變量間的相互關(guān)系一、變量間的相互關(guān)系 確定性的函數(shù)關(guān)系確定性的函數(shù)關(guān)系 Y=f (X) 不確定性的統(tǒng)計關(guān)系相關(guān)關(guān)系相關(guān)關(guān)系 Y= f(X)+ (為隨機(jī)變量) 沒有關(guān)系沒有關(guān)系 變量間關(guān)系的圖形描述: 坐標(biāo)圖(散點圖) 相關(guān)關(guān)系的類型相關(guān)關(guān)系的類型 從涉及的變量數(shù)量變量數(shù)量看 簡單相關(guān) 多重相關(guān)(復(fù)相關(guān)) 從變量相關(guān)關(guān)系的表現(xiàn)形式表現(xiàn)形式看 線性線性相關(guān)散

4、布圖接近一條直線(左圖) 非線性非線性相關(guān)散布圖接近一條曲線(右圖)從變量相關(guān)關(guān)系變化的方向方向看正相關(guān)正相關(guān)變量同方向變化 A 同增同減 (A)(A)負(fù)相關(guān)負(fù)相關(guān)變量反方向變化 一增一減 (B)(B) B 從變量相關(guān)的程度看 完全相關(guān) (B) 不完全相關(guān) (A) C 不相關(guān) (C)相關(guān)關(guān)系的類型相關(guān)關(guān)系的類型相關(guān)分析與回歸分析相關(guān)分析與回歸分析回歸的古典意義古典意義: 高爾頓遺傳學(xué)的回歸概念高爾頓遺傳學(xué)的回歸概念 父母身高與子女身高的關(guān)系父母身高與子女身高的關(guān)系: : 無論高個子或低個子的子女無論高個子或低個子的子女 都有向人的平均身高回歸的都有向人的平均身高回歸的 趨勢趨勢回歸:退回回歸:

5、退回regression平均身高平均身高1877年年 弗朗西斯弗朗西斯高爾頓爵士高爾頓爵士 遺傳遺傳學(xué)研究學(xué)研究 回歸線回歸線父親們的身高與兒子們的身高之間關(guān)系的研究n1889年年F.Gallton和他的朋友和他的朋友K.Pearson收集收集了上千個家庭的身高、臂長和腿長的記錄了上千個家庭的身高、臂長和腿長的記錄n企圖尋找出兒子們身高與父親們身高之間關(guān)企圖尋找出兒子們身高與父親們身高之間關(guān)系的具體表現(xiàn)形式系的具體表現(xiàn)形式n下圖是根據(jù)下圖是根據(jù)1078個家庭的調(diào)查所作的散點圖個家庭的調(diào)查所作的散點圖(略圖)(略圖)yx16016517017518018514015016017018019020

6、0YXxyubxay516.033.84回歸的現(xiàn)代意義回歸的現(xiàn)代意義一個因變量對若干解釋變量依存關(guān)系的研究回歸的目的目的(實質(zhì))(實質(zhì)): 由固定的自變量去估計因變量的平均值由固定的自變量去估計因變量的平均值估計因變估計因變量量平均值平均值相關(guān)分析與回歸分析的聯(lián)系共同的研究對象:都是對變量間相關(guān)關(guān)系的分析。只有當(dāng)變量間存在相關(guān)關(guān)系時,用回歸分析去尋求相關(guān)的具體數(shù)學(xué)形式才有實際意義。相關(guān)分析只表明變量間相關(guān)關(guān)系的性質(zhì)和程度,要確定變量間相關(guān)的具體數(shù)學(xué)形式依賴于回歸分析。相關(guān)分析中相關(guān)系數(shù)的確定建立在回歸分析的基礎(chǔ)上。第二節(jié)第二節(jié) 簡單線性相關(guān)與回歸分析簡單線性相關(guān)與回歸分析一、簡單線性相關(guān)系數(shù)及

7、檢驗一、簡單線性相關(guān)系數(shù)及檢驗二、總體回歸函數(shù)與樣本回歸函數(shù)二、總體回歸函數(shù)與樣本回歸函數(shù)三、回歸系數(shù)的估計三、回歸系數(shù)的估計四、簡單線性回歸模型的檢驗四、簡單線性回歸模型的檢驗 五、簡單線性回歸模型預(yù)測五、簡單線性回歸模型預(yù)測一、簡單線性相關(guān)系數(shù)及檢驗一、簡單線性相關(guān)系數(shù)及檢驗 總體相關(guān)系數(shù)總體相關(guān)系數(shù) 對于所研究的總體,表示兩個相互聯(lián)系變量相關(guān)程度 的總體相關(guān)系數(shù)為: 總體相關(guān)系數(shù)反映總體兩個變量總體相關(guān)系數(shù)反映總體兩個變量X X和和Y Y的線性相關(guān)程度。的線性相關(guān)程度。 特點:特點:對于特定的總體來說,X和Y的數(shù)值是既定的 總體相關(guān)系數(shù)是客觀存在的特定數(shù)值。 (, )()( )Cov X

8、 YVar X Var Y 樣本相關(guān)系數(shù) 通過X和Y 的樣本觀測值去估計樣本相關(guān)系數(shù)變量X和Y的樣本相關(guān)系數(shù)通常用 表示 特點:樣本相關(guān)系數(shù)是根據(jù)從總體中抽取的隨機(jī)樣本 的觀測值計算出來的,是對總體相關(guān)系數(shù)的估 計,它是個隨機(jī)變量。 XYrXYrXYr_22()()()()iiXYiiXXYYrXXYY相關(guān)系數(shù)的特點: 相關(guān)系數(shù)的取值在-1與1之間。當(dāng)r=0時,表明X與Y沒有線性相關(guān)關(guān)系。當(dāng) 時,表明X與Y存在一定的線性相關(guān)關(guān)系: 若 表明X與Y 為正相關(guān); 若 表明X與Y 為負(fù)相關(guān)。當(dāng) 時,表明X與Y完全線性相關(guān): 若r=1,稱X與Y完全正相關(guān); 若r=-1,稱X與Y完全負(fù)相關(guān)。01r0r

9、0r 1r 使用相關(guān)系數(shù)的注意事項:X和Y 都是相互對稱的隨機(jī)變量,所以相關(guān)系數(shù)只反映只反映變量間的線性相關(guān)程度,不 能說明非線性相關(guān)關(guān)系。相關(guān)系數(shù)不能確定變量的因果關(guān)系,也不能 說明相關(guān)關(guān)系具體接近于哪條直線。XYYX相關(guān)系數(shù)的檢驗 為什么要檢驗?為什么要檢驗? 樣本相關(guān)系數(shù)是隨抽樣而變動的隨機(jī)變量,相關(guān)系數(shù)的統(tǒng)計顯著性還有待檢驗。檢驗的依據(jù):檢驗的依據(jù): 如果X和Y都服從正態(tài)分布,在總體相關(guān)系數(shù) 的假設(shè)下,與樣本相關(guān)系數(shù) r 有關(guān)的 t統(tǒng)計量服從自由度為n-2的 t 分布: 0221(2)tr nrtn相關(guān)系數(shù)的檢驗方法給定顯著性水平 ,查自由度為 n-2 的臨界值 若 ,表明相關(guān)系數(shù) r

10、 在統(tǒng)計上是顯著的,應(yīng)否定 而接受 的假設(shè);反之,若 ,應(yīng)接受 的假設(shè)。 2t2tt0002tt二、總體回歸函數(shù)與樣本回歸函數(shù)二、總體回歸函數(shù)與樣本回歸函數(shù) 若干基本概念 Y的條件分布條件分布: Y在X取某固定值條件下的分布。 對于X的每一個取值,都有Y的條件期望條件期望與之對應(yīng),在坐標(biāo)圖上 Y的條件期望的點隨X而變化的軌跡所形成的直線或曲線,稱為回歸線回歸線。 如果把Y的條件期望 表示為X的某種函數(shù): , 這個函數(shù)稱為回歸函數(shù)回歸函數(shù)。 如果其函數(shù)形式是只有一個自變量的線性函數(shù),如 , 稱為簡單線性回歸函數(shù)簡單線性回歸函數(shù)。 ()iE Y X()()iiE Y Xf X()iiE Y XX總

11、體回歸函數(shù)(PRF) 概念:將總體因變量Y的條件均值表現(xiàn)為自變量X的某種函數(shù),這個函數(shù)稱為總體回歸函數(shù)(簡記為PRF)。表現(xiàn)形式:(1)條件均值表現(xiàn)形式(2)個別值表現(xiàn)形式(隨機(jī)設(shè)定形式)()iiE Y XXiiiYXu樣本回歸函數(shù)(SRF)概念:概念: Y的樣本觀測值的條件均值隨自變量X而變動的軌跡,稱為樣本回歸線樣本回歸線。 如果把因變量Y的樣本條件均值表示為自變量X的某種函數(shù),這個函數(shù)稱為樣本回歸函數(shù)樣本回歸函數(shù) (簡記為SRF)。表現(xiàn)形式:表現(xiàn)形式:線性樣本回歸函數(shù)可表示為 或者 iiiYXeiiYX 樣本回歸函數(shù)與總體回歸函數(shù)的關(guān)系 相互聯(lián)系 樣本回歸函數(shù)的函數(shù)形式應(yīng)與設(shè)定的總體回歸

12、函數(shù)的函數(shù)形式一致 。 和 是對總體回歸函數(shù)參數(shù)的估計。 是對總體條件期望 的估計 殘差 e 在概念上類似總體回歸函數(shù)中的隨機(jī)誤差u?;貧w分析的目的:用樣本回歸函數(shù)去估計總體回歸函數(shù)。 iY()iE Y X樣本回歸函數(shù)與總體回歸函數(shù)的關(guān)系 相互區(qū)別 總體回歸函數(shù)雖然未知,但它是確定的; 樣本回歸線隨抽樣波動而變化,可以有許多條。 樣本回歸線還不是總體回歸線,至多只是未知總體 回歸線的近似表現(xiàn)。 總體回歸函數(shù)的參數(shù)雖未知,但是確定的常數(shù); 樣本回歸函數(shù)的參數(shù)可估計,但是隨抽樣而變化的隨機(jī)變量。 總體回歸函數(shù)中的 是不可直接觀測的; 而樣本回歸函數(shù)中的 是只要估計出樣本回歸的參數(shù)就可以計算的數(shù)值。

13、 iuie三、回歸系數(shù)的估計三、回歸系數(shù)的估計回歸系數(shù)估計的思想:回歸系數(shù)估計的思想:為什么只能對未知參數(shù)作估計為什么只能對未知參數(shù)作估計? ? 參數(shù)是未知的、不可直接觀測的、不能精確計算的參數(shù)是未知的、不可直接觀測的、不能精確計算的 能夠得到的只是變量的樣本觀測值能夠得到的只是變量的樣本觀測值結(jié)論結(jié)論: :只能通過變量樣本觀測值選擇適當(dāng)方法去近似只能通過變量樣本觀測值選擇適當(dāng)方法去近似 地估計回歸系數(shù)。地估計回歸系數(shù)。前提前提: : u u是隨機(jī)變量其分布性質(zhì)不確定,必須作某些是隨機(jī)變量其分布性質(zhì)不確定,必須作某些 假定,其估計才有良好性質(zhì),其檢驗才可進(jìn)行。假定,其估計才有良好性質(zhì),其檢驗才

14、可進(jìn)行。原則原則: : 使參數(shù)估計值使參數(shù)估計值“盡可能地接近盡可能地接近”總體參數(shù)真實值??傮w參數(shù)真實值。簡單線性回歸的基本假定 假定假定1 1:零均值假定。 假定假定2 2:同方差假定。 假定假定3 3:無自相關(guān)假定。 假定4:隨機(jī)擾動 與自變量 不相關(guān)。 假定假定5 5:正態(tài)性假定()0iiE u Xiu222()()()iiiiiiVar u XE uE u XE u (,)()()(,)0ijiijjijCov u uE uE uuE uE u uiX2(0,)iuN( ,)( )()0iiiiiiCov u XE uE uXE X回歸系數(shù)的回歸系數(shù)的最小二乘估計估計基本思想: 希望

15、所估計的 偏離實際觀測值 的殘差 越小越好。可以取殘差平方和 作為衡量 與 偏離程度的標(biāo)準(zhǔn)最小二乘準(zhǔn)則。估計式: iYiYie2ieiYiY22()iiiiiiNX YX YNXX_2()()()iiiXX YYXXYX 最小二乘估計的性質(zhì) 高斯高斯馬爾可夫定理馬爾可夫定理 前提: 在基本假定滿足時 最小二乘估計是因變量的線性函數(shù)線性函數(shù) 最小二乘估計是無偏估計無偏估計,即 在所有的線性無偏估計中,回歸系數(shù)的最小二乘估計的方差最小方差最小。 結(jié)論:回歸系數(shù)的最小二乘估計是最佳線性無偏估計最佳線性無偏估計()E()E最小二乘估計的概率分布性質(zhì)最小二乘估計的概率分布性質(zhì) 和和 都是服從正態(tài)分布的隨

16、機(jī)變量,其都是服從正態(tài)分布的隨機(jī)變量,其期望為期望為方差和標(biāo)準(zhǔn)誤差為方差和標(biāo)準(zhǔn)誤差為 結(jié)論:結(jié)論:()E()E2()iVarx2()iSEx22()iiXVarNx22()iiXSENx22(,)iNx22( ,)iiXNNx 的無偏估計 為什么要估計 ? 確定所估計參數(shù)的方差需要 由于 不能直接觀測, 也是未知的 對 的數(shù)值只能通過樣本信息去估計。 怎樣估計 ? 可以證明 的無偏估計為: iu222ien2222222擬合優(yōu)度的度量擬合優(yōu)度的度量 基本思想:基本思想:樣本回歸直線是對樣本數(shù)據(jù)的一種擬合,不同估計方法可擬合出不同的回歸線。樣本回歸擬合優(yōu)度的度量建立在對因變量總離差平方和分解的基

17、礎(chǔ)上 總離差平方和總離差平方和 回歸平方和回歸平方和 殘差平方和殘差平方和 可決系數(shù)定義:可決系數(shù)定義:_222()()()iiiiYYYYYY222()()iiYYrYY222()1()iiiYYrYY 對可決系數(shù)的理解YXiXYiYYYiiiYY YYi222()()iiYYrYY 可決系數(shù)的特點 可決系數(shù)是非負(fù)的統(tǒng)計量;可決系數(shù)取值范圍:可決系數(shù)是樣本觀測值的函數(shù),可決系數(shù)是隨抽樣而變動的隨機(jī)變量;在一元線性回歸中,可決系數(shù)在數(shù)值上是簡單線性相關(guān)系數(shù)的平方: ,201r2rr 2222()()()()iiiiXX YYrXXYY 回歸系數(shù)顯著性的回歸系數(shù)顯著性的 t t 檢驗檢驗?zāi)康哪康?/p>

18、: 根據(jù)樣本回歸估計的結(jié)果對總體回歸函數(shù)回歸 系數(shù)的有關(guān)假設(shè)進(jìn)行檢驗,以檢驗總體回歸系數(shù)是 否等于某個特定的數(shù)值。思想思想: 是未知的,而且不一定能獲得大樣本,這時可用 的無偏估計 代替 去估計參數(shù)的標(biāo)準(zhǔn)誤差:22()iSEx22( )iiXSENx222 回歸系數(shù)顯著性的回歸系數(shù)顯著性的 t t 檢驗檢驗( (續(xù)續(xù)) ) 用估計的參數(shù)標(biāo)準(zhǔn)誤差對估計的參數(shù)作標(biāo)準(zhǔn)化變 換,所得的 t 統(tǒng)計量將不再服從正態(tài)分布,而是服從 t 分布: 可利用 t 分布作有關(guān)的假設(shè)檢驗。 (2)()tt nSE (2)()tt nSE 回歸系數(shù)顯著性回歸系數(shù)顯著性 t t 檢驗的方法檢驗的方法(1) 提出假設(shè)一般假設(shè)

19、:常用假設(shè):(2) 計算統(tǒng)計量(3)給定顯著性水平,確定臨界值 (4) 檢驗結(jié)果判斷 若 則拒絕原假設(shè),而接受備擇假設(shè) 若 則接受原假設(shè) , 拒絕備擇假設(shè)0:*H*1:H*0:0H1:0H2(2)tn*2(2)ttn*2(2)ttn*()( )ttSESE或回歸系數(shù)顯著性的回歸系數(shù)顯著性的P P值檢驗值檢驗P P值的意義值的意義P值的意義: 在既定原假設(shè)下計算回歸系數(shù)的t統(tǒng)計量 ,可求得 統(tǒng)計量大于 的概率: 這里的 是 t 統(tǒng)計量大于 值的概率,是尚不能拒絕原假設(shè) 的最大顯著水平,稱為所估計的回歸系數(shù)的P值。*t*0()P tt H*02:0H*t*t回歸系數(shù)顯著性的回歸系數(shù)顯著性的P P值

20、檢驗值檢驗 檢驗方法檢驗方法回歸系數(shù)顯著性的P值檢驗方法: 將所取顯著性水平與P值對比 所取的顯著性水平 (例如取0.05)若比P值更大,就可在顯著性水平 下拒絕 所取的 若小于P值,就應(yīng)在顯著性水平 下接受 02:0H02:0H五、簡單線性回歸模型預(yù)測五、簡單線性回歸模型預(yù)測對平均值的點預(yù)測值 : Y的個別值置信度為1的預(yù)測區(qū)間: fYffYX_222()11fffiXXYYtnx因變量的區(qū)間預(yù)測的特點 (1)個別值的預(yù)測區(qū)間大于平均值的預(yù)測區(qū)間: Y平均值的預(yù)測值與真實平均值有誤差,主要是受抽樣波動影響; Y個別值的預(yù)測值與真實個別值的差異不僅受抽樣波動影響,而且還受隨機(jī)擾動項的影響(2)對 預(yù)測區(qū)間隨 變化而變化: 時, =0,此時預(yù)測區(qū)間最窄, 越是遠(yuǎn)離 , 越大,預(yù)測區(qū)間越寬。fYfX_FXX_2()FXXFX_X_2()FXX 因變量的區(qū)間預(yù)測的特點(續(xù))(3)預(yù)測區(qū)間與樣本容量有關(guān):樣本容量n越 大, 越大,預(yù)測誤差的方差越小,預(yù)測區(qū)間也越窄。(4)當(dāng)樣本容量趨于無窮大(即n)時, 不存在抽樣誤差,平均值預(yù)測誤差趨于0,此時個別值的預(yù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論