第二單元統(tǒng)計學(xué)高級篇_第1頁
第二單元統(tǒng)計學(xué)高級篇_第2頁
第二單元統(tǒng)計學(xué)高級篇_第3頁
第二單元統(tǒng)計學(xué)高級篇_第4頁
第二單元統(tǒng)計學(xué)高級篇_第5頁
已閱讀5頁,還剩68頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第二單元統(tǒng)計學(xué)高級篇第一頁,共七十三頁,編輯于2023年,星期四第一節(jié)多重線性回歸分析的概念

一、多重線性回歸的概念

多重線性回歸是研究多個自變量(x1\x2..)與一個因變量(y)之間線性依存關(guān)系的方法。其中自變量可以是隨機變量,也可以是給定變量,而因變量是隨機變量。多元線性回歸是研究多個自變量與多個因變量線性依存關(guān)系的方法。若所有變量都是隨機的,還可以做多重相關(guān)分析,描述因變量與一組自變量之間的線性關(guān)系;用偏相關(guān)描述因變量與一個自變量之間,在扣除其他自變量影響之后的線性關(guān)系。第二頁,共七十三頁,編輯于2023年,星期四二、多重線性回歸模型與方程多重線性回歸模型用于研究一個被解釋變量(因變量)與多個解釋變量(自變量)的線性關(guān)系分析。多重線性回歸模型與一元線性回歸模型基本類似,只不過解釋變量由一個增加到兩個以上,被解釋變量y與多個解釋變量x1,x2···xk之間存在線性關(guān)系。假定被解釋變量y與多個解釋變量x1,x2···xm之間具有線性關(guān)系,建立多重線性回歸模型為:其中y為被解釋變量,xi為k個解釋變量,βi為偏回歸系數(shù),表示在其他自變量固定的條件下,自變量Xi改變一個單位時,因變量Y的平均改變量。ε為隨機誤差項。第三頁,共七十三頁,編輯于2023年,星期四三、回歸模型的前提條件多重線性回歸方程:描述被解釋變量y的期望值或平均值如何依賴于解釋變量x的方程為:回歸模型的前提條件:1)線性:是指反應(yīng)變量Y的總體平均值與自變量X呈線性關(guān)系;2)獨立性:自變量間相互獨立,自變量之間沒有精確的線性關(guān)系(不相關(guān));3)正態(tài)性:是指對于給定的X值,其對應(yīng)的Y值的總體和線性模型的誤差項ε均服從正態(tài)分布;(ε服從均數(shù)為0的正態(tài)分布)4)等方差性:無論X如何取值,Y都有相同的方差;誤差項的方差相等。第四頁,共七十三頁,編輯于2023年,星期四第二節(jié)多重線性回歸分析步驟一、參數(shù)估計:根據(jù)樣本數(shù)據(jù),求得模型參數(shù)的估計值,即求出模型β的估計值b0、bm后,建立回歸方程。多重回歸采用最小二乘法估計其參數(shù),即求出與實際觀察值Y之差的平方和(殘差平方和)為最小的b0、b1、b2、bm值。多重回歸的參數(shù)估計和假設(shè)檢驗,常采用統(tǒng)計軟件完成。求出參數(shù)的估計值后,可建立方程。

例8-1下表是27名糖尿病人的血清總膽固醇、甘油三酯、空腹胰島素、糖化血紅蛋白、空腹血糖的測量值,試建立血糖與其它幾項指標(biāo)關(guān)系的多重線性回歸方程。

第五頁,共七十三頁,編輯于2023年,星期四27名糖尿病人血糖與其它變量的測量值第六頁,共七十三頁,編輯于2023年,星期四27名糖尿病人血糖與其它變量的測量值第七頁,共七十三頁,編輯于2023年,星期四二、建立方程經(jīng)統(tǒng)計軟件處理后,得各參數(shù)如下:得回歸方程為:第八頁,共七十三頁,編輯于2023年,星期四三、多重回歸分析的假設(shè)檢驗及評價

(一)回歸方程(模型)的假設(shè)檢驗:檢驗?zāi)P褪欠癯闪ⅲ蚍匠淌欠裼幸饬x。

第九頁,共七十三頁,編輯于2023年,星期四方差分析法多重線性回歸方差分析表以上結(jié)果顯示:接受H1,回歸方程成立。(相關(guān)公式)第十頁,共七十三頁,編輯于2023年,星期四(二)有關(guān)評價指標(biāo)1.殘差標(biāo)準(zhǔn)差(剩余標(biāo)準(zhǔn)差)SY,1,2,…M:為扣除m個自變量影響外,因變量仍存在的變異,不能用自變量的變化解釋Y的變異。反映回歸方程精度,值越小說明回歸效果越好。第十一頁,共七十三頁,編輯于2023年,星期四2.決定系數(shù)R2:R2:說明所有自變量能解釋Y變化的百分比。取值范圍(0,1),越接近1,模型擬合效果越好。R2反映在Y的總變異中,自變量組合解釋部分,占總變異的比重,即線性回歸模型能在多大程度上解釋應(yīng)變量Y的變異性。自變量對應(yīng)變量貢獻越大,回歸效果越好。第十二頁,共七十三頁,編輯于2023年,星期四SY,1,2,…M與R2第十三頁,共七十三頁,編輯于2023年,星期四3.校正決定系數(shù)RC2(Radj2)=0.5282第十四頁,共七十三頁,編輯于2023年,星期四R2與RC2關(guān)系:R2表示總變差中已由多元回歸方程“解釋”的比例,R2可解釋模型的擬合優(yōu)度,殘差平方和越小,決定系數(shù)越接近1,回歸方程的擬合程度越好。RC2當(dāng)給模型增加自變量時,決定系數(shù)也隨之逐步增大,然而決定系數(shù)的增大代價是自由度的減少。自由度小意味著估計和預(yù)測的可靠性低。為了克服樣本決定系數(shù)的這一缺點,我們設(shè)法把R2給予適當(dāng)?shù)男拚?,這就是校正決定系數(shù)。R2或RC2只能說明在給定的樣本條件下回歸方程與樣本觀測值擬合優(yōu)度,并不能做出對總體模型的推測,因此不能單憑它們來選擇模型。第十五頁,共七十三頁,編輯于2023年,星期四4.復(fù)相關(guān)系數(shù)R

R說明所有自變量與Y間的線性相關(guān)程度,而不反應(yīng)相關(guān)的方向。取值范圍(0,1),R越接近1,說明所有自變量與應(yīng)變量Y間的關(guān)系越密切。如果只有一個自變量,此時的R=∣r∣。(r為pearson相關(guān)系數(shù))第十六頁,共七十三頁,編輯于2023年,星期四(三)偏回歸系數(shù)的假設(shè)檢驗及評價

偏回歸系數(shù)的假設(shè)檢驗(即各自變量貢獻大小的檢驗),有三種方法。1.t檢驗法:第十七頁,共七十三頁,編輯于2023年,星期四t檢驗顯示:

胰島素x3、糖化血紅蛋白x4與血糖y有線性回歸關(guān)系。第十八頁,共七十三頁,編輯于2023年,星期四t檢驗顯示:

胰島素x3、糖化血紅蛋白x4與血糖y有線性回歸關(guān)系。機讀顯示相同結(jié)果。第十九頁,共七十三頁,編輯于2023年,星期四2.方差分析法(求x的偏回歸平方和)第二十頁,共七十三頁,編輯于2023年,星期四機讀顯示相同結(jié)果F檢驗顯示:胰島素x3、糖化血紅蛋白x4與血糖y有線性回歸關(guān)系。第二十一頁,共七十三頁,編輯于2023年,星期四3.標(biāo)準(zhǔn)化偏回歸系數(shù)法標(biāo)準(zhǔn)化偏回歸系數(shù)概念:第二十二頁,共七十三頁,編輯于2023年,星期四偏回歸系數(shù)與標(biāo)準(zhǔn)化偏回歸系數(shù)關(guān)系第二十三頁,共七十三頁,編輯于2023年,星期四第二十四頁,共七十三頁,編輯于2023年,星期四由這些新的觀察值進行回歸分析得到的偏回歸系數(shù)稱為標(biāo)準(zhǔn)偏回歸系數(shù),各自變量標(biāo)準(zhǔn)偏回歸系數(shù)可以進行排隊,如本例4個自變量的標(biāo)準(zhǔn)偏回歸系數(shù)依次為0.0776,0.3093,-0.3395,0.3977可以說對血糖影響大小的順序依次為糖化血紅蛋白(X4)、胰島素(X3)、甘油三酯(X2)、和總膽固醇(X1)。第二十五頁,共七十三頁,編輯于2023年,星期四機得數(shù)據(jù)變量回歸系數(shù)bj標(biāo)準(zhǔn)化回歸系數(shù)b’jljj標(biāo)準(zhǔn)差SX10.142450.0775866.01031.5934X20.351470.30931172.36482.5748X3-0.27059-0.33948350.31063.6706X40.63820.3977486.44071.8234Y222.55192.9257第二十六頁,共七十三頁,編輯于2023年,星期四第三節(jié)自變量的選擇(篩選)多重線性回歸分析中,常常通過專業(yè)知識或?qū)嵺`經(jīng)驗,去挑選那些對因變量影響較大的自變量與因變量Y建立回歸方程。如從為數(shù)眾多因素中,選擇的自變量對反應(yīng)變量無影響或影響甚微,把它們引入方程后,不但計算量大,信息成本高,而且會使回歸系數(shù)的估計和預(yù)測的精度降低。選擇對因變量影響較大的自變量引入方程,將對反應(yīng)變量無影響或影響甚微的自變量排除方程,這種統(tǒng)計方法稱為自變量選擇(篩選),統(tǒng)計中常用方法之一是逐步選擇法。第二十七頁,共七十三頁,編輯于2023年,星期四一、最優(yōu)回歸方程及選擇方法第二十八頁,共七十三頁,編輯于2023年,星期四二、全局擇優(yōu)法(最優(yōu)子集回歸法)第二十九頁,共七十三頁,編輯于2023年,星期四1.校正決定系數(shù)RC2(Radj2)選擇法所謂最優(yōu)回歸方程是指RC2

最大的方程。第三十頁,共七十三頁,編輯于2023年,星期四2.CP選擇法第三十一頁,共七十三頁,編輯于2023年,星期四第三十二頁,共七十三頁,編輯于2023年,星期四3.AIC準(zhǔn)則的計算公式

求出所有可能的回歸模型(共有2m-1個)對應(yīng)的準(zhǔn)則值;按上述準(zhǔn)則選擇最優(yōu)模型。第三十三頁,共七十三頁,編輯于2023年,星期四SAS獲得的幾個準(zhǔn)則值結(jié)果

ADJRSQCPAIC

ADJRSQCPAICx2x3x40.54563440.343x2x30.40748346.66x1x2x3x40.52823542.157x1x30.37522348.091x1x3x40.48797443.568x40.34653248.405x1x2x40.44683445.655x10.28443250.857x1x40.44137345.07x1x20.27478352.116x2x40.4395345.16x30.23063252.814x3x40.43542345.356x20.17864254.579x1x2x30.40756447.507

第三十四頁,共七十三頁,編輯于2023年,星期四4.全局擇優(yōu)法(最優(yōu)子集回歸法)局限性第三十五頁,共七十三頁,編輯于2023年,星期四三、逐步選擇法第三十六頁,共七十三頁,編輯于2023年,星期四(一)前進法第三十七頁,共七十三頁,編輯于2023年,星期四方法第三十八頁,共七十三頁,編輯于2023年,星期四(二)后退法第三十九頁,共七十三頁,編輯于2023年,星期四方法第四十頁,共七十三頁,編輯于2023年,星期四(三)逐步回歸法

雙向篩選:引入有意義的變量(前進法),剔除無意義的變量(后退法)。注意,引入變量的檢驗水準(zhǔn)要小于或等于剔除變量的檢驗水準(zhǔn)。第四十一頁,共七十三頁,編輯于2023年,星期四方法第四十二頁,共七十三頁,編輯于2023年,星期四第四節(jié)逐步回歸分析一、逐步回歸分析基本思想第四十三頁,共七十三頁,編輯于2023年,星期四二、逐步回歸實例分析(令α入=α出=0.01)第四十四頁,共七十三頁,編輯于2023年,星期四逐步回歸法實例(第一步)模型SS回SS殘SS總Y與X482.7144139.8375222.5519Y與X169.4251153.1267222.5519Y與X246.7873175.7645222.5519Y與X357.9133164.6386222.5519第四十五頁,共七十三頁,編輯于2023年,星期四逐步回歸法實例(第二步)模型SS回SS偏回SS殘F值P值Y與X482.7144Y與X4X1107.790325.0759

114.76155.24410.0311Y與X4X2107.407424.6931115.14445.14690.0326Y與X4X3106.568323.8539115.98364.93600.0360第四十六頁,共七十三頁,編輯于2023年,星期四逐步回歸法實例(X1剔除否)模型SS回SS偏回SS殘F值P值Y與X169.425138.3652

Y與X482.714425.0759Y與X4X1107.7903

114.76155.24410.0311第四十七頁,共七十三頁,編輯于2023年,星期四逐步回歸法實例(第三步)模型SS回SS偏回SS殘F值P值Y與X4X1107.7903

Y與X4X1X2113.64725.8569Y與X4X1X3121.748013.9577

100.80383.18470.0875第四十八頁,共七十三頁,編輯于2023年,星期四逐步回歸法實例(X4/X1/X3剔除否)變量模型SS回SS偏回SS殘F值P值Y與X4X1X3121.7480100.804X1Y與X4X3106.568315.1797X3Y與X4X1107.790313.9577

3.18470.0870X4Y與X1X394.202627.5454

第四十九頁,共七十三頁,編輯于2023年,星期四逐步回歸法實例(第四步)模型SS回SS偏回SS殘F值P值Y與X4X1X3X2133.710711.962788.84122.96240.099Y與X4X1X3121.7480

第五十頁,共七十三頁,編輯于2023年,星期四逐步回歸法實例(是否剔除)變量模型SS回SS偏回SS殘F值P值Y與X4X1X3X2133.710788.8412X2Y與X4X1X3121.748011.9627X1Y與X4X3X2133.09780.6129

0.15180.7006X3Y與X4X1X2113.647220.0635X4Y與X1X3X2105.916727.7940

第五十一頁,共七十三頁,編輯于2023年,星期四逐步回歸法實例(是否剔除)變量模型SS回SS偏回SS殘F值P值Y與X4X3X2133.097889.4540X4Y與X3X2100.829232.2686X3Y與X4X2107.407425.69046.60540.0171X2Y與X4X3106.568326.5295

第五十二頁,共七十三頁,編輯于2023年,星期四方差分析結(jié)果變異來源自由度SSMSFP總變異26222.5519回歸3133.09844.36611.410.0001殘差2389.4543.889第五十三頁,共七十三頁,編輯于2023年,星期四回歸系數(shù)及其檢驗第五十四頁,共七十三頁,編輯于2023年,星期四機得數(shù)據(jù)比較分析第五十五頁,共七十三頁,編輯于2023年,星期四第五節(jié)多重線性回歸應(yīng)用與注意事項

一、多重線性回歸應(yīng)用:影響因素分析,控制混雜因素。第五十六頁,共七十三頁,編輯于2023年,星期四預(yù)測:由自變量值推出應(yīng)變量Y的值第五十七頁,共七十三頁,編輯于2023年,星期四控制:指定應(yīng)變量Y的值查看自變量的改變量第五十八頁,共七十三頁,編輯于2023年,星期四二、應(yīng)用的注意事項1.變量的數(shù)量化(1)自變量為連續(xù)型變量:必要時作變換。(2)自變量為有序變量:依次賦值,如療效好中差,可分別賦值3、2、1。(3)自變量為二分類:如令男=1,女=0。(4)自變量為名義分類:需要采用啞變量進行編碼。第五十九頁,共七十三頁,編輯于2023年,星期四2.樣本含量觀察個體數(shù)n與變量個數(shù)m的比例一般至少應(yīng)為:n:m=1:5~10。3.統(tǒng)計“最優(yōu)”與專業(yè)的“最優(yōu)”。不同準(zhǔn)則、方法得出的“最優(yōu)”方程不同;不同的引入、剔除標(biāo)準(zhǔn)獲得的“最優(yōu)”方程不同;方程還受數(shù)據(jù)的正確性、共線性影響。第六十頁,共七十三頁,編輯于2023年,星期四4.多重共線性共線性:自變量間存在著線性關(guān)系,使一個或幾個自變量可以由另外的自變量線性表示時,稱為該變量與另外的自變量間存在有共線性。問題:出現(xiàn)回歸系數(shù)的符號與由專業(yè)知識不符;變量的重要性與專業(yè)不符等現(xiàn)象

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論