多元線性回歸_第1頁
多元線性回歸_第2頁
多元線性回歸_第3頁
多元線性回歸_第4頁
多元線性回歸_第5頁
已閱讀5頁,還剩60頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

多元統(tǒng)計(jì)分析郭靜緒論近三十年來在數(shù)理統(tǒng)計(jì)學(xué)基礎(chǔ)上發(fā)展起來的一個(gè)新的數(shù)學(xué)分支。它屬于應(yīng)用數(shù)學(xué)范疇。它的發(fā)展分為以下幾個(gè)階段:

第一階段:早在三十年代英國著名的統(tǒng)計(jì)學(xué)家R.A.Fisher做了許多杰出的貢獻(xiàn),我國著名的數(shù)學(xué)家許寶錄先生也取得了許多成果,起到了奠基的作用。

第二階段:T.W.Anderson所寫的“IntroductiontoMultivariateStatisticalAnalysis”是一部很成功的著作,被譽(yù)為經(jīng)典著作。第三階段:50年代后,多元統(tǒng)計(jì)有了很大的發(fā)展,世界各國先后出版了一批不同風(fēng)格的比較有水平的著作,發(fā)表了大量文章,進(jìn)一步促進(jìn)了這一學(xué)科的發(fā)展。

第四階段:由于多元統(tǒng)計(jì)的計(jì)算量非常龐大,有些計(jì)算要幾個(gè)月,甚至幾年才能完成,這一時(shí)期計(jì)算工具的落后束縛了多元統(tǒng)計(jì)的發(fā)展。

第五階段:隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,計(jì)算機(jī)比較廣泛地使用,多元統(tǒng)計(jì)的許多龐大計(jì)算得以實(shí)現(xiàn),所以,80年代未到90年代初又有了大的發(fā)展。

目前,多元統(tǒng)計(jì)分析方法已經(jīng)廣泛應(yīng)用于自然科學(xué)和社會(huì)科學(xué)的許多領(lǐng)域。我國近年來,在工業(yè)、農(nóng)業(yè)、經(jīng)濟(jì)、地質(zhì)、醫(yī)學(xué)、氣象以及社會(huì)科學(xué)等許多方面,多元統(tǒng)計(jì)分析的理論和方法都得到了應(yīng)用,并取得了可喜的成果。

多元統(tǒng)計(jì)分析在農(nóng)業(yè)科學(xué)和生物科學(xué)中,用于:

數(shù)值分類(動(dòng)、植物,微生物分類等)

數(shù)學(xué)模型

預(yù)測預(yù)報(bào)

種類判別

數(shù)量遺傳

數(shù)量生態(tài)等方面

多元統(tǒng)計(jì)是醫(yī)學(xué)研究的一個(gè)強(qiáng)有力的工具。緒論引入多元分析的原因醫(yī)學(xué)、生物學(xué)中,許多現(xiàn)象的發(fā)生、發(fā)展和變化是多種因素在一定條件下相互影響、制約而產(chǎn)生的共同結(jié)果。主要內(nèi)容是研究多個(gè)因素(變量)間關(guān)系及具有這些因素的樣品(個(gè)體)之間的關(guān)系。主要任務(wù)直接減少因素(變量)個(gè)數(shù)從原有的因素中選出一些典型的、有代表性的、能說明問題的因素,舍棄不典型的、無代表性的因素。通過變量變換減少參數(shù)個(gè)數(shù)把彼此相關(guān)的原變量轉(zhuǎn)換成彼此獨(dú)立的新變量,從而減少許多相關(guān)系數(shù)的參數(shù)緒論主要分析方法多元線形回歸Logistic回歸判別分析聚類分析生存分析主成分分析*因子分析*緒論幾個(gè)重要問題總體分布?樣本含量問題?樣本含量n與研究因素m之間的比例關(guān)系因素/變量類型?定量因素定性因素等級(jí)因素緒論指標(biāo)的數(shù)量化注意必須思路清晰,知道自己要干什么;在作多元分析前,必須先作描述性分析。只有在充分了解資料性質(zhì)的基礎(chǔ)上,才有可能正確選擇方法,得出有價(jià)值的結(jié)論;當(dāng)多得結(jié)果不符邏輯,或有悖于專業(yè)知識(shí)時(shí),既不要輕易接受,亦不要輕易放棄,必須弄清楚為什么。多元線性回歸內(nèi)容介紹多元線性回歸的概念多元線性回歸方程的求解過程自變量選擇多元線性回歸的應(yīng)用多元線性回歸注意事項(xiàng)一、多元線性回歸的概念1.直線回歸

直線回歸:研究一個(gè)應(yīng)變量與單個(gè)自變量之間呈直線關(guān)系的一種統(tǒng)計(jì)方法。如在一定年齡階段,體重與身高之間可表達(dá)為: (體重)=a+bx(身高) a:截距 b:斜率2.多元線形回歸定義:研究一個(gè)因變量與多個(gè)自變量之間的線性關(guān)系。如兒童的心象面積與身高、體重、月齡等有關(guān)系。1.方程形式:

=b0+b1x1+b2x2+…+bpxp+e b0:截距 bi:偏回歸系數(shù),其意義為: 在其他自變量不變的條件下,某個(gè)自變量變化一個(gè)單位導(dǎo)致的因變量的y平均變化量。2.條件 1)個(gè)體之間獨(dú)立(各觀測值Y之間獨(dú)立)2)Y與各X之間有線性關(guān)系3)殘差服從正態(tài)分布一、多元線性回歸的概念條件自變量與應(yīng)變量的關(guān)系是線性的(line)COV(ei,ej)=0,即獨(dú)立性(independence)ei~N(0,),即正態(tài)性(normality)Var(ei)=,即方差齊性(homogeneity,equalvariance)LINE如果只是建立方程,探討自變量與因變量的關(guān)系,后兩個(gè)條件可以適當(dāng)放寬3.對(duì)多元回歸求解結(jié)果的要求:

找出確實(shí)影響因變量的因素(自變量)

1)建立的方程必須有意義 2)方程內(nèi)不存在對(duì)因變量沒有顯著影響的變量一、多元線性回歸的概念二、多元線性回歸方程的求解過程1.數(shù)據(jù)的收集、整理2.方程的建立 1)估計(jì)偏回歸系數(shù),建立回歸方程 2)回歸方程顯著性檢驗(yàn)及擬合效果評(píng)估 3)各偏回歸系數(shù)的顯著性檢驗(yàn) 4)各自變量作用大小的評(píng)估1.數(shù)據(jù)的收集、整理1)數(shù)據(jù)收集要求

盡可能包括影響自變量的因素/與自變量有影響的因素?cái)?shù)據(jù)應(yīng)該成組的收集2)數(shù)據(jù)的整理要求

最后的數(shù)據(jù)可以整理成以下形式:

表127名糖尿病人的血糖及有關(guān)變量的測量值———————————————————————序號(hào) 總膽固醇甘油三酯胰島素血紅蛋白血糖———————————————————————

1 5.68 1.90 4.53 8.211.223.791.64 7.32 6.98.8…… …………273.84 1.206.45 9.610.4———————————————————————1.數(shù)據(jù)的收集、整理2.方程的建立1)方程中參數(shù)的求解

采用最小二乘法原理求解正規(guī)方程組,得到b1,…,bm,進(jìn)一步得到b0。

最小二乘法示例求解過程:1.設(shè)計(jì)若干個(gè)矩陣如下:1)因變量矩陣Y=(y1

y2…..yn)’2)設(shè)計(jì)矩陣3)誤差矩陣E=(e1e2…en)’4)系數(shù)矩陣B=(b0b1b2…bp)2.解正規(guī)方程:正規(guī)方程.可以表述成如下形式:

X’XB=X’Y

根據(jù)正規(guī)方程,我們可以得到:

B=(X’X)-1X’Y2)回歸方程的顯著性檢驗(yàn)及評(píng)價(jià)(一)分析方法:方差分析

i)回歸可以解釋的部分 ii)回歸不能解釋的部分

方差分析表——————————————————————————— 變異 平方和 自由度均方 F值 來源 (MS)—————————————————————————— 回歸SS回 p

SS回/pMS回/MS誤 剩余SS誤 n-p-1SS誤/(n-p-1)————————————————————————————總 SS總 n-1

—————————————————————————方差分析表中參數(shù)的計(jì)算

回歸變異:

SS回=

∑biliy

bi:為每個(gè)自變量的偏回歸系數(shù)

liy:每個(gè)自變量與因變量的離均差平方和

回歸自由度=方程內(nèi)的自變量個(gè)數(shù)

剩余(誤差):SS誤=

SS總-SS回

剩余自由度=總自由度-回歸自由度總自由度=總樣本數(shù)-1方差分析表中參數(shù)的計(jì)算(續(xù))F值的自由度:

分子自由度:為回歸自由度(p) 分母自由度:為誤差(剩余)自由度2)回歸方程的顯著性檢驗(yàn)及評(píng)價(jià)(二)方程的評(píng)價(jià)決定系數(shù)(R2)說明自變量能解釋Y變化的百分比,說明模型對(duì)數(shù)據(jù)擬合程度,(0,1)復(fù)相關(guān)系數(shù)用來度量Y與多個(gè)自變量間的線性相關(guān)程度。2)回歸方程的顯著性檢驗(yàn)及評(píng)價(jià)(二)方程的評(píng)價(jià)校正R2剩余標(biāo)準(zhǔn)差(MSE)赤池系數(shù)/赤池信息準(zhǔn)則(AIC)最小二乘法估計(jì)極大似然法估計(jì)CP統(tǒng)計(jì)量3)各自變量的顯著性檢驗(yàn)及作用大小評(píng)價(jià)方差分析和決定系數(shù)是將所有變量作為整體來檢驗(yàn)和說明它們與Y的相關(guān)程度及解釋能力

a.

未解釋在眾多回歸變量中是那一個(gè)/些的作用。 b.變量中是否存在對(duì)因變量的作用不顯著的自變量。3)各自變量的顯著性檢驗(yàn)(一)偏回歸平方和回歸方程中某一自變量的偏回歸平方和,表示模型中含有其它m-1個(gè)自變量的條件下,該自變量對(duì)Y的回歸貢獻(xiàn),相當(dāng)于從回歸方程中剔除該變量后,總平方和減少的量。偏回歸平方和愈大,相應(yīng)的自變量愈重要。3)各自變量的顯著性檢驗(yàn)(二)t檢驗(yàn)同一資料,不同自變量的t值間可以比較,t的絕對(duì)值愈大,說明該自變量對(duì)Y的回歸所起的作用愈大。3)各自變量作用大小評(píng)價(jià)標(biāo)準(zhǔn)化回歸系數(shù)偏回歸系數(shù)由于單位不同,不能進(jìn)行直接的比較。為此有必要對(duì)此進(jìn)行標(biāo)準(zhǔn)化,使它們都成為無量綱的系數(shù)。標(biāo)準(zhǔn)化回歸系數(shù)的絕對(duì)值愈大說明相應(yīng)的自變量對(duì)Y的作用愈大。標(biāo)準(zhǔn)偏回歸系數(shù)表示該自變量對(duì)因變量的直接貢獻(xiàn)標(biāo)準(zhǔn)化回歸系數(shù)的意義調(diào)查了某地29名13歲男童的身高(cm)、體重(kg)與肺活量(L)。擬研究肺活量與身高及體重之間的關(guān)系。三個(gè)變量之間的相關(guān)系數(shù)

身高 肺活量

體重 0.7421 0.7362

肺活量 0.5884建立肺活量與兩個(gè)變量的標(biāo)準(zhǔn)化回歸方程

=-0.09352x1+0.66682x2

標(biāo)準(zhǔn)化回歸系數(shù)的意義兩個(gè)變量對(duì)因變量的間接貢獻(xiàn)

身高對(duì)于肺活量的間接貢獻(xiàn): 0.66682x0.7421=0.4948體重對(duì)于肺活量的間接貢獻(xiàn): 0.09352x0.7421=0.0694各變量對(duì)于因變量的總貢獻(xiàn)(相當(dāng)于各自對(duì)因變量的相關(guān)系數(shù))

身高;0.09352+0.4948=0.5884

體重:0.66682+0.0694=0.7362自變量間接作用的估計(jì)假設(shè)有三個(gè)自變量,一個(gè)因變量??梢援嫵梢韵玛P(guān)系圖:Yx2x3x1r23r12b2’b1’b3’變量之間的相關(guān)系數(shù)矩陣 X1 X2 X3 YX1 1 R12 R13 R1Y

X2 R21 1 R23 R2YX3 R31 R32 1 R3YY RY1 RY2 RY3 1間接作用的估計(jì)X1對(duì)因變量的間接作用等于 b2’r12+b3’r13

X2對(duì)因變量的間接作用等于 b1’r21+b3’r23X3對(duì)因變量的間接作用等于 b1’r13+b2’r32三、自變量選擇為什么要進(jìn)行變量選擇自變量不一定都對(duì)因變量有顯著意義(將不重要的自變量引入方程,會(huì)降低模型的精度)變量之間存在共線性目的盡可能將回歸效果顯著的自變量選入方程,作用不顯著的自變量則排除在外。全局擇優(yōu)法對(duì)自變量各種不同的組合建立的方程進(jìn)行比較,從全部組合中找出“最優(yōu)”的方程。校正決定系數(shù)選擇法:選擇法三、自變量選擇逐步選擇法:基于偏回歸平方和引入或剔除一個(gè)自變量前進(jìn)法可以去掉高度相關(guān)的自變量后續(xù)變量的引入可能會(huì)使先進(jìn)入的變量不顯著后退法考慮了自變量的組合作用自變量較多或高度相關(guān)時(shí),結(jié)果不準(zhǔn)確逐步回歸法三、自變量選擇多元線性回歸的應(yīng)用影響因素分析篩選、比較各因素對(duì)因變量的作用估計(jì)與預(yù)測用容易測量的變量推算不容易測量的變量均數(shù)可信區(qū)間允許區(qū)間統(tǒng)計(jì)控制利用回歸方程進(jìn)行逆估計(jì)四、多元線性回歸應(yīng)用注意事項(xiàng)(一)指標(biāo)的數(shù)量化

一般要求Y為連續(xù)變量,X可以是連續(xù)變量、分類變量、有序變量。連續(xù)變量:分類變量:數(shù)量化二分類多分類(K-1個(gè)啞變量)有序變量:連續(xù)變量處理啞變量注意事項(xiàng)(一)--指標(biāo)的數(shù)量化二分類以性別(x)為例,男性:x=0,女性:x=1,建立回歸方程:

a:男性對(duì)因變量作用大小a+b1:女對(duì)因變量作用大小b1:女相對(duì)于男對(duì)因變量作用大小X的值可以隨意取,所得回歸方程是等價(jià)的

多分類--設(shè)置啞變量

以地區(qū)為例,變量名為‘region’,用一組啞變量的取值來表示一個(gè)地區(qū)。 地區(qū)名原賦值X1X2X3X4 北京 11 0 0 0 上海 20 1 0 0 天津 30 0 1 0 河北 40 0 0 1 江蘇 50 0 0 0注意事項(xiàng)(一)--指標(biāo)的數(shù)量化

多分類--設(shè)置啞變量

a+b1,a+b2,a+b3,a+b4,a,分別表示北京、上海、天津、河北、江蘇對(duì)應(yīng)變量作用的大小。b1,b2,b3,b4分別是北京、上海、天津、河北相對(duì)于江蘇的對(duì)應(yīng)變量作用大小之差。注意事項(xiàng)(一)--指標(biāo)的數(shù)量化

多分類--設(shè)置啞變量

采用不同的賦值方法,得到的回歸方程不同,但分析總體效果不變。當(dāng)K>2時(shí),不能用常規(guī)的逐步回歸方法進(jìn)行自變量的選擇,要將K-1個(gè)啞變量作為一個(gè)整體考慮是否引進(jìn)方程。(結(jié)果解釋?)注意事項(xiàng)(一)--指標(biāo)的數(shù)量化

有序變量

連續(xù)變量表示意義表示方法不同時(shí),所得回歸方程不等價(jià)啞變量:分析每個(gè)等級(jí)對(duì)因變量的作用方法選擇

注意事項(xiàng)(一)--指標(biāo)的數(shù)量化多元線性回歸應(yīng)用注意事項(xiàng)(二)樣本含量樣本含量是方程中自變量個(gè)數(shù)的5—10倍關(guān)于逐步回歸所謂的“最優(yōu)”回歸方程并不一定是最好的剔除、選入標(biāo)準(zhǔn)研究用途多元線性回歸應(yīng)用注意事項(xiàng)(二)4變量的交互作用定義:某一自變量對(duì)應(yīng)變量Y的作用大小與另一個(gè)自變量的取值有關(guān)處理方程中加入乘積項(xiàng)多元線性回歸應(yīng)用注意事項(xiàng)(三)共線性:一些自變量間存在較強(qiáng)的線性關(guān)系(相關(guān)的)危害參數(shù)估計(jì)值的標(biāo)準(zhǔn)誤增大;回歸方程不穩(wěn)定;t檢驗(yàn)不準(zhǔn)確;估計(jì)值的正負(fù)符號(hào)與客觀實(shí)際不一致多元線性回歸應(yīng)用注意事項(xiàng)(三)共線性:一些自變量間存在較強(qiáng)的線性關(guān)系(相關(guān)的)方法剔除某個(gè)造成共線性的自變量,重新建立方程;定義新的自變量代替具有共線性的自變量;將一組具有共線性的自變量合并成一個(gè)變量采用逐步回歸法。多元線性回歸應(yīng)用注意事項(xiàng)(三)共線性:主要診斷指標(biāo)條件數(shù)(ConditionIndex)方差膨脹因子(VarianceofflationFactor,VIF)容許值(ToleranceValue,TOL)多元線性回歸應(yīng)用注意事項(xiàng)(四)6殘差分析:檢驗(yàn)資料是否符合模型條件定義:ei=?i

–Yi在正常情況下,殘差符合標(biāo)準(zhǔn)正態(tài)分布,ei~N(0,σ2)影響分析:定義:研究每個(gè)觀察對(duì)于參數(shù)估計(jì)的影響。目的在于找出對(duì)參數(shù)估計(jì)影響大的點(diǎn),影響較大的點(diǎn),稱為杠桿點(diǎn)。主要診斷指標(biāo):h值、學(xué)生化殘差等。多元線性回歸—小結(jié)變量的數(shù)量化根據(jù)實(shí)際情況,變量類型間的相互轉(zhuǎn)換逐步回歸是一種思維方法、一種建模策略逐步回歸分析的目的除建立方程外,更重要的是觀察變量進(jìn)出方程的過程,深入分析變量的獨(dú)立作用和聯(lián)合作用方程與變量有意義是不同的概念多元線性回歸—小結(jié)回歸系數(shù)反常情況b與專業(yè)知識(shí)不符,甚至符號(hào)相反方程顯著,但每個(gè)自變量均不顯著專業(yè)上重要的變量未選入方程原因數(shù)據(jù)中有離群值或異常點(diǎn)(對(duì)即定模型偏離很大的點(diǎn))自變量的觀察范圍太窄,或方差太小樣本含量不夠,或自變量數(shù)太多自變量間存在(復(fù))共線性多元線性回歸—小結(jié)(復(fù))共線性存在導(dǎo)致如下現(xiàn)象:回歸系數(shù)的符號(hào)與實(shí)際不符回歸系數(shù)的估計(jì)值與實(shí)際相差太大回歸系數(shù)的標(biāo)準(zhǔn)誤太大;因而有些重要變量選不進(jìn)方程整個(gè)方程有顯著性,而每個(gè)自變量均無顯著性回歸分析的正確應(yīng)用多元線性回歸分析的應(yīng)用條件方程與變量的檢驗(yàn)樣本含量什么時(shí)候可能出現(xiàn)不合理的回歸結(jié)果回歸過程

PROCREG

一、必須語句PROCREG語句Model語句1、procreg語句數(shù)據(jù)集選項(xiàng)Data=SAS數(shù)據(jù)集Outest=SAS數(shù)據(jù)集Outsscp=SAS數(shù)據(jù)集輸出及其它選項(xiàng)AllCorrSimpleNoprint2、model語句(一)格式Model應(yīng)變量=自變量列表/選擇項(xiàng)模型選擇的選項(xiàng)Selection=F/B/Stepwise/CPslentry=slstay=DetailsInclude=n:指定前n個(gè)自變量包含在模型中Noint:取消模

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論