SAS軟件應用之直線回歸與相關.ppt_第1頁
SAS軟件應用之直線回歸與相關.ppt_第2頁
SAS軟件應用之直線回歸與相關.ppt_第3頁
SAS軟件應用之直線回歸與相關.ppt_第4頁
SAS軟件應用之直線回歸與相關.ppt_第5頁
已閱讀5頁,還剩63頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、第9章 直線回歸與相關,學習目標,掌握直線相關的定義,熟悉簡單相關系數(shù)的計算; 掌握直線相關分析的SAS程序(CORR過程以及選項); 掌握直線回歸的模型假設以及計算方法; 了解直線回歸應用的注意事項; 掌握直線回歸分析的SAS程序(REG過程以及選項)。,概述,在醫(yī)學上,許多現(xiàn)象之間都存在著相互聯(lián)系,例如身高與體重、體溫與脈搏、年齡與血壓、釘螺與血吸蟲感染等。而有些事物的關系是互為因果的,如上述釘螺是因,感染血吸蟲是果;但有時因果不清,只是伴隨關系。例如父母的兄弟,兄高,弟也可能高,但不能說兄是因、弟是果,這里不是因果關系,而可能與社會條件、家庭經(jīng)濟、營養(yǎng)、遺傳等因素有關。,概述,相關是解決

2、客觀事物或現(xiàn)象相互關系密切程度的問題,而回歸則是用函數(shù)的形式表示出因果關系。有相關不一定因果關系;反之,有因果關系的,一定有相關。我們稱“因”的變量叫因變量,習慣上用Y表示。以橫軸代表自變量X,縱軸代表依變量Y,可以將一群觀察事物的兩種關系在坐標圖上以P(X,Y)的方法定位,作出一群散點圖,便可在圖上看出兩者的關系。 相關分析和回歸分析是研究現(xiàn)象之間相關關系的兩種基本方法。所謂相關分析,就是用一個指標來表明現(xiàn)象間相互依存關系的密切程度。,直線相關分析介紹,設有兩個變量x和y,變量y隨變量x一起變化,并完全依賴于x,當變量x取某個數(shù)值時,y依確定的關系取相應的值,則稱y是x的函數(shù),記為 y =

3、f(x),其中x稱為自變量,y稱為因變量。各觀測點落在一條線上。 自變量取值一定時,因變量的取值帶有一定隨機性的兩個變量之間的關系叫做相關關系。當一個或幾個相互聯(lián)系的變量取一定數(shù)值時,與之相對應的另一變量的值雖然不確定,但它仍按某種規(guī)律在一定的范圍內(nèi)變化,變量間的這種相互關系,稱為具有不確定性的相關關系。,直線相關分析介紹,與函數(shù)關系不同,相關變量間關系不能用函數(shù)關系精確表達,一個變量的取值不能由另一個變量唯一確定,當變量x取某個值時,變量y的取值可能有無數(shù)個,各觀測點分布在直線周圍。 按相關程度劃分可分為完全相關、不完全相關、和不相關:,不相關,如果變量間彼此的數(shù)量變化互相獨立,則其關系為不

4、相關,即沒有任何相關關系。自變量x變動時,因變量y的數(shù)值不隨之相應變動。,完全相關,如果一個變量的變化是由其他變量的數(shù)量變化所唯一確定,此時變量間的關系稱為完全相關。即因變量y的數(shù)值完全隨自變量x的變動而變動,它在相關圖上表現(xiàn)為所有的觀察點都落在同一條直線上,這種情況下,相關關系實際上是函數(shù)關系。所以,函數(shù)關系是相關關系的一種特殊情況。,不完全相關,如果變量間的關系介于不相關和完全相關之間,則稱為不完全相關。大多數(shù)相關關系屬于不完全相關,是統(tǒng)計研究的主要對象。,正相關和負相關,正相關:兩個變量之間的變化方向一致,都是呈增長或下降的趨勢。即自變量x的值增加(或減少),因變量y的值也相應地增加(或

5、減少),這樣的關系就是正相關。 負相關:兩個變量之間變化方向相反,即自變量的數(shù)值增大(或減?。?,因變量隨之減?。ɑ蛟龃螅?。,線形相關和非線形相關,直線相關(或線性相關):當相關關系的自變量x發(fā)生變動,因變量y值隨之發(fā)生大致均等的變動,從圖像上近似地表現(xiàn)為直線形式,這種相關通稱為直線相關。 曲線(或非線性)相關。在兩個相關現(xiàn)象中,自變量x值發(fā)生變動,因變量y也隨之發(fā)生變動,這種變動不是均等的,在圖像上的分布是各種不同的曲線形式,這種相關關系稱為曲線(或非線性)相關。曲線相關在相關圖上的分布,表現(xiàn)為拋物線、雙曲線、指數(shù)曲線等非直線形式。,單相關、復相關和偏相關,單相關:兩個因素之間的相關關系叫單相

6、關,即研究時只涉及一個自變量和一個因變量。 復相關:三個或三個以上因素的相關關系叫復相關,即研究時涉及兩個或兩個以上的自變量和因變量。 在某一現(xiàn)象與多種現(xiàn)象相關的場合,當假定其他變量不變時,其中兩個變量之間的相關關系稱為偏相關。,相關系數(shù),所謂相關分析,就是分析測定變量間相互依存關系的密切程度的統(tǒng)計方法。一般可以借助相關系數(shù)來進行相關分析。 相關系數(shù)是表示兩個變量(X,Y)之間線性關系密切程度的指標,用r表示,其值在-1至+1間。如兩者呈正相關,r呈正值,r=1時為完全正相關;如兩者呈負相關則r呈負值,而r=-1時為完全負相關。完全正相關或負相關時,所有圖點都在直線回歸線上;點子的分布在直線回

7、歸線上下越離散,r的絕對值越小。當例數(shù)相等時,相關系數(shù)的絕對值越接近1,相關越密切;越接近于0,相關越不密切。當r=0時,說明X和Y兩個變量之間無直線關系。,相關系數(shù),簡單相關系數(shù)反映兩個變量之間線性相關密切程度和相關方向的統(tǒng)計測定,它是其他相關系數(shù)形成的基礎。簡單相關系數(shù)的計算公式為:,直線相關分析的SAS程序,SAS系統(tǒng)中進行直線相關分析的過程步是CORR過程。 CORR過程存在于SAS的base模塊,可以計算Pearson積矩相關系數(shù)、Spearman秩相關系數(shù)、Kendalls tau-b統(tǒng)計量、Hoeffdings獨立性分析統(tǒng)計量D以及Pearson,Spearman,以及Kenda

8、ll偏相關系數(shù)。另外,它還對用于估計可靠性的Cronbach系數(shù)進行計算。Corr過程的語句基本格式如下: PROC CORR ; BY 變量名-1 變量名-n ; FREQ 變量名; PARTIAL 變量名(列表); VAR 變量名(列表); WEIGHT 變量名; WITH 變量名(列表);,直線相關分析的SAS程序,CORR過程的幾條語句中,BY語句、FREQ語句以及WEIGHT語句與以前所介紹的過程中的完全相同,大家可以參考以前的內(nèi)容。下面簡要介紹其余的幾條語句。 PARTIAL語句:用以對所指定的變量計算偏相關系數(shù)或類似的偏統(tǒng)計量,可計算的偏統(tǒng)計量與PROC CORR語句中指定的選項

9、有關。但其中只有Pearson積矩相關系數(shù)、Spearman秩相關系數(shù)及Kendalls Tau-b可計算相應的偏統(tǒng)計量。,直線相關分析的SAS程序,VAR語句:VAR語句和其它過程中的也基本相同,這里VAR語句指定的變量必須為數(shù)值型變量,至少應指定兩個變量(當然只指定一個變量也可以計算,但是你必須確定你確實需要證明“一個變量和它自身的相關系數(shù)為1”),可同時指定多個變量,此時SAS會對任意兩個變量之間進行相關分析。,直線相關分析的SAS程序,WITH語句:WITH語句用來指定和VAR語句指定的變量進行相關分析的變量。當有WITH語句存在時,VAR語句中指定的變量之間不再進行相關性分析,而其中

10、的每個變量都和WITH語句指定的所有變量進行相關性分析,相關分析也不會發(fā)生在WITH語句所指定的變量之間。輸出結果的相關矩陣中,VAR語句指定的變量排列在行上,WITH語句指定的變量則排列在列上。如果需要,一個變量可以同時出現(xiàn)在VAR語句和WITH語句內(nèi)。 Pearson相關用于雙變量正態(tài)分布的資料,其相關系數(shù)稱為積矩相關系數(shù)。進行相關分析時,我們一般會同時對兩變量繪制散點圖,以更直觀地考察兩變量之間的相互變化關系。,直線回歸分析,醫(yī)學上,不少變量間雖存在一定關系,但這種關系不象函數(shù)關系那樣十分確定。例如正常人的血壓隨年齡而增高,但這只是總的趨勢,有些高齡人的血壓卻不一定偏高;一群正常人按年齡

11、和血壓兩個變量在坐標上的方位點,并非集中在一條上升直線上,而是圍繞著一條有代表性的直線上升。 直線回歸分析的任務在于找出兩個變量有依存關系的直線方程,以確定一條最接近于各實測點的直線,使各實測點與該線的縱向距離的平方和為最小。這個方程稱為直線回歸方程,據(jù)此方程描繪的直線就是回歸直線。,直線回歸分析,直線回歸是用直線回歸方程表示兩個數(shù)量變量間依存關系的統(tǒng)計分析方法,屬雙變量分析的范疇。如果某一個變量隨著另一個變量的變化而變化,并且它們的變化在直角坐標系中呈直線趨勢,就可以用一個直線方程來定量地描述它們之間的數(shù)量依存關系,這就是直線回歸分析。 直線回歸分析中兩個變量的地位不同,其中一個變量是依賴另

12、一個變量而變化的,因此分別稱為因變量和自變量,習慣上分別用y和x來表示。其中x可以是規(guī)律變化的或人為選定的一些數(shù)值(非隨機變量),也可以是隨機變量。 所謂回歸分析,就是依據(jù)相關關系的具體形態(tài),選擇一個合適的數(shù)學模型,來近似地表達變量間的平均變化關系。,直線回歸分析,相關關系能說明現(xiàn)象間有無關系,但它不能說明一個現(xiàn)象發(fā)生一定量的變化時,另一個變量將會發(fā)生多大量的變化。也就是說,它不能說明兩個變量之間的一般數(shù)量關系值?;貧w分析,是指在相關分析的基礎上,把變量之間的具體變動關系模型化,求出關系方程式,就是找出一個能夠反映變量間變化關系的函數(shù)關系式,并據(jù)此進行估計和推算。通過回歸分析,可以將相關變量之

13、間不確定、不規(guī)則的數(shù)量關系一般化、規(guī)范化。從而可以根據(jù)自變量的某一個給定值推斷出因變量的可能值(或估計值)。 回歸分析包括多種類型,根據(jù)所涉及變量的多少不同,可分為簡單回歸和多元回歸。簡單回歸又稱一元回歸,是指兩個變量之間的回歸。其中一個變量是自變量,另一個變量是因變量。,直線回歸分析,相關分析和回歸分析有著密切的聯(lián)系,它們不僅具有共同的研究對象,而且在具體應用時,常常必須相互補充。相關分析研究變量之間相關的方向和相關程度。但是相關分析不能指出變量間相互關系的具體形式,也無法從一個變量的變化來推測另一個變量的變化情況?;貧w分析則是研究變量之間相互關系的具體形式,它對具有相關關系的變量之間的數(shù)量

14、聯(lián)系進行測定,確定一個相關的數(shù)學方程,根據(jù)這個數(shù)學方程可以從已知量推測未知量,從而為估算和預測提供了一個重要的方法。,應用直線回歸的注意事項,作回歸分析要有實際意義,不能把毫無關聯(lián)的兩種現(xiàn)象,隨意進行回歸分析,忽視事物現(xiàn)象間的內(nèi)在聯(lián)系和規(guī)律;如對兒童身高與小樹的生長數(shù)據(jù)進行回歸分析既無道理也無用途。另外,即使兩個變量間存在回歸關系時,也不一定是因果關系,必須結合專業(yè)知識作出合理解釋和結論。 直線回歸分析的資料,一般要求應變量Y是來自正態(tài)總體的隨機變量,自變量X可以是正態(tài)隨機變量,也可以是精確測量和嚴密控制的值。若稍偏離要求時,一般對回歸方程中參數(shù)的估計影響不大,但可能影響到標準差的估計,也會影

15、響假設檢驗時P值的真實性。,應用直線回歸的注意事項,進行回歸分析時,應先繪制散點圖。若提示有直線趨勢存在時,可作直線回歸分析;若提示無明顯線性趨勢,則應根據(jù)散點分布類型,選擇合適的曲線模型,經(jīng)數(shù)據(jù)變換后,化為線性回歸來解決。一般說,不滿足線性條件的情形下去計算回歸方程會毫無意義,最好采用非線性回歸方程的方法進行分析。 繪制散點圖后,若出現(xiàn)一些特大特小的離群值(異常點),則應及時復核檢查,對由于測定、記錄或計算機錄入的錯誤數(shù)據(jù),應予以修正和剔除。否則,異常點的存在會對回歸方程中的系數(shù)a、b的估計產(chǎn)生較大影響。,應用直線回歸的注意事項,回歸直線不要外延。直線回歸的適用范圍一般以自變量取值范圍為限,

16、在此范圍內(nèi)求出的估計值稱為內(nèi)插;超過自變量取值范圍所計算的稱為外延。若無充足理由證明,超出自變量取值范圍后直線回歸關系仍成立時,應該避免隨意外延。,直線回歸分析的SAS程序,REG過程涉及到較多的語句和選項, PROC REG ; MODEL 應變量列表= ; BY 變量名列表 ; VAR 變量名列表 ; WEIGHT 變量名 ; ADD 變量名列表 ; DELETE 變量名列表 ; MTEST ; OUTPUT keyword=變量名列表 ; PLOT ;,直線回歸分析的SAS程序,MODEL語句:用以指定所要擬合的回歸模型。其最前面的標簽為可選項,可以是不超過8個字符的字符串,用來對定義的

17、模型進行標識,以便于在結果中分辨不同的模型,一般情況下系統(tǒng)會以默認的方式對模型進行標識,你可以省略此項。關鍵字model后所列的是模型表達式,和方差分析中anova過程的model語句相似。模型表達式中等號的左邊為反應變量,等號的右邊為自變量列表,自變量間以空格相分隔。這里所用到的所有變量必須存在于所分析的數(shù)據(jù)集中,而且是數(shù)值型的。如果要用到幾個變量產(chǎn)生的綜合變量,必須在數(shù)據(jù)步完成新變量的創(chuàng)建過程,model語句中的組合型變量將被視為非法。,直線回歸分析的SAS程序,id語句:指定用以標識觀測的變量。如果某一條model語句指定了cli, clm, p, r, 或者influence選項,結果

18、中會有針對每一條觀測的輸出,此時用id語句指定每一條觀測的標識將會使結果更易于辨認或理解。如果沒有id語句,SAS則用觀測的編號來標識每一條觀測。 var語句:用來將那些未包括在model語句中但需要將其包含在交叉積和矩陣中的數(shù)值型變量。在隨后的add語句中想交互地加入模型的變量以及要在plot語句中對其繪制散點圖的變量也需在var語句中列出。另外,如果你只想利用proc reg語句后的選項執(zhí)行某些特定的功能,而并不會用到model語句的話,var語句則是必需的。,直線回歸分析的SAS程序,add語句:用以將自變量交互地加入模型,以考察某個變量對模型擬合的影響。此處用到的變量必須為model語

19、句或var語句中出現(xiàn)的變量,你可以交互地加入某個變量到模型中或?qū)⒃赿elete語句中剔除的變量重新包含到模型中。對add語句的每一次執(zhí)行都將改變模型的標簽。 mtest語句:用以在有多個應變量時進行模型的多重檢驗。其最前面的標簽項和model語句的完全相同。語句中的方程式用以指定多重檢驗的假設模型,是一組以系數(shù)和變量名組成的線性方程式。此語句用在多元回歸情況下,多個應變量對同一組自變量擬合線性模型時。,直線回歸分析的SAS程序,output語句:用于將回歸分析中產(chǎn)生的結果輸出到指定的數(shù)據(jù)集中,它所對應的是最后一個model語句所定義的模型。新產(chǎn)生的數(shù)據(jù)集中,包括輸入數(shù)據(jù)集(用以進行回歸分析的數(shù)

20、據(jù)集)的全部數(shù)據(jù)、回歸分析過程中產(chǎn)生的各種統(tǒng)計量以及針對每一觀測的回歸診斷指標數(shù)據(jù)等。但如果輸入數(shù)據(jù)類型為corr、cov或sscp等,output語句則會失效。 plot語句:用以對兩個變量繪制散點圖,表達式中位置在前(在乘號“*”之前)的變量作為散點圖的y軸,位置在后的變量作為散點圖的x軸。等號后的符號為散點圖中表示點的圖形符號,此項內(nèi)容可省略,SAS會用默認方式顯示圖形,但如需指定,符號要用單引號括起來。,本章小節(jié),相關分析和回歸分析是研究現(xiàn)象之間相關關系的兩種基本方法。相關是解決客觀事物或現(xiàn)象相互關系密切程度的問題,而回歸則是用函數(shù)的形式表示出因果關系。有相關不一定因果關系;反之,有因

21、果關系的,一定有相關。 所謂相關分析,就是用一個指標來表明現(xiàn)象間相互依存關系的密切程度。按相關程度劃分可分為完全相關、不完全相關、和不相關;按相關方向劃分可分為正相關和負相關;按相關的形式劃分可分為線形相關和非線形相關;按變量多少劃分可分為單相關、復相關和偏相關。所謂相關分析,就是分析測定變量間相互依存關系的密切程度的統(tǒng)計方法。一般可以借助相關系數(shù)、相關表與相關圖來進行相關分析。,本章小節(jié),SAS系統(tǒng)中進行直線相關分析的過程步是CORR過程。CORR過程存在于SAS的base模塊,可以計算Pearson積矩相關系數(shù)、Spearman秩相關系數(shù)、Kendalls tau-b統(tǒng)計量、Hoeffdi

22、ngs獨立性分析統(tǒng)計量D以及Pearson,Spearman,以及Kendall偏相關系數(shù)。 REG是用于一般目的回歸分析的過程。本章詳細對REG過程語句和基本格式進行了說明,并以實例演示如何利用SAS程序進行相關分析。,本章小節(jié),直線回歸分析的任務在于找出兩個變量有依存關系的直線方程,以確定一條最接近于各實測點的直線,使各實測點與該線的縱向距離的平方和為最小。這個方程稱為直線回歸方程,據(jù)此方程描繪的直線就是回歸直線。相關關系能說明現(xiàn)象間有無關系,但它不能說明一個現(xiàn)象發(fā)生一定量的變化時,另一個變量將會發(fā)生多大量的變化。也就是說,它不能說明兩個變量之間的一般數(shù)量關系值。回歸分析,是指在相關分析的

23、基礎上,把變量之間的具體變動關系模型化,求出關系方程式,就是找出一個能夠反映變量間變化關系的函數(shù)關系式,并據(jù)此進行估計和推算。,第10章 多元線性回歸與相關,學習目標,熟悉多元線性回歸模型矩陣形式; 掌握多元線性回歸模型、參數(shù)估計過程及參數(shù)的解釋, 標準化參數(shù)估計值; 了解多元線性回歸共線性的診斷問題; 理解復相關系數(shù)與偏相關系數(shù); 掌握多元線性回歸的SAS程序(REG過程以及選項)。 熟悉計算偏相關系數(shù)的SAS程序。,多元線性回歸與相關的基礎理論,在許多實際問題中,還會遇到一個隨機變量與多個變量的相關關系問題,需要用多元回歸分析的方法來解決。前面介紹的一元回歸分析是其特殊情形。但由于多元回歸

24、分析比較復雜,在此僅簡要介紹多元線性回歸分析。 由于經(jīng)濟現(xiàn)象的復雜性,一個被解釋變量往往受多個解釋變量的影響。多元回歸模型就是在方程式中有兩個或兩個以上自變量的線性回歸模型。多元線性回歸預測是用多元線性回歸模型,對具有線性趨勢的稅收問題,使用多個影響因素所作的預測。,多元線性回歸,多元線性回歸分析也稱為復線性回歸分析,它是一元線性回歸分析或簡單線性回歸分析的推廣,它研究的是一組自變量如何直接影響一個因變量。這里的自變量指的是能獨立自由變化的變量,一般用x表示;因變量y指的是非獨立的、受其它變量影響的變量,一般用y表示。由于多元線性回歸分析(包括一元線性回歸分析)僅涉及到一個因變量,所以有時也稱

25、為單變量線性回歸分析。,回歸變量的選擇與逐步回歸,在實際問題中, 人們總是希望從對因變量有影響的諸多變量中選擇一些變量作為自變量, 應用多元回歸分析的方法建立“最優(yōu)”回歸方程以便對因變量進行預報或控制,這就涉及到自變量選擇的問題。所謂“最優(yōu)”回歸方程, 主要是指希望在回歸方程中包含所有對因變量影響顯著的自變量而不包含對影響不顯著的自變量的回歸方程。 在回歸方程中若漏掉對Y影響顯著的自變量,那么建立的回歸式用于預測時將會產(chǎn)生較大的偏差。但回歸方程若包含的變量太多,且其中有些對Y影響不大,顯然這樣的回歸式不僅使用不方便,而且反而會影響預測的精度。因而選擇合適的變量用于建立一個“最優(yōu)”的回歸方程是十

26、分重要的問題。,回歸變量的選擇與逐步回歸,選擇“最優(yōu)”回歸方程的變量篩選法包括逐步回歸法,向前引入法和向后剔除法。 向前引入法是從回歸方程僅包括常數(shù)項開始,把自變量逐個引入回歸方程。具體地說,先在m個自變量中選擇一個與因變量線性關系最密切的變量,記為,然后在剩余的m-1個自變量中,再選一個,使得 聯(lián)合起來二元回歸效果最好,第三步在剩下的m-2個自變量中選擇一個變量,使得 聯(lián)合起來回歸效果最好,.如此下去,直至得到“最優(yōu)”回歸方程為止。,回歸變量的選擇與逐步回歸,向前引入法中的終止條件為,給定顯著性水平,當某一個對將被引入變量的回歸系數(shù)作顯著性檢查時,若p-value,則引入變量的過程結束,所得

27、方程即為“最優(yōu)”回歸方程。 向前引入法有一個明顯的缺點,就是由于各自變量可能存在著相互關系,因此后續(xù)變量的選入可能會使前面已選入的自變量變得不重要。這樣最后得到的“最優(yōu)”回歸方程可包含一些對Y影響不大的自變量。,回歸變量的選擇與逐步回歸,向后剔除法與向前引入法正好相反,首先將全部m個自變量引入回歸方程,然后逐個剔除對因變量Y作用不顯著的自變量。具體地說,從回歸式m個自變量中選擇一個對Y貢獻最小的自變量,比如,將它從回歸方程中剔除;然后重新計算Y與剩下的m-1個自變量回歸方程,再剔除一個貢獻最小的自變量,比如,依次下去,直到得到“最優(yōu)”回歸方程為止。向后剔除法中終止條件與向前引入法類似。 向后剔

28、除法的缺點在于,前面剔除的變量有可能因以后變量的剔除,變?yōu)橄鄬χ匾淖兞?,這樣最后得到的“最優(yōu)”回歸方程中有可能漏掉相對重要的變量。,回歸變量的選擇與逐步回歸,逐步回歸法是上述兩個方法的綜合。向前引入中被選入的變量,將一直保留在方程中。向后剔除法中被剔除的變量,將一直排除在外。這兩種方程在某些情況下會得到不合理的結果。于是,可以考慮到,被選入的的變量,當它的作用在新變量引入后變得微不足道時,可以將它刪除;被剔除的變量,當它的作用在新變量引入情況下變得重要時,也可將它重新選入回歸方程。這樣一種以向前引入法為主,變量可進可出的篩選變量方法,稱為逐步回歸法。,回歸變量的選擇與逐步回歸,它的主要思路是

29、在考慮的全部自變量中按其對的作用大小,顯著程度大小或者說貢獻大小,由大到小地逐個引入回歸方程,而對那些對作用不顯著的變量可能始終不被引人回歸方程。另外,己被引人回歸方程的變量在引入新變量后也可能失去重要性,而需要從回歸方程中剔除出去。引人一個變量或者從回歸方程中剔除一個變量都稱為逐步回歸的一步,每一步都要進行檢驗,以保證在引人新變量前回歸方程中只含有對影響顯著的變量,而不顯著的變量已被剔除。 首先給出引入變量的顯著性水平和剔除變量的顯著性水平,然后篩選變量。,回歸變量的選擇與逐步回歸,回歸變量的選擇與逐步回歸,逐步回歸分析的實施過程是每一步都要對已引入回歸方程的變量計算其偏回歸平方和(即貢獻)

30、,然后選一個偏回歸平方和最小的變量,在預先給定的水平下進行顯著性檢驗,如果顯著則該變量不必從回歸方程中剔除,這時方程中其它的幾個變量也都不需要剔除(因為其它的幾個變量的偏回歸平方和都大于最小的一個更不需要剔除)。相反,如果不顯著,則該變量要剔除,然后按偏回歸平方和由小到大地依次對方程中其它變量進行檢驗。將對影響不顯著的變量全部剔除,保留的都是顯著的。接著再對未引人回歸方程中的變量分別計算其偏回歸平方和,并選其中偏回歸平方和最大的一個變量,同樣在給定水平下作顯著性檢驗,如果顯著則將該變量引入回歸方程,這一過程一直繼續(xù)下去,直到在回歸方程中的變量都不能剔除而又無新變量可以引入時為止,這時逐步回歸過

31、程結束。,多重共線性,回歸分析是一種比較成熟的預測模型,也是在預測過程中使用較多的模型,在自然科學管理科學和社會經(jīng)濟中有著非常廣泛的應用,但是經(jīng)典的最小二乘估計,必需滿足一些假設條件,多重共線性就是其中的一種。實際上,解釋變量間完全不相關的情形是非常少見的,大多數(shù)變量都在某種程度上存在著一定的共線性,而存在著共線性會給模型帶來許多不確定性的結果。,多重共線性,設回歸模型 如果矩陣X的列向量存在一組不全為零的數(shù), I =1,2,n,則稱其存在完全共線性,如果, I =1,2,n,則稱其存在近似的多重共線性。,多重共線性,當存在嚴重的多重共線性時,會給回歸系數(shù)的統(tǒng)計檢驗造成一定的困難,可能造成F檢

32、驗獲得通過,T檢驗卻不能夠通過。在自變量高度相關的情況下,估計系數(shù)的含義有可能與常識相反。在進行預測時,因為回歸模型的建立是基于樣本數(shù)據(jù)的,多重共線性也是指抽樣的數(shù)據(jù)。如果把建立的回歸模型用于預測,而多重共線性問題在預測區(qū)間仍然存在,則共線性問題對預測結果不會產(chǎn)生特別嚴重的影響,但是如果樣本數(shù)據(jù)中的多重共線性發(fā)生了變化則預測的結果就不能完全的確定了。,多重共線性檢驗,檢查和解決自變量之間的多重共線性,多多元線性回歸分析來說是很必要和重要的一個步驟,常用的共線性診斷方法包括: 直觀的判斷方法 方差擴大因子法(VIF) 特征根判定法,直觀的判斷方法,在自變量 的相關系數(shù)矩陣中,有某些自變量的相關系

33、數(shù)值比較大。 回歸系數(shù)的符號與專業(yè)知識或一般經(jīng)驗相反 對重要的自變量的回歸系數(shù)進行t檢驗,其結果不顯著,但是F檢驗確得到了顯著 的通過 如果增加一個變量或刪除一個變量,回歸系數(shù)的估計值發(fā)生了很大的變化 重要變量的回歸系數(shù)置信區(qū)間明顯過大,方差擴大因子法(VIF),一般認為如果最大的 超過10,常常表示存在多重共線性。事實上 10這說明 0.9。,特征根判定法,根據(jù)矩陣行列式性質(zhì),矩陣行列式的值等于其特征根的連乘積。因此,當行列式| |0時,至少有一個特征根為零,反過來,可以證明矩陣至少有一個特征根近似為零時,X的列向量必存在多重共線性,同樣也可證明 有多少個特征根近似為零矩陣X就有多少個多重共

34、線性。根據(jù)條件數(shù) , 其中 為最大的特征根. 為其他的特征根,通常認為010存在著多重共線性。,多重共線性的處理方法,增加樣本容量,當線性重合是由于測量誤差引起的以及他僅是偶然存在于原始樣本,而不存在于總體時,通過增加樣本容量可以減少或是避免線性重合,但是在現(xiàn)實的生活中,由于受到各種條件的限制增加樣本容量有時又是不現(xiàn)實的 剔除一些不重要的解釋變量,主要有向前法和后退法,逐步回歸法。,多重共線性的處理方法,前進法的主要思想是變量由少到多的,每次增加一個,直至沒有可引入的變量為止。具體做法是首先對一個因變量y和m個自變量分別建立回歸方程,并分別計算這m個回歸方程的F值,選其最大者,記為Fj,,給定

35、顯著性水平F,如果FjF,則變量引入該方程,再分別對(Xj,X1),(Xj,X2)(Xj,Xm)做回歸方程,并對他們進行F檢驗,選擇最大的Fi值,如果Fi.F,則該變量引入方程,重復上述步驟,直到?jīng)]有變量引入為止。 后退法,是先用m個因變量建立回歸方程,然后在這m個變量中選擇一個最不顯著的變量將它從方程中剔除,對m個回歸系數(shù)進行F檢驗,記所求得的最小的一個記為Fj,給定一個顯著性的水平,如果FjF則將Xj從方程中刪除,重復上述步驟直到所有不顯著的變量被剔除為止。,多重共線性的處理方法,逐步回歸法,前進法存在著這樣的缺點當一個變量被引入方程時,這個變量就被保留在這個方程中了,當引入的變量導致其不

36、顯著時,它也不會被刪除掉,后退法同樣存在著這樣的缺點,當一個變量被剔除時就永遠的被排斥在方程以外了,而逐步回歸法克除了兩者的缺點。逐步回歸的思想是有進有出。將變量一個一個的引入,每引入一個變量對后面的變量進行逐個檢驗,當變量由于后面變量的引入而不變的不顯著時將其剔除,進行每一步都要進行顯著性的檢驗,以保證每一個變量都是顯著的。,多重共線性的處理方法,主成分法。當自變量間有較強的線性相關性時,利用P個變量的主成分,所具有的性質(zhì),如果他們是互不相關的,可由前 m個主成來建立回歸模型。 由原始變量的觀測數(shù)據(jù)計算前m個主成分的的得分值,將其作為主成分的觀測值,建立Y與主成分的回歸模型即得回歸方程。這時P元降為 m元,這樣既簡化了回歸方程的結構,且消除了變量間相關性帶來的影響。,復相關系數(shù)與偏相關系數(shù),在學習一元線性回歸分析時,討論了與之緊密聯(lián)系的一元相關分析或簡單相關分析。將這個概念擴展到多元,就是多元相關分析或復相關分析。簡單相關分析研究兩個變量之間的關聯(lián)性,復相關研究多個變量之間的關聯(lián)性。,復相關系數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論