多重共線性和非線性回歸及解決方法_第1頁
多重共線性和非線性回歸及解決方法_第2頁
多重共線性和非線性回歸及解決方法_第3頁
多重共線性和非線性回歸及解決方法_第4頁
多重共線性和非線性回歸及解決方法_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、多重共線性和非線性回歸的問題(1)多重共線性問題我們都知道在進行多元回歸的時候,特別是進行經濟上指標回歸的時候,很多變量存 在共同趨勢相關性,讓我們得不到希望的回歸模型。這里經常用到的有三種方法,而不同的方 法有不同的目的,我們分別來看看:第一個,是最熟悉也是最方便的一一逐步回歸法。逐步回歸法是根據自變量與因變量相關性的大小,將自變量一個一個選入方法中,并 且每選入一個自變量都進行一次檢驗。最終留在模型里的自變量是對因變量有最大顯著性的, 而剔除的自變量是與因變量無顯著線性相關性的,以及與其他自變量存在共線性的。用逐步回 歸法做的多元回歸分析,通常自變量不宜太多,一般十幾個以下,而且你的數據量

2、要是變量個 數3倍以上才可以,不然做出來的回歸模型誤差較大。比如說你有10個變量,數據只有15 組,然后做擬合回歸,得到9個自變量的系數,雖然可以得到,但是精度不高。這個方法我們 不僅可以找到對因變量影響顯著的幾個自變量,還可以得到一個精確的預測模型,進行預測, 這個非常重要的。而往往通過逐步回歸只能得到幾個自變量進入方程中,有時甚至只有一兩 個,令我們非常失望,這是因為自變量很多都存在共線性,被剔除了,這時可以通過第二個方 法來做回歸。第二個,通過因子分析(或主成分分析)再進行回歸。這種方法用的也很多,而且可以很好的解決自變量間的多重共線性。首先通過因子分析 將幾個存在共線性的自變量合為一個

3、因子,再用因子分析得到的幾個因子和因變量做回歸分 析,這里的因子之間沒有顯著的線性相關性,根本談不上共線性的問題。通過這種方法可以得 到哪個因子對因變量存在顯著的相關性,哪個因子沒有顯著的相關性,再從因子中的變量對因 子的載荷來看,得知哪個變量對因變量的影響大小關系。而這個方法只能得到這些信息,第一 它不是得到一個精確的,可以預測的回歸模型;第二這種方法不知道有顯著影響的因子中每個 變量是不是都對因變量有顯著的影響,比如說因子分析得到三個因子,用這三個因子和因變量 做回歸分析,得到第一和第二個因子對因變量有顯著的影響,而在第一個因子中有4個變量組 成,第二個因子有3個變量組成,這里就不知道這7

4、個變量是否都對因變量存在顯著的影響; 第三它不能得到每個變量對因變量準確的影響大小關系,而我們可以通過逐步回歸法直觀的看 到自變量前面的系數大小,從而判斷自變量對因變量影響的大小。第三個,嶺回歸。通過逐步回歸時,我們可能得到幾個自變量進入方程中,但是有時會出現自變量影響的 方向出現錯誤,比如第一產業(yè)的產值對國民收入是正效應,而可能方程中的系數為負的,這種 肯定是由于共線性導致出現了擬合失真的結果,而這樣的結果我們只能通過自己的經驗去判 斷。通常我們在做影響因素判斷的時候,不僅希望得到各個因素對因變量真實的影響關系,還 希望知道準確的影響大小,就是每個自變量系數的大小,這個時候,我們就可以通過嶺

5、回歸的 方法。嶺回歸是在自變量信息矩陣的主對角線元素上人為地加入一個非負因子k,從而使回 歸系數的估計稍有偏差、而估計的穩(wěn)定性卻可能明顯提高的一種回歸分析方法,它是最小二乘 法的一種補充,嶺回歸可以修復病態(tài)矩陣,達到較好的效果。在SPSS中沒有提供嶺回歸的模 塊,可以直接點擊使用,只能通過編程來實現,當然在SAS、Matlab中也可以實現。做嶺回歸 的時候,需要進行多次調試,選擇適當的k值,才能得到比較滿意的方程,現在這個方法應用 越來越普遍。在07年的時候,我的一個老師還覺得這個方法是他的看家本領,但是現在很多 人都會這個方法,而且用的越來越多了,得到的結果也非常合理。特別提醒的是:多重共線

6、性說的是變量之間線性關系,和非線性不要混淆了。多組變量 之間兩種極端的關系是完全多重共線性關系和完全非線性關系,即完全是平行直線的關系和完 全無規(guī)則的曲線關系(是什么形狀,還真不好形容,自己悟去吧_)。當然解決多重共線性 問題的方法還有,比如差分微分模型,應用的很少,我估計是非常專業(yè)的人才會用的吧,呵 呵,反正我不會這個方法。接下來說說非線性回歸。(2)非線性回歸的問題。非線性回歸,顧名思義自變量和因變量是非線性的關系,比如平方、次方等等,但是 大多數的非線性方程都可以轉換成線性的方程,比如我們通常知道的二次函數: y=a0+a1*x+a2*x”2,這里就可以轉換成線性方程,首先將x”2計算得

7、到x1,方程就變成 y=a0+a1*x+a2*x1,而這個方程就是我們一般見到的多元線性回歸,直接進行線性擬合就可以 了。這里需要特別提醒的是:我說的可以轉換成線性的非線性方程,是一元非線性方程, 而不是多元非線性方程。我們知道在SPSS回歸分析中有單獨一個模塊叫曲線估計,它里面提 供的11個非線性模型都是可以轉換成線性模型的,而且在進行系數擬合的時候都是通過轉換 成線性方程進行擬合的,這就是為什么同樣是非線性方程,在曲線估計里面不需要輸入系數的 初始值,而在非線性回歸中卻要輸入。將非線性方程轉換成線性方程再進行擬合,不是因為我們不會做非線性擬合,而改成 線性擬合我就會做了,主要原因不是因為這

8、個。而是因為同樣的非線性方程擬合比轉換成的線 性方程擬合誤差更大一些,而且由于迭代次數的增多,計算時間會更長,由于我們平時計算的 數據不是很多,這種感覺不是非常明顯,但是當我們做實際問題的時候,特別是規(guī)劃問題中, 我們將非線性方程轉換成線性方程時,計算速度會明顯加快。還有一個原因是,做非線性回歸 的時候,我們要在擬合之前設置初始值,而初始值的選擇直接影響后面系數的確定,你改變初 始值,擬合出來的系數都會發(fā)生變化,這樣也會增加非線性回歸產生的誤差,前面說的誤差是 計算上產生的誤差,而這里是人為經驗上產生的誤差。因此在做非線性回歸時,如果能轉換成 線性回歸,一定轉換成線性的來做。說到那個人,他在留

9、言中說,這樣我沒有考慮到轉換之后自變量之間的多重共線性, 不能這樣做,還聲嘶力竭的喊我誤人子弟。這里我要詳細說明是怎么回事,要不要考慮這里的 多重共線的問題,如果他也能看到更好。一般我們做回歸分析的時候,通常第一步看自變量和 因變量之間的散點圖,通過散點圖我們大致判斷兩者之間存在怎么的關系,再來選擇適當的模 型。而通常我們不知道具體選擇哪個模型,可以選擇幾個可能相似的模型比較一下,選擇一個 擬合效果最好的。這里比如說兩個變量之間知道是非線性的,但是不知道是二次的、三次的還 是四次及以上的關系(通常次方數越低越好),你可以同時考慮,然后根據擬合的結果來判 斷。如將方程設置為:y=a0+a1*x+

10、a2*x2+a3*x3+a4*x”4,轉換成線性方程就是: y=a0+a1*x+a2*x2+a3*x3+a4*x4,而這里需不需要考慮這四個自變量之間的共線性呢,上面說 過,多重共線性指的是變量之間的線性關系,而這里的四個自變量他們是非線性的關系(x、 x”2、x”3、x4),即使他們的線性相關系數很高(這是因為二次或者三次曲線用直線擬合得 到效果也不錯,但是我們知道他們之間的確是非線性的關系,而不是線性關系),因此,我們 可以他們的多重共線性,在擬合的時候,選擇逐步回歸法,也可以不考慮,選擇直接進入法, 兩者得到的結果幾乎一樣,我親自試驗了。如果得到的結果的確有四次方的關系,那么x4自 變量

11、就會通過檢驗,我們可以通過檢驗來判斷兩個變量到底存在什么樣的曲線關系。這樣還需要簡單說下多元非線性回歸,多元非線性回歸也可以進行轉換,但是轉換完 之后就必須要考慮變量之間的多重共線性了,因為我們不能明確的知道轉換之后的自變量是否 不存在線性的關系。上次有個人在百度里提問說,我有十幾個自變量,想做非線性回歸,我們 一般不推薦這么多自變量做多元非線性回歸,除非你發(fā)現十幾個自變量都和因變量存在非線性 的關系。因為多元非線性回歸計算非常復雜,迭代次數非常龐大,而得到的結果也不盡如人 意。好了,這些都是根據我自己的理解和經驗來寫的,如果一不小心被統(tǒng)計高手或者老師 看到,如發(fā)現說的不對的地方,請一定要在下

12、面指正出來,非常感謝。第4節(jié)回歸診斷方法檢驗所選模型中的各變量之間共線性(即某些自變量之間有線性關系)情 況;根據模型推算出與自變量取各樣本值時對應的因變量的估計值曾,反過來檢驗所測得的 Y是否可靠,脹是回歸診斷的2項-第4節(jié) 回歸診斷方法檢驗所選模型中的各變量之間共線性(即某些自變量之間有線性關系)情況;根據模型推算 出與自變量取各樣本值時對應的因變量的估計值曾,反過來檢驗所測得的Y是否可靠,脹是 回歸診斷的2項主要任務。下面就SAS系統(tǒng)的REG過程運行后不同輸出結果,僅從回歸診斷方面理解和分析說明如下:用條件數和方差分量來進行共線性診斷各入選變量的共線性診斷借助SAS的MODEL語句的選擇

13、項COLLIN或COLLINOINT來 完成。二者都給出信息矩陣的特征根和條件數(Condition Number),還給出各變量的方差在各 主成分上的分解(Decomposition),以百分數的形式給出,每個入選變量上的方差分量之和為1。COLLIN和COLLINOINT的區(qū)別在于后者對模型中截距項作了校正。當截距項無顯著性 時,看由COLLIN輸出的結果;反之,應看由COLLINOINT輸出的結果。(1)條件數先求出信息矩陣棧XX栗的各特征根,條件指數(condition indices)定義為:最大特征根與每 個特征根比值的平根,其中最大條件指數k稱為矩陣棧XX栗的條件數。條件數大,說

14、明設計矩陣有較強的共線性,使結果不穩(wěn)定,甚至使離開試驗點的各估計值 或預測值毫無意義。直觀上,條件數度量了信息矩陣XX的特征根散布程度,可用來判斷多重共線性是否存在 以及多重共線性嚴重程度。在應用經驗中,若0 VkV10,則認為沒有多重共線性;10WkW 30,則認為存在中等程度或較強的多重共線性;k30,則認為存在嚴重的多重共線性。(2)方差 分量強的多重共線性同時還會表現在變量的方差分量上:對大的條件數同時有2個以上變量的 方差分量超過50%,就意味這些變量間有一定程度的相關。用方差膨脹因子來進行共線性診斷容許度(Tolerance,在Model語句中的選擇項為TOL)對一個入選變量而言,

15、該統(tǒng)計量等于1- R2,這里R2是把該自變量當作因變量對模型中 所有其余回歸變量的決定系數,R2大(趨于1),0 1-R2=TOL小(趨于0 ),容許度差,該變量不 由其他變量說明的部分相對很小。方差膨脹因子(V IF)VIF=1/TOL,該統(tǒng)計量有人譯為“方差膨脹因子”(VarianceInflation Factor),對于不好的 試驗設計,VIF的取值可能趨于無限大。VIF達到什么數值就可認為自變量間存在共線性?尚無正規(guī)的臨界值。陳希孺、王松桂,1987根據經驗得出:VIF5或10時,就有嚴重的多重共 線性存在。用學生化殘差對觀測點中的強影響點進行診斷對因變量的預測值影響特別大,甚至容易

16、導致相反結論的觀測點,被稱為強影響點(Influence Case)或稱為異常點(Outlier)。有若干個統(tǒng)計量(如:Cook D統(tǒng)計量、hi統(tǒng)計量、 STUDENT統(tǒng)計量、RSTUDENT統(tǒng)計量等,這些統(tǒng)計量的定義參見本章第6節(jié))可用于診斷哪 些點對因變量的預測值影響大,其中最便于判斷的是學生化殘差STUDENT統(tǒng)計量。當該統(tǒng)計 量的值大于2時,所對應的觀測點可能是異常點,此時,需認真核對原始數據。若屬抄寫或輸 入數據時人為造成的錯誤,應當予以糾正;若屬非過失誤差所致,可將異常點剔除后再作回歸 分析。如果有可能,最好在此點上補做試驗,以便進一步確認可疑的“異常點”是否確屬異常 點。第5節(jié)

17、用各種篩選變量方法編程的技巧從本章第3節(jié)可知,有多種篩選變量的方法,這些方法中究竟哪一種最好?沒有肯定的答 復。最為可行的做法是對同一批資料多用幾種篩選變量的方法,并結合專業(yè)知識從中選出相對 優(yōu)化的回歸模型。判斷一個回歸模型是否較優(yōu),可從以下兩個方面考慮:其一,整個回歸模型及模型中各回 歸參數在統(tǒng)計學上有顯著性意義、在專業(yè)上(特別是因變量的預測值及回歸方程的精度)有實際 意義;其二,在包含相同或相近信息的前提下,回歸方程中所包含的變量越少越好。下面利用一個小樣本資料,通過一個較復雜的SAS程序,展示如何用各種篩選變量的方法實現回 歸分析、如何用已求得的回歸方程對資料作進一步的分析的技巧。例4.

18、2.3 a-甲酰門冬酰苯丙氨酸甲酯(FAPM)是合成APM的關鍵中間體之一。試驗表 明,影響FAPM收率的主要因素有:原料配比(r)、溶劑用量(pl)、催化劑用量(p2)及反應時間 (t)等4個因素,現將各因素及其具體水平的取值列在下面。影響FAPM合成收率的因素和水平:因素各水平的代碼1234567r原料配比0.800.870.941.011.081.151.22p1溶劑用量(ml)10152025303540p2催化劑用量(g)1.01.52.02.53.03.54.0t反應時間(h)1234567研究者按某種試驗設計方法選定的因素各水平的組合及其試驗結果如下,試用回歸分析 方法分析此資料

19、(注:權重僅為相同試驗條件下重復實驗運行的次數)。n 號rp1p2tY(收 率,%)權重10.80152.0671.5320.87253.5571.2230.94351.5472.8341.01103.0369.7251.08201.0267.5361.15302.5167.3371.22404.0771.83SAS 程序D4P17.PRG OPTIONS PS=70;DATA ex3;INPUT r pl p2 t y w; rp1=r*p1; rt=r*t; p1t=p1*t;r2=r*r;t2=t*t; p12=p1*p1; p22=p2*p2;*這里產生的7個新變量代表因素之間的交互作

20、用;CARDS;0.80152.0671.530.87253.5571.220.94351.5472.831.01103.0369.721.08201.0267.531.15302.5167.331.22404.0771.83;RUN;PROC REG ;*用下列模型語句選擇喝較回歸模型;MODEL y=r r2 pl p12 p2 p22 t t2 rp1 rt pit / SELECTION=FORWARD;*模型1用向前選擇法篩選變量;MODEL y=r r2 p1 p12 p2 p22 t t2 rp1 rt p1t / SELECTION=BACKWARD;*模型2用向后消去法篩選變

21、量;MODEL y=r r2 p1 p12 p2 p22 t t2 rp1 rt p1t / SELECTION=STEPWISE;*模型3用逐步篩選法篩選變量;MODEL y=r r2 p1 p12 p2 p22 t t2 rp1 rt p1t / SELECTION=MAXR START=1 STOP=5;*模型4用最大R2增量法篩選變量;MODEL y=r r2 p1 p12 p2 p22 t t2 rp1 rt p1t /SELECTION=MINR START=1 STOP=5;*模型5用最小R2增量法篩選變量;MODEL y=t t2 p12 r rp1 / SELECTION=R

22、SQUARE BEST=30 STOP=5;*模型6用R2增量法篩選變量;MODEL y=t t2 p12 r rp1 / SELECTION=ADJRSQ BEST=30 STOP=5;*模型7用修正R2增量法篩選變量;MODEL y=t t2 p12 r rp1 / SELECTION=CP BEST=40 STOP=5;*模型8用Cp統(tǒng)計量法篩選變量;RUN;*用選好的模型分析數據,并給出關于模型的各種統(tǒng)計量(計權重);PROC REG;WEIGHT w;MODEL y=r rp1 p12 t2 / SELECTION=NONE P CLI INFLUENCE STB COLLIN CO

23、LLINOINT;RUN;DATA b; *先將原始數據放入數據集b ;SET ex3 END=EOF; OUTPUT;*再按照r , p1 , t的合理范圍形成y為缺失的數據也放入數據集b;IF EOF THEN DO; y=.;DO r=0.8 TO 1.22 BY .7; do p1=10 to 40 BY 5; DO t=1 TO 7;rp1=r*p1; rt=r*t; p1t=p1*t; r2=r*r; t2=t*t; p12=p1*p1;OUTPUT;END; END; END; END; RUN;*按原始數據回歸,卻可得到r、p1、t的新組合所對應的估計值尸氣PROC REG D

24、ATA=b ;WEIGHT w;MODEL y=r rp1 p12 t2 / P CLI CLM COLLINOINT STB R VIF;OUTPUT OUT=d1 PREDICTED=pdc;RUN;PROC PRINT DATA=d1; RUN;PROC SORT DATA=d1(KEEP=r p1 t pdc); BY DESCENDING pdc; RUN;DATA c;SET d1; FILE PRINT;TITLE 40 best combinations of r pl t ;IF _N_50%時,就可 以認為第i個觀測點對回歸函數的擬合有強的影響。COOKS其中k為模型中參數

25、個數(包括截距),STUDENT意義與上述的“4”中相同。 TOC o 1-5 h z ,這是去掉第i個觀測點后求得的協(xié)方差矩陣的行列式之值,Belsley,Kuh,and Welsch等人建 議:若I COVRATIO1I33 ( p + i ),則第i個觀測點值得引起注意。,此值大于2,表明第i個點影響較大。,此值大于2,表明第i個點影響較大。其中為矩陣的第j行第j列上的元素。以上各式中的有關符號的含義說明如下:S2為回歸模型的均方誤差,即;STDERR(ei)為殘差ei之標準誤差,;S(i)為除掉第i個觀測點后算得的殘差ei之標準誤差;n為總觀測數;p為選入模型中的變量數;模型中包括截距

26、時i取為1、模型中不包括 截距時i取為0; det()代表求矩陣()的行列式之值。什么是主成分分析(principal component analysis) ?對同一個體進行多項觀察時,必定涉及多個隨機變量X1,X2,Xp,它們都是的相關性, 一時難以綜合。這時就需要借助主成分分析(principal component analysis)來概括諸多信息的主 要方面。我們希望有一個或幾個較好的綜合指標來概括信息,而且希望綜合指標互相獨立地各 代表某一方面的性質。任何一個度量指標的好壞除了可靠、真實之外,還必須能充分反映個體間的變異。如果有一項 指標,不同個體的取值都大同小異,那么該指標不能用

27、來區(qū)分不同的個體。由這一點來看,一 項指標在個體間的變異越大越好。因此我們把“變異大”作為“好”的標準來尋求綜合指標。主成分的一般定義,樣本標準差記為S1,設有隨機變量X1, X2,,Xp,其樣本均數記為, S2,,Sp。首先作標準化變換我們有如下的定義:若 C1=a11x1+a12x2+ +a1pxp,且使 Var(C1)最大,則稱 C1 為第一主成分;若 C2=a21x1+a22x2+a2pxp,(a21,a22,a2p)垂直于(a11,a12,a1p),且 使Var(C2)最大,則稱C2為第二主成分;類似地,可有第三、四、五主成分,至多有p個。主成分的性質主成分C1,C2,Cp具有如下幾個性質:主成分間互不相關,即對任意i和j,Ci和Cj的相關系數Corr(Ci,Cj)=0 i 1 j組合系數(ai1,ai2,aip)構成的向量為單位向量,各主成分的方差是依次遞減的,即Var(C1)3Var(C2)mmVar(Cp)總方差不增不減,即 Var(C1)+Var(C2)+ +Var(Cp) =Var(x1)+Var(x2)+ +Var(xp)=p 這一性質說明,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論