版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
多元線性回歸分析與預(yù)測多元線性回歸(multiplelinearregression)是一元線性回歸(也稱簡單線性回歸)的推廣,它考慮多個(gè)因素對一個(gè)結(jié)果的影響,是一種常用的多變量統(tǒng)計(jì)分析方法。用y表示因變量,x表示自變量,y只有一個(gè),設(shè)x有p個(gè),用向量形式可以表示為(x1,...,xp)。多元線性回歸使用最小二乘法來解決方程的估計(jì)和檢驗(yàn)問題,回歸方程的數(shù)學(xué)模型為:y=β0+β1xβ0為常數(shù)項(xiàng),又稱截距,是當(dāng)所有自變量取值為0時(shí)因變量的估計(jì)值;β1,...,βp為偏回歸系數(shù)(partialregressioncofficient),表示當(dāng)其他自變量保持不變時(shí),自變量xi每改變一個(gè)單位引起因變量的變化,也表示每個(gè)自變量對因變量的影響程度。ε為隨機(jī)誤差,又稱殘差(residual),是由樣本估計(jì)的多元線性回歸方程為:y正如一元線性回歸分析那樣,多元線性回歸分析也需要滿足line條件。但多元線性回歸分析也有其特殊性,具體需要滿足的條件如下:(1)自變量與因變量存在線性關(guān)系;(2)殘差間相互獨(dú)立;(3)殘差服從正態(tài)分布;(4)殘差具有方差齊性;(5)因變量為連續(xù)變量;(6)自變量為連續(xù)變量或分類變量;(7)自變量間不存在多元共線性,共線性即自變量之間存在很強(qiáng)的相關(guān)性。在多元線性回歸分析中,需要引入幾個(gè)新的指標(biāo)。第一個(gè)是:標(biāo)準(zhǔn)化偏回歸系數(shù),當(dāng)有多個(gè)因素(自變量)對一個(gè)結(jié)果(因變量)產(chǎn)生影響時(shí),我們自然會問,到底哪一個(gè)因素造成的影響更大呢?比如自變量分別為身高和體重,根據(jù)回歸系數(shù)很容易就知道每增加1cm的身高或每增加1kg的體重,引起的對因變量Y的影響大小,但是兩者相比之下,到底誰的作用大誰的作用小呢?身高和體重的量綱不同,該如何比較呢?數(shù)據(jù)的標(biāo)準(zhǔn)化是消除量綱差異影響常用的方式。數(shù)據(jù)標(biāo)準(zhǔn)化,是通過一定的數(shù)學(xué)變換方式,將原始數(shù)據(jù)按照一定的比例進(jìn)行轉(zhuǎn)換,使之落入到一個(gè)小的特定區(qū)間內(nèi),例如0~1或-1~1的區(qū)間內(nèi),消除不同變量之間性質(zhì)、量綱、數(shù)量級等特征屬性的差異,將其轉(zhuǎn)化為一個(gè)無量綱的相對數(shù)值,也就是標(biāo)準(zhǔn)化數(shù)值,使各指標(biāo)的數(shù)值都處于同一個(gè)數(shù)量級別上,從而便于不同單位或數(shù)量級的指標(biāo)能夠進(jìn)行綜合分析和比較。對于多元線性回歸方程來說,可以先對因變量和所有自變量進(jìn)行Z-score標(biāo)準(zhǔn)化,也叫標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化法。具體方法如下:首先計(jì)算每個(gè)變量(包括因變量和自變量)的均值(x,或者y)和標(biāo)準(zhǔn)差(SD),然后用該變量的每一個(gè)觀察值(x或者y)減去均值,再除以標(biāo)準(zhǔn)差,即:x或者:y經(jīng)過Z-score標(biāo)準(zhǔn)化后,數(shù)據(jù)將符合標(biāo)準(zhǔn)正態(tài)分布,即將有約一半觀察值的數(shù)值小于0,另一半觀察值的數(shù)值大于0,變量的均值為0,標(biāo)準(zhǔn)差為1。自變量和因變量標(biāo)準(zhǔn)化之后,再通過最小二乘法求出的偏回歸系數(shù),就稱為標(biāo)準(zhǔn)化偏回歸系數(shù),即下列公式中的β0',β1y未標(biāo)準(zhǔn)化偏回歸系數(shù)體現(xiàn)的是自變量變化對因變量的絕對作用大小,而標(biāo)準(zhǔn)化偏回歸系數(shù)反映的是不同自變量對因變量的相對作用大小,可以顯示出不同自變量對因變量影響的重要性。大家需要注意,如果用標(biāo)準(zhǔn)化偏回歸系數(shù)構(gòu)建方程,得到的結(jié)論是有偏差的,因?yàn)榇藭r(shí)自變量和因變量的數(shù)據(jù)都發(fā)生了轉(zhuǎn)化,成為了標(biāo)準(zhǔn)化數(shù)據(jù),因此標(biāo)準(zhǔn)化偏回歸系數(shù)不能用于構(gòu)建回歸方程,只用于比較不同自變量對因變量的影響程度。只有通過未標(biāo)準(zhǔn)化偏回歸系數(shù)和常數(shù)項(xiàng)構(gòu)建的方程,才可以對因變量進(jìn)行預(yù)測。我們學(xué)習(xí)了一元線性回歸分析與預(yù)測,從中知道決定系數(shù)是評估回歸方程優(yōu)劣的一個(gè)重要指標(biāo)。R2=SS回SS從上述R2的計(jì)算過程來看,無論是一元,還是多元線性回歸方程,R
另外兩個(gè)指標(biāo),一個(gè)是:復(fù)相關(guān)系數(shù)R=SS回SS總=Cor(y,y),復(fù)相關(guān)系數(shù)的實(shí)質(zhì)就是因變量y的實(shí)際觀察值與由p個(gè)自變量預(yù)測的值y的相關(guān)程度,換一種說法,就是一個(gè)變量(因變量),與若干個(gè)變量(自變量)線性組合之間的相關(guān)程度;另一個(gè)是調(diào)整的R2=1-MS殘差MS總=R2-p(1-R2)n-p-1(p為自變量的個(gè)數(shù)),決定系數(shù)R2有一個(gè)不足,如果一個(gè)對因變量沒有顯著影響(或者說沒有統(tǒng)計(jì)學(xué)意義)的自變量納入到回歸方程中,下表是不同年份下五種植物的種植面積,以及所有植物總的榨油量。很明顯,五種植物的種植面積是自變量,榨油量是一個(gè)因變量。下面需要根據(jù)下表中的樣本數(shù)據(jù)求出多元線性回歸方程。在這五個(gè)自變量中,可能并非所有自變量對因變量的影響都有統(tǒng)計(jì)學(xué)意義,多元線性回歸分析其中的一個(gè)目的是建立一個(gè)最優(yōu)回歸模型,即對自變量進(jìn)行篩選:將沒有顯著影響的自變量剔除,將對因變量有統(tǒng)計(jì)學(xué)意義的自變量納入模型中,同時(shí)也將共線性強(qiáng)的自變量剔除。自變量篩選的一個(gè)基本指導(dǎo)思想就是:回歸模型包含盡量多的自變量,以提高預(yù)測的精確度,同時(shí)也要盡量避免包含作用不顯著的自變量,以減少計(jì)算量和計(jì)算誤差,降低在建立回歸方程后用于監(jiān)控和預(yù)測的成本。下面使用SPSS工具實(shí)現(xiàn)多元線性回歸分析。依次選擇“分析->回歸->線性”,見圖-1。圖-1接著設(shè)置因變量和自變量,也就是告訴工具哪個(gè)變量是因變量,哪些變量是自變量。這里我們將“榨油產(chǎn)出量”移入“因變量”一欄中,將五個(gè)自變量移入“自變量”一欄中。自變量的篩選的方法選擇“步進(jìn)”。具體見圖-2。SPSS通過對偏回歸系數(shù)進(jìn)行顯著性檢驗(yàn),選擇有統(tǒng)計(jì)學(xué)意義的自變量構(gòu)成回歸模型。自變量的篩選方法有:輸入、步進(jìn)、除去、后退、前進(jìn)。實(shí)際應(yīng)用最多的是逐步回歸法(stepwise),它將上述兩種方法結(jié)合起來篩選,逐步回歸事先設(shè)定自變量進(jìn)入、剔除的標(biāo)準(zhǔn),每向模型引入一個(gè)新變量,同時(shí)考察原來在模型中的自變量是否還有統(tǒng)計(jì)學(xué)意義,直至既沒有自變量能夠進(jìn)入方程,也沒有自變量從方程中剔除為止?;貧w結(jié)束,最后所得方程即為最優(yōu)回歸方程。前進(jìn)法(Forward),它是一種觀前不顧后的自變量篩選方法。首先分析N個(gè)自變量與因變量的相關(guān)關(guān)系,假設(shè)只有n個(gè)自變量與因變量的相關(guān)關(guān)系是顯著的(顯著性P<0.05);那么首先將與因變量相關(guān)系數(shù)最大的自變量納入到回歸模型中。第二步是在已經(jīng)引入第一個(gè)自變量(不妨設(shè)為X1)的基礎(chǔ)上,分別擬合自變量為(X1+X2),(X1+X3),……,(X1+Xn)的n-1個(gè)回歸方程,通過最小二乘法可以分別計(jì)算出X2,X3,…Xn的偏回歸系數(shù),并計(jì)算出它們t檢驗(yàn)時(shí)的P值,最后將P值最小且有統(tǒng)計(jì)學(xué)意義(即p<=0.05)的那個(gè)自變量引入回歸模型,作為第二個(gè)自變量,如果X2,X3,…Xn的偏回歸系數(shù)全部都沒有統(tǒng)計(jì)學(xué)意義(即p>0.05),則運(yùn)算過程終止。第三步在已經(jīng)引入兩個(gè)變量(不妨設(shè)為X1,X2)的基礎(chǔ)上,分別擬合自變量為(X1+X2+X3),(X1+X2+X4),……,(X1+X2+Xn)的n-2個(gè)回歸方程,通過最小二乘法可以分別計(jì)算出X3,X4,…Xn的偏回歸系數(shù),并計(jì)算出它們t檢驗(yàn)時(shí)的P值,最后將P值最小且有統(tǒng)計(jì)學(xué)意義的那個(gè)自變量引入回歸模型,作為第三個(gè)自變量,如果X3,X4,…Xn的偏回歸系數(shù)全部都沒有統(tǒng)計(jì)學(xué)意義,則運(yùn)算過程終止。反復(fù)執(zhí)行這個(gè)過程,直至模型外的自變量均無統(tǒng)計(jì)學(xué)意義為止。前進(jìn)法(forward)的局限在于只進(jìn)不出,后續(xù)變量的引入可能使得先前的變量不再有影響卻無法排除。后退法(Backward),它與前進(jìn)法的過程相反。首先擬合包含全部N個(gè)自變量的線性回歸模型,然后考察其中無統(tǒng)計(jì)學(xué)意義的自變量(也即對每個(gè)偏回歸系數(shù)做t檢驗(yàn)),將其中檢驗(yàn)概率值(t檢驗(yàn)的P值)最大者且大于0.05的自變量首先剔出模型;第二步,對現(xiàn)有模型中包含的剩下N-1個(gè)自變量再次通過最小二乘法求出各自的偏回歸系數(shù),并對每個(gè)偏回歸系數(shù)做t檢驗(yàn),同樣剔除檢驗(yàn)概率值最大且無統(tǒng)計(jì)學(xué)意義的變量。如此反復(fù)進(jìn)行,直至模型中剩余的所有自變量均有統(tǒng)計(jì)學(xué)意義為止。后退法(backward)的局限在于只出不進(jìn),開始剔除的變量后來即使變的對因變量有影響也無法再進(jìn)入方程。步進(jìn)法(Stepwise),也稱逐步回歸法,它是前進(jìn)法和后退法的結(jié)合。步進(jìn)法的前兩步與前進(jìn)法的前兩步相同,擬合出一個(gè)包含兩個(gè)自變量的回歸模型;第三步是考察第一步引入模型的自變量X1是否仍有統(tǒng)計(jì)學(xué)意義(使用t檢驗(yàn)),若沒有統(tǒng)計(jì)學(xué)意義,則將其剔出模型;第四步按照前進(jìn)法繼續(xù)向回歸模型引入新的自變量;第五步引入新自變量之后,考察回歸模型中原有自變量是否仍有統(tǒng)計(jì)學(xué)意義,若沒有統(tǒng)計(jì)學(xué)意義,則將其剔出模型中。如此反復(fù),直到模型外的自變量都沒有統(tǒng)計(jì)學(xué)意義,而模型內(nèi)的自變量都有統(tǒng)計(jì)學(xué)意義。從步進(jìn)法的過程來看,該方法是一種觀前顧后的“謹(jǐn)慎”方法,每向模型中引入新自變量,還要考察之前引入的自變量是否依舊有意義,它是我們最常用的自變量篩選方法。輸入法,是SPSS默認(rèn)的自變量進(jìn)入回歸模型的方式,它將自變量框中所有的自變量都納入到回歸模型中,不涉及自變量篩選問題。除去法(Remove),規(guī)定為Remove的自變量被強(qiáng)制剔除出模型,這種方法需要與其他方法一起使用。在SPSS中,可以同時(shí)設(shè)置多種自變量的篩選的方法,比如第一種方法采用“步進(jìn)”,第二種方法采用“輸入”,這樣工具先采用“步進(jìn)”的方法擬合回歸模型,然后在擬合好的回歸模型基礎(chǔ)上,再采用第二種方法,“輸入”指定的自變量,也就是將指定的自變量追加到回歸模型中。除去法不能作為第一種方法,只能作為第二種方法,或者第三種方法等等。比如第一種方法采用“步進(jìn)”,第二種方法是“除去”,工具先采用“步進(jìn)”的方法擬合回歸模型,然后在擬合好的回歸模型基礎(chǔ)上,再采用第二種方法,“除去”指定的自變量,也就是將指定的自變量從擬合好的回歸模型中剔除掉。增加新的增加新的自變量的篩選方法圖-2接著點(diǎn)擊右側(cè)的“統(tǒng)計(jì)”按鈕,在“統(tǒng)計(jì)”界面中,勾選希望工具展示的統(tǒng)計(jì)信息,見圖-3。“模型擬合”是系統(tǒng)默認(rèn)項(xiàng),工具將輸出復(fù)相關(guān)系數(shù)R,R2及R2修正值,估計(jì)值的標(biāo)準(zhǔn)誤,方差分析表等信息?!癛方變化量”:在回歸方程中增加或剔除一個(gè)自變量時(shí),R2的變化?!懊枋觥保汗ぞ咻敵龌镜慕y(tǒng)計(jì)描述?!安糠窒嚓P(guān)性和偏相關(guān)性”:工具輸出相關(guān)系數(shù)及偏相關(guān)系數(shù)?!肮簿€性診斷”:展示用于分析各自變量之間共線性的統(tǒng)計(jì)量,包括容忍度和方差膨脹因子、特征值、條件指標(biāo)等。“德賓-沃森”是檢驗(yàn)殘差是否存在自相關(guān)的方法。圖-3點(diǎn)擊“圖”按鈕,勾選“直方圖”,“正態(tài)概率圖”,用于檢驗(yàn)殘差是否服從正態(tài)分布,以保證我們的多元線性回歸分析是滿足line前提條件的。圖-4點(diǎn)擊“選項(xiàng)”按鈕,設(shè)置步進(jìn)法條件,也即自變量進(jìn)入方程與從方程中被剔除的條件,一般使用默認(rèn)值即可,自變量進(jìn)入方程的條件是:t檢驗(yàn)的p值小于0.05;從方程中被剔除的條件是:t檢驗(yàn)的p值大于0.10。具體見圖-5。圖-5下面是SPSS工具執(zhí)行多元線性回歸分析之后輸出的信息。下圖是對樣本數(shù)據(jù)的基本描述統(tǒng)計(jì)。圖-6下圖為各變量(包括自變量和因變量)之間的Pearson相關(guān)系數(shù),以及顯著性P值。其中主要關(guān)注因變量與各個(gè)自變量之間的相關(guān)性,只有具有線性相關(guān)性,多元線性回歸分析才有意義。另外,也需要關(guān)注自變量之間的相關(guān)性,一般認(rèn)為相關(guān)系數(shù)>0.7可考慮自變量間存在共線性。在本例中結(jié)果顯示存在自變量之間相關(guān)系數(shù)均>0.7,且P值均<0.05的情形,表明自變量間相關(guān)性較強(qiáng),存在共線性,后續(xù)要注意消除共線性。圖-7圖-8,圖-9為采用步進(jìn)法篩選自變量的過程,每進(jìn)入,或者每剔除一個(gè)自變量,就對應(yīng)一個(gè)模型(也就是回歸方程)。從圖-7中可知“向日葵”自變量與因變量相關(guān)性最強(qiáng),所以作為第一個(gè)自變量進(jìn)入模型中,實(shí)際上如果每個(gè)自變量分別與因變量擬合為一個(gè)一元線性回歸方程,那么“向日葵”自變量的回歸系數(shù)的t檢驗(yàn)p值應(yīng)該也是最小的,且小于0.05(符合在圖-5中設(shè)置的步進(jìn)條件),所以應(yīng)該進(jìn)入模型中,此時(shí)即為圖-8中的模型1,此時(shí)只有一個(gè)自變量。接著選取第二個(gè)自變量,此時(shí)還沒有進(jìn)入模型的自變量見圖-9中模型1,大家注意區(qū)分一下,圖-8的模型1所展示的自變量為新進(jìn)入本模型的自變量,而圖-9的模型1所展示的自變量為還未進(jìn)入本模型的自變量,圖-10的模型1所展示的自變量為本模型中已有的自變量,圖中的模型2、模型3也如此。圖-9的模型1所展示的自變量中,“大豆”自變量的偏回歸系數(shù)的t檢驗(yàn)p值最小,且小于0.05,所以作為第二個(gè)自變量進(jìn)入了模型中,此時(shí)對應(yīng)圖中的模型2。大家看圖-10中的模型2,當(dāng)前已有兩個(gè)自變量,先前進(jìn)入模型的“向日葵”,其偏回歸系數(shù)的t檢驗(yàn)P值小于0.1,所以不需從模型中剔除出去。從圖-9的模型2可看出,目前還有“芝麻”,“花生”,“油菜”三個(gè)自變量沒有進(jìn)入模型中,而且“油菜”自變量的偏回歸系數(shù)的t檢驗(yàn)P值最小,且小于0.05,所以可以作為第三個(gè)變量進(jìn)入模型中,此時(shí)對應(yīng)圖中的模型3,從圖-10的模型3看出,此時(shí)模型中已有三個(gè)自變量,而且以前進(jìn)入模型的“向日葵”和“大豆”自變量,其偏回歸系數(shù)的t檢驗(yàn)P值都小于0.1,無需被剔除出去。再看圖-9的模型3,此時(shí)還有兩個(gè)自變量沒有進(jìn)入模型中,為“芝麻”,“花生”,它們各自的偏回歸系數(shù)的t檢驗(yàn)P值都大于0.05,所以都不能進(jìn)入模型中。至此,多元線性回歸方程擬合完成。對于圖-9的每個(gè)模型,其中的每個(gè)未被選入模型的自變量的t顯著性是如何計(jì)算出來的呢?我們再簡單說明一下。第一個(gè)模型中,選取了“向日葵”,那么沒有被選入的四個(gè)自變量,分別與“向日葵”組合在一起,作為方程中的兩個(gè)自變量,此時(shí)可以通過最小二乘法算出這個(gè)還未被選入的自變量的偏回歸系數(shù)顯著性,對于“芝麻”就是0.080,在下一次篩選新自變量時(shí),就可以將顯著性最小且小于0.05的“大豆”選入模型中。在第二個(gè)模型中,現(xiàn)在已經(jīng)選入了“向日葵”和“大豆”了,此時(shí)還未被選入的自變量分別與“向日葵”和“大豆”組合在一起,作為方程中的三個(gè)自變量,然后求出這個(gè)未被選入的自變量的偏回歸系數(shù)的t顯著性,在下一次篩選新自變量時(shí),將顯著性最小且小于0.05的“油菜”自變量選入模型中。圖-8圖-9圖-10的模型3即為最終的多元線性回歸方程,方程如下:榨油量=0.123+0.015*向日葵種植面積+0.001*大豆種植面積-0.002*油菜種植面積注意回歸方程中的偏回歸系數(shù)為未標(biāo)準(zhǔn)化系數(shù),反應(yīng)每個(gè)自變量對因變量的影響程度。如“向日葵種植面積”的偏回歸系數(shù)b1為0.015,說明在其他因素不變的情況下,“向日葵種植面積”每增加1個(gè)單位,榨油量就增加0.015個(gè)單位。而標(biāo)準(zhǔn)化回歸系數(shù)只用來比較各自變量對因變量影響的大小,比如“大豆”和“油菜”,其標(biāo)準(zhǔn)化回歸系數(shù)分別為0.758和-0.952,標(biāo)準(zhǔn)化回歸系數(shù)的絕對值越大,自變量對因變量的影響越大,由此可知,“油菜”的影響要大于“大豆”。另外,大家需要注意,共線性診斷的兩個(gè)指標(biāo),即Tolerance(容差)和VIF(方差膨脹因子),二者互為倒數(shù)關(guān)系。一般認(rèn)為如果Tolerance<0.2或VIF>10,則提示要考慮自變量之間存在多重共線性的問題。本例中在模型3中出現(xiàn)了Tolerance<0.2,VIF>10的情形,提示“向日葵”,“大豆”,“油菜”自變量存在共線性,同時(shí)再參見圖-7,三者的相關(guān)系數(shù)也確實(shí)大于0.7,相互得到印證。后續(xù)需要采取措施來消除共線性,否則回歸模型估計(jì)失真或難以估計(jì)準(zhǔn)確。圖-10圖-11展示了各個(gè)模型的復(fù)相關(guān)系數(shù)R,決定系數(shù)R2,調(diào)整的R2,很明顯擬合優(yōu)度非常好。德賓-沃森值為1.394,該統(tǒng)計(jì)值的取值范圍為0~4之間,如果殘差間相互獨(dú)立,則該值≈2。若德賓-沃森值偏離2,向0或者4的方向接近,則提示殘差不獨(dú)立。本例中該值比較接近于2,表明殘差間沒有明顯的相關(guān)性,即殘差獨(dú)立,滿足line中的Independent要求。圖-11圖-12顯示方差分析的結(jié)果,檢驗(yàn)擬合的3個(gè)模型中是否所有偏回歸系數(shù)都為0,下表中,所有顯著性值為.000(p<0.001),表明在步進(jìn)法篩選自變量的引入、剔除(條件:0.05、0.1)自變量的過程中,所擬合的3個(gè)模型都具有統(tǒng)計(jì)學(xué)意義。圖-12判斷是否存在共線性,除了看容差與VIF值外,還可以參考共線性診斷中的特征值與條件指標(biāo),見圖-13。當(dāng)特征值約等于0、條件指標(biāo)的值大于10、方差比例接近1時(shí)(其中一項(xiàng)符合即可),均可說明存在比較嚴(yán)重的共線性。大家觀察圖-13中的紅色方框,很明顯步進(jìn)法篩選出的三個(gè)自變量存在共線性問題。圖-13圖-14為預(yù)測值和殘差的基本統(tǒng)計(jì)描述。圖-14圖-15,圖-16,通過標(biāo)準(zhǔn)化殘差的直方圖(Histogram)可以直觀的看出,標(biāo)準(zhǔn)化殘差服從均值為0,標(biāo)準(zhǔn)差為1的正態(tài)分布。同時(shí)從正態(tài)概率圖(P-P圖)也可以看出,散點(diǎn)基本圍繞在第一象限對角線上散布,從而判斷殘差基本服從正態(tài)分布,滿足line中的Normaldistribution要求。圖-15圖-16圖-17,通過對標(biāo)準(zhǔn)化殘差和標(biāo)準(zhǔn)化預(yù)測值繪制的散點(diǎn)圖可以看出,標(biāo)準(zhǔn)化殘差的散點(diǎn)波動范圍基本保持穩(wěn)定,不隨標(biāo)準(zhǔn)化預(yù)測值的變化而變化,可以認(rèn)為基本滿足方差齊性,滿足line中的Equalvariance要求。圖-17最后我們消除多元共線性問題。在上述最終擬合的多元線性回歸方程中,包含“向日葵”,“大豆”,“油菜”三個(gè)自變量,而且從工具展示的統(tǒng)計(jì)信息來看,三者存在共線性,消除共線性最簡單的一種方法就是刪除掉一些自變量,因?yàn)榇嬖诠簿€性,說明自變量所提供的信息是重疊的,可以刪除不重要的自變量以減少重復(fù)信息。但是應(yīng)該刪除哪些自變量呢。這時(shí)我們可以參考一下圖-10,不難發(fā)現(xiàn),“油菜”自變量與因變量的偏相關(guān)和部分相關(guān)(具體含義大家可以查看相關(guān)資料)相對較小,說明“油菜”與因變量的相關(guān)性較弱,我們可以考慮從模型中刪除“油菜”自變量,只保留“向日葵”和“大豆”自變量。下面我們重新執(zhí)行多元線性回歸分析,只選取“向日葵”和“大豆”兩個(gè)變量,采用“輸入”篩選的方法,見圖-18.圖-18大家再看圖-19的共線性統(tǒng)計(jì)信息,共線性問題得到了改善。圖-19下面我們總結(jié)一下多元線性回歸分析的過程。首先我們要明確為何要做多元線性回歸分析,首先通過多元線性回歸來了解哪些因素對結(jié)局變量y有影響,其次通過多元線性回歸方程來做預(yù)測和控制;對于多元線性回歸分析與預(yù)測來說,樣本數(shù)據(jù)也要滿足line的要求,具體可參見《一元線性回歸分析與預(yù)測》,SPSS工具會自動輸出各類統(tǒng)計(jì)信息,幫助我們判斷樣本數(shù)據(jù)是否滿足各種前提條件;通過最小二乘法來計(jì)算回歸方程中的截距和偏回歸系數(shù);通過F檢驗(yàn)來判斷回歸方程作為一個(gè)整體是否有統(tǒng)計(jì)學(xué)意義,也就是說所有的偏回歸系數(shù)是否不全部為0;通過t檢驗(yàn)來判斷每一個(gè)偏回歸系數(shù)是否等于0;在擬合回歸方程的過程中,需要對自變量進(jìn)行篩選,判斷一個(gè)回歸方程優(yōu)劣的指標(biāo),主要是決定系數(shù)R2,調(diào)整的R2,殘差的均方(越小越好);自變量篩選有不同的策略:前進(jìn)法,后退法,步進(jìn)法等等;已知自變量的值,通過多元線性回歸方程來預(yù)測結(jié)局變量y的平均值;通過多元線性回歸方程來實(shí)現(xiàn)控制,通過控制自變量的取值,來控制y在一定范圍內(nèi)取值。多元線性回歸分析中經(jīng)常遇到的問題及對策。多元共線性多元線性方程中的自變量之間如果存在很強(qiáng)的相關(guān)性,那么多元線性方程可能無法被解釋,也就是說可能違背常理,通過多元線性方程做預(yù)測或者控制,結(jié)果可能不穩(wěn)定。這類問題即為多元共線性問題。下面我們舉例說明什么是共線性問題。有若干名胎兒的數(shù)據(jù),包括年齡(y,單位:周)與胎兒外形測量指標(biāo):身長x1,頭圍x2,體重x3,下列為擬合的多元線性回歸方程:y經(jīng)過檢驗(yàn),該回歸方程具有統(tǒng)計(jì)學(xué)意義,并且每個(gè)偏回歸系數(shù)也具有統(tǒng)計(jì)學(xué)意義。但是該多元回歸方程明顯違背常理,因?yàn)閤2的偏回歸系數(shù)為
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 單位管理制度呈現(xiàn)大全【員工管理】十篇
- 《物業(yè)管理服務(wù)業(yè)》課件
- 三年級數(shù)學(xué)數(shù)學(xué)廣角課件
- 2024年農(nóng)業(yè)綜合開發(fā)和扶貧開發(fā)工作總結(jié)
- 2024年公司勞動社??粕习肽甑墓ぷ骺偨Y(jié)
- 空調(diào)機(jī)運(yùn)輸協(xié)議三篇
- 農(nóng)業(yè)產(chǎn)品銷售主管工作總結(jié)
- 通信科技前臺工作總結(jié)
- 家政服務(wù)前臺工作總結(jié)
- 機(jī)電裝備話務(wù)員工作總結(jié)
- 教科版五年級上冊科學(xué)期末測試卷及參考答案(完整版)
- 江西省九江市一中2023-2024學(xué)年下學(xué)期八年級期中物理試卷
- 物理化學(xué)英語詞匯
- 山東省沂南縣2024屆八年級物理第二學(xué)期期末經(jīng)典模擬試題含解析
- MOOC 概率統(tǒng)計(jì)和隨機(jī)過程-南京郵電大學(xué) 中國大學(xué)慕課答案
- 北師大版七年級數(shù)學(xué)上冊 期末重難點(diǎn)真題特訓(xùn)之易錯(cuò)必刷題型(96題32個(gè)考點(diǎn))(原卷版+解析)
- 高警示(高危)藥品考試試題與答案
- 42山東省棗莊市薛城區(qū)2023-2024學(xué)年七年級上學(xué)期期末考試生物試題
- 部編版六年級語文下冊第三單元大單元教學(xué)設(shè)計(jì)
- 前端組長述職報(bào)告
- 食品安全企業(yè)標(biāo)準(zhǔn)模板
評論
0/150
提交評論