4-回歸分析實習.doc_第1頁
4-回歸分析實習.doc_第2頁
4-回歸分析實習.doc_第3頁
4-回歸分析實習.doc_第4頁
4-回歸分析實習.doc_第5頁
已閱讀5頁,還剩15頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

回歸分析實習一、 實習目的1)掌握SPSS軟件中實現(xiàn)回歸分析的過程和參數(shù)選擇。2)掌握回歸分析的基本原理,擬合優(yōu)度檢驗、回歸方程的顯著性檢驗(F檢驗)和回歸系數(shù)b的顯著性檢驗的意義。3)結(jié)合專業(yè)背景知識解釋回歸分析結(jié)果。二、 回歸分析原理回歸分析是一種處理變量的統(tǒng)計相關(guān)關(guān)系的一種數(shù)理統(tǒng)計方法。在處理地質(zhì)數(shù)據(jù)時,經(jīng)常要研究變量與變量之間的關(guān)系。 變量之間的關(guān)系一般分為兩種。一種是完全確定關(guān)系,即函數(shù)關(guān)系;一種是相關(guān)關(guān)系,即變量之間既存在著密切聯(lián)系,但又不能由一個或多個變量的值求出另一個變量的值。對于這種彼此聯(lián)系比較緊密的變量,人們總希望建立一定的公式,以便變量之間互相推測?;貧w分析的基本思想是: 雖然自變量和因變量之間沒有嚴格的、確定性的函數(shù)關(guān)系, 但可以設(shè)法找出最能代表它們之間關(guān)系的數(shù)學表達形式?;貧w分析主要解決以下幾個方面的問題:1)通過分析大量的樣本數(shù)據(jù),確定變量之間的數(shù)學關(guān)系式。2)對所確定的數(shù)學關(guān)系式的可信程度進行各種統(tǒng)計檢驗,并區(qū)分出對某一特定變量影響較為顯著的變量和影響不顯著的變量。3)利用所確定的數(shù)學關(guān)系式,根據(jù)一個或幾個變量的值來預測或控制另一個特定變量的取值,并給出這種預測或控制的精確度。 對于一元線性回歸模型的確定:一般先做散點圖(Graphs -Scatter-Simple),以便進行簡單地觀測。若散點圖的趨勢大概呈線性關(guān)系,可以建立線性方程,若不呈線性分布,可建立其它方程模型。對于多元線性回歸常用的方法是逐步回歸分析-Stepwise 。逐步回歸方法的基本思想:對全部的自變量x1,x2,.,xp,按它們對Y貢獻的大小進行比較,并通過F檢驗法,選擇偏回歸平方和顯著的變量進入回歸方程,每一步只引入一個變量,同時建立一個偏回歸方程。當一個變量被引入后,對原已引入回歸方程的變量,逐個檢驗他們的偏回歸平方和。如果由于引入新的變量而使得已進入方程的變量變?yōu)椴伙@著時,則及時從偏回歸方程中剔除。在引入了兩個自變量以后,便開始考慮是否有需要剔除的變量。只有當回歸方程中的所有自變量對Y都有顯著影響而不需要剔除時,在考慮從未選入方程的自變量中,挑選對Y有顯著影響的新的變量進入方程。不論引入還是剔除一個變量都稱為一步。不斷重復這一過程,直至無法剔除已引入的變量,也無法再引入新的自變量時,逐步回歸過程結(jié)束。擬合優(yōu)度檢驗:回歸方程的擬合優(yōu)度檢驗就是要檢驗樣本數(shù)據(jù)聚集在樣木回歸直線周圍的密集程度,從而判斷回歸方程對樣本數(shù)據(jù)的代表程度?;貧w方程的擬合優(yōu)度檢驗一般用判定系數(shù)實現(xiàn)。判定系數(shù):01,越接近于1,表明回歸直線的擬合程度越好;反之,越接近于0,回歸直線的擬合程度越差。對于一元線性回歸,用判定系數(shù) (R Square)判定一元線性回歸方程的擬合程度對于多元線性回歸,用調(diào)整判定系數(shù)Adjusted (Adjusted R Square)判定一個多元線性回歸方程的擬合程度?;貧w方程的顯著性檢驗(F檢驗):回歸方程的顯著性檢驗是對因變量與所有自變量之間的線性關(guān)系是否顯著的一種假設(shè)檢驗。根據(jù)給定的顯著水平(SPSS中默認值為0.05),計算F值所對應(yīng)的相伴概率值p(SPSS輸出結(jié)果中的Sig)。如果p,則回歸方程不顯著?;貧w系數(shù)的顯著性檢驗(t檢驗)回歸系數(shù)的顯著性檢驗,就是根據(jù)樣本估計的結(jié)果對總體回歸系數(shù)的有關(guān)假設(shè)進行檢驗。之所以對回歸系數(shù)進行顯著性檢驗,是因為回歸方程的顯著性檢驗只能檢驗所有回歸系數(shù)是否同時與零有顯著性差異,它不能保證回歸方程中不包含不能較好解釋說明因變量變化的自變量,因此,可以通過回歸系數(shù)顯著性檢驗對每個回歸系數(shù)進行考察。根據(jù)給定的顯著水平(SPSS中默認值為0.05),計算t值所對應(yīng)的相伴概率值p(SPSS輸出結(jié)果中的Sig)。如果p,則應(yīng)剔除出回歸方程。三、實習內(nèi)容一元線性回歸分析、多元線性回歸分析?;镜牟襟E:先做數(shù)據(jù)散點圖,若散點圖的趨勢大概呈線性關(guān)系,可以建立線性回歸模型。利用SPSS得到模型關(guān)系式,是否是我們所要的,要看回歸方程的顯著性檢驗(F檢驗)和回歸系數(shù)b的顯著性檢驗(t檢驗),還要看擬合程度 (相關(guān)系數(shù)的平方,一元回歸用R Square,多元回歸用Adjusted R Square)實例及SPSS中有關(guān)參數(shù)的含義: 【例】某種水泥在凝固時放出的熱量y(卡/克)與水泥中下列四種化學成分有關(guān): 的成分(%),: 的成分(%),: 的成分(%),: 的成分(%)。所測定數(shù)據(jù)如表所示, 試建立y與、及的線性回歸模型。 表試驗序號172666078.52129155274.331156820104.34113184787.6575263395.961155922109.27371176102.78131224472.59254182293.1102147426115.911140233483.8121166912113.3131068812109.41、操作步驟:按Analyze(分析)-Regression(回歸分析)-Linear(線性)得如下“Linear Regression(線性回歸)”對話框。從彈出的Linear Regression對話框中左側(cè)的變量列表中選擇y變量使之添加到Dependent(因變量)框中,表示該變量是因變量;選擇變量x1、x2、x3、x4添加到Independent(s)(自變量),表示其為自變量。注:當有多組自變量和與其相對應(yīng)的多種不同的變量篩選方法時,可以通過使用Previous和Next按鈕將它們放置在不同的塊 (Block)中。塊設(shè)置可以使作各種探索性的回歸分析。具體執(zhí)行的步驟為如下: (1)SPSS從當前塊(Block)(默認為1)開始,提取自變量和相應(yīng)的變量篩選方法對回歸方程進行擬合。 (2)自動提取下一塊中的自變量組和相應(yīng)的變量篩選方法,再上一個回歸方程的基礎(chǔ)上再次進行擬合,直到結(jié)束。l 在Method(方法)框中可以選擇多元線性回歸分析的自變量篩選方法:Enter選項:強行進入法,表示所選自變量全部進入回歸模型,該選項是SPSS默認的方式。Remove選項:消去法,表示建立回歸方程時,根據(jù)設(shè)定的條件從回歸方程中剔除部分自變量。Backward選項:向后剔除法,根據(jù)在Option對話框中所設(shè)定的判據(jù),先建立全模型,然后根據(jù)設(shè)置的判據(jù),每次剔除一個使方差分析中的F值最小的自變量,直到回歸方程中不再含有不符合判據(jù)的自變量為止。Forward選項:向前選擇法,根據(jù)在Option對話框中所設(shè)定的判據(jù),從無自變量開始,在擬合過程中,對被選擇的自變量進行方差分析,每次加入一個F值最大的變量,直至所有符合判據(jù)的變量都進入模型為止(第一個引入模型的自變量應(yīng)該與因變量間相關(guān)系數(shù)的絕對值最大)。Stepwise選項:逐步進入法,它是向前選擇變量法和向后剔除變量法的結(jié)合。根據(jù)在Option對話框中所設(shè)定的判據(jù),首先根據(jù)方差分析結(jié)果選擇符合判據(jù)的自變量且與因變量相關(guān)程度最高的進入回歸方程。根據(jù)向前選擇變量法選入自變量,然后根據(jù)向后剔除法,將模型中F值最小的且符合剔除判據(jù)的變量剔除出模型,重復進行直到回歸方程中的們變量均符合進入模型的判據(jù),模型外的自變量都不符合進入模型的判據(jù)為止。l Selection Variable(選擇變量)框用來對樣本數(shù)據(jù)進行篩選,挑選滿足一定條件的樣本數(shù)據(jù)進行線性回歸分析。l Case Labels(觀察量標簽)框用來表示作圖時,以哪個變量作各樣本數(shù)據(jù)點的標志變量。l WSL(WSL加權(quán))選項是存在異方差時,利用加權(quán)最小二乘法替代普通最小二乘法估計回歸模型參數(shù)。 通過WSL可以選定一個變量作為權(quán)重變量。在實際問題中,如果無法自行確定權(quán)重變量,可以用SPSS的權(quán)重估計來實現(xiàn)。l 點擊Statistics (統(tǒng)計)按鈕,打開Linear Regression:Statistica對話框,用來選擇輸出哪些統(tǒng)計量 Estimates(估計): SPSS默認的輸出項。輸出與回歸系數(shù)相關(guān)統(tǒng)計量。如回歸系數(shù)、回歸系數(shù)的標準誤差、標準回歸系數(shù)、t統(tǒng)計量和相應(yīng)的相伴概率值(Sig)、各自變量的容忍度等。其中,標準化回歸系數(shù)有助于判斷多元回歸方程中各自變量的單位不統(tǒng)一時,哪個自變量對因變量的影響較大。 Confidence intervals(信賴區(qū)間):輸出每一個非標準化回歸系數(shù)95%的可信區(qū)間。 Covariance matrix(協(xié)方差矩陣):輸出方程中各自變量間的相關(guān)系數(shù)矩陣和各變量的協(xié)方差矩陣。 Model fit(模型擬合):輸出判定系數(shù)、調(diào)整的判定系數(shù)、回歸方程的標準誤差,F(xiàn)檢驗的ANOVA方差分析表。該選項為默認選項。 R squared change(R平方變化):表示當回歸方程中引入或剔除一個自變量后R2、F值產(chǎn)生的變化量。 Descriptives(描述): 輸出自變量和因變量的均值、標準差、相關(guān)系數(shù)矩陣及單側(cè)檢驗概率。 Part and partial correlation(部分和偏相關(guān)):輸出方程中各自變量與因變量之間的簡單相關(guān)系數(shù)、偏相關(guān)系數(shù)與部分相關(guān)系數(shù)。 Collinearity diagnostics(共線性診斷):多重共線形分析,輸出各自變量的容限度、方差膨脹因子、最小容忍度、特征值、條件指標、方差比例等Residuals(殘差)欄是有關(guān)殘差分析的選擇項: Durbin-Watson:輸出Durbin-Watson檢驗值。 Casewise diagnostics(Casewise診斷):輸出標準化殘差絕對值3(SPSS默認值)的樣本數(shù)據(jù)點的相關(guān)信息,包括:標準化殘差、觀測值、預測值、殘差。另外,還輸出最小預測值、最小殘差、最大預測值、最大殘差、最小標準化預測值、最小標準化殘差、最大標準化預測值、最大標準化殘差以及關(guān)于預測值、殘差、標準預測值、標準殘差的均值和標準差。 Outliers outside standard devistion(分離到外部):用來設(shè)置奇異值的判據(jù)。默認為3倍的標準差。 All case(所有觀察量):輸出所有樣本數(shù)據(jù)的有關(guān)殘差值。 l 點擊Plots(繪圖)按鈕,將打開Linear Regression: Plots對話框。該對話框用來設(shè)置對殘差序列作圖形分析,從而檢驗殘差序列的正態(tài)性、隨機性和是否存在異方差現(xiàn)象(默認情況下,不輸出圖形)。 在左上角的源變量框中,選擇DEPENDENT(因坐量)使之添加到X或y軸變量框,再選擇其他變量使之添加到y(tǒng)或X軸坐量框??梢宰鳛檩S變量的,除因變量外還有以下參數(shù):ZPRED選項:標準化預測值。ZRESID選項:標準化殘差。DRESID選項:剔除殘差。ADJPRED選項:修正后預測值。SRESID選項:學生化殘差。SDRESID選項:學生化剔除殘差。 Standardized Residual Plots(標準化殘差圖)欄中可選擇使用直方圖正態(tài)概率圖。 Histogram(直方圖):輸出帶有正態(tài)曲線的標準化殘差的直方圖。 Normal probability plots(正態(tài)概率圖):殘差的正態(tài)概率圖,檢查殘差的正態(tài)性。 Produce all partial plots(產(chǎn)生所有的偏差圖)選項,輸出每一個自變量殘差相對于因變量殘差的散布圖。l 點擊Linear Regression對話框中的Save按鈕,彈出對話框。在該對話框中能夠設(shè)置將回歸分析的結(jié)果保存到SPSS數(shù)據(jù)編輯窗口的變量中,還是某個SPSS的數(shù)據(jù)文件中。 Predicted Values(預測值)欄中選項如下:Unstandardized(不標準化):保存非標準化預測值。Standdized(標準化):保存標準化預測值。Adjusted(調(diào)整):保存調(diào)節(jié)預測值。S.E.of mean predictions(平均標準誤差預測):保存預測值的標準誤差。 Distances(距離)欄中選項如下:Mahalanobis:保存Mahalanobis距離。Cooks:保存Cook距離。Leverage values:保存中心點杠桿值。 Prediction Intervals(預測區(qū)間)欄中選項如下: Mean(平值):保存預測區(qū)間高低限的平均值。Individual(單值):保存一個觀測量上限與下限的預測區(qū)間。Confidence Interval(信賴區(qū)間)參數(shù)框:可確定置信區(qū)間,默認值為95%。 Residuals(殘差)欄中選項如下: Unstandardized(不標準化): 保存非標準化殘差。 Stadardized(標準化): 標準化殘差。 Studentized(學生化): 學生化殘差。 Deleted(刪除): 剔除殘差。 Studentized deleted(學生化刪除):學生剔除殘差。 Influence Statistics(影響點的統(tǒng)計量)欄中選項如下: DfBeta(s):因排除一個特定的觀測值所引起的回歸系數(shù)的變化。一般情況下,該值如果大于2,則被排除的觀測值有可能是影響點。 Stanardized DfBets(s):標準化的DfBeta值。 DfFit: 因排除一個特定的觀測值所引起的預測值得變化。 Standardized DfFit: 標準化的DfFit值。 Covariance ratio: 協(xié)方差比矩陣,剔除一個影響點觀測量的協(xié)方差矩陣與全部觀測量的協(xié)方差矩陣比。 Save to New File欄中,選中Coefficients Statistics選項,可將回歸系數(shù)結(jié)果保存到一個指定的文件中。 Export model information to XML file欄,表示將模型的有關(guān)信息輸出到一個XML型文件中。l 點擊Linear Regression對話框中的Options命令,打開圖對話框。在該對話框中可以對多元線性回歸分析中與自變量的篩選有關(guān)的參數(shù)進行設(shè)定,同時也可以設(shè)置對缺失值采用不同的處理方法。 Stepping Method Criteria(逐步方法標準)欄:用于設(shè)定與多元線性回歸分析中自變量的篩選有關(guān)的參數(shù)。 Use probalitlity of F(使用F分布的概率):SPSS默認,以回歸系數(shù)顯著性檢驗中各自變量的F統(tǒng)計量的相伴概率作為自變量是否引入模型或者從模型剔除的標準。 Entry(默認值為0.05)表示當一個自變量的F統(tǒng)計量的相伴概率值sig0.05時,應(yīng)拒絕Ho,認為該變量對因變量影響是顯著的,應(yīng)被引入回歸方程中。 Removal(默認值為0.10)表示如果當方程中一個自變量的F統(tǒng)計量的相伴概率值sig0.10時,則不能拒絕Ho,可以認為該變量對因變量影響是不顯著的,應(yīng)從回歸方程剔除。在實際應(yīng)用中,我們可以根據(jù)具體情況修改這兩個參數(shù)。但應(yīng)使Entry值小于Remove值。否則,自變量一進入方程就會被立即剔除。 Use F value(試用F值)選項,表示以回歸系數(shù)顯著性檢驗中的各自變量的F統(tǒng)計量作為自變量進入模型或從模型剔除的標準: Entry(默認值為3.84)表示當一個變量的F值3.84時,該變量被選入模型中。 Removal(默認值為2.71)表示當一個變量的F值2.71時,該變量從模型中被剔除選中Include constant In equation選項,表示再回歸方程中將包含常數(shù)項,該選項為默認選項。MissingValues(缺失值)欄是對缺失值的處理欄: Exclude cases listwise:表示刪除所有帶缺失值的樣本數(shù)據(jù)。 Exclude cases pairwise:表示如果計算過程涉及到某個有缺失值的變量,則暫時刪除那些在該變量上是缺失值的個案。 Replace with mean:表示將所有變量的缺失值都以相應(yīng)變量的均值代替。2、輸出結(jié)果與分析:下表輸出的是被引入或從回歸方程中被剔除的各變量以及采用的方法。下表輸出的是常用統(tǒng)計量。從這部分結(jié)果看出,對編號為2的模型,相關(guān)系數(shù)R=0.986,判定系數(shù)R2=0.972,調(diào)整的判定系數(shù)為0.967,回歸估計的標準誤差為2.7343。說明樣本回歸方程的代表性強。下表為方差分析表。從這部分結(jié)果看出,對編號為2的模型,統(tǒng)計量F=176.627,相伴概率(表中的Sig) p0.001。說明自變量x1、x4與因變量y之間確有線性回歸關(guān)系。另外,Sum of Squares一欄中分別表示回歸平方和(2641.001)、殘差平方和(74.762)以及總平方和(2715.763),df為自由度。下表為回歸系數(shù)分析。其中,Unstandardized Coefficients

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論