




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
相關分析與回歸分析演示文稿本文檔共127頁;當前第1頁;編輯于星期一\17點58分2023/6/271(優(yōu)選)相關分析與回歸分析本文檔共127頁;當前第2頁;編輯于星期一\17點58分2023/6/272一、引言本文檔共127頁;當前第3頁;編輯于星期一\17點58分2023/6/273在很多研究領域中,往往需要研究事物間的關系。如收入與受教育程度,子女身高與父母身高,商品銷售額與廣告費用支出,農(nóng)作物產(chǎn)量與施肥量,上述兩者間有關系嗎?如果有關系,又是怎么樣的關系呢?如何來度量這種關系的強弱?解決上述問題的統(tǒng)計方法是相關本文檔共127頁;當前第4頁;編輯于星期一\17點58分2023/6/274分析和回歸分析。相關分析和回歸分析的共同點是都可推斷兩個變量間的統(tǒng)計相關性。但兩者的區(qū)別是明顯的,主要表現(xiàn)在:1.變量地位在相關分析中,兩個變量地位是對等的;但在回歸分析中,一個變量是因變量,其余的變量均為自變量。本文檔共127頁;當前第5頁;編輯于星期一\17點58分2023/6/2752.變量類型相關分析中的兩個變量均為隨機變量,而回歸分析中的因變量是隨機變量,但自變量可以是隨機變量,也可以是非隨機變量。3.研究目的相關分析僅度量兩個變量間的相關程度和方向,而回歸分析則要進一本文檔共127頁;當前第6頁;編輯于星期一\17點58分2023/6/276步建立因變量與所有自變量間的回歸方程,即回歸分析不僅推斷自變量對因變量的影響程度,還可以根據(jù)回歸方程進行預測和控制。本文檔共127頁;當前第7頁;編輯于星期一\17點58分2023/6/277二、相關分析本文檔共127頁;當前第8頁;編輯于星期一\17點58分2023/6/2781.概述
事物之間的關系可分為兩類,一類是函數(shù)關系,另一類是相關關系。所謂相關關系指的是兩個變量間存在的一種不確定的數(shù)量關系,即一個變量的取值不能由另一個變量唯一確定。相關分析研究的是相關關系。本文檔共127頁;當前第9頁;編輯于星期一\17點58分2023/6/279相關分析主要研究線性相關關系,但也考察非線性相關關系。下列不屬于相關關系的是()。
A.產(chǎn)品成本與生產(chǎn)數(shù)量
B.球的表面積與體積
C.家庭的支出與收入
D.人的年齡與體重下列關系是線性相關的是()。本文檔共127頁;當前第10頁;編輯于星期一\17點58分2023/6/2710
A.人的身高與視力
B.圓心角大小與所對弧長
C.收入水平與納稅水平
D.父母平均身高與兒子身高相關分析主要研究變量間是否相關及相關的密切程度與方向。相關分析中最常用的是簡單相關分析,即兩個變量間的相關性。本文檔共127頁;當前第11頁;編輯于星期一\17點58分2023/6/2711三個及三個以上變量間的關系稱為復相關,它研究的是一個因變量與兩個及以上自變量間的關系。通常,通過控制變量法將復相關轉化為兩個變量間的相關性,這種關系稱為偏相關。描述變量間相關性的常用統(tǒng)計指標是相關系數(shù)。除此之外,還可以通本文檔共127頁;當前第12頁;編輯于星期一\17點58分2023/6/2712過距離來描述變量間的關系,稱之為距離相關分析。下面分別介紹簡單相關分析、偏相關分析和距離相關分析。2.簡單相關分析
簡單相關主要包括Pearson相關,Spearman相關和Kendall’s相關。(1)Pearson相關系數(shù)本文檔共127頁;當前第13頁;編輯于星期一\17點58分2023/6/2713
Pearson相關是簡單相關分析中最常用的相關分析方法,其適用范圍是:連續(xù)數(shù)據(jù);正態(tài)分布;線性關系。
Pearson(線性)相關系數(shù)r的性質:|r|≤1;r>0時正相關;r<0時負相關;r=0時不相關,即兩變量間不存在線性相關關系,但可能存在其它形式的非線性關系。本文檔共127頁;當前第14頁;編輯于星期一\17點58分2023/6/2714
|r|≥0.8時高度相關;0.5≤|r|<0.8時中度相關;0.3≤|r|<0.5時低度相關;|r|<0.3時基本不相關。由于相關系數(shù)是用樣本計算得到的,帶有一定的隨機性,所以用樣本相關性估計總體相關性的可信度需要檢驗。
SPPS可以自動進行檢驗,并分本文檔共127頁;當前第15頁;編輯于星期一\17點58分2023/6/2715別用“*”,“**”標注顯著性水平0.05,0.01下的顯著相關。(2)Spearman和Kendall’s相關系數(shù)
Pearson相關系數(shù)屬參數(shù)統(tǒng)計分析中的矩相關系數(shù),有一定的局限性:當正態(tài)分布假設不成立時,檢驗結果不可信;只能度量線性相關性,不能描述非線性相關性。本文檔共127頁;當前第16頁;編輯于星期一\17點58分2023/6/2716
Spearman和Kendall’s相關系數(shù)為非參數(shù)統(tǒng)計分析中的秩相關系數(shù)。當正態(tài)分布假設不成立或分析非線性相關關系時,可考慮用上述兩種相關系數(shù)。但這兩種相關系數(shù)最適合度量兩排序變量間的相關性,對連續(xù)變量效果欠佳。本文檔共127頁;當前第17頁;編輯于星期一\17點58分2023/6/2717排序變量的取值可以表示某種順序關系,如服務滿意度取值1~5,分別表示非常不滿意,不滿意,一般滿意,滿意,非常滿意。例124位高水平數(shù)學家的年收入y與其研究成果指標x1,研究工作時間x2以及申請項目成功指標x3如下,分析年收入與三個指標的關系。本文檔共127頁;當前第18頁;編輯于星期一\17點58分2023/6/2718解分析->相關->雙變量->調入所有變量,默認“Pearson,雙側檢驗,標記顯著性相關”。結果顯示,年收入與三個指標的相關系數(shù)分別為0.668,0.859,0.673,在0.01水平下顯著相關。上述相關分析只是給出了年收入與三個指標的兩兩線性相關程度,并本文檔共127頁;當前第19頁;編輯于星期一\17點58分2023/6/2719沒有給出它們之間統(tǒng)計學意義下的具體關系,可用回歸分析進一步研究。本文檔共127頁;當前第20頁;編輯于星期一\17點58分2023/6/27203.偏相關分析
有時,由于第三個變量的作用,使得簡單相關系數(shù)不能真實反映兩變量間的相關性。例如,研究身高與體重的相關性時,如不考慮年齡、地域的影響,則所得相關系數(shù)有可能不能真實反映身高與體重的關系。本文檔共127頁;當前第21頁;編輯于星期一\17點58分2023/6/2721偏相關分析是在控制對兩變量間相關性可能產(chǎn)生影響的其它變量的前提下,即在剔除其它變量的干擾下,研究兩變量間的相關性。偏相關分析假定變量間的關系均為線性關系,沒有線性關系的變量不能進行偏相關分析。因此,在偏相關分析前,可以先通過計算Pearson相關本文檔共127頁;當前第22頁;編輯于星期一\17點58分2023/6/2722系數(shù)來判定兩兩變量間的線性關系。偏相關分析通過計算偏相關系數(shù)來研究變量間的相關性。偏相關系數(shù)的含義與檢驗方法與簡單相關系數(shù)類似。本文檔共127頁;當前第23頁;編輯于星期一\17點58分2023/6/2723
例2Pearson相關分析顯示,年收入與研究工作時間相關性最強?,F(xiàn)剔除x1,x3影響后,分析年收入與研究工作時間的關系。解分析->相關->偏相關->y,x2調入變量,x1,x3調入控制,選擇“雙側檢驗,標記顯著性相關”。結果顯示,年收入與研究工作時本文檔共127頁;當前第24頁;編輯于星期一\17點58分2023/6/2724間的偏相關系數(shù)為0.825,小于簡單相關系數(shù)??梢?,簡單相關系數(shù)有夸大的成分,偏相關系數(shù)與實際更加吻合。本文檔共127頁;當前第25頁;編輯于星期一\17點58分2023/6/27254.距離相關分析
簡單相關分析和偏相關分析研究的是兩個變量間的相關關系,它們不能分析兩個以上變量間的相關關系。此時,可以通過距離相關分析,考察變量間的相似性。距離相關分析通過計算廣義距離度量樣品或變量間的相似程度。本文檔共127頁;當前第26頁;編輯于星期一\17點58分2023/6/2726距離相關分析一般不單獨使用,而是作為聚類分析、因子分析等的預處理過程。距離相關分析根據(jù)統(tǒng)計量的不同,分為不相似性測度和相似性測度。對于不相似性測度,通過計算距離來表示,距離越大,相似性越弱;對于相似性測度,通過計算Pearson相關系本文檔共127頁;當前第27頁;編輯于星期一\17點58分2023/6/2727數(shù)來表示,其數(shù)值越大,相似程度越強。在不相似性測度距離分析中,應根據(jù)變量的類型選用不同的距離,如區(qū)間、計數(shù)、二分類。本文檔共127頁;當前第28頁;編輯于星期一\17點58分2023/6/2728
例3根據(jù)8種品牌啤酒的部分調查數(shù)據(jù),分析啤酒品牌的相似度。解分析->相關->距離->所有指標調入變量,計算距離選“個案間”。
注
SPSS中的個案指數(shù)據(jù)表中的行,即一個樣本的數(shù)據(jù);變量指數(shù)據(jù)表中的列,即同一指標的所有值。通常,考察變量間的相關性可用本文檔共127頁;當前第29頁;編輯于星期一\17點58分2023/6/2729相似性測度,而個案即樣品間的相似性則采用不相似性測度。顯然,品牌1和品牌6最相似,而本文檔共127頁;當前第30頁;編輯于星期一\17點58分2023/6/2730和品牌2最不相似。若采用相似性測度,結果為顯然,樣品間的相關系數(shù)都接近于1,很難辨別出其相似程度。本文檔共127頁;當前第31頁;編輯于星期一\17點58分2023/6/2731
例45名考官給10名應聘者的面試分數(shù)如下,請問各考官評分的一致性如何?哪位考官的可信度較???各應聘者分數(shù)的差異是否明顯?解若第1問改為:請問不同考官對應聘者面試分數(shù)的影響是否顯著,則勉強可用方差分析。因為考官給10應聘者打分不是嚴格意義下的重復試本文檔共127頁;當前第32頁;編輯于星期一\17點58分2023/6/2732驗。同理,若將應聘者分數(shù)做為指標,5個考官打分可視為5次重復試驗(這需要假設考官的打分客觀,基本無偏差),則第3問也可使用方差分析。
考慮到題目和問題的特點,本題用距離分析更為合理。因為方差分析比較的是均值,而兩組很不一致的分本文檔共127頁;當前第33頁;編輯于星期一\17點58分2023/6/2733數(shù)的均值卻可能相差不大。分別對5個變量(列)做相似性分析,如果如下:本文檔共127頁;當前第34頁;編輯于星期一\17點58分2023/6/2734結果顯示,前4個考官的評分比較相似,一致性較好;第5個考官的評分與前4個考官的評分很不相似,一致性較差,故第5個考官的評分不太可信。為了考察應聘者分數(shù)的差異,應該對數(shù)據(jù)進行按行距離相關分析。分析結果如下:本文檔共127頁;當前第35頁;編輯于星期一\17點58分2023/6/2735從上述結果可以判斷,應聘者的分數(shù)差異較為明顯。本文檔共127頁;當前第36頁;編輯于星期一\17點58分2023/6/2736三、回歸分析本文檔共127頁;當前第37頁;編輯于星期一\17點58分2023/6/27371.概述
與相關分析相比,回歸分析不僅能刻畫變量間的線性相關程度,而且還能根據(jù)回歸方程進行預測和控制。英國統(tǒng)計學家Galton和他的學生Pearson觀察了1078對夫婦,得出了其成年兒子身高y與夫婦平均身高x的統(tǒng)計關系為本文檔共127頁;當前第38頁;編輯于星期一\17點58分2023/6/2738即父輩身高每增加或減少一個單位,其子輩身高僅增加或減少半個單位,也即子代的身高有回到同齡人平均身高的趨勢。
Galton稱這種現(xiàn)象為“回歸”。為了紀念Galton,后人將研究兩變量間統(tǒng)計關系的方法稱為回歸分析。本文檔共127頁;當前第39頁;編輯于星期一\17點58分2023/6/2739回歸分析包括的內容甚廣。本講僅介紹下列基本內容:本文檔共127頁;當前第40頁;編輯于星期一\17點58分2023/6/2740回歸分析的過程和步驟為:(1)根據(jù)研究目的,選定指標變量研究目的確定后,被解釋變量比較容易確定。比如,研究通貨膨脹時,自然選擇全國零售物價總指數(shù)作為被解釋變量,即因變量。但對被解釋變量有影響的解釋變量的確定就不太容易。一是人的認識本文檔共127頁;當前第41頁;編輯于星期一\17點58分2023/6/2741有局限,很難確定哪些因素對被解釋變量有影響;二是回歸分析要求解釋變量間應該是不相關的,而研究者很難確定哪些變量相關或不相關,因為在經(jīng)濟領域很難找到影響同一結果的一些因素彼此之間是獨立的;三是從經(jīng)濟關系角度考慮可能要引入某個重要變量,但實際中并無這樣的統(tǒng)計數(shù)本文檔共127頁;當前第42頁;編輯于星期一\17點58分2023/6/2742據(jù)。此時,可考慮用相近的變量替代,或由其它幾個指標復合而成一個新的指標(主成分分析)。另外,不要認為回歸模型包括的解釋變量越多越好。若回歸模型漏掉主要變量肯定會影響應用效果,但如果連一些不重要的因素也進入模型其實未必就好。本文檔共127頁;當前第43頁;編輯于星期一\17點58分2023/6/2743當引入的變量太多時,一來計算量大,累積的計算誤差也大,估計出的模型參數(shù)精度自然不高;二來可能引入了相關性較強的變量,它們反映的信息有較嚴重的重疊,即所謂共線性問題??傊?,回歸變量的確定是一個非常重要的問題,是建立回歸模型最基本文檔共127頁;當前第44頁;編輯于星期一\17點58分2023/6/2744本的工作。(2)數(shù)據(jù)的采集和處理數(shù)據(jù)的采集也是建立回歸模型的重要一環(huán)。大多數(shù)建模競賽題目會提供相關數(shù)據(jù),但這些數(shù)據(jù)可能包含了一些無用的信息,個別數(shù)據(jù)缺失甚至失真。在建模前,需要對數(shù)據(jù)進行適當本文檔共127頁;當前第45頁;編輯于星期一\17點58分2023/6/2745處理。比如標準化,剔除個別過大或過小的“野值”,用插值方法補齊空缺數(shù)據(jù)等。(3)回歸模型形式的確定收集、處理好數(shù)據(jù)后,首先要確定適當?shù)臄?shù)學模型來描述這些變量間的統(tǒng)計關系。本講僅介紹線性回歸,對一元線本文檔共127頁;當前第46頁;編輯于星期一\17點58分2023/6/2746性回歸,可以根據(jù)散點圖判定;對于多元線性回歸,通常只能根據(jù)事后的模型的顯著性檢驗。(4)模型參數(shù)的估計模型確定后,就要利用樣本數(shù)據(jù)對模型中的參數(shù)進行估計。估計參數(shù)的常用方法是最小二乘法。本文檔共127頁;當前第47頁;編輯于星期一\17點58分2023/6/2747利用統(tǒng)計軟件可便捷地進行參數(shù)估計。(5)模型的檢驗與修正模型的參數(shù)估計完成后,只能說初步建立了回歸模型,還不能立即用用這個模型進行預測和分析,因為這個模型是否真正揭示了被解釋變量和解釋變量間的關系還有待檢驗。本文檔共127頁;當前第48頁;編輯于星期一\17點58分2023/6/2748回歸模型通常需要進行統(tǒng)計檢驗和經(jīng)濟意義檢驗。統(tǒng)計檢驗包括回歸方程的顯著性F檢驗,回歸系數(shù)的顯著性t檢驗,回歸方程的擬合優(yōu)度R2檢驗和解釋變量的多重共線性檢驗等。由于樣本容量所限或數(shù)據(jù)質量問題,回歸模型可能得不到合理的經(jīng)濟本文檔共127頁;當前第49頁;編輯于星期一\17點58分2023/6/2749解釋,比如出現(xiàn)了國民收入與GDP負相關。當回歸模型沒有通過檢驗時,要對模型進行修正。模型的修正可以考慮變量是否設置合理,變量間是否有很強的相關性,樣本量是否太少,理論模型是否合適等。(6)回歸模型的應用本文檔共127頁;當前第50頁;編輯于星期一\17點58分2023/6/2750當回歸模型通過了各種檢驗后,就可以進行模型應用了?;貧w模型的一個重要應用是進行預測。比如根據(jù)宏觀國民經(jīng)濟模型就可以預測下一年的GDP。這方面已有很多成功的范例。回歸模型的另一個重要應用是進行控制。本文檔共127頁;當前第51頁;編輯于星期一\17點58分2023/6/2751因為回歸模型揭示了被解釋變量和解釋變量間的因果統(tǒng)計關系,所以可以通過給定被解釋變量值來控制解釋變量值。例如,若想將通貨膨脹控制為全國零售物價指數(shù)增長5%以下,則可以根據(jù)通貨膨脹回歸模型,確定貨幣的發(fā)行量和銀行的存款利率等。本文檔共127頁;當前第52頁;編輯于星期一\17點58分2023/6/27522.一元線性回歸一元線性回歸是描述兩變量間統(tǒng)計關系的最簡單的回歸模型。(1)模型的建立與參數(shù)估計根據(jù)相關背景知識或散點圖,若兩變量間近似呈線性關系,則可用一元線性回歸模型本文檔共127頁;當前第53頁;編輯于星期一\17點58分2023/6/2753其中y稱為被解釋變量(因變量),x稱為解釋變量(自變量),稱為回歸系數(shù),稱為隨機誤差。利用最小二乘法,可求出的估計值。(2)回歸分析的顯著性檢驗可以用F統(tǒng)計量檢驗回歸方程的顯著性。本文檔共127頁;當前第54頁;編輯于星期一\17點58分2023/6/2754對于給定的顯著性水平,可查表得,若根據(jù)樣本計算得到的F值滿足,則拒絕假設(不顯著),即回歸方程在水平下是顯著的。通常取,SPSS可自動進行F統(tǒng)計量檢驗??梢杂胻統(tǒng)計量檢驗回歸系數(shù)的顯著性,檢驗方法與F檢驗類似。本文檔共127頁;當前第55頁;編輯于星期一\17點58分2023/6/2755還可以用決定系數(shù)R2來檢驗回歸方程對樣本觀察值的擬合程度。
①R實際上即為相關系數(shù);②R2是衡量回歸直線與樣本值擬合優(yōu)度的相對指標,越接近于1,表明擬合優(yōu)度越好;③R2與自變量個數(shù)有關,有時用調整的R2(AdjR2)更合理。
本文檔共127頁;當前第56頁;編輯于星期一\17點58分2023/6/2756這里要特別指出上述三種檢驗的關系:①在一元線性回歸中,回歸方程的F檢驗和回歸系數(shù)的t檢驗等價;②千萬不要混淆回歸方程和系數(shù)檢驗與R2檢驗。前者檢驗的是方程或系數(shù)的顯著性,而R2表示的是因變量被自變量解釋的程度。本文檔共127頁;當前第57頁;編輯于星期一\17點58分2023/6/2757
有時,回歸方程和系數(shù)均顯著,但R2卻可能較小。(3)預測預測分為單值預測和區(qū)間預測。當x=x0時,稱為因變量y的單值預測值。單值預測值統(tǒng)計意義不大,因為對于預測問題,除了要給出預測值外,本文檔共127頁;當前第58頁;編輯于星期一\17點58分2023/6/2758還希望知道預測精度,這就需要做區(qū)間預測。區(qū)間預測的思路是:對于給定的顯著性水平和x=x0,給出一個區(qū)間(T1,T2),使得預測值以概率落在此區(qū)間內,此區(qū)間即置信區(qū)間。通常,SPSS會同時給出y0和y0平均值的置信區(qū)間。本文檔共127頁;當前第59頁;編輯于星期一\17點58分2023/6/2759(4)控制控制相當于預測的反問題,即要求y在一定范圍內取值,如何控制x的取值??刂茊栴}比較復雜,沒有通用的方法,可采用作圖法或解不等式法,這里不做詳細介紹。統(tǒng)計軟件一般不提供控制功能。本文檔共127頁;當前第60頁;編輯于星期一\17點58分2023/6/2760
例5經(jīng)調查,某地區(qū)住宅建筑面積和建筑成本的有關資料如下,求建筑面積與建筑成本的回歸方程。解做原始數(shù)據(jù)的散點圖,近似為直線,考慮用一元線性回歸。本文檔共127頁;當前第61頁;編輯于星期一\17點58分2023/6/2761
原始數(shù)據(jù)的散點圖本文檔共127頁;當前第62頁;編輯于星期一\17點58分2023/6/2762分析->回歸->線性->選建造成本為因變量,建筑面積為自變量;方法可選進入(全部被選變量一次進入回歸模型)或逐步(每一步將有最小F概率的變量引入回歸方程,若引入回歸方程的變量的F概率大于設定值,則將其剔除,直到無變量被引入或剔除,則終止回歸過程)。本文檔共127頁;當前第63頁;編輯于星期一\17點58分2023/6/2763統(tǒng)計量中可選估計、置信區(qū)間、模型擬合度、描述性。繪制中選DEPENDNT為Y,ZPRED(標準化預測值)為X。保存中選擇預測值(未標準化,均值預測值的S.E.),殘差(未標準化),預測區(qū)間(均值,單值)本文檔共127頁;當前第64頁;編輯于星期一\17點58分2023/6/2764
本文檔共127頁;當前第65頁;編輯于星期一\17點58分2023/6/2765
本文檔共127頁;當前第66頁;編輯于星期一\17點58分2023/6/2766回歸方程在0.01水平下顯著。本文檔共127頁;當前第67頁;編輯于星期一\17點58分2023/6/2767回歸系數(shù)在0.01水平下顯著。標準化系數(shù)是在將原數(shù)據(jù)進行標準化之后回歸生成的系數(shù)。標準化系本文檔共127頁;當前第68頁;編輯于星期一\17點58分2023/6/2768數(shù)越大,表明該自變量對因變量的影響越大。在一元線性回歸中,標準化回歸系數(shù)等于相關系數(shù)。非標準化系數(shù)就是用原來的數(shù)據(jù)算出來的系數(shù)。若要寫出回歸方程,則應該用非標準化系數(shù)。
本文檔共127頁;當前第69頁;編輯于星期一\17點58分2023/6/2769回歸分析完成后,在原數(shù)據(jù)表中增加單預測值(含殘差)、均值預測值(含SEP)及兩者的區(qū)間估計。若需預測新因變量值,則只需給定新自變量值,然后回歸分析,即可獲得預測值。也可以將模型保存,再利用新自變量值進行預測。本文檔共127頁;當前第70頁;編輯于星期一\17點58分2023/6/27703.多元線性回歸當解釋變量超過一個時就需要考慮多元線性回歸模型。多元線性回歸模型的建立、參數(shù)估計、模型的檢驗及應用與一元線性回歸類似。多元線性回歸模型為本文檔共127頁;當前第71頁;編輯于星期一\17點58分2023/6/2771其中y稱為被解釋變量,xi稱為解釋變量,稱為回歸系數(shù),稱為隨機誤差。利用最小二乘法,可求出回歸系數(shù)的估計值。多元線性回歸的檢驗與一元線性回歸的檢驗既有相同之處,也有不同之處。本文檔共127頁;當前第72頁;編輯于星期一\17點58分2023/6/2772首先可用F統(tǒng)計量檢驗回歸方程的顯著性,即自變量整體上對因變量是否有明顯影響。在一元線性回歸中,回歸方程的F檢驗與回歸系數(shù)的t檢驗等價。但在多元線性回歸中,回歸方程顯著并不意味著每個自變量對因變量的影響都顯著,所以還要用t統(tǒng)計量檢驗每個回本文檔共127頁;當前第73頁;編輯于星期一\17點58分2023/6/2773歸系數(shù)的顯著性。擬合優(yōu)度用于描述回歸方程對樣本觀察值的擬合程度。與一元線性回歸類似,可以用確定系數(shù)R2直觀地反映回歸方程擬合的效果。需要指出的是,R2并不是檢驗模型優(yōu)劣唯一標準。有時,為了使得模型從結構上有較合理的經(jīng)濟解釋,本文檔共127頁;當前第74頁;編輯于星期一\17點58分2023/6/2774R2等于0.7左右也可以給接受模型。另外,R2與自變量個數(shù)及樣本容量n有關。當自變量個數(shù)及樣本容量接近時,R2易接近于1,此時R2中隱含著虛假成分??傊蒖2決定模型優(yōu)劣時要慎重。檢驗多元回歸模型時要多種檢驗方法結合,綜合評判。本文檔共127頁;當前第75頁;編輯于星期一\17點58分2023/6/2775
例6某產(chǎn)品2002~2008年的銷售額與流通費用、利潤的數(shù)據(jù)如下,給出利潤與銷售額、流通費用間的回歸方程。解做原始數(shù)據(jù)的散點圖,近似為平面,考慮用二元線性回歸。本文檔共127頁;當前第76頁;編輯于星期一\17點58分2023/6/2776
本文檔共127頁;當前第77頁;編輯于星期一\17點58分2023/6/2777
本文檔共127頁;當前第78頁;編輯于星期一\17點58分2023/6/2778
本文檔共127頁;當前第79頁;編輯于星期一\17點58分2023/6/2779從方差分析表中可知,回歸方程顯著;從系數(shù)表可知,回歸系數(shù)除常量外顯著;從模型匯總可知,模型擬合優(yōu)度高。需要指出的是,從相關性表中可知,自變量銷售額和流通費用有較高的相關性,這不符合線性回歸分析的假設,即所謂多重共線性問題。本文檔共127頁;當前第80頁;編輯于星期一\17點58分2023/6/2780從共線性診斷表的特征值、條件數(shù)和方差比指標可知,自變量銷售額和流通費用的確存在共線性。但從系數(shù)表VIF指標可知,共線性并不太嚴重。共線性相關內容見后。本文檔共127頁;當前第81頁;編輯于星期一\17點58分2023/6/27814.逐步線性回歸如果在回歸方程中引入了某些對問題研究影響不大或與其它變量有很大程度重疊的變量,則可能增大參數(shù)估計的誤差,影響回歸方程的預測精度。因此,挑選對因變量有顯著影響的自變量,構造“最優(yōu)”回歸方程十分重要。本文檔共127頁;當前第82頁;編輯于星期一\17點58分2023/6/2782構造“最優(yōu)”回歸方程的常用方法是逐步回歸法,其基本思想是:將變量逐個引入,每引入一個變量后,對已引入的變量要進行逐個檢驗;當原引入的變量由于后面變量的引入而變得不再顯著時,要將其剔除,即每次引入新變量前回歸方程只包括顯著的變量。這個過程反復進行,直到既無本文檔共127頁;當前第83頁;編輯于星期一\17點58分2023/6/2783顯著的變量選入回歸方程,也無不顯著的變量從回歸方程中剔除為止。例7某種水泥在凝固時放出的熱量y與水泥中的四種化學成分x1,x2,x3,x4有關,觀測數(shù)據(jù)如下,試從中選出主要變量,建立y關于它們的線性回歸方程。解選擇逐步回歸。
本文檔共127頁;當前第84頁;編輯于星期一\17點58分2023/6/2784
本文檔共127頁;當前第85頁;編輯于星期一\17點58分2023/6/2785
本文檔共127頁;當前第86頁;編輯于星期一\17點58分2023/6/2786
本文檔共127頁;當前第87頁;編輯于星期一\17點58分2023/6/2787
本文檔共127頁;當前第88頁;編輯于星期一\17點58分2023/6/2788
本文檔共127頁;當前第89頁;編輯于星期一\17點58分2023/6/2789上述回歸采用的是系統(tǒng)默認變量進入概率(0.05)和剔除概率(0.1)。若將進入概率和剔除概率修改為0.1和0.11(要求降低了),則回歸分析結果如下:本文檔共127頁;當前第90頁;編輯于星期一\17點58分2023/6/2790
本文檔共127頁;當前第91頁;編輯于星期一\17點58分2023/6/2791
本文檔共127頁;當前第92頁;編輯于星期一\17點58分2023/6/2792
本文檔共127頁;當前第93頁;編輯于星期一\17點58分2023/6/2793
本文檔共127頁;當前第94頁;編輯于星期一\17點58分2023/6/2794
本文檔共127頁;當前第95頁;編輯于星期一\17點58分2023/6/2795
本文檔共127頁;當前第96頁;編輯于星期一\17點58分2023/6/2796
本文檔共127頁;當前第97頁;編輯于星期一\17點58分2023/6/2797選用全部變量的回歸結果為:本文檔共127頁;當前第98頁;編輯于星期一\17點58分2023/6/2798
本文檔共127頁;當前第99頁;編輯于星期一\17點58分2023/6/2799兩次逐步回歸模型包括的變量分別為x1,x4(默認進入和剔除概率)和x1,x2(不同的進入和剔除概率),而根據(jù)全部進入回歸分析結果,后者更為合理。雖然逐步回歸能在一定程度上有助于選擇顯著變量,但它存在著下列缺陷:本文檔共127頁;當前第100頁;編輯于星期一\17點58分2023/6/27100
(1)進入或剔除概率設置不當時,逐步回歸法可能得到的只是局部最優(yōu)方程,甚至會出現(xiàn)“未輸入任何變量到方程中”情況。
(2)極端情況下,逐步回歸法可能會漏掉重要的變量。
(3)逐步回歸法不能完全消除多重共線性。本文檔共127頁;當前第101頁;編輯于星期一\17點58分2023/6/27101可見,對逐步回歸法要有正確的認識,不能盲從。在實際中,最好將逐步回歸與進入回歸結合起來選擇顯著變量。此外,還要注意從變量的實際背景(比如經(jīng)濟學意義)進行選擇。本文檔共127頁;當前第102頁;編輯于星期一\17點58分2023/6/271025.基本假設不成立時的線性回歸回歸模型有下列三個基本假設:對于
(1)方差齊性
(2)不相關性
(3)自變量線性無關性線性無關本文檔共127頁;當前第103頁;編輯于星期一\17點58分2023/6/27103當時,稱為異方差性。當時,稱為自相關性。異方差性和自相關性可能會導致參數(shù)估計非有效,顯著性檢驗無意義,預測精度低。當線性相關時,稱為本文檔共127頁;當前第104頁;編輯于星期一\17點58分2023/6/27104多重共線性。下面對多重共線性做簡要介紹。(1)多重共線性的不良后果若兩個自變量x1,x2存在線性關系,此時它們前的參數(shù)并不反映x1,x2與因變量間的結構關系,而是反映它們對因變量的共同影響。這就導致失去了應有的經(jīng)濟意義,本文檔共127頁;當前第105頁;編輯于星期一\17點58分2023/6/27105使得對回歸方程無法進行合理的經(jīng)濟解釋,降低了回歸方程的應用價值。
例8為了研究財政收入,建立了1978年~2003年財政收入與農(nóng)業(yè)增加值、工業(yè)增加值、建筑業(yè)增加值、總人口、消費、受災面積的回歸模型。數(shù)據(jù)見《中國統(tǒng)計年鑒2004》?;貧w分析的結果如下:本文檔共127頁;當前第106頁;編輯于星期一\17點58分2023/6/27106
本文檔共127頁;當前第107頁;編輯于星期一\17點58分2023/6/27107
F統(tǒng)計量為632.10,表明在0.05水平下回歸方程顯著;決定系數(shù)為0.995,模型擬合得很好,模型對財政收入的解釋程度高達99.5%。
t檢驗表明,除農(nóng)業(yè)增加值、工業(yè)增加值和總人口外,其它因素對財政收入的影響均不顯著。農(nóng)業(yè)增加值和建筑業(yè)增加值的回本文檔共127頁;當前第108頁;編輯于星期一\17點58分2023/6/27108歸系數(shù)小于零,即農(nóng)業(yè)和建筑業(yè)的發(fā)展反而會使財政收入減少。這顯然與理論和實際不符!本例顯示了多重共線性的典型后果:回歸方程顯著,決定系數(shù)也很高,但某些回歸系數(shù)的t檢驗卻不顯著,甚至使得回歸系數(shù)符號相反,無法正確反映該解釋變量對被解釋變量的單本文檔共127頁;當前第109頁;編輯于星期一\17點58分2023/6/27109獨影響。(2)多重共線性產(chǎn)生的原因多重共線性產(chǎn)生的主要原因有:①許多經(jīng)濟變量間存在密切的關聯(lián),互相依存,互相制約,往往存在同方向的變化趨勢。當它們成為解釋變量時,就會出現(xiàn)共線性現(xiàn)象。②利用截面數(shù)據(jù)建立的回歸方程本文檔共127頁;當前第110頁;編輯于星期一\17點58分2023/6/27110往往存在共線性。③自變量選擇不當時,也容易出現(xiàn)共線性。在實際中,自變量完全不相關不太可能,即共線性不太可能完全避免,只能設法降低。(3)多重共線性的診斷多重共線性有下列判定方法:
本文檔共127頁;當前第111頁;編輯于星期一\17點58分2023/6/27111①相關系數(shù)檢驗法——若兩個解釋變量的簡單相關系數(shù)較高(>0.8),則可認為存在較嚴重的共線性。
但要注意,高相關系數(shù)是共線性存在的充分條件,即相關系數(shù)高一定存在共線性,但相關系數(shù)低的變量間也不一定沒有共線性。況且,相關系數(shù)法也只適用于兩本文檔共127頁;當前第112頁;編輯于星期一\17點58分2023/6/27112個變量共線性的判定??梢姡荒芎唵蔚匾罁?jù)相關系數(shù)進行多重共線性的準確判定。
②方差膨脹因子法(誤差)——理論證明,共線性可以引起參數(shù)估計的方差增大,所以方差膨脹因子(VIF)可以做為共線性的判定標準。當1≤VIF≤10時,可以認為共線本文檔共127頁;當前第113頁;編輯于星期一\17點58分2023/6/27113性不嚴重;當VIF>10時,則認為該解釋變量與其余某些解釋變量間有較嚴重的共線性。
SPSS可以自動計算每個參數(shù)的VIF。③特征值(奇異)或條件數(shù)(穩(wěn)定)判定法——根據(jù)線性代數(shù)知識,可以用XTX的特征值判定共線性。本文檔共127頁;當前第114頁;編輯于星期一\17點58分2023/6/27114
XTX有幾個特征值接近于零,就有幾個共線性關系。也可用條件數(shù)CI判定共線性。當0<CI<10時,基本無共線性;當10<CI<100時,存在較強共線性;當CI>100時,共線性非常嚴重。
SPSS可以自動計算特征值和特征值CI。本文檔共127頁;當前第115頁;編輯于星期一\17點58分2023/6/27115④不顯著系數(shù)檢驗法——當F檢驗顯著,而某些
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 合同范本環(huán)保技術服務合同
- 技術合同新定義:知識產(chǎn)權焦點
- 20 狼2024-2025學年新教材七年級上冊語文新教學設計(統(tǒng)編版2024)
- 14 不同環(huán)境中的植物(教學設計)-2023-2024學年科學四年級下冊青島版
- 老師教學教育心得范文
- 藝校入股合同范本
- 17古詩三首《望天門山》(教學設計)-2024-2025學年語文三年級上冊統(tǒng)編版
- 商場合同范本6
- js32-34籃球《同側步持球突破》教學設計 pdf格式 八年級上學期 體育與健康 基礎教育青年教師教學比賽資料第2套
- 2023-2024學年粵教版(2019)高中信息技術必修一《數(shù)據(jù)與計算》第六章第一節(jié)《 認識人工智能》教學設計
- 2025山東省退役軍人事務廳所屬事業(yè)單位招聘人員歷年高頻重點提升(共500題)附帶答案詳解
- 退市新規(guī)解讀-上海證券交易所、大同證券
- 教育部中國特色學徒制課題:現(xiàn)代職業(yè)教育體系建設背景下中國特色學徒制治理體系與資源配置研究
- 森林防火安全生產(chǎn)工作
- 護理工作十四五規(guī)劃
- 產(chǎn)后抑郁癥講課課件
- 人工智能背景下高職五育并舉的人才培養(yǎng)研究
- 汽車行業(yè)維修記錄管理制度
- IQC檢驗作業(yè)指導書
- 城市自來水廠課程設計
- 重慶市2024年小升初語文模擬考試試卷(含答案)
評論
0/150
提交評論