版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第四章相關分析和回歸分析第一節(jié)相關分析第二節(jié)回歸分析第四章相關分析和回歸分析第一節(jié)相關分析第一節(jié)相關分析任何事物的存在都不是孤立的,社會經濟現象之間總是相互聯系和相互制約的,在其發(fā)展變化的過程中,社會經濟現象不僅同與它有關的現象構成一個普遍聯系的整體,而且在它的內部也存在著許多彼此關聯的因素。第一節(jié)相關分析要揭示社會經濟現象發(fā)展變化的數量規(guī)律性必須從描述社會經濟現象特征的變量入手,探求變量的變化規(guī)律。本節(jié)著重研究變量間的統計相關關系。第一節(jié)相關分析變量間的數量聯系存在著兩種不同的類型:一種是函數關系;只一種是統計相關關系。第一節(jié)相關分析一、相關關系的界定與類型劃分當一個或幾個變量取一定的值時,另一個變量有確定值與之相對應。
(一)函數關系與相關關系第一節(jié)相關分析例如,銀行的1年期存款利率為年息3.5%,存入的本金用X表示,到期的本息用Y表示,則Y與X兩個變量之間的數量關系可表示:Y=X+3.5%X表示。第一節(jié)相關分析當給定某一筆本金,則一年到期的本息Y就是一筆確定的金額。這種變量之間在數量變化上按一定法則嚴格確定的相互依存關系稱為函數關系。
第一節(jié)相關分析
在相互聯系的變量中,一般把作為影響因素的變量稱為自變量,把發(fā)生對應變化的變量稱為因變量。此例中,X是自變量,Y則是因變量。
第一節(jié)相關分析如果當一個或幾個相互聯系的變量取一定數值時,與之相對應的另一變量的值雖然不確定,但它仍按某種規(guī)律在一定的范圍內變化。第一節(jié)相關分析
例如,商品銷售額(Y)與廣告費支出(X)之間的數量關系。在一定前提下,當X取值在一定范圍內,廣告費投入越多,商品銷售額就越高。
第一節(jié)相關分析但是,X并不能唯一確定Y的大小,因為Y的大小還與其它因素的影響有關,如銷售地區(qū)消費者的數量,收入水平等。第一節(jié)相關分析
當給定X某一個值時,由于消費環(huán)境等的影響,而使Y有不同的值與之相對應,因此,商品銷售額Y與廣告費支出x之間不存在確定的函數關系。
第一節(jié)相關分析又如勞動生產率相同的企業(yè)其利潤率并不一定相同,因為利潤率的提高除受勞動生產率提高的影響外,還受產量、資金流轉、原材料消耗、管理費用以及其他偶然因素變化的影響。第一節(jié)相關分析諸如此類還有儲蓄額與居民收入的關系,投資額和國民收入的關系,商品流轉規(guī)模與流通費用的關系等等。
第一節(jié)相關分析這種變量之間在數量變化上受隨機因素或未考慮到的其他因素的影響而產生的不確定的相互依存關系稱為統計相關關系。第一節(jié)相關分析社會經濟現象之間的統計相關關系可以按不同的標志加以區(qū)分。
(二)相關關系的類型劃分第一節(jié)相關分析1.按相關程度:
完全相關不相關不完全相關第一節(jié)相關分析完全相關當一種現象的數量變化完全由另一個現象的數量變化所確定時,稱這兩種現象間的關系為完全相關。
例如在價格不變的條件下,某種商品的銷售總額與其銷售量之間總是成正比例關系。第一節(jié)相關分析不相關當兩個現象彼此互不影響,其數量變化各自獨立時,稱為不相關現象。
比如,股票價格和氣溫就是一種不相關的關系。第一節(jié)相關分析不完全相關兩個現象之間的關系介于完全相關和不相關之間,稱為不完全相關。
第一節(jié)相關分析可見,完全相關就是函數關系,函數關系和不相關關系都可以看作是統計相關關系的特殊情形。
我們本節(jié)所研究的統計相關關系一般是指不完全相關關系。第一節(jié)相關分析2.按相關形式:
線性相關非線性相關第一節(jié)相關分析線性相關當兩種相關現象之間的關系大致呈現為直線方程的關系時,稱之為線性相關。
例如人均消費水平與人均收入水平通常成線性關系。
第一節(jié)相關分析非線性相關如果兩種相關現象之間,并不表現為直線方程的關系,而是近似于某種曲線方程的關系,則這種相關關系稱為非線性相關。
例如產品的平均成本與產品總產量之間的相關關系就是一種非線性相關。
第一節(jié)相關分析3.按相關的方向:正相關負相關第一節(jié)相關分析正相關當一個現象的數量由小變大,另一個現象的數量也相應由小變大,這種相關稱為正相關。
例如工人的工資隨著勞動生產率的提高而增加。
第一節(jié)相關分析負相關當一個現象的數量由小變大,而另一個現象的數量相反地由大變小,這種相關稱為負相關。
例如產品的平均成本隨著勞動生產率的提高而減少;商品流轉的規(guī)模愈大,流通費用水平則愈低。
第一節(jié)相關分析4.按所研究的變量多少:
單相關復相關偏相關第一節(jié)相關分析單相關兩個現象的相關,即一個變量對另一個變量的相關關系,稱為單相關或一元相關。
第一節(jié)相關分析復相關當所研究的是一個變量對兩個或兩個以上其他變量的相關關系時,稱為復相關或多元相關。例如,某種商品的需求與其價格水平以及人們收入水平之間的相關關系便是一種復相關。
第一節(jié)相關分析偏相關多個變量之間的相關關系是錯綜復雜的,其中任何兩個變量之間的關系中都夾雜了其他變量所帶來的影響。
這種情況下,當控制其他變量都保持不變時,其中兩個變量之間的相關關系稱為偏相關。
第一節(jié)相關分析在上例復相關中,若在控制人們的收入水平不變的條件下,某種商品的需求與其價格水平的關系就是一種偏相關關系。第一節(jié)相關分析二、一元線性相關分析相關分析是研究不同變量間密切程度的一種常用統計方法。我們首先從最簡單的一元線性相關現象開始,介紹對于兩個變量間的線性相關密切程度進行統計分析的基本原理和一般方法。第一節(jié)相關分析統計分析是從對所研究的客觀現象的定性認識到定量認識的。要對兩個變量進行相關分析,首先必須根據研究的目的,以經濟理論為指導,結合有關的專業(yè)知識和實際經驗對所研究的變量進行定性分析,確認兩個變量之間客觀存在著統計相關關系。第一節(jié)相關分析再通過大量觀察或實驗取得相關資料,通常是從兩個變量關聯的數據集合中隨機抽取樣本,先對樣本數據進行統計分析,然后再對總體進行推斷,達到對變量間相關密切程度的定量認識。第一節(jié)相關分析表4.1是某地區(qū)2001年抽樣調查20戶城市居民得到的平均每人每月可支配收入及消費性支出的原始資料。
住戶編號每戶人數(人)人均可支配收入(元/月)人均消費支出(元/月)13760.3562.923439.3352.533456.5353.843483.9380.153434.4340.563439.4339.973524.2394.383620.4445.193460.9346.8103573.6424.2113669.7487.6123652.6456.6133614.1474.1143580.7421.7153467.4366.9163585.1438.0173494.5355.4183469.7371.6193470.1373.2203550.1405.4合計10746.98090.6第一節(jié)相關分析相關表和相關圖是研究變量間統計相關關系的直觀工具。一般在進行詳細的定量分析之前,可以先利用它們對現象之間存在的相關關系的形式、方向和密切程度作大致的判斷。(一)相關表和相關圖第一節(jié)相關分析相關表是一種反映變量之間相關關系的統計表。將某一變量按其取值的大小順序排列,然后再將與其相關的另一變量的對應值平行排列,便可得到簡單的相關表。
第一節(jié)相關分析根據表4.1中的原始資料,將平均每人每月可支配收入的觀察值按從低到高的順序排列,可得到相關表4.2。
住戶編號每戶人數(人)人均可支配收入(元/月)人均消費支出(元/月)13434.4340.523439.3352.533439.4339.943456.5353.853460.9346.863467.4366.973469.7371.683470.1373.293483.9380.1103494.5355.4113524.2394.3123550.1405.4133573.6424.2143580.7421.7153585.1438.0163614.1474.1173620.4445.1183652.6456.6193669.7487.6203760.3562.9合計10746.98090.6第一節(jié)相關分析從相關表4.2中可以看出,隨著城市居民可支配收入的不斷提高,其消費性支出也伴隨著產生相應提高的趨勢,兩者之間存在明顯的正相關關系。
第一節(jié)相關分析相關圖也叫散點圖或散布圖,它是觀察兩個變量之間關系的一種更加直觀的方法。散點圖的具體繪制方法是:以橫軸代表自變量(X),縱軸代表因變量(Y),將兩個變量間相對應的觀測值用坐標點的形式描繪在坐標平面上,從而揭示了各相關點的分布情況。
第一節(jié)相關分析由于散點圖可以粗略地判斷變量間的大致關系,因此人們通常在正式計算相關前,先繪制散點圖,如果圖形顯示變量之間相關關系不明顯,就不必再耗費時間進行相關系數的計算及其檢驗了。第一節(jié)相關分析根據相關表4.2的資料,應用SPSS繪制相關圖。
第一節(jié)相關分析
(二)相關系數
在相關分析中,相關系數是反映相關關系密切程度的重要指標。第一節(jié)相關分析通常用ρ表示總體的相關系數;用r表示樣本的相關系數,它是根據樣本觀測值計算的,是描述相關程度和相關方向的統計量。
第一節(jié)相關分析變量x和y的簡單線性相關系數r的定義公式如下:第一節(jié)相關分析相關系數的取值范圍是-1≤r≤1。樣本相關系數r是個隨機變量,由實際抽樣得到的r值與總體相關系數ρ之間總是存在著抽樣誤差。
第一節(jié)相關分析樣本容量越小,r的可信程度就越差,特別是當n=2時,相關系數r的絕對值總為1,由此得出總體中兩個變量之間完全相關未免為時過早??梢姡瑀不為0,并不能說明ρ就不為0;同樣,r為0,也不能肯定總體中的兩個變量就不相關。第一節(jié)相關分析因此,相關分析中必須對樣本相關系數r進行顯著性檢驗,只有通過檢驗才能知道它的可信度。第一節(jié)相關分析一般情況下,相關系數的檢驗,是在給定的置信水平下,通過查閱相關系數檢驗的臨界值表來完成的。
第一節(jié)相關分析在上表中,左邊的f叫作自由度,其數值為f=n-2,這里的n為樣本數;上方的α代表不同的置信水平;表內的數值代表不同的置信水平下相關系數ρ=0的臨界值,即;公式的意思是,當所計算的相關系數r的絕對值大于在α水平下的臨界值時,兩要素不相關(即ρ=0)的可能性只有α。第一節(jié)相關分析比如,根據公式
計算表4.1中,人均可支配收入和人均消費支出間的相關系數,r=0.981,查表3.1.2可知,在f=18、α=0.01時,=0.5614,r>.第一節(jié)相關分析所以,在0.01的置信水平下,人均可支配收入和人均消費支出之間不相關的概率低于1%,即兩者之間同向相關的概率高達99%。因此可以斷定,兩者之間存在著顯著的線性相關關系。
第一節(jié)相關分析對相關系數r進行顯著性檢驗的另一種方法是計算t值。
數學上可以證明,在X與Y都服從于正態(tài)分布,并且又有ρ=0的條件下,可以采用t檢驗來確定r的顯著性。其步驟如下:第一節(jié)相關分析第一步,計算r的t值:該統計量服從自由度為(n—2)的T分布。第一節(jié)相關分析第二步,根據給定的顯著性水平α和自由度(n—2),查找t分布表中相應的臨界值tα.若t的絕對值大于tα,則表明r在統計上是顯著的;反之就是不顯著的.
第一節(jié)相關分析三、定序變量的相關分析定序變量又稱順序變量、有序變量,它取值的大小能夠表示觀測對象的某種順序關系。測度定序變量間的相關系數要采用斯皮爾曼相關系數和肯特爾相關系數。這兩個相關系數都屬于秩相關系數。第一節(jié)相關分析(一)Spearman秩相關系數計算公式為:其中,,分別為兩變量排序后的秩。第一節(jié)相關分析(二)Kendall秩相關系數Kendall秩相關系數與Spearman相關系數類似,都是利用變量的秩計算的,只是計算方式不同。第一節(jié)相關分析四、偏相關分析簡單相關關系只反映兩個變量之間的關系,但如果因變量受到多個因素的影響時,因變量與某一自變量之間的簡單相關關系顯然受到其他相關因素的影響,不能真實地反映二者之間的關系,所以需要考察在其他因素的影響剔除后二者之間的相關程度,即偏相關分折。第一節(jié)相關分析
(一)偏相關分析的定義與計算公式
偏相關分析是指當兩個變量同時與第三個變量相關時,將第三個變量的影響剔除,只分析另外兩個變量之間相關程度的過程。
第一節(jié)相關分析偏相關分析的工具是計算偏相關系數,偏相關系數可利用單相關系數來計算。
假設有3個要素X1、X2、X3,其兩兩之間的單相關系數矩陣為:第一節(jié)相關分析第一節(jié)相關分析因為相關系數矩陣是對稱的,所以在實際計算時,只要計算出,和即可。
在偏相關分析中,常稱這些單相關系數為零級相關系數。第一節(jié)相關分析對于上述三個要素X1、X2、X3,它們之間的偏相關系數共有三個,
下標點后面的數字,代表在計算偏相關系數時,保持不變的量。如代表在X3保持不變的情況下,X1和X2之間的偏相關系數。
第一節(jié)相關分析第一節(jié)相關分析第一節(jié)相關分析第一節(jié)相關分析
(二)偏相關系數的檢驗
偏相關系數的顯著性檢驗,一般采用t檢驗法。
第一節(jié)相關分析n為樣本數,m為變量數。第四章相關分析和回歸分析第二節(jié)回歸分析第二節(jié)回歸分析一、回歸分析概述通過上節(jié)課的學習,我們知道變量間的數量聯系存在著兩種不同的類型:一種是函數關系,只一種是統計相關關系。
第二節(jié)回歸分析函數關系是指現象之間有一種嚴格的確定性的依存關系,表現為某一現象發(fā)生變化另一現象也隨之發(fā)生變化,而且有確定的值與之相對應。各觀測點數值都落在一條很規(guī)則的線上(直線、曲線)。
第二節(jié)回歸分析相關關系是指客觀現象之間確實存在的,但數量上不是嚴格對應的依存關系。一個變量的取值不能由另一個變量唯一地確定。當變量X取某個值時,另一個變量Y的取值可能有若干個。各觀測點數據分布在一條直線或曲線的周圍。第二節(jié)回歸分析在統計上研究相關關系,可以從兩方面進行:一是測定變量之間的相關關系的方向及其密切程度,稱為相關分析。第二節(jié)回歸分析另一種是根據變量之間的關系形式,用一個數學表達式,來反映有相關關系的變量之間的數值變化關系,據此由一個或若干個自變量的數值推斷出因變量的可能值,這種分析稱為回歸分析。第二節(jié)回歸分析根據相關關系的數量表達式和給定的自變量X,揭示因變量Y在數量上的平均變化及求得因變量預測值的統計方法。
(一)回歸分析與回歸方程1.回歸分析
第二節(jié)回歸分析用回歸分析方法得出的數學表達式稱為回歸方程。
2.回歸方程
第二節(jié)回歸分析回歸方程有不同種類,按照自變量的個數分,有一元回歸方程和多元回歸方程。只有一個自變量的叫一元回歸,有兩個或兩個以上自變量的叫多元回歸;第二節(jié)回歸分析按照回歸曲線的形態(tài)分,有線性(直線)回歸和非線性(曲線)回歸。第二節(jié)回歸分析相關分析和回歸分析都是研究變量間關系的統計學課題。在應用中,兩種分析方法經常相互結合和滲透,但它們研究的側重點和應用面不同。(二)回歸分析與相關分析的關系第二節(jié)回歸分析相關分析是回歸分析的前提和基礎,回歸分析則是相關分析的深入和繼續(xù)。相關分析需要依靠回歸分析來表現變量之間數量相關的具體形式,而回歸分析則需要依靠相關分析來表現變量之間數量變化的相關程度。第二節(jié)回歸分析只有當變量之間存在高度相關時,進行回歸分析尋求其相關的具體形式才有意義。如果在沒有對變量之間是否相關以及相關方向和程度做出正確判斷之前,就進行回歸分析,很容易造成“虛假回歸”。
第二節(jié)回歸分析與此同時,相關分析只研究變量之間相關的方向和程度,不能推斷變量之間相互關系的具體形式,也無法從一個變量的變化來推測另一個變量的變化情況,因此,在具體應用過程中,只有把相關分析和回歸分析結合起來,才能達到研究和分析的目的。第二節(jié)回歸分析相關分析回歸分析主要描述兩個變量之間相關的方向和密切程度,所使用的工具是相關系數。確定因變量Y和自變量X之間數量變動關系的數量表達式,并對因變量進行預測。X和Y處于平等地位,研究變量Y與變量X的密切程度和研究變量X與變量Y的密切程度是一樣的。
Y是因變量,處于被解釋的特殊地位;Y與X不是對等關系。
第二節(jié)回歸分析回歸(Regression)這個術語是由英國著名生物學家兼統計學家高爾頓提出來的。
(三)回歸名稱的由來高爾頓是生物統計學派的奠基人,他在1870年研究父母身高與其子女身高的遺傳問題時,收集了1078對夫婦及其子女的身高數據。第二節(jié)回歸分析以每對夫婦的平均身高作為解釋變量X,取他們的一個成年兒子的身高作為被解釋變量Y,將結果繪成散點圖,發(fā)現近乎于一條直線。第二節(jié)回歸分析計算出的數學表達式為:
?=33.73+0.516X這種趨勢及回歸方程表明,父母身高X每增加一個單位時,其成年兒子的身高Y平均增加0.516個單位。第二節(jié)回歸分析這個結果表明,雖然高個子父輩有生高個子兒子的趨勢,但父輩身高增加一個單位,兒子身高僅增加半個單位左右。反之,矮個子父輩的確有生矮個子兒子的趨勢,但父輩身高減少一個單位,兒子身高僅減少半個單位左右。第二節(jié)回歸分析平均來說,一群高個子父輩的兒子們在同齡人中平均僅為略高個子;一群矮個子父輩的兒子們在同齡人中平均僅為略矮個子,即父輩偏離中心的部分在子代被拉回來一些。第二節(jié)回歸分析正是因為子代的身高有回到同齡人平均身高的這種趨勢,才使人類的身高在一定時期內相對穩(wěn)定,沒有出現父輩個子高其子女更高,父輩個子矮其子女更矮的兩極分化現象。
第二節(jié)回歸分析這個例子生動地說明了生物學中“種”的概念的穩(wěn)定性。正是為了描述這種有趣的現象,高爾頓引進了“回歸”這個名詞來描述父輩身高與子代身高的關系。第二節(jié)回歸分析盡管“回歸”這個名稱的由來具有其特定的含義,人們在研究大量的問題中,其變量x與y之間的關系也并不總是具有這種“回歸”的含義,但借用這個名詞把研究變量x與y之間統計關系的量化方法稱為“回歸”分析,也算是對高爾頓這個偉大的統計學家的紀念。第二節(jié)回歸分析一般來說,回歸分析主要解決以下幾個方面的問題:(四)回歸分析的主要內容1.通過大量的樣本數據,確定變量之間的數學關系式;
第二節(jié)回歸分析
2.對所確定的數學關系式的可信程度進行各種統計檢驗,并區(qū)分出對某一特定變量影響較為顯著的變量和影響不顯著的變量;
第二節(jié)回歸分析
3.利用所確定的數學關系式,根據一個或幾個變量的值來預測另一個特定變量的取值,并給出這種預測或控制的精確度。第二節(jié)回歸分析二、一元線性回歸分析只有一個自變量的線性(直線)回歸叫作一元線性回歸,也叫簡單線性回歸,它是描述兩個變量之間統計關系的最簡單的回歸模型。第二節(jié)回歸分析一元線性回歸雖然簡單,但通過一元線性回歸模型的建立過程,我們可以了解回歸分析方法的基本統計思想以及它在實際問題研究中的應用原理。第二節(jié)回歸分析一元線性回歸分析只涉及一個自變量,設有變量X和Y,變量Y的取值隨X的變化而變化,Y為因變量,X為自變量。
(一)一元線性回歸模型的數學形式及其求法第二節(jié)回歸分析例,某小學從各年級隨機挑選12名學生對其年齡與身高的關系進行分析,數據如下:年齡(歲)X
9117129811101171310身高(cm)Y
147149139152141140145138142132151147第二節(jié)回歸分析我們首先將這12組數據繪成散點圖,由于X和Y之間不是確定的函數關系,所以12個點不可能都落在同一條直線或曲線上。71011121398130138134142146150xy☆☆☆☆☆☆☆☆☆☆☆☆第二節(jié)回歸分析第二節(jié)回歸分析但由于它們具有相關關系,而且是正相關,所以12個點大致分布在一條自左下方向右上方伸展的直線附近。這條直線我們稱之為回歸直線。71011121398130138134142146150xy☆☆☆☆☆☆☆☆☆☆☆☆第二節(jié)回歸分析第二節(jié)回歸分析其回歸方程為:
方程中的X稱為回歸自變量,Y稱為回歸的因變量。a是直線在Y軸上的截距;b是直線的斜率,也叫回歸系數,它表示自變量X每變動一個單位時,因變量Y的平均變化量。第二節(jié)回歸分析下面,我們討論如何根據各樣本數據來確定回歸直線第二節(jié)回歸分析上時,y的值。
我們用和表示第i組數據,用表示回歸直線由于
,我們將
記作
,稱為殘差。即第二節(jié)回歸分析那么,如何確定回歸直線的位置呢?或者說,如何選擇a和b的值呢?第二節(jié)回歸分析很明顯,要使回歸直線擬合得最好,應力求使回歸直線接近所有的樣本數據點。也就是說,應該使殘差盡可能地小。
第二節(jié)回歸分析但是殘差有正有負,如果采用簡單相加的方式計算各樣本殘差之和,然后力求其最小,極有可能會出現殘差總和很小,但個別樣本的殘差很大的情形。第二節(jié)回歸分析再求和并使之最小。為了克服這個問題,我們可以先將平方,
即在保證
最小的前提下,
確定a和b的值。這就是所謂的“最小二乘原理”。第二節(jié)回歸分析由于殘差平方和==是a和b的二次函數,并且,是非負和連續(xù)可微的,可知殘差平方和存在極小值。第二節(jié)回歸分析為了研究方便,我們用Q來表示殘差平方和。即:Q==這是一個二元二次函數,二元二次函數存在最小值的必要條件是一階偏導等于零。第二節(jié)回歸分析即:整理得:第二節(jié)回歸分析解方程組:第二節(jié)回歸分析==可得:==第二節(jié)回歸分析=第二節(jié)回歸分析應用此公式計算表4.5的各樣本數據,得
=99.16667;
=39.66667
第二節(jié)回歸分析b=99.16667/39.66667=2.5;
a==143.5833-2.5×9.833333=119所以,回歸方程為:Y=119+2.5X第二節(jié)回歸分析對系數2.5的解釋是,小學生年齡每增加一歲,其身高平均增長2.5cm.此例中的119沒有實際意義,所以我們有必要將回歸方程變形為:
Y=119+2.5X第二節(jié)回歸分析===第二節(jié)回歸分析=該式子是實際問題中經常使用的回歸方程,它描述出兩個變量在各自的平均值兩側變化時大致的相互關系,且不需計算截距a,故明顯地優(yōu)于形如的回歸方程。
第二節(jié)回歸分析對于小學生年齡和身高的例子,變形以后的回歸方程為:
=第二節(jié)回歸分析總結直線回歸方程的求法如下:
第一步,計算兩變量的平均值和,X的方差以及X和Y的協方差
第二節(jié)回歸分析第二步,計算a和b的值.=====第二節(jié)回歸分析第三步,寫出回歸方程:
或=第二節(jié)回歸分析已知某社區(qū)10戶家庭每周可支配收入和消費支出的基本情況,求該10戶家庭消費支出與可支配收入回歸方程的最小二乘參數估計。X(收入,元)80100120140160Y(支出,元)70659095110X(收入,元)180200220240260Y(支出,元)115120140155150第二節(jié)回歸分析上面講述了利用最小二乘原理建立線性回歸方程的方法。但是在求出回歸方程之后,還不能立即知道它所表達的兩個變量之間的相關密切程度。(二)一元線性回歸方程的檢驗第二節(jié)回歸分析因為即使在樣本的散點圖完全是雜亂無章的場合,仍能按上一節(jié)的公式求出一個線性回歸方程。按最小二乘原理,該方程所代表的直線是“最接近”全體樣本點的。
第二節(jié)回歸分析當然,這個回歸方程和這條直線是沒有什么價值的。那么,如何判定回歸方程的有效性呢?
一個非常重要的方法就是對回歸方程進行檢驗?;貧w方程檢驗的方法很多,主要包括:第二節(jié)回歸分析1.回歸方程的顯著性檢驗(F檢驗)回歸方程的顯著性檢驗也叫F檢驗,它是對因變量與自變量之間的關系是否顯著的一種假設檢驗。第二節(jié)回歸分析F檢驗是利用方差分析的方法進行的,它是建立在對總離差平方和進行分解的基礎之上的?!畹诙?jié)回歸分析71011121398130138134142146150xy第二節(jié)回歸分析我們知道,因變量的實際觀測值
與其均值的離差
可以分解為兩部分:一部分是回歸值與樣本平均值
的離差
;另一部分是實際觀測值
與理論回歸值
的殘差
=第二節(jié)回歸分析可以看成是能夠由回歸直線解釋的部分,稱為可解釋離差.
其中,是不能由回歸直線加以解釋的殘差第二節(jié)回歸分析對于任一觀測值總是有:=+將上式兩邊平方,并將所有n個點求和,最終可得:第二節(jié)回歸分析=+用SST或S總表示。叫總離差平方和,其中,叫回歸平方和,用SSR或U表示。叫殘差平方和,也叫剩余平方和,用SSE或Q表示。第二節(jié)回歸分析=+可以表示為:SST=SSR+SSE或:S總=U+Q第二節(jié)回歸分析其中,回歸平方和U第二節(jié)回歸分析
F統計量定義為:平均的回歸平方和與平均的殘差平方和之比。對于一元線性回歸方程而言:1和(n-2)分別SSR和SSE的自由度。第二節(jié)回歸分析方差來源自由度平方和平均平方和F值回歸殘差總和1n-2n-1SSRSSESSTSSR/1SSE/(n-2)SSR/1SSE/(n-2)一元線性回歸方差分析表第二節(jié)回歸分析利用F統計量進行回歸方程顯著性檢驗的步驟是:第二節(jié)回歸分析
①提出假設
H0:b=0原假設H1:b≠0對立假設如果接受原假設或者說原假設成立(即b=0),則因變量和自變量之間沒有真正的線性關系;若拒絕原假設,即H1:b≠0成立,則說明y對x的一元線性回歸成立。
第二節(jié)回歸分析
②計算回歸方程的F統計量第二節(jié)回歸分析③根據給定的顯著性水平α(
α=0.1,0.05,0.01),確定臨界值Fα(1,n-2)④作出判斷如果F大于臨界值Fα(1,n-2),就拒絕原假設,說明回歸方程顯著;反之,就接受原假設,y與x之間不存在線性關系。第二節(jié)回歸分析2.擬合優(yōu)度檢驗回歸方程的擬合優(yōu)度檢驗就是要檢驗樣本數據聚集在樣本回歸直線周圍的密集程度,從而判斷回歸方程對樣本數據的代表程度。第二節(jié)回歸分析回歸方程的擬合優(yōu)度檢驗一般用判定系數R2實現。第二節(jié)回歸分析由回歸平方和與殘差平方和的定義我們知道,如果在總和平方和中回歸平方和所占比重越大,則各樣本數據越向回歸直線靠攏,回歸效果就越好,回歸直線與樣本觀測值擬合優(yōu)度就越好;第二節(jié)回歸分析反之,如果殘差平方和所占比重越大,則回歸直線與樣本觀測值擬合得越不理想。第二節(jié)回歸分析我們把回歸平方和與總和平方和之比定義為決定系數,也稱為判定系數,記作R2.☆第二節(jié)回歸分析71011121398130138134142146150xy第二節(jié)回歸分析顯然,各樣本觀測點與樣本回歸直線靠得越近,SSR/SST就越大,直線擬合得就越好。即:R2=
第二節(jié)回歸分析實際上,決定系數R2是相關系數r的平方。試證明之第二節(jié)回歸分析判定系數R2測度了回歸直線對各樣本數據的擬合程度。如果所有樣本點都落在回歸直線上,則SSE=0,R2=1,擬合是完全的;
第二節(jié)回歸分析如果回歸直線沒有解釋任何離差,Y的總離差全部歸于殘差平方和,即SST=SSE,R2=0,則表示自變量X與因變量Y完全無關;第二節(jié)回歸分析一般而言,各樣本數據都是部分地落在回歸直線上,因此0<R2<1。R2越接近1,表明回歸直線的擬合程度越好;反之,R2越接近0,回歸直線的擬合程度就越差。
第二節(jié)回歸分析3.回歸系數的顯著性檢驗(t檢驗)所謂回歸系數的顯著性檢驗,就是根據樣本估計的結果對總體回歸系數的有關假設進行檢驗。第二節(jié)回歸分析之所以要對回歸系數進行顯著性檢驗,是因為回歸方程的顯著性檢驗(F檢驗),只能檢驗所有回歸系數是否同時拒絕零假設,它不能保證回歸方程中一定不包含不能較好地解釋說明因變量變化的自變量。為此,還得需要通過回歸系數顯著性檢驗對每一個回歸系數進行考察。第二節(jié)回歸分析回歸系數顯著性檢驗一般采用t檢驗的方法,檢驗步驟如下:第二節(jié)回歸分析
①提出假設
H0:b=0原假設H1:b≠0對立假設(備擇假設)如果接受原假設或者說原假設成立(即b=0),則因變量和自變量之間沒有真正的線性關系;若拒絕原假設,即H1:b≠0成立,則說明y對x的一元線性回歸成立。
第二節(jié)回歸分析
②計算回歸系數的t統計量其中,SE為估計標準誤第二節(jié)回歸分析③根據給定的顯著性水平α(
α=0.1,0.05,0.01),確定臨界值tα(1,n-2)④作出判斷如果t大于臨界值tα(1,n-2),就拒絕原假設,說明x對y有顯著的影響作用;反之,就接受原假設,說明x對y沒有顯著的影響。第二節(jié)回歸分析在一元線性回歸分析中,回歸方程的顯著性檢驗可以代替回歸系數的顯著性檢驗,并且F=t2。第二節(jié)回歸分析三、多元線性回歸分析在上節(jié)課中,我們討論的回歸問題只涉及一個自變量,但在實際問題中,影響因變量的因素往往有多個。比如,商品的需求除了受自身價格的影響外,還受消費者收入、消費者偏好、相關商品的價格等因素的影響。
第二節(jié)回歸分析所以,在許多場合,僅僅考慮單個因素是不夠的,還需要就一個因變量與多個自變量的關系進行考察,這就是多元回歸。其中,多元線性回歸是多元回歸中比較簡單的一種情形。第二節(jié)回歸分析(一)多元線性回歸模型的數學形式及其參數估計第二節(jié)回歸分析
β0,β1
,…,βp是p+1個未知參數,β0
稱為回歸常數,β1,…,βp稱為回歸系數。第二節(jié)回歸分析當p=1時,上述方程就變成了一元線性回歸方程;當p≥2時,我們稱上述方程為多元線性回歸方程。第二節(jié)回歸分析多元線性回歸方程的未知參數β0,β1,…,βp的估計與一元線性回歸方程的參數估計原理一樣,仍然可以采用最小二乘估計。第二節(jié)回歸分析(二)多元線性回歸方程的解釋為了給多元線性回歸方程及其回歸系數一個解釋,我們以一個p=2的微觀經濟問題為例,給出回歸方程的幾何解釋和回歸系數的經濟意義。第二節(jié)回歸分析眾所周知,影響商品銷售量的因素主要包括商品本身的價格以及消費者的收入兩個方面。我們用y來表示某商品(彩電)的銷售量,用x1表示彩電價格,用x2表示消費者的收入水平。據此可建立二元線性回歸模型:第二節(jié)回歸分析在上式中,假定x2保持不變,則有:第二節(jié)回歸分析
β1即可解釋為在消費者收入x2保持不變時,彩電價格x1每增加一個單位,對彩電銷售量y的平均增加(減少)程度。第二節(jié)回歸分析假定價格x1保持不變,則有:
β2可解釋為在彩電價格x1保持不變時,消費者收入x2每增加一個單位,彩電銷售量y的平均增加程度。第二節(jié)回歸分析一般來說,對含有p個自變量的多元線性回歸,每個回歸系數βi表示在回歸方程中,其他自變量保持不變的情況下,自變量xi每增加一個單位時,因變量y的平均增加程度。因此,有時也把多元線性回歸的回歸系數稱為偏回歸系數。
第二節(jié)回歸分析為加深對此問題的理解,我們用下面的例子加以說明(1990~2004年間中國國內生產總值及第一、第二、第三產業(yè)增加值)。分別建立GDP對x1、x2、x3的多元線性回歸以及對x2
的一元線性回歸,在兩個方程中自變量x2系數有何差異?為什么?第二節(jié)回歸分析從幾何意義上講,一元線性回歸方程是一條直線;二元線性回歸方程是一個平面;多元線性回歸方程的圖形是一個超平面,無法用幾何圖形表示。
第二節(jié)回歸分析同一元線性回歸一樣,在根據各樣本數據擬合出回歸方程后,必須對其進行統計檢驗。多元線性回歸方程的顯著性檢驗與一元線性回歸方程相比既有相同之處,也有不同之處。(三)多元線性回歸方程的檢驗第二節(jié)回歸分析1.回歸方程的顯著性檢驗(F檢驗)對多元線性回歸方程的F檢驗就是要看自變量X1,X2,…,Xp從整體上對隨機變量y是否有明顯的影響。第二節(jié)回歸分析同一元線性回歸檢驗類似,多元線性回歸的F檢驗,仍然利用總離差平方和的分解式:簡寫為
第二節(jié)回歸分析據此,構造F檢驗統計量:第二節(jié)回歸分析方差來源自由度平方和平均平方和F值回歸殘差總和pn-p-1n-1SSRSSESSTSSR/pSSE/(n-p-1)SSR/pSSE/(n-p-1)多元線性回歸方差分析表第二節(jié)回歸分析y對X1,X2,…,Xp有顯著的線性關系,也即回歸方程是顯著的。
給定顯著性水平,當F≥Fα時,認為第二節(jié)回歸分析更通俗地說,就是接受“自變量全體對因變量y產生線性影響”這一結論犯錯誤的概率不超過第二節(jié)回歸分析2.回歸系數的顯著性檢驗(t檢驗)在多元線性回歸分析中,回歸方程顯著并不意味著每個自變量對y的影響都顯著,所以我們在F檢驗的基礎上,還需要對回歸系數進行顯著性檢驗,即t檢驗。第二節(jié)回歸分析給定一個顯著性水平(n-p-1),查出雙側檢驗的臨界值。當計算出的t值大于或等于臨界值時,則認為自變量與因變量的線性效果顯著;反之,則認為不顯著。第二節(jié)回歸分析在一元線性回歸中,回歸系數顯著性的t檢驗與回歸方程顯著性的F檢驗是等價的,而在多元線性回歸中,這兩種檢驗是不等價的。
第二節(jié)回歸分析
F檢驗顯著,只能說明因變量y對自變量X1,X2,…,Xp整體的線性回歸效果是顯著的,但不等于y對每個自變量的效果都顯著。反之,某個或某幾個自變量的系數不顯著,回歸方程的顯著性檢驗仍有可能是顯著的。第二節(jié)回歸分析
國際旅游外匯收入是國民經濟發(fā)展的重要組成部分,影響一個國家或地區(qū)旅游收入的因素包括自然、文化、社會、經濟、交通等多方面的因素。本例研究第三產業(yè)對旅游外匯收入的影響?!吨袊y計年鑒》將第三產業(yè)劃分為12個組成部分,分別為農林牧漁服務業(yè)、地質例1.國際旅游收入(F檢驗通過、t未通過)第二節(jié)回歸分析勘查水利管理業(yè)、交通運輸倉儲和郵電通信業(yè)、批發(fā)零售貿易和餐飲業(yè)、金融保險業(yè)、房地產業(yè)、社會服務業(yè)、衛(wèi)生體育和社會福利業(yè)、教育文化藝術和廣播、科學研究和綜合藝術、黨政機關、其它行業(yè)。選取1998年全國31個省級行政區(qū)數據,以國際旅游外匯收入為因變量,以如上12個行業(yè)為自變量作多元線性回歸。第二節(jié)回歸分析
某企業(yè)連續(xù)七年的銷售額、流通費用及利潤如表所示,試建立回歸模型,并預測當銷售額為540萬元,流通費為370萬元時的利潤及其95%的置信區(qū)間和預測區(qū)間。例2.企業(yè)利潤與銷售額、流通費用關系(預測)第二節(jié)回歸分析
某地區(qū)連續(xù)18年的水稻產量與播種面積、化肥使用量、生豬存欄數及降雨量的數據如下,試用線性回歸分析為該地區(qū)水稻產量尋求一個恰當的回歸模型,并據此預測當化肥使用量為98.2,生豬存欄數為78時的水稻產量以及置信水平為95%的置信區(qū)間和預測區(qū)間。作業(yè).水稻產量第二節(jié)回歸分析
1.采用逐步剔除的方法,對方程分布擬合,最后選出最理想的回歸模型。具體要求:
2.對比分析每剔除一個自變量后,F檢驗統計量,各自變量回歸系數及其t檢驗統計量的變化情況。第二節(jié)回歸分析
3.寫出最終的擬合方程和相應的預測值及其置信區(qū)間。4.以Word文檔形式,4A紙打印上交。5.內容要齊全,在具體分析之前,要將原始數據表格列上。
下周三上理論課時交齊!第二節(jié)回歸分析在多元線性回歸分析中,因為涉及到多個自變量,自變量的單位往往不同,同時數據的大小差異也往往很大,這就不利于放在同一標準上進行比較。
(四)多元線性回歸中原始數據的標準化第二節(jié)回歸分析為了消除量綱不同和數量級的差異所帶來的影響,就需要將樣本數據作標準化處理,然后用最小二乘法估計未知參數,求得標準化回歸系數。
第二節(jié)回歸分析此處數據標準化的公式為:
第二節(jié)回歸分析在多元線性回歸分析中,自變量的選擇無疑是極其重要的一個問題。在建立一個實際問題的回歸模型時,我們首先碰到的問題便是如何確定回歸自變量。一般情況下,我們大都是根據所研究問題的目的,結合經濟理論羅列出對因變量可能有影響的一些因素作為自變量。(五)多元線性回歸中自變量的選擇第二節(jié)回歸分析如果我們遺漏了某些重要的變量,回歸方程的效果肯定不會好;如果我們擔心遺漏了重要的變量,而考慮過多的自變量,在這些變量中,某些自變量對問題的研究可能并不重要,有些自變量數據的質量可能很差,有些變量可能和其他變量有很大程度的重疊。
第二節(jié)回歸分析如果回歸模型把這樣一些變量都選進來,不僅計算量增大許多,而且得到的回歸方程穩(wěn)定性也很差,直接影響到回歸方程的應用。
第二節(jié)回歸分析從20世紀60年代開始,關于回歸自變量的選擇成為統計學中研究的熱點問題。統計學家們提出了許多回歸選元的準則,并提出了許多行之有效的選元方法。
第二節(jié)回歸分析1.向前選擇法(Forward)
向前選擇法的思想是變量由少到多,每次增加一個,直至沒有可引入的變量為止。
第二節(jié)回歸分析具體做法是首先將全部m個自變量,分別對因變量y建立m個一元線性回歸方程,并分別計算這m個一元回歸方程的m個回歸系數的F檢驗值。第二節(jié)回歸分析將其記為:,選其最大者記為
第二節(jié)回歸分析給定顯著性水平,若,則首先將引入回歸方程,為了方便,設就是。接下來因變量y分別與第二節(jié)回歸分析個回歸方個二元線性回歸方程,對這計算F值,記作的回歸系數進行F檢驗,建立程中第二節(jié)回歸分析選其最大者記為
第二節(jié)回歸分析給定顯著性水平
如若,,則接著將引入回歸方程。第二節(jié)回歸分析此時,得到的回歸方程就是最終確定的方程。依照上述方法接著做下去,直至所有未被引入方程的自變量的F值均小于臨界值第二節(jié)回歸分析①從模型中沒有自變量開始;
概況來說,向前選擇法的基本步驟是:②對K個自變量分別進行擬合對因變量的一元線性回歸模型,共有K個,然后找出F統計量的值最高的模型及其自變量,并將其首先引入模型;
第二節(jié)回歸分析④如此反復進行,直至模型外的自變量均無統計顯著性為止。
③分別擬合引入模型外的(K-1)個自變量的線性回歸模型;
第二節(jié)回歸
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 農業(yè)(農林牧漁)企業(yè)農產品成本核算計算方法
- (完整版)標準圖集下載
- 長沙2024年湖南劉少奇故里管理局招聘普通雇員筆試歷年典型考點(頻考版試卷)附帶答案詳解
- 郵件包裹運輸市場營銷策略考核試卷
- 踏步機租賃考核試卷
- 鋁冶煉與生態(tài)文明建設規(guī)劃實踐探索路徑研究思考展望考核試卷
- 絹紡廠生產效率提升與優(yōu)化考核試卷
- 閥門與旋塞的可靠性工程考核試卷
- 非金屬礦物在石油鉆探中的應用考核試卷
- 風力發(fā)電場選址研究考核試卷
- 空壓機操作安全培訓
- 自然辯證法論述題146題帶答案(可打印版)
- 工程施工日志60篇
- 特殊作業(yè)安全管理監(jiān)護人專項培訓課件
- 2024年中國工業(yè)級硝酸銨市場調查研究報告
- 成品油出入庫管理制度
- 電梯日管控、周排查、月調度內容表格
- 學生厭學不愿上課協議書范文
- 鄉(xiāng)村振興課件教學課件
- 2024年版移動通信基站專用房屋及土地租賃合同
- 部編版五年級語文上冊第六單元教案(共6課時)
評論
0/150
提交評論