SPSS課件第9章_第1頁
SPSS課件第9章_第2頁
SPSS課件第9章_第3頁
SPSS課件第9章_第4頁
SPSS課件第9章_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第三篇 SPSS深入分析第三篇 SPSS深入分析本篇要點導讀:第9章 相關分析與廣義線性模型 一般相關分析和偏相關分析,偏相關系數(shù)計算,以及廣義線性模型簡單應用; 第10章 回歸分析 一元線性回歸、多元線性回歸、非線性回歸及Logistic回歸的模型和應用;第11章 聚類分析和判別分析 聚類和判別分析的適用條件,聚類分析包括層次聚類和K-均值聚類,判別分析包括Fisher判別和Bayes判別; 第12章 因子分析和對應分析 因子分析的一般模型,因子分析的應用;對應分析的一般模型和應用;第13章 時間序列分析 時間序列的建立,預處理,時間序列中常用的ARIMA模型和季節(jié)調整模型。 本篇說明:1.

2、 本篇講述的內容都是涉及兩個以上變量的,稱為多元統(tǒng)計分析,本篇重點說明多元統(tǒng)計分析方法的應用條件,統(tǒng)計方法的模型和統(tǒng)計方法的SPSS操作實現(xiàn)即結果分析;2. 雖然本篇對各種多元統(tǒng)計分析方法的模型進行了比較詳細的介紹,然而本書畢竟是以SPSS應用為重點,因此不可能對多元統(tǒng)計分析模型面面俱到詳細介紹,模型的詳細內容請讀者參考專業(yè)多元統(tǒng)計分析書籍;3. 請讀者在閱讀本篇時注意兩個問題:一方面要注意各種多元統(tǒng)計分析方法應用的條件,條件不滿足不能輕易使用多元統(tǒng)計分析模型;另一方面要注意歸納各種多元統(tǒng)計方法之間的區(qū)別和聯(lián)系,書中列出了各方法的主要區(qū)別和聯(lián)系,讀者注意理解。同時讀者也可能自己發(fā)現(xiàn)方法間新的區(qū)

3、別與聯(lián)系。4. 由于篇幅關系,對于前面的基本SPSS操作和一元統(tǒng)計分析SPSS操作本篇不再詳細說明,只是列出簡要操作步驟,請讀者注意自行練習,操作驗證。第9章 相關分析與一般線性模型在前面的第2篇中,我們講解的統(tǒng)計方法基本都是一元統(tǒng)計方法,只分析一個變量。這其中有幾個例外:多選項分析中涉及多個SPSS變量,但是經(jīng)過多選項集定義以后,還是將多選項集當作一個變量在分析;參數(shù)檢驗和非參數(shù)檢驗中都有配對樣本檢驗,也涉及多個SPSS變量,只是對于配對變量來說,都是同一性質的變量,分析時也是結合在一起分析的,因此可以算作分析一個變量;方差分析中涉及多個變量;但是方差分析主要是分析觀測變量,控制變量只是用來

4、對觀測變量分類的,因此仍然是分析一個變量。當然一元統(tǒng)計分析的模型還有很多,本書限于篇幅只是列舉了SPSS中常用的功能,對于其他模型有興趣的讀者可以查閱相關統(tǒng)計專業(yè)書籍。從本章開始,我們開始介紹多元統(tǒng)計分析的模型和方法,和一元統(tǒng)計分析對應,多元統(tǒng)計分析方法分析的是多個性質不同的SPSS變量;一元統(tǒng)計只是分析總體的某個特征,而多元統(tǒng)計分析則是分析總體的多個特征,分析這些特征各自的情況,并分析這些特征的聯(lián)系,對這些特征進行處理的方法等等。因此多元統(tǒng)計的問題比一元統(tǒng)計復雜,處理的方法也更多。在本篇中將給讀者介紹SPSS中常用的多元統(tǒng)計方法:相關分析、回歸分析、聚類和判別、因子與對應分析,以及時間序列分

5、析。相關分析是比較簡單的多元分析方法,但是也是經(jīng)常使用的多元統(tǒng)計分析方法,它能快速發(fā)現(xiàn)總體特征(變量)之間關系,并檢驗這些特征的顯著性。這一方面對于簡單的統(tǒng)計分析已經(jīng)可以提供足夠的結論,另一方面也為后續(xù)的更加復雜的多元統(tǒng)計分析模型提供條件和依據(jù)。因此,相關分析在多元統(tǒng)計分析中的作用是非常大的。一般線性模型是方差分析的推廣和延伸,其作用是分析一個或多個自變量對一個或多個應變量的線性關系,其內容非常豐富,包含方差分析、重復測量方差分析、多元線性回歸等等,在第8章我們已經(jīng)接觸過它的強大功能了,掌握一般線性模型對于我們提高自身的統(tǒng)計分析能力有很大幫助。我們就從這兩個簡單而又重要的方法開始學習多元統(tǒng)計分

6、析的模型。9.1 相關分析現(xiàn)代自然科學研究、經(jīng)濟檢驗、企業(yè)管理等活動中普遍存在的相互影響、相互依存的關系可以概括為兩大類:函數(shù)關系和相關關系,函數(shù)關系是一種嚴格的確定對應關系,而相關關系是一種不要求確定對應,具有一定隨機性的關系,實際中,并且相關關系更具有一般性。相關分析是處理變量之間相關關系的一種統(tǒng)計方法。通過相關分析,可以了解兩個或兩個以上的變量之間是否有相關關系,相關關系的方向、形式以及相關密切程度。下面我們就為讀者簡單介紹相關分析。9.1.1 引例,相關分析概述相關分析是用來研究變量間相關關系的,因此讀者必須對相關關系有一個比較清楚的概念。在現(xiàn)實生產(chǎn)生活中,各種事物特征、各種現(xiàn)象之間相

7、互聯(lián)系、相互制約、相互依存,某些現(xiàn)象發(fā)生變化時,另一現(xiàn)象也會隨之變化,例如,居民收入的高低會影響銀行儲蓄額的增減,商品價格的變化會影響商品銷售量的變化等等。這些影響依存的關系又可分為函數(shù)關系和相關關系兩大類。1. 相關關系的定義函數(shù)關系是指現(xiàn)象、變量之間一種嚴格的確定性關系。在這種關系中,當一個變量數(shù)值確定時,根據(jù)函數(shù)關系,另一變量的取值也就唯一確定了,例如:恒速運動的物體運動位移和時間的關系就是函數(shù)關系。相關關系是指客觀變量之間確實存在的,但數(shù)量上不是嚴格對應的依存關系。在這種關系中,對于其中一個變量的確定取值,另一個變量取值并不是確定的,而是有多個不同的值與之對應。例如投資和GDP增長有密

8、切關系,一般說來投資加大會促進GDP增長,但是固定的投資值與之對應的GDP增長值卻不固定,這是因為GDP增長還會受到消費、經(jīng)濟環(huán)境、國家政策等諸多因素影響,會圍繞一個平均數(shù)上下波動。函數(shù)關系和相關關系并沒有嚴格的界限,在實際中,相關關系更具一般性,因為即使是函數(shù)關系,也會因為測量誤差,偶然因素的影響使得結果并不是嚴格確定的,因此函數(shù)關系就變成了相關關系;而相關關系很多場合也要借助函數(shù)關系的模型和公式來表達,只是加上隨機因素的擾動,如果能夠完全消除擾動,那么相關關系就轉化為函數(shù)關系了。2. 相關關系的種類弄清楚兩種關系的聯(lián)系后,我們來看相關關系的分類:相關關系按照涉及的變量個數(shù),可以分為單相關和

9、復相關。單相關是指研究一個變量和另一個變量之間的相關關系,復相關是指研究一個變量和另一組變量之間的相關關系,當然還有研究一組變量和另一組變量之間的多對多的相關關系,我們稱之為典型相關,因為SPSS沒有提供典型相關的菜單,因此本書不介紹典型相關。相關關系按照表現(xiàn)形式不同,分為直線相關和曲線相關,直線相關又稱線性相關,是指一個變量變化時,其變化量與另一個變量的變化量有大致按比例變化,兩個變量的散點圖近似落在一條直線附近。曲線相關又稱非線性相關,是指兩個變量的變化不是直線變化,散點圖也不是落在直線附近,而是呈現(xiàn)比較復雜的變化情況。相關關系按照相關方向不同,分為正相關和負相關,如果兩個變量變化方向相同

10、,即同增同減,則兩個變量正相關;相反,如果兩個變量一增一減,則是負相關。另外相關關系按照相關程度,還可以將相關關系分為不相關、低度相關、顯著相關、高度相關和完全相關,我們將結合相關關系的測定對相關關系的程度進行解釋。3. 相關關系的測定要判斷兩個變量有沒有相關關系,主要從兩方面:一是定性分析,二是定量分析。在定量分析之前需進行定性分析,定性分析主要是根據(jù)理論知識、專業(yè)知識和實踐經(jīng)驗,對變量之間是否有相關關系進行判斷,即回答相關關系的合理性和科學性問題,例如:GDP的增長和兒童體重的增加在理論上并沒有相關關系,因為兒童體重始終會增加,如果一段時間內GDP也增長,數(shù)據(jù)上可能表現(xiàn)出一定的相關性,但是

11、這種相關性沒有科學依據(jù),如果這段時間GDP停止增長,那么這種相關性就沒有了,因此這只是一段時間內巧合。同樣的道理,大樹下螞蟻窩的數(shù)量和經(jīng)濟增長率之間也呈現(xiàn)數(shù)據(jù)上的相關性,但是依然沒有科學依據(jù),是一種偶然。許多讀者進行相關分析時是不管變量是什么,直接就分析數(shù)據(jù)的相關性了,這顯然是不可取的。一定要首先確定變量之間缺失存在理論上的相關可能,在定性分析的基礎上才能進行定量的分析,判斷相關的方向、形式及密切程度,確定相關關系,否則,就會鬧螞蟻窩和經(jīng)濟增長高度相關的笑話。相關分析的工具主要有相關表、相關圖和線性相關系數(shù)等,下面我們通過一個簡單的例子來看看這些工具:例9-1 某企業(yè)1992-2001年某種產(chǎn)

12、品的產(chǎn)量與單位成本資料如表9-1所示:請分析該企業(yè)產(chǎn)量與單位成本是否存在相關關系,相關關系方向、形式和相關程度如何?表9-1 某企業(yè)產(chǎn)品產(chǎn)量與單位成本數(shù)據(jù)年份12345678910產(chǎn)量(萬件)68911121415171920單位成本(元)52505048494746444342本例中,要求判斷是否存在相關關系,分析相關的方向、形式和程度,在進行定量分析之前要進行定性分析,產(chǎn)品的產(chǎn)量和單位成本之間是可能存在相關關系的,因為隨著產(chǎn)量增加形成規(guī)模效應以后,可以降低產(chǎn)品的單位成本,因此可以進行定量分析。此時要充分利用相關分析的三種主要工具。相關表是一種統(tǒng)計表,它是直接觀察原始資料,將一變量按照升序或

13、降序排列,觀察對應的另一變量的值,如果另一變量取值也有相應的增加或減小趨勢,則可以判斷存在相關關系,如果另一變量取值大小隨機,則無相關關系。同時可以判斷相關關系的方向,如果同增同減則是正相關,反之為負相關。從本例中看表9-1中產(chǎn)量是按照升序排列的,而單位成本明顯有減少的趨勢,因此可以判斷相關關系存在,且為負相關,但是相關關系的形式、程度不宜從相關表直接得出,應該利用其他的相關分析工具。 相關圖也稱散點圖,它是用一個變量作為x軸,另一個變量作為y軸,將兩個變量對應取值作為坐標,將所有數(shù)據(jù)在圖中描繪出來,用以表明相關點分布狀況的圖形,從相關圖可以看出變量的相關關系、相關方向、相關形式,大致也可以看

14、出相關程度,但是相關程度沒有具體數(shù)值描述,圖9-1是表9-1數(shù)據(jù)描繪的散點圖。圖9-1 產(chǎn)量與單位成本散點圖從圖中可以看出,產(chǎn)量和單位成本呈現(xiàn)負相關關系,相關關系的形式從散點的分布可以出,大致是分布在一條直線附近,因此是線性相關,至于相關程度主要從散點離直線的遠近來判斷,如果所有的散點都在直線上,則是完全相關,如果離直線很近,則相關程度高,離直線都較遠,那么相關程度就較低,本例來看,相關程度較高。相關圖雖然能大致看出相關關系的方向、形式、相關程度,但是這種判斷并不精確,根據(jù)圖形也無法對相關程度是否顯著進行判斷,因此我們還需要將相關程度數(shù)值化的相關分析工具,這就是相關系數(shù)。相關系數(shù)是用以反映變量

15、之間相關關系密切程度的統(tǒng)計量,依據(jù)相關關系之間的不同特性,相關系數(shù)有多種,反映兩變量線性相關關系的統(tǒng)計量稱為線性相關系數(shù),反映兩變量非線性相關關系的稱為非線性相關系數(shù)。本節(jié)我們主要討論線性相關系數(shù),根據(jù)線性相關系數(shù)計算方法不同,線性相關系數(shù)具體又分為:Person簡單相關系數(shù):這是最簡單,也是最常用的相關系數(shù),用于度量兩個間隔尺度變量之間的相關性,其數(shù)學定義為:式中n為樣本數(shù),代表兩個變量的樣本觀測值,計算出的r稱為樣本相關系數(shù),它實質是兩變量樣本標準化后的乘積再取平均數(shù),因此也稱為積矩相關系數(shù)。它有如下特點:Ø x、y對稱,x、y變量互換位置,r不變;Ø 無量綱數(shù),r是標

16、準化后計算的,因此無量綱;Ø 簡單相關系數(shù)只能刻畫線性相關關系,不能對非線性相關很好刻畫。Spearman等級相關系數(shù):這是利用變量的秩構造的線性相關系數(shù),是一種非參數(shù)的方法,由于只利用變量的秩,順序尺度變量也可以計算Spearman等級相關系數(shù),且不易受極端值的影響。其計算公式與Person簡單相關系數(shù)類似,只是使用變量的秩而非變量的值進行計算,公式為:由于:上述公式可以簡化為:Spearman等級相關系數(shù)的特點是:Ø 如果兩變量正相關性較強,則它們秩變化同步,則D值較小,等級相關系數(shù)趨于1;Ø 如果兩變量負相關性較強,則它們秩變化相反,則D值較大,等級相關系數(shù)

17、趨于-1;Ø 如果兩變量相關性較弱,則它們秩變化互不影響,則D值趨于中間值,等級相關系數(shù)趨于0。Kendall相關系數(shù):這是采用非參數(shù)方法度量順序尺度變量間的線性相關關系,它利用變量秩數(shù)據(jù)計算一致對數(shù)目(U)和非一致對數(shù)目(V)來構造統(tǒng)計量,例如例9-1中數(shù)據(jù)的秩為:(1,10)、(2,9)、(3,9)、(4,6)、(5,7)、(6,5)、(7,4)、(8,3)、(9,2)、(10,1),一致(即秩同時增大)的對數(shù)只有1對(4,6)(5,7),即U=1;而秩不一致對數(shù)為44對,即V=44。Kendall 相關系數(shù)定義為:顯然,Kendall 相關系數(shù)具有如下性質:Ø 如果兩

18、變量正相關性強,秩變化同步,U應該較大, V應該較小,趨于1;Ø 如果具有較強負相關關系,秩變化相反,V較大而U較小,趨于-1;Ø 如果相關關系弱,則U、V大致相等,趨于0。根據(jù)計算,在例9-1中,三個相關系數(shù)為:計算出的數(shù)值很接近,從而可以判斷出兩個變量是負相關的,并且高度線性相關。 關于相關的程度,一般認為r=0,完全不相關;0<|r|<0.4,低度線性相關;0.4<|r|<0.7,顯著線性相關;0.7<|r|<1,高度線性相關;|r|=1,完全相關。9.1.2 顯著性檢驗9.1.1中,我們已經(jīng)計算出Person簡單相關系數(shù),Spea

19、rman等級相關系數(shù)和Kendall 相關系數(shù)的數(shù)值,但是我們還需要通過顯著性檢驗來確認這些相關系數(shù)在統(tǒng)計上是否顯著不為0。根據(jù)相關系數(shù)的不同,其統(tǒng)計檢驗的統(tǒng)計量也不相同,構建的假設檢驗也略有差異,下面我們就分別介紹:1. Person相關系數(shù)假設檢驗:其檢驗的原假設是相關系數(shù)等于0,即相關系數(shù)不顯著,檢驗t統(tǒng)計量為:在原假設為真的條件下,t統(tǒng)計量服從自由度為n-2的t分布。2. Spearman相關系數(shù)假設檢驗檢驗原假設也是相關系數(shù)等于0,在小樣本下,Spearman等級相關系數(shù)就是檢驗統(tǒng)計量,在大樣本時,采用正態(tài)檢驗統(tǒng)計量:當原假設為真時,小樣本下統(tǒng)計量服從Spearman分布,大樣本下Z

20、統(tǒng)計量近似服從標準正態(tài)分布。3. Knedall相關系數(shù)假設檢驗檢驗的原假設也是相關系數(shù)等于0,在小樣本下,Kendall 相關系數(shù)就是檢驗統(tǒng)計量,在大樣本時,采用正態(tài)統(tǒng)計量:當原假設為真是,小樣本統(tǒng)計量服從Kendall分布,大樣本Z統(tǒng)計量近似服從標準正態(tài)分布。SPSS會自動根據(jù)統(tǒng)計量觀測值計算相應的檢驗概率P值,根據(jù)P值和顯著水平比較就能夠完成假設檢驗了。在下面的SPSS操作中將具體介紹如何進行相關分析和檢驗。9.1.3 相關分析的SPSS操作對于例9-1,需要首先建立數(shù)據(jù)文件,這點留給讀者完成,一共建立三個變量分別代表年份、產(chǎn)量和單位成本,建好的數(shù)據(jù)文件可見光盤(9-1.sav)對于相關

21、表的操作,只需按照一個變量,例如產(chǎn)量排序,觀察令一個變量是否有順序就可以得出兩個變量是否相關,相關方向是正相關還是負相關的結論,排序操作就留給讀者自行完成了。對于相關圖,是SPSS中經(jīng)常用到的一個操作,因此比較重要,我們進行如下操作:Step1: 選擇【Graphs】菜單【Legacy Dialogs】菜單【Scatter/Dot】菜單【Simple Scatter】菜單在圖9-2所示的對話框中,將變量“單位成本(元)(dwcb)”選入Y Axis框中,指定該變量為Y軸變量,將變量“年產(chǎn)量(萬件)(cl)”選入X Axis框中,指定該變量為X軸變量。圖9-2 散點圖對話框Step2:進行其他設

22、置在對話框中,還可以選擇標注數(shù)值的變量選入Set Marked by框中,可以將標準名稱的變量選入Labeled Cases by框中,還可以通過右邊的設置散點圖標題,通過按鈕計算樣本統(tǒng)計量和處理缺失數(shù)據(jù),這里由于僅僅是看散點圖判斷相關性,就不進行其他的操作了,設置完成以后點擊完成操作。關于相關分析我們也介紹其操作步驟:Step1: 選擇【Analysis】菜單【Correlate】菜單【Bivariate】菜單在圖9-3的對話框中,將需要進行相關分析的變量“年產(chǎn)量(萬件)”、“單位成本(元)”選入Variables:對話框中。單雙側檢驗選項相關系數(shù)選項圖9-3 相關分析主對話框Step2:

23、選擇需要計算的相關系數(shù)和需要完成的假設檢驗在9-3對話框下部“Correlation Coefficients”復選框組中選擇需要計算的相關系數(shù)種類,選項Person表示Person簡單相關系數(shù),適宜兩個變量都是間隔尺度變量的情形;選項Kendall tau-b表示Kendall 相關系數(shù),適宜間隔尺度或順序尺度變量;選項Spearman表示Spearman等級相關系數(shù),適宜間隔尺度和順序尺度變量。由于本例中兩個變量都是間隔尺度變量,因此三個系數(shù)我們都選中,要求計算。在“Correlation Coefficients”復選框組中的下方的“Test of Significance”單選框中,選

24、擇進行單尾還是雙尾檢驗,此處選擇默認雙尾檢驗。Step3: 完成其他設置在對話框下方按鈕上方還有一個Flag significant correlations復選框,選擇此復選框后在結果中SPSS會自動在顯著的相關系數(shù)右上角作上標記。同時還可以點擊,在圖9-4所示的子對話框選擇計算統(tǒng)計量和處理缺失數(shù)據(jù)。設置完成以后點擊完成操作。圖9-4 Option子對話框9.1.4 相關分析結果分析下面我們看相關分析的結果:相關圖的結果已經(jīng)在圖9-1中列出了,這里就不再重復列出了。Person簡單相關分析的結果如表9-2所示:從表中結果可以看到,Person簡單相關系數(shù)等于-0.987,顯然兩變量是高度負相

25、關,而相關系數(shù)的假設檢驗P值接近于0,說明相關系數(shù)是顯著不為0的,注意到相關系數(shù)右上角有兩個“*”,說明相關系數(shù)在0.01的顯著水平上是顯著的,即檢驗P值小于0.01,這也說明兩個變量的相關關系顯著成立。表9-3顯示了Spearman相關系數(shù)和Kendall相關系數(shù),兩個變量的Spearman等級相關系數(shù)等于-0.944,顯示變量高度負相關,相關系數(shù)比Person相關系數(shù)略小,可能是采用秩而沒有采用值的影響,檢驗的P值接近于0,根據(jù)相關系數(shù)右上角的標記也是在0.01顯著水平下顯著。Kendall 相關系數(shù)等于-0.985,兩變量高度負相關,檢驗P值接近0,而且根據(jù)相關系數(shù)標記,在0.01顯著水

26、平下顯著。表 9-2 Correlations年產(chǎn)量(萬件)單位成本(元)年產(chǎn)量(萬件)Pearson Correlation1-.987*Sig. (2-tailed).000N1010單位成本(元)Pearson Correlation-.987*1Sig. (2-tailed).000N1010*. Correlation is significant at the 0.01 level (2-tailed).表9-3 Correlations年產(chǎn)量(萬件)單位成本(元)Kendall's tau_b年產(chǎn)量(萬件)Correlation Coefficient1.000-.944

27、*Sig. (2-tailed).000N1010單位成本(元)Correlation Coefficient-.944*1.000Sig. (2-tailed).000.N1010Spearman's rho年產(chǎn)量(萬件)Correlation Coefficient1.000-.985*Sig. (2-tailed).000N1010單位成本(元)Correlation Coefficient-.985*1.000Sig. (2-tailed).000.N1010*. Correlation is significant at the 0.01 level (2-tailed).

28、如果想查看具體的P值到底是多少,需要在SPSS輸出窗口Viewer中,雙擊P值對應的單元格,進入表格編輯狀態(tài),就可以看到P值的準確數(shù)值,在其他顯示P值的窗口中也可以通過類似操作查看P值。9.2 偏相關分析相關分析中通過相關系數(shù)可以獲知變量之間相關關系的方向、強弱。然而,相關系數(shù)有時并不是描述變量間相關關系的最好統(tǒng)計指標,往往會有夸大和縮小的嫌疑。在前面對相關分析的定性分析中我們已經(jīng)遇到這樣一類問題:兒童體重增加和GDP增長呈現(xiàn)數(shù)據(jù)上的正相關關系,但是我們從理論上否定了這種相關關系的存在。那又是什么原因導致了數(shù)據(jù)上體現(xiàn)出相關關系了呢?這是因為,兒童體重的增加包含了時間的因素,隨著時間的往后推移,

29、兒童體重不斷增加,兩者成正相關;如果一段時間內GDP持續(xù)增長,那么其中也含有時間的因素,隨著時間推移,GDP不斷增長。從而,通過“時間”這一紐帶,原來不相關的變量從數(shù)據(jù)上看就“相關”了,但是,如果扣除時間的因素,兩個變量就沒有相關關系了,或者GDP中如果不含有時間因素(例如GDP保持微幅震蕩),那么兩個變量也沒有相關關系了。在此例中,可以看到,線性相關系數(shù)擴大了兩個變量的相關性。由此可見,線性相關系數(shù)可能還有兩方面的因素:一是兩個變量直接的相關信息,二是兩個變量通過中間相關因素“傳遞”的相關信息。如果兩種信息相關方向相同,則夸大相關程度,如果兩種信息相關方向相反,則減小相關程度。在這種傳遞信息

30、特別大的情況下,僅僅利用線性相關系數(shù)來評價變量間的相關性是不準確的,需要在剔除中間相關因素“傳遞”的相關信息基礎上,計算變量之間直接的相關程度,偏相關分析就是為了處理這類問題而引入的統(tǒng)計分析方法。9.2.1偏相關分析概述偏相關分析也稱凈相關分析,它在控制其他變量線性影響的條件下,分析兩變量間的線性相關,采用的工具是偏相關系數(shù)(凈相關系數(shù))??刂谱兞總€數(shù)稱為偏相關系數(shù)的階數(shù),如果控制變量是1個,稱為1階偏相關系數(shù),控制變量是2個稱為2階偏相關系數(shù),沒有控制變量時,稱為零階偏相關系數(shù),即是Person簡單相關系數(shù)。進行偏相關分析需要進行兩大步驟:第一、計算樣本偏相關系數(shù),用以反映兩變量的凈相關程度

31、。假設兩相關變量是x和y,控制變量是z,1階偏相關系數(shù)定義為:式中,、分別表示變量x和y、y和z、x和z的Person簡單相關系數(shù)。偏相關系數(shù)的取值也是從-1到1,符號正負代表凈相關的方向。絕對值越大,代表凈相關程度越高,這些性質和普通相關系數(shù)是相同的。第二、針對樣本觀測值,對兩變量代表的兩總體的凈相關顯著性進行假設檢驗。假設檢驗的原假設是兩總體凈相關系數(shù)與0無顯著差異,假設檢驗的樣本統(tǒng)計量為:式中,q為偏相關的階數(shù),即控制變量的個數(shù)。當原假設為真時,統(tǒng)計量服從自由度為n-q-2的t分布。SPSS會自動計算偏相關系數(shù)的樣本觀測值并計算相應的概率P值,根據(jù)概率P值就可以完成假設檢驗了。9.2.2

32、引例,偏相關分析SPSS操作本小節(jié)我們將對前面的例9-1進行偏相關分析,通過具體分析和操作的過程,讓讀者了解偏相關分析的原理和操作過程。例9-2 在前面的例9-1中,因為年銷量和單位成本都含有時間因素,年銷量隨時間而增加,單位成本隨時間而下降,現(xiàn)考慮去除時間的影響而分析銷量和單位成本的凈相關關系。同時通過凈相關系數(shù)和簡單相關系數(shù)的比較說明時間因素的作用。在例9-1中,銷量和單位成本是高度負相關,但是這種相關性中含有時間因素的影響。在本例中,時間和銷量是正相關,時間和單位成本是負相關,扣除時間影響以后,銷量和單位成本的相關關系將通過偏相關系數(shù)來描述,而時間就是控制變量,本例中選擇年份作為控制變量

33、。計算銷量和單位成本的偏相關系數(shù),進行如下操作:Step1: 選擇【Analysis】菜單【Correlate】菜單【Partial】菜單在圖9-5的對話框中,中間的Variables框是進行相關分析的變量框,而下面的Controling for:是控制變量框,我們將變量“年產(chǎn)量(萬件)(cl)”和“單位成本(元)(dwcb)”選入相關分析變量框,將“年份(year)”選入控制變量框。Step2: 選擇需要完成的假設檢驗和進行其他設置在圖9-5左下方Test of Significance對話框中,選擇進行單尾檢驗還是雙尾檢驗,這里選擇雙尾檢驗,同時勾選Display actual signi

34、ficance level復選框,表示要顯示檢驗概率P值。同樣可以點擊同時還可以點擊,在圖9-4所示的子對話框選擇計算統(tǒng)計量和處理缺失數(shù)據(jù)。設置完成以后點擊完成操作??刂谱兞靠驁D9-5 偏相關分析主對話框9.2.3 偏相關分析結果分析下面我們來看偏相關分析的結果:表9-4 CorrelationsControl Variables年產(chǎn)量(萬件)單位成本(元)年份年產(chǎn)量(萬件)Correlation1.000-.727Significance (2-tailed).027df07單位成本(元)Correlation-.7271.000Significance (2-tailed).027.df7

35、0表9-4列出偏相關分析的結果,在扣除時間因素的影響后,年產(chǎn)量和單位成本的偏相關系數(shù)為-0.727,比簡單相關系數(shù)-0.987相關程度降低了,說明時間因素在兩個變量的相關關系中起到了一定的影響。在扣除了時間因素以后,單位成本和年產(chǎn)量的偏相關系數(shù)檢驗P值為0.027,如果假定顯著水平是0.05,則應拒絕原假設,認為偏相關系數(shù)顯著不為0,說明扣除了時間因素影響以外,年產(chǎn)量和單位成本仍然是顯著的負相關關系,凈相關程度比簡單相關系數(shù)小,說明時間因素放大了兩個變量的相關關系。5.1 9.3 一般線性模型在第8章多因素方差分析時,我們已經(jīng)利用了一般線性模型中Univatiate菜單的強大功能,但是一般線性

36、模型并不僅僅是用來進行多因素方差分析,還可以完成許多工作,例如實驗設計。另外一般線性模型的Mulvariate過程還可以進行多元方差分析,限于專業(yè)知識的復雜,我們在這一節(jié)將簡要介紹這些方法。9.3.1 方差分析的補充由于現(xiàn)實世界的復雜多變,人們往往用實驗來幫助我們了解世界,獲取知識和信息,統(tǒng)計學在實驗設計中發(fā)揮了越來越大的作用。試想,一個設計混亂,控制糟糕的實驗,所獲取的信息不僅不能幫助我們了解事物的真實情況,反而會起到反作用,將真實的信息淹沒甚至扭曲,讓我們得不到有用的信息或者得到錯誤的信息。因此,周詳和有序的實驗設計是非常重要的?,F(xiàn)在許多實驗設計方法都被提出并獲得了不同程度的發(fā)展。本小節(jié)將

37、介紹一些常用的實驗設計方法,介紹其基本原理。1. 完全隨機設計(Completely Random Design)完全隨機設計也就是我們第8章研究過的單因素方差分析的推廣。該設計只能處理一個因素,將實驗對象隨機的分配到該因素各水平?jīng)Q定的不同組中,觀察實驗效應。各組樣本數(shù)可以相等,也可以不等。然后再通過單因素方差分析考察總體在控制因素各水平上是否有顯著差異。該設計的優(yōu)點是簡單容易實行,缺點是每次只能實驗一個因素,效率較低。2. 配伍設計(Randomized Block Design)配伍設計也叫隨機區(qū)組設計,或稱雙因素無重復實驗設計,可以分為兩種情況:第一、對同一個實驗對象在同一控制因素不同水

38、平間的比較;第二、將幾個實驗對象按一定條件劃分成配伍組,再將每一配伍組的實驗對象隨機分配到各個處理組去。所謂配伍是指兩個因素的水平進行配對,假如第一因素有m個水平,第二個因素有n個水平,那么共有mn個配伍。將配伍組的實驗對象隨機分配到處理組中,得到的結果就是配伍設計的數(shù)據(jù),配伍設計一般用兩因素方差分析來設計,只分析其主效應就可以了。3. 交叉設計(Cross-over Design)交叉設計是一種特殊的自身對照設計,即根據(jù)自身的處理方法按照不同順序進行排列以獲取處理數(shù)據(jù),以平衡的兩階段交叉設計為例,假設有A、B兩種處理方法,我們可以將實驗對象分成兩組,分別采用AB和BA的順序進行處理,即一組先

39、用A方法處理,經(jīng)過一段時間,再用B方法處理,間隔一段時間是保證兩種方法效果是獨立的;另一組先用B方法處理,經(jīng)過一段時間,再用A方法處理。交叉設計的數(shù)據(jù)可以用方差分析法來進行統(tǒng)計,所觀察到的數(shù)據(jù)變異有如下幾個因素影響:處理效應、階段效應、順序效應和個體隨機差異。其中處理效應是我們關心的,而順序效應是在統(tǒng)計分析中應該被忽略的,否則交叉設計就不能進行,當然,消除順序效應的方法就是選擇較長的間隔時間以保證兩個處理獨立。4. 析因設計(Factorial Design)在經(jīng)濟學研究中,往往涉及很多因素,這些因素都是互相聯(lián)系,互相制約的。一個因素的變化很可能引起其他相關因素的變化。當因素之間存在相關關系時

40、,析因設計是一種理想的設計方案。我們以最簡單的兩因素析因分析來說,不僅可以檢驗因素各水平是否有顯著差異,而且還能檢驗交互作用。在析因分析中,當交互作用各水平上差異顯著時,當主要分析交互作用,對于主效應的分析意義就不大了。5. 正交設計(Orthoganal Design)當實驗設計的因素超過三個以上,因素之間又存在交互作用時,可以使用正交設計。他利用統(tǒng)計學家專門設計的一套規(guī)格化正交表將各試驗因素、各水平之間的組合進行均勻調整,從而可以用較少的、有代表性的處理組合數(shù),提供充分的信息。與普通多因素實驗設計相比,它仍然可以分析主效應和交互作用,同時大大介紹樣本量,是一種高效、快速多變的多因素實驗設計

41、方法。另外,對于實驗設計還有拉丁方實驗設計、星點實驗設計等,此處就不再介紹了,下面我們來看配伍實驗的一個例子。9.3.2 引例,實驗設計隨機效應模型例9-3 某地區(qū)關心某項刺激中小型企業(yè)的政策落實情況及效果,抽取了10家中小型企業(yè),分別在記錄企業(yè)在政策實施之前,實施之中和實施之后的年銷售額(萬元),數(shù)據(jù)見表9-5,試問中小企業(yè)在三個不同時期的營業(yè)額有無顯著差異? 本例中,顯然數(shù)據(jù)的特點和配對數(shù)據(jù)特別像,但是這里有三組數(shù)據(jù),不太適合用配對樣本t檢驗的完成,否則會增大犯第一類錯誤的概率。當然,讀者可以考慮用非參數(shù)檢驗的Friedman檢驗來完成,這不失為一條解決途徑,有興趣的讀者可以自行驗證,但是

42、使用非參數(shù)方法的樣本量不能太小,這里10個樣本量顯然太少。因此,本例采用配伍實驗設計來完成。 首先根據(jù)數(shù)據(jù)的特點,進行配伍,這里有兩個因素,一個是三個時期,二是10家企業(yè),我們按照這兩個因素進行配伍,得到30個配伍,此時需要在數(shù)據(jù)集文件中建立三個變量:時期、企業(yè)、營業(yè)額,建好的數(shù)據(jù)見光盤(9-2.sav)。下面就開始分析,由于每種配伍只有一個數(shù)據(jù),因而無法進行交互作用分析,只能分析主效應。進行如下操作:Step1: 選擇【Analysis】菜單【General Linear Model】菜單【Univariate】菜單 表9-5 某地區(qū)企業(yè)政策實施三階段銷售額企業(yè)編號實施前銷售額(萬元)實施中銷售額(萬元)實施后銷售額(萬元)190.62142.2587.38287.46163.4865.27346.5066.7168.414175.80166.33210.545101.20145.25194.25647.31167.2365.27773.58167.56200.028104.32125.45100.01985.46120.10

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論