SAS系統(tǒng)和數(shù)據(jù)分析Spearman等級相關(guān)分析_第1頁
SAS系統(tǒng)和數(shù)據(jù)分析Spearman等級相關(guān)分析_第2頁
SAS系統(tǒng)和數(shù)據(jù)分析Spearman等級相關(guān)分析_第3頁
SAS系統(tǒng)和數(shù)據(jù)分析Spearman等級相關(guān)分析_第4頁
SAS系統(tǒng)和數(shù)據(jù)分析Spearman等級相關(guān)分析_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第三十課Spearman等級相關(guān)分析一、秩相關(guān)的Spearman等級相關(guān)分析前面介紹了使用非參數(shù)方法比較總體的位置或刻度參數(shù),我們同樣也可以用非參數(shù)方法比較兩總體之間的相關(guān)問題。秩相關(guān)(rankcorrelation)又稱等級相關(guān),它是一種分析x,y,等級間是否相關(guān)的方法。適用于某些不能準確地測量指標值而只能以嚴重程度、名次先后、反應(yīng)大小等定出的等級資料,也適用于某些不呈正態(tài)分布或難于判斷分布的資料。設(shè)R和Q分別為Xi和y各自在變量X和變量Y中的秩,如果變量X與變量Y之間存在著正相關(guān),那么X與Y應(yīng)當是同時增加或減少,這種現(xiàn)象當然會反映在(為,y)相應(yīng)的秩(R,Qi)±o反之,若(R,Qi)具有同步性,那么(X,X)的變化也具有同步性。TOC\o"1-5"\h\z因此:nn22d="di='、(Ri-Qi)(30.1)i1i1具有較小的數(shù)值。如果變量X與變量Y之間存在著負相關(guān),那么X與Y中一個增加時,另一個在減小,d具有較大的數(shù)值。既然由(Xi,y)構(gòu)成的樣本相關(guān)系數(shù)反映了X與丫之間相關(guān)與否的信息,那么在參數(shù)相關(guān)系數(shù)的公式r(X,Y)中以R和Q分別代替Xi和yi,不是同樣地反映了這種信息嗎?基于這種想法,CharlesSpearman秩相關(guān)系數(shù)rs(R,Q)應(yīng)運而生:TOC\o"1-5"\h\z一1一1一(30.2)、(Ri--"Ri)(Qi一Qi)rs(R,Q):nn(30.2).(Ri二Ri)2E(Qi匚Qi)2nnrs(R,Q)與r(X,Y)形式上完全一致,但在rs(R,Q)中的秩,不管X與Y取值如何,總是只取1到n之間的數(shù)值,因此它不涉及X與Y總體其他的內(nèi)在性質(zhì),例如,秩相關(guān)不需要總體具有有限兩階矩的要求。由于:二12二12_n(n1)

2n(n1)(2n1)n(n1)(2n1)

6nn'Ri2='、Qi2=1222n2i1i1因此,公式(30.2)可以化簡為:22(30.3)_1_6£(Ri—Qi)2_1_6£d:(30.3)rsn(n2-1)n(n2-1)n(n1)(2n1)-2._RiQi顯然在R=Qi時,秩相關(guān)系數(shù)n(n1)(2n1)-2._RiQi一一、2__2__2___(Ri-Qi)='Ri,.二Qi-2.1.RiQi=而£RiQi在每對R+Qi=n+1時達到最小值,最小值求法為:'、(n1)2=、、Ri2八Qi22RQi所以,最小的£RiQi為:n(n1)2n(n1)(2n1)一62最大的z(Ri-Qi)為:2n(n1)(2n1)2=n(n2一1)一3故秩相關(guān)系數(shù)rs的最小值為1-2=-1o在原假設(shè)Ri在原假設(shè)Ri和Qi不相關(guān)的情況為真時,即秩相關(guān)系數(shù)為0時,rs的期望值ts為0,本的方差為2Sr2Srs1-%2

n-2(30.4)自由度為n-2且分布關(guān)于零點對稱。當n之10時,rs的樣本分布可以標準化為近似的t分布:?t(n-2)(30.5)?t(n-2)(30.5)例30.1某公司想要知道是否職工期望成為好的銷售員而實際上就能有好的銷售記錄。為了調(diào)查這個問題,公司的副總裁仔細地查看和評價了公司10個職工的初始面試摘要、學(xué)科成績、推薦信等材料,最后副總裁根據(jù)他們成功的潛能給出了單獨的等級評分。二年后獲得了實際的銷售記錄,得到了第二份等級評分,見表30.1中的第1到4列所示。統(tǒng)計問題為是否職工的銷售潛能與開始二年的實際銷售成績一致。

職,編號潛能等級R銷售成績成績等級Qidi=Ri-Qidi2124001112436031137300524412956-525562807—11633504—11710200100089260811982209—111053852392d;=44表30.1職工的銷售潛能與銷售成績的秩相關(guān)分析Spearman秩相關(guān)系數(shù)rs(R,Q)的計算過程見表30.1中的第5至U6列所不,最后計算結(jié)果為26di6(44)「1--.-=10.7333n(n2-1)10(100-1)表明潛能與成績之間是較強的正相關(guān),高的潛能趨向于好的成績。秩相關(guān)系數(shù)rs(R,Q)原假10-2設(shè)為0的t檢驗統(tǒng)計量為:10-2=3.05t=0.73332=3.0511-(0.7333)2查表自由度為8,t=3.05的雙側(cè)p=0.0158。在0.05顯著水平上,t分布的上臨界點為2.30,由于3.05>2.30,因此,拒絕秩相關(guān)系數(shù)為0的原假設(shè),接受潛能與成績之間存在秩相關(guān)。Corr相關(guān)過程Corr相關(guān)過程用于計算變量之間的相關(guān)系數(shù),包括Pearson(皮爾遜)的乘積矩相關(guān)和加權(quán)乘積矩相關(guān)。還能產(chǎn)生三個非參數(shù)的關(guān)聯(lián)測量:Spearman的秩相關(guān),Kendall的tau-b和Hoeffding的相關(guān)性度量D。該過程也可以計算偏相關(guān)等一些單變量的描述性統(tǒng)計量。Corr過程說明proccorr過程一般由下列語句控制:proccorrdata=數(shù)據(jù)集<選項>;var變量列表;with變量列表;

partial變量列表weight變量;freq變量;By變量列表run;proccorr語句調(diào)用corr過程,且是唯一必需的語句。如果只使用proccorr這一條語句,過程計算輸入數(shù)據(jù)集中所有數(shù)值變量之間的相關(guān)系數(shù)。其余語句是供選擇的。proccorr語句的選項outp=數(shù)據(jù)集名產(chǎn)生含有Pearson相關(guān)系數(shù)的一個新數(shù)據(jù)集。0優(yōu)5=數(shù)據(jù)集名產(chǎn)生含有Spearman等級相關(guān)系數(shù)的一個新數(shù)據(jù)集。0優(yōu)卜=數(shù)據(jù)集名——產(chǎn)生含有Kendall°b相關(guān)系數(shù)的一個新數(shù)據(jù)集。0優(yōu)卜=數(shù)據(jù)集名產(chǎn)生含有HoeffdingD統(tǒng)計量的一個新數(shù)據(jù)集。pearson要求計算通常的pearson乘積矩相關(guān)系數(shù),是缺省值。hoeffding要求計算并輸出Hoeffding的D統(tǒng)計量。kendall——要求計算并輸出Kendalltb相關(guān)系數(shù)。spearman要求計算并輸出Spearman等級相關(guān)系數(shù)。vardef=df|weight|wgt|wdf指定計算方差時的除數(shù):df(自由度nT),weight或wgt(權(quán)重之和),n(觀察數(shù)),wdf(權(quán)重之和—1)。缺省值為df。cov計算協(xié)方差一方差矩陣。sscp要求輸出平方和與交叉積和。csscp要求輸出偏差平方和與交叉積和。bestWI妞t——對每個變量輸出指定個數(shù)的絕對值最大的相關(guān)系數(shù)。noprint禁止所有打印輸出。noprob禁止輸出同這些相關(guān)有聯(lián)系的顯著性概率。nosimple對原始數(shù)據(jù)執(zhí)行標準方差分析。rank要求按絕對值從高到低的次序?qū)γ總€變量輸出相關(guān)系數(shù)。nocorr抑制Pearson相關(guān)的計算及輸出。nomiss——將帶有某一變量缺失值的觀測值從所有計算中除去。nosimple不輸出每個變量的簡單描述性統(tǒng)計量。var語句該語句列出要計算相關(guān)系數(shù)的變量。例如,varabc;則計算a和b,a和c,b和c三對變量之間的相關(guān)系數(shù)。with語句為了得到變量間的特殊組合的相關(guān)系數(shù),該語句和var語句聯(lián)合使用。用var語句列出的變量在輸出相關(guān)陣的上方,而用with語句列出的變量豎在相關(guān)陣左邊。例如,varab;withxyz;則生成x和a,y和a,z和a,x和b,y和b,z和b。partial語句

為了計算Pearson偏相關(guān),Spearman偏秩相關(guān),Kendall偏tau-b,用該語句給出偏出去(即固定)的變量名。weight語句為了計算加權(quán)的乘積矩相關(guān)系數(shù),用該語句給出權(quán)數(shù)變量名。該語句僅用于Pearson相關(guān)。freq語句當規(guī)定freq語句時,輸入數(shù)據(jù)集中的每個觀察假定代表n個觀察,其中n是該觀察中freq變量中的值。觀察的總數(shù)規(guī)定為freq變量值的和。by語句使用by語句能夠獲得用by變量定義的分組觀察的獨立分析結(jié)果。三、實例分析例30.1的SAS程序如下:datastudy.persons;inputxy@@;y=400-y;cards;24004360730012956280335010200926082205385;proccorrdata=study.personsspearman;varx;withy;run;程序說明:建立輸入數(shù)據(jù)集persons,要注意實際數(shù)據(jù)所表示的等級次序大小與SAS系統(tǒng)中自動給出的等級次序大小的不同。輸入變量x,獲彳#從1到10的數(shù)據(jù),表示潛能等級從最高到最低,而輸入變量y,獲得從最大銷售額400到最小銷售額220,轉(zhuǎn)換銷售成績等級應(yīng)該是從高到低,即從1到10。但在SAS系統(tǒng)中把銷售成績數(shù)值從小到大按等級值從1到10給予。因此,需要顛倒變量x或變量y中數(shù)值大小的次序,本程序用最大銷售額400減去原來的銷售額實現(xiàn)次序顛倒,即語句y=400-yo等級相關(guān)與一般參數(shù)相關(guān)一樣仍然調(diào)用corr過程,只需要在選擇項中指定為何種等級相關(guān),我們選擇計算spearman秩相關(guān)系數(shù)。var語句列出要計算相關(guān)系數(shù)的第一個變量x,with語句必須要與var語句聯(lián)合使用,列出的要計算相關(guān)系數(shù)的第二變量V。主要結(jié)果如表30.2所示。表30.2用corr過程進行多樣本輸出結(jié)果

CorrelationAnalysis1"WITH'Variables:Y1'VAR'Variables:XSimpleStatisticsVariableNMeanStdDevMedianMinimumMaximumY1095.00000067.905163102.5000000200.000000X105.5000003.0276505.5000001.00000010.000000SpearmanCorrelationCoefficients/Prob>|R|underHo:Rho=0/N=10XY0.733330.0158結(jié)果說明:Spearman等級相關(guān)系數(shù)為0.73333,是一個比較大的正相關(guān)系數(shù)。這個相關(guān)系數(shù)為0的原假設(shè)檢驗結(jié)果是p=0.0158<0.05,因此,我們拒絕相關(guān)系數(shù)為0的原假設(shè),接受了這個0.73333等級相關(guān)系數(shù)。結(jié)論為銷售潛能的高低與銷售成績好壞之間存在明顯的正相關(guān)性。第三十一課一元線性回歸分析回歸分析是一種統(tǒng)計分析方法,它利用兩個或兩個以上變量之間的關(guān)系,由一個或幾個變量來預(yù)測另一個變量。在SAS/STAT中有多個進行回歸的過程,如REG、GLM等,REG過程常用于進行一般線性回歸模型分析。四、回歸模型1.基本概念回歸模型是一種正規(guī)工具,它表示統(tǒng)計關(guān)系中兩個基本的內(nèi)容:①用系統(tǒng)的形式表示因變量Y隨一個或幾個自變量X變化的趨勢;②表現(xiàn)觀察值圍繞統(tǒng)計關(guān)系曲線的散布情況。這兩個特點是由下列假設(shè)決定的:在與抽樣過程相聯(lián)系的觀察值總體中,對應(yīng)于每一個X值,存在Y的一個概率分布;這些概率分布的均值以一些系統(tǒng)的方式隨X變化。圖31.1是用透視的方法來顯示回歸曲線。Y對給定X具有概率分布這一概念總是與統(tǒng)計關(guān)系中的經(jīng)驗分布形式上相對應(yīng);同樣,描述概率分布的均值與X之間關(guān)系的回歸曲線,與統(tǒng)計關(guān)系中丫系統(tǒng)地隨X變化的一般趨勢相對應(yīng)。

統(tǒng)計關(guān)系線oooooooooooooooooaooaOA-8TG543_2lo_s87-65432121111111111S1圖31.1線性回歸模型的圖示統(tǒng)計關(guān)系線oooooooooooooooooaooaOA-8TG543_2lo_s87-65432121111111111S1圖31.1線性回歸模型的圖示在回歸模型中,X稱為“自變量”,Y稱為“因變量”;這只是傳統(tǒng)的稱法,并不表明在給定的情況下Y因果地依賴于X,無論統(tǒng)計關(guān)系多么密切,回歸模型不一定是因果關(guān)系,在某些應(yīng)用中,比如我們由溫度表水銀柱高度(自變量)來估計溫度(因變量)時,自變量實際上依賴于因變量。此外,回歸模型的自變量可以多于一個。2.回歸模型的構(gòu)造1)自變量的選擇構(gòu)造回歸模型時必須考慮到易處理性,所以在有關(guān)的任何問題中,回歸模型只能(或只應(yīng)該)包括有限個自變量或預(yù)測變量。2)回歸方程的函數(shù)形式選擇回歸方程函數(shù)形式與選擇自變量緊密相關(guān)。有時有關(guān)理論可能指出適當?shù)暮瘮?shù)形式。然而,通常我們預(yù)先并不能知道回歸方程的函數(shù)形式,要在收集和分析數(shù)據(jù)后,才能確定函數(shù)形式。我們經(jīng)常使用線性和二次回歸函數(shù)來作為未知性質(zhì)回歸方程的最初近似值。圖31.2(a)表示復(fù)雜回歸函數(shù)可以由線性回歸函數(shù)近似的情況,圖31.2(b)表示復(fù)雜回歸函數(shù)可以由兩個線性回歸函數(shù)分段近似的情況。

圖31.2用線性回歸函數(shù)近似復(fù)雜回歸函數(shù)3)模型的范圍在建立回歸模型時,通常需要限制模型的自變量或因變量取值的區(qū)間范圍,這個范圍由調(diào)查設(shè)計和已掌握數(shù)據(jù)的情況決定。4)回歸分析的運用回歸分析主要有3個目的:描述,控制和預(yù)測。五、未指定誤差項分布的回歸模型1.模型的正規(guī)表述現(xiàn)在我們只限于一個自變量的基本回歸模型,且回歸函數(shù)是線性的,可表述如下:Y二二+PXt;t(31.1)其中,Yt是第t次觀測或試驗中因變量的取值,3和P是參數(shù),Xt為第t次觀測或試驗中自變量的取值,即是隨機誤差項,其基本假設(shè)應(yīng)該滿足三個條件:均值E(.)=0方差Var(;t)=c-2協(xié)方差CovG,4)=0,當產(chǎn)j時。即對所有的i#j,鳥與相互不相關(guān)模型(31.1)稱為簡單模型,參數(shù)是線性的,自變量也是線性的。所謂“簡單”,是因為它只有一個自變量,“參數(shù)線性”是指沒有參數(shù)具有指數(shù)形式,或者被另一個參數(shù)相乘或相除,“自變量線性”是指這個自變量是一次的。參數(shù)和自變量都是線性的模型稱為一階模型。

2.模型的重要特點第t次觀察中Y的觀察值Y包^2部分:常數(shù)項a十PXt和隨機項明的和。所以,Yt是隨機變量。因為E(5)=0,這樣:E(Yt)-:XtE(--Xt(31.2)其中,n+PXt是常數(shù)。因此,當?shù)趖次試驗中X取為Xt時,相應(yīng)的丫來自一個概率分布,其均值是:E(Yt)-:Xt(31.3)所以,模型(31.1)的回歸函數(shù)是:E(Y)=:X(31.4)這樣對任何給定的X,回歸函數(shù)把X水平與Y的概率分布均值聯(lián)系起來。在第t次試驗中,Y的觀察值超過或低于回歸函數(shù)值的部分為誤差項部分碼。假設(shè)誤差項&具有相同的方差仃2,則相應(yīng)的Yt的方差為:Var(Yt)=c2這是因為:Var(Yt)=Var(u+PXt+丸)=Var(羯)=仃2。無論自變量X取值如何,模型(31.1)總是假設(shè)Y的概率分布具有相同的方差仃2,且假設(shè)誤差項互不相關(guān)。因此,任何一次試驗的結(jié)果對其他各次試驗的誤差項都沒有影響,相應(yīng)的Y與Yj也互不相關(guān)??傊?,模型(31.1)的含義為:對所有水平的X來說,因變量觀察值Yt都來自均值E(YJ=u+BXt、方差仃2的概率分布。此外,任何兩個觀察值Yi與Yj是互不相關(guān)的。六、最小二乘估計法.觀測數(shù)據(jù)圖設(shè)有一組T期間內(nèi)關(guān)于二變量X和Y的樣本觀測值(為,乂)(t=1,2,…,N),在X和Y之間存在著函數(shù)關(guān)系,如果將這些觀測數(shù)據(jù),在2維平面上用圖來表示,只要數(shù)據(jù)至少有3個以上,那么所有的點大概不可能都在一條直線上。以被認為在X和丫之間成立的

未知回歸直線:丫=:+X為中心,觀測點總是適當?shù)厣⒉荚谄渲車N粗貧w直線和各觀測點的垂直方向的間隔就是上節(jié)引進的概率誤差項。由于a和B的數(shù)值未知,因此,不能準確地知道與各觀測點對應(yīng)的概率誤差項的值。大致來說,可以認為回歸直線是從散布在平面上的各觀測點的中央穿過的直線。根據(jù)所給的觀測數(shù)據(jù)來估計這條直線的位置(a和B的值),是我們需要解決的主要問題。.誤差二乘和的最小化估計回歸直線的方式(規(guī)則)有各種各樣的考慮。但是,對于確定儀和B的值時,要使所有的觀測點和直線的“距離”從整體來說為最小這個一般的規(guī)則,大概無論誰也沒有異議。意見的分歧在于究竟要用什么尺度來衡量各觀測點和回歸直線的“距離”。也就是說,即使都承認上述的一般規(guī)則,但由于按什么標準來測定“點和線的距離”的看法不同,推導(dǎo)出的估計方式也是多種多樣的。假定估計出的直線為:Y=二*:*X(31.5)則同X=Xt對應(yīng)的估計直線上的點是a*+p*xt。觀測點(xt,yt)同估計直線垂直方向的間隔:,*:*、et=yt-(二:xt)(31.1.6)叫做殘差(residual)。(這里將各觀測點看作是已經(jīng)觀測完畢的一對已知數(shù)組,用小寫字母來表示)。應(yīng)當注意的是誤差項和殘差的區(qū)別:誤差項是未知回歸直線同觀測點的間隔,而殘差是已知的估計直線同觀測點的間隔。為了便于討論,我們暫且將測量點和直線之間距離的“評價函數(shù)”限定為殘差et的函數(shù)。對照我們的常識,要求評價函數(shù)滿足以下各條件:)殘差可能為正也可能為負,但不管是正的殘差還是負的殘差,只要其絕對值相等,用與直線的離差這一標準來衡量,就應(yīng)當完全平等地評價。)評價函數(shù)必須是各殘差絕對值的非減函數(shù)。把評價函數(shù)記為V(e,e2,…,eN),將以上兩條件用數(shù)學(xué)方式表現(xiàn),可得:V(e1,e2,"1,eN)=丫峋,區(qū),…JeJ)(31.7)%-。…12,N(31.8)同時,為了方便起見,除以上2個條件外,暫且再追加以下2個條件。3)N個觀測點都具有同等資格。即et和es(t#s)作為評價函數(shù)的變量應(yīng)得到同樣的對待。這一條件同各期誤差項的方差為一定值的假定有著密切的關(guān)系。將條件(3)用數(shù)學(xué)方式表現(xiàn),可得,對于(1,2,…,N)的任意重新排列(i1,i2,…,iN)有:

V白色,,eN=v,e4)我們已經(jīng)假定時期不同的概率誤差項相互之間不相關(guān)。因此,評價函數(shù)中各e的作用最好是相互無關(guān)的。將這一敘述用數(shù)學(xué)方式表示,可得:-:2V=0,t=S(31.9)a:es根據(jù)以上的討論,備擇的評價函數(shù)被限定在相當狹的范圍內(nèi),作為滿足資格的函數(shù),例如可以考慮:N

,kV=%|et|,k_1(31.10)t4當k為偶數(shù)時,絕對值的符號就失去意義。殘差是回歸系數(shù)的估計值(u,B)的函數(shù)。因此,如果給定了觀測數(shù)據(jù)(5,yt),則可以把V看作是以a*和B*為變量的二變量函數(shù)。從而可以考慮確定能使V為最小的u*和P*的值。當然,使V的值為最小的a*和B*的值要依存于N個觀測數(shù)據(jù)。當k=1時,評價函數(shù)式(31.10)是殘差絕對值的總和。就某種意義來說,這一評價函數(shù)在直觀上也許是最容易理解的。通過使它為最小來確定儀和B的方式,叫做最小絕對離差估計法(leastabsolutedeviationestimationmethod)。當k=2時,評價函數(shù)是殘差的平萬和。確定能使這一評價函數(shù)為最小的ot和B的方式,便是最小二乘法(leastsquaresmethod)。令k=2,將式(31.6)代入式(31.10),可得:N**2Y='ytxt(31.11)11把樣本觀測值看作已知數(shù),從而可以把把樣本觀測值看作已知數(shù),從而可以把V當作和P的函數(shù)來考慮,利用解決最大最小問題的方法,令V對口*和P*的偏導(dǎo)數(shù)為零,可以推導(dǎo)出關(guān)于口*和B*的二元聯(lián)立一次方程組為::VN*-*—--2yt-:--xt=0(31.12)二11—二一—二一2xtyt-二*xt=0(31.13)這一聯(lián)立方程叫做正規(guī)方程式,其解如下:'、Xt-Xyt-y(31.14)二*(31.14)一NvXt.X211=y——(31.15)_1N=y——(31.15)_1N_XXt,y=Nt4Nyt11(31.16)在求解時,利用了下列恒等式:N在求解時,利用了下列恒等式:N£(Xt-X)2t4因為,V因為,V的駐點(使偏導(dǎo)數(shù)同時為0的a*和B*的值)只有唯一的一個,而且通過增大*c*….一.U和P的值,可以使V無限增大,所以正規(guī)方程的解的確給出了V的最小值。于是,可知最小二乘估計量是:N'Xt-Xyt-y(31.17)?__u(31.17)-N,Xt-X211(31.18)dN.N—11\?(31.19)XXt,yyt(31.19)N11Nt凸3.最小二乘估計量的平均值和方差我們已經(jīng)相當詳細地論述了關(guān)于“估計量的優(yōu)劣”問題的一般理論。從18世紀由高斯(Gauss)發(fā)明的所謂最小二乘法直到今天仍得到如此廣泛的實際運用這一事實來看,最小二乘估計法理論應(yīng)具有某些特別的優(yōu)點。如前所述,最小二乘法并不是“確定使T個觀測點與回歸直線之間的距離就整體來說為最小的直線位置”的獨一無二的方法,它只不過是多種方法中的一個罷了。盡管如此,最小二乘法還能夠絕對地凌駕于其他任何方法之上,一直被應(yīng)用于現(xiàn)實數(shù)據(jù)的分析,這并不僅僅是由于計算簡單,而且還有其他合適的理由一一理論上的根據(jù)。事實上,在計算技術(shù)有了非常大的進步的今天,計算簡便已經(jīng)不再具有那樣大的價值了。以下,我們首先來研究一下最小二乘估計量的性質(zhì)。將Yt=u+Pxt+,代入國估計量(31.17)和山估計量(31.18),并作以下變形:N「Xt-x;t?一vXt-X211Xxt-xN二iXt-Xt4是,0?和?的期望值分別為:從而很簡單地證明了山和?分別是a和B的無偏估計量。這樣,最小二乘估計量順利地通過了第一道關(guān)卡。既然已表明最小二乘估計量具有無偏性,那么下一個問題就是估計量的方差的大小。我們暫且先根據(jù)方差的公式進行形式上的推導(dǎo)。2根據(jù)刖面的假te:Var(皆)=仃和Cov(7,€s)=0,由定義得o_2Var?=E?-:=-、xt-X2t白(31.24)按照同樣的方法也可以推導(dǎo)出:-1一一Oc1X2Var(<?)=E(<?-?j=仃一十而,NZ(xt-X2tv(31.25)這里順便再計算一下次和?的協(xié)方差:2Cov?,?=E?一=?--=-^—xxt-X211(31.26)從式(31.25)和式(31.26)可知,估計量的方差與樣本的大小大致成反比。同時,解釋變量在較廣的范圍內(nèi)分布得越散,估計量的方差就越小。估計量的方差越小即意味著估計值的N精度越高。當limZ(xt-X2=°°時,0?和?都是一致估計量。N>:ztd七、檢驗與預(yù)測從最小二乘估計表達式(31.17)和(31.18)知,只要給出了N組數(shù)據(jù)(為$)」=1,2,…,N,總可將它們代入這兩個表達式獲得儀和P的估計,從而寫出回歸方程。但這個回歸方程是否有意義呢?需要有個檢驗準則。為作檢驗,首先要建立假設(shè)。我們求回歸方程的目的是要去反映y隨x變化的一種統(tǒng)計規(guī)律,那么如果P=0,從式(31.4)可知,不管x如何變化,Ey不會隨之而改變,在這種情況下求出的回歸方程是無意義的。所以,檢驗回歸方程是否有意義的問題轉(zhuǎn)化為檢驗下列假設(shè)是否為真:HO:二=0(31.27)常用的方法有F檢驗和t檢驗方法。1.F檢驗這一方法類似于第三章所介紹的方差分析的想法,也是從觀察值的偏差平方和分解入手。我們觀察到的y1,y2,…,yN的差異可以用總偏差平方和表示:NTSS八(yi-y)2,dfT=N-1(31.28)i1造成這一差異的原因有如下兩個方面:一是由于假設(shè)B=0不真,從而對不同的x值,Ey隨x而變化。我們可以用下列偏差平方和來表示由此引起的差異:NRSS="(其-y)2,dfR=1(31.29)i1稱為回歸平方和。其中,濟=國+眼=?一股+取=y+敢X-x)。所以,公式(31.29)又可以寫成:NRSS="(?-y)2i1NN(31.30)一[?(x-x。]2=%(xi-x)2i1i1根據(jù)公式(31.24)可知,其期望值:

NE(RSS)=E?v(Xi-x)2i1N=[(E?)2Var(?)「(Xi—X)2(31.31)4N=-:2%(Xi—X)2:2i4這便表明,RSS中除了誤差波動外,還反映了由于P#0所引起的數(shù)據(jù)間的差異。二是由其他一切隨機因素引起的差異,它可以用殘差平方和:N

2.ESS—(yi-?i),dfE=N-2(31.31)i4表示。由于可以證明:ESS/o2~2(N-2)(31.32)于是有:E(ESS)=(N-2)二2(31.33)所以,其自由度為N—2。利用公式£(y—%)=0,£(yi-y>i)Xi=0,從而有下列平方和分解式:2TSS="(yi-y)='、(yi-?i?i-y)=£(yi-?i)2+£(於-y)2(31.34)=ESSRSS由于在B=0為真時,RSS與ESS/(N—2)都是◎2的無偏估計,因而采用F統(tǒng)計量:2lRSS/1/1F2lRSS/1/1F-2ESS/-/(N-2)RSSESS/(N-2)~F(1,N-2)(31.35)來檢驗原假設(shè)0=0是否為真。.t檢驗由公式(31.24)和(31.25)知(31.36)2])(31.37)-212])(31.37)?~N([二[-N”(X-X)在原假設(shè)P=0在原假設(shè)P=0為真時,二/「(Xi-X)2?N(0,1),但其中仃未知,常用92=ESS/(N-2)去代替,根據(jù)公式(31.32)和又與B獨立,從而在P=0時有:t;?/「(xit;?/「(xi-X)2實質(zhì)上,對于一元回歸方程二//Z(Xi-x)2:t(N-2),ES2S/(N-2)t檢驗與F檢驗是等價的,因為只要將公式(31.30)中的(31.38)RSS代入到公式(31.35)中去,就不難發(fā)現(xiàn)t2=F。我們同樣可以得到原假設(shè)a=0為真時的計量:t=?1/N-x2/xt=?1/N-x2/x(xi-x)2二1/Nx2/二:(xi-x)2ESS?t(N-2)(31.39)2CT/(N-2)(31.40)(31.41)Var(1)=1—十—x__-—(31.40)(31.41)Var(1)=1—十—x__-—尸2+-N工(Xt-X)2J-2X2_2X。;-22XX0;-'、'(xt-X)2(xt-x)21+(X0-X)2

T(31.42)N£(Xt—X)2_.利用回歸方程作預(yù)測當求得回歸方程?=w+取后,并經(jīng)檢驗,方程是顯著的,則可將該回歸方程用于預(yù)測。所謂預(yù)測是指當X取某一個具體值x0時,對相應(yīng)的y取值y0所作的推斷。由模型知y0=a+Bx0+*是一個隨機變量,要預(yù)測隨機變量的取值是不可能的,只能預(yù)測其期望值E(y。)。根據(jù)前面公式(31.24)、(31.25)和(31.26)可知,在X=X0處的回歸值是?。=國+取0,且:%?N(E(?o),Var(?。))其中:E(?0)七°1(Xn-X)2其中,仃未知,用夕2=ESS/(N—2)去代替,設(shè)杠桿率h0=一十4———Nx(xt-x)2

預(yù)測均值?0的預(yù)測區(qū)間為:?0-1-/2■.h。;.?,y0t-.72..h。;-?(31.43)其中,tw2的自由度為N—2。注意在SAS系統(tǒng)model語句中的clm選項是按公式(31.43)來計算的。然而在x=x0時,隨機變量y0的取值與預(yù)測均值y0總會有一定的偏離,我們根據(jù)公式(31.43)不難求出y0—?0的均值E(y0—?0)和方差Var(y0-%),且它符合正態(tài)分布,故有:y0-?y0-?0?1(x0-x)2N(0,1十一十」^0——NE(xt-x)2F2)(31.44)其中,仃未知,用夕2=ESS/(N—2)去代替,所以y0—?0的預(yù)測區(qū)間為:(y0-?0)-t:./2(1h°);?2,(y0-%)t:./2,(1h°)c?2(31.45)其中,J/2的自由度為N—2。注意在SAS系統(tǒng)model語句中的cli選項是按公式(31.44)來計算的。從方差Var(%-?0)表達式中我們可以看到,當x0取值離均值x越近,預(yù)測精度就越好,當凡取值離均值x越遠,預(yù)測精度就越差,其預(yù)測區(qū)間兩頭呈喇叭狀。因此,我們要特別注意入取值應(yīng)該在樣本數(shù)據(jù)最小的xi和最大的xi之間,否則預(yù)測很不可靠。八、回歸診斷回歸診斷主要用于檢驗關(guān)于回歸假設(shè)是否成立,以及檢驗?zāi)P托问绞欠皴e誤,否則我們通過最小二乘法求得的回歸方程就缺乏理論依據(jù)。這些檢驗主要探究的問題為:殘差是否為隨機性、是否為正態(tài)性、是否不為異方差。高度相關(guān)的自變量是否引起了共線性。模型的函數(shù)形式是否錯誤或在模型中是否缺少重要的自變量。樣本數(shù)據(jù)中是否存在異常值。.殘差圖分析所謂殘差圖就是以殘差et=yt-y?t為縱坐標,某一個合適的自變量為橫坐標的散點圖。殘差中包含了許多有關(guān)數(shù)據(jù)和模型的信息,它是研究回歸診斷最基本及最重要的統(tǒng)計量。殘差圖分析的基本思想是,在回歸模型的假設(shè)中,我們總是假定誤差項是獨立的正態(tài)分布隨機變量,且均值為零和方差相等為仃2。如果模型適合于觀察到的數(shù)據(jù),那么殘差et作為誤差S

的無偏估計?,應(yīng)基本反映誤差5的假設(shè)習(xí)性。即殘差圖應(yīng)該在零點附近對稱地密布,越遠31.331.3Q)正常:正態(tài)分布(b)異常點:可疑偏高很大點(G異方液:殘差隨工而嚕大(d)異方差,優(yōu)差髓.而增臧非葩機性*建差非線性趨勢仃)非髓機性,殘差線性趨勢Q)正常:正態(tài)分布(b)異常點:可疑偏高很大點(G異方液:殘差隨工而嚕大(d)異方差,優(yōu)差髓.而增臧非葩機性*建差非線性趨勢仃)非髓機性,殘差線性趨勢圖31.3殘差的主要幾種類型若殘差圖呈現(xiàn)如圖31.3(a)所示的形式,殘差是隨機的且不表示出一定的趨勢與形式,我們認為建立的回歸模型應(yīng)診斷為無甚大問題。更進一步的診斷應(yīng)該采用學(xué)生化殘差鑒別是否正態(tài)性。一個簡單的思想就是,如果模型假設(shè)正確的話,殘差就應(yīng)該是誤差的良好估計,那么殘差全體構(gòu)成的直方圖應(yīng)當與正態(tài)曲線很相似。我們可以求出估計殘差的方差Var(就),且符合正態(tài)分布:一ESS(31.46)2?N(0,(1-ht)——-)(31.46)N-2那么學(xué)生化殘差:Yt-7tVar(?)..Yt-7tVar(?)..(1-ht)ESS/(N-2)?N(0,1)(31.47)則遵循標準正態(tài)分布。在實際中,學(xué)生化殘差常與yt配合作圖,會有更好的直觀判斷效果。若殘差圖呈現(xiàn)如圖31.3(b)所示的形式,有一個對既定模型偏離很大的觀察數(shù)據(jù)點,稱為異常點。如果懷疑異常點是由于記錄數(shù)據(jù)中發(fā)生的錯誤或者在測量過程中采用了拙劣的技巧,我們理應(yīng)從數(shù)據(jù)集中刪除,重新回歸模型。但對異常點的處理須持謹慎態(tài)度,因為異常點的出現(xiàn)可能代表了相當重要的某些數(shù)據(jù),它恰好成為我們探究某些事先不清楚或許是更為重要的因素的線索。在SAS系統(tǒng)的reg回歸過程中用來度量異常點影響大小的統(tǒng)計量是COOKD統(tǒng)計量,計算方法請參閱SAS/STAT軟件使用手冊。若殘差圖呈現(xiàn)如圖31.3(c)所示的形式,殘差隨x的增大而增大。如圖31.3(d)所示的形式,殘差隨x的增大而先增后減,則蘊含著殘差乃至誤差對于不同的觀察值具有不同的方差變化,稱為異方差。在這種場合應(yīng)該考慮在回歸之前對數(shù)據(jù)y或x進行變換,實現(xiàn)方差穩(wěn)定后再擬合回歸模型。原則上,當誤差方差變化不太快時取變換,當誤差方差變化較快時取變換logy或lny,當誤差方差變化很快時取變換1/y。當然,還存在著不少其他變y1換,如著名的Box-Cox哥變換y。九若殘差圖呈現(xiàn)如圖31.3(e)所示的形式,顯示了模型本身具有非線性趨勢,或者提示人們在模型中是否忽略了若干重要的變量。如圖31.3(f)所示的形式,顯示了模型本身具有線性趨勢。同樣表示了模型的錯誤選定。.共線性回歸研究中很容易發(fā)生模型中兩個或兩個以上的自變量高度相關(guān),從而引起最小二乘估計可能很不精確。高度相關(guān)的自變量以及由它們所引起的估計問題合在一起稱之為共線性(collinearity)問題。為什么共線性會引起參數(shù)估計可能很不精確呢?主要原因是最小二乘法所利用的數(shù)據(jù)信息,如果存在共線性,就可能已經(jīng)被其他的自變量說明了大部分,因此用剩余的少量數(shù)據(jù)估計參數(shù),將產(chǎn)生估計參數(shù)的方差很大,置信區(qū)間也會很大,假設(shè)檢驗也使人缺乏信任感。在實際中,最常見的問題是一些重要的自變量很可能由于在假設(shè)檢驗中t值不顯著而被不恰當?shù)靥蕹恕9簿€性診斷問題就是要找出哪些變量間存在共線性關(guān)系。SAS系統(tǒng)的reg過程中提供了特征值法、條件指數(shù)collin和方差膨脹因子vif,請參閱SAS/STAT軟件使用手冊。.誤差的獨立性在回歸診斷中,有一個非常重要的回歸模型假設(shè)需要診斷和檢驗,那就是回歸模型中的誤差項的獨立性。如果誤差項不獨立,那么我們對回歸模型的許多處理,包括誤差項估計、假設(shè)檢驗等都將沒有推導(dǎo)依據(jù)。由于殘差是誤差的合理估計,因此檢驗統(tǒng)計量通常是建立在殘差的基礎(chǔ)上。檢驗誤差獨立性的最常用方法,是對殘差的一階自相關(guān)性進行Durbin-Watson檢驗。原假設(shè)H0:誤差項是相互獨立的,備選假設(shè)Hi:誤差項是相關(guān)的。檢驗統(tǒng)計量為:NDW八(et-et)/ESS(31.48)t=2我們可以通過簡單不等式證明:NNNN0M%(et-己二)2工2Qet2—二e^)<4"e;=4ESSt=2t-2t-214因此,DW統(tǒng)計量應(yīng)滿足:0MDW;4(31.49)如果DW接近于0,表示殘差中存在正自相關(guān);如果DW接近于4,表示殘差中存在負自相關(guān);如果DW接近于2,表示殘差獨立性。在給定顯著水平?下,我們可以查Durbin-Watson表得到不能拒絕獨立性原假設(shè)的區(qū)間DWl<DW<DWu。上海財經(jīng)大學(xué)經(jīng)濟信息管理系IS/SHUFEPage19of24九、PROCREG過程它的一般格式為:PROCREG<>;MODELdependents=independents/<選項歹U表>其它選擇語句;RUN;PROCREG語句中的<選項列表>OUTEST=SAS數(shù)據(jù)集一一將有關(guān)模型的參數(shù)輸出到指定的SAS數(shù)據(jù)集中OUTSSCP=SAS數(shù)據(jù)集一一將相關(guān)矩陣輸出到指定的SAS數(shù)據(jù)集中ALL一一屏幕輸出所有內(nèi)容NOPRINT——不在屏幕輸出任何內(nèi)容MODEL語句中的選項該語句定義建模用的因變量、自變量、模型的選擇及結(jié)果輸出的選擇。與模型有關(guān)的選項有:.SELECTION一一選擇合適的建立模型方法SELECTION=FORWARDSLENTRY=顯著性水平前進法(FORWARD):對每一個尚不在方程內(nèi)的自變量按一定的顯著性水平,根據(jù)其一旦進入模型后對模型的貢獻大小逐步引入方程,直至再沒有對模型有顯著貢獻的自變量。缺省SLENTRY=0.5SELECTION=BACKWARDSLSTAY=顯著性水平后退法(BACKWARD):先建立包含全部變量的模型,然后按一定的顯著性水平從模型中逐步剔除變量。缺省SLSTAY=0.1SELECTION=STEPWISESLENTRY=入選水平SLSTAY=易U除水平逐步法(STEPWISE):按前進法進入變量,再對模型內(nèi)所有變量檢驗,看是否有新因變量引入而對模型的貢獻變得不顯著的變量,若有就剔除,若無則保留,直至方程內(nèi)所有的變量均顯著,顯然逐步法有兩個水平,即選入水平和剔除水平,而且剔除水平應(yīng)低于選入水平。。缺省SLENTRY=0.15SLSTAY=0.1在上述三種方法的使用中,若要求打印出每一次選入或剔除變量進行模型擬合時的所有統(tǒng)計量,可以加選DETAILS。.NOINT一一表示擬合無常數(shù)項(截距)的回歸模型與屏幕輸出有關(guān)的選項有:CORRB一一輸出參數(shù)估計的相關(guān)陣STB一一輸出標準化偏回歸系數(shù)矩陣

P——輸出個體觀測值、預(yù)測值及殘差。若已選了CLI、CLM、R,則無需該選項R——輸出每個個體觀測值、殘差及標準誤差CLM——輸出每個觀測值因變量期望值的95%的上、下限CLI——輸出每個個體觀測值的95%的上、下限與殘差分析有關(guān)的選項有:VIF輸出變量間相關(guān)性的方差膨脹系數(shù)(VarianceInflationFactor),VIF越大,說明由于共線性存在,使方差變大。COLLIN——輸出條件數(shù)(Conditionindex),它表示最大的本征性與每個自變量本征值之比的平方根。一般情況下,條件數(shù)越大越可能存在共線性。TOL——表示共線性水平的容許值,TOL(ToleranceValue)越小說明其可用別的自變量解釋的部分多,自然可能與別的自變量存在共線性關(guān)系。DW——D^出Durbin-Watson統(tǒng)計量3.其他選擇語句注意,這部分的語句可以在REG過程被被激活后,以交互式方式運行。OUTPUT語句一一建立SAS的輸出結(jié)果數(shù)據(jù)集語句格式為:OUTPUTOUT=SAS數(shù)據(jù)集名關(guān)鍵字名=輸出數(shù)據(jù)集中的變量名其中關(guān)鍵字名為需要的統(tǒng)計量名,它們有P(預(yù)測值)、R(殘差)、L95M(期望值的95%的下限)、U95M(期望值的95%的上限)、L95(個體預(yù)測值的95%的下限)、U95(個體預(yù)測值的95%的上限)、STDP(期望值的標準誤差)、STDR(殘差的標準誤差)、STDI(預(yù)測值的標準誤差)、STUDENT(學(xué)生化殘差)、COOKD(COOK氏D值)PLOT語句一一繪制兩變量的散點圖語句格式為:PLOTX*Y/選項ADD變量名列表——向模型中增加變量DELETE變量名列表一一刪除原擬合模型中的有關(guān)變量REFIT——重新擬合模型PRINT——輸出有關(guān)模型的相關(guān)信息七、應(yīng)用舉例例31.1廣告花費X與銷售額Y的回歸模型。大多數(shù)公司最終會詢問關(guān)于花費在廣告上的費用對公司產(chǎn)品銷售額的影響程度。由于廣告需要一定的時間才能達到它的效應(yīng),同時它的效應(yīng)也不是永久持續(xù)的,它的影響也許僅僅延續(xù)開頭的一段時期。假設(shè)公司相信銷售額與當月以及前兩個月內(nèi)所花的廣告費有較密切的關(guān)系,即意味著:Yt與Xt,Xt-1,Xt-2有密切的關(guān)系。假設(shè)它們之間存在線性關(guān)系,建立模型為:Yt=3o+31Xt+32Xt-1+33Xt-2+et我們現(xiàn)在有某公司15個月內(nèi)有關(guān)廣告花費X與銷售額丫的數(shù)據(jù),如表31.1所示。表31.1廣告額與銷售額月t月銷售額Yt月廣告花費Xt129452802429540035645450

4699559058345650696

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論