多元數(shù)據(jù)的正態(tài)性檢驗_第1頁
多元數(shù)據(jù)的正態(tài)性檢驗_第2頁
多元數(shù)據(jù)的正態(tài)性檢驗_第3頁
多元數(shù)據(jù)的正態(tài)性檢驗_第4頁
多元數(shù)據(jù)的正態(tài)性檢驗_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

#多元數(shù)據(jù)的正態(tài)性檢驗摘要:本文對多元正態(tài)性檢驗的兩種主要方法一一X2統(tǒng)計量的Q-Q圖檢驗法和主成分檢驗法進行了討論,介紹其基本原理、具體實施步驟,通過實例分析進行應(yīng)用研究,并比較它們的優(yōu)劣,發(fā)現(xiàn)主成分檢驗法的實用性和應(yīng)用價值更強.關(guān)鍵詞:多元正態(tài)性X2統(tǒng)計量Q-Q圖檢驗法主成分檢驗法TheNormalityTestforMultivariateDataAbstract:Inthispaper,wediscusstwomainmethodsofmultiplenormaltests,Q-Qcharttestandprincipalcomponenttest,introducethebasicprincipleandthespecificimplementationsteps,researchthroughstudyingthecase,andcomparetheiradvantagesanddisadvantages.WefoundthattheprincipalcomponenttestisbetterthanQ-Qcharttestinpracticalityandappliedvalue.Keywords:Multivariatenormality;Chi-squarestatistic;Q-Qchartest;Principalcomponenttest引言正態(tài)分布在學(xué)習(xí)中是一種很重要的分布,在自然界中占據(jù)著很重要的位置,它能描述許多隨機現(xiàn)象,從而充當(dāng)一個真實的總體模型.盡管在學(xué)習(xí)中我們總是碰到很多問題的總體服從正態(tài)分布,然而,在一個實際問題中,總體一定是正態(tài)分布嗎?一般的講,所作統(tǒng)計推斷的結(jié)論是否正確,取決于實際總體與正態(tài)總體接近的程度如何.因此,建立一些方法來檢驗多元觀測數(shù)據(jù)與多元正態(tài)數(shù)據(jù)的差異是否顯著是十分必要的.如今,一元數(shù)據(jù)的正態(tài)檢驗的理論已相當(dāng)成熟,但對于多元數(shù)據(jù)的正態(tài)性檢驗問題還處在摸索前進的階段,沒有形成行之有效、有足夠說服力的檢驗方法.本文將在第一節(jié)中介紹文中用到的一元正態(tài)性檢驗的兩種基本方法:圖方法和矩法;第二節(jié)中介紹X2統(tǒng)計量的Q-Q圖檢驗法基本原理和檢驗步驟;第三節(jié)中介紹主成分正態(tài)檢驗法的基本原理和檢驗步驟;第四節(jié)中通過兩個實例做應(yīng)用分析;第五節(jié)中對這兩種方法在應(yīng)用中的優(yōu)劣做比較分析.1一元正態(tài)性檢驗的方法鑒于一元數(shù)據(jù)正態(tài)性檢驗的多樣性,本文不一一介紹,只介紹本文中用到的X2檢驗法和偏峰檢驗法.1.1圖方法設(shè)x,xx是來自總體的X隨機樣本,檢驗H:X?N(卩,62)?如果沒有關(guān)12n0于樣本的附加信息可以利用,首選推薦的是利用正態(tài)概率紙畫圖?它讓人們立即看到觀測的分布是否接近正態(tài)分布.

對于一張正態(tài)概率紙,它的橫軸的刻度是均勻的,縱軸按標(biāo)準(zhǔn)正態(tài)分布的P分位數(shù)均勻刻度,標(biāo)上相應(yīng)的P值.正態(tài)概率紙上的坐標(biāo)軸系統(tǒng)使正態(tài)分布的分布函數(shù)呈一條直線.利用正態(tài)概率紙檢驗一組觀測值是否服從正態(tài)分布,可以按如下步驟進行:把n個觀測值按非降次序排列成x<x^-<x.12n然后把數(shù)對(X,亠8)(k=1,2,…,n)點在正態(tài)概率紙上.如果所畫的n個點kn+1/4明顯地不成一條直線,則拒絕原假設(shè).如果這些點散布在一條直線附近,則可以粗略地說,樣本來自正態(tài)分布.這時,可以憑直覺配一條直線,使它離各點的偏差盡可能地小,其中在縱軸刻度為50%附近各點離直線的偏差要優(yōu)先照顧,使其盡可能地小,并且使直線兩邊的點數(shù)大致相等.如果發(fā)現(xiàn)得到的點系統(tǒng)地偏離一條直線,在拒絕原假設(shè)后,可以考慮備擇假設(shè)的類型?特別,如果幾個較大的值明顯地傾向于由其它值確定的直線的下方,作y=logX或y八&等變換可能使圖形更符合一條直線.這種方法也就是人們常說的P-P圖法或Q-Q圖法.1.2矩法矩法,也稱動差法、偏峰檢驗法,它是利用中心距的概念引入的兩個量,正態(tài)分布的這兩個量有著很好的特征,因此,常用這兩個量進行正態(tài)性檢驗.總體X的偏度是刻畫X分布的對稱程度的量,記為(1.2.1)cE(X-EX)3(1.2.1)G_—3[E(X-EX2)]2G=0,X的分布對稱;G>0,稱為正偏;G<0,稱為負偏.111總體X的峰度是衡量X的概率分布密度陡峭程度的量,記為(1.2.2)廠E(X-EX)4(1.2.2)G二[E(X-EX2)]2正態(tài)分布的偏度為0,峰度為3.一個分布如果G遠離0或G遠離3,則可認為它12與正態(tài)分布相差很大,為了檢驗樣本x,xx是否來自正態(tài)總體,先計算偏度-x)4(工(-x)4(工(x-x)3)2ii=1(x—x)3和峰度的估計量g=「丄1V-3(厶(x-x)3)2ii=1當(dāng)總體服從正態(tài)分布且樣本容量n很大時,統(tǒng)計量g和g近似正態(tài)分布,且12有E(g)沁0,Var(g)?24,如果以下不等式-2,:6<g<2〕6,―厶卑<g-3<^:'24,12nn1'nn2n只要有一個不成立,就認為總體不服從正態(tài)分布[41%2統(tǒng)計量的Q-Q圖檢驗法2.1%2統(tǒng)計量的Q-Q圖檢驗法的原理為了充分解釋咒2統(tǒng)計量的Q-Q圖檢驗法的基本原理,先引入分位數(shù)和經(jīng)驗分布函數(shù)的概念以及一個重要結(jié)論.定義2.1對0<p<1,稱滿足不等式P(X<x)>p,P(X>x)>1-p的x值為隨機變量X的P階分位數(shù).如果X是連續(xù)型的,那么P階分位數(shù)就是滿足方程F(x)=p的x的值.如果X是離散型的,那么,P階分位數(shù)存在唯一性的問題.因此采用以下定義更準(zhǔn)確:設(shè)X的分布函數(shù)為F(x),對0<p<1,定義x的P階分位數(shù)為x=inf{x:F(x)>pp所以x=F-1(p)就是分布函數(shù)的反函數(shù),且只存在唯一的P階分位數(shù),即pFG)的左側(cè)分位數(shù).分位數(shù)是隨機變量的重要數(shù)字特征,在描述數(shù)據(jù)的分布時非常有用.定義2.2設(shè)G,x,…x)是總體X的一組樣本觀察值,將它們按大小順序排12n列為x<x<…<x,x為任意實數(shù),稱函數(shù)(1)(2)(n)0,x<xF(x)=/,(1)x<x<x,(n)n(k)(k+1)1,x>x(n)為經(jīng)驗分布函數(shù).經(jīng)驗分布函數(shù)的圖像是一條階梯曲線,若觀察值不重復(fù)則階梯的每一個躍度都是丄,若重復(fù),則按1的倍數(shù)跳躍上升?對任意的實數(shù)x,F(xiàn)(x)的值等于樣本nnn的觀察值x,x,…,x中不超過x的頻率,由頻率與概率的關(guān)系,F(xiàn)(x)可以作為總12nn體X的分布函數(shù)F(x)的一個近似值,隨n的增大,近似程度越好.結(jié)論2.1設(shè)X?N(r,E),Z>0,則X為-1X?X2(p,5),其中§'工.p證明:因為0,由正定矩陣的分解可得X=CC'(C為非退化方陣),令Y=C-1X,即X=CY,則Y?N(C-1r,I),Pp因X=CC',所以Y?N(C-屮,I),且有ppXS-1X=YC空-1CY=YY?X2(p,5),其中5/(C—1卩丿二卩'屮.下面介紹咒2統(tǒng)計量的Q-Q圖檢驗法的原理,設(shè)X=(X,...;X)(a=1,…,n)為(a)alap來自p元總體X的隨機樣本,檢驗H:X?N(卩,Z),H:X不服從N⑴工).0P1p由上面的結(jié)論1可知在h0成立時,(X-卩)rZ-1(X-卩)~X2(p),所以將x到總體中心r的馬氏距離D2(X,卩)=(X-Q工-i(X-Q記為D2,則有D2?X2(p).以下構(gòu)造的檢驗方法是檢驗量D2是否有D2~X2(P)成立.先由樣品X計(a)TOC\o"1-5"\h\z算D2(a=1,…,n),并對D2排序:D2<D2<...D2;取統(tǒng)計量D2的經(jīng)驗分布函數(shù)為aa(1)(2)(n)F(D2)=t-0.5=p,記H(D2|p)表示X2(p)的分布函數(shù)在D2的值,則在H下有n(t)nt(t)(t)0p?H(D2|p);由經(jīng)驗分布得到樣本的p分位數(shù)D2=F-1(p),同時設(shè)x2分布的pt(t)t(t)ntt分位數(shù)為X2,若假設(shè)H成立,應(yīng)有:D2UX2.t0(t)t然后繪制點(D2,X2)的散點圖,這些點應(yīng)散布在一條過原點且斜率為1的直(t)t線上,如果存在明顯的偏離,則可以拒絕原假設(shè).這種檢驗法其實就是X2分布的Q-Q圖檢驗法?如果不利用分位數(shù),直接用概率散點(p,H(D2|p))繪圖,就是X2分t(t)布的P-P圖檢驗法.2.2X2統(tǒng)計量的Q-Q圖檢驗法一般步驟為了方便應(yīng)用,將上述思路的具體實施步驟歸納如下:(a)由n個p維樣品X(a=1,…,n)計算樣本均值X和樣本協(xié)方差陣(a)(a)(2.2.1)s二丄X(X—XXx—X);(2.2.1)n-1(a)(a)a=1計算樣品點X(t=1,2,…,n)到X的馬氏距離:(t)D2=(X—X)S-1(X—X)(t=1,…,n);t(t)(t)⑶對馬氏距離D戚從小到大的次序排序:tD(1)<D(2)<._<D(n)計算p=05(t=1,2,…,n)以及X2,其中X2滿足:tnttHC2|p)=p(或計算H\D2Ip)的值);tt(/)以馬氏距離為橫坐標(biāo),咒2分位數(shù)為縱坐標(biāo)作平面坐標(biāo)系,用n個點(D2,咒2)繪(t)t制散布圖,即得到X2分布的Q-Q圖;或者用另n個點(p,H(d2|pJ*)繪制散布圖,t(t)即得X2分布的P-P圖;考察這n個點是否散布在一條通過原點,斜率為1的直線上,若是,接受數(shù)據(jù)來自p元正態(tài)總體的假設(shè);否則拒絕正態(tài)性假設(shè).主成分檢驗法3.1主成分檢驗法的基本原理目前,關(guān)于主成分的研究很多,但大多數(shù)集中在進行綜合評價及回歸分析,用來做檢驗的則幾乎沒有.主成分檢驗法是建立在主成分變量基礎(chǔ)上的統(tǒng)計方法,基本思想是降維:將多元數(shù)據(jù)集轉(zhuǎn)化為多個一元互相獨立的數(shù)據(jù)集,通過檢驗一元數(shù)據(jù)集的正態(tài)性來判斷原多元數(shù)據(jù)集的正態(tài)性.為充分解釋這一思想,先引入主成分的定義.定義3.1.1設(shè)X=(X,X,…,X)'是p維隨機向量,均值E(X)二卩,協(xié)方差陣12pD(X)=S,稱Z=a'X為X的第i主成分(i=1,2.…?p),如果:iia'a=1(i=1,2.…,p);當(dāng)i>1時,a工a=0(j=1,2.…,i—1);ijVar(Z)=maxVar(a'X)?i???a'a=1,a2a.=0(j=1,2.,i—1)若已知E的特征值為X>X>-->X>0,a,a,…,a為相應(yīng)的單位正交特征向12p12p量,則X的第i主成分Z=a,X(i=1,2.….p)具體的證明過程參見文獻[1].如果可以證明:z:…;Z是相互獨立的,這時p元數(shù)據(jù)的正態(tài)性檢驗可1p化為P個相互獨立的主成分的一元數(shù)據(jù)的正態(tài)性檢驗,這種檢驗方法稱為主成分檢驗法.下面說明主成分的不相關(guān)性?設(shè)D(X)=Z,如果工是對角矩陣,即p維向量的分量互不相關(guān),這時可以直接把p元正態(tài)性檢驗問題轉(zhuǎn)化為p個一元正態(tài)性檢驗問題?但一般工不是對角矩陣,即分量間是相關(guān)的,利用主成分分析法,求得X的p個主成分Z,…,Z?下證Z,…,Z是不相關(guān)的.TOC\o"1-5"\h\z1p1p令Z=(Z,Z,…,Z),由于Z,…,Z依次為X的第i主成分的充要條件是12p1pD(Z)=diag(X,X,X)?即有12pCov(z,z)=r1主j,又X三X三……三X>0,ij[XI=j12pi即說明任意兩個不相同的主成分之間是不相關(guān)的,故Z,Z,…,Z不相關(guān).12p文獻[2]中給出了主成分?jǐn)?shù)據(jù)處理的基本方法,并分析了方法的不足,提出了改進的方法?直接將標(biāo)準(zhǔn)化的數(shù)據(jù)代入Z=AX*T,則得到主成分得分.其中,pxnpxn系數(shù)矩陣A為對應(yīng)特征向量組成的矩陣,X*t為標(biāo)準(zhǔn)化的數(shù)據(jù)集?從中我們看pxnpxn到,計算主成分得分實際上是將標(biāo)準(zhǔn)化后的原始數(shù)據(jù)投影到旋轉(zhuǎn)后的坐標(biāo)中.結(jié)論3.1.1若X?N(卩,工),則Z?N(Ay,A工A);反之,若Z服從多元正態(tài)分布,則X也服從多元正態(tài)分布.證明:由主成分的定義知,Z=A,X,其中,A=(a,a,…,a)且為正交矩陣?由12p于X?N(y,工),則E(Z)=E(AX)=AE(X)=Ay,D(Z)=D(A'X)=AD(X)A=A'工A,從而,由多元正態(tài)分布的線性性質(zhì),Z?N(Ay,A'工A),反過來,由Z服從正態(tài)分布,同理可知X服從正態(tài)分布.結(jié)論3.1.2若Z,z,…,Z獨立同正態(tài)分布,則Z服從多元正態(tài)分布.12p證明:此命題的結(jié)論可以直接從多元正態(tài)分布的定義得出.由主成分的理論特征知,主成分變量是新的互不相關(guān)的變量,因此,只要說明主成分變量Z,Z,…,Z分別服從一元正態(tài)分布,就可以說明Z服從多元正態(tài)分12p布,從而由結(jié)論3.1.1知X也服從多元正態(tài)分布.3.2主成分正態(tài)檢驗的一般步驟具體檢驗步驟如下:由n個p維樣品X(a=1,…,n)計算樣本均值X和樣本協(xié)方差陣S,計算公式(a)同(2.2.1)式;利用坐標(biāo)變換計算每個樣本點的主成分得分,得到新的主成分得分集Z,Z,…,Z;12p⑶對每個乙(i=1,2,…,p),求出其對應(yīng)的偏度和峰度值;考察偏度是否趨近0,峰度是否趨近3?若是,則接受X來自于正態(tài)總體;若兩個條件有一個不滿足,則拒絕正態(tài)性假設(shè).應(yīng)用研究為了說明這兩種方法具有很好的實用價值,并進行比較,本文給出兩個實例研究.4.1實例1對20名健康成年女性的出汗(X1),鈉的含量(X2)和鉀的含量(X3)的數(shù)據(jù)

進行正態(tài)性檢驗?本例數(shù)據(jù)與文獻[4]中第45頁例1的數(shù)據(jù)一樣,文獻[4]中是對樣本數(shù)據(jù)進行均值向量的假設(shè)檢驗,檢驗方法是基于樣本數(shù)據(jù)來自于3元正態(tài)分布的假設(shè),但文獻[4]并沒有對樣本數(shù)據(jù)進行正態(tài)性檢驗,現(xiàn)本文分別用X2統(tǒng)計量的Q-Q圖檢驗法和主成分檢驗法進行多元正態(tài)性檢驗.(1)X2統(tǒng)計量的Q-Q圖檢驗法根據(jù)2.2節(jié)給出的一般步驟,結(jié)合數(shù)據(jù)集,首先利用SAS中主成分程序(程序同見附錄3)計算出協(xié)方差陣s:X1X2X3X11000004173—5597X20417310000—2095--?5597—209510000表4T協(xié)方差陣然后利用Matlab編程計算馬氏距離(程序見附錄1),并按升序排列;同時利用SAS軟件計算出對應(yīng)的x2分位數(shù)(程序見附錄2),結(jié)果見下表:序號馬氏距離p分位數(shù)序號馬氏距離p分位數(shù)10.0030.2158110.10962.501620.00610.472120.1232.790930.00640.6924130.14463.109840.01790.9018140.22383.467550.02961.1086150.22413.877560.03551.3174160.35714.361370.0611.5316170.4554.956680.08851.754180.49025.739490.08871.9875190.84396.9046100.09152.2354201.14479.3484表4-2馬氏距離和p分位數(shù)最后以馬氏距離為橫坐標(biāo),以卡方分位數(shù)為縱坐標(biāo)作散點圖,見圖4-1:圖4-1X2統(tǒng)計量的Q-Q圖從圖中可以看出,這些點基本在一條直線的上下波動,偏離不是很大?因此,從直觀上判斷可以接受原多元數(shù)據(jù)集來自于多元正態(tài)分布的假設(shè).(2)主成分檢驗法首先通過編程(程序見附錄3)計算出主成分得分集,見表4-3:obsZ1Z2Z3obsZ1Z2Z31—2.35056—1.60948—0.6380911—0.628270.32780.1673421.28027—1.571510.6829312—1.409790.374680.6970830.29161—1.15274—0.4416913—0.545580.43448—0.12583

4-0.99597-0.99533-0.16326141.685290.48243-0.5693550.24255-0.76054-0.4243215-0.16380.59492-0.9863360.34761-0.480320.3077160.687090.595250.9434972.73671-0.456720.58714170.186840.856080.5504181.30752-0.447590.41891181.386780.98895-1.183319-0.052720.03561-0.6876319-0.904021.14607-0.1885110-2.800040.157190.6998620-0.301541.480770.35344表4-3主成分得分集然后對主成分得分集進行分析,用SAS中的UNIVARIATE命令和SAS中的分析家中的Q-Q圖分別對Zl、Z2、Z3做正態(tài)性檢驗?我們先看偏峰檢驗的結(jié)果表4—4:變量偏度峰度均值標(biāo)準(zhǔn)差方差Z1-0.15099760.776310920.1237131.2590211.58513Z2-0.3508053-0.62672680.0847090.833050.69397Z3-0.421413-0.89060520.0335830.623830.38916表4-4偏峰度檢驗結(jié)果從表4-4中可以看出偏度是在0附近波動,但是峰度的波動很大,絕對值在0.7附近,結(jié)合2.2節(jié)中的結(jié)論可知,可以拒絕原數(shù)據(jù)集是來自3元正態(tài)分布的假設(shè).我們再看圖方法檢驗的結(jié)果,見圖4-2:卜――■卜――■孑,<':片圖4-2QQ圖(依次為Z1、Z2、Z3)從圖中左上角給出的擬合方差以及均值可以看出,直線的擬合度非常好,由此可以判斷Z1、Z2、Z3都服從一元正態(tài)分布,從而可以接受原數(shù)據(jù)集來自于3元正態(tài)分布的假設(shè).從上面的分析我們看到一元正態(tài)檢驗的2檢驗法和Q-Q檢驗法得到了兩種截然相反的結(jié)果,那哪個結(jié)果更可信呢?出現(xiàn)這樣的情況也是正常的,最重要的原因是中心矩的結(jié)果很容易受到頻數(shù)分布的影響?不同的分布可能計算出同樣的中心矩,這樣就造成檢驗誤差增大.4.2實例2本例選取我國2006年各地區(qū)城市設(shè)施水平數(shù)據(jù)作正態(tài)性檢驗,包含6個指標(biāo),X1:城市用水普及率;X2:城市燃氣普及率;X3:每萬人擁有公共交通車輛;X4:人均城市道路面積;X5:人均公園綠地面積;X6:每萬人擁有公共廁所?用1~31依次表示北京、天津、河北、山西、內(nèi)蒙古、遼寧、吉林,黑龍江,上海,江蘇,浙江,安徽,福建,江西,山東,河南,湖北,湖南,廣東,廣西,海南,重慶,四川,貴州,云南,西藏,陜西,甘肅,青海,寧夏,新疆全國31個省、直轄市、自治區(qū)的名稱.

(1)咒2統(tǒng)計量的Q-Q圖檢驗法參照3.1.1中的步驟說明,可以得出相關(guān)的結(jié)果如下:X1X2X3X4X5X6XI10.82120.3768-0.14790.1356-0.1812X20.821210.53320.0750.2839-0.0797X30.37680.533210.09230.23220.2216X4-0.14790.0750.092310.56650.0193X50.13560.28390.23220.566510.0371X6-0.1812-0.07970.22160.01930.03711表4-5相關(guān)陣obs卡方分位數(shù)馬氏距離obs卡方分位數(shù)馬氏距離11.0437330.0421175.6147290.191621.6135270.0569185.8910930.238132.0032440.0579196.1812120.255742.3289340.0659206.486020.275252.620030.0713216.8107940.357162.8893580.0725227.1578030.387673.1460930.0767237.5348350.522283.3933550.0774247.9485090.651793.6359720.0783258.4081440.762103.8756490.0849268.9326740.7744114.1136470.0889279.5443230.786124.3531610.09192810.291531.5253134.594260.09392911.262311.7016144.839940.09433012.680481.825155.090180.11273115.595162.0393165.3481210.1665表4-6馬氏距離和X2分位數(shù)最終得到X2統(tǒng)計量的Q-Q圖如下:DA-BDA-B口口弓I1522.5圖4-3X2統(tǒng)計量的Q-Q圖從圖4-3中可以看出,大部分?jǐn)?shù)據(jù)呈拋物線分布,因此,拒絕原數(shù)據(jù)集來自

于6元正態(tài)分布的假設(shè).(2)主成分檢驗法同樣地,參照4.1.2中的步驟得出的結(jié)果如下:citiesZ1Z2Z3Z4Z5Z624-2.05186-2.10895-0.178150.07102-0.387460.2819825-1.81218-0.9331-0.06106-1.00455-0.754370.1386426-1.625683.741322.27013-1.62679-0.26124-0.034528-1.33918-0.30283-0.98131-0.02720.23251.0418811-1.107290.44231-0.05868-0.797140.37661-0.430738-0.982110.087962.616461.210530.07019-0.139919-0.890950.22395-1.469170.20427-1.04632-0.5074416-0.88536-0.10507-0.193020.44094-0.301730.6120727-0.82205-1.28346-0.33327-0.624660.26040.124157-0.81962-0.374690.984260.72292-0.077-0.389024-0.79483-0.852330.463781.039920.493790.1013320-0.7629-0.14111-0.86564-0.22601-0.04011-0.2669122-0.72434-1.12470.10215-0.36347-0.07823-0.3905323-0.70682-0.31605-0.37032-0.09493-0.38889-0.191545-0.666071.034671.185321.70276-0.39431-0.1117213-0.53337-0.43944-0.63015-0.52333-0.30519-0.5578330-0.372591.62408-0.184650.331890.66170.6305718-0.14585-0.80235-0.38255-0.130570.183710.1840212-0.13232-0.18019-0.802740.008010.613350.2428414-0.01007-0.73393-0.768020.15566-0.178780.10139210.114321.80327-1.713390.00923-0.797220.03847100.456331.77173-0.520470.276850.37677-0.1906730.589850.102920.021830.721270.77028-0.1537260.60268-0.780830.5020.75057-0.14062-0.38502310.81752-0.069931.13096-0.398030.789660.14311170.835080.07841-0.4441-0.10520.145590.01334291.40432-0.414171.68992-1.10294-0.52070.2899622.07803-0.426210.33992-0.631651.58452-0.0194792.1885-0.99621-0.76545-0.489410.81465-0.58464152.830352.73515-1.818150.57662-0.214270.0657415.26848-1.260251.23356-0.0766-1.487270.34416表4-7主成分得分集變量偏度峰度方差標(biāo)準(zhǔn)差Z10.039881144.77090789143.4042211.97515Z20.7109616118731713.815686Z31.834257793.6994776213.9635083.7367778Z40.661437030.215325288.42852932.9031929Z51.296210182.147064572.40113661.5495601Z61.115613740.932670812.62474221.6201056表4-8偏峰檢驗結(jié)果從表4-7中可以看出,Z1比較符合正態(tài)分布的特征,但從后面的方差以及標(biāo)準(zhǔn)差(根據(jù)Q-Q圖擬合直線與點之間的關(guān)系得到的,方差和標(biāo)準(zhǔn)差越小說明Q-Q圖越接近于一條直線,也就說明該變量越服從正態(tài)分布)來看X3?X6擬合度比較好?無論怎樣,從偏峰度和Q-Q圖都可得出,原多元數(shù)據(jù)集不服從正態(tài)性檢驗.這個結(jié)果說明我國各省、直轄市、自治區(qū)在上面描述的六個指標(biāo)中不存在都強或都弱的情況,都是此強彼弱,這很好的映證了目前我國各省、直轄市、自治區(qū)實際情況.兩種方法的比較從上面的原理介紹和應(yīng)用分析可以看出,多元數(shù)據(jù)正態(tài)性檢驗的X2統(tǒng)計量的Q-Q圖檢驗法和主成分檢驗法存在各自的優(yōu)缺點.相對來說,主成分正態(tài)性檢驗法涉及到主成分的計算,較為麻煩,但容易在軟件上實現(xiàn),具有較強的實用性和應(yīng)用價值.這也可以從主成分也能對一元變量進行檢驗可以看出來,但是需要注意的是一元檢驗的是新的主成分變量,并不是原始數(shù)據(jù)集的某一指標(biāo)的一元檢驗.X2統(tǒng)計量的Q-Q圖檢驗法具有結(jié)論簡單明了的直觀效果,但是它沒有現(xiàn)成的命令可以套用,對于專業(yè)知識不夠的人是難以得出結(jié)果的.從理論上講,主成分檢驗法是優(yōu)于X2統(tǒng)計量的Q-Q圖檢驗法,這是因為相對來說一元數(shù)據(jù)的正態(tài)性檢驗理論已經(jīng)相當(dāng)成熟,在得出主成分變量后,就可以直接用相應(yīng)的軟件命令來實現(xiàn),簡單,但分析起來就相對麻煩些.結(jié)束語本文只是比較了多元數(shù)據(jù)正態(tài)性檢驗的兩種常用方法的異同,對于其他分布的檢驗問題,由主成分的較好的特征,是否可以將主成分檢驗法推廣到其他類型分布的檢驗上呢?本文受能力和時間限制沒有研究.另外,主成分提出至今,通過大量的實踐驗證,發(fā)展形成了比較系統(tǒng)的體系.目前比較常見的有核主成分見文獻[5]、灰(也稱模糊)主成分見文獻[6]、偽主成分見文獻[7]、非線性主成分見文獻[8]等分析方法,這些方法的提出彌補了主成分一般方法的不足.對于這些改進方法見文獻[9],是否也可將之應(yīng)用到本文中的主成分檢驗法中,使主成分檢驗法的結(jié)論更為準(zhǔn)確,也沒有研究.本文的創(chuàng)新之處在于通過了兩個實例來衡量兩種檢驗方法的優(yōu)劣,這樣做的好處是避免了以偏概全,而且很好的利用軟件將x2統(tǒng)計量的Q-Q圖檢驗法的結(jié)果得出來了,并總結(jié)了兩種檢驗方法的長處和短處?美中不足的是對于x2統(tǒng)計量的Q-Q圖檢驗法沒有編寫出一個完整的程序直接得出Q-Q圖?限于作者的學(xué)術(shù)水平,文中難免有錯誤和不足,歡迎批評指正.致謝本論文選題及寫作都是在徐偉老師的親切關(guān)懷和細心指導(dǎo)下完成的.他的嚴(yán)肅的科學(xué)態(tài)度,嚴(yán)謹(jǐn)?shù)闹螌W(xué)精神,精益求精的工作作風(fēng),深深地感染和激勵著我,使我不僅接受了全新的思想觀念,樹立了宏偉的學(xué)術(shù)目標(biāo),領(lǐng)會了基本的思考方式,掌握了通用的研究方法,而且還明白了許多為人處事的道理,在此,我對徐老師表示深深的感謝.與此同時,我還要感謝教過我的所有的老師,沒有他們諄諄的教導(dǎo)就不會有我今天論文的完成,謝謝了老師,您們辛苦了.參考文獻高惠璇.應(yīng)用多元統(tǒng)計分析[M].北京:北京大學(xué)出版社,2005A.H.Al-Ibrahim,NoriahM.Al-Kandari.Stabilityofprincipalcomponents[J],ComputationalStatistics23(8),2008.9賈明輝,華志強?

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論