版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
§2主成分分析2.1主成分的基本思想主成分分析(principalcomponentanalysis)也稱主分量分析,是1901年提出,再由霍特林(Hotelling1933)加以發(fā)展的一種統(tǒng)計(jì)方法.基本思想:主要目的利用降維的思想,在損失很少信息的前提下把多個變量(指標(biāo))轉(zhuǎn)化為幾個綜合指標(biāo)(變量)的多元統(tǒng)計(jì)方法.轉(zhuǎn)化成的綜合指標(biāo)稱為主成分,每個主成分是原始變量的線性組合且各個主成分之間互不相關(guān),主成分保留原始變量的絕大部分信息問題:100名學(xué)生的六門課程的成績:問:能否把6個變量X1,X2,…,X6(數(shù)學(xué)、物理等6科成績),用一兩個綜合變量Y1,Y2來表示?Y1,Y2包含有多少原來的信息呢?能否用綜合變量對成績排序或進(jìn)行其他分析?例中每個觀測值是6維空間(X1,X2,…,X6)中的點(diǎn),共100個。希望把6維空間用低維空間(Y1,Y2)表示.2.2主成分分析的幾何意義設(shè)有兩變量X],X2(數(shù)學(xué)、語文成績),構(gòu)成二維隨機(jī)向量X=(X],X2)t,E(X)=0.觀測n次數(shù)據(jù)x=(x,x),(i=1,2,,n),p(X,X)=—-—1 ~2 機(jī)11i2 1 2 Var(X)-Var(DX)12'Y=Xcos0+Xsin0J=一X1sin0+X2cos0則樣本點(diǎn)在坐標(biāo)系氣Ox2下基本分布在一條直線l上如圖,在l'Y=Xcos0+Xsin0J=一X1sin0+X2cos0是正交矩陣(cos0sin0'是正交矩陣一一sin0cos0,相當(dāng)于坐標(biāo)系xOx逆時針旋轉(zhuǎn)0角得新坐標(biāo)系y^y,原觀測點(diǎn)在新坐標(biāo)系下可表為1 2 1 2y=xcos0+xsin0y1=一x1sin0+x2cos0'2L1 L2旋轉(zhuǎn)后數(shù)據(jù)j,j,…,j和j,j,…,j分別反映了在垂直方向y,y上數(shù)據(jù)的分TOC\o"1-5"\h\z1121 n1 1222 n2 12 1T, —、散性信息.由圖知在軸j上數(shù)據(jù)值分散性最大(具最大樣本方差"=U(j-j)2),1 1n一1日1i=1說明Var(Y)最大.而垂直方向j上數(shù)據(jù)分散性最小,Var(Y)最小.因此,Y的觀測值1 2 2 1j,j,…,j基本反映了X=(X,X)觀測值變化的基本情況,可用一維隨機(jī)變量Y代替11 21 n1 1 2 1二維隨機(jī)變量X=(X1,X2),達(dá)到降維的目的.稱Y1為第一主成分,其系數(shù)向量aT=(a,a)=(cos0,sin0),具有a2+a2=1.Y為第二主成分,其系數(shù)向量1 11 12 11 21 2at=(a,a)=(-sin0,cos0),a2+a2=1.圖4-1二維隨機(jī)向量的第一、第二主成分示意圖二維隨機(jī)向量X的100個點(diǎn)構(gòu)成一個橢圓形狀,見上圖.主成分分析的目的:構(gòu)造原變量的一系列線性組合,使其方差(或樣本方差)達(dá)到最大.P維隨機(jī)向量X的主成分其實(shí)就是p個變量x「x2,…,X的一些特殊的線性組合,在幾何上這些線性組合正好把X「X2,...,Xp構(gòu)成的原坐標(biāo)系統(tǒng)經(jīng)過旋轉(zhuǎn)后產(chǎn)生新坐標(biāo)系統(tǒng),這個新坐標(biāo)系統(tǒng)的軸方向上具有最大的變異,同時提供了協(xié)方差陣的最簡潔的表示(非對角線上為0).2.3總體主成分一一.基本理論設(shè)某一事物研究涉及p個指標(biāo)X,X,…,X,構(gòu)成X=(X,X,…,X)T---p維1 2 p 1 2 p隨機(jī)向量,均值EX=|i,協(xié)方差陣Cov(X)=D(X)=£=何) =E[X-E(X))(X-E(X))t]非負(fù)定.考慮X],X2,...,X的一個線麻組合(或稱對X線性變換形成新的綜合變量Y):=arX=aX+aX+…+aX1 11 1 12 2 1pp這里aT=(常,a】?,…,ap).TOC\o"1-5"\h\z對于綜合變量Y,我們要確定aT=(a,a,…,a),使得Y的方差1 1 11 12 1p 1Var(Yi)=Var(a:X)=a:£a達(dá)到最大.由于對任意給定的常數(shù)c,Var(ca:X)=c2a:£a,如果對%不加以限制,上述問題就變得毫無意義.于是限制在a:a1=1下,求Var(a:X)的最大值.如果第一主成分y在a方向上的分散性還不足以反映原變量的分散性,再構(gòu)造1 1X1,X2,...,X的線性組合:=aTX=aX+aX+…+aX2 21 1 22 2 2pp這里a:=(a,a,…,a),要求y和Y不相關(guān)(信息不重疊),即2 21 22 2p 2 1ata=1,Cov(Y,Y)=at£a=0,使Var(atX)達(dá)最大.22 2 1 2 1 2Cov(Y,Y)=Cov(a:X,atX)=at£a=011 2 1 2 1轉(zhuǎn)化為在約束條件aTa2=0和aT^a=0下,求a2使得使Var(aTX)達(dá)最大.一般,若x],x2,…,Xk[還不足以反映原變量的信息,則進(jìn)一步構(gòu)造x1,X2,...,Xp的線性組合Y=aTX=aX+aXH \-aX,求a(k=1,2,...,p)kk k11 k22 kpp k滿足:(1)系數(shù)向量單位化aTak=1;各主成分不相關(guān),無重疊信息Cov(Y,Yk)=敏£七=0,j專k;主成分方差由此遞減Var(Y)>Var(Y2)>…>Var(Y)>0.二.總體主成分求法 "p維隨機(jī)變量X=(X1,X2,...,Xp)T,X的協(xié)方差矩陣£的p個特征值XzX>…>人=0,且特征值所對應(yīng)的特征向量分別為e,e,…,e,則01 2 p 1 2mX的第k個王成分為Y=eTX=eX+eXH FeX,k=1,2,…,p,e=(e,e,…,e)tkk k11 k22 kpp k k1k2kp
IVar(Y)=erEe=Xete=X k=1,2,…,p且<kkkkkkkICov(Y,Y)=erEe=Xete=0j豐kljkjkkjk證明:(可略)PTEP=A=???E非負(fù)對稱’則存在正交矩陣P=PTEP=A=為對角陣,且e,e,…,ep為標(biāo)準(zhǔn)正交化的特征向量.證明:E證明:E非負(fù)對稱,則存在正交矩陣P=(e1,%???,ep),PTPTEP=A=p為標(biāo)準(zhǔn)正交化的特征向量.(1)第一主成分為Y(1)第一主成分為Y1=erX=atX滿足ata1 1 1=頃得V"(件)最大.令z=(z,z,…,z)t=Pta,則ztz=atPPta=ata=1,a=Pz1 1112 1P 1 11 1 1 11 1 1且Var(Y)=atEa=ztPtEPz=ztAz=Xz2=Xz2+Xz2H Xz2<X(z2+z2H Fz2)=XzTz=X111 212P1P 1 1112當(dāng)z1=(1,0,-,0)"寸,上式取等號,從而a1=Pz1=e1當(dāng)z1=(1,0,-,0)"寸,上式取等號,一主成分Y1=eTX-⑵第二主成分為Y2=eTXTOC\o"1-5"\h\z對第二主成分,Y=aTX,滿足aTa=1,Cov(Y,Y)=aTEa=0,使Var(aTX)達(dá)2 2 22 2 1 2 1 2最大.令z=(z,z,…,z)T=PTa,則zTz=aTa=1,且由2 222 2p 2 22 220=atEa=atEe=Xaten0=ate=ztPte=zete+zere+…+zete=z2 2 2 2 2 2 222 2pp 2故Var(Y)=atEa=ztPtEPz=ztAz=Xz2+Xz2h Xz22 222 2 22 121 2 22 p2p=Xz2H Xz2<X (z2H Fz2)=X zTz =X222 p2p 222 2p 222 2
當(dāng)z2=(0,1,-,0)T時,上式取等號,從而a2=Pz2=e2時,滿足aTa2=1,Cov(Y,Y)=XaTe=0,且使Var(aTX)=X達(dá)最大,得第二主成分Y=eTX.2 1 121 2 2 2 2類似可證.三.總體主成分的性質(zhì)主成分協(xié)方差矩陣及總方差Y=(Y,Y,…,Y)T為p個主成分構(gòu)成的隨機(jī)向量,則Y=PTX,其中1 2 pP=(e「e2,…,e)為£的p個正交單位化特征向量構(gòu)成的正交矩陣,主成分向量乂的p rx1協(xié)方差陣為Cov(Y)=Cov(PTX)=PT£P(guān)=\各主成分的總方差E(YE(Y)=&k kk=1 k=1=tr㈤=& =8(X)=1 =1X=(X,X/.fX)T的各變量總方差分解成不相關(guān)變量Y,Y,…,Y的總方差.1 2 p 1 2 p主成分的貢獻(xiàn)率與累計(jì)貢獻(xiàn)率Pk=Xk/YX.——第k個主成分的貢獻(xiàn)率j=1它反映了第k個主成分提取全部信息的多少£x/£x 一前k個主成分的累積貢獻(xiàn)率jjj=1 j=1它反映了前k個主成分共同提取全部信息的多少.說明:第k個主成分與原始變量Xj的相關(guān)系數(shù)P(Y,Xj)稱為因子載荷.p(丫廣X,)=ekJX~:Var(X,) '£P(guān)2(Yk,X;)=1=1四.主成分分析-PROCPRINCOMP過程?:?基本語句形式:?:?PROCPRINCOMP<DATA=SAS數(shù)據(jù)集1><OUT=SAS數(shù)據(jù)集2><OUTSTAT=SAS數(shù)據(jù)集3><COV><N=n><PREFIX=name>;/*指出要進(jìn)行分析的SAS集名稱、輸出集等*/VAR變量名稱; /*VAR后面列出數(shù)據(jù)集中參與主成分分析的變量名稱,若省略此句,則數(shù)據(jù)集中所有數(shù)值變量均參與分析*/RUN;
例2-1設(shè)隨機(jī)向量X=(X1,X2,X3)T協(xié)方差矩陣為1-20-1-20-250002£=,求X主成分.特征根快I-£1=X-1特征根快I-£1=X-1202X-5000X-2=(X-2)(X2-6X+1)=0=2X1=3-^2=2X1=3-^2w0.172(1-1+w''20、(x1、解001X20k007xkx37=0得x=(1-\2)1(i吃、(-0.3876、求出特征根a=11,單位化得e1w0.93280k7k072求特征根并依大到小排列X=3+2應(yīng)=5.828,X1(2+2方20、(1-1+方0'(1-1+行0、2-2+2克0T1+方10T00 10k01+2而70k0170k0 07(2)正交單位化的特征向量(X11-£)=(120、(100、2-30—010k0007k0007(XI-£)=2解(人21-£)解(人21-£)(x1X2xk=0得氣任意,求出e2f2-27‘2201f1一1-曲0、I-2)=2-2-2J20T00 130v01-2出J0v0 0JIX3JIX3J得x=(1+琪2)x1 2解0 00 0v"''2、f0.9328、求出特征根a=11,單位化得罕0.38760vJv0J特征向量對應(yīng)的特征根不同,故互相正交.求主成分七^-0.3876x1+0.9328x2七=x3七牝0.9328x+0.3876x2貢獻(xiàn)率第一、二三主成分的貢獻(xiàn)率一^廠分別為0.7286,0.2500,0.0214.人+人+人法二:程序?qū)崿F(xiàn)dataexamp2_1(type=cov);/*建立數(shù)據(jù)集,數(shù)據(jù)集為協(xié)方差矩陣要加上(type=cov)*/_type_='cov'; /*輸入數(shù)據(jù)集為協(xié)方差矩陣要加上_type_=’cov’*/input_name_$x1-x3; /*輸入變量要加上_name_$,取值可指定為輸入的變量名*/cards;x11-20x2-250x3002;run;procprincompdata=examp2_1covoutstat=bb;/*調(diào)用主成分分析的princomp過程,從協(xié)方差陣出發(fā)進(jìn)行主成分分析,命令一個含變量均值、協(xié)方差陣、特征值、特征向量的輸出SAS集bb*/varx1-x3; /*參與分析變量為x1-x3*/run;procprintdata二bb;/**/run;
SAS系統(tǒng)TOC\o"1-5"\h\z10:24Sunday,November2,2008 1SAS系統(tǒng)ThePRINCOMPProcedureObservations 10000Variables 3TotalVariance8協(xié)方差矩陣Z的特征值、各主成分的貢獻(xiàn)率、累計(jì)貢獻(xiàn)率EigenvaluesoftheCovarianceMatrixEigenvalueDifferenceProportionCumulative特征值貢獻(xiàn)率累計(jì)貢獻(xiàn)率15.828427123.828427120.72860.728622.000000001.828427120.25000.978630.171572880.02141.0000協(xié)方差矩陣Z特征值排序的正交化特征向量Eigenvectors第一主成分第二主成分第三主成分Prin1Prin2Prin3x1-.3826830.000000.923880x20.9238800.000000.382683x30.0000001.000000.000000輸出數(shù)據(jù)集含各變量均值、觀測數(shù)據(jù)個數(shù)1000、協(xié)方差陣、特征值和特征向量等SAS系統(tǒng) 10:24Sunday,November2,2008 2Obs_TYPE__NAME_x1x2x31MEAN0.000.000.00觀測個數(shù)默認(rèn)100002N10000.0010000.0010000.00協(xié)方差矩陣3COVx11.00-2.000.004COVx2-2.005.000.005COVx30.000.002.00特征值6EIGENVAL5.832.000.17主成分'7主成分Y289SCOREPrin1-0.380.920.00SCOREPrin20.000.001.00SCOREPrin30.920.380.00五.基于相關(guān)系數(shù)矩陣的主成分分析--標(biāo)準(zhǔn)化變量的主成分將X=(X,X,…,X)T標(biāo)準(zhǔn)化x*=Xk-七,k=1,2,…,p,則Var(X*)=1.1 2 P k kVkk令X*=(X*,X*,???,X*),p=E(X*,X*)=C°"XJ.),X*的協(xié)方差矩陣1 2pij,j%。bp=(pi) =Cov(X*)恰為X的相關(guān)系數(shù)矩陣.主成分分析步驟:求X的相關(guān)系數(shù)矩陣p的特征值“以;>…以注0相應(yīng)人*的正交化的特征向量e*=(e*,e*,…,e*)tk k k1 k2 kp3)X*=(X"X;,…,XJ的第k個主成分為Y*=(e*)tX*=e*X*+e*X*+——beX*,k=1,2,…,pkk k11 k22 kppkk=1且有Uvar(Y*)=X人*=^LVar(X*)=pkk=1k=1 k=14)X*/^X*=X*/p 第k個主成分的貢獻(xiàn)率kjj=1&*/XX*=Xk/p——前k個主成分的累積貢獻(xiàn)率TOC\o"1-5"\h\zj=1 j=11 -20例2.2X=(X「X2,X3)T協(xié)方差矩陣為£=-250,從P出發(fā)進(jìn)行主成分分析.0 02解:程序如下dataexamp2_2(type=cov);/*建立數(shù)據(jù)集,數(shù)據(jù)集為協(xié)方差矩陣要加上(type=cov)*/_type_='cov'; /*輸入數(shù)據(jù)集為協(xié)方差矩陣要加上_type_=’cov’*/input_name_$x1-x3; /*輸入變量要加上_name_$,取值可指定為輸入的變量名*/cards;x11-20x2-250x3002run;procprincompdata=examp2_2outstat=bb;/*調(diào)用主成分分析的princomp過程,從相關(guān)系數(shù)矩陣出發(fā)進(jìn)行主成分分析,命令一個含變量均值、協(xié)方差陣、特征值、特征向量的輸出SAS集bb*/varx1-x3; /*參與分析變量為x1-x3*/run;從相關(guān)系數(shù)矩陣出發(fā)進(jìn)行主成分分析TOC\o"1-5"\h\zTheSASSystem 20:59Wednesday,July14,2013 4ThePRINCOMPProcedureObservations 10000Variables 3EigenvaluesoftheCorrelationMatrix相關(guān)系數(shù)矩陣P的特征值、各主成分的貢獻(xiàn)率、累計(jì)貢獻(xiàn)率EigenvalueDifferenceProportionCumulative特征值貢獻(xiàn)率累計(jì)貢獻(xiàn)率11.894427190.894427190.63150.631521.000000000.894427190.33330.964830.105572810.03521.0000Eigenvectors
相關(guān)系數(shù)矩陣P按特征值排序的正交化特征向量PrinlPrin2Prin3第一主成分e*第二主成分e2 e;x10.7071070.000000.707107x2-.7071070.000000.707107x30.0000001.000000.000000從相關(guān)系數(shù)矩陣P出發(fā)做主成分分析,即求X標(biāo)準(zhǔn)化向量X*的主成分,P的特征值及正交單位化的特征向量分別為人*=1.89, e*=(0.707,-0.707,0)t,Y*=e*tX*=0.707X*-0.707X*1 1 11 1 2人2=1, e;=(0,0,1)t, Y*=X3人3人3=0.106e;=(0.707,0.707,0)t第一主成分貢獻(xiàn)率下降為Y*=e;TX*=0.70X*+0.70X一斜——=63.15%,前兩個主成分貢獻(xiàn)率97.89%.人*+人*+人*1 2 3由此看到,用相關(guān)系數(shù)矩陣求主成分,使得X[的重要性得到了提升.2.4樣本主成分X=(X『X2,...,Xp)T的協(xié)方差矩陣£(或相關(guān)系數(shù)矩陣P)未知,可以利用樣本協(xié)方差矩陣S或樣本相關(guān)系數(shù)矩陣R作為£或P的估計(jì)進(jìn)行主成分分析.一.基于樣本協(xié)方差矩陣的主成分分析來自于總體X的容量為n的樣本觀測數(shù)據(jù)X樣本協(xié)方差矩陣 來自于總體X的容量為n的樣本觀測數(shù)據(jù)X樣本協(xié)方差矩陣 'W—In一1'i=1其中X=(x,X,…,Xp)T,=(Xi1,Xi2,…,Xip)T,i=1,2,…,n1E(x-x)(x-x)Tn—1iii=1£(x-X)(x,-X)pxp為Xj(j=1,2,…,p)的樣本均值.— 1vn七=n切i=1xij求主成分步驟:(1(1)求樣本協(xié)方差矩陣S特征值。(2)相應(yīng)的正交單位化特征向量e,e,…,e,e=(e,e,…,e);1 2 pkk1k2 kp第k個樣本主成分k=1,2,…,p△ k=1,2,…,py=etx =e x+e x+ +e x,kkk11k22 kpp
尤/£尤或/p——第k個樣本主成分的貢獻(xiàn)率kjkj=1£尤/£尤=£尤/p——前k個主成分的累積貢獻(xiàn)率jj jj=1 j=1 j=1第k個樣本主成分的n個觀測值稱為第k個樣本主成分的得分,可以依據(jù)得分對各組樣本觀測數(shù)據(jù)進(jìn)行排序y=etx=ex+exH Fex(i=1,2,…,n)ikki k1i1k2i2 kpip樣本主成分的觀測數(shù)據(jù)(得分向量)y=(y.,,y.c,…樣本主成分的觀測數(shù)據(jù)(得分向量)y=(y.,,y.c,…,y「t注意:樣本主成分的觀測數(shù)據(jù)-i i1i2(得分)的協(xié)方差矩陣(i=1,2,…,n)S=(etSet)jkpxp'上£n—1i=1、(y—y)(y—y)jikkJpxpR1ij樣本總方差=£skk=2k=1力.kk=1二.基于樣本相關(guān)系數(shù)矩陣的主成分分析樣本相關(guān)系數(shù)矩陣,二.基于樣本相關(guān)系數(shù)矩陣的主成分分析樣本相關(guān)系數(shù)矩陣, 、s「出發(fā)進(jìn)行主成分分析,相當(dāng)于從標(biāo)準(zhǔn)化樣本pxpIxpxpIx—x
x*=i1 1iXvS11-、\;sppi=1,2,…,ns;22的樣本協(xié)方差矩陣出發(fā)進(jìn)行主成分分析,求出R的特征值和正交單位化的特征向量即可.樣本總方差為p.步驟:1)求R的特征值無立無*>…或*>01 2 p2)相應(yīng)的正交單位化特征向量e*,e*,…,e*,e*=(e*,e*,…,e*)1 2 pkk1k2kp3) 第k個樣本主成分y*=e*tx=e*x*+e*x*+—+e*x*,k=1,2,…,pkk k11k22 kppp4)尤*/2尤*=R*/p 第k個樣本主成分的貢獻(xiàn)率j=12尤*/2尤*=2尤*/p——前k個主成分的累積貢獻(xiàn)率jj jj=1 j=1 j=15) 第k個樣本主成分的得分y*=e*x*=e*x*+e*x*+—+e*x*(i=1,2,…,n)ikki k1i1 k2i2 kpip表2.1p個變量的原始數(shù)據(jù)及其主成分得分
序號 原變量 主成分Xn1Xn1…Xnpyn1yn2…'npX,X,…,X Y,Y,…,Y12p12p1X11X12…X1Py11y-12y1p2X21X22??,X2p'21'22…y2p例2.3為全面了解我國西北某省的十家上市公司的獲利能力和經(jīng)營發(fā)展能力,特選取公司如下六個指標(biāo)進(jìn)行分析:X2:凈資產(chǎn)收益率;XX2:凈資產(chǎn)收益率;X5:凈資產(chǎn)增長率;X3:主營業(yè)務(wù)收益率;X6:總資產(chǎn)增長率.X4:主營業(yè)務(wù)增長率;其中前三個變量反映了上市公司的獲利能力,后三個變量反映了公司的經(jīng)營發(fā)展能力.表1.3給出了這10家公司關(guān)于六個指標(biāo)在過去三年取值的加權(quán)平均,對其做主成分分析,并按第一主成分對這10家公司的綜合能力進(jìn)行排序.表2.210家上市公司的獲利和發(fā)展能力數(shù)據(jù)公司編號X1X2X3X4X5X610.02126.80657.311-39.819-39.8198.8192-0.142-7.17916.335-11.359-4.766-4.6263-0.737-62.4177.359-18.378-19.16512.28940.3207.27617.37239.50619.85841.93950.1604.82038.32337.11323.74434.06360.35111.84223.11814.72511.6169.51670.2435.17317.51514.435123.10179.4898-0.190-10.9128.236-2.746-7.439-10.50290.1737.54323.97817.12221.31825.701100.3679.35216.04855.62127.86118.918解:程序如下:dataexamp2_3;inputidx1-x6;cards;0.021 26.806 57.311 -39.819 -39.819 8.819-0.142 -7.179 16.335 -11.359 -4.766 -4.626-0.737 -62.417 7.359 -18.378 -19.165 12.289
40.3207.27617.37239.50619.85841.93950.1604.82038.32337.11323.74434.06360.35111.84223.11814.72511.6169.51670.2435.17317.51514.435123.10179.4898-0.190-10.9128.236-2.746-7.439-10.50290.1737.54323.97817.12221.31825.701100.3679.35216.04855.62127.86118.918run;proccorrcovnosimpledata=examp2_3;/*調(diào)用協(xié)方差分析的corr過程,計(jì)算協(xié)方差矩陣,不輸出變量的簡單統(tǒng)計(jì)量值*/varx1-x6;run;procprincompdata=examp2_3out=bb;/*調(diào)princomp過程,用相關(guān)系數(shù)陣進(jìn)行主成分分析,輸出集bb*/varx1-x6;run;/*以下程序?qū)Ω鞴景吹谝恢鞒煞诌M(jìn)行排名并打印結(jié)果*/datascore1;setbb;datascore1;setbb;keepidprin1;procsortdata=score1;bydescendingprin1;/*調(diào)用數(shù)據(jù)集bb*//*保留id(編號)、print1(第一主成分得分)*//*對數(shù)據(jù)集數(shù)據(jù)集score1進(jìn)行排序,按照prin1降序排列*/run;/*打印輸出數(shù)據(jù)集/*打印輸出數(shù)據(jù)集score1*/run;(1)調(diào)用協(xié)方差分析的corr過程,計(jì)算協(xié)方差矩陣及相關(guān)系數(shù)矩陣6x1TheSASSystem變量: x1x219:53Saturday,October16,2012 1CORR過程x5 x69x5x6x2樣本協(xié)方mx3x3 x4差矩陣S,自由度=x4x10.1158567.0380861.4695506.6069167.1765403.832540x27.038086574.072521227.762290181.962655202.129706127.455392x31.469550227.762290225.355308-112.974155-161.18128015.099194x46.606916181.962655-112.974155853.528265653.378961323.896329x57.176540202.129706-161.181280653.3789611896.138991972.852413x63.832540127.45539215.099194323.896329972.852413673.171848由樣本協(xié)力差矩陣看出,各指標(biāo)的樣本力差差異很大,因此從樣本相關(guān)系數(shù)矩陣出發(fā)進(jìn)行主成分分析(即求標(biāo)準(zhǔn)化的樣本主成分).由SASprocprintcomp過程得樣本相關(guān)系數(shù)矩陣如下:Pearson樣本相關(guān)系數(shù)矩陣R及檢驗(yàn)對應(yīng)的兩個變量是否相關(guān)的檢驗(yàn)p值
Pearson相關(guān)系數(shù),N=10當(dāng)H0:Rho=0時,Prob>|r|x1x2x3x4x5x6x11.00000P12=0.863000.287600.664400.484190.43397P12=0.0013<0.05相關(guān)0.42040.03610.15620.2102x20.863001.000000.633230.259950.193740.205030.00130.04940.46830.59180.5699x30.287600.633231.00000-0.25759-0.246570.038770.42040.04940.47240.49220.9153x40.664400.25995-0.257591.000000.513600.427300.03610.46830.47240.12890.2181x50.484190.19374-0.246570.513601.000000.861090.15620.59180.49220.12890.0014x60.433970.205030.038770.427300.861091.000000.21020.56990.91530.21810.0014(2)調(diào)用主成分分析的princomp過程,從相關(guān)系數(shù)矩陣出發(fā)進(jìn)行主成分分析,輸出集址TheSASSystem 19':53Saturday,October16,20122ThePRINCOMPProcedureObservations10Variables6SimpleStatistics(簡單統(tǒng)計(jì)量均值、標(biāo)準(zhǔn)差)x1x2x3x4x5x6Mean0.0566000000-0.7696000022.5595000010.6220000015.6309000021.56060000StD0.340376654123.9598105415.0118389229.2152060543.5446781025.94555545CorrelationMatrix(樣本相關(guān)系數(shù)矩陣R)x1x2x3x4x5x6x11.00000.86300.28760.66440.48420.4340x20.86301.00000.63320.26000.19370.2050x30.28760.63321.0000-.2576-.24660.0388x40.66440.2600-.25761.00000.51360.4273x50.48420.1937-.24660.51361.00000.8611x60.43400.20500.03880.42730.86111.0000表2.3樣本相關(guān)系數(shù)矩陣R的特征值、各主成分貢獻(xiàn)率及累計(jì)貢獻(xiàn)率EigenvaluesoftheCorrelationMatrixEigenvalueDifferenceProportionCumulativeA特征值入* 貢獻(xiàn)率% 累計(jì)貢獻(xiàn)率%I
13.01107972 1.203325470.50180.501821.80775425 0.973125130.30130.8031前兩個已達(dá)80.30%30.83462912 0.554388920.13910.942240.28024020 0.227993770.04670.989050.05224643 0.038196140.00870.997760.014050290.00231.0000表2.4樣本相關(guān)系數(shù)矩陣R特征值的正交化特征向量Eigenvectors;(特征向量)PrinlPrin2Prin3Prin4Prin5Prin6第一主成分e*第二主成分e;e*3e*4e*5e*6X10.5228440.213764-.294754-.196018-.288537-.687301x20.3968140.508698-.103156-.392312-.0663450.644060x30.1002560.6553120.3762610.4895160.382587-.181505x40.416770-.243670-.5694650.5840370.2270170.223608x50.444032-.3765180.328673-.3702350.639571-.083182x60.433888-.2548640.5732280.299781-.5526160.151465由表2.4知,前兩個主成分的累計(jì)貢獻(xiàn)率已達(dá)80.31%,因此,取前兩個主成分做進(jìn)一步分析即可.表4.5給出了對應(yīng)于療和心的正交單位化特征向量金和金,由此得到標(biāo)準(zhǔn)化1 2 1 2指標(biāo)的前兩個樣本主成分為y*=efx*=0.5528x*+0.3968x2+0.1003x;+0.4168x;+0.4440x*+0.4339x;為六指標(biāo)加權(quán)平均,反映各公司在獲利和發(fā)展能力的綜合實(shí)力.y*值大,則各公司的獲利能力和經(jīng)營發(fā)展能力越強(qiáng).y*=e*Tx*=0.2138x*+0.5087x*+0.6553x*-0.2437x*-0.3765x*-0.2549x*2 2 1 2 3 4 5 6反映各公司獲利能力與發(fā)展能力的對比,獲利能力大且發(fā)展能力小,則y2值越大.反之,y2值越大,公司在獲利能力和發(fā)展能力差異越大.(3)按第一主成分對各公司進(jìn)行排序表2.5各公司按第一主成分得分的排序結(jié)果TheSASSystem19:53Saturday,October16,2012 3ObsidPrin1排名公司編號第一樣本主成分y*的得分172.47008第一,綜合實(shí)力最強(qiáng)2101.32340341.29914451.02640590.54590660.4809971-0.8639882-1.4122798-1.6045610 3 -3.26510想畫出第二主成分對第一主成分得分的散點(diǎn)圖,以及按第一主成分得分排序后的主成分得分和原始數(shù)據(jù),可以把程序改寫如下:dataexamp2_3;inputidx1-x6;cards;10.02126.80657.311-39.819-39.8198.8192-0.142-7.17916.335-11.359-4.766-4.6263-0.737-62.4177.359-18.378-19.16512.28940.3207.27617.37239.50619.85841.93950.1604.82038.32337.11323.74434.06360.35111.84223.11814.72511.6169.51670.2435.17317.51514.435123.10179.4898-0.190-10.9128.236-2.746-7.439-10.50290.1737.54323.97817.12221.31825.701100.3679.35216.04855.62127.86118.918run;procprincompdata=examp2_3prefix=yout=bb;/*調(diào)用主成分分析的princomp過程,從相關(guān)系數(shù)矩陣出發(fā)進(jìn)行主成分分析,主成分名稱y,輸出集bb*/varx1-x6;procplotdata=bb;ploty2*y1$id=’*’;/*畫散點(diǎn)圖,橫標(biāo)y1,縱標(biāo)y2*/procsortdata=bb;bydescendingy1; /*對數(shù)據(jù)集數(shù)據(jù)集bb進(jìn)行排序,按照第一主成分y1降序排列*/run;procprintdata=bb;/*打印輸出數(shù)據(jù)集bb*/varidy1y2x1-x6; /*輸出一、二主成分及原始數(shù)據(jù)*/run;(4)第一、第二主成分散點(diǎn)圖TheSASSystem19:53Saturday,October16,2012 4Plotofy2*y1$id.Symbolusedis'*'.y2|4+|||| *13+||||2+IIII1+ITOC\o"1-5"\h\z| *6I *5II *2 *90+II *10I *8 *4II-1+IITOC\o"1-5"\h\zI *7II *3-2+I + + + + + + + +-4 -3 -2 -1 0 1 2 3由此直觀看出:第一主成分樣本得分降序排列依次為(右到左):71045961283;按第二主成分排序?yàn)椋ㄉ系较拢?6592104873分4類:1單獨(dú)一類,3單獨(dú)一類,7一類,其余一類.(5)程序輸出結(jié)果,含第一、第二主成分和原始數(shù)據(jù),并按照第一主成分降序排序TheSASSystem 19:53Saturday,October16,2012 5Obsidy1y2x1x2x3x4x5x6172.47008-1.507070.2435.17317.51514.435123.10179.4892101.32340-0.329520.3679.35216.04855.62127.86118.918341.29914-0.367850.3207.27617.37239.50619.85841.939451.026400.457820.1604.82038.32337.11323.74434.063590.545900.167450.1737.54323.97817.12221.31825.701660.480990.595840.35111.84223.11814.72511.6169.51671-0.863983.105440.02126.80657.311-39.819-39.8198.81982-1.412270.08441-0.142-7.17916.335-11.359-4.766-4.62698-1.60456-0.36954-0.190-10.9128.236-2.746-7.439-10.502103-3.26510-1.83698-0.737-62.4177.359-18.378-19.16512.289
方法二菜單操作方法可以用菜單系統(tǒng)“分析員應(yīng)用”來完成主成分分析.具體步驟:打開SAS,生成數(shù)據(jù)文件Examp2_3,臨時在Work邏輯庫中(或建立邏輯庫引用名,建立永久數(shù)據(jù)集);步,或者先建立好Excel文件如例2.3,在SAS菜單點(diǎn)File—ImportDate—選擇Excel文件點(diǎn)擊下一步,找到Excel文件例2.3,在Options選擇第一行為變量名,起一個文件名Exam2,點(diǎn)擊完成。步,點(diǎn)擊solution解決方案一分析analysis一分析家(DataAnalyst);打開SAS集Examp2_3:選擇File一^penbySASName--,在彈出窗口選擇數(shù)據(jù)庫work和數(shù)據(jù)集名Example一點(diǎn)擊OK;選擇Statistics統(tǒng)計(jì)一Multivariate多元分析一PrincipalComponents主成分.在彈出的窗口選擇變量,將X1-X6選入variable,點(diǎn)OK,主窗口下按Statistics鍵,選擇用相關(guān)還是協(xié)方差陣進(jìn)行分析及主成分的個數(shù),這里選擇相關(guān)陣correlations,主成分個數(shù)ofxomponents選6,點(diǎn)擊OK.主窗口下按Plot,選擇是否繪制屏幕圖(Screeplot)和主成分圖(componentplot).這里選擇繪制增強(qiáng)型的主成分圖Enhanced,并指定id為排序變量,點(diǎn)擊id進(jìn)入Id窗口,點(diǎn)擊OK.還可以在title下選擇標(biāo)題名稱,如上市公司主成分分析結(jié)果.在主窗口下le按SaveData鍵選擇是否主成分得分向量及統(tǒng)計(jì)量,這里選擇不儲存結(jié)果?點(diǎn)編輯-復(fù)制到word文檔即可.結(jié)果如下:TOC\o"1-5"\h\z20:46Saturday,October16,2012 1上市公司主成分分析結(jié)果ThePRINCOMPProcedureObservations 10Variables 6SimpleStatisticsx1x2x3x4x5x6Mean0.05660-0.76960, 22.5595010.6220015.6309021.56060StD0.3403923.9598115.0118429.2152143.5446825.94556CorrelationMatrixx1x2 x3x4x5x6x11.00000.8630 0.28760.66440.48420.4340x20.86301.0000 0.63320.26000.19370.2050x30.28760.6332 1.0000-.2576-.24660.0388x40.66440.2600 -.25761.00000.51360.4273x50.48420.1937 -.24660.51361.00000.8611x60.43400.2050 0.03880.42730.86111.0000EigenvaluesoftheCorrelationMatrixEigenvalueDifferenceProportionCumulative1 3.01107972 1.20332547 0.5018 0.501821.807754250.973125130.30130.803130.834629120.554388920.13910.942240.280240200.227993770.04670.989050.052246430.038196140.00870.997760.014050290.00231.0000EigenvectorsPrin1Prin2Prin3Prin4Prin5Prin6X10.5228440.213764-.294754-.196018-.288537-.687301x20.3968140.508698-.103156-.392312-.0663450.644060x30.1002560.6553120.3762610.4895160.382587-.181505x40.416770-.243670-.5694650.5840370.2270170.223608x50.444032-.3765180.328673-.3702350.639571-.083182x60.433888-.2548640.5732280.299781-.5526160.151465應(yīng)注意的幾個問題主成分分析,除了用來綜合變量之間的關(guān)系外,亦可用來削減回歸分析或聚類分析中的變量數(shù)目.此外,為了達(dá)到最大變異的目的,我們可用主成分分析將原來的變量轉(zhuǎn)變?yōu)槌煞?,在獲得所要的成分之后,可將各變量的原始數(shù)據(jù)轉(zhuǎn)換為成分?jǐn)?shù)據(jù),以供進(jìn)一步深入的統(tǒng)計(jì)分析,如回歸分析.在進(jìn)行主成分分析,應(yīng)注意下面幾個問題:主成分分析是通過降維技術(shù)用少數(shù)綜合變量來代替多個變量的統(tǒng)計(jì)分析方法.?這些綜合變量集中了原始變量的大部分信息.第一主成分包含信息量最大,其他主成分依次遞減,主成分之間互不相關(guān),保證各主成分所含的信息互不重復(fù).?取多少個主成分,可按累積貢獻(xiàn)率選,如m個主成分的累計(jì)貢獻(xiàn)率大于等于85%,就取m個主成分,就能反映全部p個變量的絕大部分信息了.同時也要考慮主成分盡可能少,以達(dá)降維目的.也可以只保留特征值大于1的主成分.?當(dāng)各變量的單位不相同時,應(yīng)從相關(guān)矩陣出發(fā)進(jìn)行主成分分析.?計(jì)算出主成分之后,應(yīng)對主成分作出符合實(shí)際背景和意義的解釋.練習(xí):下表為山東省17個地市的2006年統(tǒng)計(jì)數(shù)據(jù),考察的17個指標(biāo)如下:(1) 求樣本相關(guān)系數(shù)矩陣R;(2) 分別從協(xié)方差矩陣S、相關(guān)系數(shù)矩陣R出
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度外墻真石漆工程雙包合同模板3篇
- 二零二五年度房地產(chǎn)分銷風(fēng)險控制與合規(guī)協(xié)議3篇
- 水處理技術(shù)與水資源管理方案
- 2025年學(xué)校體育器材設(shè)施承包協(xié)議2篇
- 2024年糧油市場購銷合同
- 2024年藝術(shù)品購銷合同
- 醫(yī)療器械維修保養(yǎng)服務(wù)協(xié)議
- 二零二五年度交通運(yùn)輸安全責(zé)任協(xié)議
- 2025年度特色肉類食品代加工及市場拓展合作合同3篇
- 定制服裝設(shè)計(jì)制作合同及免責(zé)聲明
- GB/T 42437-2023南紅鑒定
- 購房屋貸款合同協(xié)議書
- 洛欒高速公路薄壁空心墩施工方案爬模施工
- 事業(yè)單位公開招聘工作人員政審表
- GB/T 35199-2017土方機(jī)械輪胎式裝載機(jī)技術(shù)條件
- GB/T 28591-2012風(fēng)力等級
- 思博安根測儀熱凝牙膠尖-說明書
- 出院小結(jié)模板
- HITACHI (日立)存儲操作說明書
- (新版教材)蘇教版二年級下冊科學(xué)全冊教案(教學(xué)設(shè)計(jì))
- 61850基礎(chǔ)技術(shù)介紹0001
評論
0/150
提交評論