




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、第5章主成分分析與經(jīng)驗正交分解5.1 主分量分析的數(shù)學(xué)模型當(dāng)存在若干個隨機(jī)變量時,尋求它們的少量線性組合(即主成分),用以解釋這些隨機(jī)變量,是很必要的。首先我們看一個例子。例51 為了調(diào)查學(xué)生的身材狀況,可以測量他們的身高()、體重()、胸圍()和坐高()。可是用這4個指標(biāo)表達(dá)學(xué)生身材狀況不方便。但若用=3.6356+3.3242+2.4770+2.1650表示學(xué)生身體魁梧程度;用=-3.9739+1.3582+3.7323-1.5729表示學(xué)生胖瘦程度。則這兩個指標(biāo)(,)很好概括了4個指標(biāo)(-)。例中,學(xué)生不同,身高()、體重()、胸圍()和坐高()不同;(, , , )是4維隨機(jī)向量;,是
2、他們的2個線性組合,,能很好表示, , , 的特性。類似的問題在許多地方出現(xiàn):可觀測的隨機(jī)變量很多,需要選出所有所有隨機(jī)變量的少數(shù)線性組合,使之盡可能刻劃全部隨機(jī)變量的特性,選出的線性組合就是諸多隨機(jī)變量的主成分,又稱為主分量。尋求隨機(jī)向量主成分,并加以解釋,稱為主成分分析,又稱為主分量分析。主成分分析在許多學(xué)科中都有應(yīng)用,細(xì)節(jié)可參看張堯廷(1991)、Richard(2003),主成分分析在氣象等科學(xué)中稱為PCA方法,見吳洪寶(2005)。主成分分析的數(shù)學(xué)模型是:對于隨機(jī)向量X,想選一些常數(shù)向量,用盡可能多反映隨機(jī)向量X的主要信息,也即盡量大。但是的模可以無限增大,從而使無限變大,這是我們不
3、希望的;于是限定模的大小,而改變各分量的比例,使最大;通常取的模為1最方便。定義5.1 設(shè)隨機(jī)向量二階矩存在,若常數(shù)向量,在條件1下使最大,則稱是X的第一主成分或第一主分量。由定義可見,盡可能多地反映原來p個隨機(jī)變量變化的信息。但是一個主成分往往不能完全反映隨機(jī)向量特色,必須建立其它主成分,它們也應(yīng)當(dāng)最能反映隨機(jī)向量變化,而且他們應(yīng)當(dāng)與第一主成分不相關(guān)(不包含的信息)。定義5.2 若常數(shù)向量c=在條件l,下,使最大,則稱是 X的第二主成分;若常數(shù)向量c=在條件l,下,使最大,則稱是 X的第三主成分;。當(dāng)隨機(jī)向量方差已知時,定理5.1給出主成分的計算公式。定理5.1 設(shè)隨機(jī)向量方差存在為。特征值
4、從大到小為,對應(yīng)的彼此正交單位特征向量為。則X的第j個主成分為 與X的內(nèi)積,即 (5.1)且證明:任取p維單位向量c,必有。于是,而在條件下,當(dāng),即時,最大,所以X的第一主成分是與X的內(nèi)積。由條件,可得,于是,從而;所以在條件1、下,當(dāng)時,最大,所以X的第2個主成分為與X的內(nèi)積。對第三,第四主成分同樣可證。由證明過程可見:。它稱為第i個主成分的方差貢獻(xiàn),表示第i個主成分變化大小,從而反映第i個主成分提供的信息的大小。例5.2 設(shè),且則=3.87939,=0.293128,-0.84403,-0.449099=1.6527,=0.449099,-0.293128,0.84403=0.467911
5、,=0.84403,0.449099,-0.293128所以第一主成分就是=0.293128-0.84403 -0.449099;第二主成分就是=0.449099-0.293128+0.84403;第三主成分就是=0.84403+0.449099-0.293128。它們的方差貢獻(xiàn)分別是;。定義5.3 稱為主成分的方差貢獻(xiàn)率;稱為前k個主成分的累計方差貢獻(xiàn)率;與X第k個分量的相關(guān)系數(shù)稱為因子負(fù)荷量。當(dāng)某個主成分的方差貢獻(xiàn)率很小時,認(rèn)為它提供的信息很少,可以略去此主成分。通常取q,使前q個主成分的累計方差貢獻(xiàn)率達(dá)到70%-80%,然后只考慮前q個主分量,用它們解釋隨機(jī)向量X的特性,其余主成分認(rèn)為是
6、觀測誤差等隨機(jī)因素造成的。在實際問題中,X的每一分量可取不同單位,單位取小時(例如長度單位取毫米,甚至微米)該分量的方差會變大,從而在主成分中變得突出;而單位選取不應(yīng)影響主成分。為了避免量綱對主成分的影響。常常將隨機(jī)變量都標(biāo)化,即令,它就是無量綱量,令再求X*的主成分,即標(biāo)準(zhǔn)化后的主成分。將代入,可求隨機(jī)向量X的主成分。容易證明定理5.2 設(shè)隨機(jī)向量X的相關(guān)陣為,特征值為,對應(yīng)的彼此正交單位特征向量為,則標(biāo)準(zhǔn)化后X的第j個主成分是。因此,標(biāo)準(zhǔn)化后的主成分稱為由相關(guān)陣決定的主成分。直接由隨機(jī)向量的協(xié)方差陣算出的主成分稱為由協(xié)差陣決定的主成分。同樣一組隨機(jī)變量,用它們的協(xié)差陣和相關(guān)陣求出的主成分是
7、不一樣的。這是因為優(yōu)化的準(zhǔn)則(目標(biāo)函數(shù))不同:前者要求=最大,而后者要求=最大,其中。例5.3 (協(xié)差陣和相關(guān)陣決定的主成分不同)設(shè)隨機(jī)變量;其協(xié)方差陣是,特征值和特征向量是, 。因而由協(xié)方差陣決定的主成分是: ,。但隨機(jī)變量標(biāo)準(zhǔn)化后得到;其中 。X*的協(xié)差陣即X的相關(guān)陣是,其特征值和特征向量是,從而由相關(guān)陣決定的主成分是:。由于主成分由方差決定,可以略去常數(shù),因而由相關(guān)陣得到的主成分可寫為:,可見由協(xié)方差陣與相關(guān)陣決定的主成分不同。5.2 樣本主成分及其計算5.2.1 樣本主成分實際問題中隨機(jī)向量的協(xié)差陣、相關(guān)陣都是未知的,只能得到樣品。這時總用樣本協(xié)差陣與樣本相關(guān)陣代替協(xié)差陣、相關(guān)陣求主成
8、分。定義5.4 樣本協(xié)差陣與樣本相關(guān)陣的特征向量,計算主成分。所得的主成分稱為樣本主成分。這樣求主成分是有道理的:若總體,的特征值和正交單位特征向量是和;是的極大似然估計,即。的特征值為,相應(yīng)正交單位特征向量為,則可證定理5.3 若X服從正態(tài)分布,則是的極大似然估計;是的極大似然估計。因此,若X服從正態(tài)分布,應(yīng)當(dāng)用第j個樣本主成分作為總體主成分的估計值。從樣本協(xié)差陣或樣本相關(guān)陣出發(fā),做主成分分析,所得樣本主成分通常簡稱為主成分。通常取為樣本協(xié)差陣(的無偏估計),由或R算出的樣本相關(guān)陣是相同的,所產(chǎn)生(相關(guān)差陣決定)的主成分當(dāng)然相同。而R與有相同的特征向量,R的特征值是特征值的n/(n-1)倍。
9、因而由R與所產(chǎn)生的(協(xié)方差陣決定的)主成分相同。若X不一定服從正態(tài)分布,這時仍可由樣本協(xié)差陣R或相關(guān)陣出發(fā),計算主成分。同上節(jié)指出的一樣:樣本相關(guān)陣和樣本協(xié)差陣決定的主成分是不同的。 SAS軟件計算樣本主成分樣本主成分的計算量很大,通常用軟件計算,以下介紹用SAS軟件計算的基本方法。SAS調(diào)用PRINCOMP過程(即主成分過程)作主成分分析。PROC PRINCOMP 過程對輸入資料文件執(zhí)行主成分分析。其輸入資料文件可以是原始數(shù)據(jù),也可以是一個相關(guān)系數(shù)矩陣,或是協(xié)方差陣。輸出資料則包括特征根、特征向量及標(biāo)準(zhǔn)化的主成分值。主成分分析是一個多變量統(tǒng)計程序,可用來鑒定多個數(shù)值變量之間的關(guān)系。主成分分
10、析除了用來概述變量之間的關(guān)系外,還可用來削減回歸或集群分析中變量的數(shù)目。它的主要目的是求出一組變量的線性組合(即主成分),這些線性組合就是原變量矩陣的特征向量。每個向量的內(nèi)積就是該向量對原變量群能解釋的方差百分比。這些特征向量之間應(yīng)該是彼此線性獨立的。PROC PRINCOMP語法 PROC PRINCOMP DATA= SAS-data-set /*輸入資料文件名稱*/ OUT= SAS-data-set /*輸出資料文件名稱*/ OUTSTAT= SAS-data-set /*輸出資料文件名稱*/ NOINT COVARIANCE(COV) N= n STANDARD(STD) PREFI
11、X= name NOPRINT SINGULAR= value VARDEF= DF|N|WEIGHT|WDF; 或N,或WGT,或WDF) VAR variable-list; /*指明那些數(shù)值變量作主成分分析*/ PARTIAL variable-list; FREQ variable; WEIGHT variable;BY variable-list;調(diào)用PRLNCOMP過程時常用兩個語句:即PROC PRINCOMP ,VAR。(1) PROC PRINCOMP語句。一般形式是 PROC PRINCOMP;其功能是調(diào)用PRINCOMP過程。加選項cov指示電腦用協(xié)差陣計算樣本主成分,不
12、加選項cov則電腦用相關(guān)陣計算主成分;加選項out=文件名,指示電腦將每個觀測的主成分得分存入一個數(shù)據(jù)集,即“文件名”所表示的數(shù)據(jù)集,加選項n=k指示電腦只計算k個主成分,不加選項n=k則電腦計算全部p個主成分。例如proc princomp data=wang1 out=wang2 n=3;指示電腦對數(shù)據(jù)集wang1中數(shù)據(jù)做主成分分析,求3個主成分,并將各次觀測的主成分得分存入數(shù)據(jù)集wang2。(2) VAR語句其功能是規(guī)定要分析的變量。例如var x1-x3 u1 v2;表示將變量x1,x2,x3,u1,v作為隨機(jī)向量進(jìn)行主成分分析。 計算主成分固然重要,解釋主成分的意義更重要。下面我們介
13、紹用SAS作主成分分析的實例,并對于算出的主成分加以解釋,希望學(xué)者對練習(xí)題中的主成分也試作解釋。例5.4 北京19511976年冬季的氣溫資料如表5-1,第一列為年度,第二列為該年12月的月平均溫度。第三、四列為次年1、2月的月平均溫度。試做主成分分析。表 5-1 北京19511976年冬季月平均氣溫yearx1x2x319511.0-2.7-4.31952-5.3-5.9-3.51953-2.0-3.4-0.81954-5.7-4.7-1.11955-0.9-3.8-3.11956-5.7-5.3-5.91957-2.1-5.0-1.619580.6-4.3-0.21959-1.7-5.72
14、.01960-3.6-3.61.31961-3.0-3.1-0.819620.1-3.9-1.11963-2.6-3.0-5.21964-1.4-4.9-1.71965-3.9-5.7-2.51966-4.7-4.8-3.31967-6.0-5.6-4.91968-1.7-6.4-5.11969-3.4-5.6-2.01970-3.1-4.2-2.91971-3.8-4.9-3.91972-2.0-4.1-2.41973-1.7-4.2-2.01974-3.6-3.3-2.01975-2.7-3.70.11976-2.4-7.6-2.2解:因為所有變量單位相同,可用協(xié)方差陣求主成分。以變量ye
15、ar Dec Jan Feb分別表示年度、12月、1月、2月的溫度。采用下列程序data temperat; /*建立數(shù)據(jù)集temperat*/input year Dec Jan Feb; /*建立變量year、Dec、Jan和Feb*/cards; /*以下為數(shù)據(jù)體*/1951 1.0 -2.7 -4.31952 -5.3 -5.9 -3.51953 -2.0 -3.4 -0.81954 -5.7 -4.7 -1.11955 -0.9 -3.8 -3.11956 -5.7 -5.3 -5.91957 -2.1 -5.0 -1.61958 0.6 -4.3 -0.21959 -1.7 -5.
16、7 2.01960 -3.6 -3.6 1.31961 -3.0 -3.1 -0.81962 0.1 -3.9 -1.11963 -2.6 -3.0 -5.21964 -1.4 -4.9 -1.71965 -3.9 -5.7 -2.51966 -4.7 -4.8 -3.31967 -6.0 -5.6 -4.91968 -1.7 -6.4 -5.11969 -3.4 -5.6 -2.01970 -3.1 -4.2 -2.91971 -3.8 -4.9 -3.91972 -2.0 -4.1 -2.41973 -1.7 -4.2 -2.01974 -3.6 -3.3 -2.01975 -2.7 -3
17、.7 0.11976 -2.4 -7.6 -2.2; /*空語句,結(jié)束數(shù)據(jù)體*/proc princomp cov; /* 用協(xié)差陣做主成分分析*/var Dec Jan Feb; /* 對變量Dec Jan Feb 作主成分分析*/run; 執(zhí)行上述程序,得到得許多表,主要的是:基本統(tǒng)計量(Simple Statistic);協(xié)方差矩陣(Covariance Matrix);樣本協(xié)差陣的特陣值表(Eigenvalues of the Covariance Matrix)、方差貢獻(xiàn)、方差貢獻(xiàn)率及累計方差貢獻(xiàn)率;樣本協(xié)差陣的特征向量表(即主成分的系數(shù)表,Eigenvectors)。這些表及分析如
18、下Eigenvalues Eigenvalue Difference Proportion Cumulative PRIN1 4.79742 2.06927 0.552919 0.55292 PRIN2 2.72815 1.57720 0.314429 0.86735 PRIN3 1.15095 . 0.132652 1.00000上表是樣本協(xié)差陣的特征值表(表頭為Eigenvalues),其中PRIN1、PRIN2、PRIN3表示3個主成分,上表第2列給出樣本協(xié)差陣的特征值,第4列給出方差貢獻(xiàn),第5列給出方差貢獻(xiàn)累計百分比。由于前兩個特陣值方差貢獻(xiàn)累計百分比等于0.867354,它大于0.7
19、,所以只需取兩個主成分。 Eigenvectors PRIN1 PRIN2 PRIN3 DEC 0.643587 0.709882 -.286116 JAN 0.213039 0.192899 0.957812 FEB 0.735126 -.677390 -.027085上表是特征向量表(表頭為Eigenvectors)上表給出所考察變量樣本協(xié)差陣的特征向量(0.643587,0.213039,0.735126)、(0.709882,0.192899,-0.677390)和(-0.286116,0.957812,-0.027085)。因此第一、二、三主成分分別是=0.643587Dec+0.2
20、13039Jan+0.735126Feb,=0.709882Dec+0.192899Jan-0.677390Feb,由于第一主成分中Dec,Feb系數(shù)是較大正數(shù),Jan系數(shù)是較小正數(shù),說明第一主成分主要表示冬季氣溫偏高的程度,由于1月分的系數(shù)變化較小,冬季氣溫偏高主要由12月,2月溫度的偏高形成。第二主成分Dec系數(shù)與Feb系數(shù)反號較大,反映第二主成分主要表示12月與2月溫度距平的反差,即12月溫度距平減去2月溫度距平所得值的反差。例55 美國各州犯罪率情況如表5-2。試以murder(謀殺),rape(強(qiáng)奸),robbery(搶劫),assult(斗毆),burglary(夜盜),larce
21、ny(偷竊),auto(汽車犯罪)為7元隨機(jī)向量,做主成分分析。表 5-2 美國各州犯罪率(十萬人中犯罪人數(shù))murderraperobberyassultburglarylarcenyautoAlbama14.225.296.8278.31135.51881.9280.7Alaska10.851.696.8284.01331.73369.8753.3Arirona9.534.2138.2312.32346.14467.4439.5Arkansas8.834.2138.2312.32346.14467.4439.5Califonia11.549.4287.0358.02139.43499.86
22、63.5Colorado6.342.0170.7292.91935.23903.2477.1Conecticat4.216.8129.5131.81346.02620.7593.2Delaware6.024.9157.0194.21682.63678.4467.0Florida10.239.6187.9449.11859.93840.5351.4Geogia11.731.1140.5256.51351.12170.2297.9Hawaii7.225.5128.064.11911.53920.4489.4Idaho5.519.439.6172.51050.82599.6237.6Illinois
23、9.921.8211.3209.01085.02828.5528.6Indiana7.426.5123.2153.51086.22498.7377.4Iowa2.310.641.289.8812.52685.1219.9Kansas6.622.0100.7180.51270.42739.3244.3Kentaky10.119.181.1123.3872.21662.1245.4Loisana15.530.9142.9335.51165.52469.9337.7Maine2.413.538.7170.01253.12350.7246.9Maryland8.034.8292.1358.91400.
24、03177.7428.5Masschusetts3.120.8169.1231.61532.22311.31140.1Michigan9.338.9261.9274.61522.73159.0545.5Minnesota2.719.585.985.81134.72559.3343.1Mississippi14.319.665.7189.1915.61239.9144.4Missouri9.628.3189.0233.51318.32424.2378.4Montana5.416.739.2156.8804.92773.2309.3Nebraska3.918.164.7112.7760.02316
25、.1249.1Nevada15.849.1323.1355.02453.14212.6559.2Mew Hampashare3.210.723.276.01041.72343.9293.4New Jersey 5.621.0180.4185.11435.82774.5511.5New Maxico8.839.1109.6343.41418.73008.6259.5New York10.729.4472.6319.11728.02782.0745.8North Carolina10.617.061.3318.31154.12037.8192.1North Dakoda100.99.013.343
26、.8446.11843.0144.7Ohio7.827.3190.5181.11216.02696.8400.4Oklahoma8.629.273.8205.01288.22228.1326.8Oregan4.939.9124.1286.91636.43506.1388.9Pennsyvania5.6 19.0130.3128.0877.51624.1333.2Rhode Island3.610.586.5201.01849.52844.1791.4South Carolina 11.933.0105.9485.31613.62342.4245.1South Dakoda2.013.517.9
27、155.7570.51704.4147.5Tennessee10.129.7145.8203.91259.71776.5314.0Texas13.333.8152.4208.21603.12988.7397.6Utah3.520.368.8147.31171.63004.6334.5Vermont1.415.930.8101.21348.22201.0265.2Virginia9.023.392.1165.7986.22521.2226.7Wasinton4.339.6106.2224.81605.63386.9360.3West Viginia6.013.242.290.9597.41341
28、.7163.3Wiskonsin2.812.952.263.7846.92614.2220.7Wyoming5.421.939.7173.9811.62772.2282.0 解:評估美國各州犯罪率時,用7種犯罪率為7維隨機(jī)向量,以50個州的統(tǒng)計數(shù)據(jù)為50次觀測。考慮不同犯罪的犯罪率差異很大,用相關(guān)陣計算主成分。采用程序data crime; /*建立數(shù)據(jù)集crime*/input state $ 1-15 murder rape robbery assult burglary larceny auto;/*建立變量state murder rape robbery assult burglar
29、y larceny auto。state $ 1-15表示前15列存州名。murder rape robbery assult burglary larceny auto 表7種罪的犯罪率*/cards; /*以下為數(shù)據(jù)體*/ Albama 14.2 25.2 96.8 278.3 1135.5 1881.9 280.7 Alaska 10.8 51.6 96.8 284.0 1331.7 3369.8 753.3 Arirona 9.5 34.2 138.2 312.3 2346.1 4467.4 439.5 Arkansas 8.8 34.2 138.2 312.3 2346.1 4467
30、.4 439.5 Califonia 11.5 49.4 287.0 358.0 2139.4 3499.8 663.5 Colorado 6.3 42.0 170.7 292.9 1935.2 3903.2 477.1 Conecticat 4.2 16.8 129.5 131.8 1346.0 2620.7 593.2 Delaware 6.0 24.9 157.0 194.2 1682.6 3678.4 467.0 Florida 10.2 39.6 187.9 449.1 1859.9 3840.5 351.4 Geogia 11.7 31.1 140.5 256.5 1351.1 2
31、170.2 297.9 Hawaii 7.2 25.5 128.0 64.1 1911.5 3920.4 489.4 Idaho 5.5 19.4 39.6 172.5 1050.8 2599.6 237.6 Illinois 9.9 21.8 211.3 209.0 1085.0 2828.5 528.6 Indiana 7.4 26.5 123.2 153.5 1086.2 2498.7 377.4 Iowa 2.3 10.6 41.2 89.8 812.5 2685.1 219.9 Kansas 6.6 22.0 100.7 180.5 1270.4 2739.3 244.3 Kenta
32、ky 10.1 19.1 81.1 123.3 872.2 1662.1 245.4 Loisana 15.5 30.9 142.9 335.5 1165.5 2469.9 337.7Maine 2.4 13.5 38.7 170.0 1253.1 2350.7 246.9 Maryland 8.0 34.8 292.1 358.9 1400.0 3177.7 428.5 Masschusetts 3.1 20.8 169.1 231.6 1532.2 2311.3 1140.1Michigan 9.3 38.9 261.9 274.6 1522.7 3159.0 545.5 Minnesot
33、a 2.7 19.5 85.9 85.8 1134.7 2559.3 343.1 Mississippi 14.3 19.6 65.7 189.1 915.6 1239.9 144.4 Missouri 9.6 28.3 189.0 233.5 1318.3 2424.2 378.4 Montana 5.4 16.7 39.2 156.8 804.9 2773.2 309.3 Nebraska 3.9 18.1 64.7 112.7 760.0 2316.1 249.1 Nevada 15.8 49.1 323.1 355.0 2453.1 4212.6 559.2 Mew Hampashar
34、e 3.2 10.7 23.2 76.0 1041.7 2343.9 293.4 New Jersey 5.6 21.0 180.4 185.1 1435.8 2774.5 511.5 New Maxico 8.8 39.1 109.6 343.4 1418.7 3008.6 259.5 New York 10.7 29.4 472.6 319.1 1728.0 2782.0 745.8 North Carolina 10.6 17.0 61.3 318.3 1154.1 2037.8 192.1 North Dakoda 100.9 9.0 13.3 43.8 446.1 1843.0 14
35、4.7 Ohio 7.8 27.3 190.5 181.1 1216.0 2696.8 400.4 Oklahoma 8.6 29.2 73.8 205.0 1288.2 2228.1 326.8 Oregan 4.9 39.9 124.1 286.9 1636.4 3506.1 388.9 Pennsyvania 5.6 19.0 130.3 128.0 877.5 1624.1 333.2 Rhode Island 3.6 10.5 86.5 201.0 1849.5 2844.1 791.4South Carolina 11.9 33.0 105.9 485.3 1613.6 2342.
36、4 245.1South Dakoda 2.0 13.5 17.9 155.7 570.5 1704.4 147.5 Tennessee 10.1 29.7 145.8 203.9 1259.7 1776.5 314.0 Texas 13.3 33.8 152.4 208.2 1603.1 2988.7 397.6 Utah 3.5 20.3 68.8 147.3 1171.6 3004.6 334.5 Vermont 1.4 15.9 30.8 101.2 1348.2 2201.0 265.2 Virginia 9.0 23.3 92.1 165.7 986.2 2521.2 226.7
37、Wasinton 4.3 39.6 106.2 224.8 1605.6 3386.9 360.3 West Viginia 6.0 13.2 42.2 90.9 597.4 1341.7 163.3 Wiskonsin 2.8 12.9 52.2 63.7 846.9 2614.2 220.7 Wyoming 5.4 21.9 39.7 173.9 811.6 2772.2 282.0;proc princomp out=crimprin; /*調(diào)用PRINCOMP過程,用相關(guān)陣做主成分分析*/ var murder rape robbery assult burglary larceny
38、auto; /*對這7個變量做分析*/run;執(zhí)行以上程序,電腦按相關(guān)陣做主成分分析;輸出主要數(shù)表有:樣本相關(guān)陣的特征值(表頭為Eigenvalues of the Correlation Matrix)表,方差貢獻(xiàn)、方差貢獻(xiàn)率及累計方差貢獻(xiàn)率;樣本相關(guān)陣的特征向量(表頭為Eigenvectors)。表及解釋如下Eigenvalues of the Correlation Matrix Eigenvalue Difference Proportion Cumulative 1 3.81730007 2.78454963 0.5453 0.5453 2 1.03275044 0.22145080
39、 0.1475 0.6929 3 0.81129963 0.14770303 0.1159 0.8088 4 0.66359660 0.35782066 0.0948 0.9036 5 0.30577594 0.06348335 0.0437 0.9472 6 0.24229259 0.11530785 0.0346 0.9819 7 0.12698474 0.0181 1.0000Eigenvectors Prin1 Prin2 Prin3 Prin4 Prin5 Prin6 Prin7murder -.094836 0.893895 0.335604 0.264209 0.087862 0
40、.037372 -.020129rape 0.433768 0.218170 -.298382 -.102754 -.033667 -.772201 -.259286robbery 0.398823 0.091935 0.367321 -.422729 -.696268 0.173693 0.062497assult 0.39223 0.2585 -.37199 -.431946 0.445511 0.353752 0.361585burglary 0.463531 -.067937 -.044742 0.305199 0.096792 0.445645 -.690946larceny 0.4
41、02967 -.071041 -.14078 0.678773 -.216768 -.005623 0.55226 auto 0.335705 -.261558 0.709373 -.021882 0.501519 -.219929 0.123736由特征值表(表頭為 Eigenvalues of the Correlation Matrix),第5列可見,前3個特征值所占比例之和為0.80,只要取3個主成分就夠了。由特征向量表(表頭為Eigenvectors),從第2列起,每列是1個特征向量。第1個特征向量各個分量值大體相同,近似于=0.38;所以第1主成分表示各州犯罪程度的嚴(yán)重性。第2個特
42、征向量各分量對應(yīng)murder,rape, assult,分量值為負(fù)的,對應(yīng)burglary,larceny,auto分量是正的,murder,rape, assult暴力程度重, burglary,larceny,auto暴力程度輕,因此第二主成分反映暴力程度的輕重,第二主成分的值越大,暴力成分越輕。第三主成分的特性不明顯,不考慮。第一、第二主成分分別為:y1=0.303311murder+0.432675rape+0.391443robbery+0.401331assult+0.4434023burglary+0.361074larceny+0.29296226auto;y2=-0.6634
43、076murder-0.167388rape+0.019456robbery-0.335621assult +0.237752burglary+0.391665 arceny+0.496972 auto許多統(tǒng)計資料簡化成樣本協(xié)差陣,或樣本相關(guān)陣;這時仍可用SAS的princomp過程計算,只是在data步輸入數(shù)據(jù)時要用“_type_=COV”語句說明。例56 測量雄龜甲的長、寬、厚,并求其自然對數(shù),得到變量;所得24只龜數(shù)據(jù)的協(xié)方差陣如下表,試作主成分分析。表5.3 龜甲數(shù)據(jù)的協(xié)方差陣由于觀測資料已被處理為協(xié)方差陣,而協(xié)方差陣是對稱的,只需要輸入下三角陣即可,協(xié)差陣乘以常數(shù)不改變特征向量和累積
44、方差貢獻(xiàn)率,所以0.001不用輸入。我們采用如下程序 data turtle(type=cov); /*建立數(shù)據(jù)集turtle*/_type_='cov' /*數(shù)據(jù)集為協(xié)方差陣類型*/input name $ x1-x3; /*建立變量name x1 x2 x3 */cards; /*以下是數(shù)據(jù)體*/x1 11.072 . .x2 8.019 6.417 .x3 8.160 6.005 6.773; /*空語句,結(jié)束數(shù)據(jù)體*/proc princomp COV; /*用協(xié)方差陣計算3個主成分*/var x1-x3; /*對變量x1 x2 x3求主成分*/run;執(zhí)行后電腦按相關(guān)陣做主成分分析;輸出主要數(shù)表有:協(xié)方差陣的特征值(表頭為Eigenvalues),特征向量表(表頭為Eigenvectors)。解釋如下Eigenvalues Eigenvalue Diff
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 口腔醫(yī)療機(jī)構(gòu)可行性研究報告
- 時間軸表格-項目時間節(jié)點
- 三農(nóng)標(biāo)準(zhǔn)化生產(chǎn)實施計劃
- 污水處理項目可行性研究報告
- 新能源汽車充電樁發(fā)展
- 家用電器使用說明與維護(hù)指南
- 無人直升機(jī)物流配送項目可行性研究報告
- 職業(yè)規(guī)劃與就業(yè)前景分析
- 監(jiān)控練習(xí)試卷附答案
- 家服務(wù)員中級復(fù)習(xí)試題及答案
- 河南省“極飛杯”無人機(jī)應(yīng)用技術(shù)技能大賽-無人機(jī)植保應(yīng)用-技術(shù)文件
- GB 4404.1-2024糧食作物種子第1部分:禾谷類
- 2024年江西省公務(wù)員錄用考試《行測》真題及答案解析
- 計算流體力學(xué)CFD
- 三大戰(zhàn)役完整版本
- DB11T 353-2021 城市道路清掃保潔質(zhì)量與作業(yè)要求
- 2024電力建設(shè)土建工程施工技術(shù)檢驗規(guī)范
- 2024年中國除塵器濾袋市場調(diào)查研究報告
- MFP無機(jī)硅聲能凝膠施工方案
- 麥肯錫和波士頓解決問題方法和創(chuàng)造價值技巧
- DBJ33T 1320-2024 建設(shè)工程質(zhì)量檢測技術(shù)管理標(biāo)準(zhǔn)
評論
0/150
提交評論