實例說明利用Excel進行主成分分析_第1頁
實例說明利用Excel進行主成分分析_第2頁
實例說明利用Excel進行主成分分析_第3頁
實例說明利用Excel進行主成分分析_第4頁
實例說明利用Excel進行主成分分析_第5頁
已閱讀5頁,還剩1頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

方法:1利用Excel2000進行主成分分析第一步,錄入數(shù)據(jù),并對進行標(biāo)準(zhǔn)化?!纠恳唤M古生物腕足動物貝殼標(biāo)本的兩個變量:長度和寬度。圖1原始數(shù)據(jù)和標(biāo)準(zhǔn)化數(shù)據(jù)及其均值、方差

(取自張超、楊秉庚《計量地理學(xué)基礎(chǔ)》)計算的詳細過程如下:⑴將原始數(shù)據(jù)繪成散點圖(圖2)。主持分分析原則上要求數(shù)據(jù)具有線性相關(guān)趨勢——如果數(shù)據(jù)之間不相關(guān)(即正交),則沒有必要進行主成分分析,因為主成分分析的目的就是用正交的變量代替原來非正交的變量;如果原始數(shù)據(jù)之間為非線性關(guān)系,則有必要對數(shù)據(jù)進行線性轉(zhuǎn)換,否則效果不佳。從圖2可見,原始數(shù)據(jù)具有線性相關(guān)趨勢,且測定系數(shù)R2=0.4979,相應(yīng)地,相關(guān)系數(shù)R=0.7056。⑵對數(shù)據(jù)進行標(biāo)準(zhǔn)化。標(biāo)準(zhǔn)化的數(shù)學(xué)公式為這里假定按列標(biāo)準(zhǔn)化,式中]i 匚 X=一芝x,c=谷(x-x)2=*Var(x)7"i=i, ''i=1'' 7 ''分別為第j列數(shù)據(jù)的均值和標(biāo)準(zhǔn)差,x..為第i行(即第i個樣本)、第j列(即第j個變量)的數(shù)據(jù),x*為j i.)相應(yīng)于x’.的標(biāo)準(zhǔn)化數(shù)據(jù),n=25為樣本數(shù)目。U 圖2原始數(shù)據(jù)的散點圖圖3標(biāo)準(zhǔn)化數(shù)據(jù)的散點圖對數(shù)據(jù)標(biāo)準(zhǔn)化的具體步驟如下:①求出各列數(shù)據(jù)的均值,命令為average,語法為:average(起始單元格:終止單元格)。如圖1所示,在單元格B27中輸入“=AVERAGE(B1:B26)”,確定或回車,即得第一列數(shù)據(jù)的均值%=10.88;然后抓住單元格B27的右下角(光標(biāo)的十字變細)右拖至C27,便可自動生成第二列數(shù)據(jù)的均值x2=10.68。求各列數(shù)據(jù)的方差。命令為varp,語法同均值。如圖1所示,在單元格B28中輸入“=VARP(B2:B26)”,確定或回車,可得第一列數(shù)據(jù)的方差Var(氣)=19.4656,右拖至C28生成第二列數(shù)據(jù)的方差Var(x)=23.0976。 '2求各列數(shù)據(jù)的標(biāo)準(zhǔn)差。將方差開方便得標(biāo)準(zhǔn)差。也可利用命令stdevp直接生成標(biāo)準(zhǔn)差,語法和操作方法同均值、方差,不贅述。標(biāo)準(zhǔn)化計算。如圖1所示,在單元格D2中輸入"=(B2-$B$27)/$B$29”,回車可得第一列第一個數(shù)據(jù)“3”的標(biāo)準(zhǔn)化數(shù)值-1.786045,然后按住單元格D2的右下角下拖至D26,便會生成第一列數(shù)據(jù)的全部標(biāo)準(zhǔn)化數(shù)值;按照單元格D2的右下角右拖至E2,就能生成第二列第一個數(shù)據(jù)“2”的標(biāo)準(zhǔn)化數(shù)據(jù)-1.806077,抓住單元格E2的右下角下拖至E26便會生成第二列數(shù)據(jù)的全部標(biāo)準(zhǔn)化數(shù)值。作標(biāo)準(zhǔn)化數(shù)據(jù)的散點圖(圖3)。可以看出,點列的總體趨勢沒有變換,兩種數(shù)據(jù)的相關(guān)系數(shù)與標(biāo)準(zhǔn)化以前完全相同。但回歸模型的截距近似為0,即有aT0,斜率等于相關(guān)系數(shù),即有b=R。⑶求標(biāo)準(zhǔn)化數(shù)據(jù)的相關(guān)系數(shù)矩陣或協(xié)方差矩陣。求相關(guān)系數(shù)矩陣的方法是:沿著“工具(T)”-“數(shù)據(jù)分析(D)”的路徑打開“分析工具(冬)”選項框(圖4),確定,彈出“相關(guān)系數(shù)”對話框(圖5),在“輸入?yún)^(qū)域”的空白欄中輸入標(biāo)準(zhǔn)化數(shù)據(jù)范圍,并以單元格G1為輸出區(qū)域,具體操作方法類似于回歸分析。確定,即會在輸出區(qū)域給出相關(guān)圖4分析工具選項框

圖5相關(guān)系數(shù)對話框系數(shù)矩陣的下三角即對角線部分,由于系對稱矩陣,上三角的數(shù)值與下三角相等,故未給出(圖6),可以通過“拷貝——轉(zhuǎn)置——粘帖”的方式補充空白部分。圖6標(biāo)準(zhǔn)化數(shù)據(jù)的相關(guān)系數(shù)和協(xié)方差求協(xié)方差的方法是在“分析工具”選項框中選擇“協(xié)方差”(圖7),彈出“協(xié)方差”選項框(圖8),具體設(shè)置與“相關(guān)系數(shù)”類似,不贅述。結(jié)果見圖6,可以看出,對于標(biāo)準(zhǔn)化數(shù)據(jù)而言,協(xié)方差矩陣與相關(guān)系數(shù)矩陣完全一樣。因此,二者任取其一即可。圖7在分析工具選項框中選擇“協(xié)方差”圖8協(xié)方差選項框而二階單位矩陣為⑷計算特征根。我們已經(jīng)得到相關(guān)系數(shù)矩陣為而二階單位矩陣為「10.7056C=0.70561「10「I=,,01于是根據(jù)公式det(XI-C)=0,我們有按照行列式化為代數(shù)式的規(guī)則可得根據(jù)一元二次方程的求根公式,當(dāng)b2-4ac>0時,我們有據(jù)此解得%=1.7056,人2=0.2944(對于本例,顯然人1=1+R,七=1-R)。這便是相關(guān)系數(shù)矩陣的TOC\o"1-5"\h\z兩個特征根。 2 1 2⑸求標(biāo)準(zhǔn)正交向量。將七代入矩陣方程(人I-C)W=0,得到在系數(shù)矩陣人I-c中,用1第一行加第二行,化為由此得W1=W2,令w1=1,則有w2=1,于是得基礎(chǔ)解系10.7071&1=_1_,單位化為e=10.7071TOC\o"1-5"\h\z w ―單位化的公式為e= i(i=1,2)。i.、:W2+w21 2完全類似,將七代入矩陣方程?-C)W=0,得到用系數(shù)矩陣的第二彳行減去第一行,化為21「0.7071一&2=_-1_,單位化為e=2-0.7071于是得到w1=-W2,取W1=1,則有W一=-1,因此得基礎(chǔ)解系為這里e、e2便是標(biāo)準(zhǔn)正交向量。⑹求對角陣。首先建立標(biāo)準(zhǔn)正交矩陣已即有該矩陣的一個特殊性質(zhì)便是Pt=P-1,即矩陣的轉(zhuǎn)置等于矩陣的逆。根據(jù)D=PTCP,可知下面說明一下利用Excel進行矩陣乘法運算的方法。矩陣乘法的命令為mmult,語法是mmult(矩陣1的單元格范圍,矩陣2的單元格范圍)。例如,用矩陣pt與矩陣C相乘,首先選擇一個輸出區(qū)域如G1:H2,然后輸入“=mmult(A1:B2,C1:D2)”,然后按下“Ctrl+Shift+Enter”鍵(圖9),即可給出1.2060441.2060440.20817-0.20817再用乘得的結(jié)果與P陣相乘,便得對角矩陣1.705603 000.294397如果希望一步到位也不難,選定輸出區(qū)域如 C3:D4,然后輸入“=mmult(mmult(A1:B2,C1:D2),E1:F2)”(圖10),同時按下“Ctrl+Shift+Enter”鍵,立即得到結(jié)果(圖11)。顯然,對角矩陣對角線的數(shù)值恰是相關(guān)系數(shù)矩陣的特征值。圖9矩陣乘法示例

圖10矩陣連乘的命令與語法至此,標(biāo)準(zhǔn)化的原始變量x與主成分之間z之間可以表作顯然Z1與z2之間正交。1 2 圖11乘法結(jié)果:對角矩陣⑺根據(jù)特征根計算累計方差貢獻率?,F(xiàn)已求得第一特征根為人1=1.7056,第二特征根為人2=0.2944,二者之和剛好就是矩陣的維數(shù),即有七+氣=m=2,這里m=2為變量數(shù)目(注意前面的;=25為樣本數(shù)目)。比較圖6或圖10中給出的相關(guān)系數(shù)矩陣C與圖11中給出的對角矩陣D可以看出,Tr.(C)=1+1=2,Tr.(D)=1.7056+0.2944=2,即有Tr.(C)=Tr.(D),可見將相關(guān)系數(shù)亦即協(xié)方差矩陣轉(zhuǎn)換為對角矩陣以后,矩陣的跡(trace,即對角線元素之和)沒有改變,這 意味著將原始變量化為主成分以后,系統(tǒng)的信息量2

沒有減少?,F(xiàn)在問題是,如果我們只取一個主成分代表原來的兩個變量,能反映原始變量的多少信息?這個問題可以借助相關(guān)系數(shù)矩陣的特征根來判斷。利用Excel容易算出,第一特征根占特征根總和即矩陣維數(shù)的85.28%沒有減少?,F(xiàn)在問題是,如果我們只取一個主成分代表原來的兩個變量,能反映原始變量的多少信息?這個問題可以借助相關(guān)系數(shù)矩陣的特征根來判斷。利用Excel容易算出,第一特征根占特征根總和即矩陣維數(shù)的85.28%(見下表),即有特征根1.7056030.294397累計值

1.705603

2百分比累計百分比85.28%14.72%85.28%

100.00%也就是說:人:1.7056,人/m=1.7056/2=85.28%人:0.2944,人/m=0.2944/m=14.72%人+人:2,(人+人)/m=2/2=100%1 2 1 2這表明,如果僅取第一個主成分,可以反映原來數(shù)據(jù)85.28%的信息一一換言之,舍棄第二個主成分,原來數(shù)據(jù)的信息僅僅損失14.72%,但分析變量的自由度卻減少一個,整個分析將會顯得更加簡明。⑻計算主成分載荷。根據(jù)公式P.=、仄j廣容易算出⑼計算公因子方差和方差貢獻。彳艮據(jù)上述計算結(jié)果可以比較公因子方差和方差貢獻。再考慮全部的兩個主成分的時候,對應(yīng)于七和\的公因子方差分別為對應(yīng)于第一主成分%和第二主成分&的方差貢獻分別為可以看出(圖12):第一,方差貢獻等于對應(yīng)主成分的特征根,即有第二,公因子方差相等或彼此接近,即有第一,公因子方差之和等于方差貢獻之和,即有第一個規(guī)律是我們決定提取主成分數(shù)目的判據(jù)與之一,第二個規(guī)律是我們判斷提取主成分數(shù)目是否合適的判據(jù)之一,第三個規(guī)律是我們判斷提取主成分后是否損失信息的判據(jù)之一。去掉次要的主成分以后,上述規(guī)律理當(dāng)仍然滿足。這時如果第二個規(guī)律不滿足,就意味著主成分的提取是不合適的。此外,上述規(guī)律也是我們檢驗計算結(jié)果是否正確的判據(jù)之一。圖12公因子方差、方差貢獻的計算結(jié)果及其與特征根的貢獻⑽計算主成分得分。根據(jù)主成分與原始變量的關(guān)系,應(yīng)有或者對于本例而言,式中「x],Z=,z,p=ee]=「ee「0.7071111112=xz12ee0.70711-2」221221—e=ee}為前面計算的標(biāo)準(zhǔn)化特征向量。于是有2 21 220.7071-0.7071X=這里e=\eeL,化為代數(shù)形式便是式中的x均為標(biāo)準(zhǔn)化數(shù)據(jù)。對Ze=ee}為前面計算的標(biāo)準(zhǔn)化特征向量。于是有2 21 220.7071-0.7071圖13計算特征向量的公式及語法圖14計算主成分得分根據(jù)這個式子,利用Excel計算主成分得分的步驟如下:將特征向量復(fù)制到標(biāo)準(zhǔn)化數(shù)據(jù)的附近;選中一個與標(biāo)準(zhǔn)化數(shù)據(jù)占據(jù)范圍一樣大小的數(shù)值區(qū)域(如G2:H26);輸入如下計算公式“=mmult(標(biāo)準(zhǔn)化數(shù)據(jù)的范圍,特征向量的范圍)”,在本例中就是“=MMULT(B2:C26,E2:F3)”(圖13);同時按下“Ctrl+Shift+Enter”鍵。計算主成分得分的均值和方差,可以發(fā)現(xiàn),均值為0(由于誤差之故,約等于0),方差等于特征根。最后,可以對主成分得分進行標(biāo)準(zhǔn)化。已知主成分得分的均值為0,我們不按總體方差進行標(biāo)準(zhǔn)化,而按樣本方差進行標(biāo)準(zhǔn)化。圖15主成分得分的標(biāo)準(zhǔn)化結(jié)果樣本方差的計算公式為相應(yīng)地,標(biāo)準(zhǔn)差為標(biāo)準(zhǔn)化公式同前面給出的一樣。結(jié)果見表15。注意,這里之所以按樣本方差進行標(biāo)準(zhǔn)化,主要目的是為了與SPSS的計算結(jié)果進行比較。分別以%、&為坐標(biāo)軸,將主成分得分(包括標(biāo)準(zhǔn)化的得分)點列標(biāo)繪于坐標(biāo)圖中,可以發(fā)現(xiàn),點列分布沒有任何趨勢:回歸結(jié)果表明,回歸系數(shù)和相 關(guān)系數(shù)均為零,即有1=0,b=0,R=0(圖316,圖17)。這從幾何圖形上顯示:主成分之間是正交的,即有cos9=0(試將圖16、圖17與圖2、圖3對比)。圖16主成分得分的相關(guān)系數(shù)為零圖17主成分得分的相關(guān)系數(shù)為零(標(biāo)準(zhǔn)化)最后可以驗證因子載荷即為(標(biāo)準(zhǔn)化)原始數(shù)據(jù)與主成分得分之間的相

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論