主成分分析法1_第1頁
主成分分析法1_第2頁
主成分分析法1_第3頁
主成分分析法1_第4頁
主成分分析法1_第5頁
已閱讀5頁,還剩27頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

6.1主成分分析6.1.1主成分分析的概念與步驟6.1.2使用INSIGHT模塊作主成分分析6.1.3使用“分析家”作主成分分析主成分分析6.1.1主成分分析的概念與步驟1.主成分分析基本思想主成分分析是數(shù)學(xué)上對數(shù)據(jù)降維的一種方法。其基本思想是設(shè)法將原來眾多的具有一定相關(guān)性的指標(biāo)(比如p個(gè)指標(biāo)),重新組合成一組新的互不相關(guān)的綜合指標(biāo)來代替原來指標(biāo)。通常數(shù)學(xué)上的處理就是將原來p個(gè)指標(biāo)作線性組合,作為新的綜合指標(biāo)。但是這種線性組合,如果不加限制,則可以有很多,應(yīng)該如何去選取呢?在所有的線性組合中所選取的F1應(yīng)該是方差最大的,故稱F1為第一主成分。如果第一主成分不足以代表原來p個(gè)指標(biāo)的信息,再考慮選取F2即選第二個(gè)線性組合。為了有效地反映原有信息,F(xiàn)1已有的信息就不需要再出現(xiàn)在F2中,用數(shù)學(xué)語言表達(dá)就是要求Cov(F1,F(xiàn)2)=0。稱F2為第二主成分,依此類推可以構(gòu)造出第三、第四、…、第p個(gè)主成分。2.主成分分析的數(shù)學(xué)模型設(shè)有n個(gè)樣品(多元觀測值),每個(gè)樣品觀測p項(xiàng)指標(biāo)(變量):X1,X2,…,Xp,得到原始數(shù)據(jù)資料陣:其中Xi=(x1i,x2i,…,xni)',i=1,2,…,p。用數(shù)據(jù)矩陣X的p個(gè)列向量(即p個(gè)指標(biāo)向量)X1,X2,…,Xp作線性組合,得綜合指標(biāo)向量:簡寫成:Fi=a1iX1+a2iX2+…+apiXp

i=1,2,…,p

為了加以限制,對組合系數(shù)ai'=(a1i,a2i,…,api)作如下要求:即:ai為單位向量:ai'ai=1,且由下列原則決定:

1)Fi與Fj(i≠j,i,j=1,…,p)互不相關(guān),即Cov(Fi,F(xiàn)j)=0,并有Var(Fi)=ai'Σai,其中Σ為X的協(xié)方差陣

2)F1是X1,X2,…,Xp的一切線性組合(系數(shù)滿足上述要求)中方差最大的,即,其中c=(c1,c2,…,cp)'

F2是與F1不相關(guān)的X1,X2,…,Xp一切線性組合中方差最大的,…,F(xiàn)p是與F1,F(xiàn)2,…,F(xiàn)p-1都不相關(guān)的X1,X2,…,Xp的一切線性組合中方差最大的。滿足上述要求的綜合指標(biāo)向量F1,F(xiàn)2,…,F(xiàn)p就是主成分,這p個(gè)主成分從原始指標(biāo)所提供的信息總量中所提取的信息量依次遞減,每一個(gè)主成分所提取的信息量用方差來度量,主成分方差的貢獻(xiàn)就等于原指標(biāo)相關(guān)系數(shù)矩陣相應(yīng)的特征值i,每一個(gè)主成分的組合系數(shù)ai'=(a1i,a2i,…,api)就是相應(yīng)特征值i所對應(yīng)的單位特征向量ti。方差的貢獻(xiàn)率為,i越大,說明相應(yīng)的主成分反映綜合信息的能力越強(qiáng)。3.主成分分析的步驟(1)計(jì)算協(xié)方差矩陣計(jì)算樣品數(shù)據(jù)的協(xié)方差矩陣:Σ=(sij)pp,其中

i,j=1,2,…,p(2)求出Σ的特征值及相應(yīng)的特征向量求出協(xié)方差矩陣Σ的特征值12…p>0及相應(yīng)的正交化單位特征向量:則X的第i個(gè)主成分為Fi=ai'X

i=1,2,…,p。(3)選擇主成分在已確定的全部p個(gè)主成分中合理選擇m個(gè)來實(shí)現(xiàn)最終的評價(jià)分析。一般用方差貢獻(xiàn)率解釋主成分Fi所反映的信息量的大小,m的確定以累計(jì)貢獻(xiàn)率達(dá)到足夠大(一般在85%以上)為原則。(4)計(jì)算主成分得分計(jì)算n個(gè)樣品在m個(gè)主成分上的得分:

i=1,2,…,m(5)標(biāo)準(zhǔn)化實(shí)際應(yīng)用時(shí),指標(biāo)的量綱往往不同,所以在主成分計(jì)算之前應(yīng)先消除量綱的影響。消除數(shù)據(jù)的量綱有很多方法,常用方法是將原始數(shù)據(jù)標(biāo)準(zhǔn)化,即做如下數(shù)據(jù)變換:其中,,j=1,2,…,p。標(biāo)準(zhǔn)化后的數(shù)據(jù)陣記為X*,其中每個(gè)列向量(標(biāo)準(zhǔn)化變量)的均值為0,標(biāo)準(zhǔn)差為1,數(shù)據(jù)無量綱。標(biāo)準(zhǔn)化后變量的協(xié)方差矩陣(CovarianceMatrix)Σ=(sij)pp,即原變量的相關(guān)系數(shù)矩陣(CorrelationMatrix)R=(rij)pp:i,j=1,2,…,p

此時(shí)n個(gè)樣品在m個(gè)主成分上的得分應(yīng)為:Fj=a1jX1*+a2jX2*+...+apjXp*

j=1,2,…,m6.1.2使用INSIGHT模塊作主成分分析【例6-1】全國沿海10個(gè)省市經(jīng)濟(jì)指標(biāo)的主成分分析表6-1全國沿海10個(gè)省市經(jīng)濟(jì)綜合指標(biāo)假設(shè)表6-1中數(shù)據(jù)已經(jīng)存放在數(shù)據(jù)集Mylib.jjzb中,試對各地區(qū)的經(jīng)濟(jì)發(fā)展水平進(jìn)行主成分分析。地區(qū)GDPx1人均GDPx2工業(yè)增加值x3第三產(chǎn)業(yè)增加值x4固定資產(chǎn)投資x5基本建設(shè)投資x6社會消費(fèi)品零售總額x7海關(guān)出口總額x8地方財(cái)政收入x9遼寧5458.2130001376.22258.41315.95292258.4123.7399.7山東10550116433502.538512288.71070.73181.9211.1610.2河北6076.690471406.72092.61161.6597.11968.345.9302.3天津2022.622068822.8960703.7361.9941.4115.7171.8江蘇10636.3143973536.33967.223201141.33215.8384.7643.7上海5408.8406272196.22755.81970.2779.32035.2320.5709浙江7670165702356.530652296.61180.62877.5294.2566.9福建4682135101047.11859964.5397.91663.3173.7272.9廣東11769.7150304224.64793.63022.91275.55013.61843.71201.6廣西2455.45062367995.7542.2352.71025.515.1186.71.使用INSIGHT模塊做主成分分析的步驟使用INSIGHT模塊做主成分分析的步驟如下:

1)在INSIGHT模塊中打開數(shù)據(jù)集Mylib.jjzb;選擇菜單“Analyze”“Multivariate(YX)(多元分析)”,打開“Multivariate(YX)”對話框;

2)將做主成分分析的變量x1~x9選為Y變量,將變量diqu選為Label變量,如圖所示。圖6-1多元分析對話框

3)單擊“Method”按鈕,在打開的對話框中可以選擇計(jì)算協(xié)方差矩陣的特征值或是計(jì)算相關(guān)系數(shù)矩陣的特征值。系統(tǒng)默認(rèn)計(jì)算相關(guān)系數(shù)矩陣的特征值和特征向量,單擊“OK”按鈕返回。

4)單擊“Output”按鈕,在打開的對話框(圖左)中包括“DescriptiveStatistics”選項(xiàng)、“BivariatePlots”選項(xiàng)以及各種多元分析的選項(xiàng)。選中“PrincipalComponentAnalysis”復(fù)選框,單擊下面的“PrincipalComponentOptions”按鈕,打開“PrincipalComponentOptions”對話框,選中“Eigenvectors”復(fù)選框,取消“Correlations(Structure)”復(fù)選框,如圖右所示。

2.主成分的結(jié)果分析輸出的數(shù)字分析結(jié)果有4個(gè)部分:簡單統(tǒng)計(jì)量、相關(guān)系數(shù)矩陣、相關(guān)系數(shù)矩陣的特征值以及相關(guān)系數(shù)矩陣的特征向量。

3)圖6-5給出相關(guān)系數(shù)矩陣的特征值(Eigenvalue)、上下特征值之差(Difference)、各主成分的方差貢獻(xiàn)率(Proportion)以及累積貢獻(xiàn)率(Cumulative)。

相關(guān)系數(shù)矩陣的特征值即各主成分的方差,可以看出,第一主成分的方差貢獻(xiàn)率為80.11%,前兩個(gè)主成分的累積貢獻(xiàn)率已達(dá)92.33%,因此,只需用前面2個(gè)主成分就可以概括這組數(shù)據(jù)。

4)圖6-6給出相關(guān)系數(shù)矩陣的兩個(gè)最大特征值的特征向量,據(jù)此可以寫出第一和第二主成分得分:PCR1=0.35x1*+0.04x2*+0.36x3*+0.37x4*+0.37x5*+0.35x6*+0.36x7*+0.30x8*+0.36x9*PCR2=-0.21x1*+0.94x2*–0.01x3*–0.05x4*+0.10x5*–0.02x6*–0.14x7*+0.05x8*+0.18x9*

對于第一主成分而言,除了x2(人均GDP)外,各變量所占比重均在0.3以上,因此第一主成分(Prin1)主要由x1、x3~x9八個(gè)變量解釋;而第二主成分則主要由x2這一個(gè)變量解釋。

5)選擇菜單“Edit(編輯)”“Observations(觀測)”“LabelinPlots”,在彈出的對話框中選中所有diqu變量值,單擊“OK”按鈕返回,顯示結(jié)果中的散點(diǎn)圖上出現(xiàn)地區(qū)名;圖中看出,上海在第二主成分PCR2的得分遠(yuǎn)遠(yuǎn)高于其他省市,而在第一主成分PCR1的得分則處于中間。廣東、江蘇、山東和浙江則在第1主成分的得分上位于前列。

6)回到INSIGHT的數(shù)據(jù)窗口,可以看到前兩個(gè)主成分的得分情況(如圖6-8左)。單擊數(shù)據(jù)窗口左上角的箭頭,在彈出的菜單中選擇“Sort(排序)”選項(xiàng),在打開的對話框中選定排序變量PCR1,并單擊“Asc/Des”按鈕將其設(shè)為降序(Des),如圖6-8所示。

單擊“OK”按鈕返回,得到按第一主成分排序的結(jié)果如圖6-9左所示。同樣方法可以得到按第二主成分排序的結(jié)果如圖6-9右所示。從第一主成分排序情況來看,沿海19省市經(jīng)濟(jì)發(fā)展?fàn)顩r綜合排名前5位的省市依次為:廣東、江蘇、山東、浙江、上海;從第二主成分排序情況來看,人均GDP排名前5位的省市依次是:上海、天津、浙江、廣東、福建。

6.1.3使用“分析家”作主成分分析【例6-2】某企業(yè)為了了解其客戶的信用程度,評價(jià)客戶的信用等級,采用信用評估常用的5C方法,5C的目的是說明顧客違約的可能性。

1)品格x1,指客戶的信譽(yù)。

2)能力x2,指客戶的償還能力。

3)資本x3,指客戶的財(cái)務(wù)勢力和財(cái)務(wù)狀況。

4)附帶的擔(dān)保品x4。

5)環(huán)境條件x5,指客戶的外部因素。通過專家打分,得到10個(gè)客戶5項(xiàng)指標(biāo)的得分如表6-3所示。表6-210個(gè)客戶5項(xiàng)指標(biāo)的得分假設(shè)表6-2中數(shù)據(jù)已經(jīng)存放在數(shù)據(jù)集Mylib.xydj中,試對各客戶的信用等級進(jìn)行評估??蛻艟幪朓Dx1x2x3x4x5客戶編號IDx1x2x3x4x5176.581.57675.871.768579.280.384.476.5270.67367.668.178.57949487.589.592390.787.39181.580884.666.968.864.866.4477.573.670.969.874.8957.760.457.460.865585.668.57062.276.5107069.271.764.968.91.使用“分析家”做主成分分析的步驟

1)在“分析家”中打開數(shù)據(jù)集Mylib.xydj;

2)選擇菜單“Statistics(統(tǒng)計(jì))”“Multivariate(多元分析)”“PrincipalComponents(主成分分析)”,打開“PrincipalComponents”對話框;

3)在對話框中輸入主成分分析的變量,如圖所示。

4)單擊“Statistics(統(tǒng)計(jì))”按鈕,打開“PrincipalComponents:Statistics”對話框;在“#ofcomponents:”右邊的框中指定主成分的個(gè)數(shù)4,如圖右。單擊“OK”返回;

5)單擊“SaveData”按鈕,打開“PrincipalComponents:SaveData”對話框,在該對話框中可選擇存儲數(shù)據(jù)。選中“Createandsavescoresdata”,如圖6-11所示。單擊“OK”返回;

6)單擊“Plots”按鈕,打開“PrincipalComponents:Plots”對話框,可以設(shè)置圖形輸出?!裨凇癝creePlot(碎石圖)”選項(xiàng)卡中(圖左),選中“Createscreeplot(建立碎石圖)”復(fù)選框?!裨凇癈omponentPlot(成分圖)”選項(xiàng)卡中(圖右),選中“CreatecomponentPlot(建立成分圖)”復(fù)選框。

2.主成分的結(jié)果分析輸出的數(shù)字分析結(jié)果包括4個(gè)部分:簡單統(tǒng)計(jì)量、相關(guān)系數(shù)矩陣、相關(guān)系數(shù)矩陣的特征值以及相關(guān)系數(shù)矩陣的特征向量。

1)圖6-13

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論