主成分分析的原理與實(shí)現(xiàn)_第1頁(yè)
主成分分析的原理與實(shí)現(xiàn)_第2頁(yè)
主成分分析的原理與實(shí)現(xiàn)_第3頁(yè)
主成分分析的原理與實(shí)現(xiàn)_第4頁(yè)
主成分分析的原理與實(shí)現(xiàn)_第5頁(yè)
已閱讀5頁(yè),還剩35頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

假定你是一個(gè)公司的財(cái)務(wù)經(jīng)理,掌握了公司的所有數(shù)據(jù),這包括眾多的變量,比如固定資產(chǎn)、流動(dòng)資金、每一筆借貸的數(shù)額和期限、各種稅費(fèi)、工資支出、原料消耗、產(chǎn)值、利潤(rùn)、折舊、職工人數(shù)、職工的分工和教育程度等等。如果讓你向上級(jí)或有關(guān)方面介紹公司狀況,你能夠把這些指標(biāo)和數(shù)字都原封不動(dòng)地?cái)[出去嗎?

引子1目前一頁(yè)\總數(shù)四十頁(yè)\編于十一點(diǎn)當(dāng)然不能。匯報(bào)什么?發(fā)現(xiàn)在如此多的變量之中,有很多是相關(guān)的。人們希望能夠找出它們的少數(shù)“代表”來(lái)對(duì)它們進(jìn)行描述。需要把這種有很多變量的數(shù)據(jù)進(jìn)行高度概括,用少數(shù)幾個(gè)指標(biāo)簡(jiǎn)單明了地把情況說(shuō)清楚。2目前二頁(yè)\總數(shù)四十頁(yè)\編于十一點(diǎn)主成分分析(PrincipalComponentsAnalysis)和因子分析(FactorAnalysis)就是把變量維數(shù)降低以便于描述、理解和分析的方法。主成分分析也稱為主分量分析,是一種通過(guò)降維來(lái)簡(jiǎn)化數(shù)據(jù)結(jié)構(gòu)的方法:如何把多個(gè)變量化為少數(shù)幾個(gè)綜合變量(綜合指標(biāo)),而這幾個(gè)綜合變量可以反映原來(lái)多個(gè)變量的大部分信息,所含的信息又互不重疊,即它們之間要相互獨(dú)立,互不相關(guān)。這些綜合變量就叫因子或主成分,它是不可觀測(cè)的,即它不是具體的變量(這與聚類(lèi)分析不同),只是幾個(gè)指標(biāo)的綜合。在引入主成分分析之前,先看下面的例子。什么是主成分分析法?3目前三頁(yè)\總數(shù)四十頁(yè)\編于十一點(diǎn)成績(jī)數(shù)據(jù)53個(gè)學(xué)生的數(shù)學(xué)、物理、化學(xué)、語(yǔ)文、歷史、英語(yǔ)的成績(jī)?nèi)缦卤恚ú糠郑?目前四頁(yè)\總數(shù)四十頁(yè)\編于十一點(diǎn)從本例可能提出的問(wèn)題能不能把這個(gè)數(shù)據(jù)表中的6個(gè)變量用一兩個(gè)綜合變量來(lái)表示呢?這一兩個(gè)綜合變量包含有多少原來(lái)的信息呢?能不能利用找到的綜合變量來(lái)對(duì)學(xué)生排序呢?5目前五頁(yè)\總數(shù)四十頁(yè)\編于十一點(diǎn)事實(shí)上,以上的三個(gè)問(wèn)題在地理學(xué)研究中,也會(huì)經(jīng)常遇到。它所涉及的問(wèn)題可以推廣到對(duì)企業(yè)、對(duì)學(xué)校、對(duì)區(qū)域進(jìn)行分析、評(píng)價(jià)、排序和分類(lèi)等。比如對(duì)n個(gè)區(qū)域進(jìn)行綜合評(píng)價(jià),可選的描述區(qū)域特征的指標(biāo)很多,而這些指標(biāo)往往存在一定的相關(guān)性(既不完全獨(dú)立,又不完全相關(guān)),這就給研究帶來(lái)很大不便。若選指標(biāo)太多,會(huì)增加分析問(wèn)題的難度與復(fù)雜性,選指標(biāo)太少,有可能會(huì)漏掉對(duì)區(qū)域影響較大的指標(biāo),影響結(jié)果的可靠性。6目前六頁(yè)\總數(shù)四十頁(yè)\編于十一點(diǎn)這就需要我們?cè)谙嚓P(guān)分析的基礎(chǔ)上,采用主成分分析法找到幾個(gè)新的相互獨(dú)立的綜合指標(biāo),達(dá)到既減少指標(biāo)數(shù)量、又能區(qū)分區(qū)域間差異的目的。7目前七頁(yè)\總數(shù)四十頁(yè)\編于十一點(diǎn)

二、主成分分析的基本原理8目前八頁(yè)\總數(shù)四十頁(yè)\編于十一點(diǎn)(一)主成分分析的幾何解釋

例中數(shù)據(jù)點(diǎn)是六維的;即每個(gè)觀測(cè)值是6維空間中的一個(gè)點(diǎn)。希望把6維空間用低維空間表示。先假定只有二維,即只有兩個(gè)變量,語(yǔ)文成績(jī)(x1)和數(shù)學(xué)成績(jī)(x2),分別由橫坐標(biāo)和縱坐標(biāo)所代表;每個(gè)學(xué)生都是二維坐標(biāo)系中的一個(gè)點(diǎn)。9目前九頁(yè)\總數(shù)四十頁(yè)\編于十一點(diǎn)空間的點(diǎn)如果這些數(shù)據(jù)形成一個(gè)橢圓形狀的點(diǎn)陣(這在二維正態(tài)的假定下是可能的)該橢圓有一個(gè)長(zhǎng)軸和一個(gè)短軸。在短軸方向上數(shù)據(jù)變化很少;在極端的情況,短軸如退化成一點(diǎn),長(zhǎng)軸的方向可以完全解釋這些點(diǎn)的變化,由二維到一維的降維就自然完成了。10目前十頁(yè)\總數(shù)四十頁(yè)\編于十一點(diǎn)?????????????????????????????????????假定語(yǔ)文成績(jī)(X1)和數(shù)學(xué)成績(jī)(X2)的相關(guān)系數(shù)ρ=0.6。設(shè)X1和X2分別為標(biāo)準(zhǔn)化后的分?jǐn)?shù),右圖為其散點(diǎn)圖。11目前十一頁(yè)\總數(shù)四十頁(yè)\編于十一點(diǎn)那么隨機(jī)向量的方差—協(xié)方差矩陣為可以看出,在變量標(biāo)準(zhǔn)化的情況下的方差—協(xié)方差矩陣與其相關(guān)矩陣相等。由求矩陣特征值和特征向量的方法:令可以求出:12目前十二頁(yè)\總數(shù)四十頁(yè)\編于十一點(diǎn)對(duì)應(yīng)的特征向量分別為:顯然,這兩個(gè)特征向量是相互正交的單位向量。而且它們與原來(lái)的坐標(biāo)軸X1和X2的夾角都分別等于45o。如果將坐標(biāo)軸X1和X2旋轉(zhuǎn)45o,那么點(diǎn)在新坐標(biāo)系中的坐標(biāo)(Y1,Y2)與原坐標(biāo)(X1,X2)有如下的關(guān)系:Y1和Y2均是X1和X2的線性組合系數(shù)代表什么?13目前十三頁(yè)\總數(shù)四十頁(yè)\編于十一點(diǎn)?????????????????????????????????????在新坐標(biāo)系中,可以發(fā)現(xiàn):雖然散點(diǎn)圖的形狀沒(méi)有改變,但新的隨機(jī)變量Y1和Y2已經(jīng)不再相關(guān)。而且大部分點(diǎn)沿Y1軸散開(kāi),在Y1軸方向的變異較大(即Y1的方差較大),相對(duì)來(lái)說(shuō),在Y2軸方向的變異較小(即Y2的方差較?。?4目前十四頁(yè)\總數(shù)四十頁(yè)\編于十一點(diǎn)事實(shí)上,隨機(jī)變量Y1和Y2的方差分別為:可以看出,最大變動(dòng)方向是由特征向量所決定的,而特征值則刻畫(huà)了對(duì)應(yīng)的方差。這只是我們舉的一個(gè)例子,對(duì)于一般情況,數(shù)學(xué)上也能證明。15目前十五頁(yè)\總數(shù)四十頁(yè)\編于十一點(diǎn)在上面的例子中Y1和Y2就是原變量X1和X2的第一主成分和第二主成分。實(shí)際上第一主成分Y1就基本上反映了X1和X2的主要信息,因?yàn)閳D中的各點(diǎn)在新坐標(biāo)系中的Y1坐標(biāo)基本上就代表了這些點(diǎn)的分布情況,因此可以選Y1為一個(gè)新的綜合變量。當(dāng)然如果再選Y2也作為綜合變量,那么Y1和Y2則反映了X1和X2的全部信息。16目前十六頁(yè)\總數(shù)四十頁(yè)\編于十一點(diǎn)從幾何上看,找主成分的問(wèn)題就是找出p維空間中橢球體的主軸問(wèn)題,就是要在x1~xp的相關(guān)矩陣中m個(gè)較大特征值所對(duì)應(yīng)的特征向量。究竟提取幾個(gè)主成分或因子,一般有兩種方法:特征值>1累計(jì)貢獻(xiàn)率>0.8那么如何提取主成分呢?

(二)主成分分析的基本思想

17目前十七頁(yè)\總數(shù)四十頁(yè)\編于十一點(diǎn)假定有n個(gè)地理樣本,每個(gè)樣本共有p個(gè)變量,構(gòu)成一個(gè)n×p階的地理數(shù)據(jù)矩陣

(3.5.1)

綜合指標(biāo)如何選取呢?這些綜合指標(biāo)要想盡可能多地反映原指標(biāo)的信息,綜合指標(biāo)的表達(dá)式中要含有原指標(biāo),那么我們通常是取原指標(biāo)的線性組合,適當(dāng)調(diào)整它們的系數(shù),使綜合指標(biāo)間相互獨(dú)立且代表性好。18目前十八頁(yè)\總數(shù)四十頁(yè)\編于十一點(diǎn)

定義:記x1,x2,…,xP為原變量指標(biāo),z1,z2,…,zm(m≤p)為新變量指標(biāo)(3.5.2)

可以看出,新指標(biāo)對(duì)原指標(biāo)有多個(gè)線性組合,新指標(biāo)對(duì)哪個(gè)原指標(biāo)反映的多,哪個(gè)少,取決于它的系數(shù)。系數(shù)lij的確定原則:①

zi與zk(i≠k;i,k=1,2,…,m;j=1,2,…,p)相互無(wú)關(guān);19目前十九頁(yè)\總數(shù)四十頁(yè)\編于十一點(diǎn)

z1是x1,x2,…,xP的一切線性組合中方差最大者(最能解釋它們之間的變化),z2是與z1不相關(guān)的x1,x2,…,xP的所有線性組合中方差最大者;…;zm是與z1,z2,……,zm-1都不相關(guān)的x1,x2,…xP,的所有線性組合中方差最大者。

則新變量指標(biāo)z1,z2,…,zm分別稱為原變量指標(biāo)x1,x2,…,xP的第1,第2,…,第m主成分。

20目前二十頁(yè)\總數(shù)四十頁(yè)\編于十一點(diǎn)

從以上的分析可以看出,主成分分析的實(shí)質(zhì)就是確定原來(lái)變量xj(j=1,2,…,p)在諸主成分zi(i=1,2,…,m)上的荷載lij(i=1,2,…,m;j=1,2,…,p)。從數(shù)學(xué)上可以證明,它們分別是相關(guān)矩陣(也就是x1,x2,…,xP的相關(guān)系數(shù)矩陣)m個(gè)較大的特征值所對(duì)應(yīng)的特征向量。

21目前二十一頁(yè)\總數(shù)四十頁(yè)\編于十一點(diǎn)三、主成分分析的計(jì)算步驟22目前二十二頁(yè)\總數(shù)四十頁(yè)\編于十一點(diǎn)(一)計(jì)算相關(guān)系數(shù)矩陣

rij(i,j=1,2,…,p)為原變量xi與xj標(biāo)準(zhǔn)化后的相關(guān)系數(shù),rij=rji,其計(jì)算公式為(3.5.3)

(3.5.4)

23目前二十三頁(yè)\總數(shù)四十頁(yè)\編于十一點(diǎn)

(二)計(jì)算特征值與特征向量1、解特征方程,求出特征值,并使其按大小順序排列;

2、分別求出對(duì)應(yīng)于特征值的特征向量,要求=1,即,其中表示向量的第j個(gè)分量,也就是說(shuō)為單位向量。24目前二十四頁(yè)\總數(shù)四十頁(yè)\編于十一點(diǎn)3、計(jì)算主成分貢獻(xiàn)率及累計(jì)貢獻(xiàn)率貢獻(xiàn)率累計(jì)貢獻(xiàn)率

一般取累計(jì)貢獻(xiàn)率達(dá)85%~95%的特征值所對(duì)應(yīng)的第1、第2、…、第m(m≤p)個(gè)主成分。

25目前二十五頁(yè)\總數(shù)四十頁(yè)\編于十一點(diǎn)4、計(jì)算主成分載荷

在主成分之間不相關(guān)時(shí),主成分載荷就是主成分zi與變量xj之間的相關(guān)系數(shù)(在數(shù)學(xué)上可以證明)

5、各主成分的得分

得到各主成分的載荷以后,可以按照(3.5.2)計(jì)算各主成分的得分

(3.5.5)

26目前二十六頁(yè)\總數(shù)四十頁(yè)\編于十一點(diǎn)(3.5.6)

每個(gè)地區(qū)的綜合評(píng)價(jià)值為:對(duì)各個(gè)主成分進(jìn)行加權(quán)求和。權(quán)重為每個(gè)主成分方差的貢獻(xiàn)率。27目前二十七頁(yè)\總數(shù)四十頁(yè)\編于十一點(diǎn)四、SPSS在主成分分析中的應(yīng)用28目前二十八頁(yè)\總數(shù)四十頁(yè)\編于十一點(diǎn)以全國(guó)31個(gè)省市的8項(xiàng)經(jīng)濟(jì)指標(biāo)為例,進(jìn)行主成分分析。第一步:錄入或調(diào)入數(shù)據(jù)(圖1)。圖1原始數(shù)據(jù)(未經(jīng)標(biāo)準(zhǔn)化)29目前二十九頁(yè)\總數(shù)四十頁(yè)\編于十一點(diǎn)30目前三十頁(yè)\總數(shù)四十頁(yè)\編于十一點(diǎn)⒈設(shè)置描述(Descriptives)選項(xiàng)。單擊描述按鈕,彈出描述對(duì)話框選中單變量描述性(Univariatedescriptives)復(fù)選項(xiàng),則輸出結(jié)果中將會(huì)給出原始數(shù)據(jù)的抽樣均值、方差和樣本數(shù)目選中原始分析結(jié)果(Initialsolution)復(fù)選項(xiàng),則會(huì)給出主成分載荷的公因子方差(這一欄數(shù)據(jù)分析時(shí)有用)。在相關(guān)矩陣(CorrelationMatrix)欄中,選中系數(shù)(Coefficients)復(fù)選項(xiàng),則會(huì)給出原始變量的相關(guān)系數(shù)矩陣;選中行列式(Determinant)復(fù)選項(xiàng),則會(huì)給出相關(guān)系數(shù)矩陣的行列式,如果希望在Excel中對(duì)某些計(jì)算過(guò)程進(jìn)行了解,可選此項(xiàng),否則用途不大。其它復(fù)選項(xiàng)一般不用,但在特殊情況下可以用到。設(shè)置完成以后,單擊Continue按鈕完成設(shè)置(圖5)。31目前三十一頁(yè)\總數(shù)四十頁(yè)\編于十一點(diǎn)打開(kāi)抽取對(duì)話框。因子提取方法主要有7種,在方法(Method)欄中可以看到,系統(tǒng)默認(rèn)的提取方法是主成分.因此對(duì)此欄不作變動(dòng),就是認(rèn)可了主成分分析方法。⒉設(shè)置抽取(Extraction)選項(xiàng)。在分析(Analyze)欄中,選中相關(guān)性矩陣(Correlationmatirx)復(fù)選項(xiàng),則因子分析基于數(shù)據(jù)的相關(guān)系數(shù)矩陣進(jìn)行分析;如果選中協(xié)方差矩陣(Covariancematrix)復(fù)選項(xiàng),則因子分析基于數(shù)據(jù)的協(xié)方差矩陣進(jìn)行分析。對(duì)于主成分分析而言,由于數(shù)據(jù)標(biāo)準(zhǔn)化了,這兩個(gè)結(jié)果沒(méi)有分別,因此任選其一即可。32目前三十二頁(yè)\總數(shù)四十頁(yè)\編于十一點(diǎn)在輸出(Display)欄中,選中Unrotatedfactorsolution(非旋轉(zhuǎn)因子解)復(fù)選項(xiàng),則在分析結(jié)果中給出未經(jīng)旋轉(zhuǎn)的因子提取結(jié)果。對(duì)于主成分分析而言,這一項(xiàng)選擇與否都一樣;對(duì)于旋轉(zhuǎn)因子分析,選擇此項(xiàng),可將旋轉(zhuǎn)前后的結(jié)果同時(shí)給出,以便對(duì)比。選中ScreePlot(碎石圖),則在分析結(jié)果中給出特征根按大小分布的折線圖以便我們直觀地判定因子的提取數(shù)量是否準(zhǔn)確。33目前三十三頁(yè)\總數(shù)四十頁(yè)\編于十一點(diǎn)在抽取欄中,有兩種方法可以決定提取主成分(因子)的數(shù)目。一是根據(jù)特征根(Eigenvalues)的數(shù)值,系統(tǒng)默認(rèn)的是λ=1。我們知道,在主成分分析中,主成分得分的方差就是對(duì)應(yīng)的特征根數(shù)值。如果默認(rèn)λ=1,則所有方差大于等于1的主成分將被保留,其余舍棄。如果覺(jué)得最后選取的主成分?jǐn)?shù)量不足,可以將λ值降低,例如取λ=0.9;如果認(rèn)為最后的提取的主成分?jǐn)?shù)量偏多,則可以提高λ值,例如取λ=1.1。主成分?jǐn)?shù)目是否合適,要在進(jìn)行一輪分析以后才能肯定。因此,特征根數(shù)值的設(shè)定,要在反復(fù)試驗(yàn)以后才能決定。一般而言,在初次分析時(shí),最好降低特征根的臨界值(如取λ=0.8),這樣提取的主成分將會(huì)偏多,根據(jù)初次分析的結(jié)果,在第二輪分析過(guò)程中可以調(diào)整特征根的大小。34目前三十四頁(yè)\總數(shù)四十頁(yè)\編于十一點(diǎn)第二種方法是直接指定主成分的數(shù)目即因子數(shù)目,這要選中Numberoffactors復(fù)選項(xiàng)。主成分的數(shù)目選多少合適?開(kāi)始我們并不十分清楚。因此,首次不妨將數(shù)值設(shè)大一些,但不能超過(guò)變量數(shù)目。本例有8個(gè)變量,因此,最大的主成分提取數(shù)目為8,不得超過(guò)此數(shù)。在我們第一輪分析中,采用系統(tǒng)默認(rèn)的方法提取主成分。

需要注意的是:主成分計(jì)算是利用迭代(Iterations)方法,系統(tǒng)默認(rèn)的迭代次數(shù)是25次。但是,當(dāng)數(shù)據(jù)量較大時(shí),25次迭代是不夠的,需要改為50次、100次乃至更多。對(duì)于本例而言,變量較少,25次迭代足夠,故無(wú)需改動(dòng)。設(shè)置完成以后,單擊Continue按鈕完成設(shè)置。35目前三十五頁(yè)\總數(shù)四十頁(yè)\編于十一點(diǎn)選中保存為變量(Saveasvariables)欄,則分析結(jié)果中給出標(biāo)準(zhǔn)化的主成分得分(在數(shù)據(jù)表的后面)。至于方法復(fù)選項(xiàng),對(duì)主成分分析而言,三種方法沒(méi)有分別,采用系統(tǒng)默認(rèn)的“回歸”(Regression)法即可。選中顯示因子得分系數(shù)矩陣(Displayfactorscorecoefficientmatrix),則在分析結(jié)果中給出因子得分系數(shù)矩陣及其相關(guān)矩陣。設(shè)置完成以后,單擊Continue按鈕完成設(shè)置。⒊設(shè)置得分(Scores)設(shè)置。36目前三十六頁(yè)\總數(shù)四十頁(yè)\編于十一點(diǎn)⒋其它對(duì)于主成分分析而言,旋轉(zhuǎn)項(xiàng)(Rotation)可以不必設(shè)置;對(duì)于數(shù)據(jù)沒(méi)有缺失的情況下,選項(xiàng)(Option)項(xiàng)可以不必理會(huì)。全部設(shè)置完成以后,點(diǎn)擊OK確定,SPSS很快給出計(jì)算結(jié)果實(shí)例:全國(guó)31個(gè)省市的8項(xiàng)經(jīng)濟(jì)指標(biāo)37目前三十七頁(yè)\總數(shù)四十頁(yè)\編于十一點(diǎn)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論