廈門大學《應用多元統(tǒng)計分析》第6章主成分分析_第1頁
廈門大學《應用多元統(tǒng)計分析》第6章主成分分析_第2頁
廈門大學《應用多元統(tǒng)計分析》第6章主成分分析_第3頁
廈門大學《應用多元統(tǒng)計分析》第6章主成分分析_第4頁
廈門大學《應用多元統(tǒng)計分析》第6章主成分分析_第5頁
已閱讀5頁,還剩42頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第六章第六章 主成分分析主成分分析 第一節(jié)第一節(jié) 引言引言 第二節(jié)第二節(jié) 主成分的幾何意義及數(shù)學主成分的幾何意義及數(shù)學 推導推導 第三節(jié)第三節(jié) 主成分的性質主成分的性質 第四節(jié)第四節(jié) 主成分方法應用中應注意主成分方法應用中應注意 的問題的問題 第五節(jié)第五節(jié) 實例分析與計算機實現(xiàn)實例分析與計算機實現(xiàn) 第一節(jié)第一節(jié) 引言引言 n多元統(tǒng)計分析處理的是多變量(多指標)問題。由于變量較多元統(tǒng)計分析處理的是多變量(多指標)問題。由于變量較 多,增加了分析問題的復雜性。但在實際問題中,變量之間多,增加了分析問題的復雜性。但在實際問題中,變量之間 可能存在一定的相關性,因此,多變量中可能存在信息的重可能存在一

2、定的相關性,因此,多變量中可能存在信息的重 疊。人們自然希望通過克服相關性、重疊性,用較少的變量疊。人們自然希望通過克服相關性、重疊性,用較少的變量 來代替原來較多的變量,而這種代替可以反映原來多個變量來代替原來較多的變量,而這種代替可以反映原來多個變量 的大部分信息,這實際上是一種的大部分信息,這實際上是一種“降維降維”的思想。的思想。 n主成分分析也稱主分量分析,是由主成分分析也稱主分量分析,是由Hotelling于于1933年首先提年首先提 出的。由于多個變量之間往往存在著一定程度的相關性。人出的。由于多個變量之間往往存在著一定程度的相關性。人 們自然希望通過線性組合的方式,從這些指標中

3、盡可能快地們自然希望通過線性組合的方式,從這些指標中盡可能快地 提取信息。當?shù)谝粋€線性組合不能提取更多的信息時,再考提取信息。當?shù)谝粋€線性組合不能提取更多的信息時,再考 慮用第二個線性組合繼續(xù)這個快速提取的過程,慮用第二個線性組合繼續(xù)這個快速提取的過程,直到,直到 所提取的信息與原指標相差不多時為止。這就是主成分分析所提取的信息與原指標相差不多時為止。這就是主成分分析 的思想。一般說來,在主成分分析適用的場合,用較少的主的思想。一般說來,在主成分分析適用的場合,用較少的主 成分就可以得到較多的信息量。以各個主成分為分量,就得成分就可以得到較多的信息量。以各個主成分為分量,就得 到一個更低維的隨

4、機向量;因此,通過主成分既可以降低數(shù)到一個更低維的隨機向量;因此,通過主成分既可以降低數(shù) 據(jù)據(jù)“維數(shù)維數(shù)”又保留了原數(shù)據(jù)的大部分信息。又保留了原數(shù)據(jù)的大部分信息。 n我們知道,當一個變量只取一個數(shù)據(jù)時,這個變量(數(shù)據(jù))我們知道,當一個變量只取一個數(shù)據(jù)時,這個變量(數(shù)據(jù)) 提供的信息量是非常有限的,當這個變量取一系列不同數(shù)據(jù)提供的信息量是非常有限的,當這個變量取一系列不同數(shù)據(jù) 時,我們可以從中讀出最大值、最小值、平均數(shù)等信息。變時,我們可以從中讀出最大值、最小值、平均數(shù)等信息。變 量的變異性越大,說明它對各種場景的量的變異性越大,說明它對各種場景的“遍歷性遍歷性”越強,提越強,提 供的信息就更加

5、充分,信息量就越大。主成分分析中的信息,供的信息就更加充分,信息量就越大。主成分分析中的信息, 就是指標的變異性,用標準差或方差表示它。就是指標的變異性,用標準差或方差表示它。 n主成分分析的數(shù)學模型是,設主成分分析的數(shù)學模型是,設p個變量構成的個變量構成的p維隨機向量為維隨機向量為 X = (X1,Xp)。對。對X作正交變換,令作正交變換,令Y = TX,其中,其中T 為正交陣,要求為正交陣,要求Y的各分量是不相關的,并且的各分量是不相關的,并且Y的第一個分量的第一個分量 的方差是最大的,第二個分量的方差次之,的方差是最大的,第二個分量的方差次之,等等。為,等等。為 了保持信息不丟失,了保持

6、信息不丟失,Y的各分量方差和與的各分量方差和與X的各分量方差和的各分量方差和 相等。相等。 第二節(jié)第二節(jié) 主成分的幾何意義及數(shù)主成分的幾何意義及數(shù) 學推導學推導 一一 主成分的幾何意義主成分的幾何意義 二二 主成分的數(shù)學推導主成分的數(shù)學推導 一、主成分的幾何意義一、主成分的幾何意義 n主成分分析數(shù)學模型中的正交變換,在幾何上就是作一個坐主成分分析數(shù)學模型中的正交變換,在幾何上就是作一個坐 標旋轉。因此,主成分分析在二維空間中有明顯的幾何意義。標旋轉。因此,主成分分析在二維空間中有明顯的幾何意義。 假設共有假設共有n個樣品,每個樣品都測量了兩個指標(個樣品,每個樣品都測量了兩個指標(X1, X2

7、),它們大致分布在一個橢圓內如圖),它們大致分布在一個橢圓內如圖6.1所示。事實上,散所示。事實上,散 點的分布總有可能沿著某一個方向略顯擴張,這個方向就把點的分布總有可能沿著某一個方向略顯擴張,這個方向就把 它看作橢圓的長軸方向。顯然,在坐標系它看作橢圓的長軸方向。顯然,在坐標系x1Ox2中,單獨中,單獨 看這看這n個點的分量個點的分量X1和和X2,它們沿著,它們沿著x1方向和方向和x2方向都具有方向都具有 較大的離散性,其離散的程度可以分別用的較大的離散性,其離散的程度可以分別用的X1方差和方差和X2的方的方 差測定。如果僅考慮差測定。如果僅考慮X1或或X2中的任何一個分量,那么包含在中的

8、任何一個分量,那么包含在 另一分量中的信息將會損失,因此,直接舍棄某個分量不是另一分量中的信息將會損失,因此,直接舍棄某個分量不是 “降維降維”的有效辦法。的有效辦法。 圖圖6.1 主成分的幾何意義主成分的幾何意義 n n易見,易見,n個點在新坐標系下的坐標個點在新坐標系下的坐標Y1和和Y2幾乎不相關。稱它幾乎不相關。稱它 們?yōu)樵甲兞總優(yōu)樵甲兞縓1和和X2的綜合變量,的綜合變量,n個點個點y1在軸上的方差達在軸上的方差達 到最大,即在此方向上包含了有關到最大,即在此方向上包含了有關n個樣品的最大量信息。個樣品的最大量信息。 因此,欲將二維空間的點投影到某個一維方向上,則選擇因此,欲將二維空

9、間的點投影到某個一維方向上,則選擇y1 軸方向能使信息的損失最小。我們稱軸方向能使信息的損失最小。我們稱Y1為第一主成分,稱為第一主成分,稱Y2 為第二主成分。第一主成分的效果與橢圓的形狀有很大的關為第二主成分。第一主成分的效果與橢圓的形狀有很大的關 系,橢圓越是扁平,系,橢圓越是扁平,n個點在個點在y1軸上的方差就相對越大,在軸上的方差就相對越大,在y2 軸上的方差就相對越小,用第一主成分代替所有樣品所造成軸上的方差就相對越小,用第一主成分代替所有樣品所造成 的信息損失也就越小。的信息損失也就越小。 n考慮兩種極端的情形:考慮兩種極端的情形: 一種是橢圓的長軸與短軸的長度相等,即橢圓變成圓,

10、第一主一種是橢圓的長軸與短軸的長度相等,即橢圓變成圓,第一主 成分只含有二維空間點的約一半信息,若僅用這一個綜合變量,成分只含有二維空間點的約一半信息,若僅用這一個綜合變量, 則將損失約則將損失約50的信息,這顯然是不可取的。造成它的原因是,的信息,這顯然是不可取的。造成它的原因是, 原始變量原始變量X1和和X2的相關程度幾乎為零,也就是說,它們所包含的相關程度幾乎為零,也就是說,它們所包含 的信息幾乎不重迭,因此無法用一個一維的綜合變量來代替。的信息幾乎不重迭,因此無法用一個一維的綜合變量來代替。 另一種是橢圓扁平到了極限,變成另一種是橢圓扁平到了極限,變成y1軸上的一條線,第一主成軸上的一

11、條線,第一主成 分包含有二維空間點的全部信息,僅用這一個綜合變量代替原分包含有二維空間點的全部信息,僅用這一個綜合變量代替原 始數(shù)據(jù)不會有任何的信息損失,此時的主成分分析效果是非常始數(shù)據(jù)不會有任何的信息損失,此時的主成分分析效果是非常 理想的,其原因是,第二主成分不包含任何信息,舍棄它當然理想的,其原因是,第二主成分不包含任何信息,舍棄它當然 沒有信息損失。沒有信息損失。 二、主成分的數(shù)學推導二、主成分的數(shù)學推導 n n n n n n n n n 第三節(jié)第三節(jié) 主成分的性質主成分的性質 一一 主成分的一般性質主成分的一般性質 二二 主成分的方差貢獻率主成分的方差貢獻率 一、主成分的一般性質一

12、、主成分的一般性質 n 二、主成分的方差貢獻率二、主成分的方差貢獻率 n n 第四節(jié)第四節(jié) 主成分方法應用中應注主成分方法應用中應注 意的問題意的問題 一一 實際應用中主成分分析的出發(fā)點實際應用中主成分分析的出發(fā)點 二二 如何利用主成分分析進行綜合評價如何利用主成分分析進行綜合評價 一、實際應用中主成分分析的出發(fā)點一、實際應用中主成分分析的出發(fā)點 n n這里我們需要進一步強調的是,從相關陣求得的主成分與協(xié)這里我們需要進一步強調的是,從相關陣求得的主成分與協(xié) 差陣求得的主成分一般情況是不相同的。實際表明,這種差差陣求得的主成分一般情況是不相同的。實際表明,這種差 異有時很大。我們認為,如果各指標

13、之間的數(shù)量級相差懸殊,異有時很大。我們認為,如果各指標之間的數(shù)量級相差懸殊, 特別是各指標有不同的物理量綱的話,較為合理的做法是使特別是各指標有不同的物理量綱的話,較為合理的做法是使 用用R代替代替。對于研究經濟問題所涉及的變量單位大都不統(tǒng)。對于研究經濟問題所涉及的變量單位大都不統(tǒng) 一,采用一,采用R代替代替后,可以看作是用標準化的數(shù)據(jù)做分析,后,可以看作是用標準化的數(shù)據(jù)做分析, 這樣使得主成分有現(xiàn)實經濟意義,不僅便于剖析實際問題,這樣使得主成分有現(xiàn)實經濟意義,不僅便于剖析實際問題, 又可以避免突出數(shù)值大的變量。又可以避免突出數(shù)值大的變量。 n 二、如何利用主成分分析進行綜合二、如何利用主成分

14、分析進行綜合 評價評價 n人們在對某個單位或某個系統(tǒng)進行綜合評價時都會遇到如何人們在對某個單位或某個系統(tǒng)進行綜合評價時都會遇到如何 選擇評價指標體系和如何對這些指標進行綜合的困難。一般選擇評價指標體系和如何對這些指標進行綜合的困難。一般 情況下,選擇評價指標體系后通過對各指標加權的辦法來進情況下,選擇評價指標體系后通過對各指標加權的辦法來進 行綜合。但是,如何對指標加權是一項具有挑戰(zhàn)性的工作。行綜合。但是,如何對指標加權是一項具有挑戰(zhàn)性的工作。 指標加權的依據(jù)是指標的重要性,指標在評價中的重要性判指標加權的依據(jù)是指標的重要性,指標在評價中的重要性判 斷難免帶有一定的主觀性,這影響了綜合評價的客

15、觀性和準斷難免帶有一定的主觀性,這影響了綜合評價的客觀性和準 確性。由于主成分分析能從選定的指標體系中歸納出大部分確性。由于主成分分析能從選定的指標體系中歸納出大部分 信息,根據(jù)主成分提供的信息進行綜合評價,不失為一個可信息,根據(jù)主成分提供的信息進行綜合評價,不失為一個可 行的選擇。這個方法是根據(jù)指標間的相對重要性進行客觀加行的選擇。這個方法是根據(jù)指標間的相對重要性進行客觀加 權,可以避免綜合評價者的主觀影響,在實際應用中越來越權,可以避免綜合評價者的主觀影響,在實際應用中越來越 受到人們的重視。受到人們的重視。 n對主成分進行加權綜合。我們利用主成分進行綜合評價時,對主成分進行加權綜合。我們

16、利用主成分進行綜合評價時, 主要是將原有的信息進行綜合,因此,要充分的利用原始變主要是將原有的信息進行綜合,因此,要充分的利用原始變 量提供的信息。將主成分的權數(shù)根據(jù)它們的方差貢獻率來確量提供的信息。將主成分的權數(shù)根據(jù)它們的方差貢獻率來確 定,因為方差貢獻率反映了各個主成分的信息含量多少。定,因為方差貢獻率反映了各個主成分的信息含量多少。 n 第五節(jié)第五節(jié) 實例分析與計算機實現(xiàn)實例分析與計算機實現(xiàn) 一一 主成分分析實例主成分分析實例 二二 利用利用SPSS進行主成分分析進行主成分分析 一、主成分分析實例一、主成分分析實例 n表表6.1是某市工業(yè)部門是某市工業(yè)部門13個行業(yè)的個行業(yè)的8項重要經濟

17、指標的數(shù)據(jù),項重要經濟指標的數(shù)據(jù), 這這8項經濟指標分別是:項經濟指標分別是: X1:年末固定資產凈值,單位:萬元;:年末固定資產凈值,單位:萬元; X2:職工人數(shù)據(jù),單位:人;:職工人數(shù)據(jù),單位:人; X3:工業(yè)總產值,單位:萬元;:工業(yè)總產值,單位:萬元; X4:全員勞動生產率,單位:元:全員勞動生產率,單位:元/人年;人年; X5:百元固定資產原值實現(xiàn)產值,單位:元;:百元固定資產原值實現(xiàn)產值,單位:元; X6:資金利稅率,單位:資金利稅率,單位:%; X7:標準燃料消費量,單位:噸;:標準燃料消費量,單位:噸; X8:能源利用效果,單位:萬元:能源利用效果,單位:萬元/噸。噸。 表表6

18、.1 某市工業(yè)部門某市工業(yè)部門13個行業(yè)個行業(yè)8項指標項指標 n我們要考慮的是:如何從這些經濟指標出發(fā),對各工業(yè)部門我們要考慮的是:如何從這些經濟指標出發(fā),對各工業(yè)部門 進行綜合評價與排序?進行綜合評價與排序? n我們先計算這些指標的主成分,然后通過主成分的大小進行我們先計算這些指標的主成分,然后通過主成分的大小進行 排序。表排序。表6.2和表和表6.3分別是特征根(累計貢獻率)和特征向分別是特征根(累計貢獻率)和特征向 量的信息。量的信息。 n利用主成分得分進行綜合評價時,從特征向量我們可以寫出利用主成分得分進行綜合評價時,從特征向量我們可以寫出 所有所有8個主成分的具體形式:個主成分的具體

19、形式: 表表6.2 特征根和累計貢獻率特征根和累計貢獻率 表表6.3 特征向量特征向量 表表6.4 各行業(yè)主成分得分及排序各行業(yè)主成分得分及排序 n我們以特征根為權,對我們以特征根為權,對8個主成分進行加權綜合,得出各工個主成分進行加權綜合,得出各工 業(yè)部門的綜合得分,具體數(shù)據(jù)見表業(yè)部門的綜合得分,具體數(shù)據(jù)見表6.4。 n綜合得分的計算公式是:綜合得分的計算公式是: 根據(jù)上式可計算出各工業(yè)部門的綜合得分,并可據(jù)此排序。根據(jù)上式可計算出各工業(yè)部門的綜合得分,并可據(jù)此排序。 n從上表可以看出,機器行業(yè)在該地區(qū)的綜合評價排在第一,從上表可以看出,機器行業(yè)在該地區(qū)的綜合評價排在第一, 原始數(shù)據(jù)也反映出

20、機器行業(yè)存在明顯的規(guī)模優(yōu)勢,另外從前原始數(shù)據(jù)也反映出機器行業(yè)存在明顯的規(guī)模優(yōu)勢,另外從前 兩個主成分得分上看,該行業(yè)也排在第一位,同樣存在效益兩個主成分得分上看,該行業(yè)也排在第一位,同樣存在效益 優(yōu)勢;而排在最后三位的分別是皮革行業(yè)、電力行業(yè)和煤炭優(yōu)勢;而排在最后三位的分別是皮革行業(yè)、電力行業(yè)和煤炭 行業(yè)。行業(yè)。 812 128 888 111 iii iii YYYY 二、利用二、利用SPSS進行主成分分析進行主成分分析 nSPSS沒有提供主成分分析的專用功能,只有因子分析的功沒有提供主成分分析的專用功能,只有因子分析的功 能。但是因子分析和主成分分析有著密切的聯(lián)系。因子分析能。但是因子分析

21、和主成分分析有著密切的聯(lián)系。因子分析 的重要步驟的重要步驟因子的提取最常用的方法就是因子的提取最常用的方法就是“主成分法主成分法”。 利用因子分析的結果,可以很容易地實現(xiàn)主成分分析。具體利用因子分析的結果,可以很容易地實現(xiàn)主成分分析。具體 來講,就是利用因子載荷陣和相關系數(shù)矩陣的特征根來計算來講,就是利用因子載荷陣和相關系數(shù)矩陣的特征根來計算 特征向量。即:特征向量。即: n其中,其中,zij為第為第j個特征向量的第個特征向量的第i個元素;個元素;aij為因子載荷陣第為因子載荷陣第i 行第行第j列的元素;列的元素;j j為第為第j個因子對應的特征根。然后再利用個因子對應的特征根。然后再利用 計

22、算出的特征向量來計算主成分。計算出的特征向量來計算主成分。 n以下是我國以下是我國2005年第年第1、2季度分地區(qū)城鎮(zhèn)居民家庭收支基本季度分地區(qū)城鎮(zhèn)居民家庭收支基本 情況。通過這個例子,介紹如何利用情況。通過這個例子,介紹如何利用SPSS軟件實現(xiàn)主成分軟件實現(xiàn)主成分 分析。分析。 ij ij j a z 表表6.5 分地區(qū)城鎮(zhèn)居民家庭收支基本情況分地區(qū)城鎮(zhèn)居民家庭收支基本情況 表表6.5 分地區(qū)城鎮(zhèn)居民家庭收支基本情況分地區(qū)城鎮(zhèn)居民家庭收支基本情況 (一)利用(一)利用SPSS進行因子分析進行因子分析 n將原始數(shù)據(jù)輸入將原始數(shù)據(jù)輸入SPSS數(shù)據(jù)編輯窗口,將數(shù)據(jù)編輯窗口,將5個變量分別命名為個變

23、量分別命名為 X1X5。在。在SPSS窗口中選擇窗口中選擇AnalyzeData ReductionFactor菜單項,調出因子分析主界面,并將變量菜單項,調出因子分析主界面,并將變量 X1X5移入移入Variables框中,其他均保持系統(tǒng)默認選項,單擊框中,其他均保持系統(tǒng)默認選項,單擊 OK按鈕,執(zhí)行因子分析過程(關于因子分子在按鈕,執(zhí)行因子分析過程(關于因子分子在SPSS中實現(xiàn)中實現(xiàn) 的詳細過程,參見第的詳細過程,參見第7章實例)。得到如表章實例)。得到如表6.6所示的特征根所示的特征根 和方差貢獻率表和表和方差貢獻率表和表6.7所示的因子載荷陣。所示的因子載荷陣。 n表表6.6中中Total列為各因子對應的特征根,本例中共提取兩個列為各因子對應的特征根,本例中共提取兩個 公因子;公因子;% of Variance列為各

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論