多元統(tǒng)計分析講義(第四章)(共16頁)_第1頁
多元統(tǒng)計分析講義(第四章)(共16頁)_第2頁
多元統(tǒng)計分析講義(第四章)(共16頁)_第3頁
多元統(tǒng)計分析講義(第四章)(共16頁)_第4頁
多元統(tǒng)計分析講義(第四章)(共16頁)_第5頁
已閱讀5頁,還剩11頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、注意電子文檔使用范圍多 元 統(tǒng) 計 分 析Multivariate Statistical Analysis主講:統(tǒng)計學院 許啟發(fā)(xuqifa1975)統(tǒng)計學院應用統(tǒng)計學教研室School of Statistics2004年9月第三章 主成分分析【教學目的】1 讓學生了解主成分分析的背景、基本思想;2 掌握主成分分析的基本原理與方法;3 掌握主成分分析的操作步驟和基本過程;4 學會應用主成分分析解決實際問題?!窘虒W重點】1 主成分分析的幾何意義;2 主成分分析的基本原理。§1 概述一、 什么是主成分分析1研究背景在實際問題的研究中,為了全面分析問題,往往涉及眾多有關的變量。但是,

2、變量太多不但會增加計算的復雜性,而且也給合理地分析問題和解釋問題帶來困難。一般說來,雖然每個變量都提供了一定的信息,但其重要性有所不同。實際上,在很多情況下,眾多變量間有一定的相關關系,人們希望利用這種相關性對這些變量加以“改造”,用為數(shù)較少的新變量來反映原變量所提供的大部分信息,通過對新變量的分析達到解決問題的目的。主成分分析及典型相關分析便是在這種降維的思維下產生的處理高維數(shù)據(jù)的統(tǒng)計方法。本章主要介紹主成分分析。主成分分析的基本方法是通過構造原變量的適當?shù)木€性組合,以產生一系列互不相關的新變量,從中選出少數(shù)幾個新變量并使它們含有盡可能多的原變量帶有的信息,從而使得用這幾個新變量代替原變量分

3、析問題和解決問題成為可能。當研究的問題確定之后,變量中所含“信息”的大小通常用該變量的方差或樣本方差來度量。概括地說,主成分分析(principal component analysis)就是一種通過降維技術把多個指標約化為少數(shù)幾個綜合指標的綜合統(tǒng)計分析方法,而這些綜合指標能夠反映原始指標的絕大部分信息,它們通常表現(xiàn)為原始幾個指標的線性組合。主成分概念最早是由Karl Parson于1901年引進的,1933年Hotelling把這個概念推廣到隨機向量。在實踐中,主成分分析既可以單獨使用,也可和其它方法結合使用,如主成分回歸可克服多重共線性。2基本思想及意義哲學理念:抓住問題的主要矛盾。主成分

4、分析將具有一定相關性的眾多指標重新組合成新的無相互關系的綜合指標來代替。通常數(shù)學上的處理就是將這個指標進行線性組合作為新的綜合指標。問題是:這樣的線性組合會很多,如何選擇?如果將選取的第一個線性組合即第一個綜合指標記為,希望它能盡可能多地反映原來指標的信息,即越大,所包含的原指標信息 度量信息最經典的方差是方差。就越多,的方差應該最大,稱為第一主成分。如果第一主成分不足以代表原來個指標的信息,再考慮選取即選擇第二個線性組合。為了有效地反映原來的信息,中已包含的信息,無須出現(xiàn)在中,即,稱為第二主成分。仿此可以得到個主成分。我們可以發(fā)現(xiàn)這些主成分之間互不相關且方差遞減,即數(shù)據(jù)的信息包含在前若干個主

5、成分中,因而只需挑選前幾個主成分就基本上反映了原始指標的信息。這種既減少了變量的數(shù)目又抓住了主要矛盾的做法有利于問題的解決。二、 主成分分析的數(shù)學模型及幾何意義1數(shù)學模型(總體主成分)設有個樣品,每個樣品觀測個指標:,得到原始數(shù)據(jù)資料陣:。其中,。其協(xié)方差矩陣為它是一個階半正定矩陣。設為個常數(shù)向量,考慮如下的線性組合 簡記為易知有如果我們希望用代替原來p個變量,這就要求盡可能地反映原p個變量的信息。這里,“信息”用的方差來度量,即越大,表示所含的中的信息越多。但由方差的表達式可知,必須對加以限制,否則無界。而最方便的限制是要求所有具有單位長度,即因此,我們希望在約束條件之下,求使達到最大,由此

6、所確定的隨機變量稱為的第一主成分。如果第一主成分還不足以反映原變量的信息,考慮采用。為了有效地反映原變量的信息,中已有的信息就不必要再包含在中,用統(tǒng)計的語言來講,要求與不相關,即于是,在約束條件及之下,求使達到最大,由此所確定的隨機變量稱為的第二主成分。一般地,在約束條件及之下,求使達到最大,由此所確定的隨機變量稱為的第主成分。2主成分的幾何意義從代數(shù)學觀點看主成分就是的一些特殊的線性組合,而在幾何上這些線性組合正是把構成的坐標系旋轉產生的新的坐標系,新坐標系使之通過樣品方差最大化方向。下面以二元正態(tài)變量為例說明主成分的幾何意義。當時,原變量是,設,它們有下圖的相關關系:對于二元正態(tài)變量,個點

7、的散布大致是一個橢圓,在其長軸方向取坐標軸,在其短軸方向取坐標軸。這相當于在平面上作一坐標變換,即按逆時針方向旋轉角度,得或這里的為正交矩陣,即。因此,在坐標系中有如下性質:(1)和為的線性組合;(2)與不相關;(3)與的總方差大部分歸結為軸上,而軸上很少。幾何意義:一般情況,個變量組成維空間,個樣品點就是維空間的個點,對元正態(tài)分布變量來說,找主成分的問題就是找維空間中橢球體的主軸問題。§2 主成分的推導及性質這里首先從理論上給出總體主成分,探討總體主成分的性質,而后再給出樣本主成分。一、 總體主成分1總體主成分的推導設,其中且,。求主成分的過程就是尋找的線性組合,使相應的方差盡可能

8、地大的過程。設協(xié)差陣的特征根為,相應的正交單位特征向量為,則因此,所以,而事實上,當時有由此可知,在約束條件之下,當時,使達到最大值,且。同理可求,且結論:的主成分就是以的特征向量為系數(shù)的線性組合,它們互不相關,其方差為的特征根,主成分的名次是按照特征根大小的順序排列的。2總體主成分的性質性質1:設為的主成分,則其協(xié)差陣為由的協(xié)差所對應特征根組成的對角陣。性質2:。證明:。NOTE:此性質說明各變量方差之和等于各個主成分的方差之和,即。因此,描述了第個主成分提取的信息占總信息量的份額。為此,可以給出方差貢獻率和方差累積貢獻率的定義。定義:稱為第個主成分的方差貢獻率,稱為前個主成分的方差累積貢獻

9、率。累積貢獻率表明了前個主成分提取了中的總信息量的份額。在實際應用中,通常選取,使前個主成分的累積貢獻率達到一定的比例(如85%)。這樣用前個主成分代替原來的變量而不至于損失太多的信息,從而達到減少變量個數(shù)的目的。性質3:。證明:因為, 這里為第個分量為1其余分量為0的單位向量。并且使用了這個結論。所以,。3標準化變量的主成分 一個總體往往由個變量所組成,代表不同性質的個指標,具有不同的計量單位,使得主成分方差的大小取決于量綱的選擇,從而導致各主成分方差大小排序的偏誤。實施標準化后,使得不同變量或指標反映信息量的大小具有可比性。在實際問題中,不同的變量往往有不同的量綱,由于不同的量綱會引起個變

10、量取值的分散程度差異較大,這時,總體方差則主要受方差較大的變量的控制。若用求主成分,則優(yōu)先照顧了方差大的變量,有時會造成很不合理的結果。為了消除由于量綱的不同可能帶來的影響,常采用變量標準化的方法,即令其中,。這時,的協(xié)方差矩陣便是的相關矩陣,其中利用的相關矩陣作主成分分析,平行于前面的結論,可以有如下的定理。定理:設為標準化的隨機向量,其協(xié)方差矩陣(即的相關矩陣)為,則的第個主成分并且其中為相關矩陣的特征值,為相應的正交單位化特征向量。這時,第個主成分的貢獻為,前個主成分的累積貢獻為。4標準化和非標準化數(shù)據(jù)的主成分例:設協(xié)方差矩陣和對應的相關矩陣分別為,如果從出發(fā)作主成分分析,易求得其特征值

11、和相應的單位正交化特征向量為,則的兩個主成分分別為,第一主成分的貢獻率為我們看到由于的方差很大,它完全控制了提取信息量占99.2%的第一主成分(在中的系數(shù)為0.999),淹沒了變量的作用。如果從相關矩陣出發(fā)求主成分,可求得其特征值和相應的單位正交化特征向量為,則的兩個主成分分別為此時,第一個主成分的貢獻率有所下降,為。由此看到,原變量在第一主成分中的相對重要性由于標準化而有很大的變化。在由所求得的第一主成分中的,和的權重系數(shù)分別為0.040和0.999,主要由大方差的變量控制。而在由所求得的第一主成分中,和的權重系數(shù)反而成了0.707和0.0707,即的相對重要性得到提升。此例也表明,由和求得

12、的主成分一般是不相同的,而且,其中一組主成分也不是第二組主成分的某簡單函數(shù)。在實際應用中,當涉及的各變量的變化范圍差異較大時,從出發(fā)求主成分比較合理。二、 樣本主成分1樣本主成分的導出面討論的是總體主成分,但在實際問題中,一般(或)是未知的,需要通過樣本來估計。設為取處的一個容量為的簡單隨機樣本,則樣本協(xié)方差矩陣及樣本相關矩陣分別為:其中,分別以和作為和的估計,按照前面所述方法,從樣本協(xié)差陣和相關陣出發(fā)求出的主成分稱為樣本主成分。定理:設是樣本協(xié)方差矩陣,其特征值為,相應的正交單位化特征向量為,則第個樣本主成分為其中為的任一觀測值。當依次代入的個觀測值時,便得到第個樣本主成分的個觀測值。這時這

13、時,第個樣本主成分的貢獻率定義為:。同時為了消除量綱的影響,我們可以對樣本進行標準化,即令則標準化數(shù)據(jù)的樣本協(xié)方差矩陣即為原數(shù)據(jù)的樣本相關矩陣。由出發(fā)所得的樣本主成分稱為標準化樣本主成分。只要求出的特征值及相應的單位正交化特征向量,類似上述結果可求得標準化樣本主成分。這時標準化樣本的樣本總方差為。證明:對于標準化數(shù)據(jù)矩陣,樣本相關矩陣為,其中為相關矩陣的單位正交特征向量所組成的矩陣其特征根分別為,滿足。現(xiàn)在考察從而新變量的樣本方差為,即對于有最大的方差;有次大的方差,。并且協(xié)方差為由于所以,新變量的樣本協(xié)方差結論:由推導過程可以看到,由變量,經過正交變換得到的新變量不僅彼此不相關,而且它們的方

14、差是特征根。這表明新變量就是所尋求的主成分,為了書寫的方便用來表示。2樣本主成分的性質性質1:第個主成分的系數(shù)向量是第個特征根所對應的標準化特征向量,即若,則性質2:第個主成分的方差為第個特征根,且任意兩個主成分都是不相關的,也就是主成分的樣本協(xié)方差矩陣是對角矩陣。性質3:樣本主成分的總方差等于原變量樣本的總方差,即事實上,性質4:第個主成分與第個變量樣本之間的相關系數(shù)為:, 證明過程詳見孫慧鈞P99。性質4表明特征向量的第個分量描述了第個變量對第個主成分的重要性。習慣上稱主成分與變量的相關系數(shù)為中變量的載(負)荷量。性質5:第個主成分對所有變量的載荷量平方之和為主成分的方差,即,它表示主成分

15、對的總方差貢獻,并等于對每個方差貢獻之和。性質6:所有主成分對變量的總方差貢獻為,三、 主成分個數(shù)的選取我們知道,主成分分析的根本目的是把復雜的高維空間的(樣本)點降至低維空間進行處理分析,這種降維要在盡量不損失原維空間信息的基礎上進行。而信息總量的多少已經過數(shù)據(jù)的正交變換集中反映在新變量的總方差上,即。而根據(jù)特征根的性質知道:前面的特征根取值較大。因此,在實際研究過程只取個主成分中的前個進行討論,因為它集中了信息總量的絕大部分。到底選擇多少進行分析合適?需要確定相應的準則。185%原則 該原則是在實踐中總結出來的,與其它原則相比,通常有選取較多主成分的傾向。記方差的累積貢獻率為根據(jù)我國主成分

16、分析的實踐來看,通??梢员WC分析結果的可靠性。2的原則 實踐中,該準則通常容易選取較少的主成分。先計算,然后將與之進行比較,選取的前個變量的主成分。由于由樣本數(shù)據(jù)的相關矩陣所求得,所以,故只要選取的前個變量作為主成分即可。3斯格理(Screet)原則 這是從相反的方向來確定主成分的一種做法。實踐中,該準則也傾向于選擇較多的主成分,而且一般不單獨使用。具體做法:計算特征根的差,如果前個比較近,即出現(xiàn)了較為穩(wěn)定的差值,則后個變量可以確定為非主成分。4巴特萊特檢驗(Bartlet)原則 該檢驗的精確性受到樣本容量大小的影響,當較小時,有可能低估突出變量的數(shù)目;當較大時,有可能高估突出變量的數(shù)目。檢驗

17、的原假設是最后個分量均等于或不顯著地大于零。檢驗統(tǒng)計量:其中:,具體做法:從開始,一直檢驗到最后個個變量不顯著為止。§3 主成分的解釋主成分是原始變量進行線性組合所得到的新變量,對于這些新變量賦予恰當?shù)暮x是主成分分析中至關重要的一個環(huán)節(jié)。同時,應該注意主成分分析的使用場合。一、 主成分的解釋對主成分經濟意義的解釋,通常只能結合被研究事物的具體指標及其變量系數(shù)的大小作出,歸納起來主要有以下幾種解釋思路或方法。1從特征向量的各個分量數(shù)值的大小入手進行分析與概括表明了變量與主成分之間的關系。主成分在變量上的系數(shù)越大,說明該主成分主要代表了該變量的信息;反之,若越接近于0,則表明幾乎沒有該

18、變量什么信息。2從特征向量的各個分量數(shù)值的符號入手進行分析與概括主成分系數(shù)的符號表明了變量與主成分之間的作用關系,一般地,正號表示變量與主成分的作用同方向;而負號則表示變量與主成分作用是逆向變動關系。3如果變量分組較有規(guī)則,則從特征向量各分量數(shù)值作出組內、組間對比分析4如果主成分中,各變量的系數(shù)都大致相同,則要考慮是否存在一個一般性的影響因素二、 主成分分析適應的場合由主成分分析的基本原理可知,其主要作用就是將若干相關指標進行綜合,根據(jù)相關程度的高低可以得出主成分的作用效果不完全相同,現(xiàn)將其歸納如下:3不完全相關主成分分析效果較好可以實施主成分分析高度相關中度相關低度相關1完全相關2完全不相關

19、不必實施主成分分析三、 主成分分析的基本步驟(計算過程)STEP01:將原始數(shù)據(jù)進行標準化,得;STEP02:計算的相關系數(shù)矩陣;STEP03:求相關系數(shù)矩陣的特征根及相應的單位正交特征向量;STEP04:計算方差累積貢獻率,確定主成分的個數(shù);STEP05:寫出主成分,解釋其實際經濟意義并指導實踐。§4 主成分分析法的應用一、 主成分分析在經營管理中的應用1企業(yè)經濟效益分析某主管局管轄20個工廠,現(xiàn)要對每個工廠作經濟效益分析,經研究確定從所取得的生產成果同所消耗的人力、物力、財力的比率,選取五個指標(或變量)作分析。:固定資產產值率;:凈產值勞動生產率;:百元產值流動資金占用率;:百

20、元產值利潤率;:百元資金利潤率;對這20個工廠同時按照這五個指標收集數(shù)據(jù)(孫慧鈞P107)。解答:STEP01:將原始數(shù)據(jù)進行標準化,得;1-1.02 0.97 0.13 2.03 0.81 2-1.04 -0.96 0.85 -0.43 -0.90 3-1.25 0.69 1.20 1.36 -0.46 40.20 1.02 0.49 0.58 0.00 5-0.26 -1.07 0.13 -0.52 -0.11 6-1.29 -0.98 1.86 -0.21 -1.08 7-0.63 0.22 -0.29 1.02 0.61 80.21 0.33 -0.57 -0.46 -0.13 9-0

21、.71 0.39 -0.51 -0.32 -0.86 10-0.59 -0.28 0.48 -0.22 -0.57 111.60 2.32 -0.91 0.64 2.34 120.35 0.04 -1.58 0.01 0.24 131.34 -0.06 -0.96 -1.10 0.09 141.06 -0.08 -0.66 -1.17 -0.54 151.15 -0.62 -0.73 -1.46 -0.81 16-0.72 -1.35 0.12 -0.99 -1.05 171.34 1.46 -1.10 -0.31 1.04 180.17 -1.16 -0.04 -1.08 -0.52 191

22、.28 0.45 -0.32 1.18 2.35 20-1.18 -1.36 2.38 1.43 -0.45 STEP02:計算的相關系數(shù)矩陣;STEP03:求相關系數(shù)矩陣的特征根及相應的單位正交特征向量;表1 相關系數(shù)矩陣的特征值及方差累積貢獻率 表2 相關系數(shù)矩陣的特征值所對應的特征向量STEP04:計算方差累積貢獻率,確定主成分的個數(shù);根據(jù)85%原則,可以選擇個主成分。STEP05:寫出主成分,解釋其實際經濟意義并指導實踐。表3 前2個主成分的組成變量主成分0.5030.499-0.4730.0690.518-0.3450.2870.3840.7470.309根據(jù)分析,在綜合其它變量所反

23、映信息的基礎上,突出地反映了經營能力的大小。在綜合其它變量所反映信息的基礎上,突出地反映了企業(yè)盈利水平的高低。2食品業(yè)的經營決策某食品企業(yè)在對“未來開發(fā)方針的目標”作出決策之前,要進行廣泛的社會調查,以研究廣大消費者對各種食品的嗜好程度。通常是將消費者按男、女及年齡共分10個組作調查,如表所示表 調查對象分組性別男性女性組號12345678910年齡(歲)15以下15-2020-3030-4040以上15以下15-2020-3030-4040以上為了能從每個小組得到充分的信息,每個小組都至少調查50名消費者,共發(fā)出785張調查表。在每張調查表中,列出100種食品,要求每個消費者按自己的嗜好程度

24、對每種食品給予評分。最受歡迎的食品給9分,最不受歡迎的給1分。收回所有調查表后,作出初步匯總,即以小組為單元,在每個小組中,各成員都對這100種食品給予評分,求出每小組對每種食品的評分的均值,這樣每個小組就有100個數(shù)據(jù)。根據(jù)STEP01STEP04的分析,只需選擇前3個主成分即可,這3個主成分為:變量主成分0.2860.3310.3230.2990.2610.3090.3440.3480.3460.3030.4430.235-0.172-0.364-0.5090.4090.2560.036-0.160-0.2600.1940.3360.4420.3750.123-0.034-0.174-0.

25、290-0.322-0.522下面進行STEP05,即分析主成分的經濟意義及作用。在第一主成分中,每個變量的系數(shù)都在0.3左右,這表明反映了同年齡、性別無關的公共平均嗜好程度,即人們普遍的嗜好程度。由于的方差貢獻達到68.26%,所以如果充分考慮人們普遍的嗜好,作出經營決策就有七成把握。在第二主成分中,不論男性或女性都有著共同的規(guī)律,即年齡小的系數(shù)為正值,年齡大的系數(shù)為負值,而且隨年齡增大而下降。于是在綜合了各小組的信息基礎上,突出反映了年齡的嗜好程度。在第三主成分中,男性的系數(shù)為正值,女性的系數(shù)為負值,因而明顯地反映了性別的嗜好程度。綜上所述,食品加工業(yè)的經營決策,只需從三個方面充分地考慮:

26、人們喜歡吃與不喜歡吃的;青少年喜歡吃的,成人喜歡吃的;男性喜歡吃的,女性喜歡吃的。二、 主成分分析在經濟指標綜合評價中的應用在實際工作中,多指標的綜合評價不僅要求對被評事物(樣本點)給出一個諸多方面的綜合描述,更需要用一個總指標來說明被評事物的一般水平,通過排序確定其在總體中的相對位置,以便對被評事物之間作對比分析。主成分分析就滿足這樣的要求,在多指標綜合評價中顯示出較強的優(yōu)越性,主要表現(xiàn)在:第一,主成分分析在對數(shù)據(jù)作標準化處理中,抽象掉各變量的異度量性,抽象掉各指標(變量)的實際經濟內涵,使各指標不受計量單位、數(shù)量級的影響,能夠通過數(shù)值的大小進行對比分析和綜合。第二,主成分分析通過正交變換尋找主成分

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論