




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、主成分分析要求:主成分分析要求:1 1、主成分假定條件?、主成分假定條件?2 2、主成分的方差與原始變量方差有何關系?、主成分的方差與原始變量方差有何關系?3 3、主成分如何求解?主成分分析的結構,即、主成分如何求解?主成分分析的結構,即線性組合的系數(shù)和方差的數(shù)學上的含義?線性組合的系數(shù)和方差的數(shù)學上的含義?4 4、主成分分析如何評價?、主成分分析如何評價?5 5、主成分分析的應用。、主成分分析的應用。 一項十分著名的工作是美國的統(tǒng)計學家斯通(stone)在1947年關于國民經(jīng)濟的研究。他曾利用美國1929一1938年各年的數(shù)據(jù),得到了17個反映國民收入與支出的變量要素,例如雇主補貼、消費資料
2、和生產(chǎn)資料、純公共支出、凈增庫存、股息、利息外貿(mào)平衡等等。1 引言引言 一、一個例子一、一個例子 在進行主成分分析后,斯通竟以97.4的精度,用三新變量就取代了原17個變量。根據(jù)經(jīng)濟學知識,斯通給這三個新變量分別命名為總收入F1、總收入變化率F2和經(jīng)濟發(fā)展或衰退的趨勢F3。更有意思的是,這三個變量其實都是可以直接測量的。斯通將他得到的主成分與實際測量的總收入I、總收入變化率I以及時間t因素做相關分析,得到下表: F1F1F2F2F3F3i ii it tF1F11 1 F2F20 01 1 F3F30 00 01 1 i i0.9950.995-0.041-0.0410.0570.057l l
3、 i i-0.056-0.0560.9480.948-0.124-0.124-0.102-0.102l l t t-0.369-0.369-0.282-0.282-0.836-0.836-0.414-0.414-0.112-0.1121 1 主成分分析是把各變量之間互相關聯(lián)的復雜關系進行簡化的分析方法。 在社會經(jīng)濟的研究中,為了全面系統(tǒng)的分析和研究問題,必須考慮許多經(jīng)濟指標,這些指標能從不同的側面反映我們所研究的對象的特征,但在某種程度上存在信息的重疊,具有一定的相關性。 二、主成分分析的意義 主成分分析試圖在力保數(shù)據(jù)信息丟失最少的原則下,對這種多變量的截面數(shù)據(jù)表進行最佳綜合簡化,也就是說,對
4、高維變量空間進行降維處理。 很顯然,識辨系統(tǒng)在一個低維空間要比在一個高維空間容易得多。 在力求數(shù)據(jù)信息丟失最少的原則下,研究指標體系的少數(shù)幾個線性組合,并且這幾個線性組合所構成的綜合指標將盡可能多地保留原來指標變異方面的信息,這種分析叫主成分分析,這些綜合指標就稱為主成分,主成分相互獨立。1 1、主成分假定條件?、主成分假定條件?2 2、主成分的方差與原始變量方差有何關系?、主成分的方差與原始變量方差有何關系?3 3、主成分如何求解?主成分分析的結構,即、主成分如何求解?主成分分析的結構,即系數(shù)和方差的數(shù)學上的含義?系數(shù)和方差的數(shù)學上的含義?4 4、主成分分析如何評價?、主成分分析如何評價?5
5、 5、主成分分析的應用。、主成分分析的應用。要討論的問題是:要討論的問題是: (1) 基于相關系數(shù)矩陣還是基于協(xié)方差矩陣做主成分分析。當分析中所選擇的經(jīng)濟變量具有不同的量綱,變量水平差異很大,應該選擇基于相關系數(shù)矩陣的主成分分析。 (2) 選擇幾個主成分。主成分分析的目的是簡化變量,一般情況下主成分的個數(shù)應該小于原始變量的個數(shù)。關于保留幾個主成分,應該權衡主成分個數(shù)和保留的信息。 (3)如何解釋主成分所包含的經(jīng)濟意義。主成分分析中要思考的問題2 數(shù)學形狀與幾何解釋數(shù)學形狀與幾何解釋 假設我們所討論的實際問題中,有假設我們所討論的實際問題中,有p p個指標,個指標,我們把這我們把這p p個指標看
6、作個指標看作p p個變量,記為個變量,記為X X1 1,X X2 2,X Xp p,主成分分析就是要把這,主成分分析就是要把這p p個指標的問題,轉變個指標的問題,轉變?yōu)橛懻摓橛懻損 p個指標的線性組合的問題,而這些新的指個指標的線性組合的問題,而這些新的指標標F F1 1,F(xiàn) F2 2,F(xiàn) Fk k(kp(kp),按照保留主要信息量),按照保留主要信息量的原則充分反映原指標的信息,并且相互獨立。的原則充分反映原指標的信息,并且相互獨立。ppppppppppXuXuXuFXuXuXuFXuXuXuF22112222112212211111滿足如下的條件:222121iipiuuu012ijCo
7、v FFijijp( , ), ,12()()pVar FVar FVar F( )主成分之間相互獨立,即無重疊的信息。即主成分之間相互獨立,即無重疊的信息。即主成分的方差依次遞減,重要性依次遞減,即主成分的方差依次遞減,重要性依次遞減,即每個主成分的系數(shù)平方和為每個主成分的系數(shù)平方和為1。即。即 為了方便,我們在二維空間中討論主成分的幾何意義。 設有n個樣品,每個樣品有兩個觀測變量xl和x2,在由變量xl和x2 所確定的二維平面中,n個樣本點所散布的情況如橢圓狀。由圖可以看出這n個樣本點無論是沿著xl 軸方向或x2軸方向都具有較大的離散性,其離散的程度可以分別用觀測變量xl 的方差和x2 的
8、方差定量地表示。顯然,如果只考慮xl和x2 中的任何一個,那么包含在原始數(shù)據(jù)中的經(jīng)濟信息將會有較大的損失。 2x1x1F2F主成分分析的幾何解釋平移、旋轉坐標軸2x1x1F2F主成分分析的幾何解釋平移、旋轉坐標軸2x1x1F2F 主成分分析的幾何解釋平移、旋轉坐標軸2x1x1F2F主成分分析的幾何解釋平移、旋轉坐標軸 上面的四張圖中,哪一種有更高的上面的四張圖中,哪一種有更高的精度?原始變量的信息損失最少?精度?原始變量的信息損失最少? 旋轉變換的目的是為了使得n個樣品點在Fl軸方向上的離 散程度最大,即Fl的方差最大。變量Fl代表了原始數(shù)據(jù)的絕大 部分信息,在研究某經(jīng)濟問題時,即使不考慮變量
9、F2也無損大局。經(jīng)過上述旋轉變換原始數(shù)據(jù)的大部分信息集中到Fl軸上,對數(shù)據(jù)中包含的信息起到了濃縮作用。 Fl,F(xiàn)2除了可以對包含在Xl,X2中的信息起著濃縮作用之外,還具有不相關的性質,這就使得在研究復雜的問題時避免了信息重疊所帶來的虛假性。二維平面上的個點的方差大部分都歸結在Fl軸上,而F2軸上的方差很小。Fl和F2稱為原始變量x1和x2的綜合變量。F簡化了系統(tǒng)結構,抓住了主要矛盾。 一、線性代數(shù)的結論一、線性代數(shù)的結論 若A是p階實對稱陣,其中i(i=1,2,p)是A的特征根。即有ui ,使iiiAuuUi是正交的特征向量是正交的特征向量。iiiiiiu Auuu.12p12puuuA u
10、uu12000000pP PU AU則一定可以找到正交陣U,使上述矩陣的特征根所對應的單位特征向量為 ppppppuuuuuuuuu212222111211),(p1uuU 實對稱陣A A屬于不同特征根所對應的特征向量是正交的,即有p1uu,則U U為IUUUU(一)(一) 第一主成分第一主成分設X的協(xié)方差陣為2212222111221pppppx二、主成分的推導 由于x x為非負定的對稱陣,則有利用線性代數(shù)的知識可得,必存在正交陣U,使得p001UUX 其中1, 2, p為x的特征根,不妨假設1 2 p 。而U恰好是由特征根相對應的特征(列)向量所組成的正交陣。 ppppppuuuuuuuu
11、u212222111211),(p1uuUpiiiuuu,21iUPi, 2 , 1 下面我們來看,是否由下面我們來看,是否由U U的第一列元素所構成為原始的第一列元素所構成為原始變量的線性組合是否有最大的方差。變量的線性組合是否有最大的方差。設有P維正交向量11111ppFa Xa X a X1211111)(aUUaaapFV121111,paaaa12p 12112p1puuau ,u ,uaupii121)( ua piii11auuaaUUa1aa1 1 1piiiia u u a21()piiia u 當且僅當a1 =u1時,即 時,有最大的方差1。因為 ppXuXuF11111第
12、一主成分的信息不夠,則需要尋找第二主成分。1()()Var FVar1u x( )Var11ux u11u u1111u u(二)(二) 第二主成分第二主成分 在約束條件 和 下,尋找第二主成分。 0),cov(21FF21212ppFa XaX因為122112 2 1cov(,)cov()0F Fu12u x,a xaua 則,對p維向量 ,有222()V Faa2a212a a221piii2a u u a222a UU a222a a2 ppXuXuXuF22221122 所以如果取線性變換, 則 的方差次大。2F221piiiia u u a222212()()ppiiiii2a ua
13、 u(三)(三) 第三主成分第三主成分在約束條件13cov(,)0F F31313ppFu XuX因為0),cov(),cov(121122121uuuuxuxuFF 則,對p維向量 ,有2u23cov(,)0F F313a a尋找第三主成分 3331piiiu u u u333u UU u333u u331312323ppFu Xu XuX 所以如果取線性變換, 則 的方差次大。3F333()V Fuu331piiiiu u u u2232313()()ppiiiiiu uu u 思考題:第k(kp)個特征根約為0,說明什么? 類推 ppppppppppXuXuXuFXuXuXuFXuXuX
14、uF22112222112212211111 說明第k到第p個特征根所對應的特征向量構成的線性組合等于常數(shù),因為其方差為零。寫為矩陣形式:XUFppppppuuuuuuuuu212222111211),(p1uuU),(21pXXXX4 4 主成分的性質主成分的性質一、均值一、均值UU )(xE二、方差為所有特征根之和二、方差為所有特征根之和piiFVar1)(2222121pp 說明主成分分析把P個隨機變量的總方差分解成為P個不相關的隨機變量的方差之和。 根據(jù):協(xié)方差矩陣的對角線上的元素之和等于特征根之和。 三、精度分析三、精度分析 1)貢獻率:第i個主成分的方差在全部方差中所占比重 ,稱為
15、貢獻率 ,反映了原來P個指標多大的信息,有多大的綜合能力 。piii1 2)累積貢獻率:前k個主成分共有多大的綜合能力,用這k個主成分的方差和在全部方差中所占比重來描述,稱為累積貢獻率。piikii11 1)貢獻率:第i個主成分的方差在全部方差中所占比重 ,稱為貢獻率 ,反映了原來P個指標多大的信息,有多大的綜合能力 。 我們進行主成分分析的目的之一是希望用盡可能少的主成分F1,F(xiàn)2,F(xiàn)k(kp)代替原來的P個指標。到底應該選擇多少個主成分,在實際工作中,主成分個數(shù)的多少取決于能夠反映原來變量80%以上的信息量為依據(jù),即當累積貢獻率累積貢獻率80%80%時的主成分的個數(shù)就足夠了。最常見的情況是
16、主成分為最常見的情況是主成分為2 2到到3 3個個。1,2, ,jk kp1111211221222212ppppppppxuuuFxuuuFxuuuFXUFUFXppjjjjxuxuxuF22111122( ,)(,)ijiiippjijjCov x FCov u Fu Fu F FuijijjijijjiuuFx),( 可見, 和 的相關的密切程度取決于對應線性組合系數(shù)的大小。ixjF 請問請問:在什么場合下,在什么場合下,xi和和Fj相關系數(shù)相關系數(shù)為零?為零? 例例 設 的協(xié)方差矩陣為 321,xxx200052021 解得特征根為 , ,83. 51 00. 22 17. 03 ,0
17、00. 0924. 0383. 01U1002U000. 0383. 0924. 03U 第一個主成分的貢獻率為5.83/(5.83+2.00+0.17)=72.875%,盡管第一個主成分的貢獻率并不小,但在本題中第一主成分不含第三個原始變量的信息,所以應該取兩個主成分。Xi與F1的相關系數(shù)平方Xi與F2的相關系數(shù)平方x10.9250.85500 x2-0.9980.99600 x3001111),(iiFx 21 i 22i 22),(iiFx925. 01383. 0*83. 52111111 u22112125.83*( 0.924)50.998u 310F1F2Fpx1x2xp1112
18、1u21221u121ppu12122u22222u222ppu112ppu222ppu2ppppu 前面我們討論了主成分的貢獻率和累計貢前面我們討論了主成分的貢獻率和累計貢獻率,它獻率,它度量了度量了F F1 1,F(xiàn) F2 2,F(xiàn) Fm m分別從原始變分別從原始變量組(量組(X X1 1,X X2 2,XXP P)中提取了多少信息。)中提取了多少信息。 那么那么X X1 1,X X2 2,XXP P各有多少信息分別各有多少信息分別主成分組(主成分組(F F1 1,F(xiàn) F2 2,F(xiàn) Fm m)被提取了。)被提取了。應該用什么指標來度量?我們考慮到當討應該用什么指標來度量?我們考慮到當討論論F
19、F1 1分別與分別與X X1 1,X X2 2,XXP P的關系時,可以的關系時,可以討論討論F F1 1分別與分別與X X1 1,X X2 2,XXP P的相關系數(shù),的相關系數(shù),但是由于相關系數(shù)有正有負,所以只有考但是由于相關系數(shù)有正有負,所以只有考慮相關系數(shù)的平方。慮相關系數(shù)的平方。1122( )()iiiippVar xVar u Fu Fu F222221 122iiimmippiuuuu則jiju 2是Fj 能說明的第i 原始變量的方差211max()jj p 21min()jpj p 原始變量的方差最大大不過1原始變量的方差最小小不過p22/ijiju 是Fj 提取的第i 原始變量
20、信息的比重,也是二者的相關系數(shù)的平方。22221 12222221ippiiimmiiiiuuuu 結論:xi與所有的主成分Fj(j1,2,m)的相關系數(shù)的平方和為1,即 xi與Fj(j1,2,m)的復相關系數(shù)為1。 如果我們僅僅提出了m個主成分,則第i 原始變量信息的被提取率為:mjijmjiijjiu12122/ 例例 設 的協(xié)方差矩陣為 321,xxx200052021 解得特征根為 , ,83. 51 00. 22 17. 03 ,000. 0924. 0383. 01U1002U000. 0383. 0924. 03U 第一個主成分的貢獻率為5.83/(5.83+2.00+0.17)
21、=72.875%,盡管第一個主成分的貢獻率并不小,但在本題中第一主成分不含第三個原始變量的信息,所以應該取兩個主成分。Xi與F1的相關系數(shù)平方Xi與F2的相關系數(shù)平方信息提取率x10.9250.855000.855x2-0.9980.996000.996x30011111),(iiFx 21 i 22i 22),(iiFxi 925. 01383. 0*83. 52111111 u22112125.83*( 0.924)50.998u 310 定義:如果一個主成分僅僅對某一個原始變量有作用,則稱為特殊成分。如果一個主成分所有的原始變量都起作用稱為公共成分。(該題無公共因子) 111212122
22、212mmpppmuuuuuuuuu5 5 主成分分析的步驟主成分分析的步驟在 實際問題中,X的協(xié)方差通常是未知的,樣品有 12(12)iiipxxxinlX, , , ,x 第一步:由X的協(xié)方差陣x,求出其特征根,即解方程 ,可得特征根 。021p 一、基于協(xié)方差矩陣0I 第二步:求出分別所對應的特征向量U1,U2,Up, 12jjjpjuuuU, ,第三步:計算累積貢獻率,給出恰當?shù)闹鞒煞謧€數(shù)。12()jjFk kpU X,j, , ,第四步:計算所選出的k個主成分的得分。將原始數(shù)據(jù)的中心化值: 代入前k個主成分的表達式,分別計算出各單位k個主成分的得分,并按得分值的大小排隊。*1122i
23、iippxxxxxxiiXXX, , 二、基于相關系數(shù)矩陣 如果變量有不同的量綱,則必須基于相關系數(shù)矩陣進行主成分分析。不同的是計算得分時應采用標準化后的數(shù)據(jù)。 例一例一 應收賬款是指企業(yè)因對外銷售產(chǎn)品、材料、提供勞務及其它原因,應向購貨單位或接受勞務的單位收取的款項,包括應收銷貨款、其它應收款和應收票據(jù)等。出于擴大銷售的競爭需要,企業(yè)不得不以賒銷或其它優(yōu)惠的方式招攬顧客,由于銷售和收款的時間差,于是產(chǎn)生了應收款項。應收款賒銷的效果的好壞,不僅依賴于企業(yè)的信用政策,還依賴于顧客的信用程度。由此,評價顧客的信用等級,了解顧客的綜合信用程度,做到“知己知彼,百戰(zhàn)不殆”,對加強企業(yè)的應收賬款管理大有
24、幫助。某企業(yè)為了了解其客戶的信用程度,采用西方銀行信用評估常用的5C方法,5C的目的是說明顧客違約的可能性。 1、品格(用X1表示),指顧客的信譽,履行償還義務的可能性。企業(yè)可以通過過去的付款記錄得到此項。 2、能力(用X2表示),指顧客的償還能力。即其流動資產(chǎn)的數(shù)量和質量以及流動負載的比率。顧客的流動資產(chǎn)越多,其轉化為現(xiàn)金支付款項的能力越強。同時,還應注意顧客流動資產(chǎn)的質量,看其是否會出現(xiàn)存貨過多過時質量下降,影響其變現(xiàn)能力和支付能力。 3、資本(用X3表示),指顧客的財務勢力和財務狀況,表明顧客可能償還債務的背景。 4、附帶的擔保品(用X4表示),指借款人以容易出售的資產(chǎn)做抵押。 5、環(huán)境
25、條件(用X5表示),指企業(yè)的外部因素,即指非企業(yè)本身能控制或操縱的因素。 首先并抽取了10家具有可比性的同類企業(yè)作為樣本,又請8位專家分別給10個企業(yè)的5個指標打分,然后分別計算企業(yè)5個指標的平均值,如表。 76.581.57675.871.78579.280.384.476.570.67367.668.178.5949487.589.59290.787.39181.58084.666.968.864.866.477.573.670.969.874.857.760.457.460.86585.668.57062.276.57069.271.764.968.9; Total Variance =
26、 485.31477778 Eigenvalues of the Covariance Matrix Eigenvalue Difference Proportion Cumulative PRIN1 410.506 367.242 0.845854 0.84585 PRIN2 43.264 22.594 0.089146 0.93500 PRIN3 20.670 12.599 0.042591 0.97759 PRIN4 8.071 5.266 0.016630 0.99422 PRIN5 2.805 . 0.005779 1.00000 Eigenvectors PRIN1 PRIN2 P
27、RIN3 PRIN4 PRIN5 X1 0.468814 -.830612 0.021406 0.254654 -.158081 X2 0.484876 0.329916 0.014801 -.287720 -.757000 X3 0.472744 -.021174 -.412719 -.588582 0.509213 X4 0.461747 0.430904 -.240845 0.706283 0.210403 X5 0.329259 0.122930 0.878054 -.084286 0.313677 第一主成份的貢獻率為84.6%,第一主成份 Z1=0.469X1+0.485X2+0.
28、473X3+0.462X4+0.329X5 的各項系數(shù)大致相等,且均為正數(shù),說明第一主成份對所有的信用評價指標都有近似的載荷,是對所有指標的一個綜合測度,可以作為綜合的信用等級指標??梢杂脕砼判?。將原始數(shù)據(jù)的值中心化后,代入第一主成份Z1的表示式,計算各企業(yè)的得分,并按分值大小排序: 在正確評估了顧客的信用等級后,就能正確制定出對其的信用期、收帳政策等,這對于加強應收帳款的管理大有幫助。序號序號1 12 23 34 45 56 67 78 89 91010得分得分3.163.1613.613.6- -9.019.0135.935.925.125.1-10.3-10.3- -4.364.36-3
29、3.8-33.8- -6.416.41-13.8-13.8排序排序4 43 37 71 12 28 85 510106 69 9例二例二 基于相關系數(shù)矩陣的主成分分析。對美國紐約上市的有關化學產(chǎn)業(yè)的三個證券和石油產(chǎn)業(yè)的2個證券做了100周的收益率調查。下表是其相關系數(shù)矩陣。 1)利用相關系數(shù)矩陣做主成分分析。 2)決定要保留的主成分個數(shù),并解釋意義。10.5770.5090.00630.00370.57710.5990.3890.520.5090.59910.4360.4260.3870.3890.43610.5230.4620.3220.4260.5231 Eigenvalues of th
30、e Correlation Matrix Eigenvalue Difference Proportion Cumulative PRIN1 2.85671 2.04755 0.571342 0.57134 PRIN2 0.80916 0.26949 0.161833 0.73317 PRIN3 0.53968 0.08818 0.107935 0.84111 PRIN4 0.45150 0.10855 0.090300 0.93141 PRIN5 0.34295 . 0.068590 1.00000 Eigenvectors PRIN1 PRIN2 PRIN3 PRIN4 PRIN5 X1
31、0.463605 -.240339 -.611705 0.386635 -.451262 X2 0.457108 -.509305 0.178189 0.206474 0.676223 X3 0.470176 -.260448 0.335056 -.662445 -.400007 X4 0.421459 0.525665 0.540763 0.472006 -.175599 X5 0.421224 0.581970 -.435176 -.382439 0.385024 根據(jù)主成分分析的定義及性質,我們已大體上能看出主成分分析的一些應用。概括起來說,主成分分析主要有以下幾方面的應用。 1主成分分
32、析能降低所研究的數(shù)據(jù)空間的維數(shù)。即用研究m維的Y空間代替p維的X空間(mp),而低維的Y空間代替 高維的x空間所損失的信息很少。即:使只有一個主成分Yl(即 m1)時,這個Yl仍是使用全部X變量(p個)得到的。例如要計算Yl的均值也得使用全部x的均值。在所選的前m個主成分中,如果某個Xi的系數(shù)全部近似于零的話,就可以把這個Xi刪除,這也是一種刪除多余變量的方法。6 主成分分析主要有以下幾方面的應用 2有時可通過因子負荷aij的結構,弄清X變量間的某些關系。 3. 多維數(shù)據(jù)的一種圖形表示方法。我們知道當維數(shù)大于3時便不能畫出幾何圖形,多元統(tǒng)計研究的問題大都多于3個變量。要把研究的問題用圖形表示出
33、來是不可能的。然而,經(jīng)過主成分分析后,我們可以選取前兩個主成分或其中某兩個主成分,根據(jù)主成分的得分,畫出n個樣品在二維平面上的分布況,由圖形可直觀地看出各樣品在主分量中的地位。 4由主成分分析法構造回歸模型。即把各主成分作為新自變量代替原來自變量x做回歸分析。 5用主成分分析篩選回歸變量?;貧w變量的選擇有著重的實際意義,為了使模型本身易于做結構分析、控制和預報,好從原始變量所構成的子集合中選擇最佳變量,構成最佳變量集合。用主成分分析篩選變量,可以用較少的計算量來選擇量,獲得選擇最佳變量子集合的效果。 國際旅游外匯收入是國民收入是國民經(jīng)濟國際旅游外匯收入是國民收入是國民經(jīng)濟發(fā)展的重要組成部分,影
34、響一個國家或地區(qū)旅發(fā)展的重要組成部分,影響一個國家或地區(qū)旅游收入的因素包括自然、文化、社會、經(jīng)濟、游收入的因素包括自然、文化、社會、經(jīng)濟、交通等多方面的因素。交通等多方面的因素。中國統(tǒng)計年鑒中國統(tǒng)計年鑒把第把第三次產(chǎn)業(yè)劃分為三次產(chǎn)業(yè)劃分為12個組成部分,分別為:個組成部分,分別為: 一、提出問題一、提出問題x1:農(nóng)林牧漁服務業(yè):農(nóng)林牧漁服務業(yè) x2:地質勘查水利管理業(yè):地質勘查水利管理業(yè)x3:交通運輸倉儲和郵電通訊業(yè):交通運輸倉儲和郵電通訊業(yè) x4:批發(fā)零售貿(mào)易和餐食業(yè):批發(fā)零售貿(mào)易和餐食業(yè)x5:金融保險業(yè):金融保險業(yè) x6:房地產(chǎn)業(yè):房地產(chǎn)業(yè) x7:社會服務業(yè):社會服務業(yè) x8:衛(wèi)生體育和社
35、會福利業(yè):衛(wèi)生體育和社會福利業(yè) x9:教育文藝和廣播:教育文藝和廣播 x10:科學研究和綜合藝術:科學研究和綜合藝術x11:黨政機關:黨政機關 x12:其他行業(yè):其他行業(yè) 選自選自1998年我國年我國31個省、市、自治區(qū)的數(shù)據(jù)。以旅游外匯收入(百萬個省、市、自治區(qū)的數(shù)據(jù)。以旅游外匯收入(百萬美圓)為因變量。自變量的單位為億元人民幣。數(shù)據(jù)略。美圓)為因變量。自變量的單位為億元人民幣。數(shù)據(jù)略。 InterceptCoefficients -205.236116.8459-1.75646 0.096008 標準誤差t StatP-valueX Variable 1-1.4004522.8676-0.
36、061240.951842X Variable 22.67500118.575080.144010.887092X Variable 33.3008772.4645561.3393390.197128X Variable 4-0.944021.296117-0.728340.475774X Variable 5-5.50164.508593-1.220250.238117X Variable 64.0544343.9537451.0254670.318728X Variable 74.1425.0699840.816965 0.42463X Variable 8-15.364910.82589
37、-1.419270.172905X Variable 917.367668.353372.0791210.052178X Variable 109.07888310.147280.894711 0.38275X Variable 11-10.585.610696-1.885690.075582X Variable 121.3507095.0015040.270060.790186 這個模型是不理想的,一個最嚴重的問題是多重共線性的問題。線性回歸模型的方差分析表方差來源自由度離差平方和方差F統(tǒng)計量顯著性水平回歸分析1211690140 974178.3 10.51335 8.15025E-06
38、殘差181667899 92661.04 總計3113358039 利用主成分的互不相關性來建立應變量與主成分的回歸,在理論上可以達到消除多重共線性。 二、主成分回歸方法二、主成分回歸方法*11112121*21212222*1122ppppppppppFu Xu Xu XFu Xu XuXFu XuXu X*1112121immiYFFF主成分回歸:2*11221minniiimimiYFFFppppppuuuuuuuuu212222111211),(p1uuU*11121*21222*0*12ppnnnpxxxxxxxxxX原始數(shù)據(jù)觀測矩陣主成分系數(shù)矩陣npnnppFFFFFFFFF212
39、222111211F*0FX U主成分得分矩陣 根據(jù)最小二乘估計,則1(F F) F YYFF)F(10 100(U X X U) U X YYXUU)XX(U1000U*U*同理*1*(F F ) F Y基于協(xié)方差矩陣的主成分回歸基于相關系數(shù)矩陣的主成分回歸主成分回歸系數(shù)的協(xié)方差矩陣 ( )VarVarU( )Var UU1000()VarUX XX Y U1000()VarUX XX Y U 11000000()()VarVarUX XXYX XXU211000000()()UX XXX XXU*2*1 ()()VarF F同理2100()U X XU2100() U X X U21()F
40、Fppn) 1(21FFpnnnVar) 1() 1() 1()(22212*2*1*) 1(ppnFF*2*22*12*) 1() 1() 1()(pnnnVar 1、經(jīng)濟分析數(shù)據(jù)Y:進口總額 X1:GDP X2:積累總額 X3:消費總額 求進口總額與GDP、積累總額和消費總額之間的回歸方程。 三、主成分回歸的實例data a;input x1-x3 y;cards;149.3 4.2 108.1 15.9161.2 4.1 114.8 16.4171.5 3.1 123.2 19.0175.5 3.1 126.9 19.1180.8 1.1 132.1 18.8190.7 2.2 137.
41、7 20.4202.1 2.1 146.0 22.7212.4 5.6 154.1 26.5226.1 5.0 162.3 28.1231.9 5.1 164.3 27.6239.0 0.7 167.6 26.3;proc reg outest=b;model y=x1-x3/pcomit=1,2 outvif;proc print data=b;proc standard data=a out=c mean=0 std=1;var x1-x3 y;proc princomp data=c out=d prefix=z;var x1-x3;proc reg data=d;model y=z1
42、z2/noint;run;Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr F Model 3 204.77614 68.25871 285.61 |t| Intercept 1 -10.12799 1.21216 -8.36 F Model 2 9.88278 4.94139 379.38 |t| F1 1 0.68998 0.02552 27.03 10時,多重共線性是嚴重的。 2、朗萊用美國聯(lián)邦政府雇員人數(shù)Y和國民總產(chǎn)出隱含平減指數(shù)X1,國民總產(chǎn)出X2,失業(yè)人數(shù)X3,武裝力量人數(shù)X4,14歲及以上非慈
43、善機構人口數(shù)X5,時間變量X6。朗萊所用數(shù)據(jù)是美國4762年數(shù)據(jù),該例是主成分回歸用得較早的例子。yx1x2x3x4x5x6189283234289235615901076081947186388.5259426232514561086321948190888.2258054368216161097731949182889.5284599335116501109291950230296.2328975209930991120751951242098.1346999193235941132701952230599365385187035471150941953218810036311235783
44、35011621919542187101.23974692904304811738819552209104.64191802822285711873419562217108.44427692936279812044519572191110.84445464681263712195019582233112.64827043813255212336619502270114.25026013931251412536816602279115.75181754806257212785219612340116.9554894400728271300811962 Eigenvalues of the Cor
45、relation Matrix(相關系數(shù)矩陣的特征根) Eigenvalue Difference Proportion Cumulative (特征根) ( 差值) (貢獻率) (累計貢獻率) 1 4.60337745 3.42803711 0.7672 0.7672 2 1.17534035 0.97191518 0.1959 0.9631 3 0.20342517 0.18849689 0.0339 0.9970 4 0.01492828 0.01237624 0.0025 0.9995 5 0.00255204 0.00217533 0.0004 0.9999 6 0.00037671
46、 0.0001 1.0000 Eigenvectors(特征向量)(特征向量) Prin1 Prin2 Prin3 Prin4 Prin5 Prin6 x1 0.461835 0.057843 -.149120 -.792874 0.337934 -.135193 x2 0.461504 0.053211 -.277681 0.121625 -.149550 0.818485 x3 0.321317 -.595513 0.728306 -.007645 0.009235 0.107451 x4 0.201510 0.798193 0.561607 0.077255 0.024253 0.017
47、970 x5 0.462279 -.045544 -.195985 0.589743 0.548569 -.311589 x6 0.464940 0.000619 -.128116 0.052285 -.749556 -.450388*6*5*4*3*2*11464940. 0462279. 020151. 0321317. 0461504. 0461835. 0 xxxxxxF*6*5*4*3*2*12000619. 0045544. 0798193. 0595513. 0053211. 0057843. 0 xxxxxxF Prin1 Prin2 Prin3 Prin4 Prin5 Pri
48、n6 Prin1 Prin2 Prin3 Prin4 Prin5 Prin63.47885 -0.75147 -0.30795 0.16424 0.008797 -0.0025793.47885 -0.75147 -0.30795 0.16424 0.008797 -0.0025793.01051 -0.84904 -0.64223 -0.12592 0.061546 -0.0119803.01051 -0.84904 -0.64223 -0.12592 0.061546 -0.0119802.34330 -1.54000 0.49343 0.00882 0.005746 -0.0050622
49、.34330 -1.54000 0.49343 0.00882 0.005746 -0.0050622.09390 -1.27632 0.11129 0.06126 -0.061845 0.0136772.09390 -1.27632 0.11129 0.06126 -0.061845 0.0136771.43824 1.23579 0.02909 -0.09746 0.052257 0.0426821.43824 1.23579 0.02909 -0.09746 0.052257 0.0426820.09951 0.69349 0.09757 0.10111 -0.098808 0.0189260.09951 0.69349 0.09757 0.10111 -0.098808 0.0189260.44943 0.54784 -0.29
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 家居建材團購鏈家居間協(xié)議
- 芯片半導體制造基礎知識
- 端午節(jié)國防教育
- 藝術培訓合同:演員技能提升與演出合作
- 西城區(qū)歷史文化名城保護工程合同協(xié)議
- 2024漣源市創(chuàng)成科技職業(yè)學校工作人員招聘考試及答案
- 2024河南省經(jīng)濟技術中等職業(yè)學校工作人員招聘考試及答案
- 2024河北省成安縣綜合職業(yè)技術學校工作人員招聘考試及答案
- 腦卒中個案護理匯報
- 特定漁船股權轉讓合同
- 2025年河北省保定市徐水區(qū)中考一模語文試題(原卷版+解析版)
- 2025屆貴州省安順市高三二模語文試題
- 2025中國海洋大學輔導員考試題庫
- 新疆維吾爾自治區(qū)普通高職(??疲﹩握姓呓庾x與報名課件
- 2024年昆明渝潤水務有限公司招聘考試真題
- 2025-2030中國小武器和輕武器行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略研究報告
- 高中主題班會 高考勵志沖刺主題班會課件
- 高三復習:2025年高中化學模擬試題及答案
- 月考試卷(1~3單元)(試題)-2024-2025學年六年級下冊數(shù)學人教版(帶答案)
- 老舊街區(qū)改造項目可行性研究報告
- 中考英語寫作指導課件(共41張PPT)
評論
0/150
提交評論