《實(shí)用統(tǒng)計(jì)方法》課件shyt8_第1頁(yè)
《實(shí)用統(tǒng)計(jì)方法》課件shyt8_第2頁(yè)
《實(shí)用統(tǒng)計(jì)方法》課件shyt8_第3頁(yè)
《實(shí)用統(tǒng)計(jì)方法》課件shyt8_第4頁(yè)
《實(shí)用統(tǒng)計(jì)方法》課件shyt8_第5頁(yè)
已閱讀5頁(yè),還剩58頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1實(shí)用統(tǒng)計(jì)方法第八章主分量(主成分)分析2第八章主分量(主成分)分析多變量分析(MultivariateAnalysis)是處理

多變量(多指標(biāo))的統(tǒng)計(jì)問(wèn)題。多變量之間常存在相關(guān)性,人們希望用較少不相關(guān)的變量來(lái)代替原來(lái)較多的變量。主分量就是要從原變量的各種線(xiàn)性組合中找出能集中反映原變量信息的綜合變量。3第八章主分量(主成分)分析

主分量分析是將多個(gè)指標(biāo)化為少數(shù)幾個(gè)綜合指標(biāo)的一種統(tǒng)計(jì)分析方法.

在實(shí)際問(wèn)題中,研究多指標(biāo)的問(wèn)題是經(jīng)常遇到的問(wèn)題.由于變量個(gè)數(shù)太多,并且彼此之間存在著一定的相關(guān)性,勢(shì)必增加分析問(wèn)題的復(fù)雜性.

主分量分析就是設(shè)法把原來(lái)的多個(gè)指標(biāo)重新組合成較少幾個(gè)新的互不相關(guān)的綜合變量來(lái)代替原來(lái)的變量;而且這幾個(gè)綜合變量又能夠盡可能多地反映原來(lái)變量的信息.

利用這種降維的思想,產(chǎn)生了主分量分析、因子分析、典型相關(guān)分析等統(tǒng)計(jì)方法.4第八章§8.1總體的主分量

什么是主分量

設(shè)X=(X1,…,Xp)′是p維隨機(jī)向量,均值向量E(X)=μ,協(xié)差陣D(X)=Σ.考慮它的線(xiàn)性變換:易見(jiàn):(8.2)(8.1)5第八章§8.1總體的主分量

什么是主分量

假如我們希望用Z1來(lái)代替原來(lái)的p個(gè)變量X1,…,Xp,這就要求Z1盡可能多地反映原來(lái)p個(gè)變量的信息,這里所說(shuō)的“信息”用什么來(lái)表達(dá)呢?最經(jīng)典的方法是用Z1的方差來(lái)表達(dá).

Var(Z1)越大,表示Z1包含的信息越多.由(8.2)式看出,對(duì)a1必須有某種限制.否則可使Var(Z1)→∞.常用的限制是:a1′a1=1.

若存在滿(mǎn)足以上約束的a1,使Var(Z1)達(dá)最大,Z1就稱(chēng)為第一主分量(或主成分).6第八章§8.1總體的主分量

什么是主分量

如果第一主分量不足以代表原來(lái)p個(gè)變量的絕大部分信息.考慮X的第二個(gè)線(xiàn)性組合Z2.為了有效地代表原變量的信息,Z1已體現(xiàn)(反映)的信息不希望在Z2中出現(xiàn),用統(tǒng)計(jì)語(yǔ)言來(lái)講,就是要求

Cov(Z2,Z1)=a2′Σa1=0.(8.3)于是求Z2,就是在約束a2′a2=1和(8.3)下,求a2

使Var(Z2)達(dá)最大,所求之Z2稱(chēng)為第二主分量,類(lèi)似地可求得第三主分量,第四主分量,….,第p主分量.7第八章§8.1總體的主分量

什么是主分量

換言之,若原數(shù)據(jù)有p個(gè)變量,則恰好可得到p個(gè)主分量:1.每個(gè)主成分都是原變量的線(xiàn)性組合;2.不同主成分間互相正交(互不相關(guān));3.主成分以其方差減少次序排列:

第一主成分具有最大方差,

第二主成分是與第一主成分正交的原變量的線(xiàn)性組合中具有最大方差者,

其余主成分都有類(lèi)似的性質(zhì).8第八章§8.1總體的主分量

什么是主分量

或者說(shuō),原變量包含有一定的信息,且全體主成分包含與原變量相同的信息.

方差反映了變量取值的離散程度,方差大小表示了變量包含信息的多少.

第一主成分包含了盡可能多的信息不同的主成分包含的信息互不重復(fù)第二主成分包含除第一主成分外剩余信息中盡可能多的信息其余主成分都有類(lèi)似的性質(zhì)9第八章§8.1總體的主分量

主分量的定義

定義8.1

設(shè)X=(X1,…,Xp)′為p維隨機(jī)向量.稱(chēng)Zi=ai′X為X的第i主分量(i=1,2,…,p),如果:①ai′ai=1(i=1,2,…,p);②當(dāng)i>1時(shí)ai′aj=0(j=1,…,i-1);③Var(Zi)=MaxVar(α′X).α′α=1,α′aj=0(j=1,…,i-1)10第八章§8.1總體的主分量

主分量的幾何意義

從代數(shù)學(xué)觀點(diǎn)看主分量就是p個(gè)變量的一些特殊的線(xiàn)性組合,而從幾何上看這些線(xiàn)性組合正是把X1,…,Xp構(gòu)成的坐標(biāo)系旋轉(zhuǎn)產(chǎn)生的新坐標(biāo)系,新坐標(biāo)軸使之通過(guò)樣本變差最大的方向(或者說(shuō)具有最大的樣本方差).

設(shè)有n個(gè)觀測(cè),每個(gè)觀測(cè)有p個(gè)變量X1,…,Xp,它們的綜合指標(biāo)(主分量)記為Z1,…,Zp.

當(dāng)p=2時(shí)原變量為X1,X2.設(shè)(X1,X2)服從二元正態(tài)分布,則樣品點(diǎn)X(i)=(xi1,xi2)(i=1,2,…n)的散布圖(見(jiàn)下面圖形)在一個(gè)橢園內(nèi)分布著.11第八章§8.1總體的主分量

主分量的幾何意義

Z1Z212第八章§8.1總體的主分量

主分量的幾何意義

對(duì)于二元正態(tài)隨機(jī)向量,n個(gè)點(diǎn)散布在一個(gè)橢園內(nèi)(當(dāng)X1,X2相關(guān)性越強(qiáng),這個(gè)橢園就越扁).若取橢園的長(zhǎng)軸為坐標(biāo)軸Z1,橢園的短軸為Z2,這相當(dāng)于在平面上作一個(gè)坐標(biāo)變換,即按逆時(shí)針?lè)较蛐D(zhuǎn)一個(gè)角度a,根據(jù)旋轉(zhuǎn)變換公式新老坐標(biāo)之間有關(guān)系:

Z1=Cosa

X1+Sina

X2

Z2=-Sina

X1+Cosa

X2Z1Z2是原變量X1和X2

的特殊線(xiàn)性組合.13第八章§8.1總體的主分量

主分量的幾何意義

從圖上可以看出二維平面上n個(gè)點(diǎn)的波動(dòng)(用二個(gè)變量的方差和表示)大部分可以歸結(jié)為在Z1方向的波動(dòng),而在Z2方向上的波動(dòng)很小,可以忽略.這樣一來(lái),二維問(wèn)題可以降為一維了,只取第一個(gè)綜合變量Z1即可,而Z1是橢園的長(zhǎng)軸.

一般情況,p個(gè)變量組成p維空間,n個(gè)樣品點(diǎn)就是p維空間的n個(gè)點(diǎn).對(duì)于p元正態(tài)分布變量來(lái)說(shuō),找主成分的問(wèn)題就是找p維空間中橢球的主軸問(wèn)題.14第八章§8.1總體的主分量

主分量的計(jì)算

主成分計(jì)算一般是從原變量的協(xié)方差或相關(guān)矩陣出發(fā)進(jìn)行計(jì)算,包含以下內(nèi)容:

1.各主成分的構(gòu)成;2.各主成分的方差及其在總方差中所占的比例(貢獻(xiàn)率);3.每個(gè)觀測(cè)在主成分變量下的得分值;4.各主成分與原變量的相關(guān).15第八章§8.1總體的主分量

主分量的求法

設(shè)p維隨機(jī)向量X的均值E(X)=0,協(xié)差陣D(X)=Σ>0.由定義8.1,求第一主分量Z1=a1′X的問(wèn)題就是求a1=(a11,a21,…,ap1)′,使得在a1′a1=1下,Var(Z1)達(dá)最大.這是條件極值問(wèn)題,用拉格朗日乘數(shù)法.令

φ(a1)=Var(a1′X)-λ(a1′a1-1)=a1′Σa1-λ(a1′a1-1),由(8.4)16第八章§8.1總體的主分量

主分量的求法

因a1≠0,故|Σ-λI|=0,求解(8.4),其實(shí)就是求Σ的特征值和特征向量問(wèn)題.設(shè)λ=λ1是Σ的最大特征值,則相應(yīng)的單位特征向量a1即為所求.

一般地,求X的第i主分量就是求Σ的第i大特征值對(duì)應(yīng)的單位特征向量.

定理8.1

設(shè)X=(X1,…,Xp)′是p維隨機(jī)向量,且D(X)=Σ,Σ的特征值λ1≥λ2≥…≥λp,a1,a2,…,ap為相應(yīng)的單位正交特征向量,則X的第i主分量為

Zi=ai′X(i=1,2,…,p).17第八章§8.1總體的主分量

主分量的性質(zhì)

主分量Zi就是以Σ的單位特征向量ai為系數(shù)的線(xiàn)性組合,它們互不相關(guān),且方差var(Zi)=λi.

記Σ=(σij),Λ=diag(λ1,λ2,…,λp),

其中λ1≥λ2≥…≥λp為Σ的特征值,a1,a2,…,ap是相應(yīng)的標(biāo)準(zhǔn)化特征向量.主分量Z=(Z1,…,Zp)′,其中

Zi=ai′X(i=1,2,…,p)總體主分量有如下性質(zhì):18第八章§8.1總體的主分量

主分量的性質(zhì)

(1)D(Z)=Λ,即p個(gè)主分量的方差為:Var(Zi)=λi,且它們是互不相關(guān)

(2)通常稱(chēng)為系統(tǒng)總方差,該性質(zhì)說(shuō)明系統(tǒng)總方差可分解為不相關(guān)的主分量的方差和,且存在19第八章§8.1總體的主分量

主分量的性質(zhì)

即p個(gè)原變量所提供的總信息(總方差)的絕大部分只須用前m個(gè)主分量來(lái)代替這說(shuō)明若前幾個(gè)主分量集中了大部分信息,則后幾個(gè)主成分的方差都很小,包含的信息也很少.

在實(shí)用時(shí)就可用前面較少的幾個(gè)主分量來(lái)代替原變量描述數(shù)據(jù)的變化.20第八章§8.1總體的主分量

主分量的性質(zhì)

(3)主分量Zk與原始變量Xi的相關(guān)系數(shù)并把主分量Zk與原始變量Xi的相關(guān)系數(shù)稱(chēng)為因子負(fù)荷量(或因子載荷量).利用因子載荷量,可對(duì)指標(biāo)分類(lèi).

如果把主分量與原始變量的相關(guān)系數(shù)列成表8.1的形式,則由相關(guān)系數(shù)的公式,還可得出性質(zhì)(4)和(5).21第八章§8.1總體的主分量

主分量的性質(zhì)

因Xi也可表成Z1,…,Zp的線(xiàn)性組合,且Z1,…,Zp相互獨(dú)立,由回歸分析的知識(shí),Xi與Z1,…,Zp的全相關(guān)系數(shù)的平方和等于1,即表8.1中每一行的平方和均為1.22第八章§8.1總體的主分量

主分量的性質(zhì)

因Zk可表成X1,…,Xp的線(xiàn)性組合,但X1,…,Xp

一般有相關(guān)性,由Zk與Xi的相關(guān)系數(shù)的公式,可得出表8.1中Zk對(duì)應(yīng)的每一列關(guān)于各變量方差的加權(quán)平方和為λk(即Var(Zk)=λk).

主分量分析的目的是為了減少變量的個(gè)數(shù),故在實(shí)際應(yīng)用中一般不用p個(gè)主分量,而選用m(m<p)個(gè)主分量.m取多大,這是一個(gè)很實(shí)際的問(wèn)題.為此,我們引進(jìn)貢獻(xiàn)率的概念.23第八章§8.1總體的主分量

主分量的性質(zhì)

定義8.2

稱(chēng)λk/

[λ1+...+λm+…+λp]

為主分量Zk的貢獻(xiàn)率;又稱(chēng)[λ1+λ2+...+λm]/

[λ1+λ2+...+λm+…+λp]為主分量Z1,…,Zm(m<p)的累計(jì)貢獻(xiàn)率.

通常取m,使累計(jì)貢獻(xiàn)率達(dá)到70%~80%以上,累計(jì)貢獻(xiàn)率的大小表達(dá)m個(gè)主分量提了X1,…,Xp的多少信息,但它沒(méi)有表達(dá)某個(gè)變量被提取了多少信息,為此又引入另一個(gè)概念.24第八章§8.1總體的主分量

主分量的性質(zhì)

定義8.3

前m個(gè)主分量Z1,…,Zm

對(duì)原變量Xi的貢獻(xiàn)率υi(m)

是Xi與Z1,…,Zm

的相關(guān)關(guān)系數(shù)的平方,它等于例8.1.1(其中p=3,m=1或m=2)25第八章§8.1總體的主分量

標(biāo)準(zhǔn)化變量的主分量及性質(zhì)

在實(shí)際問(wèn)題中,不同的變量往往有不同的量綱,而通過(guò)Σ來(lái)求主分量首先優(yōu)先照顧方差(σii)大的變量,有時(shí)會(huì)造成很不合理的結(jié)果,為了消除由于量綱的不同可能帶來(lái)的一些不合理的影響,常采用將變量標(biāo)準(zhǔn)化的方法,即令26第八章§8.1總體的主分量

標(biāo)準(zhǔn)化變量的主分量及性質(zhì)

標(biāo)準(zhǔn)化后的隨機(jī)向量X*=(X1*,X2*,…,Xp*)′的協(xié)差陣Σ*就是原隨機(jī)向量X的相關(guān)陣R.從相關(guān)陣R出發(fā)來(lái)求主分量,記為Z*=(Z1*,…,Zp*)′,則Z*與Z具有相似的性質(zhì).

把主分量Zk*(k=1,…,p)對(duì)變量Xi*的因子負(fù)荷量ρki=ρ(Zk*,Xi*)列成表8.2(略去上標(biāo)"*").27第八章§8.2樣本的主分量

在實(shí)際問(wèn)題中,一般協(xié)差陣Σ未知,需要通過(guò)樣本來(lái)估計(jì).設(shè)X(t)=(xt1,…,xtp)′(t=1,…,n)為來(lái)自總體X的樣本,記樣本資料陣x11,x12,…,x1px21,x22,…,x2p…..xn1,xn2,…,xnpX=記樣本離差陣為S,樣本相關(guān)陣為R,并用S/(n-1)作為Σ的估計(jì)或用R作為總體相關(guān)陣的估計(jì).28第八章§8.2樣本的主分量

樣本主分量及其性質(zhì)

假定X=0,并且每個(gè)變量的觀測(cè)數(shù)據(jù)都已標(biāo)準(zhǔn)化,這時(shí)樣本協(xié)差陣就是樣本相關(guān)陣R,且

R=X′X/(n-1)仍記R陣的p個(gè)主分量為Z1,…,Zp,λ1≥λ2≥…≥λp

為R的特征根,a1,a2,…,ap為相應(yīng)的標(biāo)準(zhǔn)化特征向量.顯然Zi=ai′X(i=1,…,p).將第t個(gè)樣品X(t)=(xt1,…,xtp)′的值代入Zi得樣品的第i個(gè)主分量得分zti(i=1,…,p).記Z(t)=(zt1,zt2,…,ztp)′(t=1,…,n)29第八章§8.2樣本的主分量

樣本主分量及其性質(zhì)

表8.3原始數(shù)據(jù)和樣本主分量得分令30第八章§8.2樣本的主分量

樣本主分量及其性質(zhì)

樣本主分量具有如下性質(zhì):上式說(shuō)明當(dāng)i≠j時(shí),第i個(gè)主分量得分向量zi與第j個(gè)主分量得分zj是相互正交的.

稱(chēng)λk/p為樣本主分量Zk的貢獻(xiàn)率;又稱(chēng)[λ1+…+λm]/p為樣本主分量Z1,…,Zm(m<p)的累計(jì)貢獻(xiàn)率.31第八章§8.2樣本的主分量

樣本主分量及其性質(zhì)

(3)樣本主分量具有使殘差平方和最小的優(yōu)良性

如果我們只取前m個(gè)主分量(m<p),并考慮用前m個(gè)主分量Z1,…,Zm的線(xiàn)性組合表示Xj的回歸方程:

Xj=bj1Z1+…+bjmZm(j=1,…,p),則當(dāng)bjk=ajk(k=1,…,m)時(shí),可使回歸的殘差平方和達(dá)最小值.而且回歸方程的決定系數(shù)R2(j)=υj(m).我們把υj(m)稱(chēng)為m個(gè)主分量對(duì)原變量Xj的貢獻(xiàn)率,υj(m)的大小反映了m個(gè)主分量能夠反映Xj的變差的比例.32第八章§8.2樣本的主分量

主分量的個(gè)數(shù)及解釋

主分量分析的目的之一是簡(jiǎn)化數(shù)據(jù)結(jié)構(gòu),用盡可能少的主分量Z1,…,Zm(m<p)代替原來(lái)的p個(gè)變量,這樣就把p個(gè)變量的n次觀測(cè)數(shù)據(jù)簡(jiǎn)化為m個(gè)主分量的得分?jǐn)?shù)據(jù).在這里要求:①m個(gè)主分量所反映的信息與原來(lái)p個(gè)變量提供的信息差不多②m個(gè)主分量又能對(duì)資料所具有的意義進(jìn)行解釋.33第八章§8.2樣本的主分量

主分量個(gè)數(shù)的確定

主分量的個(gè)數(shù)m如何選取是實(shí)際工作者關(guān)心的問(wèn)題.關(guān)于主分量的個(gè)數(shù)如何確定,常用的標(biāo)準(zhǔn)有兩個(gè):

(1)按累計(jì)貢獻(xiàn)率達(dá)到一定程度(如70%或80%以上)來(lái)確定m;(2)先計(jì)算S或R的p個(gè)特征根的均值λ,取大于λ的特征根個(gè)數(shù)m.

當(dāng)p<20時(shí),大量實(shí)踐表明,第一個(gè)標(biāo)準(zhǔn)容易取太多的主分量,而第二個(gè)標(biāo)準(zhǔn)容易取太少的主分量,故最好將兩者給合起來(lái)應(yīng)用,同時(shí)要考慮m個(gè)主分量對(duì)Xi的貢獻(xiàn)率υi(m).34第八章§8.3主分量分析的應(yīng)用

應(yīng)用例子8.3.1

例8.3.1

學(xué)生身體各指標(biāo)的主分量分析隨機(jī)抽取30名某年級(jí)中學(xué)生,測(cè)量其身高(X1)、體重(X2)、胸圍(X3)和坐高(X4),數(shù)據(jù)見(jiàn)以下SAS程序的數(shù)據(jù)行.試用編程和菜單系統(tǒng)“分析員應(yīng)用”對(duì)中學(xué)生身體指標(biāo)數(shù)據(jù)做主分量分析.

(1)以下SAS程序首先生成包括30名學(xué)生身體指標(biāo)數(shù)據(jù)的SAS數(shù)據(jù)集D831(其中變量NUMBER記錄識(shí)別學(xué)生的序號(hào)),然后調(diào)用PRINCOMP過(guò)程進(jìn)行主分量分析.35第八章§8.3主分量分析的應(yīng)用

例8.3.1的sas程序

Datad831;inputnumberx1-x4@@;cards;1148417278213934717631604977864149366779………………...27144366876281413067762913932687330148387078;procprincompdata=d831prefix=zout=o831;varx1-x4;run;該選項(xiàng)規(guī)定主分量的前綴名字為z生成包含主分量得分的輸出數(shù)據(jù)集36第八章§8.3主分量分析的應(yīng)用

例8.3.1的sas程序

procplotdata=o831;plotz2*z1$number='*';run;procsortdata=o831;byz1;run;procprintdata=o831;varnumberz1z2x1-x4;run;繪制主分量得分的散點(diǎn)圖.作圖符號(hào)為'*',并在每散點(diǎn)旁邊加上序號(hào),以便識(shí)別各個(gè)觀測(cè).把輸出集o831按第一主分量z1的得分值從小到大排序輸出排序后的數(shù)據(jù)集o83137第八章§8.3主分量分析的應(yīng)用

例8.3.1的輸出結(jié)果

輸出8.3.1學(xué)生身體指標(biāo)數(shù)據(jù)的描述統(tǒng)計(jì)量和相關(guān)陣38第八章§8.3主分量分析的應(yīng)用

例8.3.1的輸出結(jié)果

輸出8.3.2相關(guān)陣的特征值和特征向量39第八章§8.3主分量分析的應(yīng)用

例8.3.1的結(jié)果分析

PRINCOMP過(guò)程由相關(guān)陣出發(fā)進(jìn)行主分量分析.由輸出8.3.2中相關(guān)陣的特征值可以看出,第一主分量的貢獻(xiàn)率已高達(dá)88.53%;且前二個(gè)主分量的累計(jì)貢獻(xiàn)率已達(dá)96.36%.因此只須用兩個(gè)主分量就能很好地概括這組數(shù)據(jù).另由第三和四個(gè)特征值近似為0,可以得出這4個(gè)標(biāo)準(zhǔn)化后的身體指標(biāo)變量(Xi*,i=1,2,3,4)有近似的線(xiàn)性關(guān)系(即所謂共線(xiàn)性),如

0.505747X1*

-0.690844X2*

+0.461488X3*-0.232343X4*≈c(常數(shù)).40第八章§8.3主分量分析的應(yīng)用

例8.3.1的結(jié)果分析

由最大的兩個(gè)特征值對(duì)應(yīng)的特征向量可以寫(xiě)出第一和第二主分量:

Z1=0.496966X1*+0.514571X2*+0.480901X3*+0.506928X4*

Z2=-0.543213X1*+0.210246X2*

+0.724621X3*-0.368294X4*第一和第二主分量都是標(biāo)準(zhǔn)化后變量Xi*(i=1,2,3,4)的線(xiàn)性組合,且組合系數(shù)就是特征向量的分量.41第八章§8.3主分量分析的應(yīng)用

例8.3.1的結(jié)果分析

利用特征向量各分量的值可以對(duì)各主分量進(jìn)行解釋.第一大特征值對(duì)應(yīng)的第一個(gè)特征向量的各個(gè)分量值均在0.5附近,且都是正值,它反映學(xué)生身材的魁梧程度.身體高大的學(xué)生,他的4個(gè)部位的尺寸都比較大;而身體矮小的學(xué)生,他的4個(gè)部位的尺寸都比較小.因此我們稱(chēng)第一主分量為大小因子.第二大特征值對(duì)應(yīng)的特征向量中第一(即身高X1的系數(shù))和第四個(gè)分量(即坐高X4的系數(shù))為負(fù)值,而第二(即體重X2的系數(shù))和第三個(gè)分量(即胸圍X3的系數(shù))為正值,它反映學(xué)生的胖瘦情況,故稱(chēng)第二主分量為胖瘦因子.42第八章§8.3主分量分析的應(yīng)用

例8.3.1的輸出結(jié)果

輸出8.3.3第二主分量得分對(duì)第一主分量得分的散布圖43第八章§8.3主分量分析的應(yīng)用

例8.3.1的結(jié)果分析

輸出8.3.3是PLOT過(guò)程產(chǎn)生的輸出圖形,從圖中可以直觀地看出,按學(xué)生的身體指標(biāo)尺寸,這30名學(xué)生大約應(yīng)分成三組(以第一主分量得分值為-1和2為分界點(diǎn)).

每一組包括哪幾名學(xué)生由每個(gè)散點(diǎn)旁邊的序號(hào)可以得知.更詳細(xì)的信息可從PRINT過(guò)程產(chǎn)生的輸出8.3.4數(shù)據(jù)列表中得到.44第八章§8.3主分量分析的應(yīng)用

例8.3.1的輸出結(jié)果

輸出8.3.4按第一主分量得分排序后的主分量得分和原始數(shù)據(jù)45第八章§8.3主分量分析的應(yīng)用

例8.3.1的結(jié)果分析

輸出8.3.4是把30個(gè)觀測(cè)按第一主分量從小到大重新排序后的輸出結(jié)果.從這里可以得到分為三組時(shí)各組學(xué)生的更多的信息如下:G1={11,15,29,10,28,6,24,14,2,27,18}G2={4,30,22,1,16,26,23,21,8,9,7,17}G3={20,13,19,12,5,3,25}

若考慮用Z1,Z2進(jìn)行聚類(lèi),這就量主分量聚類(lèi)方法.46第八章§8.3主分量分析的應(yīng)用

應(yīng)用例子8.3.2

例8.3.2

經(jīng)濟(jì)分析數(shù)據(jù)的主分量回歸

考察進(jìn)口總額Y與三個(gè)自變量:國(guó)內(nèi)總產(chǎn)值X1,存儲(chǔ)量X2,總消費(fèi)量X3(單位均為十億法郎)有關(guān).現(xiàn)收集了1949年至1959年共11年的數(shù)據(jù)(見(jiàn)第四章表4.4).對(duì)表4.4的數(shù)據(jù)試用主分量回歸分析方法求進(jìn)口總額與總產(chǎn)值、存儲(chǔ)量和總消費(fèi)量的定量關(guān)系式.

解在第四章例4.5.3中介紹如何調(diào)用REG過(guò)程來(lái)完成Y與X1、X2、X3的主分量回歸.

下面首先調(diào)用PRINCOMP過(guò)程對(duì)3個(gè)自變量做主分量分析.然后進(jìn)行主成分回歸.SAS程序如下(設(shè)表4.4生成的SAS數(shù)據(jù)集名為D832):47第八章§8.3主分量分析的應(yīng)用

例8.3.2的sas程序

procstandarddata=d832out=do832mean=0std=1;varx1-x3y;run;procprincompdata=do832prefix=zout=o832;varx1x2x3;run;procprintdata=o832;varz1z2y;run;該過(guò)程把各變量的觀測(cè)數(shù)據(jù)標(biāo)準(zhǔn)化主分量名字的前綴規(guī)定為z用標(biāo)準(zhǔn)化后的數(shù)據(jù)作主分量分析輸出數(shù)據(jù)集包含主分量得分48第八章§8.3主分量分析的應(yīng)用

例8.3.2的輸出結(jié)果

49第八章§8.3主分量分析的應(yīng)用

例8.3.2的結(jié)果分析

由輸出結(jié)果可知相關(guān)陣的三個(gè)特征為λ1=1.999,λ2=0.998,λ3=0.003.前二個(gè)主分量的累計(jì)貢獻(xiàn)率在99%以上.取兩個(gè)主分量(用Xi*表示Xi的標(biāo)準(zhǔn)化變量):

Z1=0.7063X1*+0.0435X2*+0.7065X3*Z2=-0.0357X1*+0.9990X2*-0.0258X3*

主分量分析的結(jié)果還給出X1*、X2*和X3*

的一個(gè)多重共線(xiàn)性關(guān)系:Z3=0.7070X1*+0.0070X2*-0.7072X3*≈C50第八章§8.3主分量分析的應(yīng)用

主分量回歸及輸出結(jié)果

用主分量得分?jǐn)?shù)據(jù)完成主分量回歸:

procregdata=o832;modely=z1z2;run;

回歸過(guò)程得到的標(biāo)準(zhǔn)化回歸方程為(Y*表示Y的標(biāo)準(zhǔn)化變量)

Y*=0.68998Z1+0.1913Z2=0.4804X1*+0.2211X2*+0.4825X3*用原始變量可表示為

Y=-9.130+0.0727X1+0.6091X2+0.1062X351第八章§8.4PRINCOMP過(guò)程與應(yīng)用例子

PRINCOMP過(guò)程的功能:①完成主分量分析:計(jì)算相關(guān)陣或協(xié)差陣的特征值和特征向量,當(dāng)特征值按從大到小次序排列時(shí),由相應(yīng)特征向量可得出第一主分量、第二主分量等等.用少數(shù)幾個(gè)主分量代替原始變量,并計(jì)算主分量得分.由得分?jǐn)?shù)據(jù)作主分量得分的散布圖,進(jìn)一步地還可用于主分量回歸和聚類(lèi)分析.②主分量的個(gè)數(shù)用戶(hù)可以自己確定;主分量的名字用戶(hù)可自己規(guī)定;主分量得分是否標(biāo)準(zhǔn)化也可以由用戶(hù)根椐實(shí)際需要來(lái)確定.52第八章§8.4PRINCOMP過(guò)程與應(yīng)用例子

③輸入數(shù)據(jù)集可以是原始數(shù)據(jù)集,也可以是相關(guān)陣,協(xié)差陣或叉積陣(SSCP).輸入原始數(shù)據(jù)時(shí),用戶(hù)還可以規(guī)定從協(xié)差陣出發(fā)或從相關(guān)陣出發(fā)進(jìn)行分析.由協(xié)差陣出發(fā)進(jìn)行分析時(shí)表示方差大的變量在主分量分析中起的作用大.④PRINCOMP過(guò)程可產(chǎn)生許多計(jì)算結(jié)果.包括簡(jiǎn)單計(jì)量(均值和標(biāo)準(zhǔn)差);相關(guān)陣或協(xié)差陣;從大到小排序的特征值和相應(yīng)特征向量,每個(gè)主分量解釋的方差比例,累計(jì)比例等.53第八章§8.4PRINCOMP過(guò)程與應(yīng)用例子

該過(guò)程還可生成二個(gè)輸出數(shù)據(jù)集:一個(gè)包含原始數(shù)據(jù)和主分量得分,它可作為主分量回歸或聚類(lèi)分析的輸入數(shù)據(jù)集;另一個(gè)是包含有關(guān)統(tǒng)計(jì)量的類(lèi)型為T(mén)YPE=CORR(或COV)的輸出集,它也可作為其他過(guò)程的輸入SAS集.

⑤PRINCOMP過(guò)程還可用來(lái)揭示變量間的共線(xiàn)關(guān)系.若存在某個(gè)特征值≈0,即表示這組變量間近似存在共線(xiàn)性.⑥該過(guò)程也可以進(jìn)行基于偏相關(guān)陣的主分量分析.54第八章§8.4PRINCOMP過(guò)程與應(yīng)用例子

PROCPRINCOMP

<options>

VAR

variables;

WEIGHT

variable;

FREQ

variable;

PARTIAL

variables;

BY

variables;RUN;可選擇語(yǔ)句必須語(yǔ)句常用的語(yǔ)句只有PROCPRINCOMP語(yǔ)句和VAR語(yǔ)句.55第八章§8.4PRINCOMP過(guò)程與應(yīng)用例子

PRINCOMP過(guò)程語(yǔ)句中的常用選項(xiàng):

①DATA=

SAS數(shù)據(jù)集--給出被分析的SAS數(shù)據(jù)集的名字.這個(gè)數(shù)據(jù)集可以是原始SAS數(shù)據(jù)集或TYPE=CORR,COV或SSCP的數(shù)據(jù)集.

②OUT=

SAS數(shù)據(jù)集--命名一個(gè)存放原始數(shù)據(jù)以及主分量得分?jǐn)?shù)據(jù)的輸出數(shù)據(jù)集.③OUTSTAT=

SAS數(shù)據(jù)集--命名一個(gè)存放均值、標(biāo)準(zhǔn)差、觀測(cè)個(gè)數(shù)、相關(guān)陣或協(xié)差陣、特征值和特征向量的輸出SAS數(shù)據(jù)集.如果規(guī)定選擇項(xiàng)COV,則數(shù)據(jù)集的類(lèi)型為T(mén)YPE=COV,而且包含協(xié)差陣;否則,數(shù)據(jù)集的類(lèi)型為T(mén)YPE=CORR,而且包含相關(guān)陣.56第八章§8.4PRINCOMP過(guò)程與應(yīng)用例子

④COVARIANCE|COV--要求從協(xié)差陣出發(fā)計(jì)算主分量.如果沒(méi)有規(guī)定此選項(xiàng),則從相關(guān)陣出發(fā)進(jìn)行分析.⑤N=n---規(guī)定被計(jì)算的主分量個(gè)數(shù).缺省值為變量個(gè)數(shù).⑥NOPRINT---不顯示計(jì)算結(jié)果.⑦PREFIX=name---對(duì)主分量的名字規(guī)定前綴.缺省時(shí)的名字為PRIN1、PRIN2、…、PRINp.如規(guī)定PREFIX=Z,則主分量名字為Z1、Z2、Z3等等.

57第八章§8.4PRINCOMP過(guò)程與應(yīng)用例子

⑧STANDARD|STD---要求在OUT=的數(shù)據(jù)集里把主分量得分標(biāo)準(zhǔn)化為單位方差.如果沒(méi)有規(guī)定此選項(xiàng),主分量得分的方差等于相應(yīng)的特征值.

⑨VARDEF=divisor(除數(shù))--規(guī)定用于計(jì)算方差和協(xié)方差的除數(shù).divisor的可能值為N、DF、WEIGHT或WGT,和WDF.58第八章§8.4PRINCOMP過(guò)程與應(yīng)用例子

應(yīng)用例子8.4.1

例8.4.1

服裝定型分類(lèi)問(wèn)題

為解決服裝定型分類(lèi)問(wèn)題,對(duì)128個(gè)成年男子的身材進(jìn)行測(cè)量,每人各測(cè)得16項(xiàng)指標(biāo):身高(X1)、坐高(X2)、胸圍(X3)、頭高(X4)、褲長(zhǎng)(X5)、下檔(X6)、手長(zhǎng)(X7)、領(lǐng)圍(X8)、前胸(X9)、后背(X10)、肩厚(X11)、肩寬(X12)、袖長(zhǎng)(X13)、肋圍(X14)、腰圍(X15)和腿肚(X16).16項(xiàng)指標(biāo)的相關(guān)陣R見(jiàn)以下SAS程序的數(shù)據(jù)行(因相關(guān)陣為對(duì)稱(chēng)陣,數(shù)據(jù)行

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論