統(tǒng)計(jì)分析與方法-第八章主成分與因子分析_第1頁(yè)
統(tǒng)計(jì)分析與方法-第八章主成分與因子分析_第2頁(yè)
統(tǒng)計(jì)分析與方法-第八章主成分與因子分析_第3頁(yè)
統(tǒng)計(jì)分析與方法-第八章主成分與因子分析_第4頁(yè)
統(tǒng)計(jì)分析與方法-第八章主成分與因子分析_第5頁(yè)
已閱讀5頁(yè),還剩50頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

主成分分析和因子分析

主成分與因子分析3主成分與因子分析好裁縫做上衣,要測(cè)量上體長(zhǎng)、手臂長(zhǎng)、胸圍等14個(gè)指標(biāo)。用流水線生產(chǎn)上衣時(shí)要測(cè)量每個(gè)顧客的14個(gè)指標(biāo)是不可能的。于是統(tǒng)計(jì)學(xué)家出了個(gè)主意:這14個(gè)指標(biāo)是相關(guān)的,可以找出幾個(gè)反映上衣特征的綜合指標(biāo),加工出的上衣大多數(shù)人都能穿,當(dāng)然特體除外。4主成分與因子分析結(jié)果統(tǒng)計(jì)學(xué)家成功了!這兩個(gè)不相關(guān)的指標(biāo)就是上衣的型和號(hào)。本章的教學(xué)目的就是教會(huì)學(xué)生如何建立和使用降維模型。主成分分析每個(gè)人都會(huì)遇到有很多變量的數(shù)據(jù)。比如全國(guó)或各個(gè)地區(qū)的帶有許多經(jīng)濟(jì)和社會(huì)變量的數(shù)據(jù);各個(gè)學(xué)校的研究、教學(xué)等各種變量的數(shù)據(jù)等等。這些數(shù)據(jù)的共同特點(diǎn)是變量很多,在如此多的變量之中,有很多是相關(guān)的。人們希望能夠找出它們的少數(shù)“代表”來(lái)對(duì)它們進(jìn)行描述。主成分分析和因子分析本章就介紹兩種把變量維數(shù)降低以便于描述、理解和分析的方法:主成分分析(principalcomponentanalysis)和因子分析(factoranalysis)。實(shí)際上主成分分析可以說(shuō)是因子分析的一個(gè)特例。在引進(jìn)主成分分析之前,先看下面的例子。成績(jī)數(shù)據(jù)(student.sav)100個(gè)學(xué)生的數(shù)學(xué)、物理、化學(xué)、語(yǔ)文、歷史、英語(yǔ)的成績(jī)?nèi)缦卤恚ú糠郑谋纠赡芴岢龅膯?wèn)題目前的問(wèn)題是,能不能把這個(gè)數(shù)據(jù)的6個(gè)變量用一兩個(gè)綜合變量來(lái)表示呢?這一兩個(gè)綜合變量包含有多少原來(lái)的信息呢?能不能利用找到的綜合變量來(lái)對(duì)學(xué)生排序呢?這一類數(shù)據(jù)所涉及的問(wèn)題可以推廣到對(duì)企業(yè),對(duì)學(xué)校進(jìn)行分析、排序、判別和分類等問(wèn)題。主成分分析例中的的數(shù)據(jù)點(diǎn)是六維的;也就是說(shuō),每個(gè)觀測(cè)值是6維空間中的一個(gè)點(diǎn)。我們希望把6維空間用低維空間表示。先假定只有二維,即只有兩個(gè)變量,它們由橫坐標(biāo)和縱坐標(biāo)所代表;因此每個(gè)觀測(cè)值都有相應(yīng)于這兩個(gè)坐標(biāo)軸的兩個(gè)坐標(biāo)值;如果這些數(shù)據(jù)形成一個(gè)橢圓形狀的點(diǎn)陣(這在變量的二維正態(tài)的假定下是可能的)10主成分分析那么這個(gè)橢圓有一個(gè)長(zhǎng)軸和一個(gè)短軸。在短軸方向上,數(shù)據(jù)變化很少;在極端的情況,短軸如果退化成一點(diǎn),那只有在長(zhǎng)軸的方向才能夠解釋這些點(diǎn)的變化了;這樣,由二維到一維的降維就自然完成了。主成分分析當(dāng)坐標(biāo)軸和橢圓的長(zhǎng)短軸平行,那么代表長(zhǎng)軸的變量就描述了數(shù)據(jù)的主要變化,而代表短軸的變量就描述了數(shù)據(jù)的次要變化。但是,坐標(biāo)軸通常并不和橢圓的長(zhǎng)短軸平行。因此,需要尋找橢圓的長(zhǎng)短軸,并進(jìn)行變換,使得新變量和橢圓的長(zhǎng)短軸平行。如果長(zhǎng)軸變量代表了數(shù)據(jù)包含的大部分信息,就用該變量代替原先的兩個(gè)變量(舍去次要的一維),降維就完成了。橢圓(球)的長(zhǎng)短軸相差得越大,降維也越有道理。主成分分析對(duì)于多維變量的情況和二維類似,也有高維的橢球,只不過(guò)無(wú)法直觀地看見(jiàn)罷了。首先把高維橢球的主軸找出來(lái),再用代表大多數(shù)數(shù)據(jù)信息的最長(zhǎng)的幾個(gè)軸作為新變量;這樣,主成分分析就基本完成了。注意,和二維情況類似,高維橢球的主軸也是互相垂直的。這些互相正交的新變量是原先變量的線性組合,叫做主成分(principalcomponent)。

主成分分析正如二維橢圓有兩個(gè)主軸,三維橢球有三個(gè)主軸一樣,有幾個(gè)變量,就有幾個(gè)主成分。選擇越少的主成分,降維就越好。什么是標(biāo)準(zhǔn)呢?那就是這些被選的主成分所代表的主軸的長(zhǎng)度之和占了主軸長(zhǎng)度總和的大部分。有些文獻(xiàn)建議,所選的主軸總長(zhǎng)度占所有主軸長(zhǎng)度之和的大約85%即可,其實(shí),這只是一個(gè)大體的說(shuō)法;具體選幾個(gè),要看實(shí)際情況而定。對(duì)于我們的數(shù)據(jù),SPSS輸出為:這里的InitialEigenvalues就是這里的六個(gè)主軸長(zhǎng)度,又稱特征值(數(shù)據(jù)相關(guān)陣的特征值)。主成分分析的一般模型這個(gè)方程且滿足:主成分分析其中有以下原則來(lái)確定:這時(shí)稱:Y1是第一主成分

Y2是第二主成分|主成分的含義有原始數(shù)據(jù)的協(xié)方差陣或相關(guān)系數(shù)據(jù)陣,可計(jì)算出矩陣的特征根:主成分的含義但是,spss軟件中沒(méi)有直接給出主成分系數(shù),而是給出的因子載荷,我們可將因子載荷系數(shù)除以相應(yīng)的,即可得到主成分系數(shù)。由Component1、2的系數(shù)除以和

,得到:Y1=-0.417x1-0.349x2-0.349x3+0.462x4+0.427x5+0.433x6

Y2=0.183x1+0.275x2+0.265x3+0.158x4+0.225x5+0.220x6這些系表示主成分和相應(yīng)的原先變量的相關(guān)系數(shù)。相關(guān)系數(shù)(絕對(duì)值)越大,主成分對(duì)該變量的代表性也越大。主成分分析為什么spss中值取了兩個(gè)主成分呢?頭兩個(gè)成分特征值對(duì)應(yīng)的方差累積占了總方差的81.142%,稱為累計(jì)方差貢獻(xiàn)率為81.142%。后面的特征值的貢獻(xiàn)越來(lái)越少。一般我們?nèi)±塾?jì)方差貢獻(xiàn)率達(dá)到85%左右的前k個(gè)主成分就可以了,因?yàn)樗鼈円呀?jīng)代表了絕大部分的信息。Spss中選取主成分的方法有兩個(gè):一是根據(jù)特征根≥1來(lái)選取;另一種是用戶直接規(guī)定主成分的個(gè)數(shù)來(lái)選取。特征值的貢獻(xiàn)還可以從SPSS的所謂碎石圖看出可以把第一和第二主成分的點(diǎn)畫出一個(gè)二維圖以直觀地顯示它們?nèi)绾谓忉屧瓉?lái)的變量的。該圖左面三個(gè)點(diǎn)是數(shù)學(xué)、物理、化學(xué)三科,右邊三個(gè)點(diǎn)是語(yǔ)文、歷史、外語(yǔ)三科。因子分析因子分析是主成分分析的推廣和發(fā)展。為什么要進(jìn)行因子分析?由主成分分析的模型可知:因子分析我們?nèi)绻胫烂總€(gè)變量與公共因子的關(guān)系,則就要進(jìn)行因子分析了。因子分析模型為:因子載荷

稱為因子載荷(實(shí)際上是權(quán)數(shù))。因子載荷的統(tǒng)計(jì)意義:就是第i個(gè)變量與第j個(gè)公共因子的相關(guān)系數(shù),即表示變量xi依賴于Fj的份量(比重),心理學(xué)家將它稱為載荷。30變量共同度的統(tǒng)計(jì)意義公因子方差表提取出來(lái)的公因子對(duì)每個(gè)變量的解釋程度到底有多大呢?可從公因子方差表得知:(0.744+0.736+0.718+0.890+0.870+0.880)/6=0.8113因子旋轉(zhuǎn)為了對(duì)公因子F能夠更好的解釋,可通過(guò)因子旋轉(zhuǎn)的方法得到一個(gè)好解釋的公因子。所謂對(duì)公因子更好解釋,就是使每個(gè)變量?jī)H再一個(gè)公因子上有較大的載荷,而在其余的公因子上的載荷比較小。這種變換因子載荷的方法稱為因子軸的旋轉(zhuǎn)。因子旋轉(zhuǎn)的方法很多,常用的為方差最大正交旋轉(zhuǎn)。這里,第一個(gè)因子主要和語(yǔ)文、歷史、英語(yǔ)科有很強(qiáng)的正相關(guān);而第二個(gè)因子主要和數(shù)學(xué)、物理、化學(xué)三科有很強(qiáng)的正相關(guān)。因此可以給第一個(gè)因子起名為“文科因子”,而給第二個(gè)因子起名為“理科因子”。從這個(gè)例子可以看出,因子分析的結(jié)果比主成分分析解釋性更強(qiáng)。這些系數(shù)所形成的散點(diǎn)圖(在SPSS中也稱載荷圖),可以直觀看出每個(gè)因子代表了一類學(xué)科。因子得分在分析中,人們往往更愿意用公共因子反映原始變量,這樣根有利于描述研究對(duì)象的特征。因而往往將公共因子表示為變量(或樣品)的線性組合,即:稱上式為因子得分函數(shù),用它可計(jì)算每個(gè)樣品的公因子得分。估計(jì)因子得分的方法很多??梢愿鶕?jù)輸出,計(jì)算出每個(gè)學(xué)生的第一個(gè)因子和第二個(gè)因子的大小,即算出每個(gè)學(xué)生的因子得分f1和f2。人們可以根據(jù)這兩個(gè)函數(shù)分別計(jì)算出每個(gè)學(xué)生的兩套因子得分,對(duì)學(xué)生分別按照文科和理科排序。也可以每個(gè)因子的方差貢獻(xiàn)率為權(quán)數(shù),進(jìn)行加權(quán)綜合,計(jì)算出每個(gè)學(xué)生的總得分,以此排隊(duì)。主成分和因子分析的一些注意事項(xiàng)可以看出,因子分析和主成分分析都依賴于原始變量,也只能反映原始變量的信息。所以原始變量的選擇很重要。另外,如果原始變量都本質(zhì)上獨(dú)立,那么降維就可能失敗,這是因?yàn)楹茈y把很多獨(dú)立變量用少數(shù)綜合的變量概括。數(shù)據(jù)越相關(guān),降維效果就越好。3940因子分析的判斷KMO測(cè)度和巴特利特球體檢驗(yàn):KMO值:0.9以上非常好;0.8以上好;0.7一般;0.6差;0.5很差;0.5以下不能接受。巴特利特球體檢驗(yàn)的H0:相關(guān)矩陣為單位陣主成分和因子分析的一些注意事項(xiàng)在得到分析的結(jié)果時(shí),并不一定會(huì)都得到如我們例子那樣清楚的結(jié)果。這與問(wèn)題的性質(zhì),選取的原始變量以及數(shù)據(jù)的質(zhì)量等都有關(guān)系在用因子得分進(jìn)行排序時(shí)要特別小心,特別是對(duì)于敏感問(wèn)題。由于原始變量不同,因子的選取不同,排序可以很不一樣。Spss實(shí)現(xiàn)Spss選項(xiàng):Analyze-DataReduction-Factor用Extraction,選擇提取共因子的方法(如果是主成分分析,則選PrincipalComponents),用Rotation,選擇因子旋轉(zhuǎn)方法(如果是主成分分析就選None),用Scores計(jì)算因子得分,再選擇Saveasvariables(因子得分就會(huì)作為變量存在數(shù)據(jù)中的附加列上)和計(jì)算因子得分的方法(比如Regression);要想輸出ComponentScoreCoefficientMatrix表,就要選擇Displayfactorscorecoefficientmatrix;因子分析—例11.1仍以學(xué)生成績(jī)的數(shù)據(jù)(student.sav)為例,說(shuō)明因子分析的過(guò)程。44因子分析—例11.1北京市各區(qū)縣的社會(huì)經(jīng)濟(jì)發(fā)展水平存在著一定的差異,然而反映社會(huì)經(jīng)濟(jì)發(fā)展水平的指標(biāo)很多,如何反映各區(qū)縣之間的差異,進(jìn)行多指標(biāo)的綜合評(píng)價(jià)是統(tǒng)計(jì)分析的問(wèn)題之一。因?yàn)橹笜?biāo)較多且之間的相關(guān)性很強(qiáng),用主成分分析和因子分析可以用較少的綜合指標(biāo),反映原來(lái)變量的較多的信息,達(dá)到降維簡(jiǎn)化分析過(guò)程的目的。數(shù)據(jù)文件:北京市各區(qū)縣主要指標(biāo)因子分析.sav。數(shù)據(jù)來(lái)源:北京統(tǒng)計(jì)年鑒2004

45因子分析—例11.1變量名稱:x1-在崗職工平均工資(元/人)x2-地區(qū)生產(chǎn)總值(萬(wàn)元)x3-城鎮(zhèn)居民人均可支配收入(元)x4-地方財(cái)政收入(萬(wàn)元)x5-全社會(huì)固定資產(chǎn)投資(萬(wàn)元)x6-社會(huì)消費(fèi)品零售額(萬(wàn)元)x7-從業(yè)人數(shù)。

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論