




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
因子分析與主成分分析第1頁,課件共26頁,創(chuàng)作于2023年2月主成分分析每個人都會遇到有很多變量的數(shù)據(jù)。比如全國或各個地區(qū)的帶有許多經(jīng)濟(jì)和社會變量的數(shù)據(jù);各個學(xué)校的研究、教學(xué)等各種變量的數(shù)據(jù)等等。這些數(shù)據(jù)的共同特點是變量很多,在如此多的變量之中,有很多是相關(guān)的。人們希望能夠找出它們的少數(shù)“代表”來對它們進(jìn)行描述。第2頁,課件共26頁,創(chuàng)作于2023年2月在多數(shù)實際問題中,不同指標(biāo)之間是有一定相關(guān)性。由于指標(biāo)較多及指標(biāo)間有一定的相關(guān)性,勢必增加分析問題的復(fù)雜性。因子分析就是設(shè)法將原來指標(biāo)重新組合成一組新的互相無關(guān)的幾個綜合指標(biāo)來代替原來指標(biāo)。同時根據(jù)實際需要從中可取幾個較少的綜合指標(biāo)盡可能多地反映原來的指標(biāo)的信息。第3頁,課件共26頁,創(chuàng)作于2023年2月因子分析是考察多個數(shù)值變量間相關(guān)性的一種多元統(tǒng)計方法,它是研究如何通過少數(shù)幾個主成分來解釋多變量的方差—協(xié)方差結(jié)構(gòu)。導(dǎo)出幾個主成分,使它們盡可能多地保留原始變量的信息,且彼此間不相關(guān)。第4頁,課件共26頁,創(chuàng)作于2023年2月本章就介紹兩種把變量維數(shù)降低以便于描述、理解和分析的方法:主成分分析(principalcomponentanalysis)和因子分析(factoranalysis)。實際上主成分分析可以說是因子分析的一個特例。在引進(jìn)主成分分析之前,先看下面的例子。第5頁,課件共26頁,創(chuàng)作于2023年2月成績數(shù)據(jù)(student.sav)100個學(xué)生的數(shù)學(xué)、物理、化學(xué)、語文、歷史、英語的成績?nèi)缦卤恚ú糠郑?。?頁,課件共26頁,創(chuàng)作于2023年2月從本例可能提出的問題目前的問題是,能不能把這個數(shù)據(jù)的6個變量用一兩個綜合變量來表示呢?這一兩個綜合變量包含有多少原來的信息呢?能不能利用找到的綜合變量來對學(xué)生排序呢?這一類數(shù)據(jù)所涉及的問題可以推廣到對企業(yè),對學(xué)校進(jìn)行分析、排序、判別和分類等問題。第7頁,課件共26頁,創(chuàng)作于2023年2月主成分分析例中的的數(shù)據(jù)點是六維的;也就是說,每個觀測值是6維空間中的一個點。我們希望把6維空間用低維空間表示。先假定只有二維,即只有兩個變量,它們由橫坐標(biāo)和縱坐標(biāo)所代表;因此每個觀測值都有相應(yīng)于這兩個坐標(biāo)軸的兩個坐標(biāo)值;如果這些數(shù)據(jù)形成一個橢圓形狀的點陣(這在變量的二維正態(tài)的假定下是可能的)那么這個橢圓有一個長軸和一個短軸。在短軸方向上,數(shù)據(jù)變化很少;在極端的情況,短軸如果退化成一點,那只有在長軸的方向才能夠解釋這些點的變化了;這樣,由二維到一維的降維就自然完成了。第8頁,課件共26頁,創(chuàng)作于2023年2月主成分分析當(dāng)坐標(biāo)軸和橢圓的長短軸平行,那么代表長軸的變量就描述了數(shù)據(jù)的主要變化,而代表短軸的變量就描述了數(shù)據(jù)的次要變化。但是,坐標(biāo)軸通常并不和橢圓的長短軸平行。因此,需要尋找橢圓的長短軸,并進(jìn)行變換,使得新變量和橢圓的長短軸平行。如果長軸變量代表了數(shù)據(jù)包含的大部分信息,就用該變量代替原先的兩個變量(舍去次要的一維),降維就完成了。橢圓(球)的長短軸相差得越大,降維也越有道理。第9頁,課件共26頁,創(chuàng)作于2023年2月第10頁,課件共26頁,創(chuàng)作于2023年2月主成分分析對于多維變量的情況和二維類似,也有高維的橢球,只不過無法直觀地看見罷了。首先把高維橢球的主軸找出來,再用代表大多數(shù)數(shù)據(jù)信息的最長的幾個軸作為新變量;這樣,主成分分析就基本完成了。注意,和二維情況類似,高維橢球的主軸也是互相垂直的。這些互相正交的新變量是原先變量的線性組合,叫做主成分(principalcomponent)。
第11頁,課件共26頁,創(chuàng)作于2023年2月主成分分析正如二維橢圓有兩個主軸,三維橢球有三個主軸一樣,有幾個變量,就有幾個主成分。選擇越少的主成分,降維就越好。什么是標(biāo)準(zhǔn)呢?那就是這些被選的主成分所代表的主軸的長度之和占了主軸長度總和的大部分。有些文獻(xiàn)建議,所選的主軸總長度占所有主軸長度之和的大約85%即可,其實,這只是一個大體的說法;具體選幾個,要看實際情況而定。第12頁,課件共26頁,創(chuàng)作于2023年2月
對于我們的數(shù)據(jù),SPSS輸出為這里的InitialEigenvalues就是這里的六個主軸長度,又稱特征值(數(shù)據(jù)相關(guān)陣的特征值)。頭兩個成分特征值累積占了總方差的81.142%。后面的特征值的貢獻(xiàn)越來越少。
第13頁,課件共26頁,創(chuàng)作于2023年2月特征值的貢獻(xiàn)還可以從SPSS的所謂碎石圖看出第14頁,課件共26頁,創(chuàng)作于2023年2月怎么解釋這兩個主成分。前面說過主成分是原始六個變量的線性組合。是怎么樣的組合呢?SPSS可以輸出下面的表。
這里每一列代表一個主成分作為原來變量線性組合的系數(shù)(比例)。比如第一主成分作為數(shù)學(xué)、物理、化學(xué)、語文、歷史、英語這六個原先變量的線性組合,系數(shù)(比例)為-0.806,-0.674,-0.675,0.893,0.825,0.836。
第15頁,課件共26頁,創(chuàng)作于2023年2月如用x1,x2,x3,x4,x5,x6分別表示原先的六個變量,而用y1,y2,y3,y4,y5,y6表示新的主成分,那么,原先六個變量x1,x2,x3,x4,x5,x6與第一和第二主成分y1,y2的關(guān)系為:X1=-0.806y1+0.353y2X2=-0.674y1+0.531y2X3=-0.675y1+0.513y2X4=0.893y1+0.306y2x5=0.825y1+0.435y2x6=0.836y1+0.425y2這些系數(shù)稱為主成分載荷(loading),它表示主成分和相應(yīng)的原先變量的相關(guān)系數(shù)。比如x1表示式中y1的系數(shù)為-0.806,這就是說第一主成分和數(shù)學(xué)變量的相關(guān)系數(shù)為-0.806。相關(guān)系數(shù)(絕對值)越大,主成分對該變量的代表性也越大??梢钥吹贸觯谝恢鞒煞謱Ω鱾€變量解釋得都很充分。而最后的幾個主成分和原先的變量就不那么相關(guān)了。第16頁,課件共26頁,創(chuàng)作于2023年2月可以把第一和第二主成分的載荷點出一個二維圖以直觀地顯示它們?nèi)绾谓忉屧瓉淼淖兞康?。這個圖叫做載荷圖。第17頁,課件共26頁,創(chuàng)作于2023年2月該圖左面三個點是數(shù)學(xué)、物理、化學(xué)三科,右邊三個點是語文、歷史、外語三科。圖中的六個點由于比較擠,不易分清,但只要認(rèn)識到這些點的坐標(biāo)是前面的第一二主成分載荷,坐標(biāo)是前面表中第一二列中的數(shù)目,還是可以識別的。第18頁,課件共26頁,創(chuàng)作于2023年2月因子分析主成分分析從原理上是尋找橢球的所有主軸。因此,原先有幾個變量,就有幾個主成分。而因子分析是事先確定要找?guī)讉€成分,這里叫因子(factor)(比如兩個),那就找兩個。這使得在數(shù)學(xué)模型上,因子分析和主成分分析有不少區(qū)別。而且因子分析的計算也復(fù)雜得多。根據(jù)因子分析模型的特點,它還多一道工序:因子旋轉(zhuǎn)(factorrotation);這個步驟可以使結(jié)果更好。當(dāng)然,對于計算機(jī)來說,因子分析并不比主成分分析多費多少時間。從輸出的結(jié)果來看,因子分析也有因子載荷(factorloading)的概念,代表了因子和原先變量的相關(guān)系數(shù)。但是在輸出中的因子和原來變量相關(guān)系數(shù)的公式中的系數(shù)不是因子載荷,也給出了二維圖;該圖雖然不是載荷圖,但解釋和主成分分析的載荷圖類似。第19頁,課件共26頁,創(chuàng)作于2023年2月主成分分析與因子分析的公式上的區(qū)別主成分分析因子分析(m<p)因子得分第20頁,課件共26頁,創(chuàng)作于2023年2月對于我們的數(shù)據(jù),SPSS因子分析輸出為這里,第一個因子主要和語文、歷史、英語三科有很強(qiáng)的正相關(guān);而第二個因子主要和數(shù)學(xué)、物理、化學(xué)三科有很強(qiáng)的正相關(guān)。因此可以給第一個因子起名為“文科因子”,而給第二個因子起名為“理科因子”。從這個例子可以看出,因子分析的結(jié)果比主成分分析解釋性更強(qiáng)。第21頁,課件共26頁,創(chuàng)作于2023年2月這兩個因子的系數(shù)所形成的散點圖(雖然不是載荷,在SPSS中也稱載荷圖,可以直觀看出每個因子代表了一類學(xué)科第22頁,課件共26頁,創(chuàng)作于2023年2月計算因子得分可以根據(jù)前面的因子得分公式(因子得分系數(shù)和原始變量的標(biāo)準(zhǔn)化值的乘積之和),算出每個學(xué)生的第一個因子和第二個因子的大小,即算出每個學(xué)生的因子得分f1和f2。人們可以根據(jù)這兩套因子得分對學(xué)生分別按照文科和理科排序。當(dāng)然得到因子得分只是SPSS軟件的一個選項(可將因子得分存為新變量、顯示因子得分系數(shù)矩陣)第23頁,課件共26頁,創(chuàng)作于2023年2月因子分析和主成分分析的一些注意事項
可以看出,因子分析和主成分分析都依賴于原始變量,也只能反映原始變量的信息。所以原始變量的選擇很重要。另外,如果原始變量都本質(zhì)上獨立,那么降維就可能失敗,這是因為很難把很多獨立變量用少數(shù)綜合的變量概括。數(shù)據(jù)越相關(guān),降維效果就越好。在得到分析的結(jié)果時,并不一定會都得到如我們例子那樣清楚的結(jié)果。這與問題的性質(zhì),選取的原始變量以及數(shù)據(jù)的質(zhì)量等都有關(guān)系在用因子得分進(jìn)行排序時要特別小心,特別是對于敏感問題。由于原始變量不同,因子的選取不同,排序可以很不一樣。第24頁,課件共26頁,創(chuàng)作于2023年2月因子分析與主成分分析的基本步驟及spss實現(xiàn)
1.將原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理
2.計算樣本相關(guān)矩陣R3.求相關(guān)矩陣R的特征值與特征向量,并計算貢獻(xiàn)率
4.選擇主成分
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 個人主材合同范本
- 醫(yī)院規(guī)范用工合同范本
- 與物業(yè)簽訂廣告合同范本
- 浠水購房合同范本
- 銀行居間付款合同范本
- 修建鄉(xiāng)村公路合同范本
- 醫(yī)院日常裝飾維修合同范本
- 協(xié)調(diào)服務(wù)合同范本
- 公房買給個人合同范本
- 上海吊車租用合同范本
- 2024年江蘇農(nóng)牧科技職業(yè)學(xué)院單招職業(yè)適應(yīng)性測試題庫及參考答案
- 患者轉(zhuǎn)運意外應(yīng)急預(yù)案
- 大學(xué)生國防教育教案第四章現(xiàn)代戰(zhàn)爭
- 人教版初中化學(xué)實驗?zāi)夸?總表)
- AS9100航空航天質(zhì)量管理體系-要求培訓(xùn)教材
- 第2課+古代希臘羅馬【中職專用】《世界歷史》(高教版2023基礎(chǔ)模塊)
- Q-GDW 11711-2017 電網(wǎng)運行風(fēng)險預(yù)警管控工作規(guī)范
- 《桃樹下的小白兔》課件
- 電工儀表與測量(第六版)中職技工電工類專業(yè)全套教學(xué)課件
- 強(qiáng)調(diào)句(完整版)-高三英語市公開課一等獎省賽課獲獎?wù)n件
- 2022年4月自考00277行政管理學(xué)試題及答案含解析
評論
0/150
提交評論