第12章-主成分分析和因子分析_第1頁
第12章-主成分分析和因子分析_第2頁
第12章-主成分分析和因子分析_第3頁
第12章-主成分分析和因子分析_第4頁
第12章-主成分分析和因子分析_第5頁
已閱讀5頁,還剩59頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

數(shù)據(jù)分析

(方法與案例)

作者賈俊平統(tǒng)計學統(tǒng)

Statistics*模型選擇是藝術,而不是科學。

——WilliamNavidi統(tǒng)計名言第12章主成分分析和因子分析12.1

主成分分析12.2因子分析

factoranalysis*學習目標主成分分析和因子分析的基本原理主成分分析和因子分析的異同主成分分析和因子分析的數(shù)學模型用SPSS進行主成分分析和因子分析用主成分分析和因子分析對實際問題進行綜合評價*在研究實際問題時,往往需要收集多個變量。但這樣會使多個變量間存在較強的相關關系,即這些變量間存在較多的信息重復,直接利用它們進行分析,不但模型復雜,還會因為變量間存在多重共線性而引起較大的誤差為能夠充分利用數(shù)據(jù),通常希望用較少的新變量代替原來較多的舊變量,同時要求這些新變量盡可能反映原變量的信息主成分分析和因子分子正式解決這類問題的有效方法。它們能夠提取信息,使變量簡化降維,從而使問題更加簡單直觀主成分分析和因子分析

(principalcomponentanalysis&factoranalysis)*因子分析得到的是什么?

因子分析方法在部分領域應用的一些例子心理學:心理學家瑟斯登對56項測驗的得分進行因子分析,得出了7中主要智力因子:詞語理解能力,語言流暢能力、計數(shù)能力、空間能力、記憶力、知覺速度和推理能力教育學:某師范大學在對以幼兒園3~6歲幼兒為對象,通過80名幼兒教師對480名幼兒好奇心行為特征描述的開放式問卷調(diào)查,編制出60個項目的初始問卷,對500名幼兒的初測結(jié)果進行探索性因子分析后,形成了33個項目的正式問卷,對1000名幼兒的評價結(jié)果進行驗證性因子分析,結(jié)果表明:教師評價的3~6歲幼兒好奇心結(jié)構包括敏感、對未知事物的關注、好問、喜歡擺弄、探索持久和好奇體驗6個因子*因子分析得到的是什么?醫(yī)學:一位研究者對山東某縣2000~2002年3年的全死因調(diào)查資料中不同地區(qū)各惡性腫瘤標化死亡率進行因子分析后發(fā)現(xiàn),該縣居民惡性腫瘤的發(fā)病和死亡具有明顯的地區(qū)分布。在地區(qū)分布中,各種惡性腫瘤的死亡具有一定程度的聚集性。經(jīng)因子分析得到的4個主因子可以解釋10種惡性腫瘤死亡率的74.54%;10種惡性腫瘤中,被解釋的比例最小也在62%以上;而胃癌、白血病、膀胱癌、乳腺癌、結(jié)腸癌死亡率被解釋的比例均在77%以上,表明這10種惡性腫瘤之間存在中等偏強的內(nèi)在聯(lián)系和地區(qū)分布特點*因子分析得到的是什么?地質(zhì)學:海南島的石綠鐵礦及外圍地區(qū)有透輝石透閃巖石和陽起石兩種巖石。地質(zhì)工作者對兩種巖石標本的11種化驗數(shù)據(jù)進行了因子分析,分別得到5種和4種主要因子。結(jié)果表明,透輝石透閃巖石與陽起石有明顯區(qū)別,前者的元素組合屬碳酸鹽沉積型,后者屬巖漿分異型。透輝石透閃巖石中鐵的沉積與泥質(zhì)成分有關,屬于正常沉積。由此推斷石綠鐵礦的主要成礦為沉積作用,并據(jù)此提出了找礦標志和找礦方向上市公司評價:某研究者選擇35家能源類上市公司,根據(jù)2007年的12項經(jīng)營指標數(shù)據(jù),采用因子分析法分別按盈利能力、資產(chǎn)管理能力、償債能力及經(jīng)營業(yè)績綜合評分等方面對35家上市公司進行了排名。其中:盈利能力排在前5位的是:神火股份、海油工程、蘭花科創(chuàng)、潞安環(huán)能和中國石油;經(jīng)營業(yè)績綜合得分排在前5位的是:神火股份、潞安環(huán)能、蘭花科創(chuàng)、海油工程和開灤股份12.1主成分分析

12.1.1主成分分析的基本原理

12.1.2主成分分析的數(shù)學模型

12.1.3主成分分析的步驟第12章主成分分析和因子分析12.1.1主成分分析的基本原理12.1主成分分析*主成分的概念由KarlPearson在1901年提出考察多個變量間相關性一種多元統(tǒng)計方法研究如何通過少數(shù)幾個主成分(principalcomponent)來解釋多個變量間的內(nèi)部結(jié)構。即從原始變量中導出少數(shù)幾個主分量,使它們盡可能多地保留原始變量的信息,且彼此間互不相關主成分分析的目的:數(shù)據(jù)的壓縮;數(shù)據(jù)的解釋常被用來尋找判斷事物或現(xiàn)象的綜合指標,并對綜合指標所包含的信息進行適當?shù)慕忉屖裁词侵鞒煞址治觯?/p>

(principalcomponentanalysis)*對這兩個相關變量所攜帶的信息(在統(tǒng)計上信息往往是指數(shù)據(jù)的變異)進行濃縮處理假定只有兩個變量x1和x2,從散點圖可見兩個變量存在相關關系,這意味著兩個變量提供的信息有重疊主成分分析的基本思想

(以兩個變量為例)如果把兩個變量用一個變量來表示,同時這一個新的變量又盡可能包含原來的兩個變量的信息,這就是降維的過程*橢圓中有一個長軸和一個短軸,稱為主軸。在長軸方向,數(shù)據(jù)的變化明顯較大,而短軸方向變化則較小如果沿著長軸方向設定一個新的坐標系,則新產(chǎn)生的兩個變量和原始變量間存在一定的數(shù)學換算關系,同時這兩個新變量之間彼此不相關,而且長軸變量攜帶了大部分的數(shù)據(jù)變化信息,而主成分分析的基本思想

(以兩個變量為例)

短軸變量只攜帶了一小部分變化的信息(變異)此時,只需要用長軸方向的變量就可以代表原來兩個變量的信息。這樣也就把原來的兩個變量降維成了一個變量。長短軸相差越大,降維也就越合理*多維變量的情形類似,只不過是一個高維橢球,無法直觀地觀察每個變量都有一個坐標軸,所以有幾個變量就有幾主軸。首先把橢球的各個主軸都找出來,再用代表大多數(shù)數(shù)據(jù)信息的最長的幾個軸作為新變量,這樣,降維過程也就完成了主成分分析的基本思想

(以兩個變量為例)找出的這些新變量是原來變量的線性組合,叫做主成分12.1.2主成分分析的數(shù)學模型12.1主成分分析*數(shù)學上的處理是將原始的p個變量作線性組合,作為新的變量設p個原始變量為,新的變量(即主成分)為,主成分和原始變量之間的關系表示為主成分分析的數(shù)學模型主成分分析的數(shù)學模型aij為第i個主成分yi和原來的第j個變量xj之間的線性相關系數(shù),稱為載荷(loading)。比如,a11表示第1主成分和原來的第1個變量之間的相關系數(shù),a21表示第2主成分和原來的第1個變量之間的相關系數(shù)*選擇幾個主成分?選擇標準是什么?被選的主成分所代表的主軸的長度之和占了主軸總程度之和的大部分在統(tǒng)計上,主成分所代表的原始變量的信息用其方差來表示。因此,所選擇的第一個主成分是所有主成分中的方差最大者,即Var(yi)最大如果第一個主成分不足以代表原來的個變量,在考慮選擇第二個主成分,依次類推這些主成分互不相關,且方差遞減主成分的選擇*究竟選擇幾個主成分才合適呢?一般要求所選主成分的方差總和占全部方差的80%以上就可以了。當然,這只是一個大體標準,具體選擇幾個要看實際情況如果原來的變量之間的相關程度高,降維的效果就會好一些,所選的主成分就會少一些,如果原來的變量之間本身就不怎么相關,降維的效果自然就不好不相關的變量就只能自己代表自己了主成分的選擇12.1.3主成分分析的步驟12.1主成分分析*對原來的p個指標進行標準化,以消除變量在水平和量綱上的影響根據(jù)標準化后的數(shù)據(jù)矩陣求出相關系數(shù)矩陣求出協(xié)方差矩陣的特征根和特征向量確定主成分,并對各主成分所包含的信息給予適當?shù)慕忉屩鞒煞址治龅牟襟E*【例12-1】根據(jù)我國31個省市自治區(qū)2006年的6項主要經(jīng)濟指標數(shù)據(jù),進行主成分分析,找出主成分并進行適當?shù)慕忉屩鞒煞址治?/p>

(實例分析)

31個地區(qū)的6項經(jīng)濟指標SPSS*第1步

選擇【Analyze】下拉菜單,并選擇【DataReduction-Factor】,進入主對話框第2步在主對話框中將所有原始變量選入【Variables】第3步

點擊【Descriptives】,在【correlationMatrix】下選擇

【Coefficirnts】,點擊【Continue】回到主對話框第4步點擊【Extraction】,在【Display】下選擇【ScreePlot】,點擊【Continue】回到主對話框第5步點擊【Rotation】,在【Display】下選擇【LoadingPlot】,點擊【Continue】回到主對話框點擊【OK】用SPSS進行主成分分析主成分分析SPSS*SPSS的輸出結(jié)果各變量之間的相關系數(shù)矩陣變量之間的存在較強的相關關系,適合作主成分分析

*SPSS的輸出結(jié)果

(選擇主成分)各主成分所解釋的原始變量的方差該表是選擇主成分的主要依據(jù)*“InitialEigenvalues”(初始特征根)

實際上就是本例中的6個主軸的長度特征根反映了主成分對原始變量的影響程度,表示引入該主成分后可以解釋原始變量的信息特征根又叫方差,某個特征根占總特征根的比例稱為主成分方差貢獻率設特征根為,則第i個主成分的方差貢獻率為比如,第一個主成分的特征根為3.963,占總特征根的的比例(方差貢獻率)為66.052%,這表示第一個主成分解釋了原始6個變量66.052%的信息,可見第一個主成分對原來的6個變量解釋的已經(jīng)很充分了根據(jù)什么選擇主成分?*根據(jù)主成分貢獻率一般來說,主成分的累計方差貢獻率達到80%以上的前幾個主成分,都可以選作最后的主成分比如表13.3中前兩個主成分的累計方差貢獻率為95.57%根據(jù)特特征根的大小一般情況下,當特征根小于1時,就不再選作主成分了,因為該主成分的解釋力度還不如直接用原始變量解的釋力度大比如表13.3中除前兩個外,其他主成分的特征根都小于1。所以SPSS只選擇了兩個主成分就本例而言,兩個主成分就足以說明各地區(qū)的經(jīng)濟發(fā)展狀況了根據(jù)什么選擇主成分?*SPSS還提供了一個更為直觀的圖形工具來幫助選擇主成分,即碎石圖(ScreePlot)從碎石圖可以看到6個主軸長度變化的趨勢實踐中,通常結(jié)合具體情況,選擇碎石圖中變化趨勢出現(xiàn)拐點的前幾個主成分作為原先變量的代表,該例中選擇前兩個主成分即可根據(jù)什么選擇主成分?

(ScreePlot)拐點*怎樣解釋主成分?主成分的因子載荷矩陣表1中的每一列表示一個主成分作為原來變量線性組合的系數(shù),也就是主成分分析模型中的系數(shù)aij比如,第一主成分所在列的系數(shù)0.670表示第1個主成分和原來的第一個變量(人均GDP)之間的線性相關系數(shù)。這個系數(shù)越大,說明主成分對該變量的代表性就越大*根據(jù)主成分分析模型和因子載荷,可以得到兩個主成分與原來6個變量之間的線性組合表達式如下怎樣解釋主成分?

(主成分與原始變量的關系)注意:表達式中的不是原始變量,而是標準化變量*載荷圖(LoadingPlot)直觀顯示主成分對原始6變量的解釋情況圖中橫軸表示第一個主成分與原始變量間的相關系數(shù);縱軸表示第二個主成分與原始變量之間的相關系數(shù)每一個變量對應的主成分載荷就對應坐標系中的一個點,比如,人均GDP變量對應的點是(0.670,0.725)第一個主成分很充分地解釋了原始的6個變量(與每個原始變量都有較強的正相關關系),第二個主成分則較好地解釋了居民消費水平、人均GDP和年末總?cè)丝谶@3個變量(與它們的相關關系較高),而與其他變量的關系則較弱(相關系數(shù)的點靠近坐標軸)怎樣解釋主成分?

(LoadingPlot)相關系數(shù)的點越遠離坐標軸,主成分對原始變量的代表性就越大。這3個點遠離主成分2的坐標12.2因子分析

12.2.1因子分析的意義和數(shù)學模型

12.2.2因子分析的步驟

12.2.3因子分析的應用第12章主成分分析和因子分析12.2.1因子分析的意義和數(shù)學模型12.2因子分析*由CharlesSpearman于1904年首次提出的與主成分分析類似,它們都是要找出少數(shù)幾個新的變量來代替原始變量不同之處:主成分分析中的主成分個數(shù)與原始變量個數(shù)是一樣的,即有幾個變量就有幾個主成分,只不過最后我們確定了少數(shù)幾個主成分而已。而因子分析則需要事先確定要找?guī)讉€成分,也稱為因子(factor),然后將原始變量綜合為少數(shù)的幾個因子,以再現(xiàn)原始變量與因子之間的關系,一般來說,因子的個數(shù)會遠遠少于原始變量的個數(shù)什么是因子分析?

(factoranalysis)*因子分析可以看作是主成分分析的推廣和擴展,但它對問題的研究更深入、更細致一些。實際上,主成分分析可以看作是因子分析的一個特例通過對變量之間關系的研究,找出能綜合原始變量的少數(shù)幾個因子,使得少數(shù)因子能夠反映原始變量的絕大部分信息,然后根據(jù)相關性的大小將原始變量分組,使得組內(nèi)的變量之間相關性較高,而不同組的變量之間相關性較低屬于多元統(tǒng)計中處理降維的一種統(tǒng)計方法,其目的就是要減少變量的個數(shù),用少數(shù)因子代表多個原始變量什么是因子分析?

(factoranalysis)*因變量和因子個數(shù)的不一致,使得不僅在數(shù)學模型上,而且在實際求解過程中,因子分析和主成分分析都有著一定的區(qū)別,計算上因子分析更為復雜因子分析可能存在的一個優(yōu)點是:在對主成分和原始變量之間的關系進行描述時,如果主成分的直觀意義比較模糊不易解釋,主成分分析沒有更好的改進方法;因子分析則額外提供了“因子旋轉(zhuǎn)(factorrotation)”這樣一個步驟,可以使分析結(jié)果盡可能達到易于解釋且更為合理的目的因子分析的數(shù)學模型*原始的p個變量表達為k個因子的線性組合變量設p個原始變量為,要尋找的k個因子(k<p)為,主成分和原始變量之間的關系表示為因子分析的數(shù)學模型因子分析的數(shù)學模型系數(shù)aij為第個i變量與第k個因子之間的線性相關系數(shù),反映變量與因子之間的相關程度,也稱為載荷(loading)。由于因子出現(xiàn)在每個原始變量與因子的線性組合中,因此也稱為公因子。

為特殊因子,代表公因子以外的因素影響*共同度量(Communality)因子的方差貢獻率因子分析的數(shù)學模型

(共同度量Communality和公因子的方差貢獻率)變量xi的信息能夠被k個公因子解釋的程度,用k個公因子對第i個變量xi的方差貢獻率表示第j個公因子對變量xi的提供的方差總和,反映第j個公因子的相對重要程度12.2.2因子分析的步驟12.2因子分析*因子分析要求樣本的個數(shù)要足夠多一般要求樣本的個數(shù)至少是變量的5倍以上。同時,樣本總數(shù)據(jù)量理論要求應該在100以上用于因子分析的變量必須是相關的如果原始變量都是獨立的,意味著每個變量的作用都是不可替代的,則無法降維檢驗方法計算各變量之間的相關矩陣,觀察各相關系數(shù)。若相關矩陣中的大部分相關系數(shù)小于0.3,則不適合作因子分析使用Kaiser-Meyer-Olkin檢驗(簡稱KMO檢驗)和Bartlett球度檢驗(Bartlett’stestofsphericity)來判斷(SPSS將兩種檢驗統(tǒng)稱為“KMOandBartlett’stestofsphericity”)因子分析的步驟

(數(shù)據(jù)檢驗)*Bartlett球度檢驗以變量的相關系數(shù)矩陣為基礎,假設相關系數(shù)矩陣是單位陣(對角線元素不為0,非對角線元素均為0)。如果相關矩陣是單位陣,則各變量是獨立的,無法進行因子分析KMO檢驗用于檢驗變量間的偏相關性,KMO統(tǒng)計量的取值在0~1之間如果統(tǒng)計量取值越接近1,變量間的偏相關性越強,因子分析的效果就越好KMO統(tǒng)計量在0.7以上時,因子分析效果較好;KMO統(tǒng)計量在0.5以下時,因子分析效果很差因子分析的步驟

(數(shù)據(jù)檢驗)*Principalcomponents(主成分法):多數(shù)情況下可以使用該方法(這也是SPSS的默認選項)。通過主成分分析的思想提取公因子,它假設變量是因子的線性組合UnweightLeastSquare(不加權最小平方法):該方法使實際的相關矩陣和再生的相關矩陣之差的平方和達到最小GeneralizedLeastSquare(加權最小平方法):用變

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論