版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第1頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月1、多元線性回歸模型及實(shí)例2、多元線性回歸模型的顯著性檢驗(yàn)3、多元線性回歸模型的診斷4、非線性回歸一、多元回歸分析第2頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月
1、多元線性回歸模型
一個(gè)因變量與兩個(gè)及兩個(gè)以上自變量的回歸。描述因變量y如何依賴(lài)于自變量x1,x2,…,xp
和誤差項(xiàng)
的方程,稱(chēng)為多元回歸模型。涉及k個(gè)自變量的多元回歸模型可表示為:
b0
,b1,b2
,,bp是參數(shù);
是被稱(chēng)為誤差項(xiàng)的隨機(jī)變量;y是x1,,x2
,,xp
的線性函數(shù)加上誤差項(xiàng);
包含在y里面但不能被p個(gè)自變量的線性關(guān)系所解釋的變異性。第3頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月多元線性回歸模型
(基本假定)1.解釋變量x1,x2,…,xp是確定性變量.不是隨機(jī)變量,且要求樣本容量的個(gè)數(shù)應(yīng)大于解釋變量的個(gè)數(shù)。2.誤差項(xiàng)ε是一個(gè)期望值為0的隨機(jī)變量,即E()=0。3.對(duì)于自變量x1,x2,…,xp的所有值,的方差2都相同。4.誤差項(xiàng)ε是一個(gè)服從正態(tài)分布的隨機(jī)變量,即ε~N(0,2),且相互獨(dú)立。第4頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月二元線性回歸方程的直觀解釋二元線性回歸模型(觀察到的y)回歸面0ix1yx2(x1,x2)}第5頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月
多元線性回歸方程的參數(shù)估計(jì)
用樣本統(tǒng)計(jì)量估計(jì)回歸方程中的參數(shù)
時(shí)得到的方程。由最小二乘法求得。一般形式為是的估計(jì)值;是y的估計(jì)值。第6頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月參數(shù)的最小二乘法求解各回歸參數(shù)的標(biāo)準(zhǔn)方程如下使因變量的觀察值與估計(jì)值之間的離差平方和達(dá)到最小來(lái)求得
。即第7頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月參數(shù)的最小二乘法
(例題分析)例1生產(chǎn)總值是衡量一個(gè)國(guó)家地區(qū)經(jīng)濟(jì)發(fā)展的重要指標(biāo),影響一個(gè)國(guó)家或地區(qū)生產(chǎn)總值的因素包括資本、資源、科技、勞動(dòng)力、進(jìn)出口、國(guó)家基礎(chǔ)設(shè)施建設(shè)等方面的因素。本例研究財(cái)政支出對(duì)生產(chǎn)總值的影響。《中國(guó)統(tǒng)計(jì)年鑒》把財(cái)政支出劃分為31個(gè)組成部分,本例只選取其中的13個(gè)重要支出項(xiàng)。第8頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月回歸系數(shù)表用spss軟件計(jì)算的回歸系數(shù)如下:第9頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月
需要注意的是,這一回歸方程并不理想,回歸系數(shù)的經(jīng)濟(jì)意義不好解釋?zhuān)@里只是作為多元線性回歸參數(shù)估計(jì)的一例,后邊我們還要進(jìn)一步完善這一模型的建立。第10頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月2、回歸方程顯著性檢驗(yàn)檢驗(yàn)因變量與所有自變量之間的線性關(guān)系是否顯著;也被稱(chēng)為總體的顯著性檢驗(yàn)。檢驗(yàn)方法是將回歸均方(MSR)同殘差均方(MSE)加以比較,應(yīng)用F檢驗(yàn)來(lái)分析二者之間的差別是否顯著如果是顯著的,因變量與自變量之間存在線性關(guān)系;如果不顯著,因變量與自變量之間不存在線性關(guān)系。第11頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月線性關(guān)系檢驗(yàn)提出假設(shè)H0:12p=0線性關(guān)系不顯著H1:1,2,p至少有一個(gè)不等于02.計(jì)算檢驗(yàn)統(tǒng)計(jì)量F確定顯著性水平和分子自由度k、分母自由度n-k-1找出臨界值F
4.作出決策:若F>F
,拒絕H0第12頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月表中的Sig即為顯著性P值,由P值=0.000(近似值)可知回歸方程十分顯著。即可以以99.9%以上的概率斷言自變量所有自變量全體對(duì)因變量產(chǎn)生顯著線性影響。對(duì)例1回歸方程的檢驗(yàn):
第13頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月回歸系數(shù)顯著性檢驗(yàn)線性關(guān)系檢驗(yàn)通過(guò)后,對(duì)各個(gè)回歸系數(shù)有選擇地進(jìn)行一次或多次檢驗(yàn)對(duì)每一個(gè)自變量都要單獨(dú)進(jìn)行檢驗(yàn)應(yīng)用t檢驗(yàn)統(tǒng)計(jì)量第14頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月回歸系數(shù)的檢驗(yàn)步驟提出假設(shè)H0:bi=0(自變量xi
與
因變量y沒(méi)有線性關(guān)系)H1:bi
0(自變量xi
與
因變量y有線性關(guān)系)計(jì)算檢驗(yàn)的統(tǒng)計(jì)量t確定顯著性水平,并進(jìn)行決策t>t,拒絕H0;t<t,不拒絕H0第15頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月回歸系數(shù)的推斷
(置信區(qū)間)回歸系數(shù)在(1-)%置信水平下的置信區(qū)間為
回歸系數(shù)的抽樣標(biāo)準(zhǔn)差第16頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月例4.1spss計(jì)算出的t值和P值對(duì)回歸系數(shù)的檢驗(yàn):第17頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月結(jié)果發(fā)現(xiàn):
并不是所有的自變量單獨(dú)對(duì)因變量都有顯著性影響,最大的P值為0.926>0.05,在取顯著性水平a=0.05時(shí)通不過(guò)顯著性檢驗(yàn)。這個(gè)例子說(shuō)明:盡管回歸方程通過(guò)了顯著性檢驗(yàn),但也會(huì)出現(xiàn)某些單個(gè)自變量(甚至每一個(gè))對(duì)因變量并不顯著的情況。由于某些自變量不顯著,因而在多元回歸中并不是包含在回歸方程中的自變量越多越好。第18頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月在此介紹一種剔除多余自變量的方法剔除x3科技三項(xiàng)費(fèi)后:第19頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月剔除x6工交部門(mén)事業(yè)費(fèi)后:第20頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月依次剔除,最終只保留x1,x2,x4,x8,x10,x11,x12,x13,其回歸系數(shù)見(jiàn)下表:第21頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月多元線性回歸分析操作(一)基本操作步驟(1)菜單選項(xiàng):analyze->regression->linear…(2)選擇一個(gè)變量為因變量進(jìn)入dependent框(3)選擇一個(gè)或多個(gè)變量為自變量進(jìn)入independent框(4)選擇多元回歸分析的自變量篩選方法:enter:所選變量全部進(jìn)入回歸方程(默認(rèn)方法)remove:從回歸方程中剔除變量stepwise:逐步篩選;backward:向后篩選;forward:向前篩選(5)對(duì)樣本進(jìn)行篩選(selectionvariable)利用滿(mǎn)足一定條件的樣本數(shù)據(jù)進(jìn)行回歸分析(6)指定作圖時(shí)各數(shù)據(jù)點(diǎn)的標(biāo)志變量(caselabels)第22頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月多元線性回歸分析操作(二)statistics選項(xiàng)(1)基本統(tǒng)計(jì)量輸出Partandpartialcorrelation:與Y的簡(jiǎn)單相關(guān)、偏相關(guān)和部分相關(guān)Rsquarechange:每個(gè)自變量進(jìn)入方程后R2及F值的變化量Collinearitydignostics:共線性診斷.第23頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月多元線性回歸分析操作例2某醫(yī)生為了探討缺碘地區(qū)母嬰TSH水平的關(guān)系,隨機(jī)抽取10對(duì)數(shù)據(jù)如下,試求臍帶血TSH水平y(tǒng)對(duì)母血TSH水平x的直線回歸方程。第24頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月第25頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月Analyze
→Regression→Linear…
檢驗(yàn)步驟第26頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月LinearRegression對(duì)話框應(yīng)變量自變量計(jì)算統(tǒng)計(jì)量第27頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月Statistics對(duì)話框回歸系數(shù)估計(jì)回歸系數(shù)可信區(qū)間模型檢驗(yàn)統(tǒng)計(jì)描述第28頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月點(diǎn)擊“OK”,運(yùn)行結(jié)果第29頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月結(jié)果輸出第30頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月統(tǒng)計(jì)描述第31頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月相關(guān)系數(shù)及假設(shè)檢驗(yàn)結(jié)果P值相關(guān)系數(shù)第32頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月相關(guān)系數(shù)及決定系數(shù)R值=相關(guān)系數(shù)R的平方修正的R方第33頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月回歸方程的方差分析回歸平方和剩余平方和自由度均方F值P值第34頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月回歸系數(shù)及其統(tǒng)計(jì)推斷結(jié)果標(biāo)準(zhǔn)化系數(shù)是指把原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理之后回歸的結(jié)果。此時(shí)回歸方程中常數(shù)項(xiàng)為零。第35頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月回歸系數(shù)及其統(tǒng)計(jì)推斷結(jié)果常數(shù)項(xiàng)自變量非標(biāo)準(zhǔn)化回歸系數(shù)標(biāo)準(zhǔn)化回歸系數(shù)a值b值第36頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月回歸系數(shù)及其統(tǒng)計(jì)推斷結(jié)果t值P值回歸系數(shù)可信區(qū)間第37頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月3、多元線性回歸模型的診斷異方差性自相關(guān)性多重共線性第38頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月異方差性產(chǎn)生的原因:
,當(dāng)時(shí)。例:在研究城鎮(zhèn)居民收入與購(gòu)買(mǎi)量的關(guān)系時(shí),我們知道居民收入與消費(fèi)水平有著密切的關(guān)系,用表示第i戶(hù)的收入量,表示第i戶(hù)的消費(fèi)額,則簡(jiǎn)單的消費(fèi)模型為
在此問(wèn)題中,由于各戶(hù)的收入不同,消費(fèi)觀念和習(xí)慣的差異,通常存在明顯的差異性。一般情況下,低收入家庭購(gòu)買(mǎi)差異比較小,而高收入家庭購(gòu)買(mǎi)差異相對(duì)較大。第39頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月異方差性當(dāng)存在異方差時(shí),普通最小二乘法存在以下問(wèn)題★參數(shù)估計(jì)值雖是無(wú)偏的,但不是最小方差線性無(wú)偏估計(jì);★參數(shù)的顯著性檢驗(yàn)失效;★回歸方程的應(yīng)用效果極不理想。診斷方法:★殘差圖分析法:直觀、方便。以殘差為縱坐標(biāo),其它適宜變量(如擬合值、自變量或觀測(cè)時(shí)間等)為橫坐標(biāo)畫(huà)散點(diǎn)圖。如點(diǎn)的散布是隨機(jī)的,則滿(mǎn)足基本假定;如散布有規(guī)律性,存在異方差?!锏燃?jí)相關(guān)系數(shù)法(Spearman檢驗(yàn)):廣泛。三步驟:
第40頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月異方差性第一步:作y關(guān)于x的普通最小二乘回歸,求出的估計(jì)值,即第二步:取的絕對(duì)值,把和按遞增或遞減的次序排列分成等級(jí),按下式計(jì)算出等級(jí)相關(guān)系數(shù)其中n為樣本容量,為等級(jí)的差數(shù)。第三步:做等級(jí)相關(guān)系數(shù)的顯著性檢驗(yàn)。在n>8的情況下,檢驗(yàn)統(tǒng)計(jì)量為如果,存在異方差。第41頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月異方差性消除異方差的方法:
加權(quán)最小二乘法(最常用)
Box- Cox變換法方差穩(wěn)定性變換法第42頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月自相關(guān)性產(chǎn)生的原因:1、遺漏關(guān)鍵變量;2、經(jīng)濟(jì)變量的滯后性;3、采用錯(cuò)誤的回歸函數(shù)形式;4、蛛網(wǎng)現(xiàn)象;5、對(duì)數(shù)據(jù)加工整理。第43頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月自相關(guān)性診斷方法:★圖示檢驗(yàn)法★自相關(guān)系數(shù)法再用DW檢驗(yàn)。第44頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月自相關(guān)性消除自相關(guān)的方法:
迭代法差分法第45頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月多重共線性診斷方法:★方差擴(kuò)大因子法
SPSS:在線性回歸對(duì)話框的Statitics選項(xiàng)框中點(diǎn)選
CollinearityDiagnostic共線性診斷選項(xiàng),然后作回歸?!锾卣鞲卸ǚā镏庇^判定法:如增加或剔除一個(gè)自變量時(shí),回歸系數(shù)的估計(jì)值發(fā)生較大變化;定性分析的重要自變量在回歸方程中沒(méi)有通過(guò)顯著性檢驗(yàn);重要自變量的回歸系數(shù)的標(biāo)準(zhǔn)誤差較大等。消除方法:
1、剔除一些不重要的解釋變量2、增大樣本容量
3、回歸系數(shù)的有偏估計(jì)第46頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月非線性回歸非線性回歸模型參數(shù)估計(jì):非線性最小二乘估計(jì)SPSS操作步驟:
1、散點(diǎn)圖,確定非線性關(guān)系
2、Regression菜單下點(diǎn)選Nonlinear,進(jìn)入非線性回歸對(duì)話框。
第47頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月本章結(jié)束第48頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月2、聚類(lèi)分析第49頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月分類(lèi)俗語(yǔ)說(shuō),物以類(lèi)聚、人以群分。但什么是分類(lèi)的根據(jù)呢?比如,要想把中國(guó)的縣分成若干類(lèi),就有很多種分類(lèi)法,可以按照自然條件來(lái)分,比如考慮降水、土地、日照、濕度等各方面;也可以考慮收入、教育水準(zhǔn)、醫(yī)療條件、基礎(chǔ)設(shè)施等指標(biāo);既可以用某一項(xiàng)來(lái)分類(lèi),也可以同時(shí)考慮多項(xiàng)指標(biāo)來(lái)分類(lèi)。
第50頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月聚類(lèi)分析對(duì)于一個(gè)數(shù)據(jù),人們既可以對(duì)變量(指標(biāo))進(jìn)行分類(lèi)(相當(dāng)于對(duì)數(shù)據(jù)中的列分類(lèi)),也可以對(duì)觀測(cè)值(事件,樣品)來(lái)分類(lèi)(相當(dāng)于對(duì)數(shù)據(jù)中的行分類(lèi))。比如學(xué)生成績(jī)數(shù)據(jù)就可以對(duì)學(xué)生按照理科或文科成績(jī)(或者綜合考慮各科成績(jī))分類(lèi),當(dāng)然,并不一定事先假定有多少類(lèi),完全可以按照數(shù)據(jù)本身的規(guī)律來(lái)分類(lèi)。本章要介紹的分類(lèi)的方法稱(chēng)為聚類(lèi)分析(clusteranalysis)。對(duì)變量的聚類(lèi)稱(chēng)為R型聚類(lèi),而對(duì)觀測(cè)值聚類(lèi)稱(chēng)為Q型聚類(lèi)。這兩種聚類(lèi)在數(shù)學(xué)上是對(duì)稱(chēng)的,沒(méi)有什么不同。第51頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月如何度量遠(yuǎn)近?如果想要對(duì)100個(gè)學(xué)生進(jìn)行分類(lèi),如果僅僅知道他們的數(shù)學(xué)成績(jī),則只好按照數(shù)學(xué)成績(jī)來(lái)分類(lèi);這些成績(jī)?cè)谥本€上形成100個(gè)點(diǎn)。這樣就可以把接近的點(diǎn)放到一類(lèi)。如果還知道他們的物理成績(jī),這樣數(shù)學(xué)和物理成績(jī)就形成二維平面上的100個(gè)點(diǎn),也可以按照距離遠(yuǎn)近來(lái)分類(lèi)。三維或者更高維的情況也是類(lèi)似;只不過(guò)三維以上的圖形無(wú)法直觀地畫(huà)出來(lái)而已。在飲料數(shù)據(jù)中,每種飲料都有四個(gè)變量值。這就是四維空間點(diǎn)的問(wèn)題了。第52頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月兩個(gè)距離概念按照遠(yuǎn)近程度來(lái)聚類(lèi)需要明確兩個(gè)概念:一個(gè)是點(diǎn)和點(diǎn)之間的距離,一個(gè)是類(lèi)和類(lèi)之間的距離。點(diǎn)間距離有很多定義方式。最簡(jiǎn)單的是歐氏距離,還有其他的距離。由一個(gè)點(diǎn)組成的類(lèi)是最基本的類(lèi);如果每一類(lèi)都由一個(gè)點(diǎn)組成,那么點(diǎn)間的距離就是類(lèi)間距離。但是如果某一類(lèi)包含不止一個(gè)點(diǎn),那么就要確定類(lèi)間距離,類(lèi)間距離是基于點(diǎn)間距離定義的:比如兩類(lèi)之間最近點(diǎn)之間的距離可以作為這兩類(lèi)之間的距離,也可以用兩類(lèi)中最遠(yuǎn)點(diǎn)之間的距離作為這兩類(lèi)之間的距離;當(dāng)然也可以用各類(lèi)的中心之間的距離來(lái)作為類(lèi)間距離。在計(jì)算時(shí),各種點(diǎn)間距離和類(lèi)間距離的選擇是通過(guò)統(tǒng)計(jì)軟件的選項(xiàng)實(shí)現(xiàn)的。不同的選擇的結(jié)果會(huì)不同,但一般不會(huì)差太多。第53頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月:平方歐氏距離:Block(絕對(duì)距離):Si|xi-yi|Minkowski距離:當(dāng)變量的測(cè)量值相差懸殊時(shí),要先進(jìn)行標(biāo)準(zhǔn)化.如R為極差,s為標(biāo)準(zhǔn)差,則標(biāo)準(zhǔn)化的數(shù)據(jù)為每個(gè)觀測(cè)值減去均值后再除以R或s.當(dāng)觀測(cè)值大于0時(shí),有人采用Lance距離歐氏距離距離公式第54頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月最短距離法:最長(zhǎng)距離法:重心法:離差平方和:(Wald)類(lèi)平均法:類(lèi)間距離第55頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月聚類(lèi)分析的實(shí)質(zhì)就是按照距離的遠(yuǎn)近將數(shù)據(jù)分為若干個(gè)類(lèi)型,以使得類(lèi)別內(nèi)數(shù)據(jù)的“差異”盡可能小,類(lèi)別間“差異”盡可能大。如何描述“差異”?通常的做法是通過(guò)距離和相似性的方式來(lái)描述。聚類(lèi)分析第56頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月1、層次聚類(lèi)法:根據(jù)定義的距離把距離接近的數(shù)據(jù)一步一步歸為一類(lèi)直到數(shù)據(jù)完全歸為一類(lèi),最后再利用一些相應(yīng)的指標(biāo)來(lái)確定聚為幾類(lèi)是合適的。樹(shù)狀圖是層次聚類(lèi)法結(jié)果解釋的重要工具。Analyze—Classify—HierarchicalCluster
事先不用確定分多少類(lèi)層次聚類(lèi)法第57頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月2、非層次聚類(lèi)法:給定類(lèi)別個(gè)數(shù)將案例快速的分為K類(lèi),然后使用迭代的方式把數(shù)據(jù)在不同類(lèi)別之間移動(dòng),直到達(dá)到一定的標(biāo)準(zhǔn)為止。K-均值聚類(lèi)法為主Analyze—Classify—K-MeansCluster
事先要確定分多少類(lèi)非層次聚類(lèi)法第58頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月層次聚類(lèi)法的優(yōu)點(diǎn):
1、變量可以是連續(xù)的,也可以是分類(lèi)變量;
2、提供的距離測(cè)量方法也非常豐富;缺點(diǎn):由于每合并一次就要計(jì)算一次距離,故運(yùn)算速度較慢。優(yōu)缺點(diǎn)
第59頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月一、在SPSS中利用系統(tǒng)聚類(lèi)法進(jìn)行
聚類(lèi)分析設(shè)有20個(gè)土壤樣品分別對(duì)5個(gè)變量的觀測(cè)數(shù)據(jù)如表5.16所示,試?yán)孟到y(tǒng)聚類(lèi)法對(duì)其進(jìn)行樣品聚類(lèi)分析。表5.16土壤樣本的觀測(cè)數(shù)據(jù)第60頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月第61頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月
(一)操作步驟 1.在SPSS窗口中選擇Analyze→Classify→HierachicalCluster,調(diào)出系統(tǒng)聚類(lèi)分析主界面,并將變量X1~X5移入Variables框中。在Cluster欄中選擇Cases單選按鈕,即對(duì)樣品進(jìn)行聚類(lèi)(若選擇Variables,則對(duì)變量進(jìn)行聚類(lèi))。在Display欄中選擇Statistics和Plots復(fù)選框,這樣在結(jié)果輸出窗口中可以同時(shí)得到聚類(lèi)結(jié)果統(tǒng)計(jì)量和統(tǒng)計(jì)圖。第62頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月圖5.9系統(tǒng)聚類(lèi)法主界面第63頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月2.點(diǎn)擊Statistics按鈕,設(shè)置在結(jié)果輸出窗口中給出的聚類(lèi)分析統(tǒng)計(jì)量。這里我們選擇系統(tǒng)默認(rèn)值,點(diǎn)擊Continue按鈕,返回主界面。3.點(diǎn)擊Plots按鈕,設(shè)置結(jié)果輸出窗口中給出的聚類(lèi)分析統(tǒng)計(jì)圖。選中Dendrogram復(fù)選框和Icicle欄中的None單選按鈕,即只給出聚類(lèi)樹(shù)形圖,而不給出冰柱圖。單擊Continue按鈕,返回主界面。圖5.10Plots子對(duì)話框第64頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月4.點(diǎn)擊Method按鈕,設(shè)置系統(tǒng)聚類(lèi)的方法選項(xiàng)。ClusterMethod下拉列表用于指定聚類(lèi)的方法,包括組間連接法、組內(nèi)連接法、最近距離法、最遠(yuǎn)距離法等;Measure欄用于選擇對(duì)距離和相似性的測(cè)度方法;剩下的TransformValues和TransformMeasures欄用于選擇對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化的方法。這里我們?nèi)匀痪赜孟到y(tǒng)默認(rèn)選項(xiàng)。單擊Continue按鈕,返回主界面。第65頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月圖5.11Method子對(duì)話框第66頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月5.點(diǎn)擊Save按鈕,指定保存在數(shù)據(jù)文件中的用于表明聚類(lèi)結(jié)果的新變量。None表示不保存任何新變量;Singlesolution表示生成一個(gè)分類(lèi)變量,在其后的矩形框中輸入要分成的類(lèi)數(shù);Rangeofsolutions表示生成多個(gè)分類(lèi)變量。這里我們選擇Rangeofsolutions,并在后面的兩個(gè)矩形框中分別輸入2和4,即生成三個(gè)新的分類(lèi)變量,分別表明將樣品分為2類(lèi)、3類(lèi)和4類(lèi)時(shí)的聚類(lèi)結(jié)果。點(diǎn)擊Continue,返回主界面。第67頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月圖5.12Save子對(duì)話框6.點(diǎn)擊OK按鈕,運(yùn)行系統(tǒng)聚類(lèi)過(guò)程。第68頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月(二)主要運(yùn)行結(jié)果解釋1.在結(jié)果輸出窗口中我們可以看到聚類(lèi)樹(shù)形圖(Dendrogram)。從樹(shù)形圖5.12可以清楚地看到,若將20個(gè)樣品分為兩類(lèi),則樣品2、6、19、7、和樣品1為一類(lèi),其余的為另一類(lèi);若將樣品分為三類(lèi),則樣品8、9、4從第二類(lèi)中分離出來(lái),自成一類(lèi);依此類(lèi)推。第69頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月圖5.13系統(tǒng)聚類(lèi)法樹(shù)形圖第70頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月2.由于我們已經(jīng)在Save子對(duì)話框中設(shè)置了在數(shù)據(jù)文件中生成新的分類(lèi)變量,所以,在數(shù)據(jù)編輯窗口中,我們可以看到生成的三個(gè)表示分類(lèi)結(jié)果的新變量。變量名為clu4_1、clu3_1和clu2-1的三個(gè)分類(lèi)變量分別表明了把樣品分成4類(lèi)、3類(lèi)和2類(lèi)的分類(lèi)情況。圖5.14生成三個(gè)新的分類(lèi)變量第71頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月二、在SPSS中利用K均值法進(jìn)行聚類(lèi)分析我國(guó)各地區(qū)2003年三次產(chǎn)業(yè)產(chǎn)值如表5.17所示,試根據(jù)三次產(chǎn)業(yè)產(chǎn)值利用K均值法對(duì)我國(guó)31個(gè)省、自治區(qū)和直轄市進(jìn)行聚類(lèi)分析。第72頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月當(dāng)要聚成的類(lèi)數(shù)確定時(shí),使用K均值法可以很快將觀測(cè)量分到各類(lèi)中去,而且該方法處理速度快,占用內(nèi)存少,尤其適用于大樣本的聚類(lèi)分析。(一)操作步驟1.在SPSS窗口中選擇Analyze→Classify→K-MeansCluster,調(diào)出K均值聚類(lèi)分析主界面,并將變量—移入Variables框中,將標(biāo)志變量Region移入LabelCaseby框中。在Method框中選擇Iterateclassify,即使用K-means算法不斷計(jì)算新的類(lèi)中心,并替換舊的類(lèi)中心(若選擇Classifyonly,則根據(jù)初始類(lèi)中心進(jìn)行聚類(lèi),在聚類(lèi)過(guò)程中不改變類(lèi)中心)。在NumberofCluster后面的矩形框中輸入想要把樣品聚成的類(lèi)數(shù),這里我們輸入3,即將31個(gè)地區(qū)分為3類(lèi)。至于Centers按鈕,則用于設(shè)置迭代的初始類(lèi)中心。如果不手工設(shè)置,則系統(tǒng)會(huì)自動(dòng)設(shè)置初始類(lèi)中心,這里我們不作設(shè)置。第73頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月圖5.15K均值聚類(lèi)分析主界面第74頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月
2.點(diǎn)擊Iterate按鈕,對(duì)迭代參數(shù)進(jìn)行設(shè)置。MaximumIterations參數(shù)框用于設(shè)定K-means算法迭代的最大次數(shù),ConvergenceCriterion參數(shù)框用于設(shè)定算法的收斂判據(jù),其值應(yīng)該介于0和1之間。例如判據(jù)設(shè)置為0.02,則當(dāng)一次完整的迭代不能使任何一個(gè)類(lèi)中心距離的變動(dòng)與原始類(lèi)中心距離的比小于2時(shí),迭代停止。設(shè)置完這兩個(gè)參數(shù)之后,只要在迭代的過(guò)程中先滿(mǎn)足了其中的參數(shù),則迭代過(guò)程就停止。這里我們選擇系統(tǒng)默認(rèn)的標(biāo)準(zhǔn)。單擊Continue,返回主界面。圖5.16Iterate子對(duì)話框第75頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月
3.點(diǎn)擊Save按鈕,設(shè)置保存在數(shù)據(jù)文件中的表明聚類(lèi)結(jié)果的新變量。其中Clustermembership選項(xiàng)用于建立一個(gè)代表聚類(lèi)結(jié)果的變量,默認(rèn)變量名為qcl_1;Distancefromclustercenter選項(xiàng)建立一個(gè)新變量,代表各觀測(cè)量與其所屬類(lèi)中心的歐氏距離。我們將兩個(gè)復(fù)選框都選中,單擊Continue按鈕返回。圖5.17Save子對(duì)話框第76頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月
4.點(diǎn)擊Options按鈕,指定要計(jì)算的統(tǒng)計(jì)量。選中Initialclustercenters和Clusterinformationforeachcase復(fù)選框。這樣,在輸出窗口中將給出聚類(lèi)的初始類(lèi)中心和每個(gè)觀測(cè)量的分類(lèi)信息,包括分配到哪一類(lèi)和該觀測(cè)量距所屬類(lèi)中心的距離。單擊Continue返回。
5.點(diǎn)擊OK按鈕,運(yùn)行K均值聚類(lèi)分析程序。圖5.18Options子對(duì)話框第77頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月 (二)主要運(yùn)行結(jié)果解釋
1.InitialClusterCenters(給出初始類(lèi)中心)
2.IterationHistory(給出每次迭代結(jié)束后類(lèi)中心的變動(dòng)) 從表5.18中可以看到本次聚類(lèi)過(guò)程共經(jīng)歷了三次迭代。由于我們?cè)贗terate子對(duì)話框中使用系統(tǒng)默認(rèn)的選項(xiàng)(最大迭代次數(shù)為10和收斂判據(jù)為0),所以在第三次迭代后,類(lèi)中心的變化為0,從而迭代停止。第78頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月
3.ClusterMembership(給出各觀測(cè)量所屬的類(lèi)及與所屬類(lèi)中心的距離) 表5.19中Cluster列給出了觀測(cè)量所屬的類(lèi)別,Distance列給出了觀測(cè)量與所屬類(lèi)中心的距離。(出于排版要求,此表經(jīng)過(guò)加工,因此與原始輸出表形態(tài)有一定差異)。表5.18迭代過(guò)程中類(lèi)中心的變化量第79頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月表5.19各觀測(cè)量所屬類(lèi)成員表第80頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月
4.FinalClusterCenters(給出聚類(lèi)結(jié)果形成的類(lèi)中心的各變量值)表5.20最終的類(lèi)中心表第81頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月結(jié)合表5.19和表5.20,我們可以看出31個(gè)地區(qū)被分成3類(lèi)。第一類(lèi)包括:江蘇、浙江、山東和廣東4個(gè)省。這一類(lèi)的類(lèi)中心三個(gè)產(chǎn)業(yè)的產(chǎn)值分別為1102.14億元、6423.01億元和4454.26億元,屬于三個(gè)產(chǎn)業(yè)都比較發(fā)達(dá)的地區(qū)。第二類(lèi)包括:天津、山西、內(nèi)蒙古、吉林、江西、廣西、海南、重慶、貴州、云南、西藏、陜西、甘肅、青海、寧夏和新疆16個(gè)地區(qū)。這一類(lèi)的類(lèi)中心三個(gè)產(chǎn)業(yè)的產(chǎn)值分別為307.61億元、795.41億元和673.63億元,屬于欠發(fā)達(dá)地區(qū)。剩下的11個(gè)地區(qū)為第三類(lèi)。這一類(lèi)的類(lèi)中心三個(gè)產(chǎn)業(yè)的產(chǎn)值分別為713.28億元、2545.20億元和212.87億元,屬于中等發(fā)達(dá)地區(qū)。
5.由于我們已經(jīng)在Save子對(duì)話框中設(shè)置了在數(shù)據(jù)文件中生成新的分類(lèi)變量,所以,在數(shù)據(jù)編輯窗口中,我們可以看到生成的兩個(gè)表示分類(lèi)結(jié)果的新變量。變量qcl_1和變量qcl_2分別代表分類(lèi)號(hào)和觀測(cè)量距所屬類(lèi)中心的距離。第82頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月聚類(lèi)要注意的問(wèn)題
聚類(lèi)結(jié)果主要受所選擇的變量影響。如果去掉一些變量,或者增加一些變量,結(jié)果會(huì)很不同。相比之下,聚類(lèi)方法的選擇則不那么重要了。因此,聚類(lèi)之前一定要目標(biāo)明確。
另外就分成多少類(lèi)來(lái)說(shuō),也要有道理。只要你高興,從分層聚類(lèi)的計(jì)算機(jī)結(jié)果可以得到任何可能數(shù)量的類(lèi)。但是,聚類(lèi)的目的是要使各類(lèi)距離盡可能的遠(yuǎn),而類(lèi)中點(diǎn)的距離盡可能的近,而且分類(lèi)結(jié)果還要有令人信服的解釋。這一點(diǎn)就不是數(shù)學(xué)可以解決的了。第83頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月本章結(jié)束第84頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月
3、主成分分析多元統(tǒng)計(jì)分析處理的是多變量(多指標(biāo))問(wèn)題。由于變量較多,增加了分析問(wèn)題的復(fù)雜性。但在實(shí)際問(wèn)題中,變量之間可能存在一定的相關(guān)性,因此,多變量中可能存在信息的重疊。人們自然希望通過(guò)克服相關(guān)性、重疊性,用較少的變量來(lái)代替原來(lái)較多的變量,而這種代替可以反映原來(lái)多個(gè)變量的大部分信息,這實(shí)際上是一種“降維”的思想。第85頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月主成分分析也稱(chēng)主分量分析,是由Hotelling于1933年首先提出的。由于多個(gè)變量之間往往存在著一定程度的相關(guān)性。人們自然希望通過(guò)線性組合的方式,從這些指標(biāo)中盡可能快地提取信息。當(dāng)?shù)谝粋€(gè)線性組合不能提取更多的信息時(shí),再考慮用第二個(gè)線性組合繼續(xù)這個(gè)快速提取的過(guò)程,……,直到所提取的信息與原指標(biāo)相差不多時(shí)為止。這就是主成分分析的思想。一般說(shuō)來(lái),在主成分分析適用的場(chǎng)合,用較少的主成分就可以得到較多的信息量。以各個(gè)主成分為分量,就得到一個(gè)更低維的隨機(jī)向量;因此,通過(guò)主成分既可以降低數(shù)據(jù)“維數(shù)”又保留了原數(shù)據(jù)的大部分信息。第86頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月
第87頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月第五節(jié)實(shí)例分析與計(jì)算機(jī)實(shí)現(xiàn)一主成分分析實(shí)例
二利用SPSS進(jìn)行主成分分析
第88頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月一、主成分分析實(shí)例表6.1是某市工業(yè)部門(mén)13個(gè)行業(yè)的8項(xiàng)重要經(jīng)濟(jì)指標(biāo)的數(shù)據(jù),這8項(xiàng)經(jīng)濟(jì)指標(biāo)分別是:
X1:年末固定資產(chǎn)凈值,單位:萬(wàn)元;
X2:職工人數(shù)據(jù),單位:人;
X3:工業(yè)總產(chǎn)值,單位:萬(wàn)元;
X4:全員勞動(dòng)生產(chǎn)率,單位:元/人年;
X5:百元固定資產(chǎn)原值實(shí)現(xiàn)產(chǎn)值,單位:元;
X6:資金利稅率,單位:%;
X7:標(biāo)準(zhǔn)燃料消費(fèi)量,單位:噸;
X8:能源利用效果,單位:萬(wàn)元/噸。第89頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月表6.1某市工業(yè)部門(mén)13個(gè)行業(yè)8項(xiàng)指標(biāo)第90頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月我們要考慮的是:如何從這些經(jīng)濟(jì)指標(biāo)出發(fā),對(duì)各工業(yè)部門(mén)進(jìn)行綜合評(píng)價(jià)與排序?我們先計(jì)算這些指標(biāo)的主成分,然后通過(guò)主成分的大小進(jìn)行排序。表6.2和表6.3分別是特征根(累計(jì)貢獻(xiàn)率)和特征向量的信息。利用主成分得分進(jìn)行綜合評(píng)價(jià)時(shí),從特征向量我們可以寫(xiě)出所有8個(gè)主成分的具體形式:第91頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月表6.2特征根和累計(jì)貢獻(xiàn)率第92頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月表6.3特征向量第93頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月表6.4各行業(yè)主成分得分及排序第94頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月我們以特征根為權(quán),對(duì)8個(gè)主成分進(jìn)行加權(quán)綜合,得出各工業(yè)部門(mén)的綜合得分,具體數(shù)據(jù)見(jiàn)表6.4。綜合得分的計(jì)算公式是: 根據(jù)上式可計(jì)算出各工業(yè)部門(mén)的綜合得分,并可據(jù)此排序。從上表可以看出,機(jī)器行業(yè)在該地區(qū)的綜合評(píng)價(jià)排在第一,原始數(shù)據(jù)也反映出機(jī)器行業(yè)存在明顯的規(guī)模優(yōu)勢(shì),另外從前兩個(gè)主成分得分上看,該行業(yè)也排在第一位,同樣存在效益優(yōu)勢(shì);而排在最后三位的分別是皮革行業(yè)、電力行業(yè)和煤炭行業(yè)。第95頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月二、利用SPSS進(jìn)行主成分分析SPSS沒(méi)有提供主成分分析的專(zhuān)用功能,只有因子分析的功能。但是因子分析和主成分分析有著密切的聯(lián)系。因子分析的重要步驟——因子的提取最常用的方法就是“主成分法”。利用因子分析的結(jié)果,可以很容易地實(shí)現(xiàn)主成分分析。具體來(lái)講,就是利用因子載荷陣和相關(guān)系數(shù)矩陣的特征根來(lái)計(jì)算特征向量。即:其中,zij為第j個(gè)特征向量的第i個(gè)元素;aij為因子載荷陣第i 行第j列的元素;λj為第j個(gè)因子對(duì)應(yīng)的特征根。然后再利用 計(jì)算出的特征向量來(lái)計(jì)算主成分。以下是我國(guó)2005年第1、2季度分地區(qū)城鎮(zhèn)居民家庭收支基本情況。通過(guò)這個(gè)例子,介紹如何利用SPSS軟件實(shí)現(xiàn)主成分分析。第96頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月表6.5分地區(qū)城鎮(zhèn)居民家庭收支基本情況
第97頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月表6.5分地區(qū)城鎮(zhèn)居民家庭收支基本情況
第98頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月 (一)利用SPSS進(jìn)行因子分析將原始數(shù)據(jù)輸入SPSS數(shù)據(jù)編輯窗口,將5個(gè)變量分別命名為X1~X5。在SPSS窗口中選擇Analyze→DataReduction→Factor菜單項(xiàng),調(diào)出因子分析主界面,并將變量X1~X5移入Variables框中,其他均保持系統(tǒng)默認(rèn)選項(xiàng),單擊OK按鈕,執(zhí)行因子分析過(guò)程(關(guān)于因子分子在SPSS中實(shí)現(xiàn)的詳細(xì)過(guò)程,參見(jiàn)第7章實(shí)例)。得到如表6.6所示的特征根和方差貢獻(xiàn)率表和表6.7所示的因子載荷陣。表6.6中Total列為各因子對(duì)應(yīng)的特征根,本例中共提取兩個(gè)公因子;%ofVariance列為各因子的方差貢獻(xiàn)率;Cumulative%列為各因子累積方差貢獻(xiàn)率,由表中可以看出,前兩個(gè)因子已經(jīng)可以解釋79.31%的方差第99頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月圖6.2因子分析主界面第100頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月表6.6特征根和方差貢獻(xiàn)率表第101頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月 (二)利用因子分析結(jié)果進(jìn)行主成分分析
1.將表6.7中因子載荷陣中的數(shù)據(jù)輸入SPSS數(shù)據(jù)編輯窗口,分別命名為a1和a2。表6.7因子載荷陣第102頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月
2.為了計(jì)算第一個(gè)特征向量,點(diǎn)擊菜單項(xiàng)中的Transform→Compute,調(diào)出Computevariable對(duì)話框,在對(duì)話框中輸入等式:
z1=a1/SQRT(2.576)
點(diǎn)擊OK按鈕,即可在數(shù)據(jù)編輯窗口中得到以z1為變量名的第一特征向量。 再次調(diào)出Computevariable對(duì)話框,在對(duì)話框中輸入等式:
z2=a2/SQRT(1.389)
點(diǎn)擊OK按鈕,得到以z2為變量名第二特征向量。這樣,我們得到了如表6.8所示的特征向量矩陣。第103頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月圖6.3Computevariable對(duì)話框第104頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月根據(jù)表6.8可以得到主成分的表達(dá)式:
3.再次使用Compute命令,就可以計(jì)算得到兩個(gè)主成分。表6.8特征向量矩陣第105頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月本章結(jié)束第106頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月因子分析一般認(rèn)為因子分析是從CharlesSpearman在1904年發(fā)表的文章《對(duì)智力測(cè)驗(yàn)得分進(jìn)行統(tǒng)計(jì)分析》開(kāi)始,他提出這種方法用來(lái)解決智力測(cè)驗(yàn)得分的統(tǒng)計(jì)方法。目前因子分析在心理學(xué)、社會(huì)學(xué)、經(jīng)濟(jì)學(xué)等學(xué)科中都取得了成功的應(yīng)用,是多元統(tǒng)計(jì)分析中典型方法之一。因子分析(factoranalysis)也是一種降維、簡(jiǎn)化數(shù)據(jù)的技術(shù)。它通過(guò)研究眾多變量之間的內(nèi)部依賴(lài)關(guān)系,探求觀測(cè)數(shù)據(jù)中的基本結(jié)構(gòu),并用少數(shù)幾個(gè)“抽象”的變量來(lái)表示其基本的數(shù)據(jù)結(jié)構(gòu)。這幾個(gè)抽象的變量被稱(chēng)作“因子”,能反映原來(lái)眾多變量的主要信息。原始的變量是可觀測(cè)的顯在變量,而因子一般是不可觀測(cè)的潛在變量。第107頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月例如,在商業(yè)企業(yè)的形象評(píng)價(jià)中,消費(fèi)者可以通過(guò)一系列指標(biāo)構(gòu)成的一個(gè)評(píng)價(jià)指標(biāo)體系,評(píng)價(jià)百貨商場(chǎng)的各個(gè)方面的優(yōu)劣。但消費(fèi)者真正關(guān)心的只是三個(gè)方面:商店的環(huán)境、商店的服務(wù)和商品的價(jià)格。這三個(gè)方面除了價(jià)格外,商店的環(huán)境和服務(wù)質(zhì)量,都是客觀存在的、抽象的影響因素,都不便于直接測(cè)量,只能通過(guò)其它具體指標(biāo)進(jìn)行間接反映。因子分析就是一種通過(guò)顯在變量測(cè)評(píng)潛在變量,通過(guò)具體指標(biāo)測(cè)評(píng)抽象因子的統(tǒng)計(jì)分析方法。又比如,在研究區(qū)域社會(huì)經(jīng)濟(jì)發(fā)展中,描述社會(huì)與經(jīng)濟(jì)現(xiàn)象的指標(biāo)很多,過(guò)多的指標(biāo)容易導(dǎo)致分析過(guò)程復(fù)雜化。一個(gè)合適的做法就是從這些關(guān)系錯(cuò)綜復(fù)雜的社會(huì)經(jīng)濟(jì)指標(biāo)中提取少數(shù)幾個(gè)主要因子,每一個(gè)主要因子都能反映相互依賴(lài)的社會(huì)經(jīng)濟(jì)指標(biāo)間共同作用,抓住這些主要因素就可以幫助我們對(duì)復(fù)雜的社會(huì)經(jīng)濟(jì)發(fā)展問(wèn)題進(jìn)行深入分析、合理解釋和正確評(píng)價(jià)。第108頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月因子分析的內(nèi)容非常豐富,常用的因子分析類(lèi)型是R型因子分析和Q型因子分析。R型的因子分析是對(duì)變量作因子分析,Q型因子分析是對(duì)樣品作因子分析。本章側(cè)重討論R型因子分析。第109頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月第五節(jié)實(shí)例分析與計(jì)算機(jī)實(shí)現(xiàn)一利用SPSS進(jìn)行因子分析二因子分析在市場(chǎng)研究中的應(yīng)用第110頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月一、利用SPSS進(jìn)行因子分析
第111頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月 (一)操作步驟
1.在SPSS窗口中選擇Analyze→DataReduction→Factor,調(diào)出因子分析主界面圖(7.1),并將變量X1—X13移入Variables框中。圖7.1因子分析主界面第112頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月
2.點(diǎn)擊Descriptives按鈕,展開(kāi)相應(yīng)對(duì)話框,見(jiàn)圖7.2。選擇Initialsolution復(fù)選項(xiàng)。這個(gè)選項(xiàng)給出各因子的特征值、各因子特征值占總方差的百分比以及累計(jì)百分比。單擊Continue按鈕,返回主界面。圖7.2Descriptives子對(duì)話框第113頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月
3.點(diǎn)擊Extraction按鈕,設(shè)置因子提取的選項(xiàng),見(jiàn)圖7.3。在Method下拉列表中選擇因子提取的方法,SPSS提供了七種提取方法可供選擇,一般選擇默認(rèn)選項(xiàng),即“主成分法”。在Analyze欄中指定用于提取因子的分析矩陣,分別為相關(guān)矩陣和協(xié)方差矩陣。在Display欄中指定與因子提取有關(guān)的輸出項(xiàng),如未旋轉(zhuǎn)的因子載荷陣和因子的碎石圖。在Extract欄中指定因子提取的數(shù)目,有兩種設(shè)置方法:一種是在Eigenvaluesover后的框中設(shè)置提取的因子對(duì)應(yīng)的特征值的范圍,系統(tǒng)默認(rèn)值為1,即要求提取那些特征值大于1的因子;第二種設(shè)置方法是直接在Numberoffactors后的矩形框中輸入要求提取的公因子的數(shù)目。這里我們均選擇系統(tǒng)默認(rèn)選項(xiàng),單擊Continue按鈕,返回主界面。第114頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月圖7.3Extraction子對(duì)話框第115頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月
4.點(diǎn)擊Rotation按鈕,設(shè)置因子旋轉(zhuǎn)的方法。這里選擇Varimax(方差最大旋轉(zhuǎn)),并選擇Display欄中的Rotatedsolution復(fù)選框,在輸出窗口中顯示旋轉(zhuǎn)后的因子載荷陣。單擊Continue按鈕,返回主界面。圖7.4Rotation子對(duì)話框第116頁(yè),課件共133頁(yè),創(chuàng)作于2023年2月
5.點(diǎn)擊Scores按鈕,設(shè)置因子得分的選項(xiàng)。選中Saveasvariables復(fù)選框,將因子得分作為新變量保存在數(shù)據(jù)文件中。選中Displayfactorscorecoefficientmatrix復(fù)選框
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 電廠除塵課程設(shè)計(jì)
- 幼兒園食物冬藏課程設(shè)計(jì)
- 春節(jié)放假的通知模板六篇
- 接待方案集合5篇
- 2024年學(xué)生交通安全責(zé)任協(xié)議3篇
- 道德演講稿模板錦集四篇
- 瑜伽肩部療愈課程設(shè)計(jì)
- 2024年特種集裝箱定制購(gòu)買(mǎi)協(xié)議
- 2024年度擔(dān)保合同變更及轉(zhuǎn)讓的債權(quán)轉(zhuǎn)讓條件3篇
- 2024年基礎(chǔ)設(shè)施建設(shè)項(xiàng)目擔(dān)保合同范本3篇
- 商場(chǎng)用電安全培訓(xùn)
- 《中小學(xué)教育懲戒規(guī)則(試行)》宣講培訓(xùn)
- 結(jié)清貨款合同范例
- 掛靠裝修公司合同范例
- 2021年四川省涼山州九年級(jí)中考適應(yīng)性考試?yán)砜凭C合(試卷)
- 光明乳業(yè)財(cái)務(wù)報(bào)表分析報(bào)告
- 佛山市教育局教學(xué)研究室招聘教研員考試試卷真題及答案2022
- 博士研究生綜合素質(zhì)及科研能力綜合考評(píng)評(píng)分表
- 氟化物測(cè)定方法
- acl導(dǎo)管維護(hù)三步曲
- 免疫學(xué)導(dǎo)論習(xí)題集參考答案
評(píng)論
0/150
提交評(píng)論