版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第八章回歸分析1h主要內容8.1 回歸分析概述8.2 線性回歸分析8.3 曲線估計8.4 二元Logistic回歸分析2h8.1 回歸分析概述(1)確定性關系與非確定性關系 變量與變量之間的關系分為確定性關系和非確定性關系,函數表達確定性關系。研究變量間的非確定性關系,構造變量間經驗公式的數理統(tǒng)計方法稱為回歸分析。(2)回歸分析基本概念 回歸分析是指通過提供變量之間的數學表達式來定量描述變量間相關關系的數學過程,這一數學表達式通常稱為經驗公式。我們不僅可以利用概率統(tǒng)計知識,對這個經驗公式的有效性進行判定,同時還可以利用這個經驗公式,根據自變量的取值預測因變量的取值。如果是多個因素作為自變量的時
2、候,還可以通過因素分析,找出哪些自變量對因變量的影響是顯著的,哪些是不顯著的。3h(3)回歸分析的一般步驟第1步 確定回歸方程中的因變量和自變量。第2步 確定回歸模型。第3步 建立回歸方程。第4步 對回歸方程進行各種檢驗。擬合優(yōu)度檢驗回歸方程的顯著性檢驗回歸系數的顯著性檢驗第5步 利用回歸方程進行預測。8.1 回歸分析概述4h主要內容8.1 回歸分析概述8.2 線性回歸分析8.3 曲線估計8.4 二元Logistic回歸分析5h8.2線性回歸分析8.2.1 基本概念及統(tǒng)計原理1.基本概念 線性回歸假設因變量與自變量之間為線性關系,用一定的線性回歸模型來擬合因變量和自變量的數據,并通過確定模型參
3、數來得到回歸方程。根據自變量的多少,線性回歸可有不同的劃分。當自變量只有一個時,稱為一元線性回歸,當自變量有多個時,稱為多元線性回歸。6h8.2線性回歸分析(2) 統(tǒng)計原理 一元回歸方程和多元回歸方程一元線性和多元線性回歸分析的核心任務就是估計其中的參數。7h8.2線性回歸分析8.2.2 SPSS實例分析【例8-1】現有1992年-2006年國家財政收入和國內生產總值的數據如下表所示,請研究國家財政收入和國內生產總值之間的線性關系。年份國內生產總值(單位:億元)財政收入(單位:億元)年份國內生產總值(單位:億元)財政收入(單位:億元)199226923.53483.37200099214.61
4、3395.23199335333.94348.952001109655.216386.04199448197.95218.102002120332.718903.64199560793.76242.202003135822.821715.25199671176.67407.992004159878.326396.47199778973.08651.142005183867.931649.29199884402.39875.952006210871.038760.20199989677.111444.088h8.2 線性回歸分析第1步 分析:這是一個因變量和一個自變量之間的問題,故應該考慮用一元
5、線性回歸解決。第2步 數據組織:定義三個變量,分別為“year”(年份)、“x”(國內生產總值)、“y”(財政收入)。第3步 作散點圖,觀察兩個變量的相關性:依次選擇菜單“圖形舊對話框散點/點狀簡單分布”,并將“國內生產總值”作為x軸,“財政收入”作為y軸,得到如下所示圖形。可以看出兩變量具有較強的線性關系,可以用一元線性回歸來擬合兩變量。9h8.2 線性回歸分析第4步 一元線性回歸分析設置:選擇菜單“分析回歸線性”,打開“線性回歸”對話框,將變量“財政收入”作為因變量 ,“國內生產總值”作為自變量。打開“統(tǒng)計量”對話框,選上“估計”和“模型擬合度”。單擊“繪制(T)”按鈕,打開“線性回歸:圖
6、”對話框,選用DEPENDENT作為y軸,*ZPRED為x軸作圖。并且選擇“直方圖”和“正態(tài)概率圖” 作相應的保存選項設置,如預測值、殘差和距離等。10h8.2 線性回歸分析第5步 主要結果及分析:變量輸入和移去表表中顯示回歸模型編號、進入模型的變量、移出模型的變量和變量的篩選方法。可以看出,進入模型的自變量為“國內生產總值” 。 模型綜述表 R=0.989,說明自變量與因變量之間的相關性很強。R方(R2) =0.979,說明自變量“國內生產總值”可以解釋因變量“財政收入”的97.9%的差異性。 模型輸入的變量移去的變量方法1國內生產總值.輸入a. 已輸入所有請求的變量。 b. 因變量: 財政
7、收入。模型RR 方調整 R 方標準估計的誤差1.989a.979.9771621.66312a. 預測變量:(常量),國內生產總值。b. 因變量:財政收入。11h8.2 線性回歸分析方差分析表表中顯示因變量的方差來源、方差平方和、自由度、均方、F檢驗統(tǒng)計量的觀測值和顯著性水平。方差來源有回歸、殘差。從表中可以看出,F統(tǒng)計量的觀測值為592.25,顯著性概率為0.000,即檢驗假設“H0:回歸系數B = 0”成立的概率為0.000,從而應拒絕原假設,說明因變量和自變量的線性關系是非常顯著的,可建立線性模型。模型平方和df均方FSig.1回歸1.557E911.557E9592.250殘差3418
8、7286.770132629791.290總計1.592E914a. 預測變量:(常量),國內生產總值。b. 因變量:財政收入。12h8.2 線性回歸分析回歸系數表表中顯示回歸模型的常數項、非標準化的回歸系數B值及其標準誤差、標準化的回歸系數值、統(tǒng)計量t值以及顯著性水平(Sig.)。從表中可看出,回歸模型的常數項為-4993.281,自變量“國內生產總值”的回歸系數為0.197。因此,可以得出回歸方程:財政收入=-4993.281 + 0.197 國內生產總值。模型非標準化系數標準系數tSig.B標準誤差試用版1(常量)-4993.281919.356-5.431.000國內生產總值.197.
9、008.98924.336.000回歸系數的顯著性水平為0.000,明顯小于0.05,故應拒絕T檢驗的原假設,這也說明了回歸系數的顯著性,說明建立線性模型是恰當的。13h主要內容8.1 回歸分析概述8.2 線性回歸分析8.3 曲線估計8.4 二元Logistic回歸分析14h8.3 曲線估計8.3.1 基本概念及統(tǒng)計原理(1) 基本概念 曲線估計(曲線擬合、曲線回歸)則是研究兩變量間非線性關系的一種方法,選定一種用方程表達的曲線,使得實際數據與理論數據之間的差異盡可能地小。如果曲線選擇得好,那么可以揭示因變量與自變量的內在關系,并對因變量的預測有一定的意義。 在曲線估計中,需要解決兩個問題:一
10、是選用哪種理論模型,即用哪種方程來擬合觀測值;二是當模型確定后,如何選擇合適的參數,使得理論數據和實際數據的差異最小。15h8.3 曲線估計(2) 統(tǒng)計原理 在曲線估計中,有很多的數學模型,選用哪一種形式的回歸方程才能最好地表示出一種曲線的關系往往不是一個簡單的問題,可以用數學方程來表示的各種曲線的數目幾乎是沒有限量的。在可能的方程之間,以吻合度而論,也許存在著許多吻合得同樣好的曲線方程。因此,在對曲線的形式的選擇上,對采取什么形式需要有一定的理論,這些理論是由問題本質決定的。(3) 分析步驟首先,在不能明確究竟哪種模型更接近樣本數據時,可在上述多種可選擇的模型中選擇幾種模型;其次,SPSS自
11、動完成模型參數的估計,并輸出回歸方程顯著性檢驗的F值和概率p值、決定系數R2等統(tǒng)計量;最后,以判定系數為主要依據選擇其中的最優(yōu)模型,并進行預測分析等。16h8.3 曲線估計8.3.2 SPSS實例分析【例8-3】 表8.16是19892001年國家保費收入與國內生產總值的數據,試研究保費收入與國內生產總值的關系。年度保費收入國民生產總值年度保費收入國民生產總值19804.64517.81991239.721662.519817.84860.3199237826651.9198210.35301.8199352534560.5198313.25957.4199463046670198420720
12、6.7199568357494.9198533.18989.1199677666850.5198645.810201.41997108073142.7198771.0411954.519981247.376967.21988109.514922.319991393.2280579.41989142.616917.820001595.988228.11990178.518598.420012109.3694346.417h8.3 曲線估計第1步 分析:先用散點圖的形式進行分析,看究竟是否具有一元線性關系,如果具有一元線性關系,則用一元線性回歸分析,否則采用曲線估計求解。第2步 數據組織:定義為三
13、個變量,分別是“year”(年度)、“y”(保費收入)和“x”(國內生產總值),輸入數據并保存。第3步 作散點圖初步判定變量的分布趨勢:保費收入y隨國內生產總值x的提高而逐漸提高,而且當國內生產總值達到一定水平后,保費收入的增幅更加明顯。因此用線性回歸模型表示x,y的關系是不恰當的。于是應找擬合效果好的模型。18h8.3 曲線估計第4步 進行曲線估計:依次選擇菜單“分析回歸曲線估計”,將所有模型全部選上,看哪種模型擬合效果更好(主要看決定系數R2),其所有模型的擬合優(yōu)度R2如下表所示。模型名稱R Square(R2)直線(Linear)0.941二次曲線(Quadratic)0.973復合曲線
14、(Compound)0.789生長曲線(Growth)0.789對數曲線(Logarithmic)0.772三次曲線(Cubic)0.990S曲線(S)0.946指數曲線(Exponential)0.789逆函數(Inverse)0.481冪函數(Power)0.972邏輯函數(Logistic)0.789從決定系數(R方即R2)來看,三次曲線效果最好(因為其R2值最大),并且方差分析的顯著性水平(Sig.)為0。故重新進行上面的過程,只選“三次曲線(Cubic)”一種模型。 19h8.3 曲線估計第5步 結果與分析。三次曲線模型擬合效果的檢驗表復相關系數R = 0.995,R2 = 0.99
15、0,經校正后的R平方值為0.989。故可判斷保費收入與國內生產總值之間有較顯著的三次曲線關系 方差分析表 相伴概率Sig.=0.000說明模型具有顯著的統(tǒng)計學意義。 RR方調整R方估計值的標準誤.995.990.98964.883自變量為 國內生產總值。平方和df均方FSig.回歸7800612.55932600204.186617.659.000殘差75775.960184209.776總計7876388.51821自變量為 國內生產總值。20h8.3 曲線估計回歸系數表從表中可知因變量與自變量的三次回歸模型為:y=-166.430+0.029x-5.364E-7x2+5.022E-12x3
16、未標準化系數標準化系數tSig.B標準誤Beta內民生產總值.029.0051.5065.836.000國內生產總值 * 2-5.364E-7.000-2.554-4.277.000國內生產總值 * 35.022E-12.0002.093.(常數)-166.43045.399-3.666.00221h9.2 曲線估計擬合效果圖從圖形上看出其擬合效果非常好。22h8.3 曲線估計說明: 曲線估計是一個自變量與因變量的非線性回歸過程,但只能處理比較簡單的模型。如果有多個自變量與因變量呈非線性關系時,就需要用其他非線性模型對因變量進行擬合,SPSS 19中提供了“非線性”過程,由于涉及的模型很多,且
17、非線性回歸分析中參數的估計通常是通過迭代方法獲得的,而且對初始值的設置也有較高的要求,如果初始值選擇不合適,即使指定的模型函數非常準確,也會導致迭代過程不收斂,或者只得到一個局部最優(yōu)值而不能得到整體最優(yōu)值。23h主要內容8.1 回歸分析概述8.2 線性回歸分析8.3 曲線估計8.4 二元Logistic回歸分析24h8.4.1 基本概念及統(tǒng)計原理(1)基本概念 Logistic回歸分析就是針對因變量是定性變量的回歸分析。根據因變量取值類別數量不同,Logistic回歸分析又分為二元Logistic回歸分析和多元Logistic回歸分析。二元Logistic回歸模型中因變量只可以取兩個值1和0(
18、虛擬因變量),而多元Logistic回歸模型中因變量可取多個值。8.4 二元Logistic回歸分析25h(2)統(tǒng)計原理logit變換 8.4 二元Logistic回歸分析Logistic回歸模型Logistic回歸模型26h(3)統(tǒng)計檢驗 與線性回歸一樣,擬合時也要考慮模型是否合適、哪些變量該保留、擬合效果如何等問題。線性回歸中常用的是決定系數R2,T檢驗、F檢驗等工具在這里均不再適用。在Logistic回歸中常用的檢驗有-2對數似然檢驗(-2 log(likelihood), -2LL)、Hosmer和Lemeshow的擬合優(yōu)度檢驗、Wald檢驗等。 8.4 二元Logistic回歸分析2
19、7h8.4.2 SPSS實例分析【例8-4】 診斷發(fā)現運營不良的金融企業(yè)是審計核查的一項重要功能,審計核查的分類失敗會導致災難性的后果。下表列出了66家公司的部分運營財務比率,其中33家在2年后破產(Y = 0),另外33家在同期保持償付能力(Y = 1)。請用變量X1(未分配利潤/總資產)、X2(稅前利潤/總資產)和X3(銷售額/總資產)擬合一個Logistic回歸模型。 8.4 二元Logistic回歸分析X1X2X3YX1X2X3YX1X2X3YX1X2X3Y-62.8-89.51.704316.41.31-27.96.31.3031.415.71.913.3-3.51.1047161.
20、91-48.26.81.6021.5-14.411-120.8-103.22.50-3.342.71-49.2-17.20.308.55.81.51-18.1-28.81.103520.81.91-19.2-36.70.8040.65.81.81-3.8-50.60.9046.712.60.91-18.1-6.50.9034.626.41.81-61.2-56.21.7020.812.52.41-98-20.81.7019.926.72.31-20.3-17.4103323.61.51-129-14.21.3017.412.61.31-194.5-25.80.5026.110.42.11-4-
21、15.82.1054.714.61.7120.8-4.31068.613.81.61-8.7-36.32.8053.520.61.11-106.1-22.91.5037.333.43.51-59.2-12.82.1035.926.421-39.4-35.71.205923.15.51-13.1-17.60.9039.430.51.91-164.1-17.71.3049.623.81.91-381.61.2053.17.11.91-308.9-65.80.8012.571.81-57.90.70.8039.813.81.217.2-22.62037.334.11.51-8.8-9.10.9059
22、.5721-118.3-34.21.5035.34.20.91-64.7-40.1016.320.411-185.9-2806.7049.525.12.61-11.44.80.90-34.6-19.43.4018.113.54121.7-7.81.6128h第1步 分析:共有3個自變量,均是定量數據類型,而因變量是定性的,取值有兩種狀態(tài)(0和1),這是一個典型的可用二元Logistic回歸解決的問題。 第2步 數據組織:定義三個自變量X1,X2和X3,再定義因變量Y,輸入數據并保存。 第3步 二元Logistic回歸分析設置: (設置過程詳見教材p195-197) 第4步 主要結果及分析:數據
23、的基本信息表8.4 二元Logistic回歸分析未加權的案例aN百分比選定案例包括在分析中66100.0缺失案例0.0總計66100.0未選定的案例0.0總計66100.0a. 如果權重有效,請參見分類表以獲得案例總數。給出了數據進入模型的記錄數 29h模型系數的檢驗結果8.4 二元Logistic回歸分析其中常數項系數為0.000,其相伴概率為1,可見常數項不顯著。X1,X2和X3的相伴概率分別是0.000,0.000和0.094,如果以5%為置信的話,X1和X2的系數通過了檢驗,即這兩個變量是顯著的。BS.E,WalsdfSig.Exp (B)步驟 0常量.000.246.00011.00
24、01.000得分dfSig.步驟 0變量X131.6211.000X219.3581.000X32.8001.094總統(tǒng)計量37.6133.00030h模型全局檢驗結果表8.4 二元Logistic回歸分析共采用了三種檢驗方法,分別是步與步間的相對似然比檢驗、塊(Block)間的相對似然比檢驗和模型間的相對似然比檢驗。由于本例中只有一個自變量組且采取強行進入法將所有變量納入模型,所以三種檢驗方法的結果是一致的,模型有顯著的統(tǒng)計意義。模型情況摘要表。主要給出-2對數似然值的兩個決定系數,從數據上看,模型的擬合度不錯??ǚ絛fSig.步驟 1步驟85.6833.000塊85.6833.000模型8
25、5.6833.000步驟-2 對數似然值Cox & Snell R 方Nagelkerke R 方15.813a.727.969a. 因為參數估計的更改范圍小于 .001,所以估計在迭代次數 12 處終止。31h模型分類預測值表8.4 二元Logistic回歸分析此時模型的預測準確率已達到97%。表格從左到右依次表示變量及常數項的系數值(B)、標準誤差(S.E.)、Wald卡方值、自由度(df)、相伴概率(Sig.)、Exp(B)。由于各回歸系數均為正數,取相應的指數后會大于1,表示X1,X2和X3的取值越大,“兩年后具有償付能力”的可能性比“兩年后破產”的可能性就越大, 已觀測已預測Y百分比
26、校正兩年后破產兩年后仍有償付能力步驟 1Y兩年后破產32197.0兩年后仍有償付能力13297.0總計百分比97.0a. 切割值為 .500。Logistic模型的參數擬合表BS.E,WalsdfSig.Exp (B)EXP(B)的95% C.I.下限上限步驟 1aX1.331.3011.2131.2711.393.7722.511X2.181.1072.8621.0911.198.9721.478X35.0875.0821.0021.317161.979.0083430718.695常量-10.15310.840.8771.349.000a. 在步驟 1 中輸入的變量: X1, X2, X3
27、.32hLogistic回歸模型8.4 二元Logistic回歸分析33hThe End34h第九章聚類和判別分析35h主要內容9.1 聚類與判別分析概述9.2 二階聚類9.3 K-均值聚類9.4 系統(tǒng)聚類9.5 判別分析36h9.1 聚類與判別分析概述9.1.1 基本概念(1) 聚類分析 聚類分析的基本思想是找出一些能夠度量樣本或指標之間相似程度的統(tǒng)計量,以這些統(tǒng)計量為劃分類型的依據,把一些相似程度較大的樣本(或指標)聚合為一類,把另外一些彼此之間相似程度較大的樣本又聚合為一類。根據分類對象的不同,聚類分析可分為對樣本的聚類和對變量的聚類兩種。 (2) 判別分析 判別分析是判別樣本所屬類型的
28、一種統(tǒng)計方法。37h9.1 聚類與判別分析概述9.1.2 樣本間親疏關系的度量(1)連續(xù)變量的樣本間距離常用度量 主要方法有歐氏距離(Euclidean Distance)、歐氏平方距離(Squared Euclidean Distance)、切比雪夫距離(Chebychev Distance)、明可斯基距離(Minkowski Distance)、用戶自定義距離(Customize Distance)、Pearson相關系數、夾角余弦(Cosine)等。(公式見教材表7.9)(2)順序變量的樣本間距離常用度量 常用的有 統(tǒng)計量(Chi-square measure)和 統(tǒng)計量(Phi-squ
29、are measure)。(公式見教材表7.10)38h9.1 聚類與判別分析概述9.1.1 基本概念(3) 二者區(qū)別 不同之處在于,判別分析是在已知研究對象分為若干類型(或組別)并已取得各種類型的一批已知樣本的觀測量數據的基礎上,根據某些準則建立判別式,然后對未知類型的樣本進行差別分析。 39h9.1 聚類與判別分析概述說明:聚類分析的目的是找到樣本中數據的特點,因此應注意所選擇的變量是否已經能夠反應所要聚類樣本的主要特點。聚類分析時應注意所選擇的變量是否存在數量級上的差別。如果一個樣本包含不同數量的變量,則應先對變量進行標準化處理,而后再進行聚類。變量間的關系度量模型與樣本間相類似,只不過
30、一個用矩陣的行進行計算,另一個用矩陣的列進行計算。40h主要內容9.1 聚類與判別分析概述9.2 二階聚類9.3 K-均值聚類9.4 系統(tǒng)聚類9.5 判別分析41h9.2 二階聚類9.2.1 基本概念及統(tǒng)計原理(1)基本概念 二階聚類(TwoStep Cluster)(也稱為兩步聚類)是一個探索性的分析工具(),為揭示自然的分類或分組而設計,是數據集內部的而不是外觀上的分類。它是一種新型的分層聚類算法(Hierarchical Algorithms),目前主要應用到數據挖掘(Data Mining)和多元數據統(tǒng)計的交叉領域模式分類中。該過程主要有以下幾個特點:分類變量和連續(xù)變量均可以參與二階聚
31、類分析;該過程可以自動確定分類數;可以高效率地分析大數據集;用戶可以自己定制用于運算的內存容量。 42h9.2 二階聚類9.2.1 基本概念及統(tǒng)計原理(2) 統(tǒng)計原理 兩步法的功能非常強大,而原理又較為復雜。他在聚類過程中除了使用傳統(tǒng)的歐氏距離外,為了處理分類變量和連續(xù)變量,它用似然距離測度,它要求模型中的變量是獨立的,分類變量是多項式分布,連續(xù)變量是正態(tài)分布的。分類變量和連續(xù)變量均可以參與兩步聚類分析。43h9.2 二階聚類9.2.1 基本概念及統(tǒng)計原理(3)分析步驟第1步 預聚類:對每個觀測變量考察一遍,確定類中心。根據相近者為同一類的原則,計算距離并把與類中心距離最小的觀測量分到相應的各
32、類中去。這個過程稱為構建一個分類的特征樹(CF)。 第2步 正式聚類:使用凝聚算法對特征樹的葉節(jié)點分組,凝聚算法可用來產生一個結果范圍。44h9.2 二階聚類9.2.2 SPSS實例分析 【例9-1】 某機構為了調查學生性別和所學專業(yè)與畢業(yè)后初始工資的情況,調查抽取了60個學生的數據,如表9.1所示(其中“性別”1代表男性,0代表女性;“學科”1代表農學,2代表建筑,3代表地質,4代表商務,5代表林學,6代表教育,7代表工程,8代表藝術),試根據樣本指標進行聚類分析。(數據參見教材P206)第1步 分析:由于自變量中不僅有連續(xù)屬性,也有分類變量,故采用二階聚類進行分析。 第2步 數據組織:按表
33、所示定義變量,輸入數據并保存。 45h9.2 二階聚類第3步 二階聚類設置:按“分析分類兩步聚類”順序打開“二階聚類分析”對話框,并按下圖進行設置。 46h9.2 二階聚類第4步 主要結果及分析:二階聚類的模型概要和聚類質量情況聚類個案情況圖從中可以看出,此算法采用的是兩步(二階)聚類,共輸入3個變量,將所有個案聚成3類。聚類的平均輪廓值為0.6(其范圍值為-1.01.0,值越大越好),說明聚類質量較好。 可以看出各類所占的比例情況47h9.2 二階聚類第4步 主要結果及分析:各個案所屬的分類號情況48h主要內容9.1 聚類與判別分析概述9.2 二階聚類9.3 K-均值聚類9.4 系統(tǒng)聚類9.
34、5 判別分析49h9.3 K-均值聚類9.3.1 基本概念及統(tǒng)計原理(1)基本概念 K-均值聚(也稱快速聚類)是由用戶指定類別數的大樣本資料的逐步聚類分析。它先對數據進行初始分類,然后逐步調整,得到最終分類數。分類變量和連續(xù)變量均可以參與兩步聚類分析。(2)統(tǒng)計原理 如果選擇了n個數值型變量參與聚類分析,最后要求聚類數為k。由系統(tǒng)首先選擇k個觀測量(也可以是用戶指定)作為聚類的目標,n個變量組成n維空間。每個觀測量在n維空間中是一個點。K個事先選定的觀測量就是k個聚類中心,也稱為初始類中心。按照距這幾個類中心的距離最小的原則把觀測量分派到各類中心所在的類中去;形成第一次迭代形成的k類。 50h
35、9.3 K-均值聚類根據組成每一類的觀測量計算每個變量的均值,每一類中的n個均值在n維空間中又形成k個點,這就是第二次迭代的類中心。按照這種方法迭代下去,直到達到指定 的迭代次數或達到中止迭代的判據要求時,迭代就停止了,聚類過程也就結束了。(3)分析步驟第1步 指定聚類數目k;第2步 確定k個初始類中心;第3步 根據距離最近原則進行分類;第4步 重新確定k個類中心;第5步 迭代計算。51h9.3 K-均值聚類9.3.2 SPSS實例分析【例9-2】測量12名大學生對高等數學的心理狀況和學習效果,主要包括四個因素:學習動機、學習態(tài)度、自我感覺、學習效果,具體數據如下表所示。試將該12名學生分成3
36、類以分析不同心理狀況下學生的學習效果。編號學習動機學習態(tài)度自我感覺學習效果140805444237735646343707558450778577547878963667708469777375710088037738298340769610874375911160577085127050699052h9.3 K-均值聚類第1步 分析:由于已知分成3類,故可采用快速分類法。第2步 數據組織:按如上表的表頭所示建立變量,將“編號”變量的數據類型設為字符型(作為標識變量)。第3步 快速聚類設置,按“分析分類K-均值聚類”順序打開“K-均值聚類分析”對話框,將“學習動機”、“學習態(tài)度”、“自我感覺”
37、、“學習效果”四個變量選入“變量”列表框。將“編號”變量移入“個案標記依據”框中;將“聚類數”設為3。其余“迭代”、“保存”和“選項”設置參見教材。53h9.3 K-均值聚類第4步 主要結果及分析:初始聚類中心表 Cluster123學習動機406777學習態(tài)度807037自我感覺548457學習效果4469100迭代歷史表 由表可知,第一次迭代后,3個類的中心點分別變化了8.193,9.889和13.472。一共進行了10次迭代,達到聚類結果的要求(達到最大迭代次數),聚類分析結束。由于沒有指定初始聚類中心,列出了由系統(tǒng)指定的類中心。與原數據比較,發(fā)現它們分別是第1、第6和第7號個案。迭代聚
38、類中心內的更改12318.1939.88913.47223.9097.6314.70131.3031.526.6724.434.305.0965.145.061.0146.048.012.0027.016.002.0008.005.0003.996E-59.0029.768E-55.709E-610.0011.954E-58.155E-7a. 迭代已停止,因為完成了最大次數的迭代。迭代無法收斂。任何中心的最大絕對坐標更改為 .000。當前迭代為 10。初始中心間的最小距離為 48.518。54h9.3 K-均值聚類最終聚類中心表如第1類的學習動機值為39,學習態(tài)度值為77,自我感覺值為55,學
39、習效果值為45。樣本數情況可看出第1,2,3類中分別含有2,4,6個樣本聚類123學習動機395276學習態(tài)度777644自我感覺558370學習效果456791聚類12.00024.00036.000有效12.000缺失.00055h9.3 K-均值聚類分類保存情況查看數據文件,可看到多出兩個變量,分別表示每個個案的具體分類歸屬和與類中心的距離。56h主要內容9.1 聚類與判別分析概述9.2 二階聚類9.3 K-均值聚類9.4 系統(tǒng)聚類9.5 判別分析57h9.4 系統(tǒng)聚類9.4.1 基本概念與統(tǒng)計原理(1)基本概念 系統(tǒng)聚類是效果最好且經常使用的方法之一,國內外對它進行了深入的研究,系統(tǒng)聚
40、類在聚類過程中是按一定層次進行的。具體分成兩種,分別是Q型聚類和R型聚類,Q型聚類是對樣本(個案)進行的分類,它將具有共同特點的個案聚集在一起,以便對不同類的樣本進行分析;R型聚類是對變量進行的聚類,它使具有共同特征的變量聚在一起,以便對不同類的變量進行分析。 58h9.4 系統(tǒng)聚類9.4.1 基本概念與統(tǒng)計原理(2) 統(tǒng)計原理 系統(tǒng)聚類是根據個案或變量之間的親疏程度,將最相似的對象聚集在一起。根據系統(tǒng)聚類過程的不同,又分為凝聚法和分解法兩種。凝聚法的原理是將參與聚類的每個個案(或變量)視為一類,根據兩類之間的距離或相似性,逐步合并直到合并為一個大類為止;分解法的原理是將所有個案(或變量)都視
41、為一類,然后根據距離和相似性逐層分解,直到參與聚類的每個個案(或變量)自成一類為止。 在層次聚類中,度量數據之間的親疏程度是極為關鍵的。在衡量樣本與樣本之間的距離時,一般使用的距離有Eulcidean Distance、Squared Euclidean Distance、切比雪夫距離、Block距離、明可斯基距離(Minkowshi)、夾角余弦(Cosine)等。 59h9.4 系統(tǒng)聚類9.4.1 基本概念與統(tǒng)計原理(2) 統(tǒng)計原理 衡量樣本數據與小類、小類與小類之間親疏程度的度量方法主要有以下7種:最短距離法(Nearest Neighbor) ;最短距離法(Nearest Neighbo
42、r) ;最長距離法(Furthest Neighbor) ;類間平均鏈鎖法(Between-groups Linkage); 類內平均鏈鎖法(Within-groups Linkage) ;重心法(Centriod Clustering) ;中間距離法(Median Clustering); 離差平方和(Wards Method)。 60h9.4 系統(tǒng)聚類9.4.2 SPSS實現舉例【例9-3】已知29例兒童的血中血紅蛋白、鈣、鎂、鐵、錳、銅的含量如下表,試對數據進行變量聚類分析。ordercamgfemncuhemoglordercamgfemncuhemogl154.8930.86448.
43、70.0121.0113.51672.2840.12430.801.210.75272.4942.61467.30.0081.64131755.1333.02445.80.0120.91810.5353.8152.86425.610.0041.2213.751870.0836.81409.80.0121.1910.25464.7439.18469.80.0051.22141963.0535.07384.100.85310558.837.67456.550.0121.0114.252048.7530.53342.90.0180.9249.75643.6726.18395.780.0010.594
44、12.752152.2827.14326.290.0040.8179.5754.8930.86448.70.0121.0112.52252.2136.18388.540.0241.029.25886.1243.79440.130.0171.7712.252349.7125.43331.10.0120.8979960.3538.2394.40.0011.14122461.0229.27258.940.0161.198.751054.0434.23405.60.0081.311.752553.6828.79292.80.0481.328.51161.2337.354460.0221.3811.52
45、650.2229.17292.60.0061.048.251260.1733.67383.20.0010.91411.252765.3429.99312.80.0061.0381369.6940.01416.70.0121.35112856.3929.292830.0161.357.81473.8932.94312.50.0641.157.252966.1231.93344.200.6897.51547.3128.55294.70.0050.838761h9.4 系統(tǒng)聚類第1步 分析:根據題目要求,需進行變量聚類分析(即R型聚類),故采用系統(tǒng)聚類分析中的R型聚類進行處理。第2步 數據組織:如上
46、表定義七個變量:“order”(編號)、“ca”(鈣)、“mg”(鎂)、“fe”(鐵)、“mn”(錳)、“cu”(銅)和“hemogl”(血紅蛋白),其中“order”為字符串型,其余變量為數值型。第3步 進行按變量聚類的設置:按“分析分類系統(tǒng)聚類”打開“系統(tǒng)聚類分析”對話框,將“ca”(鈣)、“mg”(鎂)、“fe”(鐵)、“mn”(錳)、“cu”(銅)和“hemogl”(血紅蛋白)幾個變量選入“變量”列表框。設置按“變量”分類,并選擇輸出“統(tǒng)計量”和“圖”,以激活“統(tǒng)計量(S)”和“繪制(T)“兩個按鈕。 具體如下面圖所示。62h9.4 系統(tǒng)聚類63h9.4 系統(tǒng)聚類第4步 主要結果及分析
47、:凝聚順序表 第1步是第4個變量和第5個變量進行聚類,變量間的距離系數為6.028,這個結果將在第2步中用到;第2步是經過第1步聚類后的變量4和變量5與變量6進行聚類,變量間的距離系數為54.938,這個結果將在第4步中用到。以此類推,這6個變量經過5步聚類最終聚成一個大類。階群集組合系數首次出現階群集下一階群集 1群集 2群集 1群集 21456.02800224654.938104312144.078004414235.5303255131966.19240064h9.4 系統(tǒng)聚類第4步 主要結果及分析:系統(tǒng)聚類的冰柱圖圖的縱坐標表示聚類的數目,我們從圖的最下方看起,從5類,逐漸到4類、3
48、類、2類,最后聚成一個大類。首先是“銅”和“錳”聚成一類,其余每個變量各為一類。第2步再將“血紅蛋白”聚到“銅”和“錳”一類中,原先的6個變量就變成了4類。以此類推,經過5步聚類,最后將所有變量聚成了一個大類。65h9.4 系統(tǒng)聚類第4步 主要結果及分析:系統(tǒng)聚類的樹狀圖第1步將“cu(銅)”和“mn(錳)”聚成一類,第2步將“hemogl(血紅蛋白)”聚到“cu(銅)”和“mn(錳)”類中,第3步將“ca(鈣)”和“mg(鎂)”聚成一類。以此類推,最后聚成一個大類。這與聚類順序表和聚類冰柱圖的分析結果是一致的。66h主要內容9.1 聚類與判別分析概述9.2 二階聚類9.3 K-均值聚類9.4
49、 系統(tǒng)聚類9.5 判別分析67h9.5 判別分析9.5.1 基本概念與統(tǒng)計原理基本概念 判別分析(Discriminant Analysis)是多元統(tǒng)計分析中用于判別樣本所屬類型的一種統(tǒng)計方法。它要解決的問題是在一些已知研究對象用某種方法已分成若干類的情況下,確定新的觀察數據屬于已知類別中的哪一類。判別分析是應用很強的一種多元統(tǒng)計分析方法。 (2) 統(tǒng)計原理 判別分析按判別組數來分,有兩組判別分析和多組判別分析,按區(qū)分不同總體所用的數學模型來分,有線性差別和非線性判別。判別分析可以從不同的角度提出問題,因此有不同的判別準則,如費歇爾(Fisher)準則和貝葉斯(Bayes)準則。 判別函數的一
50、般形式是 68h9.5 判別分析分析步驟第1步 計算特征值:計算需要用到的一些反映樣本的特征值,比如均值、協(xié)方差矩陣等。第2步 建立判別函數:判別函數的一般形式如式10.1建立判別函數就是要確定這些系數。第3步 確定判別準則:如費歇爾(Fisher)準則和貝葉斯(Bayes)準則。第4步 檢驗判別效果:驗證判別函數用來進行判別時的準確度。第5步 分類:根據所建立的判別函數對待判樣本進行分類。69h9.5 判別分析9.5.1 SPSS實例分析【例9-4】 下表是健康人(c = 1)、硬化癥患者(c = 2)和冠心病患者(c = 3)三種人群的心電圖的5個指標(x1x5)數據,其中有19個樣本是確
51、定的分類,另又測出4個人的相關指標,試根據確定分類的樣本對這未確定的樣本進行分類。 orderx1x2x3x4x5corderx1x2x3x4x5c18.11261.0113.235.467.361133.71316.1217.126.048.17229.36185.399.025.665.991145.37274.5716.754.989.67239.85249.5815.616.066.111159.89409.4219.475.1910.49242.55137.139.216.114.351165.22330.3418.194.969.61356.01231.3414.275.218.7
52、91174.71352.520.795.0711369.64231.3813.034.868.531183.36347.3117.94.6511.19374.11260.2514.725.3610.021198.27189.5912.745.466.94388.9259.5114.164.919.791207.71273.8416.015.158.79待定98.06231.0314.415.726.151217.51303.5919.145.78.53待定106.8308.915.115.528.492228.1476.697.385.3211.32待定118.68258.6914.024.797.162234.71331.47
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 七年級英語Travel課件
- 《實驗室空調系統(tǒng)》課件
- 《檔案價值鑒定》課件
- 單位管理制度集合大全人事管理篇十篇
- 單位管理制度集粹選集人力資源管理篇十篇
- 單位管理制度匯編大全人事管理篇
- 單位管理制度合并匯編【人員管理篇】
- 單位管理制度分享合集員工管理篇
- 單位管理制度范文大合集職工管理十篇
- 單位管理制度呈現匯編職員管理十篇
- 小學五年級體育全冊教學設計及教學反思
- 單片集成MEMS技術中英文翻譯、外文文獻翻譯、外文翻譯
- 水晶能量療愈指南百度百科
- 客戶退款申請表
- 汽車概論論文-混合動力汽車的發(fā)展現狀和發(fā)展趨勢
- 《輔酶q10》教學講解課件
- SMT工程師工作簡歷
- 北京市海淀區(qū)2022-2023學年七年級上學期期末語文試題(含答案)
- 心血管內科醫(yī)生成長手冊
- 國家開放大學一網一平臺電大《當代中國政治制度》形考任務1-4網考題庫及答案
- 小企業(yè)會計準則財務報表
評論
0/150
提交評論