spss統(tǒng)計(jì)分析及應(yīng)用教程-第7章 聚類分析與判斷分析_第1頁
spss統(tǒng)計(jì)分析及應(yīng)用教程-第7章 聚類分析與判斷分析_第2頁
spss統(tǒng)計(jì)分析及應(yīng)用教程-第7章 聚類分析與判斷分析_第3頁
spss統(tǒng)計(jì)分析及應(yīng)用教程-第7章 聚類分析與判斷分析_第4頁
spss統(tǒng)計(jì)分析及應(yīng)用教程-第7章 聚類分析與判斷分析_第5頁
已閱讀5頁,還剩132頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第7章聚類分析與判斷分析2021/6/271第7章聚類分析與判斷分析本章學(xué)習(xí)目標(biāo)

理解聚類分析、判別分析的基本思想與原理;掌握聚類分析、判別分析方法;掌握聚類分析、判別分析實(shí)驗(yàn)?zāi)康?、?shí)驗(yàn)內(nèi)容和實(shí)驗(yàn)步驟;掌握實(shí)驗(yàn)結(jié)果的分析與利用;了解聚類分析、判別分析在經(jīng)濟(jì)管理數(shù)據(jù)分析中的應(yīng)用。2021/6/272第7章聚類分析與判斷分析類群劃分是更好地發(fā)現(xiàn)特點(diǎn),找出規(guī)律的一種常用方法。通過對不同群體的比較分析可以更好地理解事物之間的差異、規(guī)律和特點(diǎn)。聚類分析可以解決的問題判斷分析的基本思想聚類分析與判斷分析的不同2021/6/273實(shí)驗(yàn)一系統(tǒng)聚類分析實(shí)驗(yàn)?zāi)康?/p>

明確聚類分析有關(guān)的概念;理解系統(tǒng)聚類基本思想與原理;熟練掌握系統(tǒng)聚類的過程;能用SPSS軟件進(jìn)行系統(tǒng)聚類分析;培養(yǎng)運(yùn)用系統(tǒng)聚類方法解決身邊實(shí)際問題的能力。2021/6/274實(shí)驗(yàn)一系統(tǒng)聚類分析準(zhǔn)備知識系統(tǒng)聚類分析的定義與基本思想系統(tǒng)聚類分析又稱為層次聚類分析,其基本思想是依據(jù)樣品或變量之間的親疏遠(yuǎn)近關(guān)系,將最相似的對象結(jié)合在一起,以逐次聚合的方式,將樣品或變量進(jìn)行分類,直到最后所有的樣品或變量都聚成一類。系統(tǒng)聚類有兩種形式:Q型聚類和R型聚類。2021/6/275聚類統(tǒng)計(jì)量為了對樣品進(jìn)行分類,首先要引進(jìn)表示樣品之間的相似或關(guān)聯(lián)程度的度量,稱為聚類統(tǒng)計(jì)量。常用的聚類統(tǒng)計(jì)量有三種:匹配系數(shù)、距離、相似系數(shù)2021/6/276

匹配系數(shù)1當(dāng)分類指標(biāo)x1,x2,…,xp為類別標(biāo)度變量時,通??刹捎闷ヅ湎禂?shù)作為聚類統(tǒng)計(jì)量。匹配系數(shù):第i個樣品與第j個樣品的匹配系數(shù)為:sij=Z1+Z2+…+Zp

當(dāng)xik等于xjk時,Zk=1

當(dāng)xik不等于xjk時,Zk=0顯然匹配系數(shù)越大,說明兩樣品越相似,越應(yīng)劃歸為同一類。2021/6/277

距離

2當(dāng)指標(biāo)中有間隔標(biāo)度變量時,用匹配系數(shù)作聚類統(tǒng)計(jì)量已經(jīng)不再適宜。此時,可將每個樣品觀測值看作p維空間中的一個點(diǎn),這樣兩個樣品之間的相似程度可以用p維的空間距離來度量。距離越小,相似程度越高,兩樣品越應(yīng)歸為一類。2021/6/278

距離

2計(jì)算距離的方法有:①蘭氏距離蘭氏距離僅適用與一切Xij>0的情況,這個距離也可以克服各個指標(biāo)之間量綱的影響,這是一個自身標(biāo)準(zhǔn)化的量,由于它對大的奇異值不敏感,它特別適合于高度偏倚的數(shù)據(jù),但其沒有考慮指標(biāo)之間的相關(guān)性。2021/6/279

距離

2②閔可夫斯基距離

2021/6/2710

距離

2③馬氏距離設(shè)與是來自均值向量為,協(xié)方差為∑(>0)的總體G中的p維樣品,則兩個樣品間的馬氏距離為:馬氏距離考慮了觀測變量之間的相關(guān)性以及觀測變量之間的變異性,不再受各指標(biāo)量綱的影響。2021/6/2711

相似系數(shù)3有些事物的相似,并非一定要求數(shù)值上的一致或相近,例如相似三角形,父親與兒子之間的相似,盡管尺寸、大小相差懸殊,卻非常相似。這類事物的類別劃分應(yīng)用的統(tǒng)計(jì)量為相似系數(shù)。相似系數(shù)又可以分為夾角余弦與相關(guān)系數(shù)2021/6/2712類與類間距離的確定方法(1)最短距離法(NearestNeighbor)(2)最長距離法(FurthestNeighbor)(3)組間平均銜接法(Between-groupsLinkage)(4)組內(nèi)平均銜接法(Within-groupsLinkage)(5)重心法(CentroidClustering)(6)離差平方和法(WardMethod)2021/6/2713實(shí)驗(yàn)一系統(tǒng)聚類分析實(shí)驗(yàn)內(nèi)容某牙膏公司為了調(diào)查消費(fèi)者購買牙膏時考慮哪些因素,設(shè)計(jì)調(diào)查問卷進(jìn)行調(diào)查,問卷如下:2021/6/27141.您購買牙膏時,認(rèn)為防蛀功能重要程度如何?A非常重要B比較重要C重要D一般E不重要F比較不重要G非常不重要2.您購買牙膏時,認(rèn)為亮澤牙齒功能重要程度如何?A非常重要B比較重要C重要D一般E不重要F比較不重要G非常不重要3.您購買牙膏時,認(rèn)為保護(hù)牙齦功能重要程度如何?A非常重要B比較重要C重要D一般E不重要F比較不重要G非常不重要4.您購買牙膏時,認(rèn)為清新口汽功能重要程度如何?A非常重要B比較重要C重要D一般E不重要F比較不重要G非常不重要5.您購買牙膏時,認(rèn)為預(yù)防壞牙功能重要程度如何?A非常重要B比較重要C重要D一般E不重要F比較不重要G非常不重要6.您購買牙膏時,認(rèn)為魅力牙齒功能重要程度如何?A非常重要B比較重要C重要D一般E不重要F比較不重要G非常不重要2021/6/2715實(shí)驗(yàn)一單因素方差分析實(shí)驗(yàn)步驟

考慮到調(diào)查問卷中所涉及的指標(biāo)有6個,因此可以考慮先對六個指標(biāo)進(jìn)行因子分析,提取出公因子后以公因子為聚類指標(biāo)進(jìn)行聚類。聚類分析選用系統(tǒng)聚類法。系統(tǒng)聚類法由SPSS17.0的Classify過程中的Hierarchicalcluster過程實(shí)現(xiàn)。下面以案例說明系統(tǒng)聚類過程的基本操作步驟。2021/6/2716實(shí)驗(yàn)一單因素方差分析實(shí)驗(yàn)步驟

(1)準(zhǔn)備工作。在SPSSl7.0中打開數(shù)據(jù)文件7-1.sav,通過選擇“文件—打開”命令將數(shù)據(jù)調(diào)入SPSSl7.0的工作文件窗口。首先對六個變量進(jìn)行因子分析(操作過程參加因子分析一章)。共提取兩個公因子,分別命名為“護(hù)牙因子”和“美牙因子”。2021/6/2717購買某品牌牙膏考慮因素調(diào)查數(shù)據(jù)文件2021/6/2718(2)從菜單上依次選擇“分析—分類—系統(tǒng)聚類”命令,打開系統(tǒng)聚類對話框,如圖2021/6/2719(3)在如圖所示的系統(tǒng)聚類主對話框中,相關(guān)內(nèi)容介紹如下:①檢驗(yàn)變量列表:用于選擇聚類指標(biāo)的所有變量。②變量:用于輸入聚類指標(biāo)。本例在圖對話框左端的變量列表將要聚類指標(biāo)添加到右邊的檢驗(yàn)變量列表中。本案例中選擇因子分析得到的兩個公因子“護(hù)牙因子”和“美牙因子”作為聚類指標(biāo)變量。

2021/6/2720③“標(biāo)注各案”中選入具有唯一標(biāo)識作用的變量以標(biāo)注出case。本案例選擇order變量。④“分群”下選擇“各案”選項(xiàng),表示對各案進(jìn)行系統(tǒng)聚類,選擇“變量”選項(xiàng),表示對變量進(jìn)行聚類分析。本案例選擇“各案”選項(xiàng)。⑤“輸出”選項(xiàng)下有兩個單選項(xiàng):“統(tǒng)計(jì)量”、“圖”。選擇“統(tǒng)計(jì)量”選項(xiàng),右上角“統(tǒng)計(jì)量”功能按鈕置亮;選擇“圖”選項(xiàng),“繪制”功能按鈕置亮。2021/6/2721(4)單擊“統(tǒng)計(jì)量”選項(xiàng)按鈕定義其他選項(xiàng)合并進(jìn)程表選項(xiàng),輸出系統(tǒng)聚類進(jìn)度表,聚類過程中每一步樣品或類的合并情況。相似性矩陣選項(xiàng),輸出相似性矩陣,顯示各項(xiàng)間的距離。2021/6/2722“聚類成員”選項(xiàng)確定輸出樣品隸屬類表。①“無”選項(xiàng)表示不輸出樣品隸屬類表。②“單一方案”選項(xiàng)選中后,在“聚類數(shù)”后的方框中輸入大于1的整數(shù)n,則顯示劃分為n類時的樣品隸屬類表。③“方案范圍”選項(xiàng)選中后,在“最小聚類數(shù)”與“最大聚類數(shù)”后的方框中分別輸入要顯示各案歸屬的類的范圍。2021/6/2723(5)單擊“繪制”功能按鈕,出現(xiàn)如圖的對話框。“龍骨圖”,選擇此項(xiàng)輸出反映聚類結(jié)構(gòu)的龍骨圖?!氨边x項(xiàng)定義顯示冰狀圖的類別數(shù),“所有聚類”選項(xiàng)表示顯示全部聚類結(jié)果的冰狀圖?!熬垲惖闹付ㄈ唷?,限制聚類解范圍,在下面的“開始聚類”,“停止聚類”,“排序標(biāo)準(zhǔn)”后的三個小框中分別輸入三個正整數(shù)值m,n,k(m≤n,k≤n),表示從最小聚類解m開始,以增量k為步長,到最大聚類解n為止,顯示冰柱圖?!盁o”選項(xiàng)表示不顯示冰狀圖。2021/6/2724“方向選項(xiàng)”中的“縱向”與“橫向”定義冰狀圖的顯示方向,垂直冰柱圖或水平冰柱圖。2021/6/2725(6)“方法(Method)”功能按鈕,展開如圖的對話框,在此對話框中,定義類間距離的確定方法和類內(nèi)距離的確定方法。2021/6/2726聚類方法(M)組間聯(lián)接:合并兩類使得兩類間的平均距離最小,是系統(tǒng)默認(rèn)選項(xiàng)。組內(nèi)聯(lián)接:合并兩類使得合并后的類中所有項(xiàng)間的平均距離最小。最近鄰元素:也稱作最近距離法,以兩類中最近的樣品之間的距離為類間距離。最遠(yuǎn)鄰元素:也稱作最遠(yuǎn)距離法,以兩類中最遠(yuǎn)的樣品之間的距離為類間距離。2021/6/2727聚類方法(M)質(zhì)心聚類法:也稱作重心法,以兩類中各樣品的重心之間的距離為類間距離。中位數(shù)聚類法:也稱作中位數(shù)法,以兩類中各樣品的中位數(shù)之間的距離為類間距離。Ward法:也稱作華德最小偏差平方和法,聚類中使類內(nèi)各樣品的偏差平方和最小,類間偏差平方和盡可能大。

2021/6/2728當(dāng)聚類指標(biāo)的測度水平不同時,會選擇不同的計(jì)算聚類的方法。當(dāng)聚類指標(biāo)的測度水平為定比數(shù)據(jù)時,共有八種計(jì)算類內(nèi)樣品間距離的方法。當(dāng)聚類指標(biāo)為定類數(shù)據(jù)時,有“卡方度量”和“Phi方度量”兩種計(jì)算類內(nèi)樣品間距離的方法。當(dāng)聚類指標(biāo)為虛擬變量時,有“平方Euclidean距離”、“尺度差分”、“模式差別”、“方差”、“離散”、“形狀”、“簡單匹配”和“ψ4點(diǎn)相關(guān)性”、“Lambda”、“Anderberg的D”、“骰子”、“Hamann”、等多種計(jì)算類內(nèi)樣品間距離的方法。

2021/6/2729轉(zhuǎn)換值選項(xiàng)欄用于選擇數(shù)據(jù)標(biāo)準(zhǔn)化方法標(biāo)準(zhǔn)化方法有七個選項(xiàng).“無”表示不進(jìn)行標(biāo)準(zhǔn)化,為系統(tǒng)默認(rèn)選項(xiàng)?!癦得分”表示應(yīng)用標(biāo)準(zhǔn)化計(jì)算公式進(jìn)行標(biāo)準(zhǔn)化處理?!叭鄰?1到1”表示,標(biāo)準(zhǔn)化結(jié)果分布在-1到+1之間。2021/6/2730標(biāo)準(zhǔn)化方法有七個選項(xiàng).“全距從0到1”表示,標(biāo)準(zhǔn)化結(jié)果分布在0到+1之間?!?的最大量”,將數(shù)據(jù)標(biāo)準(zhǔn)化到最大值1?!熬禐?”,將數(shù)據(jù)標(biāo)準(zhǔn)化到均值為1?!皹?biāo)準(zhǔn)差為1”將數(shù)據(jù)標(biāo)準(zhǔn)化到標(biāo)準(zhǔn)差為1。2021/6/2731“轉(zhuǎn)換度量”選項(xiàng)“轉(zhuǎn)換度量”選項(xiàng)用于選擇測度轉(zhuǎn)換方法。在距離測度選擇完畢后,可以選擇本欄選項(xiàng)對距離測度的結(jié)果進(jìn)行測度轉(zhuǎn)換。共有有三個選項(xiàng):絕對值、更改符號、重新標(biāo)度到0-1全距。

“絕對值”,絕對值轉(zhuǎn)換法,將測度值的負(fù)號移去。一般當(dāng)只對相關(guān)數(shù)量感興趣的時候才使用此法。2021/6/2732“更改符合”,變號轉(zhuǎn)換法,進(jìn)行相似測度和不相似測度之間的相互轉(zhuǎn)換。選擇此項(xiàng),通過改變符號來顛倒距離測度的順序?!爸匦聵?biāo)度到0-1全距”,采用此法將各距離測度值減去最小距離值再除以其全距,使距離測度標(biāo)準(zhǔn)化。2021/6/2733(7)“保存”功能按鈕選擇系統(tǒng)距離分析主對話框中的“保存”功能按鈕,打開如圖的對話框?!熬垲惓蓡T”功能區(qū)下有三個單選項(xiàng),該三個單選項(xiàng)與“統(tǒng)計(jì)量”對話框下的“聚類成員”功能區(qū)下的三個單選項(xiàng)完全相同,區(qū)別在于“保存”對話框中的聚類成員歸屬情況保存在數(shù)據(jù)文件中?!敖y(tǒng)計(jì)量”對話框下的“聚類成員”功能區(qū)中的選項(xiàng)選擇后,結(jié)果顯示在輸出數(shù)據(jù)文件中。

2021/6/2734實(shí)驗(yàn)結(jié)果和分析案例處理匯總

2021/6/2735聚類表

2021/6/2736聚類表

2021/6/2737第一列“階”,聚類階段,表示聚類過程中的步數(shù),本案例一共聚類29此,因此共有29階。第二列“群集組合”,表示集群1與集群2合并為一個新的類別。第三列“系數(shù)”,表示距離測度系數(shù)。第四列“首次出現(xiàn)階集群”第四列“首次出現(xiàn)階集群”,該列群集1或群集2取值為0表示群集1或群集2為各案;群集1或群集2取值不為0表示群集1或群集2為類群而不是各案。第五列“下一階”,表示此階合并后的類在下一次聚類出現(xiàn)在哪一階。如本例中第一行為15,表示個案9和個案19合并后的類將出現(xiàn)在第15階。2021/6/2738在本案例中,聚類表顯示,第一步先將所有30個個案中聚類最近的個案9與個案19合并為一類,因?yàn)槎咧g的距離測度系數(shù)僅為0.001,為最小。此階中合并的兩個群集在“首次出現(xiàn)階群集”的取值都為0,因此第一階是兩個個案的合并。“下一階”取值為15,表示合并后的類在低15階中將再次參與合并。在第15階中,群集1是個案2,群集2是個案9,二者之間的距離測度系數(shù)為0.134,“首次出現(xiàn)階群集”中群集1為8,群集2為1,表示參與本次聚類的群集1,即個案2為類,不是個案,該類來源于第8階聚類的結(jié)果。群集2也是類,該類來源于第1階聚類的結(jié)果,第15階是兩個類的合并,合并后的類將在第23階再次參與聚類分析。依次追蹤,可以在聚類表中看出所有的聚類過程。2021/6/2739

群集成員

2021/6/2740

群集成員

表中共顯示了分成5類、4類和3類時的聚類結(jié)果,如分成5類時,聚類結(jié)果顯示第一類包括(1,3,6,7,8,11,13,16,17,18,22,25,27)第二類包括(2,5,9,12,15,19,21,23,30)第三類包括(4,14,24,26,29);第四類包括(10);第五類包括(20,28)。2021/6/2741

冰柱圖

2021/6/2742

冰柱圖

左側(cè)y軸為集群數(shù)標(biāo)識出劃分類群的個數(shù),橫軸表示個案,用一個直尺與橫軸平行放置在冰柱圖上,如直尺放置在集群數(shù)為5的位置,直尺割斷突出的冰狀,則沒有被割斷的冰柱表示的個案就歸為一類。本案例中,從割斷冰狀的情況可以看出,個案20與個案28歸為一類;個案10自成一類;個案29,26,24,14,4歸為一類;個案21,30,15,5,19,9,23,12,2歸為一類;其余個案歸為一類。2021/6/2743

樹狀圖2021/6/2744

樹狀圖在樹狀圖的最上方,“RescaledDistanceClusterCombine”表示聚類重新標(biāo)定距離。即相當(dāng)于冰柱圖中的縱軸“集群數(shù)”。樹狀圖的解讀方法與冰柱圖類似,用一把直尺切割樹狀圖的橫線,當(dāng)直尺放置在集群數(shù)為5的位置,直尺垂直放置后,可以切割5條橫線,表示可以將30個個案劃分為5個類群,每一類群所包含的個案就是該被割斷的橫線所包含的個案數(shù)。在樹狀圖中的縱軸有兩列,第一列表示聚類主對話框中所選入“標(biāo)注個案”中的變量的取值。第二列表示個案的觀測量序號。2021/6/2745實(shí)驗(yàn)總結(jié)

系統(tǒng)聚類可以分為兩種類型,一種是對個案進(jìn)行分類,一種是的變量進(jìn)行分類。比較常用的是對個案進(jìn)行分類。2021/6/2746實(shí)驗(yàn)總結(jié)

系統(tǒng)聚類首先要根據(jù)解決的問題,選擇聚類指標(biāo),聚類指標(biāo)的選擇是為能反映類群特點(diǎn),因此,聚類指標(biāo)的選擇非常重要。不同的聚類指標(biāo),聚類的結(jié)果大相徑庭,同時能反映各類別的特點(diǎn)與規(guī)律也存在較大的差異。聚類的指標(biāo)不宜過多,如果過多,則特點(diǎn)與規(guī)律不明顯,且類別的劃分比較復(fù)雜,也不宜過少,如果只有一個聚類指標(biāo),在無需聚類。如果變量數(shù)量過多,可以考慮先對變量進(jìn)行因子分析,用提取出的公因子作為聚類指標(biāo),會使問題的分析簡化且規(guī)律明顯。2021/6/2747實(shí)驗(yàn)總結(jié)

系統(tǒng)聚類可以幫助我們選擇聚類數(shù)目。但不能告訴我們每一類別的聚類中心的位置,因此具有一定的局限性,因此可以選擇快速聚類方法進(jìn)行深入分析。2021/6/2748實(shí)驗(yàn)總結(jié)

值得注意的是,選用不同的聚類方法,計(jì)算距離的方法不同,所得到的分類結(jié)果會存在差異,建議選用其他聚類方法,對多種聚類結(jié)果進(jìn)行比較。比較的方法有兩種,一是根據(jù)對分類問題本身有關(guān)的專業(yè)知識來判斷哪種分類結(jié)果更合理;二是將各種結(jié)果中的共性取出來,將有疑問的個案先放在一邊待判,先將其余個案進(jìn)行分類。最后用最短距離法對待判的個案作特殊處理以決定它們的歸屬。2021/6/2749實(shí)驗(yàn)二快速聚類分析實(shí)驗(yàn)?zāi)康?/p>

找出各類別的聚類中心及類別歸屬情況;理解快速聚類的基本思想與原理;熟練掌握應(yīng)用SPSS軟件進(jìn)行快速聚類的方法;能對快速聚類結(jié)果進(jìn)行深入分析;培養(yǎng)運(yùn)用快速聚類方法解決身邊實(shí)際問題的能力。2021/6/2750實(shí)驗(yàn)二快速聚類分析準(zhǔn)備知識快速聚類的思想快速聚類是在知道該樣本可以劃分為幾個類別,然后依據(jù)一定的聚類方法將樣本中的個案按照最短距離法進(jìn)行歸類,并最后算出每一類別的聚類中心的方法。2021/6/2751快速聚類的步驟1找出原始聚類中心2計(jì)算距離3歸類并調(diào)整直至合理

2021/6/2752應(yīng)用spss軟件進(jìn)行快速聚類的步驟

1選擇聚類指標(biāo)2確定聚類數(shù)目3選擇聚類方法4選擇快速聚類各選項(xiàng)

2021/6/2753實(shí)驗(yàn)二快速聚類分析實(shí)驗(yàn)內(nèi)容

以系統(tǒng)聚類實(shí)驗(yàn)數(shù)據(jù)為本實(shí)驗(yàn)的數(shù)據(jù),對牙膏購買時考慮的“護(hù)牙因子”和“美牙因子”為聚類指標(biāo),對30個個案進(jìn)行快速聚類,對劃分為三類時的個案歸屬及各類特點(diǎn)進(jìn)行分析。分析每一類別的特點(diǎn)和規(guī)律。2021/6/2754實(shí)驗(yàn)二快速聚類分析實(shí)驗(yàn)步驟

(1)準(zhǔn)備工作。在SPSSl7.0中打開數(shù)據(jù)文件7-1-1.sav,通過選擇“文件—打開”命令將數(shù)據(jù)調(diào)入SPSSl7.0的工作文件窗口。2021/6/2755

(2)從菜單上依次選擇“分析—分類—K-均值聚類”,打開其對話框,如圖所示,執(zhí)行上述操作即可打開快速聚類主對話框2021/6/2756

(3)選擇聚類指標(biāo)從快速聚類主對話框中左側(cè)源變量框中選擇聚類指標(biāo)移入右側(cè)的變量框中,如本案例中選擇“護(hù)牙因子”和“美牙因子”兩個變量移入右側(cè)的變量框中。(4)確定聚類數(shù)在“聚類數(shù)”功能區(qū)右側(cè)的方框中輸入聚類數(shù)目,如本案例已知把30個個案劃分為3類,因此在“聚類數(shù)”后的方框內(nèi)輸入3。2021/6/2757

(5)確定聚類方法快速聚類中有兩種聚類方法:迭代與分類、分類?!暗c分類”,該方法是系統(tǒng)默認(rèn)的方法,表示在迭代過程中不斷地更新聚類中?!胺诸悺保贸跏季垲愔行膶€案進(jìn)行聚類,聚類中心始終不變。(6)選擇標(biāo)記變量從左側(cè)源變量框中選擇一個具有唯一標(biāo)識作用的變量移入“個案標(biāo)記依據(jù)”下的變量框中。如本案例選擇“order”變量。

2021/6/2758

(7)選擇是否從外部提取初始聚類中心在快速聚類主對話框的下方,有一個“聚類中心”功能區(qū),該功能區(qū)有兩項(xiàng)功能:讀取初始聚類中心和寫入最終聚類中心。本案例選擇寫入最終聚類中心。2021/6/2759

(8)“迭代”選項(xiàng)單擊“迭代”功能按鈕,展開如圖7-2-4的對話框,設(shè)置迭代的參數(shù)。在“最大迭代次數(shù)”后輸入一個整數(shù)以限定最大的迭代步數(shù),系統(tǒng)默認(rèn)值為10,即最多進(jìn)行10步迭代?!笆諗啃詷?biāo)準(zhǔn)”后輸入一個不超過1的正數(shù)作為判定迭代收斂的標(biāo)準(zhǔn)。缺省的收斂標(biāo)準(zhǔn)值為0.02,表示當(dāng)兩次迭代計(jì)算的聚類中心之間距離的最大改變量小于初始聚類中心間最小距離的2%時終止迭代。2021/6/2760

(9)單擊“保存”功能按鈕保存對話框總選擇保存新變量的方式?!熬垲惓蓡T”,在工作文件中建立一個名為“QCL-1”的新變量,其值為各觀測量隸屬于哪一類別的狀況。本案例中“QCL-1”變量的取值為1,2,3?!芭c聚類中心的距離”,在在工作文件中建立一個名為“QCL-2”的新變量,其值為各觀測量與所屬類聚類中心之間的歐式距離。2021/6/2761

(10)單擊“選項(xiàng)”功能按鈕選項(xiàng)對話框中定義輸出的統(tǒng)計(jì)量值及缺失值的處理方法?!敖y(tǒng)計(jì)量”欄用于指定輸出的統(tǒng)計(jì)量。“初始聚類中心”選項(xiàng)為系統(tǒng)默認(rèn)選項(xiàng),輸出初始聚類中心表?!癆NOVA”選項(xiàng)輸出方差分析表?!懊總€個案的聚類信息”選項(xiàng),選中后,在輸出結(jié)果中顯示各觀測量最終被聚入的類別、各觀測量與最終聚類中心之間的歐氏距離、以及最終各類聚類中心之間的歐氏距離?!叭笔е怠睓谟糜谥付ㄈ笔е档奶幚矸绞健?/p>

2021/6/2762

“按列表排除個案”,該選項(xiàng)為系統(tǒng)默認(rèn)選項(xiàng),當(dāng)聚類指標(biāo)中有缺失值時,剔除該觀測量。“按對排除個案”,選擇此選項(xiàng),只有當(dāng)一個觀測量的全部聚類指標(biāo)變量值均缺失時才將其從分析中剔除,否則根據(jù)所有其他非缺失變量值,把它分配到最近的一類中去。單擊繼續(xù)按鈕,返回快速聚類主對話框,單擊確定按鈕,SPSS自動完成計(jì)算。

2021/6/2763實(shí)驗(yàn)結(jié)果

組間因素

2021/6/2764迭代歷史記錄2021/6/2765迭代歷史記錄本案例共進(jìn)行了10次迭代,每次迭代類中心與上次迭代類中心的變化量。表下的注釋顯示,本案例完成了最大次數(shù)的迭代,迭代無法收斂。即表示任何中心的最大絕對坐標(biāo)更改為2.41E-009,初始中心間的最小距離為3.026。2021/6/2766

聚類成員2021/6/2767

聚類成員2021/6/2768

聚類成員本例給出了聚類成員歸屬結(jié)果,也叫做樣品隸屬類表。指出了聚類后各個案所隸屬的類。從表中的數(shù)據(jù)可以看出,個案4,10,14,24,28,29共6個樣品歸為第一類。表中的第四列“距離”表示該個案與聚類中心之間的距離。個案2,5,9,12,15,21,30共7個樣品歸為第二類;其余樣品歸為第三類。此表中最后兩列的數(shù)據(jù)分別作為變量“QCL-1”和“QCL-2”的觀測值保存于當(dāng)前工作的數(shù)據(jù)文件中。2021/6/2769最終聚類中心

2021/6/2770最終聚類中心散點(diǎn)圖

2021/6/2771最終聚類中心間的距離

2021/6/2772每個聚類中的案例數(shù)

2021/6/2773實(shí)驗(yàn)總結(jié)

快速聚類要事先知道劃分為多少類??焖倬垲惙治龅闹攸c(diǎn)是會解讀最終的聚類中心的坐標(biāo),該聚類中心就表示了該類的特點(diǎn)和規(guī)律??焖倬垲惤Y(jié)果與系統(tǒng)聚類的結(jié)果往往不同,因?yàn)閮煞N聚類方法思路和步驟存在很大的區(qū)別,因此,要依據(jù)對案例個案的理論了解通過比較分析確定最終的聚類結(jié)果。系統(tǒng)聚類的優(yōu)點(diǎn)是能很好地判斷劃分為多少類別比較合適,判斷的依據(jù)是類內(nèi)的差異最小,類間差異最大。快速聚類的優(yōu)點(diǎn)是能計(jì)算出最終的聚類中心,對類的特點(diǎn)有一個較好的把握。2021/6/2774實(shí)驗(yàn)三判別分析

實(shí)驗(yàn)?zāi)康?/p>

明確判別分析有關(guān)的概念;熟練掌握判別的過程;能用SPSS軟件進(jìn)行判別分析;培養(yǎng)運(yùn)用判別分析方法解決身邊實(shí)際問題的能力。2021/6/2775知識準(zhǔn)備

判別分析的定義與基本思想根據(jù)歷史上劃分類別的有關(guān)資料和某種最優(yōu)準(zhǔn)則,確定一種判別方法,判定一個新的樣本歸屬哪一類。也就是希望利用調(diào)查數(shù)據(jù),找出一種判別函數(shù),使得這一函數(shù)具有某種最優(yōu)性質(zhì),能把屬于不同類別的樣本點(diǎn)盡可能地區(qū)別開來,并對測得同樣p項(xiàng)指標(biāo)數(shù)據(jù)的一個新樣本,能判斷這個樣本歸屬于哪一類。SPSS軟件提供的判別分析過程根據(jù)已知的觀測量分類和表明觀測量特征的變量值推導(dǎo)出判別函數(shù),并把各觀測量的自變量值回代到判別函數(shù)中,根據(jù)判別函數(shù)對觀測量所屬類別進(jìn)行判別。對比原始數(shù)據(jù)的分類和按判別函數(shù)所判的分類,給出錯分概率。2021/6/2776知識準(zhǔn)備

判別分析的過程第一階段,分析和解釋各組的指標(biāo)特征之間存在的差異,并建立判別函數(shù)。在這部分工作中,一是要處理的是已知分組屬性的那些案例。(1)確定是否能在特征變量數(shù)據(jù)的基礎(chǔ)上判別出已知的分組來;(2)分組能被判別的程度;(3)哪些特征變量是最有用的判別因素。二是為了分組的目的推導(dǎo)一個或多個數(shù)學(xué)方程,這些數(shù)學(xué)方程稱為“判別函數(shù)”,他們以某種數(shù)學(xué)形式將表示特征的判別變量與分組屬性結(jié)合起來,是我們能辨識一個案例所最近似的分組。2021/6/2777知識準(zhǔn)備

判別分析的過程第二階段要處理的是未知分組屬性的案例,以第一階段的分析結(jié)果為根據(jù)將這些案例進(jìn)行判別分組。這相當(dāng)于根據(jù)以往經(jīng)驗(yàn)來“預(yù)測”案例的分組屬性。2021/6/2778知識準(zhǔn)備

判別分析的類別(1)按判別的總體數(shù)來區(qū)分:①兩個總體判別分析;②多個總體判別分析。(2)按區(qū)分不同總體所用的數(shù)學(xué)模型來分①線性判別;②非線性判別。(3)按判別時所處理的變量方法不同①逐步判別;②序慣判別。

2021/6/2779知識準(zhǔn)備

判別準(zhǔn)則馬氏距離最小準(zhǔn)則Fisher準(zhǔn)則平均損失最小準(zhǔn)則(貝葉斯判別法)最小平方準(zhǔn)則最大似然準(zhǔn)則最大概率準(zhǔn)則2021/6/2780知識準(zhǔn)備

判別分析的基本假設(shè)

當(dāng)被解釋變量是屬性變量而解釋變量是度量變量時,判別分析是合適的統(tǒng)計(jì)分析方法。其假設(shè)條件:(1)每一個判別變量(解釋變量)不能是其他判別變量的線性組合。即解釋變量之間不存在多重共線性。(2)各組變量的協(xié)方差矩陣相等。(3)各判別變量之間具有多元正態(tài)分布,即每個變量對于所有其他變量的固定值有正態(tài)分布。(4)分組類型在兩種以上,各鑒別變量的測度水平在間距測度等級以上;各分組的案例在各鑒別變量的數(shù)值上能夠體現(xiàn)差別;要求案例數(shù)量(n)比變量的個數(shù)(K)多于兩個。2021/6/2781知識準(zhǔn)備

判別分析的基本模型判別分析的基本模型就是判別函數(shù),它表示為分組變量與滿足假設(shè)的條件的判別變量的線性函數(shù)關(guān)系判別函數(shù)值y又稱為判別值(DiscriminantScore),它代表各分組在某一空間上的坐標(biāo)。bi為各判別變量對于判別函數(shù)值的影響。判別模型的幾何含義是:各判別變量代表了k維空間。判別分析的實(shí)質(zhì)就是希望利用已經(jīng)測得的變量數(shù)據(jù),找出一種判別函數(shù),使得這一函數(shù)具有某種最優(yōu)性質(zhì),能把屬于不同類別的樣本點(diǎn)盡可能地區(qū)別開來。2021/6/2782判別分析模型的各參數(shù)指標(biāo)及其統(tǒng)計(jì)檢驗(yàn)

非標(biāo)準(zhǔn)化判別系數(shù)判別系數(shù)又稱函數(shù)系數(shù)(FunctionCoefficient),包括兩種:非標(biāo)準(zhǔn)化的判別系數(shù)(UnstandardizedDiscriminantCoefficient)和標(biāo)準(zhǔn)化的判別系數(shù)。非標(biāo)準(zhǔn)化的判別系數(shù)也稱為粗系數(shù)(RawCoefficient)將原始變量值直接輸入模型,得到的系數(shù)估計(jì)就是非標(biāo)準(zhǔn)化的粗系數(shù)。非標(biāo)準(zhǔn)化系數(shù)是用來計(jì)算判別值(DiscriminantScore)的。2021/6/2783判別分析模型的各參數(shù)指標(biāo)及其統(tǒng)計(jì)檢驗(yàn)

標(biāo)準(zhǔn)化判別系數(shù)標(biāo)準(zhǔn)化使得每個變量都以自己的平均值作為數(shù)軸原點(diǎn),以自己的標(biāo)準(zhǔn)差作為單位,這樣一來,每個案例的原始變量值,一方面表現(xiàn)為與平均值之間的距離,另一方面以正負(fù)號形式表示了自己偏離平均值的方向、并且各標(biāo)準(zhǔn)化系數(shù)之間具有橫向可比性。哪個變量的標(biāo)準(zhǔn)化系數(shù)絕對值大,就意味著將對判別值有更大的影響,于是可以用來比較各變量對判別值的相對作用。2021/6/2784判別分析模型的各參數(shù)指標(biāo)及其統(tǒng)計(jì)檢驗(yàn)

結(jié)構(gòu)系數(shù)判別分析中的結(jié)構(gòu)系數(shù)(StructuralCoefficient)又稱為判別負(fù)載(DiscriminantLoading),它實(shí)際上是某個判別變量xi與判別值y之間的相關(guān)系數(shù),它表達(dá)了兩者之間的擬合水平。當(dāng)這個系數(shù)的絕對值很大時,這個判別函數(shù)表達(dá)的信息與這個變量的信息幾乎相同,當(dāng)這個系數(shù)接近于0時,它們之間就沒有什么共同之處。如果一些變量與一個函數(shù)之間有很大的結(jié)構(gòu)系數(shù)值,我們就可以用這些變量的名字命名這個函數(shù)。2021/6/2785判別分析模型的各參數(shù)指標(biāo)及其統(tǒng)計(jì)檢驗(yàn)

分組的矩心

分組的矩心(GroupCentroid)描述在判別空間中每一組案例的中心位置。其計(jì)算過程是將每一組別的每一個判別變量的平均值分別代入兩個判別函數(shù)。

分組的矩心表示每個分組在各判別軸上的坐標(biāo)值。考察在判別空間中每個案例點(diǎn)與各組的矩心之間的距離,便于分析具體案例分組屬性的傾向。2021/6/2786判別分析模型的各參數(shù)指標(biāo)及其統(tǒng)計(jì)檢驗(yàn)

判別力指數(shù)

有時判別分析可以推導(dǎo)出多個判別函數(shù),然而這些判別函數(shù)不一定都很有用。可以根據(jù)一定指標(biāo)來描述其對于判別的效益。這里所說的判別力,既包括了每個判別變量對于判別函數(shù)的作用,也包括了本判別函數(shù)對于所有原始變量總方差的代表性。

判別力指數(shù)(PotencyIndex)就是這樣一個指標(biāo),有時它也叫做方差百分比(Percent

ofVariance)。判別分析通過判別函數(shù)所能代表的所有原始變量的總方差百分比來表示每個判別函數(shù)的判別力。2021/6/2787判別分析模型的各參數(shù)指標(biāo)及其統(tǒng)計(jì)檢驗(yàn)

殘余判別力

殘余判別力的含義是,在以前計(jì)算的函數(shù)已經(jīng)提取過原始信息之后,殘余的變量信息對于判別分組的能力。殘余判別力用統(tǒng)計(jì)量Wilks’Lambda來測量,其值是一個反面度量,值越小表示越高的判別力,即分組矩心極大地分離,并且相對于分組內(nèi)部的離散程度非常明顯。當(dāng)Wilks’Lambda增加到最大值1時,組矩心就完全吻合了,這時沒有分組之間的差別。2021/6/2788判別分析的步驟解釋變量和被解釋變量的選擇

1①解釋變量為定量變量;②被解釋變量為定性變量。

2021/6/2789判別分析的步驟

樣本的分割2分割成兩個子樣本,一個用于估計(jì)判別函數(shù),另一個用于驗(yàn)證。

2021/6/2790判別分析的步驟估計(jì)判別模型3①全模型法②先前選擇法③向后選擇法④逐步選擇法注意:當(dāng)樣本容量與解釋變量個數(shù)之比低于20時,逐步估計(jì)變得不穩(wěn)定。這些情況下用多種方法來驗(yàn)證結(jié)果尤其重要。2021/6/2791判別分析的步驟評估判別函數(shù)的統(tǒng)計(jì)顯著性4在計(jì)算了判別函數(shù)以后,必須評估它的顯著性。Wilk‘sLamada,Hotelling和Pillai準(zhǔn)則都是評估判別函數(shù)的判別效力的顯著性統(tǒng)計(jì)量。Roy最大特征根只檢驗(yàn)第一個判別函數(shù)。如果使用逐步法來估計(jì)判別函數(shù),則馬氏距離和Rao’sV測量是最合適的2021/6/2792判別分析的步驟評估整體擬合5一旦判別方程通過了顯著性檢驗(yàn),注意力轉(zhuǎn)向確定保留的判別函數(shù)的整體擬合。這個評估包括三個任務(wù):計(jì)算每個觀測的判別Z得分,檢驗(yàn)各組在判別Z得分上的差異和評估組的關(guān)系的預(yù)測精度。2021/6/2793判別分析的步驟利用判別函數(shù)對觀測量進(jìn)行分類6用判別分析過程導(dǎo)出的線性判別函數(shù)的數(shù)目與類別數(shù)目相同。確定一個觀測量屬于哪一類,可以把該觀測量的各變量值代入每一個判別函數(shù),哪個判別函數(shù)值大,該觀測量就屬于哪一類。2021/6/2794實(shí)驗(yàn)三判別分析

實(shí)驗(yàn)內(nèi)容

利用聚類分析一章的某牙膏公司調(diào)查消費(fèi)者購買牙膏時考慮哪些因素的數(shù)據(jù)。該數(shù)據(jù)中,消費(fèi)者購買牙膏時考慮的因子有兩大類“護(hù)牙因子”和“美牙因子”,應(yīng)用聚類分析,可以將30位顧客劃分為三個類群。應(yīng)用該數(shù)據(jù),計(jì)算判別函數(shù)。2021/6/2795實(shí)驗(yàn)表格

2021/6/2796實(shí)驗(yàn)三協(xié)方差分析實(shí)驗(yàn)步驟

(1)準(zhǔn)備工作。在SPSSl7.0中打開數(shù)據(jù)文件7-1.sav,通過選擇“文件—打開”命令將數(shù)據(jù)調(diào)入SPSSl7.0的工作文件窗口。數(shù)據(jù)文件中,因子分析提取出的兩個公因子“美牙因子”和“護(hù)牙因子”作為研究對象特征的變量,聚類分析得到的類別歸屬保存在“類別”變量中。

2021/6/2797

(2)執(zhí)行“分類-判別”命令,打開判別分析的主對話框。操作過程見圖2021/6/2798

(3)從判別分析主對話框左側(cè)的源變量框中選擇反映研究對象特征的變量作為自變量,移入右側(cè)的“自變量”下的變量框中。本案例選擇“護(hù)牙因子”和“美牙因子”作為自變量。2021/6/2799

(4)從判別分析主對話框左側(cè)的源變量框中選擇保存分組信息的變量作為分組變量,移入右側(cè)的“分組變量”下的變量框中。注意,這里所選擇的分組變量是離散型變量,且其分組數(shù)至少多于兩類。本案例選擇“類別”變量作為分組變量移入“分組變量”框中,此時矩形框下面的定義范圍置亮,單擊該按鈕,打開定義分組范圍的小對話框如圖所示。在“最小值”框中輸入該分組變量的最小值,本案例輸入“1”。“最大”框中輸入該分組變量的最大值,本案例中輸入“3”。2021/6/27100

(5)如果希望使用一部分觀測量進(jìn)行判別分析,推導(dǎo)出判別函數(shù),而另一部分觀測量用于驗(yàn)證判別函數(shù)的盤錯率,而且,在數(shù)據(jù)文件中有一個變量的某個值可以作為這些觀測量的標(biāo)識,則應(yīng)用判別分析主對話框中的“選擇變量”功能進(jìn)行選擇。2021/6/27101

(6)操作方法是從左側(cè)原變量框中選擇標(biāo)識變量,移入“選擇變量”框中,點(diǎn)擊其后的“值”按鈕,可以打開圖7-3-4所示的對話框。在展開的“設(shè)置值”子對話框中,鍵入標(biāo)識參與分析的觀測量所具有的該變量值。本案例中的標(biāo)識變量為“abs”,其標(biāo)識參與分析的觀測量取值為“1”。因此,在“設(shè)置值”子對話框中,鍵入“1”。然后點(diǎn)擊“繼續(xù)”,返回主對話框。2021/6/27102

2021/6/27103

方法

“Wilks’lambda”選項(xiàng),每步都是Wilk的λ統(tǒng)計(jì)量最小的變量進(jìn)入判別函數(shù)?!拔唇忉尫讲睢边x項(xiàng),每步都使個類不可解釋的方差之和最小的變量進(jìn)入判別函數(shù)?!癕ahalanobis’距離”選項(xiàng),每步都使靠得最近的兩類間的Mahalanobis距離最大的變量進(jìn)入判別函數(shù)。2021/6/27104

方法“最小F值”選項(xiàng),每步都使任何兩類間的最小的F值最大的變量進(jìn)入判別函數(shù)?!癛ao’sV”選項(xiàng),Rao’sV統(tǒng)計(jì)量值是類間均值蟬翼的測度。每步選擇使Rao’sV值的增量最大化的變量進(jìn)入判別函數(shù)。選擇此項(xiàng)后,需要在下面的“V至輸入值”的矩形框中指定一個V值最小增量值,當(dāng)變量的V值增量大于這個指定的增量值時,該變量進(jìn)入判別函數(shù)。

2021/6/27105

標(biāo)準(zhǔn)使用F值。這是系統(tǒng)默認(rèn)選項(xiàng),當(dāng)一個變量的F值大于指定的“進(jìn)入值”時,選擇這個變量進(jìn)入判別函數(shù),系統(tǒng)默認(rèn)的“進(jìn)入值”為3.84;當(dāng)變量的F值小于指定的“刪除”值時,這個變量將被從判別函數(shù)中移出,系統(tǒng)默認(rèn)的“刪除”值為2.71。自行設(shè)置“進(jìn)入值”和“刪除”值時要注意,“進(jìn)入值”要大于“刪除”值。2021/6/27106

輸出步進(jìn)摘要。顯示每步選中變量之后各變量的統(tǒng)計(jì)量概述結(jié)果。包括Wilks’λ值、容差、F值、顯著性水平等。兩兩組間距離的F值。顯示兩兩類之間的兩兩F值矩陣。

2021/6/27107

(7)單擊“統(tǒng)計(jì)量”功能按鈕,打開統(tǒng)計(jì)量對話框,如圖所示。該對話框包括三個功能區(qū)2021/6/27108

描述性均值:輸出各自變量在各類中的觀測量和全部觀測量的均值、標(biāo)準(zhǔn)差。單變量ANOVA:單變量方差分析,對各類中同一自變量均值進(jìn)行假設(shè)檢驗(yàn),輸出單變量方差分析表。“Box’sM”:輸出對各類協(xié)方差矩陣相等的假設(shè)進(jìn)行Box’sM檢驗(yàn)的結(jié)果。2021/6/27109

函數(shù)系數(shù)

Fisher:計(jì)算Fisher判別函數(shù)系數(shù)??芍苯佑糜趯π聵颖镜姆诸?,對每一類都給給出一組系數(shù),并且指出該類中具有最大判別分?jǐn)?shù)的觀測量?!拔礃?biāo)準(zhǔn)化”選項(xiàng),輸出非標(biāo)準(zhǔn)化的判別函數(shù)系數(shù)。

2021/6/27110

矩陣

組內(nèi)相關(guān):輸出組內(nèi)相關(guān)系數(shù)矩陣。組內(nèi)協(xié)方差:輸出組內(nèi)協(xié)方差矩陣。分組協(xié)方差:輸出每一類的協(xié)方差矩陣??傮w協(xié)方差:輸出總體樣本的協(xié)方差矩陣。2021/6/27111

(8)單擊判別分析主對話框中的“分類”按鈕,打開分類對話框,如圖所示2021/6/27112

先驗(yàn)概率

所有組相等:各先驗(yàn)概率相等,若分為m

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論