




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第四章聚類(lèi)分析聚類(lèi)分析是根據(jù)研究對(duì)象的特征對(duì)研究對(duì)象進(jìn)行分類(lèi)的多元分析技術(shù)的總稱(chēng)。分類(lèi)問(wèn)題是各個(gè)學(xué)科領(lǐng)域都普遍存在的問(wèn)題,例如人口學(xué)中研究人口生育分類(lèi)模式、人口死亡分類(lèi)模式,醫(yī)學(xué)中對(duì)各種精神病特征的分析,市場(chǎng)營(yíng)銷(xiāo)學(xué)中進(jìn)行市場(chǎng)分層、確定目標(biāo)市場(chǎng)等等,這些都需要對(duì)研究對(duì)象進(jìn)行分類(lèi)。聚類(lèi)分析是應(yīng)用最廣泛的分類(lèi)技術(shù),它把性質(zhì)相近的個(gè)體歸為一類(lèi),使得同一類(lèi)中的個(gè)體具有高度的同質(zhì)性,不同類(lèi)之間的個(gè)體具有高度的異質(zhì)性。課外鏈接聚類(lèi)分析在市場(chǎng)細(xì)分中的應(yīng)用/s?src=3×tamp=1530953468&ver=1&signature=IXB*IkLwdFOs*eSLfuVG6yyGl--mBocuBb-TT3IvHExxrMx-7jhasRQz5euPJRyTZ4g30nwD4Lj*UfMFTACcLWarB4yiEyemLfWCkBUPUmYfNP6LWNjtniJs3NglZu7c07VunHbYLIN6z9HgTMHROQ==一、聚類(lèi)分析的主要步驟一般來(lái)說(shuō),聚類(lèi)分析至少都應(yīng)該包括以下四個(gè)步驟:第一步,根據(jù)研究的目的選擇合適的聚類(lèi)變量;第二步,計(jì)算相似性測(cè)度;第三步,選定聚類(lèi)方法進(jìn)行聚類(lèi);第四步,對(duì)結(jié)果進(jìn)行解釋和驗(yàn)證。(一)選擇變量因?yàn)榫垲?lèi)分析是根據(jù)所選定的變量對(duì)研究對(duì)象進(jìn)行分類(lèi),聚類(lèi)的結(jié)果僅僅反映了所選定變量所定義的數(shù)據(jù)結(jié)構(gòu),所以變量的選擇在聚類(lèi)分析中非常重要。一般來(lái)說(shuō),選擇哪些變量應(yīng)該具有一定的理論支持,但實(shí)踐中往往缺乏這樣強(qiáng)有力的理論基礎(chǔ),研究者一般是根據(jù)實(shí)際工作經(jīng)驗(yàn)和所研究問(wèn)題的特征人為地選擇一些變量。(二)計(jì)算相似性選定了聚類(lèi)變量,下一步就是計(jì)算研究對(duì)象之間的相似性。相似性是聚類(lèi)分析中的一個(gè)基本概念,它反映了研究對(duì)象之間的親疏程度,聚類(lèi)分析就是根據(jù)研究對(duì)象之間的相似性來(lái)進(jìn)行分類(lèi)的。有很多種相似性測(cè)度,關(guān)于它們的計(jì)算和使用,我們將在后面詳述。(三)聚類(lèi)選定了聚類(lèi)變量、計(jì)算出相似性矩陣之后,下一步就是要對(duì)研究對(duì)象進(jìn)行分類(lèi)。這時(shí)主要涉及兩個(gè)問(wèn)題:一是選定聚類(lèi)方法,二是確定形成的類(lèi)數(shù)。我們將在第三節(jié)介紹常用的聚類(lèi)方法和如何確定形成的類(lèi)數(shù)。(四)聚類(lèi)結(jié)果的解釋和證實(shí)得到聚類(lèi)結(jié)果后,還應(yīng)該對(duì)結(jié)果進(jìn)行驗(yàn)證和解釋?zhuān)员WC聚類(lèi)解是可信的。二、相似性測(cè)度在聚類(lèi)分析技術(shù)的發(fā)展過(guò)程中,形成了很多種測(cè)度相似性的方法。每一種方法都從不同的角度測(cè)度了研究對(duì)象的相似性,主要分為以下三類(lèi):(1)相關(guān)測(cè)度;(2)距離測(cè)度;(3)關(guān)聯(lián)測(cè)度。其中相關(guān)測(cè)度和距離測(cè)度適用于間距測(cè)度等級(jí)及以上的數(shù)據(jù),關(guān)聯(lián)測(cè)度適用于名義測(cè)度和序次測(cè)度的數(shù)據(jù)。(一)相關(guān)測(cè)度應(yīng)用最廣泛的相關(guān)測(cè)度是皮爾遜相關(guān)系數(shù),即簡(jiǎn)單相關(guān)系數(shù)。它最初用來(lái)測(cè)度變量之間的相關(guān)程度,聚類(lèi)分析中用它來(lái)測(cè)度案例之間的相似程度。(二)距離測(cè)度距離測(cè)度的出發(fā)點(diǎn)是把每個(gè)案例看作m維空間(m為變量個(gè)數(shù))中的一個(gè)點(diǎn),在犿維空間中定義點(diǎn)與點(diǎn)之間的距離。距離越近的點(diǎn),相似程度越高,聚類(lèi)時(shí)更可能歸為一類(lèi)。如果兩個(gè)案例在所有的變量上的值都相同,這兩個(gè)點(diǎn)在m維空間中應(yīng)該重合,兩個(gè)點(diǎn)之間的距離為0。(三)關(guān)聯(lián)測(cè)度關(guān)聯(lián)測(cè)度用來(lái)度量聚類(lèi)變量為分類(lèi)變量的研究對(duì)象的相似性。有很多種關(guān)聯(lián)測(cè)度系數(shù),其中只有三種得到了廣泛的應(yīng)用,它們分別是簡(jiǎn)單匹配系數(shù)、Jaccard和Gower系數(shù)。(四)數(shù)據(jù)的標(biāo)準(zhǔn)化問(wèn)題前面介紹的大部分相似測(cè)度,特別是距離測(cè)度,受聚類(lèi)變量測(cè)量單位的影響很大。其中數(shù)量級(jí)單位大的變量往往其變差也大,它對(duì)相似測(cè)度的貢獻(xiàn)占主導(dǎo)地位,這樣就可能掩蓋了其他變差小的變量的影響。另外,當(dāng)變量的測(cè)量單位變化時(shí),相似測(cè)度的值也隨之改變,有可能改變最終的聚類(lèi)結(jié)果。為了克服變量測(cè)量單位的影響,在計(jì)算相似測(cè)度之前,一般對(duì)變量要做標(biāo)準(zhǔn)化處理。通常是把變量變成均值為0、方差為1的標(biāo)準(zhǔn)化變量。常用的聚類(lèi)分析軟件中都有這項(xiàng)功能,可以自動(dòng)完成。三、聚類(lèi)方法有很多種聚類(lèi)方法,應(yīng)用最廣泛的有兩類(lèi):層次聚類(lèi)法和迭代聚類(lèi)法。(一)層次聚類(lèi)法有兩種層次聚類(lèi)法:聚集法和分解法。聚集法是首先把每個(gè)案例各自看成一類(lèi),先把距離最近的兩類(lèi)合并,然后重新計(jì)算類(lèi)與類(lèi)之間的距離,再把距離最近的兩類(lèi)合并,每一步減少一類(lèi),這個(gè)過(guò)程一直持續(xù)到所有的案例歸為一類(lèi)為止。分解法和聚集法的過(guò)程相反,首先把所有的案例歸為一類(lèi),然后把最不相似的案例分為兩類(lèi),每一步增加一類(lèi),直到每個(gè)案例都自成一類(lèi)為止。分解法和聚集法相似,只是過(guò)程相反。所以,這里我們只介紹常用的層次聚集算法。層次聚集法是聚類(lèi)分析中應(yīng)用最廣泛的聚類(lèi)方法,層次聚集法的聚類(lèi)過(guò)程可以用一個(gè)樹(shù)狀表示出來(lái),根據(jù)該樹(shù)狀結(jié)構(gòu)圖可進(jìn)行不同的分類(lèi)處理。(二)迭代聚類(lèi)法層次聚類(lèi)法在聚類(lèi)過(guò)程中需要存儲(chǔ)距離矩陣,并且在每一步的并類(lèi)過(guò)程中都需要做很多計(jì)算。這樣,當(dāng)樣本量很大時(shí)會(huì)需要較大的計(jì)算機(jī)內(nèi)存空間和較長(zhǎng)的計(jì)算時(shí)間。迭代聚類(lèi)法克服了層次聚類(lèi)法的這兩個(gè)缺點(diǎn),具有占計(jì)算機(jī)內(nèi)存空間小、速度快的優(yōu)點(diǎn),適用于大樣本的聚類(lèi)分析。(三)分類(lèi)數(shù)的確定到目前為止,我們還沒(méi)有討論過(guò)如何確定分類(lèi)數(shù),聚類(lèi)分析的目的是要對(duì)研究對(duì)象進(jìn)行分類(lèi),因此如何選擇分類(lèi)數(shù)成為各種聚類(lèi)方法中的主要問(wèn)題之一。在迭代聚類(lèi)法中,聚類(lèi)之前需要指定分類(lèi)數(shù),層次聚類(lèi)法中我們最終得到的只是一個(gè)樹(shù)狀結(jié)構(gòu)圖,從圖中可以看出存在很多不同的類(lèi),但問(wèn)題是如何確定類(lèi)的最佳個(gè)數(shù)。(四)聚類(lèi)方法的選擇因?yàn)椴煌木垲?lèi)方法對(duì)于同一數(shù)據(jù)會(huì)得出不同的聚類(lèi)結(jié)果,那么如何從眾多的聚類(lèi)方法中進(jìn)行選擇呢?遺憾的是對(duì)這一問(wèn)題并沒(méi)有明確的答案,因?yàn)椴⒉淮嬖谝环N總是最優(yōu)的聚類(lèi)方法。很多對(duì)聚類(lèi)方法的比較研究表明,某種聚類(lèi)方法是否能發(fā)現(xiàn)真實(shí)的數(shù)據(jù)結(jié)構(gòu),受很多因素的影響,至少以下四個(gè)因素會(huì)大大影響聚類(lèi)方法的使用效果:(1)類(lèi)的結(jié)構(gòu)(主要指類(lèi)的形狀、規(guī)模和個(gè)數(shù))。(2)異常值(outliers)的存在。(3)類(lèi)與類(lèi)之間重疊的程度。(4)相似測(cè)度的選擇。四、聚類(lèi)結(jié)果的解釋和證實(shí)對(duì)聚類(lèi)結(jié)果進(jìn)行解釋是希望對(duì)各個(gè)類(lèi)的特征進(jìn)行準(zhǔn)確的描述,給每類(lèi)起一個(gè)合適的名稱(chēng)。這一步可以借助于各種描述性統(tǒng)計(jì)量進(jìn)行分析,通常做法是計(jì)算各個(gè)類(lèi)在各聚類(lèi)變量上的均值,對(duì)均值進(jìn)行比較分析,還可以使用聚類(lèi)變量之外的其他變量,幫助描述各個(gè)類(lèi)的特征,解釋各個(gè)類(lèi)差別的原因。五、使用spss軟件進(jìn)行聚類(lèi)分析(一)HierarchicalCluster1.指定參與聚類(lèi)的變量2.指定聚類(lèi)對(duì)象進(jìn)行變量聚類(lèi)3.指定聚類(lèi)方法4.選擇要輸出的統(tǒng)計(jì)量5.選擇要輸出的統(tǒng)計(jì)圖表6.生成新變量(二)K-MeansCluster1.指定聚類(lèi)變量2.確定分類(lèi)數(shù)3.引用和存放聚類(lèi)平均值4.迭代設(shè)置5.備選項(xiàng)目5.備選項(xiàng)目基本概念聚類(lèi)對(duì)象聚類(lèi)變量對(duì)案例聚類(lèi)相似性相關(guān)測(cè)度距離測(cè)度關(guān)聯(lián)測(cè)度數(shù)據(jù)標(biāo)準(zhǔn)化層次聚類(lèi)法聚集法分解法樹(shù)狀圖類(lèi)別距離測(cè)量法聚類(lèi)進(jìn)度表冰柱圖迭代聚類(lèi)法初始聚類(lèi)中心最終聚類(lèi)中心聚合系數(shù)類(lèi)別歸屬距所屬類(lèi)中心的距離本章要點(diǎn)1.聚類(lèi)分析是應(yīng)用最廣泛的分類(lèi)技術(shù)。它根據(jù)研究對(duì)象之間的相似性對(duì)研究對(duì)象進(jìn)行分類(lèi)。聚類(lèi)分析可以用來(lái)對(duì)案例進(jìn)行分類(lèi),也可以用來(lái)對(duì)變量進(jìn)行分類(lèi)。2.選擇合適的聚類(lèi)變量在分析中至關(guān)重要。選擇這些變量的要求是:各聚類(lèi)分析的目標(biāo)密切相關(guān),反映要分類(lèi)對(duì)象的特征,在不同研究對(duì)象上的值具有明顯差異,變量之間不存在高度相關(guān)。3.應(yīng)該根據(jù)變量的測(cè)度等級(jí)選擇合適的相似性測(cè)度。相關(guān)測(cè)度和距離測(cè)度適用于間距測(cè)度及以上的數(shù)據(jù),關(guān)聯(lián)測(cè)度適用于名義測(cè)度和序次測(cè)度的數(shù)據(jù)。4.每一種聚類(lèi)方法各有特點(diǎn)。層次聚類(lèi)法只能單方向進(jìn)行聚類(lèi),聚類(lèi)結(jié)果受數(shù)據(jù)中異常值的影響很大。迭代聚類(lèi)法初始分類(lèi)非常敏感,通常也只能得到局部最優(yōu)解。把這兩種方法結(jié)合起來(lái)使用,可以取長(zhǎng)補(bǔ)短。參考文
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫(yī)院消費(fèi)合同范本
- 鏈家的合同范本
- 閥門(mén)銷(xiāo)貨合同范本
- 買(mǎi)賣(mài)面粉合同范本
- 2025-2030年中國(guó)氧化鋇市場(chǎng)發(fā)展?fàn)顩r及投資風(fēng)險(xiǎn)分析報(bào)告
- 2025-2030年中國(guó)榨汁機(jī)市場(chǎng)現(xiàn)狀調(diào)研及發(fā)展趨勢(shì)分析報(bào)告
- 員工授權(quán)合同范本
- 搪瓷散熱器性能優(yōu)化考核試卷
- 廣告冠名合同范本
- 進(jìn)口塑料購(gòu)銷(xiāo)合同范本
- 施工班組考核評(píng)分表
- 水泥攪拌樁施工記錄表
- 脫碳塔CO2脫氣塔設(shè)計(jì)計(jì)算
- 《駱駝祥子》通讀指導(dǎo)手冊(cè)
- 股東會(huì)會(huì)議系列文件(通知、議程、簽到表、表決票、決議)
- 非法占用農(nóng)田建房舉報(bào)信范文
- 伐樹(shù)工程施工合同范本
- 工程開(kāi)工報(bào)告(5篇)
- 配電箱試驗(yàn)項(xiàng)目
- 運(yùn)動(dòng)技能學(xué)習(xí)與控制課件第一章運(yùn)動(dòng)技能學(xué)習(xí)與控制概述
- 溫室大棚花卉苗圃采暖方案空氣源熱泵
評(píng)論
0/150
提交評(píng)論