第十章-聚類分析_第1頁
第十章-聚類分析_第2頁
第十章-聚類分析_第3頁
第十章-聚類分析_第4頁
第十章-聚類分析_第5頁
已閱讀5頁,還剩62頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第十章聚類分析10.1聚類分析的一般問題10.2層次聚類10.3K-Means聚類10.1聚類分析的一般問題聚類分析是統(tǒng)計學(xué)中研究“物以類聚”問題的多元統(tǒng)計分析方法。聚類分析是一種建立分類的多元統(tǒng)計分析方法,它能夠?qū)⒁慌鷺颖荆ɑ蜃兞浚?shù)據(jù)根據(jù)其諸多特征,按照在性質(zhì)上的親疏程度(各變量取值上的總體差異程度)在沒有先驗知識(沒有事先指定的分類標準)的情況下進行自動分類,產(chǎn)生多個分類結(jié)果。類內(nèi)部的個體在特征上具有相似性,不同類間個體特征的差異性較大。10.1.1聚類分析的意義聚類分析的應(yīng)用不同地區(qū)城鎮(zhèn)居民收入和消費狀況的分類研究。

區(qū)域經(jīng)濟及社會發(fā)展水平的分析及全國區(qū)域經(jīng)濟綜合評價產(chǎn)品市場細分:按照消費者的需求特征分成不同的細分市場在兒童生長發(fā)育研究中,把以形態(tài)學(xué)為主的指標歸于一類,以機能為主的指標歸于另一類例如,學(xué)校里有些同學(xué)經(jīng)常在一起,關(guān)系比較密切,而他們與另一些同學(xué)卻很少來往,關(guān)系比較疏遠。究其原因可能會發(fā)現(xiàn),經(jīng)常在一起的同學(xué)的家庭情況、性格、學(xué)習(xí)成績、課余愛好等方面有許多共同之處,而關(guān)系比較疏遠的同學(xué)在這些方面有較大的差異性。為了研究家庭情況、性格、學(xué)習(xí)成績、課余愛好等是否會成為劃分學(xué)生小群體的主要決定因素,可以從有關(guān)這些方面的數(shù)據(jù)入手,進行客觀分組,然后比較所得的分組是否與實際相吻合。對學(xué)生的客觀分組就可采用聚類分析方法。例:下表是同一批客戶對經(jīng)常光顧的五座商場在購物環(huán)境和服務(wù)質(zhì)量兩方面的平均得分,現(xiàn)希望根據(jù)這批數(shù)據(jù)將五座商場分類。聚類分析中,個體之間的“親疏程度”是極為重要的,它將直接影響最終的聚類結(jié)果。對“親疏”程度的測度一般有兩個角度:第一,個體間的相似程度;第二,個體間的差異程度。衡量個體間的相似程度通常可采用簡單相關(guān)系數(shù)或等級相關(guān)系數(shù)。個體間的差異程度通常通過某種距離來測度。為定義個體間的距離應(yīng)先將每個樣本數(shù)據(jù)看成k維空間的一個點,通常,點與點之間的距離越小,意味著他們越“親密”,越有可能聚成一類,點與點之間的距離越大,意味著他們越“疏遠”,越有可能分別屬于不同的類。10.1.2聚類分析中“親疏程度”的度量方法

1、定距型變量個體間距離的計算方式

8

9

歐氏(Euclidian

)距離實例計算品距離矩陣絕對值距離品Euclidian距離的平方2Euclidian距離明氏(Minkowski

)距離q=1q=2q=∞當q=1,為絕對值距離,SPSS稱為block當q=2,即為歐式距離當q=∞,有,稱為切比雪夫(Chebychev)距離明氏距離的缺點各指標同等對待(權(quán)數(shù)相同),不能反映各指標變異程度上的差異距離的大小與各指標的觀測單位有關(guān),有時會出現(xiàn)不合理結(jié)果沒有考慮指標之間的相關(guān)性當各指標的測量值相差懸殊時,可以先對數(shù)據(jù)標準化,然后用標準化后的數(shù)據(jù)計算距離

2、計數(shù)變量個體間距離的計算方式17

18

3、二值(Binary)變量個體間距離的計算方式

所選擇的變量應(yīng)符合聚類的要求:所選變量應(yīng)能夠從不同的側(cè)面反映我們研究的目的;各變量的變量值不應(yīng)有數(shù)量級上的差異(對數(shù)據(jù)進行標準化處理):聚類分析是以各種距離來度量個體間的“親疏”程度的,從上述各種距離的定義看,數(shù)量級將對距離產(chǎn)生較大的影響,并影響最終的聚類結(jié)果。對投入經(jīng)費分別以“元”和“十萬元”為計量單位,計算兩兩學(xué)校之間的歐式距離:10.1.3聚類分析的幾點說明20當以“元”為單位時,(2,3)距離最小,其次(1,2),最后(1,3)當以“十萬元”為單位時,(1,2)距離最小,其次(1,3),最后(2,3)因此,聚類分析之前首先消除數(shù)量級對聚類的影響,常用方法是標準化處理各變量間不應(yīng)有較強的線性相關(guān)關(guān)系10.2層次聚類層次聚類又稱系統(tǒng)聚類,簡單地講是指聚類過程是按照一定層次進行的。層次聚類有兩種類型,分別是Q型聚類和R型聚類;層次聚類的聚類方式又有兩種,分別是凝聚方式聚類和分解方式聚類。Q型聚類:對樣本進行聚類,使具有相似特征的樣本聚集在一起,差異性大的樣本分離開來。R型聚類:對變量進行聚類,使具有相似性的變量聚集在一起,差異性大的變量分離開來,可在相似變量中選擇少數(shù)具有代表性的變量參與其他分析,實現(xiàn)減少變量個數(shù),達到變量降維的目的。10.2.1層次聚類的兩種類型和兩種方式凝聚方式聚類:其過程是,首先,每個個體自成一類;然后,按照某種方法度量所有個體間的親疏程度,并將其中最“親密”的個體聚成一小類,形成n-1個類;接下來,再次度量剩余個體和小類間的親疏程度,并將當前最親密的個體或小類再聚到一類;重復(fù)上述過程,直到所有個體聚成一個大類為止。這種聚類方式對n個個體通過n-1步可凝聚成一大類。分解方式聚類:其過程是,首先,所有個體都屬一大類;然后,按照某種方法度量所有個體間的親疏程度,將大類中彼此間最“疏遠”的個體分離出去,形成兩類(其中一類只有一個個體);接下來,再次度量類中剩余個體間的親疏程度,并將最疏遠的個體再分離出去;重復(fù)上述過程,不斷進行類分解,直到所有個體自成一類為止。這種聚類方式對包含n個個體的大類通過n-1步可分解成n個個體。SPSS中提供了多種度量個體與小類、小類與小類間“親疏程度”的方法。與個體間“親疏程度”的測度方法類似,應(yīng)首先定義個體與小類、小類與小類的距離。距離小的關(guān)系親密,距離大的關(guān)系疏遠。這里的距離是在個體間距離的基礎(chǔ)上定義的,常見的距離有:10.2.2個體與小類、小類與小類間“親疏程度”的度量方法最近鄰居(NearestNeighbor)距離:個體與小類中每個個體距離的最小值。最遠鄰居(FurthestNeighbor)距離:個體與小類中每個個體距離的最大值。組間平均鏈鎖(Between-groupslinkage)距離:個體與小類中每個個體距離的平均值。組內(nèi)平均鏈鎖(Within-groupslinkage)距離:個體與小類中每個個體距離以及小類內(nèi)各個體間距離的平均值。5個商廈,D和E的距離最小,現(xiàn)將它們聚為一個小類O={D,E}A、B、C與O的最近鄰居距離:26.907、34.655、9.22A、B、C與O的最遠鄰居距離:30.414、38.21、12.806A、B、C與O的組間平均鏈鎖距離:(26.907+30.414)/2、(34.655+38.21)/2、(9.22+12.806)/2A、B、C與O的組內(nèi)平均鏈鎖距離:(26.907+30.414+3.606)/3、(34.655+38.21+3.606)/3、(9.22+12.806+3.606)/36個民族的粗死亡率與期望壽命哈薩克與藏族的距離最短,最先合并形成新類CL7新類CL7和其余四類的距離第二次合并新類和各類的距離第三次合并第四次合并最后合并成一類譜系圖不顯示實際距離,顯示0-25的比例距離樹狀圖3310.2.3層次聚類的基本操作商廈評分.sav

【分析】-【分類】-【系統(tǒng)聚類】35變量:購物環(huán)境、服務(wù)質(zhì)量個案標注依據(jù):商廈編號

2、把參與層次聚類分析的變量選到【變量】框中。

3、把一個字符型變量作為標記變量選到【個案標注依據(jù)】框中,它將大大增強聚類分析結(jié)果的可讀性。

4、在【聚類】框中選擇聚類類型。其中【個案】表示進行Q型聚類(默認類型);【變量】表示進行R型聚類。

5、在【顯示】框中選擇輸出內(nèi)容。其中【統(tǒng)計】表示輸出聚類分析的相關(guān)統(tǒng)計量;【圖】表示輸出聚類分析的相關(guān)圖形。

6、單擊【方法】按鈕指定距離的計算方法。【測量】框中給出的是不同變量類型下的個體距離的計算方法。其中【區(qū)間】框中的方法適用于連續(xù)型定距變量;【計數(shù)】框中的方法適用于品質(zhì)型變量;【二元】框中的方法適用于二值變量。【聚類方法】框中給出的是計算個體與小類、小類與小類間距離的方法。7、如果參與聚類分析的變量存在數(shù)量級上的差異,應(yīng)在【轉(zhuǎn)換值】框中的【標準化】選項中選擇消除數(shù)量級差的方法。并指定處理是針對變量的還是針對樣本的。【按變量】表示針對變量,適于Q型聚類分析;【按個案】表示針對樣本,適于R型聚類分析。

8、單擊【統(tǒng)計】按鈕指定輸出哪些統(tǒng)計量【集中計劃】表示輸出聚類分析的凝聚狀態(tài)表;【近似值矩陣】表示輸出個體間的距離矩陣;【聚類成員】框中,【無】表示不輸出樣本所屬類,【單個解】表示指定輸出當分成n類時各樣本所屬類,是單一解?!窘獾姆秶勘硎局付ㄝ敵霎敺殖蒻至n類(m小于等于n)時各樣本所屬類,是多個解。上表中,第一列表示聚類分析的第幾步;第二、三列表示本步聚類中哪兩個樣本或小類聚成一類;第四列式個體距離或小類距離;第五、六列表示本步聚類中參與聚類的是個體還是小類,0表示樣本,非0表示由第n步聚類生成的小類參與本步聚類;第七列表示本步聚類的結(jié)果將在以下第幾步中用到。聚成3類時:A、B為一類;C為一類;D、E為一類聚成2類時:A、B為一類;C、D、E為一類

9、單擊【圖】按鈕指定輸出哪種聚類分析圖?!咀V系圖】選項表示輸出聚類分析樹形圖;在【冰柱圖】框中指定輸出冰掛圖,其中,【全部聚類】表示輸出聚類分析每個階段的冰掛圖,【指定范圍內(nèi)的聚類】表示只輸出某個階段的冰掛圖,輸入從第幾步開始,到第幾步結(jié)束,中間間隔幾步;在【方向】框中指定如何顯示冰掛圖,其中,【垂直】表示縱向顯示,【水平】表示橫向水平顯示。45首先:D、E聚在一類,其次:A、B聚在一類;然后:C和{D、E}聚在一類;最后:{A、B}和{C、D、E}聚在一類。因此,聚成2類時:{A、B}和{C、D、E}兩類;聚成3類時:{A、B}、{D、E}、{C}三類冰掛圖:聚成4類時:{A}、{B}{C}、{D、E}四類聚成3類時:{A、B}、{D、E}、{C}三類聚成2類時:{A、B}和{C、D、E}兩類;10.2.3層次聚類的應(yīng)用舉例48

1、利用31個省市自治區(qū)小康和現(xiàn)代化指數(shù)數(shù)據(jù)進行層次聚類分析。利用SPSS層次聚類Q型聚類對31個省市自治區(qū)進行分類分析。其中個體距離采用平方歐式距離,類間距離采用平均組間鏈鎖距離,由于數(shù)據(jù)不存在數(shù)量級上的差異,因此無需進行進行標準化處理。4950較早聚為一類省份有:甘肅、江西、貴州一類;安徽、廣西、河南、云南一類;黑龍江、吉林一類;河南、四川一類;湖北、陜西、內(nèi)蒙古、山西、重慶一類;北京、上海一類;浙江、廣東一類;5152將所有省份聚為3類,統(tǒng)計它們各個指數(shù)的均值、標準差、最大值和最小值532、利用裁判打分數(shù)據(jù)進行聚類分析。

利用SPSS層次聚類R型聚類進行分類分析。其中變量個體距離采用平方歐式距離,類間距離采用平均組間鏈鎖距離,由于數(shù)據(jù)不存在數(shù)量級上的差異,因此無需進行進行標準化處理。5455如果將裁判聚為3類:熱心觀眾為一類;美國、法國、韓國為一類;俄羅斯、中國、羅馬尼亞、意大利為一類如果將裁判聚為4類:熱心觀眾為一類;美國、法國、韓國為一類;俄羅斯、中國、羅馬尼亞為一類;意大利為一類;10.3K-Means聚類K-Means聚類也稱快速聚類,仍將數(shù)據(jù)看成k維空間上的點,仍以距離作為測度個體“親疏程度”的指標,并通過犧牲多個解為代價換得高的執(zhí)行效率,其核心步驟是:第一,指定聚類數(shù)目K第二,確定K個初始類中心。SPSS中初始類中心的指定方式有兩種:一是用戶指定方式;二是系統(tǒng)指定方式。10.3.1K-Means聚類分析的核心步驟第三,根據(jù)距離最近原則進行分類。依次計算每個樣本數(shù)據(jù)點到K個類中心點的歐式距離,并按距K個類中心點距離最短的原則將所有樣本分成K類。第四,重新確定K個類中心。中心點的確定原則是,依次計算各類中k個變量的均值,并以均值點作為K個類的中心點。第五,判斷是否已滿足中止聚類分析的條件。條件有兩個:一是迭代次數(shù)(SPSS默認為10);二是類中心點偏移程度,即新確定的類中心點距上個類中心點的最大偏移量小于指定的量(SPSS默認為0.02)時中止聚類。58596010.3.2K-Means聚類分析的應(yīng)用舉例31個省市自治區(qū)小康和現(xiàn)代化指數(shù)的K-Means聚類分析10.3.2K-Means聚類分析的應(yīng)用舉例【分析】-【分類】-【K-均值聚類】622.選定參與K-Means聚類的變量放入【變量】框中。3.選擇一個字符型變量作為標記變量放入【個案標注依據(jù)】框中,增加分析結(jié)果的可讀性。4.在【聚類數(shù)】框中輸入聚類數(shù)目,該數(shù)應(yīng)小于樣本數(shù)。5.如果用戶自行指定初始類中心點,則單擊【讀取初始聚類中心】按鈕,并給出存放初始類中心的SPSS數(shù)據(jù)文件名;否則本步可略去。6.在【方法】框中指定聚類過程是否調(diào)整類中心點。其中,【迭代與分類】表示在聚類分析的每一步都重新確定類中心點(SPSS默認);【僅分類】表示聚類分析過程中類中心點始終為初始類中心點,此時僅進行一次迭代。7.單擊【迭代】按鈕確定中止聚類的條件。在【最大迭代次數(shù)】框后輸入最大迭代次數(shù),在【收斂條件】框后輸入類中心的偏移量。另外,【使用運行平均值】選項,選中表示每當一個樣本被分配到一類時便立即重新計算新的類中心點,此時類中心點與樣本分配的前后順序有關(guān);不選該項表示只有當完成了所有樣本的類分配后再計算類中心,該方式可節(jié)省運算時間,通常不選中該選項。8.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論