兩步聚類中文版詳解_第1頁
兩步聚類中文版詳解_第2頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、目錄第一節(jié)摘要2第二節(jié)介紹2第三節(jié)統(tǒng)計方法3第四節(jié)兩步聚類方法的分析3第五節(jié)案例研究.7第六節(jié)輸入7第七節(jié)輸出8第八節(jié)討論10第九節(jié)結論11第一節(jié)摘要本文利用SPSS兩步聚類的方法將現(xiàn)有的數(shù)據(jù)分為三個集群以分析銀行客戶的信息。對于我們的案例研究,這個方法是完美的,因為與其他經(jīng)典聚類方法相比,兩步聚類方法采用混合數(shù)據(jù)(包括連續(xù)和分類變量),它也發(fā)現(xiàn)了最優(yōu)數(shù)量的集群。兩步聚類方法創(chuàng)建三個客戶的配置文件,最大的一組包括最有資歷(與銀行合作時間悠久)的客戶,其信用卡申請的目的是教育或者公司業(yè)務。第二組主要包括擁有房產(chǎn)的客戶,但主要是失業(yè),他們信用卡申請的目的在于再培訓或者添置家庭用品。第三組主要是包括

2、那些擁有未知屬性的人,他們申請額度的目的在于購買汽車、添置電視或者教育。本文所涉及的研究目的主要在于便于本行更好的管理以加強公司的利潤空間。第二節(jié)介紹在不同的領域中,不同的應用程都序可以使用聚類算法。然而,大多數(shù)的這些算法只處理數(shù)值數(shù)據(jù)和分類數(shù)據(jù)。然而,現(xiàn)實世界的數(shù)據(jù)可能包含數(shù)值和分類屬性。兩步聚類的方法是SPSS中解決這個問題的一個途徑之一。在本文中,我們打算從一個銀行提供的公共數(shù)據(jù)集中使用兩部聚類的方法來確定銀行客戶的資料。該方法的優(yōu)勢在于可以確定適當數(shù)量的集群,所以我們的目標是找到這個概要文件的數(shù)量,有效地管理現(xiàn)有的和可能存在的客戶。在下面幾節(jié)中,我們介紹兩步聚類的方法和案例研究中的輸入

3、、輸出和結果的分析。第三節(jié)統(tǒng)計方法數(shù)據(jù)分組(或數(shù)據(jù)集群)是一種方法,可以形成具有類似特征的類的對象。集群通常是與分類混淆,但有一個主要的區(qū)別,即分類時,對象被分配到預定義的類,而在集群的情況下,必須定義這些類。我們預計數(shù)據(jù)時使用集群技術自然得分組到不同的類別。集群類別的物品有很多共同的特點,例如,客戶、事件等等。如果問題是復雜的,在聚類數(shù)據(jù)前,其他數(shù)據(jù)挖掘技術也可以應用(如神經(jīng)網(wǎng)絡和決策樹)。經(jīng)典的聚類方法使用分層或分區(qū)算法。分層算法在集群的基礎之上建立集群,而分區(qū)算法在同一時間確定所有的集群,建立不同的分區(qū),然后評估他們某些標準。在SPSS中,聚類分析可以使用兩步聚類、分層集群或k-mean

4、s聚類,每個方法都依賴不同的算法來創(chuàng)建集群。最后兩個經(jīng)典的分類方法是基于分層、分區(qū)的算法,而二步聚類方法在SPSS中是特別設計和實現(xiàn)的方法。對于應用程序而言,考慮到不同的數(shù)據(jù)類型這種情況,分層集群方法是有限的小數(shù)據(jù)集,k-means僅限于連續(xù)值,而兩步聚類方法基于連續(xù)和分類變量的情況下可以創(chuàng)建集群模型。接下來,我們將探討兩步聚類方法,突出其優(yōu)勢之處。第四節(jié)兩步聚類方法的分析兩步聚類方法是設計用來分析大型數(shù)據(jù)集的算法。這個算法會用標準方法將不同的觀察結果分組到不同的集群之中。這個過程會使用一個凝聚的層次聚類方法。與經(jīng)典的聚類分析方法相比,兩步聚類分析方法使用連續(xù)的分類屬性。此外,該方法可以自動確

5、定最優(yōu)數(shù)量的集群。兩步聚類分析方法的實現(xiàn)主要包括下面幾個步驟:o預聚類o解決處理非典型值(異常值)-噪聲處理,可選o聚類在預聚類步驟中,它會掃描數(shù)據(jù)記錄,基于標準的距離決定當前記錄是否可以添加到一個以前形成的集群或開始一個新的集群。測距的方法使用了兩個類型:歐式距離和對數(shù)似然距離。預聚類過程的實現(xiàn)通過構建一個數(shù)據(jù)結構(稱為CF(集群特性)樹),其中包含集群中心。CF樹有水平的節(jié)點,每個節(jié)點有一個條目的數(shù)量。葉子節(jié)點是最后的子類。對于每一個記錄,從根節(jié)點開始,找到最近的子節(jié)點遞歸,沿著CF樹下行。一旦到達一個葉子節(jié)點,該算法找到最近的葉子節(jié)點中的葉條目。如果記錄的數(shù)量在一個閾值距離之內,就會記錄

6、添加到葉子節(jié)點并且CF樹更新。否則,它會創(chuàng)建一個新的葉子節(jié)點的值。在構建CF樹的過程中,該算法實現(xiàn)了一個可選的步驟:可以解決非典型值(異常值)。離群值被認為并不能很好的適合任何集群的一個記錄。在SPSS,在一片葉子中如果記錄的數(shù)量小于一定比例的規(guī)模最大的CF樹中的葉子條目就會被認為是離群值;默認情況下,這個比例是25%。在重建CF樹之前,會搜索潛在的典型值,將他們放在一邊。CF樹重建后,程序檢查這些值是否恰當,是否可以不增加樹的大小。最后,值不恰當會被認為是離群值。如果CF樹超過允許的最大尺寸,它會基于現(xiàn)有的CF樹,通過增加閾值距離重建CF樹,。新的CF樹會小很多,也允許輸入新的記錄。預聚類作

7、為輸入的一個步驟會產(chǎn)生有子類的聚類(沒有噪聲,如果你選擇了處理非典型值這個選項)并且組成有價值的聚類的數(shù)量。因為子類的數(shù)量遠小于初始時的記錄數(shù)量,因此經(jīng)典的聚類方法可以成功地使用。兩步聚類方法使用一個凝結的自動分層方法決定了集群的數(shù)量。層次聚類方法是指集群不斷融合的過程,直到一個集群組包括所有的記錄。這個過程始于為每個子集定義一個初始集群。然后,所有集群進行比較并且集群之間的距離是最小的兩個集群會合并成一個集群。這個過程會一直重復直到所有集群已經(jīng)合并。因此,它是相當簡單的比較不同數(shù)量的集群解決方案。計算集群之間的距離,可以使用歐式距離和對數(shù)似然距離。歐式距離只有所有變量是連續(xù)的情況下可以使用。

8、歐式距離是在m維空間中兩個點的真實距離。對于集群來說,兩個集群之間中心之間的距離被定義為歐式距離。集群中心被定義為集群中變量的容器??梢允褂脤?shù)似然距離來分析連續(xù)和分類變量。兩個集群之間的距離與似然函數(shù)的自然對數(shù)的減少是相關的,因此他們會被分組到一個集群。計算對數(shù)似然距離,假定連續(xù)變量正態(tài)分布和分類變量的多項式分布,以及變量是相互獨立的。定義i和j兩個集群之間的距離為:&("77-§5、其中在公式(2)中石苕N陽2小是i和j兩個集群之間的距離;索引代表通過集群i和j的結合后生成的新的集群;仁"是所有連續(xù)變量的總數(shù);人"是所有分組變量的總數(shù);匚是第

9、k個分類變量的數(shù)量;人"是S集群中所有數(shù)據(jù)記錄的數(shù)量;'是S集群的數(shù)量,分類變量k分成了l個分組;'和是分組變量k分成l個分組的記錄的數(shù)量;*對整個數(shù)據(jù)集來說,石2是對連續(xù)變量k的方差(離散)的估計,朮在集群j中,對于連續(xù)變量k的方差估計。為了自動確定集群的數(shù)量,該方法使用兩個階段。在第一個階段,指示器BIC(施瓦茲-貝葉斯準則)或AIC(Akaike準則)計算為每個集群從一個指定范圍中計算數(shù)量;然后這個指示器用于尋找一個初始估計集群的數(shù)量。對于J集群,兩個指示器通過公式(4)和(5)計算得出,過程如下jBIC(J)=-2J+mjlog(N),7=1J力疋3)=-2丫

10、©+2小,(5);=1其中kbmJ=j2KA+Lk-l)ki變量的相對貢獻形成了集群計算的兩種類型的變量(連續(xù)和分類)。連續(xù)變量的重要性的衡量標準是基于:bsk在這個公式中:"人是連續(xù)變量估計值的意思,并且是集群j中連續(xù)變量k的估計值。在H。(零假設),重要性衡量中學生分布呈Nk-1的自由度分布。顯著性水平是雙側的。對于分組變量,重要性衡量是建立在X2的基礎上的:在零假設中,作為一個X2和的自由度。K對于項目的集群成員,記錄被分配用于解決非典型值的規(guī)范(噪聲)和選擇測量的距離。如果解決非典型值的選擇不使用,根據(jù)距離測量的方法,值會分配給最近的集群中。否則,該值是區(qū)別對待的,

11、如下:1)在歐幾里得的方法的情況下,一個項目被分配到最近的集群,如果它們之間的距離小于臨界值:I_1J欽_V丿1斤1否則,該項目被聲明為噪聲(異常)2)如果選擇對數(shù)似然方法,它假定噪聲均勻分布,并且計算對數(shù)似然對應于一個有噪聲項目且分配到最近的無噪聲集群。然后,項目分配給集群獲得對數(shù)的最高價值。這相當于將一個項目分配給最近的集群,如果它們之間的距離小于臨界值。否則,項目被指定為噪音??傊?,該方法的一個重要優(yōu)點是它與混合數(shù)據(jù)操作(包括連續(xù)和分類數(shù)據(jù))。另一個優(yōu)勢是,盡管兩步聚類方法處理大型數(shù)據(jù)集,就所需處理這些數(shù)據(jù)的時間而言,這種方法比其他方法需要更短的時間。缺點是兩步聚類方法不允許丟失值且缺失

12、值的項目不考慮分析第五節(jié)案例研究自從兩步聚類方法開始成為大型數(shù)據(jù)集和處理混合數(shù)據(jù)的首選后,我們應用此方法并使用一些從銀行獲取的的公共數(shù)據(jù)聚類數(shù)據(jù)。(另一方面,這些數(shù)據(jù)被用在另一個應用程序來減少維度應用PCA(主成分分析)。并在下文給出了該方法的輸入和輸出。第六節(jié)輸入供給我們研究的數(shù)據(jù)集是從一家銀行提供的公共數(shù)據(jù)庫中的信息,數(shù)據(jù)真實可靠,在SPSS中,大致有14000條記錄。這個表包含信用卡還款的的持續(xù)時間信息,信用歷史,信用卡申請用途,信貸金額,儲蓄賬戶,工齡,還款周期,個人狀態(tài)、居住權、財產(chǎn)、年齡、住房、銀行信用額度,工作,家屬和信用批準狀態(tài)等等。表1中給出這個數(shù)據(jù)的一部分。Table1.S

13、omcedataDurationCreditHistoryPurposeCreditAmountYearsEmployedPaymentRatePersonalStatus6criticaltelevision1169.0>=74.0malesingle48oktilnowtelevision5951.0<42.0female12criticaleducation2096.0<72.0malesingle42oktilnowfurniture7882.0<72.0malesingle24pastdelayscarnew4870.0<43.0male_single3

14、6oktilnoweducation9055.0<42.0malesingle24oktilnowfiuniture2835.0>=73.0malesingle36oktilnowcarused694&0<42.0malesingle12oktilnowtelevision3059.0<72.0maledivorced30criticalcarnew5234.0unemployed4.0malemarried數(shù)據(jù)庫包含3個分類變量和4個連續(xù)變量。默認情況下,連續(xù)變量被標準化。因為我們使用混合數(shù)據(jù),我們在距離度量上只有對數(shù)似然的選擇。在第一次運行,我們選擇BIC確

15、定聚類的數(shù)量,雖然我們可以重寫此步驟并指定一個固定的數(shù)字。但是結果使用AIC運行是和BIC運行結果是一致的,所以目前我們使用BIC指標。關于對于我們數(shù)據(jù)集的噪聲處理方面,我們決定不檢查噪聲。異常值定義為在CF樹的情況下,其他的葉子不超過規(guī)定的最大葉大小的百分比。通過SPSS軟件的一個重要選擇是XML格式的CF樹或整個模型的導出。這允許模型進行更新,以增加額外的數(shù)據(jù)集。第七節(jié)輸出1點擊“分析I分類I兩步聚類”命令,彈出“二階聚類分析”對話框,如下所示少公司電話號碼少關聯(lián)賬戶叵$個人稅前年收入農(nóng)申請人申請信用額度/V3爐住宅電話連續(xù)變1(C):V5少分行夕賬戶信用額度少賬戶關聯(lián)卡數(shù)里21/教肓程度

16、護客戶類別LTJ/申請曰年齡-J怡lifri:廠沫弐甘阿Q14且=I-3X仝如HJ輸二階聚類分析分類變里的:連續(xù)孌里計數(shù)一要標準化的計數(shù):假走已標準化的計數(shù):X對數(shù)相似值(D3聚類準則施瓦茲貝葉斯準則©ICXB©Akaike信息準則(A1C)(A)聚類數(shù)里©自動確定O)指定國定值返)數(shù)重(B晞定粘貼(豈_ss(rJ取消幫助2將個人稅前年收入,申請人申請信用額度和工齡拖入分類變量中,并且將如下變量拖入連續(xù)變量中,賬戶信用額度、教育程度、申請日年齡、卡片最高卡種等級。3在距離變量對話框中選擇“對數(shù)相似值”4在聚類數(shù)量中選擇“指定固定值”5在聚類準備中,選擇“施瓦茲貝葉

17、斯準則”。6本案例不選擇噪聲處理7點擊確定,出現(xiàn)如下多個圖表。在SPSS中,自動聚類統(tǒng)計表可以用來評估我們的分析中最佳聚類的數(shù)量,如表2所示在表2中,雖然最低的BIC系數(shù)是四簇,根據(jù)統(tǒng)計算法,最佳聚類數(shù)是三,因為距離最大的比率是三簇。集群分布如表3所示。表3聚類輸入(預測變墾)直宴性1.00.80.60.40.2D0.0聚類312說明人小55.7%(7488)24.9%(3347)194%(2614)輸入個人稅前年收入50(28.3%)個人稅前年收入50(234%)個人稅前年收入30(28.5%)工齡2(10.9%)工齡0(8.4%)1(35.5%)申請人申請信用額度0(97.3%)陽請人陽請

18、信用額度20000(64.4%)申請人申請信用額度0(70.8%)賬戶信用額度12539.13賬戶倍用狽度23763.37賬尸信用額度10657.23申晴日年齡36.22申晴日年齡35.93申請日年齡32.46教育程度3.79ttffW度3.59度3.76卡片最高卡種等級20.00卡片最高卡種等級20.00卡片fiffiP種等級19.92圖1所示的群集餅圖顯示了我們三個集群解決方案的相對大小。聚類大小圖1展小聚類大小2614(19.4%)最大聚類大小7488(55.7%)大小比率:最大聚類比最小聚類2.86對于分類變量,集群內的百分比圖顯示了每個變量在每個集群內是如何分裂。在圖2中,它顯示了三個簇中每個變量的占比。MW圖2第八節(jié)討論:經(jīng)過兩步聚類的方法,我們得出以下結論。第一集群,其中占比19.4%,其中包含的主要是單一的男性客戶,占據(jù)管理職位(34.5%)或失業(yè)(27.3%),他們有未知的屬性并且他們的信用卡申請通過率是一個小百分比(11.9%)。集群2占比

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論