兩步聚類中文版詳解_第1頁
兩步聚類中文版詳解_第2頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、目錄第一節(jié)摘要2第二節(jié)介紹2第三節(jié)統(tǒng)計(jì)方法3第四節(jié)兩步聚類方法的分析3第五節(jié)案例研究.7第六節(jié)輸入7第七節(jié)輸出8第八節(jié)討論10第九節(jié)結(jié)論11第一節(jié)摘要本文利用SPSS兩步聚類的方法將現(xiàn)有的數(shù)據(jù)分為三個(gè)集群以分析銀行客戶的信息。對(duì)于我們的案例研究,這個(gè)方法是完美的,因?yàn)榕c其他經(jīng)典聚類方法相比,兩步聚類方法采用混合數(shù)據(jù)(包括連續(xù)和分類變量),它也發(fā)現(xiàn)了最優(yōu)數(shù)量的集群。兩步聚類方法創(chuàng)建三個(gè)客戶的配置文件,最大的一組包括最有資歷(與銀行合作時(shí)間悠久)的客戶,其信用卡申請(qǐng)的目的是教育或者公司業(yè)務(wù)。第二組主要包括擁有房產(chǎn)的客戶,但主要是失業(yè),他們信用卡申請(qǐng)的目的在于再培訓(xùn)或者添置家庭用品。第三組主要是包括

2、那些擁有未知屬性的人,他們申請(qǐng)額度的目的在于購買汽車、添置電視或者教育。本文所涉及的研究目的主要在于便于本行更好的管理以加強(qiáng)公司的利潤(rùn)空間。第二節(jié)介紹在不同的領(lǐng)域中,不同的應(yīng)用程都序可以使用聚類算法。然而,大多數(shù)的這些算法只處理數(shù)值數(shù)據(jù)和分類數(shù)據(jù)。然而,現(xiàn)實(shí)世界的數(shù)據(jù)可能包含數(shù)值和分類屬性。兩步聚類的方法是SPSS中解決這個(gè)問題的一個(gè)途徑之一。在本文中,我們打算從一個(gè)銀行提供的公共數(shù)據(jù)集中使用兩部聚類的方法來確定銀行客戶的資料。該方法的優(yōu)勢(shì)在于可以確定適當(dāng)數(shù)量的集群,所以我們的目標(biāo)是找到這個(gè)概要文件的數(shù)量,有效地管理現(xiàn)有的和可能存在的客戶。在下面幾節(jié)中,我們介紹兩步聚類的方法和案例研究中的輸入

3、、輸出和結(jié)果的分析。第三節(jié)統(tǒng)計(jì)方法數(shù)據(jù)分組(或數(shù)據(jù)集群)是一種方法,可以形成具有類似特征的類的對(duì)象。集群通常是與分類混淆,但有一個(gè)主要的區(qū)別,即分類時(shí),對(duì)象被分配到預(yù)定義的類,而在集群的情況下,必須定義這些類。我們預(yù)計(jì)數(shù)據(jù)時(shí)使用集群技術(shù)自然得分組到不同的類別。集群類別的物品有很多共同的特點(diǎn),例如,客戶、事件等等。如果問題是復(fù)雜的,在聚類數(shù)據(jù)前,其他數(shù)據(jù)挖掘技術(shù)也可以應(yīng)用(如神經(jīng)網(wǎng)絡(luò)和決策樹)。經(jīng)典的聚類方法使用分層或分區(qū)算法。分層算法在集群的基礎(chǔ)之上建立集群,而分區(qū)算法在同一時(shí)間確定所有的集群,建立不同的分區(qū),然后評(píng)估他們某些標(biāo)準(zhǔn)。在SPSS中,聚類分析可以使用兩步聚類、分層集群或k-mean

4、s聚類,每個(gè)方法都依賴不同的算法來創(chuàng)建集群。最后兩個(gè)經(jīng)典的分類方法是基于分層、分區(qū)的算法,而二步聚類方法在SPSS中是特別設(shè)計(jì)和實(shí)現(xiàn)的方法。對(duì)于應(yīng)用程序而言,考慮到不同的數(shù)據(jù)類型這種情況,分層集群方法是有限的小數(shù)據(jù)集,k-means僅限于連續(xù)值,而兩步聚類方法基于連續(xù)和分類變量的情況下可以創(chuàng)建集群模型。接下來,我們將探討兩步聚類方法,突出其優(yōu)勢(shì)之處。第四節(jié)兩步聚類方法的分析兩步聚類方法是設(shè)計(jì)用來分析大型數(shù)據(jù)集的算法。這個(gè)算法會(huì)用標(biāo)準(zhǔn)方法將不同的觀察結(jié)果分組到不同的集群之中。這個(gè)過程會(huì)使用一個(gè)凝聚的層次聚類方法。與經(jīng)典的聚類分析方法相比,兩步聚類分析方法使用連續(xù)的分類屬性。此外,該方法可以自動(dòng)確

5、定最優(yōu)數(shù)量的集群。兩步聚類分析方法的實(shí)現(xiàn)主要包括下面幾個(gè)步驟:o預(yù)聚類o解決處理非典型值(異常值)-噪聲處理,可選o聚類在預(yù)聚類步驟中,它會(huì)掃描數(shù)據(jù)記錄,基于標(biāo)準(zhǔn)的距離決定當(dāng)前記錄是否可以添加到一個(gè)以前形成的集群或開始一個(gè)新的集群。測(cè)距的方法使用了兩個(gè)類型:歐式距離和對(duì)數(shù)似然距離。預(yù)聚類過程的實(shí)現(xiàn)通過構(gòu)建一個(gè)數(shù)據(jù)結(jié)構(gòu)(稱為CF(集群特性)樹),其中包含集群中心。CF樹有水平的節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)有一個(gè)條目的數(shù)量。葉子節(jié)點(diǎn)是最后的子類。對(duì)于每一個(gè)記錄,從根節(jié)點(diǎn)開始,找到最近的子節(jié)點(diǎn)遞歸,沿著CF樹下行。一旦到達(dá)一個(gè)葉子節(jié)點(diǎn),該算法找到最近的葉子節(jié)點(diǎn)中的葉條目。如果記錄的數(shù)量在一個(gè)閾值距離之內(nèi),就會(huì)記錄

6、添加到葉子節(jié)點(diǎn)并且CF樹更新。否則,它會(huì)創(chuàng)建一個(gè)新的葉子節(jié)點(diǎn)的值。在構(gòu)建CF樹的過程中,該算法實(shí)現(xiàn)了一個(gè)可選的步驟:可以解決非典型值(異常值)。離群值被認(rèn)為并不能很好的適合任何集群的一個(gè)記錄。在SPSS,在一片葉子中如果記錄的數(shù)量小于一定比例的規(guī)模最大的CF樹中的葉子條目就會(huì)被認(rèn)為是離群值;默認(rèn)情況下,這個(gè)比例是25%。在重建CF樹之前,會(huì)搜索潛在的典型值,將他們放在一邊。CF樹重建后,程序檢查這些值是否恰當(dāng),是否可以不增加樹的大小。最后,值不恰當(dāng)會(huì)被認(rèn)為是離群值。如果CF樹超過允許的最大尺寸,它會(huì)基于現(xiàn)有的CF樹,通過增加閾值距離重建CF樹,。新的CF樹會(huì)小很多,也允許輸入新的記錄。預(yù)聚類作

7、為輸入的一個(gè)步驟會(huì)產(chǎn)生有子類的聚類(沒有噪聲,如果你選擇了處理非典型值這個(gè)選項(xiàng))并且組成有價(jià)值的聚類的數(shù)量。因?yàn)樽宇惖臄?shù)量遠(yuǎn)小于初始時(shí)的記錄數(shù)量,因此經(jīng)典的聚類方法可以成功地使用。兩步聚類方法使用一個(gè)凝結(jié)的自動(dòng)分層方法決定了集群的數(shù)量。層次聚類方法是指集群不斷融合的過程,直到一個(gè)集群組包括所有的記錄。這個(gè)過程始于為每個(gè)子集定義一個(gè)初始集群。然后,所有集群進(jìn)行比較并且集群之間的距離是最小的兩個(gè)集群會(huì)合并成一個(gè)集群。這個(gè)過程會(huì)一直重復(fù)直到所有集群已經(jīng)合并。因此,它是相當(dāng)簡(jiǎn)單的比較不同數(shù)量的集群解決方案。計(jì)算集群之間的距離,可以使用歐式距離和對(duì)數(shù)似然距離。歐式距離只有所有變量是連續(xù)的情況下可以使用。

8、歐式距離是在m維空間中兩個(gè)點(diǎn)的真實(shí)距離。對(duì)于集群來說,兩個(gè)集群之間中心之間的距離被定義為歐式距離。集群中心被定義為集群中變量的容器??梢允褂脤?duì)數(shù)似然距離來分析連續(xù)和分類變量。兩個(gè)集群之間的距離與似然函數(shù)的自然對(duì)數(shù)的減少是相關(guān)的,因此他們會(huì)被分組到一個(gè)集群。計(jì)算對(duì)數(shù)似然距離,假定連續(xù)變量正態(tài)分布和分類變量的多項(xiàng)式分布,以及變量是相互獨(dú)立的。定義i和j兩個(gè)集群之間的距離為:&("77-§5、其中在公式(2)中石苕N陽2小是i和j兩個(gè)集群之間的距離;索引代表通過集群i和j的結(jié)合后生成的新的集群;仁"是所有連續(xù)變量的總數(shù);人"是所有分組變量的總數(shù);匚是第

9、k個(gè)分類變量的數(shù)量;人"是S集群中所有數(shù)據(jù)記錄的數(shù)量;'是S集群的數(shù)量,分類變量k分成了l個(gè)分組;'和是分組變量k分成l個(gè)分組的記錄的數(shù)量;*對(duì)整個(gè)數(shù)據(jù)集來說,石2是對(duì)連續(xù)變量k的方差(離散)的估計(jì),朮在集群j中,對(duì)于連續(xù)變量k的方差估計(jì)。為了自動(dòng)確定集群的數(shù)量,該方法使用兩個(gè)階段。在第一個(gè)階段,指示器BIC(施瓦茲-貝葉斯準(zhǔn)則)或AIC(Akaike準(zhǔn)則)計(jì)算為每個(gè)集群從一個(gè)指定范圍中計(jì)算數(shù)量;然后這個(gè)指示器用于尋找一個(gè)初始估計(jì)集群的數(shù)量。對(duì)于J集群,兩個(gè)指示器通過公式(4)和(5)計(jì)算得出,過程如下jBIC(J)=-2J+mjlog(N),7=1J力疋3)=-2丫

10、©+2小,(5);=1其中kbmJ=j2KA+Lk-l)ki變量的相對(duì)貢獻(xiàn)形成了集群計(jì)算的兩種類型的變量(連續(xù)和分類)。連續(xù)變量的重要性的衡量標(biāo)準(zhǔn)是基于:bsk在這個(gè)公式中:"人是連續(xù)變量估計(jì)值的意思,并且是集群j中連續(xù)變量k的估計(jì)值。在H。(零假設(shè)),重要性衡量中學(xué)生分布呈Nk-1的自由度分布。顯著性水平是雙側(cè)的。對(duì)于分組變量,重要性衡量是建立在X2的基礎(chǔ)上的:在零假設(shè)中,作為一個(gè)X2和的自由度。K對(duì)于項(xiàng)目的集群成員,記錄被分配用于解決非典型值的規(guī)范(噪聲)和選擇測(cè)量的距離。如果解決非典型值的選擇不使用,根據(jù)距離測(cè)量的方法,值會(huì)分配給最近的集群中。否則,該值是區(qū)別對(duì)待的,

11、如下:1)在歐幾里得的方法的情況下,一個(gè)項(xiàng)目被分配到最近的集群,如果它們之間的距離小于臨界值:I_1J欽_V丿1斤1否則,該項(xiàng)目被聲明為噪聲(異常)2)如果選擇對(duì)數(shù)似然方法,它假定噪聲均勻分布,并且計(jì)算對(duì)數(shù)似然對(duì)應(yīng)于一個(gè)有噪聲項(xiàng)目且分配到最近的無噪聲集群。然后,項(xiàng)目分配給集群獲得對(duì)數(shù)的最高價(jià)值。這相當(dāng)于將一個(gè)項(xiàng)目分配給最近的集群,如果它們之間的距離小于臨界值。否則,項(xiàng)目被指定為噪音??傊?,該方法的一個(gè)重要優(yōu)點(diǎn)是它與混合數(shù)據(jù)操作(包括連續(xù)和分類數(shù)據(jù))。另一個(gè)優(yōu)勢(shì)是,盡管兩步聚類方法處理大型數(shù)據(jù)集,就所需處理這些數(shù)據(jù)的時(shí)間而言,這種方法比其他方法需要更短的時(shí)間。缺點(diǎn)是兩步聚類方法不允許丟失值且缺失

12、值的項(xiàng)目不考慮分析第五節(jié)案例研究自從兩步聚類方法開始成為大型數(shù)據(jù)集和處理混合數(shù)據(jù)的首選后,我們應(yīng)用此方法并使用一些從銀行獲取的的公共數(shù)據(jù)聚類數(shù)據(jù)。(另一方面,這些數(shù)據(jù)被用在另一個(gè)應(yīng)用程序來減少維度應(yīng)用PCA(主成分分析)。并在下文給出了該方法的輸入和輸出。第六節(jié)輸入供給我們研究的數(shù)據(jù)集是從一家銀行提供的公共數(shù)據(jù)庫中的信息,數(shù)據(jù)真實(shí)可靠,在SPSS中,大致有14000條記錄。這個(gè)表包含信用卡還款的的持續(xù)時(shí)間信息,信用歷史,信用卡申請(qǐng)用途,信貸金額,儲(chǔ)蓄賬戶,工齡,還款周期,個(gè)人狀態(tài)、居住權(quán)、財(cái)產(chǎn)、年齡、住房、銀行信用額度,工作,家屬和信用批準(zhǔn)狀態(tài)等等。表1中給出這個(gè)數(shù)據(jù)的一部分。Table1.S

13、omcedataDurationCreditHistoryPurposeCreditAmountYearsEmployedPaymentRatePersonalStatus6criticaltelevision1169.0>=74.0malesingle48oktilnowtelevision5951.0<42.0female12criticaleducation2096.0<72.0malesingle42oktilnowfurniture7882.0<72.0malesingle24pastdelayscarnew4870.0<43.0male_single3

14、6oktilnoweducation9055.0<42.0malesingle24oktilnowfiuniture2835.0>=73.0malesingle36oktilnowcarused694&0<42.0malesingle12oktilnowtelevision3059.0<72.0maledivorced30criticalcarnew5234.0unemployed4.0malemarried數(shù)據(jù)庫包含3個(gè)分類變量和4個(gè)連續(xù)變量。默認(rèn)情況下,連續(xù)變量被標(biāo)準(zhǔn)化。因?yàn)槲覀兪褂没旌蠑?shù)據(jù),我們?cè)诰嚯x度量上只有對(duì)數(shù)似然的選擇。在第一次運(yùn)行,我們選擇BIC確

15、定聚類的數(shù)量,雖然我們可以重寫此步驟并指定一個(gè)固定的數(shù)字。但是結(jié)果使用AIC運(yùn)行是和BIC運(yùn)行結(jié)果是一致的,所以目前我們使用BIC指標(biāo)。關(guān)于對(duì)于我們數(shù)據(jù)集的噪聲處理方面,我們決定不檢查噪聲。異常值定義為在CF樹的情況下,其他的葉子不超過規(guī)定的最大葉大小的百分比。通過SPSS軟件的一個(gè)重要選擇是XML格式的CF樹或整個(gè)模型的導(dǎo)出。這允許模型進(jìn)行更新,以增加額外的數(shù)據(jù)集。第七節(jié)輸出1點(diǎn)擊“分析I分類I兩步聚類”命令,彈出“二階聚類分析”對(duì)話框,如下所示少公司電話號(hào)碼少關(guān)聯(lián)賬戶叵$個(gè)人稅前年收入農(nóng)申請(qǐng)人申請(qǐng)信用額度/V3爐住宅電話連續(xù)變1(C):V5少分行夕賬戶信用額度少賬戶關(guān)聯(lián)卡數(shù)里21/教肓程度

16、護(hù)客戶類別LTJ/申請(qǐng)?jiān)荒挲g-J怡lifri:廠沫弐甘阿Q14且=I-3X仝如HJ輸二階聚類分析分類變里的:連續(xù)孌里計(jì)數(shù)一要標(biāo)準(zhǔn)化的計(jì)數(shù):假走已標(biāo)準(zhǔn)化的計(jì)數(shù):X對(duì)數(shù)相似值(D3聚類準(zhǔn)則施瓦茲貝葉斯準(zhǔn)則©ICXB©Akaike信息準(zhǔn)則(A1C)(A)聚類數(shù)里©自動(dòng)確定O)指定國定值返)數(shù)重(B晞定粘貼(豈_ss(rJ取消幫助2將個(gè)人稅前年收入,申請(qǐng)人申請(qǐng)信用額度和工齡拖入分類變量中,并且將如下變量拖入連續(xù)變量中,賬戶信用額度、教育程度、申請(qǐng)日年齡、卡片最高卡種等級(jí)。3在距離變量對(duì)話框中選擇“對(duì)數(shù)相似值”4在聚類數(shù)量中選擇“指定固定值”5在聚類準(zhǔn)備中,選擇“施瓦茲貝葉

17、斯準(zhǔn)則”。6本案例不選擇噪聲處理7點(diǎn)擊確定,出現(xiàn)如下多個(gè)圖表。在SPSS中,自動(dòng)聚類統(tǒng)計(jì)表可以用來評(píng)估我們的分析中最佳聚類的數(shù)量,如表2所示在表2中,雖然最低的BIC系數(shù)是四簇,根據(jù)統(tǒng)計(jì)算法,最佳聚類數(shù)是三,因?yàn)榫嚯x最大的比率是三簇。集群分布如表3所示。表3聚類輸入(預(yù)測(cè)變墾)直宴性1.00.80.60.40.2D0.0聚類312說明人小55.7%(7488)24.9%(3347)194%(2614)輸入個(gè)人稅前年收入50(28.3%)個(gè)人稅前年收入50(234%)個(gè)人稅前年收入30(28.5%)工齡2(10.9%)工齡0(8.4%)1(35.5%)申請(qǐng)人申請(qǐng)信用額度0(97.3%)陽請(qǐng)人陽請(qǐng)

18、信用額度20000(64.4%)申請(qǐng)人申請(qǐng)信用額度0(70.8%)賬戶信用額度12539.13賬戶倍用狽度23763.37賬尸信用額度10657.23申晴日年齡36.22申晴日年齡35.93申請(qǐng)日年齡32.46教育程度3.79ttffW度3.59度3.76卡片最高卡種等級(jí)20.00卡片最高卡種等級(jí)20.00卡片fiffiP種等級(jí)19.92圖1所示的群集餅圖顯示了我們?nèi)齻€(gè)集群解決方案的相對(duì)大小。聚類大小圖1展小聚類大小2614(19.4%)最大聚類大小7488(55.7%)大小比率:最大聚類比最小聚類2.86對(duì)于分類變量,集群內(nèi)的百分比圖顯示了每個(gè)變量在每個(gè)集群內(nèi)是如何分裂。在圖2中,它顯示了三個(gè)簇中每個(gè)變量的占比。MW圖2第八節(jié)討論:經(jīng)過兩步聚類的方法,我們得出以下結(jié)論。第一集群,其中占比19.4%,其中包含的主要是單一的男性客戶,占據(jù)管理職位(34.5%)或失業(yè)(27.3%),他們有未知的屬性并且他們的信用卡申請(qǐng)通過率是一個(gè)小百分比(11.9%)。集群2占比

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論