兩步聚類中文版詳解

上傳人：7*** IP屬地：天津上傳時(shí)間：2022-05-08 格式：DOCX 頁(yè)數(shù)：12 大小：86.31KB 積分：18 舉報(bào) 版權(quán)申訴

免費(fèi)預(yù)覽已結(jié)束，剩余10頁(yè)可下載查看

 下載本文檔

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、目錄第一節(jié)摘要2第二節(jié)介紹2第三節(jié)統(tǒng)計(jì)方法3第四節(jié)兩步聚類方法的分析3第五節(jié)案例研究.7第六節(jié)輸入7第七節(jié)輸出8第八節(jié)討論10第九節(jié)結(jié)論11第一節(jié)摘要本文利用SPSS兩步聚類的方法將現(xiàn)有的數(shù)據(jù)分為三個(gè)集群以分析銀行客戶的信息。對(duì)于我們的案例研究，這個(gè)方法是完美的，因?yàn)榕c其他經(jīng)典聚類方法相比，兩步聚類方法采用混合數(shù)據(jù)（包括連續(xù)和分類變量），它也發(fā)現(xiàn)了最優(yōu)數(shù)量的集群。兩步聚類方法創(chuàng)建三個(gè)客戶的配置文件，最大的一組包括最有資歷（與銀行合作時(shí)間悠久）的客戶，其信用卡申請(qǐng)的目的是教育或者公司業(yè)務(wù)。第二組主要包括擁有房產(chǎn)的客戶，但主要是失業(yè)，他們信用卡申請(qǐng)的目的在于再培訓(xùn)或者添置家庭用品。第三組主要是包括

2、那些擁有未知屬性的人，他們申請(qǐng)額度的目的在于購(gòu)買汽車、添置電視或者教育。本文所涉及的研究目的主要在于便于本行更好的管理以加強(qiáng)公司的利潤(rùn)空間。第二節(jié)介紹在不同的領(lǐng)域中，不同的應(yīng)用程都序可以使用聚類算法。然而，大多數(shù)的這些算法只處理數(shù)值數(shù)據(jù)和分類數(shù)據(jù)。然而，現(xiàn)實(shí)世界的數(shù)據(jù)可能包含數(shù)值和分類屬性。兩步聚類的方法是SPSS中解決這個(gè)問(wèn)題的一個(gè)途徑之一。在本文中，我們打算從一個(gè)銀行提供的公共數(shù)據(jù)集中使用兩部聚類的方法來(lái)確定銀行客戶的資料。該方法的優(yōu)勢(shì)在于可以確定適當(dāng)數(shù)量的集群，所以我們的目標(biāo)是找到這個(gè)概要文件的數(shù)量，有效地管理現(xiàn)有的和可能存在的客戶。在下面幾節(jié)中，我們介紹兩步聚類的方法和案例研究中的輸入

3、、輸出和結(jié)果的分析。第三節(jié)統(tǒng)計(jì)方法數(shù)據(jù)分組（或數(shù)據(jù)集群）是一種方法,可以形成具有類似特征的類的對(duì)象。集群通常是與分類混淆,但有一個(gè)主要的區(qū)別，即分類時(shí)，對(duì)象被分配到預(yù)定義的類，而在集群的情況下，必須定義這些類。我們預(yù)計(jì)數(shù)據(jù)時(shí)使用集群技術(shù)自然得分組到不同的類別。集群類別的物品有很多共同的特點(diǎn)，例如，客戶、事件等等。如果問(wèn)題是復(fù)雜的，在聚類數(shù)據(jù)前,其他數(shù)據(jù)挖掘技術(shù)也可以應(yīng)用（如神經(jīng)網(wǎng)絡(luò)和決策樹(shù)）。經(jīng)典的聚類方法使用分層或分區(qū)算法。分層算法在集群的基礎(chǔ)之上建立集群，而分區(qū)算法在同一時(shí)間確定所有的集群，建立不同的分區(qū)，然后評(píng)估他們某些標(biāo)準(zhǔn)。在SPSS中,聚類分析可以使用兩步聚類、分層集群或k-mean

4、s聚類，每個(gè)方法都依賴不同的算法來(lái)創(chuàng)建集群。最后兩個(gè)經(jīng)典的分類方法是基于分層、分區(qū)的算法，而二步聚類方法在SPSS中是特別設(shè)計(jì)和實(shí)現(xiàn)的方法。對(duì)于應(yīng)用程序而言，考慮到不同的數(shù)據(jù)類型這種情況，分層集群方法是有限的小數(shù)據(jù)集,k-means僅限于連續(xù)值，而兩步聚類方法基于連續(xù)和分類變量的情況下可以創(chuàng)建集群模型。接下來(lái)，我們將探討兩步聚類方法，突出其優(yōu)勢(shì)之處。第四節(jié)兩步聚類方法的分析兩步聚類方法是設(shè)計(jì)用來(lái)分析大型數(shù)據(jù)集的算法。這個(gè)算法會(huì)用標(biāo)準(zhǔn)方法將不同的觀察結(jié)果分組到不同的集群之中。這個(gè)過(guò)程會(huì)使用一個(gè)凝聚的層次聚類方法。與經(jīng)典的聚類分析方法相比，兩步聚類分析方法使用連續(xù)的分類屬性。此外，該方法可以自動(dòng)確

5、定最優(yōu)數(shù)量的集群。兩步聚類分析方法的實(shí)現(xiàn)主要包括下面幾個(gè)步驟：o預(yù)聚類o解決處理非典型值（異常值）-噪聲處理，可選o聚類在預(yù)聚類步驟中，它會(huì)掃描數(shù)據(jù)記錄，基于標(biāo)準(zhǔn)的距離決定當(dāng)前記錄是否可以添加到一個(gè)以前形成的集群或開(kāi)始一個(gè)新的集群。測(cè)距的方法使用了兩個(gè)類型:歐式距離和對(duì)數(shù)似然距離。預(yù)聚類過(guò)程的實(shí)現(xiàn)通過(guò)構(gòu)建一個(gè)數(shù)據(jù)結(jié)構(gòu)（稱為CF（集群特性）樹(shù)），其中包含集群中心。CF樹(shù)有水平的節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)有一個(gè)條目的數(shù)量。葉子節(jié)點(diǎn)是最后的子類。對(duì)于每一個(gè)記錄,從根節(jié)點(diǎn)開(kāi)始，找到最近的子節(jié)點(diǎn)遞歸，沿著CF樹(shù)下行。一旦到達(dá)一個(gè)葉子節(jié)點(diǎn)，該算法找到最近的葉子節(jié)點(diǎn)中的葉條目。如果記錄的數(shù)量在一個(gè)閾值距離之內(nèi)，就會(huì)記錄

6、添加到葉子節(jié)點(diǎn)并且CF樹(shù)更新。否則，它會(huì)創(chuàng)建一個(gè)新的葉子節(jié)點(diǎn)的值。在構(gòu)建CF樹(shù)的過(guò)程中，該算法實(shí)現(xiàn)了一個(gè)可選的步驟:可以解決非典型值（異常值）。離群值被認(rèn)為并不能很好的適合任何集群的一個(gè)記錄。在SPSS，在一片葉子中如果記錄的數(shù)量小于一定比例的規(guī)模最大的CF樹(shù)中的葉子條目就會(huì)被認(rèn)為是離群值;默認(rèn)情況下，這個(gè)比例是25%。在重建CF樹(shù)之前，會(huì)搜索潛在的典型值，將他們放在一邊。CF樹(shù)重建后，程序檢查這些值是否恰當(dāng)，是否可以不增加樹(shù)的大小。最后，值不恰當(dāng)會(huì)被認(rèn)為是離群值。如果CF樹(shù)超過(guò)允許的最大尺寸，它會(huì)基于現(xiàn)有的CF樹(shù)，通過(guò)增加閾值距離重建CF樹(shù),。新的CF樹(shù)會(huì)小很多，也允許輸入新的記錄。預(yù)聚類作

7、為輸入的一個(gè)步驟會(huì)產(chǎn)生有子類的聚類（沒(méi)有噪聲，如果你選擇了處理非典型值這個(gè)選項(xiàng)）并且組成有價(jià)值的聚類的數(shù)量。因?yàn)樽宇惖臄?shù)量遠(yuǎn)小于初始時(shí)的記錄數(shù)量，因此經(jīng)典的聚類方法可以成功地使用。兩步聚類方法使用一個(gè)凝結(jié)的自動(dòng)分層方法決定了集群的數(shù)量。層次聚類方法是指集群不斷融合的過(guò)程，直到一個(gè)集群組包括所有的記錄。這個(gè)過(guò)程始于為每個(gè)子集定義一個(gè)初始集群。然后，所有集群進(jìn)行比較并且集群之間的距離是最小的兩個(gè)集群會(huì)合并成一個(gè)集群。這個(gè)過(guò)程會(huì)一直重復(fù)直到所有集群已經(jīng)合并。因此,它是相當(dāng)簡(jiǎn)單的比較不同數(shù)量的集群解決方案。計(jì)算集群之間的距離，可以使用歐式距離和對(duì)數(shù)似然距離。歐式距離只有所有變量是連續(xù)的情況下可以使用。

8、歐式距離是在m維空間中兩個(gè)點(diǎn)的真實(shí)距離。對(duì)于集群來(lái)說(shuō),兩個(gè)集群之間中心之間的距離被定義為歐式距離。集群中心被定義為集群中變量的容器。可以使用對(duì)數(shù)似然距離來(lái)分析連續(xù)和分類變量。兩個(gè)集群之間的距離與似然函數(shù)的自然對(duì)數(shù)的減少是相關(guān)的，因此他們會(huì)被分組到一個(gè)集群。計(jì)算對(duì)數(shù)似然距離，假定連續(xù)變量正態(tài)分布和分類變量的多項(xiàng)式分布，以及變量是相互獨(dú)立的。定義i和j兩個(gè)集群之間的距離為:&("77-§5、其中在公式（2）中石苕N陽(yáng)2小是i和j兩個(gè)集群之間的距離；索引代表通過(guò)集群i和j的結(jié)合后生成的新的集群；仁"是所有連續(xù)變量的總數(shù)；人"是所有分組變量的總數(shù)；匚是第

9、k個(gè)分類變量的數(shù)量；人"是S集群中所有數(shù)據(jù)記錄的數(shù)量；'是S集群的數(shù)量，分類變量k分成了l個(gè)分組；'和是分組變量k分成l個(gè)分組的記錄的數(shù)量；*對(duì)整個(gè)數(shù)據(jù)集來(lái)說(shuō)，石2是對(duì)連續(xù)變量k的方差（離散）的估計(jì)，朮在集群j中，對(duì)于連續(xù)變量k的方差估計(jì)。為了自動(dòng)確定集群的數(shù)量,該方法使用兩個(gè)階段。在第一個(gè)階段,指示器BIC（施瓦茲-貝葉斯準(zhǔn)則）或AIC（Akaike準(zhǔn)則）計(jì)算為每個(gè)集群從一個(gè)指定范圍中計(jì)算數(shù)量;然后這個(gè)指示器用于尋找一個(gè)初始估計(jì)集群的數(shù)量。對(duì)于J集群，兩個(gè)指示器通過(guò)公式（4）和（5）計(jì)算得出，過(guò)程如下jBIC（J）=-2J+mjlog（N）,7=1J力疋3）=-2丫

10、©+2小，（5）;=1其中kbmJ=j2KA+Lk-l）ki變量的相對(duì)貢獻(xiàn)形成了集群計(jì)算的兩種類型的變量（連續(xù)和分類）。連續(xù)變量的重要性的衡量標(biāo)準(zhǔn)是基于:bsk在這個(gè)公式中："人是連續(xù)變量估計(jì)值的意思，并且是集群j中連續(xù)變量k的估計(jì)值。在H。（零假設(shè)），重要性衡量中學(xué)生分布呈Nk-1的自由度分布。顯著性水平是雙側(cè)的。對(duì)于分組變量，重要性衡量是建立在X2的基礎(chǔ)上的：在零假設(shè)中，作為一個(gè)X2和的自由度。K對(duì)于項(xiàng)目的集群成員，記錄被分配用于解決非典型值的規(guī)范（噪聲）和選擇測(cè)量的距離。如果解決非典型值的選擇不使用，根據(jù)距離測(cè)量的方法，值會(huì)分配給最近的集群中。否則，該值是區(qū)別對(duì)待的，

11、如下：1）在歐幾里得的方法的情況下，一個(gè)項(xiàng)目被分配到最近的集群,如果它們之間的距離小于臨界值：I_1J欽_V丿1斤1否則，該項(xiàng)目被聲明為噪聲（異常）2）如果選擇對(duì)數(shù)似然方法，它假定噪聲均勻分布,并且計(jì)算對(duì)數(shù)似然對(duì)應(yīng)于一個(gè)有噪聲項(xiàng)目且分配到最近的無(wú)噪聲集群。然后，項(xiàng)目分配給集群獲得對(duì)數(shù)的最高價(jià)值。這相當(dāng)于將一個(gè)項(xiàng)目分配給最近的集群，如果它們之間的距離小于臨界值。否則，項(xiàng)目被指定為噪音。總之，該方法的一個(gè)重要優(yōu)點(diǎn)是它與混合數(shù)據(jù)操作（包括連續(xù)和分類數(shù)據(jù)）。另一個(gè)優(yōu)勢(shì)是,盡管兩步聚類方法處理大型數(shù)據(jù)集，就所需處理這些數(shù)據(jù)的時(shí)間而言，這種方法比其他方法需要更短的時(shí)間。缺點(diǎn)是兩步聚類方法不允許丟失值且缺失

12、值的項(xiàng)目不考慮分析第五節(jié)案例研究自從兩步聚類方法開(kāi)始成為大型數(shù)據(jù)集和處理混合數(shù)據(jù)的首選后，我們應(yīng)用此方法并使用一些從銀行獲取的的公共數(shù)據(jù)聚類數(shù)據(jù)。（另一方面,這些數(shù)據(jù)被用在另一個(gè)應(yīng)用程序來(lái)減少維度應(yīng)用PCA（主成分分析）。并在下文給出了該方法的輸入和輸出。第六節(jié)輸入供給我們研究的數(shù)據(jù)集是從一家銀行提供的公共數(shù)據(jù)庫(kù)中的信息，數(shù)據(jù)真實(shí)可靠，在SPSS中，大致有14000條記錄。這個(gè)表包含信用卡還款的的持續(xù)時(shí)間信息,信用歷史，信用卡申請(qǐng)用途，信貸金額，儲(chǔ)蓄賬戶，工齡，還款周期，個(gè)人狀態(tài)、居住權(quán)、財(cái)產(chǎn)、年齡、住房、銀行信用額度，工作，家屬和信用批準(zhǔn)狀態(tài)等等。表1中給出這個(gè)數(shù)據(jù)的一部分。Table1.S

13、omcedataDurationCreditHistoryPurposeCreditAmountYearsEmployedPaymentRatePersonalStatus6criticaltelevision1169.0>=74.0malesingle48oktilnowtelevision5951.0<42.0female12criticaleducation2096.0<72.0malesingle42oktilnowfurniture7882.0<72.0malesingle24pastdelayscarnew4870.0<43.0male_single3

14、6oktilnoweducation9055.0<42.0malesingle24oktilnowfiuniture2835.0>=73.0malesingle36oktilnowcarused694&0<42.0malesingle12oktilnowtelevision3059.0<72.0maledivorced30criticalcarnew5234.0unemployed4.0malemarried數(shù)據(jù)庫(kù)包含3個(gè)分類變量和4個(gè)連續(xù)變量。默認(rèn)情況下，連續(xù)變量被標(biāo)準(zhǔn)化。因?yàn)槲覀兪褂没旌蠑?shù)據(jù)，我們?cè)诰嚯x度量上只有對(duì)數(shù)似然的選擇。在第一次運(yùn)行，我們選擇BIC確

15、定聚類的數(shù)量，雖然我們可以重寫(xiě)此步驟并指定一個(gè)固定的數(shù)字。但是結(jié)果使用AIC運(yùn)行是和BIC運(yùn)行結(jié)果是一致的，所以目前我們使用BIC指標(biāo)。關(guān)于對(duì)于我們數(shù)據(jù)集的噪聲處理方面，我們決定不檢查噪聲。異常值定義為在CF樹(shù)的情況下，其他的葉子不超過(guò)規(guī)定的最大葉大小的百分比。通過(guò)SPSS軟件的一個(gè)重要選擇是XML格式的CF樹(shù)或整個(gè)模型的導(dǎo)出。這允許模型進(jìn)行更新，以增加額外的數(shù)據(jù)集。第七節(jié)輸出1點(diǎn)擊“分析I分類I兩步聚類”命令，彈出“二階聚類分析”對(duì)話框，如下所示少公司電話號(hào)碼少關(guān)聯(lián)賬戶叵$個(gè)人稅前年收入農(nóng)申請(qǐng)人申請(qǐng)信用額度/V3爐住宅電話連續(xù)變1(C)：V5少分行夕賬戶信用額度少賬戶關(guān)聯(lián)卡數(shù)里21/教肓程度

16、護(hù)客戶類別LTJ/申請(qǐng)?jiān)荒挲g-J怡lifri:廠沫弐甘阿Q14且=I-3X仝如HJ輸二階聚類分析分類變里的:連續(xù)孌里計(jì)數(shù)一要標(biāo)準(zhǔn)化的計(jì)數(shù)：假走已標(biāo)準(zhǔn)化的計(jì)數(shù)：X對(duì)數(shù)相似值(D3聚類準(zhǔn)則施瓦茲貝葉斯準(zhǔn)則©ICXB©Akaike信息準(zhǔn)則(A1C)(A)聚類數(shù)里©自動(dòng)確定O)指定國(guó)定值返)數(shù)重(B晞定粘貼(豈_ss(rJ取消幫助2將個(gè)人稅前年收入，申請(qǐng)人申請(qǐng)信用額度和工齡拖入分類變量中，并且將如下變量拖入連續(xù)變量中，賬戶信用額度、教育程度、申請(qǐng)日年齡、卡片最高卡種等級(jí)。3在距離變量對(duì)話框中選擇“對(duì)數(shù)相似值”4在聚類數(shù)量中選擇“指定固定值”5在聚類準(zhǔn)備中，選擇“施瓦茲貝葉

17、斯準(zhǔn)則”。6本案例不選擇噪聲處理7點(diǎn)擊確定，出現(xiàn)如下多個(gè)圖表。在SPSS中，自動(dòng)聚類統(tǒng)計(jì)表可以用來(lái)評(píng)估我們的分析中最佳聚類的數(shù)量，如表2所示在表2中，雖然最低的BIC系數(shù)是四簇，根據(jù)統(tǒng)計(jì)算法，最佳聚類數(shù)是三，因?yàn)榫嚯x最大的比率是三簇。集群分布如表3所示。表3聚類輸入(預(yù)測(cè)變墾)直宴性1.00.80.60.40.2D0.0聚類312說(shuō)明人小55.7%(7488)24.9%(3347)194%(2614)輸入個(gè)人稅前年收入50(28.3%)個(gè)人稅前年收入50(234%)個(gè)人稅前年收入30(28.5%)工齡2(10.9%)工齡0(8.4%)1(35.5%)申請(qǐng)人申請(qǐng)信用額度0(97.3%)陽(yáng)請(qǐng)人陽(yáng)請(qǐng)

18、信用額度20000(64.4%)申請(qǐng)人申請(qǐng)信用額度0(70.8%)賬戶信用額度12539.13賬戶倍用狽度23763.37賬尸信用額度10657.23申晴日年齡36.22申晴日年齡35.93申請(qǐng)日年齡32.46教育程度3.79ttffW度3.59度3.76卡片最高卡種等級(jí)20.00卡片最高卡種等級(jí)20.00卡片fiffiP種等級(jí)19.92圖1所示的群集餅圖顯示了我們?nèi)齻€(gè)集群解決方案的相對(duì)大小。聚類大小圖1展小聚類大小2614(19.4%)最大聚類大小7488(55.7%)大小比率：最大聚類比最小聚類2.86對(duì)于分類變量，集群內(nèi)的百分比圖顯示了每個(gè)變量在每個(gè)集群內(nèi)是如何分裂。在圖2中，它顯示了三個(gè)簇中每個(gè)變量的占比。MW圖2第八節(jié)討論：經(jīng)過(guò)兩步聚類的方法，我們得出以下結(jié)論。第一集群，其中占比19.4%,其中包含的主要是單一的男性客戶，占據(jù)管理職位（34.5%）或失業(yè)（27.3%），他們有未知的屬性并且他們的信用卡申請(qǐng)通過(guò)率是一個(gè)小百分比（11.9%）。集群2占比

人人文庫(kù)> 全部分類> 應(yīng)用文書(shū) > 作業(yè)報(bào)告

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

兩步聚類中文版詳解

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

兩步聚類中文版詳解

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔