




已閱讀5頁,還剩7頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
基于數(shù)據(jù)挖掘的銀行客戶分類研究 摘 要:針對銀行競爭日益加劇,傳統(tǒng)的客戶管理方式日益難以滿足客戶需求的現(xiàn)狀,本文提出一種基于改進(jìn)的k-means聚類算法的客戶細(xì)分方法,該方法針對k-means聚類算法易受噪聲點(diǎn)干擾、對初始的中心點(diǎn)非常敏感、無法確定聚類個(gè)數(shù)的不足,通過剔除低密度數(shù)據(jù)點(diǎn)的方法去除噪聲點(diǎn),并結(jié)合數(shù)據(jù)點(diǎn)的密度和相對距離,選取間隔較遠(yuǎn)的高密度數(shù)據(jù)點(diǎn)作為初始化中心點(diǎn),最后通過改進(jìn)的silhouette評價(jià)指標(biāo)確定聚類個(gè)數(shù)及聚類結(jié)果。本文最后基于該方法對銀行客戶數(shù)據(jù)進(jìn)行聚類分析,并根據(jù)聚類結(jié)果制定出針對性的營銷策略,實(shí)驗(yàn)結(jié)果表明:該方法能很好地解決傳統(tǒng)k-means聚類算法的不足,在實(shí)際應(yīng)用中可以解決銀行客戶細(xì)分問題,有助于提升營銷決策質(zhì)量和客戶關(guān)系管理。 關(guān)鍵詞: 客戶細(xì)分;數(shù)據(jù)挖掘;k-means 0 引言 近年來,隨著國家逐步加大對金融政策的改革,市場存、貸利率逐步放開,商業(yè)銀行之間的競爭日益激烈。而銀行之間的競爭根本上則是對客戶的爭奪,如何贏得客戶并將客戶價(jià)值最大化已經(jīng)成為金融行業(yè)生存的發(fā)展的決定性因素。然而隨著客戶的需求日益多樣化,傳統(tǒng)的營銷方式已經(jīng)日益難以滿足客戶需求,在此背景下,銀行必須充分挖掘客戶信息,從而了解自己客戶群的特征以及不同需求,進(jìn)而對客戶進(jìn)行分類管理,實(shí)行針對性的營銷、維護(hù)以及淘汰。這樣不僅可以穩(wěn)定、拓展客戶群益,同時(shí)也能最大限度降低客戶管理費(fèi)用,從而實(shí)現(xiàn)銀行利潤最大化。 信息的高速發(fā)展以及銀行大數(shù)據(jù)平臺的日益完善,使銀行對客戶數(shù)據(jù)的深入挖掘成為可能。本文在此背景下,提出一種基于改進(jìn)的 的聚類分析方法,并基于該方法對某銀行客戶樣本數(shù)據(jù)進(jìn)行聚類分析,將客戶細(xì)分成有共同特征的客戶群,最后針對不同的客戶群體制定出有效的營銷策略。 1.數(shù)據(jù)提取 客戶分析維度的選取對模型的分析結(jié)果有著決定性的意義,合理的分析維度不僅需要滿足建模的可行性,而且需要能從各個(gè)角度反映客戶的價(jià)值,同時(shí)保證其自身之間的獨(dú)立性和完整性。本文結(jié)合銀行實(shí)際情況,選取了以下10個(gè)客戶屬性作為分析的維度,如表1所示。 根據(jù)上述客戶屬性,本文提取了某銀行自2014年至2015年開戶的所有客戶數(shù)據(jù),共21078條客戶數(shù)據(jù)。 2.數(shù)據(jù)預(yù)處理 客戶數(shù)據(jù)中包含不完整、含噪聲的數(shù)據(jù),如果直接使用這樣的數(shù)據(jù)進(jìn)行分析將會對分析的結(jié)果產(chǎn)生嚴(yán)重的影響,因此對原始數(shù)據(jù)進(jìn)行預(yù)處理就顯得尤為重要。本文預(yù)處理過程分為缺失值處理、數(shù)據(jù)標(biāo)準(zhǔn)化以及數(shù)據(jù)標(biāo)準(zhǔn)化以3個(gè)步驟。 2.1缺失值處理 本文提取的數(shù)據(jù)中,大部分客戶屬性的數(shù)據(jù)相對完整,尤其對數(shù)據(jù)挖掘結(jié)果影響較大的客戶價(jià)值屬性(儲蓄日均、理財(cái)日均等)比較完整,僅部分客戶基本屬性有所缺失,具體分析為:年收入屬性含有1742個(gè)缺失值,工作類型屬性含有946缺失值,另外文化程度還有1256個(gè)缺失值??紤]到這3個(gè)屬性對挖掘的影響不是很大,本文采用取中間值替代的方法,來填補(bǔ)這些空缺值。 2.2 數(shù)據(jù)類型轉(zhuǎn)換 反映客戶特征的屬性,由于各自描述事物的差異,因而所屬的字符類型也會有明顯的差異,但是在實(shí)際的數(shù)據(jù)挖掘過程中,我們處理的往往都是數(shù)值型的數(shù)據(jù),因而需要將字符串等其他類型的數(shù)據(jù)統(tǒng)一轉(zhuǎn)換成數(shù)值類型的數(shù)據(jù),如:性別屬性中,用1表示“男”,2表示“女”,具體轉(zhuǎn)換詳情如表1所示,這里不作過多闡述。 2.3數(shù)據(jù)標(biāo)準(zhǔn)化 樣本數(shù)據(jù)中,各屬性度量單位的不同可能會對數(shù)據(jù)挖掘的結(jié)果產(chǎn)生重大影響,因此在對數(shù)據(jù)進(jìn)行模型分析之前,需要對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,將轉(zhuǎn)化為不受單位限制的無量綱的純屬值。本文采用標(biāo)準(zhǔn)差變換,公式為: 其中, 為樣本數(shù)據(jù)第j個(gè)屬性的均值, sj為第j個(gè)屬性的標(biāo)準(zhǔn)差,計(jì)算公式為: 數(shù)據(jù)標(biāo)準(zhǔn)化后的數(shù)據(jù)如下: 3 聚類分析 在聚類算法中, k-means算法使用最為廣泛,然而也存在如下幾個(gè)不足之處:1.初始聚類中心的選取對聚類結(jié)果影響比較大。2.在聚類前必須輸入簇的數(shù)目k值,但是這k值通常是無法事前確定的。3.算法對于噪聲數(shù)據(jù)與異常數(shù)據(jù)非常敏感。本文針對k-means算法的上述缺陷對算法進(jìn)行改進(jìn),并基于該方法對樣本數(shù)據(jù)進(jìn)行聚類分析。 3.1 噪聲點(diǎn)剔除 處于數(shù)據(jù)集的低密度區(qū)域的數(shù)據(jù)對象被稱為噪聲點(diǎn)或孤立點(diǎn),為了避免這些數(shù)據(jù)點(diǎn)對聚類過程的干擾,我們首先要將這些數(shù)據(jù)點(diǎn)剔除。本文首先計(jì)算各數(shù)據(jù)點(diǎn)的點(diǎn)密度,將點(diǎn)密度小于某一閾值的數(shù)據(jù)點(diǎn)剔除,具體算法如下: 1)計(jì)算數(shù)據(jù)集中各數(shù)據(jù)點(diǎn)之間的平均距離,公式如下: 其中n為樣本總數(shù), 為點(diǎn)i與點(diǎn)j之間的歐式距離。 2)計(jì)算數(shù)據(jù)集中每一個(gè)數(shù)據(jù)點(diǎn)的密度參數(shù)。對于空間中任一數(shù)據(jù)點(diǎn)p,以p為中心,以AvgDist為半徑的區(qū)域內(nèi)數(shù)據(jù)對象的個(gè)數(shù)稱為點(diǎn) 的密度參數(shù),記作density(p,AvgDist),公式為: 其中u(x)公式表示為: 4)遍歷數(shù)據(jù)集,如果某一點(diǎn)的密度參小于平均密度參數(shù)的 ,則認(rèn)為該點(diǎn)為噪聲點(diǎn),將其從數(shù)據(jù)集中剔除。計(jì)算完畢后新的數(shù)據(jù)集記作 。 噪聲點(diǎn)剔除的效果如下圖所示,可以看出經(jīng)過噪聲處理后,低密度的噪聲點(diǎn)被去除。 3.2 初始點(diǎn)選取 k-means聚類算法對初始的中心點(diǎn)較為敏感,不合理的初始中心點(diǎn)會導(dǎo)致聚類結(jié)果局限于局部最優(yōu)解,而不是全局最優(yōu),最終影響聚類的結(jié)果。本文提出一種改進(jìn)的初始點(diǎn)選取方法,即選取距離相隔較遠(yuǎn)的點(diǎn)密度最大的點(diǎn)作為初始中心點(diǎn),算法如下: 1)根據(jù)點(diǎn)密度計(jì)算公式(7)重新計(jì)算數(shù)據(jù)集 中每一個(gè)數(shù)據(jù)點(diǎn)的密度參數(shù)。 2)將最大點(diǎn)密度的數(shù)據(jù)點(diǎn)作為第一個(gè)初始化中心點(diǎn)加入到集合 中,同時(shí)將其從數(shù)據(jù)集D中刪除。 3)計(jì)算數(shù)據(jù)集D中各點(diǎn)到集合 中各初始中心點(diǎn)的距離之和,并計(jì)算平均距離,計(jì)算公式為: 4)遍歷數(shù)據(jù)集D,將到初始中心點(diǎn)距離之和大于平均距離的數(shù)據(jù)點(diǎn)加入到數(shù)據(jù)集C中。 5)遍歷數(shù)據(jù)集C,將最大密度的數(shù)據(jù)點(diǎn)作為下一個(gè)初始化中心點(diǎn)加入到數(shù)據(jù)集A中,同時(shí)將其從數(shù)據(jù)集D中刪除,并清空數(shù)據(jù)集C。 6)重復(fù)步驟(3)、(4)、(5)直至集合C中的數(shù)據(jù)點(diǎn)個(gè)數(shù)達(dá)到kmax。由于銀行客戶類別數(shù)通常不會超過10,因此本文此處kmax的取值為10。 算法執(zhí)行完畢后,數(shù)據(jù)集A中的初始化中心點(diǎn)處于整個(gè)數(shù)據(jù)集中高密度區(qū)域內(nèi),并且相互之間相距較遠(yuǎn),這樣可以很好地描述數(shù)據(jù)集中的數(shù)據(jù)分布情況,提高k-means聚類結(jié)果的精度。 3.3 k-means聚類 k-means聚類算法在聚類之前無法確定分類個(gè)數(shù)k值, k的取值過大或過小都不能準(zhǔn)確反映客戶分類情況,使聚類失去意義。本文采用改進(jìn)的輪廓系數(shù)指標(biāo)對聚類的結(jié)果進(jìn)行評判,由于在傳統(tǒng)的輪廓系數(shù)計(jì)算公式中,需要反復(fù)計(jì)算每一個(gè)點(diǎn)到其他所有點(diǎn)的距離,必然導(dǎo)致計(jì)算量較大,本文對該公式稍作改進(jìn),使用中心點(diǎn)替代的方法計(jì)算輪廓系數(shù),改進(jìn)后的公式如下: 確定聚類有效的標(biāo)準(zhǔn)是使聚類結(jié)果達(dá)到類內(nèi)緊密、類間遠(yuǎn)離。從類內(nèi)緊密性角度出發(fā),我們希望類內(nèi)距離pj 越小越好,從類間遠(yuǎn)離性角度出發(fā),我們希望最小類間距離sj越大越好。同時(shí)為了使指標(biāo)不受量綱影響,我們通過類內(nèi)距離和最小類間距離的最大值對該距離差進(jìn)行壓縮,使其落在區(qū)間之間。因此輪廓系數(shù)值silhouette在-1和1之間變化,聚類效果越好,該值越大,反之聚類效果越差,則該值就越小。 本文結(jié)合k-means算法以及silhouette聚類有效性指標(biāo),對樣本數(shù)據(jù)進(jìn)行聚類分析,算法如下: 1)選取聚類數(shù)的搜索范圍 kmin,kmax 2)從kmin循環(huán)至kmax,執(zhí)行以下步驟: a) 從集合C中按加入該集合的先后順序取出k個(gè)數(shù)據(jù)點(diǎn),其中k為簇的個(gè)數(shù),即 b) 以這k個(gè)數(shù)據(jù)點(diǎn)作為初始聚類的中心點(diǎn),利用k-means算法進(jìn)行聚類。 c) 聚類完成后,利用公式(12)計(jì)算本次聚類的silhouette silhouette 值。 3)循環(huán)完畢后,比較每次聚類的silhouette值,選取silhouette值最大時(shí)的k值以及聚類結(jié)果作為最終的聚類結(jié)果。 由于銀行中客戶類別數(shù)一般不會超過10,因此本文中, kmin取值為2, kmax取值為10,實(shí)驗(yàn)結(jié)果如下: 從上表中可以看出,當(dāng) 取值為5時(shí),輪廓系數(shù)值最大,此時(shí)的聚類結(jié)果達(dá)到類內(nèi)最緊密、類間最遠(yuǎn)離,因此本文選擇 =5為最優(yōu)解,最終聚類結(jié)果如下表所示: 4 聚類結(jié)果分析 聚類分析完成后,我們還需要對這5類數(shù)據(jù)進(jìn)行客戶特征分析,根據(jù)每一類不同的客戶特征制定不同的營銷策略。本文通過計(jì)算每一類數(shù)據(jù)均值和標(biāo)準(zhǔn)差,并結(jié)合銀行實(shí)際業(yè)務(wù),對每一類客戶數(shù)據(jù)進(jìn)行分析。 由表5分析可以看出第一類客戶特點(diǎn):該類客戶年齡較小,文化程度較高,持有比高級別的銀行卡,儲蓄、保本理財(cái)、保險(xiǎn)、國債等風(fēng)險(xiǎn)較小收益較低業(yè)務(wù)的指標(biāo)值較小,而非保本理財(cái)、基金、證券等風(fēng)險(xiǎn)較大收益較高業(yè)務(wù)的指標(biāo)值較大,此外貸款金額較大。對于這類客戶,在客戶關(guān)系維護(hù)時(shí),應(yīng)該針對客戶年齡較低的特點(diǎn),制定適合年輕人的維護(hù)方式。在業(yè)務(wù)營銷方面,應(yīng)該重點(diǎn)營銷收益較高的業(yè)務(wù)或者貸款聯(lián)動性業(yè)務(wù),如基金業(yè)務(wù)、存貸盈業(yè)務(wù)等。 由表6分析可以看出第二類客戶特點(diǎn):該類客戶儲蓄、理財(cái)、基金等各項(xiàng)業(yè)務(wù)指標(biāo)值均較低,但是最高卡級別比較高??梢钥闯觯擃惪蛻魹榱魇У母邇r(jià)值客戶,對于這類客戶應(yīng)該認(rèn)真分析其流失原因,并有針對性地做好客戶維挽工作。 由表7分析可以看出第三類客戶特點(diǎn):該類客戶最高卡級別較低,年收入較低,儲蓄、理財(cái)、基金等各項(xiàng)業(yè)務(wù)指標(biāo)值均較低。可以看出該類客戶為低價(jià)值客戶,在銀行資源有限的情況下,可以考慮停止針對該類客戶的營銷活動,而將資源投向產(chǎn)出比更高的高價(jià)值客戶群。 由表8分析可以看出第4類客戶特點(diǎn):該類客戶年齡較大,最高卡級別較高,儲蓄、保本理財(cái)、保險(xiǎn)等風(fēng)險(xiǎn)較小收益較低業(yè)務(wù)的指標(biāo)值較大,相反基金、證券等風(fēng)險(xiǎn)較大收益較高業(yè)務(wù)的指標(biāo)值較小,貸款金額較小。在客戶關(guān)系維護(hù)方面,應(yīng)該針對客戶年齡較大的特點(diǎn),制定適合中老年人的維護(hù)方式。在業(yè)務(wù)營銷方面,應(yīng)該重點(diǎn)營銷儲蓄、保本理財(cái)?shù)确€(wěn)健性收益產(chǎn)品。 由表9分析可以看出第5類客戶特點(diǎn):該類客戶年收入較高,文化程度較高,并且貸款金額較大,但是儲蓄、理財(cái)、基金等其他業(yè)務(wù)指標(biāo)值很小,最高卡級別也較低。該類客戶為潛在客戶,在客戶關(guān)系維護(hù)方面,應(yīng)該針對客戶文化層次較高的特點(diǎn),制定側(cè)重文化藝術(shù)的高品位維護(hù)方式。在業(yè)務(wù)營銷方面,建議以貸款業(yè)務(wù)為突破口,展開交叉營銷。 結(jié)束語 為了更好地實(shí)現(xiàn)銀行客戶分層管理,提升營銷決策質(zhì)量和客戶關(guān)系管理,本文提出了一種基于改進(jìn)的 聚類算法,該方法能解決傳統(tǒng) 算法易受噪聲點(diǎn)干擾、對初始的中心點(diǎn)非常敏感以及無法確定聚類個(gè)數(shù)的不足,在實(shí)際應(yīng)用中可以很好地解決銀行客戶細(xì)分問題。此外本文最后根據(jù)聚類結(jié)果并結(jié)合銀行自身狀況,制定出針對性的營銷策略,這對銀行如何提升客戶關(guān)系管理、增強(qiáng)客戶體驗(yàn)有一定的參考意義。 本方法仍有一些不足之處,當(dāng)客戶數(shù)據(jù)量很大時(shí),會出現(xiàn)計(jì)算時(shí)間過長的現(xiàn)象,因此在后續(xù)的研究過程中,會考慮引入分布式處理方式來提高數(shù)據(jù)處理的速度。 參考文獻(xiàn): 1 Shunye W. An improved k-means clustering algo-rithm based on dissimilarity C/Mechatronic Sci-ences,Electric Engineering and Computer (MEC),Proceedings 2013 International Conference on IEEE,2013:2629-2633. 2 孟 子健,馬江洪.一種可選初始聚類中心的改進(jìn)均值算法J.理論新探,2014,12(3) 3 QIAN JIANJUN, YANG JIAN, XU YONG. Local structure-based image decomposition for feature extraction with applications to face recognitionJ. IEEE Transtractions on Image Processing , 2013,22(9):3591- 3603 4 鄧搖海,覃搖華,孫搖欣.一種優(yōu)化初始中心的 K-means聚類算法J .計(jì)算機(jī)技術(shù)與發(fā)展,2013,23(11):98- 102. 5 方方.“大數(shù)據(jù)”趨勢下商業(yè)銀行應(yīng)對策略研究J.新金融,2014(12):25-28 6 Ghemawat S. ACM Syrup on Operating Systems PrinciplesM. New York ACM, 2013:29-43 7 陸珉峰,虞鵬飛.互聯(lián)網(wǎng)金融背景下商業(yè)銀行“大數(shù)據(jù)”戰(zhàn)略研究J. 經(jīng)濟(jì)與管理,2015(3):31-38 8 張建珍, 張秀珍, 周星星. 模糊聚類算法在銀行客戶分類管理中的應(yīng)用J. 智能計(jì)算機(jī)與應(yīng)用, 2014, 6 (4):78 -82 9 曾小青. 基于消費(fèi)數(shù)據(jù)挖掘的多指標(biāo)客戶細(xì)分新方法J. 計(jì)算機(jī)應(yīng)用研究, 2013,30(10):2944-2947 10 張順龍,庫濤, 周浩. 針對多聚類中心大數(shù)據(jù)集的加速K-means 聚類算法J. 計(jì)算機(jī)應(yīng)用研究,2015,33(9):36-40 11 Luo Biao,Yang Wei-wei. Customer value classification Model and applica
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030年中國電動梳妝臺行業(yè)市場現(xiàn)狀供需分析及投資評估規(guī)劃分析研究報(bào)告
- 2025年抗過敏藥項(xiàng)目規(guī)劃申請報(bào)告模板
- 2025年稀土金屬:混合稀土金屬項(xiàng)目立項(xiàng)申請報(bào)告模板
- 續(xù)簽勞動合同的約定時(shí)間
- 短視頻制作勞動合同模板
- 路面維修服務(wù)協(xié)議
- 2025年中國小尺寸集裝箱項(xiàng)目投資可行性研究報(bào)告
- 2025工業(yè)互聯(lián)網(wǎng)平臺微服務(wù)架構(gòu)性能瓶頸分析報(bào)告
- 互聯(lián)網(wǎng)+醫(yī)療2025:遠(yuǎn)程醫(yī)療服務(wù)分級診療模式創(chuàng)新研究報(bào)告
- 2025年食品添加劑安全性評估與食品安全管理報(bào)告
- CJJ 36-2016 城鎮(zhèn)道路養(yǎng)護(hù)技術(shù)規(guī)范
- 直臂式高空作業(yè)車安全管理培訓(xùn)課件-
- 之江實(shí)驗(yàn)室:生成式大模型安全與隱私白皮書
- 靈芝孢子油的作用
- 免疫組織化學(xué)檢驗(yàn)技術(shù)(免疫學(xué)檢驗(yàn)課件)
- 世界文明史學(xué)習(xí)通課后章節(jié)答案期末考試題庫2023年
- 某石料廠年產(chǎn)10萬噸石灰?guī)r開采建設(shè)項(xiàng)目可行性研究報(bào)告
- 養(yǎng)老院安全工作會議記錄范本
- DB21∕T 3275-2020 企業(yè)安全風(fēng)險(xiǎn)分級管控和隱患排查治理通則
- 胸腔鏡下肺癌根治的手術(shù)配合
- 護(hù)理查房肺結(jié)核護(hù)理查房
評論
0/150
提交評論