




已閱讀5頁,還剩60頁未讀, 繼續(xù)免費閱讀
(應用數學專業(yè)論文)聚類算法在銀行客戶細分中的研究和應用.pdf.pdf 免費下載
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
河南大學研究生碩士學位論文第1 頁 摘要 數據挖掘是一種新興的決策支持工具,而聚類分析是該領域的核心技術和非常 活躍的研究方向??蛻艏毞质强蛻絷P系管理的重要組成部分,它是指企業(yè)根據客 戶的內在和外在屬性、及客戶的消費行為特征對其分類,從而為不同類別的客戶 提供針對性的產品和服務。聚類是客戶細分的有力工具,尤其是在金融行業(yè)中日 益發(fā)揮出積極的導向作用。 聚類是一種無監(jiān)督學習過程,它按照事物的屬性特征把事物聚集成若干簇,使 同一簇內的數據對象之間具有較高的相似性,而不同簇之間的數據對象相似度較 低。聚類融合是將多個聚類結果進行組合來獲得更加魯棒和聚類準確率更高的數 據劃分結果。本文提出了一種基于投票機制的兩層聚類融合模型,它通過解決以 下幾個方面的問題來實現對聚類精度及算法魯棒性的提升: 聚類成員的生成問題:聚類成員是聚類融合算法的基礎,生成聚類成員的核心 問題是獲得多個相互具有差異性的原始聚類結果。在本文提出的模型中,涉及兩 個層次的聚類成員:第一層聚類成員為原始的聚類算法產生的聚類結果,它通過 為多種聚類算法設置不同的參數來獲得;第二層的聚類成員是將同一種算法在不 同參數下的聚類結果進行組合得到的聚類融合結果,也就是說第二層的聚類成員 兼具聚類融合結果和聚類成員兩個方面的性質。通過選擇不同類型的聚類算法和 設置不同的初始化參數可以得到有差異性的聚類成員,提高聚類融合質量。 聚類融合函數設計問題:它是指用什么樣的方法將多個聚類結果組合起來從而 提升原始聚類算法的聚類效果。在本文的兩層聚類融合模型中,主要采用多個聚 類結果投票的方法作為聚類融合函數。投票機制的核心思想是一組成員對某件事 物的共同判斷優(yōu)于單個成員的判斷,它具有簡單有效且便于理解的特點。 聚類標簽的匹配問題:在采用基于投票的聚類融合方法時,確定不同數據劃分 中簇的對應關系也是一個十分重要的問題。不同的算法、甚至同一個算法在不同 參數下的聚類結果對實質相同的同一個簇的描述或標簽都可能是不同的。在本文 研究中,通過將兩次聚類中共享數據點最多的兩個簇設置相同的類標號來解決標 簽匹配問題。 第l i 頁河南大學研究生碩士學位論文 本文還探討了客戶細分的一般性方法;并采用實證分析方法,利用某銀行投資 理財業(yè)務的客戶基本資料和各類原始交易數據,通過設計先聚類后分類的數據挖 掘方案,建立了有效的客戶細分模型,這對銀行提高客戶關系管理的科學性有一 定借鑒意義;并通過實際應用,驗證了本文所提出的兩層聚類融合方法的效果和 適用性。 關鍵詞:數據挖掘;客戶細分;聚類;聚類融合 河南大學研究生碩士學位論文第1 i i 頁 a b s t r a c t d a t am i n i n gi sa e m e r g i n gd e c i s i o n - m a k i n gs u p p o r tp r o c e s s ,a n dc l u s t e r i n ga n a l y s i s i st h ec o r et e c h n o l o g ya n dv e r ya c t i v er e s e a r c hd i r e c t i o no ft h ed a t am i n i n g t h e c u s t o m e rs e g m e n t a t i o ni sac o m p o n e n to ft h ec u s t o m e rr e l a t i o n sm a n a g e m e n t ( c r m ) , w h i c hm e a n st h a tt h ee n t e r p r i s e sc l a s s i f yt h ec u s t o m e r si n t od i f f e r e n tg r o u p sb a s e do n t h e i rc h a r a c t e r i s t i c ,d e m a n d , f a n c ya n do t h e rs y n t h e s i sf a c t o r ss oa st op r o v i d et h e s p e c i f i cp r o d u c t sa n ds e r v i c e st od i s s i m i l a rc u s t o m e r s a st h ep o w e r f u lt o o li nc u s t o m e r s e g m e n t a t i o n ,t h ec l u s t e r i n gm e t h o d sa r ed i s p l a y i n gi t sf u n c t i o no fg u i d a n c ei nt h i sf i e l d , e s p e c i a l l yi nt h ef i n a n c i a li n d u s t r y c l u s t e r i n gi sau n s u p e r v i s e dl e a r n i n gp r o c e s s ,i td i v i d e st h ed a t ap o i n t si n t os e v e r a l p a r t sb ym a k i n go b j e c t si nt h es a m ep a r th a v eah i g hs i m i l a rf e a s u r ea n do b j e c t si n d i f f e r e n tp a r ta r ea sd i s s i m i l a ra sp o s s i b l e c l u s t e r i n ge n s e m b l em e t h o da r em o r er o b u s t a n dh i g h e ra c c u r a t eb yc o m b i n i n gm u l t i p l ec l u s t e r i n gr e s u l t s i nt h i sp a p e r , w ep r o p o s e d an e wt w o - l a y e rc l u s t e r i n ge n s e m b l ea l g o r i t h mb a s e do nt h ev o t i n gm e c h a n i s mt o f u r t h e ri m p r o v et h er e s u l t so fe n s e m b l e t h i sa l o g r i t h mm a i n l ys o l v et h ef o l l o w i n g p r o b l e m : g e n e r a t i o no ft h ec l u s t e r i n gm e m b e r s :t h ec l u s t e r i n gm e m b e r sa r et h eb a s eo ft h e c l u s t e r i n ge n s e m b l e t h ep r o p e rd i f f e r e n c eb e t w e e nm e m b e r s 研l(wèi) lg e ta b e t t e re n s e m b l e r e s u l t t h em o d e lp r o p o s e di n v o l v et w ol e v e l so fc l u s t e rm e m b e r s :t h em e m b e r so ft h e f t r s tl e v e li sg e n e r a t e db yd i f f e r e n to r i g i n a lc l u s t e r i gm e t h o dw i md i v e r s ep a r a m e t e r s m e m b e r so ft h es e c o n dl e v e la r et h ec l u t e r i n ge n s e m b l er e s u l t so fm e m b e r so ft h ef i r s t l e v e r i tc a ni m p r o v et h er e s u l to ff i n a ld a t ap a r t i t i o nb ys e l e c td i f f e r e n tk i n do ft h e o r i g i n a lc l u s t e r i n ga l g o r i t h ma n ds e td i v e r s ep a r a m e t e r s c l u s t e r i n gf u s i o nf u n c t i o nd e s i g n a t i o n :t h ec l u s t e r i n gf u s i o nf u n c t i o ni st h em e t h o d t oc o m b i n i n gt h eo r i g i n a lc l u s t e r i n gr e s u l t s i no u ra l g o r i t h m , am a j o r i t yv o t i n gr u l ei s a d o p t e da st h ef u s i o nf u n c t i o n t h ei d e ab e h i n dm a j o r i t yv o t i n gi st h a tt h ej u d g e m e n to f ag r o u pm e m b e r si ss u p e r i o rt ot h o s ei n d i v i d u a l s t h i sc o n c e p th a db e e nw d e l ye x p l o r e d a n ds h o w e dt h a ti ti sa v e r ys i m p l e ,e f f e c t i v ea n de a s i l yb eu n d e r s t o o d a c c o r d i n gt ot h e d e m a n di nr e a l a p p l i c a t i o n , i tp u t f o r w a r dh i g h e r r e q u i r e m e n t sf o rt h em o d e l u n d e r s t a n d a b l e s ow el a s tc h o s et h ev o t i n gm e c h a n i s ma st h ef u s i o nf u n c t i o no fe a c h 第1 v 頁河南大學研究生碩士學位論文 l e v e l m a t c h i n gt h ec l u s t e r i n gl a b e l :i ti sav e r yi m p o r t a n tp r o b l e mw h e na d o p t i n gt h e v o t i n g b a s e dc l u s t e r i n g e n s e m b l em e t h o d ,a sd i f f e r e n t a l g o r i t h m s ,e v e nd i f f e r e n t p a r a m e t e r st oas a m ea l g o r i t h mw i l lm a k et o t a l l yd i f f e r e n td e s c r i p t i o nt oc l u s t e r sw h i c h i nf a c ta r et h es a m eg r o u p i nt h i sp a p e r , t h i sp r o b l e mw a ss o l v e db ym a k i n gt h ec l u s t e r s w h i c hg e tt h em o s ts h a r e dd a t ap o i n t sh a v et h es a m ec l u a t e rl a b e l t h i sp a p e ra l s od i s c u s s e dt h eu n i v e r s a lm e t h o do fc u s t o m e rs e g m e n t a t i o n w ea l s o u s et h ee m p i r i c a la n a l y s i si nc u s t o m e rs e g m e n t a t i o n b a s e do nt h eo r i g i n a lt r a n s a c t i o n d a t ao fi n v e s t m e n tc u s t o m e r s ,w ed e s i g n e da c l u s t e r i n g c l a s s i f e rd a t am i n i n gp r o c e s s a n db u i l tae f f e c t i v ec u s t o m e rs e g m e n t a t i o nm o d e lf o rt h ec o m m e r c i a lb a n k t h er e s u l t s h o w e dt h a tt h ep r o p o s e dt w o - l a y e rc l u s t e r i n ge n s e m b l ea l g o r i t h mw o r k sv e r yw e l li n t h eb u s i n e s sa p p l i c a t i o n k e yw o r d s :d a t am i n i n g ;c u s t o m e rs e g m e n t a t i o n ;c l u s t e r i n g ;c l u s t e r i n ge n s e m b l e 關于學位論文獨立完成和內容創(chuàng)新的聲明 本人向河南大學提出碩士學位中請。本人鄭重聲明:所呈交的學位論文是 本人在導師的指導下獨立完成的,對所研究的課題有新的見解。據我所知,除 文中特別加以說明、標注牽致謝的地方外,論文中不包括其他人已經發(fā)表或撰 寫過的研究成果,也不包括其他人為獲得任何教育、科研機構的學位或證書而 使用過的材料。與我一同工作的同事對本研究所做的任何貢獻均已在論文中作 了明確的說明并表示了謝意。 學住申請人( 學住論文作者) 簽名_ 芝! 坌鯉一 一 2 0 。7 年月 日 關于學位論文著作權使用授權書 本人經河南大學審核批準授子碩士學位。作為學位論文酌作者,本人完全 了解并同意河南大學有關保留、使用學位論文的要求,即河南大學有權向國家 圖書館、科研, f i - ,螄構、數據收集機構和本校圖書館等提供學位論文( 紙質文 本和電子文本) 以供公眾檢索、查閱。本人授權河南大學出于宣揚、展覽學校 學術發(fā)展牽進行學術交流等目的,可以采取影印、縮印、掃描和拷貝等復制手 段保存、匯編學位論文( 甄質文本和電子文本) o ( 涉及保密內容的學位論文在解密后適用本授權書) 學位獲得者( 學住論文作者) 釜名:一墜蛆一 2 0q 年月 日 學位論文指導教師弛圣圣重 2 0j 7 年石月自 河南大學研究生碩士學位論文第1 頁 第1 章緒論 隨著現代信息技術的飛速發(fā)展,各類業(yè)務系統(tǒng)所產生的數據呈爆炸性增長,而 人們在面臨各種各樣復雜的決策問題時又常常缺乏足夠的信息和知識來輔助其做 出及時準確的決策。目前,一些商業(yè)銀行對個人理財業(yè)務市場的劃分還很簡單, 通常是以一個固定的資產額度來對客戶進行劃分,但隨著消費層次和需求的多樣 化,這樣的劃分顯然不能滿足客戶的個性化需求。另一方面,商業(yè)銀行利用現代 化的數據庫和數據倉庫系統(tǒng),存儲了大量的客戶人口統(tǒng)計信息和客戶業(yè)務交易數 據。如何利用有效的工具從這海量數據中發(fā)現客戶的個性特征,從而為各類客戶 提供針對性的服務產品,己成為商業(yè)銀行的當務之急。數據挖掘技術是二十世紀 八十年代后期興起的一門交叉學科,它是從大量數據中用非平凡的方法發(fā)現有用 知識的一般過程,也是當今進行客戶細分的重要方法之一。 本章將從整體上對本論文作一個概括性的介紹,描述本論文研究的背景與選題 意義,并介紹論文的主要研究內容和研究方法。 1 1 數據挖掘技術概述 1 1 1 數據挖掘的產生背景 隨著數據庫技術的發(fā)展和互聯(lián)網的迅速普及,人們所面對的數據量急劇的增 長,無論企業(yè)、科研機構還是政府部門都積累了大量的、以不同形式存儲的數據 資料。然而,在擁有海量數據的同時我們對數據中所蘊涵的信息和知識卻又缺乏 充分的理解和應用。依靠傳統(tǒng)的數據庫技術對數據進行查詢和檢索等手段,己經 遠遠不能滿足數據分析和處理的要求,不能幫助我們從數據中提取帶有結論性的 有用信息。雖然基于數據倉庫的聯(lián)機分析處理技術具有概括和聚集的功能,并支 持多維分析和決策,但它不能進行更深層次的數據分析,不能充分的發(fā)掘和利用 數據庫中蘊藏的豐富知識。因此,人們迫切需要有效的數據分析方法和技術以解 決“數據豐富而信息貧乏”這一現象,以幫助人們從海量數據中挖掘出有用的信 息,發(fā)現其中存在的關系和規(guī)則,實現決策的智能化和自動化,從而帶來商業(yè)上 第2 頁河南大學研究生碩士學位論文 的巨大價值。在這種情況下,數據庫知識發(fā)現( k n o w l e d g ed i s c o v e r yi nd a t a b a s e , l d ) 和數據挖掘( d a t am i n i n g ,d m ) 【1 h 4 】技術應運而生并逐漸顯示出強大的生命 力。 數據挖掘就是從數據中提取人們感興趣的知識,這些知識一般是隱含的、有效 的、新穎的、潛在有用的以及最終可以理解的模式【l l 。數據挖掘充分利用了機器學 習,數理統(tǒng)計,人工智能和模糊邏輯等理論和方法,它是應用需求推動下多種學 科融合的結果。 從二十世紀八十年代末至今,k d d 和數據挖掘技術有了很大的發(fā)展。在1 9 8 9 年在美國底特律召開的第十一屆國際人工智能聯(lián)合會議的專題討論會上提出了 k d d 這一術語,接著又繼續(xù)舉行了關于k d d 專題討論會。從1 9 9 5 年起每年舉辦 一次知識發(fā)現和數據挖掘國際學術會議。( ( k n o w l e d g ed i s c o v e r ya n dd a t am i n i n g ) ) 創(chuàng)辦于1 9 9 7 年,它是k d d 的核心學術刊物,國外在這方面發(fā)表了眾多的研究成 果和論文,并且開發(fā)了許多數據挖掘軟件,建立了一些相關科研網站。目前,對 k d d 和數據挖掘的研究己成為計算機領域的一個熱門課題。在我國,許多計算機、 數據庫、人工智能、機器學習領域的專家學者也逐漸投入到k d d 和數據挖掘的研 究中,并己取得了一定的成果。 1 1 2 數據挖掘的研究內容 隨著數據挖掘研究的逐步深入,數據挖掘和知識發(fā)現的研究己經形成了三個強 大的支柱:數據庫技術、人工智能和數理統(tǒng)計。模式識別、機器學習和人工智能 等領域的分類,聚類,決策樹,神經網絡,進化計算,以及模糊集,粗糙集等方 法經過改進大都可以應用于數據挖掘和知識發(fā)現跚6 】【7 1 。數據挖掘通常以海量的、 類型更加復雜的數據為研究對象,所以其研究內容主要包括對現有技術的改進, 綜合各種方法優(yōu)點的有效集成,以及在一些新領域的應用研究等。概括起來主要 有: 1 ) 基礎理論,包括數據庫、數據倉庫以及海量數據的存儲和調用; 2 1 發(fā)現算法,包括分類、聚類、回歸和關聯(lián)規(guī)則等針對特定挖掘任務和知識 河南大學研究生碩士學位論文第3 頁 的有效方法; 3 ) 知識表示方法和可視化技術; 4 ) 發(fā)現知識的維護和再利用; 5 ) 半結構化和非結構化數據中的知識發(fā)現; 6 ) 網絡數據挖掘等。 數據挖掘的任務是從數據中發(fā)現有趣的模式,模式按功能可分為預測型和描述 型兩大類【8 1 1 9 1 。預測型模式是根據數據項的值精確確定某種結果的模式,挖掘預測 型模式使用的是可以明確知道結果的數據。描述型模式則主要是描述數據中存在 的規(guī)則和特征,或者根據數據的相似性把數據分為若干類別。實際應用中往往根 據模式的作用細分為分類模式,時間序列模式,回歸模式,聚類模式,關聯(lián)模式。 分類模式和回歸模式是使用最普遍的模式,它們和時間序列模式也被認為是有監(jiān) 督學習,因為在建立模式前數據的結果是己知的,并可以根據這些已知的結果直 接檢測模式的準確性,即模式的產生是在受監(jiān)督的情況下進行的。一般在建立受 監(jiān)督模式時,通常使用一部分數據作為訓練樣本,而另一部分數據用來檢驗和校 正模式,也稱為測試集。聚類模式、關聯(lián)模式、序列模式則是非監(jiān)督學習,這些 模式建立前的結果是未知,模式的產生不受任何監(jiān)督。通過這些模式,我們可以 得到以下幾種知識:廣義知識、關聯(lián)知識、分類知識、預測型知識和偏差型知識。 數據挖掘和數據庫知識發(fā)現作為一個學術領域具有很大的重合度,多數學者認 為數據挖掘和知識發(fā)現的概念是等價的。目前,數據挖掘主要流行于統(tǒng)計、數據 分析和數據庫領域,知識發(fā)現主要流行于人工智能和機器學習領域。從數據處理 的角度看,可以把數據挖掘作為知識發(fā)現過程中和算法相關的一步,借助于算法 在可接受的計算范圍內從數據中枚舉模式或模型結構。k d d 的基本過程包括問題 定義、數據準備、數據挖掘以及結果的解釋和評估f 1 0 1 。 1 1 3 數據挖掘的應用和研究方向 目前,數據挖掘技術比較成熟,其應用也越來越廣泛,例如金融數據分析、商 業(yè)零售數據分析、電信業(yè)務分析、生物醫(yī)學、網絡分析、天文數據分析和科學探 第4 頁河南大學研究生碩士學位論文 測數據分析等。 廣泛的應用使得越來越多的研究機構、企業(yè)和學術組織從事數據挖掘系統(tǒng)原型 與產品的研制開發(fā)。根據其應用領域這些系統(tǒng)和工具可分為通用單任務類型,通 用多任務類型和面性專用領域類型。它們的挖掘功能和方法上的差別體現在關鍵 技術、運行平臺、處理的數據類型、與數據庫或數據倉庫的藕合關系、提供的數 據挖掘查詢語言和可視化工具、價格等方面。但是,無論是專門用于某一方面或 領域的系統(tǒng),還是緊密結合數據庫和數據倉庫的綜合系統(tǒng),除了采用了傳統(tǒng)的統(tǒng) 計方法外,還采用基于人工智能的技術,包括決策樹、規(guī)則歸納、神經網絡、可 視化、模糊建模等,這是數據挖掘工具的發(fā)展趨勢。同時,數據挖掘工具的開發(fā) 不僅要面向專業(yè)人員,而且要面向非專業(yè)人員以及高層決策人員,這也是數據挖 掘系統(tǒng)的另一個主要發(fā)展方向。 數據、數據挖掘任務和數據挖掘方法的多樣性給數據挖掘提出了許多挑戰(zhàn)。設 計通用的數據挖掘語言,開發(fā)高效而有用的數據挖掘算法和系統(tǒng),建立交互和繼 承的數據挖掘環(huán)境,以及應用數據挖掘技術解決大型應用問題等都是目前數據挖 掘研究人員、系統(tǒng)和應用開發(fā)人員所面臨的主要問題。目前,數據挖掘的研究方 向主要有: 1 ) 數據挖掘語言的標準化; 2 ) 對于復雜數據類型進行挖掘的新方法; 3 ) 數據挖掘與數據庫、數據倉庫和w e b 數據庫系統(tǒng)的集成; 4 ) 數據挖掘的應用; 5 1 可伸縮的數據挖掘算法; 6 ) 數據挖掘的可視化; 7 ) 數據挖掘中的隱私保護與信息安全。 1 2 客戶細分概述 1 2 1 客戶細分的理論基礎 客戶細分是2 0 世紀5 0 年代中期由美國學者溫德爾史密斯提出的,其理論依 河南大學研究生碩士學位論文第5 頁 據主要有兩點:顧客需求的異質性和企業(yè)資源的有限性及有效的市場競爭。顧客 需求的異質性說明顧客的需求各不相同,只要存在兩個以上的顧客,需求就會不 同。企業(yè)有限的資源和有效的市場競爭是指,任何一個企業(yè)不能單憑自己的人力、 財力和物力來滿足整個市場的所有需求,這不僅緣于企業(yè)自身條件的限制,而且 從經濟效應方面來看也是不足取的。因此,企業(yè)應該分辨出它能有效為之服務的 最具有吸引力的細分市場,集中企業(yè)資源,制定科學的競爭策略,以取得和增強 競爭優(yōu)勢。 客戶細分是指根據客戶屬性劃分的客戶集合。它既是客戶關系管理( c u s t o m e r r e l a t i o n s h i pm a n a g e m e n t ,c r m ) 的重要理論組成部分,又是其重要管理工具。它 是分門別類研究客戶、進行有效客戶評估、合理分配服務資源、成功實施客戶策 略的基本原則之一,為企業(yè)充分獲取客戶價值提供理論和方法指導。 每個客戶群體,由于他們所處的社會文化、道德觀念、收入和消費水平以及 教育背景的不同,導致了他們在對某種產品或服務的需求上表現出極大的差別。 客戶細分,就是依據企事業(yè)部門系統(tǒng)數據庫中的各類客戶資料為基礎,挖掘和發(fā) 現系統(tǒng)中不同的客戶群體,分析各個客戶群體的需求特點以及其與單位的利害關 系,從而為不同的客戶提供特色化服務。在進行客戶細分活動時,尤其關鍵的是 滿足重點客戶的需求,并發(fā)展和維持潛在的優(yōu)質客戶,只有這樣才能使客戶關系 管理真正成為業(yè)務獲得成功、產品擴大銷量的助推器。 1 2 2 客戶細分的一般方法及過程 一 一般來說,客戶細分可以根據以下三個方面的客戶屬性來進行: 1 ) 外在屬性:如客戶的地域分布,客戶的產品擁有,客戶的組織歸屬企業(yè)用 戶、個人用戶、政府用戶等。這種分層通常最簡單和直觀,但同時它也是比較 粗放的分類,我們依然不知道在每一個客戶層面,那些客戶對企業(yè)的貢獻更大, 那些客戶對企業(yè)的貢獻相對較小。我們能知道的只是某一類客戶( 如大企業(yè)客 戶) 較之另一類客戶( 如政府客戶) 可能消費能力更強。 2 ) 內在屬性:內在屬性行為客戶的內在因素所決定的屬性,比如性別、年齡、信 第6 頁河南大學研究生碩士學位論文 仰、愛好、收入、家庭成員數、信用度、性格和價值取向等。 3 ) 消費行為特征:在不少行業(yè)對消費行為的分析主要從三個方面考慮:最近消費 時間、消費頻率與消費額。根據消費行為對客戶進行細分可以掌握客戶的真正 消費習慣和傾向,在實踐中通常能得到比較理想的結果。但按照消費行為來分 類也有其局限性,它通常只能適用于現有客戶,對于潛在客戶,由于消費行為 還沒有開始,當然分類無從談起。即使對于現有客戶,消費行為分類也只能滿 足企業(yè)客戶分類的特定目的,如獎勵貢獻多的客戶。至于找出客戶中的特點為 市場營銷活動找到確定對策,則要做更多的數據分析工作,例如數據挖掘。 客戶細分一般可分為五個步驟進行i 刪: 第一步,針對客戶一般特征的細分??蛻羲幍纳鐣h(huán)境、生活和教育背景 以及經濟基礎決定了客戶的需求級別。針對客戶這些特征進行客戶分類,應該考 慮的主要因素有:地域特征,如城市或農村,城市規(guī)模及城市經濟發(fā)展水平;生 活教育背景,如年齡,性別,教育文化程度,工作單位性質,職務或級別;心理 因素,如人格特征,道德發(fā)展水平等。 第二步,客戶價值區(qū)問細分??蛻舾鶕渥陨硐M水平的不同對企業(yè)的貢獻 大小也是不同的。一般來講,企業(yè)中2 0 的客戶其貢獻占企業(yè)總利潤的8 0 ,而 其他8 0 的客戶的貢獻僅占企業(yè)利潤的2 0 ,有的客戶貢獻甚至為負。因此,在 根據客戶的一般特征進行細分后,還要依據客戶對企業(yè)的貢獻大小將其分為若干 的等級,如:優(yōu)質客戶、潛力客戶、一般客戶、小客戶和黑名單客戶等。在這一 階段,需要考慮的變量主要有:客戶貢獻額,客戶貢獻度( 反映某客戶貢獻與企 業(yè)平均客戶貢獻的比值) ,客戶忠誠度等。 第三步,客戶共同需求細分。在前兩步細分的基礎上,選定企業(yè)中的優(yōu)質客 戶和潛在優(yōu)質客戶為目標。分析各類客戶的需求特征,并以客戶需求為指導制定 企業(yè)戰(zhàn)略,最終為每個客戶群體提供個性化的產品和服務。 第四步,選擇適合企業(yè)數據特征的聚類方法。聚類算法是一種無監(jiān)督學習算 法,在使用聚類技術進行客戶細分時,應根據企業(yè)的需要、客戶特點和收集到的 數據情況選擇合適的算法,以挖掘和發(fā)現數據的真實分布情況。 河南大學研究生碩士學位論文第7 頁 第五步,對客戶細分模型進行評估。客戶細分模型目的是根據客戶的各種特 征將客戶劃分為不同的簇,根據企業(yè)需要,同一簇中的客戶應具有相似的貢獻度 和消費傾向,而不同簇問的客戶在這些方面應盡量相異,這些特點可以根據客戶 屬性的均值和方差來測度。另外,在建立客戶細分模型后,還要對模型的運行效 率、可理解性、與客戶細分目標的關聯(lián)程度、以及是否便于在實際業(yè)務系統(tǒng)中的 實施等方面進行評估。 在進行客戶細分是還應注意以下幾點:第一,客戶細分過程中,最關鍵的是 擬定進行客戶細分的特征要素,特征要素的選擇直接影響著客戶細分的結果和對 不同客戶的價值評定,從而也影響后續(xù)的營銷戰(zhàn)略、戰(zhàn)術??蛻艏毞值奶卣饕?和價值定位,必須建立在理解業(yè)務要求的基礎上,其細分結果一定要能夠準確地 應用到業(yè)務流程中,必須能夠確保產品或服務能夠獲得高命中率和高滿意度。 第二,客戶細分的特征要素不是靜態(tài)的,而且還是多層次、多視角的,因而客戶 細分不是一成不變的,企業(yè)應該根據市場環(huán)境和客戶響應等情況進行動態(tài)調整和 優(yōu)化??蛻艏毞植皇俏鍌€階段的簡單搭接,而是五個階段環(huán)環(huán)相扣、互相影響互 相促進的過程。第三,要確保細分的客戶市場足夠大,有可識別性、可接觸性并 且有利可圖。還要避免細分后的客戶市場面太狹小,使目標客戶群不足以支撐企 業(yè)發(fā)展所必須的利潤。 1 2 3 聚類分析和c r m 數據挖掘的根本在于統(tǒng)計學,而聚類分析被稱為統(tǒng)計方法中多元數據分析的幾 個主要方法之一,是數據挖掘采用的核心技術,并成為該研究領域中一個非?;?躍的研究課題。聚類的任務是將相似的事物分為一類,差異較大的事物分在不同 的類中。聚類通常作為其他數據挖掘或建模過程的基礎工作。 聚類技術試圖找出數據集中的共性和差異,將具有共性的元組聚合在相應的類 或域中,并由程序或利用可視化技術自動分析,根據某些屬性將數據庫分割為一 些子集和簇。例如,零售商想知道在他們的客戶群中是否存在著某種相似性,希 望以此為據劃分消費群體,了解各自特點,從而更好的銷售商品和拓展市場。在 第8 頁河南大學研究生碩士學位論文 此過程中,需要從客戶信息數據庫利用聚類方法分析相關屬性以分割消費者并發(fā) 現潛在客戶的簇。 客戶關系管理是指對企業(yè)和客戶之間的交互活動進行管理的過程,它體現了一 對一市場營銷的含義,同時也包含了銷售自動化和規(guī)范化的思想【1 1 1 。在客戶關系 管理中,數據挖掘正在起著導向的作用,只有應用該方法( 主要包括客戶保持、 銷售和客戶服務、市場推銷、風險評估和欺詐檢測等) ,大企業(yè)才能將客戶數據庫 的大量數據轉變成描述客戶特征的信息??蛻絷P系管理對企業(yè)而言乃是將客戶關 系放在企業(yè)經營的核心,規(guī)劃以滿足客戶需求的營銷理念;而利用數據挖掘分析 客戶數據,有效掌握客戶特性、發(fā)掘客戶價值,并配合企業(yè)的實際營銷策略,才 能有效的給企業(yè)帶來顯著的利潤【l2 1 。在客戶關系管理中,一個至關重要的問題是 如何定量預測顧客剩余生命周期的利潤潛力,即顧客終身價值i l 引。這一問題的研 究有利于企業(yè)根據顧客的長期價值潛力合理分配資源投入,提高企業(yè)運營績效。 客戶價值管理是電子商務活動的核心與基礎。利用數據挖掘技術可以構建關鍵 性指標測量和評價模型,選擇運用相關模型來對客戶價值進行分析,如客戶的獲 取、保持、細分、交叉營銷、盈利分析。對金融事務數據特征分析,還可能發(fā)現 某些客戶群體或組織的商業(yè)興趣,預測金融市場的變化趨勢。 數據挖掘應用于客戶細分可以采用多種方式,聚類是最常用的方法。聚類就是 根據某種相似性準則將樣本空間分成多個子空間,使每個子空間內部樣本點盡可 能相似,而不同子空間內樣本點之間差異盡可能大,其實質是尋找隱藏在數據中 不同的數據模型,是一個無監(jiān)督學習過程,能夠實現樣本空間的盲分類。 數據挖掘技術引入中國最早是在2 0 世紀末。從研究的內容和方法,以及從對 于技術本身的把握以及應用的理解方面來看,與西方還存在著很大的差距;有關 文獻和專題報告的內容,大都停留在從基礎算法提出改進引申整理的階段,對客 戶的挖掘還處于起步期,難以應用于金融領域實證分析。相對于業(yè)務處理系統(tǒng)的 現代化,國內的金融行業(yè)真正從事數據挖掘項目的比較少,缺乏成功的實施案例。 河南大學研究生碩士學位論文第9 頁 1 3 本課題的主要研究內容 1 ) 對數據挖掘中聚類模式的k m e a n s 、d b s c a n 、b i r c h 等幾種典型聚類算 法的概念和適用范圍等多個方面進行了分析總結:總結了當前聚類融合方法的新 進展,包括融合函數設計、聚類成員的選擇及其差異性的度量方法;設計了一種 基于投票機制的兩層聚類融合新方法。 2 ) 探討了客戶細分的一般性方法;運用軟件工程方法對數據挖掘的流程進行 實施和控制;強調數據挖掘中的數據準備及預處理過程,通過選擇恰當的聚類算 法,綜合分析客戶屬性,用s a s 等挖掘工具自動判別關鍵指標和變量權重,建立 了金融行業(yè)客戶細分的框架原型。嘗試聚類算法的應用整合,從交易數據和客戶 基本信息等主要影響因素出發(fā),設計了時間序列形式的統(tǒng)計指標來描述客戶的行 為特征,從中發(fā)現客戶的交易趨勢和投資理財傾向,并指出相關的主要影響要素。 3 ) 本文采用實證分析方法,利用某銀行的客戶基本資料和各類交易原始數據 進行數據挖掘,建立了客戶流失模型和客戶投資理財評價模型,并驗證了本文提 出方法的效果和適用性;本課題對銀行業(yè)增加客戶忠誠度、提高客戶關系管理的 科學性有一定借鑒意義。 第1 0 頁河南大學研究生碩士學位論文 第2 章聚類分析及算法比較 聚類就是按照事物的各種特征,把事物聚集成不同的簇,使簇內的對象之間具 有較高的相似性,而不同簇的對象之間表現出較高的相異度。在進行聚類時通常 不能獲得相應的先驗知識,因此聚類是一個無監(jiān)督學習的過程。聚類同分類的根 本區(qū)別在于:分類依賴于預先定義的類和帶類標號的訓練實例,是一種觀察式的 學習;而聚類是找到這個簇的特征或者標號的過程。因此,在實際應用中,聚類 分析通常作為一種數據預處理過程,是進一步分析和處理數據的基礎。聚類分析 也可以作為一個獲得數據分布情況、觀察每個類的特征和對特定類進一步分析的 獨立工具。通過聚類,能夠識別密集和稀疏的區(qū)域,發(fā)現全局的數據分布模式, 以及數據屬性之間的相互關系等。 一個有效的聚類算法必須滿足下面兩個條件:類內數據對象的強相似性,通常 用緊致度描述;類間數據對象的弱相似性,常采用分離度描述。聚類質量的高低 通常取決于聚類算法所使用的相似性測量方法和實現方式,同時也取決于該算法 是否能發(fā)現潛在的有趣模式。 2 1 聚類分析中的數據類型和數據結構 2 1 1 聚類分析中的數據類型 傳統(tǒng)的分析方法大多是在數值型數據的基礎上進行研究的,然而數據挖掘研究 的對象復雜多樣,聚類過程中所處理的對象不僅有數值型數據,還有非數值類型 和混合類型數據。通常來說,在數據挖掘中對象的屬性值有以下幾種類型:區(qū)間 標度變量,二元變量,標稱型、序數型、比例標度型變量和混合類型的變量。 1 ) 區(qū)間標度變量 間標度變量是一個粗略標度的連續(xù)度量。例如身高和體重,經度和緯度坐標, 以及洋流溫度等。為了將數據樣本劃分成不同類別,必須定義差異度函數。差異 度函數或相似性函數用來度量同一類數據樣本之間相似性和不同類數據樣本間的 差異性。由于對樣本點的描述可能有多個屬性,而不同的屬性又使用不同的度量 單位,所以在計算數據的相似度之前要先進行數據的標準化。對于一個給定的有n 河南大學研究生碩士學位論文第1 1 頁 個對象的p 維數據集,主要有兩種標準化方法: 平均絕對誤差s 。: = 去孫1 l 旺, 這里表示的是第i 個數據對象在屬性p 上的取值,m p 是屬性p 上的平均值, 即 = 丟喜 ( 2 2 ) 標準化度量值z 一: z p = _ x l p - - - m p ( 2 3 ) 在有孤立點存在的情況下,平均絕對誤差比標準差具有更好的魯棒性。 在計算平均絕對偏差時,屬性值與平均值的偏差1 一l 沒有平方,因此孤立點的 影響在一定程度上被弱化了。 數據標準化處理后就可以進行屬性值問的相似性測量,通常的方法是計算樣本 點間的距離。對于p 維向量薯和x ,有以下幾種距離函數: 歐式距離:d ( 薯,哆) = l l x , 一x , l l = 藝( 稚一靠) 2 ( 2 4 ) y 七= l 曼哈頓距離:d ( 毛,- ) = 窆1 一顫l ( 2 5 ) 一般化的明氏( m i n k o w a k i ) 距離: 鞏c ,一,= 喜kc 一,” i ( 2 6 ,。 鞏( ,一) = l ( 一) ”r ( 2 6 ) 。 i = l i 當m = 2 時,明氏距離即為歐式距離;當m - - 1 時,明氏距離即為曼哈頓距離。 歐式距離和曼哈頓距離滿足如下條件:任意兩元素間距離為非負數值;任一對象 與自身的距離是零:任意兩元素陽l 的距離具有對稱性:元素陽l 的距離滿足三角不 第12 頁河南大學研究生碩士學位論文 等式,即元素i 到j 的距離不會大于元素i 到k 和k 到j 的距離之和。 2 ) 二元變量 二元變量只有兩個狀態(tài):0 和1 。二元變量又可進一步分為對稱的二元變量和 不對稱的二元變量。對稱的二元變量是指變量的兩個狀態(tài)不具有優(yōu)先權;不對稱 的二元變量對于不同的狀態(tài)其重要性是不同的。 對于非對稱情況,度量兩個二元變量的差異度由簡單匹配系數和j a c c a r d 系數 決定。設兩個對象i 和j ,q 是屬性值在兩個對象中都為1 的屬性個數;f 是屬性值 在i 中為l 而在j 中為0 的屬性個數;s 是屬性值在i 中為0 而在j 中為1 的屬性個 數:t 是屬性值在兩個對象中都為0 的屬性個數。則: 簡單匹配系數:d ( i ,j f ) :竺- ( 2 7 ) q + r + s + l j a c c a r d 系數:d g - ,) :l ( 2 8 ) q + r + s 3 ) 標稱型和序數型變量 標稱變量是二元變量的推廣,它可以有多個狀態(tài)值,狀態(tài)之間是無序的,且不 可比較大小。具有這種數據類型的屬性也稱分類( c a t e g o r i c a l ) 屬性。 它的差異度可用簡單匹配法來計算: d ( f ,歹) ;p - m ( 2 9 ) p 其中m 是對象i 和j 中匹配的屬性個數,而p 是全部屬性個數。 序數型變量類似于標稱型變量,但它的各個狀態(tài)是有意義的序列。如: 助教、 講師、副教授、教授 。 4 ) 混合型變量 在實際數據庫中,數據樣本點通常不是由單一的區(qū)間標度變量或二元變量而描 述的,而是由混合類型的變量描述的,這就需要將不同的類型屬性組合在同一個 差異度矩陣中進行計算。設數據集包含m 個不同類型的屬性,對象i 和i 之間的差 異度定義為: 河南大學研究生碩士學位論文第1 3 頁 印穢厶?!癲 d ( i ,) = 型丁一 歸 臚l ( 2 1 0 ) 其中如果或者缺失,或2 = o ,且變量是不對稱二元變量,則指示項 q ,戶:o ;否則吒p - l 。 如果屬性p 是二元變量或者標稱變量:如果2 ,西p :0 ;否則,西= l 。 lt 如果屬性p 是區(qū)間標度變量:群:上蔓二牡,這里的h 取遍具有非 m a x hx 呻- - f i l l hx l i p 空屬性p 的所有數據對象。 如果屬性p 是序數型或者比例標度型變量:將其轉化為區(qū)問標度變量值對待。 2 1 2 聚類分析中的數據結構 聚類算法常用的數據結構有以下兩種: 1 ) 數據矩陣,這種數據結構也被稱為對象與變量結構:它用p 個變量來表現 n 個對象,例如年齡、身高、體重、性別、種族等屬性來表現一個人的信息。這種 數據結構是關系表的形式,也可以看作一個n * p 的矩陣。它是一種二模矩陣,其 行和列代表不同的實體,在應用聚類算法之前通常將之轉換為差異度矩陣。 2 ) 差異度矩陣,或者距離矩陣:它以一個n * n 存儲n 個對象兩兩間的差異性, 其中每個元素4 ,表示對象i 和j 之間的相異性的量化表示,通常它是一個非負的實 數值。對象i 和j 的越相似,屯越??;對象i 和j 越不同,吃越大;且滿足4 ,- o 。 差異度矩陣中的行和列代表相同的實體,且其中元素具有相同的量綱,因此許多 聚類算法是以它為基礎進行的。 2 2 聚類準則的確定 有了相似性測量函數,下一步要確定的是采用的聚類準則。聚類準則是聚類分 析算法的關鍵,通常有兩種確定方式: 1 ) 試探方式:憑主觀和經驗,針對實際問題定義一種相似性測度的閾值,然后按 第14 頁河南大學研究生碩士學位論文 最近鄰規(guī)則指定某些對象屬于某一聚類。例如使用歐式距離,它反映的是對象之 間的近鄰性,在將一個對象分到兩個類別中的一個時,必須規(guī)定一個距離測度的 閾值作為聚類的判別準則。 2 ) 聚類目標函數法:由于聚類是將對象進行組合分類以使類別可分離性最大,因 此聚類準則應是反映類別問相似性和相異性的函數。但每個類是由一個個對象所 組成,所以一般說來,類別的可分離性與對象的相異性直接有關。這樣,定義一 聚類目標j ,應是對象集合 x 聚類類別 s ,j = l ,2 c ) 的函數。該過程使聚類分 析轉化為尋找準則函數極值的最優(yōu)化問題。一種常用的指標函數是誤差的平方和, 即: - ,= 妻b 一0 2 ( 2 1 1 ) j = l 其中,m ,為聚類中心,s ,是中心為m ,的聚類域,c 為聚類數目, m 。:土y 工 ( 2 1 2 ) nj 氣 ,為s j 中的對象個數,這里以均值向量m j 代表s ,聚類域。 上式表明,j 代表了分別屬于c 個類別的全部對象與其相應類中心之間的誤差 平方和。得到使j 值極小的聚類結果就是我們的目的。這種類型的聚類通常稱為最 小方差劃分,它適用于各類對象密集且數目相差不多,而不同
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 求職人員面試題及答案
- 航空航天復合材料 課件 知識點2 納米復合材料
- 新疆村干部考試試題及答案
- 社會幼兒面試題及答案
- 中國煙草培訓
- 2025年中國拋光塊行業(yè)市場全景分析及前景機遇研判報告
- 醉酒窒息死亡病例分析
- 中班健康領域:會變暖的衣服
- 綜合格斗培訓
- 腫瘤登記質量控制
- 2024年南通市如東縣事業(yè)單位招聘筆試真題
- 2025年江西省三支一扶考試真題
- 北京市通州區(qū)2023-2024學年八年級下學期期末考試物理試題【含答案、解析】
- 2025年四川省安全員《A證》考試題庫
- 2024年山東省夏季普通高中學業(yè)水平合格考試歷史試卷
- 園藝論文開題報告范文
- 數據質量管理實施手冊
- 林業(yè)工程開工申請
- 清華大學《大學物理》各章節(jié)習題庫及答案合集
- 2024年度小紅書商業(yè)MCN機構經營洞察報告
- 寵物醫(yī)院服務行業(yè)可行性分析報告
評論
0/150
提交評論