CPDA考試 移動客戶細(xì)分聚類.doc_第1頁
CPDA考試 移動客戶細(xì)分聚類.doc_第2頁
CPDA考試 移動客戶細(xì)分聚類.doc_第3頁
CPDA考試 移動客戶細(xì)分聚類.doc_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

一、 假如你是某移動運(yùn)營商的數(shù)據(jù)分析師,結(jié)合用戶通話行為數(shù)據(jù),通過數(shù)據(jù)分析為用戶推薦相應(yīng)套餐或者結(jié)合用戶現(xiàn)有套餐優(yōu)化套餐,提供個(gè)性化套餐,從而對客戶進(jìn)行精準(zhǔn)營銷,增加客戶粘性。運(yùn)營商收集到的數(shù)據(jù)包含下列字段;變量名稱變量標(biāo)簽Customer_ID用戶編號Peak_mins工作日上班時(shí)間電話時(shí)長OffPeak_mins工作日下班時(shí)間電話時(shí)長Weekend_mins周末電話時(shí)長International_mins國際電話時(shí)長Total_mins總通話時(shí)長average_mins平均每次通話時(shí)長根據(jù)客戶行為數(shù)據(jù),進(jìn)行數(shù)據(jù)的預(yù)處理(可以自行根據(jù)現(xiàn)有變量構(gòu)造新變量進(jìn)行分析),預(yù)處理之后選擇適合變量進(jìn)行分析,分析算法自行選擇,寫出分析思路和過程,通過數(shù)據(jù)分析對客戶進(jìn)行細(xì)分,并為運(yùn)營商提供客戶精準(zhǔn)營銷的相關(guān)建議。(請寫出分析的流程并刻畫最后細(xì)分之后的客戶的特點(diǎn)和相應(yīng)的營銷建議)。K-Means據(jù)類的步驟:1. 確定所有聚類變量(聚類因子);2. 數(shù)據(jù)預(yù)處理(分類變量數(shù)值化、處理缺失值、分析是否存在共線性等,若只有兩個(gè)變量共線則用比值法,較多變量共線用主成分分析進(jìn)行降維);3. 確定聚類個(gè)數(shù)并用處理后的聚類因子進(jìn)行聚類分析(若未說明則需要嘗試不同的聚類個(gè)數(shù)3,4,5,6,7,從中選擇平均輪廓系數(shù)較大且結(jié)果易于分析解釋的模型);4. 分析聚類效果和聚類結(jié)果(類中心點(diǎn)和每個(gè)類等);5. 結(jié)合實(shí)際情況分析每類的意義等 。(聚類分析處理共線性時(shí)不能直接刪除,可用比值替代或主成分分析等來消除共線性)案例分析:觀察數(shù)據(jù)類型,檢查數(shù)據(jù)是否具有缺失值。數(shù)據(jù)類型為數(shù)值型,原始數(shù)據(jù)沒有缺失值。我們把數(shù)據(jù)導(dǎo)入DATAHOOP平臺,在展示分析中進(jìn)行異常值分析。分析結(jié)果如下表:Peak_minsOffPeak_minsWeekend_mins上四分位1382.1426.82574.875中間值1030.2274.0544.4下四分位700.2154.42525.05異常值個(gè)數(shù)655International_minsTotal_minsaverage_mins上四分位389.031781.34.2075中間值294.0751370.852.73下四分位221.22751094.9252.1異常值個(gè)數(shù)131136由上面可以得到異常值的個(gè)最多的具有36個(gè),在數(shù)據(jù)總體樣本中占比比較大。所以不處理異常值,這些異常值有可能是數(shù)據(jù)中一些特殊的類。進(jìn)行相關(guān)系數(shù)矩陣分析,分析得到的相關(guān)系數(shù)矩陣如下:Peak_minsOffPeak_minsWeekend_minsInternational_minsTotal_minsaverage_minsPeak_mins10.1210.14480.69150.9415-0.0367OffPeak_mins0.12110.02470.2620.44250.0094Weekend_mins0.14480.024710.12820.2006-0.1066International_mins0.69150.2620.128210.7123-0.034Total_mins0.94150.44250.20060.71231-0.0364average_mins-0.03670.0094-0.1066-0.034-0.03641觀察相關(guān)系數(shù)矩陣中有一個(gè)相關(guān)系數(shù)為0.9415,該系數(shù)比較大。所以我們要處理,我們用比值替換法(把兩個(gè)變量做比,得到的比值替換其中的一個(gè)變量)。我們在數(shù)據(jù)中重新插入一列為Peak_minsTotal_mins得到他們的變量比值,替換Peak_mins變量。得到新的變量,我們把新的數(shù)據(jù)導(dǎo)入DATAHOOP中求出相關(guān)系數(shù)矩陣:OffPeak_minsWeekend_minsInternational_minsTotal_minsaverage_minsPeak_mins/Total_minsOffPeak_mins10.02470.2620.44250.0094-0.4771Weekend_mins0.024710.12820.2006-0.10660.0079International_mins0.2620.128210.7123-0.0340.3939Total_mins0.44250.20060.71231-0.03640.4492average_mins0.0094-0.1066-0.034-0.036410.0116Peak_mins/Total_mins-0.47710.00790.39390.44920.01161得到的相關(guān)系數(shù)矩陣中的相關(guān)系數(shù)沒有大于0.85,所以解決了共線性。我們可以直接進(jìn)行K-Means聚類。聚類的參數(shù)在有聚類的個(gè)數(shù)為5,進(jìn)行標(biāo)準(zhǔn)化,初始中心點(diǎn)選擇的次數(shù)要大,最大迭代次數(shù)也要大。然后進(jìn)行K-Means聚類,運(yùn)行結(jié)果如下:平均輪廓系數(shù): 0.2467該平均輪廓系數(shù)是比較小,平均輪廓系數(shù)越接近于1越好。實(shí)際案例里面我們有可能我們得不到太大的輪廓系數(shù),聚類效果是不明顯。聚類不是太明顯,但聚類是有區(qū)別的。我們研究該聚類的區(qū)別。類別類中心點(diǎn)坐標(biāo)樣本個(gè)數(shù)0-0.6972-0.00146-0.10973-0.08154-0.159090.78666919110.469649-0.071891.43651.293804-0.043520.473255892-0.03111-0.5675-0.53938-0.487123.645248-0.107161830.7210840.237837-0.25106-0.18959-0.11827-0.830471754-1.37056-0.98922-2.12987-2.30509-0.4263-1.8045225我們得到上面表格的類中心點(diǎn)坐標(biāo)是經(jīng)過我們標(biāo)準(zhǔn)化的,我們還原成原來的數(shù)據(jù)。得到原始的分類,然后求每一類的平均值,總結(jié)如下表:Peak_minsOffPeak_minsWeekend_minsInternational_minsTotal_minsaverage_mins01068.376300.131753.96551315.54131422.4733.59957911305.872349.061157.77315366.63261712.7063.59243721078.467300.940452.69453314.9941432.1024.00812231068.291300.633953.96841315.95931422.8933.602067452.695239.3786118.2343215.56027110.30812.785264對類進(jìn)行特征分析:0類:總通話(Total mins)較長,下班通話時(shí)間(Offpeak mins)最長,上班通話時(shí)間(Peak mins)比較長,命名為中端客戶;1 類:總通話(Total mins)長,上班通話時(shí)間(Peak mins)長,周末通話時(shí)間(Weekend mins)較長,國際通話時(shí)間(International mins)長,命名為高端用戶;2類:總通話(Total mins)較長,上班通話時(shí)間(Peak mins)僅次于第一類,周末通話時(shí)間(Weekend mins)居中,國際通話時(shí)間(International mins)居中,命名為中端用戶;3類:在各項(xiàng)中均較低,命名為不常使用用戶;4類:平均每次通話時(shí)間(averag

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論