版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
客戶流失分析
(數(shù)據(jù)挖掘-案例分析1)上海****通信技術(shù)有限公司
MrJim(seniordba@)2014-02培訓(xùn)大綱一、統(tǒng)計(jì)知識(shí)二、案例背景三、商業(yè)理解四、數(shù)據(jù)理解與數(shù)據(jù)準(zhǔn)備五、建立模型與模型評(píng)估六、模型應(yīng)用七、總結(jié)CRISP-DMCRISP-DM(即跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程”的縮寫(xiě)),是一種業(yè)界認(rèn)可的用于指導(dǎo)數(shù)據(jù)挖掘工作的方法。指標(biāo)變量獲取
從業(yè)務(wù)系統(tǒng)中取出的數(shù)據(jù)都是根據(jù)業(yè)務(wù)的需要考慮設(shè)計(jì)的,但往往不能達(dá)到取得良好數(shù)據(jù)挖掘結(jié)果的目的.這時(shí)需要對(duì)數(shù)據(jù)進(jìn)行各種變換或者生成相關(guān)的衍生變量。下面介紹一些數(shù)據(jù)的常用變換形式和衍生變量生成的常用方法。
1、單變量的變換為了建立模型的便利,經(jīng)常要對(duì)現(xiàn)有的變量進(jìn)行某種形式的變化。這里總結(jié)出以下幾個(gè)類(lèi)型的單變量變換方法。指標(biāo)變量獲取連續(xù)變量向連續(xù)變量的轉(zhuǎn)化。連續(xù)變量的變換通常有這樣幾種情況:①使數(shù)據(jù)便于計(jì)算和比較進(jìn)行的變化,例如由單位是分變?yōu)閱挝皇窃?、入網(wǎng)時(shí)間(時(shí)間型號(hào)變量)向在網(wǎng)時(shí)長(zhǎng)的轉(zhuǎn)化②為了修正數(shù)據(jù)的分布對(duì)數(shù)據(jù)進(jìn)行適當(dāng)?shù)淖兓?例如對(duì)數(shù)變換、倒數(shù)變換等③使不同量綱和數(shù)量級(jí)的數(shù)據(jù)具有可比性的變化,即標(biāo)準(zhǔn)化變化。標(biāo)準(zhǔn)化變換通常有兩種形式:一種是(原值-平均值)/標(biāo)準(zhǔn)差,另一種是(原值-最小值)/(最大值-最小值),這種變換后取值范圍在0~1之間。指標(biāo)變量獲取連續(xù)變量向離散變量的轉(zhuǎn)化。一個(gè)變量取值是大是小,往往只是相對(duì)而言,分析中經(jīng)常需要把一個(gè)連續(xù)取值變換為離散的分級(jí)變量以使業(yè)務(wù)上更好理解。連續(xù)變量向離散變量的轉(zhuǎn)化可以完全基于業(yè)務(wù)來(lái)考慮,比如對(duì)客戶的年齡分群,有些企業(yè)就是把18~40歲算作他們的青年客戶。如果從統(tǒng)計(jì)學(xué)角度考慮,連續(xù)型變量向離散型變量轉(zhuǎn)換主要是進(jìn)行分箱變換,可以分為三種:①、按照等距離進(jìn)行分箱②、按照等數(shù)量進(jìn)行分箱③、按照分布進(jìn)行分箱。例如把數(shù)據(jù)分為3段,小于平均數(shù)-3個(gè)標(biāo)準(zhǔn)差為第一段;大于平均數(shù)-3個(gè)標(biāo)準(zhǔn)差且小于平均數(shù)+3個(gè)標(biāo)準(zhǔn)差為第二段;大于平均數(shù)+3個(gè)標(biāo)準(zhǔn)差為第三段。指標(biāo)變量獲取離散變量向連續(xù)變量的轉(zhuǎn)化。對(duì)于有些分級(jí)類(lèi)型的離散變量,可以將它理解為對(duì)連續(xù)變量做處理和建立模型。例如:對(duì)于二分的標(biāo)志變量,也可以將它們轉(zhuǎn)化為連續(xù)變量,即將標(biāo)量的一個(gè)取值記為1,另一個(gè)取值記為0。這樣,如果將1理解為1.0,將0理解為0.0。則這個(gè)標(biāo)志變量可以理解為是分布在0.0~1.0之間的一個(gè)連續(xù)變量,只不過(guò)這個(gè)連續(xù)變量比較特殊,在觀察到數(shù)據(jù)中只有0.0和1.0兩個(gè)取值。離散變量向離散變量的轉(zhuǎn)化。當(dāng)離散變量的類(lèi)別數(shù)特別多時(shí),可以對(duì)它們適當(dāng)?shù)臍w并,例如將個(gè)數(shù)特別少的類(lèi)別統(tǒng)一歸為其它就是典型的一種。另外,一個(gè)多分的離散變量也可以變?yōu)槎鄠€(gè)二分的標(biāo)志變量,比如有一個(gè)離散變量是X,它有a,b,c三個(gè)取值,那么完全可以把它變?yōu)閄a,Xb,Xc三個(gè)變量,每個(gè)變量有1和0兩個(gè)取值,而當(dāng)X取值為a時(shí),對(duì)應(yīng)的情況是Xa取值為1,而Xb,Xc的取值都為0。指標(biāo)變量獲取2、衍生變量為了更清晰的說(shuō)明衍生變量的生成,我們把數(shù)據(jù)分為兩類(lèi):一類(lèi)是橫截面數(shù)據(jù)(指某一時(shí)點(diǎn)上收集到的數(shù)據(jù)),另一類(lèi)是時(shí)間序列數(shù)據(jù),一條記錄代表一個(gè)時(shí)間點(diǎn)或者時(shí)間段上的取值,通常會(huì)有一個(gè)表示時(shí)間的變量。
對(duì)橫截面數(shù)據(jù)的衍生變量來(lái)說(shuō)有以下一些常用的生成衍生變量的方法:①、強(qiáng)度相對(duì)指標(biāo):有一個(gè)聯(lián)系的兩個(gè)指標(biāo)之間相比的結(jié)果得到的指標(biāo)。例如平均通話時(shí)長(zhǎng)=總通話時(shí)長(zhǎng)/總通話次數(shù)②、比例相對(duì)指標(biāo):用來(lái)反映總體中各組成部分所占比例的一個(gè)指標(biāo)。指標(biāo)變量獲取2、衍生變量
對(duì)時(shí)間序列數(shù)據(jù)有以下一些常用的生成衍生變量的方法:①、滯后類(lèi)指標(biāo):對(duì)于時(shí)間序列數(shù)據(jù),各條記錄之間聯(lián)系更加緊密,我們通常會(huì)取上一條記錄(例如代表上月取值)及上年同期(例如去年同月),與當(dāng)前記錄相比得到環(huán)比增長(zhǎng)率(例如本月值/上月值)和同比增長(zhǎng)率(例如本月值/上年同期值);為了消除波動(dòng),有時(shí)我們還對(duì)多個(gè)時(shí)間段數(shù)值進(jìn)行求和、平均等操作。例如股市中常用的股價(jià)5日平均值,這類(lèi)指標(biāo)可以被歸結(jié)為滯后類(lèi)指標(biāo)。②、匯總類(lèi)指標(biāo):匯總類(lèi)指標(biāo):求和,平均值,最小值,最大值,標(biāo)準(zhǔn)差,記錄數(shù)等。指標(biāo)變量獲取3、趨勢(shì)類(lèi)指標(biāo)對(duì)時(shí)間序列變量來(lái)說(shuō),一個(gè)重要的方面是看趨勢(shì)。例如在這個(gè)案例中,我們特別關(guān)注每個(gè)客戶的通話時(shí)長(zhǎng)等指標(biāo)的趨勢(shì),是變多,變少,還是隨機(jī)性的波動(dòng)?我們有理由猜測(cè),如果一個(gè)客戶的通話時(shí)長(zhǎng)趨勢(shì)是變少,那么這個(gè)客戶流失的可能性會(huì)更大。但是如何衡量趨勢(shì)呢?最樸素的想法是用最后一個(gè)月的取值除以第一個(gè)月的取值看增長(zhǎng)率,但是這樣會(huì)丟失很多中間月份的數(shù)據(jù)信息。我們還可以使用下面的方法來(lái)查看趨勢(shì)。即建立變量與時(shí)間的回歸模型(例如在這個(gè)案例中,自變量為月份,因變量為通話時(shí)長(zhǎng)),將自變量的回歸系數(shù)作為趨勢(shì)(也可以使用標(biāo)化回歸系數(shù)作為趨勢(shì)),這個(gè)值大于0,則趨勢(shì)是變多;這個(gè)值小于0,則趨勢(shì)是變少。趨勢(shì)的計(jì)算公式如下(以x作為月份,y代表通話時(shí)長(zhǎng),n代表月份數(shù)量),則:指標(biāo)變量獲取4、波動(dòng)類(lèi)指標(biāo)對(duì)時(shí)間序列變量來(lái)說(shuō),趨勢(shì)只反映了大致方向,但是這個(gè)方向的過(guò)程是一帆風(fēng)順,還是驚淘駭浪呢?可以使用波動(dòng)指標(biāo)來(lái)進(jìn)行度量。簡(jiǎn)單地,可以使用標(biāo)準(zhǔn)差或變異系數(shù)來(lái)衡量波動(dòng),也可以使用如下公式計(jì)算波動(dòng):培訓(xùn)大綱一、指標(biāo)變量獲取二、案例背景三、商業(yè)理解四、數(shù)據(jù)理解與數(shù)據(jù)準(zhǔn)備五、建立模型與模型評(píng)估六、模型應(yīng)用七、總結(jié)案例背景
現(xiàn)在假設(shè)你是電信企業(yè)的一個(gè)數(shù)據(jù)分析經(jīng)理,發(fā)現(xiàn)最近電信市場(chǎng)又在血拼,競(jìng)爭(zhēng)對(duì)手不斷挖公司的墻角,公司的高端客戶這個(gè)月又流失了不少。公司打算組織一個(gè)市場(chǎng)營(yíng)銷(xiāo)活動(dòng)來(lái)遏止這種趨勢(shì),可是這個(gè)客戶挽留活動(dòng)畢竟只是公司眾多市場(chǎng)活動(dòng)中的一個(gè),預(yù)算也有限??纯磾?shù)據(jù)倉(cāng)庫(kù)里積累了那么多數(shù)據(jù),能不能挖挖這些數(shù)據(jù),
①、看看哪些客戶可能會(huì)流失?
②、這些客戶都有些啥特征?
③、做這樣的市場(chǎng)活動(dòng)大概會(huì)有啥投資匯報(bào)?培訓(xùn)大綱一、指標(biāo)變量獲取二、案例背景三、商業(yè)理解四、數(shù)據(jù)理解與數(shù)據(jù)準(zhǔn)備五、建立模型與模型評(píng)估六、模型應(yīng)用七、總結(jié)通信業(yè)是一個(gè)競(jìng)爭(zhēng)異常激烈的行業(yè),如何對(duì)客戶進(jìn)行有效的管理,盡可能的減少客戶的流失和跳網(wǎng)是一個(gè)緊迫的問(wèn)題。這里將介紹數(shù)據(jù)挖掘在移動(dòng)通信業(yè)關(guān)于客戶流失研究中的應(yīng)用。數(shù)據(jù)挖掘技術(shù)將提供功能強(qiáng)大的模型,可以回答諸如“哪些客戶最可能流失?”和“為什么這些客戶會(huì)流失?”等問(wèn)題。商業(yè)理解流失與哪些因素相關(guān)
顧客年齡?性別?收入?行業(yè)?話費(fèi)水平?話務(wù)質(zhì)量?確定數(shù)據(jù)挖掘目標(biāo)對(duì)客戶進(jìn)行分群,尋找高流失的客戶群建立規(guī)則,描述那些可能流失的客戶特征建立打分模型,對(duì)客戶流失可能性進(jìn)行評(píng)價(jià)商業(yè)理解商業(yè)理解我們可以把流失問(wèn)題歸結(jié)為如下3個(gè)問(wèn)題:①、預(yù)測(cè)哪些客戶(尤其是哪些高價(jià)值的客戶)可能會(huì)流失②、可能流失客戶的特征是什么③、市場(chǎng)挽留活動(dòng)的預(yù)計(jì)收益是多少商業(yè)理解
如何定義流失經(jīng)過(guò)與業(yè)務(wù)人員的充分溝通,最終定義:①、銷(xiāo)號(hào)②、欠費(fèi)超過(guò)3個(gè)月(后付費(fèi)客戶)③、3個(gè)月無(wú)通話行為(預(yù)付費(fèi)客戶)變量值記為1,否則為不流失,變量記為0。商業(yè)理解哪些變量可用于預(yù)測(cè)流失①、客戶基本信息數(shù)據(jù):包括客戶的年齡,性別,入網(wǎng)時(shí)間等②、客戶行為數(shù)據(jù):主要是客戶使用電信產(chǎn)品和服務(wù)情況的數(shù)據(jù)。比如客戶的通話詳單記錄,客戶訂閱,使用,退訂增殖服務(wù)情況等,這部分?jǐn)?shù)據(jù)容易獲得,存放在業(yè)務(wù)系統(tǒng)中,一般數(shù)據(jù)質(zhì)量較好。③、客戶交互數(shù)據(jù):包括客戶投訴、業(yè)務(wù)咨詢以及客戶對(duì)電信的市場(chǎng)營(yíng)銷(xiāo)活動(dòng)等響應(yīng)情況等數(shù)據(jù),尤其是客戶撥打客服電話的的情況。④、客戶態(tài)度數(shù)據(jù):包括客戶對(duì)電信服務(wù)的滿意程度、意見(jiàn)和建議、客戶流失的真正原因(是被競(jìng)爭(zhēng)對(duì)手挖角,搬家,對(duì)產(chǎn)品或服務(wù)不滿意,還是特別喜歡特定手機(jī)終端)等。這部分?jǐn)?shù)據(jù)需要通過(guò)市場(chǎng)調(diào)查獲得,但獲得成本過(guò)高,往往不在我們考慮的范圍之內(nèi)。
希望全面使用以上4個(gè)類(lèi)別的客戶數(shù)據(jù),但實(shí)際項(xiàng)目中有些數(shù)據(jù)或者由于獲取成本太高,或者由于數(shù)據(jù)庫(kù)系統(tǒng)中沒(méi)有記錄,導(dǎo)致分析時(shí)無(wú)法使用。最終可能發(fā)現(xiàn),真正能用于作為數(shù)據(jù)挖掘的預(yù)測(cè)自變量只剩下客戶基本信息和客戶行為數(shù)據(jù)兩類(lèi),甚至這兩個(gè)類(lèi)別中包含的變量也只有在數(shù)據(jù)理解階段完成數(shù)據(jù)質(zhì)量審核后才能決定是否可用。商業(yè)理解
定義分析用數(shù)據(jù)的時(shí)間窗口如何定義預(yù)測(cè)的輸入變量(自變量)和預(yù)測(cè)變量(因變量)的時(shí)間窗口。對(duì)自變量窗口來(lái)說(shuō),進(jìn)行流失分析的目的顯然是希望在客戶流失之前發(fā)現(xiàn)他,而在業(yè)務(wù)系統(tǒng)中,客戶行為是連續(xù)發(fā)生的,那么在分析時(shí)應(yīng)該取多長(zhǎng)時(shí)間的數(shù)據(jù)呢?取的時(shí)間過(guò)短,可能客戶的行為受隨機(jī)因素影響太大,不具有代表性;取的時(shí)間過(guò)長(zhǎng),歷史太久遠(yuǎn)的數(shù)據(jù)不能反映客戶最新的趨勢(shì)。綜合考慮數(shù)據(jù)的可獲取性和有效性以后的結(jié)果,我們這里取6個(gè)月的歷史數(shù)據(jù)。對(duì)因變量(是否流失)的數(shù)據(jù)窗口來(lái)說(shuō),為了使得到的預(yù)測(cè)結(jié)果既具有前瞻性,又能給營(yíng)銷(xiāo)部門(mén)充分的營(yíng)銷(xiāo)時(shí)間,我們考慮流失定義的時(shí)間窗口與自變量的定義窗口間隔一個(gè)月(通常需要3~7天的數(shù)據(jù)處理時(shí)間),再考慮到如前述流失定義需要3個(gè)月的觀察期(欠費(fèi)與無(wú)通話行為情形),具體預(yù)測(cè)自變量和目標(biāo)變量(因變量)的時(shí)間窗口如下圖所示:第1月第2月第3月第4月第5月第6月第7月第8月第9月第10月預(yù)測(cè)自變量時(shí)間窗口預(yù)測(cè)目標(biāo)變量時(shí)間窗口間隔商業(yè)理解
如何從分析結(jié)果中獲取實(shí)際收益得到了流失預(yù)測(cè)結(jié)果,如何使用?如何事先預(yù)估市場(chǎng)挽留活動(dòng)的收益?通過(guò)數(shù)據(jù)挖掘得到流失分析的結(jié)果往往有兩類(lèi):一類(lèi)是流失客戶的特征描述另一類(lèi)是針對(duì)每一個(gè)客戶的流失評(píng)分。流失客戶的特征描述可用來(lái)幫助市場(chǎng)部業(yè)務(wù)人員在制訂挽留性營(yíng)銷(xiāo)策略時(shí)參考,從而制訂出有針對(duì)性的挽留策略;而流失評(píng)分結(jié)合其它變量(例如客戶價(jià)值)可以幫助業(yè)務(wù)人員決定應(yīng)該對(duì)哪些客戶進(jìn)行挽留。經(jīng)過(guò)與市場(chǎng)業(yè)務(wù)人員的討論,我們得知針對(duì)特定客戶的挽留措施往往是給他們一定折扣或者優(yōu)惠政策,這樣就大體上得到了預(yù)估市場(chǎng)挽留活動(dòng)預(yù)期收益的數(shù)據(jù)公式:預(yù)期收益=流失客戶預(yù)期收入-流失客戶挽留預(yù)期成本其中,流失客戶預(yù)期收入可以用流失客戶過(guò)去若干個(gè)月的總花費(fèi)或者平均花費(fèi)來(lái)表示,流失客戶挽留預(yù)期成本包括:電信公司進(jìn)行時(shí)常挽留活動(dòng)的總體策劃、宣傳成本;針對(duì)客戶的集體折扣或優(yōu)惠成本。培訓(xùn)大綱一、指標(biāo)變量獲取二、案例背景三、商業(yè)理解四、數(shù)據(jù)理解與數(shù)據(jù)準(zhǔn)備五、建立模型與模型評(píng)估六、模型應(yīng)用七、總結(jié)套餐數(shù)據(jù)字段名稱指標(biāo)解釋套餐類(lèi)型固定費(fèi)用每月需支付固定費(fèi)用免費(fèi)時(shí)長(zhǎng)每月提供免費(fèi)(國(guó)內(nèi))時(shí)長(zhǎng)高峰時(shí)費(fèi)率高峰時(shí)期每分鐘話費(fèi)(超過(guò)免費(fèi)時(shí)長(zhǎng)部分)低谷時(shí)費(fèi)率低谷時(shí)期每分鐘話費(fèi)(超過(guò)免費(fèi)時(shí)長(zhǎng)部分)周末時(shí)費(fèi)率周末時(shí)期每分鐘話費(fèi)(超過(guò)免費(fèi)時(shí)長(zhǎng)部分)國(guó)際費(fèi)率國(guó)際長(zhǎng)途電話每分鐘話費(fèi)語(yǔ)音信箱語(yǔ)信信箱收費(fèi)(未用)短信服務(wù)短信服務(wù)收費(fèi)(未用)數(shù)據(jù)理解數(shù)據(jù)理解與數(shù)據(jù)準(zhǔn)備
在數(shù)據(jù)理解與數(shù)據(jù)準(zhǔn)備階段,我們將對(duì)數(shù)據(jù)做初步探索性分析,了解數(shù)據(jù)質(zhì)量狀況,考察數(shù)據(jù)的大致分布情況,此外還要將各方面的數(shù)據(jù)進(jìn)行合并,整理成可以進(jìn)行數(shù)據(jù)挖掘的寬表形式(即行代表記錄,列代表變量的二維表),并進(jìn)一步根據(jù)業(yè)務(wù)上的考慮,生成一些有業(yè)務(wù)含義的衍生變量。在實(shí)際的數(shù)據(jù)挖掘項(xiàng)目中,我們會(huì)發(fā)現(xiàn),數(shù)據(jù)理解和數(shù)據(jù)準(zhǔn)備的時(shí)間經(jīng)常會(huì)占到整個(gè)項(xiàng)目周期的60%~70%,甚至更多。數(shù)據(jù)理解:接口1客戶基本信息表(custinfo.csv)變量名稱變量標(biāo)簽變量類(lèi)型變量取值(范圍)Customer_ID客戶編號(hào)離散
Gender性別離散男,女Age年齡連續(xù)12~82L_O_S在網(wǎng)時(shí)長(zhǎng)連續(xù)9.53~58.2Tariff話費(fèi)方案離散CAT50,CAT100,CAT200,Play100,Play300Handset手機(jī)品牌離散ASAD170,ASAD90,BS110,BS210,CAS30,CAS60,S50,S80,SOP10,SOP20,WC95數(shù)據(jù)理解:接口2客戶通話情況表(custcall.csv)變量名稱變量標(biāo)簽變量類(lèi)型變量取值(范圍)Customer_ID客戶編號(hào)離散
Peak_calls高峰時(shí)期電話數(shù)連續(xù)0~486Peak_mins高峰時(shí)期電話時(shí)長(zhǎng)連續(xù)0.0~2527.8OffPeak_calls低谷時(shí)間電話數(shù)連續(xù)0~154OffPeak_mins低谷時(shí)期電話時(shí)長(zhǎng)連續(xù)0.0`745.5Weekend_cals周末時(shí)期電話數(shù)連續(xù)0~33Weekend_mins周末時(shí)期電話時(shí)長(zhǎng)連續(xù)0.0~162.6International_mins國(guó)際電話時(shí)長(zhǎng)連續(xù)0.0~255.506Nat_call_cost國(guó)內(nèi)電話話費(fèi)連續(xù)0~47Month月份連續(xù)1~6數(shù)據(jù)理解:接口3話費(fèi)方案表(tariff.csv)變量名稱變量標(biāo)簽變量類(lèi)型變量取值(范圍)Tariff話費(fèi)類(lèi)型離散CAT50,CAT100,CAT200,Play100,Play300Fixed_cost固定費(fèi)用連續(xù)9.99~25.0Free_mins免費(fèi)時(shí)長(zhǎng)連續(xù)50~300Peak_rate高峰時(shí)期單價(jià)連續(xù)10~25OffPeak_rate非高峰時(shí)期單價(jià)連續(xù)2~5Weekend_rate周末單價(jià)連續(xù)2~5International_rate國(guó)際長(zhǎng)途單價(jià)連續(xù)30~40數(shù)據(jù)理解:接口4客戶是否流失標(biāo)記表(churn.csv)變量名稱變量標(biāo)簽變量類(lèi)型變量取值(范圍)Customer_ID客戶編號(hào)離散
Churn是否流失離散0,1(1代表流失,0代表不流失)流失分析基礎(chǔ)寬表變量名稱變量標(biāo)簽變量類(lèi)型口徑定義Customer_ID客戶編號(hào)離散
Gender性別離散原始變量Age年齡連續(xù)原始變量L_O_S在網(wǎng)時(shí)長(zhǎng)連續(xù)原始變量Handset手機(jī)品牌離散原始變量Tariff話費(fèi)方案離散原始變量Tariff_OK話費(fèi)方案是否合理離散(標(biāo)志變量)衍生變量,表明客戶話費(fèi)方案是否與實(shí)際消費(fèi)相匹配Usage_Band話務(wù)量級(jí)別離散衍生變量,表明客戶話務(wù)量多少與全體客戶相比的級(jí)別情況Peak_Calls高峰時(shí)期通話數(shù)連續(xù)匯總變量,客戶6個(gè)月高峰時(shí)期通話數(shù)合計(jì)Peak_Mins高峰時(shí)期通話時(shí)長(zhǎng)連續(xù)匯總變量,客戶6個(gè)月高峰時(shí)期通話時(shí)長(zhǎng)合計(jì)Offpeak_Calls非高峰時(shí)期通話數(shù)連續(xù)匯總變量,客戶6個(gè)月非高峰時(shí)期通話數(shù)合計(jì)Offpeak_Mins非高峰時(shí)期通話時(shí)長(zhǎng)連續(xù)匯總變量,客戶6個(gè)月非高峰時(shí)期通話時(shí)長(zhǎng)合計(jì)Weekend_Calls周末時(shí)期通話數(shù)連續(xù)匯總變量,客戶6個(gè)月周末時(shí)期通話數(shù)合計(jì)Weekend_Mins周末時(shí)期通話時(shí)長(zhǎng)連續(xù)匯總變量,客戶6個(gè)月周末時(shí)期通話時(shí)長(zhǎng)合計(jì)International_Mins國(guó)際通話時(shí)長(zhǎng)連續(xù)匯總變量,客戶6個(gè)月國(guó)際通話時(shí)長(zhǎng)合計(jì)數(shù)據(jù)理解:寬表生成(輸出)National_Calls國(guó)內(nèi)通話數(shù)連續(xù)匯總變量,客戶6個(gè)月國(guó)內(nèi)通話數(shù)合計(jì)National_Mins國(guó)內(nèi)通話時(shí)長(zhǎng)連續(xù)匯總變量,客戶6個(gè)月國(guó)內(nèi)通話時(shí)長(zhǎng)合計(jì)All_Calls_Mins所有通話時(shí)長(zhǎng)連續(xù)衍生變量,客戶6個(gè)月所有通話時(shí)長(zhǎng)合計(jì)Nat_Call_Cost國(guó)內(nèi)通話消費(fèi)連續(xù)原始變量Peak_Mins_Ratio高峰時(shí)期通話時(shí)長(zhǎng)占比連續(xù)衍生變量,比例指標(biāo),高峰時(shí)期通話時(shí)長(zhǎng)占國(guó)內(nèi)通話時(shí)長(zhǎng)比例Offpeak_Mins_Ratio非高峰時(shí)期通話時(shí)長(zhǎng)占比連續(xù)衍生變量,比例指標(biāo),非高峰時(shí)期通話時(shí)長(zhǎng)占國(guó)內(nèi)通話時(shí)長(zhǎng)比例Weekend_Mins_Ratio周末時(shí)期通話時(shí)長(zhǎng)占比連續(xù)衍生變量,比例指標(biāo),周末時(shí)期通話時(shí)長(zhǎng)占國(guó)內(nèi)通話時(shí)長(zhǎng)比例International_Mins_Ratio國(guó)際通話時(shí)長(zhǎng)占比連續(xù)衍生變量,比例指標(biāo),國(guó)際通話時(shí)長(zhǎng)占全部通話時(shí)長(zhǎng)比例Avepeak高峰時(shí)期平均每次通話時(shí)長(zhǎng)連續(xù)衍生變量,強(qiáng)度相對(duì)指標(biāo)Aveoffpeak非高峰時(shí)期平均每次通話時(shí)長(zhǎng)連續(xù)衍生變量,強(qiáng)度相對(duì)指標(biāo)Aveweekend周末時(shí)期平均每次通話時(shí)長(zhǎng)連續(xù)衍生變量,強(qiáng)度相對(duì)指標(biāo)Avenational國(guó)內(nèi)平均每次通話時(shí)長(zhǎng)連續(xù)衍生變量,強(qiáng)度相對(duì)指標(biāo)Peak_Mins_Trend高峰時(shí)期通話時(shí)長(zhǎng)趨勢(shì)連續(xù)衍生變量,趨勢(shì)指標(biāo)Offpeak_Mins_Trend非高峰時(shí)期通話時(shí)長(zhǎng)趨勢(shì)連續(xù)衍生變量,趨勢(shì)指標(biāo)Weekend_Mins_Trend周末時(shí)期通話時(shí)長(zhǎng)趨勢(shì)連續(xù)衍生變量,趨勢(shì)指標(biāo)Peak_Mins_Fluctuation高峰時(shí)期通話時(shí)長(zhǎng)波動(dòng)連續(xù)衍生變量,波動(dòng)指標(biāo)Offpeak_Mins_Fluctuation非高峰時(shí)期通話時(shí)長(zhǎng)波動(dòng)連續(xù)衍生變量,波動(dòng)指標(biāo)數(shù)據(jù)理解:寬表生成(續(xù))Weekend_Mins_Fluctuation周末時(shí)期通話時(shí)長(zhǎng)波動(dòng)連續(xù)衍生變量,波動(dòng)指標(biāo)Mins_Charge計(jì)費(fèi)通話時(shí)長(zhǎng)連續(xù)衍生變量,高峰+非高峰+周末-免費(fèi)時(shí)長(zhǎng)后時(shí)長(zhǎng)合計(jì)=
'Nationalmins'-'Free_mins'*6Actual_Call_Cost實(shí)際通話花費(fèi)連續(xù)衍生變量,反映客戶國(guó)內(nèi)通話實(shí)際花費(fèi)=
ifmins_charge>0then
mins_charge*Call_Cost_Per_Min
else
0Total_Call_Cost總通話花費(fèi)連續(xù)衍生變量,反映客戶全部(國(guó)內(nèi)+國(guó)際)通話花費(fèi)='actualcallcost'+'International_mins_Sum'*'International_rate'/100Total_Cost總花費(fèi)連續(xù)衍生變量,反映客戶全部總花費(fèi)(包括固定費(fèi)用)=Total_call_cost+Fixed_cost*6Call_Cost_Per_Min平均每分鐘通話花費(fèi)連續(xù)衍生變量,反映客戶平均每分鐘通話的花費(fèi)=Actual_Call_Cost/Mins_ChargeAverageCostMin平均每分鐘花費(fèi)連續(xù)衍生變量,反映客戶平均每分鐘花費(fèi)=Total_Cost/(Peak_Mins+Offpeak_Mins+Wenkend_Mins+International_Mins)Churn是否流失離散(標(biāo)記變量)原始變量,是否流失標(biāo)記變量數(shù)據(jù)理解:寬表生成(續(xù))數(shù)據(jù)理解:關(guān)鍵術(shù)語(yǔ)和指標(biāo)定義時(shí)段分類(lèi)
高峰時(shí)期:指典型的工作時(shí)間(周一至周五早8:00到晚6:00)
非高峰時(shí)期:指典型的不含周末的非工作時(shí)間(周一早0:00~早8:00,周一至周四晚6:00~次日早8:00和周五晚6:00~晚24:00
周末時(shí)期:指周六0:00~周日晚24:00Usage_Band話務(wù)量級(jí)別
針對(duì)國(guó)內(nèi)電話通話時(shí)長(zhǎng)合計(jì),按照如下標(biāo)準(zhǔn)劃分客戶電話情況:
1.低使用者:通話時(shí)長(zhǎng)<所有客戶平均通話時(shí)長(zhǎng)(簡(jiǎn)稱平均)減去所有客戶通話時(shí)長(zhǎng)一個(gè)標(biāo)準(zhǔn)差(標(biāo)準(zhǔn)差)
2.中使用者:通話時(shí)長(zhǎng)介于平均減一個(gè)標(biāo)準(zhǔn)差與平均加一個(gè)標(biāo)準(zhǔn)差之間
3.高使用者:通話時(shí)長(zhǎng)介于平均加一個(gè)標(biāo)準(zhǔn)差與平均加2倍的標(biāo)準(zhǔn)差之間
4.超高使用者:通話時(shí)長(zhǎng)大于平均加2倍標(biāo)準(zhǔn)差Tariff_OK話費(fèi)方案是否合理
默認(rèn)值:OKifTariff='CAT100'and'actualcallcost'>6*7.51thenHighCAT100
ifTariff='Play100'and'actualcallcost'>6*3thenHighPlay100
ifTariff='CAT50'and'actualcallcost'>6*3.6thenHighCAT50數(shù)據(jù)探索性分析離散變量的探索性分析方法離散變量分為兩類(lèi):名義型和有序型。名義型:取值之間沒(méi)有大小關(guān)系,也無(wú)法比較好壞優(yōu)劣有序型:取值之間可以比較大小,有好壞優(yōu)劣之分1)、名義型離散變量的探索性分析方法離散變量各個(gè)取值的數(shù)量及占比圖形:餅圖/條形圖2)、有序型離散變量的探索性分析方法離散變量各個(gè)取值的數(shù)量及占比圖形:餅圖/條形圖頻數(shù)表/累積頻數(shù)/累積頻率數(shù)據(jù)探索性分析
連續(xù)變量的探索性分析方法
1)、集中趨勢(shì):均值,中位數(shù),眾數(shù)
2)、離散趨勢(shì):最小值,最大值,全距,標(biāo)準(zhǔn)差,變異系數(shù)
3)、分布形態(tài):偏度,峰度
4)、使用圖形:直方圖,箱線圖數(shù)據(jù)探索性分析變量之間關(guān)系的探索性分析方法1)、離散變量與離散變量條形圖,網(wǎng)絡(luò)圖2)、離散變量與連續(xù)變量直方圖,箱線圖3)、連續(xù)變量與連續(xù)變量散點(diǎn)圖培訓(xùn)大綱一、指標(biāo)變量獲取二、案例背景三、商業(yè)理解四、數(shù)據(jù)理解與數(shù)據(jù)準(zhǔn)備五、建立模型與模型評(píng)估六、模型應(yīng)用七、總結(jié)建模和評(píng)估
Kohonen聚類(lèi)
Kmeans聚類(lèi)
C5.0建立規(guī)則
C&RT決策樹(shù)神經(jīng)網(wǎng)絡(luò)模型對(duì)客戶進(jìn)行聚類(lèi)分析,并比較不同客戶群流失可能性建立規(guī)則,描述那些易于流失的客戶群的特征建立打分模型,對(duì)客戶流失可能性(概率)進(jìn)行評(píng)價(jià)模型的選擇1)、因素一:業(yè)務(wù)角度的考慮商用數(shù)據(jù)挖掘是從業(yè)務(wù)中來(lái)到業(yè)務(wù)中去的過(guò)程,在數(shù)據(jù)挖掘項(xiàng)目的整個(gè)過(guò)程中都不能忘記我們的服務(wù)對(duì)象是業(yè)務(wù)。選擇什么樣的模型首先應(yīng)該考慮:模型結(jié)果的表現(xiàn)形式如何?這個(gè)模型對(duì)業(yè)務(wù)有幫助嗎?模型的結(jié)果如何應(yīng)用?具體到流失問(wèn)題來(lái)說(shuō),從營(yíng)銷(xiāo)挽留策略來(lái)看,不同級(jí)別客戶的服務(wù)方式大不一樣。對(duì)VIP客戶,可以采取一對(duì)一的挽留策略,而對(duì)普通客戶,往往針對(duì)客戶群設(shè)計(jì)挽留策略會(huì)更加經(jīng)濟(jì)有效。這就提示我們,應(yīng)當(dāng)根據(jù)客戶的價(jià)值高低建立兩類(lèi)模型。模型的選擇需要建立的兩類(lèi)模型模型類(lèi)型適用情況模型應(yīng)用構(gòu)想細(xì)分模型客戶價(jià)值較低,通過(guò)建立細(xì)分模型將客戶分為若干個(gè)群組,分析得出流失可能性較高群組特征將流失可能性較高群組特征交給業(yè)務(wù)部門(mén),制定針對(duì)群體的營(yíng)銷(xiāo)策略進(jìn)行挽留預(yù)測(cè)性模型客戶價(jià)值較高,通過(guò)建立模型將得到每個(gè)客戶的具體流失評(píng)分和客戶流失特征描述.將流失評(píng)分較高的客戶名單及特征提交給業(yè)務(wù)部門(mén),采取針對(duì)性措施進(jìn)行挽留.模型的選擇2)因素二:工具角度的考慮市面上數(shù)據(jù)挖掘工具很多,選擇使用哪個(gè)進(jìn)行數(shù)據(jù)挖掘呢?對(duì)數(shù)據(jù)挖掘項(xiàng)目組來(lái)說(shuō),要從價(jià)格,功能,易用性,與企業(yè)現(xiàn)有系統(tǒng)是否兼容等考慮選購(gòu)。選定工具以后,選擇模型就要從工具支持角度考慮,這是工作中的一個(gè)現(xiàn)實(shí)約束條件。
3)因素三:模型準(zhǔn)確性角度的考慮針對(duì)同樣的問(wèn)題,科學(xué)家往往發(fā)明了多種算法來(lái)實(shí)現(xiàn)。對(duì)于不同的業(yè)務(wù)問(wèn)題,不同的數(shù)據(jù),不同的模型往往得到的結(jié)果準(zhǔn)確性也有很大的差異,而模型的準(zhǔn)確性無(wú)疑是選擇何種模型的一個(gè)重要考量。模型的選擇4)、因素四:模型可應(yīng)用性角度的考慮模型結(jié)果最終是為了幫助業(yè)務(wù)的開(kāi)展,為了真正用起來(lái),模型結(jié)果描述的通俗性,模型涉及變量獲取的方便性等也是選擇使用什么模型的重要依據(jù)之一。數(shù)據(jù)挖掘中提供了很多種類(lèi)型的算法,每種算法各有特點(diǎn),例如決策樹(shù)模型結(jié)果可以決策數(shù)或者規(guī)則集的方式表述,業(yè)務(wù)人員容易理解;而神經(jīng)網(wǎng)絡(luò)模型更像一個(gè)黑盒子,預(yù)測(cè)結(jié)果可能較精確,但是預(yù)測(cè)結(jié)果卻難以理解。在選擇模型的時(shí)候,我們要考慮業(yè)務(wù)人員是只關(guān)心數(shù)據(jù)挖掘評(píng)分結(jié)果還是同時(shí)關(guān)注模型預(yù)測(cè)依據(jù)來(lái)決定選擇使用哪個(gè)模型。另外,為了保證模型應(yīng)用的便利性和可推廣性,最終使用的模型應(yīng)該是能夠保證一定準(zhǔn)確度的較簡(jiǎn)單模型,而不是一味為提高模型準(zhǔn)確度去選擇涉及大量變量,形式異常復(fù)雜費(fèi)解的模型。數(shù)據(jù)挖掘模型1)、預(yù)測(cè)類(lèi)模型目標(biāo)變量為離散變量的預(yù)測(cè)模型,該類(lèi)模型的目標(biāo)變量是離散變量。相關(guān)的模型有:Logistic回歸,決策樹(shù),貝葉斯網(wǎng)絡(luò),判別分析,最近鄰酸法,支持向量機(jī),C5.0,C&RT,QUEST,CHAID,神經(jīng)網(wǎng)絡(luò)目標(biāo)變量為連續(xù)變量的預(yù)測(cè)模型。相關(guān)的算法有回歸分析,廣義線性模型,最近鄰算法,支持向量機(jī),C&RT,CHAID,神經(jīng)網(wǎng)絡(luò)時(shí)間序列預(yù)測(cè)模型,一類(lèi)特殊的連續(xù)變量預(yù)測(cè)問(wèn)題。時(shí)間序列是將某種統(tǒng)計(jì)指標(biāo)的數(shù)值按相等時(shí)間間隔及先后順序排列而形成的數(shù)列,時(shí)間序列預(yù)測(cè)的目標(biāo)正是預(yù)測(cè)該數(shù)列未來(lái)的值。
2)、細(xì)分類(lèi)模型一種無(wú)監(jiān)督的數(shù)據(jù)挖掘方法,該模型無(wú)目標(biāo)變量,只有輸入變量,無(wú)輸出變量。該模型的好壞通常通過(guò)是否具有業(yè)務(wù)含義來(lái)評(píng)價(jià)。相關(guān)算法有K-Means,Kohonen和Two-Step三種聚類(lèi)分析方法可以實(shí)現(xiàn)細(xì)分。
3)、關(guān)聯(lián)規(guī)則模型一種無(wú)監(jiān)督的數(shù)據(jù)挖掘方法,該模型有若干輸入變量和目標(biāo)變量,有些變量甚至同時(shí)是輸入變量和目標(biāo)變量。相關(guān)算法有Apriori和Carma。如果在關(guān)聯(lián)中考慮到時(shí)間的先后,還可以使用Sequence算法。目標(biāo)變量是二分標(biāo)志變量的預(yù)測(cè)結(jié)果轉(zhuǎn)換1)、從離散的預(yù)測(cè)結(jié)果向連續(xù)的評(píng)分預(yù)測(cè)結(jié)果的轉(zhuǎn)換對(duì)于使用C5.0得到的離散變量是否流失的預(yù)測(cè)結(jié)果,可以通過(guò)如下變換將它轉(zhuǎn)化為流失評(píng)分:
如果SC-Churn=1,則流失評(píng)分=0.5+($CC-Churn)/2
如果SC-Churn=0,則流失評(píng)分=0.5-($CC-Churn)/2
這時(shí)流失評(píng)分的取值范圍為:0.0~1.02)、從連續(xù)的評(píng)分預(yù)測(cè)結(jié)果向離散的預(yù)測(cè)結(jié)果轉(zhuǎn)換對(duì)于使用神經(jīng)網(wǎng)絡(luò)得到的流失評(píng)分結(jié)果(假設(shè)流失評(píng)分結(jié)果取值范圍是0.0~1.0,可以通過(guò)如下轉(zhuǎn)換將它變?yōu)榱魇ьA(yù)測(cè)及流失預(yù)測(cè)的把握程度:
如果$N-Chrunscore>=0.5,則流失預(yù)測(cè)=1,流失預(yù)測(cè)把握程度=2×($N-Churnscore)-0.5
如果$N-Churnscore<0.5,則流失預(yù)測(cè)=0,流失預(yù)測(cè)把握程度=2×($N-Churnscore)+0.5目標(biāo)變量是標(biāo)志變量的的幾種常用評(píng)估方法
(預(yù)測(cè)模型)1)、指標(biāo)法這里介紹幾個(gè)用來(lái)評(píng)價(jià)模型優(yōu)劣的常規(guī)指標(biāo),為了準(zhǔn)確描述各個(gè)指標(biāo)的計(jì)算公式,預(yù)測(cè)值和實(shí)際值的預(yù)測(cè)關(guān)系表如右圖所示。
模型準(zhǔn)確率:一個(gè)描述模型總體準(zhǔn)確情況的百分比指標(biāo),主要用來(lái)說(shuō)明模型的總體預(yù)測(cè)準(zhǔn)確情況,計(jì)算公式如下:
模型命中率:對(duì)很多標(biāo)志變量的預(yù)測(cè)問(wèn)題來(lái)說(shuō),往往關(guān)注的并不只是模型的準(zhǔn)確率。例如對(duì)于這個(gè)案例中的流失問(wèn)題,我們更多的關(guān)注預(yù)測(cè)流失且實(shí)際流失的那部分人,也就是提供給營(yíng)銷(xiāo)部門(mén)的預(yù)測(cè)流失名單中到底最后有百分之多少真正流失了。于是引入了一個(gè)模型命中率的新指標(biāo),它主要用來(lái)反映提供名單的準(zhǔn)確性,計(jì)算公式如下:
模型查全率:命中率高似乎也不靈,就以本方案來(lái)說(shuō),假設(shè)通過(guò)數(shù)據(jù)挖掘模型給出了一個(gè)20人的流失名單,如果該名單中有16個(gè)人確實(shí)流失了,這個(gè)模型的命中率達(dá)到了80%,相當(dāng)不錯(cuò),可是問(wèn)題是最終有1000個(gè)人流失,而你只發(fā)現(xiàn)了其中的16個(gè),相關(guān)部門(mén)顯然不會(huì)認(rèn)可這一模型。據(jù)此又引入了模型查全率,該指標(biāo)也稱為模型覆蓋率,它主要反映模型的覆蓋程度,計(jì)算公司如下:
實(shí)際值10預(yù)測(cè)值1ab0cd目標(biāo)變量是標(biāo)志變量的預(yù)測(cè)模型的幾種常用評(píng)估方法2)圖形法這兩種圖形的結(jié)果都是按照將預(yù)測(cè)結(jié)果變量轉(zhuǎn)化為連續(xù)的評(píng)分結(jié)果來(lái)做的圖形,我們通常
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025辦公設(shè)備采購(gòu)合同
- 2025餐飲股東內(nèi)部承包經(jīng)營(yíng)合同書(shū)
- 2025學(xué)校出入口防車(chē)輛沖撞裝置采購(gòu)合同
- 外貿(mào)銷(xiāo)售合同銷(xiāo)售合同
- 2025國(guó)際專利許可合同
- 保安承包合同范本
- 2025小型承包合同
- 營(yíng)業(yè)場(chǎng)所租賃合同年
- 門(mén)窗工程分包合同
- 場(chǎng)員工聘用勞動(dòng)合同
- 《梅大高速茶陽(yáng)路段“5·1”塌方災(zāi)害調(diào)查評(píng)估報(bào)告》專題警示學(xué)習(xí)
- 2024年09月北京中信銀行北京分行社會(huì)招考(917)筆試歷年參考題庫(kù)附帶答案詳解
- 《大健康解讀》課件
- 2025年度交通運(yùn)輸規(guī)劃外聘專家咨詢協(xié)議3篇
- 2024年公司領(lǐng)導(dǎo)在新年動(dòng)員會(huì)上的講話樣本(3篇)
- 人教版道德與法治二年級(jí)下冊(cè)《第一單元 讓我試試看》大單元整體教學(xué)設(shè)計(jì)2022課標(biāo)
- 聯(lián)合體三方協(xié)議合同模板
- 2024年3季度青島房地產(chǎn)市場(chǎng)季度簡(jiǎn)報(bào)
- 蘇東坡詞十首
- 2023年天津市文化和旅游局直屬事業(yè)單位招聘考試真題及答案
- 電力系統(tǒng)分析(郝亮亮)
評(píng)論
0/150
提交評(píng)論