




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、XX電信經(jīng)營分析與決策支持系統(tǒng)二期數(shù)據(jù)挖掘分析1 前言小靈通用戶是XX電信企業(yè)利潤的主要來源之一,也是市場競爭的焦點。在目前的市場形勢下,發(fā)展新客戶的成本遠遠大于留住已有客戶的成本。因此加強對小靈通用戶的營銷和服務工作,減少小靈通用戶的流失,是XX電信的重要任務。目前在XX電信經(jīng)營分析與決策支持系統(tǒng)中,存在對離網(wǎng)小靈通數(shù)據(jù)的事后分析,但是這樣的分析無法做到提前預警,挽留用戶。利用數(shù)據(jù)挖掘技術則可以發(fā)現(xiàn)離網(wǎng)小靈通用戶的潛在模式,提前進行預測,從而變被動服務為主動服務。CRISPDM(cross-industry standard process for data mining)是一個跨行業(yè)的、以
2、用戶為中心,交互式的數(shù)據(jù)挖掘標準流程,是目前數(shù)據(jù)挖掘領域內(nèi)較成熟的方法論。它將數(shù)據(jù)挖掘過程分為商業(yè)理解、數(shù)據(jù)理解、數(shù)據(jù)準備、建立模型、模型評估和結果部署等6個階段。本挖掘分析遵循數(shù)據(jù)挖掘標準流程,討論小靈通用戶流失預測模型建立的方法和過程,并對預測結果進行分析,以幫助業(yè)務人員及時、準確地做出針對性營銷服務。2 后付費小靈通用戶離網(wǎng)預測2.1 理解商業(yè)理解是從業(yè)務角度來理解數(shù)據(jù)挖掘的目標和要求,再轉化為數(shù)據(jù)挖掘問題。本挖掘分析的目標確定為:針對目前在網(wǎng)的后付費小靈通數(shù)據(jù)進行離網(wǎng)概率的預測。該目標涉及后付費小靈通用戶和離網(wǎng)兩個概念。其中,后付費小靈通在業(yè)務系統(tǒng)中已有標識;離網(wǎng)的用戶定義為主動及被動
3、拆機用戶。2.2數(shù)據(jù)理解數(shù)據(jù)理解的任務是對原始數(shù)據(jù)進行收集和熟悉,檢查數(shù)據(jù)質量,對數(shù)據(jù)進行初步探索,并發(fā)現(xiàn)可能存在的、有分析價值的數(shù)據(jù)特征,以形成對隱藏信息的假設。2.1.1 研究對象選取以全省2007年1月離網(wǎng)的后付費小靈通用戶為研究對象,同時選取同期在網(wǎng)的后付費小靈通用戶作為對照研究對象。確定離網(wǎng)時間點為2007年1月,因此對后付費小靈通用戶從2006年7月至12月共6個月的相關變量進行研究。離網(wǎng)用戶的選取:選取2006年7月前入網(wǎng),2007年1月內(nèi)拆機的用戶,共選出滿足條件的用戶31862名。在網(wǎng)客戶的選?。?006年7月前入網(wǎng),2007年1月31日狀態(tài)為正常的后付費小靈通用戶共1805
4、006名。同時,為避免一些偏差數(shù)據(jù)的影響,在用戶的選擇中屏蔽了公免后付費小靈通用戶。2.1.2 變量選取基本假設:后付費小靈通用戶的行為在年度上不存在強的季節(jié)性,即后付費小靈通用戶的行為特征和離網(wǎng)影響變量不會因為處于一年中的不同月份(季度)而發(fā)生較大變化。根據(jù)對業(yè)務的理解,選定以下3方面的變量進行數(shù)據(jù)理解:1. 后付費小靈通用戶產(chǎn)品訂購數(shù)據(jù):主要反映用戶與服務商關系的數(shù)據(jù),如產(chǎn)品類型、在網(wǎng)時長、訂購增值業(yè)務信息、是否加入套餐等。2. 用戶消費行為特征數(shù)據(jù):主要通過用戶每月帳務數(shù)據(jù)反映,且這類數(shù)據(jù)可以從平均水平和變動情況2個方面來反映。本挖掘分析采用離網(wǎng)時間前6個月,用戶的帳務數(shù)據(jù)變化情況來反映
5、用戶消費行為的變動。主要數(shù)據(jù)包括:用戶6個月的收入、平均月租費、市話費、傳統(tǒng)長話費、IP長話費,以及用戶平均月租費占總費用的比例、6個月總收入波動率(最大收入-最小收入)/平均收入)等3. 用戶其他行為特征數(shù)據(jù):如欠費時長、累計欠費金額等。2.2 數(shù)據(jù)準備數(shù)據(jù)準備階段初步完成變量的選擇和導出變量的生成,同時對一些存在數(shù)據(jù)質量問題的字段進行相應的處理。首先按照選取的數(shù)據(jù)范圍和變量生成數(shù)據(jù),如下圖結構:在Clementine中對數(shù)據(jù)進行實例化分析,數(shù)據(jù)結果如下所示1. 后付費小靈通用戶產(chǎn)品訂購數(shù)據(jù):主要反映用戶與服務商關系的數(shù)據(jù),如產(chǎn)品類型、在網(wǎng)時長、訂購增值業(yè)務信息、是否加入套餐等。此部分數(shù)據(jù)來
6、自于97系統(tǒng)用戶資料,經(jīng)檢測,除入網(wǎng)時長外,這些數(shù)據(jù)準確度較高,無缺失值和偏差值。從上圖可看出,入網(wǎng)時長取值范圍為6個月到24071個月,很明顯,存在錯誤數(shù)據(jù)。故將超過入網(wǎng)時長在180個月(15年)以上的用戶(共3314個),定義為入網(wǎng)時長180個月。因總數(shù)據(jù)量大,此操作直接在數(shù)據(jù)庫中進行。2. 用戶消費行為特征數(shù)據(jù):主要包括:用戶6個月的收入、平均月租費、市話費、傳統(tǒng)長話費、IP長話費,以及用戶平均月租費占總費用的比例、6個月總收入波動率(最大收入-最小收入)/平均收入)等。經(jīng)數(shù)據(jù)質量核查,發(fā)現(xiàn)有部分用戶6個月收入都為0。這些數(shù)據(jù)(共88322條記錄)中,絕大部分是由于97、計費系統(tǒng)資料不統(tǒng)
7、一造成,少量是由于用戶長期欠費,造成停機,不產(chǎn)生費用。這些數(shù)據(jù)由于特征值相同,對模型會造成偏差影響,故直接刪除這些數(shù)據(jù)。3. 用戶其他行為特征數(shù)據(jù):如欠費時長、累計欠費金額等,經(jīng)核查,數(shù)據(jù)較準確,不進行任何處理。進行上述處理后,數(shù)據(jù)質量報告如下:2.3 建立模型在建立模型過程中,將根據(jù)實際模型的效果對變量做進一步的篩選和處理,既保證模型準確率,又盡量減少最終模型輸入的變量,便于業(yè)務解釋。離網(wǎng)預測模型的準確率,在技術上主要包含預測命中率和預測覆蓋率2個指標。其中,預測命中率表示在被預測出離網(wǎng)的客戶當中,實際離網(wǎng)所占的比率,它是描述模型精確性的指標;預測覆蓋率表示在實際離網(wǎng)客戶中,被預測出為離網(wǎng)的
8、客戶所占的比率,它是描述模型普適性的指標。從業(yè)務的角度來說,對離網(wǎng)用戶的預測是盡可能地將存在離網(wǎng)傾向的后付費小靈通用戶預測出來,以便能及時采取措施進行挽留。因此,要求在控制預測命中率的前提下盡量提高模型的預測覆蓋率。2.3.1 變量篩選首先選擇除主體產(chǎn)品實例標識、業(yè)務接入號、本地網(wǎng)代碼、拆機標志外的所有字段作為模型的輸入變量,拆機標志作為輸出變量,類型節(jié)點定義如圖:分別生成神經(jīng)元網(wǎng)絡、C5.0、Logistic回歸模型,如圖:對生成的模型進行實際值和預測值比較,得出結果如下(圖中縱坐標表示實際離網(wǎng)情況,橫坐標表示預測離網(wǎng)情況): 以上三個模型,命中率和覆蓋率分別是:神經(jīng)元
9、網(wǎng)絡模型:命中率:79.01%,覆蓋率:74.36%;C5.0模型:命中率:90.25%,覆蓋率:84.02%;Logistic回歸模型:命中率:79.36%,覆蓋率:72.61%。從以上分析可以看出,這3種模型均達到較理想的狀態(tài),尤其是C5.0模型,命中率超過90%。但是模型中用到了所有的變量,不利于業(yè)務理解和解釋,對這三種模型進行詳細分析,進行變量篩選:神經(jīng)元網(wǎng)絡變量關聯(lián)度圖:Logistic回歸關聯(lián)圖:C5.0模型樹:對三種模型中,變量關聯(lián)度與重要性進行篩選,最終確定以下變量作為最終模型變量:入網(wǎng)時長、定購增值業(yè)務個數(shù)、是否加入套餐、平均月租費、平均月租費占比、平均市話費、平均長話費、平
10、均IP長話費、總收入波動率。2.3.2 建立模型和模型參數(shù)調整過程以篩選后的變量作為輸入,分別建立神經(jīng)網(wǎng)絡模型、C50模型和Logistic回歸模型。類型節(jié)點定義如下:神經(jīng)網(wǎng)絡模型評估:命中率:70.62%;覆蓋率:80.19%C5.0模型評估:命中率:86.33%;覆蓋率:84.60%Logistic回歸模型評估:命中率:70.18%;覆蓋率:87.02%從以上建立模型的過程中發(fā)現(xiàn),不同的模型達到的準確率(命中率和覆蓋率)都比較高,能夠達到業(yè)務上的要求。實際應用中,可以根據(jù)具體需要選擇使用不同的模型。2.4 模型評估從技術角度來看,建立的神經(jīng)網(wǎng)絡模型、C50模型和Logistic回歸模型中,
11、C5.0模型的綜合準確率最高,但是與其它模型的準確率相比并無大的差異。從業(yè)務角度來看,由于目前競爭激烈,小靈通用戶是企業(yè)利潤的關鍵,業(yè)務人員最關注的是能夠盡可能多地獲取可能離網(wǎng)的小靈通用戶的信息,即要求預測模型的覆蓋率盡可能高,其次的要求才是保證模型的命中率。因此,在實際應用過程中,可以將利用神經(jīng)網(wǎng)絡、C50、Logistic回歸模型預測出的離網(wǎng)用戶,都作為可能離網(wǎng)的用戶,以盡量提高模型的覆蓋率。從模型評估結果來看,模型的覆蓋率達到了87.02,而模型的命中率也達到了86.33。2.5 結果發(fā)布結果部署的目標是將預測模型生成的結果以一定的形式展現(xiàn)給業(yè)務人員使用。因此,應當從業(yè)務的角度來關注模型
12、發(fā)布的形式。后付費小靈通用戶離網(wǎng)預測模型的預測結果主要包括:給出具體的離網(wǎng)用戶的名單;針對預測出可能離網(wǎng)的用戶,給出其離網(wǎng)可能性的量化指標,即離網(wǎng)概率。這些結果是針對單個用戶的,可以以列表的形式提供給業(yè)務人員,采取一對一的服務。如果是采用決策樹(C50)算法建立模型,還可以得到離網(wǎng)用戶的特征描述。但由于其中特征描述是以規(guī)則的形式表現(xiàn)的,過于技術化,很難從業(yè)務角度加以理解和解釋,也不適合業(yè)務人員獲取真正的離網(wǎng)用戶的特征信息。因此,在分析離網(wǎng)用戶特征時,考慮以預測出的離網(wǎng)用戶為研究對象,將輸入模型的變量作為分析角度,利用多維聯(lián)機分析處理(MOLAP)技術輔助業(yè)務人員獲取離網(wǎng)用戶的群體特征,得出定性的結論,從而采取有針對性的挽留措施。2.6 總結本文遵循數(shù)據(jù)挖掘標準流程(CRISPDM),介紹了后付費小靈通離網(wǎng)預測模型的建立過程。建立的預測模型的準確率能夠滿足業(yè)務人員的需求,但是仍存在一定的局限性。一方面,在數(shù)據(jù)準備過程中,將滿足條件的數(shù)據(jù)隨機地拆分成了訓練集和檢驗集。訓練集用于模型的訓練,而檢驗集用來判斷模型效果的好壞。但是在模型評估中并
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 智慧農(nóng)業(yè)技術推廣實戰(zhàn)手冊
- 浙江廣告字施工方案
- 2025年人力資源制度:人事勞動合同管理程序
- 定向井技術服務合同
- 設計和施工方案資質
- 防彈玻璃施工方案
- 戶內(nèi)沉箱滲水施工方案
- TACCEM 129-2024 糧食環(huán)鏈刮板輸送機
- 鐵路伸縮縫圖片施工方案
- 威海鋁鎂錳屋面施工方案
- 數(shù)學建模的介紹教學課件
- 邏輯代數(shù)的基本定律和規(guī)則課件
- 初中美術6-9年級第一學期藝術測評期末試題
- 首都師范大學輔導員考試題庫
- 【短視頻質量對消費者購買行為的影響研究4300字(論文)】
- (通橋【2018】8370)《鐵路橋梁快速更換型伸縮縫安裝圖》
- 新生兒窒息復蘇演練腳本
- 安全警示標志現(xiàn)場檢查表
- 2023屆山東煙臺高三一模作文“柴火不足水減一半”導寫及范文四篇
- 茄子課件完整版
- RFJ01-2008 人民防空工程防護設備選用圖集
評論
0/150
提交評論