![CART算法對航空公司客戶流失的應用_第1頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/15/7e3cd8cb-cbc3-4885-84b3-9e4b8d649bc2/7e3cd8cb-cbc3-4885-84b3-9e4b8d649bc21.gif)
![CART算法對航空公司客戶流失的應用_第2頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/15/7e3cd8cb-cbc3-4885-84b3-9e4b8d649bc2/7e3cd8cb-cbc3-4885-84b3-9e4b8d649bc22.gif)
![CART算法對航空公司客戶流失的應用_第3頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/15/7e3cd8cb-cbc3-4885-84b3-9e4b8d649bc2/7e3cd8cb-cbc3-4885-84b3-9e4b8d649bc23.gif)
![CART算法對航空公司客戶流失的應用_第4頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/15/7e3cd8cb-cbc3-4885-84b3-9e4b8d649bc2/7e3cd8cb-cbc3-4885-84b3-9e4b8d649bc24.gif)
![CART算法對航空公司客戶流失的應用_第5頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/15/7e3cd8cb-cbc3-4885-84b3-9e4b8d649bc2/7e3cd8cb-cbc3-4885-84b3-9e4b8d649bc25.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、Word參考資料,下載后可編輯CART算法對航空公司客戶流失的應用 【摘要】為了降低客戶的流失造成公司的巨大損失,建立了客戶流失模型。通過航空公司的客戶信息、數(shù)據(jù)預處理、屬性規(guī)約、數(shù)據(jù)離散化以及樣本選取建立數(shù)據(jù)集,并利用CART算法進行客戶流失的預測,利用混淆矩陣和ROC曲線評估模型的性能,證明該模型的可行性和良好性,為航空公司開展持續(xù)改良的營銷活動提供參考。 【關(guān)鍵詞】客戶流失;分類預測;混淆矩陣;ROC曲線;CART算法 1引言 隨著大數(shù)據(jù)時代的到來,航空公司掌握隱藏在數(shù)據(jù)的有價值信息成為獲得商機的關(guān)鍵因素,客戶流失是造成公司利潤損失的重要原因。客戶與公司保持的關(guān)系越良好,帶給公司的利潤就
2、越高。但是不少客戶成為新客戶的同時,又有一大批的客戶流失,一個老客戶的關(guān)系維護比獲得一個新客戶的本錢更小1。這就需要預測的方法,怎樣在客戶馬上流失前有效地發(fā)覺,并對客戶特征進行準確的分析,從而關(guān)心營銷部門確定可能流失的目標客戶群體,制定有針對性的策略是關(guān)注重點?;跊Q策樹建立航空公司客戶流失模型,將具有不同特征的客戶劃分為不同客戶類型,分析不同客戶群體特征,為制定營銷策略提供參考。 2預備工作 2.1客戶流失類型 由于不同的業(yè)務所對應的客戶流失的定義不一,這里對客戶流失類型的定義:把客戶類型MEMBER_TYPE分為三類。第一類:第二年飛行次數(shù)和第一年飛行次數(shù)的比例大于或者等于90%的客戶為未
3、流失客戶,標記為0;第二類:第二年飛行次數(shù)和第一年飛行次數(shù)的比例大于或者等于50%小于90%的客戶為準流失客戶,標記為1;第三類:第二年飛行次數(shù)和第一年飛行次數(shù)的比例小于50%的客戶為已流失客戶,標記為2. 2.2預測客戶流失的重要性 獲得新客戶,一般需要在銷售、市場、廣告和人力等方面花費許多,然而大多數(shù)新客戶白喉產(chǎn)生的利潤往往不如流失的老客戶。然而,在航空市場競爭日益劇烈的今天,航空公司在客戶流失方面應該引起自購的重視,怎樣改善流失問題,進一步提升客戶的中意度。忠誠度是航空公司保持自身核心競爭力的一大關(guān)鍵因素。因此,航空公司要做好客戶流失預測工作。 2.3CART決策樹 決策樹是由內(nèi)部節(jié)點、
4、分支和葉子組成一種樹狀結(jié)構(gòu)。由根節(jié)點開始,葉節(jié)點結(jié)束。決策樹在數(shù)據(jù)分類和預測中是最簡單易懂的數(shù)據(jù)挖掘方法,同時也是一種非常有效的分類算法。CART算法可用于分類和回歸,相對ID3算法和C4.5算法應用更加廣泛,目前已經(jīng)成功應用于醫(yī)學疾病預測2,3、魚種豐富度預測4、客戶流失分析5-7、土壤濕度分析8等多個領(lǐng)域。 3分析方法與過程 大數(shù)據(jù)時代的迅猛開展,使得公司客戶數(shù)據(jù)呈數(shù)量級增長,怎樣快速并有效地開掘隱藏在數(shù)據(jù)的價值,是公司必抓的重點之一。目前航空公司客戶數(shù)據(jù)主要表現(xiàn)出為數(shù)據(jù)量大、屬性多而余。由于客戶信息包括了MEMBER_NO、GFFP_TIER、SUM_YR_1、SUM_YR_2等44個屬
5、性。從系統(tǒng)中直接抽取的數(shù)據(jù)不能直接表示客戶的流失特征,需要對樣本數(shù)據(jù)進行探究性分析與預處理,包括數(shù)據(jù)缺失值與異常值探究行分析,數(shù)據(jù)的屬性構(gòu)造、清洗和變換等、對已完成預處理的數(shù)據(jù)進行建模,建立客戶流失模型、評估模型性能、調(diào)用模型實現(xiàn)實時診斷,逐漸完善該模型。 3.1數(shù)據(jù)來源 從某個航空公司抽取了20_-04-01至20_-03-31的客戶數(shù)據(jù),共有62,988條記錄,其中包含了44個屬性,由于篇幅限制,給出局部屬性名稱以及說明如表1所示。 3.2數(shù)據(jù)探究性分析 原始數(shù)據(jù)中存在大量的缺失值與異常值,需要分析數(shù)據(jù)的分布規(guī)律。數(shù)據(jù)探究結(jié)果如表3所示。原始數(shù)據(jù)中存在票價為空值,最小票價為0,最小票價折扣
6、率為0,總飛行公里數(shù)大于0的情況。票價是空值可能是客戶沒有乘機記錄,其他的可能是客戶乘坐免費機票或者積分兌換造成的。原始數(shù)據(jù)中某些屬性數(shù)據(jù)的取值范圍差異比較大,為了消除數(shù)量級數(shù)據(jù)造成的影響以及數(shù)據(jù)變換的屬性取值分級,所以需要對數(shù)據(jù)進行離散化(3.3.2小節(jié)提及)。 3.3數(shù)據(jù)預處理 客戶流失分析一般是針對老客戶而言,這里定義飛行次數(shù)FIGHT_COUNT大于6次的客戶為老客戶。由于客戶類型MEMBER_TYPE是由第二年飛行次數(shù)以及第一年飛行次數(shù)的比例確定的,則第一年飛行次數(shù)等于0的記錄不滿足分母不為零的條件。發(fā)覺數(shù)據(jù)中存在缺失值,原始數(shù)據(jù)中存在票價為空值,最小票價為0,最小票價折扣率為0,總
7、飛行公里數(shù)大于0的情況。由于原始數(shù)據(jù)量很大,這類數(shù)據(jù)占比比較小,對于問題的分析影響很小,所以對這些記錄直接刪除,即刪除票價為空的記錄;刪除票價是0、平均折扣率是0、總公里數(shù)大于0的數(shù)據(jù)。經(jīng)過數(shù)據(jù)的簡單處理后,剩余數(shù)據(jù)是31,272條記錄。3.3.1屬性規(guī)約原始數(shù)據(jù)中包含了太多的屬性,選取客戶的關(guān)鍵屬性。即需要選取與MEMBER_TYPE相關(guān)性比較強的變量,計算不同的變量與MEMBER_TYPE的相關(guān)性。對原始數(shù)據(jù)集中數(shù)值型變量,通過雙變量Pearson相關(guān)性檢驗來說明變量間的相關(guān)性。從44個屬性中選取相關(guān)性比較高的20個屬性(這里選取相關(guān)性的絕對值大于等于0.13),如表4所示。其他屬性對ME
8、M⁃BER_TYPE的影響很小,可以忽略不計,因此直接剔除。3.3.2數(shù)據(jù)變換數(shù)據(jù)變換目的是將數(shù)據(jù)轉(zhuǎn)化成“適合的”格式,以便適應數(shù)據(jù)挖掘的需要。這里采納的是屬性構(gòu)造以及數(shù)據(jù)離散化,采納聚類算法的方式將除了客戶級別、客戶類型的其他屬性分成3類。3.3.2.1屬性構(gòu)造為了降低屬性的維度,通過原始數(shù)據(jù)計算以下指標。5)綜上,最終確定的數(shù)據(jù)屬性個數(shù)為12,第13列為標簽列。3.3.2.2數(shù)據(jù)離散化通過聚類算法將數(shù)據(jù)集進行離散化處理,每個屬性(除了客戶級別)分成3類,其離散表如表5所示。3.3.3樣本平衡對于訓練的數(shù)據(jù),數(shù)據(jù)正負樣本比例并非一定是相同或等比的才是樣本平衡。這里最終得到的數(shù)據(jù)一
9、共31272條記錄,標記為0的數(shù)據(jù)未流失客戶為17396,標記為1的數(shù)據(jù)準流失客戶是7252,標記為2的數(shù)據(jù)已流失客戶是6624,樣本比例大致是:2.611,決策樹正負樣本比例最正確時12.59接近數(shù)據(jù)樣本最正確比例,所以直接用數(shù)據(jù)進行訓練以及測試。 4模型的建立以及實現(xiàn) 混淆矩陣是表示真實屬性與識別結(jié)果類型之間關(guān)系的一種常用表達形式,也是評價分類器性能的一種常用方式。經(jīng)過數(shù)據(jù)預備工作,預處理后的樣本數(shù)據(jù)到達了建模數(shù)據(jù)質(zhì)量要求,在此根底上直接通過PYTHON包含的Scikit_Learn利用訓練樣本構(gòu)造CART算法決策樹模型,建立客戶流失預測模型,默認葉子節(jié)點包含的最小樣本數(shù)為2。選擇10-f
10、old交叉驗證方式,即隨機選擇80%為訓練樣本,20%為測試樣本,得到混淆矩陣,即可獲得分類器的正確識別率和錯誤識別率。由圖1可知,隨機選擇訓練樣本為25017,則整體分類準確率是(14998+6012+2977)/25017=95.88%。第一行說明,有12998個樣本分類準確,占據(jù)99.04%,屬于未流失客戶,有141個樣本被誤判為準流失客戶,有5個樣本為誤判為已流失客戶;第二行說明,有6012個樣本分類準確87.23%,屬于準流失客戶,有675個樣本被誤判為未流失客戶,有205個樣本被誤判為已流失客戶;第三行說明有2977個樣本分類準確,占據(jù)99.87%,屬已流失客戶,有1個樣本被誤判為
11、未流失客戶,有3個樣本被誤判為準流失客戶。三類客戶類型的平均正確識別率為95.88%,說明該模型效果良好。 4.1模型評估 受試者工作特性ROC曲線10反映了分類器正確的體積概率,其值越是接近1說明該結(jié)果越好。為了進一步評估模型分類的性能,用測試樣本對其采納ROC曲線進行評估,一個優(yōu)秀的分類器所對應的ROC曲線應該是盡可能的靠近左上角。由圖2可知,該模型效果優(yōu)良,對客戶流失預測是合理、準確的。 4.2模型應用 航空公司客戶流失分析的最終目標是要給公司的營銷計劃給予指導,從以下幾方面進行闡述。由于本模型采納歷史的數(shù)據(jù)進行建模與預測,對于新增的老客戶信息,假如預測結(jié)果與實際情況差異大的話,需要航空
12、公司重點分析,查看實際的原因以及確定模型的穩(wěn)定性。假如模型穩(wěn)定性變化大,則需要重新訓練模型。一般建議每隔半年訓練一次11。整個客戶流失分析的過程應該是一個可持續(xù)循環(huán)利用的過程。確定客戶類型,特別是準流失客戶??梢酝ㄟ^客戶流失概率來確定可能流失的客戶,并對該客戶群進行追蹤與關(guān)心。會員級別的升級與保存。如今對于會員級別的管理,根本是大同小異的。在航空行業(yè),一般要求客戶在規(guī)定時間,如一年,累計到達相對應的飛行里程或單位里程票價,到達此要求后在有效期內(nèi)(通常為兩年)可進行會員級別的升級,以便享受更人性化的服務。有效期結(jié)束時,依據(jù)一定的評價方式,對客戶的級別進行調(diào)整。但是大局部客戶往往不關(guān)注或者無法獲得
13、航空公司對會員級別調(diào)整制度,而導致錯過以至于對航空公司的不滿而轉(zhuǎn)向在其他公司消費。因此,航空公司可以在有效期結(jié)束之前對馬上滿足評價要求的客戶進行提示以及采取相應的促銷,如降低折扣,刺激客戶消費。積分兌換。航空公司可以通過累計的飛行里程或單位里程積分來兌換免機票或者升級艙位,特別是首次兌換,當?shù)竭_航空公司的標準,首次兌換的力度往往會比其他營銷活動力度要大。但是,航空公司也對客戶積分的進行削減,一般會在年末進行清零,導致了許多客戶好不容易積存的積分白白損失,總是難以到達首次兌換的標準,造成客戶的不滿??梢詫︸R上滿足首次兌換的客戶進行提示或者進行促銷活動,積分兌換實際上在一定程度上實現(xiàn)了本錢轉(zhuǎn)移,因為往往再次積分兌換的客戶在本公司比在其他公司消費的可能性大。捆綁銷售。增強與非航公司的合作,使得客戶在其他公司消費的同時獲得本航空公司的積分或
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 入職申請合同范本
- 買土石方工程合同范本
- 鄉(xiāng)村房屋收購合同范本
- 街道門面房出租經(jīng)營合同范本
- 供車簡易合同范例
- 前程無憂合同范本
- 公路維護施工合同范例
- 冷藏合同范本
- 2025年度數(shù)據(jù)中心電力保障與供水應急響應合同
- 2025年度公共設施墻繪美化服務合同協(xié)議書
- 2025年買賣個人房屋合同(4篇)
- 武漢2025年湖北武漢理工大學管理人員招聘筆試歷年參考題庫附帶答案詳解
- 使用錯誤評估報告(可用性工程)模版
- 客服人員績效考核評分表
- GB/T 8944.1-2008紙漿成批銷售質(zhì)量的測定第1部分:漿板漿包及漿塊(急驟干燥漿)漿包
- 初中七 八年級生物思維導圖大全 張
- 婆媳關(guān)系證明
- 江蘇宿遷家鄉(xiāng)介紹旅游課件
- 文化差異與跨文化交際課件(完整版)
- 臭和味檢測原始記錄表
- 變壓器檢修風險分析及管控措施
評論
0/150
提交評論