




已閱讀5頁,還剩18頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
案例研究:電信行業(yè)市場研究將以臺灣電信業(yè)手機購買情況和大眾對電信公司的滿意程度的調(diào)查,進行客戶市場的細分和流失模型的建立,由于本案例的特點是數(shù)據(jù)量相當龐大,異常數(shù)據(jù)參差不齊。因此,研究這一數(shù)據(jù)分析方法具有重要的現(xiàn)實意義。 消費者行為研究-6W+2H:購買什么(what)?為什么要購買(why)?購買者是誰(who)?何時購買(when)?何處購買(where)?信息管道來自何處(where)?購買多少(how much)?如何決策購買(how)? 電信流失模型的基本概念電信行業(yè)中的流失(churn)一詞專指客戶的流失,它通過影響客戶流失可能的原因分析,預測哪些客戶不久將流失。建立客戶流失模型是數(shù)據(jù)挖掘在許多不同行業(yè)的共同的應用。特別對電信而言,全球幾乎每一家電信企業(yè)(只要置身于市場競爭中)都正在或將要建立客戶流失模型,如果哪一個企業(yè)不想,或還沒有準備建立流失模型,將使企業(yè)逐漸喪失競爭力。此外,流失模型中的流失評分,除了幫助設計促銷活動,保留客戶的用途以外,短期目標是提供一份可能流失者的名單。之后,建模技術可以自動地用于客戶流失管理系統(tǒng)的應用。進一步,客戶流失管理系統(tǒng)又是更大的客戶關系管理系統(tǒng)的子模塊。顯然,要實現(xiàn)如此內(nèi)容豐富的三個目標,建立流失模型是建立一套流失管理系統(tǒng)的第一步。建立流失管理程系統(tǒng)是將數(shù)據(jù)挖掘應用于商業(yè)活動的優(yōu)秀范例。數(shù)據(jù)挖掘從一開始就在引導建模工作,而不是在最后才被引入。因此,一個流失模型主要研究的內(nèi)容包括:1、影響流失的變量;2、易流失人群的特征提??;3、預測流失的得分模型的建立三部分內(nèi)容。無論對電信公司還是手機的經(jīng)銷商來說,在市場競爭中采取怎樣的決策,都是具有重要意義的。過去對流失模型的建立主要依賴于電信公司的通話流數(shù)據(jù),主要依賴的測量指標是客戶的通話時間。這些數(shù)據(jù)無法反映客戶流失的主、客觀原因,易流失人群的特征也不容易得到,因此僅僅利用通話時間的長與短,來判斷哪些客戶容易流失的可能性,是有局限的。我們試圖從用戶使用產(chǎn)品和感受服務的角度,探索客戶流失模型的建立,解釋客戶流失的不同性,為電信行業(yè)客戶流失模型的建立提供新的參考模型。電信行業(yè)的特點電話公司和金融業(yè)、保險業(yè)以及公共服務業(yè)一樣,都屬于典型的服務業(yè)。但是從另一些方面看,電信服務營銷更像零售產(chǎn)品的營銷,電信客戶市場具有以下幾個特點:1 相對獨立的服務供應商(“客戶壟斷”)。電信公司具有壟斷客戶的傾向。也就是說,每一名客戶都有只享用某家電信公司特定服務的傾向(盡管他們可能有幾種選擇)。而在其他行業(yè),客戶每購買一次產(chǎn)品就做出一次選擇,客戶的錢分流向兩個甚至更多的競爭對手。作為壟斷經(jīng)營者也意味著電信業(yè)比其他行業(yè)更能充分了解其客戶與產(chǎn)品相關的行為。在我們的數(shù)據(jù)中74%的手機用戶有過更換電信公司的記錄,而相比之下,更換過手機的用戶有35%之多。2 爭取客戶的成本相對較高。手機的折扣以及信用卡結算,提高了爭取客戶的成本,這超過了通常的營銷成本。而每一名客戶的服務支出決定了其對公司的價值。這意味著留住一名現(xiàn)有客戶比吸引一名新客戶更具價值,因為挽留客戶就避免了預先爭取客戶的開銷。3 沒有直接的客戶合同。電信客戶與其服務供應商之間沒有直接面對面的合同。事實上,唯一的電信合同只是針對客戶服務通常僅當服務出現(xiàn)問題時才履行。這表明,電信公司主要通過品牌管理和營銷活動來樹立公司形象。4 手機,同其他零售產(chǎn)品一樣,無線通信業(yè)也有其外部載體手機。新款手機更加輕巧,擁有更多功能,因而也更具吸引力。結果是,手機在客戶流失管理中扮演越來越重要的角色。流失按照客戶流失意愿,應分為被動流失和主動流失兩大類。區(qū)別這兩種不同的流失非常重要??蛻暨B續(xù)幾個月不付費,則引發(fā)被動流失,原因可能是手機被盜、手機損壞或客戶離開服務區(qū)等,在被動流失中,客戶流失的原因相對復雜,很多變量更突出地表現(xiàn)為社會問題,大多不能依靠企業(yè)來加以改進。與被動流失相對的是主動流失。促成主動流失與非主動流失的動機很不相同,不能用被動流失模型去預測主動流失。特別是在服務競爭激烈的市場,找到影響主動流失的變量,是企業(yè)客戶流失模型的核心所在。另一個明顯不同的應用是預先對客戶群進行分類。如果某一客戶群體明顯可能會流失,或許他們就不應該享受為新裝機用戶推出的驚人的折扣因為這要到幾個月后才會開始盈利。定義流失變量包括了下列幾種不同的情況:1. 遷出服務區(qū)的客戶。2. 已經(jīng)去世的客戶。3. 無力承擔電話費的客戶。4. 為其他服務供應商所拉走的客戶。5. 想買新手機的客戶。(一) 其中最后兩類值得重視,為其他服務供應商所拉走的客戶,以及被稱作手機轉移族的最后一類。如果其他公司為客戶提供更好的服務?;驗樾驴蛻籼峁┑氖謾C折扣比現(xiàn)有客戶要多。就可能會鼓勵現(xiàn)有客戶先流失再重新加入,以獲得更多折扣。而這兩者通??梢詮臑榭蛻魧ΜF(xiàn)有公司服務滿意程度、手機物理性能的滿意度、手機的收訊情況、手機外型的滿意度等經(jīng)營指標反映出來。MuIIer(1991)認為顧客滿意度有助于企業(yè)競爭優(yōu)勢的達成。當產(chǎn)品價格優(yōu)勢不顯著,顧客滿意度將是唯一有意義的競爭優(yōu)勢,而擁有愈高的顧客滿意度,公司將會獲得持久競爭優(yōu)勢。KotIer(I997)認為顧客滿意度是增加企業(yè)競爭力的利器,顧客滿意度是公司未來獲利能力的最好評價根據(jù)。案例分析數(shù)據(jù)挖掘的核心是將數(shù)據(jù)轉換成可以操作的結果,在案例研究中,我們將具體按照數(shù)據(jù)挖掘的DM流程,對分析數(shù)據(jù)的每一重要步驟進行說明。我們要強調(diào)的是,數(shù)據(jù)挖掘過程一個互動往復的過程。6.2.1 數(shù)據(jù)的預準備一、數(shù)據(jù)的來源和組織結構4、更換手機情況7、更換電信公司情況現(xiàn)狀層滿意層流失層1、使用現(xiàn)狀2、收訊滿意情況5、服務現(xiàn)狀6、電信公司滿意程度8、消費者特征3、物理特性的滿意程度手機的滿意情況手機使用者 服務公司客戶層論文實證研究的數(shù)據(jù)是臺灣電話調(diào)查數(shù)據(jù),共有1,313,206筆電信市場調(diào)查數(shù)據(jù),變量32個,以*.dat的形式存在。問題按照用戶使用手機的情況和服務公司展開,分別考察了在手機使用情況和接受電信公司服務兩個結構面上的基本使用(或服務)情況、更換情況、滿意程度,以及消費者的基本特征:數(shù)據(jù)結構如圖1所示,組織結構對應的問項如表2。圖1 數(shù)據(jù)組織結構框圖1 1、消費者使用手機的基本情況 A3 目前使用手機的品牌 A4 手機的付費方式A6 手機的收訊情況A17目前所使用手機的品牌A18目前所使用手機的型號2、手機的收訊情況A5 在室內(nèi)(不包括電梯和地下室)A6 在室外A7 在郊外A8 在車上 3、對手機物理特性的滿意程度: A22 外形是否滿意 A23 目前手機功能是否滿意 A24 手機整體是否滿意 A25 是否擔心手機電磁波的危險4、更換手機的情況A19 是否更換手機A20 更換次數(shù)A21 再次購買的考慮因素5、服務公司A2 目前使用的移動電話所屬的服務公司6、對電信公司的滿意程度:A9 通話清晰度的大、A10 計費方式合理、A11 服務效率A12 服務人員的態(tài)度。A13 整體服務態(tài)度7、更換電信公司A14 是否更換A15 更換次數(shù)A16 上次服務公司(90%缺失)8、消費者的基本特征A26性別A27年齡A28政治信仰A29教育程度A30籍貫A31政治主張A32職業(yè)A33戶籍 表2 數(shù)據(jù)組織結構所對應的問項以及題目編號列表二、研究假設和研究主題(一)主題的物理概念分析定義業(yè)務問題是成功數(shù)據(jù)挖掘過程中最有技巧的一個階段,因為它需要不斷地對問題進行交流,以得到對問題正確的理解。從結構圖上,已經(jīng)發(fā)現(xiàn)數(shù)據(jù)中存在橫向和縱向,外部和內(nèi)部的復雜關系,這無疑是進行關聯(lián)分析研究的非常好的數(shù)據(jù)。如果我們從企業(yè)的角度來看數(shù)據(jù)結構圖,則不同層面上的數(shù)據(jù)有著不同的分析用途。比如:手機經(jīng)銷商客戶關系管理的角度來看,流失層的作用非常關鍵。首先,由流失層和現(xiàn)狀層的綜合分析,可以告知潛在客戶“名單”,當前客戶“名單”,競爭對手“名單”,唯一不能回答的是新老客戶的區(qū)分。其次,對三類客戶“名單”,可以進行不同的分析目的,如圖2所示: 現(xiàn)狀 新客戶未知潛在客戶問題:客戶偏好客戶忠誠度競爭對手客戶問題:客戶偏好客戶購買意愿問題:客戶細分目標市場定位流失層老客戶問題:交叉銷售風險管理圖2從生產(chǎn)和銷售手機的企業(yè),看市場研究和客戶關系管理的關系首先, 對當前的手機客戶,主要可以集中在研究滿意度評價模型,也就是說通過研究客戶對電信公司以及手機的滿意度,建立手機或電信公司主動流失模型。在我們的數(shù)據(jù)中,事實上,大部分用戶都會傾向于對服務滿意的狀態(tài),而對商家來講,重點在于找到不滿意的人群,并針對這些人群,提出新的戰(zhàn)略。分析的過程分為兩步:首先,比較不同的滿意程度之間互相影響程度,找到有意義的不滿意組合,提取不滿意指標,降低變量的個數(shù),然后,建立不滿意因素與人口特征方面的客戶細分模型,通過這個模型的建立,來定位目標市場,或進行一些有利于業(yè)務拓展的促銷活動,抵御客戶流失的風險。 其次,競爭對手的客戶。雖然也可以類似研究客戶的滿意程度,找到不滿意客戶的族群,這些客戶將是可以拉動需求的潛在客戶。但是,在電信行業(yè),爭取客戶的成本相對較高。手機的折扣以及信用卡結算,可能構成提高爭取客戶的成本的原因,這超過了通常的營銷成本。而每一名客戶的服務支出決定了其對公司的價值。這意味著留住一名現(xiàn)有客戶比吸引一名新客戶更具價值。因此,對于競爭對手,選擇重點研究客戶對不同手機的認知差異程度,來幫助企業(yè)做到知己知彼。最后,潛在客戶的研究。這些客戶雖然表面看來,調(diào)查問卷中并沒有他們的信息。但是,頻繁更換手機者以及部分沒有手機者構成了這一族的大部分成員。同其他零售產(chǎn)品一樣,電信產(chǎn)品也有其外部載體手機。新款手機更加輕巧,擁有更多功能,因而也更具吸引力。結果是,手機的頻繁更換就為制造商制造了一個競爭的空間。另外,沒有手機的用戶大多都填寫了背景資料,因此這也是可以挖掘的領域。所以,對品牌偏好的客戶,主要研究可以集中在品牌偏好研究,而對于目前還沒有手機的客戶來說,注重研究客戶的特征提取。由于問卷調(diào)查數(shù)據(jù)的類型基本為定性或定序數(shù)據(jù),數(shù)據(jù)之間的關系分析主要依賴關聯(lián)分析的結果。本案例將重點集中在下面四個問題中:(1) 客戶在對手機功能、服務、電信公司的不滿意變量的研究,找到影響電信公司易流失客戶的數(shù)量模型。(2) 易流失客戶的流失預測得分模型的建立。(3) 潛在手機客戶的特征研究。(4) 頻繁更換手機的客戶對手機品牌偏好研究。(二)研究假設本研究的主要目的是探討影響手機使用情況的客戶滿意度的因素有哪些,并希望借助滿意度得分建立客戶流失模型,探討不同背景的客戶在滿意度方面的差異如何。為驗證上面這些問題,本研究提出如下兩條重要假設:1、 手機用戶對手機性能、手機整體滿意度以及對電信公司的滿意程度是影響用戶主動更換電信公司的直接原因。2、 不同背景的客戶由于年齡、性別、教育程度、戶籍、政治信仰、政治主張、職業(yè)的不同,會造成用戶對手機滿意度上的感受存在差異。(三)數(shù)據(jù)質量的考察和主題進一步確定本案例研究的調(diào)查數(shù)據(jù),所以數(shù)據(jù)中會有大量的缺失和異常現(xiàn)象,缺失數(shù)據(jù)的嚴重情況如圖3所示。按照缺失數(shù)據(jù)的提示和缺失情況,來確定主題、主題數(shù)據(jù)庫和分析的整體框架,是本案例的最大的特點。圖3從數(shù)據(jù)的行看缺失數(shù)據(jù)個數(shù)的分布情況我們首先從110萬條數(shù)據(jù)中,隨機產(chǎn)生3808筆數(shù)據(jù),研究缺失數(shù)據(jù)的結構和分布情況。圖3表示的是每條數(shù)據(jù)上缺失數(shù)據(jù)個數(shù)的整體分布情況,我們從圖上很容易發(fā)現(xiàn),缺失數(shù)據(jù)個數(shù)的眾數(shù)比較明顯,從缺失的個數(shù)相對集中,可以推斷數(shù)據(jù)的缺失情況大致可以分為4類,也就是缺失個數(shù)較多的2,3,23和31。原因如表3所示:缺失數(shù)據(jù)的個數(shù)原 因缺失率=缺失記錄條數(shù)/總樣本容量2a15,a16沒有填答,這些項目涉及更換電信公司的詳細信息9.5%3a15,a16,a20沒有填答,這些項目涉及更換手機和電信公司的詳細信息24%23a2 上回答目前沒有手機,但是它們都填答了個人背景資料31%31a1上資料有問題,因此后面的選項均未填答5%表3缺失個數(shù)較多的原因分析首先,問項中有三道題目是篩選題目,它們構成了無回答數(shù)據(jù)的主要原因。其中a1表示數(shù)據(jù)是否有問題,a1=1的后續(xù)題目全部空白,這樣的記錄占總數(shù)據(jù)的10.5%,這些數(shù)據(jù)首先被刪除,同時變量a1也被刪除,因為它只有一個值。變量a2表示被訪問者目前擁有手機的情況,1表示擁有手機,而2表示目前沒有手機,所幸的是,在a2=2的被訪問者在個人資料方面填答的完整率高達89%,因此,為手機潛在客戶的研究提供了寶貴的數(shù)據(jù)。按照a2的取值,將數(shù)據(jù)分為潛在客戶群和當前手機客戶群,這樣操作之后的缺失數(shù)據(jù)和整理之前的缺失數(shù)據(jù)情況如表4所示:NameValuesMissing %刪除a1=1NameValuesMissing %刪除a1=1NameValuesMissing %刪除a1=1A120%A12553%43%A23555%44%A2212%1.3%A13553%43%A24555%45%A3850%40%A14354%43%A25556%45%A4351%40%A15390%80%A26218%6%A5351%41%A16*890%79%A27717%6%A6351%41%A17954%43%A28727%15%A7351%41%A181254%43%A29421%8%A8352%41%A19254%44%A30522%9%A9552%42%A201083%72%A31722%9%A10553%42%A21254%44%A321022%10%A11553%42%A22555%44%A332422%10%表4 缺失數(shù)據(jù)情況表(*表失該變量缺失嚴重)(四)研究框架下一步,確定分析的主題,商家提出的問題是否可行,數(shù)據(jù)挖掘的目的就是要讓數(shù)據(jù)說話。用來建立客戶滿意度模型的數(shù)據(jù)分布在5個層面的數(shù)據(jù):用戶對手機的滿意評價、用戶對電信公司服務的滿意情況、手機用戶的收訊情況等等。由于變量之間的關系復雜,直接建立模型,所以首要的問題是減少分析的變量,將有關系的變量組成主題,研究框架如圖6.4所示: 圖4 確定主題和主題數(shù)據(jù)立方體生成三、整理數(shù)據(jù)和準備建模數(shù)據(jù)集(一)、軟件使用說明:由于所有的發(fā)現(xiàn)過程都只依賴于數(shù)據(jù),這與傳統(tǒng)、早期的數(shù)據(jù)分析一樣,數(shù)據(jù)挖掘的每一個步驟都面臨著同樣的挑戰(zhàn),需要經(jīng)驗和專業(yè)技術。上面這些步驟在后面的案例中很清楚地描述。在我們的工作中,相當大的努力投入到這些數(shù)據(jù)挖掘的前期工作,而不是僅僅用于建立模型,模型是否成功依賴于前面的對數(shù)據(jù)的探索。只有對數(shù)據(jù)有著良好的理解,數(shù)據(jù)挖掘的過程,以及由數(shù)據(jù)挖掘技術發(fā)展出來的模型的才是有價值的。雖然發(fā)現(xiàn)過程的很多工作已經(jīng)由機器來代替,通過可視化的大大簡化了上述的步驟,但是在半自動化的操作中,人的因素起到關鍵的作用,特別是在建立模型和執(zhí)行效率方面,最新發(fā)展起來的很多工具,依然有很多限制?;谏鲜鲋T多因素的考慮,我們對本案例的分析采用的主要工具是S-plus2000和SASEM(試用版)。S-plus的優(yōu)點是統(tǒng)計計算效率高,很多S庫函數(shù)在設計的時候,已經(jīng)考慮了缺失值和異常數(shù)值按用戶指定的方式進行處理。它的缺點是不能容納超過5X106的數(shù)據(jù)量,即內(nèi)存中不能一次性滯留50萬筆以上的數(shù)據(jù)。但是,如果數(shù)據(jù)一旦進入數(shù)據(jù)庫,則其執(zhí)行效率非常高。由于我們在分析中使用的是SASEM是由網(wǎng)絡上下載的試用版本,因此具有不可編程的特點(盡管SAS的其它模塊都可以編寫程序),這樣阻礙了我們分析的自由度,而s-plus本身的編程自由度相對較大,所以我們在本案例的所有數(shù)據(jù)的預處理,都是在s-plus之下進行的,而只是在建立模型階段,才使用了SASEM,SASEM的優(yōu)勢在于,它設計了很友好的圖形可視化界面,通過圖形傳達了數(shù)據(jù)挖掘對模型表達和模型評價的基本概念。另外,由于關聯(lián)規(guī)則的計算涉及到非項目集上的運算,而這一功能試用版本SASEM中也不具備。為了提高運算效率,筆者首先將110萬條數(shù)據(jù)拆分成11萬條一組,共計10個分段數(shù)據(jù)集(最后一組的數(shù)據(jù)量超過10萬條)。由于本研究中,并未涉及到抽樣的方式,只用到隨機抽樣。因此,這樣的拆分并不影響計算的結果,如果忽略在不同的數(shù)據(jù)集上轉換抽樣所花費的時間,則在S-plus上的計算效率是很高的??傊?,本案例結合了S-plus自由的編程能力和SASEM的數(shù)據(jù)挖掘流程的良好輸出功能,來輔助完成本案例的研究,為數(shù)據(jù)挖掘軟件的實踐提供重要參考。(二)、缺失、異常數(shù)據(jù)處理當確認了我們的數(shù)據(jù)適合問題的研究之后,就是復雜而瑣碎的數(shù)據(jù)的清理。在建模的時候,我們需要盡可能完整的數(shù)據(jù)。 首先計算缺失數(shù)據(jù)的情況,從表2中,比如:感興趣的評價滿意度的三個變量a22,a23,a24,a25,缺失比例超過40%。接下來,是有關缺失值的處理工作。怎樣對付缺失數(shù)據(jù)呢?通常情況下,有下面的幾種方法:u 漠然處之: 當使用決策樹建立模型的時候,少量的缺失數(shù)據(jù)是可以被允許的。因為在決策樹建模過程中,為了防止過度擬合,都會假定訓練樣本的每個節(jié)點所允許的最少的樣本點的個數(shù)不能低于某個域值,我們在本案例中,選擇目標變量的缺失率不超過1%,則不對訓練數(shù)據(jù)做任何處理。u 刪除含有異常值的行:這樣做,可能意味著對數(shù)據(jù)進行了帶有歧視性的抽樣,如果刪除的數(shù)據(jù)很多,就會影響數(shù)據(jù)的分布,可能會造成數(shù)據(jù)的有偏,因此應該謹慎使用。這里,首要的問題是缺失數(shù)據(jù)質量的判斷。如果某條記錄上數(shù)據(jù)缺失相當嚴重,那么就應該采取刪除的辦法,刪除最壞的影響就是樣本代表性問題。因為我們的數(shù)據(jù)是電話調(diào)查的數(shù)據(jù),樣本是根據(jù)各個地區(qū)人口的比例,分層抽樣得到的,因此在刪除的時候,應該對比刪除以后和刪除以前各個地區(qū)刪除的號碼比例(計算公式=刪除個數(shù)/地區(qū)人口數(shù))是否一致。在各個地區(qū)內(nèi)數(shù)據(jù)的一致性問題。圖5顯示了刪除a1=1之前和之后的數(shù)據(jù)在各地區(qū)的分布情況,由圖上,很容易發(fā)現(xiàn)號碼代表性比例基本保持不變。事實上,只要在可能刪除的地方,插入t檢驗,就有可能避免錯誤的刪除操作。 圖5 刪除數(shù)據(jù)以后的比例和刪除以前的比例比較圖u 忽略相應的變量:忽略掉含有缺失值較高的變量,將注意力集中到完整的數(shù)據(jù)上。如果僅有少量的列含有缺失值。通常,忽略掉它們是可以接受的,或者用一個顯示數(shù)據(jù)是否缺失的標示變量來替代這些變量。u 采用預測值:一個較為粗糙的辦法是將列均值或眾數(shù)值插入缺失的列。當研究單一變量的時候,這樣做是可能的。而在多變量的情況下,可能造成不公平。另外,在已有的SOLAS for Missing Data Analysis 1.0標準中,主張利用變量之間的關系,比如:采用回歸分析插補數(shù)據(jù),而對于定性數(shù)據(jù),可能通過關聯(lián)規(guī)則插補。如果定性變量較多,可以嘗試使用決策樹或神經(jīng)網(wǎng)絡算法值來預測缺失列中的值。這里,由于我們的目標是預測,因此,將三種方法對比,從中選擇表現(xiàn)較好的方法,篩選模型的方法采用累積增長圖。三種方法的預測效果在客戶對手機性能和手機使用情況,刪除缺失數(shù)據(jù),并保持抽樣隨機性不變的情況下,目標變量中仍然存在少量的異常數(shù)據(jù)。因此采用首先忽略異常數(shù)值,建立模型之后,又將預測的結果用于目標變量的估計。u 建立獨立的模型:更換電信公司較為頻繁的客戶,可以作為一類特殊的群體來對待,因為這部分的數(shù)據(jù)只有6萬條,應該將這些數(shù)據(jù)單獨提取出來,進行模型的建構。根據(jù)所能獲得的各個消費者的數(shù)據(jù)對他們進行劃分可以消除許多棘手的問題。該方法對取值不存在的缺失數(shù)據(jù)尤為有效。如果將所有的缺失數(shù)據(jù)都除掉,也就是說,將會有怎樣的后果。因為剔除哪一個數(shù)值和剔除哪些變量,是和變量、以及記錄之間的關系有關。本文這里剔除異常值和剔除缺失數(shù)據(jù),都采用了插補法,具體將在下面的關聯(lián)規(guī)則中仔細敘述。除此之外,由于a19問項“是否有更換手機歷史”是篩選題,它用來篩選a20,因此,對前一題目作出否定回答的被訪問者,在此a20上造成缺失數(shù)據(jù)者,恰恰是企業(yè)的忠實客戶。這也解釋了為什么a20的缺失率達到83%。從單變量分布的觀察來看,由于問題中還有拒絕回答項,拒絕回答的數(shù)據(jù)顯示為“88”或“99”這樣的數(shù)據(jù),如果量不多,比如只占到1%,可以考慮刪除個別,或將無回答數(shù)據(jù)用其它的變量按照取值的比例賦權重,分配到其它的回答中間。反之,如果客戶的變量相對無回答數(shù)據(jù)較多,則可以將無回答數(shù)據(jù)用其它的變量按照取值的比例賦權重,必須將這些數(shù)值重新賦值,分配到其它的回答中間。從我們的問題來看,有關手機滿意度的5個指標拒答率極高,超過5%,最高達到26%,因此需要進行處理。而客戶特征變量相對較少。清理完的數(shù)據(jù)集用于滿意度模型的數(shù)據(jù)只有10萬筆,而用于客戶細分的數(shù)據(jù)只有4萬筆。粒度是指建模數(shù)據(jù)的級別大小。通常情況下,數(shù)據(jù)挖掘算法作用于原始數(shù)據(jù)的每一行。所有關于一個客戶(或者其他我們感興趣的對象)的數(shù)據(jù)資料都應該放在同一行中,這些數(shù)據(jù)通常會根據(jù)粒度的大小來匯總,如圖6。比如,在更換手機這個變量上,由于變量取值較多,而缺失數(shù)據(jù)又比較多,因此就可能造成某些取值的記錄過分稀少,不利于抽樣和推斷。因此,將數(shù)據(jù)合并處理。1234560.3910.3020.1790.050.0350.01778910880.0020.0060.00030.0170合并數(shù)據(jù),整理成合適粒度012以上0.3910.3020.307圖6 將a20 合并匯總(三)、在線抽樣算法在關聯(lián)規(guī)則計算中的應用關聯(lián)規(guī)則在本案例的作用主要表現(xiàn)在以下兩個方面:首先,用于數(shù)據(jù)的分割和變量的選擇,也就是說,哪些變量之間的關系值得研究,得到的結果是有意義的,這稱為變量的選擇。使用手機物理性能、更換手機情況、以及對電信公司的滿意程度三組變量:a5、a6、a7、a8、 a22、a23、a24、a25、a9、a10、a11、a12、a13變量建立客戶對于電信公司的滿意度模型,首先,不考慮關聯(lián)性如果將所有的對數(shù)據(jù)不實施分割,則計算得到的不滿意度指數(shù),在不同的用戶上沒有太大的區(qū)別。將變量引入模型,由于a5_a8僅取兩個數(shù)值,將數(shù)據(jù)2倍,消除量綱,然后提取主成分,將主成分上的得分作為目標變量,建立客戶細分模型,發(fā)現(xiàn)只有a33上有明顯不同。事實上,在沒有選擇變量的基礎上,各滿意度變量在用戶的背景上沒有顯著差異,表5顯示的是各影響變量上滿意的用戶背景和不滿意的用戶背景之間的t.test檢驗p-值: a5a6a7A8a9a10A111.001.001.000.980.850.970.96a12a13a22a23A24a251.001.000.961.000.960.86表5各影響變量用戶背景差異的最小的t.test檢驗p-值主要原因,是沒有進行變量的選擇和數(shù)據(jù)的分割。我們限制輸出為不滿意的變量值,采用關聯(lián)分析,發(fā)現(xiàn)排列有意義的二、三元規(guī)則如表6:序號關聯(lián)規(guī)則支持度可信度所用到的樣本容量1A8=2-a7=120%2.51872A7=2-a6=120%2.32543A6=2-a5=120%1.63424A8=2,a7=1-a33=420%87%4725A8=2,a7=1-a27=320%82%4326A7=2,a6=1-a26=120%80%5727A7=2,a6=1-a33=1020%80%6628A6=2,a5=1-a27=420%80%6899A6=2,a5=1-a29=220%81%739 表6關聯(lián)分析部分結果按照a8、a7、a6上的取值,將數(shù)據(jù)分成三類,分別建立不滿意度模型。第二、將掛念分析用于缺失數(shù)據(jù)處理方法的選擇上。雖然理論上可以用沒有缺失的變量估計缺失變量,但是,如果用于預測的變量上仍然缺失,即便回答數(shù)據(jù)的關聯(lián)性非常強,也無法做出預測。因此應該選擇被預測的變量和預測變量之間缺失數(shù)量上關聯(lián)性較差,作為進入預測缺失數(shù)據(jù)的輸入條件。也就是說,通過計算不同變量上缺失數(shù)據(jù)的關聯(lián)情況,可以推算用哪些變量進行預測,因為并由此推算出哪些變量上的缺失數(shù)據(jù)可以由與它關聯(lián)性較強的同行的數(shù)據(jù)來替代。第三,可以利用變量之間的關聯(lián)性進行估計。比如:更換過手機的用戶相對于沒有更換過手機的客戶更容易在手機的性能上回答滿意,因此可以利用變量的關聯(lián)性進行插補。如果變量之間多元規(guī)則成立較多,也就是說缺失數(shù)據(jù)關聯(lián)性強,那么就可以將這些數(shù)據(jù)刪除。如果缺失數(shù)據(jù)關聯(lián)性差,如果將數(shù)據(jù)全部刪除,則可能導致數(shù)據(jù)量的不足,一般統(tǒng)計軟件內(nèi)設的成批刪除(list-wise deletion)缺失值和異常數(shù)值。但若遺漏值較多則會損失大量的資料,導致樣本偏誤這一標準如何制訂,現(xiàn)在尚沒有標準。已有的SOLAS for Missing Data Analysis 1.0標準中,主張采用回歸分析來插補數(shù)據(jù),其實也就是利用了連續(xù)變量要間的關聯(lián)性,而對于定性數(shù)據(jù),需要通過關聯(lián)規(guī)則的建立插補規(guī)則。為簡單起見,我們僅僅考察了二元關聯(lián)規(guī)則的建立。以手機滿意程度和手機的收訊情況和手機的更換情況為例,所有可能的關聯(lián)規(guī)則為8*5=40。因此,將所有變量采用ASAR算法和Apriori算法相結合,去除缺失缺失的情況,就是我們需要的結果。為提高運行效率,我們僅僅取前10位表現(xiàn)最好的規(guī)則,按照前一章符號表示,首先,我們規(guī)定最小支持度為15%,最小支持度的下界為=10%,也就是說,置信度取值為0.1,按照第六章的定理2,可以計算批量抽樣的樣本容量,另外,為提高計算效率,將取值較多的變量a33,a32,a20暫時沒有計算在內(nèi),原因是這兩個變量的密度比較分散,這樣的分布情況,很難表現(xiàn)出高支持度成立的規(guī)則。計算可能的二元關聯(lián)規(guī)則為|C|=798,由Hoeffding不等式計算所需要的樣本容量為:=7188而超過15%的規(guī)則中,超過的部分越多,算法的執(zhí)行效率越高,比如:某規(guī)則的支持度在15%以上,則只要3594個樣本就足夠達到以90%的可能性,接受規(guī)則超過15%,由于規(guī)則的實際支持度和所需要的樣本容量成正比,因此,從規(guī)則出現(xiàn)的先后順序就可以決定插補原則的順序,比如規(guī)則1和規(guī)則2都支持a19=1,但選擇的先后順序以前者為優(yōu)先考慮。最后的結果是在線產(chǎn)生了4,718筆數(shù)據(jù),得到了近似的關聯(lián)規(guī)則,這些關聯(lián)規(guī)則均以90%的置信度成立,和理想值的支持度上差異在0.05左右,而置信度在90%。在線抽樣的結果顯示最先產(chǎn)生的10個關聯(lián)規(guī)則,以及他們所用到的樣本容量,以及支持度的反估計如下:序號關聯(lián)規(guī)則支持度可信度所用到的樣本容量支持度的反估計1A8=2-a19=120%89%13421.5%2A8=2-a19=220%87%12321.5%3A6=2-a19=120%91%20321.3%4A6=2-a19=220%83%30420.3%5A2=1-a19=520%87%20420%6A5=2-a19=120%80%32020%7A8=2-a19=120%80%59119.6%8A6=2-a19=120%80%60719.5%9A5=2-a19=220%81%65318.7%10A5=1-a19=220%79%66818.3%表7 在線抽樣算法排名前10位強關聯(lián)規(guī)則 假定ax與a19的可信度為按照可信度,則如下建立估計原則如下: 。這些變量與a19不同時缺失的比例如表8所示:序號解釋變量P(A19缺失|不缺失)1A80.972A70.97 3A60.97 4A50.97 5A24100%6A22100%7A25100%8A23100%表8與a19不同時缺失的變量比例實驗中對a19進行插補的原則基本按上述強關聯(lián)規(guī)則進行,插補以后的a19缺失率為14%,和其他變量的強關聯(lián)關系基本保持不變,插補前和插補后各個取值的比例如圖6所示,圖中顯示了插補后a19的取值和插補前基本比例沒有改變。 圖6 插補前后數(shù)據(jù)分布變化不大由圖中,可以明顯發(fā)現(xiàn)插補變量的分布沒有造成巨大的有偏現(xiàn)象出現(xiàn),表示插補基本成功。我們的實驗再次展示了在線抽樣算法計算的效率,只要700個樣本,就基本可以完成我們的任務,而批量抽樣則需要8843個樣本,才能將好的規(guī)則挑選出來。 建立模型和分析結果1、電信公司滿意度關聯(lián)分析:調(diào)查問卷中有關手機和電信公司服務方面的滿意度的評測,共計10個題目,被調(diào)查對象需要對他們的回答從5-1進行排序,意思表示非常滿意到不滿意。一共有136,0260份問卷。回答是一次的。這樣大量的樣本在數(shù)據(jù)庫中,每個問答的問題的大代表著一種屬性,屬性的取值從1到4。除此之外,數(shù)據(jù)中的缺失數(shù)據(jù)平均達到50%以上,對每個屬性來講。其中的一些屬性語義相關(獨立),比如,只有當客戶從競爭對手中購買了服務,客戶對競爭對手的評價才會出現(xiàn)在回答問卷中。理解這些互相的關系對于分類問題是至關重要。這個數(shù)據(jù)集里的數(shù)據(jù)是定序數(shù)據(jù)所構成的。這些數(shù)據(jù)可以用傳統(tǒng)的統(tǒng)計技術來測量客戶的滿意程度。而我們現(xiàn)在的任務是要分析這些數(shù)據(jù),提出建議的方案,得到客戶的不滿意程度。在建立不同的模型的時候,將采用不同的整合數(shù)據(jù)的方法:1、首先是模型的選擇,電信因變量和自變量關系的研究,電信公司有7個,滿意度影響方式有5個變量,我們在線隨機抽取了50000筆數(shù)據(jù),得到下面的結果。在分析之前,我們?nèi)匀幌駛鹘y(tǒng)分析方法一樣,將在線抽取部分數(shù)據(jù)和母體做適合度檢驗,得知樣本與母體間的結構相符,表示我們下面的分析是有效的。支持中華電信 (0932 0933)清晰度、計費方式、服務效率和服務人員態(tài)度和整體服務品質基本滿意成立,支持度依次為12%,12%,13%,8%,11%;支持臺灣大哥大(0920 0922)清晰度、計費方式、服務效率整體服務品質基本滿意成立10%,7%,7%,9%,其中服務效率規(guī)則表現(xiàn)不明顯。同時,從最先淘汰的規(guī)則是對五種服務完全不滿意,而從不滿意的維度來看,對中華電信公司不滿意的規(guī)則最后淘汰,說明對中華電信公司的滿意程度存在兩種,其中大部分的觀點是滿意的,而有一小部分不滿意的意見。到底哪些對象對臺灣大哥大(09200922)的哪些服務指標不滿意,是我們下面要深入探討的問題,這一問題的解決有助于幫助企業(yè)找到他們服務方面的問題癥結,從而為企業(yè)提供更有利的決策支持。進一步分析發(fā)現(xiàn),在滿意度評價方面,下面三種規(guī)則得到支持:1、對通話清晰度基本滿意,但對計費方式認為有不合理傾向。(6%,90%)2、對通話計費基本滿意,但對電信公司的服務效率認為不滿意傾向。(7%,90%)3、對通話計費表示滿意,但對整體服務表示不滿。(6.5%)2、不滿意客戶細分由于篇幅所限,我們僅列出a8=2,a7=1分類上的不滿意模型。通過關聯(lián)分析得到的不滿意變量組合: a22、a23、a24、a25、a9、a10、a11、a12、a13變量建立滿意度模型。提取滿意度指數(shù)的方法是主成分分析方法,在采用主成分分析方法之前,首先,先考察缺失數(shù)據(jù)的分布情況,以及刪除缺失數(shù)據(jù)對樣本有偏性的影響。通過類似于前面的關聯(lián)分析和t檢驗,并沒有發(fā)現(xiàn)刪除后各個地區(qū)變量上的數(shù)值分布有很大的變化。事實上,兩兩比例之間的比較,最小的t檢驗p值是0.67,最大的是0.99。主成分分析結果如圖7:圖7:主成分分析結果從中提取三個主成分:prin1=0. 31*a22+0.32*a23+0.41*a24+0.19*a25+0.53*a9 prin2=0. 11*a22+0.07*a23+0.03*a24-5.19*a25+0.11*a9+0.21*a10+0.11*a12 prin3=0. 35*a10+0.41*a11+0.56*a12+0.51*a13prin1反映用戶對手機使用的不滿意情況,prin2反映的是用戶對電磁波的影響,prin3則主要反映用戶對電信公司的不滿意情況。按不滿意度指數(shù)(prin1,prin2,prin3)進行分類,分類權重為三個變量對方差的貢獻率,手機在車上沒有收訊正常,但在郊外有問題的用戶的類型如表9所示:項目第1群第2群第3群教育程度a29職業(yè)a32白領級上班族學生、黨派a28年齡a2730-3940-49歲20以下民族閩南、原住客家、外省戶籍地理所在地a33 (4,10,13)(5,11,1,3)對電磁輻射關心程度a25非常人數(shù)比例53%32%15%表9 手機在車上沒有收訊正常,但在郊外有問題的用戶的類型從上面的分析中,第一群人的特征非常明顯,這類人年齡中年,事業(yè)成功,有財力進行野外旅游,因此會對郊外的手機使用較為敏感,是一類應該注意的群體。 3、客戶流失模型的建立找到對臺灣大哥大不滿意的群體類型。因此,以該變量上是否滿意為類別,問卷中第26-33題是對客戶對手機健康的重視程度、心理能力、性別、年齡、教育程度、職業(yè)、政治信仰和地區(qū)五個變量進行的決策判斷。 圖8 建立模型的步驟圖由于政治信仰兩個題目均有90%的數(shù)據(jù)反映有中立傾向,又由于臺灣政治信仰方面的信息了解不完善等原因。所以在分析滿意度模型的時候,暫時將這兩個變量去掉。由于數(shù)據(jù)是定性的數(shù)據(jù)。首先,這里,有25103條記錄接受中華電信的服務。而對中華電信不滿意的記錄條數(shù)約占總記錄的12%,占中華電信客戶的68%,那么這部分人群有怎樣的特征。在抽樣方法上,選擇重抽樣的,它的基本原理是少數(shù)全抽,多數(shù)的少抽。7.5%, 10,5053圖9 待分析的數(shù)據(jù)比例太少我們采用了類神經(jīng)網(wǎng)絡、邏輯斯回歸和決策樹模型,進行預測模型的建立,圖中發(fā)現(xiàn),身體健康、性別和教育程度三個變量表現(xiàn)比較顯著,圖10 SASEM所呈現(xiàn)出來的預測模型的累積增益圖比較4、頻繁更換手機的目標人群的客戶細分模型:這類潛在客戶定義為所有數(shù)據(jù)記錄中,更換次數(shù)多于2次的客戶,我們采用CART決策樹建立模型的方法,建立如下模型: 圖11 決策樹預測模型結果精度較高深度為5的樹狀圖如圖12 :圖12 樹形圖如果用深度為6的樹型圖分析,則可以得到如表10所示的七個類別特征:項目第1群第2群第3群第4群教育程度a29高中職中居多職業(yè)a32退休、家庭主婦上班族學生、白領級黨派a28國民黨、親民黨國民黨、親民黨146年齡20-29歲、30-39歲、40-49歲20以下、30-39歲、40-49歲民族外省、原住客家、閩南戶籍地理所在地a33南部(4,9,14)北部、中部、東部(2,3,10,11,12,17,19)北部居多2,11,17對電磁輻射關心程度a25非常不太關心政治主張民進、中立更換頻繁率93.2%95.368.7%70%人數(shù)5656214187項目第5群第6群第7群教育程度a29高中及以上、大專大學及以上高中、大專以上職業(yè)a32主婦、白領白領、專業(yè)技術學生1347黨派a28年齡20-29,40-49民族戶籍地理所在地a337,13,16,20,224571568,15,18對電磁輻射關心程度a25不關心政治主張新黨更換頻繁率70.4%68.4%100%人數(shù)886716表10 頻繁更換手機的客戶細分從樹形圖中容易得到下面的分析結果:對手機更換次數(shù)來講,表現(xiàn)顯著的變量有:地理位置、職業(yè)、民族、教育程度、健康狀況的影響以及黨派觀念六個變量,由于我們的目標在于更換手機較為頻繁的人群。因此,容易我們找到下面三種特征的人群(重度更換人群):1、 地處臺中和臺南、無黨派或對政治不感興趣的家庭主婦或退休人員,為更換兩次以上手機的高發(fā)人群,具體傾向估計為88.1% 。2、 原住民、外省籍,稍有政治傾向的學生、白領、公務員,有較高的對更換兩次以上手機有較高的更換傾向。3、 臺北一帶學生、白領人員,是對電磁輻射較為敏感的人群,他們有較高的更換傾向。4、 擁護民進,以及保持中立的高雄等南方一帶。5、 居住在臺南、臺中、云村、臺東等地,學歷一般,對政治不感興趣的家庭主婦和白領人員。6、 居住在新竹、臺中、臺南,大學及以上,20-29,40-49歲的白領和高級技術人員。7、 居住在北部,擁護新黨的人群。5、目前沒有手機的潛在客戶項目第1群第3群第3群教育程度a29高中、大專及以上職業(yè)a32軍公教、民營企業(yè)白領上班族、專業(yè)技術人員醫(yī)師、律勞力工作者包括技工黨派a28年齡a2730-39、40-49,50-5940-49,50-59政治信仰a31主流黨派4、5、6非主流黨派主流黨派民族a30本省閩南 外省籍客家、外省戶籍地理所在地a33 人數(shù)比例61%12%27% 表11 目前沒有手機的潛在客戶類型從上面的分類中,發(fā)現(xiàn)88%的非手機用戶的年齡在中年,政治信仰集中在主流黨派,這個年齡群體值得注意。6、目標客戶群的偏好分析 在這一部分,我們將重點研究不同品牌的手機和他們在手機功能上的滿意度評價之間的關系,首先,我們在上一節(jié)分析的基礎上,找到我們感興趣的潛在客戶群,比如對于第6組,女性小資類我們使用的工具是多維標度法,分別找到這類人群在手機各滿意度上的平均得分(平均的計算按中位數(shù)),如表1。各個不同品牌的手機和他們在手機功能上的滿意度評價:MOTOROLANOKIAERICSSONSAGENPANASONICACER功能21365 4收訊能力413265整體256134外型412365輻射3125641) 各變量評價總平均整合如下圖:根據(jù)變量總平均計算距離矩陣如下:Proximity MatrixMOTOROLANOKIAERICSSONSAGENPANASONICACERMOTOROLA2.088
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 科技園區(qū)場地租賃分成及人才引進合同
- 草場租賃與草原生態(tài)補償及資源保護合同
- 清算還款協(xié)議書范本
- 建筑工程測量員專業(yè)服務協(xié)議
- 出租車乘客安全保障合同協(xié)議書
- 花藝沙龍培訓
- 2024年“工會杯”職工技能競賽化學檢驗員賽項理論考試題庫(濃縮500題)
- 高三化學一輪復習 訓練題-物質結構與性質
- 工廠成本方面培訓
- 植物護理幼兒園
- 人工智能輔助科研數(shù)據(jù)挖掘與分析
- 河南省鄭州市管城回族區(qū)2024-2025學年數(shù)學五年級第二學期期末聯(lián)考試題含答案
- SEAtech 石油石化ICS網(wǎng)絡安全解決方案
- 班級管理中的法治教育實踐
- 智能化、數(shù)字化轉型
- 天津中考英語2020-2024年5年真題匯編-學生版-專題09 短文首字母填空
- 中山市第一中級人民法院保險糾紛審判白皮書(2021年-2023年)2024年11月
- 綜合機電供應及安裝專業(yè)分包工程機電系統(tǒng)調(diào)試方案
- 供應室安全目標
- 城市軌道交通車輛智慧運維系統(tǒng)技術規(guī)范
- 高等數(shù)學基礎-005-國開機考復習資料
評論
0/150
提交評論