家庭關(guān)系識(shí)別的數(shù)據(jù)挖掘模型.doc_第1頁
家庭關(guān)系識(shí)別的數(shù)據(jù)挖掘模型.doc_第2頁
家庭關(guān)系識(shí)別的數(shù)據(jù)挖掘模型.doc_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

家庭關(guān)系識(shí)別的數(shù)據(jù)挖掘模型 ( )摘 要: 數(shù)據(jù)挖掘技術(shù)已經(jīng)在各個(gè)行業(yè)得到了廣泛應(yīng)用,本文在總結(jié)前人研究的基礎(chǔ)上,提出一種類似縱表的挖掘思路,并利用此思路和決策樹技術(shù),分析固定電話和手機(jī)號(hào)碼的親情關(guān)聯(lián)關(guān)系模型,詳述模型構(gòu)建過程及思路,并對(duì)模型結(jié)果作驗(yàn)證分析。關(guān)鍵詞:數(shù)據(jù)挖掘,類似縱表,家庭關(guān)系,決策樹1 引言一般數(shù)據(jù)挖掘所研究的表,是基于客戶為中心的寬表,即一個(gè)客戶一條記錄,這樣的橫表對(duì)于統(tǒng)計(jì)和挖掘是非常方便的,但是其擴(kuò)展性差,而縱表卻具備這樣的優(yōu)勢(shì)。如在通訊行業(yè),用戶在交往圈上存在較大差異,用一條記錄來說明用戶的交往圈是不恰當(dāng)?shù)?,則需要利用縱表的優(yōu)勢(shì),用一條記錄來概括兩個(gè)號(hào)碼之間的關(guān)系,即號(hào)碼對(duì)。一個(gè)用戶的交往圈可以用多個(gè)號(hào)碼對(duì)來描述,且擴(kuò)充性非常好,同時(shí)同一用戶的多個(gè)號(hào)碼對(duì)(組內(nèi))又不是相互獨(dú)立的,不同用戶(組間)的號(hào)碼對(duì)是相互獨(dú)立的,這就是這種類似縱表的特點(diǎn)所在。2 家庭關(guān)聯(lián)關(guān)系模型構(gòu)建本文利用數(shù)據(jù)挖掘方法和技術(shù),通過固定電話來分析和判斷某一手機(jī)號(hào)碼是否為家庭關(guān)聯(lián)關(guān)系,這個(gè)方法同樣適用于手機(jī)號(hào)碼與手機(jī)號(hào)碼之間為家庭關(guān)系的識(shí)別等等。2.1 背景介紹及假設(shè)截至2008年底某運(yùn)營(yíng)商擁有固定電話用戶2.14億戶,寬帶接入用戶4718萬戶,在固網(wǎng)方面仍然占據(jù)絕對(duì)的領(lǐng)先地位。承接了CDMA網(wǎng)絡(luò)以后,迅速推出了以原有家庭客戶品牌“我的E家”等新產(chǎn)品,并引入家庭關(guān)聯(lián)關(guān)系模型,較好地將固定電話和CDMA手機(jī)進(jìn)行融合。但是此模型是以CDMA手機(jī)號(hào)碼來識(shí)別固定電話,所以只識(shí)別內(nèi)網(wǎng)的家庭關(guān)系。為采取更有針對(duì)性的營(yíng)銷策略和異網(wǎng)策反,準(zhǔn)確識(shí)別固定電話和本網(wǎng)和它網(wǎng)的手機(jī)號(hào)碼為家庭關(guān)系尤為重要。本文采用了一個(gè)假設(shè)條件:一個(gè)固定電話至少存在一個(gè)家庭手機(jī)號(hào)碼。某個(gè)家庭固話與許多手機(jī)號(hào)碼存在交往,根據(jù)通話的緊密度及其他指標(biāo),得到手機(jī)用戶與該固話的家庭關(guān)系評(píng)分,選擇評(píng)分為最大值的手機(jī)號(hào)碼作為該固定電話對(duì)應(yīng)的家庭號(hào)碼。2.2 數(shù)據(jù)收集和整理 根據(jù)以往發(fā)展的“我的E家”品牌,可以識(shí)別出一部分固定電話和手機(jī)號(hào)碼為家庭關(guān)聯(lián)關(guān)系,并以此作為原始樣本,但是這些家庭數(shù)據(jù)存在一定噪聲,在樣本量滿足要求的情況下,需要對(duì)數(shù)據(jù)進(jìn)行清洗,目的為得到比較“純”的家庭關(guān)聯(lián)關(guān)系數(shù)據(jù)。如刪除固定電話和手機(jī)號(hào)碼登記的資料不一致,保留固定電話和手機(jī)號(hào)碼為一對(duì)一的,刪除登記資料存在錯(cuò)誤的家庭數(shù)據(jù),刪掉月度無通話等等一系列手段,獲取高純度的家庭關(guān)系號(hào)碼對(duì),樣本的純度直接影響模型的精準(zhǔn)度。2.3 寬表數(shù)據(jù)設(shè)計(jì) 在通信行業(yè),可以得到可靠和豐富的號(hào)碼之間的詳單數(shù)據(jù)。寬表預(yù)測(cè)的數(shù)據(jù)主要來自兩個(gè)部分:基礎(chǔ)數(shù)據(jù),衍生數(shù)據(jù)。基礎(chǔ)數(shù)據(jù)包括:主叫次數(shù)、被叫次數(shù),時(shí)長(zhǎng)等等;衍生數(shù)據(jù)則是通過數(shù)據(jù)分析或者統(tǒng)計(jì)學(xué)方法,找出顯著特征的屬性或者變量,衍生數(shù)據(jù)有時(shí)對(duì)于模型來說至關(guān)重要。衍生數(shù)據(jù)的設(shè)計(jì):例如對(duì)于固定電話,同一家庭關(guān)系的手機(jī)號(hào)碼,在通話次數(shù)、時(shí)長(zhǎng)、時(shí)段、頻率,交往圈等方面與其他手機(jī)號(hào)碼存在差異,根據(jù)這些差異來設(shè)計(jì)寬表字段。而這種差異可以利用已知高純度的家庭關(guān)系號(hào)碼對(duì)中的固定號(hào)碼的通話詳單,在統(tǒng)計(jì)上具備顯著性差異來衍生設(shè)計(jì)。如時(shí)長(zhǎng):固定電話與其家庭關(guān)系的手機(jī)號(hào)碼平均通話時(shí)長(zhǎng)為78秒,與非家庭關(guān)系的手機(jī)號(hào)碼的平均通話時(shí)長(zhǎng)為107秒,則可以設(shè)計(jì)短時(shí)通話次數(shù);如時(shí)段:統(tǒng)計(jì)他們的通話時(shí)段不同分布情況,設(shè)計(jì)在周中下午17:00-19點(diǎn)之間的通話次數(shù)等等。從中可以看出衍生數(shù)據(jù)的重要性,同時(shí)衍生數(shù)據(jù)設(shè)計(jì)跟我們對(duì)業(yè)務(wù)的理解也是緊密聯(lián)系的。已知是家庭固話與其有家庭關(guān)聯(lián)關(guān)系的CDMA 手機(jī)號(hào)碼對(duì)作為建模正樣本(標(biāo)記為1)。而家庭固話與其有沒有家庭關(guān)聯(lián)關(guān)系的手機(jī)號(hào)碼對(duì)為負(fù)樣本(標(biāo)記為0)。設(shè)計(jì)寬表字段如下:字段描述字段描述固定電話與其聯(lián)系的某一手機(jī)號(hào)碼2個(gè)月平均主叫次數(shù)2個(gè)月平均周中17-19:00主叫次數(shù)2個(gè)月平均被叫次數(shù)2個(gè)月平均周中17-19:00被叫次數(shù)2個(gè)月總呼叫次數(shù)2個(gè)月平均周中17-19:00總呼叫次數(shù)2個(gè)月平均主叫時(shí)長(zhǎng)2個(gè)月平均周中11-13:00主叫次數(shù)2個(gè)月平均被叫時(shí)長(zhǎng)2個(gè)月平均周中11-13:00被叫次數(shù)2個(gè)月總呼叫時(shí)長(zhǎng)2個(gè)月平均周中11-13:00總呼叫次數(shù)2個(gè)月90秒以內(nèi)通話次數(shù)2個(gè)月平均周末主叫次數(shù)2個(gè)月90秒以上通話次數(shù)2個(gè)月平均周末被叫次數(shù)2個(gè)月平均最短一次通話時(shí)長(zhǎng)2個(gè)月周末呼叫次數(shù)2個(gè)月平均最長(zhǎng)一次通話時(shí)長(zhǎng)2個(gè)月平均通話時(shí)長(zhǎng) 交往圈家庭關(guān)系標(biāo)志 在本次實(shí)驗(yàn)當(dāng)中,這里交往圈的值未給出。 同時(shí),需要考慮不同的家庭固定電話在通信行為中存在特定的個(gè)體差異,單純用絕對(duì)值作為預(yù)測(cè)變量導(dǎo)致模型存在偏差,需要將其標(biāo)準(zhǔn)化,得出相對(duì)值的衍生字段,如平均主叫次數(shù)比,這一比值可以由該固定電話用戶與某一手機(jī)號(hào)碼的值和該固定電話與全部手機(jī)號(hào)碼的最大值的比例得到。展示這種相對(duì)性還有一種技術(shù):秩,如平均主叫次數(shù)排名。依據(jù)這兩種技術(shù),可以得到對(duì)應(yīng)字段的衍生字段,繼而得出此挖掘模型所需寬表。2.4 模型構(gòu)建和驗(yàn)證 本研究采用決策樹算法,其一在于良好的模型效果,其二在于結(jié)果的可解釋性。采用SPSS公司的Clementine數(shù)據(jù)挖掘工具,具體算法采用決策樹算法CHAID,得到家庭關(guān)聯(lián)關(guān)系識(shí)別模型,同時(shí)我們將模型結(jié)果評(píng)分?jǐn)?shù)據(jù)進(jìn)行處理,對(duì)于某一個(gè)固定電話,以評(píng)分最高者為該固定電話對(duì)應(yīng)的家庭關(guān)系手機(jī)號(hào)碼。并對(duì)結(jié)果進(jìn)行誤分矩陣分析:矩陣預(yù)計(jì)非家庭關(guān)系預(yù)計(jì)家庭關(guān)系合計(jì)實(shí)際非家庭關(guān)系85765769152實(shí)際家庭關(guān)系56010931653合計(jì)9136166910805模型的查全率為1093/165366.1;命中率為1093/166965.5;模型整體準(zhǔn)確率為:(85761093)/ 1080589.5。預(yù)計(jì)家庭關(guān)聯(lián)關(guān)系合計(jì)1669,比實(shí)際家庭關(guān)聯(lián)關(guān)系1653多了16個(gè)號(hào)碼對(duì),即存在同一固定電話,找出2個(gè)評(píng)分分?jǐn)?shù)相等,并且都為最大值的手機(jī)號(hào)碼。在本次實(shí)驗(yàn)中,交往圈的數(shù)據(jù)太大,本次未納入模型,經(jīng)后來測(cè)試,納入模型后,查全率和命中率均可以提高5%以上。2.5 模型應(yīng)用 將模型運(yùn)用到全部固定電話號(hào)碼數(shù)據(jù)中,進(jìn)行匹配運(yùn)算和處理,進(jìn)一步得到家庭關(guān)聯(lián)關(guān)系為本網(wǎng)和異網(wǎng)的手機(jī)號(hào)碼,根據(jù)這些手機(jī)號(hào)碼可以得到:一, 為家庭關(guān)聯(lián)關(guān)系的手機(jī)號(hào)碼,幾乎90%為本地號(hào)碼。二,以本網(wǎng)的固定電話為基礎(chǔ),得到家庭關(guān)聯(lián)關(guān)系的手機(jī)號(hào)碼到市場(chǎng)份額見下表的家庭市場(chǎng)份額占比:移動(dòng)手機(jī)本網(wǎng)競(jìng)爭(zhēng)對(duì)手1競(jìng)爭(zhēng)對(duì)手2整個(gè)市場(chǎng)份額占比8.70%11.50%79.90%家庭市場(chǎng)份額占比11.10%12.10%76.90%市場(chǎng)份額占比差2.40%0.60%-3.00% 可見,在該運(yùn)營(yíng)商推出的“我的E家”品牌以后,在家庭市場(chǎng)份額占比優(yōu)勢(shì)較為明顯,但可以根據(jù)此模型,加大異網(wǎng)策反力度,提高市場(chǎng)份額。3 展望和延伸本文只是依據(jù)此數(shù)據(jù)挖掘方法和思路,實(shí)現(xiàn)了在通訊行業(yè)中,固定電話和手機(jī)號(hào)碼的家庭關(guān)聯(lián)關(guān)系識(shí)別,將該方法還可以運(yùn)用到通訊行業(yè)的重入網(wǎng)識(shí)別,同時(shí)還可

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論