手機(jī)用戶(hù)異網(wǎng)高端識(shí)別_第1頁(yè)
手機(jī)用戶(hù)異網(wǎng)高端識(shí)別_第2頁(yè)
手機(jī)用戶(hù)異網(wǎng)高端識(shí)別_第3頁(yè)
手機(jī)用戶(hù)異網(wǎng)高端識(shí)別_第4頁(yè)
手機(jī)用戶(hù)異網(wǎng)高端識(shí)別_第5頁(yè)
已閱讀5頁(yè),還剩37頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、答卷編號(hào)(競(jìng)賽組委會(huì)填寫(xiě)):答卷編號(hào)(競(jìng)賽組委會(huì)填寫(xiě)):論文題目: 手機(jī)用戶(hù)精準(zhǔn)識(shí)別模型(B)選擇方向: 異網(wǎng)高端用戶(hù)識(shí)別(1)參賽隊(duì)員:1.姓名: 王文天 學(xué)院:材料學(xué)院 2.姓名: 姚湘筱 學(xué)院:材料學(xué)院 3.姓名:肖佩豪杰 學(xué)院: 材料學(xué)院 指導(dǎo)老師:潘克家答卷編號(hào)(參賽報(bào)名號(hào)):答卷編號(hào)(競(jìng)賽組委會(huì)填寫(xiě)):評(píng)閱情況(評(píng)閱專(zhuān)家填寫(xiě)):評(píng)閱1.評(píng)閱2.評(píng)閱 3.手機(jī)用戶(hù)異網(wǎng)高端識(shí)別摘要本文用已有的本網(wǎng)手機(jī)用戶(hù)資料對(duì)部分本網(wǎng)用戶(hù)高端能力進(jìn)行了研究,并利用這部分本網(wǎng)用戶(hù)資料對(duì)其它本網(wǎng)用戶(hù)及異網(wǎng)手機(jī)用戶(hù)的行為特征進(jìn)行了預(yù)測(cè),并給出了一個(gè)靚號(hào)分級(jí)模型。對(duì)于問(wèn)題一,本隊(duì)首先使用svm神經(jīng)網(wǎng)絡(luò)模型對(duì)缺

2、失數(shù)據(jù)進(jìn)行了補(bǔ)充并對(duì)影響用戶(hù)高端程度的數(shù)據(jù)進(jìn)行了歸一化與極大化處理。之后,本隊(duì)采用層次分析法給上述數(shù)據(jù)賦予權(quán)值,再采用聚類(lèi)分析的方法將用戶(hù)分為1000級(jí)。將各項(xiàng)數(shù)據(jù)與對(duì)應(yīng)乘積的加和可以得到一個(gè)反應(yīng)用戶(hù)高端程度的具體數(shù)值,對(duì)分好的1000類(lèi)求其高端指數(shù)的均值,并按照指數(shù)的升序重新排列命名這1000類(lèi),使第1組用戶(hù)為最低端,1000組為最高端。以此1000個(gè)級(jí)別判別相對(duì)高端用戶(hù),再結(jié)合運(yùn)營(yíng)商的具體服務(wù)能力確定絕對(duì)高端用戶(hù)。 對(duì)于問(wèn)題二,本隊(duì)假定手機(jī)用戶(hù)在選擇手機(jī)號(hào)碼時(shí)不考慮本網(wǎng)異網(wǎng)差別,并且通話(huà)短信行為上有差別。因此可以由本網(wǎng)用戶(hù)的高端預(yù)測(cè)結(jié)果加上所有用戶(hù)的通話(huà)行為來(lái)預(yù)測(cè)異網(wǎng)用戶(hù)的高端程度及營(yíng)銷(xiāo)優(yōu)

3、先級(jí)別。預(yù)測(cè)異網(wǎng)用戶(hù)的分類(lèi)時(shí),本隊(duì)利用本網(wǎng)用戶(hù)的高端分類(lèi)對(duì)用戶(hù)的通化行為進(jìn)行標(biāo)定,得到94個(gè)行為變量,再對(duì)兩個(gè)用戶(hù)求算行為差異度,將任意一個(gè)沒(méi)有分類(lèi)的用戶(hù)用一個(gè)第一問(wèn)已經(jīng)分類(lèi)的用戶(hù)替代,迭代不斷利用其它用戶(hù)矯正過(guò)的分類(lèi)信息矯正某一用戶(hù)通話(huà)行為,再用該用戶(hù)的通化行為矯正該用戶(hù)的分類(lèi)信息,最后得到分類(lèi)結(jié)果。由于內(nèi)存與篇幅有限,本文列舉出隨機(jī)抽樣的30名異網(wǎng)用戶(hù)分類(lèi)結(jié)果以及通話(huà)費(fèi)預(yù)測(cè)值。并抽樣了本網(wǎng)1000名用戶(hù)進(jìn)行一次迭代預(yù)測(cè)檢驗(yàn),得到分類(lèi)誤差在100組以?xún)?nèi)的用戶(hù)比例為,并且有一定的可區(qū)分性,預(yù)測(cè)分布方差為組。對(duì)于問(wèn)題三,本隊(duì)從判別準(zhǔn)則合理性的評(píng)價(jià)、異網(wǎng)手機(jī)用戶(hù)月均消費(fèi)金額的估算評(píng)價(jià)、需改進(jìn)的地方

4、及改進(jìn)方法三個(gè)方面著手分析。本隊(duì)認(rèn)為已建立模型可以對(duì)相關(guān)數(shù)據(jù)進(jìn)行較為精準(zhǔn)的分析。但是家用計(jì)算機(jī)對(duì)本算法的操作可行度不高,算法簡(jiǎn)化余地不大。同時(shí)給出了利用本隊(duì)方法更精確預(yù)測(cè)異網(wǎng)用戶(hù)高端與否的資料要求:一小部分但數(shù)量龐大的異網(wǎng)用戶(hù)的用戶(hù)資料。對(duì)于問(wèn)題四,本隊(duì)創(chuàng)造性地運(yùn)用了問(wèn)卷調(diào)查法來(lái)預(yù)測(cè)人們對(duì)靚號(hào)的偏好。并對(duì)數(shù)據(jù)進(jìn)行了科學(xué)的計(jì)算與統(tǒng)計(jì),并得出了相應(yīng)靚號(hào)分級(jí)系統(tǒng),將各種號(hào)碼分為54個(gè)級(jí)別。關(guān)鍵字: 層次分析法 聚類(lèi)分析 差異度分析 svm神經(jīng)網(wǎng)絡(luò) 問(wèn)卷調(diào)查法一、 問(wèn)題重述隨著科技發(fā)展和經(jīng)濟(jì)的全球化,手機(jī)用戶(hù)日益增多,各網(wǎng)運(yùn)營(yíng)商之間的競(jìng)爭(zhēng)也愈加激烈。手機(jī)用戶(hù)的級(jí)別劃分成為了手機(jī)運(yùn)營(yíng)商必須解決的問(wèn)題。手

5、機(jī)用戶(hù)的級(jí)別高低應(yīng)從用戶(hù)的消費(fèi)力度、通話(huà)量、手機(jī)交往圈大小、個(gè)性服務(wù)使用、手機(jī)檔次等因素來(lái)考慮,并使用一些題給數(shù)據(jù)來(lái)度量這幾個(gè)因素。經(jīng)過(guò)這種分級(jí)后,通過(guò)手機(jī)用戶(hù)所在級(jí)別亦可反推其消費(fèi)力度、通話(huà)量等行為特征。本題要求用數(shù)學(xué)建模的方法,利用附件中的數(shù)據(jù)解決以下四個(gè)問(wèn)題:?jiǎn)栴}一:通過(guò)本網(wǎng)手機(jī)用戶(hù)資料,給本網(wǎng)手機(jī)用戶(hù)分類(lèi)。從多方面因素全面考察各個(gè)類(lèi)別手機(jī)用戶(hù)的級(jí)別高低,并確定好分級(jí)標(biāo)準(zhǔn),給本網(wǎng)用戶(hù)一個(gè)明確的分級(jí)。問(wèn)題二:參考對(duì)本網(wǎng)手機(jī)用戶(hù)行為特征的研究對(duì)異網(wǎng)手機(jī)用戶(hù)進(jìn)行級(jí)別劃分,并在獲知異網(wǎng)手機(jī)用戶(hù)一定量相關(guān)信息后,估計(jì)其月均消費(fèi)金額。問(wèn)題三:對(duì)所設(shè)立的分級(jí)標(biāo)準(zhǔn)進(jìn)行評(píng)價(jià),并對(duì)已做模型進(jìn)行評(píng)價(jià)和改進(jìn)。問(wèn)

6、題四:收集靚號(hào)以確定靚號(hào)范圍;了解人們對(duì)靚號(hào)的偏好情況,并根據(jù)人們對(duì)靚號(hào)的偏好設(shè)計(jì)一個(gè)靚號(hào)分級(jí)系統(tǒng)。二、 問(wèn)題分析用戶(hù)組成對(duì)于運(yùn)營(yíng)商來(lái)說(shuō)極其重要,直接影響其經(jīng)濟(jì)效益和長(zhǎng)遠(yuǎn)發(fā)展計(jì)劃。而高端用戶(hù)則是其中很重要的組成部分,其往往更關(guān)注信號(hào)強(qiáng)度和通話(huà)質(zhì)量,能促進(jìn)運(yùn)營(yíng)商提高服務(wù)質(zhì)量。所以從用戶(hù)中分辨出高端用戶(hù)至關(guān)重要。本題主要是在三個(gè)數(shù)據(jù)表格的基礎(chǔ)上,給出本網(wǎng)與異網(wǎng)高端用戶(hù)的判別準(zhǔn)則以及營(yíng)銷(xiāo)優(yōu)先級(jí),然后再判斷結(jié)果是否準(zhǔn)確。本網(wǎng)高端用戶(hù)的預(yù)測(cè)屬于統(tǒng)計(jì)預(yù)測(cè)類(lèi)數(shù)學(xué)問(wèn)題,要從大數(shù)據(jù)里面分析出高端用戶(hù)的行為準(zhǔn)則,可以運(yùn)用聚類(lèi)分析的方法,先通過(guò)分析數(shù)據(jù),運(yùn)用層次分析法確定權(quán)值,再聚類(lèi)分析,通過(guò)比較類(lèi)與類(lèi)之間的差異以

7、及相似度,確定高端用戶(hù)及其判別準(zhǔn)則,再制定營(yíng)銷(xiāo)優(yōu)先級(jí)。對(duì)于問(wèn)題2,如果能知道異網(wǎng)用戶(hù)的月均消費(fèi)額與高端用戶(hù)的多少等重要信息,運(yùn)營(yíng)商便可以制定出更好的商業(yè)政策,使自己的利益最大化。故研究這類(lèi)問(wèn)題很有意義。對(duì)于異網(wǎng)的用戶(hù),因?yàn)橹恢琅c本網(wǎng)用戶(hù)少量的通話(huà)記錄以及短信記錄,而要估算出其月均消費(fèi)額,便要用已知本網(wǎng)的數(shù)據(jù)區(qū)擬合,通過(guò)一系列假設(shè)將異網(wǎng)用戶(hù)的消費(fèi)行為與本網(wǎng)用戶(hù)的行為比較,找到與之行為最相似的本網(wǎng)用戶(hù),從而判斷其的月均消費(fèi)額。 關(guān)于靚號(hào)分級(jí),因?yàn)橹饔^(guān)因素太強(qiáng),本隊(duì)認(rèn)為可采用調(diào)查問(wèn)卷的形式,然后收集數(shù)據(jù)進(jìn)行分析,得到結(jié)果。三、 模型假設(shè)(1) 附件數(shù)據(jù)能真實(shí)反映用戶(hù)行為。(2) 異網(wǎng)用戶(hù)與本網(wǎng)用戶(hù)

8、的消費(fèi)數(shù)額在整體上與本網(wǎng)用戶(hù)沒(méi)有差異。(3) 異網(wǎng)用戶(hù)面臨的手機(jī)消費(fèi)環(huán)境,入套餐等跟本網(wǎng)沒(méi)有差別(4) 用戶(hù)選擇哪個(gè)運(yùn)營(yíng)商,跟用戶(hù)本身高端與否沒(méi)有任何關(guān)系,在本題可以看做是按一個(gè)固定概率隨機(jī)選擇運(yùn)營(yíng)商。(5) 對(duì)于本網(wǎng)用戶(hù),通話(huà)記錄和短信記錄應(yīng)該是用戶(hù)的完整記錄;對(duì)于異網(wǎng)用戶(hù),得到的通話(huà)記錄與短信記錄只有該用戶(hù)的一部分,并假設(shè)對(duì)于同一個(gè)運(yùn)營(yíng)商來(lái)說(shuō)每位用戶(hù)記錄的可見(jiàn)部分與不可見(jiàn)部分之間的比例是定值,且可見(jiàn)部分的通話(huà)行為與不可見(jiàn)部分的通化行為的期望是相等的。(6) 靚號(hào)類(lèi)型為順子號(hào)、連號(hào)以及吉祥號(hào)四、 符號(hào)說(shuō)明用戶(hù)數(shù)用戶(hù)的性態(tài)指標(biāo)最大特征值一致性指標(biāo)隨機(jī)一致性指標(biāo)一致性比率相應(yīng)的特征向量性態(tài)指標(biāo)矩

9、第i個(gè)用戶(hù)m個(gè)性態(tài)指標(biāo)的總和第r類(lèi)用戶(hù)性態(tài)指標(biāo)和的平均值顯著度觀(guān)測(cè)樣本比例本網(wǎng)內(nèi)部月總通話(huà)數(shù)量本網(wǎng)用戶(hù)與其他運(yùn)營(yíng)商用戶(hù)通話(huà)量本網(wǎng)參與被叫記錄的人數(shù)其它運(yùn)營(yíng)商參與被叫的人數(shù)行為差異度時(shí)間復(fù)雜度殘差絕對(duì)值的數(shù)學(xué)期望標(biāo)準(zhǔn)差分組殘差絕對(duì)值小于100的比例預(yù)測(cè)分布方差五、 模型的建立與求解5.1 問(wèn)題1的模型問(wèn)題1是要研究本網(wǎng)手機(jī)用戶(hù)行為特征,給出本網(wǎng)高端手機(jī)用戶(hù)的判別準(zhǔn)則以及營(yíng)銷(xiāo)優(yōu)先級(jí)?,F(xiàn)在,手機(jī)用戶(hù)數(shù)量眾多,相關(guān)數(shù)據(jù)統(tǒng)計(jì)和分析都十分困難。所以,本項(xiàng)研究對(duì)本網(wǎng)營(yíng)銷(xiāo)方面可起到一定的參考與應(yīng)用價(jià)值。問(wèn)題1屬于一種評(píng)價(jià)問(wèn)題,對(duì)此類(lèi)問(wèn)題,本隊(duì)先從附件中所給文件入手建立了如下模型。本網(wǎng)用戶(hù)高端手機(jī)用戶(hù)判別模型高

10、端手機(jī)用戶(hù)的定義:高端手機(jī)用戶(hù)在消費(fèi)力度,通話(huà)量、以及手機(jī)交往圈(與之有通信行為的所有手機(jī)用戶(hù)構(gòu)成其手機(jī)交往圈)大小等方面均遠(yuǎn)高于整體平均水平。高端用戶(hù)往往更關(guān)注信號(hào)強(qiáng)度和通話(huà)質(zhì)量,追求個(gè)性化服務(wù)。因此定義高端用戶(hù)為消費(fèi)力度大、通話(huà)量大、手機(jī)交往圈大、個(gè)性服務(wù)多、手機(jī)高檔(的用戶(hù),并定義增值費(fèi)、套餐檔次、是否3G用戶(hù)、上網(wǎng)流量、手機(jī)操作系統(tǒng)的加權(quán)值為用戶(hù)高端程度的量化值。5.1.1模型的準(zhǔn)備 (一) 缺失資料的補(bǔ)充經(jīng)過(guò)本隊(duì)的觀(guān)察,用戶(hù)資料缺失的情況主要發(fā)生在城鄉(xiāng)用戶(hù)識(shí)別資料,性別資料以及年齡資料三個(gè)變量上,而且其中各個(gè)變量的缺失比例不太一樣,例如用戶(hù)城鄉(xiāng)資料有大約25%左右的缺失而年齡資料只有

11、10%的缺失。對(duì)于缺失資料的用戶(hù),本隊(duì)首先采取的辦法是做預(yù)測(cè),通過(guò)數(shù)據(jù)挖掘來(lái)盡量使缺失值減少。首先本隊(duì)進(jìn)行雙變量之間的相關(guān)性分析。采用SPSS進(jìn)行雙側(cè)相關(guān)性檢驗(yàn)后,結(jié)果如附錄1所示。 由附錄1可知,各個(gè)變量之間雖然存在顯著的相關(guān)性,但相關(guān)性系數(shù)任然小于0.5,要進(jìn)行預(yù)測(cè)有一定的難度。經(jīng)討論本隊(duì)決定使用神經(jīng)網(wǎng)絡(luò)的模型來(lái)解決此問(wèn)題。首先對(duì)城鄉(xiāng)資料與性別資料進(jìn)行預(yù)測(cè):由于這個(gè)變量是定類(lèi)變量,因此本隊(duì)選用一種比較合適的分類(lèi)方法。這里本隊(duì)組采用matlab環(huán)境下的svm神經(jīng)網(wǎng)絡(luò)進(jìn)行分類(lèi)。SVM神經(jīng)網(wǎng)絡(luò)(支持向量機(jī))的原理是通過(guò)在超維空間中利用支持向量來(lái)建立一個(gè)決策超平面,以該平面跟支持向量同時(shí)進(jìn)行分類(lèi)。

12、這樣,雖然城鄉(xiāng)分類(lèi)、性別分類(lèi)與單個(gè)其它變量(如總通話(huà)費(fèi)等)的關(guān)聯(lián)不大,但如果分類(lèi)是可以在多變量所正交的空間中產(chǎn)生明顯決策超平面,則預(yù)測(cè)也是可能實(shí)現(xiàn)的。之所以不采用其它神經(jīng)網(wǎng)絡(luò)例如簡(jiǎn)單的bp,是考慮到分類(lèi)器對(duì)于變量的敏感性問(wèn)題,由于用于決策的變量較多,且在相關(guān)性檢測(cè)表格中可以看出決策變量?jī)?nèi)部的自相關(guān)性也不強(qiáng),因此本隊(duì)不敢輕易對(duì)變量做降維(主成分提?。┨幚?。圖1svm神經(jīng)網(wǎng)絡(luò)基本分類(lèi)原理:利用支持向量設(shè)置分界超平面本隊(duì)對(duì)歸一化后的變量直接使用svm工具箱處理(這里,本隊(duì)隊(duì)采用的是臺(tái)灣大學(xué)林志仁教授的科研小組研發(fā)的libsvm工具箱,它也是當(dāng)今公認(rèn)的在各個(gè)領(lǐng)域平臺(tái)上發(fā)揮最穩(wěn)定的工具箱)。使用步驟為:

13、 神經(jīng)網(wǎng)絡(luò)分類(lèi)器算法外層結(jié)構(gòu)示意圖因變量2.利用分類(lèi)器對(duì)部分測(cè)試數(shù)據(jù)分類(lèi)已知數(shù)據(jù)判斷預(yù)測(cè)效果自變量自變量與因變量訓(xùn)練集測(cè)試集數(shù)據(jù)流算法進(jìn)行方向未知數(shù)據(jù)調(diào)整訓(xùn)練方法,或重新對(duì)數(shù)據(jù)預(yù)處理預(yù)測(cè)數(shù)據(jù)效果不滿(mǎn)意1.訓(xùn)練分類(lèi)器3.計(jì)算測(cè)試數(shù)據(jù)分類(lèi)準(zhǔn)確率 因變量自變量 初始測(cè)試時(shí)本隊(duì)提取出所有的有全紀(jì)錄的用戶(hù)資料作為訓(xùn)練集以及測(cè)試集的提取。由于總體數(shù)目龐大,本隊(duì)隊(duì)采用1%的數(shù)據(jù)作為訓(xùn)練樣本,0.5%的數(shù)據(jù)作為測(cè)試樣本進(jìn)行訓(xùn)練。首先處理城鄉(xiāng)資料預(yù)測(cè),得到的預(yù)測(cè)準(zhǔn)確率穩(wěn)定在66%左右。但是本隊(duì)發(fā)現(xiàn),總體樣本中有66%的人全部屬于同一個(gè)類(lèi)別(城鎮(zhèn)),也就是說(shuō)完全蒙城鎮(zhèn)也能有66%的準(zhǔn)確率,因此預(yù)測(cè)失敗。那是不是說(shuō)

14、決策平面就無(wú)法建立呢?是否缺失變量真的預(yù)測(cè)不了呢?為了驗(yàn)證變量之間是否可能預(yù)測(cè),本隊(duì)重新選擇測(cè)試集和訓(xùn)練集,本隊(duì)分別提取兩個(gè)類(lèi)別(城鎮(zhèn),農(nóng)村)的用戶(hù)各占50%,測(cè)試集也同樣處理,發(fā)現(xiàn)預(yù)測(cè)準(zhǔn)確率能達(dá)到58%,也就是說(shuō),完全蒙的話(huà),準(zhǔn)確率是在50%,而高出的準(zhǔn)確率可以表示預(yù)測(cè)是由一定效果的。而之前的分類(lèi)效果差的原因在于歸一化處理不得當(dāng)。本隊(duì)嘗試著把本隊(duì)已經(jīng)歸一到0,1之間的變量重新歸一到更大的區(qū)間內(nèi),而不同的自變量也并不歸一到完全相同的區(qū)間而是根據(jù)預(yù)測(cè)性能找到一個(gè)最佳的收斂區(qū)間內(nèi)。因此本隊(duì)去掉了很多沒(méi)有明顯相關(guān)性的變量(發(fā)現(xiàn)這些變量歸一區(qū)間大小并不影響預(yù)測(cè)結(jié)果),并用梯度收斂的辦法找到了一個(gè)較優(yōu)的

15、收斂區(qū)間,大部分變量歸一到-41,41的區(qū)間,而不同變量之間的比例依靠收斂計(jì)算出來(lái)的權(quán)值而定。收斂權(quán)值:最終分類(lèi)器的結(jié)果穩(wěn)定在了82%,高出最低水平約16個(gè)百分點(diǎn)。性別分類(lèi)也是同樣的方法得到的預(yù)測(cè)結(jié)果收斂至75%,高出最低水平5個(gè)百分點(diǎn)。關(guān)于預(yù)測(cè)結(jié)果的評(píng)判:由于分類(lèi)預(yù)測(cè)已經(jīng)能達(dá)到70%以上的準(zhǔn)確率,基本上可以拿來(lái)預(yù)測(cè)缺失值。由于變量之間的相關(guān)性實(shí)在太低(一般相關(guān)系數(shù)要在0.6以上才能做預(yù)測(cè)),能得到有一定水平的準(zhǔn)確預(yù)測(cè)結(jié)果已經(jīng)很不容易??紤]到總體分類(lèi)準(zhǔn)確率還比較高,因此本隊(duì)就使用svm預(yù)測(cè)結(jié)果來(lái)進(jìn)行數(shù)據(jù)填充。對(duì)于年齡預(yù)測(cè):年齡屬于定距變量,本隊(duì)隊(duì)最先采用svm回歸預(yù)測(cè)來(lái)處理,但得到的結(jié)果離差太

16、大,并且把預(yù)測(cè)的測(cè)試數(shù)據(jù)結(jié)果分布圖與測(cè)試數(shù)據(jù)的分布比較,發(fā)現(xiàn)形狀有比較大的差別。之后本隊(duì)任然采用歸一化收斂的辦法處理,并且還使用了降維技術(shù)提取出5個(gè)主成分,但預(yù)測(cè)結(jié)果本隊(duì)任然認(rèn)為不夠準(zhǔn)確(見(jiàn)圖),由于年齡缺失用戶(hù)的比例并不大,本隊(duì)最后決定舍棄這些用戶(hù)的資料(但并不表示本隊(duì)沒(méi)有對(duì)這些用戶(hù)進(jìn)行高端識(shí)別,只是在這里本隊(duì)把它們與那些不知道用戶(hù)資料的用戶(hù)歸為同一類(lèi)處理而已)。數(shù)據(jù)的歸一化全部個(gè)人資料都有的=334090 用戶(hù)的性態(tài)指標(biāo) (當(dāng)月出賬金額,是否為VIP用戶(hù),增值費(fèi),套餐檔次,是否為3G用戶(hù),上網(wǎng)流量,手機(jī)操作系統(tǒng),城鄉(xiāng)標(biāo)識(shí),手機(jī)價(jià)格,市話(huà),長(zhǎng)途,漫游)設(shè)論域,每個(gè)于是可以得到原始數(shù)據(jù)矩陣A=

17、。A中不同的數(shù)據(jù)有不同的性質(zhì)和不同的量綱,為了使原始數(shù)據(jù)適合模糊聚類(lèi)的要求,欲將原始數(shù)據(jù)矩陣A用平移標(biāo)準(zhǔn)差變換 作歸一化處理,即令 (i=1,2,3,,n,j=1,2,m)其中(j=1,2,m)得到結(jié)果后發(fā)現(xiàn)其中還有一些 (j=1,2,m)顯然所有的,且也不存在量綱應(yīng)屬的影響,從而可以得到標(biāo)準(zhǔn)矩陣 R=然后用層次分析法來(lái)確定各個(gè)性態(tài)指標(biāo)的權(quán)數(shù),以便于聚類(lèi)分析,處理第一問(wèn)。5.1.2 模型的建立層次結(jié)構(gòu)模型1 建立層次結(jié)構(gòu)模型如下圖2 構(gòu)造成準(zhǔn)則層對(duì)比較矩陣如下:A消費(fèi)力度通話(huà)量手機(jī)圈大小個(gè)性服務(wù)通話(huà)質(zhì)量消費(fèi)力度15789通話(huà)量1/51456手機(jī)圈大小1/71/4113個(gè)性服務(wù)1/81/5114

18、通話(huà)質(zhì)量1/91/61/31/41A的最大特征值max=5.34相應(yīng)的特征向量為一致性指標(biāo)CI和隨機(jī)一致性指標(biāo)RI分別為: 一致性比率: 通過(guò)一致性檢驗(yàn)。3 依次構(gòu)造子標(biāo)準(zhǔn)層對(duì)比較矩陣。1 消費(fèi)力度B1當(dāng)月出賬金額是否VIP用戶(hù)當(dāng)月出賬金額15是否VIP用戶(hù)1/51B1的最大特征值max=2相應(yīng)的特征向量為一致性指標(biāo)CI為: 一致性比率: 通過(guò)一致性檢驗(yàn)。2 個(gè)性服務(wù)B2增值費(fèi)套餐檔次是否3G用戶(hù)上網(wǎng)流量手機(jī)操作系統(tǒng)增值費(fèi)14657套餐檔次1/41435是否3G用戶(hù)1/61/411/32上網(wǎng)流量1/51/3314手機(jī)操作系統(tǒng)1/71/51/21/41B2的=5.28為: 為: 通過(guò)一致性檢驗(yàn)。

19、 3 通話(huà)質(zhì)量B3城鄉(xiāng)標(biāo)識(shí)手機(jī)價(jià)格城鄉(xiāng)標(biāo)識(shí)15手機(jī)價(jià)格1/51B3的最大特征值max=2相應(yīng)的特征向量為一致性指標(biāo)CI為: 一致性比率: 通過(guò)一致性檢驗(yàn)。 4 通話(huà)量B4市話(huà)費(fèi)長(zhǎng)途費(fèi)漫游費(fèi)市話(huà)費(fèi)11/51/9長(zhǎng)途費(fèi)511/2漫游費(fèi)921B4的最大特征值max=3.00相應(yīng)的特征向量為一致性指標(biāo)CI為: 隨機(jī)一致性指標(biāo)RI為: 一致性比率: 通過(guò)一致性檢驗(yàn)。 5 手機(jī)圈大小B5通話(huà)圈大小短信圈大小通話(huà)圈大小15短信圈大小1/51B5的最大特征值max=2相應(yīng)的特征向量為一致性指標(biāo)CI為: 一致性比率: 通過(guò)一致性檢驗(yàn)。 4 組合權(quán)向量計(jì)算 子標(biāo)準(zhǔn)層對(duì)目標(biāo)層的權(quán)向量是, 是以下列5個(gè)向量為列向量的

20、15×5的矩陣。=因?yàn)?,使用matlab的矩陣求算功能,可以得出子標(biāo)準(zhǔn)層各個(gè)因素(當(dāng)月出賬金額,是否為VIP用戶(hù),增值費(fèi),套餐檔次,是否為3G用戶(hù),上網(wǎng)流量,手機(jī)操作系統(tǒng),城鄉(xiāng)標(biāo)識(shí),手機(jī)價(jià)格,市話(huà),長(zhǎng)途,漫游,通話(huà)圈大小,短信圈大?。?duì)目標(biāo)層的影響加權(quán):基于K均值的聚類(lèi)模型l 將上一步的得到的性態(tài)指標(biāo)權(quán)數(shù)乘以相應(yīng)的性態(tài)指標(biāo),得到加權(quán)后的性態(tài)指標(biāo)矩 其中 (i=1,2,n,j=1,2,m)l K均值聚類(lèi)K 均值聚類(lèi)是聚類(lèi)分析中最常用的聚類(lèi)算法之一。K 均值聚類(lèi)算法隨機(jī)選取k 個(gè)點(diǎn),假設(shè)作為各類(lèi)的代表點(diǎn),然后通過(guò)多次迭代來(lái)逼近最佳聚類(lèi)的各個(gè)類(lèi)的重心,算法步驟如下:1) 從 n 個(gè)數(shù)據(jù)對(duì)象

21、任意選擇k 個(gè)對(duì)象作為初始聚類(lèi)中心;2) 循環(huán) 3)到4),直到每個(gè)聚類(lèi)不再發(fā)生變化;3) 根據(jù)每個(gè)聚類(lèi)對(duì)象的均值,計(jì)算每個(gè)對(duì)象與這些中心對(duì)象的距離;并根據(jù)最小距離重新對(duì)相應(yīng)對(duì)象進(jìn)行劃分;4) 重新計(jì)算每個(gè)(有變化)聚類(lèi)的均值(中心對(duì)象)。將加權(quán)歸一化好的數(shù)據(jù)用SPSS軟件進(jìn)行k均值聚類(lèi)分析,快速聚類(lèi)數(shù)定為1000類(lèi),得到的聚類(lèi)分布表如附錄2然后令:為第i個(gè)用戶(hù)m個(gè)性態(tài)指標(biāo)的總和。 為第r類(lèi)用戶(hù)性態(tài)指標(biāo)和的平均值因?yàn)樾詰B(tài)指標(biāo)已經(jīng)進(jìn)行過(guò)了加權(quán)處理,故其大小便可以用來(lái)判斷該用戶(hù)在所處類(lèi)別的優(yōu)先順序,值越大優(yōu)先級(jí)越高。其他類(lèi)均按照此類(lèi)處理,得到此1000類(lèi)性態(tài)指標(biāo)和的平均值。按照的大小,將這1000

22、類(lèi)升序排列,本隊(duì)詢(xún)問(wèn)電信知高端用戶(hù)所占的百分比約為1%,故我們認(rèn)為排在前面10類(lèi)的用戶(hù)為高端用戶(hù)。用Matlab將其提取出來(lái)(程序見(jiàn)附錄),進(jìn)一步分析他們的行為,分析得到,這些用戶(hù)的共同特點(diǎn)為:用戶(hù)均為VIP用戶(hù),且等級(jí)較高。套餐等級(jí)高,通話(huà)量多,絕大多數(shù)為城市用戶(hù),上網(wǎng)流量也偏高等。 而按照公眾的消費(fèi)觀(guān)念,一般會(huì)按照自己的消費(fèi)額來(lái)確定自己的套餐檔次,故在此給出本網(wǎng)高端手機(jī)用戶(hù)的判別準(zhǔn)則:(1)手機(jī)用戶(hù)為城市類(lèi)型,且年齡在25歲以上(2)用戶(hù)等級(jí)為最高(3)套餐在160元以上(4)為VIP用戶(hù),3G用戶(hù)且等級(jí)較高依據(jù)營(yíng)銷(xiāo)級(jí)別的劃分對(duì)應(yīng)用戶(hù)的高端程度即可確定該用戶(hù)的營(yíng)銷(xiāo)優(yōu)先級(jí)。如:將營(yíng)銷(xiāo)優(yōu)先級(jí)平

23、均劃為5等,則用戶(hù)高端程度處于前200級(jí)的可以享受一級(jí)營(yíng)銷(xiāo),用戶(hù)高端程度處于前400200級(jí)的可以享受二級(jí)營(yíng)銷(xiāo),用戶(hù)高端程度處于前600400級(jí)的可以享受三級(jí)營(yíng)銷(xiāo),用戶(hù)高端程度處于前600800級(jí)的可以享受四級(jí)營(yíng)銷(xiāo),用戶(hù)高端程度處于后200的可以享受五級(jí)營(yíng)銷(xiāo)。當(dāng)然,具體情況需要參考服務(wù)商的服務(wù)能力以及消費(fèi)者的分布情況來(lái)定,但定距變量分組與消費(fèi)者在這些組中分布已經(jīng)求出,只需參考運(yùn)營(yíng)商服務(wù)能力即可判斷服務(wù)區(qū)分點(diǎn)位置。注:此問(wèn)只解決了有用戶(hù)資料的本網(wǎng)用戶(hù)的高端判別,對(duì)于沒(méi)有資料的本網(wǎng)用戶(hù),由于其觀(guān)察方法與異網(wǎng)用戶(hù)的觀(guān)察方法基本相同,故放在了第二問(wèn)的模型中一起解決。5.2 問(wèn)題2的模型 問(wèn)題2是要研究

24、異網(wǎng)手機(jī)用戶(hù)的行為特征。如今,各大手機(jī)網(wǎng)絡(luò)之間競(jìng)爭(zhēng)激烈,而知己知彼方能百戰(zhàn)百勝,因此,異網(wǎng)手機(jī)用戶(hù)行為特征研究在各營(yíng)銷(xiāo)商的競(jìng)爭(zhēng)中起到了關(guān)鍵作用。問(wèn)題2屬于預(yù)測(cè)問(wèn)題,又因?yàn)槲覀冎挥斜揪W(wǎng)手機(jī)用戶(hù)數(shù)據(jù),所以本隊(duì)決定使用假設(shè)2來(lái)預(yù)測(cè)異網(wǎng)手機(jī)用戶(hù)行為特征,并提出迭代收斂的方法來(lái)提高預(yù)測(cè)的精準(zhǔn)度。5.2.1 模型的建立由于本網(wǎng)有一部分用戶(hù)擁有通話(huà)記錄,但并沒(méi)有用戶(hù)資料記錄,并且所有異網(wǎng)可見(jiàn)用戶(hù)也全部都只有部分的被叫通話(huà)記錄,因此要判別異網(wǎng)用戶(hù)分組,只能通過(guò)其通話(huà)行為特征進(jìn)行判斷。又由于通話(huà)記錄是一個(gè)不定維度的數(shù)據(jù),直接比較兩通電話(huà)或者短信來(lái)確定通話(huà)雙方(短信雙方)的分組變量是沒(méi)有意義的。對(duì)此,本隊(duì)先對(duì)用戶(hù)

25、的通話(huà)與短信進(jìn)行統(tǒng)計(jì)處理。本隊(duì)在此階段考慮到模型應(yīng)該盡量簡(jiǎn)單為的原則,并同時(shí)兼顧了本隊(duì)的工作量,對(duì)此暫時(shí)只對(duì)通話(huà)記錄進(jìn)行處理。由于短信記錄本身包含有所有的特征,通話(huà)記錄中都有相應(yīng)的特征(例如通話(huà)條數(shù)以及發(fā)起者接受者),因此對(duì)短信記錄的處理可以直接仿照下面本隊(duì)對(duì)通話(huà)記錄的處理來(lái)做。異網(wǎng)手機(jī)用戶(hù)的月均消費(fèi)金額估算模型用戶(hù)行為特征的表示用戶(hù)行為的校準(zhǔn)與迭代補(bǔ)充對(duì)異網(wǎng)手機(jī)用戶(hù)用戶(hù)的聚類(lèi)分組月消費(fèi)金額估算 1 用戶(hù)行為特征的表示第一次模糊化統(tǒng)計(jì):由于本網(wǎng)一部分用戶(hù)已經(jīng)分組,與這些用戶(hù)經(jīng)常通話(huà)的用戶(hù)的部分行為特征可以得到統(tǒng)計(jì)。這里我們把用戶(hù)的通話(huà)行為分為100個(gè)變量表示其中其中Ti表示該用戶(hù)與第i組用戶(hù)通

26、話(huà)的總時(shí)間。第二次模糊化處理:由于事先分好的1000組是經(jīng)過(guò)平均高端值排序過(guò)后的,因此其用戶(hù)分組序數(shù)就已經(jīng)可以反映高端與否,兩用戶(hù)孰優(yōu)孰劣可以以所在分組的序號(hào)比較得到。因此這里把類(lèi)別相近的分組合并進(jìn)行行為計(jì)算。同時(shí)考慮到組與組之間任然存在可能的混搭,例如第一組與第二組的分界線(xiàn)實(shí)際上就是原有的第10類(lèi)與11類(lèi)的分界線(xiàn),那么10跟11組的相近行為就不能表現(xiàn)出來(lái)。因此引入第二步模糊化處理,將100組行為分為94組。其中 這里以指數(shù)遞減權(quán)值的方式將相鄰的7項(xiàng)行為加和得到新的行為項(xiàng),這樣,最初的通話(huà)記錄與定類(lèi)分組變量就被統(tǒng)計(jì)處理成了95類(lèi)行為變量,其均為定距變量。2 用戶(hù)行為的校準(zhǔn)與迭代補(bǔ)充顯著度矯正:

27、顯著度是本隊(duì)生造的一個(gè)函數(shù)量,某位用戶(hù)的顯著度其定義由下式給出:設(shè)與該用戶(hù)通話(huà)記錄中有a通電話(huà)的另一方用戶(hù)已經(jīng)分類(lèi)(已經(jīng)分入11000類(lèi)中),有b通電話(huà)的另一方分類(lèi)未知。則顯著度對(duì)于的用戶(hù),暫時(shí)無(wú)法解出其所屬分組,但對(duì)于的用戶(hù),可以校準(zhǔn)其真實(shí)的通話(huà)時(shí)間。.觀(guān)測(cè)樣本比例矯正:對(duì)于本網(wǎng)用戶(hù),本隊(duì)默認(rèn)每個(gè)用戶(hù)的所有通電全部有記錄,并把呼叫者與被呼叫者做等同處理。但對(duì)于異網(wǎng)用戶(hù),本隊(duì)認(rèn)為其只有部分通話(huà)記錄被本網(wǎng)運(yùn)營(yíng)商所獲得,對(duì)于一個(gè)異網(wǎng)用戶(hù)來(lái)說(shuō),還存在有很多通電話(huà)并未被本網(wǎng)運(yùn)營(yíng)商記錄在案。在此假設(shè)異網(wǎng)用戶(hù)平均通話(huà)量與本網(wǎng)用戶(hù)基本一致。設(shè)本網(wǎng)內(nèi)部月總通話(huà)數(shù)量為本網(wǎng)用戶(hù)與其他運(yùn)營(yíng)商用戶(hù)通話(huà)量為 本網(wǎng)參與被

28、叫記錄的人數(shù)為其它運(yùn)營(yíng)商參與被叫的人數(shù)為其中 n為運(yùn)營(yíng)商編號(hào),1代表本網(wǎng) 的計(jì)算結(jié)果表 各項(xiàng)指標(biāo)運(yùn)營(yíng)商128147760143581812417107534083287363054396462862.00934201563453通話(huà)行為量的校準(zhǔn): 其中,n為運(yùn)營(yíng)商編號(hào),1代表本網(wǎng)顯然這里用到假設(shè): 已知類(lèi)別的通話(huà)用戶(hù)只是對(duì)所有與該用戶(hù)通話(huà)的用戶(hù)的抽樣,其總體分布可以直接用樣本分布代替;異網(wǎng)的用戶(hù)平均通話(huà)數(shù)量與本網(wǎng)該項(xiàng)平均值相等,且異網(wǎng)用戶(hù)的通話(huà)環(huán)境,通化消費(fèi)環(huán)境與本網(wǎng)用戶(hù)完全一致,用戶(hù)高端程度與用戶(hù)選擇何運(yùn)營(yíng)商完全不相關(guān)。3 對(duì)異網(wǎng)手機(jī)用戶(hù)用戶(hù)的聚類(lèi)分類(lèi)標(biāo)準(zhǔn)行為的確定:因?yàn)榈贸雒恳粋€(gè)用戶(hù)的行為

29、后,要用已知信息的用戶(hù)行為來(lái)代替未知用戶(hù)的用戶(hù)行為,所以首先需要建立一個(gè)數(shù)據(jù)庫(kù)用于儲(chǔ)存若干已知分類(lèi)信息的用戶(hù)行為以及對(duì)應(yīng)用戶(hù)的分類(lèi)和消費(fèi)額度。在問(wèn)題一中,對(duì)于給出用戶(hù)個(gè)人信息的號(hào)碼,已經(jīng)將其分類(lèi)至1-1000類(lèi)中,同樣這一部分用戶(hù)有很大一部分(大約13萬(wàn)人)的通話(huà)記錄行為統(tǒng)計(jì)中擁有非0顯著度(其通話(huà)行為可以統(tǒng)計(jì))。在此由于家用電腦內(nèi)存有限,本隊(duì)只從中抽取出30000個(gè)用戶(hù)進(jìn)行行為統(tǒng)計(jì)。得到矩陣T其中每一行代表一個(gè)已知分組的用戶(hù)的通話(huà)行為,每一列代表一種通話(huà)行為。并記錄每一個(gè)標(biāo)準(zhǔn)用戶(hù)的編號(hào)和分組,保存至矩陣。第一列表示每個(gè)標(biāo)準(zhǔn)用戶(hù)的編號(hào),第二列保存已知標(biāo)準(zhǔn)用戶(hù)的分組。差異度計(jì)算:得到參考行為標(biāo)準(zhǔn)

30、后,對(duì)于任意給定的未知分組用戶(hù),通過(guò)行為統(tǒng)計(jì),模糊處理以及顯著度校準(zhǔn)得到一個(gè)行為向量 ,將與已知的30000個(gè)用戶(hù)行為經(jīng)行比較,分別計(jì)算與這30000個(gè)人中每個(gè)人的行為差異度 其中i=1,2,3.30000找到最近聚類(lèi)中心:在得到差異度向量后,找出所在的位置ce:則ce為最近聚類(lèi)中心,即在30000人中編號(hào)ce的人的行為與待測(cè)者的行為最接近。4 月消費(fèi)金額估算上一步找到的聚類(lèi)中心者的所在分組表示待測(cè)者的分組,用上一步找到的聚類(lèi)中心者的月消費(fèi)額代替待測(cè)者的月消費(fèi)額。迭代收斂:由于一開(kāi)始大部分人的分組信息未知,則所有參與統(tǒng)計(jì)的用戶(hù)顯著度都不高,因此對(duì)于行為的統(tǒng)計(jì)判斷有一定的偏差,但當(dāng)一部分相對(duì)顯著

31、度比較高的用戶(hù)的分組確定下來(lái)之后,已分組人群范圍擴(kuò)大,與他們通話(huà)的所有人顯著度都將得到提高,這樣再計(jì)算以前顯著度低的用戶(hù)的級(jí)別時(shí),就會(huì)有新的用戶(hù)顯著度達(dá)到分級(jí)要求。通過(guò)多次迭代,基本不會(huì)存在顯著度為0的用戶(hù)。利用這種方法,理論上是可以將所有具有統(tǒng)計(jì)意義的用戶(hù)進(jìn)行分組。5.2.2 模型的求解模型的數(shù)據(jù)預(yù)處理本隊(duì)采用SPSS處理,得到一些需要的匯總表格。具體算法在matlab下進(jìn)行,由于內(nèi)存有限,算法無(wú)法直接讀入所有變量,本隊(duì)采用分布式計(jì)算分割問(wèn)題處理,但分布式計(jì)算由于要多次重復(fù)性訪(fǎng)問(wèn)硬盤(pán),其時(shí)間損耗遠(yuǎn)高于一次性算法。算法代碼可參考附錄。由于時(shí)間有限,本隊(duì)抽出了1000個(gè)本網(wǎng)已知分組的用戶(hù)當(dāng)做分組

32、未知的個(gè)案進(jìn)行處理,來(lái)測(cè)試分組算法的可靠性。同時(shí)對(duì)異網(wǎng)用戶(hù)由于檢驗(yàn)缺乏令人信服的標(biāo)準(zhǔn),本隊(duì)隨機(jī)抽取了在第一次迭代中可以求出解的30個(gè)電話(huà)號(hào)碼,用本文方法求解,得到了這30個(gè)樣本的估計(jì)高端分組以及估計(jì)月消費(fèi)額。抽樣求解列表異網(wǎng)手機(jī)號(hào)碼(省去前面的y)其運(yùn)營(yíng)商代號(hào)匹配的本網(wǎng)號(hào)碼所在分類(lèi)級(jí)別估算的月消費(fèi)金額58466324480217945754143.49367659089922106501455539.7440968077312212867545185.6336065976320292621166792.335064406016283925865112.923883156275239538955

33、182339212552192310579456782.3660559601664319701280895.5738872158208346784854854.075825551974428349254929.0341426255872258407354417.9935820666880275608868389.1739560085504392289168223.3358459463680299116151625.2340972124160277211315556.8736064923648258374254177.0827740749824238577154869.1239981879296

34、2134979852962.9560559212544362180154536.363851186995231334620663120.2367717662722106501455539.7435365543936211790156549.0757768828928229783446935.83676548300824257966012.26367691284482104870346913.07603006279683116184055544.35332368936962126868153264.6841672273920233850062869.85360687943682107692537

35、16.7736769353728259434954131.8560568846336377555666072.0135401109504291118155512.64277408378882338819680177.4535362578432243687266726.373606554624021226261612252.92在建模中開(kāi)發(fā)出的小算法:1. 分布式計(jì)算:由于通話(huà)記錄的表格過(guò)大,對(duì)于一般的計(jì)算軟件來(lái)說(shuō)無(wú)法一次讀入這么大的變量,即使分步讀入,家用機(jī)也不可能同時(shí)在內(nèi)存中存儲(chǔ)如此大的矩陣。但是進(jìn)行行為統(tǒng)計(jì)的時(shí)候必須要訪(fǎng)問(wèn)這個(gè)大家伙,為解決此問(wèn)題,本隊(duì)開(kāi)發(fā)出專(zhuān)門(mén)針對(duì)此題數(shù)據(jù)的分布式算法,分

36、布式算法步驟如下:(1) 使用SPSS對(duì)原文件使用快排得到以主叫或被叫電話(huà)號(hào)碼為升序的記錄表,其中將同一個(gè)人的電話(huà)(按需要主叫或被叫排好序)集中在一起。(2) 使用SPSS分類(lèi)匯總辦法,找出每一個(gè)主叫者(被叫者)的起始序號(hào)和終止序號(hào),因?yàn)橐呀?jīng)進(jìn)行過(guò)排序,因此在起始號(hào)碼和終止號(hào)碼之間的所有電話(huà)記錄應(yīng)該都是同一個(gè)主叫者(被叫者)的,記錄上每一個(gè)人的起始點(diǎn)和終止點(diǎn)。得到一個(gè)導(dǎo)航表。(3) 在matlab中,當(dāng)需要提取某個(gè)人的所有通化行為記錄時(shí),先訪(fǎng)問(wèn)導(dǎo)航表,搜索出該人記錄的起始點(diǎn)和終止點(diǎn),再采用部分讀入的命令強(qiáng)制matlab只讀取總行為表中的一小部分(從起始行到終止行)。(4) 利用現(xiàn)有內(nèi)存里的資料

37、進(jìn)行計(jì)算行為,可用于標(biāo)準(zhǔn)行為的保存或者與標(biāo)準(zhǔn)行為的比較,由于保存標(biāo)準(zhǔn)行為和比較行為后,得到的要么是一個(gè)行為向量,要么是一個(gè)與之相似的電話(huà)編號(hào),因此接下來(lái)不再需要用到剛剛讀入的通話(huà)記錄。(5) 讀取下一個(gè)人的行為,進(jìn)行下一次的計(jì)算,讀取時(shí)任然先訪(fǎng)問(wèn)導(dǎo)航表,讀入的通話(huà)記錄可以直接覆蓋上一次讀入的通話(huà)記錄,以保證不占用過(guò)多的內(nèi)存資源。2. 優(yōu)化matlab中的find函數(shù):本題中,所有電話(huà)號(hào)碼均使用的加密編號(hào),并沒(méi)有連續(xù)性,但是轉(zhuǎn)化成連續(xù)編號(hào)列后要將某個(gè)加密編號(hào)轉(zhuǎn)變?yōu)橛行蚓幪?hào),需要查找整個(gè)映射表,例如要找到編號(hào)為874141的電話(huà)是第幾號(hào)排列,需要用到find函數(shù),但是在映射表格很大的情況下,多次使

38、用find函數(shù)的時(shí)間代價(jià)太高,因?yàn)閒ind函數(shù)是將給定的值與映射表格中的每一個(gè)元素進(jìn)行比較。那有沒(méi)有比較節(jié)約時(shí)間又能代替find函數(shù)功能的方法呢?對(duì)此,本隊(duì)在解決此題的過(guò)程中提出了一個(gè)對(duì)于本題數(shù)據(jù)更加節(jié)約時(shí)間的算法:二分查找。由于通話(huà)記錄是經(jīng)過(guò)排序后保存的,同時(shí)導(dǎo)航表也是在排序條件下做出的分類(lèi)匯總,因此導(dǎo)航表中的號(hào)碼變量本省就具有升序性質(zhì)。同時(shí),可知需要查找的值在導(dǎo)航表的號(hào)碼欄內(nèi)有唯一地址(贊不考慮不同運(yùn)營(yíng)商的尾號(hào)相同情況)。因此采用二分查找快速收斂至要找的位置,步驟如下:(1) 設(shè)定存在域Est,end=1,K,其中st與end分別為存在域的下限/上限,k為表格行總數(shù);(2) 將預(yù)查號(hào)碼與位

39、置上的號(hào)碼比較大小,如果大于這個(gè)位置的數(shù),則調(diào)整存在域Est,end=,end,如果小于則調(diào)整存在域,并返回執(zhí)行第二步;Est,end=,并返回執(zhí)行第二步;如果等于,則直接取該位置元素地址,并退出。理論上,對(duì)于一個(gè)大小為k行的導(dǎo)航表來(lái)說(shuō),find函數(shù)的時(shí)間復(fù)雜度而對(duì)于升序列設(shè)計(jì)的二分查找來(lái)說(shuō),時(shí)間復(fù)雜度顯然,對(duì)于行數(shù)超過(guò)600,000行的導(dǎo)航表來(lái)說(shuō),新設(shè)計(jì)出的算法速度遠(yuǎn)高于find函數(shù),經(jīng)過(guò)實(shí)踐平均時(shí)間約為find函數(shù)的,在附錄中本隊(duì)也貼出來(lái)了這個(gè)小小的設(shè)計(jì)改動(dòng)。5.2.3 模型的檢驗(yàn)對(duì)真正分組未知的用戶(hù)進(jìn)行預(yù)測(cè)已經(jīng)可以實(shí)現(xiàn),檢驗(yàn)?zāi)P褪呛鼙匾?。由于總體集過(guò)大不易于檢測(cè),本隊(duì)采用抽樣檢測(cè),使用

40、1000個(gè)已知信息的用戶(hù)使用上述相似預(yù)測(cè)方法進(jìn)行預(yù)測(cè),并將預(yù)測(cè)結(jié)果與實(shí)際分組進(jìn)行比較。1. 精度計(jì)算分組的預(yù)測(cè)不一定完全準(zhǔn)確,但如果預(yù)測(cè)組別與實(shí)際組別數(shù)值相差不大,則可以判定分組估計(jì)是比較準(zhǔn)確的. 分組的殘差絕對(duì)值分布如下圖,得到幾個(gè)指標(biāo)量殘差絕對(duì)值的數(shù)學(xué)期望 標(biāo)準(zhǔn)差 分組殘差絕對(duì)值小于100的比例 如此看來(lái),這樣的誤差還是可以接受的。 2. 分布差異性檢測(cè)估計(jì)出的分組是否能比較均勻地分散在各個(gè)區(qū)間內(nèi),還是會(huì)大量集中在某一組,直接反應(yīng)出估計(jì)方法是否有用。如果估計(jì)出來(lái)的分組全部集中在一起,則實(shí)際上相當(dāng)于沒(méi)有分組。分組效果見(jiàn)預(yù)測(cè)分布圖指標(biāo):預(yù)測(cè)分布方差可以看出:離散程度并不是太令人滿(mǎn)意,此模型還存

41、在可以改進(jìn)的地方,例如加入對(duì)短信行為的統(tǒng)計(jì),加入通話(huà)星期數(shù)的分布進(jìn)行預(yù)測(cè),或者求出最近的多個(gè)聚類(lèi)中心進(jìn)行均值處理。但不可不說(shuō),本隊(duì)現(xiàn)有的分組估計(jì)模型已經(jīng)可以在一定程度上對(duì)兩個(gè)處于不同組的用戶(hù)進(jìn)行相對(duì)高端的比較,并且比較值也具有一定說(shuō)服性。但模型的改進(jìn)空間還很大。5.3 問(wèn)題3的解決問(wèn)題3是對(duì)問(wèn)題1、2的總結(jié)和發(fā)展,對(duì)于此問(wèn)題本隊(duì)將從三個(gè)方面著手回答,這三個(gè)方面是:判別準(zhǔn)則合理性的評(píng)價(jià)、異網(wǎng)手機(jī)用戶(hù)月均消費(fèi)金額的估算評(píng)價(jià)、需改進(jìn)的地方及改進(jìn)方法。(1) 判別準(zhǔn)則合理性的評(píng)價(jià) 高端用戶(hù)判別準(zhǔn)則是根據(jù)題給信息以及可靠相關(guān)資料進(jìn)行定義的,由此本隊(duì)提取出了成為高端用戶(hù)所需14個(gè)因素,并利用層次分析法得出

42、一個(gè)數(shù)值來(lái)表示用戶(hù)高端度,再對(duì)此類(lèi)數(shù)值進(jìn)行歸一化和分類(lèi),從而得到最終的高端用戶(hù)。這種方法極大程度上利用了附件中所給14種數(shù)據(jù),全面分析了用戶(hù)高端度,并且非常清楚明了的將用戶(hù)高端程度進(jìn)行了量化,適用于判斷所有具備上述14個(gè)數(shù)據(jù)的用戶(hù)。但是,層次分析法的使用難免帶有自己的主觀(guān)想法,造成微小的判別誤差。(2) 異網(wǎng)手機(jī)用戶(hù)月均消費(fèi)金額的估算評(píng)價(jià) 本隊(duì)在解決此題時(shí),天馬行空的運(yùn)用了神經(jīng)網(wǎng)絡(luò)模型從手機(jī)用戶(hù)的通話(huà)量方面對(duì)手機(jī)用戶(hù)進(jìn)行了歸類(lèi),并通過(guò)其所在相應(yīng)得到了該用戶(hù)大致的月消費(fèi)金額。這類(lèi)估算簡(jiǎn)單易行,只需要得到用戶(hù)的通話(huà)情況即可獲知其月消費(fèi)金額。(3) 需改進(jìn)的地方及改進(jìn)方法在第二題的模型求解過(guò)程中,由

43、于計(jì)算機(jī)內(nèi)存的限制,本隊(duì)不得不采用分布式拆分算法來(lái)計(jì)算,使得時(shí)間復(fù)雜度無(wú)法滿(mǎn)足計(jì)算全局用戶(hù)的需要。但是只要給matlab分配的內(nèi)存高于8G則可以保證完整型算法成功實(shí)現(xiàn),可以使得運(yùn)算速度有質(zhì)的變化(每次訪(fǎng)問(wèn)硬盤(pán)需要花費(fèi)平均時(shí)間1s,但換做是訪(fǎng)問(wèn)一次內(nèi)存空間,則速度提高很多倍)。5.4 問(wèn)題4的模型手機(jī)靚號(hào)一般分為連號(hào)、順子號(hào)和吉祥號(hào)。然而,手機(jī)號(hào)碼的靚號(hào)分級(jí)工作又涉及到這些特殊號(hào)碼的位置排放,靚號(hào)位數(shù)等問(wèn)題。接下來(lái),我們將以調(diào)查問(wèn)卷的形式征集大家的意見(jiàn),并用科學(xué)的方法對(duì)問(wèn)卷數(shù)據(jù)進(jìn)行分析以對(duì)手機(jī)號(hào)碼的靚號(hào)進(jìn)行明確分級(jí)。5.4.1標(biāo)準(zhǔn)的設(shè)立設(shè)立靚號(hào)分級(jí)的三級(jí)標(biāo)準(zhǔn),靚號(hào)分級(jí)時(shí)依次按照三大標(biāo)準(zhǔn)進(jìn)行分級(jí)。

44、第一標(biāo)準(zhǔn):根據(jù)人們的喜好對(duì)靚號(hào)位置、靚號(hào)類(lèi)型和靚號(hào)位數(shù)進(jìn)行排序;第二標(biāo)準(zhǔn): 根據(jù)人們對(duì)靚號(hào)類(lèi)型(順子號(hào)、連號(hào)和吉祥號(hào))的喜好程度進(jìn)行排序,根據(jù)人們對(duì)靚號(hào)位置(前、中、后)的喜好程度進(jìn)行排序,根據(jù)人們對(duì)靚號(hào)位數(shù)的喜好程度進(jìn)行排序;第三標(biāo)準(zhǔn):根據(jù)人們對(duì)升序順子號(hào)和降序順子號(hào)的偏好對(duì)二者進(jìn)行排序, 根據(jù)人們對(duì)純連號(hào)和雜連號(hào)的偏好對(duì)二者進(jìn)行排序。首先按照第一標(biāo)準(zhǔn)把靚號(hào)分為三大級(jí)別,然后按照第二標(biāo)準(zhǔn)再把三大級(jí)別中相應(yīng)的那一類(lèi)進(jìn)行分級(jí),依此類(lèi)推,把按照第三標(biāo)準(zhǔn)把對(duì)應(yīng)級(jí)別再分級(jí)。5.4.2 問(wèn)卷調(diào)查標(biāo)準(zhǔn)設(shè)計(jì)好后,需要對(duì)各個(gè)標(biāo)準(zhǔn)中各分級(jí)因素進(jìn)行高低級(jí)的劃分。由于我們不能憑空預(yù)測(cè)出大眾對(duì)靚號(hào)的偏好,所以問(wèn)卷調(diào)查

45、成了完成本項(xiàng)目必不可少的一個(gè)階段。該階段可分為三個(gè)步驟問(wèn)卷設(shè)計(jì)、發(fā)放與數(shù)據(jù)的統(tǒng)計(jì)分析。1. 問(wèn)卷設(shè)計(jì)為了劃分分級(jí)因素高低應(yīng)當(dāng)設(shè)計(jì)2. 問(wèn)卷發(fā)放3. 數(shù)據(jù)的統(tǒng)計(jì)分析使用spss軟件設(shè)計(jì)數(shù)據(jù)表格,輸入數(shù)據(jù)。對(duì)各變量進(jìn)行統(tǒng)計(jì)。a. 為了對(duì)第一標(biāo)準(zhǔn)中的各因素進(jìn)行分級(jí),我們對(duì)第9題中的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)即您覺(jué)得靚號(hào)所處位置(前、中、后)與靚號(hào)類(lèi)型(連號(hào),順子號(hào),吉祥號(hào))以及靚號(hào)位數(shù)相比較哪個(gè)更重要? ( )A靚號(hào)位置 B靚號(hào)類(lèi)型 C靚號(hào)位數(shù) D都一樣得到下表(0.00表示缺失,1.00表示選A, 2.00表示選B,3.00表示選C,4.00表示選D )a9頻率百分比有效百分比累積百分比有效.004.5.5.5

46、1.00799.99.910.42.0027334.134.144.53.0034443.043.087.54.0010012.512.5100.0合計(jì)800100.0100.0由表可知,在大多數(shù)人看來(lái)靚號(hào)位數(shù)最重要,部分人認(rèn)為靚號(hào)類(lèi)型最重要,小部分人認(rèn)為靚號(hào)位置最重要,極少數(shù)人認(rèn)為位數(shù)多少是一樣的。由此可對(duì)第一標(biāo)準(zhǔn)中的三個(gè)因素進(jìn)行分級(jí)即:首先考慮靚號(hào)位數(shù)再考慮靚號(hào)類(lèi)型最后考慮靚號(hào)的位置。b. 為了對(duì)第二標(biāo)準(zhǔn)中各個(gè)因素分別分級(jí),我們對(duì)4、5、8題的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)。靚號(hào)類(lèi)型的分級(jí)可由第4題數(shù)據(jù)得到,即:連號(hào)、順子號(hào)和吉祥號(hào)三種靚號(hào),哪一種對(duì)您的吸引力最大? ( ) A連號(hào) B順子號(hào) C吉祥號(hào)(如1

47、68、520 ) D一樣大可得到下表(0.00表示缺失,1.00表示選A, 2.00表示選B,3.00表示選C,4.00表示選D ):a4頻率百分比有效百分比累積百分比有效.005.6.6.61.0033141.441.442.02.0031038.838.880.83.0011314.114.194.94.00415.15.1100.0合計(jì)800100.0100.0由表可知,在大多數(shù)人看來(lái)連號(hào)最好,部分人認(rèn)為順子號(hào)最好,小部分人認(rèn)為吉祥號(hào)最好,極少數(shù)人認(rèn)為是一樣的。因?yàn)樽钕矚g連號(hào)的人數(shù)和最喜歡順子號(hào)的人數(shù)的相對(duì)差值非常小,即:所以,可忽略二者的差別,將其歸為一級(jí)。由此可對(duì)第二標(biāo)準(zhǔn)中的靚號(hào)類(lèi)型

48、因素進(jìn)行分級(jí)即:連號(hào)和順子號(hào)為高級(jí),吉祥號(hào)為低級(jí)。靚號(hào)位置的分級(jí)可由第5題得出,即:您傾向于把特殊號(hào)碼放在手機(jī)號(hào)碼的哪個(gè)位置 ( ) A號(hào)前 B號(hào)中 C號(hào)尾 D都一樣 可得到下表(0.00表示缺失,1.00表示選A, 2.00表示選B,3.00表示選C,4.00表示選D ):a5頻率百分比有效百分比累積百分比有效1.0014918.618.618.62.0021526.926.945.53.0041251.551.597.04.00243.03.0100.0合計(jì)800100.0100.0由表可知,在大多數(shù)人看來(lái)特殊號(hào)碼放在手機(jī)號(hào)尾最好,部分人認(rèn)為特殊號(hào)碼放在號(hào)碼中部最好,小部分人認(rèn)為特殊號(hào)碼放在號(hào)碼前段最好,極少數(shù)人認(rèn)為是一樣的。由此可對(duì)第二標(biāo)準(zhǔn)中的靚號(hào)位置因素進(jìn)行分級(jí)即:手機(jī)號(hào)尾為高級(jí),手機(jī)號(hào)中部為中級(jí),手機(jī)號(hào)前為低級(jí)。特殊號(hào)碼位數(shù)的分級(jí)可由第8題得出,即:特殊號(hào)碼的位數(shù)是不是越多越好? ( A 肯定是越多越好 B 一般是越多越好 C差不多 D 越少越好 可得到下表(0.00表示缺失,1.00表示選A, 2.00表示選B,3.00表示選C,4.00表示選D ):a8頻率百分比有效百分比累積百分比有效.003.4.4.41.0045056.356.356.62.0029937.437.494.03.00455.65.699.

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論