廣西移動(dòng)《大數(shù)據(jù)挖掘與智慧運(yùn)營(yíng)實(shí)戰(zhàn)培訓(xùn)》強(qiáng)化學(xué)習(xí)階段測(cè)試題(A卷)_第1頁(yè)
廣西移動(dòng)《大數(shù)據(jù)挖掘與智慧運(yùn)營(yíng)實(shí)戰(zhàn)培訓(xùn)》強(qiáng)化學(xué)習(xí)階段測(cè)試題(A卷)_第2頁(yè)
廣西移動(dòng)《大數(shù)據(jù)挖掘與智慧運(yùn)營(yíng)實(shí)戰(zhàn)培訓(xùn)》強(qiáng)化學(xué)習(xí)階段測(cè)試題(A卷)_第3頁(yè)
廣西移動(dòng)《大數(shù)據(jù)挖掘與智慧運(yùn)營(yíng)實(shí)戰(zhàn)培訓(xùn)》強(qiáng)化學(xué)習(xí)階段測(cè)試題(A卷)_第4頁(yè)
廣西移動(dòng)《大數(shù)據(jù)挖掘與智慧運(yùn)營(yíng)實(shí)戰(zhàn)培訓(xùn)》強(qiáng)化學(xué)習(xí)階段測(cè)試題(A卷)_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

廣西移動(dòng)《大數(shù)據(jù)挖掘與智慧運(yùn)營(yíng)實(shí)戰(zhàn)培訓(xùn)》強(qiáng)化學(xué)習(xí)階段測(cè)試題姓名所在部門所屬課題考試說(shuō)明:本考試題共四大題,滿分150分,包含兩個(gè)附件,附件1“客戶流失分析訓(xùn)練集.xls”和附件2“客戶流失預(yù)測(cè)檢驗(yàn)集.xls”,考試結(jié)束請(qǐng)將本文檔和附件2一并交回。一、選擇題(單選題,每題4分,共20分,請(qǐng)選出您認(rèn)為最正確的一個(gè)答案)1、以下哪個(gè)不屬于數(shù)據(jù)挖掘的范疇(D)A.分類分析 B.回歸分析C.聚類分析 D.數(shù)據(jù)復(fù)制2、以下哪一條是中國(guó)移動(dòng)在未來(lái)大數(shù)據(jù)運(yùn)營(yíng)發(fā)展中的明顯優(yōu)勢(shì)(A)A.擁有海量的數(shù)據(jù)資源 B.在大數(shù)據(jù)領(lǐng)域擁有全世界最多的知識(shí)產(chǎn)權(quán)C.擁有最豐富的大數(shù)據(jù)運(yùn)營(yíng)經(jīng)驗(yàn) D.擁有全世界最先進(jìn)的大數(shù)據(jù)人才隊(duì)伍3、下圖展示了兩條ROC曲線,請(qǐng)問(wèn)若希望TruePositiveRate不小于0.9,哪條曲線代表的分類器效果較好(B)A.M1 B.M2 C.兩者一樣 D.需計(jì)算具體的AUC4、以下哪個(gè)算法不是分類算法(C)A.ID3決策樹 B.K近鄰算法 C.Apriori算法 D.邏輯回歸5、下圖為決策樹預(yù)測(cè)客戶是否流失的分類表(1表示流失),請(qǐng)問(wèn)對(duì)于檢驗(yàn)樣本來(lái)說(shuō)誤判率為多少(A)A.23.9% B.8.9% C.76.1% D.98.3%二、判斷題(每題4分,共20分)在分類算法中,命中率和誤判率之和一般等于1。(錯(cuò))數(shù)據(jù)挖掘的重要意義之一在于它能構(gòu)造出人發(fā)現(xiàn)不了的規(guī)律。(對(duì))Apriori算法和窮舉關(guān)聯(lián)分析相比,能挖掘出更多的關(guān)聯(lián)規(guī)則,并且只需要付出略微多一點(diǎn)的計(jì)算量。(錯(cuò))在運(yùn)用決策樹分析時(shí),應(yīng)避免發(fā)生“過(guò)度擬合”的現(xiàn)象。(對(duì))一元線性回歸通常采用“殘差”來(lái)評(píng)價(jià)回歸效果的好壞,對(duì)于同一個(gè)數(shù)據(jù)集合,殘差越大則該數(shù)據(jù)的線性擬合度越低。(對(duì))三、計(jì)算與實(shí)際操作題(本大題共5題,90分,請(qǐng)任選3題作答,如果全做,將取前3題計(jì)分)數(shù)據(jù)預(yù)處理、聚類分析與智慧運(yùn)營(yíng)(本題30分)(1).請(qǐng)閱讀附件1,補(bǔ)全缺失的信用等級(jí),將結(jié)果填入下表(每答對(duì)1個(gè)給1分,答錯(cuò)不給分,共10分)客戶ID信用等級(jí)5917四星級(jí)5915四星級(jí)5914五星級(jí)金卡vip5912五星級(jí)金卡vip5911四星級(jí)5908五星級(jí)金卡vip5916四星級(jí)5913四星級(jí)59105五星級(jí)銀卡vip5909三星級(jí)(2).請(qǐng)閱讀附件1,畫出屬性“網(wǎng)齡”與屬性“前三月平均DOU”的二維分布圖,找出最為顯著的兩個(gè)離群點(diǎn),答出這些離群點(diǎn)的用戶ID,并將刪除離群點(diǎn)后的二維分布圖貼在下面。(本小題10分)屬性“網(wǎng)齡”與屬性“前三月平均DOU”的二維分布圖中最為顯著的兩個(gè)離群點(diǎn),如下將刪除離群點(diǎn)后的二維分布圖如下:(3).刪除離群點(diǎn)后,運(yùn)用K均值聚類方法,按照屬性“網(wǎng)齡”與屬性“前三月平均DOU”,將用戶聚成3個(gè)簇,將每個(gè)簇的中心填入下表,并回答表中的問(wèn)題。(提示:聚類前需進(jìn)行數(shù)據(jù)預(yù)處理,本小題10分)類別1類別2類別3網(wǎng)齡1916035前三月平均DOU1530935.72915362.4719448686.7799完成網(wǎng)齡與前三月平均DOU的聚類分析后,您對(duì)如何提升當(dāng)?shù)赜脩舻腄OU有什么建議?網(wǎng)齡在160個(gè)月左右的用戶(類別2)占總用戶數(shù)的90%左右,而這部分用戶的平均DOU是三個(gè)類別中最低的。所以要提升當(dāng)?shù)赜脩舻腄OU,應(yīng)該對(duì)類別2的用戶實(shí)行流量套餐優(yōu)惠,促進(jìn)用戶對(duì)DOU的使用,達(dá)到DOU提升的目的。決策樹分析與客戶流失預(yù)測(cè)(本題30分)(1).請(qǐng)閱讀附件1,以屬性“是否流失”為因變量構(gòu)造一棵深度為2的CHAID樹,將樹的截圖貼在下方。(2).請(qǐng)閱讀附件1,以屬性“是否流失”為因變量構(gòu)造一棵深度為3的CHAID樹,將樹的截圖貼在下方。(3).上述兩棵樹,哪棵更好?請(qǐng)簡(jiǎn)單說(shuō)明您的理由。深度為2的CHAID樹分類已觀測(cè)已預(yù)測(cè)01正確百分比02970124999.2%1303493994.2%總計(jì)百分比85.3%14.7%98.4%增長(zhǎng)方法:CHAID因變量列表:是否流失深度為3的CHAID樹分類已觀測(cè)已預(yù)測(cè)01正確百分比02984710399.7%1252499095.2%總計(jì)百分比85.5%14.5%99.0%增長(zhǎng)方法:CHAID因變量列表:是否流失從模型的結(jié)果來(lái)看,深度為2的CHAID樹,命中率為94.2%,誤判率為0.8%;深度為3的CHAID樹,命中率為95.2%,誤判率為0.3%.由此可以看出來(lái),深度為3的CHAID樹效果更好,更精準(zhǔn)。(4).對(duì)附件1中的數(shù)據(jù)進(jìn)行深入解讀,選擇您認(rèn)為最優(yōu)的CHAID決策樹(不拘泥于以上兩棵樹),生成客戶流失的預(yù)測(cè)規(guī)則,預(yù)測(cè)附件2中的用戶是否會(huì)流失,將預(yù)測(cè)結(jié)果填寫到附件2中對(duì)應(yīng)的列中(標(biāo)識(shí)為綠色)。見附件。相關(guān)性檢測(cè)、K近鄰算法與客戶流失預(yù)測(cè)(本題30分)(1).請(qǐng)閱讀附件1,使用雙變量相關(guān)分析法找出與屬性“是否流失”最為相關(guān)的三個(gè)屬性。(提示:做雙變量相關(guān)要求變量為數(shù)值型)與屬性“是否流失”最為相關(guān)的三個(gè)屬性:網(wǎng)齡、當(dāng)月MOU和前三個(gè)月平均MOU。(2).以上述三個(gè)屬性為特征,“是否流失”為目標(biāo),令K=3,預(yù)測(cè)附件2中的用戶是否會(huì)流失,將預(yù)測(cè)結(jié)果填寫到附件2中對(duì)應(yīng)的列中(標(biāo)識(shí)為綠色)。(提示:需要先將附件1和附件2合并為一個(gè)數(shù)據(jù)集合,才能便于分析)見附件2。(3).對(duì)附件1中的數(shù)據(jù)進(jìn)行深入解讀,選擇您認(rèn)為最優(yōu)的屬性和最佳的K值,運(yùn)用KNN算法,預(yù)測(cè)附件2中的用戶是否會(huì)流失,將預(yù)測(cè)結(jié)果填寫到附件2中對(duì)應(yīng)的列中(標(biāo)識(shí)為綠色)。與屬性“是否流失”最優(yōu)的三個(gè)屬性:網(wǎng)齡、當(dāng)月MOU、前三個(gè)月平均MOU、當(dāng)月ARPU和前三個(gè)月平均ARPU和最佳K值是5。結(jié)果見附件2。數(shù)據(jù)預(yù)處理與多元線性回歸(本題30分)(1).請(qǐng)閱讀附件1,將“信用等級(jí)”重新編碼為新變量“信用等級(jí)編碼”,并使用雙變量相關(guān)找出與屬性“信用等級(jí)編碼”最為相關(guān)的三個(gè)屬性。(2).以“信用等級(jí)編碼”為因變量、上題中得到的三個(gè)屬性為自變量,進(jìn)行多元線性回歸,給出簡(jiǎn)要的操作步驟與回歸模型(提示:回歸模型的示例為:信用等級(jí)=2.3*DOU+1.8*MOU+2528*網(wǎng)齡)。ROC曲線與算法選型(本題30分)基于第2題第1問(wèn)的決策樹分析結(jié)果,畫出ROC曲線;基于第2題第4問(wèn)的決策樹分析結(jié)果,畫出ROC曲線;比較上述兩條ROC曲線代表的預(yù)測(cè)模型的優(yōu)劣(言之成理即可)。四、簡(jiǎn)答題(本題20分)1、請(qǐng)結(jié)合所學(xué)知識(shí)談?wù)勀鷮?duì)項(xiàng)目組后期工作的建議。(提示:可以從項(xiàng)目主題、目標(biāo)、數(shù)據(jù)采集、數(shù)據(jù)篩選、數(shù)據(jù)挖掘、落地實(shí)施等各環(huán)節(jié)中選取一個(gè)或者多個(gè)來(lái)談)對(duì)項(xiàng)目組后期的工作,我從我理解的角度對(duì)數(shù)據(jù)采集、數(shù)據(jù)篩選這兩個(gè)環(huán)節(jié)談?wù)勎业目捶?,因?yàn)檫@兩個(gè)環(huán)節(jié)的執(zhí)行效果好壞將直接影響到模型的好壞。數(shù)據(jù)采集是數(shù)據(jù)挖掘的基礎(chǔ),根據(jù)實(shí)際情況進(jìn)行字段選擇,雖然說(shuō)選擇字段越多越好,但是我個(gè)人覺得可以根據(jù)經(jīng)驗(yàn)選擇一些相關(guān)性比較的強(qiáng)的字段就行。因?yàn)樵谶@個(gè)所有的字段當(dāng)中和結(jié)果相關(guān)性強(qiáng)的無(wú)非就那一些字段,而對(duì)模型有影響的其實(shí)也是相關(guān)性強(qiáng)的字段。比如說(shuō)現(xiàn)在有200個(gè)字段可以選擇,我們不一定把這200個(gè)字段全部都取出來(lái),可以根據(jù)平時(shí)的經(jīng)驗(yàn)選擇相關(guān)性比較強(qiáng)的前50個(gè),或者前30個(gè)就可以了。這樣也可以一定程度上減少采集的工作量

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論