![大數(shù)據(jù)開發(fā)項(xiàng)目實(shí)戰(zhàn)-PPT課件第3章 廣電大數(shù)據(jù)用戶畫像-需求分析_第1頁(yè)](http://file4.renrendoc.com/view/fcbbc04899f195462c5aa41ee81ed664/fcbbc04899f195462c5aa41ee81ed6641.gif)
![大數(shù)據(jù)開發(fā)項(xiàng)目實(shí)戰(zhàn)-PPT課件第3章 廣電大數(shù)據(jù)用戶畫像-需求分析_第2頁(yè)](http://file4.renrendoc.com/view/fcbbc04899f195462c5aa41ee81ed664/fcbbc04899f195462c5aa41ee81ed6642.gif)
![大數(shù)據(jù)開發(fā)項(xiàng)目實(shí)戰(zhàn)-PPT課件第3章 廣電大數(shù)據(jù)用戶畫像-需求分析_第3頁(yè)](http://file4.renrendoc.com/view/fcbbc04899f195462c5aa41ee81ed664/fcbbc04899f195462c5aa41ee81ed6643.gif)
![大數(shù)據(jù)開發(fā)項(xiàng)目實(shí)戰(zhàn)-PPT課件第3章 廣電大數(shù)據(jù)用戶畫像-需求分析_第4頁(yè)](http://file4.renrendoc.com/view/fcbbc04899f195462c5aa41ee81ed664/fcbbc04899f195462c5aa41ee81ed6644.gif)
![大數(shù)據(jù)開發(fā)項(xiàng)目實(shí)戰(zhàn)-PPT課件第3章 廣電大數(shù)據(jù)用戶畫像-需求分析_第5頁(yè)](http://file4.renrendoc.com/view/fcbbc04899f195462c5aa41ee81ed664/fcbbc04899f195462c5aa41ee81ed6645.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
廣電大數(shù)據(jù)用戶畫像——
需求分析1需求探索目錄項(xiàng)目需求2技術(shù)方案3隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展和應(yīng)用擴(kuò)展,國(guó)家積極推進(jìn)并完成“三網(wǎng)融合”,三網(wǎng)融合是指電信網(wǎng)、廣播電視網(wǎng)、互聯(lián)網(wǎng)在向?qū)拵ㄐ啪W(wǎng)、數(shù)字電視網(wǎng)、下一代互聯(lián)網(wǎng)演進(jìn)過(guò)程中,三大網(wǎng)絡(luò)通過(guò)技術(shù)改造,使其技術(shù)功能趨于一致,業(yè)務(wù)范圍趨于相同,實(shí)現(xiàn)三網(wǎng)網(wǎng)絡(luò)互聯(lián)互通、資源共享,為用戶提供語(yǔ)音、數(shù)據(jù)和廣播電視等多種服務(wù)。隨著三網(wǎng)融合的深入推進(jìn)和互聯(lián)網(wǎng)電視(InternetProtocolTelevision,IPTV)的加速布局,OTT(OverTheTop,指通過(guò)互聯(lián)網(wǎng)向用戶提供各種應(yīng)用服務(wù))風(fēng)起云涌,新媒體業(yè)務(wù)的飛速發(fā)展對(duì)傳統(tǒng)媒體造成了巨大沖擊。項(xiàng)目背景復(fù)雜激烈的競(jìng)爭(zhēng)環(huán)境,使廣電的客戶流失問(wèn)題變得異常突出。如何減少客戶流失、挽留客戶并挖掘客戶的潛在需求,是廣電公司目前急需解決的問(wèn)題!在傳統(tǒng)媒體播送時(shí)代,廣電公司“不知道用戶在哪里,不知道用戶是誰(shuí),也不知道用戶想看什么”,因此難以精準(zhǔn)把握用戶需求,而隨著數(shù)字電視機(jī)頂盒等設(shè)備的普及,廣電公司具備了獲取用戶基本信息數(shù)據(jù)、實(shí)時(shí)收視數(shù)據(jù)的能力。項(xiàng)目背景現(xiàn)如今,廣電公司已經(jīng)積累了海量的用戶數(shù)據(jù),包括用戶基本信息數(shù)據(jù)、用戶收視數(shù)據(jù)、用戶訂單數(shù)據(jù)、用戶賬單數(shù)據(jù)等。因此,廣電公司可以根據(jù)用戶的特點(diǎn),從人群、時(shí)間、地點(diǎn)、產(chǎn)品和付費(fèi)方式5個(gè)維度來(lái)挖掘分析用戶數(shù)據(jù),對(duì)用戶進(jìn)行全面的畫像,從人群維度分析明確用戶的年齡段,如少兒、青少年、青年、中年或老年等,以及分析收視語(yǔ)言是外語(yǔ)還是漢語(yǔ)等;從時(shí)間維度分析用戶每天觀看電視的時(shí)長(zhǎng)或者用戶觀看某一電視節(jié)目的時(shí)長(zhǎng);從地點(diǎn)維度分析明確用戶的收視常在地;從產(chǎn)品維度分析用戶喜歡觀看的電視頻道,如點(diǎn)播頻道、回看頻道或直播頻道等,以及用戶喜歡觀看的節(jié)目類型,如體育、電視劇、購(gòu)物、少兒等;從付費(fèi)方式維度分析用戶是收費(fèi)用戶還是免費(fèi)用戶。項(xiàng)目背景通過(guò)用戶畫像可以把握廣電用戶群體的特征和收視行為習(xí)慣,了解用戶的實(shí)際特征和實(shí)際需求,并提供個(gè)性化、精準(zhǔn)化和智能化的推薦服務(wù),為用戶提供更直接、更方便、更個(gè)性化的用戶體驗(yàn),以此來(lái)挽留用戶,減少用戶的流失。項(xiàng)目背景實(shí)時(shí)統(tǒng)計(jì)廣電公司的訂單信息,以此觀察公司產(chǎn)品的銷售趨勢(shì)。挖掘分析用戶相關(guān)數(shù)據(jù),對(duì)用戶數(shù)據(jù)進(jìn)行標(biāo)簽化,建立用戶畫像模型,可提供標(biāo)簽的增加和刪除功能。用戶畫像可視化,將挖掘出來(lái)的用戶標(biāo)簽在頁(yè)面中展現(xiàn)出來(lái)。利用支持向量機(jī)(SupportVectorMachine,SVM)算法建立分類模型,預(yù)測(cè)用戶是否值得挽留,并將預(yù)測(cè)結(jié)果作為用戶畫像的一個(gè)標(biāo)簽。提出的系統(tǒng)架構(gòu)能適應(yīng)用戶數(shù)據(jù)大量增長(zhǎng)時(shí)不需要調(diào)整系統(tǒng)架構(gòu)的情況,即支持動(dòng)態(tài)橫向擴(kuò)展。任務(wù)實(shí)現(xiàn)自動(dòng)化,能對(duì)任務(wù)自定義定時(shí)、編輯、監(jiān)控任務(wù)狀態(tài)等,并且要求設(shè)置每個(gè)月更新一次標(biāo)簽。項(xiàng)目目標(biāo)1需求探索目錄項(xiàng)目需求2技術(shù)方案3用戶基本信息表記錄的是用戶最新狀態(tài)信息。用戶基本信息表對(duì)應(yīng)的CSV文件名為mediamatch_usermsg.csv,數(shù)據(jù)時(shí)間范圍為1991年1月至2018年6月。數(shù)據(jù)說(shuō)明1.用戶基本信息表字段說(shuō)明字段說(shuō)明terminal_no用戶地址編號(hào)owner_code用戶等級(jí)編號(hào)phone_no用戶編號(hào)run_time狀態(tài)變更時(shí)間sm_name品牌名稱addressoj完整地址run_name狀態(tài)名稱estate_name街道或小區(qū)地址sm_code品牌編號(hào)open_time開戶時(shí)間owner_name用戶等級(jí)名稱force寬帶是否生效用戶狀態(tài)信息變更表記錄的是用戶所有時(shí)段的狀態(tài)信息。用戶狀態(tài)信息變更表對(duì)應(yīng)的CSV文件名為mediamatch_userevent.csv,數(shù)據(jù)時(shí)間范圍為1991年1月至2018年6月。數(shù)據(jù)說(shuō)明2.用戶狀態(tài)信息變更表字段說(shuō)明字段說(shuō)明run_name狀態(tài)名稱sm_name品牌名稱run_time狀態(tài)變更時(shí)間open_time開戶時(shí)間owner_code用戶等級(jí)編號(hào)phone_no用戶編號(hào)owner_name用戶等級(jí)名稱——賬單信息表記錄的是用戶每月的賬單信息,這些賬單信息會(huì)在每月1日生成。賬單信息表對(duì)應(yīng)的CSV文件名為mmconsume_billevents.csv,數(shù)據(jù)時(shí)間范圍為2018年1月至2018年7月。數(shù)據(jù)說(shuō)明3.賬單信息表字段說(shuō)明fee_code費(fèi)用類型phone_no用戶編號(hào)owner_code用戶等級(jí)編號(hào)owner_name用戶等級(jí)名稱sm_name品牌名稱year_month賬單時(shí)間terminal_no用戶地址編號(hào)favour_fee優(yōu)惠金額(+代表優(yōu)惠,-代表額外費(fèi)用),單位為元should_pay應(yīng)付金額,單位為元訂單信息表記錄的是用戶訂購(gòu)產(chǎn)品的信息。用戶每訂購(gòu)一個(gè)產(chǎn)品,就會(huì)有相應(yīng)的記錄。訂單信息表對(duì)應(yīng)的CSV文件名為order_index_v3.csv,數(shù)據(jù)時(shí)間范圍為2010年1月至2018年5月。數(shù)據(jù)說(shuō)明4.訂單信息表字段說(shuō)明字段說(shuō)明phone_no用戶編號(hào)prodprcname訂購(gòu)產(chǎn)品名稱(帶價(jià)格)owner_name用戶等級(jí)名稱effdate產(chǎn)品生效時(shí)間optdate產(chǎn)品訂購(gòu)狀態(tài)更新時(shí)間expdate產(chǎn)品失效時(shí)間prodname訂購(gòu)產(chǎn)品名稱orderdate產(chǎn)品訂購(gòu)時(shí)間sm_name品牌名稱cost訂購(gòu)產(chǎn)品價(jià)格offerid訂購(gòu)套餐編號(hào)mode_time產(chǎn)品標(biāo)識(shí),輔助標(biāo)識(shí)電視主、附銷售品offername訂購(gòu)套餐名稱prodstatus訂購(gòu)產(chǎn)品狀態(tài)business_name訂購(gòu)業(yè)務(wù)狀態(tài)run_name狀態(tài)名稱owner_code用戶等級(jí)編號(hào)orderno訂單編號(hào)prodprcid訂購(gòu)產(chǎn)品名稱(帶價(jià)格)的編號(hào)offertype訂購(gòu)套餐類別戶收視行為信息表記錄了用戶觀看電視的收視信息,其中,用戶觀看的媒體節(jié)目類型可分為直播、點(diǎn)播和回看,用戶每切換一個(gè)頻道就會(huì)生成一條新的記錄。用戶收視行為信息表對(duì)應(yīng)的CSV文件名是media_index_3m.csv,數(shù)據(jù)時(shí)間范圍為2018年5月至2018年7月。數(shù)據(jù)說(shuō)明5.用戶收視行為信息表字段說(shuō)明字段說(shuō)明terminal_no用戶地址編號(hào)audio_lang點(diǎn)播節(jié)目的語(yǔ)言類別phone_no用戶編號(hào)region節(jié)目地區(qū)信息duration觀看時(shí)長(zhǎng),單位為msres_name設(shè)備名稱station_name直播頻道名稱res_type媒體節(jié)目類型:0表示直播,1表示點(diǎn)播或回看origin_time觀看行為開始時(shí)間vod_titleVOD節(jié)目名稱end_time觀看行為結(jié)束時(shí)間category_name節(jié)目所屬分類owner_code用戶等級(jí)program_title直播節(jié)目名稱owner_name用戶等級(jí)名稱sm_name品牌名稱vod_cat_tags視頻點(diǎn)播(VideoOnDemand,VOD)節(jié)目包相關(guān)信息(該字段的數(shù)據(jù)類型為嵌套對(duì)象類型,即nestedobject),按不同的節(jié)目包目錄組織first_show_time第一次收視的時(shí)間resolution點(diǎn)播節(jié)目的清晰度————(1)統(tǒng)計(jì)各表的記錄數(shù)和用戶基本信息表的用戶數(shù)基礎(chǔ)探索1.?dāng)?shù)據(jù)總體概述(2)統(tǒng)計(jì)用戶收視記錄中觀看時(shí)長(zhǎng)的均值及最值基礎(chǔ)探索1.?dāng)?shù)據(jù)總體概述(3)統(tǒng)計(jì)用戶月均收視時(shí)長(zhǎng)基礎(chǔ)探索1.?dāng)?shù)據(jù)總體概述(1)重復(fù)記錄的用戶基礎(chǔ)探索2.異常數(shù)據(jù)探索(1)重復(fù)記錄的用戶甲方的業(yè)務(wù)人員提出的解決方案如下:根據(jù)用戶編號(hào)分組保留狀態(tài)變更時(shí)間最大值的記錄來(lái)實(shí)現(xiàn)用戶去重。根據(jù)統(tǒng)計(jì)結(jié)果可以發(fā)現(xiàn),雖然用戶基本信息表中只保留了每個(gè)用戶狀態(tài)變更時(shí)間最大的記錄,但是仍然還有200多個(gè)用戶有重復(fù)的記錄,查看其中某個(gè)用戶的記錄,發(fā)現(xiàn)其用戶狀態(tài)變更字段run_time的值是相同的。發(fā)現(xiàn)這個(gè)問(wèn)題后,繼續(xù)與甲方業(yè)務(wù)人員溝通,甲方的業(yè)務(wù)人員指出這200多個(gè)用戶的品牌名稱(sm_name)都是模擬有線電視,品牌名稱為模擬有線電視的用戶都是需要?jiǎng)h除的,至于需要保留哪些品牌名稱的用戶數(shù)據(jù),在后面將進(jìn)行說(shuō)明。將品牌名稱是模擬有線電視的用戶刪除后,再根據(jù)用戶編號(hào)分組統(tǒng)計(jì)記錄數(shù)大于1的記錄,得到的統(tǒng)計(jì)結(jié)果為0。因此,通過(guò)保留每個(gè)用戶的狀態(tài)變更時(shí)間最大值的記錄的方式來(lái)實(shí)現(xiàn)用戶記錄去重是可行的。基礎(chǔ)探索(2)特殊線路的用戶基礎(chǔ)探索2.異常數(shù)據(jù)探索(3)政企用戶統(tǒng)計(jì)結(jié)果顯示,各表中owner_name字段的值為“EA級(jí)”“EB級(jí)”“EC級(jí)”“ED級(jí)”“EE級(jí)”的總記錄數(shù)相對(duì)較少,即政企用戶在各表中的數(shù)量較少,這也印證了甲方的用戶主要是家庭用戶。雖然政企用戶只出現(xiàn)了owner_name為“EA級(jí)”、“EB級(jí)”和“EE級(jí)”的記錄,但是后續(xù)的數(shù)據(jù)中可能會(huì)出現(xiàn)owner_name為“EC級(jí)”“ED級(jí)”的記錄,因此,在數(shù)據(jù)預(yù)處理時(shí),需要清洗owner_name為“EA級(jí)”、“EB級(jí)”、“EC級(jí)”、“ED級(jí)”或“EE級(jí)”的政企用戶。基礎(chǔ)探索2.異常數(shù)據(jù)探索甲方目前的業(yè)務(wù)類型主要是數(shù)字電視、互動(dòng)電視、甜果電視和珠江寬頻這4種,品牌名稱可以通過(guò)sm_name字段標(biāo)識(shí)。統(tǒng)計(jì)用戶基本信息表中sm_name的所有業(yè)務(wù)類型及其每種業(yè)務(wù)類型的用戶數(shù)。根據(jù)甲方的業(yè)務(wù)要求,除了篩選指定品牌名稱的用戶數(shù)據(jù),還要對(duì)用戶狀態(tài)名稱進(jìn)行過(guò)濾,只保留狀態(tài)名稱為正常、欠費(fèi)暫停、主動(dòng)暫停和主動(dòng)銷戶的用戶數(shù)據(jù),其余的不需要進(jìn)行分析處理。狀態(tài)名稱的字段標(biāo)識(shí)為run_name,對(duì)用戶基本信息表中的用戶狀態(tài)進(jìn)行探索。基礎(chǔ)探索3.篩選主要業(yè)務(wù)類型的數(shù)據(jù)用戶收視行為無(wú)效數(shù)據(jù)是指用戶觀看時(shí)長(zhǎng)過(guò)短或過(guò)長(zhǎng)的記錄,導(dǎo)致這種現(xiàn)象的原因可能是用戶頻繁切換頻道或者只關(guān)閉電視機(jī)而忘記關(guān)閉機(jī)頂盒。在用戶收視行為信息表中,duration字段記錄了用戶每次的觀看時(shí)長(zhǎng)。因?yàn)槊總€(gè)用戶的觀看時(shí)長(zhǎng)值的大小差異較大,所以需要把觀看時(shí)長(zhǎng)以一小時(shí)為一個(gè)區(qū)間來(lái)劃分,統(tǒng)計(jì)各區(qū)間的記錄數(shù)。業(yè)務(wù)需求探索1.用戶收視行為無(wú)效數(shù)據(jù)觀看時(shí)長(zhǎng)小于1h的記錄數(shù)占了絕大部分,需要將這部分記錄按每分鐘為一個(gè)時(shí)間間隔來(lái)劃分,分析落在每個(gè)區(qū)間的記錄數(shù)的分布情況。業(yè)務(wù)需求探索統(tǒng)計(jì)用戶觀看行為中觀看時(shí)長(zhǎng)小于1min的各區(qū)間的記錄數(shù)。業(yè)務(wù)需求探索統(tǒng)計(jì)用戶觀看行為中觀看時(shí)長(zhǎng)小于1min的各區(qū)間的記錄數(shù)。業(yè)務(wù)需求探索在用戶收視行為信息表中,還有一部分?jǐn)?shù)據(jù)是res_type=0時(shí),origin_time和end_time的值結(jié)尾為為00的記錄,這些記錄是機(jī)頂盒自動(dòng)返回的數(shù)據(jù),并不是用戶真實(shí)的觀看記錄,屬于無(wú)效數(shù)據(jù)。因此,這一部分?jǐn)?shù)據(jù)是需要?jiǎng)h除的。查詢用戶收視行為信息表中的無(wú)效數(shù)據(jù)。業(yè)務(wù)需求探索賬單信息表反映了用戶每個(gè)月的消費(fèi)情況,對(duì)該表的數(shù)據(jù)進(jìn)行分析探索能夠更好地了解用戶的消費(fèi)行為,制訂消費(fèi)水平標(biāo)簽的子標(biāo)簽及各子標(biāo)簽的判斷閾值,從而給每個(gè)用戶標(biāo)注合適的消費(fèi)水平標(biāo)簽。因?yàn)殡娨曈脩艉蛯拵в脩舻臉I(yè)務(wù)及費(fèi)用不同,所以需要單獨(dú)分析探索這兩種用戶的消費(fèi)情況。在統(tǒng)計(jì)分析中,為了減小誤差,增強(qiáng)數(shù)據(jù)的穩(wěn)定性,選擇2018年1月至2018年7月的數(shù)據(jù),計(jì)算用戶的月均消費(fèi)金額,以此制訂消費(fèi)水平標(biāo)簽的子標(biāo)簽及其標(biāo)簽閾值。業(yè)務(wù)需求探索2.消費(fèi)水平標(biāo)簽閾值探索先對(duì)電視用戶的賬單數(shù)據(jù)進(jìn)行探索分析,分組統(tǒng)計(jì)每個(gè)用戶的月均消費(fèi)金額,再對(duì)所有用戶的月均消費(fèi)金額進(jìn)行基本的統(tǒng)計(jì)分析。統(tǒng)計(jì)消費(fèi)金額的區(qū)間分布情況。業(yè)務(wù)需求探索依據(jù)電視用戶月均消費(fèi)金額的分布情況,篩選電視用戶月均消費(fèi)金額大于或等于-10元且小于或等于90元的用戶數(shù)據(jù),統(tǒng)計(jì)這部分電視用戶數(shù)據(jù)中用戶月均消費(fèi)金額的平均值和標(biāo)準(zhǔn)差。根據(jù)業(yè)務(wù)特點(diǎn),結(jié)合月均消費(fèi)金額的平均值和標(biāo)準(zhǔn)差,標(biāo)簽值以月均消費(fèi)26.5元為基礎(chǔ)消費(fèi),以標(biāo)準(zhǔn)差的向上取整十?dāng)?shù)20作為浮動(dòng)閾值,制訂4個(gè)電視消費(fèi)水平子標(biāo)簽及規(guī)則,如下表。業(yè)務(wù)需求探索父級(jí)標(biāo)簽子標(biāo)簽標(biāo)簽規(guī)則備注電視消費(fèi)水平電視超低消費(fèi)-26.5<X<26.5X表示電視用戶月均消費(fèi)金額,單位為元電視低消費(fèi)26.5≤X<26.5+20電視中等消費(fèi)26.5+20≤X<26.5+40電視高消費(fèi)26.5+40≤X對(duì)寬帶用戶的賬單數(shù)據(jù)進(jìn)行探索分析。寬帶用戶月均消費(fèi)金額分布情況如下圖。業(yè)務(wù)需求探索為了使寬帶用戶月均消費(fèi)金額的均值和標(biāo)準(zhǔn)差更加穩(wěn)定,過(guò)濾消費(fèi)金額小于0元且大于或等于90元的記錄后,再求寬帶用戶月均消費(fèi)金額的均值、標(biāo)準(zhǔn)差和中位數(shù)。寬帶消費(fèi)水平的子標(biāo)簽及規(guī)則業(yè)務(wù)需求探索父級(jí)標(biāo)簽子標(biāo)簽標(biāo)簽規(guī)則備注寬帶消費(fèi)水平寬帶低消費(fèi)Y≤25Y表示寬帶用戶月均消費(fèi)金額,單位為元寬帶中消費(fèi)25<Y≤45寬帶高消費(fèi)Y>45在用戶基本信息表中,用戶的開戶時(shí)間(open_time)字段記錄了用戶的開戶時(shí)間,利用此字段信息可以給用戶貼上用戶入網(wǎng)程度標(biāo)簽(子標(biāo)簽包含老用戶、中等用戶和新用戶)。具體的入網(wǎng)程度子標(biāo)簽閾值需要通過(guò)對(duì)open_time字段的數(shù)據(jù)進(jìn)行分析統(tǒng)計(jì)才能確定。用戶分為電視用戶和寬帶用戶兩種,這兩種用戶的業(yè)務(wù)屬性不同,需要單獨(dú)分析這兩種用戶的入網(wǎng)時(shí)長(zhǎng)的特征,從而確定子標(biāo)簽的閾值。業(yè)務(wù)需求探索3.入網(wǎng)程度標(biāo)簽閾值探索對(duì)用戶基本信息表中的電視用戶進(jìn)行探索分析。因?yàn)槟M有線電視的用戶不在分析范圍內(nèi),所以在篩選電視用戶的過(guò)程中需要過(guò)濾模擬有線電視的用戶。在探索分析中,需要把open_time字段的值與當(dāng)前時(shí)間相減,把差值轉(zhuǎn)化為以年為單位的值,并統(tǒng)計(jì)所有用戶入網(wǎng)時(shí)長(zhǎng)的最值、均值、30%分位數(shù)和中位數(shù),最后分組統(tǒng)計(jì)各入網(wǎng)時(shí)長(zhǎng)值的用戶數(shù)。業(yè)務(wù)需求探索根據(jù)統(tǒng)計(jì)結(jié)果并結(jié)合實(shí)際的業(yè)務(wù)場(chǎng)景,選擇以30%分位數(shù)4年為電視用戶的入網(wǎng)時(shí)長(zhǎng)的最低臨界值,以標(biāo)準(zhǔn)差4年為浮動(dòng)閾值,制訂3個(gè)電視用戶入網(wǎng)程度子標(biāo)簽及規(guī)則。業(yè)務(wù)需求探索父級(jí)標(biāo)簽子標(biāo)簽標(biāo)簽規(guī)則備注電視用戶入網(wǎng)程度新用戶T≤4T表示電視用戶入網(wǎng)時(shí)長(zhǎng),單位為年中等用戶4<T≤8老用戶T>8在對(duì)寬帶用戶入網(wǎng)時(shí)長(zhǎng)的統(tǒng)計(jì)分析中,主要統(tǒng)計(jì)分析寬帶用戶入網(wǎng)時(shí)長(zhǎng)的最值、均值、標(biāo)準(zhǔn)差、中位數(shù)及其分布情況。業(yè)務(wù)需求探索根據(jù)統(tǒng)計(jì)結(jié)果并結(jié)合實(shí)際的業(yè)務(wù)場(chǎng)景,選擇以中位數(shù)2年作為入網(wǎng)時(shí)長(zhǎng)的最低臨界值,以標(biāo)準(zhǔn)差4年作為浮動(dòng)閾值,制訂3個(gè)寬帶用戶入網(wǎng)程度子標(biāo)簽及規(guī)則。業(yè)務(wù)需求探索父級(jí)標(biāo)簽子標(biāo)簽標(biāo)簽規(guī)則備注寬帶用戶入網(wǎng)程度新用戶T≤2T表示寬帶用戶入網(wǎng)時(shí)長(zhǎng),單位為年中等用戶2<T≤6老用戶T>61需求探索目錄項(xiàng)目需求2技術(shù)方案3項(xiàng)目團(tuán)隊(duì)成員如下:一名項(xiàng)目架構(gòu)師(兼任多個(gè)項(xiàng)目)、一名數(shù)據(jù)分析師、一名程序開發(fā)人員、若干測(cè)試和實(shí)施人員(測(cè)試和實(shí)施人員可以在需要的時(shí)候抽調(diào))。項(xiàng)目團(tuán)隊(duì)成員主要以項(xiàng)目架構(gòu)師、數(shù)據(jù)分析師、程序開發(fā)人員為主。數(shù)據(jù)分析師對(duì)數(shù)據(jù)分析、數(shù)據(jù)挖掘建模比較熟悉,會(huì)進(jìn)行基礎(chǔ)的SQL代碼編寫。程序開發(fā)人員能使用Java技術(shù),熟悉Spring相關(guān)JavaWeb開發(fā),對(duì)大數(shù)據(jù)Hadoop、Spark有一定了解。技術(shù)選型廣電公司使用Elasticsearch來(lái)存儲(chǔ)廣電用戶數(shù)據(jù),因此數(shù)據(jù)源沒(méi)有選型的需求,直接使用客戶(甲方)提供的數(shù)據(jù)存儲(chǔ)技術(shù)即可。技術(shù)選型1.業(yè)務(wù)數(shù)據(jù)存儲(chǔ)使用Elasticsearch后續(xù)的數(shù)據(jù)預(yù)處理、用戶畫像和SVM預(yù)測(cè)用戶是否挽留等操作都需要用到Elasticsearch中的數(shù)據(jù),為了提升程序的執(zhí)行效率,需提前將Elasticsearch數(shù)據(jù)傳輸?shù)紿ive表中,后續(xù)操作直接使用SparkSQL讀取Hive表數(shù)據(jù)。Elasticsearch數(shù)據(jù)傳輸?shù)紿ive的方式有多種,例如,直接使用Hive讀取Elasticsearch數(shù)據(jù);使用Spark讀取Elasticsearch數(shù)據(jù)得到RDD,并將RDD轉(zhuǎn)換成DataFrame,再把DataFrame保存到Hive中;使用SparkSQL直接讀取Elasticsearch數(shù)據(jù)為DataFrame并保存到Hive中。考慮到使用Spark相關(guān)技術(shù)讀取Elasticsearch數(shù)據(jù)相比使用Hive讀取Elasticsearch數(shù)據(jù)效率更高,而SparkSQL可直接將Elasticsearch數(shù)據(jù)轉(zhuǎn)換為DataFrame,因此本項(xiàng)目采用SparkSQL技術(shù)將Elasticsearch數(shù)據(jù)傳輸?shù)紿ive中。技術(shù)選型2.Elasticsearch數(shù)據(jù)傳輸?shù)紿ive使用SparkSQL用戶畫像的核心工作就是給用戶標(biāo)注標(biāo)簽,挖掘用戶標(biāo)簽的工作側(cè)重于數(shù)據(jù)分析??紤]到項(xiàng)目的數(shù)據(jù)分析師已經(jīng)具備SQL基礎(chǔ),并且對(duì)SparkSQL有所了解,因此用戶畫像模塊采用SparkSQL技術(shù)。技術(shù)選型3.用戶畫像使用SparkSQL比較常用的流式大數(shù)據(jù)實(shí)時(shí)處理技術(shù)有Storm、SparkStreaming,因?yàn)楸卷?xiàng)目的開發(fā)人員對(duì)Storm技術(shù)了解較少,而對(duì)SparkStreaming比較熟悉,所以采用SparkStreaming實(shí)時(shí)統(tǒng)計(jì)訂單信息。SparkStreaming支持的外部數(shù)據(jù)源有Flume、Kafka、ZeroMQ、TCPSocket等。其中,Kafka是一個(gè)分布式的、高吞吐量的、易于擴(kuò)展的基于主題發(fā)布/訂閱的消息系統(tǒng),常作為流計(jì)算系統(tǒng)的數(shù)據(jù)源,因此選擇SparkStreaming與Kafka結(jié)合。另外,因?yàn)镽edis是一個(gè)基于內(nèi)存的高性能鍵值對(duì)數(shù)據(jù)庫(kù),適用于少量數(shù)據(jù)的存儲(chǔ)與實(shí)時(shí)更新的場(chǎng)景,所以將數(shù)據(jù)的處理結(jié)果保存到Redis中。技術(shù)選型4.?dāng)?shù)據(jù)流實(shí)時(shí)統(tǒng)計(jì)采用Kafka+SparkStreaming+RedisSpark提供了機(jī)器學(xué)習(xí)算法庫(kù),即MLlib,用戶可以直接調(diào)用MLlib提供的算法進(jìn)行建模。為方便后續(xù)程序開發(fā)人員對(duì)相關(guān)代碼進(jìn)行系統(tǒng)嵌入,本項(xiàng)目決定采用ScalaAPI的MLlib技術(shù)進(jìn)行數(shù)據(jù)挖掘建模。技術(shù)選型5.?dāng)?shù)據(jù)挖掘建模采用SparkMLlib這里的中間結(jié)果數(shù)據(jù)指的是數(shù)據(jù)預(yù)處理之后的數(shù)據(jù)。數(shù)據(jù)可以直接使用HDFS來(lái)存儲(chǔ),但是考慮到后續(xù)的用戶畫像使用的是SparkSQL技術(shù),即進(jìn)行用戶畫像之前需要使用SparkSQ
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2022年普通高等學(xué)校招生全國(guó)統(tǒng)一考試(全國(guó)乙卷)英語(yǔ)試題含答案
- 知識(shí)產(chǎn)權(quán)侵權(quán)行為的法律責(zé)任與處罰制度
- 2024中國(guó)生活用燃料零售市場(chǎng)前景及投資研究報(bào)告
- 中國(guó)葦漿行業(yè)市場(chǎng)深度分析及未來(lái)發(fā)展趨勢(shì)預(yù)測(cè)報(bào)告
- 法院辭職申請(qǐng)書
- 房屋受災(zāi)申請(qǐng)書
- 成都青白江區(qū)2024年七年級(jí)《地理》下冊(cè)期末試卷與參考答案
- 沈陽(yáng)工業(yè)大學(xué)《中學(xué)語(yǔ)文課本劇編演》2023-2024學(xué)年第二學(xué)期期末試卷
- 中國(guó)科學(xué)技術(shù)大學(xué)《數(shù)字調(diào)色與影視特效》2023-2024學(xué)年第二學(xué)期期末試卷
- 遼寧中醫(yī)藥大學(xué)杏林學(xué)院《數(shù)據(jù)庫(kù)設(shè)計(jì)實(shí)訓(xùn)》2023-2024學(xué)年第二學(xué)期期末試卷
- 北師大版五年級(jí)數(shù)學(xué)下冊(cè)教材分析解讀課件完整版
- 學(xué)校開學(xué)教師安全培訓(xùn)
- 出口潛力分析報(bào)告
- 晉升的述職報(bào)告
- 檔案盒(文件盒)標(biāo)簽?zāi)0?正面、側(cè)面)
- 消防工程施工進(jìn)度計(jì)劃?rùn)M道圖+進(jìn)度網(wǎng)絡(luò)圖
- 微信視頻號(hào)運(yùn)營(yíng)技巧攻略詳解全套
- 2023CSCO非小細(xì)胞肺癌診療指南解讀
- 人教版九年級(jí)英語(yǔ)全冊(cè)期末復(fù)習(xí)完成句子專項(xiàng)練習(xí)
- 干部選拔任用程序
- 圍手術(shù)期疼痛護(hù)理課件
評(píng)論
0/150
提交評(píng)論