《手機(jī)上網(wǎng)用戶行為分析系統(tǒng)》結(jié)題匯報(bào)課件_第1頁
《手機(jī)上網(wǎng)用戶行為分析系統(tǒng)》結(jié)題匯報(bào)課件_第2頁
《手機(jī)上網(wǎng)用戶行為分析系統(tǒng)》結(jié)題匯報(bào)課件_第3頁
《手機(jī)上網(wǎng)用戶行為分析系統(tǒng)》結(jié)題匯報(bào)課件_第4頁
《手機(jī)上網(wǎng)用戶行為分析系統(tǒng)》結(jié)題匯報(bào)課件_第5頁
已閱讀5頁,還剩24頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、中國移動(dòng)集團(tuán)級(jí)重點(diǎn)研發(fā)項(xiàng)目結(jié)題匯報(bào)報(bào)告9/13/2022項(xiàng)目名稱:手機(jī)上網(wǎng)用戶行為分析系統(tǒng)一. 課題目標(biāo)實(shí)現(xiàn)情況目 錄二、主要研究成果(整合后)研究背景“十一五”期間,我國網(wǎng)民規(guī)模躍居全球第一,寬帶普及率接近100%,手機(jī)網(wǎng)民規(guī)模迅速發(fā)展,互聯(lián)網(wǎng)應(yīng)用更加深入,推動(dòng)著社會(huì)進(jìn)步和人們生活方式的變革。隨著移動(dòng)互聯(lián)網(wǎng)近幾年快速的發(fā)展,作為移動(dòng)互聯(lián)網(wǎng)關(guān)鍵環(huán)節(jié)的中國移動(dòng)正在感受這個(gè)浪潮帶來的沖擊。上網(wǎng)流量同比上升112.3%流量收入同比上升49.4%高速發(fā)展的流量并沒有帶來相關(guān)收入的同步增長(zhǎng)研究背景在以用戶為中心的發(fā)展時(shí)代下,了解用戶需求成為我們面對(duì)課題的第一步工作,這就需要我們對(duì)我們網(wǎng)絡(luò)中的流量有深入的

2、了解,掌握我們用戶的行為情況,便于我們針對(duì)性的調(diào)整運(yùn)營(yíng)戰(zhàn)略,在正在到來的移動(dòng)互聯(lián)網(wǎng)大潮中未雨綢繆,迎接即將到來的挑戰(zhàn)。針對(duì)用戶的需求分析作為中國移動(dòng)具有先天的優(yōu)勢(shì),海量的CMWAP、CMNET的日志信息蘊(yùn)含著巨大的財(cái)富,通過用戶移動(dòng)互聯(lián)網(wǎng)行為分析,一方面讓我們更了解我們的用戶,實(shí)現(xiàn)個(gè)性化需求的識(shí)別。同時(shí)在有限的資源情況下及時(shí)的為用戶提供個(gè)性化的產(chǎn)品生產(chǎn)、個(gè)性化的匹配/分發(fā)。通過針對(duì)用戶上網(wǎng)行為的分析實(shí)現(xiàn)個(gè)性化需求的識(shí)別,成為數(shù)據(jù)部迫不及待需要解決的問題;同時(shí)在流量經(jīng)營(yíng)和精細(xì)化的營(yíng)銷方面具有非常重要的戰(zhàn)略意義。研究目標(biāo)研究一種適應(yīng)分類體系變化的海量網(wǎng)頁快速分類系統(tǒng),要求如下:實(shí)現(xiàn)一個(gè)快速爬取手機(jī)

3、用戶訪問日志的方法,需要深入到用戶訪問頁面的標(biāo)題、正文信息以及相關(guān)網(wǎng)頁鏈接。針對(duì)手機(jī)互聯(lián)網(wǎng),提出一種正文提取的方法。基于分塊的基礎(chǔ)上,提取每個(gè)信息塊的信息量,并計(jì)算各個(gè)分塊和網(wǎng)頁title的相似度,最終確定正文塊?;谥黝}的多分類方法。文本不被看作僅僅是由一些特征詞所組成的,而是被看作是由一些主題構(gòu)成的,主題是由一些特征詞構(gòu)成的。通過樣本中不同類別的主題分布,實(shí)現(xiàn)預(yù)測(cè)出一個(gè)新的文本到底屬于什么類別。研究總體框架手機(jī)上網(wǎng)用戶行為分析項(xiàng)目研究的總體架構(gòu)如下:多數(shù)據(jù)海量數(shù)據(jù)預(yù)處理海量數(shù)據(jù)存儲(chǔ)和計(jì)算“客戶-內(nèi)容”特征類標(biāo)簽分層可擴(kuò)充體系“客戶-內(nèi)容-業(yè)務(wù)”三維匹配矩陣前臺(tái)應(yīng)用管理模塊難點(diǎn)及解決方案項(xiàng)目

4、的難點(diǎn):本課題首先是獲取不同類型網(wǎng)頁的正文內(nèi)容,然后利用數(shù)據(jù)挖掘來分析用戶的喜好,其主要的困難如下:數(shù)據(jù)大規(guī)模性網(wǎng)頁類型多樣性分類要求的高效性多分類性分類體系的變化性“客戶-內(nèi)容-業(yè)務(wù)”三維矩陣模型的構(gòu)建用戶數(shù)據(jù)的零散性垃圾數(shù)據(jù)的清理用戶數(shù)據(jù)業(yè)務(wù)偏好的識(shí)別項(xiàng)目的難點(diǎn)及解決方案相關(guān)解決方案:系統(tǒng)架構(gòu)采用云存儲(chǔ)和云計(jì)算的方式,有良好的擴(kuò)展性;建立適應(yīng)性分類體系變化的海量網(wǎng)頁快速分類體系和系統(tǒng)基于主題的分類方法正是為解決這些問題應(yīng)運(yùn)而生。它基于PLSA模型,計(jì)算出文本的主題分布,再根據(jù)貝葉斯分類來預(yù)測(cè)文本所屬的類別。由于PLSA模型在訓(xùn)練的時(shí)候比較耗時(shí),但在訓(xùn)練過之后,計(jì)算文本的主題分布的時(shí)間是線性

5、的,所以在實(shí)際應(yīng)用中,計(jì)算文本的主題分布并不是很耗時(shí)。另外,基于主題貝葉斯分類消耗的時(shí)間也是有限的,因?yàn)橹黝}數(shù)通常都在1000以下,相比于特征詞來說,維度已經(jīng)降低了很多,所以時(shí)間花費(fèi)也比較少?;谥黝}的分類方法以PLSA的模型的理論基礎(chǔ),通過抽象出一個(gè)虛擬的主題層,通過文檔和關(guān)鍵詞之間的共生關(guān)系,來求解主題和各文檔的關(guān)系及主題和關(guān)鍵詞的分布情況。以及在求解過程中所采用的EM迭代算法。主要技術(shù)方案和關(guān)鍵技術(shù)hadoop-分布式存儲(chǔ)系統(tǒng)hdfs高效性:任務(wù)分配,數(shù)據(jù)分發(fā),本地計(jì)算,高吞吐量等異構(gòu)軟硬件平臺(tái)的可移植性可靠性:容錯(cuò),復(fù)本大數(shù)據(jù)集數(shù)據(jù)一致性主要技術(shù)方案和關(guān)鍵技術(shù)hadoop-并行計(jì)算框架

6、MapReduceMapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集的并行運(yùn)算,所有操作被抽象為兩類:Map(映射)和Reduce(規(guī)約)包括:分布grep,分布排序,WAP連接圖反轉(zhuǎn),WAP訪問日志分析,反向索引構(gòu)建,文檔聚類,機(jī)器學(xué)習(xí),基于統(tǒng)計(jì)的機(jī)器翻譯等主要技術(shù)方案和關(guān)鍵技術(shù)主題分類體系的建設(shè)是基于主題的分類方法,而不是文本的關(guān)鍵詞屬性。而主題是隱含在某些文章里面的,它是抽象出來的一個(gè)概念,必須通過一個(gè)計(jì)算階段把它用實(shí)際的向量表示出來,先找到本文分類體系中所有分類的樣本,再從這些樣本中去尋找隱含的主題。計(jì)算與存儲(chǔ)平臺(tái)爬取正文提取PLSA模型訓(xùn)練降維分類訓(xùn)練分類不同的分類體系收集用戶上網(wǎng)的

7、URL集合訪問內(nèi)容層面的分析網(wǎng)頁分類分析:加了一個(gè)語義層,建立文檔、語義、關(guān)鍵詞之間的概率關(guān)系解決傳統(tǒng)VSM(向量空間模型)的問題-同義詞,多義詞等,超越詞匯層面,更加深刻地把握文本的主旨語義層面的理解具有概率理論作為理論依據(jù),相比于LSA新穎性,此技術(shù)先前主要應(yīng)用尋找一些相關(guān)詞,在這里,成功應(yīng)用于主題分類。訪問內(nèi)容層面的分析關(guān)鍵詞分析根據(jù)用戶訪問的信息(詞向量),求得這些詞向量所屬的主題及其概率p1,并根據(jù)詞表找到該主題下所有的詞及其概率分布p2,再參考這些詞向量本身的tf*idf,最終求得p1*p2*tf*idf,取前N個(gè)得分最高的詞,即作為用戶最為喜好的關(guān)鍵詞。文本有勒布朗在場(chǎng)上,對(duì)手就

8、不得不在防守上小心謹(jǐn)慎,因?yàn)樵谒拇龠M(jìn)下,沒有人不可以成為得分的威脅。不僅如此,勒布朗也能在進(jìn)攻端統(tǒng)治比賽,此外他在防守端也能做到如此。這些讓他成為一個(gè)全能戰(zhàn)將。分詞結(jié)果比賽 1 不得 1 不僅如此 1 不可以 1 不在 1 成為 2 促進(jìn) 1 得分 1對(duì)手 1 防守 2 進(jìn)攻 1 勒布朗 2 沒有人 1 能做到 1 全能戰(zhàn)將 1 統(tǒng)治 1威脅 1 小心謹(jǐn)慎 1 在場(chǎng) 1主題分布414 0.26259 486 0.0920321 203 0.064595 111 0.0592055 759 0.052535 1028 0.0485639 485 0.0467883 402 0.045465 4

9、26 0.0447405 271 0.0435144 595 0.0414496 397 0.0394543 301 0.0366626 9 0.0355855 809 0.0322277 559 0.031286 909 0.0174838 508 0.00420075 1149 0.00160299 811 1.57853e-05 346 1.27575e-06分類結(jié)果體育 0.328462 旅游 0.0637043 游戲 0.0617362(體育的概率是游戲的五倍,因此該正文歸為體育標(biāo)簽)訪問內(nèi)容層面的分析網(wǎng)頁分類分析舉例說明項(xiàng)目研究建設(shè)情況目前完成系統(tǒng)平臺(tái)建設(shè),正在進(jìn)一步優(yōu)化標(biāo)簽體系;

10、目前一級(jí)標(biāo)簽25類,包括新聞、閱讀、娛樂、健康、財(cái)經(jīng)、游戲、體育、科技等,基本覆蓋移動(dòng)互聯(lián)網(wǎng)的內(nèi)容體系;目前二級(jí)分類標(biāo)簽約238類,針對(duì)一級(jí)標(biāo)簽進(jìn)行了詳細(xì)的內(nèi)容分析,目前重點(diǎn)完成的分類包括閱讀、新聞、娛樂等,其他一級(jí)分類對(duì)應(yīng)的二級(jí)分類還在進(jìn)一步完善中;系統(tǒng)每天分析的話單量約9-10億條,涉及用戶600-1000余萬;目前每天成功分析并標(biāo)注內(nèi)容標(biāo)簽的用戶約500-800萬間,標(biāo)簽標(biāo)注成功率在75%;目前用戶的偏好主要分布在新聞、社區(qū)、博客、游戲、閱讀等一級(jí)內(nèi)容標(biāo)簽下;分析共捕捉了15萬多個(gè)網(wǎng)站(包括二級(jí)域名),其中成功根據(jù)用戶點(diǎn)擊進(jìn)行內(nèi)容標(biāo)注的網(wǎng)站約2萬網(wǎng)站,覆蓋用戶100%,覆蓋點(diǎn)擊量99.9

11、%;其中前281個(gè)網(wǎng)站占總訪問量的80%偏好分析主菜單全景分析 對(duì)訪問內(nèi)容偏好情況的總體分析綜合分析 對(duì)內(nèi)容進(jìn)行的35個(gè)類別的統(tǒng)計(jì)閱讀、新聞、游戲、音樂、視頻 對(duì)五種內(nèi)容的類型的進(jìn)一步分析;目前音樂和視頻無法分析。個(gè)性化分析 針對(duì)某個(gè)用戶號(hào)碼的個(gè)性化偏好,以及適合推薦的業(yè)務(wù)。根據(jù)用戶數(shù)、用戶點(diǎn)擊次數(shù)的餅圖顯示“其他|其他”是訪問內(nèi)容無法歸類的內(nèi)容“|”為標(biāo)簽的分級(jí)分隔符一級(jí)標(biāo)簽、二級(jí)標(biāo)簽?zāi)壳暗姆诸愺w系方法,仍在優(yōu)化過程中。按日查詢按地區(qū)查詢見下頁系統(tǒng)功能界面:全景分析-用戶系統(tǒng)功能界面:綜合分析內(nèi)容的一級(jí)分類,目前有35個(gè)一級(jí)分類;根據(jù)目前互聯(lián)網(wǎng)的內(nèi)容分類方式。偏好某個(gè)分類下的用戶號(hào)碼列表,目

12、前隱藏了中間四位。該內(nèi)容標(biāo)簽的點(diǎn)擊次數(shù)占該用戶總點(diǎn)擊次數(shù)的比重“新聞”類的域名的根據(jù)點(diǎn)擊量進(jìn)行排行系統(tǒng)功能界面:閱讀閱讀類內(nèi)容的進(jìn)一步分類;目前共45個(gè)閱讀二級(jí)分類;可對(duì)用戶偏好的程度進(jìn)行選擇性篩選該閱讀偏好的用戶在哪些網(wǎng)站訪問內(nèi)容研究成功在營(yíng)銷工作上的應(yīng)用對(duì)客戶移動(dòng)互聯(lián)網(wǎng)行為進(jìn)行采集,分析,發(fā)現(xiàn)用戶關(guān)注相關(guān)內(nèi)容,為開展?fàn)I銷提供號(hào)碼支持。人不分高低貴賤,只是環(huán)境使然,讓一個(gè)總統(tǒng)之才出生在“狼窩”,他的內(nèi)心也會(huì)滋生出拔不斷根的淫臟癮窺癖虐的齷齪來。他們一旦被主流文化、主流環(huán)境所邊緣,就會(huì)用戶行為爬蟲采集頁面分析偏好:閱讀,勵(lì)志等行為閱讀類勵(lì)志關(guān)鍵詞用戶視圖按偏好、關(guān)注點(diǎn)、業(yè)務(wù)群用戶群實(shí)時(shí)用戶群規(guī)

13、模分析;勵(lì)志內(nèi)容關(guān)注群分析;閱讀頻道行為群分析;用戶群提取開展?fàn)I銷營(yíng)銷方案營(yíng)銷支撐用戶響應(yīng)率有三倍提升本次營(yíng)銷相關(guān)激勵(lì)措施和前期開展的WAP PUSH營(yíng)銷相同;對(duì)比以往的群發(fā)響應(yīng)率1%-3%,本次群發(fā)響應(yīng)率效果明顯,達(dá)到5.80%-10.21%,有近乎3倍的提升效果。訪問用戶活躍度高用戶后有繼續(xù)點(diǎn)擊其他內(nèi)容的行為,最高占比達(dá)到91.4%;產(chǎn)生二次點(diǎn)擊行為的用戶數(shù)的占比高,反映貼合用戶需求的內(nèi)容對(duì)用戶的吸引力,用戶粘性越高。項(xiàng)目取得的研究應(yīng)用成果1.3 目標(biāo)完成情況總結(jié)項(xiàng)目進(jìn)度執(zhí)行情況表可作為附件項(xiàng)目研究產(chǎn)出產(chǎn)出成果承擔(dān)單位研究成果:包括研究報(bào)告、形成的軟硬件平臺(tái)用戶上網(wǎng)行為分析系統(tǒng)標(biāo)準(zhǔn)成果:形成的企業(yè)標(biāo)準(zhǔn)及標(biāo)準(zhǔn)化組織成果專利成果:專利情況無試驗(yàn)成果:開展的相關(guān)試驗(yàn)室及外場(chǎng)測(cè)試工作中形成的試驗(yàn)報(bào)告(模板見xx)項(xiàng)目對(duì)企業(yè)績(jī)效貢獻(xiàn)的量化路徑圖1.4 項(xiàng)目企業(yè)績(jī)效貢獻(xiàn)和特征指標(biāo)項(xiàng)目特征指標(biāo)(PAV)指標(biāo)名稱項(xiàng)目應(yīng)用前指標(biāo)現(xiàn)狀值:PAVc項(xiàng)目應(yīng)用1年后指標(biāo)預(yù)期值:PAVe1此項(xiàng)目帶來的指標(biāo)變動(dòng)量:PAV分析客戶數(shù)600萬2000萬1400萬企業(yè)特征指標(biāo)網(wǎng)絡(luò)及生產(chǎn)類(EAV-PS)指標(biāo)名稱項(xiàng)目應(yīng)用前指

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論