電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會_第1頁
電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會_第2頁
電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會_第3頁
電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會_第4頁
電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會_第5頁
已閱讀5頁,還剩34頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會夏明武xiamingwu@電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會第1頁互聯(lián)網(wǎng)市場大小中國互聯(lián)網(wǎng)收入,廣告512億元,增加57%網(wǎng)絡(luò)游戲428億,增加20%;電商7735.6億,增加68%行業(yè)排頭兵凈利潤率預(yù)計,廣告35%,網(wǎng)游55%,電商1%,利潤分別為179億,235億,77億假設(shè)增加與利潤水平不變,行業(yè)利潤分別為廣告280億,游戲280億,電商130億艾瑞咨詢電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會第2頁互聯(lián)網(wǎng)數(shù)據(jù)挖掘三個方向

廣告水軍剔除

剔除水軍,能夠大大降低廣告開支、節(jié)約成本。這是節(jié)流。商品推薦這一塊能夠參考amazon商品推薦,現(xiàn)在電商都在學(xué)amazon商品推薦,只是都做得不好。這一塊做好能夠增加銷售量。帶來真金白銀。這也就是開源。社交網(wǎng)絡(luò)分析等現(xiàn)在新浪微薄數(shù)據(jù)質(zhì)量最高,大有可為。當(dāng)前已經(jīng)有很多企業(yè)在新浪上做社會化網(wǎng)絡(luò)數(shù)據(jù)挖掘,但還能夠容納更多企業(yè)。

電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會第3頁上周,美國小型音樂企業(yè)LimitedRun宣告他們確信其在Facebook上廣告點擊有超出80%來自于機器人程序,并表示將會向Facebook追究此事。/internet/detail__08/16/16845392_0.shtml@wx伍星

:真心以為直接收入才驅(qū)動數(shù)據(jù)分析挖掘發(fā)展,廣告,電商,游戲行業(yè)挖掘分析,較web網(wǎng)站挖掘分析先進(jìn)很多回復(fù)@孫晗:這是真實人際社會,所填信息比較真實和準(zhǔn)確,能得到大量其它信息根本不可能產(chǎn)生信息。

//@孫晗:為何說新浪數(shù)據(jù)質(zhì)量高咧互聯(lián)網(wǎng)數(shù)據(jù)挖掘三個方向

電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會第4頁中國移動數(shù)據(jù)經(jīng)營分析系統(tǒng)經(jīng)營分析系統(tǒng)建設(shè),BI是否有用?SAS、SPSS在中國移動市場消失,數(shù)據(jù)挖掘基本失敗,原因?客戶細(xì)分問題?分析匯報一定是正確嗎?電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會第5頁信令數(shù)據(jù)介紹CS域語音主叫語音被叫短信發(fā)送短信接收位置更新開機關(guān)機位置切換電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會第6頁信令數(shù)據(jù)介紹PS域彩信發(fā)送彩信接收WAP連接WAP使用WAP斷開電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會第7頁信令名詞解釋LAC:

locationareacode位置區(qū)碼(移動通信系統(tǒng)中),是為尋呼而設(shè)置一個區(qū)域,覆蓋一片地理區(qū)域。CELL:

采取基站識別碼或全球小區(qū)識別進(jìn)行標(biāo)識無線覆蓋區(qū)域叫做小區(qū)。IMSI:

InternationalMobileSubscriberIdentificationNumber國際移動用戶識別碼,是區(qū)分移動用戶標(biāo)志,儲存在SIM卡中,可用于區(qū)分移動用戶有效信息。電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會第8頁信令名詞解釋IMEI:InternationalMobileEquipmentIdentity,是國際移動設(shè)備身份碼縮寫,國際移動裝備辨識碼,是由15位數(shù)字組成“電子串號”,它與每臺手機一一對應(yīng),而且該碼是全世界唯一。MSISDN:MobileSubscriberInternationalISDN/PSTNnumber(ISDN即是綜合業(yè)務(wù)數(shù)字網(wǎng),是IntegratedServiceDigitalNetwork簡稱),即手機號碼。電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會第9頁信令數(shù)據(jù)能做什么?實時營銷(精準(zhǔn)營銷、準(zhǔn)確營銷)事件營銷(信令監(jiān)控、信令分析、數(shù)據(jù)挖掘)電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會第10頁基于信令數(shù)據(jù)和客戶統(tǒng)一視圖數(shù)據(jù)挖掘高中生高中生家長大學(xué)生飛機來港客戶飛機離港客戶景區(qū)游客火車站抵達(dá)客戶火車站離開客戶電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會第11頁數(shù)據(jù)挖掘創(chuàng)新規(guī)則以界面化方式展示給業(yè)務(wù)人員參數(shù)可調(diào)整,業(yè)務(wù)人員能夠依據(jù)業(yè)務(wù)經(jīng)驗調(diào)整業(yè)務(wù)人員能夠直接界面執(zhí)行數(shù)據(jù)挖掘,重跑數(shù)據(jù)經(jīng)過外呼查全和查準(zhǔn)前端界面規(guī)則配置到數(shù)據(jù)庫中環(huán)境發(fā)生大改變時,業(yè)務(wù)人員熟悉模型規(guī)則,就能很方便給研發(fā)提新需求,研發(fā)遠(yuǎn)程開發(fā)后遠(yuǎn)程發(fā)包布署電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會第12頁

實時營銷(精準(zhǔn)營銷、準(zhǔn)確營銷)

速度實時適當(dāng)時間適當(dāng)?shù)攸c給客戶推薦適當(dāng)內(nèi)容電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會第13頁實時營銷(精準(zhǔn)營銷、準(zhǔn)確營銷)

案例

兩城一家機場旅客推薦各種套餐高考考生推薦各種業(yè)務(wù)體育場觀眾推薦歌星歌曲電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會第14頁實時營銷(精準(zhǔn)營銷、準(zhǔn)確營銷)

流量規(guī)劃功效介紹依據(jù)url實時分類,做實時內(nèi)容營銷url無法分類結(jié)果,能夠開發(fā)程序,調(diào)用爬蟲,獲取網(wǎng)站分類規(guī)則,做實時內(nèi)容營銷(socket調(diào)用獲取url分類結(jié)果)依據(jù)搜索關(guān)鍵字,做實時內(nèi)容營銷結(jié)合信令數(shù)依據(jù)IMEI提取終端信息,結(jié)合url分類,做實時流量營銷依據(jù)基站信息,做url實時位置營銷據(jù),實時提取BOSS側(cè)流量信息,當(dāng)流量超標(biāo)時實時提醒(如看視頻超出流量套餐)數(shù)據(jù)起源于信令PS域(Gn、Gb接口)關(guān)鍵規(guī)則處理由標(biāo)準(zhǔn)C程序開發(fā),針對信令數(shù)據(jù)特征優(yōu)化,簡練高效電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會第15頁中國移動面臨問題用戶會大規(guī)模從2G遷移到3G,或者是4G3G時代,流量費和2G相比,價格大幅下降。用戶會自主選擇使用什么應(yīng)用。如蘋果AppStore、谷歌GooglePlayStore。電信運行商短信、彩信、手機報等等,對普通大眾,都不在主要,經(jīng)過套餐包提供就行。3G時代,語音業(yè)務(wù),不再區(qū)分當(dāng)?shù)?、長途、國內(nèi)漫游。電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會第16頁中國移動面臨問題全國統(tǒng)一套餐有幾十個套餐基本就夠了,不再需要每省幾千、幾萬個套餐,那是一個太龐大、太復(fù)雜系統(tǒng)。3G時代,騰訊微信提供語音視頻,蘋果FaceTime視頻通話,都將使語音直接走流量包就能夠,套餐中無法再單獨包含語音部分資費。流量價格遠(yuǎn)遠(yuǎn)低于語音價格。這會使電信運行商徹底管道化。變成賣水、賣電一樣企業(yè)。電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會第17頁中國移動面臨競爭個人提議電信運行商能夠首先收購使用水、使用電上下游企業(yè)股份。能夠考慮成立投資企業(yè)做投資。收購騰訊部分股權(quán),支持騰訊,騰訊發(fā)展壯大,中國移動也能跟著獲益。中國移動入股,買下雅虎所占股份。也能夠投資支付寶。電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會第18頁中國移動面臨競爭個人提議未來趨勢就是移動互聯(lián)網(wǎng)。中國移動,包含中國聯(lián)通、中國電信,假如自己做不好移動互聯(lián)網(wǎng),那就投資給這些移動互聯(lián)網(wǎng)企業(yè)。適當(dāng)多占股份,風(fēng)險大就少占股份。完全能夠向風(fēng)投轉(zhuǎn)變。中國移動也能夠繼續(xù)嘗試做各種應(yīng)用,做平臺,和各廠商合作。深挖互聯(lián)網(wǎng)數(shù)據(jù)金礦。電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會第19頁中國移動面臨競爭個人提議互聯(lián)網(wǎng)時代,電信運行商面臨著和阿里巴巴一樣問題,互聯(lián)網(wǎng)大數(shù)據(jù),成本壓力,財報壓力。為了壓縮成本,也需要去做去IOE化運動?,F(xiàn)有系統(tǒng)無需改變,也無須遷移。電信運行商完全能夠從零開始,打造一套適應(yīng)互聯(lián)網(wǎng)競爭新一代互聯(lián)網(wǎng)系統(tǒng)。電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會第20頁中國移動面臨競爭個人提議未來實時數(shù)據(jù)倉庫(新一代經(jīng)營分析系統(tǒng))和全國互聯(lián)網(wǎng)數(shù)據(jù)集中化中,在成本壓力,財報壓力,外部競爭壓力加劇,互聯(lián)網(wǎng)企業(yè)顛覆式創(chuàng)新革命下,也不得不走阿里巴巴曾經(jīng)走路。投資阿里巴巴、支付寶、騰訊、京東、凡客、庫巴、優(yōu)酷、土豆、新浪、網(wǎng)易、搜狐、攜程、大眾點評網(wǎng)、豆瓣、如家快捷酒店、錦江之星等等。中國移動也能夠去做電商。假如以為自己業(yè)務(wù)運行水平高,能夠?qū)W習(xí)亞馬遜、京東做電商,做更全方面。電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會第21頁中國移動面臨競爭個人提議假如以為自己國企特色,做不好,能夠?qū)W習(xí)阿里巴巴(天貓)、淘寶,做開放平臺。這條路也挺不錯。需要有大魄力才行。電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會第22頁中國移動和baidu合作提議移動互聯(lián)網(wǎng)時代,手機號碼依然是稀缺資源。baidu、騰訊、阿里巴巴三大巨頭,騰訊和阿里巴巴都有自己號碼(用戶id)資源,這背后代表著用戶信息。baidu沒有用戶信息,在移動互聯(lián)網(wǎng)時代處于很大劣勢。移動運行商用戶資源很豐富,信息也很全。中國移動完全能夠和baidu合作,把用戶信息共享給baidu,這么baidu就能夠做預(yù)搜索或其它各種工作。中國移動投資baidu,資源共享,合作共贏。電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會第23頁

關(guān)于10張標(biāo)簽表,每張表8000萬統(tǒng)計,每張表幾百幾千個標(biāo)簽字段,關(guān)聯(lián)取數(shù)據(jù),秒級出結(jié)果高效方法?大數(shù)據(jù)關(guān)聯(lián)查詢創(chuàng)新案例電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會第24頁方案1:數(shù)據(jù)庫內(nèi)方案

把全部客戶統(tǒng)一視圖大標(biāo)簽寬表先按地市分表,再按號碼分別拆分為10000張表。每張小表中包含全部需要幾百、幾千個字段。小表總表數(shù)為1萬到幾萬之間,詳細(xì)為地市數(shù)量*1000。有省份,小表數(shù)據(jù)量為條到8000條。前端訪問時,不再需要做多表sql關(guān)聯(lián),數(shù)據(jù)量級別為千行級單表sql查詢語句速度也很快。起10000個線程并發(fā)執(zhí)行,能夠做到實時。電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會第25頁方案2:數(shù)據(jù)庫外方案

把全部客戶統(tǒng)一視圖大標(biāo)簽寬表按地市分文件,再按號碼繼續(xù)拆分為1000個文件。每個小文件中包含全部需要幾百、幾千個字段。小文件總數(shù)量為1萬到幾萬之間,詳細(xì)為地市數(shù)量*1000。假如是直轄市,直接拆分為10000個小文件。使用標(biāo)準(zhǔn)C,開發(fā)出處理程序,并發(fā)開啟1萬到幾萬個線程,每個線程把小文件數(shù)據(jù)加載到各自內(nèi)存中。當(dāng)需要處理數(shù)據(jù)時,實用LUA來訪問數(shù)據(jù),每個線程需要處理數(shù)據(jù)量為千行級。總體速度應(yīng)該在毫表級,能夠?qū)崟r把數(shù)據(jù)回傳給前端。像有省,假如地市用戶提取客戶群,則一樣只需訪問此地市1000個小內(nèi)存文件,速度能更加快。電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會第26頁方案1細(xì)節(jié):表文件、和線程數(shù)量能夠依據(jù)實際需要調(diào)整,能夠調(diào)整到100張表、1000張表、或者是100個文件、1000文件、再或者是100個線程、1000個線程。詳細(xì)還需要查詢資料,依據(jù)現(xiàn)場機器配置,做性能調(diào)優(yōu)而定。假如并發(fā)線程壓力太大話,能夠考慮改為降低并發(fā)線程數(shù),或者改為串行。當(dāng)數(shù)據(jù)無法做大表關(guān)聯(lián)時,每次只需從單行統(tǒng)計就可去到。電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會第27頁方案1細(xì)節(jié):分表或分文件時,按手機號碼尾號2位或3位來分,手機號碼尾號本身是均勻。在同一地市小表中,每張小表數(shù)據(jù)量是基本靠近相同。地市之間,考慮到不一樣地市用戶數(shù)不一樣,則能夠?qū)Σ灰粯拥厥蟹直砘蚍治募?shù)量做優(yōu)化,用戶數(shù)多地市分表和文件多,用戶數(shù)少地市分表或文件少,盡可能和全部100、1000或10000以上表或文件中數(shù)據(jù)量保持一致,這么并發(fā)處理線程同時處理,完成時間也能基本相同。

電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會第28頁方案2細(xì)節(jié):數(shù)據(jù)為每個月或每日凌晨初始化讀入,載入到內(nèi)存后。在上班時間訪問,直接查詢內(nèi)存靜態(tài)數(shù)據(jù),速度快,但也包括到內(nèi)存分配太大問題。此時,需要考慮做并發(fā)或者分布式處理。包括到硬件投資增加問題,不提議采購小型機,改為采購刀片服務(wù)器或其它服務(wù)器。數(shù)據(jù)也可采取前端調(diào)用時再動態(tài)加載,依據(jù)機器配置,讓線程分批次加載數(shù)據(jù)并處理。這么對硬件要求低,但速度相對會慢。電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會第29頁方案2細(xì)節(jié):前端向后臺通信采取socket方式,后臺處理完數(shù)據(jù)后,能夠把最終數(shù)據(jù)合并,再加載到數(shù)據(jù)庫中表,也能夠由各線程把各自數(shù)據(jù)分批插入到數(shù)據(jù)庫中表。數(shù)據(jù)加載完成后,再經(jīng)過socket通知前端處理完成。LUA詳細(xì)怎樣處理和優(yōu)化,細(xì)節(jié)尚待研究,需要花時間。細(xì)致工作還有很多,需要繼續(xù)研究和深入下去。電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會第30頁方案2細(xì)節(jié):假如要考慮到硬件成本、分布式布署、開發(fā)時間和難度問題,能夠接下來優(yōu)化為采取hadoop方案。采取hadoop方案后,整體數(shù)據(jù)量在千萬級,有些省例外,到了億級。硬件投資改為采購幾臺PC

Server,硬件投入為幾萬元。數(shù)據(jù)都在庫外處理,NOSQL方式,數(shù)據(jù)庫能夠改為使用開源數(shù)據(jù)庫MySQL,存放配置信息。這么DB2、Oracle或其它數(shù)據(jù)庫都能夠替換掉。電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會第31頁方案2細(xì)節(jié):整體來說,實用hadoop方式或庫外標(biāo)準(zhǔn)C開發(fā)方式后,能夠更有效降低中國移動在硬件上投入,在數(shù)據(jù)庫投入。能夠把節(jié)約成本投一部分到應(yīng)用軟件廠商上。這么,中國移動就能夠和應(yīng)用軟件廠商實現(xiàn)共贏。這也是IT業(yè)界發(fā)展趨勢。至于hadoop方案,客戶統(tǒng)一視圖標(biāo)簽月表每個月生成一次,日表每日按生產(chǎn)一次。生成后為靜態(tài)數(shù)據(jù),每日上班時間數(shù)據(jù)不會更新,為靜態(tài)數(shù)據(jù)。電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會第32頁方案2細(xì)節(jié):基于此特點,能夠在每日凌晨把客戶統(tǒng)一視圖數(shù)據(jù)加載到hadoop中,白天訪問時直接查詢數(shù)據(jù),速度快,效率高。數(shù)據(jù)加載到內(nèi)存數(shù)據(jù)庫中做查詢,我當(dāng)前用到是solo+lucene,有同事用是MongoDB。云計算方案,應(yīng)該是能夠考慮借鑒谷歌做搜索查詢這塊成功經(jīng)驗。云計算方案,貌似用流計算也不錯。Yahoo

S4聽說挺不錯。電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會第33頁微薄友點評:得意那些事兒大表,谷歌bigtable是最正確實踐blueprint,思想能夠參考。從分表分庫轉(zhuǎn)向規(guī)模bigdatarebalance。這才是全部性能優(yōu)化起源和本質(zhì)。這里面cap理論和dht算法是技術(shù)實現(xiàn)原理。當(dāng)然mapreduce大大簡化了數(shù)據(jù)normalize和并行計算。hadoop出現(xiàn)提供了這些。各種混合架構(gòu)只是在融合實時處理而已…不勝人生一場醉PMBAR每秒上百G吞吐量,我不認(rèn)為關(guān)系數(shù)據(jù)庫和幾臺PC服務(wù)器能搞定電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會第34頁微薄友點評:風(fēng)流搞技術(shù)用oracle就麻煩了,最多1000列,超255列,會帶來過多IO,非關(guān)系型數(shù)據(jù)庫處理這類問題應(yīng)該在行原來遠(yuǎn)去

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論