電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會(huì)_第1頁(yè)
電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會(huì)_第2頁(yè)
電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會(huì)_第3頁(yè)
電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會(huì)_第4頁(yè)
電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會(huì)_第5頁(yè)
已閱讀5頁(yè),還剩36頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會(huì)夏明武xiamingwu@培訓(xùn)專用互聯(lián)網(wǎng)市場(chǎng)大小2011中國(guó)互聯(lián)網(wǎng)收入,廣告512億元,增長(zhǎng)57%網(wǎng)絡(luò)游戲428億,增長(zhǎng)20%;電商7735.6億,增長(zhǎng)68%行業(yè)排頭兵凈利潤(rùn)率估計(jì),廣告35%,網(wǎng)游55%,電商1%,利潤(rùn)分別為179億,235億,77億假設(shè)2012增長(zhǎng)與利潤(rùn)水平不變,行業(yè)利潤(rùn)分別為廣告280億,游戲280億,電商130億艾瑞咨詢培訓(xùn)專用互聯(lián)網(wǎng)數(shù)據(jù)挖掘三個(gè)方向

培訓(xùn)專用互聯(lián)網(wǎng)數(shù)據(jù)挖掘三個(gè)方向

培訓(xùn)專用中國(guó)移動(dòng)數(shù)據(jù)經(jīng)營(yíng)分析系統(tǒng)10年經(jīng)營(yíng)分析系統(tǒng)建設(shè),BI是否有用?SAS、SPSS在中國(guó)移動(dòng)市場(chǎng)消失,數(shù)據(jù)挖掘基本失敗,原因?客戶細(xì)分問題?分析報(bào)告一定是正確的嗎?培訓(xùn)專用信令數(shù)據(jù)介紹CS域語(yǔ)音主叫語(yǔ)音被叫短信發(fā)送短信接收位置更新開機(jī)關(guān)機(jī)位置切換培訓(xùn)專用信令數(shù)據(jù)介紹PS域彩信發(fā)送彩信接收WAP連接WAP使用WAP斷開培訓(xùn)專用信令名詞解釋LAC:

locationareacode位置區(qū)碼(移動(dòng)通信系統(tǒng)中),是為尋呼而設(shè)置的一個(gè)區(qū)域,覆蓋一片地理區(qū)域。CELL:

采用基站識(shí)別碼或全球小區(qū)識(shí)別進(jìn)行標(biāo)識(shí)的無線覆蓋區(qū)域叫做小區(qū)。IMSI:

InternationalMobileSubscriberIdentificationNumber國(guó)際移動(dòng)用戶識(shí)別碼,是區(qū)別移動(dòng)用戶的標(biāo)志,儲(chǔ)存在SIM卡中,可用于區(qū)別移動(dòng)用戶的有效信息。培訓(xùn)專用信令名詞解釋IMEI:InternationalMobileEquipmentIdentity,是國(guó)際移動(dòng)設(shè)備身份碼的縮寫,國(guó)際移動(dòng)裝備辨識(shí)碼,是由15位數(shù)字組成的“電子串號(hào)”,它與每臺(tái)手機(jī)一一對(duì)應(yīng),而且該碼是全世界唯一的。MSISDN:MobileSubscriberInternationalISDN/PSTNnumber(ISDN即是綜合業(yè)務(wù)數(shù)字網(wǎng),是IntegratedServiceDigitalNetwork的簡(jiǎn)稱),即手機(jī)號(hào)碼。培訓(xùn)專用信令數(shù)據(jù)能做什么?實(shí)時(shí)營(yíng)銷(精準(zhǔn)營(yíng)銷、精確營(yíng)銷)事件營(yíng)銷(信令監(jiān)控、信令分析、數(shù)據(jù)挖掘)培訓(xùn)專用基于信令數(shù)據(jù)和客戶統(tǒng)一視圖的數(shù)據(jù)挖掘高中生高中生家長(zhǎng)大學(xué)生飛機(jī)來港客戶飛機(jī)離港客戶景區(qū)游客火車站到達(dá)客戶火車站離開客戶培訓(xùn)專用數(shù)據(jù)挖掘的創(chuàng)新規(guī)則以界面化的方式展示給業(yè)務(wù)人員參數(shù)可調(diào)整,業(yè)務(wù)人員可以根據(jù)業(yè)務(wù)經(jīng)驗(yàn)調(diào)整業(yè)務(wù)人員可以直接界面執(zhí)行數(shù)據(jù)挖掘,重跑數(shù)據(jù)通過外呼查全和查準(zhǔn)前端界面規(guī)則配置到數(shù)據(jù)庫(kù)中環(huán)境發(fā)生大變化時(shí),業(yè)務(wù)人員熟悉模型規(guī)則,就能很方便給研發(fā)提新需求,研發(fā)遠(yuǎn)程開發(fā)后遠(yuǎn)程發(fā)包部署培訓(xùn)專用

實(shí)時(shí)營(yíng)銷(精準(zhǔn)營(yíng)銷、精確營(yíng)銷)

速度實(shí)時(shí)合適的時(shí)間合適的地點(diǎn)給客戶推薦合適的內(nèi)容培訓(xùn)專用實(shí)時(shí)營(yíng)銷(精準(zhǔn)營(yíng)銷、精確營(yíng)銷)

案例

兩城一家機(jī)場(chǎng)旅客推薦各種套餐高考考生推薦各種業(yè)務(wù)體育場(chǎng)觀眾推薦歌星歌曲培訓(xùn)專用實(shí)時(shí)營(yíng)銷(精準(zhǔn)營(yíng)銷、精確營(yíng)銷)

流量規(guī)劃功能簡(jiǎn)介根據(jù)url實(shí)時(shí)分類,做實(shí)時(shí)內(nèi)容營(yíng)銷url無法分類結(jié)果,可以開發(fā)程序,調(diào)用爬蟲,獲取網(wǎng)站分類規(guī)則,做實(shí)時(shí)內(nèi)容營(yíng)銷(socket調(diào)用獲取url分類結(jié)果)根據(jù)搜索關(guān)鍵字,做實(shí)時(shí)內(nèi)容營(yíng)銷結(jié)合信令數(shù)根據(jù)IMEI提取終端信息,結(jié)合url分類,做實(shí)時(shí)流量營(yíng)銷根據(jù)基站信息,做url實(shí)時(shí)位置營(yíng)銷據(jù),實(shí)時(shí)提取BOSS側(cè)流量信息,當(dāng)流量超標(biāo)時(shí)實(shí)時(shí)提醒(如看視頻超出流量套餐)數(shù)據(jù)來源于信令PS域(Gn、Gb接口)核心規(guī)則處理由標(biāo)準(zhǔn)C程序開發(fā),針對(duì)信令數(shù)據(jù)特征優(yōu)化,簡(jiǎn)潔高效培訓(xùn)專用中國(guó)移動(dòng)面臨的問題用戶會(huì)大規(guī)模從2G遷移到3G,或者是4G3G時(shí)代,流量費(fèi)和2G相比,價(jià)格大幅下降。用戶會(huì)自主選擇使用什么應(yīng)用。如蘋果的AppStore、谷歌的GooglePlayStore。電信運(yùn)營(yíng)商的短信、彩信、手機(jī)報(bào)等等,對(duì)普通大眾,都不在重要,通過套餐包提供就行。3G時(shí)代,語(yǔ)音業(yè)務(wù),不再區(qū)分本地、長(zhǎng)途、國(guó)內(nèi)漫游。培訓(xùn)專用中國(guó)移動(dòng)面臨的問題全國(guó)統(tǒng)一套餐有幾十個(gè)套餐基本就夠了,不再需要每省幾千、幾萬(wàn)個(gè)套餐,那是一個(gè)太龐大、太復(fù)雜系統(tǒng)。3G時(shí)代,騰訊微信提供的語(yǔ)音視頻,蘋果FaceTime的視頻通話,都將使語(yǔ)音直接走流量包就可以,套餐中無法再單獨(dú)包括語(yǔ)音部分的資費(fèi)。流量的價(jià)格遠(yuǎn)遠(yuǎn)低于語(yǔ)音的價(jià)格。這會(huì)使電信運(yùn)營(yíng)商徹底管道化。變成賣水、賣電一樣的企業(yè)。培訓(xùn)專用中國(guó)移動(dòng)面臨競(jìng)爭(zhēng)的個(gè)人建議培訓(xùn)專用中國(guó)移動(dòng)面臨競(jìng)爭(zhēng)的個(gè)人建議將來的趨勢(shì)就是移動(dòng)互聯(lián)網(wǎng)。中國(guó)移動(dòng),包括中國(guó)聯(lián)通、中國(guó)電信,如果自己做不好移動(dòng)互聯(lián)網(wǎng),那就投資給這些移動(dòng)互聯(lián)網(wǎng)企業(yè)。合適的多占股份,風(fēng)險(xiǎn)大的就少占股份。完全可以向風(fēng)投轉(zhuǎn)變。中國(guó)移動(dòng)也可以繼續(xù)嘗試做各種應(yīng)用,做平臺(tái),和各廠商合作。深挖互聯(lián)網(wǎng)數(shù)據(jù)金礦。培訓(xùn)專用中國(guó)移動(dòng)面臨競(jìng)爭(zhēng)的個(gè)人建議互聯(lián)網(wǎng)時(shí)代,電信運(yùn)營(yíng)商面臨著和阿里巴巴一樣的問題,互聯(lián)網(wǎng)的大數(shù)據(jù),成本壓力,財(cái)報(bào)壓力。為了壓縮成本,也需要去做去IOE化運(yùn)動(dòng)。現(xiàn)有系統(tǒng)無需改變,也不必遷移。電信運(yùn)營(yíng)商完全可以從零開始,打造一套適應(yīng)互聯(lián)網(wǎng)競(jìng)爭(zhēng)的新一代互聯(lián)網(wǎng)系統(tǒng)。培訓(xùn)專用中國(guó)移動(dòng)面臨競(jìng)爭(zhēng)的個(gè)人建議未來的實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)(新一代經(jīng)營(yíng)分析系統(tǒng))和全國(guó)互聯(lián)網(wǎng)數(shù)據(jù)集中化中,在成本壓力,財(cái)報(bào)壓力,外部競(jìng)爭(zhēng)壓力加劇,互聯(lián)網(wǎng)企業(yè)顛覆式創(chuàng)新的革命下,也不得不走阿里巴巴曾經(jīng)走的路。投資阿里巴巴、支付寶、騰訊、京東、凡客、庫(kù)巴、優(yōu)酷、土豆、新浪、網(wǎng)易、搜狐、攜程、大眾點(diǎn)評(píng)網(wǎng)、豆瓣、如家快捷酒店、錦江之星等等。中國(guó)移動(dòng)也可以去做電商。如果覺得自己業(yè)務(wù)運(yùn)營(yíng)水平高,可以學(xué)習(xí)亞馬遜、京東做電商,做的更全面。培訓(xùn)專用中國(guó)移動(dòng)面臨競(jìng)爭(zhēng)的個(gè)人建議如果覺得自己國(guó)企特色,做不好,可以學(xué)習(xí)阿里巴巴(天貓)、淘寶,做開放平臺(tái)。這條路也挺不錯(cuò)。需要有大魄力才行。培訓(xùn)專用中國(guó)移動(dòng)和百度合作的建議移動(dòng)互聯(lián)網(wǎng)時(shí)代,手機(jī)號(hào)碼仍然是稀缺資源。百度、騰訊、阿里巴巴三大巨頭,騰訊和阿里巴巴都有自己的號(hào)碼(用戶id)資源,這背后代表著用戶信息。百度沒有用戶信息,在移動(dòng)互聯(lián)網(wǎng)時(shí)代處于很大劣勢(shì)。移動(dòng)運(yùn)營(yíng)商用戶資源很豐富,信息也很全。中國(guó)移動(dòng)完全可以和百度合作,把用戶信息共享給百度,這樣百度就可以做預(yù)搜索或其它各種工作。中國(guó)移動(dòng)投資百度,資源共享,合作共贏。培訓(xùn)專用

關(guān)于10張標(biāo)簽表,每張表8000萬(wàn)記錄,每張表幾百幾千個(gè)標(biāo)簽字段,關(guān)聯(lián)取數(shù)據(jù),秒級(jí)出結(jié)果的高效方法?大數(shù)據(jù)關(guān)聯(lián)查詢創(chuàng)新案例培訓(xùn)專用方案1:數(shù)據(jù)庫(kù)內(nèi)方案

把所有客戶統(tǒng)一視圖大標(biāo)簽寬表先按地市分表,再按號(hào)碼分別拆分為10000張表。每張小表中包括所有需要的幾百、幾千個(gè)字段。小表總表數(shù)為1萬(wàn)到幾萬(wàn)之間,詳細(xì)為地市數(shù)量*1000。有的省份,小表數(shù)據(jù)量為2000條到8000條。前端訪問時(shí),不再需要做多表sql關(guān)聯(lián),數(shù)據(jù)量級(jí)別為千行級(jí)的單表sql查詢語(yǔ)句速度也很快。起10000個(gè)線程并發(fā)執(zhí)行,可以做到實(shí)時(shí)。培訓(xùn)專用方案2:數(shù)據(jù)庫(kù)外方案

把所有客戶統(tǒng)一視圖大標(biāo)簽寬表按地市分文件,再按號(hào)碼繼續(xù)拆分為1000個(gè)文件。每個(gè)小文件中包括所有需要的幾百、幾千個(gè)字段。小文件總數(shù)量為1萬(wàn)到幾萬(wàn)之間,詳細(xì)為地市數(shù)量*1000。如果是直轄市,直接拆分為10000個(gè)小文件。使用標(biāo)準(zhǔn)C,開發(fā)出處理程序,并發(fā)啟動(dòng)1萬(wàn)到幾萬(wàn)個(gè)線程,每個(gè)線程把小文件數(shù)據(jù)加載到各自內(nèi)存中。當(dāng)需要處理數(shù)據(jù)時(shí),實(shí)用LUA來訪問數(shù)據(jù),每個(gè)線程需要處理的數(shù)據(jù)量為千行級(jí)。總體速度應(yīng)該在毫表級(jí),可以實(shí)時(shí)把數(shù)據(jù)回傳給前端。像有的省,如果地市用戶提取客戶群,則同樣只需訪問此地市的1000個(gè)小內(nèi)存文件,速度能更快。培訓(xùn)專用方案1細(xì)節(jié):表文件、和線程的數(shù)量可以根據(jù)實(shí)際需要調(diào)整,可以調(diào)整到100張表、1000張表、或者是100個(gè)文件、1000文件、再或者是100個(gè)線程、1000個(gè)線程。具體還需要查詢資料,依據(jù)現(xiàn)場(chǎng)機(jī)器配置,做性能調(diào)優(yōu)而定。如果并發(fā)線程壓力太大的話,可以考慮改為減少并發(fā)線程數(shù),或者改為串行。當(dāng)數(shù)據(jù)無法做大表關(guān)聯(lián)時(shí),每次只需從單行記錄就可去到。培訓(xùn)專用方案1細(xì)節(jié):分表或分文件時(shí),按手機(jī)號(hào)碼尾號(hào)2位或3位來分,手機(jī)號(hào)碼尾號(hào)本身是均勻的。在同一地市的小表中,每張小表的數(shù)據(jù)量是基本接近相同的。地市之間,考慮到不同地市的用戶數(shù)不同,則可以對(duì)不同地市的分表或分文件數(shù)量做優(yōu)化,用戶數(shù)多的地市分表和文件多,用戶數(shù)少的地市分表或文件少,盡量和所有的100、1000或10000以上的表或文件中數(shù)據(jù)量保持一致,這樣并發(fā)處理線程同時(shí)處理,完成時(shí)間也能基本相同。

培訓(xùn)專用方案2細(xì)節(jié):數(shù)據(jù)為每月或每日凌晨初始化讀入,載入到內(nèi)存后。在上班時(shí)間訪問,直接查詢內(nèi)存靜態(tài)數(shù)據(jù),速度快,但也涉及到內(nèi)存分配太大的問題。此時(shí),需要考慮做并發(fā)或者分布式處理。涉及到硬件投資增加問題,不建議采購(gòu)小型機(jī),改為采購(gòu)刀片服務(wù)器或其它服務(wù)器。數(shù)據(jù)也可采用前端調(diào)用時(shí)再動(dòng)態(tài)加載,根據(jù)機(jī)器配置,讓線程分批次加載數(shù)據(jù)并處理。這樣對(duì)硬件要求低,但速度相對(duì)會(huì)慢。培訓(xùn)專用方案2細(xì)節(jié):前端向后臺(tái)通信采取socket方式,后臺(tái)處理完數(shù)據(jù)后,可以把最終數(shù)據(jù)合并,再加載到數(shù)據(jù)庫(kù)中的表,也可以由各線程把各自數(shù)據(jù)分批插入到數(shù)據(jù)庫(kù)中的表。數(shù)據(jù)加載完成后,再通過socket通知前端處理完畢。LUA具體如何處理和優(yōu)化,細(xì)節(jié)尚待研究,需要花時(shí)間。細(xì)致工作還有很多,需要繼續(xù)研究和深入下去。培訓(xùn)專用方案2細(xì)節(jié):如果要考慮到硬件成本、分布式部署、開發(fā)時(shí)間和難度問題,可以接下來優(yōu)化為采用hadoop方案。采用hadoop方案后,整體數(shù)據(jù)量在千萬(wàn)級(jí),有些省例外,到了億級(jí)。硬件投資改為采購(gòu)幾臺(tái)PC

Server,硬件投入為幾萬(wàn)元。數(shù)據(jù)都在庫(kù)外處理,NOSQL方式,數(shù)據(jù)庫(kù)可以改為使用開源數(shù)據(jù)庫(kù)MySQL,存放配置信息。這樣DB2、Oracle或其它數(shù)據(jù)庫(kù)都可以替換掉。培訓(xùn)專用方案2細(xì)節(jié):整體來說,實(shí)用hadoop方式或庫(kù)外標(biāo)準(zhǔn)C開發(fā)方式后,可以更有效減少中國(guó)移動(dòng)在硬件上的投入,在數(shù)據(jù)庫(kù)的投入??梢园压?jié)省的成本投一部分到應(yīng)用軟件廠商上。這樣,中國(guó)移動(dòng)就可以和應(yīng)用軟件廠商實(shí)現(xiàn)共贏。這也是IT業(yè)界的發(fā)展趨勢(shì)。至于hadoop方案,客戶統(tǒng)一視圖標(biāo)簽月表每月生成一次,日表每日按生產(chǎn)一次。生成后為靜態(tài)數(shù)據(jù),每日上班時(shí)間數(shù)據(jù)不會(huì)更新,為靜態(tài)數(shù)據(jù)。培訓(xùn)專用方案2細(xì)節(jié):基于此特點(diǎn),可以在每日凌晨把客戶統(tǒng)一視圖數(shù)據(jù)加載到hadoop中,白天訪問時(shí)直接查詢數(shù)據(jù),速度快,效率高。數(shù)據(jù)加載到內(nèi)存數(shù)據(jù)庫(kù)中做查詢,我目前用到的是solo+lucene,有的同事用的是MongoDB。云計(jì)算方案,應(yīng)該是可以考慮借鑒谷歌做搜索查詢這塊的成功經(jīng)驗(yàn)。云計(jì)算方案,貌似用流計(jì)算也不錯(cuò)。Yahoo

的S4聽說挺不錯(cuò)。培訓(xùn)專用微薄友的點(diǎn)評(píng):得意的那些事兒大表,谷歌的bigtable是最佳實(shí)踐blueprint,思想可以參考。從分表分庫(kù)轉(zhuǎn)向規(guī)模的bigdatarebalance。這才是所有的性能優(yōu)化的起源和本質(zhì)。這里面cap理論和dht算法是技術(shù)實(shí)現(xiàn)原理。當(dāng)然mapreduce大大簡(jiǎn)化了數(shù)據(jù)的normalize和并行計(jì)算。hadoop的出現(xiàn)提供了這些。各種混合架構(gòu)只是在融合實(shí)時(shí)處理而已…不勝人生一場(chǎng)醉PMBAR每秒上百G的吞吐量,我不認(rèn)為關(guān)系數(shù)據(jù)庫(kù)和幾臺(tái)PC服務(wù)器能搞的定培訓(xùn)專用微薄友的點(diǎn)評(píng):風(fēng)流搞技術(shù)用oracle就麻煩了,最多1000列,超255列,會(huì)帶來過多IO,非關(guān)系型數(shù)據(jù)庫(kù)解決此類問題應(yīng)該在行原來遠(yuǎn)去如果自己采用寫程序在內(nèi)存里面做關(guān)聯(lián)計(jì)算,mysql之類只是做數(shù)據(jù)備份存儲(chǔ),倒是有可能。熱數(shù)據(jù)全在內(nèi)存里面,只是冷數(shù)據(jù)需要查一下mysql。冷熱處理有些難度。同時(shí)內(nèi)存利用率這塊怎樣控制,否則很容易爆掉。自己寫,涉及一個(gè)distinct,groupby之類,秒級(jí)計(jì)算出結(jié)果,困難比較大。培訓(xùn)專用《論中國(guó)》西方戰(zhàn)略家思考如何在關(guān)鍵點(diǎn)上集結(jié)優(yōu)勢(shì)兵力,而孫子研究如何在政治和心理上取得優(yōu)勢(shì)地位,從而確保勝利。西方戰(zhàn)略家通過打勝仗檢驗(yàn)自己的理論,孫子則通過不戰(zhàn)而勝檢驗(yàn)自己的理論。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論