電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會(huì)課件_第1頁(yè)
電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會(huì)課件_第2頁(yè)
電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會(huì)課件_第3頁(yè)
電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會(huì)課件_第4頁(yè)
電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會(huì)課件_第5頁(yè)
已閱讀5頁(yè),還剩73頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會(huì)夏明武xiamingwu@電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會(huì)夏明武互聯(lián)網(wǎng)市場(chǎng)大小2011中國(guó)互聯(lián)網(wǎng)收入,廣告512億元,增長(zhǎng)57%網(wǎng)絡(luò)游戲428億,增長(zhǎng)20%;電商7735.6億,增長(zhǎng)68%行業(yè)排頭兵凈利潤(rùn)率估計(jì),廣告35%,網(wǎng)游55%,電商1%,利潤(rùn)分別為179億,235億,77億假設(shè)2012增長(zhǎng)與利潤(rùn)水平不變,行業(yè)利潤(rùn)分別為廣告280億,游戲280億,電商130億艾瑞咨詢(xún)互聯(lián)網(wǎng)市場(chǎng)大小2011中國(guó)互聯(lián)網(wǎng)收入,廣告512億元,增長(zhǎng)5互聯(lián)網(wǎng)數(shù)據(jù)挖掘三個(gè)方向

廣告水軍剔除

剔除水軍,可以大大減少?gòu)V告開(kāi)支、節(jié)約成本。這是節(jié)流。商品推薦這一塊可以參考amazon的商品推薦,現(xiàn)在電商都在學(xué)amazon的商品推薦,只是都做得不好。這一塊做好可以增加銷(xiāo)售量。帶來(lái)真金白銀。這也就是開(kāi)源。社交網(wǎng)絡(luò)分析等現(xiàn)在新浪微薄的數(shù)據(jù)質(zhì)量最高,大有可為。目前已經(jīng)有很多公司在新浪上做社會(huì)化網(wǎng)絡(luò)數(shù)據(jù)挖掘,但還可以容納更多公司。

互聯(lián)網(wǎng)數(shù)據(jù)挖掘三個(gè)方向

廣告水軍剔除上周,美國(guó)小型音樂(lè)公司LimitedRun宣布他們確信其在Facebook上的廣告點(diǎn)擊有超過(guò)80%來(lái)自于機(jī)器人程序,并表示將會(huì)向Facebook追究此事。/internet/detail_2012_08/16/16845392_0.shtml@wx伍星

:真心覺(jué)得直接的收入才驅(qū)動(dòng)數(shù)據(jù)分析挖掘的發(fā)展,廣告,電商,游戲行業(yè)的挖掘分析,較web網(wǎng)站挖掘分析先進(jìn)很多回復(fù)@孫晗:這是真實(shí)的人際社會(huì),所填信息比較真實(shí)和準(zhǔn)確,能得到大量其它信息根本不可能產(chǎn)生的信息。

//@孫晗:為何說(shuō)新浪的數(shù)據(jù)質(zhì)量高咧互聯(lián)網(wǎng)數(shù)據(jù)挖掘三個(gè)方向

上周,美國(guó)小型音樂(lè)公司LimitedRun宣布他們確信其在中國(guó)移動(dòng)數(shù)據(jù)經(jīng)營(yíng)分析系統(tǒng)10年經(jīng)營(yíng)分析系統(tǒng)建設(shè),BI是否有用?SAS、SPSS在中國(guó)移動(dòng)市場(chǎng)消失,數(shù)據(jù)挖掘基本失敗,原因?客戶(hù)細(xì)分問(wèn)題?分析報(bào)告一定是正確的嗎?中國(guó)移動(dòng)數(shù)據(jù)經(jīng)營(yíng)分析系統(tǒng)10年經(jīng)營(yíng)分析系統(tǒng)建設(shè),BI是否有用信令數(shù)據(jù)介紹CS域語(yǔ)音主叫語(yǔ)音被叫短信發(fā)送短信接收位置更新開(kāi)機(jī)關(guān)機(jī)位置切換信令數(shù)據(jù)介紹CS域語(yǔ)音主叫信令數(shù)據(jù)介紹PS域彩信發(fā)送彩信接收WAP連接WAP使用WAP斷開(kāi)信令數(shù)據(jù)介紹PS域彩信發(fā)送信令名詞解釋LAC:

locationareacode位置區(qū)碼(移動(dòng)通信系統(tǒng)中),是為尋呼而設(shè)置的一個(gè)區(qū)域,覆蓋一片地理區(qū)域。CELL:

采用基站識(shí)別碼或全球小區(qū)識(shí)別進(jìn)行標(biāo)識(shí)的無(wú)線覆蓋區(qū)域叫做小區(qū)。IMSI:

InternationalMobileSubscriberIdentificationNumber國(guó)際移動(dòng)用戶(hù)識(shí)別碼,是區(qū)別移動(dòng)用戶(hù)的標(biāo)志,儲(chǔ)存在SIM卡中,可用于區(qū)別移動(dòng)用戶(hù)的有效信息。信令名詞解釋LAC:信令名詞解釋IMEI:InternationalMobileEquipmentIdentity,是國(guó)際移動(dòng)設(shè)備身份碼的縮寫(xiě),國(guó)際移動(dòng)裝備辨識(shí)碼,是由15位數(shù)字組成的“電子串號(hào)”,它與每臺(tái)手機(jī)一一對(duì)應(yīng),而且該碼是全世界唯一的。MSISDN:MobileSubscriberInternationalISDN/PSTNnumber(ISDN即是綜合業(yè)務(wù)數(shù)字網(wǎng),是IntegratedServiceDigitalNetwork的簡(jiǎn)稱(chēng)),即手機(jī)號(hào)碼。信令名詞解釋IMEI:信令數(shù)據(jù)能做什么?實(shí)時(shí)營(yíng)銷(xiāo)(精準(zhǔn)營(yíng)銷(xiāo)、精確營(yíng)銷(xiāo))事件營(yíng)銷(xiāo)(信令監(jiān)控、信令分析、數(shù)據(jù)挖掘)信令數(shù)據(jù)能做什么?實(shí)時(shí)營(yíng)銷(xiāo)(精準(zhǔn)營(yíng)銷(xiāo)、精確營(yíng)銷(xiāo))基于信令數(shù)據(jù)和客戶(hù)統(tǒng)一視圖的數(shù)據(jù)挖掘高中生高中生家長(zhǎng)大學(xué)生飛機(jī)來(lái)港客戶(hù)飛機(jī)離港客戶(hù)景區(qū)游客火車(chē)站到達(dá)客戶(hù)火車(chē)站離開(kāi)客戶(hù)基于信令數(shù)據(jù)和客戶(hù)統(tǒng)一視圖的數(shù)據(jù)挖掘高中生數(shù)據(jù)挖掘的創(chuàng)新規(guī)則以界面化的方式展示給業(yè)務(wù)人員參數(shù)可調(diào)整,業(yè)務(wù)人員可以根據(jù)業(yè)務(wù)經(jīng)驗(yàn)調(diào)整業(yè)務(wù)人員可以直接界面執(zhí)行數(shù)據(jù)挖掘,重跑數(shù)據(jù)通過(guò)外呼查全和查準(zhǔn)前端界面規(guī)則配置到數(shù)據(jù)庫(kù)中環(huán)境發(fā)生大變化時(shí),業(yè)務(wù)人員熟悉模型規(guī)則,就能很方便給研發(fā)提新需求,研發(fā)遠(yuǎn)程開(kāi)發(fā)后遠(yuǎn)程發(fā)包部署數(shù)據(jù)挖掘的創(chuàng)新規(guī)則以界面化的方式展示給業(yè)務(wù)人員

實(shí)時(shí)營(yíng)銷(xiāo)(精準(zhǔn)營(yíng)銷(xiāo)、精確營(yíng)銷(xiāo))

速度實(shí)時(shí)合適的時(shí)間合適的地點(diǎn)給客戶(hù)推薦合適的內(nèi)容

實(shí)時(shí)營(yíng)銷(xiāo)(精準(zhǔn)營(yíng)銷(xiāo)、精確營(yíng)銷(xiāo))

速度實(shí)時(shí)實(shí)時(shí)營(yíng)銷(xiāo)(精準(zhǔn)營(yíng)銷(xiāo)、精確營(yíng)銷(xiāo))

案例

兩城一家機(jī)場(chǎng)旅客推薦各種套餐高考考生推薦各種業(yè)務(wù)體育場(chǎng)觀眾推薦歌星歌曲實(shí)時(shí)營(yíng)銷(xiāo)(精準(zhǔn)營(yíng)銷(xiāo)、精確營(yíng)銷(xiāo))

案例

兩城一家實(shí)時(shí)營(yíng)銷(xiāo)(精準(zhǔn)營(yíng)銷(xiāo)、精確營(yíng)銷(xiāo))

流量規(guī)劃功能簡(jiǎn)介根據(jù)url實(shí)時(shí)分類(lèi),做實(shí)時(shí)內(nèi)容營(yíng)銷(xiāo)url無(wú)法分類(lèi)結(jié)果,可以開(kāi)發(fā)程序,調(diào)用爬蟲(chóng),獲取網(wǎng)站分類(lèi)規(guī)則,做實(shí)時(shí)內(nèi)容營(yíng)銷(xiāo)(socket調(diào)用獲取url分類(lèi)結(jié)果)根據(jù)搜索關(guān)鍵字,做實(shí)時(shí)內(nèi)容營(yíng)銷(xiāo)結(jié)合信令數(shù)根據(jù)IMEI提取終端信息,結(jié)合url分類(lèi),做實(shí)時(shí)流量營(yíng)銷(xiāo)根據(jù)基站信息,做url實(shí)時(shí)位置營(yíng)銷(xiāo)據(jù),實(shí)時(shí)提取BOSS側(cè)流量信息,當(dāng)流量超標(biāo)時(shí)實(shí)時(shí)提醒(如看視頻超出流量套餐)數(shù)據(jù)來(lái)源于信令PS域(Gn、Gb接口)核心規(guī)則處理由標(biāo)準(zhǔn)C程序開(kāi)發(fā),針對(duì)信令數(shù)據(jù)特征優(yōu)化,簡(jiǎn)潔高效實(shí)時(shí)營(yíng)銷(xiāo)(精準(zhǔn)營(yíng)銷(xiāo)、精確營(yíng)銷(xiāo))

流量規(guī)劃功能簡(jiǎn)介根據(jù)url實(shí)中國(guó)移動(dòng)面臨的問(wèn)題用戶(hù)會(huì)大規(guī)模從2G遷移到3G,或者是4G3G時(shí)代,流量費(fèi)和2G相比,價(jià)格大幅下降。用戶(hù)會(huì)自主選擇使用什么應(yīng)用。如蘋(píng)果的AppStore、谷歌的GooglePlayStore。電信運(yùn)營(yíng)商的短信、彩信、手機(jī)報(bào)等等,對(duì)普通大眾,都不在重要,通過(guò)套餐包提供就行。3G時(shí)代,語(yǔ)音業(yè)務(wù),不再區(qū)分本地、長(zhǎng)途、國(guó)內(nèi)漫游。中國(guó)移動(dòng)面臨的問(wèn)題用戶(hù)會(huì)大規(guī)模從2G遷移到3G,或者是4G中國(guó)移動(dòng)面臨的問(wèn)題全國(guó)統(tǒng)一套餐有幾十個(gè)套餐基本就夠了,不再需要每省幾千、幾萬(wàn)個(gè)套餐,那是一個(gè)太龐大、太復(fù)雜系統(tǒng)。3G時(shí)代,騰訊微信提供的語(yǔ)音視頻,蘋(píng)果FaceTime的視頻通話(huà),都將使語(yǔ)音直接走流量包就可以,套餐中無(wú)法再單獨(dú)包括語(yǔ)音部分的資費(fèi)。流量的價(jià)格遠(yuǎn)遠(yuǎn)低于語(yǔ)音的價(jià)格。這會(huì)使電信運(yùn)營(yíng)商徹底管道化。變成賣(mài)水、賣(mài)電一樣的企業(yè)。中國(guó)移動(dòng)面臨的問(wèn)題全國(guó)統(tǒng)一套餐有幾十個(gè)套餐基本就夠了,不再需中國(guó)移動(dòng)面臨競(jìng)爭(zhēng)的個(gè)人建議電信運(yùn)營(yíng)商可以一方面收購(gòu)使用水、使用電的的上下游公司的股份??梢钥紤]成立投資公司做投資。收購(gòu)騰訊的部分股權(quán),支持騰訊,騰訊發(fā)展壯大,中國(guó)移動(dòng)也能跟著獲益。中國(guó)移動(dòng)入股,買(mǎi)下雅虎所占股份。也可以投資支付寶。中國(guó)移動(dòng)面臨競(jìng)爭(zhēng)的個(gè)人建議電信運(yùn)營(yíng)商可以一方面收購(gòu)使用水、使中國(guó)移動(dòng)面臨競(jìng)爭(zhēng)的個(gè)人建議將來(lái)的趨勢(shì)就是移動(dòng)互聯(lián)網(wǎng)。中國(guó)移動(dòng),包括中國(guó)聯(lián)通、中國(guó)電信,如果自己做不好移動(dòng)互聯(lián)網(wǎng),那就投資給這些移動(dòng)互聯(lián)網(wǎng)企業(yè)。合適的多占股份,風(fēng)險(xiǎn)大的就少占股份。完全可以向風(fēng)投轉(zhuǎn)變。中國(guó)移動(dòng)也可以繼續(xù)嘗試做各種應(yīng)用,做平臺(tái),和各廠商合作。深挖互聯(lián)網(wǎng)數(shù)據(jù)金礦。中國(guó)移動(dòng)面臨競(jìng)爭(zhēng)的個(gè)人建議將來(lái)的趨勢(shì)就是移動(dòng)互聯(lián)網(wǎng)。中國(guó)移動(dòng)中國(guó)移動(dòng)面臨競(jìng)爭(zhēng)的個(gè)人建議互聯(lián)網(wǎng)時(shí)代,電信運(yùn)營(yíng)商面臨著和阿里巴巴一樣的問(wèn)題,互聯(lián)網(wǎng)的大數(shù)據(jù),成本壓力,財(cái)報(bào)壓力。為了壓縮成本,也需要去做去IOE化運(yùn)動(dòng)。現(xiàn)有系統(tǒng)無(wú)需改變,也不必遷移。電信運(yùn)營(yíng)商完全可以從零開(kāi)始,打造一套適應(yīng)互聯(lián)網(wǎng)競(jìng)爭(zhēng)的新一代互聯(lián)網(wǎng)系統(tǒng)。中國(guó)移動(dòng)面臨競(jìng)爭(zhēng)的個(gè)人建議互聯(lián)網(wǎng)時(shí)代,電信運(yùn)營(yíng)商面臨著和阿里中國(guó)移動(dòng)面臨競(jìng)爭(zhēng)的個(gè)人建議未來(lái)的實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)(新一代經(jīng)營(yíng)分析系統(tǒng))和全國(guó)互聯(lián)網(wǎng)數(shù)據(jù)集中化中,在成本壓力,財(cái)報(bào)壓力,外部競(jìng)爭(zhēng)壓力加劇,互聯(lián)網(wǎng)企業(yè)顛覆式創(chuàng)新的革命下,也不得不走阿里巴巴曾經(jīng)走的路。投資阿里巴巴、支付寶、騰訊、京東、凡客、庫(kù)巴、優(yōu)酷、土豆、新浪、網(wǎng)易、搜狐、攜程、大眾點(diǎn)評(píng)網(wǎng)、豆瓣、如家快捷酒店、錦江之星等等。中國(guó)移動(dòng)也可以去做電商。如果覺(jué)得自己業(yè)務(wù)運(yùn)營(yíng)水平高,可以學(xué)習(xí)亞馬遜、京東做電商,做的更全面。中國(guó)移動(dòng)面臨競(jìng)爭(zhēng)的個(gè)人建議未來(lái)的實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)(新一代經(jīng)營(yíng)分析中國(guó)移動(dòng)面臨競(jìng)爭(zhēng)的個(gè)人建議如果覺(jué)得自己國(guó)企特色,做不好,可以學(xué)習(xí)阿里巴巴(天貓)、淘寶,做開(kāi)放平臺(tái)。這條路也挺不錯(cuò)。需要有大魄力才行。中國(guó)移動(dòng)面臨競(jìng)爭(zhēng)的個(gè)人建議如果覺(jué)得自己國(guó)企特色,做不好,可以中國(guó)移動(dòng)和百度合作的建議移動(dòng)互聯(lián)網(wǎng)時(shí)代,手機(jī)號(hào)碼仍然是稀缺資源。百度、騰訊、阿里巴巴三大巨頭,騰訊和阿里巴巴都有自己的號(hào)碼(用戶(hù)id)資源,這背后代表著用戶(hù)信息。百度沒(méi)有用戶(hù)信息,在移動(dòng)互聯(lián)網(wǎng)時(shí)代處于很大劣勢(shì)。移動(dòng)運(yùn)營(yíng)商用戶(hù)資源很豐富,信息也很全。中國(guó)移動(dòng)完全可以和百度合作,把用戶(hù)信息共享給百度,這樣百度就可以做預(yù)搜索或其它各種工作。中國(guó)移動(dòng)投資百度,資源共享,合作共贏。中國(guó)移動(dòng)和百度合作的建議移動(dòng)互聯(lián)網(wǎng)時(shí)代,手機(jī)號(hào)碼仍然是稀缺資

關(guān)于10張標(biāo)簽表,每張表8000萬(wàn)記錄,每張表幾百幾千個(gè)標(biāo)簽字段,關(guān)聯(lián)取數(shù)據(jù),秒級(jí)出結(jié)果的高效方法?大數(shù)據(jù)關(guān)聯(lián)查詢(xún)創(chuàng)新案例

關(guān)于10張標(biāo)簽表,每張表8000萬(wàn)記錄方案1:數(shù)據(jù)庫(kù)內(nèi)方案

把所有客戶(hù)統(tǒng)一視圖大標(biāo)簽寬表先按地市分表,再按號(hào)碼分別拆分為10000張表。每張小表中包括所有需要的幾百、幾千個(gè)字段。小表總表數(shù)為1萬(wàn)到幾萬(wàn)之間,詳細(xì)為地市數(shù)量*1000。有的省份,小表數(shù)據(jù)量為2000條到8000條。前端訪問(wèn)時(shí),不再需要做多表sql關(guān)聯(lián),數(shù)據(jù)量級(jí)別為千行級(jí)的單表sql查詢(xún)語(yǔ)句速度也很快。起10000個(gè)線程并發(fā)執(zhí)行,可以做到實(shí)時(shí)。方案1:數(shù)據(jù)庫(kù)內(nèi)方案

把所有客戶(hù)統(tǒng)一視圖大標(biāo)簽寬表先按地市分方案2:數(shù)據(jù)庫(kù)外方案

把所有客戶(hù)統(tǒng)一視圖大標(biāo)簽寬表按地市分文件,再按號(hào)碼繼續(xù)拆分為1000個(gè)文件。每個(gè)小文件中包括所有需要的幾百、幾千個(gè)字段。小文件總數(shù)量為1萬(wàn)到幾萬(wàn)之間,詳細(xì)為地市數(shù)量*1000。如果是直轄市,直接拆分為10000個(gè)小文件。使用標(biāo)準(zhǔn)C,開(kāi)發(fā)出處理程序,并發(fā)啟動(dòng)1萬(wàn)到幾萬(wàn)個(gè)線程,每個(gè)線程把小文件數(shù)據(jù)加載到各自?xún)?nèi)存中。當(dāng)需要處理數(shù)據(jù)時(shí),實(shí)用LUA來(lái)訪問(wèn)數(shù)據(jù),每個(gè)線程需要處理的數(shù)據(jù)量為千行級(jí)。總體速度應(yīng)該在毫表級(jí),可以實(shí)時(shí)把數(shù)據(jù)回傳給前端。像有的省,如果地市用戶(hù)提取客戶(hù)群,則同樣只需訪問(wèn)此地市的1000個(gè)小內(nèi)存文件,速度能更快。方案2:數(shù)據(jù)庫(kù)外方案

把所有客戶(hù)統(tǒng)一視圖大標(biāo)簽寬表按地市分文方案1細(xì)節(jié):表文件、和線程的數(shù)量可以根據(jù)實(shí)際需要調(diào)整,可以調(diào)整到100張表、1000張表、或者是100個(gè)文件、1000文件、再或者是100個(gè)線程、1000個(gè)線程。具體還需要查詢(xún)資料,依據(jù)現(xiàn)場(chǎng)機(jī)器配置,做性能調(diào)優(yōu)而定。如果并發(fā)線程壓力太大的話(huà),可以考慮改為減少并發(fā)線程數(shù),或者改為串行。當(dāng)數(shù)據(jù)無(wú)法做大表關(guān)聯(lián)時(shí),每次只需從單行記錄就可去到。方案1細(xì)節(jié):表文件、和線程的數(shù)量可以根據(jù)實(shí)際需要調(diào)整,可以調(diào)方案1細(xì)節(jié):分表或分文件時(shí),按手機(jī)號(hào)碼尾號(hào)2位或3位來(lái)分,手機(jī)號(hào)碼尾號(hào)本身是均勻的。在同一地市的小表中,每張小表的數(shù)據(jù)量是基本接近相同的。地市之間,考慮到不同地市的用戶(hù)數(shù)不同,則可以對(duì)不同地市的分表或分文件數(shù)量做優(yōu)化,用戶(hù)數(shù)多的地市分表和文件多,用戶(hù)數(shù)少的地市分表或文件少,盡量和所有的100、1000或10000以上的表或文件中數(shù)據(jù)量保持一致,這樣并發(fā)處理線程同時(shí)處理,完成時(shí)間也能基本相同。

方案1細(xì)節(jié):分表或分文件時(shí),按手機(jī)號(hào)碼尾號(hào)2位或3位來(lái)分,手方案2細(xì)節(jié):數(shù)據(jù)為每月或每日凌晨初始化讀入,載入到內(nèi)存后。在上班時(shí)間訪問(wèn),直接查詢(xún)內(nèi)存靜態(tài)數(shù)據(jù),速度快,但也涉及到內(nèi)存分配太大的問(wèn)題。此時(shí),需要考慮做并發(fā)或者分布式處理。涉及到硬件投資增加問(wèn)題,不建議采購(gòu)小型機(jī),改為采購(gòu)刀片服務(wù)器或其它服務(wù)器。數(shù)據(jù)也可采用前端調(diào)用時(shí)再動(dòng)態(tài)加載,根據(jù)機(jī)器配置,讓線程分批次加載數(shù)據(jù)并處理。這樣對(duì)硬件要求低,但速度相對(duì)會(huì)慢。方案2細(xì)節(jié):數(shù)據(jù)為每月或每日凌晨初始化讀入,載入到內(nèi)存后。在方案2細(xì)節(jié):前端向后臺(tái)通信采取socket方式,后臺(tái)處理完數(shù)據(jù)后,可以把最終數(shù)據(jù)合并,再加載到數(shù)據(jù)庫(kù)中的表,也可以由各線程把各自數(shù)據(jù)分批插入到數(shù)據(jù)庫(kù)中的表。數(shù)據(jù)加載完成后,再通過(guò)socket通知前端處理完畢。LUA具體如何處理和優(yōu)化,細(xì)節(jié)尚待研究,需要花時(shí)間。細(xì)致工作還有很多,需要繼續(xù)研究和深入下去。方案2細(xì)節(jié):前端向后臺(tái)通信采取socket方式,后臺(tái)處理完數(shù)方案2細(xì)節(jié):如果要考慮到硬件成本、分布式部署、開(kāi)發(fā)時(shí)間和難度問(wèn)題,可以接下來(lái)優(yōu)化為采用hadoop方案。采用hadoop方案后,整體數(shù)據(jù)量在千萬(wàn)級(jí),有些省例外,到了億級(jí)。硬件投資改為采購(gòu)幾臺(tái)PC

Server,硬件投入為幾萬(wàn)元。數(shù)據(jù)都在庫(kù)外處理,NOSQL方式,數(shù)據(jù)庫(kù)可以改為使用開(kāi)源數(shù)據(jù)庫(kù)MySQL,存放配置信息。這樣DB2、Oracle或其它數(shù)據(jù)庫(kù)都可以替換掉。方案2細(xì)節(jié):如果要考慮到硬件成本、分布式部署、開(kāi)發(fā)時(shí)間和難度方案2細(xì)節(jié):整體來(lái)說(shuō),實(shí)用hadoop方式或庫(kù)外標(biāo)準(zhǔn)C開(kāi)發(fā)方式后,可以更有效減少中國(guó)移動(dòng)在硬件上的投入,在數(shù)據(jù)庫(kù)的投入??梢园压?jié)省的成本投一部分到應(yīng)用軟件廠商上。這樣,中國(guó)移動(dòng)就可以和應(yīng)用軟件廠商實(shí)現(xiàn)共贏。這也是IT業(yè)界的發(fā)展趨勢(shì)。至于hadoop方案,客戶(hù)統(tǒng)一視圖標(biāo)簽月表每月生成一次,日表每日按生產(chǎn)一次。生成后為靜態(tài)數(shù)據(jù),每日上班時(shí)間數(shù)據(jù)不會(huì)更新,為靜態(tài)數(shù)據(jù)。方案2細(xì)節(jié):整體來(lái)說(shuō),實(shí)用hadoop方式或庫(kù)外標(biāo)準(zhǔn)C開(kāi)發(fā)方方案2細(xì)節(jié):基于此特點(diǎn),可以在每日凌晨把客戶(hù)統(tǒng)一視圖數(shù)據(jù)加載到hadoop中,白天訪問(wèn)時(shí)直接查詢(xún)數(shù)據(jù),速度快,效率高。數(shù)據(jù)加載到內(nèi)存數(shù)據(jù)庫(kù)中做查詢(xún),我目前用到的是solo+lucene,有的同事用的是MongoDB。云計(jì)算方案,應(yīng)該是可以考慮借鑒谷歌做搜索查詢(xún)這塊的成功經(jīng)驗(yàn)。云計(jì)算方案,貌似用流計(jì)算也不錯(cuò)。Yahoo

的S4聽(tīng)說(shuō)挺不錯(cuò)。方案2細(xì)節(jié):基于此特點(diǎn),可以在每日凌晨把客戶(hù)統(tǒng)一視圖數(shù)據(jù)加載微薄友的點(diǎn)評(píng):得意的那些事兒大表,谷歌的bigtable是最佳實(shí)踐blueprint,思想可以參考。從分表分庫(kù)轉(zhuǎn)向規(guī)模的bigdatarebalance。這才是所有的性能優(yōu)化的起源和本質(zhì)。這里面cap理論和dht算法是技術(shù)實(shí)現(xiàn)原理。當(dāng)然mapreduce大大簡(jiǎn)化了數(shù)據(jù)的normalize和并行計(jì)算。hadoop的出現(xiàn)提供了這些。各種混合架構(gòu)只是在融合實(shí)時(shí)處理而已…不勝人生一場(chǎng)醉PMBAR每秒上百G的吞吐量,我不認(rèn)為關(guān)系數(shù)據(jù)庫(kù)和幾臺(tái)PC服務(wù)器能搞的定微薄友的點(diǎn)評(píng):得意的那些事兒微薄友的點(diǎn)評(píng):風(fēng)流搞技術(shù)用oracle就麻煩了,最多1000列,超255列,會(huì)帶來(lái)過(guò)多IO,非關(guān)系型數(shù)據(jù)庫(kù)解決此類(lèi)問(wèn)題應(yīng)該在行原來(lái)遠(yuǎn)去如果自己采用寫(xiě)程序在內(nèi)存里面做關(guān)聯(lián)計(jì)算,mysql之類(lèi)只是做數(shù)據(jù)備份存儲(chǔ),倒是有可能。熱數(shù)據(jù)全在內(nèi)存里面,只是冷數(shù)據(jù)需要查一下mysql。冷熱處理有些難度。同時(shí)內(nèi)存利用率這塊怎樣控制,否則很容易爆掉。自己寫(xiě),涉及一個(gè)distinct,groupby之類(lèi),秒級(jí)計(jì)算出結(jié)果,困難比較大。微薄友的點(diǎn)評(píng):風(fēng)流搞技術(shù)《論中國(guó)》西方戰(zhàn)略家思考如何在關(guān)鍵點(diǎn)上集結(jié)優(yōu)勢(shì)兵力,而孫子研究如何在政治和心理上取得優(yōu)勢(shì)地位,從而確保勝利。西方戰(zhàn)略家通過(guò)打勝仗檢驗(yàn)自己的理論,孫子則通過(guò)不戰(zhàn)而勝檢驗(yàn)自己的理論。

亨利·基辛格《論中國(guó)》西方戰(zhàn)略家思考如何在關(guān)鍵點(diǎn)上個(gè)人建議:平時(shí)多積累,“功夫在詩(shī)外”多做SWOT分析多關(guān)注大環(huán)境,多從大局出發(fā)做創(chuàng)業(yè)、做BI要多眼于未來(lái),產(chǎn)品規(guī)劃、設(shè)計(jì)要面向未來(lái),多考慮未來(lái)三五年的環(huán)境和競(jìng)爭(zhēng)《扁鵲見(jiàn)蔡桓公》BI人學(xué)習(xí)的榜樣個(gè)人建議:平時(shí)多積累,“功夫在詩(shī)外”推薦閱讀《浪潮之巔》《暗時(shí)間》《異類(lèi)》《數(shù)學(xué)之美》《高效能人士的七個(gè)習(xí)慣》彼得·德魯克的書(shū)籍職業(yè)規(guī)劃推薦閱讀《浪潮之巔》謝謝!謝謝!電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會(huì)夏明武xiamingwu@電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會(huì)夏明武互聯(lián)網(wǎng)市場(chǎng)大小2011中國(guó)互聯(lián)網(wǎng)收入,廣告512億元,增長(zhǎng)57%網(wǎng)絡(luò)游戲428億,增長(zhǎng)20%;電商7735.6億,增長(zhǎng)68%行業(yè)排頭兵凈利潤(rùn)率估計(jì),廣告35%,網(wǎng)游55%,電商1%,利潤(rùn)分別為179億,235億,77億假設(shè)2012增長(zhǎng)與利潤(rùn)水平不變,行業(yè)利潤(rùn)分別為廣告280億,游戲280億,電商130億艾瑞咨詢(xún)互聯(lián)網(wǎng)市場(chǎng)大小2011中國(guó)互聯(lián)網(wǎng)收入,廣告512億元,增長(zhǎng)5互聯(lián)網(wǎng)數(shù)據(jù)挖掘三個(gè)方向

廣告水軍剔除

剔除水軍,可以大大減少?gòu)V告開(kāi)支、節(jié)約成本。這是節(jié)流。商品推薦這一塊可以參考amazon的商品推薦,現(xiàn)在電商都在學(xué)amazon的商品推薦,只是都做得不好。這一塊做好可以增加銷(xiāo)售量。帶來(lái)真金白銀。這也就是開(kāi)源。社交網(wǎng)絡(luò)分析等現(xiàn)在新浪微薄的數(shù)據(jù)質(zhì)量最高,大有可為。目前已經(jīng)有很多公司在新浪上做社會(huì)化網(wǎng)絡(luò)數(shù)據(jù)挖掘,但還可以容納更多公司。

互聯(lián)網(wǎng)數(shù)據(jù)挖掘三個(gè)方向

廣告水軍剔除上周,美國(guó)小型音樂(lè)公司LimitedRun宣布他們確信其在Facebook上的廣告點(diǎn)擊有超過(guò)80%來(lái)自于機(jī)器人程序,并表示將會(huì)向Facebook追究此事。/internet/detail_2012_08/16/16845392_0.shtml@wx伍星

:真心覺(jué)得直接的收入才驅(qū)動(dòng)數(shù)據(jù)分析挖掘的發(fā)展,廣告,電商,游戲行業(yè)的挖掘分析,較web網(wǎng)站挖掘分析先進(jìn)很多回復(fù)@孫晗:這是真實(shí)的人際社會(huì),所填信息比較真實(shí)和準(zhǔn)確,能得到大量其它信息根本不可能產(chǎn)生的信息。

//@孫晗:為何說(shuō)新浪的數(shù)據(jù)質(zhì)量高咧互聯(lián)網(wǎng)數(shù)據(jù)挖掘三個(gè)方向

上周,美國(guó)小型音樂(lè)公司LimitedRun宣布他們確信其在中國(guó)移動(dòng)數(shù)據(jù)經(jīng)營(yíng)分析系統(tǒng)10年經(jīng)營(yíng)分析系統(tǒng)建設(shè),BI是否有用?SAS、SPSS在中國(guó)移動(dòng)市場(chǎng)消失,數(shù)據(jù)挖掘基本失敗,原因?客戶(hù)細(xì)分問(wèn)題?分析報(bào)告一定是正確的嗎?中國(guó)移動(dòng)數(shù)據(jù)經(jīng)營(yíng)分析系統(tǒng)10年經(jīng)營(yíng)分析系統(tǒng)建設(shè),BI是否有用信令數(shù)據(jù)介紹CS域語(yǔ)音主叫語(yǔ)音被叫短信發(fā)送短信接收位置更新開(kāi)機(jī)關(guān)機(jī)位置切換信令數(shù)據(jù)介紹CS域語(yǔ)音主叫信令數(shù)據(jù)介紹PS域彩信發(fā)送彩信接收WAP連接WAP使用WAP斷開(kāi)信令數(shù)據(jù)介紹PS域彩信發(fā)送信令名詞解釋LAC:

locationareacode位置區(qū)碼(移動(dòng)通信系統(tǒng)中),是為尋呼而設(shè)置的一個(gè)區(qū)域,覆蓋一片地理區(qū)域。CELL:

采用基站識(shí)別碼或全球小區(qū)識(shí)別進(jìn)行標(biāo)識(shí)的無(wú)線覆蓋區(qū)域叫做小區(qū)。IMSI:

InternationalMobileSubscriberIdentificationNumber國(guó)際移動(dòng)用戶(hù)識(shí)別碼,是區(qū)別移動(dòng)用戶(hù)的標(biāo)志,儲(chǔ)存在SIM卡中,可用于區(qū)別移動(dòng)用戶(hù)的有效信息。信令名詞解釋LAC:信令名詞解釋IMEI:InternationalMobileEquipmentIdentity,是國(guó)際移動(dòng)設(shè)備身份碼的縮寫(xiě),國(guó)際移動(dòng)裝備辨識(shí)碼,是由15位數(shù)字組成的“電子串號(hào)”,它與每臺(tái)手機(jī)一一對(duì)應(yīng),而且該碼是全世界唯一的。MSISDN:MobileSubscriberInternationalISDN/PSTNnumber(ISDN即是綜合業(yè)務(wù)數(shù)字網(wǎng),是IntegratedServiceDigitalNetwork的簡(jiǎn)稱(chēng)),即手機(jī)號(hào)碼。信令名詞解釋IMEI:信令數(shù)據(jù)能做什么?實(shí)時(shí)營(yíng)銷(xiāo)(精準(zhǔn)營(yíng)銷(xiāo)、精確營(yíng)銷(xiāo))事件營(yíng)銷(xiāo)(信令監(jiān)控、信令分析、數(shù)據(jù)挖掘)信令數(shù)據(jù)能做什么?實(shí)時(shí)營(yíng)銷(xiāo)(精準(zhǔn)營(yíng)銷(xiāo)、精確營(yíng)銷(xiāo))基于信令數(shù)據(jù)和客戶(hù)統(tǒng)一視圖的數(shù)據(jù)挖掘高中生高中生家長(zhǎng)大學(xué)生飛機(jī)來(lái)港客戶(hù)飛機(jī)離港客戶(hù)景區(qū)游客火車(chē)站到達(dá)客戶(hù)火車(chē)站離開(kāi)客戶(hù)基于信令數(shù)據(jù)和客戶(hù)統(tǒng)一視圖的數(shù)據(jù)挖掘高中生數(shù)據(jù)挖掘的創(chuàng)新規(guī)則以界面化的方式展示給業(yè)務(wù)人員參數(shù)可調(diào)整,業(yè)務(wù)人員可以根據(jù)業(yè)務(wù)經(jīng)驗(yàn)調(diào)整業(yè)務(wù)人員可以直接界面執(zhí)行數(shù)據(jù)挖掘,重跑數(shù)據(jù)通過(guò)外呼查全和查準(zhǔn)前端界面規(guī)則配置到數(shù)據(jù)庫(kù)中環(huán)境發(fā)生大變化時(shí),業(yè)務(wù)人員熟悉模型規(guī)則,就能很方便給研發(fā)提新需求,研發(fā)遠(yuǎn)程開(kāi)發(fā)后遠(yuǎn)程發(fā)包部署數(shù)據(jù)挖掘的創(chuàng)新規(guī)則以界面化的方式展示給業(yè)務(wù)人員

實(shí)時(shí)營(yíng)銷(xiāo)(精準(zhǔn)營(yíng)銷(xiāo)、精確營(yíng)銷(xiāo))

速度實(shí)時(shí)合適的時(shí)間合適的地點(diǎn)給客戶(hù)推薦合適的內(nèi)容

實(shí)時(shí)營(yíng)銷(xiāo)(精準(zhǔn)營(yíng)銷(xiāo)、精確營(yíng)銷(xiāo))

速度實(shí)時(shí)實(shí)時(shí)營(yíng)銷(xiāo)(精準(zhǔn)營(yíng)銷(xiāo)、精確營(yíng)銷(xiāo))

案例

兩城一家機(jī)場(chǎng)旅客推薦各種套餐高考考生推薦各種業(yè)務(wù)體育場(chǎng)觀眾推薦歌星歌曲實(shí)時(shí)營(yíng)銷(xiāo)(精準(zhǔn)營(yíng)銷(xiāo)、精確營(yíng)銷(xiāo))

案例

兩城一家實(shí)時(shí)營(yíng)銷(xiāo)(精準(zhǔn)營(yíng)銷(xiāo)、精確營(yíng)銷(xiāo))

流量規(guī)劃功能簡(jiǎn)介根據(jù)url實(shí)時(shí)分類(lèi),做實(shí)時(shí)內(nèi)容營(yíng)銷(xiāo)url無(wú)法分類(lèi)結(jié)果,可以開(kāi)發(fā)程序,調(diào)用爬蟲(chóng),獲取網(wǎng)站分類(lèi)規(guī)則,做實(shí)時(shí)內(nèi)容營(yíng)銷(xiāo)(socket調(diào)用獲取url分類(lèi)結(jié)果)根據(jù)搜索關(guān)鍵字,做實(shí)時(shí)內(nèi)容營(yíng)銷(xiāo)結(jié)合信令數(shù)根據(jù)IMEI提取終端信息,結(jié)合url分類(lèi),做實(shí)時(shí)流量營(yíng)銷(xiāo)根據(jù)基站信息,做url實(shí)時(shí)位置營(yíng)銷(xiāo)據(jù),實(shí)時(shí)提取BOSS側(cè)流量信息,當(dāng)流量超標(biāo)時(shí)實(shí)時(shí)提醒(如看視頻超出流量套餐)數(shù)據(jù)來(lái)源于信令PS域(Gn、Gb接口)核心規(guī)則處理由標(biāo)準(zhǔn)C程序開(kāi)發(fā),針對(duì)信令數(shù)據(jù)特征優(yōu)化,簡(jiǎn)潔高效實(shí)時(shí)營(yíng)銷(xiāo)(精準(zhǔn)營(yíng)銷(xiāo)、精確營(yíng)銷(xiāo))

流量規(guī)劃功能簡(jiǎn)介根據(jù)url實(shí)中國(guó)移動(dòng)面臨的問(wèn)題用戶(hù)會(huì)大規(guī)模從2G遷移到3G,或者是4G3G時(shí)代,流量費(fèi)和2G相比,價(jià)格大幅下降。用戶(hù)會(huì)自主選擇使用什么應(yīng)用。如蘋(píng)果的AppStore、谷歌的GooglePlayStore。電信運(yùn)營(yíng)商的短信、彩信、手機(jī)報(bào)等等,對(duì)普通大眾,都不在重要,通過(guò)套餐包提供就行。3G時(shí)代,語(yǔ)音業(yè)務(wù),不再區(qū)分本地、長(zhǎng)途、國(guó)內(nèi)漫游。中國(guó)移動(dòng)面臨的問(wèn)題用戶(hù)會(huì)大規(guī)模從2G遷移到3G,或者是4G中國(guó)移動(dòng)面臨的問(wèn)題全國(guó)統(tǒng)一套餐有幾十個(gè)套餐基本就夠了,不再需要每省幾千、幾萬(wàn)個(gè)套餐,那是一個(gè)太龐大、太復(fù)雜系統(tǒng)。3G時(shí)代,騰訊微信提供的語(yǔ)音視頻,蘋(píng)果FaceTime的視頻通話(huà),都將使語(yǔ)音直接走流量包就可以,套餐中無(wú)法再單獨(dú)包括語(yǔ)音部分的資費(fèi)。流量的價(jià)格遠(yuǎn)遠(yuǎn)低于語(yǔ)音的價(jià)格。這會(huì)使電信運(yùn)營(yíng)商徹底管道化。變成賣(mài)水、賣(mài)電一樣的企業(yè)。中國(guó)移動(dòng)面臨的問(wèn)題全國(guó)統(tǒng)一套餐有幾十個(gè)套餐基本就夠了,不再需中國(guó)移動(dòng)面臨競(jìng)爭(zhēng)的個(gè)人建議電信運(yùn)營(yíng)商可以一方面收購(gòu)使用水、使用電的的上下游公司的股份。可以考慮成立投資公司做投資。收購(gòu)騰訊的部分股權(quán),支持騰訊,騰訊發(fā)展壯大,中國(guó)移動(dòng)也能跟著獲益。中國(guó)移動(dòng)入股,買(mǎi)下雅虎所占股份。也可以投資支付寶。中國(guó)移動(dòng)面臨競(jìng)爭(zhēng)的個(gè)人建議電信運(yùn)營(yíng)商可以一方面收購(gòu)使用水、使中國(guó)移動(dòng)面臨競(jìng)爭(zhēng)的個(gè)人建議將來(lái)的趨勢(shì)就是移動(dòng)互聯(lián)網(wǎng)。中國(guó)移動(dòng),包括中國(guó)聯(lián)通、中國(guó)電信,如果自己做不好移動(dòng)互聯(lián)網(wǎng),那就投資給這些移動(dòng)互聯(lián)網(wǎng)企業(yè)。合適的多占股份,風(fēng)險(xiǎn)大的就少占股份。完全可以向風(fēng)投轉(zhuǎn)變。中國(guó)移動(dòng)也可以繼續(xù)嘗試做各種應(yīng)用,做平臺(tái),和各廠商合作。深挖互聯(lián)網(wǎng)數(shù)據(jù)金礦。中國(guó)移動(dòng)面臨競(jìng)爭(zhēng)的個(gè)人建議將來(lái)的趨勢(shì)就是移動(dòng)互聯(lián)網(wǎng)。中國(guó)移動(dòng)中國(guó)移動(dòng)面臨競(jìng)爭(zhēng)的個(gè)人建議互聯(lián)網(wǎng)時(shí)代,電信運(yùn)營(yíng)商面臨著和阿里巴巴一樣的問(wèn)題,互聯(lián)網(wǎng)的大數(shù)據(jù),成本壓力,財(cái)報(bào)壓力。為了壓縮成本,也需要去做去IOE化運(yùn)動(dòng)?,F(xiàn)有系統(tǒng)無(wú)需改變,也不必遷移。電信運(yùn)營(yíng)商完全可以從零開(kāi)始,打造一套適應(yīng)互聯(lián)網(wǎng)競(jìng)爭(zhēng)的新一代互聯(lián)網(wǎng)系統(tǒng)。中國(guó)移動(dòng)面臨競(jìng)爭(zhēng)的個(gè)人建議互聯(lián)網(wǎng)時(shí)代,電信運(yùn)營(yíng)商面臨著和阿里中國(guó)移動(dòng)面臨競(jìng)爭(zhēng)的個(gè)人建議未來(lái)的實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)(新一代經(jīng)營(yíng)分析系統(tǒng))和全國(guó)互聯(lián)網(wǎng)數(shù)據(jù)集中化中,在成本壓力,財(cái)報(bào)壓力,外部競(jìng)爭(zhēng)壓力加劇,互聯(lián)網(wǎng)企業(yè)顛覆式創(chuàng)新的革命下,也不得不走阿里巴巴曾經(jīng)走的路。投資阿里巴巴、支付寶、騰訊、京東、凡客、庫(kù)巴、優(yōu)酷、土豆、新浪、網(wǎng)易、搜狐、攜程、大眾點(diǎn)評(píng)網(wǎng)、豆瓣、如家快捷酒店、錦江之星等等。中國(guó)移動(dòng)也可以去做電商。如果覺(jué)得自己業(yè)務(wù)運(yùn)營(yíng)水平高,可以學(xué)習(xí)亞馬遜、京東做電商,做的更全面。中國(guó)移動(dòng)面臨競(jìng)爭(zhēng)的個(gè)人建議未來(lái)的實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)(新一代經(jīng)營(yíng)分析中國(guó)移動(dòng)面臨競(jìng)爭(zhēng)的個(gè)人建議如果覺(jué)得自己國(guó)企特色,做不好,可以學(xué)習(xí)阿里巴巴(天貓)、淘寶,做開(kāi)放平臺(tái)。這條路也挺不錯(cuò)。需要有大魄力才行。中國(guó)移動(dòng)面臨競(jìng)爭(zhēng)的個(gè)人建議如果覺(jué)得自己國(guó)企特色,做不好,可以中國(guó)移動(dòng)和百度合作的建議移動(dòng)互聯(lián)網(wǎng)時(shí)代,手機(jī)號(hào)碼仍然是稀缺資源。百度、騰訊、阿里巴巴三大巨頭,騰訊和阿里巴巴都有自己的號(hào)碼(用戶(hù)id)資源,這背后代表著用戶(hù)信息。百度沒(méi)有用戶(hù)信息,在移動(dòng)互聯(lián)網(wǎng)時(shí)代處于很大劣勢(shì)。移動(dòng)運(yùn)營(yíng)商用戶(hù)資源很豐富,信息也很全。中國(guó)移動(dòng)完全可以和百度合作,把用戶(hù)信息共享給百度,這樣百度就可以做預(yù)搜索或其它各種工作。中國(guó)移動(dòng)投資百度,資源共享,合作共贏。中國(guó)移動(dòng)和百度合作的建議移動(dòng)互聯(lián)網(wǎng)時(shí)代,手機(jī)號(hào)碼仍然是稀缺資

關(guān)于10張標(biāo)簽表,每張表8000萬(wàn)記錄,每張表幾百幾千個(gè)標(biāo)簽字段,關(guān)聯(lián)取數(shù)據(jù),秒級(jí)出結(jié)果的高效方法?大數(shù)據(jù)關(guān)聯(lián)查詢(xún)創(chuàng)新案例

關(guān)于10張標(biāo)簽表,每張表8000萬(wàn)記錄方案1:數(shù)據(jù)庫(kù)內(nèi)方案

把所有客戶(hù)統(tǒng)一視圖大標(biāo)簽寬表先按地市分表,再按號(hào)碼分別拆分為10000張表。每張小表中包括所有需要的幾百、幾千個(gè)字段。小表總表數(shù)為1萬(wàn)到幾萬(wàn)之間,詳細(xì)為地市數(shù)量*1000。有的省份,小表數(shù)據(jù)量為2000條到8000條。前端訪問(wèn)時(shí),不再需要做多表sql關(guān)聯(lián),數(shù)據(jù)量級(jí)別為千行級(jí)的單表sql查詢(xún)語(yǔ)句速度也很快。起10000個(gè)線程并發(fā)執(zhí)行,可以做到實(shí)時(shí)。方案1:數(shù)據(jù)庫(kù)內(nèi)方案

把所有客戶(hù)統(tǒng)一視圖大標(biāo)簽寬表先按地市分方案2:數(shù)據(jù)庫(kù)外方案

把所有客戶(hù)統(tǒng)一視圖大標(biāo)簽寬表按地市分文件,再按號(hào)碼繼續(xù)拆分為1000個(gè)文件。每個(gè)小文件中包括所有需要的幾百、幾千個(gè)字段。小文件總數(shù)量為1萬(wàn)到幾萬(wàn)之間,詳細(xì)為地市數(shù)量*1000。如果是直轄市,直接拆分為10000個(gè)小文件。使用標(biāo)準(zhǔn)C,開(kāi)發(fā)出處理程序,并發(fā)啟動(dòng)1萬(wàn)到幾萬(wàn)個(gè)線程,每個(gè)線程把小文件數(shù)據(jù)加載到各自?xún)?nèi)存中。當(dāng)需要處理數(shù)據(jù)時(shí),實(shí)用LUA來(lái)訪問(wèn)數(shù)據(jù),每個(gè)線程需要處理的數(shù)據(jù)量為千行級(jí)。總體速度應(yīng)該在毫表級(jí),可以實(shí)時(shí)把數(shù)據(jù)回傳給前端。像有的省,如果地市用戶(hù)提取客戶(hù)群,則同樣只需訪問(wèn)此地市的1000個(gè)小內(nèi)存文件,速度能更快。方案2:數(shù)據(jù)庫(kù)外方案

把所有客戶(hù)統(tǒng)一視圖大標(biāo)簽寬表按地市分文方案1細(xì)節(jié):表文件、和線程的數(shù)量可以根據(jù)實(shí)際需要調(diào)整,可以調(diào)整到100張表、1000張表、或者是100個(gè)文件、1000文件、再或者是100個(gè)線程、1000個(gè)線程。具體還需要查詢(xún)資料,依據(jù)現(xiàn)場(chǎng)機(jī)器配置,做性能調(diào)優(yōu)而定。如果并發(fā)線程壓力太大的話(huà),可以考慮改為減少并發(fā)線程數(shù),或者改為串行。當(dāng)數(shù)據(jù)無(wú)法做大表關(guān)聯(lián)時(shí),每次只需從單行記錄就可去到。方案1細(xì)節(jié):表文件、和線程的數(shù)量可以根據(jù)實(shí)際需要調(diào)整,可以調(diào)方案1細(xì)節(jié):分表或分文件時(shí),按手機(jī)號(hào)碼尾號(hào)2位或3位來(lái)分,手機(jī)號(hào)碼尾號(hào)本身是均勻的。在同一地市的小表中,每張小表的數(shù)據(jù)量是基本接近相同的。地市之間,考慮到不同地市的用戶(hù)數(shù)不同,則可以對(duì)不同地市的分表或分文件數(shù)量做優(yōu)化,用戶(hù)數(shù)多的地市分表和文件多,用戶(hù)數(shù)少的地市分表或文件少,盡量和所有的100、1000或10000以上的表或文件中數(shù)據(jù)量保持一致,這樣并發(fā)處理線程同時(shí)處理,完成時(shí)間也能基本相同。

方案1細(xì)節(jié):分表或分文件時(shí),按手機(jī)號(hào)碼尾號(hào)2位或3位來(lái)分,手方案2細(xì)節(jié):數(shù)據(jù)為每月或每日凌晨初始化讀入,載入到內(nèi)存后。在上班時(shí)間訪問(wèn),直接查詢(xún)內(nèi)存靜態(tài)數(shù)據(jù),速度快,但也涉及到內(nèi)存分配太大的問(wèn)題。此時(shí),需要考慮做并發(fā)或者分布式處理。涉及到硬件投資增加問(wèn)題,不建議采購(gòu)小型機(jī),改為采購(gòu)刀片服務(wù)器或其它服務(wù)器。數(shù)據(jù)也可采用前端調(diào)用時(shí)再動(dòng)態(tài)加載,根據(jù)機(jī)器配置,讓線程分批次加載數(shù)據(jù)并處理。這樣對(duì)硬件要求低,但速度相對(duì)會(huì)慢。方案2細(xì)節(jié):數(shù)據(jù)為每月或每日凌晨初始化讀入,載入到內(nèi)存后。在方案2細(xì)節(jié):前端向后臺(tái)通信采取socket方式,后臺(tái)處理完數(shù)據(jù)后,可以把最終數(shù)據(jù)合并,再加載到數(shù)據(jù)庫(kù)中的表,也可以由各線程把各自數(shù)據(jù)分批插入到數(shù)據(jù)庫(kù)中的表。數(shù)據(jù)加載完成后,再通過(guò)socket通知前端處理完畢。LUA具體如何處理和優(yōu)化,細(xì)節(jié)尚待研究,需要花時(shí)間。細(xì)致工作還有很多,需要繼續(xù)研究和深入下去。方案2細(xì)節(jié):前端向后臺(tái)通信采取socket方式,后臺(tái)處理完數(shù)方案2細(xì)節(jié):如果要考慮到硬件成本、分布式部署、開(kāi)發(fā)時(shí)間和難度問(wèn)題,可以接下來(lái)優(yōu)化為采用hadoop方案。采用hadoop方案后,整體數(shù)據(jù)量在千萬(wàn)級(jí),有些省例外,到了億級(jí)。硬件投資改為采購(gòu)幾臺(tái)PC

Server,硬件投入為幾萬(wàn)元。數(shù)據(jù)都在庫(kù)外處理,NOSQL方式,數(shù)據(jù)庫(kù)可以改為使用開(kāi)源數(shù)據(jù)庫(kù)MySQL,存放配置信息。這樣DB2、Oracle或其它數(shù)據(jù)庫(kù)都可以替換掉。方案2細(xì)節(jié):如果要考慮到硬件成本、分布式部署、開(kāi)發(fā)時(shí)間和難度方案2細(xì)節(jié):整體來(lái)說(shuō),實(shí)用hadoop方式或庫(kù)外標(biāo)準(zhǔn)C開(kāi)發(fā)方式后

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論