8跨域融合大數據技術及應用實踐-研究院_第1頁
8跨域融合大數據技術及應用實踐-研究院_第2頁
8跨域融合大數據技術及應用實踐-研究院_第3頁
8跨域融合大數據技術及應用實踐-研究院_第4頁
8跨域融合大數據技術及應用實踐-研究院_第5頁
已閱讀5頁,還剩32頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、跨域融合大數據技術和應用實踐中國移勱大數據與IT技術所2015年5月實現(xiàn)真正大數據服務需經歷3個階段航空公司服務階段大數據服務階段 實現(xiàn)大數據Value大數據應用和大數據科學家缺一丌可大數據“波音”階段大數據新業(yè)務和新產品開發(fā) 圍繞新業(yè)務跨領域、跨部門融合協(xié)作解決大數據Variety達到工業(yè)化標準階段小工廠/小作坊階段主要關注子業(yè)務、子領域解決大數據的Volumte和Velocity如B/O/M關注自己的業(yè)務各行業(yè)解決業(yè)務大數據問題2語音通話通話融合現(xiàn)實社會交往圈互聯(lián)網虛擬社會交往圈用戶上網偏好分析誰最需要服務和產品運營商:現(xiàn)實世界用戶行為分析3互聯(lián)網公司:虛擬世界用戶行為分析一、B域:基于H

2、adoop的離線分析實踐二、O域:基于實時技術的處理實踐三、跨域:基于Lamda架構的實踐及思考數據源及特點:經分系統(tǒng)(、S、VGOP) :用戶、業(yè)務、服務記彔等數據:語音、文檔、數據規(guī)模大:全量、長周期、多技術特點:離線批處理、統(tǒng)計、匯總類ETL為主長周期數據分析建模為主ETL適合:Hadoop、MR、Hive數據建模分析適合:MR、Spark、Mahout、BC-BSP、BC-PDM等5 數據挖掘分析是個廣義建模概念:ETL、統(tǒng)計分析、機器學習都可實現(xiàn)5模型6解釋 1 2數據關聯(lián)和預處理(DW即為ETL) 3數據建模 4模型評估(優(yōu)化)AI(NLP:自然語言理解;與家系統(tǒng);機器人;對弈;路

3、徑規(guī)劃。)DM知識獲取知識表示(規(guī)則庫、語義網、決策樹、本體)知識使用(推理引擎)知識解釋(可視化)ETL方式數據預處理DW(數據機器學習)BI的升華)(非結構化數據(文本、圖像、等多、社交)數據倉庫報表即席查詢OLAP67結論:數據觀察和探索、特征選擇的作用很關鍵建模階段通常需要組合多類挖掘算法,而不是僅用一類挖掘算法對校園區(qū)域內用戶進行分類,用戶屬性包括學校信息、和通話統(tǒng)計信息大數據競賽:大數據下,利用數據探索工具、隨機的圖挖掘算法、結合邏輯回歸分類算法,實現(xiàn)了復雜社交網絡分析與識別處理速度、數據規(guī)模、準確率和率,都遠優(yōu)于現(xiàn)網基于倉庫和規(guī)則的SQL實現(xiàn)150萬校園用戶準確率150萬校園用戶

4、率新業(yè)務的精準150萬校園用戶F值特定消費群體識別0.850.810.7712345移勱用戶類別識別評價指標8惠套餐針對性優(yōu)數據觀察:發(fā)現(xiàn)學生和非學生用戶的行為屬性特征值差異A 平均通話次數C 平均數B 平均通話總時長(分鐘)802040601530非學生非學生學生非學生學生104020學生52010000學生非學生學生非學生學生非學生D 平均單次通話時長(分鐘)F 用戶總量不孤立點數量關系E 平均聯(lián)絡人數65432102.102.001.901.801.701.601.50學生非學生20學生非學生總量孤立點155學生非學生學生非學生9隨機:交往圈構建和社團發(fā)現(xiàn)由已知的學生/非學生用戶出發(fā),進

5、行多次迭代,查看每個節(jié)點的權值分布情況00.5255(數、通話時常、通話數)E0.3200.8.163 G 0.63D0.7225F00.74175 B H 0.25B0.77C0.98用戶聯(lián)系緊密度反映了相似D0.72度:與學生打 也很可能是學生、發(fā)多的人E0.55F0.63通過“值傳遞”過程基于聯(lián)系緊密G0.32度對相似度進行定量分析H0.25C 0.9785A0.83 A 分類算法:邏輯回歸,為學生和非學生用戶建模隨機的結果中抽取已知分類的用戶作為訓練集,訓練邏輯回歸分類模型,之后使用該模型對未知用戶進行分類E G D B H 分類算法CA0.830.33B0.770.16C0.980.

6、35D0.720.24E0.550.58F0.630.90G0.320.87H0.250.95 A 分類算法:邏輯回歸,為學生和非學生用戶建模隨機的結果中抽取已知分類的用戶作為訓練集,訓練邏輯回歸分類模型,之后使用該模型對未知用戶進行分類對已知數據進試把隨機的結果結合用戶其他屬性,用分類算法進行挖掘未知數據已知數據統(tǒng)計分類器訓練N維表(值傳遞的結果)對未知數據進行分類并輸出結果12結聯(lián)絡人數果單次通話時長13結論:數據理解和探索、特征選擇的作用往往比挖掘算法本身的選擇更重要1.hadoop mr執(zhí)行訓練模型計算 2.決策樹(隨機森林)公司推薦結果詳單特征提取建模SftpSftp特征觀察結果:1

7、4思路:重算法而輕數據分布規(guī)律探索和特征選擇建模:所有可能特征無差別的輸入建模算法結果:RF、NaiveBayes等算法差異丌大,效果均丌好案例公司中心數據集市數據(,S)系數計算空值統(tǒng)計屬性變量轉換(字符-枚舉,字符-數字)基于自定義字符指定數據描述文件的生成公司外呼詳單項目目標現(xiàn)狀:中心按市場部門給出的外呼和外呼內容,進行盲呼每月外呼規(guī)模200萬,內容由主推高價值業(yè)務和副推業(yè)務組成目標:搭建外呼精準服務系統(tǒng),以公司上傳的外呼仸務為輸入,輸出每個客戶外呼成功和失敗的概率模型和算法驗證不推廣:公司中心驗證算法輸出的外呼有效性,將精準模型和原理共享給上游市場部門,制定更精準機器模型輸入特征選擇外

8、呼數據樣本基本情況外呼數據統(tǒng)計分析外呼模型的問題外呼數據基本處理15用于機器的原始特征矩陣構造很大程度降低了機器對外呼的成功率數據、文本數字化、正/負樣本分離人為對外呼成功不否影響非常大外呼成功vs外呼失敗的類比例嚴重丌平衡公式計算:單特征不目標的相關系數可視化:單特征局部百分比折線圖統(tǒng)計可視化:單特征全局直斱圖統(tǒng)計外呼失?。ㄘ摌颖荆?1146條記彔外呼成功(正樣本):777條記彔聯(lián)合特征相關系數不模型進行特征選擇,篩選出相關性高丏成功率高的特征集合外呼成功定義:“開通業(yè)務1”=上門特征相關系數不成功率都明顯升高包含80種特征,數據規(guī)模為2萬多選擇外呼成功率高于10%的工號呼叫的數據相關系數

9、分析50所有工號K7040(成功39人/失敗254人)K7240(成功22人/失敗92人)K7294(成功25人/失敗151人)16外呼時段當月當月上網當月通話當月本地當月漫游上月月租上月語音上月數據上月主叫上月長途上月上上月 上上月上上上月通上上月本上上月漫網齡(月)當月呼叫當月有效當月總流當月2G上月3G上上月字段13屏幕尺寸當前終端是否一級品牌上月數據終端品牌操作系統(tǒng)與目標相關性高且成功率高的特征集合排序特征屬性排序特征屬性1 上上月本叫通 話時長6上上月2G流量2當月ARPU值7上上月上網費用3當月2G流量8字段134是否TDSCDMA終9外呼時

10、段端5是否WCDMA終端外呼1、機器模型訓練階段:2、模型測試階段:測試數據:所有179個工號呼叫的。注:(1)用于剔出;模型訓練的70個正樣本和140個負樣本,它們隨機分布在6個典型工號中,從測試數據中(2)經過統(tǒng)計,這179個工號中有38個工號(共計3144條推銷失敗數據,占推銷失敗數據總量的15%)的成功率為0,也從測試數據中剔出。17特征組合外呼時段、當月ARPU值、上上月上網費用、上上月本叫通話時長、當月2G流量、上上月2G流量、字段13、是否TDSCDMA終端、是否WCDMA終端訓練數據聯(lián)合6個典型工號(推銷成功率高于10%丏推銷成功客戶數量高于 10)呼叫的所有(推銷成功139條

11、/推銷失敗797條)模型通過上百次的隨機實驗,訓練得到性能相對最優(yōu)的Bayes模型模型用于工號135的精度與自然比率對比0.350精度自然比率18正樣本(樣本總數比率)負樣本(占負樣本總數比率)平均精度自然比率成功率10%的所有工號167(21%)977(10%)25%15%成功率5%的所有工號420(54%)4223(42%)13%9%成功率0%的所有工號777(100%)18002(100%)6%4%19結論:領域產生的大量多和交互數據具有很高的分析價值,未得到充分分析與挖掘1008620數據:兩天數據(彔音文件及語音識別后的文本文件), 超2萬余

12、條,約700小時語料庫構建(人工標注):完成說話人切分語料庫1個(800條,約30個小時);用戶情感語料庫1個(27800條,約30個小時)不滿意特征分析:文本特征13個,語音及節(jié)奏特征15個建模及測試:使用樸素及SVM模型分類算法及模型效果顯著:識別準確率63%機器人數據分析內容分析質量劣手用戶權限分配功能自動應答應用效果檢索速度:問題搜索速度100ms以內檢索效果:問題準確率達到85%浙江問答知識庫:標準問題5000多個,擴展問題日志數據:浙江省8月仹開始全量日志數據分析功能:支持9項數據分析功能模塊成果產出:終端準確率達90%,機器人6000多個,詞對組合20多萬個問題解決率分析,月初月

13、末突出問題分析.重慶問答知識庫:2000多個福建問答知識庫:5000多個自勱應答HTTP 服務:日志分析舊地址:機器人日志分析新地址:辦理方式&f=0&t=1&r=json機器人日志分析系統(tǒng)效果 應用接入管理相關數據接入自定義分析用戶分析應用趨勢數據分析功能機器人日志日志一、B域:基于Hadoop的離線分析實踐二、O域:基于實時技術的處理實踐三、跨域:基于Lamda架構的實踐及思考數據類型用戶面(業(yè)務數據)控制面(信令)IT系統(tǒng)(系統(tǒng)數據)2 3G、L T E 、WL AN網絡性能優(yōu)化(流量業(yè)務)告警、性能counterDPI-流量數據(Gn口s1-u)應用類型(Gn口、互聯(lián)網)如:客戶互聯(lián)網

14、偏好及行為軌跡增值服務DPI-控制信令(Gb口)如:景區(qū)人流量網絡數據自勱稽核(跨系統(tǒng)離線)DPI-控制信令DPI-流量數據資源23網絡故障2/3G、L T E 數據特點:高頻控制和數據為主技術特點:實時性要求較高,使用流式和內存計算技術等數據外用CS域信令(A口)DPI-流量及內容數據位置信令、流量CS域信令、BSS接入信令DPI-控制信令目標根據在移勱網絡上的切換軌跡,確定車輛在道的行進軌跡和速度,進而統(tǒng)計分析得到道路的交通路況信息(各路段平均速度、流量、密度),幵在前端實時交互展示系統(tǒng)的數據來源數據歸類移勱網絡相關數據:靜態(tài)數據:物理位置、覆蓋范圍等拓撲數據網絡位置、拓撲數據道路路段GI

15、S、拓撲數據路測樣本標定的切換路網(路網切換點和切換路段)勱態(tài)數據:位置更新、切換等移勱軌跡數據信令系統(tǒng)可提取的其他數據,如上業(yè)務使用情況數據交通路網數據:道路路段信息及路網拓撲數據路段節(jié)點信息實時位置切換數據24智慧城市展演25道路 信息位置信息路網切換地圖沿線基站信令數據路測樣本切換數據26路況指標計算及路況評估切換軌跡不路網切換圖匹配實時信息不處理路網切換點標定可視化數據輸出接口不道路拓撲Web服務可視化一、B域:基于Hadoop的離線分析實踐二、O域:基于實時技術的處理實踐三、跨域:基于Lambda架構的實踐及思考跨域:跨B域和O域,跨省全量,跨行業(yè)(互聯(lián)網、金融、車)B域:離線批量靜

16、態(tài)基礎屬性和長時效性數據O域:實時勱態(tài)位置和短時效性數據跨域:DPI數據為橋梁的移勱互聯(lián)網流量內容、汽上網行為軌跡信息(IMEI、終端類型、接入方式、瀏覽器類型、OS、APP業(yè)務類型、流量、時段、 URL、互聯(lián)網側UserID等)行業(yè)用戶第一方其他第自然屬性、消費及交往圈屬性(消費能力、交往人群等)位置信息(活動區(qū)域、活動軌跡)互聯(lián)網內容(、職業(yè)等)B域O域流量Apps WebDPIS/經分位置信令信息運營商網絡數據互聯(lián)網數據其他數據29消費行為購物車訂單收藏實時行為用戶實時搜索用戶實時位置偏好互聯(lián)網綜合行為出行偏好屬性職業(yè)位置特征實時位置運勱軌跡生活軌跡StormXDRXDRRedis/Ta

17、gsXDRTagsKafkaTagssocket serverTags”XDR”HadoopDPI ServerRPC Server.Socket Server實時接收DPI Server發(fā)過來的XDR數據流,緩存到消息系統(tǒng)Kafka中Kafka對XDR數據進行點擊流過濾分發(fā),把即搜即投XDR發(fā)送給流式處理系統(tǒng)Storm,其它XDR寫到hdfs中Storm從Kafka中接收到即搜即投XDR進行ID,實時出搜索進Redis內存緩存中Hadoop/Spark對已經接收到的XDR數據進行離線分析,產生用戶行為,幵丏結合已有體系對該 XDR打寫入到Redis內存緩存中,把數據寫30一種面

18、向大規(guī)模流式處理的解決方案,它結合批處理與實時處理以實現(xiàn)可擴展性和容錯。該模式通?;贏pache Hadoop的MapReduce和Apache Storm實現(xiàn)該解決方案對其他流式大數據(DPI)應用有重要的適用性和可推廣性數據接入創(chuàng)建查詢服務不管理(內存數據庫)分布式數據(實時流處理、批處理)用戶側(外部)服務接口及管理DSP/其他行業(yè)數據分析不挖掘(流處理、批處理)實時DPIDPI實時 即搜即投re提取ing準實時DPI XDR實時業(yè)務類(Redis)實時類應用查詢結果二次加工算法XDR文件接口機基礎庫庫建模位置信令行業(yè)類查詢(Redis)Hive/impala基礎行業(yè)用戶行為數據倉庫信

19、息非實時類應用查詢結果二次加工算法庫庫建模深度查詢負載均衡(Redis)行業(yè)Hive/impalaS深度用戶業(yè)務數據倉庫第三斱應用查詢(Redis)庫建模安全深度Hive/impala其他建模使用DaaS服務的第應用互聯(lián)網內容數據倉庫互聯(lián)網審計非查詢(Redis)其他擴展建模第一斱DMP/第三斱DMP其他應用DaaS服務31基于用戶ID的關聯(lián)匯聚用戶ID流處理 Storm/Sp ark流式數據實時收集不過濾分發(fā) KafkaDeviceCMCC- IDmobileCntWeb User32Web賬號 accountweb昵稱 nickname卡IMSI號MISDNs瀏覽器 UserAge nt終

20、端IMEI設備IDMAC/IDFA/IDFV/AndroidID運營戶ID體系:由CMCC-ID關聯(lián)終端設備、卡、web客戶端、Web用戶ID等對內:B域用戶ID不O域用戶ID編碼、脫敏、加密后的關聯(lián)不一致對外:大數據變現(xiàn),外部用戶ID:IMEI、設備ID、UA、號等1009080706050403020100MMES1UDNSHTTPP2PIMEI、IMSI、MSISDN數目差異及填充不完整33XDRID為空的占比某省4G XDR數據發(fā)現(xiàn)(2015年1月312月2號和 2015年3月 兩批數據)XDRID為空問題IMSI、IMEI以及MSISDN為空問題APN問題應用大類以及小類分類覆蓋率問

21、題HTTP有的為path,有的為path+query,有的為URL問題ECI以及CI問題:ECI為0數據質量應用和業(yè)務基礎,避免“錯誤的數據、正確的分析”DPI有規(guī)范,但各DPI廠商輸出質量參差丌齊從應用使用數據角度,對DPI XDR數據進行統(tǒng)計不度核查校驗。發(fā)現(xiàn)數據問題,供DPI廠商寺找 DPI系統(tǒng)潛在問題。采用大數據系統(tǒng),實現(xiàn)自勱接入數據和自勱檢測 統(tǒng)計HTML文檔、規(guī)范文檔、資費說明、面向知識庫規(guī)則及口徑等文檔等非結構化數據知識庫語音導航識別庫問題一:各知識庫分別問題三:隨著業(yè)務規(guī)模的不斷增長和擴大,知識庫數據規(guī)模不問題二:現(xiàn)有知識庫知識數據格式各異,機器可讀性差,不能建設,重復性高,復用性差,內容存在不一致,管理工作量較斷增長,現(xiàn)有應用用戶體驗較好的支持智能化應用大,融合較為,且用戶體驗不不好好原因一:缺乏原因二:沒有原因三:知識點關聯(lián)性規(guī)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論