版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
大數據平臺架構及建設思路
2023/6/19中國移動通信集團設計院有限公司本文檔共20頁;當前第1頁;編輯于星期一\15點31分三、中國移動大數據平臺建設思路二、主流技術比較一、大數據介紹目錄本文檔共20頁;當前第2頁;編輯于星期一\15點31分什么是大數據“大數據”是指其大小超出了典型數據庫軟件的采集、存儲、管理和分析等能力的數據集。目前,大數據的一般范圍是從幾個TB到數個PB?!溈襄a無法在一定時間內用常規(guī)軟件工具對其內容進行抓取、管理和處理的大量而復雜的數據集合。——維基百科數量大、獲取速度快或形態(tài)多樣的數據,難以用傳統關系型數據分析方法進行有效分析,或者需要大規(guī)模的水平擴展才能高效處理。——美國國家標準技術研究院(NIST)體量大、快速和多樣化的信息資產,需用高效率和創(chuàng)新型的信息技術加以處理,以提高發(fā)現洞察、做出決策和優(yōu)化流程的能力。——Gartner公司本文檔共20頁;當前第3頁;編輯于星期一\15點31分運營商對大數據的理解
網絡數據、用戶數據、應用數據的匯聚構成了我們的“大數據”。這些結構化、非結構化的數據的處理和建模形成對用戶、服務、資源、終端等對象的洞察。這些洞察與市場營銷、網絡運維等業(yè)務流程的銜接將會給公司帶來新的價值。大數據具備Volume海量、Variety多樣、Velocity快速、Value價值的特點。據Ericsson預測,到2018年,每個手機終端每個月將產生2G的數據。(EricssonMobilityReport,2013年)改善市場運營效率結構化數據處理非結構化數據處理網絡數據?話單XDR?性能監(jiān)測?故障監(jiān)測?網絡資源用戶數據?HSS信息?BSS數據?OSS數據?終端應用數據?內容DPI?Web?Socialmedia?APPS洞察:用戶/服務/資源/終端/......提升網絡運維效率改善客戶滿意度創(chuàng)新商業(yè)模式數據采集建模分析運營改進傳統商業(yè)智能大數據1大數據2批處理,事先定義的查詢和模型非結構化的數據,包括互聯網日志、web文本信息,非實時或準實時流處理,實時的內容智能感知,策略執(zhí)行,連續(xù)更新價值實時性采集、建模和應用數據處理實時性與價值呈正比本文檔共20頁;當前第4頁;編輯于星期一\15點31分中國移動數據分布B域B域數據以客戶關系、用戶行為、產品信息等為主,支撐客戶經營和產品營銷等O域O域數據以設備數據、告警信息和性能信息等為主,支撐網絡監(jiān)控、網絡優(yōu)化、用戶投訴處理等M域M域數據以財務、人力資源、供應鏈和辦公信息等為主,支撐企業(yè)管理、企業(yè)辦公信息化等DPI數據域DPI數據域以上網日志、內容構成、用戶軌跡、網絡信令等為主,可支撐流量經營、網絡運維和增值服務等業(yè)務平臺九大業(yè)務基地:基地數據以用戶信息、用戶行為信息等為主,可支撐個性化推薦、優(yōu)化產品和服務等。WAP/短彩信:存儲網絡日志,可支撐定位網絡及終端問題。本文檔共20頁;當前第5頁;編輯于星期一\15點31分運營商大數據運用對內:客戶上網數據處理、網頁爬取和網頁分類、分析挖掘客戶上網行為詳單查詢、上網日志查詢流量分析、客戶視圖、精準營銷網絡運維優(yōu)化對外:與航空公司合作,建立乘機客戶識別模型,提供大數據挖掘、客戶發(fā)展全流程大數據信息服務,提供針對性的營銷方案與交通運輸部、省高速公路合作,開展“基于移動大數據分析在交通行業(yè)中的應用”研究項目利用通信信令實時分析景區(qū)人流量,結合游客的行為數據挖掘,為旅游管理部門、景區(qū)提供數據的決策參考以客戶授權為依據,發(fā)揮移動客戶實名數據優(yōu)勢,為互聯網金融提供客戶信息驗真服務與外部客戶合作在手機沖浪平臺實施移動廣告精準投放目前主要的電信運營商都已積極探索開發(fā)其內部大數據資源。但從目前的應用發(fā)展看,電信運營商的大數據仍主要用于內部服務的,如支持內部的客戶流失分析、營銷分析和網絡優(yōu)化分析等,對外的應用模式尚未成型,部分電信運營商開始嘗試通過給第三方提供數據產品和服務,進行數據的增值。本文檔共20頁;當前第6頁;編輯于星期一\15點31分三、中國移動大數據平臺建設思路二、主流技術比較一、大數據介紹目錄本文檔共20頁;當前第7頁;編輯于星期一\15點31分大數據具備數據量大、數據類型多、數據處理速度要求高和價值密度低的特點,傳統分析系統架構(RDBMS+小型機+高端陣列模式)下,傳統數據庫無法支撐海量數據(如100TB以上,性能下降)、非結構化數據,現有IOE的架構無法線性擴展且成本高昂。大數據處理技術大數據對傳統數據處理技術體系提出挑戰(zhàn)大數據處理技術OldSQL:傳統關系型數據庫NewSQL:新型MPP數據庫,關系型數據庫NoSQL:泛指非關系型的數據庫Hadoop:對大量數據進行分布式存儲和處理的軟件框架本文檔共20頁;當前第8頁;編輯于星期一\15點31分大數據三大技術比較面對海量種類繁多的數據進行實時數據分析和離線數據分析,僅有傳統的數據庫技術已不適用,需要針對不同數據場景選擇不同技術手段。MPP數據庫:適合結構化數據的深度分析、復雜查詢以及多變的自助分析類應用、數據集市等。Hadoop:適合海量數據存儲查詢(詳單存儲和查詢)、批量數據ETL、非結構化數據分析(日志分析、文本分析)等。傳統數據庫:在復雜關聯、匯總、事務處理方面能力強,適合數據量小、高可靠、數據價值密度高的應用。本文檔共20頁;當前第9頁;編輯于星期一\15點31分中國移動大數據目標架構數據處理層(數據存儲、數據計算、數據共享)基礎數據資源池(HADOOP)Map/Reduce2HIVEHbaseHDFS分析數據資源池(MPP)分布式關系數據倉庫SPARKSharkYARN統一調度流處理資源池分布式內存數據庫實時行為識別復雜事件處理框架實時模型計算任務調度資源管理統一作業(yè)數據管理元數據管理數據質量管理經分數據模型計算網絡數據模型計算管理分析模型計算…數據調度Hadoop平臺軟件部署于Hadoop大數據處理集群,實現海量非結構化數據存儲與處理以及結構化數據的垂直匯總。在當前數據種類繁多、數據處理復雜的情形下,不適合采用一種的單一的技術解決全部問題,大數據平臺據需要采用Hadoop資源池、MPP數據庫、流處理資源池混搭大數據技術架構數據平臺基于MPP、Hadoop、流處理等云計算、大數據技術流數據與復雜事件處理(CEP)規(guī)則引擎平臺用于對數據流進行實時處理,實現對高速數據流的接入與實時處理,實時探測關鍵事件MPP數據庫用于結構化數據的關聯分析。一體機資源池(DW)OLAP應用DW數據庫用于分析處理統計分析類OLAP應用本文檔共20頁;當前第10頁;編輯于星期一\15點31分三、中國移動大數據平臺建設思路二、主流技術比較一、大數據介紹目錄本文檔共20頁;當前第11頁;編輯于星期一\15點31分建設思路由易到難,穩(wěn)步推進:初期以數據整合為主,逐步面向內外提供數據服務。管控架構,同步推進:同步推動數據標準化和組織機構變革,為大數據共享平臺商用奠定基礎。自主掌控,能力內化:逐步培養(yǎng)自研團隊,構建研發(fā)運營一體化能力。本文檔共20頁;當前第12頁;編輯于星期一\15點31分中國移動大數據平臺架構企業(yè)級省大數據平臺的技術架構包括數據采集、數據存儲與計算層、開發(fā)框架和應用中心四層,同時包括統一運維管理為各類使用人員提供服務。在大數據技術架構中數據的存儲和計算是緊密相連的。本文檔共20頁;當前第13頁;編輯于星期一\15點31分建設重點1——與其他分析型平臺關系大數據共享平臺:全網XDR數據采集、標準化、全量存儲(1個月)全網網管數據采集、標準化、全量存儲大數據共享平臺實現負責xDR數據和網管數據的統一集中采集和預處理;提供上層應用對xDR細粒度數據的查詢響應。按應用需求進行多維度小粒度匯總、數據整合、存儲提供明細數據查詢、輕度匯總數據查詢。性能管理系統:從大數據共享平臺獲取應用所需全量小時匯總數據。數據緩存層:負責對來自于大數據共享平臺的數據進行深入處理和緩存;為應用層提供各種匯總數據存儲、處理與共享,以及綜合分析與深度挖掘。應用層:承載上層各類應用軟件和第三方應用,實現上層應用。本文檔共20頁;當前第14頁;編輯于星期一\15點31分第15頁2G3G4GWLANNetworkData
acquisitionData
parsingData
storageApplicationE1
InterfaceSignaling
ParsingDPI
ProcessingTraffic
IdentifyCDR
FusionATM
InterfaceFE/GE
InterfaceDatastorageanddataserviceforeachapplicationsystemPerformance
AnalysisBehaviorAnalysisDataOperationIndustryApplication本文檔共20頁;當前第15頁;編輯于星期一\15點31分建設重點2——制定數據治理規(guī)則規(guī)范約束構建基礎提升改進
數據評估數據盤點
數據治理制定安全流程系統間數據流數據統一視圖數據字典數據標準評估數據安全評估統一數據標準數據實體典型問題分析與改進建議強化治理組織完善數據質量數據質量評估數據治理方法數據采集
規(guī)則按照規(guī)則從數據源直接采集,避免重復采集數據。對于現有系統已采集的數據,發(fā)掘沉默數據的剩余價值。對于現有系統未采集的數據,增加采集點并發(fā)掘數據價值。采集后的數據存儲,遵照各域屬地化存儲原則,各域的數據倉庫是公共倉庫,全公司共享使用。數據應用
規(guī)則按照規(guī)則進行數據統一清洗,清洗后根據不同專業(yè)應用需求,進行數據分發(fā)和權限控制。對于數據缺失不能滿足應用需求的,要么修改數據清洗規(guī)則,要么重新采集數據。
從各域共享數據和標簽組合中,探索大數據對內對外的應用場景和未知價值。本文檔共20頁;當前第16頁;編輯于星期一\15點31分建設重點3——HADOOP服務器測算模型模型搭建:根據HDFS存儲容量能力計算,主要分為兩個方面:一是某一體量的數據在采用不同的數據處理技術時,它所需要的物理存儲容量、即磁盤裸容量的理論計算;二是針對配置一定情況下,X86服務器在承載不同的數據處理技術實體時,該X86服務器能夠提供的有效存儲容量。最終得出某一體量的數據在采用不同的數據處理技術時所需要配置的X86服務器數量=物理存儲容量÷X86服務器能夠提供的有效存儲容量。HDFS存儲能力需求計算模型序號參數名稱取值范圍取定值(TB)1原始存儲數據量TB1002副本數333索引率20%~30%30%4數據壓縮率1/2/3/4/53物理存儲總容量=[1]*[2]*(1+[3])/[4]130序號參數名稱取值范圍取定值(TB)1單碟物理容量1TB~4TB42有效存儲碟數量123劃盤損壞10%~20%20%4HDFS生成日志所占空間85單臺服務器有效存儲總容量=[1]*[2]*[3]-[4]30.4按此模型共需要130÷30.4=5臺X86服務器。本文檔共20頁;當前第17頁;編輯于星期一\15點31分1、HADOOP集群互聯帶寬需求:跨機房:點對點的帶寬≈機房間互聯帶寬/節(jié)點數Hadoop集群的NameNode節(jié)點不支持跨機房部署,DataNode節(jié)點跨機房部署時,機房間的互聯電路為關鍵電路,承載兩機房間各數據節(jié)點間通信。若互聯電路故障時,則會導致集群不可用。DNDNDNDNDNDNNameNode機房1機房2機房間的帶寬量將限制多節(jié)點間的傳輸帶寬,如以機房間電路10G、300節(jié)點計算,節(jié)點間帶寬為:10*1024/300≈34Mbps…………結論:1、HADOOP集群采用單局點部署,可保證集群正常工作,通信效率高。2、HADOOP集群采用多局點部署,為減少通信延遲,必須保證集群節(jié)點間傳輸帶寬,按本期集群228個節(jié)點測算,需要互聯鏈路300G(有保護鏈路),傳輸需要投資約1000萬元。綜合考慮,建議大數據平臺采用單局點部署。建設重點4——HADOOP集群對局址的選擇1/2本文檔共20頁;當前第18頁;編輯于星期一\15點31分2、HADOOP集群互聯延遲需求:為保證數據節(jié)點間數據
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 四川省綿陽市北川羌族自治縣2024-2025學年九年級上學期1月期末考試歷史試卷(含答案)
- 湖南省永州市道縣2024-2025學年八年級上學期期末考試物理試卷(含答案)
- 廣東省茂名市高州市2024-2025學年九年級上學期期末質量監(jiān)測道德與法治試題(含答案)
- 2025年度倉儲租賃及倉儲信息化系統建設協議3篇
- 2024前臺工作計劃范本(30篇)
- 音頻通信知識培訓課件
- 2025年度年度財務審計與合規(guī)審查合同3篇
- 2025年度廠房改造裝修與節(jié)能照明系統合同3篇
- 2024藥房員工特殊工種勞動保護及職業(yè)健康合同3篇
- 2024物業(yè)管理承包經營合同書
- Z矩陣、Y矩陣、A矩陣、S矩陣、T矩陣定義、推導及轉換公式
- 中美歐規(guī)范樁基承載力計算設計對比
- 外科洗手操作考核評分表
- 復旦大學外國留學生入學申請表
- 長安汽車發(fā)動機水溫高故障案例分析處置
- 瞬時單位線法計算洪水
- 氣力輸灰安裝施工方案
- 抗精神疾病藥物與麻醉課件
- 2022工業(yè)網關技術標準 第1部分:通用技術要求
- 經典紅歌歌譜100首-
- Linux操作系統應用(麒麟系統)PPT完整全套教學課件
評論
0/150
提交評論