大數(shù)據(jù)技術發(fā)展趨勢及燈塔大數(shù)據(jù)行業(yè)應用平臺_第1頁
大數(shù)據(jù)技術發(fā)展趨勢及燈塔大數(shù)據(jù)行業(yè)應用平臺_第2頁
大數(shù)據(jù)技術發(fā)展趨勢及燈塔大數(shù)據(jù)行業(yè)應用平臺_第3頁
大數(shù)據(jù)技術發(fā)展趨勢及燈塔大數(shù)據(jù)行業(yè)應用平臺_第4頁
大數(shù)據(jù)技術發(fā)展趨勢及燈塔大數(shù)據(jù)行業(yè)應用平臺_第5頁
已閱讀5頁,還剩7頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、大數(shù)據(jù)技術發(fā)展趨勢及燈塔大數(shù)據(jù)行業(yè)應用平臺摘要:指由大數(shù)據(jù)發(fā)展的趨勢:混合數(shù)據(jù)存儲是大數(shù)據(jù)技術的基礎;融合數(shù)據(jù)庫架構(gòu)是大數(shù)據(jù)發(fā)展的趨勢;異構(gòu)數(shù)據(jù)關聯(lián)是大數(shù)據(jù)平臺的關鍵;行業(yè)知識庫是產(chǎn)業(yè)互聯(lián)網(wǎng)應用發(fā)展的要素;深度標簽是大數(shù)據(jù)挖掘的核心技術之一。介紹了中國電信燈塔大數(shù)據(jù)行業(yè)應用平臺的架構(gòu),及所采用的關鍵技術和行業(yè)應用,認為該平臺的使用可以充分發(fā)揮運營商數(shù)據(jù)與外部數(shù)據(jù)相結(jié)合的優(yōu)勢,加速產(chǎn)業(yè)升級和商業(yè)模式創(chuàng)新。關鍵詞:大數(shù)據(jù);趨勢;燈塔;應用Abstract:Inthispaper,trendsinbigdatatechnologyarediscussed.Mixeddatastorageisthef

2、oundationofbigdatatechnology;databaseschemaintegrationisthetrendofthedevelopmentofbigdata;heterogeneousdataassociationiskeytobigdataplatform;industryknowledgedatabaseisthekeyelementsoftheapplicationanddevelopmentoftheInternetindustry;depthlabelsisoneofthecoretechnologiesofdatamining.Then,theDengtabi

3、gdataindustryapplicationplatformofChinaTelecomisintroduced.Thisplatformcanbefullycombinedwithoperatordataandexternaldatainordertoaccelerateindustrialupgradingandinnovationofbusinessmodel.bigdata;trend;Dengta;application大數(shù)據(jù)是信息時代技術創(chuàng)新的產(chǎn)物,大數(shù)據(jù)與云計算、物聯(lián)網(wǎng)等新技術相結(jié)合,正日益深刻地改變著人們的生產(chǎn)生活方式。大數(shù)據(jù)產(chǎn)業(yè)的生現(xiàn)和發(fā)展是現(xiàn)代信息技術與互聯(lián)網(wǎng)時代海量信

4、息發(fā)展到一定階段的必然結(jié)果,必將對當今社會的信息技術、商業(yè)模式和相關的法律法規(guī)產(chǎn)生深刻影響。大數(shù)據(jù)經(jīng)歷了基礎理論研究和產(chǎn)業(yè)應用探索,與行業(yè)應用結(jié)合已成為大數(shù)據(jù)發(fā)展的新機遇。1大數(shù)據(jù)技術發(fā)展趨勢(1)混合數(shù)據(jù)存儲是大數(shù)據(jù)技術的基礎在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)量達到了PB級甚至EB級。大數(shù)據(jù)存儲一方面需要提供超大容量的存儲空間,另一方面需要支持對海量數(shù)據(jù)的智能檢索和分析。為了兼容各種類型的大數(shù)據(jù)應用,大數(shù)據(jù)存儲需要提供混合的數(shù)據(jù)存儲模型,支持文件、對象、鍵值、塊等多種訪問接口,作為大數(shù)據(jù)技術的基礎1-2。(2)融合數(shù)據(jù)庫架構(gòu)是大數(shù)據(jù)發(fā)展的趨勢隨著大數(shù)據(jù)業(yè)務的發(fā)展,除了面向強關系型的結(jié)構(gòu)化查詢語言(SQL)

5、數(shù)據(jù)庫之外,面向各類應用的接口靈活、功能豐富且高效的NoSQL數(shù)據(jù)庫也得到了蓬勃發(fā)展。在應用類型多樣、數(shù)據(jù)種類繁多的大數(shù)據(jù)平臺中,融合關系型數(shù)據(jù)庫、列數(shù)據(jù)庫、內(nèi)存數(shù)據(jù)庫、圖數(shù)據(jù)庫等多種數(shù)據(jù)庫的混合數(shù)據(jù)庫架構(gòu),能夠滿足多種場景下的數(shù)據(jù)處理需求,是大數(shù)據(jù)發(fā)展的必然趨勢。(3)異構(gòu)數(shù)據(jù)關聯(lián)是大數(shù)據(jù)平臺的關鍵當前,各行業(yè)、企業(yè)、系統(tǒng)、平臺都累積了海量的數(shù)據(jù),這些數(shù)據(jù)結(jié)構(gòu)不同且相對獨立,在沒有建立起關聯(lián)關系的情況下,難以展現(xiàn)由數(shù)據(jù)的優(yōu)勢。將這些多源異構(gòu)數(shù)據(jù)進行關聯(lián)和融合,挖掘數(shù)據(jù)之間的相關性,能夠為數(shù)據(jù)分析奠定堅實的基礎,最大限度地發(fā)揮數(shù)據(jù)價值,是大數(shù)據(jù)平臺的關鍵所在。(4)行業(yè)知識庫是產(chǎn)業(yè)互聯(lián)網(wǎng)發(fā)展的

6、要素隨著“互聯(lián)網(wǎng)+”戰(zhàn)略的實施,各產(chǎn)業(yè)尤其是傳統(tǒng)產(chǎn)業(yè),紛紛進行互聯(lián)網(wǎng)化轉(zhuǎn)型。在“互聯(lián)網(wǎng)+”的浪潮下,面向多個行業(yè),深挖行業(yè)知識詳情,構(gòu)建行業(yè)知識庫,形成完整的行業(yè)知識體系,能有效推動數(shù)據(jù)應用與價值落地,是產(chǎn)業(yè)互聯(lián)網(wǎng)發(fā)展的關鍵。(5)深度標簽是大數(shù)據(jù)挖掘的核心技術之一數(shù)據(jù)挖掘越來越多地應用到各個行業(yè)應用領域,使用數(shù)據(jù)挖掘技術而打造用戶深度標簽,已經(jīng)逐漸成為大數(shù)據(jù)挖掘的熱點。通過針對大數(shù)據(jù)場景的數(shù)據(jù)挖掘,深入分析用戶行為,打造多層次、多角度的用戶深度標簽。深度標簽是大數(shù)據(jù)挖掘的核心技術之一,它使得大數(shù)據(jù)應用更加精準,業(yè)務能夠更加貼近用戶,更好地滿足用戶的需求3。2燈塔大數(shù)據(jù)行業(yè)應用平臺總體架構(gòu)在大

7、數(shù)據(jù)的發(fā)展浪潮下,中國電信股份有限公司北京研究院通過大數(shù)據(jù)技術創(chuàng)新,自主研發(fā)了業(yè)內(nèi)領先的燈塔大數(shù)據(jù)行業(yè)應用平臺。燈塔大數(shù)據(jù)行業(yè)應用平臺深入研究大數(shù)據(jù)平臺技術和應用技術,為滿足頂層大數(shù)據(jù)應用需求,自主開發(fā)大數(shù)據(jù)能力,實現(xiàn)電信數(shù)據(jù)與外部數(shù)據(jù)相融合的大數(shù)據(jù)分析挖掘,打造了ID關聯(lián)模型、用戶深度標簽、行業(yè)知識庫、分布式爬蟲、數(shù)據(jù)可視化等平臺即服務(Paa9層能力,并以標準化應用程序編程接口(API)的形式支持頂層數(shù)據(jù)的相關應用,打造了市場研究、泛義征信、地理洞察等三大領域的6款大數(shù)據(jù)應用。燈塔大數(shù)據(jù)行業(yè)應用平臺技術架構(gòu)如圖1所示,其底層平臺基于開源技術搭建,融合了離線批處理、內(nèi)存計算、流計算等多種計算

8、模型,以及關系型數(shù)據(jù)庫、列數(shù)據(jù)庫、內(nèi)存數(shù)據(jù)庫、圖數(shù)據(jù)庫等多種數(shù)據(jù)庫模型,向上提供計算和存儲能力;在大數(shù)據(jù)開放能力層,研發(fā)了ID圖譜、用戶標簽等多種大數(shù)據(jù)分析挖掘技術,并結(jié)合第三方的地理信息系統(tǒng)(GIS)等能力,面向多個行業(yè)領域,向應用層以API的形式提供多種數(shù)據(jù)服務。3燈塔大數(shù)據(jù)行業(yè)應用平臺關鍵技術燈塔大數(shù)據(jù)行業(yè)應用平臺主要研發(fā)了混合數(shù)據(jù)庫、ID關聯(lián)模型、用戶深度標簽、行業(yè)知識庫、統(tǒng)一數(shù)據(jù)采集與存儲等幾項關鍵技術。3.1混合數(shù)據(jù)庫融合關系型數(shù)據(jù)庫、列數(shù)據(jù)庫、內(nèi)存數(shù)據(jù)庫、圖數(shù)據(jù)庫,并提由面向不同存儲過程和計算需求的混合數(shù)據(jù)庫模型,可以滿足多種場景下的數(shù)據(jù)處理需求,解決單一數(shù)據(jù)庫模型無法滿足大規(guī)模

9、數(shù)據(jù)訓練、高頻高實時性計算、網(wǎng)狀結(jié)構(gòu)計算等不同場景下的數(shù)據(jù)處理問題。如圖2所示,海量數(shù)據(jù)計算使用非關系型數(shù)據(jù)庫(NoSQD來支持;網(wǎng)狀結(jié)構(gòu)數(shù)據(jù)的機器學習訓練依靠圖數(shù)據(jù)庫(Neo4j)來支持;高頻高實時性計算對接內(nèi)存數(shù)據(jù)庫(Redis);小規(guī)模頂層數(shù)據(jù)查詢與展現(xiàn)對接關系型數(shù)據(jù)庫(SQD。具體來說,包含4點內(nèi)容:(1)能夠?qū)崿F(xiàn)有一定實時性需求的、傳統(tǒng)千萬級及以下的數(shù)據(jù)查詢與展現(xiàn)業(yè)務,并基于傳統(tǒng)關系型數(shù)據(jù)庫MySQL來構(gòu)建。通過加載數(shù)據(jù)預讀取算法,MySQL的單機處理能力可以達到秒級訪問5000萬條多維數(shù)據(jù)的水平,能夠滿足一般的數(shù)據(jù)查詢業(yè)務需求。(2)對于千萬級以上的數(shù)據(jù)查詢業(yè)務,已超生單臺MySQ

10、L的支持水平,更適宜轉(zhuǎn)化成離線查詢業(yè)務,直接使用非關系型數(shù)據(jù)庫HBase來支持。此時數(shù)據(jù)查詢的范圍可擴展至數(shù)十億甚至上百億,系統(tǒng)仍可平穩(wěn)輸由查詢結(jié)果,前提是付由分布式離線計算的延時代價。(3)對于在深度包檢測技術(DPI)數(shù)據(jù)的K-V查詢過程中需同步完成標簽數(shù)據(jù)在燈塔本地服務器的ETL工作的場景,任何傳統(tǒng)磁盤輸入輸由(IO)基本都無法支持該高頻數(shù)據(jù)存取操作,則借助內(nèi)存數(shù)據(jù)庫Redis來完成。Redis可在典型的單臺計算資源下支持100毫秒級的數(shù)據(jù)ETL操作,并且可以與K-V查詢進行無縫銜接,輕松應對每日2億條標簽數(shù)據(jù)入庫。(4)對于圖狀數(shù)據(jù)結(jié)構(gòu),如燈塔平臺中典型的ID知識體系,則適合從邊和節(jié)點

11、的角度進行數(shù)據(jù)存儲、表達和計算,無論行數(shù)據(jù)庫還是列數(shù)據(jù)庫都不再適合,因此采用圖數(shù)據(jù)庫Neo4j來支持。目前,燈塔大數(shù)據(jù)行業(yè)應用平臺支持1000萬級多維數(shù)據(jù)的秒級查詢展現(xiàn),10億級多維數(shù)據(jù)的24h內(nèi)基礎演算,100毫秒級的數(shù)據(jù)流處理,并可秒級完成10億級邊、1000萬級節(jié)點的子圖查詢運算。3.2 ID關聯(lián)模型基于圖計算技術構(gòu)建ID關聯(lián)模型,采用圖數(shù)據(jù)庫進行數(shù)據(jù)存儲和模型計算,實現(xiàn)DPI數(shù)據(jù)內(nèi)的多種用戶ID關聯(lián),解決了電信數(shù)據(jù)與外部數(shù)據(jù)有效關聯(lián)和拼接的問題。ID關聯(lián)模型建立設備標識一場景的圖模型,通過圖數(shù)據(jù)庫、圖計算得到隱性變量用戶唯一標識,打通用戶各個設備,實現(xiàn)全面的用戶畫像。ID關聯(lián)模型對內(nèi)實

12、現(xiàn)數(shù)據(jù)融合,將DPI數(shù)據(jù)內(nèi)的多種用戶ID關聯(lián),實現(xiàn)多場景、多屏幕信息打通,從而實現(xiàn)更全面和精準的用戶描述;對外實現(xiàn)數(shù)據(jù)開放,借助從DPI中挖掘由的外部ID,實現(xiàn)運營商數(shù)據(jù)與外部數(shù)據(jù)的打通,從而打破了電信數(shù)據(jù)開放的壁壘。目前,燈塔大數(shù)據(jù)行業(yè)應用平臺已積累超過100類ID數(shù)據(jù),ID總量超5000萬。3.3 用戶深度標簽根據(jù)用戶上網(wǎng)行為、使用機器學習和模式識別等算法,如樹狀增強型樸素貝葉斯(TAN)分類算法等,推斷用戶的性別、年齡等基礎人口屬性,并打造消費偏好、消費能力等其他深度標簽,用于支持用戶行為分析的大數(shù)據(jù)應用。目前,燈塔大數(shù)據(jù)行業(yè)應用平臺已構(gòu)建超過10個行業(yè)的總計6000余類用戶深度標簽。3

13、.4 行業(yè)知識庫通過整合數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)形式化、數(shù)據(jù)表達等環(huán)節(jié),打造完善的行業(yè)知識庫,為運營商網(wǎng)絡大數(shù)據(jù)的解析提供必要的支持。其中,行業(yè)知識庫的構(gòu)建包含以下環(huán)節(jié):(1)基于分布式爬蟲進行數(shù)據(jù)采集。如圖3所示,分布式爬蟲DTSpider基于開源技術WebMagic與內(nèi)存數(shù)據(jù)庫技術Redis而研發(fā),搭建在云主機上,提供行業(yè)知識庫數(shù)據(jù)采集解決方案。(2)面向垂直行業(yè)構(gòu)建知識體系。如圖4所示,行業(yè)知識庫面向如電商、新聞、影視等不同的垂直行業(yè),分別構(gòu)建樹狀知識體系,能夠直接對接標簽能力應用。例如,電商行業(yè)的樹狀知識體系,可按照商品類別進行構(gòu)建,如圖書、服飾、運動健康等。(3)深挖垂直行業(yè)知識詳情

14、?;趶捻撁孀ト〉臉祟}和正文,經(jīng)自然語言處理得到知識詳情,例如電商庫存量單位(SKU)名稱、價格、參數(shù)、評論等。目前,燈塔大數(shù)據(jù)行業(yè)應用平臺的行業(yè)知識庫整體字典規(guī)模超過2億,其中電商和視頻分別占1.2億和6000萬。3.5 統(tǒng)一數(shù)據(jù)采集與存儲面向電信管道數(shù)據(jù)、互聯(lián)網(wǎng)公開數(shù)據(jù)和企業(yè)自有數(shù)據(jù)等多種數(shù)據(jù)類型,分別構(gòu)建數(shù)據(jù)采集能力,并定義了統(tǒng)一的數(shù)據(jù)采集接口與存儲接口,解決了多源異構(gòu)數(shù)據(jù)的采集與存儲的相關問題。(1)電信網(wǎng)絡大數(shù)據(jù)采集電信網(wǎng)絡大數(shù)據(jù)采集包含以下環(huán)節(jié):DPI分光采集、數(shù)據(jù)清洗、數(shù)據(jù)脫敏、規(guī)則匹配預處理、業(yè)務數(shù)據(jù)傳輸、數(shù)據(jù)入庫等環(huán)節(jié),如圖5所示。在基層分局進行一次采集與清洗,在業(yè)務平臺進行

15、二次采集與存儲。具體來說,在基層分局分光設備采集(一次采集)得到固網(wǎng)/移動DPI數(shù)據(jù),然后采用通用清洗規(guī)則與白名單規(guī)則相結(jié)合的方式,過濾掉DPI數(shù)據(jù)中無效及重復請求,并保證各類業(yè)務的數(shù)據(jù)需求。經(jīng)過規(guī)則匹配預處理,從DPI中抽離并編碼得到業(yè)務所需的數(shù)據(jù),以標簽形式傳輸(二次采集)并入庫至業(yè)務平臺,提供給PaaS層的生成數(shù)據(jù)能力,最終對接軟件即服務(SaaS)層的數(shù)據(jù)應用。根據(jù)生產(chǎn)平臺數(shù)據(jù)接口差異以及頂層業(yè)務類型差異,電信網(wǎng)絡大數(shù)據(jù)的二次采集可采用實時或離線模式。如圖6所示,實時流處理模式是通過K-V查詢接口,以流處理模式,逐條傳輸、ETL融合并入庫至業(yè)務平臺。離線批處理模式是通過安全文件傳送協(xié)議

16、(SFTP傳輸接口,將數(shù)據(jù)離線批量采集至業(yè)務平臺緩存中,再進行批量抽取、加載、轉(zhuǎn)換(ETD、融合并入庫至業(yè)務平臺。(2)互聯(lián)網(wǎng)大數(shù)據(jù)采集互聯(lián)網(wǎng)大數(shù)據(jù)采集通過分布式爬蟲DTSpider進行。DTSpider支持節(jié)點動態(tài)接入,有效提升爬取效率,避免IP封鎖,具有良好的穩(wěn)定性和可擴展性。(3)企業(yè)自有數(shù)據(jù)接入基于ID圖譜,可對企業(yè)的客戶管理系統(tǒng)(CRM)數(shù)據(jù)進行導入與融合。訂單及其他業(yè)務數(shù)據(jù),也可導入并可對接燈塔平臺主體數(shù)據(jù),支持大數(shù)據(jù)分析。目前,燈塔大數(shù)據(jù)行業(yè)應用平臺已采集并匯聚電信數(shù)據(jù)600多億條,外部數(shù)據(jù)5億條。4燈塔大數(shù)據(jù)的行業(yè)應用在混合數(shù)據(jù)庫、ID關聯(lián)模型、用戶深度標簽、行業(yè)知識庫、統(tǒng)一數(shù)

17、據(jù)采集與存儲等幾項關鍵技術的支持之上,燈塔大數(shù)據(jù)行業(yè)應用平臺打造了市場研究、泛義征信、地理洞察等三大領域的6款大數(shù)據(jù)應用,實現(xiàn)了數(shù)據(jù)產(chǎn)品及服務的規(guī)范化、流程化,探索由大數(shù)據(jù)價值落地的商業(yè)模式。其中,在市場研究領域,基于燈塔平臺行業(yè)知識庫、深度標簽等數(shù)據(jù)能力,我們研發(fā)了零售研究、消費者研究、決策路徑分析等方面的大數(shù)據(jù)應用;在泛義征信領域,基于燈塔平臺ID圖譜、深度標簽等數(shù)據(jù)能力,我們研發(fā)了用戶畫像等技術,應用于人力資源、企業(yè)征信等場合;在地理洞察領域,基于燈塔平臺ID圖譜、深度標簽等數(shù)據(jù)能力,結(jié)合第三方GIS能力,我們打造了人群流量監(jiān)測、遷徙分析、店鋪選址等應用。(1)燈塔在線零研燈塔在線零研基

18、于電信管道數(shù)據(jù),打造電商分析能力,提供在線零售研究業(yè)務,數(shù)據(jù)更新頻率最快可達T+1,支持聯(lián)機分析處理(OLA?查詢,分析維度多達20個。(2)燈塔消費者洞察與合作伙伴共同研發(fā)的燈塔消費者洞察應用,可以實現(xiàn)電商內(nèi)容監(jiān)測、論壇內(nèi)容監(jiān)測、用戶多維畫像等功能,支持基礎人口屬性和互聯(lián)網(wǎng)行為畫像。(3)燈塔大數(shù)據(jù)招聘與在線人力資源行業(yè)相結(jié)合,提供求職人員的個人畫像新型簡歷,包括量化的行為偏好、性格特征、個人優(yōu)勢數(shù)據(jù),覆蓋消費能力、學習指數(shù)、作息指數(shù)、勤奮程度、運動指數(shù)等多種維度,從而基于用戶的互聯(lián)網(wǎng)行為為企業(yè)提供客觀的招聘參考(4)燈塔背景調(diào)查將網(wǎng)絡行為報告與第三方個人數(shù)據(jù)相結(jié)合,研發(fā)并上線新型在線背景調(diào)查產(chǎn)品,打造更加高效、完善的背景調(diào)查體系。(5)燈塔在線人口普查燈塔在線人口普查基于地理位置及互聯(lián)網(wǎng)行為數(shù)據(jù),為客戶提供基礎人口普查、人口遷徙分析和互聯(lián)網(wǎng)偏好分析等服務。(6)燈塔慧選址燈塔慧選址結(jié)合燈塔標簽數(shù)據(jù)和線下位置數(shù)據(jù),能夠為客戶提供在線選址、運營分析等功能。除了以上6種應用之外,燈塔大數(shù)據(jù)行業(yè)應用平臺還緊跟市場趨勢及熱點事件,產(chǎn)由

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論