理解大數(shù)據(jù)-實踐大數(shù)據(jù)_第1頁
理解大數(shù)據(jù)-實踐大數(shù)據(jù)_第2頁
理解大數(shù)據(jù)-實踐大數(shù)據(jù)_第3頁
理解大數(shù)據(jù)-實踐大數(shù)據(jù)_第4頁
理解大數(shù)據(jù)-實踐大數(shù)據(jù)_第5頁
已閱讀5頁,還剩41頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

內容,對大數(shù)據(jù)的理解xxx大數(shù)據(jù)產(chǎn)品布局和應用實踐,反對派認為,我們現(xiàn)在處在一個盲目的大數(shù)據(jù)崇拜時代,大數(shù)據(jù)產(chǎn)生的背景,數(shù)據(jù)的爆發(fā)式增長和社會化趨勢,新摩爾定律大數(shù)據(jù)已經(jīng)成為一種自然資源機器數(shù)據(jù)日益重要大數(shù)據(jù)不被利用就是成本,大數(shù)據(jù)產(chǎn)生的背景,現(xiàn)有的商業(yè)軟件難以處理大數(shù)據(jù)的規(guī)模和復雜性獲取(capture)存貯(storage)搜索(search)分享(sharing)分析(analysis)可視化(visualization),奧巴馬大數(shù)據(jù)戰(zhàn)略,2012年3月29日,白宮發(fā)布美國政府的大數(shù)據(jù)計劃通過提高從大型復雜的數(shù)字數(shù)據(jù)集中提取知識和觀點的能力,承諾幫助加快在科學與工程中的步伐,加強國家安全,并改變教學研究,大數(shù)據(jù)的4V特性,體量Volume,多樣性Variety,價值密度Value,速度Velocity,非結構化數(shù)據(jù)的超大規(guī)模和增長總數(shù)據(jù)量的8090%比結構化數(shù)據(jù)增長快10倍到50倍是傳統(tǒng)數(shù)據(jù)倉庫的10倍到50倍,大數(shù)據(jù)的異構和多樣性很多不同形式(文本、圖像、視頻、機器數(shù)據(jù))無模式或者模式不明顯不連貫的語法或句義,大量的不相關信息對未來趨勢與模式的可預測分析深度復雜分析(機器學習、人工智能Vs傳統(tǒng)商務智能(咨詢、報告等),實時分析而非批量式分析數(shù)據(jù)輸入、處理與丟棄立竿見影而非事后見效,對大數(shù)據(jù)的理解,大數(shù)據(jù)比云計算更為落地大數(shù)據(jù)不僅僅是“大”軟件是大數(shù)據(jù)的引擎大數(shù)據(jù)的應用不僅僅是精準營銷管理大數(shù)據(jù)“易”,理解大數(shù)據(jù)“難”,1、大數(shù)據(jù)比云計算更為落地,商業(yè)模式驅動,應用需求驅動,云計算本身也是大數(shù)據(jù)的一種業(yè)務模式,2、大數(shù)據(jù)不僅僅是“大”,多大?PB級,比大更重要的是數(shù)據(jù)的復雜性,有時甚至大數(shù)據(jù)中的小數(shù)據(jù)如一條微博就具有顛覆性的價值,3、軟件是大數(shù)據(jù)的引擎,和數(shù)據(jù)中心(DataCenter)一樣,軟件是大數(shù)據(jù)的驅動力,軟件改變世界,大數(shù)據(jù)生態(tài):軟件是引擎,4、大數(shù)據(jù)的應用不僅僅是精準營銷,通過用戶行為分析實現(xiàn)精準營銷是大數(shù)據(jù)的典型應用,但是大數(shù)據(jù)在各行各業(yè)特別是公共服務領域具有廣闊的應用前景,消費行業(yè),金融服務,食品安全,醫(yī)療衛(wèi)生,軍事,交通環(huán)保,電子商務,氣象,5、管理大數(shù)據(jù)“易”理解大數(shù)據(jù)“難”,雖然大數(shù)據(jù)是一個重大問題,真正的問題是讓大數(shù)據(jù)更有意義目前大數(shù)據(jù)管理多從架構和并行等方面考慮,解決高并發(fā)數(shù)據(jù)存取的性能要求及數(shù)據(jù)存儲的橫向擴展,但對非結構化數(shù)據(jù)的內容理解仍缺乏實質性的突破和進展,這是實現(xiàn)大數(shù)據(jù)資源化、知識化、普適化的核心非結構化海量信息的智能化處理:自然語言理解、多媒體內容理解、機器學習等,xxx大數(shù)據(jù)產(chǎn)品布局,TRS機器數(shù)據(jù)挖掘引擎,TRSSMAS輿情云服務,TRS大數(shù)據(jù)管理系統(tǒng)V7.0,TRS大數(shù)據(jù)管理系統(tǒng)發(fā)展歷程,TRS全文數(shù)據(jù)庫,TRS非結構化數(shù)據(jù)庫,TRS大數(shù)據(jù)管理系統(tǒng),TRS大數(shù)據(jù)管理系統(tǒng)V7.0,TRS大數(shù)據(jù)管理系統(tǒng)V7.0,分布式并行計算、多副本機制、沒有單點的高可靠體系架構,兼容Hadoop標準支持結構化、半結構化、非結構化數(shù)據(jù)的管理和搜索支持實時及用戶行為數(shù)據(jù)的高效管理和分析支持PB級的海量數(shù)據(jù)管理支持海量用戶的高并發(fā)訪問(千萬級用戶、萬級并發(fā))充分釋放硬件的潛力(多核、大內存等)大規(guī)模部署的自動化和運行狀態(tài)監(jiān)控創(chuàng)新的多檢索引擎機制,提供開放的二次開發(fā)接口,數(shù)據(jù)備份,大數(shù)據(jù)管理系統(tǒng),數(shù)據(jù)存儲,開發(fā)接口,基于Hadoop的數(shù)據(jù)分析,CKM文本挖掘與數(shù)據(jù)挖掘,關聯(lián)規(guī)則與序列模式挖掘,推薦引擎的離線分析,MapReduce,數(shù)據(jù)庫監(jiān)控,機器數(shù)據(jù)搜索引擎,用戶行為挖掘與推薦引擎,基于時間分段的大數(shù)據(jù)檢索與索引接口,搜索引擎,日志采集監(jiān)控,數(shù)據(jù)存儲層,數(shù)據(jù)分析層,日志發(fā)送節(jié)點,Angent1,Angent2,Angent3,Angentn,日志接收集群,Collector1,Collector2,Collector3,Collectorn,Master管理集群,Master1,Master2,Mastern,日志采集,TRS機器數(shù)據(jù)挖掘引擎,TRS機器數(shù)據(jù)挖掘引擎特點,支持主流格式機器數(shù)據(jù)的實時采集、解析、管理和搜索?;跁r間分段和負載均衡的大數(shù)據(jù)索引與檢索機制。基于Web的機器數(shù)據(jù)搜索與分析界面。兼容Hadoop平臺的日志挖掘和用戶行為分析。基于多種推薦模型的在線推薦引擎大規(guī)模部署的自動化和運行狀態(tài)監(jiān)控,TRSSMAS功能框架圖,新聞,論壇,博客,搜索引擎,微博,wiki,自動排重、自動分類、自動摘要、自動分析,輿情分類,熱點跟蹤,熱點統(tǒng)計,微博分析,人物分析,微博運營,趨勢分析,整合統(tǒng)計,關聯(lián)圖譜,動態(tài)走勢,興趣圖譜,未知探索,熱點變化,意見領袖,傳播圖譜,關系分類,個性展示,敏感預警,自由分布,數(shù)圖導出,圖表切換,多維檢索,探針追蹤,元搜索,外網(wǎng)微博論壇SNS網(wǎng)媒,官網(wǎng)提高銷量用戶滿意度,用戶設計,趨勢分析,競爭分析,質量缺陷,設計缺陷,使用缺陷,KOL維護,聲譽管理,危機預警,事件評估,行為分析,產(chǎn)品,公關,營銷,SMAS用戶感知,研發(fā),情緒感知,及時服務,口碑監(jiān)測,媒介監(jiān)測,S-CRM,廣義服務,TRSSMAS作用于企業(yè)2.0,TRS在大數(shù)據(jù)領域的應用實踐,新華社多媒體數(shù)據(jù)庫國家知識產(chǎn)權局專利檢索系統(tǒng)某部信息監(jiān)控系統(tǒng)TRSSMAS云服務(大數(shù)據(jù)服務)國家質監(jiān)局國家藥監(jiān)局北京市環(huán)保局國家氣象局每日微博熱點分析,新華社多媒體數(shù)據(jù)庫系統(tǒng),是新華社的核心業(yè)務支撐,典型的非結構化數(shù)據(jù)管理應用場景,持續(xù)IT投資已經(jīng)超過6億人民幣以新華社遍布全球的新聞信息及采集網(wǎng)絡為依托,全面整合新華社的文字、圖片、圖表、音視頻、報刊等全部資源和社會上有價值的新聞信息資源,擁有包括中、英、法、俄、西、阿及中文繁體在內的6個文種,數(shù)據(jù)量超PB最早采用文件系統(tǒng),后來改為Oracle,效率很低,再改為Oracle+TRS,持續(xù)服務至今從大型機改為PC服務器集群,1.5億條原創(chuàng)新聞資訊,26000小時權威原創(chuàng)視頻,700萬張圖片,27000家注冊用戶,8000多種資源分類,PB級數(shù)據(jù)量,多語種數(shù)據(jù),新華社多媒體數(shù)據(jù)庫數(shù)據(jù)流轉圖,新華社多媒體庫的技術特點,非結構化數(shù)據(jù)和結構化數(shù)據(jù)統(tǒng)一管理TRS多語言檢索引擎全面采用TRS文本挖掘技術良好的集群擴展能力索引服務器讀寫分離,國家知識產(chǎn)權局專利檢索服務系統(tǒng),1998年專利局引進了歐洲EPOQUE系統(tǒng),基于大型機的專利檢索系統(tǒng),每年的系統(tǒng)維護費用就達數(shù)千萬元2005年開始建設自主可控可持續(xù)發(fā)展的專利檢索和服務系統(tǒng),采用大量的PC服務器典型的非結構化/半結構化數(shù)據(jù)應用場景目前公共檢索和審查員檢索系統(tǒng)全部使用TRS檢索引擎,專利檢索系統(tǒng)的需求特點,數(shù)據(jù)多樣性結構化、半結構化和非結構化數(shù)據(jù)的結合申請人、申請?zhí)?、名稱等著錄項很多;權利要求書、說明書等全文數(shù)據(jù)規(guī)模大各庫數(shù)據(jù)結構差異大查詢要求高嚴格的查全和查準要求基于領域知識的智能檢索結構化和非結構化信息聯(lián)合查詢相關專利推薦,專利檢索與服務系統(tǒng)的數(shù)據(jù)種類與規(guī)模,6億多條專利記錄,多渠道異構資源整合,100%查全率,1秒響應時間,700-1000并發(fā),724穩(wěn)定可靠,1萬注冊用戶,專利檢索引擎數(shù)據(jù)流轉圖,專利檢索與服務系統(tǒng)-外觀圖像檢索,專利圖像外觀檢索,局部檢索形狀檢索紋理檢索不變性特征檢索草圖檢索數(shù)據(jù)分類數(shù)據(jù)聚類基于相關反饋的檢索跨語言檢索,600萬幅專利圖片查詢性能從原來的分鐘級提高到秒級索引性能從原來的天級提高到現(xiàn)在的小時級,某部網(wǎng)監(jiān)智能搜索和挖掘系統(tǒng),系統(tǒng)特點:巨大的數(shù)據(jù)量多樣性數(shù)據(jù)數(shù)據(jù)極快速增長系統(tǒng)現(xiàn)狀已經(jīng)部署數(shù)千臺服務器,滿足了業(yè)務需求挑戰(zhàn)性能和可擴展性整合和調度,數(shù)據(jù)量遠超過互聯(lián)網(wǎng),目前部署TRS系統(tǒng)2000多套,SMAS的用戶,國家質檢總局,2012.1蒙牛致癌門,2012.2蘇泊爾質量門,2012.3遼源注水肉,2012.3315質量報告,2012.4含氯可口可樂,2012.4蜜餞質量問題,2012.5菲律賓香蕉質量,2012,僅在2012年上半年,xxx運營團隊就為質檢總局在產(chǎn)品質量、食品安全方面提供超過40余項服務,借助數(shù)據(jù)中心的大數(shù)據(jù)與云服務平臺,進行全面的整合、統(tǒng)計與分析。,國家質檢總局,質檢總局的服務依托云服務平臺(SMAS),從媒體調性、平臺分布、網(wǎng)民意見、趨勢發(fā)展等多種角度進行解析,結合系統(tǒng)的自動分析與分析團隊的整合,最終以專題報告的方式,第一時間呈現(xiàn),為質檢總局在公共服務的決策提供重要參考。,國家藥監(jiān)局,2012年4月15日央視曝光的“毒膠囊”事件掀起藥品行業(yè)的巨大波瀾,SMAS運營團隊對該事件進行了長時間的跟蹤與分析,并用一系列的數(shù)據(jù)、圖表和報告捕獲了網(wǎng)絡數(shù)據(jù)里的真相與民意。,國家藥監(jiān)局,關鍵人物,傳播趨勢,主流觀點,關鍵地區(qū),SMAS分析團隊連續(xù)30天跟蹤毒膠囊事件,從整體傳播趨勢、觀點、人物、地區(qū)等視角,還原了這起頗具影響力的公共事件。,-毒膠囊事件-,北京市環(huán)保局PM2.5分析,報道量排行,高,低,兩會代表委員熱議PM2.5“京V”排放標準首規(guī)定PM限值,珠三角成首個公布PM2.5城市群珠三角PM2.5嚴重超標環(huán)保局回應PM2.5數(shù)據(jù)質疑,借助數(shù)據(jù)中心的大數(shù)據(jù)與云服務平臺,從區(qū)域分布的角度對PM2.5的相關信息進行歸類,進行全面的整合、統(tǒng)計與分析,得到上圖分析內容。,北京市環(huán)保局PM2.5分析,PM2.5均勻分布,監(jiān)測點為何不均勻分布?,PM2.5監(jiān)測不能背離公眾感受,PM2.5監(jiān)測,關鍵詞是“真實”,20億元清單,能否換來清新?,微博TOP10意見領袖排行,作家,通過SMAS平臺的抽樣分析,提取網(wǎng)民熱點話題內容,得到TOP10意見領袖排行。對意見領袖的代表性微博進行傳播鏈分析,可知“意見領袖”巨大的傳播影響力。,第一層,第二層,第三層,第四層,第五層,第六層,傳播了712次占轉發(fā)數(shù)百分比:54.39%,傳播了432次占轉發(fā)數(shù)百分比:33.00%,博主自身的二次轉發(fā),北京市環(huán)保局PM2.5分析,氣象輿情監(jiān)測,日本核輻射,極端天氣頻發(fā),有多少是人為之禍?公眾對氣象部門的氣象服務有了全新的期待。,依托數(shù)據(jù)中心與云服務平臺,xxx運營團隊還原熱點氣象事件引發(fā)的網(wǎng)絡輿情,總結氣象部門應對氣象危機的得

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論