輿情衛(wèi)士監(jiān)測平臺技術方案_第1頁
輿情衛(wèi)士監(jiān)測平臺技術方案_第2頁
輿情衛(wèi)士監(jiān)測平臺技術方案_第3頁
輿情衛(wèi)士監(jiān)測平臺技術方案_第4頁
輿情衛(wèi)士監(jiān)測平臺技術方案_第5頁
已閱讀5頁,還剩25頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

輿情衛(wèi)士監(jiān)測系統(tǒng)技術方案中國移動通信集團安徽省有限企業(yè)安慶分企業(yè)5月目錄TOC\o"1-4"\h\z\u1 總體需求 31.1 建設目標 31.2 功效需求 31.2.1 互聯(lián)網(wǎng)海量信息采集子系統(tǒng) 41.2.2 海量信息存放子系統(tǒng) 41.2.3 海量信息檢索子系統(tǒng) 51.2.4 互聯(lián)網(wǎng)云數(shù)據(jù)分析處理子系統(tǒng) 51.3 性能需求 61.4 其余需求 62 技術方案 72.1 翼騰云計算概述 72.2 總體設計概述 92.3 系統(tǒng)架構圖 112.4 業(yè)務流程圖 132.5 數(shù)據(jù)中心介紹 142.6.1海量互聯(lián)網(wǎng)信息采集子系統(tǒng) 16通用采集技術 16互聯(lián)網(wǎng)信息采集 182.6.2海量信息檢索子系統(tǒng) 192.6.3大數(shù)據(jù)分析處理子系統(tǒng) 21信息及數(shù)據(jù)處理 22輿情及敏感信息分析 242.6.4用戶權限管理 262.6.5安全子系統(tǒng) 272.6.6手機輿情 28總體需求建設目標建設****輿情監(jiān)測系統(tǒng),其實質(zhì)在于利用信息化技術,建立專業(yè)網(wǎng)絡信息監(jiān)測與管理平臺,及時、全方面、準確搜集、分析互聯(lián)網(wǎng)上一切與教育領域所相關信息,進而做好研判和處置工作,健全制度、完善機制,及時了解把握情況,準確判斷輿情發(fā)展趨勢,掌握工作主動權。建設****輿網(wǎng)絡輿情監(jiān)測系統(tǒng),以達成輿情監(jiān)測與分析應對工作全方面覆蓋、有序管理、多方聯(lián)動效果。提升師范大學網(wǎng)絡輿情突發(fā)事件應急處置水平,明確網(wǎng)絡輿情突發(fā)事件預防、預警、應正確程序,使得可及時、準確公布關于信息,澄清事實,引導輿論,妥善處理。功效需求大數(shù)據(jù)時代,面對海量互聯(lián)網(wǎng)數(shù)據(jù),要充分挖掘并分析出有用輿情信息,單純靠小規(guī)模輿情系統(tǒng)軟件已不足以滿足要求。必須要能夠利用大數(shù)據(jù)技術,建立起海量數(shù)據(jù)中心級別輿情數(shù)據(jù)中心,才能夠支撐越來越龐大輿情管理與應用。數(shù)據(jù)中心建設應廣泛采取集群應用、分布式數(shù)據(jù)存放、分布式計算等云技術。可提供PB級海量數(shù)據(jù)存放能力,能夠利用云數(shù)據(jù)分析技術進行深度比對、關聯(lián)、分析和挖掘,實現(xiàn)網(wǎng)上信息快速發(fā)覺。互聯(lián)網(wǎng)海量信息采集子系統(tǒng)網(wǎng)絡媒體形式全,能夠對各類網(wǎng)絡媒體進行監(jiān)測:1)門戶網(wǎng)站:系統(tǒng)可采集以媒體公布為主新聞網(wǎng)站信息;2)論壇:各種形式BBS、貼吧、論壇、小區(qū);3)博客:各博客網(wǎng)站博客信息;4)微博:各微博網(wǎng)站信息監(jiān)測;5)電子報:各類報紙電子報信息監(jiān)測;6)問答:對問答類網(wǎng)站采集;7)視頻:對視頻網(wǎng)站文字信息采集;8)WAP:對WAP網(wǎng)站信息采集;9)搜索引擎:對搜索引擎信息聚合;10)微信公眾賬號采集。海量信息存放子系統(tǒng)實現(xiàn)海量采集文章數(shù)據(jù)(高并發(fā))存放和相關查詢統(tǒng)計業(yè)務(如歷史文章查詢),并處理存放服務長久運行高可用性問題??纱尜A最少三個月歷史數(shù)據(jù);可經(jīng)過統(tǒng)一系統(tǒng)界面監(jiān)測全部服務器運行情況,及時發(fā)覺并處理出現(xiàn)任何情況;具備完整容災備份方案。海量信息檢索子系統(tǒng)采取分布式并行計算搜索框架,能對T級以上索引提供7*二十四小時搜索服務。采取群集服務多服務器同時搜索數(shù)據(jù),有效提升檢索速度,能夠達成每秒處理100萬次搜索速度?;ヂ?lián)網(wǎng)云數(shù)據(jù)分析處理子系統(tǒng)信息及數(shù)據(jù)處理主要是針對采集入庫后數(shù)據(jù)進行整理、處理。主要技術和功效包含:(1)漏斗式過濾技術:采取漏斗式多重過濾技術,逐層過濾掉無關干擾信息,展現(xiàn)給用戶精準輿情信息和熱點資訊。(2)漢字分詞:采取基于自然語言處理技術漢字分詞技術,對全文做文本處理,為輿情分類、專題聚類、自動摘要、語義分析、檢索等提供基礎。(3)要素分析對全部采集信息,在抽取標題、起源網(wǎng)站、起源頻道、公布人、公布時間、鏈接、正文、圖片等元素后,形成結構化數(shù)據(jù)存放于輿情庫中。(4)數(shù)據(jù)挖掘:關鍵詞是本系統(tǒng)篩選輿情信息主要規(guī)則,另外還采取數(shù)據(jù)挖掘方法分析出主要輿情信息和有價值敏感信息,比如:1)分析出輿情高發(fā)網(wǎng)站及頻道;2)分析出輿情高發(fā)人群;3)推薦網(wǎng)民關注度高輿情;4)篩選新詞、熱門話題;5)關聯(lián)性分析:采取智能關聯(lián)技術將與一條新聞相關新聞、論壇評論、博客評論等信息關聯(lián)到一起,幫助用戶多方位地了解新聞事件進展和其余報道情況,以及相關網(wǎng)民評論等信息,全方面地掌握各種相關信息。性能需求常規(guī)監(jiān)測信息源數(shù)量3萬個以上;日均采集信息量300萬條以上;信息采集效率在30分鐘以內(nèi);數(shù)據(jù)中心數(shù)據(jù)可提供PC端、移動端等不一樣方式信息檢索,檢索效率在5秒鐘以內(nèi);其余需求可針對客戶要求給出詳細硬件配置方案;基于數(shù)據(jù)中心監(jiān)測平臺系統(tǒng)架構圖;并詳細描述所采取技術及方法等。系統(tǒng)布署拓撲圖;能夠統(tǒng)一管理各服務器運行并監(jiān)測其運行情況;技術方案翼騰云計算概述“云計算”是一個很時尚概念,它既不是一個技術,也不是一個理論,而是一個商業(yè)模式表現(xiàn)方式?!坝嬎闩c數(shù)據(jù)”蹺蹺板平衡已發(fā)生改變,即已經(jīng)到“移動計算要比移動數(shù)據(jù)要廉價多(Movingcomputationischeaperthanmovingdata)”,透過這項技術,網(wǎng)絡服務提供者能夠在數(shù)秒之內(nèi),達成處理數(shù)以千萬計甚至億計信息,達成和“超級計算機”一樣強大效能網(wǎng)絡服務,云計算關鍵技術:虛擬化技術 虛擬化技術是指計算元件在虛擬基礎上而不是真實基礎上運行,它能夠擴大硬件容量,簡化軟件重新配置過程,降低軟件虛擬機相關開銷和支持更廣泛操作系統(tǒng)方面。虛擬化技術主要應用在CPU、操作系統(tǒng)、服務器等多個方面,是提升服務效率最好處理方案,以PaaS為關鍵來構建和運行新一代SaaS應用,經(jīng)過與移動運行商合作共建SaaS輿情應用系統(tǒng),處理眾多中小企業(yè)輿情需求,OpenStack提供了比較成熟PaaS處理方案。分布式海量數(shù)據(jù)存放 云計算系統(tǒng)由大量服務器組成,同時為大量用戶服務,所以云計算系統(tǒng)采取分布式存放方式存放數(shù)據(jù),用冗余存放方式(集群計算、數(shù)據(jù)冗余和分布式存放)確保數(shù)據(jù)可靠性。冗余方式經(jīng)過任務分解和集群,用低配機器代替超級計算機性能來確保低成本,這種方式確保分布式數(shù)據(jù)高可用、高可靠和經(jīng)濟性,即為同一份數(shù)據(jù)存放多個副本。使用數(shù)據(jù)存放系統(tǒng)是Hadoop團體開發(fā)GFS開源實現(xiàn)HDFS。海量數(shù)據(jù)管理技術 云計算需要對分布、海量數(shù)據(jù)進行處理、分析,所以,數(shù)據(jù)管理技術必需能夠高效管理大量數(shù)據(jù)。使用開源NoSql數(shù)據(jù)庫Mongodb和Cassandra處理海量文章存放、檢索。編程方式 云計算提供了分布式計算模式,采取了一個思想簡練分布式并行編程模型Map—Reduce。Map—Reduce是一個編程模型和任務調(diào)度模型。主要用于數(shù)據(jù)集并行運算和并行任務調(diào)度處理,基于Hadoop集群,使用Map-Reduce處理離線數(shù)據(jù)挖掘。另外針對流式實時運算采取并行編程模型Spout-Bolt,基于開源JStorm集群實現(xiàn)實時文本挖掘。云計算平臺管理技術 云計算資源規(guī)模龐大,服務器數(shù)量眾多并分布在不一樣地點,同時運行著數(shù)百種應用,怎樣有效管理這些服務器,確保整個系統(tǒng)提供不間斷服務是巨大挑戰(zhàn)。采取Nagios對眾多集群進行監(jiān)控,使用SALT處理大規(guī)模服務器自動化管理。 翼騰數(shù)據(jù)中心借助于上述5個方面云計算技術,處理了互聯(lián)網(wǎng)海量信息實時檢索、海量分析、推薦挖掘等問題,依靠于全國眾多數(shù)據(jù)中心,為多個行業(yè)、多個地域SaaS輿情監(jiān)測平臺提供數(shù)據(jù)支撐,為眾多企事業(yè)單位提供優(yōu)質(zhì)漢字信息監(jiān)測服務。 翼騰已建成數(shù)據(jù)中心使用依靠阿里云云平臺,天天采集互聯(lián)網(wǎng)500W以上海量文章信息,每個數(shù)據(jù)中心出口帶寬達成10G,天天新增10T以上數(shù)據(jù)文件,使用分布式文件系統(tǒng)、分布式數(shù)據(jù)庫存放索引、文章等相關信息,使用軟件方式處理了數(shù)據(jù)可靠性問題,翼騰搜索引擎實時返回各個SaaS平臺檢索需求,能夠支持上萬并發(fā)請求。另外經(jīng)過實時推送技術,天天推送到客戶端信息量能夠達成上百萬??傮w設計概述輿情衛(wèi)士監(jiān)測平臺是基于大數(shù)據(jù)平臺+行業(yè)處理方案+面向服務整體處理方案,海量數(shù)據(jù)大都為非結構化文本數(shù)據(jù),使用NoSql技術和Hadoop架構進行有效結合集成,實現(xiàn)在采集、存放、分析、挖掘、檢索、展示等方面詳細要求,并針對某個行業(yè)做深入開發(fā),以服務方式提供數(shù)據(jù)產(chǎn)品。大數(shù)據(jù)平臺是在大數(shù)據(jù)環(huán)境下,為滿足數(shù)據(jù)處理要求而傾力打造一款具備革命性架構設計平臺級產(chǎn)品。大數(shù)據(jù)管理系統(tǒng)由服務器集群、大數(shù)據(jù)處理軟件、情報產(chǎn)品三部分組成,系統(tǒng)支持PB級海量數(shù)據(jù)管理,采取高可靠架構設計,兼容Hadoop標準,自有海量全文檢索引擎系統(tǒng),支持水平擴展。大數(shù)處理軟件是一款完全分布式、多副本機制、數(shù)據(jù)分片集群系統(tǒng),不存在單點故障或性能瓶頸?!拜浨樾l(wèi)士監(jiān)測平臺”能夠分為兩個部分來建設。一是互聯(lián)網(wǎng)信息數(shù)據(jù)中心平臺。平臺完成各類海量信息采集、存放、檢索等功效,建設完成后能夠供不一樣用戶進行輿情信息巡查。二是基于數(shù)據(jù)中心平臺輿情應用平臺建設,包含PC端及移動終端各種輿情管理與應用?;ヂ?lián)網(wǎng)信息數(shù)據(jù)中心負責從互聯(lián)網(wǎng)各類網(wǎng)站進行信息采集,同時還支持其余各種信息搜集和存放,比如微信公眾賬號所公布信息等信息。數(shù)據(jù)中心大量進行數(shù)據(jù)采集、處理和存放,為滿足不一樣用戶及業(yè)務應用,采取分布式技術進行規(guī)劃信息檢索服務,提升數(shù)據(jù)檢索效率。不一樣用戶應用平臺信息都起源于數(shù)據(jù)中心,基于這些數(shù)據(jù)建立自己應用平臺,本建設實現(xiàn)了中心數(shù)據(jù)向多用戶開放,為未來不一樣用戶依照實際需求定制本用戶信息平臺提供數(shù)據(jù)支撐和平臺基礎。輿情衛(wèi)士監(jiān)測平臺一樣是采取大數(shù)據(jù)、移動互聯(lián)網(wǎng)等新技術進行建設,一能夠確保整體輿情工作效率,同時還為未來應用留下了發(fā)展空間。輿情衛(wèi)士監(jiān)測平臺是一個整體平臺,在平臺使用基礎上,基于大數(shù)據(jù)技術進行了更深一步數(shù)據(jù)分析和挖掘。輿情衛(wèi)士平臺可提供PB級海量數(shù)據(jù)存放能力,能夠利用云數(shù)據(jù)分析技術進行深度比對、關聯(lián)、分析和挖掘,實現(xiàn)網(wǎng)上信息快速發(fā)覺、態(tài)勢研判和輿論引導,重點欄目信息1-5分鐘發(fā)覺報警。系統(tǒng)架構圖特點及優(yōu)勢:★采取分層架構設計,每個功效都有多份系統(tǒng),不存在單點故障,且可進行水平擴展;★系統(tǒng)采取嵌入式、多引擎技術,并滿足用戶定制自己數(shù)據(jù)處理邏輯要求;★基于索引分區(qū)機制,實現(xiàn)內(nèi)存中高速索引創(chuàng)建,海量索引數(shù)據(jù)放入磁盤,處理了快速索引應用需求,同時有效降低索引匹配范圍,縮短檢索響應時間;★采取多副本機制,實現(xiàn)了容災備份,防止單點故障,同時也實現(xiàn)了負載均衡,提升并發(fā)檢索能力,每份數(shù)據(jù)都最少有三塊一樣數(shù)據(jù)做備份;★支持離線檢索模式,適應大量數(shù)據(jù)檢索應用場景要求,防止了同時檢索模式時消耗太多線程資源問題;★自有緩存集群,千億數(shù)據(jù)提取<10毫秒;★大數(shù)據(jù)底層基于Hadoop,充分利用HDFS可靠性,數(shù)據(jù)挖掘采取MapReduce分布式運算模型,處理了海量數(shù)據(jù)挖掘數(shù)量瓶頸問題。業(yè)務流程圖數(shù)據(jù)中心系統(tǒng)是一個集互聯(lián)網(wǎng)輿情采集、檢索于一體綜合系統(tǒng),系統(tǒng)經(jīng)過采集互聯(lián)網(wǎng)數(shù)據(jù),對數(shù)據(jù)進行過濾分析,向其它輿情產(chǎn)品推送熱點數(shù)據(jù)信息。數(shù)據(jù)中心布署實施需要建立一個輿情信息處理分布式平臺和云服務器集群,內(nèi)容包含服務器、存放等硬件設備,關鍵業(yè)務系統(tǒng)分別使用網(wǎng)絡負載均衡技術及服務器群集技術實現(xiàn)高性能與高可用性。數(shù)據(jù)存放使用區(qū)域存放網(wǎng)絡,并使用磁帶庫進行數(shù)據(jù)備份,充分保障業(yè)務數(shù)據(jù)可靠?;A應用系統(tǒng)分布布署在應用服務器組中,基礎服務系統(tǒng)服務器組布署Hadoop、Mongodb、Tomcat、HornetQ、Tomcat等軟件系統(tǒng),信息門戶服務器組布署輿情指揮系統(tǒng)等平臺軟件,統(tǒng)一信息交換服務器布署數(shù)據(jù)中心程序,數(shù)據(jù)中心布署文章索引服務、文章采集服務集群,建立應用軟件數(shù)據(jù)倉庫及數(shù)據(jù)庫系統(tǒng),將關鍵數(shù)據(jù)集中存放在SAN存放網(wǎng)絡之中,確保實現(xiàn)整個系統(tǒng)應用和數(shù)據(jù)可靠性和安全性,以滿足數(shù)據(jù)存放、信息處理等方面需要。數(shù)據(jù)中心介紹數(shù)據(jù)中心主要包含以下子系統(tǒng):互聯(lián)網(wǎng)海量信息采集子系統(tǒng)、海量信息存放子系統(tǒng)、海量信息檢索子系統(tǒng)、展示子系統(tǒng)、信息分析分發(fā)子系統(tǒng)、網(wǎng)評子系統(tǒng)、數(shù)據(jù)存放與容災備份等。還包含多對微信、二維碼、和視頻采集和分析處理等。數(shù)據(jù)中心廣泛采取集群應用、分布式數(shù)據(jù)存放、分布式計算等云技術??商峁㏄B級海量數(shù)據(jù)存放能力,能夠利用云數(shù)據(jù)分析技術進行深度比對、關聯(lián)、分析和挖掘,實現(xiàn)網(wǎng)上信息快速發(fā)覺,確保重點欄目信息1-5分鐘發(fā)覺報警;數(shù)據(jù)檢索經(jīng)過對分布式存放和分布式計算采取,有效確保了在海量數(shù)據(jù)情況下,系統(tǒng)檢索響應速度控制在秒級范圍。2.6.1海量互聯(lián)網(wǎng)信息采集子系統(tǒng)海量數(shù)據(jù)采集子系統(tǒng)實現(xiàn)對互聯(lián)網(wǎng)信息采集功效,包含了前端采集信息、搜索引擎信息和人工瀏覽信息。采集設備可分布式布署。支持互聯(lián)網(wǎng)全網(wǎng)信息采集,云平臺可實時監(jiān)測3萬余個網(wǎng)站、超出50萬個欄目或頻道實時信息,同時還采取元搜索技術,對上百個搜索引擎信息經(jīng)過關鍵詞搜索及采集,日均信息處理量達700萬以上。通用采集技術(1)采取定點采集和全網(wǎng)搜索相結合采集機制。定點采集可確保第一時間采集到重點網(wǎng)站信息,全網(wǎng)搜索可進行傳輸全方面性補充采集;1)定點采集:系統(tǒng)內(nèi)置50萬欄目,采取定點采集方式;2)全網(wǎng)搜索:經(jīng)過關鍵詞對新聞類搜索引擎、論壇類搜索引擎、博客類搜索引擎、微博類搜索引擎及大型網(wǎng)站站內(nèi)搜索工具信息聚合搜索;3)內(nèi)嵌腳本執(zhí)行引擎:伴隨Web2.0相關技術發(fā)展,腳本語言越來越多地應用于論壇、新聞評論、博客等類型網(wǎng)站建設。內(nèi)嵌腳本引擎對腳本語言自動解析和執(zhí)行,實現(xiàn)對采取腳本語言論壇、博客以及新聞評論網(wǎng)站采集;4)7*二十四小時不間斷采集,5分鐘采集頻率,信息更新掃描最小間隔為1分鐘;5)對各微博網(wǎng)站實現(xiàn)訪問搜索。6)支持驗證碼采集;支持多頁合并采集。(2)全媒體采集網(wǎng)絡媒體形式全,能夠對各類網(wǎng)絡媒體進行監(jiān)測:1)門戶網(wǎng)站:系統(tǒng)可采集以媒體公布為主新聞網(wǎng)站信息;2)論壇:各種形式BBS、貼吧、論壇、小區(qū);博客:各博客網(wǎng)站博客信息;4)微博:國內(nèi)外微博網(wǎng)站信息監(jiān)測;5)電子報:各類報紙電子報信息監(jiān)測;6)問答:對問答類網(wǎng)站采集;7)視頻:對視頻網(wǎng)站文字信息采集;8)WAP:對WAP網(wǎng)站信息采集;9)搜索引擎:對搜索引擎信息聚合。10)微信公眾賬號采集實現(xiàn)對微信公眾賬號信息監(jiān)控和數(shù)據(jù)采集。系統(tǒng)可自動添加對微信公共賬號關注,形成微信公眾賬號庫,實現(xiàn)對公共帳號信息實時采集。互聯(lián)網(wǎng)信息采集經(jīng)過自動識別技術識別并抽取網(wǎng)頁要素,包含:標題、起源網(wǎng)站、起源頻道、公布人、公布時間、鏈接(URL)、正文、圖片、快照、表格,自動剔除廣告(圖片或flash)等垃圾部分,存放為統(tǒng)一結構化信息,供后續(xù)分析、檢索、查詢、統(tǒng)計和展示。海量子系統(tǒng)實現(xiàn)海量采集文章數(shù)據(jù)(高并發(fā))存放和相關查詢統(tǒng)計業(yè)務(如歷史文章查詢),并處理存放服務長久運行高可用性問題。利用MongoDB來一體化處理采集文章數(shù)據(jù)(高并發(fā))存放和相關查詢統(tǒng)計業(yè)務(如歷史文章查詢),并處理存放服務長久運行高可用性問題。詳細包含:(1)處理海量文章信息存放問題(高并發(fā)寫、高速查詢、高速統(tǒng)計分析);(2)處理海量文章檢索問題(高并發(fā)寫、高速查詢、統(tǒng)計分析);(3)處理存放服務高可用性問題(如負載均衡、線性擴容、故障轉移、災備恢復、服務監(jiān)測等);最終目標:簡化現(xiàn)有平臺業(yè)務流程,降低故障節(jié)點,提升存放服務高可用性。2.6.2海量信息檢索子系統(tǒng)采取Lucene+Hadoop分布式并行計算搜索框架,能對T級以上索引提供7*二十四小時搜索服務。采取群集服務多服務器同時搜索數(shù)據(jù),有效提升檢索速度,能夠達成每秒處理100萬次搜索速度。文章經(jīng)由采集服務器采集,發(fā)送到消息隊列中,搜索客戶端獲取文章內(nèi)容,實時建立索引,并對外提供實時數(shù)據(jù)檢索服務。對于海量數(shù)據(jù)建立索引,使用基于HadoopMapper/Reducer分布式運算建立索引。然后把建立索引從HDFS分發(fā)到各個索引服務器。因為采集系統(tǒng)采集網(wǎng)頁比較多,天天采集數(shù)量最少在100萬篇,所以在索引設計時需要考慮到不一樣資源需求,這里面最少有兩個原因需要考慮,一個是時效性,另一個是數(shù)據(jù)量。時效性指是一個資源數(shù)據(jù)從修改到生效需要時間,時效性高表示生效時間短,有資源甚至需要立刻生效;而生效時間長資源也會分成很多檔次,有小時級,有天級,甚至有更長時間靜態(tài)資源。數(shù)據(jù)量指是一個資源數(shù)據(jù)規(guī)模,從最小數(shù)千條到千萬級甚至億級,不一樣數(shù)據(jù)量級別資源會用不一樣方式進行索引構建以及索引檢索。以下簡單列舉了不一樣時效性和數(shù)據(jù)量條件下索引方式:實時索引需要實時支持索引增加以及刪除操作,更新操作能夠看作是刪除操作和增加操作組合。對于數(shù)據(jù)量小資源,能夠將索引完全放入內(nèi)存,在內(nèi)存中建立倒排索引,增加操作能夠直接在索引拉鏈末端添加新doc_id,注意這里doc_id是全局分配,確保索引拉鏈按照doc_id升序排序;對于數(shù)據(jù)量比較大資源,因為索引無法完全放入內(nèi)存,需要建立文件索引,但因為文件索引緊致壓縮特點,無法實時地在倒排拉鏈中添加doc_id,在這種情況下,處理時效性問題能夠有兩種方法,一個是盡可能縮短建索引時間,比如基于map-reduce分布式建庫技術能夠將千萬級別建庫時間縮短到10分鐘以內(nèi),這種索引我們稱為偽實時索引;另一個比較復雜方式是混合索引,即索引增量部分存于內(nèi)存中,在檢索時需要將內(nèi)存索引和文件索引合并,這種方式在做檢索時處理較復雜,數(shù)據(jù)中心搜索主要采取是偽實時索引方式處理大數(shù)據(jù)量、高時效性資源數(shù)據(jù)。對時效性低數(shù)據(jù)也有不一樣處理方式,對于數(shù)據(jù)量比較小資源,單機索引能完全涵蓋,此時只需要周期性構建索引然后進行索引切換就能夠了;對于大數(shù)據(jù)量資源,單機索引無法涵蓋,索引必須分布到多臺機器上,數(shù)據(jù)中心搜索現(xiàn)在是按照doc_id進行切分,一個doc對應全部term都會分布到同一臺機器上。數(shù)據(jù)中心搜索索引構建流程。對實時內(nèi)存索引,增加、刪除索引都是實時流,不過頻繁索引修改會造成索引拉鏈碎片增多,需要有專門任務定時整理索引拉鏈,首先是清理碎片,緊致排列索引拉鏈;另首先也需要對過長拉鏈進行截斷。對文件索引,使用分布式建庫是個非常高效方法,數(shù)據(jù)中心搜索文件索引建庫主要是采取這種方式。2.6.3大數(shù)據(jù)分析處理子系統(tǒng)互聯(lián)網(wǎng)云數(shù)據(jù)分析處理子系統(tǒng)包含信息及數(shù)據(jù)處理和輿情分析。大數(shù)據(jù)時代,對數(shù)據(jù)解釋是關鍵。現(xiàn)在,數(shù)據(jù)可取得度已經(jīng)空前提升,我們能夠分析更多數(shù)據(jù),有時候甚至能夠處理和某個尤其現(xiàn)象相關全部數(shù)據(jù),實現(xiàn)真正大數(shù)據(jù)挖掘和分析。數(shù)據(jù)海量、及時、動態(tài)、開放,有利于我們完善分析效度和深度。同時,大數(shù)據(jù)也有價值密度低、傳輸速度快等特點,數(shù)據(jù)分析模式是否科學,這將直接影響數(shù)據(jù)分析質(zhì)量。大數(shù)據(jù)異構和多樣性,需要輿情分析人員對一些危機事件進行高質(zhì)量數(shù)據(jù)解釋?;跀?shù)據(jù)分析,能否提煉出獨到、高質(zhì)量觀點,在凌亂紛繁數(shù)據(jù)背后找到更符合客戶要求輿情產(chǎn)品和服務,并進行針對性調(diào)整和優(yōu)化,這是大數(shù)據(jù)時代輿情最大變量。大數(shù)據(jù)時代,對趨勢研判是目標。大數(shù)據(jù)關鍵和目標就是預測,詳細到輿情服務,輿情工作人員從互聯(lián)網(wǎng)浩如煙海數(shù)據(jù)中挖掘信息、判斷趨勢、提升效益,即使取得廣泛且實際應用,但還遠遠不夠。輿情分析人員要不停增強關聯(lián)輿情信息分析和預測,把服務重點從單純搜集有效數(shù)據(jù)向對輿情深入研判拓展,跟蹤關聯(lián)輿情,不再局限于危機處理,還要輔之以決議參考,從重視“靜態(tài)搜集”向重視“動態(tài)跟蹤”拓展,從致力“反應問題”向致力“處理問題”拓展,使輿情產(chǎn)品和服務“更高、更加快、更強”(視點高、預警快、處置強)。信息及數(shù)據(jù)處理信息及數(shù)據(jù)處理主要是針對采集入庫后數(shù)據(jù)進行整理、處理。主要技術和功效包含:(1)漏斗式過濾技術:采取漏斗式多重過濾技術,逐層過濾掉無關干擾信息,展現(xiàn)給用戶精準輿情信息和熱點資訊。(2)漢字分詞:采取基于自然語言處理技術漢字分詞技術,對全文做文本處理,為輿情分類、專題聚類、自動摘要、語義分析、檢索等提供基礎。(3)要素分析對全部采集信息,在抽取標題、起源網(wǎng)站、起源頻道、公布人、公布時間、鏈接、正文、圖片等元素后,形成結構化數(shù)據(jù)存放于輿情庫中。(4)數(shù)據(jù)挖掘:關鍵詞是本系統(tǒng)篩選輿情信息主要規(guī)則,另外還采取數(shù)據(jù)挖掘方法分析出主要輿情信息和有價值敏感信息,比如:1)分析出輿情高發(fā)網(wǎng)站及頻道;2)挖掘文本中主要信息,如聯(lián)絡電話、QQ號碼、郵件地址等信息;3)分析出輿情高發(fā)人群;4)推薦網(wǎng)民關注度高輿情;5)篩選新詞、熱門話題;(5)關聯(lián)性分析:采取智能關聯(lián)技術將與一條新聞相關新聞、論壇評論、博客評論等信息關聯(lián)到一起,幫助用戶多方位地了解新聞事件進展和其余報道情況,以及相關網(wǎng)民評論等信息,全方面地掌握各種相關信息。輿情及敏感信息分析輿情分析技術是用于輿情信息分類和判斷,按照關注人物、地域、單位、事件、主題等要素進行輿情分類,并對敏感輿情傳輸情況包含傳輸源頭、公布人、傳輸媒體、傳輸內(nèi)容、傳輸路徑進行抽取和分析,提供各類統(tǒng)計數(shù)據(jù)和圖表,掌握輿情事件在網(wǎng)絡中傳輸全貌。(1)分類技術:系統(tǒng)內(nèi)置一套較為科學和完整輿情分類體系,經(jīng)過自動分類技術,對用戶關注敏感信息和國計民生各個重點領域進行實時監(jiān)控,及時發(fā)覺負面、有害信息。系統(tǒng)還提供靈活多維度信息分類自定義設置,展示給客戶豐富輿情分類瀏覽:按主題分類:按關注主題自定義分類,如政法、醫(yī)療衛(wèi)生、教育等,進行常規(guī)監(jiān)測過濾分析;按照特定人物分類:設置關注人名,包含黨政機關領導人、政治人物或敏感人,對人網(wǎng)絡活動進行分析;按網(wǎng)站性質(zhì)分類:按照網(wǎng)站性質(zhì)如新聞、論壇等方式分類信息;按特定機構:設置各級國家黨政機構,以及特定地域機構;按照地域分類:按照地域提取各地輿情;按關注網(wǎng)站分類:設置關注網(wǎng)站分析相關信息;按有害信息:如法輪功、色情、民運等反動信息;按定制搜索分類:設置關注網(wǎng)站和關鍵詞規(guī)則進行過濾分析。敏感信息分析技術:負面敏感信息分析是本系統(tǒng)最主要功效之一,經(jīng)過預警功效在第一時間將負面或敏感信息通知用戶。(1)熱點發(fā)覺與跟蹤熱點自動發(fā)覺:自動識別熱點新聞事件,發(fā)覺網(wǎng)民關注焦點和熱點,提供1天、3天、7天等時間序列符適用戶精準度要求分類熱點排序。熱點自動追蹤:對熱點信息連續(xù)追蹤,并經(jīng)過趨勢分析圖和傳輸鏈分析圖等技術幫助用戶了解熱點事件報道趨勢。網(wǎng)絡熱詞自動挖掘:從互聯(lián)網(wǎng)尋找熱度較高短語,如人名、地名、機構名和其余常見短語,并收錄入詞庫。(2)專題分析技術:專題分析技術用于分析輿情事件或熱點事件在網(wǎng)絡中傳輸情況。依照用戶設定專題條件,自動聚合該專題相關信息,并對傳輸媒體、每日傳輸情況,分析指標包含:總傳輸量及每日、每時段傳輸量、設定時間內(nèi)傳輸量及發(fā)展趨勢;起源報道分布:新聞報道篇數(shù)、主貼數(shù)、回貼報道數(shù)、博客報道數(shù);階段性傳輸媒體類型分布;匯總公布網(wǎng)站、媒體及個人網(wǎng)絡ID;分析專題設計熱點人名

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論