醫(yī)療衛(wèi)生行業(yè)互聯(lián)網(wǎng)輿情監(jiān)測預(yù)警系統(tǒng)設(shè)計及實現(xiàn)_第1頁
醫(yī)療衛(wèi)生行業(yè)互聯(lián)網(wǎng)輿情監(jiān)測預(yù)警系統(tǒng)設(shè)計及實現(xiàn)_第2頁
醫(yī)療衛(wèi)生行業(yè)互聯(lián)網(wǎng)輿情監(jiān)測預(yù)警系統(tǒng)設(shè)計及實現(xiàn)_第3頁
醫(yī)療衛(wèi)生行業(yè)互聯(lián)網(wǎng)輿情監(jiān)測預(yù)警系統(tǒng)設(shè)計及實現(xiàn)_第4頁
醫(yī)療衛(wèi)生行業(yè)互聯(lián)網(wǎng)輿情監(jiān)測預(yù)警系統(tǒng)設(shè)計及實現(xiàn)_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

醫(yī)療衛(wèi)生行業(yè)互聯(lián)網(wǎng)輿情監(jiān)測預(yù)警系統(tǒng)設(shè)計及實現(xiàn)虞穎映;吳立仁;胡天天;馬凌飛;朱瑞英;施培武【摘要】TheInternetPublicOpinionMonitoringandEarlyWarningSystemformedicalandhealthindustrywasdesignedandimplementedduetothefrequentoccurrenceofInternetpublicopinion,whichhasall-directionaldatacollectingandanalyzingfunctions,includingbigdatacollection,nearduplicatedetection,spamfiltration,keypublicopinionearlywarning,regionidentificationandtendencyanalysis,andcanthusprovideevidenceforrelevantdepartmentstotakeeffectivemeasuresforthecontrolofInternetpublicopinion.%在當(dāng)前醫(yī)療衛(wèi)生行業(yè)網(wǎng)絡(luò)輿情多發(fā)易發(fā)的態(tài)勢下,行業(yè)互聯(lián)網(wǎng)輿情監(jiān)測預(yù)警信息服務(wù)系統(tǒng)實現(xiàn)了大數(shù)據(jù)采集、近似文本去重、智能垃圾文過濾、重要輿情預(yù)警、地域識別、傾向性分析等全方位的數(shù)據(jù)采集和分析功能,為相關(guān)部門全面掌控網(wǎng)絡(luò)輿情和有效應(yīng)對提供依據(jù).【期刊名稱】《中華醫(yī)學(xué)圖書情報雜志》【年(卷),期】2017(026)003【總頁數(shù)】5頁(P37-40,53)【關(guān)鍵詞】醫(yī)療衛(wèi)生行業(yè);大數(shù)據(jù)采集;互聯(lián)網(wǎng)輿情;文章去重;垃圾文過濾;輿情監(jiān)測【作者】虞穎映;吳立仁;胡天天;馬凌飛;朱瑞英;施培武【作者單位】浙江省醫(yī)學(xué)科學(xué)院,浙江杭州310012;浙江省醫(yī)學(xué)科學(xué)院,浙江杭州310012;浙江省醫(yī)學(xué)科學(xué)院,浙江杭州310012;浙江省醫(yī)學(xué)科學(xué)院,浙江杭州310012;浙江省醫(yī)學(xué)科學(xué)院,浙江杭州310012;浙江省醫(yī)學(xué)科學(xué)院,浙江杭州310012【正文語種】中文【中圖分類】GR19;TP393醫(yī)療衛(wèi)生行業(yè)是關(guān)乎家庭幸福的重大民生工程,醫(yī)療問題是網(wǎng)民最為關(guān)注的熱點之一。在我國醫(yī)療衛(wèi)生改革與發(fā)展的過程中,體制性矛盾、醫(yī)療糾紛和突發(fā)公共衛(wèi)生事件都會引發(fā)大小不一、影響各異的輿情事件;同時,互聯(lián)網(wǎng)技術(shù)的蓬勃發(fā)展以及網(wǎng)民數(shù)量劇增所致的信息快速、廣泛傳播,進一步加劇了醫(yī)療衛(wèi)生事件在全國范圍內(nèi)的影響力和爆發(fā)力,使醫(yī)療衛(wèi)生互聯(lián)網(wǎng)輿情總體呈現(xiàn)觸點多、燃點低、熱度高的特點,更加多發(fā)易發(fā)[1]。尤其是一些負(fù)面輿情的持續(xù)發(fā)酵,激化了醫(yī)患矛盾,引發(fā)了醫(yī)藥衛(wèi)生行業(yè)的形象危機,進而屢陷輿論漩渦[2-3]。在全國醫(yī)療衛(wèi)生行業(yè)互聯(lián)網(wǎng)輿情井噴、相關(guān)部門對互聯(lián)網(wǎng)輿情管控難度劇增的態(tài)勢下,除了需要在制度、管理等方面逐步完善以外,也需要充分利用現(xiàn)有的信息技術(shù),及時地發(fā)現(xiàn)和處理這些輿情事件。做好互聯(lián)網(wǎng)輿情信息的監(jiān)測,及時、科學(xué)應(yīng)對,已成為相關(guān)醫(yī)療機構(gòu)和政府部門的工作重點[4-5]?;诖宋覀冊O(shè)計并開發(fā)了醫(yī)療衛(wèi)生行業(yè)的互聯(lián)網(wǎng)輿情監(jiān)測預(yù)警信息系統(tǒng),結(jié)合具有衛(wèi)生行業(yè)背景的專業(yè)輿情分析師的人工處理分析和研判,開展行業(yè)輿情監(jiān)測分析工作,為行政管理機構(gòu)及醫(yī)療計生單位對互聯(lián)網(wǎng)輿情的全面掌控和有效應(yīng)對提供專業(yè)可信的依據(jù)。系統(tǒng)的架構(gòu)和功能實現(xiàn)介紹如下。1系統(tǒng)需求本項目開發(fā)的醫(yī)療衛(wèi)生網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)主要實現(xiàn)互聯(lián)網(wǎng)信息獲取、互聯(lián)網(wǎng)信息處理、輿情分析、輔助決策支持4個方面功能。其中互聯(lián)網(wǎng)輿情信息獲取的快與準(zhǔn)、內(nèi)容分析的確定性、輿情研判的準(zhǔn)確性、輿情響應(yīng)的及時性、信息跟蹤的及時性等目標(biāo)的實現(xiàn),是本系統(tǒng)開發(fā)技術(shù)的關(guān)鍵點和輿情分析研究的主要著力點[6]。1.1網(wǎng)絡(luò)信息獲取互聯(lián)網(wǎng)輿情的來源十分復(fù)雜,包括新聞網(wǎng)站、論壇、博客等,主要表現(xiàn)形式為動態(tài)網(wǎng)頁,具有主題發(fā)散、形式多樣、時效性強等特點。互聯(lián)網(wǎng)信息獲取的目的就是要采集和提取這些動態(tài)網(wǎng)頁中的非結(jié)構(gòu)化信息。1.2網(wǎng)絡(luò)信息處理新聞、論壇帖子、博文等頁面包含有效信息,同時也包含垃圾信息,因此在輿情分析前必須去偽存真。網(wǎng)絡(luò)信息的處理目的是對頁面內(nèi)容進行過濾,并提煉成概要信息,便于查詢和檢索。再經(jīng)過人工的二次審核,確保保留信息的準(zhǔn)確性,以提升輿情分析的準(zhǔn)確性和科學(xué)性。1.3輿情監(jiān)測分析及預(yù)警網(wǎng)民討論的話題極為發(fā)散,如何從海量信息中找到熱點、敏感話題,并對其趨勢變化進行追蹤,成為公共衛(wèi)生網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)的重點。系統(tǒng)需要從實時采集到的數(shù)據(jù)中篩選出重要的敏感信息,及時推送給有關(guān)部門以達(dá)到預(yù)警的目的。對于持續(xù)追蹤的輿情,系統(tǒng)可自動生成相應(yīng)圖表,并進行人工分析,最終形成準(zhǔn)確、專業(yè)、全面的輿情分析報告。1.4輔助決策支持醫(yī)療衛(wèi)生互聯(lián)網(wǎng)輿情監(jiān)測系統(tǒng)需為相關(guān)部門的決策服務(wù),因此需要將各種輿情分析結(jié)果接入個人工作平臺,服務(wù)于實際工作。2系統(tǒng)架構(gòu)系統(tǒng)架構(gòu)遵循先進性、可靠性、安全性、標(biāo)準(zhǔn)化、成熟性、適用性、可擴展性原則,按層次架構(gòu)進行設(shè)計,每層之間通過松散藕合的方式相互通信,從下而上分別由采集模塊、過濾模塊、分析模塊、應(yīng)用系統(tǒng)組成(圖1)。圖1醫(yī)療衛(wèi)生網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)架構(gòu)2.1信息采集模塊網(wǎng)絡(luò)輿情散布于網(wǎng)絡(luò)的各個部分,如新聞、論壇、微信、微博、博客等。這些信息實時更新,動態(tài)變化。信息獲取的目標(biāo)是對相關(guān)信息進行采集,對已有數(shù)據(jù)進行周期性的更新以獲取其最新的轉(zhuǎn)發(fā)和評論狀態(tài)。采集的信息源以及采集頻率都可以根據(jù)用戶需要,進行定制化配置,靈活性強。用戶還可自定義特定主題或事件,如〃莆田系”,從而對特定主題或事件進行專題監(jiān)測和追蹤,并由系統(tǒng)生成專題報道。由于不同數(shù)據(jù)源的格式千差萬別,在獲取信息前要對每個站點進行采集配置,以確保能夠及時準(zhǔn)確從網(wǎng)頁中采集標(biāo)題、內(nèi)容、作者、發(fā)文時間等內(nèi)容,并格式化存儲以方便之后的量化統(tǒng)計分析。2.2信息過濾模塊由于互聯(lián)網(wǎng)數(shù)據(jù)質(zhì)量參差不齊,各種垃圾信息(如廣告)充斥其中,智能的垃圾文識別算法可有效過濾廣告等無用信息。然后,可根據(jù)每個角色自身業(yè)務(wù)需求,進一步將這些數(shù)據(jù)分門別類,最終實現(xiàn)根據(jù)不同的需求呈現(xiàn)不同的數(shù)據(jù)。2.3信息分析模塊信息分析模塊能實現(xiàn)輿情信息自動提取摘要,自動識別與主題相關(guān)的內(nèi)容并自動聚類,對信息內(nèi)容進行正負(fù)面情感傾向性分析。除了及時篩選出重要的輿情信息之外,還要能識別出熱點話題,并根據(jù)該話題事件輿情信息的各個維度,包括人群分布、媒體分布、時間趨勢、地域分布、觀點分類等的統(tǒng)計及對數(shù)據(jù)的有效組織、分類,從多方面分析輿情信息的具體分布情況,從而分析事件的整體發(fā)展趨勢和現(xiàn)狀,以及網(wǎng)民對事件的觀點傾向。3模塊功能實現(xiàn)系統(tǒng)采用跨平臺的JAVA技術(shù),使采集系統(tǒng)可以在各種操作系統(tǒng)上運行。同時,為了解決數(shù)據(jù)量大引發(fā)的擴展性問題,底層數(shù)據(jù)的存儲和分發(fā)采用hadoop的相關(guān)技術(shù)實現(xiàn),機器學(xué)習(xí)相關(guān)的算法采用weka實現(xiàn)。3.1信息采集模塊采集器構(gòu)架(圖1)不但可以采集普通采集器所能實現(xiàn)的簡單的網(wǎng)頁采集,還可以執(zhí)行網(wǎng)頁上的動態(tài)腳本(如javascript,ajax等),以得到普通采集方式通過抓取靜態(tài)頁面無法獲取的信息。3.1.1動態(tài)網(wǎng)頁的采集越來越多的網(wǎng)站采用了動態(tài)頁面技術(shù)(即javascript、ajax等),典型的如博客、微博等網(wǎng)站,通過普通的靜態(tài)頁面只能采集到部分信息,甚至采集不到真正的頁面內(nèi)容。本系統(tǒng)的采集器內(nèi)采用了頁面動態(tài)構(gòu)建技術(shù),可以使采集到的頁面執(zhí)行頁面動態(tài)腳本得到與普通瀏覽器完全一致的頁面內(nèi)容。3.1.2采集范圍廣泛目前采集器的采集目標(biāo)包括微信公眾號、新聞、論壇、博客、微博、RSS等各種類型的站點。除了采集系統(tǒng)所設(shè)的目標(biāo)網(wǎng)站外,還能獲取各大搜索引擎的內(nèi)容,以獲取采集目標(biāo)站點外的信息作為重要補充。由于系統(tǒng)包含各目標(biāo)站點類型的配置信息,除了普通網(wǎng)絡(luò)采集器能夠采集到的網(wǎng)頁標(biāo)題、網(wǎng)頁更新時間、網(wǎng)頁內(nèi)容外,最大特點是可以根據(jù)此配置信息自動解析出普通網(wǎng)頁中輿情處理的結(jié)構(gòu)化信息,如標(biāo)題、內(nèi)容、發(fā)表時間、閱讀數(shù)、回復(fù)量、最新回復(fù)時間等。系統(tǒng)有定時的網(wǎng)站格式分析及監(jiān)測,在網(wǎng)站結(jié)構(gòu)改變時,能夠及時調(diào)整系統(tǒng)針對站點的配置設(shè)定以及時獲取正確的信息。采集系統(tǒng)除了采用常規(guī)的關(guān)鍵詞采集外,還能夠?qū)χ付ǖ恼军c實現(xiàn)全采集,即地毯式搜索,不遺漏任何輿情信息。另外,系統(tǒng)也能夠采集某些需要登錄才能看到內(nèi)容的網(wǎng)站,如某些論壇和微博站點,并且能夠采取各種措施有效繞過網(wǎng)站的反爬蟲技術(shù)實現(xiàn)輿情采集。3.2信息過濾模塊信息過濾模塊主要包括文章去重,垃圾文過濾和輿情預(yù)警3個部分。3.2.1文章去重互聯(lián)網(wǎng)中存在大量的重復(fù)頁面,統(tǒng)計表明系統(tǒng)所采集的數(shù)據(jù)中有超過50%的重復(fù)。檢測重復(fù)頁面對于減少重復(fù)工作量,提高數(shù)據(jù)質(zhì)量至關(guān)重要。同時,由于每天采集的文章量巨大,要實時計算每篇文章是否是近似重復(fù)文章對算法的計算速度具有很高的要求。因此系統(tǒng)采用7TF-IDF,I-match[7-8],Shingling[9-10]和JaccardIndex相結(jié)合的方式計算,對每篇文檔進行分詞,找出所有的停用詞,停用詞后面的連續(xù)兩個非停用詞詞串作為代表這篇文檔的詞串;計算所有這些詞串的IDF,去掉IDF太大和太小的詞串;利用I-match算法[7-8]計算和已經(jīng)有的文檔是否相似,如果相似則該篇文檔的計算結(jié)束,如果不相似則對每篇文檔計算其選取詞串的TFIDF,然后根據(jù)LSH計算是否和已經(jīng)有的文檔相似;對每篇文檔利用Shingling方法[9-10]計算其是否和已有文檔相似;對于任何可能相似的情況進一步計算所有詞串的JaccardIndex來過濾掉假陽性。3.2.2垃圾文過濾網(wǎng)絡(luò)所采集的大量文章中,很多都和醫(yī)療衛(wèi)生不相關(guān)。本系統(tǒng)采用weka文本分類技術(shù)對每篇采集的文本進行分類,可以將和醫(yī)療相關(guān)的文章篩選出來,過濾掉垃圾文。這一步篩選至關(guān)重要,其準(zhǔn)確性直接影響到后續(xù)數(shù)據(jù)分析中統(tǒng)計的正確性。3.2.3輿情預(yù)警系統(tǒng)通過關(guān)鍵詞匹配的方式從醫(yī)療衛(wèi)生相關(guān)的信息中過濾出敏感的輿情事件。為此,我們收集整理了和醫(yī)療衛(wèi)生相關(guān)的負(fù)面詞庫,其中包括諸如〃醫(yī)鬧”〃醫(yī)患”〃單獨兩孩”等詞。然后在系統(tǒng)過濾的基礎(chǔ)上,通過人工研判識別的方式篩選出重要信息,并根據(jù)信息的重要性和緊急程度,分成一般、重要、緊急3個級別,通過WEB端、PC端和手機客戶端等方式推送預(yù)警,以確保用戶能隨時隨地及時掌握最新重要輿情。3.3信息分析模塊圍繞過濾之后的數(shù)據(jù),系統(tǒng)會進行多方位的分析。其中分析技術(shù)包括熱點識別、熱詞發(fā)現(xiàn)、傾向性分析、地域識別、趨勢分析和媒體分析等?;谶@些分析結(jié)果,系統(tǒng)可通過圖形化的方式展示,具有較好的可視化效果。3.3.1熱點事彳件系統(tǒng)根據(jù)新聞熱點、關(guān)鍵詞、專題等信息進行熱度分析,考慮了信息來源、所處網(wǎng)頁位置、轉(zhuǎn)載、點擊、評論、回復(fù)和報道率等關(guān)鍵因素,對這些因素進行綜合排名,并支持以半小時為間隔的任意時間段進行統(tǒng)計分析,同時提供1天、3天、7天等時間序列的符合用戶精確度要求的分類熱點排行。此外,系統(tǒng)還可以對熱點信息進行持續(xù)追蹤,并通過趨勢分析圖和傳播鏈分析圖等技術(shù)幫助用戶了解熱點事件的報道趨勢以及來龍去脈,幫助用戶更好地對輿情進行研判。3.3.2熱詞發(fā)現(xiàn)系統(tǒng)在不斷更新的信息中尋找一定時期熱度較高的短語,如人名、地名、機構(gòu)名和其他常見短語。很多網(wǎng)絡(luò)熱詞是詞典中未收錄的新詞語,因此計算熱詞的時候,系統(tǒng)主要考慮兩個方面,一是出現(xiàn)的頻率信息越多,熱度越高;二是歷史波動信息曲線越陡,熱度越高。3.3.3傾向性分析情感傾向性分析具有極強的行業(yè)領(lǐng)域依賴性[11]。本系統(tǒng)通過建立面向衛(wèi)生行業(yè)領(lǐng)域的情感詞典,對輿情進行觀點傾向性分析,自動分析文章的傾向性為正面、負(fù)面還是中性,從而為輿情處理提供重要的分析依據(jù)。在實現(xiàn)上,本系統(tǒng)同樣采用weka技術(shù)實現(xiàn)文本的傾向性分類。3.3.4地域識別系統(tǒng)采用了實體名識別技術(shù),對其中的地域名詞進行識別,并且將每一個地域名詞歸類到全國的地域?qū)蛹壣?,從而實現(xiàn)全國范圍內(nèi)的地域識別。4結(jié)論我們設(shè)計開發(fā)的輿情監(jiān)測系統(tǒng)可實現(xiàn)7x24小時不間斷采集互聯(lián)網(wǎng)信息,通過系統(tǒng)智能過濾、強大的分析功能配合人工精細(xì)化服務(wù)的研判分析,及時有效地從互聯(lián)網(wǎng)上篩選出醫(yī)療衛(wèi)生行業(yè)相關(guān)的輿情事件并進行預(yù)警、專題追蹤和趨勢分析,同時通過Web端、PC輿情助手和手機客戶端,確保用戶隨時隨地都能準(zhǔn)確有效地掌握最新輿情動態(tài)并做出有效應(yīng)對。和其他輿情分析系統(tǒng)相比,本系統(tǒng)采集的數(shù)據(jù)源更廣,數(shù)據(jù)分類更智能,數(shù)據(jù)分析更完備,結(jié)合人工分析服務(wù),使輿情研判和預(yù)警更加精準(zhǔn)。但實際運行過程中尚存在一些需要完善的地方,主要包括以下3個方面?!禽浨槭录姆治?。一件輿情事件可能涉及到幾百至上百萬的文章,如何將每篇文章自動準(zhǔn)確地歸類于某一事件尚需進一步探索。雖然通過關(guān)鍵詞等方式可以解決大部分問題,但是有很多長尾文章不能簡單地通過關(guān)鍵詞的方式過濾。二是傾向性分析。由于自然語言處理的復(fù)雜性,對于一個事件的正負(fù)面評價以及網(wǎng)民評論傾向性分析并不是一件容易的事情,需要不斷完善系統(tǒng)中傾向性分類器的精度。三是境外外語輿情監(jiān)測功能欠缺[12]。主要存在聯(lián)通不暢、語言不支持、抓取不及時等短板,需加強境外站點的配置、語種語料庫等設(shè)置?!緟⒖嘉墨I】【相關(guān)文獻】王鳳皎.中國醫(yī)療輿情年度報告(2012)[J].新媒體與社會,2013(4):185-210.張祥.淺談醫(yī)療機構(gòu)網(wǎng)絡(luò)輿情的應(yīng)對[J].江蘇衛(wèi)生事業(yè)管理,2013(6):270-271.曹文獻積極應(yīng)對網(wǎng)絡(luò)輿情,有效促進和諧醫(yī)療[J].解放軍醫(yī)院管理雜志,2012,19(10):901-903.王宏偉.特大自然災(zāi)害的輿情監(jiān)控研究[J].中國公共安全,2008(Z1):11.郭巖,萬明,朱丹燕,等.公共衛(wèi)生網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)設(shè)計及實現(xiàn)[J].醫(yī)學(xué)信息學(xué)雜志,2011,32(8):6-9.馬梅,劉東蘇,李慧.基于大數(shù)據(jù)的網(wǎng)絡(luò)輿情分析系統(tǒng)模型研究[J].情報科學(xué),2016,34(3):25-28,33.ChowdhuryA,FriederO,GrossmanD,etal.Collec

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論