分析:大數(shù)據(jù)下的輿情監(jiān)測與預(yù)測_第1頁
分析:大數(shù)據(jù)下的輿情監(jiān)測與預(yù)測_第2頁
分析:大數(shù)據(jù)下的輿情監(jiān)測與預(yù)測_第3頁
免費預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

分析:大數(shù)據(jù)下的輿情監(jiān)測與預(yù)測

一、Web1.0與早期輿情監(jiān)測與即時通訊類的網(wǎng)絡(luò)應(yīng)用不同,博客、個人空間、微博都具有一定的公共性質(zhì),并被統(tǒng)稱為自媒體。自媒體的興盛,使其成為熱點輿情形成的重要推動者,而網(wǎng)絡(luò)輿情也成為社會輿情的重要組成部分。自媒體幾乎沒有準(zhǔn)入門檻,同時又具有匿名性,使用者的媒介素養(yǎng)良莠不齊,很容易產(chǎn)生各種失范現(xiàn)象;自媒體也不像傳統(tǒng)媒體那樣容易監(jiān)督,對于失范現(xiàn)象難以追溯源頭,同時給各方主體帶來影響輿論、把控輿論走向的機會,使得網(wǎng)絡(luò)輿情處于更加復(fù)雜的環(huán)境中。自媒體的網(wǎng)狀結(jié)構(gòu)又決定了網(wǎng)絡(luò)輿情可以快速發(fā)酵,甚至在短時間內(nèi)多次轉(zhuǎn)向,因此更加難以監(jiān)控和把握。而對自媒體勃興之后網(wǎng)絡(luò)輿情的監(jiān)測,傳統(tǒng)的現(xiàn)場調(diào)查、訪問調(diào)查、問卷調(diào)查等方式收效不佳,早期曾經(jīng)廣泛使用的網(wǎng)絡(luò)輿情監(jiān)測手段也暴露出了越來越多的問題。早期的網(wǎng)絡(luò)輿情監(jiān)測,主要是針對Web1.0設(shè)計的。互聯(lián)網(wǎng)發(fā)展至今經(jīng)歷了兩個階段:Web1.0和Web2.0。兩者的主要區(qū)別并不在于技術(shù)規(guī)范或物理設(shè)備,而是用戶之間以及用戶和網(wǎng)絡(luò)應(yīng)用之間的交互方式。在Web1.0時代,互聯(lián)網(wǎng)內(nèi)容主要由各大網(wǎng)站生產(chǎn),用戶和網(wǎng)站的交互主要體現(xiàn)為尋找和接受相應(yīng)的內(nèi)容,用戶之間也只能通過有限的方式進(jìn)行散落聯(lián)系。早期的網(wǎng)絡(luò)輿情監(jiān)測,就是針對這樣層次的交互而設(shè)計。流程大致是:一、通過相關(guān)樣本庫,把需要監(jiān)測的網(wǎng)頁進(jìn)行模板匹配,并設(shè)定為監(jiān)測數(shù)據(jù)源;二、應(yīng)用爬蟲程序抓取數(shù)據(jù),存儲到本地,再進(jìn)行數(shù)據(jù)的凈化和簡略的分析;三、利用簡單的圖表模板和文字描述,呈現(xiàn)監(jiān)測和分析的結(jié)果。早期的網(wǎng)絡(luò)輿情監(jiān)測方式有一些原生的問題,譬如:一、由于處理能力有限,只能抽取部分樣本進(jìn)行監(jiān)測,無法避免偶然誤差;二、文本分析算法的準(zhǔn)確度、監(jiān)測對象和系統(tǒng)模板匹配的程度、對數(shù)據(jù)的凈化,以及分析的算法等因素對于最后監(jiān)測結(jié)果的準(zhǔn)確度都有決定性的影響,無法避免系統(tǒng)誤差;三、將監(jiān)測的對象簡化為獨立的信息元,欠缺分析網(wǎng)絡(luò)內(nèi)容之間聯(lián)系的能力和預(yù)測能力。早期的網(wǎng)絡(luò)輿情監(jiān)測方式,盡管有很多問題,對Web1.0時代的離散的網(wǎng)絡(luò)內(nèi)容和單向的交互方式來說還可以適用。隨著互聯(lián)網(wǎng)發(fā)展到了Web2.0時代,早期網(wǎng)絡(luò)輿情監(jiān)測方式的局限性表現(xiàn)得日漸明顯,其監(jiān)測功能已經(jīng)弱化而無法適應(yīng)新的輿論環(huán)境。二、大數(shù)據(jù)技術(shù)下的網(wǎng)絡(luò)輿情監(jiān)測Web2.0時代最突出的特征就是更緊密的網(wǎng)狀結(jié)構(gòu)。用戶自主生成內(nèi)容使網(wǎng)絡(luò)內(nèi)容生產(chǎn)者數(shù)量呈幾何級增長,用戶與網(wǎng)站之間雙向交互,用戶與用戶之間也在進(jìn)行多渠道、多層次的立體的交互。Web2.0的網(wǎng)絡(luò)內(nèi)容不再是離散的,具有強烈的“關(guān)系”屬性。這種基于各種強弱關(guān)系的網(wǎng)狀結(jié)構(gòu),也直接使網(wǎng)絡(luò)輿情能夠快速成型、發(fā)酵,短時間內(nèi)可以多次轉(zhuǎn)向。Web2.0時代的輿情監(jiān)測,更關(guān)注“關(guān)系”,能夠更快速、更準(zhǔn)確地跟蹤輿情變化。這正是早期網(wǎng)絡(luò)輿情監(jiān)測的缺陷。新的輿論環(huán)境,需要加強網(wǎng)絡(luò)輿情的監(jiān)測,而新的網(wǎng)絡(luò)輿情,需要新的監(jiān)測方式。大數(shù)據(jù)技術(shù)下的網(wǎng)絡(luò)輿情監(jiān)測,就是這樣一種新的方式。自1980年以來,全球的數(shù)據(jù)存儲能力每40個月就翻一倍。不斷進(jìn)行量級上的增加的龐大數(shù)據(jù)量和數(shù)據(jù)背后蘊藏的信息,帶來了大數(shù)據(jù)時代。大數(shù)據(jù)通常指的是龐大、復(fù)雜,難以用傳統(tǒng)的軟件工具來分析處理的數(shù)據(jù)集。對大數(shù)據(jù)的處理,又牽涉到從數(shù)據(jù)抓取、整理、分析、共享、可視化到存儲、傳輸?shù)纫幌盗袉栴}。大數(shù)據(jù)集合常常來源于日常生活,與人的行動、交往有一定的同構(gòu)性,部分條目直接附加了時間、地理等信息。可以說,在大數(shù)據(jù)的數(shù)據(jù)集合中天然蘊含著各種關(guān)系。因此,大數(shù)據(jù)集合能提供同數(shù)據(jù)量的若干小數(shù)據(jù)集合無法帶來的新信息。人們可以通過數(shù)據(jù)挖掘?qū)ふ覕?shù)據(jù)之間的聯(lián)系,確立數(shù)據(jù)之間相關(guān)關(guān)系的規(guī)律,進(jìn)而提供多方面的預(yù)測。顯而易見,大數(shù)據(jù)處理技術(shù)的優(yōu)勢,正契合了Web2.0時代的特點。正因為大數(shù)據(jù)在挖掘數(shù)據(jù)之間的關(guān)系、進(jìn)行發(fā)展趨勢預(yù)測方面的能力,已經(jīng)有很多機構(gòu)借助其進(jìn)行輿情監(jiān)測和呈現(xiàn),并取得了不俗的成績。譬如在新聞業(yè),就有不少國際傳媒機構(gòu)已經(jīng)在各種項目中采用了大數(shù)據(jù)分析和數(shù)據(jù)可視化技術(shù),如BBC以及《衛(wèi)報》《華盛頓郵報》《紐約時報》等。三、大數(shù)據(jù)帶來輿情預(yù)測的新可能“預(yù)測”本身就是大數(shù)據(jù)的一個重要應(yīng)用。針對同一主題的海量數(shù)據(jù)進(jìn)行分析,經(jīng)過數(shù)據(jù)挖掘和建模后,可以得到相應(yīng)的預(yù)測模型,進(jìn)而預(yù)測將來的發(fā)展趨勢。譬如奧巴馬競選團隊,就在2012年競選的多個環(huán)節(jié)運用了大數(shù)據(jù)技術(shù),特別是在實時監(jiān)測選民意向、預(yù)測投票情況方面。競選團隊每晚都會使用特制的模擬大選的模型,根據(jù)實時監(jiān)測的選民意向模擬大選,并在第二天上午根據(jù)模擬結(jié)果對各州重新分配競選資源。這種對輿情的實時監(jiān)控和預(yù)測對奧巴馬2012年總統(tǒng)連任起到了重要作用。麻省理工學(xué)院博士內(nèi)森·凱樂斯的一項以2013年埃及爆發(fā)的民眾抗議活動的大數(shù)據(jù)預(yù)測為主要案例的研究,獲取了全球范圍主流媒體新聞、政府出版物、社交媒體、博客等各種類型超過三百萬個數(shù)據(jù)源的目標(biāo)數(shù)據(jù)。其證明可以通過大數(shù)據(jù)技術(shù)和特定模型來發(fā)掘公眾的情緒、態(tài)度變化,并最終預(yù)測以大型抗議活動為代表的大型公共事件的發(fā)生,包括事件即將發(fā)生的時間地點。而這還僅僅是一個開始。大數(shù)據(jù)有不同的來源,互聯(lián)網(wǎng)中以自媒體為代表的各種原創(chuàng)內(nèi)容持續(xù)爆炸式增長,各種移動通訊設(shè)備、可穿戴設(shè)備也在不停地產(chǎn)生和存儲、傳遞各種數(shù)據(jù),除此之外的數(shù)據(jù)來源還有麥克風(fēng)、攝像頭記錄的音頻、視頻數(shù)據(jù),運營數(shù)據(jù),遙感數(shù)據(jù)等等。按照來源不同,數(shù)據(jù)大致可以分為三類,即以自媒體內(nèi)容為代表的用戶原創(chuàng)數(shù)據(jù)、各種經(jīng)營活動中產(chǎn)生的運營數(shù)據(jù)(如銷售記錄、醫(yī)療記錄等)、感知數(shù)據(jù)(如各種可穿戴設(shè)備獲取的數(shù)據(jù))。其中用戶原創(chuàng)數(shù)據(jù)對輿情監(jiān)測的重要性已經(jīng)顯現(xiàn),而對其他數(shù)據(jù)來源的大數(shù)據(jù)分析、不同數(shù)據(jù)來源的融合分析,也蘊含著巨大的輿情預(yù)測潛力。與用戶原創(chuàng)數(shù)據(jù)相比,感知數(shù)據(jù)和運營數(shù)據(jù)似乎與“輿情”沒有直接聯(lián)系。然而,輿情從來不是孤立地存在的,輿情的發(fā)酵、轉(zhuǎn)向源于現(xiàn)實社會的事件和環(huán)境,輿情的發(fā)展又會影響現(xiàn)實活動。而感知數(shù)據(jù)和運營數(shù)據(jù)和人們?nèi)粘I罹哂型瑯?gòu)性,甚至直接記錄著人們的舉動和身體變化。如可穿戴設(shè)備,已經(jīng)可以檢測使用者的心跳、體溫、血液含氧量等數(shù)據(jù),并通過模型分析使用者的情緒變化。而對位置移動、購買行為的相關(guān)數(shù)據(jù)的監(jiān)測,以及基于這些數(shù)據(jù)對個人行動的預(yù)測,更是已經(jīng)投入營銷活動的應(yīng)用。在這些感知數(shù)據(jù)、運營數(shù)據(jù)中可以獲知人們的情緒、態(tài)度、日常行動的變化,也

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論