版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第五章網(wǎng)絡(luò)輿情監(jiān)測技術(shù)主講:XXX導(dǎo)言
網(wǎng)絡(luò)輿情監(jiān)測技術(shù)非常復(fù)雜,涉及許多計(jì)算機(jī)與網(wǎng)絡(luò)等方面的專業(yè)知識(shí),對(duì)于新聞與傳播的從業(yè)者和研究者而言,掌握網(wǎng)絡(luò)輿情監(jiān)測相關(guān)的基本技術(shù)原理,把握技術(shù)的基本發(fā)展方向以及它們對(duì)于網(wǎng)絡(luò)輿情監(jiān)測的影響,是十分必要的。目錄第一節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)采集第二節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)分析第三節(jié)網(wǎng)絡(luò)輿情監(jiān)測可視化技術(shù)第四節(jié)大數(shù)據(jù)時(shí)代網(wǎng)絡(luò)輿情監(jiān)測技術(shù)遇到的挑戰(zhàn)基礎(chǔ)概念:索引統(tǒng)一資源定位符(UniformResourceLocator,URL)是對(duì)可以從互聯(lián)網(wǎng)上得到的資源的位置和訪問方法的一種簡潔的表示,是互聯(lián)網(wǎng)上標(biāo)準(zhǔn)資源的地址?;ヂ?lián)網(wǎng)上的每個(gè)文件都有一個(gè)唯一的URL,它包含的信息指出文件的位置以及瀏覽器應(yīng)該怎么處理它。只要能夠?qū)Y源定位,系統(tǒng)就可以對(duì)資源進(jìn)行各種操作,如存取、更新、替換和查找其屬性?;A(chǔ)概念:索引在關(guān)系數(shù)據(jù)庫中,索引是一種單獨(dú)的、物理的對(duì)數(shù)據(jù)庫表中一列或多列的值進(jìn)行排序的一種存儲(chǔ)結(jié)構(gòu),它是某個(gè)表中一列或若干列值的集合和相應(yīng)的指向表中物理標(biāo)識(shí)這些值的數(shù)據(jù)頁的邏輯指針清單。索引的作用相當(dāng)于圖書的目錄,可以根據(jù)目錄中的頁碼快速找到所需的內(nèi)容。第一節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)采集
(一)網(wǎng)絡(luò)爬蟲網(wǎng)絡(luò)爬蟲(又被稱為網(wǎng)頁蜘蛛、網(wǎng)絡(luò)機(jī)器人),是一種按照一定的規(guī)則自動(dòng)地抓取互聯(lián)網(wǎng)信息的程序或者腳本。一、數(shù)據(jù)采集基本技術(shù)第一節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)采集
(一)網(wǎng)絡(luò)爬蟲1.網(wǎng)絡(luò)爬蟲的類型(1)批量型爬蟲:批量型爬蟲有比較明確的抓取范圍和目標(biāo),當(dāng)爬蟲達(dá)到這個(gè)設(shè)定的目標(biāo)后,即停止抓取過程。批量型爬蟲是目前數(shù)據(jù)采集系統(tǒng)中最簡單的爬蟲系統(tǒng)。(2)增量型爬蟲:增量型爬蟲會(huì)保持持續(xù)不斷的抓取,對(duì)于已經(jīng)抓取過的網(wǎng)頁會(huì)按照一定策略定期更新。增量型爬蟲是目前數(shù)據(jù)采集系統(tǒng)中最常用的爬蟲系統(tǒng)。(3)垂直型爬蟲:垂直型爬蟲只關(guān)注特定主題或特定行業(yè)的網(wǎng)頁,其最大的挑戰(zhàn)就是如何識(shí)別網(wǎng)頁的內(nèi)容是否屬于指定行業(yè)或主題。一般只有垂直行業(yè)分析才會(huì)需要此類型的爬蟲。一、數(shù)據(jù)采集基本技術(shù)第一節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)采集
(一)網(wǎng)絡(luò)爬蟲2.網(wǎng)絡(luò)爬蟲的特性(1)高性能:爬蟲系統(tǒng)在單位時(shí)間內(nèi)下載的網(wǎng)頁數(shù)量越多性能越高。(2)可擴(kuò)展性:爬蟲系統(tǒng)應(yīng)該很容易通過增加抓取服務(wù)器和爬蟲數(shù)量來縮短抓取周期。(3)健壯性:包括兩方面,一是爬蟲系統(tǒng)可以處理抓取中遇到的各種非正常情況,二是爬蟲系統(tǒng)自身有一套健壯的容錯(cuò)機(jī)制。(4)友好性:包括兩方面,一是保護(hù)網(wǎng)站的部分私密性,二是減少被抓取網(wǎng)站的網(wǎng)絡(luò)負(fù)載。一、數(shù)據(jù)采集基本技術(shù)第一節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)采集
(二)網(wǎng)頁去重在當(dāng)今的互聯(lián)網(wǎng)環(huán)境中,有相當(dāng)大比例的內(nèi)容是完全相同或者大體相近的。這些網(wǎng)頁不僅會(huì)增加數(shù)據(jù)采集系統(tǒng)的壓力,而且會(huì)影響后續(xù)數(shù)據(jù)分析結(jié)果的質(zhì)量,所以網(wǎng)頁去重的問題尤為突出,已經(jīng)成為提高數(shù)據(jù)質(zhì)量的關(guān)鍵技術(shù)之一。在實(shí)際的數(shù)據(jù)采集系統(tǒng)中,往往是在爬蟲階段進(jìn)行網(wǎng)頁去重操作。當(dāng)爬蟲新抓取到網(wǎng)頁時(shí),需要和已經(jīng)建立到索引內(nèi)的網(wǎng)頁進(jìn)行重復(fù)判斷,如果判斷是近似重復(fù)網(wǎng)頁,則按一定策略進(jìn)行處理,如直接丟棄、打上相似標(biāo)簽。一、數(shù)據(jù)采集基本技術(shù)第一節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)采集
(三)分布式技術(shù)分布式計(jì)算是一門計(jì)算機(jī)科學(xué),它研究如何把一個(gè)需要非常巨大的計(jì)算能力才能解決的問題分成許多小的部分,然后把這些部分分配給許多計(jì)算機(jī)進(jìn)行處理,最后把這些計(jì)算結(jié)果綜合起來得到最終的結(jié)果。面對(duì)海量的數(shù)據(jù)抓取任務(wù),只有采取分布式架構(gòu)才有可能在較短的時(shí)間周期內(nèi)完成一輪抓取工作。常見的分布式架構(gòu)有兩種:主從式分布爬蟲和對(duì)等式分布爬蟲。一、數(shù)據(jù)采集基本技術(shù)第一節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)采集
(三)分布式技術(shù)1.主從式分布爬蟲(master-slave)是分布式技術(shù)中最傳統(tǒng)的也是最常見的一種形式,它指不同的服務(wù)器承擔(dān)著不同的角色,其中有一臺(tái)專門的master服務(wù)器來維護(hù)待抓取的URL(universalresourcelocator,統(tǒng)一資源定位符)隊(duì)列,它負(fù)責(zé)每次將URL分發(fā)到不同的slave服務(wù)器,而slave服務(wù)器則負(fù)責(zé)實(shí)際的網(wǎng)頁下載工作。Master服務(wù)器除了維護(hù)待抓取URL隊(duì)列以及分發(fā)URL之外,還要負(fù)責(zé)調(diào)解各個(gè)slave服務(wù)器的負(fù)載情況,以免某些slave服務(wù)器過于清閑或者勞累。一、數(shù)據(jù)采集基本技術(shù)第一節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)采集
(三)分布式技術(shù)1.主從式分布爬蟲(master-slave)一、數(shù)據(jù)采集基本技術(shù)第一節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)采集
(三)分布式技術(shù)2.對(duì)等式分布爬蟲(peertopeer)對(duì)等式分布爬蟲體系中,服務(wù)器之間不存在分工差異,每臺(tái)服務(wù)器都承擔(dān)著一樣的功能,各自負(fù)責(zé)一部分URL的抓取工作。由于沒有URL服務(wù)器存在,如何分工就成了主要問題。一、數(shù)據(jù)采集基本技術(shù)第一節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)采集
二、數(shù)據(jù)采集原理第一節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)采集
網(wǎng)絡(luò)爬蟲的基本工作流程如下:(1)首先選取一部分精心挑選的種子URL。(2)將這些URL放入待抓取URL隊(duì)列。(3)從待抓取的URL隊(duì)列中取出待抓取的URL,解析DNS,并且得到主機(jī)的IP,將URL對(duì)應(yīng)的網(wǎng)頁下載下來,存儲(chǔ)進(jìn)已下載網(wǎng)頁庫中。此外,將這些URL放進(jìn)已抓取URL隊(duì)列。(4)分析已抓取URL隊(duì)列中的URL,分析其中的其他URL,并且將URL放入待抓取URL隊(duì)列,從而進(jìn)入下一個(gè)循環(huán)。二、數(shù)據(jù)采集原理第一節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)采集
(一)網(wǎng)頁搜索策略1.廣度優(yōu)先搜索策略廣度優(yōu)先策略是指在抓取過程中,在完成當(dāng)前層次的搜索后,才進(jìn)行下一層次的搜索。2.最佳優(yōu)先搜索策略按照一定的網(wǎng)頁分析算法,預(yù)測候選URL與目標(biāo)網(wǎng)頁的相似度,并選取最好的一個(gè)或幾個(gè)URL進(jìn)行抓取。只訪問經(jīng)過網(wǎng)頁分析算法預(yù)測為“有用”的網(wǎng)頁。3.深度優(yōu)先策略從起始網(wǎng)頁開始,選擇一個(gè)URL進(jìn)入,分析這個(gè)網(wǎng)頁中的URL,選擇一個(gè)再進(jìn)入。三、數(shù)據(jù)采集常用方法第一節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)采集
(二)網(wǎng)頁更新策略1.歷史參考策略是最直觀的一種更新策略,它建立于如下假設(shè)之上:過去頻繁更新的網(wǎng)頁,那么將來也會(huì)頻繁更新,所以為了預(yù)估某個(gè)網(wǎng)頁何時(shí)進(jìn)行更新,可以通過參考其歷史更新情況來做出決定。三、數(shù)據(jù)采集常用方法第一節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)采集
(二)網(wǎng)頁更新策略2.用戶體驗(yàn)策略一般來說,用戶提交查詢結(jié)果后,相關(guān)的搜索結(jié)果可能成千上萬,而用戶沒有耐心去查看排在后面的搜索結(jié)果,往往只看前三頁的搜索內(nèi)容,用戶體驗(yàn)策略就是利用搜索引擎用戶的這個(gè)特點(diǎn)來涉及更新策略的。三、數(shù)據(jù)采集常用方法第一節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)采集
(二)網(wǎng)頁更新策略3.聚類抽樣策略網(wǎng)頁一般具有一些屬性,根據(jù)這些屬性可以預(yù)測其更新周期,具有相似屬性的網(wǎng)頁,其更新周期也是類似的。于是,可以根據(jù)這些屬性將網(wǎng)頁歸類,同一類別內(nèi)的網(wǎng)頁具有相同的更新頻率,并通過對(duì)各類別內(nèi)網(wǎng)頁采樣的方式來確定更新周期。三、數(shù)據(jù)采集常用方法第二節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)分析
(一)全文檢索技術(shù)——負(fù)責(zé)命中目標(biāo)信息全文檢索技術(shù)是按照全文檢索理論建立起來的用于提供全文檢索服務(wù)的軟件系統(tǒng)。一般來說,全文檢索需要具備建立索引和提供查詢的基本功能,還需要具有方便的用戶接口、面向WWW的開發(fā)接口等。在功能上,全文檢索系統(tǒng)核心具有建立索引、處理查詢返回結(jié)果集、增加索引、優(yōu)化索引結(jié)構(gòu)等功能,外圍則由各種不同應(yīng)用具有的功能組成。在結(jié)構(gòu)上,全文檢索系統(tǒng)核心具有索引引擎、查詢引擎、文本分析引擎、對(duì)外接口等,加上各種外圍應(yīng)用系統(tǒng)等共同構(gòu)成了全文檢索系統(tǒng)。一、數(shù)據(jù)分析基本技術(shù)第二節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)分析
(二)文本挖掘技術(shù)——負(fù)責(zé)對(duì)數(shù)據(jù)進(jìn)行挖掘分析文本挖掘是一個(gè)對(duì)具有豐富語義的文本進(jìn)行分析從而理解其所包含的內(nèi)容和意義的過程,它已經(jīng)成為數(shù)據(jù)挖掘中一個(gè)日益流行而重要的研究領(lǐng)域。與一般數(shù)據(jù)挖掘以關(guān)系、事務(wù)和數(shù)據(jù)倉庫中的結(jié)構(gòu)數(shù)據(jù)為研究目標(biāo)所不同的是,文本挖掘所研究的文本數(shù)據(jù)庫由來自各種數(shù)據(jù)源的大量文檔組成,包括新聞文章、研究論文、書籍、期刊、報(bào)告、專利說明書、會(huì)議文獻(xiàn)、技術(shù)檔案、政府出版物、數(shù)字圖書館、技術(shù)標(biāo)準(zhǔn)、產(chǎn)品樣本、電子郵件消息、web頁面等。一、數(shù)據(jù)分析基本技術(shù)第二節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)分析
(二)文本挖掘技術(shù)——負(fù)責(zé)對(duì)數(shù)據(jù)進(jìn)行挖掘分析文本挖掘技術(shù)在網(wǎng)絡(luò)輿情信息分析中的應(yīng)用:對(duì)網(wǎng)絡(luò)輿情進(jìn)行描述;對(duì)網(wǎng)絡(luò)輿情的關(guān)聯(lián)性進(jìn)行分析;對(duì)網(wǎng)絡(luò)輿情信息的真實(shí)性進(jìn)行判斷分析,對(duì)傳播主體的意圖及態(tài)度傾向進(jìn)行推論;對(duì)網(wǎng)絡(luò)輿情的產(chǎn)生原因進(jìn)行分析;預(yù)測和推論網(wǎng)絡(luò)輿情信息的產(chǎn)生和變化趨勢(shì);一、數(shù)據(jù)分析基本技術(shù)第二節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)分析
(一)全文檢索技術(shù)原理目前全文搜索引擎通常使用倒排索引技術(shù)。倒排索引(invertedindex),也常被稱為反向索引、置入檔案或反向檔案,是一種索引方法,被用來存儲(chǔ)在全文搜索下某個(gè)單詞在一個(gè)文檔或者一組文檔中的存儲(chǔ)位置的映射。它是文檔檢索系統(tǒng)中最常用的數(shù)據(jù)結(jié)構(gòu)。二、數(shù)據(jù)分析原理知識(shí)延伸:正向索引在搜索引擎中每個(gè)文件都對(duì)應(yīng)一個(gè)文件ID,文件內(nèi)容被表示為一系列關(guān)鍵詞的集合(實(shí)際上在搜索引擎索引庫中,關(guān)鍵詞也已經(jīng)轉(zhuǎn)換為關(guān)鍵詞ID)。例如“文檔1”經(jīng)過分詞,提取了20個(gè)關(guān)鍵詞,每個(gè)關(guān)鍵詞都會(huì)記錄它在文檔中的出現(xiàn)次數(shù)和出現(xiàn)位置。第二節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)分析
(二)文本挖掘技術(shù)原理步驟:二、數(shù)據(jù)分析原理第二節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)分析
(二)文本挖掘技術(shù)原理步驟:(1)文本預(yù)處理:選取任務(wù)相關(guān)的文本并將其轉(zhuǎn)化成文本挖掘工具可以處理的中間形式。(2)文本挖掘:在完成文本預(yù)處理后,可以利用機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘以及模式識(shí)別等方法提取面向特定應(yīng)用目標(biāo)的知識(shí)或模式。(3)模式評(píng)估與表示:為最后一個(gè)環(huán)節(jié),是利用已經(jīng)定義好的評(píng)估指標(biāo)對(duì)獲取的知識(shí)或模式進(jìn)行評(píng)價(jià)。如果評(píng)價(jià)結(jié)果符合要求,就存儲(chǔ)該模式以備用戶使用;否則返回到前面的某個(gè)環(huán)節(jié)重新調(diào)整和改進(jìn),然后再進(jìn)行新一輪的發(fā)現(xiàn)。二、數(shù)據(jù)分析原理第二節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)分析
(二)文本挖掘技術(shù)原理二、數(shù)據(jù)分析原理第二節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)分析
(一)文檔聚類首先,文檔聚類基于文檔之間的相似度,可以發(fā)現(xiàn)與某文檔相似的一批文檔,幫助知識(shí)工作者發(fā)現(xiàn)相關(guān)知識(shí);其次,文檔聚類可以將一個(gè)文檔聚類成若干個(gè)類,提供一種組織文檔集合的方法;再次,文檔聚類還可以生成分類器以對(duì)文檔進(jìn)行分類。聚類方法通常有:文本挖掘中的聚類可用于提供大規(guī)模文檔集內(nèi)容的總括,識(shí)別隱藏的文檔間的相似度,減輕瀏覽相關(guān)、相似信息的過程。三、數(shù)據(jù)分析常用文本挖掘算法第二節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)分析
(二)文檔分類分類和聚類的區(qū)別在于:分類是基于已有的分類體系表的,而聚類則沒有分類表,只是基于文檔之間的相似度。由于分類體系表一般比較準(zhǔn)確、科學(xué)地反映了某一個(gè)領(lǐng)域的劃分情況,所以在信息系統(tǒng)中使用分類的方法,能夠讓用戶手工遍歷一個(gè)等級(jí)分類體系來找到自己需要的信息,達(dá)到發(fā)現(xiàn)知識(shí)的目的,這在用戶剛開始接觸一個(gè)領(lǐng)域想了解其中的情況,或者用戶不能夠準(zhǔn)確地表達(dá)自己的信息需求時(shí)特別有用。傳統(tǒng)搜索引擎中目錄式搜索引擎屬于分類的范疇,但是許多目錄式搜索引擎都采用人工分類的方法,不僅工作量巨大,而且準(zhǔn)確度不高,大大限制了其作用的發(fā)揮。三、數(shù)據(jù)分析常用文本挖掘算法第二節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)分析
(三)自動(dòng)文摘互聯(lián)網(wǎng)上的文本信息、機(jī)構(gòu)內(nèi)部的文檔及數(shù)據(jù)庫的內(nèi)容都在以呈指數(shù)級(jí)的速度增長,用戶在檢索信息的時(shí)候,可以得到成千上萬篇的返回結(jié)果,其中許多是與其信息需求無關(guān)或關(guān)系不大的,如果要剔除這些文檔,則必須閱讀完全文,這要求用戶付出很多勞動(dòng),而且效果不好。自動(dòng)文摘能夠生成簡短的關(guān)于文檔內(nèi)容的指示性信息,將文檔的主要內(nèi)容呈現(xiàn)給用戶,方便用戶決定是否要閱讀文檔的原文,這樣能夠節(jié)省大量的瀏覽時(shí)間。三、數(shù)據(jù)分析常用文本挖掘算法第三節(jié)網(wǎng)絡(luò)輿情監(jiān)測可視化技術(shù)
數(shù)據(jù)可視化(datavisualization)是研究數(shù)據(jù)和信息視覺呈現(xiàn)的學(xué)科。它解決的問題一方面是如何將冰冷枯燥的數(shù)據(jù)和信息用有趣直觀的方式呈現(xiàn)給受眾,另一方面也是視覺分析的方法,幫助人們理解大量的復(fù)雜的數(shù)據(jù)背后隱藏的故事和洞察。它是將計(jì)算機(jī)科學(xué)領(lǐng)域的理性邏輯思維與藝術(shù)設(shè)計(jì)領(lǐng)域的視覺傳達(dá)思維相結(jié)合的一種方式。一、數(shù)據(jù)可視化技術(shù)介紹第三節(jié)網(wǎng)絡(luò)輿情監(jiān)測可視化技術(shù)
圖形是直觀呈現(xiàn)數(shù)據(jù)的直接方法。然而,將大量數(shù)據(jù)在同一個(gè)圖表中畫出來并不容易。早期的測繪、天氣數(shù)據(jù)都需要長時(shí)間的手工繪制。隨著計(jì)算機(jī)繪圖功能的開發(fā),手工繪畫已經(jīng)完全被自動(dòng)繪圖程序取代,其問題的核心轉(zhuǎn)移為要以怎樣的方式呈現(xiàn)數(shù)據(jù),以便數(shù)據(jù)中的信息能自然地體現(xiàn)出來。一、數(shù)據(jù)可視化技術(shù)介紹第三節(jié)網(wǎng)絡(luò)輿情監(jiān)測可視化技術(shù)
可視化不是一個(gè)單獨(dú)的算法,而是一個(gè)流程。一般來講,可視化流程以數(shù)據(jù)流向?yàn)橹骶€,整個(gè)過程可以看成數(shù)據(jù)流經(jīng)一系列處理模塊并得到轉(zhuǎn)換的過程。用戶通過可視化交互和其他模塊互動(dòng),通過反饋提高可視化的效果。作為探索數(shù)據(jù)的工具,可視化有它的輸入和輸出??梢暬膶?duì)象或者說研究的問題并非數(shù)據(jù)本身,而是數(shù)據(jù)背后的社會(huì)自然現(xiàn)在和過程。換個(gè)角度來看,可視化的最終結(jié)果并不是人們所看到的一系列像素,而是用戶通過可視化從數(shù)據(jù)中得到的知識(shí)和靈感。二、數(shù)據(jù)可視化原理第三節(jié)網(wǎng)絡(luò)輿情監(jiān)測可視化技術(shù)
(一)可視化流水線可視化流水線模型,描述了從數(shù)據(jù)空間到可視空間的映射,包含串行數(shù)據(jù)處理的各個(gè)階段:數(shù)據(jù)分析、數(shù)據(jù)過濾、數(shù)據(jù)映射和數(shù)據(jù)渲染。二、數(shù)據(jù)可視化原理第三節(jié)網(wǎng)絡(luò)輿情監(jiān)測可視化技術(shù)
(二)信息可視化參考流程其起點(diǎn)為輸入的數(shù)據(jù),終點(diǎn)是獲取的知識(shí)。從數(shù)據(jù)到知識(shí)有兩個(gè)途徑:對(duì)數(shù)據(jù)進(jìn)行交互可視化,以幫助用戶感知數(shù)據(jù)中蘊(yùn)含的規(guī)律;或按照給定的先驗(yàn)假設(shè)進(jìn)行數(shù)據(jù)挖掘,從數(shù)據(jù)中直接提煉出數(shù)據(jù)模型。用戶既可以對(duì)可視化結(jié)果進(jìn)行交互修正,也可以調(diào)節(jié)參數(shù)來修正模型。二、數(shù)據(jù)可視化原理第三節(jié)網(wǎng)絡(luò)輿情監(jiān)測可視化技術(shù)
(二)信息可視化參考流程其起點(diǎn)為輸入的數(shù)據(jù),終點(diǎn)是獲取的知識(shí)。從數(shù)據(jù)到知識(shí)有兩個(gè)途徑:對(duì)數(shù)據(jù)進(jìn)行交互可視化,以幫助用戶感知數(shù)據(jù)中蘊(yùn)含的規(guī)律;或按照給定的先驗(yàn)假設(shè)進(jìn)行數(shù)據(jù)挖掘,從數(shù)據(jù)中直接提煉出數(shù)據(jù)模型。用戶既可以對(duì)可視化結(jié)果進(jìn)行交互修正,也可以調(diào)節(jié)參數(shù)來修正模型。二、數(shù)據(jù)可視化原理第四節(jié)大數(shù)據(jù)時(shí)代網(wǎng)絡(luò)輿情監(jiān)測技術(shù)遇到的挑戰(zhàn)
最早提出“大數(shù)據(jù)”這一說法的是美國麥肯錫全球研究院(MGI)于2011年5月發(fā)表的一篇研究報(bào)告《大數(shù)據(jù):未來創(chuàng)新、競爭、生產(chǎn)力的指向標(biāo)》。這篇報(bào)告預(yù)示了大數(shù)據(jù)時(shí)代的到來:“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對(duì)于海量數(shù)據(jù)的挖掘和運(yùn)用預(yù)示著新一波生產(chǎn)率增長和消費(fèi)者盈余浪潮的到來?!本S克托·邁爾舍恩伯格在《大數(shù)據(jù)時(shí)代》一書中所列舉的大量例證都是為了說明一個(gè)道理:在大數(shù)據(jù)時(shí)代已經(jīng)到來的時(shí)候要用大數(shù)據(jù)思維去發(fā)掘大數(shù)據(jù)的潛在價(jià)值。一、大數(shù)據(jù)的由來第四節(jié)大數(shù)據(jù)時(shí)代網(wǎng)絡(luò)輿情監(jiān)測技術(shù)遇到的挑戰(zhàn)
Volume(大量):數(shù)據(jù)體量巨大。大數(shù)據(jù)的起始計(jì)量單位至少是P(1000個(gè)T)、E(100萬個(gè)T)或Z(10億個(gè)T)。Velocity(高速):處理速度快。Variety(多樣):數(shù)據(jù)類型繁多。比如,網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等。Value(價(jià)值):價(jià)值密度低,商業(yè)價(jià)值高。二、大數(shù)據(jù)的特征第四節(jié)大數(shù)據(jù)時(shí)代網(wǎng)絡(luò)輿情監(jiān)測技術(shù)遇到的挑戰(zhàn)
(一)大數(shù)據(jù)時(shí)代,對(duì)信息的加工是基礎(chǔ)。據(jù)互聯(lián)網(wǎng)專家介紹,大數(shù)據(jù)體量巨大,非結(jié)構(gòu)化數(shù)據(jù)的超大規(guī)模和增長分別占總數(shù)據(jù)量的80%~90%,比結(jié)構(gòu)化數(shù)據(jù)增長快10~50倍。從輿情產(chǎn)品服務(wù)的角度看,濃縮海量信息、抵抗“數(shù)據(jù)爆炸”已成為輿情工作的基本要求。因此,掌握數(shù)據(jù)抓取能力與輿情解讀能力,通過加工實(shí)現(xiàn)數(shù)據(jù)的增值,將是未來輿情分析的必備技能。三、大數(shù)據(jù)對(duì)輿情的價(jià)值和影響第四節(jié)大數(shù)據(jù)時(shí)代網(wǎng)絡(luò)輿情監(jiān)測技術(shù)遇到的挑戰(zhàn)
(二)大數(shù)據(jù)時(shí)代,對(duì)數(shù)據(jù)的解釋是關(guān)鍵。目前,數(shù)據(jù)的可獲得度已經(jīng)空前提高,我們可以分析更多的數(shù)據(jù),有時(shí)候甚至可以處理與某種特別現(xiàn)象相關(guān)的所有數(shù)據(jù),實(shí)現(xiàn)真正的大數(shù)據(jù)挖掘和分析。數(shù)據(jù)的海量、及時(shí)、動(dòng)態(tài)、開放有利于我們完善分析的效度和深度。同時(shí),大數(shù)據(jù)也有價(jià)值密度低、傳播速度快等特點(diǎn),數(shù)據(jù)分析的模式是否科學(xué),將直接影響數(shù)據(jù)分析的質(zhì)量。三、大數(shù)據(jù)對(duì)輿情的價(jià)值和影響第四節(jié)大數(shù)據(jù)時(shí)代網(wǎng)絡(luò)輿情監(jiān)測技術(shù)遇到的挑戰(zhàn)
(三)大數(shù)據(jù)時(shí)代,對(duì)趨勢(shì)的研判是目標(biāo)。
大數(shù)據(jù)的核心和目標(biāo)就是預(yù)測,具體到輿情服務(wù),輿情工作人員從互聯(lián)網(wǎng)浩如煙海的數(shù)據(jù)中挖掘信息、判斷趨勢(shì)、提高效益,雖然獲得廣泛且實(shí)際的應(yīng)用,但還遠(yuǎn)遠(yuǎn)不夠。輿情分析人員要不斷增強(qiáng)關(guān)聯(lián)輿情信息的分析和預(yù)測,把服務(wù)的重點(diǎn)從單純的搜集有效數(shù)據(jù)向?qū)浨榈纳钊胙信型卣?,跟蹤關(guān)聯(lián)輿情,不再局限于危機(jī)解決,要輔之以決策參考,從注重“靜態(tài)搜集”向注重“動(dòng)態(tài)跟蹤”拓展,從致力于“反映問題”向致力于“解決問題”拓展,使輿情產(chǎn)品和服務(wù)“更高、更快、更強(qiáng)”(視點(diǎn)高、預(yù)警快、處置強(qiáng))。三、大數(shù)據(jù)對(duì)輿情的價(jià)值和影響第四節(jié)大數(shù)據(jù)時(shí)代網(wǎng)絡(luò)輿情監(jiān)測技術(shù)遇到的挑戰(zhàn)
(四)大數(shù)據(jù)時(shí)代,分眾服務(wù)是方向。數(shù)據(jù)的互通互聯(lián)改變了數(shù)據(jù)庫、應(yīng)用軟件和用戶界面等系統(tǒng)之間的“孤島”狀態(tài)。輿情服務(wù)機(jī)構(gòu)應(yīng)樹立大輿情觀
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 頻道包裝合同模板
- 施工合同模板合集
- 高危行業(yè)用人合同模板
- 房屋建筑學(xué)課件
- 電路安裝合同模板
- 餐飲咨詢合同模板
- 爐具購買合同模板
- 首鋼股合同模板
- 食品fob合同模板
- 肯德基假期兼職合同模板
- 短線趨勢(shì)主圖(通達(dá)信指標(biāo)公式源碼)
- 中級(jí)微觀范課堂講義curves
- 小學(xué)數(shù)學(xué)課堂觀察報(bào)告
- 國有企業(yè)公務(wù)用車管理辦法(麻七自用修訂版)
- 攪拌站管理辦法及制度
- 急性心功能衰竭搶救流程圖
- SOP京東商家入駐合同
- 對(duì)“一次函數(shù)與二元一次方程(組)”課的點(diǎn)評(píng)
- 鉛酸蓄電池檢測報(bào)告樣本(共6頁)
- 供應(yīng)商合同履約評(píng)價(jià)表材料類
- 房屋建筑工程竣工驗(yàn)收檔案館需要資料
評(píng)論
0/150
提交評(píng)論