復雜網(wǎng)絡與可視化研究所_第1頁
復雜網(wǎng)絡與可視化研究所_第2頁
復雜網(wǎng)絡與可視化研究所_第3頁
復雜網(wǎng)絡與可視化研究所_第4頁
復雜網(wǎng)絡與可視化研究所_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第復雜網(wǎng)絡與可視化研究所基于復雜網(wǎng)絡可視化模型的專題新聞演化研究

[摘要]本文是基于復雜網(wǎng)絡的思想,根據(jù)card(1999)提出的信息可視化參考模型構建的專題新聞文本集信息可視化的概念模型和形式化模型,以溫州動車事故專題新聞文本集為例,對專題新聞按照時間段分為三個時期,并對不同時期進行信息可視化分析,分析總結新聞演化過程。分析得出,隨著時間的變化,新聞集中的關注點發(fā)生變化,而且關注點會逐漸變得分散,新聞的關注度也逐漸減少。

[關鍵詞]專題新聞;信息可視化;演化

doi:10.3969/j.issn.1673-0194.2012.24.047

[中圖分類號]G203[文獻標識碼]A[文章編號]1673-0194(2012)24-0077-02

1引言

隨著計算機網(wǎng)絡的出現(xiàn),信息技術迅速發(fā)展,人類進入了信息爆炸的時代。信息爆炸的一個重要表現(xiàn)就是新聞信息飛速增加。新聞傳播的更新速度和傳播效率不斷加快,這種加快導致新聞數(shù)量不斷增大,各種信息非常分散。為了能快捷地了解新聞的演化過程,直觀地觀察信息之間的復雜關系,需要一門結合科學可視化、數(shù)據(jù)挖掘、圖像技術、圖形學、人機交互和認知科學等諸多學科理論或方法的新學科,這就是20世紀80年代末誕生的可視化技術。

復雜網(wǎng)絡的主要思想是將真實系統(tǒng)中各部分之間的聯(lián)系看作一個復雜網(wǎng)絡,以網(wǎng)絡的形式來抽象地描述真實系統(tǒng)中各部分之間的關系,強調系統(tǒng)結構的拓撲特征,從而使人們更好地了解現(xiàn)實世界系統(tǒng)的本質特征。一個典型的網(wǎng)絡是由許多節(jié)點與連接節(jié)點之間的邊組成的。節(jié)點代表系統(tǒng)中的實體,邊則表示節(jié)點之間的作用關系。

2復雜網(wǎng)絡可視化模型

2.1信息實體的提取

本文采用人工方式選擇及提取新聞文本信息實體,按照專題新聞文本信息實體的定義和選擇新聞文本信息實體的原則與方法可以將專題新聞文本中不同要素的信息實體按不同粒度提取出來,形成信息實體庫。新聞文本信息實體之間的存在的各種關系,即信息實體之間形成的有意義的系統(tǒng)的聯(lián)系,即為信息實體之間的聯(lián)系。本文中兩個信息實體出現(xiàn)在相同新聞文本中的新聞文本數(shù)量即為這兩個信息實體之間的關聯(lián)權重。

2.2模型構建

可視化模型包含3個要素:信息實體、信息實體關聯(lián)和信息實體網(wǎng)絡。新聞文本信息實體的實質就是能代表新聞文本內容的基本信息單位。新聞文本信息實體關聯(lián)也就是新聞文本信息實體之間形成的有意義的系統(tǒng)的聯(lián)系。信息實體網(wǎng)絡是由用戶信息需求、信息實體和信息實體關聯(lián)構成的。

通過數(shù)據(jù)變換從專題新聞文本集中提取信息實體,經(jīng)過可視化映射過程,信息實體及信息實體關聯(lián)轉換為可視化的結構。最后進行視圖變換利用可視化顯示技術將所得的信息實體網(wǎng)絡用直觀的、易于理解的圖形方式顯示出來。

2.3復雜網(wǎng)絡可視化模型的分析

網(wǎng)絡度是描述網(wǎng)絡中某一節(jié)點連接其他節(jié)點程度的概念,定義文本網(wǎng)絡中的度是與某個節(jié)點有聯(lián)系的節(jié)點的總數(shù),通過可視化結果分析,度大的節(jié)點出現(xiàn)在句子中的次數(shù)越多,則該詞的重要程度越高,是文中的關鍵實體。

最短路徑是用來測量網(wǎng)絡結構中距離最好的方法,路徑是由從一個節(jié)點到另一個節(jié)點的不重復邊構成,與網(wǎng)絡度和網(wǎng)絡節(jié)點強度不同的是,它不僅考慮了節(jié)點的近鄰節(jié)點,還考慮了間接節(jié)點。最短路徑是衡量實體連通性好壞的標準,最短路徑越短,實體節(jié)點在文章中起到的作用越重要。

聚類系數(shù)反映網(wǎng)絡的緊密程度,整個網(wǎng)絡的聚類系數(shù)是所有節(jié)點的聚類系數(shù)的平均值,聚類系數(shù)則反映文章內容的緊密程度。這項特征值的分析主要是對文本的內容進行評價,聚類系數(shù)越大,文本復雜網(wǎng)絡的緊密程度越好,也就是文本內容在表述上更緊密與緊湊。

3實證分析

本次收集的新聞文本報道時間從2011年7月23日20:34分至2012年4月13日8:05。本文利用谷歌快訊推送含有“溫州”、“動車”關鍵詞的新聞,共搜集到新聞總量為892條。由于樣本量太大,進行了抽取。依照不同新聞時間抽取不同數(shù)量的新聞文本。本次抽取新聞共100條。

3.1總體網(wǎng)絡分析

利用UCINET將動車事故新聞文本集信息實體網(wǎng)絡的關聯(lián)矩陣轉化為直觀的信息實體網(wǎng)絡圖,如圖1所示。災后重建新聞文本集信息實體網(wǎng)絡圖直觀地展示了所收集的100個災后重建新聞文本中的主要信息。

在全局網(wǎng)中,度數(shù)排名前五的非時間關鍵詞為:“溫州”、“北京”、“國務院”、“溫家寶”、“召開記者會”。

在全局網(wǎng)中,平均最短路徑為1.019。表明全局網(wǎng)各節(jié)點之間的連貫性和凝聚力較好。

在全局網(wǎng)中,基于距離的聚類系數(shù)為0.990。聚類系數(shù)非常大,證明復雜網(wǎng)絡的緊密程度較好。

3.2演化分析

按照溫州動車事故新聞文本數(shù)量的變化,把此事件分為3個部分,如圖2所示,可是分為爆發(fā)期、轉折期與平穩(wěn)期3個階段。

第一階段新聞爆發(fā)時期,從2011年7月23日開始到7月28日,共抽取76條新聞,87個信息實體。爆發(fā)期網(wǎng)絡中,度數(shù)排名前五的非時間節(jié)點為“溫州”、“溫家寶”、“召開記者會”、“動車”、“北京”。此網(wǎng)絡的平均最短路徑為1.033,基于距離的聚類系數(shù)為0.983。表明此網(wǎng)絡的連貫性和凝聚力較好,緊密程度較好。

第二階段新聞轉折時期,從2011年7月29日開始到7月31日,共抽取11條新聞,22個信息實體。轉折期網(wǎng)絡中,度數(shù)排名前五的非時間節(jié)點為“溫州”、“北京”、“簽訂賠償協(xié)議”、“家屬”、“國務院”。此網(wǎng)絡的平均路徑為1.905,較爆發(fā)期網(wǎng)絡有所增長,表明網(wǎng)絡的連通性和凝聚力變弱?;诰嚯x的聚類系數(shù)為0.591,較網(wǎng)絡一減少,表明網(wǎng)絡變得比較分散。

第三階段新聞平穩(wěn)期,從2011年8月1日開始到2012年4月13日,共抽取13條新聞,33個信息實體。平穩(wěn)期網(wǎng)絡中,度數(shù)排名前五的非時間節(jié)點為“北京”、“國務院”、“事故處理”、“安監(jiān)局”、“調查結束”。平穩(wěn)期網(wǎng)絡的平均最短路徑為2.313,基于距離的聚類系數(shù)為0.504。3.3結果與討論

通過對新聞事件按時間分成不同時期,對不同時期的信息實體建立可視化模型,對不同時期的網(wǎng)絡圖進行對比研究,可以從網(wǎng)絡的拓撲結構、節(jié)點的度、平均最短路徑以及基于距離的聚類系數(shù)方面分析出新聞演化的過程。

專題新聞不同時期的關注點不同。通過對溫州動車事故的實證研究可以看出,不同時期的節(jié)點度數(shù)排名有很大不同。爆發(fā)期關注點集中在“溫州”,即事件的發(fā)生地。平穩(wěn)期關注點集中在“北京”,即事件的處理中心。

專題新聞不同時期的關注度不同。通過對溫州動車事故的實證研究可以看出,不同時期的網(wǎng)絡平均最短路徑與聚類系數(shù)不同,由爆發(fā)期到轉折期再到平穩(wěn)期,網(wǎng)絡的平均最短路徑不斷增大,基于距離的聚類系數(shù)不斷減小。意味著網(wǎng)絡的凝聚性越來越小,網(wǎng)絡逐漸變得分散。這一方面是由于新聞的關注點逐漸變得分散,另一方面是由于新聞的數(shù)量逐漸變少,表明新聞的關注度逐漸變少。

4結語

新聞是人們獲取各種各樣信息的主要方式,也是最容易獲得的公共信息。通過信息可視化構建專題新聞演化的信息實體網(wǎng)絡,展示新聞演化過程,不僅能節(jié)省人們的大量的閱讀時間而且能提高人們的信息獲取能力,發(fā)現(xiàn)隱藏在新聞中的潛藏信息,有利于為管理決策提供依據(jù)。本文從網(wǎng)絡構建的角度出發(fā),構建了專題新聞演化信息可視化模型,并對溫州動車事故專題新聞文本集進行了實證研究,利用復雜網(wǎng)絡展示專題新聞演化過程。

但是仍然存在以下不足需要進一步研究:

(1)信息實體的選取方法。本文主要根據(jù)新聞要素說提出從時間、地點、主體、事件4個方面提取信息實體以代表專題新聞文本中的主要信息。但是這4個方面只是代表了新聞文本中的主要信息,而新聞文本中的其他信息則丟失了,無法在專題新聞文本集可視化視圖中展示出來。因此需要進一步研究如何選擇信息實體以代表專題新聞文本集中的全部信息,減少信息的丟失。

(2)信息實體的提取方法。本文采取的手工提取信息實體的方法,由于不同信息處理者對信息的獲取、處理的能力不同,或者由于新聞文本寫作的不規(guī)范導致新聞要素的缺失,會造成對于同一篇新聞文本不同信息處理者提取的信息實體不同的結果,特別是對于語義描述性信息實體(事件)的影響更大。所以需要進一步探討如何客觀地提取信息實體,使信息實體的提取結果更能準確地表示新聞文本集中的信息。

(3)深入分析新聞演化可視化結果。本文只是對演化的結果進行了簡單分析,沒有利用網(wǎng)絡分析方法深入研究所構建的不同時期信息實體網(wǎng)絡的特性。有必要對專題新聞不同時期信息實體網(wǎng)絡的特性進行深入研究以期發(fā)現(xiàn)新的不同時期網(wǎng)絡特性,進一步分析新聞的演化過程。

主要參考文獻

[1]SHStrogatz.ExploringComplexNetworks[J].Nature,2001(41

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論