基于半衰期的維基百科演化分析_第1頁(yè)
基于半衰期的維基百科演化分析_第2頁(yè)
基于半衰期的維基百科演化分析_第3頁(yè)
基于半衰期的維基百科演化分析_第4頁(yè)
基于半衰期的維基百科演化分析_第5頁(yè)
已閱讀5頁(yè),還剩8頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于半衰期的維基百科演化分析

G250A1003-2797(2011)05-0122-07維基技術(shù)是WEB2.0技術(shù)的典型代表之一,而維基百科無(wú)疑是維基技術(shù)應(yīng)用最成功的典范之一。維基百科“中立的觀點(diǎn)”、基于CC-by-sa-3.0協(xié)議的版權(quán)開(kāi)放、編輯規(guī)則的制約[1],以及具有保留記錄、頁(yè)面鎖定、版本對(duì)比、更新描述、lP禁止、沙箱(SandBox)測(cè)試功能的Wiki技術(shù),使得維基百科呈現(xiàn)出包容性、開(kāi)放性、全面性、交互性、準(zhǔn)確性、中立、客觀、自由、協(xié)作、平等、共享、動(dòng)態(tài)、即時(shí)等特點(diǎn),它允許不同的觀點(diǎn)在這里交流、融合。自2001年投入運(yùn)行以來(lái),目前維基百科已擁有270多個(gè)語(yǔ)言版本獨(dú)立運(yùn)作,截至2011年3月27日,維基百科條目數(shù)第一的英文維基百科突破360萬(wàn)條,全球所有語(yǔ)言版本條目已突破1800萬(wàn)條,總登記用戶也超越2800萬(wàn)人,總編輯次數(shù)超越11億次[2]。在所有語(yǔ)言版本中排名第12位的中文維基百科自2002年10月24日創(chuàng)建至2011年4月10日,其條目已超過(guò)35萬(wàn)條,注冊(cè)用戶超越98萬(wàn)人,總編輯次數(shù)超越1600萬(wàn)次[3]。1維基百科演化與網(wǎng)絡(luò)信息資源半衰期維基百科龐大的信息規(guī)模,無(wú)疑對(duì)現(xiàn)代社會(huì)具有重要的意義,國(guó)內(nèi)外學(xué)者對(duì)維基百科演化規(guī)律的研究也取得了很多成果。Viégaset等通過(guò)比較不同年份條目的歷史編輯數(shù)據(jù)揭示了討論頁(yè)面中用戶協(xié)作機(jī)制的演變[4];JakobVoss發(fā)現(xiàn)維基百科的信息規(guī)模保持指數(shù)級(jí)增長(zhǎng)[5];Buriol等統(tǒng)計(jì)分析了英文維基百科的條目數(shù)、用戶數(shù)、編輯數(shù)以及條目間的鏈接數(shù)量隨時(shí)間的演化過(guò)程[6];ThomasWhner等基于條目生命周期的演化,測(cè)度了條目的質(zhì)量,指出高質(zhì)量的條目被編輯次數(shù)相對(duì)較多[7]。羅志成、付真真通過(guò)分析中文維基百科的瀏覽量、管理人員、條目數(shù)量、用戶等,描述外部因素對(duì)維基百科有一定的影響,但是不影響其總體趨勢(shì)[8];李小宇和羅志成在分析了中文維基百科頁(yè)面更新和用戶行為的演化過(guò)程后指出,中文維基百科在經(jīng)歷了指數(shù)型增長(zhǎng)過(guò)程后增長(zhǎng)速率趨緩,并且針對(duì)詞條頁(yè)面的編輯在全部編輯數(shù)目中的比例也有下降趨勢(shì)[9];趙飛、周濤等總結(jié)了維基百科的宏觀統(tǒng)計(jì)性質(zhì)以及演化規(guī)律,將復(fù)雜網(wǎng)絡(luò)理論應(yīng)用到維基百科研究中,并探討了維基百科的研究方向[10]。綜合看以往學(xué)者的研究,多是從數(shù)量變化的角度來(lái)描述維基百科的演化,因此,本文引入半衰期的概念,以時(shí)間為標(biāo)度來(lái)展示維基百科的發(fā)展演化規(guī)律。半衰期源于物理學(xué)領(lǐng)域,原指放射性元素的原子核有半數(shù)發(fā)生衰變所需的時(shí)間。借用物理學(xué)半衰期的概念,段宇鋒將網(wǎng)絡(luò)信息資源的半衰期定義為網(wǎng)絡(luò)信息資源的基本構(gòu)成元素有半數(shù)發(fā)生變化所需的時(shí)間[11];白繼芳將半衰期的概念引入到虛擬學(xué)習(xí)社區(qū)的研究中時(shí),將首帖半衰期定義為首帖發(fā)布之后跟帖數(shù)達(dá)到全部跟帖數(shù)的一半所用的時(shí)間[12];朱夢(mèng)嫻、許鴻翔、高靜在以Delicious系統(tǒng)為例研究網(wǎng)絡(luò)信息資源半衰期時(shí),將某類(lèi)信息半衰期定義為Delicious系統(tǒng)中某類(lèi)信息被收藏的書(shū)簽中較新的一半是在最近多長(zhǎng)時(shí)間創(chuàng)建的[13];鞠菲在研究網(wǎng)絡(luò)信息資源老化時(shí),測(cè)度的是新浪新聞評(píng)論量的衰變[14]。由上可見(jiàn),在研究網(wǎng)絡(luò)信息資源半衰期的時(shí)候,若研究對(duì)象不同或強(qiáng)調(diào)的重點(diǎn)不同,選擇的信息資源基本構(gòu)成元素會(huì)有所不同,半衰期的計(jì)算方法也會(huì)有所不同。利用半衰期來(lái)分析維基百科已不是先例,學(xué)者羅志成借鑒文獻(xiàn)半衰期的計(jì)算思想,提出了維基分類(lèi)系統(tǒng)的被標(biāo)引半衰期,即維基分類(lèi)的效用價(jià)值中的一半是在最近多長(zhǎng)時(shí)間內(nèi)產(chǎn)生的[15]。本文試圖從宏觀的角度,結(jié)合物理學(xué)中半衰期的概念,并借鑒段宇鋒對(duì)網(wǎng)絡(luò)信息資源的定義,將維基百科的半衰期定義為:在某觀察時(shí)間段內(nèi),維基百科中信息資源基本構(gòu)成元素較新的一半是在多長(zhǎng)時(shí)間內(nèi)產(chǎn)生的。2維基百科半衰期及其計(jì)算方法維基百科的信息資源規(guī)模龐大,條目、用戶、編輯次數(shù)等不斷創(chuàng)造新的紀(jì)錄。作為網(wǎng)絡(luò)百科全書(shū),條目是其最基本信息單元,用戶是條目的創(chuàng)建者,條目的創(chuàng)建和完善又基于編輯行為,所以筆者選擇條目、參與者、編輯次數(shù)作為基本元素來(lái)計(jì)算維基百科的半衰期。另外,為了能夠更全面地反映維基百科的演化,筆者又取信息粒度更細(xì)的鏈接、字符數(shù)和字節(jié)數(shù)來(lái)一同計(jì)算分析。在維基百科中,條目指所有的“百科全書(shū)文章”,以及目錄索引(例如列表,年表等)。條目是百科全書(shū)的最基本單元,是知識(shí)和信息的集成載體單元[16],其中正式條目是指最少包含一個(gè)內(nèi)部鏈接的條目;預(yù)備條目是指忽略wiki-和html代碼,隱藏鏈接和標(biāo)題后,最少包含一個(gè)內(nèi)部鏈接并且最少有200個(gè)字符的文本的條目。參與者是注冊(cè)后至少編輯了10次的維基人?!熬S基人”是為維基百科全書(shū)編寫(xiě)條目的人,他們是維基百科的貢獻(xiàn)者,其中參與者的貢獻(xiàn)占中文維基百科總編輯次數(shù)97.0%[17]。編輯次數(shù)包括重定向和未注冊(cè)用戶對(duì)中文維基百科的編輯。字符數(shù)是指中文維基百科字符總數(shù)(不包括重定向,html/wiki代碼和隱藏鏈接)。字節(jié)數(shù)是指中文維基百科中所有條目的總計(jì)大小(包括重定向)。這里統(tǒng)計(jì)的鏈接包括中文維基百科內(nèi)部鏈接、跨語(yǔ)言鏈接和外部鏈接,其中跨語(yǔ)言鏈接是指鏈接到中文維基百科以外其他語(yǔ)言版本維基百科的鏈接,外部鏈接是鏈接到其他站點(diǎn)的鏈接。2.1維基百科半衰期為了幫助用戶了解維基百科以及幫助學(xué)者研究分析維基百科,維基百科提供了一個(gè)公開(kāi)的數(shù)據(jù)統(tǒng)計(jì)站點(diǎn)[18],用以發(fā)布其監(jiān)控記錄的各項(xiàng)維基百科數(shù)據(jù)。本文以中文維基百科為分析對(duì)象,以正式條目、預(yù)備條目、編輯次數(shù)等作為中文維基百科的信息資源基本構(gòu)成元素來(lái)分析中文維基百科的總量半衰期和年度增量半衰期??偭堪胨テ谑菑木S基百科創(chuàng)建之日起直到觀察時(shí)間,維基百科基本構(gòu)成元素較新的一半是在多長(zhǎng)時(shí)間內(nèi)產(chǎn)生的,例如正式條目2010年5月的半衰期是指自創(chuàng)建之日起到2010年5月底,所有正式條目中較新的一半是產(chǎn)生于多長(zhǎng)時(shí)間內(nèi)。由于中文維基百科各類(lèi)數(shù)據(jù)的最后統(tǒng)計(jì)時(shí)間不統(tǒng)一,為了統(tǒng)一觀察時(shí)間,本文取各類(lèi)數(shù)據(jù)從中文維基百科創(chuàng)建之日起到2010年5月的數(shù)據(jù)來(lái)討論中文維基百科的總量半衰期。為了能夠觀察總量半衰期的變化趨勢(shì),筆者每隔12個(gè)月取一個(gè)觀測(cè)時(shí)間點(diǎn)計(jì)算總量半衰期,由于2003年5月距中文維基百科創(chuàng)建時(shí)間(2002年10月)較短,故不將其作為觀測(cè)時(shí)間,即分別以2010年5月、2009年5月……2004年5月為觀測(cè)時(shí)間。年度增量半衰期是指在某年內(nèi),維基百科的某基本元素于該年度增量中較新的一半是在多長(zhǎng)時(shí)間內(nèi)產(chǎn)生的。年度增量半衰期是以某一年年底為觀測(cè)時(shí)間,以本年度為觀察時(shí)間段,以該基本元素的增量為統(tǒng)計(jì)對(duì)象,計(jì)算該基本元素在本年度新增的一半是在多長(zhǎng)時(shí)間內(nèi)產(chǎn)生的,例如正式條目2010年度的增量半衰期是從2010年1月1日起到2010年年底,新增加正式條目的一半是在多長(zhǎng)時(shí)間內(nèi)產(chǎn)生的。2.2半衰期計(jì)算方法(1)總量半衰期計(jì)算方法。根據(jù)上文所述總量半衰期的概念,總量半衰期即為該基本元素從創(chuàng)建之日起到觀測(cè)時(shí)間點(diǎn)累加總量的50%時(shí)所對(duì)應(yīng)的時(shí)間點(diǎn)與觀測(cè)時(shí)間點(diǎn)之間的跨度,如圖1所示總量半衰期即為累加總量的50%在時(shí)間軸上的投影與觀測(cè)時(shí)間點(diǎn)的距離。圖1總量半衰期計(jì)算方法以正式條目2010年5月的總量半衰期為例,表1給出了從創(chuàng)建之日起到2010年5月每個(gè)月的累加正式條目數(shù)和累加百分比。由表1可以看到,50%位于51.16%和49.83%之間,且是在2007年11月達(dá)到的,2007年11月距2010年5月有30個(gè)月,按下式可計(jì)算出中文維基百科正式條目2010年5月總量半衰期的值:中文維基百科正式條目2010年5月總量半衰期=30+(51.16%-50%)/(51.16%-49.83%)=30.9(月)。(2)年度增量半衰期計(jì)算方法。年度增量半衰期是以一年為觀察時(shí)間段,按上文年度增量半衰期的概念,某元素某年的增量半衰期取該元素在該年增量的一半對(duì)應(yīng)的時(shí)間與該年12月31日的時(shí)間跨度,如圖2所示,該年度累加增量的50%在時(shí)間軸上的投影到該年年終的距離即為年度增量半衰期。圖2年度增量半衰期計(jì)算方法以中文維基百科正式條目2010年的年度增量半衰期為例,表2給出了正式條目2010年幾個(gè)月的累加增量及其占該年累加增量總量的百分比。由表2可以看到,50%位于50.98%和43.14%之間,增量的50%是在6月達(dá)到的,距12月有6個(gè)月,按下式可計(jì)算出中文維基百科正式條目2010年年度增量半衰期的值:2010年度中文維基百科正式條目半衰期=6+(50.98%-50%)/(50.98%-43.14%)=6.1(月)。3數(shù)據(jù)分析根據(jù)上文維基百科半衰期的定義和半衰期計(jì)算方法,本文對(duì)中文維基百科的總量半衰期和年度增量半衰期進(jìn)行了討論和分析,并通過(guò)比較總量半衰期和總時(shí)間,更明確地展示中文維基百科的演化規(guī)律。3.1總量半衰期總量半衰期是從中文維基百科的創(chuàng)建之日起到觀察時(shí)間為時(shí)間范圍來(lái)計(jì)算半衰期,本文分別以預(yù)備條目、正式條目、字節(jié)、參與者、字?jǐn)?shù)、編輯次數(shù)和鏈接為中文維基百科的基本構(gòu)成元素來(lái)展現(xiàn)中文維基百科的總量半衰期,表3列出了各個(gè)元素于不同觀測(cè)時(shí)間的總量半衰期。從表3可以看出,以2010年5月為截止時(shí)間,中文維基百科正式條目的中較新的一半是在30.9個(gè)月之內(nèi)完成等的,即到2010年5月為止,中文維基百科正式條目創(chuàng)建較新的一半用了30.9個(gè)月,約合927天或者2.5年。以2009年5月為截止時(shí)間,中文維基百科中正式條目較新的一半是在24.9月完成的。2008年5月為20.5月;2007年5月為13.3月,2006年為10月;2005年5月為7.3月;2004年5月為3.4月。圖3直觀展示了以不同基本元素為統(tǒng)計(jì)量隨觀察時(shí)間變化的總量半衰期,圖中標(biāo)示出了正式條目半衰期在各個(gè)觀察時(shí)間的對(duì)應(yīng)的總量半衰期的值??傮w上看,首先,總量半衰期隨著觀察時(shí)間的變化而變化,觀察時(shí)間范圍越大,每種基本元素的總量半衰期也越長(zhǎng);其次,除2004年5月外,正式條目不同觀察時(shí)間的總量半衰期均大于對(duì)應(yīng)的預(yù)備條目、字節(jié)、字?jǐn)?shù)、參與者、編輯次數(shù)、鏈接基本元素的總量半衰期,說(shuō)明正式條目的增長(zhǎng)相對(duì)滯后于另外基本元素的增長(zhǎng);最后,每種基本元素的總量半衰期的變化的趨勢(shì)基本上是相同的,這說(shuō)明無(wú)論以哪種基本元素作為分析對(duì)象來(lái)反映總量半衰期,或者說(shuō)無(wú)論站在哪一角度來(lái)觀察中文維基百科的半衰期,都反映出了同樣的結(jié)果。3.2各基本元素總量半衰期占總時(shí)間百分比分析表3和圖3展示了中文維基各基本元素總量半衰期觀測(cè)變化的趨勢(shì),但是僅觀察分析各基本元素的總量半衰期無(wú)法直觀展示中文維基百科的發(fā)展情況,本文又將各個(gè)基本元素的總量半衰期與總時(shí)間對(duì)比,取半衰期占總時(shí)間的百分比來(lái)進(jìn)行縱向比較分析,如表4。百分比越大,說(shuō)明截止到該時(shí)間點(diǎn),完成較新的一半,即50%所占用的時(shí)間占總時(shí)間比例越大,進(jìn)而說(shuō)明近期該基本元素增長(zhǎng)速率相對(duì)下降;百分比越小,說(shuō)明完成較新的一半所占用的時(shí)間占總時(shí)間的比例越小,進(jìn)而說(shuō)明近期該基本元素相對(duì)增長(zhǎng)較快。中文維基百科自2002年10月創(chuàng)建到2010年5月共經(jīng)歷了92個(gè)月,其正式條目在30.9個(gè)月內(nèi)創(chuàng)建了較新的一半,用了總時(shí)間的33.26%;自創(chuàng)建到2009年5月共經(jīng)歷了80個(gè)月,其正式條目在24.9月內(nèi)完成了較新一半的創(chuàng)建,用了總時(shí)間的30.75%。從2010年5月和2009年5月這兩個(gè)數(shù)值來(lái)看,同樣是總量的一半,以2010年5月為觀察點(diǎn)時(shí),創(chuàng)建較新的一半所用的時(shí)間占總時(shí)間的33.26%,而以2009年5月為觀察點(diǎn)時(shí),完成較新一半用了總時(shí)間的30.75%,小于2010年5月的33.26%,這直觀地說(shuō)明了2009年5月到2010年5月正式條目生成的速率相對(duì)變緩。中文維基百科各基本元素半衰期占總時(shí)間百分比趨勢(shì)如圖4所示。從圖4可以看出,自2007年5月后,各基本元素各個(gè)觀察時(shí)間總量半衰期的占總時(shí)間百分比均呈上升趨勢(shì),即說(shuō)明維基百科的整體增長(zhǎng)速率減緩,除了參與者,這種減緩的趨勢(shì)從2006年5月就開(kāi)始了,這也反映出中文維基百科日趨成熟、日趨穩(wěn)定。圖中2004年5月到2007年5月各百分比變化比較不統(tǒng)一,究其原因,中文維基百科曾多次遭到政府的封禁,有些時(shí)候在無(wú)通知的情況下禁止訪問(wèn)中文維基百科;發(fā)生的一些維基百科的信任危機(jī)事件也對(duì)維基百科的發(fā)展產(chǎn)生了一定的影響[8]。另有人認(rèn)為維基百科不易于新人上手,對(duì)版權(quán)的要求嚴(yán)格,還有許多參與者當(dāng)選了管理員后就逐漸不活動(dòng)、疏于維基百科的管理[19],以及隨著維基百科的日益壯大,維基百科網(wǎng)站維護(hù)費(fèi)用越來(lái)越高,而其只依靠募捐來(lái)生存等,這些都會(huì)影響到維基百科的發(fā)展[20]。3.3年度增量半衰期維基百科的提供的統(tǒng)計(jì)數(shù)據(jù)統(tǒng)計(jì)到2010年年底的只有參與者、正式條目和編輯次數(shù)這三個(gè)統(tǒng)計(jì)量,并且由于中文維基百科創(chuàng)建于2002年10月,2002年的觀察時(shí)間不足一年,所以本文統(tǒng)計(jì)了參與者、正式條目和編輯次數(shù)2003年到2010年共8年的年度增量半衰期。圖5展示了中文維基百科參與者、正式條目數(shù)和編輯次數(shù)2003年、2004年……2010年的年度增量半衰期,圖中標(biāo)示了正式條目和編輯次數(shù)的年度增量半衰期的值。圖5基本元素年度增量半衰期(單位:月)如果以6月為上半年和下半年的分割線,年度增量半衰期小于6個(gè)月,以年底為參考點(diǎn),該基本元素在該年新增的一半是在距離該年年底不到6個(gè)月的時(shí)間內(nèi)完成的,另一半則是在多于6個(gè)月的時(shí)間內(nèi)完成的,即下半年比上半年產(chǎn)生的多,或者說(shuō)下半年增長(zhǎng)速率相對(duì)較大,反之上半年增長(zhǎng)速率相對(duì)較大,如果等于6個(gè)月,則上半年與下半年增長(zhǎng)速率持平。如2003年編輯次數(shù)年度增量半衰期為2.4月,則說(shuō)明該年一半的編輯次數(shù)產(chǎn)生于距年底2.4個(gè)月的時(shí)間內(nèi),即產(chǎn)生于10月下半月、11月和12月,進(jìn)而說(shuō)明該年下半年產(chǎn)生的比較多,增長(zhǎng)速率比較大??傮w上看,除2009年正式條目年度增量半衰期外,2005年到2010年大多在6個(gè)月左右,即上半年與下半年增長(zhǎng)速率相當(dāng)。圖中2003年三種基本元素的半衰期均較小,可能因?yàn)橹形木S基百科創(chuàng)建之初,有一個(gè)從不熟悉到熟悉的過(guò)程,熟悉之后增長(zhǎng)速率就相對(duì)較快。2004年各元素年度增量半衰期比較不一致,說(shuō)明該年各基本元素增長(zhǎng)不均衡。2004年和2009年正式條目的年度增量半衰期和編輯次數(shù)的年度增量半衰期相差較大,反映出2004年和2009年用戶創(chuàng)建該年正式條目的一半明顯早于完成編輯次數(shù)的一半,這說(shuō)明在該年度較早月份用戶的編輯行為中創(chuàng)建正式條目占的比例比該年較晚月份創(chuàng)建正式條目占的比例大。4結(jié)論本文將半衰期的概念引入到對(duì)維基百科的研究中,利用半衰期的方法,從總量半衰期和年度增量半衰期兩個(gè)角度,以時(shí)間為標(biāo)度展示了中文維基百科的發(fā)展演化狀態(tài)。本文通過(guò)分析中文維基百科半衰期,得出以下幾個(gè)結(jié)論:(1)觀察時(shí)間越長(zhǎng),中文維基百科的半衰期也越長(zhǎng)。從總量半衰期看,除參與者外,維基百科條目、鏈接等的半衰期應(yīng)該基本保持不變的,因?yàn)榫S基百科參與者越來(lái)越多,應(yīng)使條目等的半衰期保持基本平穩(wěn)。事實(shí)上,觀察時(shí)間越長(zhǎng),中文維基百科的半衰期也越長(zhǎng),可能是因?yàn)椋孩儆^察時(shí)間范圍越大,其信息資源基本構(gòu)成元素的總量也越大,完成總量的一半所用的時(shí)間也應(yīng)該越大;②雖然參與者越來(lái)越多,但是每一個(gè)參與者的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論