大數(shù)據(jù)環(huán)境下的文獻(xiàn)分析與利用_第1頁
大數(shù)據(jù)環(huán)境下的文獻(xiàn)分析與利用_第2頁
大數(shù)據(jù)環(huán)境下的文獻(xiàn)分析與利用_第3頁
大數(shù)據(jù)環(huán)境下的文獻(xiàn)分析與利用_第4頁
大數(shù)據(jù)環(huán)境下的文獻(xiàn)分析與利用_第5頁
已閱讀5頁,還剩87頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)環(huán)境下的文獻(xiàn)分析與利用葉艷鳴2013·10一、幾點(diǎn)認(rèn)識(shí)大數(shù)據(jù)的海嘯——巨量信息43,600,000條結(jié)果大數(shù)據(jù)的海嘯大數(shù)據(jù)時(shí)代的四個(gè)特征蘋果AppStore應(yīng)用商店每天下載4600萬款應(yīng)用新浪微博用戶每日發(fā)博量超過1億條百度每日處理的搜索量超過了50億Facebook每天處理的數(shù)據(jù)量(2012年):處理27億次Like按鈕點(diǎn)擊。上傳3億張圖片。吸收逾500TB新數(shù)據(jù)。一組數(shù)據(jù)國際數(shù)據(jù)公司(IDC)的研究結(jié)果表明:2008年全球產(chǎn)生的數(shù)據(jù)量為0.49ZB2009年的數(shù)據(jù)量為0.8ZB2010年增長為1.2ZB2011年的數(shù)量更是高達(dá)1.82ZB相當(dāng)于全球每人產(chǎn)生200GB以上的數(shù)據(jù)而到2012年為止人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB全人類歷史上說過的所有話的數(shù)據(jù)量大約是5EBIBM的研究稱,整個(gè)人類文明所獲得的全部數(shù)據(jù)中,有90%是過去兩年內(nèi)產(chǎn)生的。而到了2020年,全世界所產(chǎn)生的數(shù)據(jù)規(guī)模將達(dá)到今天的44倍。大數(shù)據(jù)時(shí)代的四個(gè)特征各種結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)大數(shù)據(jù)時(shí)代的四個(gè)特征基因組數(shù)據(jù)地理空間數(shù)據(jù)人口數(shù)據(jù)經(jīng)濟(jì)運(yùn)行數(shù)據(jù)衛(wèi)星遙感數(shù)據(jù)……大數(shù)據(jù)時(shí)代的四個(gè)特征氣象數(shù)據(jù)航天遙測(cè)遙控?cái)?shù)據(jù)交通流量數(shù)據(jù)地震監(jiān)測(cè)數(shù)據(jù)……14大數(shù)據(jù)的階梯處理過程模型多階段流水處理模型:數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)倉庫任務(wù)相關(guān)數(shù)據(jù)選擇數(shù)據(jù)挖掘模式評(píng)估knowledge主要技術(shù)說明內(nèi)容管理技術(shù)數(shù)據(jù)建模技術(shù)、版本控制技術(shù)、檢索技術(shù)、文件路由技術(shù)等文檔管理技術(shù)分類歸檔、外部特征管理、關(guān)鍵詞管理信息提取技術(shù)人工智能技術(shù)、Bayesian概率和詞頻統(tǒng)計(jì)分析、向量空間模型信息過濾技術(shù)固定文章集法、協(xié)作過濾技術(shù)文本挖掘利用智能算法,并結(jié)合文字處理技術(shù),分析大量的非結(jié)構(gòu)化文本源數(shù)據(jù)倉庫在線分析處理(OLAP)、在線事務(wù)處理(OLTP)分類技術(shù)決策樹、貝葉斯方法、神經(jīng)網(wǎng)絡(luò)、遺傳算法、粗糙集和實(shí)例推理(CBR)等。聚類技術(shù)統(tǒng)計(jì)分析方法、模糊邏輯、最近鄰技術(shù)、規(guī)則歸納bookmark智能化網(wǎng)絡(luò)信息服務(wù)系統(tǒng)根本原因分析它是一種回溯性失誤分析工具云模型解決數(shù)據(jù)挖掘中的知識(shí)表示問題可視化技術(shù)幾何投射技術(shù)、基于圖標(biāo)技術(shù)、面向像素的技術(shù)、層次技術(shù)、基于圖表技術(shù)主要的知識(shí)發(fā)現(xiàn)技術(shù)基于文獻(xiàn)的知識(shí)發(fā)現(xiàn)原理與技術(shù)基于文獻(xiàn)的知識(shí)發(fā)現(xiàn)基于相關(guān)文獻(xiàn)的知識(shí)發(fā)現(xiàn)基于非相關(guān)文獻(xiàn)的知識(shí)發(fā)現(xiàn)基于全文獻(xiàn)的知識(shí)發(fā)現(xiàn)共詞分析理論與方法共引分析理論與方法Swanson理論與方法文本挖掘理論與方法資料來源:冷伏?!痘谖墨I(xiàn)的知識(shí)發(fā)現(xiàn)的應(yīng)用進(jìn)展研究》大數(shù)據(jù)的開發(fā)路徑BigdataMatadataLinkdata知識(shí)發(fā)現(xiàn)進(jìn)階二、“大數(shù)據(jù)”困局的破解之道由《易經(jīng)》想到的:《易經(jīng)》道:“易”有三易:簡易變易不易簡易:萬事萬物都是非常簡單的,大道至簡《周易·系辭上》:易有太極,是生兩儀,兩儀生四象,四象生八卦現(xiàn)代計(jì)算機(jī)之“0、1”世界《易經(jīng)》之簡易變易:宇宙萬物,時(shí)刻變化,人事皆是如此《周易·系辭上》:知變化之道者,其知神之所為乎?《易經(jīng)》之變易不易:變的規(guī)律本身是相對(duì)不變的,是相對(duì)靜止和相對(duì)穩(wěn)定的,是可以感知的《周易·系辭上》:易無思也,無位也,寂然不動(dòng),感而遂通天下之故《易經(jīng)》之不易巖刻、結(jié)繩記事、文字起源遠(yuǎn)古人類應(yīng)對(duì)“大數(shù)據(jù)”之路徑實(shí)體世界

符號(hào)化符號(hào)化復(fù)雜簡化

日出云端與“旦”字的產(chǎn)生喂…有好“大”一片樹林呀

信息的標(biāo)識(shí):實(shí)物→圖畫→象形文字符號(hào)的產(chǎn)生:虛擬世界的起源人與自然區(qū)分的分水嶺語言、書籍、通信知識(shí)體系起源古代信息世界

符號(hào)化知識(shí)體系復(fù)雜簡化人類應(yīng)對(duì)“大數(shù)據(jù)”之路徑近代-現(xiàn)代藏書體系

符號(hào)化目錄體系復(fù)雜簡化書、報(bào)、刊、學(xué)位論文、標(biāo)準(zhǔn)、專利……目錄學(xué)起源人類應(yīng)對(duì)“大數(shù)據(jù)”之路徑目錄系統(tǒng)OPAC系統(tǒng)新世紀(jì)大數(shù)據(jù)

符號(hào)化LinkedData復(fù)雜簡化數(shù)字化、網(wǎng)絡(luò)化大數(shù)據(jù)時(shí)代來臨人類應(yīng)對(duì)“大數(shù)據(jù)”之路徑《易經(jīng)》思想給出的“大數(shù)據(jù)”困境破解之道三、基于知識(shí)挖掘的文獻(xiàn)分析與利用——以基因組研究為例1、縱觀全局的動(dòng)態(tài)調(diào)研研究概貌315,264條研究概貌研究概貌2、研究關(guān)聯(lián)性分析(熱點(diǎn)追蹤)主要研究領(lǐng)域(關(guān)鍵詞分析)研究相關(guān)性追蹤不同時(shí)期研究熱點(diǎn)變化追蹤1995-1999年2005-2012年3、研究關(guān)聯(lián)性分析(時(shí)間序列)研究繼承性追蹤研究繼承性追蹤(引用)4、重要成果追蹤(競爭情報(bào))特定研究者追蹤(專家)特定研究者追蹤(主要成果)特定研究者追蹤研究重點(diǎn)與方向合作團(tuán)隊(duì)特定研究者追蹤特定文獻(xiàn)分析—圖書5、特定文獻(xiàn)分析特定文獻(xiàn)分析—最新成果特定文獻(xiàn)分析—早期研究1966年就有了基因組研究特定文獻(xiàn)分析—影響力最大的圖書特定文獻(xiàn)分析—期刊論文特定文獻(xiàn)分析—最具影響的期刊論文特定文獻(xiàn)分析—CSCD期刊論文特定文獻(xiàn)分析—SCI期刊論文特定文獻(xiàn)分析—學(xué)位論文特定文獻(xiàn)分析—學(xué)位論文特定文獻(xiàn)分析—學(xué)位論文特定文獻(xiàn)分析—標(biāo)準(zhǔn)特定文獻(xiàn)分析—專利關(guān)鍵詞:禽流感不同文獻(xiàn)敏感度關(guān)鍵詞:禽流感不同文獻(xiàn)敏感度競爭態(tài)勢(shì)分析6、機(jī)構(gòu)研究能力評(píng)價(jià)分析學(xué)術(shù)產(chǎn)出評(píng)價(jià)—天津職業(yè)技術(shù)師范大學(xué)學(xué)術(shù)產(chǎn)出評(píng)價(jià)—天津職業(yè)技術(shù)師范大學(xué)學(xué)術(shù)產(chǎn)出評(píng)價(jià)—高產(chǎn)學(xué)者、高影響力成果戴怡(27)周明星(23)王仲民(22)張學(xué)英(20)張興會(huì)(20)趙麗(15)關(guān)志偉(15)藍(lán)欣(15)鄭宏興(15)曹曄(14)五、基于發(fā)現(xiàn)的自助文獻(xiàn)服務(wù)云南財(cái)經(jīng)大學(xué)發(fā)表的關(guān)于“云南或者昆明的區(qū)域經(jīng)濟(jì)”文獻(xiàn)專題推送此公式檢索結(jié)果58篇文獻(xiàn)檢索:系統(tǒng)動(dòng)力學(xué)社會(huì)化服務(wù)檢索系統(tǒng)動(dòng)力學(xué)收藏到學(xué)習(xí)空間點(diǎn)擊保存去我的收藏分享分享到新浪微博OPAC:本館紙書數(shù)據(jù)庫:

書世界、CNKI、萬方、超星書、方正….讀秀:

圖書補(bǔ)缺百鏈:

期刊等文獻(xiàn)補(bǔ)缺發(fā)現(xiàn)系統(tǒng)無縫對(duì)接的全文服務(wù)功能數(shù)據(jù)庫云共享服務(wù)讀秀六、文獻(xiàn)利用行為分析數(shù)據(jù)庫使用量學(xué)科使用量統(tǒng)計(jì)圖書館是一個(gè)生長的有機(jī)體——阮岡納贊(印度)每一次信息技術(shù)進(jìn)步都極大地推動(dòng)了科學(xué)技術(shù)的飛躍發(fā)展知識(shí)發(fā)現(xiàn)為科技創(chuàng)新插上飛翔的翅膀謝謝知識(shí)發(fā)現(xiàn)為科技創(chuàng)新插上飛翔的翅膀周明星(65)戴怡(46)鄭宏興(42)王仲民(39)張興會(huì)(35)張學(xué)英(32)藍(lán)欣(30)孟慶國(28)關(guān)志偉(28)劉曉(25)深圳職業(yè)技術(shù)學(xué)院(9367)

金華職業(yè)技術(shù)學(xué)院(

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論