大數(shù)據(jù)時代的數(shù)字圖書館_第1頁
大數(shù)據(jù)時代的數(shù)字圖書館_第2頁
大數(shù)據(jù)時代的數(shù)字圖書館_第3頁
大數(shù)據(jù)時代的數(shù)字圖書館_第4頁
大數(shù)據(jù)時代的數(shù)字圖書館_第5頁
已閱讀5頁,還剩77頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

大數(shù)據(jù)時代的數(shù)字圖書館Digital

Library

in

theBig

Data

Age

1

23提綱

大數(shù)據(jù)與數(shù)字圖書館:為

何要提出這個命題?

大數(shù)據(jù)對數(shù)字圖書館的挑

戰(zhàn):為何總是信息革命?

對策探討:數(shù)字圖書館

向業(yè)務流程上游移動3?

大數(shù)據(jù)與數(shù)字圖書館?

數(shù)字圖書館受到廣泛的重視,

成績斐然?

數(shù)字圖書館的建設與需求存在

差距大數(shù)據(jù)與數(shù)字圖書館?

什么是大數(shù)據(jù)?大數(shù)據(jù)在哪里?根據(jù)IDC監(jiān)測,全球數(shù)據(jù)量大約每兩年翻一番,意味著人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當于之前產(chǎn)生的全部數(shù)據(jù)量,預計到2020年,全球?qū)⒖偣矒碛?5ZB的數(shù)據(jù)量,相較于2010年,數(shù)據(jù)量將增長近30倍。

指數(shù)型增長的海量數(shù)據(jù)圖片來源:IBM;Cisco;comScore;MapReduce;Radicati

Group;Twitter;You

Tube?

什么是大數(shù)據(jù)??準確化(Veracity):浪里淘沙卻又彌足珍貴11/26/2012?社會80%的數(shù)據(jù)到底掌握哪里?政府、企業(yè)?今天的數(shù)字圖書館在業(yè)務流程的哪一端??“大數(shù)據(jù)”是一個用來描述海量的結(jié)構(gòu)化和非

結(jié)構(gòu)化數(shù)據(jù)的流行短語,這些數(shù)據(jù)的容量非常

巨大以至于很難用傳統(tǒng)的數(shù)據(jù)庫和軟件技術(shù)進

行存儲、管理和處理。?大數(shù)據(jù)的特性可以用4V描述?大量化(Volume):存儲大;計算量大?多樣化(Variety):來源多;格式多?快速化(Velocity):增長速度快;處理速度要求快大數(shù)據(jù)的四個主要特征圖片來源:國金證券研究所?

大數(shù)據(jù)在哪里?

業(yè)務流程數(shù)據(jù)含天文望遠鏡拍攝的圖像、視頻數(shù)據(jù)、氣象學里面的衛(wèi)星云圖數(shù)據(jù)等

科學大數(shù)據(jù)

含數(shù)據(jù)庫等

社會大數(shù)據(jù)

含SNS、微博、新聞

媒體、視頻網(wǎng)站、電

子商務、招聘信息等

個人大數(shù)據(jù)含個人實時位置、狀態(tài)、見聞、言論等

企業(yè)大數(shù)據(jù)含物聯(lián)網(wǎng)、聯(lián)通、移動、電信等通信和互

聯(lián)網(wǎng)運營商等

Big

Data

2011年產(chǎn)生與復制的信息量

超過1.8ZB

5年中增長了9倍?

數(shù)字圖書館的成就斐然11/26/2012我國數(shù)字圖書館的成就斐然?

結(jié)構(gòu)化學術(shù)資源內(nèi)容豐富,結(jié)構(gòu)完整。包

括電子圖書、電子期刊、電子報紙、數(shù)據(jù)

庫、音視頻資源、網(wǎng)絡資源在內(nèi)的海量數(shù)

字資源?

數(shù)字圖書館將資源進行有序組織,在一定

程度上突破了時間和空間的限制,為學術(shù)

界便捷地獲取信息與知識、社會數(shù)字閱讀11/26/2012我國數(shù)字圖書館的成就斐然?

數(shù)字圖書館為社會構(gòu)建了一個資源共享的

公共服務平臺,它集館藏、服務和人為一

體,延伸了傳統(tǒng)圖書館的服務功能?

我國的數(shù)字圖書館多數(shù)是聯(lián)合建設型圖書

館,多以政府投資的形式開展,注重館際

合作,共同爭取經(jīng)費支持,以實現(xiàn)資源的

合理布局與共享?

數(shù)字圖書館的建設與需求存在差距數(shù)字圖書館與實體館資源同質(zhì)?數(shù)字圖書館處理的問題是數(shù)據(jù)資源數(shù)字化、音頻視頻信息的轉(zhuǎn)換、存貯和檢索以及多媒體信息技術(shù)的擴展深化,但缺乏對海量數(shù)據(jù)的加工處理與管理服務。?從長遠發(fā)展的角度來看,數(shù)字圖書館應該進行數(shù)字資源的深層次開發(fā),拓展對原始數(shù)據(jù)的挖掘、采集、組織、保存與利用,開拓一條數(shù)據(jù)資源主導型的發(fā)展新模式。?技術(shù)上的差距并不難彌補,最大的差距是收集數(shù)據(jù)的意識。我們收集數(shù)據(jù)的意識不強,對于數(shù)據(jù)在決策當中的重要性認識不夠,這才是數(shù)字圖書館最大的制約因素。數(shù)字圖書館與實體館用戶同質(zhì)?因數(shù)字圖書館資源內(nèi)容多數(shù)為館藏資源的數(shù)字化,實體館用戶同質(zhì)的現(xiàn)象較為普遍。一些數(shù)字圖書館系統(tǒng)自成體系?走出實體館的象牙塔,實現(xiàn)不同用戶群體的信息共享與利用11/26/2012

數(shù)字圖書館非結(jié)構(gòu)化數(shù)據(jù)空白大數(shù)據(jù)可以分成二種類型:?一是結(jié)構(gòu)化數(shù)據(jù)即行數(shù)據(jù),存儲在數(shù)據(jù)庫里,可以用二維表結(jié)構(gòu)來實現(xiàn)的數(shù)據(jù)。?二是半結(jié)構(gòu)化或者非結(jié)構(gòu)化數(shù)據(jù)這種數(shù)據(jù)包括電子郵件、辦公處理文檔,以及許多存儲在Web上的信息及圖像、音頻和視頻等可以被感知的信息。?企業(yè)中80%是非結(jié)構(gòu)化或半結(jié)構(gòu)化的。世界結(jié)構(gòu)化數(shù)據(jù)增長率大概是32%,而非結(jié)構(gòu)化數(shù)據(jù)增長則是63%。至2012年,非結(jié)構(gòu)化數(shù)據(jù)占有比例將達到互聯(lián)網(wǎng)整個數(shù)據(jù)量的75%以上。?這些非結(jié)構(gòu)化數(shù)據(jù)的產(chǎn)生往往伴隨著社交網(wǎng)絡、移動計算和傳感器等新的渠道和技術(shù)的不斷涌現(xiàn)和應用。?數(shù)字圖書館中,多數(shù)為數(shù)據(jù)庫建設,非結(jié)構(gòu)化的數(shù)據(jù)內(nèi)容所占比重非常低。缺乏大數(shù)據(jù)的分析,數(shù)字圖書館很難融入企業(yè)等用戶群體的細節(jié)服務。數(shù)字圖書館非結(jié)構(gòu)化數(shù)據(jù)空白科學研究的變化要求數(shù)字圖書館大數(shù)據(jù)的支撐?科學研究的不斷變化轉(zhuǎn)型對數(shù)字圖書館的大數(shù)據(jù)利用提出了要求。?然而,數(shù)字圖書館缺乏大數(shù)據(jù)的利用,這無法迎合科學研究的變化要求。11/26/2012研究變化了:數(shù)據(jù)驅(qū)動的研究?????面向問題的研究面向數(shù)字與模擬的研究面向決策支持的研究面向創(chuàng)新驅(qū)動的研究越來越依賴數(shù)據(jù)11/26/2012學術(shù)交流模式已經(jīng)變化了

(學術(shù)交流融合)圖片來源:http://www.ariadne.ac.uk/issue36/lyon11/26/2012

傳統(tǒng)學術(shù)交流的四要素:

登記-鑒定-發(fā)現(xiàn)-保存?

Registration-establishing

the

intellectual

priority

of

an

idea,

concept,

or

research;?

Certification-certifying

the

quality

of

the

research

and/or

the

validity

of

the

claimed

finding;?

Awareness-ensuring

the

dissemination

and

accessibility

of

research,

providing

a

means

by

which

researchers

can

become

aware

of

new

research;

and?

Archiving-preserving

the

intellectual

heritage

for

future

use數(shù)字圖書館面臨新的研究需求

?

?

?

?

?

?11/26/2012E-Science海量數(shù)據(jù)科教結(jié)合協(xié)同創(chuàng)新產(chǎn)學研結(jié)合第四范式創(chuàng)新主體的轉(zhuǎn)移要求大數(shù)據(jù)?十八大報告指出,要更加注重協(xié)同創(chuàng)新,要構(gòu)建以企業(yè)為主體、市場為導向、產(chǎn)學研相結(jié)合的技術(shù)創(chuàng)新體系?產(chǎn)業(yè)轉(zhuǎn)型升級依賴于科技創(chuàng)新。這個過程萌芽于科學發(fā)現(xiàn),生長于成果轉(zhuǎn)化,科學發(fā)現(xiàn)就成了科技創(chuàng)新的原點?發(fā)現(xiàn)隱秘的消費規(guī)律;微博和手機的普及、社交網(wǎng)絡的廣泛應用使得以往幾乎不可能完成的一些人群活動規(guī)律研究成為可能。例如人群在物理上如何移動??全球多家互聯(lián)網(wǎng)巨頭都意識到“大數(shù)據(jù)”時代來臨的重要意義?;萜?、IBM、微軟等紛紛通過收購“大數(shù)據(jù)”相關廠商來實現(xiàn)技術(shù)整合。Gartner研究表明,全球500強中85%的企業(yè)將無法利用他們的大數(shù)據(jù)國際上的大數(shù)據(jù)開發(fā)趨勢強勁?2009年,歐洲一些領先的研究型圖書館和科技信息研究機構(gòu)建立了伙伴關系致力于改善在互聯(lián)網(wǎng)上獲取科學數(shù)據(jù)的簡易性。?2010年7月,聯(lián)合國發(fā)布了《大數(shù)據(jù)促發(fā)展:挑戰(zhàn)與機遇(Big

Data

for

Development:

Challenges

&Opportunities)》白皮書,指出大數(shù)據(jù)對于全世界是一個歷史性的機遇,可以利用大數(shù)據(jù)造福人類。?2012年1月,瑞士達沃斯召開的世界經(jīng)濟論壇上,大數(shù)據(jù)是主題之一,會上發(fā)布的報告《大數(shù)據(jù),大影響:國際化發(fā)展的新機遇(Big

Data,

Big

Impact:New

Possibilitiesfor

International

Development

)》

宣稱,數(shù)據(jù)已經(jīng)成為一種新的經(jīng)濟資產(chǎn)類別,就像貨幣或黃金一樣。11/26/2012國際上的大數(shù)據(jù)開發(fā)趨勢強勁?

2009年5月,美國政府成立了名為Data.Gov的公共數(shù)據(jù)開放的門戶網(wǎng)站;?

2010年12月,奧巴馬政府出臺了《規(guī)劃數(shù)字化未來》的專門報告,把數(shù)據(jù)收集和使用的工作提到了戰(zhàn)略的高度。?

2012年3月,美國政府發(fā)布了《大數(shù)據(jù)研究和發(fā)展計劃》

,此項帶有2億多美元推動資金的倡議,旨在通過推動和改善與大數(shù)據(jù)相關的收集、組織和分析工具及技術(shù),提升從海量和復雜的數(shù)據(jù)集中獲取知識和洞察分析能力。奧巴馬則強調(diào)政府必須和公司、大學合作結(jié)盟,全民動員來應對“大數(shù)據(jù)”時代的挑戰(zhàn)。?

2012年5月,美國行政管理和預算局發(fā)布了《數(shù)字政府:

建立一個面向21世紀的平臺來更好服務美國人民(DigitalGovernment:

Building

a

21st

Century

Platform

to

Better

Servethe

American

People)》行政指令,旨在實現(xiàn)“隨時、隨地、任何設備”都能獲得政府信息資源,提高全社會服務的質(zhì)量。圖片來源:

McKinsey

Global

Institute:“Big

Data

The

next

frontier

forinnovation,

competition

and

productivity”(2011

5

月)麥肯錫評估報告中指出,大數(shù)據(jù)的應用每年潛在可為美國醫(yī)療健康業(yè)和歐洲發(fā)達經(jīng)濟體政府分別節(jié)省3000億美金和2500億歐元的開支。利用個人位置信息潛在可創(chuàng)造出1000億美金的消費者剩余。在國際社會的強力驅(qū)動下,我國在大數(shù)據(jù)開放方面還有待進一步的努力。

大數(shù)據(jù)的市場空間及對社會的貢獻?任何人在任何時間、任何地點,可以獲得所需要的任何知識,這是數(shù)字圖書館建設的美好愿景。?而當前,多數(shù)數(shù)字圖書館服務系統(tǒng)都是基于門戶網(wǎng)站開展的服務。少數(shù)數(shù)字圖書館的服務范圍已從互聯(lián)網(wǎng)向移動通信網(wǎng)、廣播電視網(wǎng)等網(wǎng)絡平臺逐步拓展,開展了移動圖書館等新媒體服務建設,但服務功能有限。?我國數(shù)字圖書館對用戶信息需求與信息獲取習慣的變化還不夠敏感,缺乏創(chuàng)新理念與服務機制,缺乏與業(yè)務流程的融合數(shù)字圖書館處在象牙塔遠離創(chuàng)新前沿?

大數(shù)據(jù)對數(shù)字圖書館的挑戰(zhàn)11/26/2012

為何總是信息革命??

數(shù)字圖書館缺乏大數(shù)據(jù),導致

數(shù)字圖書館處在象牙塔?

科學研究的變化,要求數(shù)字圖

書館適應新的需求?

創(chuàng)新主體的轉(zhuǎn)移,要求數(shù)字圖

書館適應企業(yè)界的需要?

用戶信息素養(yǎng)的變化,要求數(shù)

字圖書館適應社會搜尋的需要?

國際上圖書館的變化?

對數(shù)字圖書館的競爭?

原生大數(shù)據(jù)的缺乏,與實體圖書館資源和用戶同質(zhì)現(xiàn)象?

非結(jié)構(gòu)化數(shù)據(jù)缺乏,數(shù)字圖書館通常都是在數(shù)據(jù)庫里存在的結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)如聲音、視頻、音頻、圖片等可視可聽的數(shù)據(jù)空白?

數(shù)字圖書館中的數(shù)據(jù)則是在各種國內(nèi)外數(shù)據(jù)庫里存在的結(jié)構(gòu)化數(shù)據(jù),大數(shù)據(jù)的缺乏導致數(shù)字圖書館處在象牙塔中。數(shù)字圖書館缺乏大數(shù)據(jù),導致數(shù)字圖書館處在象牙塔科學研究的變化,要求數(shù)字圖書館適應新的需求?

現(xiàn)在越來越多新的學科領域,完全建立在大量數(shù)

據(jù)的基礎上,比如系統(tǒng)生物學(Systems

Biology)

、宏生態(tài)學(Macroecology)、基因組學(pure

Genomics)等。?

美國國家科學基金會和美國國家衛(wèi)生研究院將對大數(shù)據(jù)進行聯(lián)合招標,旨在改進核心科學與技術(shù)手段,提高從各種大型數(shù)據(jù)集中提取重要信息并對其進行有效管理、分析和可視化能力,加速科技成果的產(chǎn)生,并帶領國家進入一些全新的、以往不可企及的研究領域。33?

李國杰院士認為:“長期以來,許多領域都是在用小數(shù)據(jù)做科學實驗,找出一個模型和規(guī)律?,F(xiàn)在越來越復雜,有一堆數(shù)據(jù)看上去沒有規(guī)律??茖W家要找到新的研究方法,這種模式和方法的改變需要探索。要研究大數(shù)據(jù)的問題在哪兒,在應用中發(fā)現(xiàn)什么技術(shù)難題,這些有針對性的問題,不是憑空想出來的,是需要實踐總結(jié)出來的?!?

從目前來看,大數(shù)據(jù)技術(shù)主要涵蓋的領域有可視化分析、數(shù)據(jù)挖掘算法、預測性分析能力、語義引擎、數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理等?

因此,數(shù)字圖書館應適應科學研究變化的新領域、新技術(shù)與新需求,推動數(shù)字圖書館的發(fā)展創(chuàng)新主體的轉(zhuǎn)移,要求數(shù)字圖書館適應企業(yè)界的需要?

黨的十八大:

要構(gòu)建以企業(yè)為主體、市場為

導向、產(chǎn)學研相結(jié)合的技術(shù)創(chuàng)新體系(2012年

11月8日)?

全國科技創(chuàng)新大會,推進科技與經(jīng)濟結(jié)合(2012年7月6日)?

技術(shù)創(chuàng)新企業(yè)主體地位大數(shù)據(jù)概覽圖片來源:互聯(lián)網(wǎng)

國金證券研究所11/26/2012?

從上圖的大數(shù)據(jù)概覽中可以看到企業(yè)作為創(chuàng)新主體的重要

作用。?

企業(yè)應用還是大數(shù)據(jù)的主要推動者。生物、醫(yī)學、天文、

環(huán)境、物理、工程、經(jīng)濟、互聯(lián)網(wǎng)等諸多領域涉及大數(shù)據(jù)

的處理和應用。?

自2005年以來,IBM投資160億美元進行了30次與大數(shù)據(jù)有

關的收購,促使其業(yè)績穩(wěn)定高速增長。2012年,IBM股價

突破200美元大關,3年之內(nèi)翻了3倍。華爾街早就開始招

聘精通數(shù)據(jù)分析的天文學家和理論數(shù)學家來設計金融產(chǎn)品

。IBM現(xiàn)在是全球數(shù)學博士的最大雇主,數(shù)學家正在將其

數(shù)據(jù)分析的才能應用于石油勘探、醫(yī)療健康等各個領域。

eBay通過數(shù)據(jù)挖掘可以精確計算出廣告中的每一個關鍵字

為公司帶來的回報。?

大數(shù)據(jù)應用也早已在商業(yè)領域應用。金蝶他們參與搭建的全國中小企業(yè)信息平臺,匯集了4000萬家企業(yè),通過對這些企業(yè)海量數(shù)據(jù)的挖掘和分析,能對經(jīng)濟運行狀況作出準確的預警?

在微觀經(jīng)濟領域,“大數(shù)據(jù)”的作用也越發(fā)凸顯。天氣預報的信息和數(shù)據(jù)可以幫助農(nóng)業(yè)的種植者在特定季節(jié)中避免遭受氣象災害?

在企業(yè)管理上,大數(shù)據(jù)可以用來決策下一步的投資、戰(zhàn)略部署、產(chǎn)品研發(fā)。”用戶信息素養(yǎng)的變化,要求數(shù)字圖書館適應社會搜尋的需要?

今天的圖書館用戶研究不像從前?

從大量的數(shù)據(jù)中分析潛在的價值決定著大數(shù)據(jù)時代的圖書館的發(fā)展水平及方向。?

隨著個性化、學科化等越來越專業(yè)、編輯服務的實施與出現(xiàn),用戶的服務要求也日益提高?

在大數(shù)據(jù)時代,圖書館的數(shù)據(jù)處理范圍、方式、對象、目的等將發(fā)生巨大的變化?

在大數(shù)據(jù)時代,數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)增值11/26/2012圖書館需要融于社區(qū)圖片來源:http://www.ariadne.ac.uk/issue36/lyon國際上圖書館的變化?

ARL報告11/26/2012

We

have

seen

in

recent

years

it

can

be

argued

that:?

Many

users

now

have

the

skills

and

access

to

technologies

to

find

and

access

resources

which

previously

were

mediated

by

librarians.?

We

are

seeing

a

decrease

in

the

importance

of

finding

via

metadata

and

an

increase

in

the

importance

of

social

discovery.11/26/2012Focussing

on

the

technologicaldevelopments

we

have

seen

in

recentyears

it

can

be

argued

that:?

Many

users

now

have

the

skills

and

access

totechnologies

to

find

and

access

resourceswhich

previously

were

mediated

by

librarians.?

We

are

seeing

a

decrease

in

the

importance

offinding

via

metadata

and

an

increase

in

theimportance

of

social

discovery.11/26/2012?

We

are

seeing

a

decrease

in

the

importance

oflibraries

providing

access

to

trusted

resources.Instead

users

now

wish

to

access

resourcesthey

find

in

the

wild

but

will

need

to

be

ableto

evaluate

such

resources.?

We

are

seeing

a

decrease

in

an

unquestioningbelief

in

the

value

of

libraries

and

librariansand

a

need

for

the

sector

to

be

able

todemonstrate

value

and

pro-actively

marketthemselves.對數(shù)字圖書館的競爭?

對于社會中以知識存貯、利用與開發(fā)為己任的

圖書館來說,在這個“大數(shù)據(jù)”時代如何提高

海量增長的文獻處理能力,搜尋新的數(shù)據(jù)計算、

知識發(fā)現(xiàn)及信息服務的新途徑,面臨挑戰(zhàn)?

數(shù)字圖書館應由靜態(tài)發(fā)展轉(zhuǎn)向動態(tài)發(fā)展,將數(shù)字圖書館與產(chǎn)業(yè)、社區(qū)結(jié)合在一起?

數(shù)字圖書館的對策探

討:向業(yè)務流程上游移動數(shù)字圖書館的對策探討?

非結(jié)構(gòu)化大數(shù)據(jù)開發(fā)?

分布式大數(shù)據(jù)開發(fā)?

大數(shù)據(jù)開發(fā)相關技術(shù)?

領域大數(shù)據(jù)開發(fā)?

原生大數(shù)據(jù)開發(fā)?

特藏大數(shù)據(jù)開發(fā)大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)急劇增長?

大數(shù)據(jù)時代的數(shù)據(jù)膨脹導致圖書館無法在一定時間內(nèi)用常規(guī)軟件工具對其內(nèi)容進行抓取、處理和管理。?

這些數(shù)據(jù)主要有兩類情況:一類是原有數(shù)據(jù)種類量的增加另一類是過去我們沒有關心或沒有能力關心的數(shù)據(jù):如社交媒體、實時位置、智能設備、傳感器計量等復雜業(yè)務數(shù)據(jù)

非結(jié)構(gòu)化大數(shù)據(jù)開發(fā)

大數(shù)據(jù)環(huán)境下,圖片、音頻、視頻、XML、HTML、辦公文檔、各類報表等非結(jié)構(gòu)化數(shù)據(jù)大量增加。圖片來源:甲骨文公司(《從非結(jié)構(gòu)化數(shù)據(jù)到大數(shù)據(jù)(Big

Data)》)非結(jié)構(gòu)化大數(shù)據(jù)開發(fā)?

大數(shù)據(jù)分析經(jīng)常會用到存儲數(shù)據(jù)庫來快速處理大量記錄的數(shù)據(jù)流通。一、結(jié)構(gòu)化數(shù)據(jù):?

海量數(shù)據(jù)的查詢、統(tǒng)計、更新等操作效率低二、非結(jié)構(gòu)化數(shù)據(jù)?

圖片、視頻、word、pdf、ppt等文件存儲?

以多種物理的和邏輯的格式存儲的,而且儲存地點具有分散

性,其內(nèi)容可能存儲于圖書館內(nèi)部的不同設備之中以及圖書

館外部。?

不利于檢索、查詢和存儲三、

半結(jié)構(gòu)化數(shù)據(jù)?

轉(zhuǎn)換為結(jié)構(gòu)化存儲?

按照非結(jié)構(gòu)化存儲圖片來源:甲骨文公司(《從非結(jié)構(gòu)化數(shù)據(jù)到大數(shù)據(jù)(Big

Data)》)結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一管理

甲骨文公司的大數(shù)據(jù)解決方案:

分布式大數(shù)據(jù)開發(fā)?

如何從海量數(shù)據(jù)中發(fā)現(xiàn)特定知識,如何高效地處理海量數(shù)

據(jù),幾乎是任何一個信息分析機構(gòu)要面對的問題。大規(guī)模

非結(jié)構(gòu)化數(shù)據(jù)的激增,需要分布式大規(guī)模數(shù)據(jù)庫的開發(fā)。

目前,如果不談架構(gòu)層面上傳統(tǒng)的IaaS、PaaS與SaaS,就

數(shù)以分布式與虛擬化為主要代表的云計算技術(shù)被普遍接受。圖片來源:中信證券,張新峰,大數(shù)據(jù)(Big

Data)專題研究報告《大數(shù)據(jù)大市場大機遇》分布式大數(shù)據(jù)開發(fā)?

目前,云數(shù)據(jù)管理技術(shù)因其低成本、去中心化、

可無限水平擴展、可無間歇在線擴展和海量數(shù)

據(jù)管理能力,在很多領域取得明顯成功,如

Google,Amazon,國內(nèi)的淘寶等。基于云技術(shù)

的分布式大規(guī)模數(shù)據(jù)庫將全面替代主流關系數(shù)

據(jù)庫的呼聲越來越高。?

分布式計算技術(shù)可對海量數(shù)據(jù)進行分析以實時

得出答案。云計算是分布式計算、并行計算和

網(wǎng)格計算的發(fā)展,是實時分析與NoSQL數(shù)據(jù)功

能的結(jié)合。

分布式大數(shù)據(jù)開發(fā)?

云計算的數(shù)據(jù)存儲技術(shù)主要有Google的非開源的GFS(

Google

file

system)

和Hadoop的GFS

開源實現(xiàn)HDFS

(

Hadoop

distributed

file

system)

。?

以Google為代表的云計算以其應用簡單、高效得到了廣泛

認可。它通過在分布式文件系統(tǒng)GFS基礎之上的MapReduce

編程模型以及廉價集群的建立,解決了許多大規(guī)模數(shù)據(jù)的

計算問題。?

由雅虎資助的開源項目Hadoop,是一個類似于Google

云計

算的技術(shù)平臺,專注于海量數(shù)據(jù)存儲、處理的分布式系統(tǒng),同時提供了基于Java的MapReduce框架,能夠?qū)⒎植际綉貌渴鸬酱笮土畠r集群上。與此同時,Hadoop在圖書館也得到了應用。例如,Nutch搜索引擎中的分布式搜索、索引等。

以Hadoop云計算平臺為例?

Hadoop是Apache開源組織的一個分布式計算開

源框架,它基于廉價PC服務器,專注于海量數(shù)

據(jù)存儲、處理的分布式系統(tǒng)。?

Hadoop具備低廉的硬件成本、開源的軟件體系、

較強的靈活性、允許用戶自己修改代碼等特點,

同時能支持海量數(shù)據(jù)存儲和計算任務。?

Hadoop提供由Java

實現(xiàn)的Map-Reduce技術(shù)框

架,能夠?qū)⒎植际綉貌渴鸬搅畠r服務器上。

同時為應用程序提供了一組穩(wěn)定可靠的接口。?

Hadoop框架中最核心的設計是Map-Reduce和

HDFS。

Map-Reduce分布式計算?

Hadoop

中的Map-Reduce是一個軟件框架,基于它寫出來的應用

程序能夠運行在大型集群上,并以一種可靠容錯的方式并行處理

大規(guī)模的數(shù)據(jù)集。?

Map-Reduce

模型使用函數(shù)Map分割數(shù)據(jù)和函數(shù)Reduce合并數(shù)據(jù)。圖片來源:《云計算與大數(shù)據(jù)----

新一代數(shù)據(jù)管理技術(shù)》數(shù)字圖書館體系結(jié)構(gòu)預測用戶行為日志、微博HDFS用戶信息NoSQLDataBase大數(shù)據(jù)集縮減

針對用戶的

最佳推送

批處理查詢、借閱

信息內(nèi)容推送

用戶管理

數(shù)字圖書館用戶信

系統(tǒng)

息系統(tǒng)技術(shù)架構(gòu)客戶端應用層(SAAS)

應用

平臺門戶網(wǎng)站、用戶管理、搜索引擎等數(shù)據(jù)處理接口數(shù)據(jù)分塊、數(shù)據(jù)合并、Map、Reduce集群

VM主機

Hadoop

Map-Reduce

HDFS負載均衡、容錯機制、資源管理平臺層(PAAS)基礎設施層(IAAS)虛擬化層

計算/

存儲/

網(wǎng)絡/

應用/

服務器

虛擬化實體層CUP/存儲/網(wǎng)絡/IO/計算/其他資源大數(shù)據(jù)開發(fā)的相關技術(shù)?

大數(shù)據(jù)開發(fā)是建立在一個獲取、組織和分析范式之上的:?

1、獲?。捍髷?shù)據(jù)開發(fā)方案必須能夠以高速度獲得海量數(shù)據(jù)。這通常要通過服務器群集來傳播大量文檔和存儲,每個服務器都在各自的本地磁盤上存儲整體數(shù)據(jù)的一個子集,雖然有很多方案,但Hadoop和NoSQL是提供這一功能兩個最基本的技術(shù)。?

2、組織:從大規(guī)模的非結(jié)構(gòu)化數(shù)據(jù)中識別和提取有用的信息,而不移動這些數(shù)據(jù)的組織能力是十分必要的。Hadoop

Map-Reduce框架通過分布在群集中的所有服務器上處理工作來提供這一功能。通過各節(jié)點返回主節(jié)點的高度綜合的數(shù)據(jù)可以被其他統(tǒng)計工具分析或載入傳統(tǒng)的數(shù)據(jù)倉儲中。NoSQL非關系型數(shù)據(jù)庫?

NoSQL=Not

Only

SQL?

NoSQL在很多情況下又叫做云數(shù)據(jù)庫。處理數(shù)據(jù)的模式完全是分布于各種低成本PC服務器和存儲磁盤。?

NoSQL結(jié)構(gòu)解決了關鍵數(shù)據(jù)集成的統(tǒng)一接口問題,強調(diào)高吞吐、高并發(fā)、高可用、高分區(qū)容錯性。?

不用將數(shù)據(jù)進行歸類組織,能處理各種類型的文檔,數(shù)據(jù)格式靈活多變,沒有標準,模型簡單。?

大部分數(shù)據(jù)關系僅需建立一次,數(shù)據(jù)結(jié)構(gòu)和結(jié)構(gòu)之間的關系穩(wěn)定,不再經(jīng)常變化;變化的只是數(shù)據(jù)值大數(shù)據(jù)開發(fā)的相關技術(shù)?

3、分析:經(jīng)過組織的大數(shù)據(jù)可以被傳統(tǒng)的數(shù)據(jù)

分析工具分析,如加載匯總數(shù)據(jù)到數(shù)據(jù)倉儲。目

前已有專門的大數(shù)據(jù)處理引擎,提供基于數(shù)據(jù)庫

分析(In-database)和內(nèi)存分析(In-memory)。?

數(shù)據(jù)庫分析進行動態(tài)數(shù)據(jù)管理,目的在于分析和報告數(shù)據(jù)運行情況、減少數(shù)據(jù)移動和促進更好的數(shù)據(jù)管理。使用可擴展的數(shù)據(jù)庫架構(gòu),進行庫內(nèi)分析,可以減少數(shù)據(jù)準備的時間,構(gòu)建、導出和更新分析模型。?

內(nèi)存分析可以迅速解決大數(shù)據(jù)的復雜分析問題,使用內(nèi)存和多用數(shù)據(jù)接口快速運行復雜的新計算。用戶可即時對數(shù)據(jù)檢索和可視化、構(gòu)建和導出分析模型并完成具體業(yè)務和挑戰(zhàn)。這些都是在分布式的內(nèi)存中進行的,而非在一個磁盤中。一、支持對象存儲的統(tǒng)一存儲技術(shù)?

文件+元數(shù)據(jù)=對象?

元數(shù)據(jù)通常稱為“關于數(shù)據(jù)的數(shù)據(jù)”,是有效管理、共享和存儲信息的最重要因素,可以實現(xiàn)大數(shù)據(jù)的集成和循環(huán)利用。?

大數(shù)據(jù)時代增長幅度最大的非結(jié)構(gòu)化數(shù)據(jù),將通過互聯(lián)網(wǎng)協(xié)議以文件或?qū)ο蟮男问教峁?。這些數(shù)據(jù)可增長至成百上千的拍字節(jié)和數(shù)十億個對象,?

除了需要更大的文件系統(tǒng)和可擴展的模塊存儲系統(tǒng)外,還需要對文件、模塊和對象數(shù)據(jù)存儲進行融合。通過消除數(shù)據(jù)保護的備份成本,數(shù)據(jù)分析的ETL(提取、轉(zhuǎn)換和加載)成本以及文件、模塊和對象存儲孤島的管理成本來提高存儲效率。其它大數(shù)據(jù)相關技術(shù)?

數(shù)據(jù)挖掘技術(shù)可以對關系數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù),

或是文本、圖形、圖像數(shù)據(jù)等半結(jié)構(gòu)化數(shù)據(jù),甚

至是分布在網(wǎng)絡上的異構(gòu)型數(shù)據(jù)進行采集。三、可視化技術(shù)?

由于難以以數(shù)據(jù)的形式清晰地進行觀察海量信息,

所以要通過直觀、生動的可視化圖形對數(shù)據(jù)進行

展示數(shù)據(jù)的關系和結(jié)構(gòu)。大數(shù)據(jù)時代迅速增長的

非結(jié)構(gòu)化數(shù)據(jù)也需要可視化技術(shù)向用戶展現(xiàn)。?

非結(jié)構(gòu)化數(shù)據(jù)的可視化編輯系統(tǒng)用超圖模型的方

法,將傳統(tǒng)方法所不能表示的非結(jié)構(gòu)化數(shù)據(jù)用超

圖模型統(tǒng)一表示,并能在數(shù)據(jù)庫中有效的存儲,

而且提供給用戶一個交互式的界面。

其它大數(shù)據(jù)相關技術(shù)二、數(shù)據(jù)挖掘技術(shù)可視化關系圖資料來源:國金證券(《大數(shù)據(jù)引領我們走向數(shù)據(jù)智能化時代——BigData專題報告》)領域大數(shù)據(jù)開發(fā)領域大數(shù)據(jù)開發(fā)?

政府投入大數(shù)據(jù)開發(fā),形成示范效應,以推動大數(shù)據(jù)的發(fā)展。?

在民生領域,應用大數(shù)據(jù)技術(shù),提升服務能力和運作效率,以及個性化的服務,比如醫(yī)療、衛(wèi)生、教育等部門;?

在安防領域,應用大數(shù)據(jù)技術(shù),提高應急處置能力和安全防范能力;?

在金融、電信等領域投資建立大數(shù)據(jù)的處理分析手段,實現(xiàn)綜合治理、業(yè)務開拓等目標。三峽工程長江中下

游干旱臺風

梅花

日本核輻射氣象輿情監(jiān)測

?對氣候的影響

極端天氣頻發(fā),有多少

是人為之禍?公眾對氣

象部門的氣象服務有了

全新的期待。依托數(shù)據(jù)中心與云服務平臺,拓爾思大數(shù)據(jù)管理系統(tǒng)還原熱點氣象事件引發(fā)的網(wǎng)絡輿情,總結(jié)氣象部門應對氣象危機的得失,為氣象部門開拓氣象服務新領域、提升氣象服務水平提供參考。中國氣象局大數(shù)據(jù)管理資料來源:北京拓爾思公司(《理解大數(shù)據(jù),實踐大數(shù)據(jù)》)氣象信息月度走勢圖年度熱門氣象事件排行榜全國氣象輿情熱度概覽氣象口碑媒體分布圖中國氣象局大數(shù)據(jù)管理

借助數(shù)據(jù)中心的大數(shù)據(jù)與云服務平臺,拓爾思大

數(shù)據(jù)管理系統(tǒng)為氣象局提供了全面的多維度分析。資料來源:北京拓爾思公司(《理解大數(shù)據(jù),實踐大數(shù)據(jù)》原生大數(shù)據(jù)開發(fā)?

原生數(shù)字資源被普遍認為是在產(chǎn)生之初無相同物理替代形態(tài)的數(shù)字信息。由于

原生數(shù)字資源

沒有其他的存儲形式,原生大數(shù)據(jù)的開發(fā)、采集、組織和保存工作更需得到圖書館重視。?

OCLC對于原生數(shù)字資源的分類有:數(shù)碼照片、數(shù)字文檔、網(wǎng)絡存檔、數(shù)字手稿、電子記錄、靜態(tài)數(shù)據(jù)集、動態(tài)數(shù)據(jù)、數(shù)字藝術(shù)、數(shù)字媒體出版物。

原生大數(shù)據(jù)開發(fā)1、數(shù)碼照片

使用數(shù)碼相機拍攝的數(shù)碼照片是增長最快的

一種原生數(shù)據(jù)。保存的重點在于將其以當前的

主流形式拷貝在同時時期的可持久使用的媒介

上。為保護照片的完整和原始,還要注意色彩

空間與壓縮。2、數(shù)字文檔

如今基本所有的文檔文件都是以數(shù)字形式創(chuàng)建的。是否保持其紙本或數(shù)字形式是一個基本而又重要的問題。以創(chuàng)建文檔的軟件區(qū)分這些數(shù)字文檔,繼續(xù)保留如PDF等標準格式的文檔。原生大數(shù)據(jù)開發(fā)3、網(wǎng)站存檔

機構(gòu)可以自己通過互聯(lián)網(wǎng)捕捉網(wǎng)絡快照,以獲得集中的存檔:國家圖書館可以對該國的網(wǎng)站進行存檔;大學可以對某領域內(nèi)容進行存檔。這些檔案可能集中于某一特定主題或事件??梢詫⑦@些檔案以ISO標準WARC文件格式保存;可以通過互聯(lián)網(wǎng)檔案的開源開發(fā)工具來抓取和訪問內(nèi)容。原生大數(shù)據(jù)開發(fā)4、數(shù)字手稿可向手稿提供者推薦修改、組織、命名文件的方法和保存文件的格式與媒介。大多數(shù)收集來的手稿只需稍作處理以保障內(nèi)容即可。只有極少數(shù)作者的手稿值得進行仿真重建以作收藏。5、電子記錄這類記錄包括政府文件和公司、機構(gòu)、組織檔案。這類數(shù)據(jù)多處于文字處理格式的資料中,包括電子郵件、數(shù)據(jù)庫、電子表格、說明和其他類型的文件。由于其中一些只能通過專用軟件讀取,所以最好能從專有格式中將其抽取出來。原生大數(shù)據(jù)開發(fā)6、靜態(tài)數(shù)據(jù)集靜態(tài)數(shù)據(jù)集是建立在研究過程中,并且是未來研究的基礎。但靜態(tài)數(shù)據(jù)集的創(chuàng)建往往沒有考慮保存和以后訪問的問題,一些數(shù)據(jù)集需要特殊的軟件和文件才能使用。因此,樣品的性質(zhì)、收集數(shù)據(jù)的方法、軟件的使用等背景信息都應予以保留。7、動態(tài)數(shù)據(jù)動態(tài)數(shù)據(jù)是指在系統(tǒng)應用中隨時間變化而改變的數(shù)據(jù),例如社交網(wǎng)絡上的大量社會信息??梢酝ㄟ^建立動態(tài)數(shù)據(jù)中心和自動化管理平臺,進行基于分布式數(shù)據(jù)庫的即時管理。

原生大數(shù)據(jù)開發(fā)8、數(shù)字藝術(shù)

數(shù)字藝術(shù)可以是數(shù)字攝影等簡單形式,也可以是混合媒介的、動態(tài)的、更為復雜的形式。9、數(shù)字媒體出版物

它們定期以數(shù)字形式發(fā)表。如音樂、電影、

視頻和游戲等商業(yè)出版物可以被放入其它可

替代的媒介中。對于一些類似早期電影的已

經(jīng)失去商業(yè)價值的內(nèi)容,由于版權(quán)和許可問

題,圖書館很難采取行動防止其在老化和衰

減過程中流失。特藏大數(shù)據(jù)管理?

大數(shù)據(jù)環(huán)境下,一個圖書館沒有必要也不可能將它的全部館藏數(shù)字化。?

但圖書館必須將優(yōu)先對在某一方面形成了一定規(guī)模的、結(jié)構(gòu)比較完整的文獻資源特別是原生信息資源,進行有系統(tǒng)、有組織地開發(fā)整理,以真正發(fā)揮數(shù)字圖書館的規(guī)模效益。?

例如美國國會圖書館的“美國記憶”項目,收集整理了照片、手稿、海報、樂譜、地圖、錄音、動態(tài)圖像等記載美國歷史文化的特藏。特藏大數(shù)據(jù)管理?

OCLC于2010年11月發(fā)布的調(diào)查結(jié)果顯示,館藏空間、原生資源和數(shù)字化問題是館藏大數(shù)據(jù)管理的三大最具挑戰(zhàn)性的問題。?

經(jīng)過長時間的努力,仍有一半的檔案收集不在線,用戶需求仍然無法滿足;雖然減少了許多積壓,而幾乎同樣多的在繼續(xù)增長;原生數(shù)字資源管理仍處于起步階段。特藏大數(shù)據(jù)管理1、數(shù)字化?

完善大規(guī)模特色館藏數(shù)字化模式,包括選擇合適的資源、安全保護與操作、創(chuàng)建可持續(xù)元數(shù)據(jù)等;?

確定要數(shù)字化的不可多得的好書的范圍,挑出那些有開放存取許可的;?

確定完成合作項目主體的最重要的差距所在。

特藏大數(shù)據(jù)管理2、原生數(shù)字檔案資料?

定義原生數(shù)字檔案資料的特征,作為“特

色館藏”的重要依據(jù);?

制定一套合理的基本步驟和一個長期計劃,

管理原生數(shù)字檔案資料;?

為原生數(shù)字檔案資料的選擇、管理和保存

開發(fā)使用案例和成本模型。特藏大數(shù)據(jù)管理3、館藏?

確定限制合作館藏發(fā)展的障礙,將關鍵特色和預期效果有效結(jié)合;?

風險性資料4、人員5、長期保存?????

向業(yè)務流程上游移動數(shù)字圖書館參與業(yè)務大循環(huán)與數(shù)據(jù)供應商合作與出版合作與企業(yè)合作我高興看到:CALIS啟動科學數(shù)據(jù)項目,中國科技

信息研究所啟動科技報告項目,國家圖書館啟動

國家記憶項目。我希望國家加大對這些項目的支

持力度。通過探索,積累經(jīng)驗,為圖書館迎接大

數(shù)據(jù)時代做出貢獻!11/26/2012??????本演講參考了國內(nèi)外作者的

著作,特此致謝![1]

Big

Data

The

Next

Frontier

for

Innovation,

Competition,

andProductive,

McKinsey

Global

Institute,

2011.5[2]

Big

Data

for

Development:

Challenges

&

Opportunities,

UN

GlobalPulse,

2012.5[3]Digital

Government:

Building

a

21st

Century

Platform

to

Better

Servethe

American

People,

the

office

of

Management

and

Budger,

2012.5[4]

Obama

Administration

Unveils

“Big

Data”Initiative:

Announces

$200Million

in

New

R&DInvestments,

Executive

Office

of

the

President,

2012.3[5]

Big

Data

Across

the

Federal

Government,

Executive

Office

of

thePresident,

2012.3?[6]BigData,BigImpact:NewPossibilitiesforInternational??Development,

2012

World

Economic

Forum[7]

Clouds,

big

data,

and

smart

assets:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論