大數(shù)據(jù)時代索引與數(shù)據(jù)庫事業(yè)的發(fā)展與創(chuàng)新課件_第1頁
大數(shù)據(jù)時代索引與數(shù)據(jù)庫事業(yè)的發(fā)展與創(chuàng)新課件_第2頁
大數(shù)據(jù)時代索引與數(shù)據(jù)庫事業(yè)的發(fā)展與創(chuàng)新課件_第3頁
大數(shù)據(jù)時代索引與數(shù)據(jù)庫事業(yè)的發(fā)展與創(chuàng)新課件_第4頁
大數(shù)據(jù)時代索引與數(shù)據(jù)庫事業(yè)的發(fā)展與創(chuàng)新課件_第5頁
已閱讀5頁,還剩107頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)的發(fā)展與創(chuàng)新大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)的發(fā)展與創(chuàng)新大綱結(jié)語大數(shù)據(jù)時代索引與數(shù)據(jù)庫事業(yè)面臨的挑戰(zhàn)及創(chuàng)新索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀大數(shù)據(jù)時代引言大綱結(jié)語大數(shù)據(jù)時代索引與數(shù)據(jù)庫事業(yè)面臨的挑戰(zhàn)及創(chuàng)新索引與數(shù)據(jù)“大數(shù)據(jù)”(BigData)已經(jīng)在全球引起了廣泛關(guān)注,正在引領(lǐng)了又一輪數(shù)據(jù)技術(shù)的革命。美國EMC公司于2011年5月在美國拉斯維加斯舉辦第11屆EMCWorld大會,大會的核心是幫助企業(yè)利用IT變革的重要趨勢。此次大會以“云計算相遇大數(shù)據(jù)(CloudMeetsBigData)”為主題,著重展現(xiàn)當(dāng)今兩個最重要的技術(shù)趨勢,正式提出了“大數(shù)據(jù)”概念。1引言1引言根據(jù)IDC《數(shù)字世界》研究項目在2012年的統(tǒng)計,2010年全球數(shù)字資源的規(guī)模首次突破了ZB(1ZB=1萬億GB)級別,達(dá)到了1.227ZB;而2005年只有130Eb,五年增長了10倍。如果保持這種爆炸式的增長速度,到了2020年,我們的數(shù)字資源規(guī)模將超過40ZB,相當(dāng)于世界上每個人擁有超過5200GB的數(shù)據(jù)。無疑,我們已進(jìn)入了大數(shù)據(jù)時代。1引言單位:ZB根據(jù)IDC《數(shù)字世界》研究項目在2012年的統(tǒng)計,2010年在2011年12月,我國工信部發(fā)布了物聯(lián)網(wǎng)“十二五”規(guī)劃,提出了4項關(guān)鍵技術(shù)創(chuàng)新工程。信息處理技術(shù)的內(nèi)容包括海量數(shù)據(jù)存儲、數(shù)據(jù)挖掘、圖像視頻智能分析等,都是大數(shù)據(jù)技術(shù)的重要組成部分;另外3項關(guān)鍵技術(shù)創(chuàng)新工程,包括信息感知技術(shù)、信息傳輸技術(shù)、信息安全技術(shù),這些也都與“大數(shù)據(jù)”密切相關(guān)。我國也對大數(shù)據(jù)技術(shù)給予了足夠的重視。1引言1引言基于以上概述,我們認(rèn)為,大數(shù)據(jù)時代已經(jīng)到來,已經(jīng)對我們的社會產(chǎn)生了重大影響。本文將嘗試對大數(shù)據(jù)時代我國的索引和數(shù)據(jù)庫事業(yè)的發(fā)展與創(chuàng)新進(jìn)行研究和展望。1引言1引言2.1大數(shù)據(jù)的定義和特征許多權(quán)威機(jī)構(gòu)和企業(yè)對大數(shù)據(jù)給予了不同的定義。麥肯錫認(rèn)為,“大數(shù)據(jù)所涉及的數(shù)據(jù)集規(guī)模已經(jīng)超過了傳統(tǒng)數(shù)據(jù)庫軟件獲取、存儲、管理和分析的能力?!?大數(shù)據(jù)時代2.1大數(shù)據(jù)的定義和特征2大數(shù)據(jù)時代IBM公司認(rèn)為,可以用3個特征相結(jié)合來定義大數(shù)據(jù):數(shù)量(Volume)、種類(Variety)和速度(Velocity),即龐大容量、極快速度和種類豐富的數(shù)據(jù)。IDC公司認(rèn)為,“大數(shù)據(jù)不是一個事物,而是一個跨多個信息技術(shù)領(lǐng)域的現(xiàn)象。大數(shù)據(jù)技術(shù)描述了新一代的技術(shù)和架構(gòu),通過使用高速(Velocity)的采集、發(fā)現(xiàn)或分析方法,從超大容量(Volume)的多樣(Variety)數(shù)據(jù)中經(jīng)濟(jì)地提取價值(Value)?!?大數(shù)據(jù)時代IBM公司認(rèn)為,可以用3個特征相結(jié)合來定義大數(shù)據(jù):數(shù)量(Vo綜合以上幾種不同的見解,我們認(rèn)為,具備以下特征的就是大數(shù)據(jù)。(1)數(shù)量大(Volume)。大數(shù)據(jù)所包含的數(shù)據(jù)量很大,而且在急劇增長之中。但是,在可供使用的數(shù)據(jù)數(shù)量不斷增長的同時,可處理、理解和分析的數(shù)據(jù)比例卻在不斷下降。2大數(shù)據(jù)時代2大數(shù)據(jù)時代(2)種類多(Variety)。隨著技術(shù)的發(fā)展,數(shù)據(jù)源不斷增多,數(shù)據(jù)的類型也不斷增加。不僅包含傳統(tǒng)的關(guān)系型數(shù)據(jù),還包含來自網(wǎng)頁、互聯(lián)網(wǎng)、搜索引擎、論壇、電子郵件、傳感器數(shù)據(jù)等原始的、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。(3)速度快(Velocity)。除了收集數(shù)據(jù)的數(shù)量和種類發(fā)生變化,需要處理和生成數(shù)據(jù)的速度也在變化。數(shù)據(jù)流動的速度在加快,要有效的處理大數(shù)據(jù),需要在數(shù)據(jù)變化的過程中實時的對其進(jìn)行分析,而不是滯后的進(jìn)行處理。2大數(shù)據(jù)時代(2)種類多(Variety)。隨著技術(shù)的發(fā)展,數(shù)據(jù)源不斷增(4)價值量(Value)。在信息時代,信息具有很重要的商業(yè)價值。但是,信息具有生命周期,數(shù)據(jù)的價值會隨時間快速減少。另外,大數(shù)據(jù)的數(shù)量龐大,種類繁多,變化也快,數(shù)據(jù)的價值密度很低。如何從大量多樣的數(shù)據(jù)中盡快的分析出有價值的信息非常重要。對海量的數(shù)據(jù)進(jìn)行挖掘和分析,這也是大數(shù)據(jù)技術(shù)的難點。2大數(shù)據(jù)時代2大數(shù)據(jù)時代(5)真實性(Veracity)。這是一個衍生特征。真實有效的數(shù)據(jù)才具有意義。隨著新數(shù)據(jù)源的增加,信息量的爆炸式增長,我們很難對數(shù)據(jù)的真實性和安全性進(jìn)行控制,因此需要對大數(shù)據(jù)進(jìn)行有效的信息治理。大數(shù)據(jù)在結(jié)構(gòu)類型上也有其特點:大多數(shù)的大數(shù)據(jù)都是半結(jié)構(gòu)化或非結(jié)構(gòu)化的。2大數(shù)據(jù)時代2大數(shù)據(jù)時代半結(jié)構(gòu)化的數(shù)據(jù)是指具有一定的結(jié)構(gòu)性并可被解析或者通過使用工具可以使之格式化的數(shù)據(jù),如包含不一致的數(shù)據(jù)和格式的員工薪酬數(shù)據(jù)。非結(jié)構(gòu)化的數(shù)據(jù)是指沒有固定結(jié)構(gòu),通常無法直接知道其內(nèi)容,保存為不同類型文件的數(shù)據(jù),如各種圖像、視頻文件。根據(jù)目前大數(shù)據(jù)的發(fā)展?fàn)顩r,未來數(shù)據(jù)增長的絕大部分將是半結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)據(jù)。2大數(shù)據(jù)時代半結(jié)構(gòu)化的數(shù)據(jù)是指具有一定的結(jié)構(gòu)性并可被解析或者通過使用工具2.2大數(shù)據(jù)時代已經(jīng)到來(1)大數(shù)據(jù)時代已經(jīng)到來理論的提出:2008年,《Nature》雜志出版一期???,專門討論未來的大數(shù)據(jù)(BigData)處理相關(guān)的一系列技術(shù)問題和挑戰(zhàn)。現(xiàn)實的節(jié)點:2007年是人類創(chuàng)造的信息量有史以來第一次在理論上超過可用存儲空間總量的一年。2大數(shù)據(jù)時代2.2大數(shù)據(jù)時代已經(jīng)到來2大數(shù)據(jù)時代(2)大數(shù)據(jù)時代到來的原因首先,信息技術(shù)和計算機(jī)網(wǎng)絡(luò)技術(shù)的發(fā)展,為大數(shù)據(jù)時代的到來奠定了堅實的技術(shù)基礎(chǔ)。各種技術(shù)的發(fā)展,使得數(shù)據(jù)的來源、類型、數(shù)量變得越來越多,由此產(chǎn)生出了的數(shù)目龐大且不斷急劇增長的非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù),整個社會發(fā)展進(jìn)入到了大數(shù)據(jù)時代。2大數(shù)據(jù)時代2大數(shù)據(jù)時代其次,大量智能終端的廣泛應(yīng)用與網(wǎng)絡(luò)應(yīng)用的不斷增長,為大數(shù)據(jù)時代的到來奠定了堅實的物質(zhì)基礎(chǔ)。通過互聯(lián)網(wǎng)和社交網(wǎng)絡(luò)、數(shù)碼相機(jī)等工具,每個人的日常生活正在被數(shù)字化,人們可以隨時方便的根據(jù)自己的需要,產(chǎn)生大量的非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)。特別是智能手機(jī)和筆記本電腦的普及,是當(dāng)前數(shù)據(jù)量爆炸增長的一個重要原因。2大數(shù)據(jù)時代2大數(shù)據(jù)時代最后,信息社會的快速建立,信息成為越來越重要的經(jīng)濟(jì)資源,也是大數(shù)據(jù)時代到來的重要原因。在信息時代,數(shù)據(jù)已經(jīng)成為社會資源的重要組成部分,基于數(shù)據(jù)的處理、分析、挖掘等服務(wù)都被信息服務(wù)機(jī)構(gòu)廣泛應(yīng)用和開展,信息的經(jīng)濟(jì)價值越來越大,人們對數(shù)據(jù)的重視程度越來越高,由此也產(chǎn)生了大量的數(shù)據(jù)。2大數(shù)據(jù)時代2大數(shù)據(jù)時代(3)大數(shù)據(jù)時代的到來,必定會對索引和數(shù)據(jù)庫事業(yè)也產(chǎn)生重大影響。本文將論述大數(shù)據(jù)為索引和數(shù)據(jù)庫帶來的機(jī)遇和挑戰(zhàn),探討大數(shù)據(jù)時代索引和數(shù)據(jù)庫事業(yè)的發(fā)展與創(chuàng)新,以引起業(yè)界學(xué)者對相關(guān)問題的關(guān)注與探討。2大數(shù)據(jù)時代2大數(shù)據(jù)時代3.1索引事業(yè)的發(fā)展現(xiàn)狀按照錢亞新教授的說法,“將一種書報或一套書報中討論所及的人名、物名、事名、地名、時名或篇名等分析而組合,用一定的方法排列它們的次序,并表明它們在書報中所在的地位的表,叫作索引。換言之,索引是一種檢查指定范圍內(nèi)的書報所有特項知識的工具。”3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀3.1索引事業(yè)的發(fā)展現(xiàn)狀3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀一般來說,索引的編制有手工和計算機(jī)編制兩種方式,隨著科技和時代的發(fā)展,目前基本都使用計算機(jī)編制索引的方式。九十年代以來,隨著當(dāng)代數(shù)字化、網(wǎng)絡(luò)化、智能化技術(shù)的發(fā)展,索引研究對象也隨之從傳統(tǒng)的印刷型擴(kuò)大到了數(shù)字型,出現(xiàn)了索引數(shù)據(jù)庫、文摘數(shù)據(jù)庫、全文數(shù)據(jù)庫,以及網(wǎng)頁索引、網(wǎng)址索引、搜索引擎、學(xué)科導(dǎo)航等各種新興工具,檢索語言、標(biāo)引方法和索引技術(shù)等領(lǐng)域都有了新的突破。3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀一般來說,索引的編制有手工和計算機(jī)編制兩種方式,隨著科技和時目前使用最多的索引產(chǎn)品是數(shù)據(jù)庫索引,南京政治學(xué)院上海分院信息管理系的張琪玉教授直接提出了現(xiàn)代的索引就是數(shù)據(jù)庫的判斷。目前國內(nèi)外的索引事業(yè)隨著計算機(jī)和網(wǎng)絡(luò)技術(shù)的發(fā)展也取得了很大的進(jìn)展。3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀在國際,SCI等三大索引在科技界形成了重大影響,其他領(lǐng)域的索引應(yīng)用也取得了廣泛的成果。在國內(nèi),各種類型的中文全文文獻(xiàn)數(shù)據(jù)庫紛紛上網(wǎng),為科研工作者提供了很好的幫助,傳統(tǒng)索引事業(yè)也穩(wěn)步發(fā)展。網(wǎng)絡(luò)信息檢索工具是國內(nèi)外索引研究和應(yīng)用的熱點,影響越來越大。3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀根據(jù)本中心的研究,目前國內(nèi)外在索引領(lǐng)域的研究表現(xiàn)出明顯的差異性,但發(fā)展趨勢基本一致。具體表現(xiàn)在以下四個方面:第一,國內(nèi)外對電子索引技術(shù)的研究日益成熟,在國內(nèi)正處于研究網(wǎng)絡(luò)的中心,而在國外已逐漸處于網(wǎng)絡(luò)邊緣。這與國內(nèi)信息技術(shù)研究比國外起步稍晚的原因是分不開的。3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀第二,傳統(tǒng)的索引理論的研究仍然占據(jù)重要地位。國內(nèi)外學(xué)者對傳統(tǒng)索引理論的研究仍然非常重視。相對而言,國外學(xué)者的理論研究更具全面性和系統(tǒng)性。第三,索引的應(yīng)用研究將成為索引研究中的重要內(nèi)容,國外的應(yīng)用研究相對國內(nèi)更為廣泛。國外對索引的實踐與應(yīng)用的研究已經(jīng)深入到了引文分析、文獻(xiàn)計量學(xué)、科學(xué)計量學(xué)、評價、績效評估、醫(yī)學(xué)等多個具體領(lǐng)域。3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀第四,與其他學(xué)科相結(jié)合開展研究可能成為未來索引研究的發(fā)展趨勢之一。在索引研究的過程中注重與其他學(xué)科的結(jié)合,一方面可以引入新的理論與方法,如社會學(xué)、本體、知識地圖、元數(shù)據(jù)等,為索引理論和方法的研究帶來新的視角;另一方面,索引的方法與研究成果也可以應(yīng)用于其他學(xué)科,為促進(jìn)其他學(xué)科研究的發(fā)展做出貢獻(xiàn)。3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀此外,自從改革開放到現(xiàn)在,我國的索引從業(yè)人員數(shù)量一直在穩(wěn)步增加,這一方面與國家重視圖書館的建設(shè)有關(guān),另一方面也是索引事業(yè)發(fā)展的需要。但是我們與國外相比,索引事業(yè)的從業(yè)人員仍然數(shù)量偏少,素質(zhì)有待提高。特別是在索引教育方面,我們?nèi)〉玫某煽冞€不夠,比如我們至今沒有一本公認(rèn)的比較權(quán)威的索引學(xué)教材。3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀3.2數(shù)據(jù)庫事業(yè)的發(fā)展現(xiàn)狀數(shù)據(jù)庫(Database)是按照數(shù)據(jù)結(jié)構(gòu)來組織、存儲和管理數(shù)據(jù)的倉庫。相對于索引事業(yè),數(shù)據(jù)庫事業(yè)的發(fā)展更為迅猛。目前,全世界大約有書目型數(shù)據(jù)庫、參考型數(shù)據(jù)庫、參考文獻(xiàn)數(shù)據(jù)庫、全文型數(shù)據(jù)庫等幾十種不同類型的數(shù)據(jù)庫。各種數(shù)據(jù)庫的具體數(shù)量更是難以估計。3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀3.2數(shù)據(jù)庫事業(yè)的發(fā)展現(xiàn)狀3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀1980年以前,數(shù)據(jù)庫技術(shù)的發(fā)展,主要體現(xiàn)在數(shù)據(jù)庫的模型設(shè)計上。進(jìn)入90年代后,計算機(jī)領(lǐng)域中其它新興技術(shù)的發(fā)展對數(shù)據(jù)庫技術(shù)產(chǎn)生了重大影響。數(shù)據(jù)庫技術(shù)與網(wǎng)絡(luò)通信技術(shù)、人工智能技術(shù)、多媒體技術(shù)等相互滲透,相互結(jié)合,使數(shù)據(jù)庫技術(shù)的新內(nèi)容層出不窮。3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀至今,數(shù)據(jù)庫的許多概念、應(yīng)用領(lǐng)域,甚至某些原理都有了重大的發(fā)展和變化,形成了數(shù)據(jù)庫領(lǐng)域眾多的研究分支和課題,產(chǎn)生了一系列新型數(shù)據(jù)庫。如:分布式數(shù)據(jù)庫、聯(lián)合數(shù)據(jù)庫、大規(guī)模并行處理數(shù)據(jù)庫等。國外數(shù)據(jù)庫的發(fā)展大致經(jīng)歷了四個階段:3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀1970年以前為初步發(fā)展階段;1970-1980年數(shù)據(jù)庫數(shù)量迅速增加,開始進(jìn)入聯(lián)機(jī)檢索階段;1980年至2010年數(shù)據(jù)庫數(shù)量劇增,類型也發(fā)生了巨大變化,而且開始全球化,是數(shù)據(jù)庫的深入發(fā)展階段;2010年至今,數(shù)據(jù)的類型和數(shù)量均發(fā)生了重大變化,數(shù)據(jù)庫也必須隨之發(fā)生改變,于是進(jìn)入了變革發(fā)展階段。3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀我國數(shù)據(jù)庫的研究和應(yīng)用相對國外來說,起步較晚,也可以大致參照國外的發(fā)展?fàn)顩r劃分為四個時期:介紹學(xué)習(xí)時期(70-80年代)、初步發(fā)展時期(80-90年代)、穩(wěn)定發(fā)展時期(1990-2010年)、變革發(fā)展時期(2010年至今)??偟膩碚f,國內(nèi)外的數(shù)據(jù)庫技術(shù)發(fā)展非常迅猛。3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀分析我國數(shù)據(jù)庫建設(shè)現(xiàn)狀,目前仍處于較低的發(fā)展階段。雖然已經(jīng)建立了種類眾多的數(shù)據(jù)庫,全國各高校的計算機(jī)和信息管理專業(yè)都開設(shè)了數(shù)據(jù)庫課程,數(shù)據(jù)庫、商業(yè)數(shù)據(jù)庫的建設(shè)和使用越來越廣泛。3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀但是,我國的數(shù)據(jù)庫建設(shè)仍然普遍存在以下一些制約因素:政府缺乏統(tǒng)一的整體規(guī)劃;各地的信息機(jī)構(gòu)對數(shù)據(jù)庫的建設(shè)不夠重視;數(shù)據(jù)庫的技術(shù)發(fā)展仍滯后于國外;商業(yè)數(shù)據(jù)庫的建設(shè)和應(yīng)用不夠廣泛;數(shù)據(jù)庫技術(shù)人員的素質(zhì)還有待提高等。3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀而在國外,從六十年代末期開始,數(shù)據(jù)庫系統(tǒng)的研究和開發(fā)已經(jīng)走過了四十多年的歷程,取得了輝煌的成就,形成了龐大的產(chǎn)業(yè)。數(shù)據(jù)庫技術(shù)和系統(tǒng)已經(jīng)成為世界各國信息基礎(chǔ)設(shè)施的核心技術(shù)和重要基礎(chǔ)。3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀進(jìn)入大數(shù)據(jù)時代,當(dāng)我國還在研究大數(shù)據(jù)的概念時,英國的維克托?邁爾?舍恩伯格早在2010年就在《經(jīng)濟(jì)學(xué)人》上發(fā)布了長達(dá)14頁對大數(shù)據(jù)應(yīng)用的前瞻性研究,已寫出了《大數(shù)據(jù)時代》這本對大數(shù)據(jù)系統(tǒng)研究的先河之作,并被譽為“大數(shù)據(jù)商業(yè)應(yīng)用第一人”。3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀4.1面臨的挑戰(zhàn)大數(shù)據(jù)對于索引和數(shù)據(jù)庫事業(yè)而言,既是巨大的機(jī)遇,又是巨大的挑戰(zhàn)。面對海量的種類繁多的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),從中迅速的進(jìn)行分析,找出有效的價值,這一方面具有重大的經(jīng)濟(jì)意義,另一方面也要求我們必須改進(jìn)現(xiàn)有的技術(shù),使用新方法來從數(shù)據(jù)中提取價值。大數(shù)據(jù)時代對索引和數(shù)據(jù)庫事業(yè)提出了如下的重大挑戰(zhàn):4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新4.1面臨的挑戰(zhàn)4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)(1)理念更新。大數(shù)據(jù)帶來的是一種全新的模式,索引和數(shù)據(jù)庫的觀念也要隨之跟隨變化,以適應(yīng)時代的需要。同時要更加注重商業(yè)思維,充分利用大數(shù)據(jù),獲取經(jīng)濟(jì)利益。(2)及時有效。大數(shù)據(jù)時代的數(shù)據(jù)產(chǎn)生迅速,數(shù)據(jù)的價值生命周期卻很短暫,如何能夠及時有效的從數(shù)據(jù)中發(fā)現(xiàn)商機(jī)并付諸行動才能獲取價值。4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新(3)集成分析。如果將分析集成到與數(shù)據(jù)所面臨的環(huán)境中,將加快信息分析的速度,使分析結(jié)果能夠更快的實現(xiàn)可操作化。(4)可擴(kuò)展。面對大數(shù)據(jù)必須采取新方法來處理數(shù)據(jù),要實現(xiàn)從規(guī)模較小的數(shù)據(jù)集到大規(guī)模數(shù)據(jù)集的分析,因為我們不能控制所面臨的數(shù)據(jù)源產(chǎn)生數(shù)據(jù)的規(guī)模。4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新4.2技術(shù)的創(chuàng)新目前,大數(shù)據(jù)時代的索引和數(shù)據(jù)庫事業(yè)已經(jīng)創(chuàng)造出了很多重要的基礎(chǔ)性的新技術(shù),如下:4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新云計算虛擬化數(shù)據(jù)存儲智能索引數(shù)據(jù)分析4.2技術(shù)的創(chuàng)新4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)(1)云計算(cloudcomputing)云計算是在分布式處理、并行處理和網(wǎng)格計算等技術(shù)的基礎(chǔ)上發(fā)展起來的,是一種新興的共享基礎(chǔ)架構(gòu)的方法。它可以自我維護(hù)和管理龐大的虛擬計算資源(包括計算服務(wù)器、存儲服務(wù)器、寬帶資源等等),為我們提供了跨地域、高可靠、按需付費、快速部署的能力。甚至可以說,云數(shù)據(jù)庫是數(shù)據(jù)庫技術(shù)的未來發(fā)展方向。4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新云數(shù)據(jù)庫具有以下特性:動態(tài)可擴(kuò)展,理論上,云數(shù)據(jù)庫具有無限可擴(kuò)展性;高可用性,不存在單點失效問題;較低使用代價,可以實現(xiàn)按需付費;可以大規(guī)模并行處理。云計算和大數(shù)據(jù)之間關(guān)聯(lián)非常緊密,大數(shù)據(jù)為云計算提供了應(yīng)用空間,云計算為大數(shù)據(jù)提供了處理工具。4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新(2)虛擬化(virtualization)虛擬化技術(shù)是云計算所有要素中最重要的部分,主要包括計算虛擬化、存儲虛擬化和網(wǎng)絡(luò)虛擬化。利用虛擬化技術(shù)可以在一臺主機(jī)上運行多臺虛擬計算機(jī),允許很多用戶共享一臺高性能設(shè)備的使用,可以極大的節(jié)約成本,也為云計算的實現(xiàn)奠定了技術(shù)基礎(chǔ)。4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新(3)數(shù)據(jù)存儲大數(shù)據(jù)的特征,需要新的數(shù)據(jù)存儲技術(shù)和數(shù)據(jù)存儲工具來滿足。目前已經(jīng)出現(xiàn)了一些新型的大數(shù)據(jù)存儲系統(tǒng),具有優(yōu)秀可擴(kuò)展能力的分布式存儲成為大數(shù)據(jù)存儲的主流架構(gòu)方式。大數(shù)據(jù)存儲還需解決一些問題:如何對數(shù)據(jù)進(jìn)行去重;如何更好地實現(xiàn)分層存儲;如何解決數(shù)據(jù)的安全性問題等。4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新(4)數(shù)據(jù)分析大數(shù)據(jù)時代的數(shù)據(jù)分析需要滿足及時有效的要求,既要能處理高速的數(shù)據(jù),又要能夠?qū)崿F(xiàn)實時的分析。目前產(chǎn)生了一些新型的在線事務(wù)處理系統(tǒng),如NoSQL方案和NewSQL方案。4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新NoSQL方案通過消除SQL的語言查詢來實現(xiàn)性能的提高和擴(kuò)展性的增加。有以下特征:不需要預(yù)定的模式;沒有共享架構(gòu);具有彈性可擴(kuò)展性;可對數(shù)據(jù)進(jìn)行分區(qū)處理;能夠異步復(fù)制等。常用的產(chǎn)品有HBase、MongoDB等。NewSQL方案是既能保留SQL查詢的方便性,又能提供高性能和高擴(kuò)展性的新型數(shù)據(jù)分析工具,是一種新型的關(guān)系數(shù)據(jù)庫管理系統(tǒng)。常見的系統(tǒng)有GoogleSpanner、Clustrix、VoltDB等。4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新對大數(shù)據(jù)進(jìn)行處理,目前有兩大主流的方向:一個是MPP數(shù)據(jù)庫(大規(guī)模并行數(shù)據(jù)庫)為首的并列關(guān)系數(shù)據(jù)庫方向,一個是以MapReduce為首的分布式NoSQL方向。除此之外,流數(shù)據(jù)管理也是大數(shù)據(jù)處理分析的一種解決方案。4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新為了成功的實現(xiàn)對大數(shù)據(jù)的分析,還要建立具有敏捷的計算平臺,線性擴(kuò)展能力,全方位、協(xié)作性用戶體驗的大數(shù)據(jù)分析平臺,還需要聚類分析等高級的分析理論和方法以及方便易用的數(shù)據(jù)可視化技術(shù)。4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新(5)智能索引技術(shù)當(dāng)前硬、軟件環(huán)境越來越好,從而為索引技術(shù)向智能化、多語種化、索引手段的自動化的方向發(fā)展提供了物質(zhì)條件,使搜索引擎向高層次發(fā)展成為可能。目前在搜索引擎智能化、用戶接口的多語種化、索引手段的自動化等方面已取得了一定的成果。4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新4.3事業(yè)的發(fā)展與創(chuàng)新索引和數(shù)據(jù)庫事業(yè)的發(fā)展和創(chuàng)新,既離不開技術(shù)的發(fā)展,又需要理念的轉(zhuǎn)變,方式的創(chuàng)新和人才的培養(yǎng)。4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新4.3事業(yè)的發(fā)展與創(chuàng)新4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨(1)技術(shù)的創(chuàng)新需要進(jìn)一步滿足對容量大、種類多、變化快的數(shù)據(jù)進(jìn)行及時有效分析的要求。進(jìn)一步拓展對NoSQL方案和NewSQL方案的研究,以取得更好的效果。同時在大數(shù)據(jù)存儲、管理、分析的方面需要革命性的理論和新算法的出現(xiàn),需要新的兼?zhèn)浯笠?guī)模并行處理數(shù)據(jù)庫的高效率同時又具有Hadoop平臺的高擴(kuò)展性特點的系統(tǒng)的出現(xiàn)。4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新(2)理念的轉(zhuǎn)變主要是對索引和數(shù)據(jù)庫的理論進(jìn)行更新,服務(wù)提供方式進(jìn)行創(chuàng)新,以實現(xiàn)商業(yè)價值。不能只滿足于傳統(tǒng)的理論,要對已有的理論進(jìn)行創(chuàng)新,需要對大數(shù)據(jù)中蘊含的價值進(jìn)行深入的挖掘,積極主動的提供給需要數(shù)據(jù)的對象,積極主動的去創(chuàng)造商機(jī)。4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新(3)方式的創(chuàng)新是指如何滿足人們的小型化、便捷化的需要,如何實現(xiàn)商機(jī)的主動獲取和推介。隨著智能設(shè)備的普及,人們使用的移動終端越來越小型化,便捷化,索引和數(shù)據(jù)庫的服務(wù)提供要重視這些終端,要開放接口,使用云技術(shù),極大的改進(jìn)移動終端上的用戶體驗。4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新(4)人才的培養(yǎng)一方面是加強(qiáng)對傳統(tǒng)的索引和數(shù)據(jù)庫專業(yè)的人才的教育和培養(yǎng),更重要的是適應(yīng)大數(shù)據(jù)的要求,重視對數(shù)據(jù)科學(xué)和數(shù)據(jù)研究人員的教育和培養(yǎng)。數(shù)據(jù)研究人員應(yīng)該是具有良好視野的復(fù)合型人才,既有堅實的技術(shù)基礎(chǔ),又有廣泛的業(yè)務(wù)知識和經(jīng)驗,從而能夠熟練的使用各種大數(shù)據(jù)工具,分析并制定出各種策略和計劃。4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新(5)國家的支持政府相關(guān)部門也要從整體規(guī)劃、配套建設(shè)、權(quán)益保護(hù)等方面出發(fā),支持索引和數(shù)據(jù)庫事業(yè)的創(chuàng)新和發(fā)展。各高校和科研院所也應(yīng)該對此加大投入的力度,探索有益的成果。4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新大數(shù)據(jù)時代的到來,給索引和數(shù)據(jù)庫事業(yè)帶來了巨大的沖擊,提出了新的要求。面對挑戰(zhàn),索引和數(shù)據(jù)庫事業(yè)的經(jīng)過發(fā)展與創(chuàng)新,必然會給用戶提供更高水平的服務(wù)。索引和數(shù)據(jù)庫事業(yè)的發(fā)展也會推向一個新階段。5結(jié)語5結(jié)語演講完畢,謝謝觀看!演講完畢,謝謝觀看!大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)的發(fā)展與創(chuàng)新大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)的發(fā)展與創(chuàng)新大綱結(jié)語大數(shù)據(jù)時代索引與數(shù)據(jù)庫事業(yè)面臨的挑戰(zhàn)及創(chuàng)新索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀大數(shù)據(jù)時代引言大綱結(jié)語大數(shù)據(jù)時代索引與數(shù)據(jù)庫事業(yè)面臨的挑戰(zhàn)及創(chuàng)新索引與數(shù)據(jù)“大數(shù)據(jù)”(BigData)已經(jīng)在全球引起了廣泛關(guān)注,正在引領(lǐng)了又一輪數(shù)據(jù)技術(shù)的革命。美國EMC公司于2011年5月在美國拉斯維加斯舉辦第11屆EMCWorld大會,大會的核心是幫助企業(yè)利用IT變革的重要趨勢。此次大會以“云計算相遇大數(shù)據(jù)(CloudMeetsBigData)”為主題,著重展現(xiàn)當(dāng)今兩個最重要的技術(shù)趨勢,正式提出了“大數(shù)據(jù)”概念。1引言1引言根據(jù)IDC《數(shù)字世界》研究項目在2012年的統(tǒng)計,2010年全球數(shù)字資源的規(guī)模首次突破了ZB(1ZB=1萬億GB)級別,達(dá)到了1.227ZB;而2005年只有130Eb,五年增長了10倍。如果保持這種爆炸式的增長速度,到了2020年,我們的數(shù)字資源規(guī)模將超過40ZB,相當(dāng)于世界上每個人擁有超過5200GB的數(shù)據(jù)。無疑,我們已進(jìn)入了大數(shù)據(jù)時代。1引言單位:ZB根據(jù)IDC《數(shù)字世界》研究項目在2012年的統(tǒng)計,2010年在2011年12月,我國工信部發(fā)布了物聯(lián)網(wǎng)“十二五”規(guī)劃,提出了4項關(guān)鍵技術(shù)創(chuàng)新工程。信息處理技術(shù)的內(nèi)容包括海量數(shù)據(jù)存儲、數(shù)據(jù)挖掘、圖像視頻智能分析等,都是大數(shù)據(jù)技術(shù)的重要組成部分;另外3項關(guān)鍵技術(shù)創(chuàng)新工程,包括信息感知技術(shù)、信息傳輸技術(shù)、信息安全技術(shù),這些也都與“大數(shù)據(jù)”密切相關(guān)。我國也對大數(shù)據(jù)技術(shù)給予了足夠的重視。1引言1引言基于以上概述,我們認(rèn)為,大數(shù)據(jù)時代已經(jīng)到來,已經(jīng)對我們的社會產(chǎn)生了重大影響。本文將嘗試對大數(shù)據(jù)時代我國的索引和數(shù)據(jù)庫事業(yè)的發(fā)展與創(chuàng)新進(jìn)行研究和展望。1引言1引言2.1大數(shù)據(jù)的定義和特征許多權(quán)威機(jī)構(gòu)和企業(yè)對大數(shù)據(jù)給予了不同的定義。麥肯錫認(rèn)為,“大數(shù)據(jù)所涉及的數(shù)據(jù)集規(guī)模已經(jīng)超過了傳統(tǒng)數(shù)據(jù)庫軟件獲取、存儲、管理和分析的能力。”2大數(shù)據(jù)時代2.1大數(shù)據(jù)的定義和特征2大數(shù)據(jù)時代IBM公司認(rèn)為,可以用3個特征相結(jié)合來定義大數(shù)據(jù):數(shù)量(Volume)、種類(Variety)和速度(Velocity),即龐大容量、極快速度和種類豐富的數(shù)據(jù)。IDC公司認(rèn)為,“大數(shù)據(jù)不是一個事物,而是一個跨多個信息技術(shù)領(lǐng)域的現(xiàn)象。大數(shù)據(jù)技術(shù)描述了新一代的技術(shù)和架構(gòu),通過使用高速(Velocity)的采集、發(fā)現(xiàn)或分析方法,從超大容量(Volume)的多樣(Variety)數(shù)據(jù)中經(jīng)濟(jì)地提取價值(Value)?!?大數(shù)據(jù)時代IBM公司認(rèn)為,可以用3個特征相結(jié)合來定義大數(shù)據(jù):數(shù)量(Vo綜合以上幾種不同的見解,我們認(rèn)為,具備以下特征的就是大數(shù)據(jù)。(1)數(shù)量大(Volume)。大數(shù)據(jù)所包含的數(shù)據(jù)量很大,而且在急劇增長之中。但是,在可供使用的數(shù)據(jù)數(shù)量不斷增長的同時,可處理、理解和分析的數(shù)據(jù)比例卻在不斷下降。2大數(shù)據(jù)時代2大數(shù)據(jù)時代(2)種類多(Variety)。隨著技術(shù)的發(fā)展,數(shù)據(jù)源不斷增多,數(shù)據(jù)的類型也不斷增加。不僅包含傳統(tǒng)的關(guān)系型數(shù)據(jù),還包含來自網(wǎng)頁、互聯(lián)網(wǎng)、搜索引擎、論壇、電子郵件、傳感器數(shù)據(jù)等原始的、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。(3)速度快(Velocity)。除了收集數(shù)據(jù)的數(shù)量和種類發(fā)生變化,需要處理和生成數(shù)據(jù)的速度也在變化。數(shù)據(jù)流動的速度在加快,要有效的處理大數(shù)據(jù),需要在數(shù)據(jù)變化的過程中實時的對其進(jìn)行分析,而不是滯后的進(jìn)行處理。2大數(shù)據(jù)時代(2)種類多(Variety)。隨著技術(shù)的發(fā)展,數(shù)據(jù)源不斷增(4)價值量(Value)。在信息時代,信息具有很重要的商業(yè)價值。但是,信息具有生命周期,數(shù)據(jù)的價值會隨時間快速減少。另外,大數(shù)據(jù)的數(shù)量龐大,種類繁多,變化也快,數(shù)據(jù)的價值密度很低。如何從大量多樣的數(shù)據(jù)中盡快的分析出有價值的信息非常重要。對海量的數(shù)據(jù)進(jìn)行挖掘和分析,這也是大數(shù)據(jù)技術(shù)的難點。2大數(shù)據(jù)時代2大數(shù)據(jù)時代(5)真實性(Veracity)。這是一個衍生特征。真實有效的數(shù)據(jù)才具有意義。隨著新數(shù)據(jù)源的增加,信息量的爆炸式增長,我們很難對數(shù)據(jù)的真實性和安全性進(jìn)行控制,因此需要對大數(shù)據(jù)進(jìn)行有效的信息治理。大數(shù)據(jù)在結(jié)構(gòu)類型上也有其特點:大多數(shù)的大數(shù)據(jù)都是半結(jié)構(gòu)化或非結(jié)構(gòu)化的。2大數(shù)據(jù)時代2大數(shù)據(jù)時代半結(jié)構(gòu)化的數(shù)據(jù)是指具有一定的結(jié)構(gòu)性并可被解析或者通過使用工具可以使之格式化的數(shù)據(jù),如包含不一致的數(shù)據(jù)和格式的員工薪酬數(shù)據(jù)。非結(jié)構(gòu)化的數(shù)據(jù)是指沒有固定結(jié)構(gòu),通常無法直接知道其內(nèi)容,保存為不同類型文件的數(shù)據(jù),如各種圖像、視頻文件。根據(jù)目前大數(shù)據(jù)的發(fā)展?fàn)顩r,未來數(shù)據(jù)增長的絕大部分將是半結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)據(jù)。2大數(shù)據(jù)時代半結(jié)構(gòu)化的數(shù)據(jù)是指具有一定的結(jié)構(gòu)性并可被解析或者通過使用工具2.2大數(shù)據(jù)時代已經(jīng)到來(1)大數(shù)據(jù)時代已經(jīng)到來理論的提出:2008年,《Nature》雜志出版一期???,專門討論未來的大數(shù)據(jù)(BigData)處理相關(guān)的一系列技術(shù)問題和挑戰(zhàn)?,F(xiàn)實的節(jié)點:2007年是人類創(chuàng)造的信息量有史以來第一次在理論上超過可用存儲空間總量的一年。2大數(shù)據(jù)時代2.2大數(shù)據(jù)時代已經(jīng)到來2大數(shù)據(jù)時代(2)大數(shù)據(jù)時代到來的原因首先,信息技術(shù)和計算機(jī)網(wǎng)絡(luò)技術(shù)的發(fā)展,為大數(shù)據(jù)時代的到來奠定了堅實的技術(shù)基礎(chǔ)。各種技術(shù)的發(fā)展,使得數(shù)據(jù)的來源、類型、數(shù)量變得越來越多,由此產(chǎn)生出了的數(shù)目龐大且不斷急劇增長的非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù),整個社會發(fā)展進(jìn)入到了大數(shù)據(jù)時代。2大數(shù)據(jù)時代2大數(shù)據(jù)時代其次,大量智能終端的廣泛應(yīng)用與網(wǎng)絡(luò)應(yīng)用的不斷增長,為大數(shù)據(jù)時代的到來奠定了堅實的物質(zhì)基礎(chǔ)。通過互聯(lián)網(wǎng)和社交網(wǎng)絡(luò)、數(shù)碼相機(jī)等工具,每個人的日常生活正在被數(shù)字化,人們可以隨時方便的根據(jù)自己的需要,產(chǎn)生大量的非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)。特別是智能手機(jī)和筆記本電腦的普及,是當(dāng)前數(shù)據(jù)量爆炸增長的一個重要原因。2大數(shù)據(jù)時代2大數(shù)據(jù)時代最后,信息社會的快速建立,信息成為越來越重要的經(jīng)濟(jì)資源,也是大數(shù)據(jù)時代到來的重要原因。在信息時代,數(shù)據(jù)已經(jīng)成為社會資源的重要組成部分,基于數(shù)據(jù)的處理、分析、挖掘等服務(wù)都被信息服務(wù)機(jī)構(gòu)廣泛應(yīng)用和開展,信息的經(jīng)濟(jì)價值越來越大,人們對數(shù)據(jù)的重視程度越來越高,由此也產(chǎn)生了大量的數(shù)據(jù)。2大數(shù)據(jù)時代2大數(shù)據(jù)時代(3)大數(shù)據(jù)時代的到來,必定會對索引和數(shù)據(jù)庫事業(yè)也產(chǎn)生重大影響。本文將論述大數(shù)據(jù)為索引和數(shù)據(jù)庫帶來的機(jī)遇和挑戰(zhàn),探討大數(shù)據(jù)時代索引和數(shù)據(jù)庫事業(yè)的發(fā)展與創(chuàng)新,以引起業(yè)界學(xué)者對相關(guān)問題的關(guān)注與探討。2大數(shù)據(jù)時代2大數(shù)據(jù)時代3.1索引事業(yè)的發(fā)展現(xiàn)狀按照錢亞新教授的說法,“將一種書報或一套書報中討論所及的人名、物名、事名、地名、時名或篇名等分析而組合,用一定的方法排列它們的次序,并表明它們在書報中所在的地位的表,叫作索引。換言之,索引是一種檢查指定范圍內(nèi)的書報所有特項知識的工具?!?索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀3.1索引事業(yè)的發(fā)展現(xiàn)狀3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀一般來說,索引的編制有手工和計算機(jī)編制兩種方式,隨著科技和時代的發(fā)展,目前基本都使用計算機(jī)編制索引的方式。九十年代以來,隨著當(dāng)代數(shù)字化、網(wǎng)絡(luò)化、智能化技術(shù)的發(fā)展,索引研究對象也隨之從傳統(tǒng)的印刷型擴(kuò)大到了數(shù)字型,出現(xiàn)了索引數(shù)據(jù)庫、文摘數(shù)據(jù)庫、全文數(shù)據(jù)庫,以及網(wǎng)頁索引、網(wǎng)址索引、搜索引擎、學(xué)科導(dǎo)航等各種新興工具,檢索語言、標(biāo)引方法和索引技術(shù)等領(lǐng)域都有了新的突破。3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀一般來說,索引的編制有手工和計算機(jī)編制兩種方式,隨著科技和時目前使用最多的索引產(chǎn)品是數(shù)據(jù)庫索引,南京政治學(xué)院上海分院信息管理系的張琪玉教授直接提出了現(xiàn)代的索引就是數(shù)據(jù)庫的判斷。目前國內(nèi)外的索引事業(yè)隨著計算機(jī)和網(wǎng)絡(luò)技術(shù)的發(fā)展也取得了很大的進(jìn)展。3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀在國際,SCI等三大索引在科技界形成了重大影響,其他領(lǐng)域的索引應(yīng)用也取得了廣泛的成果。在國內(nèi),各種類型的中文全文文獻(xiàn)數(shù)據(jù)庫紛紛上網(wǎng),為科研工作者提供了很好的幫助,傳統(tǒng)索引事業(yè)也穩(wěn)步發(fā)展。網(wǎng)絡(luò)信息檢索工具是國內(nèi)外索引研究和應(yīng)用的熱點,影響越來越大。3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀根據(jù)本中心的研究,目前國內(nèi)外在索引領(lǐng)域的研究表現(xiàn)出明顯的差異性,但發(fā)展趨勢基本一致。具體表現(xiàn)在以下四個方面:第一,國內(nèi)外對電子索引技術(shù)的研究日益成熟,在國內(nèi)正處于研究網(wǎng)絡(luò)的中心,而在國外已逐漸處于網(wǎng)絡(luò)邊緣。這與國內(nèi)信息技術(shù)研究比國外起步稍晚的原因是分不開的。3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀第二,傳統(tǒng)的索引理論的研究仍然占據(jù)重要地位。國內(nèi)外學(xué)者對傳統(tǒng)索引理論的研究仍然非常重視。相對而言,國外學(xué)者的理論研究更具全面性和系統(tǒng)性。第三,索引的應(yīng)用研究將成為索引研究中的重要內(nèi)容,國外的應(yīng)用研究相對國內(nèi)更為廣泛。國外對索引的實踐與應(yīng)用的研究已經(jīng)深入到了引文分析、文獻(xiàn)計量學(xué)、科學(xué)計量學(xué)、評價、績效評估、醫(yī)學(xué)等多個具體領(lǐng)域。3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀第四,與其他學(xué)科相結(jié)合開展研究可能成為未來索引研究的發(fā)展趨勢之一。在索引研究的過程中注重與其他學(xué)科的結(jié)合,一方面可以引入新的理論與方法,如社會學(xué)、本體、知識地圖、元數(shù)據(jù)等,為索引理論和方法的研究帶來新的視角;另一方面,索引的方法與研究成果也可以應(yīng)用于其他學(xué)科,為促進(jìn)其他學(xué)科研究的發(fā)展做出貢獻(xiàn)。3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀此外,自從改革開放到現(xiàn)在,我國的索引從業(yè)人員數(shù)量一直在穩(wěn)步增加,這一方面與國家重視圖書館的建設(shè)有關(guān),另一方面也是索引事業(yè)發(fā)展的需要。但是我們與國外相比,索引事業(yè)的從業(yè)人員仍然數(shù)量偏少,素質(zhì)有待提高。特別是在索引教育方面,我們?nèi)〉玫某煽冞€不夠,比如我們至今沒有一本公認(rèn)的比較權(quán)威的索引學(xué)教材。3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀3.2數(shù)據(jù)庫事業(yè)的發(fā)展現(xiàn)狀數(shù)據(jù)庫(Database)是按照數(shù)據(jù)結(jié)構(gòu)來組織、存儲和管理數(shù)據(jù)的倉庫。相對于索引事業(yè),數(shù)據(jù)庫事業(yè)的發(fā)展更為迅猛。目前,全世界大約有書目型數(shù)據(jù)庫、參考型數(shù)據(jù)庫、參考文獻(xiàn)數(shù)據(jù)庫、全文型數(shù)據(jù)庫等幾十種不同類型的數(shù)據(jù)庫。各種數(shù)據(jù)庫的具體數(shù)量更是難以估計。3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀3.2數(shù)據(jù)庫事業(yè)的發(fā)展現(xiàn)狀3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀1980年以前,數(shù)據(jù)庫技術(shù)的發(fā)展,主要體現(xiàn)在數(shù)據(jù)庫的模型設(shè)計上。進(jìn)入90年代后,計算機(jī)領(lǐng)域中其它新興技術(shù)的發(fā)展對數(shù)據(jù)庫技術(shù)產(chǎn)生了重大影響。數(shù)據(jù)庫技術(shù)與網(wǎng)絡(luò)通信技術(shù)、人工智能技術(shù)、多媒體技術(shù)等相互滲透,相互結(jié)合,使數(shù)據(jù)庫技術(shù)的新內(nèi)容層出不窮。3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀至今,數(shù)據(jù)庫的許多概念、應(yīng)用領(lǐng)域,甚至某些原理都有了重大的發(fā)展和變化,形成了數(shù)據(jù)庫領(lǐng)域眾多的研究分支和課題,產(chǎn)生了一系列新型數(shù)據(jù)庫。如:分布式數(shù)據(jù)庫、聯(lián)合數(shù)據(jù)庫、大規(guī)模并行處理數(shù)據(jù)庫等。國外數(shù)據(jù)庫的發(fā)展大致經(jīng)歷了四個階段:3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀1970年以前為初步發(fā)展階段;1970-1980年數(shù)據(jù)庫數(shù)量迅速增加,開始進(jìn)入聯(lián)機(jī)檢索階段;1980年至2010年數(shù)據(jù)庫數(shù)量劇增,類型也發(fā)生了巨大變化,而且開始全球化,是數(shù)據(jù)庫的深入發(fā)展階段;2010年至今,數(shù)據(jù)的類型和數(shù)量均發(fā)生了重大變化,數(shù)據(jù)庫也必須隨之發(fā)生改變,于是進(jìn)入了變革發(fā)展階段。3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀我國數(shù)據(jù)庫的研究和應(yīng)用相對國外來說,起步較晚,也可以大致參照國外的發(fā)展?fàn)顩r劃分為四個時期:介紹學(xué)習(xí)時期(70-80年代)、初步發(fā)展時期(80-90年代)、穩(wěn)定發(fā)展時期(1990-2010年)、變革發(fā)展時期(2010年至今)??偟膩碚f,國內(nèi)外的數(shù)據(jù)庫技術(shù)發(fā)展非常迅猛。3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀分析我國數(shù)據(jù)庫建設(shè)現(xiàn)狀,目前仍處于較低的發(fā)展階段。雖然已經(jīng)建立了種類眾多的數(shù)據(jù)庫,全國各高校的計算機(jī)和信息管理專業(yè)都開設(shè)了數(shù)據(jù)庫課程,數(shù)據(jù)庫、商業(yè)數(shù)據(jù)庫的建設(shè)和使用越來越廣泛。3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀但是,我國的數(shù)據(jù)庫建設(shè)仍然普遍存在以下一些制約因素:政府缺乏統(tǒng)一的整體規(guī)劃;各地的信息機(jī)構(gòu)對數(shù)據(jù)庫的建設(shè)不夠重視;數(shù)據(jù)庫的技術(shù)發(fā)展仍滯后于國外;商業(yè)數(shù)據(jù)庫的建設(shè)和應(yīng)用不夠廣泛;數(shù)據(jù)庫技術(shù)人員的素質(zhì)還有待提高等。3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀而在國外,從六十年代末期開始,數(shù)據(jù)庫系統(tǒng)的研究和開發(fā)已經(jīng)走過了四十多年的歷程,取得了輝煌的成就,形成了龐大的產(chǎn)業(yè)。數(shù)據(jù)庫技術(shù)和系統(tǒng)已經(jīng)成為世界各國信息基礎(chǔ)設(shè)施的核心技術(shù)和重要基礎(chǔ)。3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀進(jìn)入大數(shù)據(jù)時代,當(dāng)我國還在研究大數(shù)據(jù)的概念時,英國的維克托?邁爾?舍恩伯格早在2010年就在《經(jīng)濟(jì)學(xué)人》上發(fā)布了長達(dá)14頁對大數(shù)據(jù)應(yīng)用的前瞻性研究,已寫出了《大數(shù)據(jù)時代》這本對大數(shù)據(jù)系統(tǒng)研究的先河之作,并被譽為“大數(shù)據(jù)商業(yè)應(yīng)用第一人”。3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀3索引與數(shù)據(jù)庫的發(fā)展現(xiàn)狀4.1面臨的挑戰(zhàn)大數(shù)據(jù)對于索引和數(shù)據(jù)庫事業(yè)而言,既是巨大的機(jī)遇,又是巨大的挑戰(zhàn)。面對海量的種類繁多的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),從中迅速的進(jìn)行分析,找出有效的價值,這一方面具有重大的經(jīng)濟(jì)意義,另一方面也要求我們必須改進(jìn)現(xiàn)有的技術(shù),使用新方法來從數(shù)據(jù)中提取價值。大數(shù)據(jù)時代對索引和數(shù)據(jù)庫事業(yè)提出了如下的重大挑戰(zhàn):4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新4.1面臨的挑戰(zhàn)4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)(1)理念更新。大數(shù)據(jù)帶來的是一種全新的模式,索引和數(shù)據(jù)庫的觀念也要隨之跟隨變化,以適應(yīng)時代的需要。同時要更加注重商業(yè)思維,充分利用大數(shù)據(jù),獲取經(jīng)濟(jì)利益。(2)及時有效。大數(shù)據(jù)時代的數(shù)據(jù)產(chǎn)生迅速,數(shù)據(jù)的價值生命周期卻很短暫,如何能夠及時有效的從數(shù)據(jù)中發(fā)現(xiàn)商機(jī)并付諸行動才能獲取價值。4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新(3)集成分析。如果將分析集成到與數(shù)據(jù)所面臨的環(huán)境中,將加快信息分析的速度,使分析結(jié)果能夠更快的實現(xiàn)可操作化。(4)可擴(kuò)展。面對大數(shù)據(jù)必須采取新方法來處理數(shù)據(jù),要實現(xiàn)從規(guī)模較小的數(shù)據(jù)集到大規(guī)模數(shù)據(jù)集的分析,因為我們不能控制所面臨的數(shù)據(jù)源產(chǎn)生數(shù)據(jù)的規(guī)模。4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新4.2技術(shù)的創(chuàng)新目前,大數(shù)據(jù)時代的索引和數(shù)據(jù)庫事業(yè)已經(jīng)創(chuàng)造出了很多重要的基礎(chǔ)性的新技術(shù),如下:4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新云計算虛擬化數(shù)據(jù)存儲智能索引數(shù)據(jù)分析4.2技術(shù)的創(chuàng)新4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)(1)云計算(cloudcomputing)云計算是在分布式處理、并行處理和網(wǎng)格計算等技術(shù)的基礎(chǔ)上發(fā)展起來的,是一種新興的共享基礎(chǔ)架構(gòu)的方法。它可以自我維護(hù)和管理龐大的虛擬計算資源(包括計算服務(wù)器、存儲服務(wù)器、寬帶資源等等),為我們提供了跨地域、高可靠、按需付費、快速部署的能力。甚至可以說,云數(shù)據(jù)庫是數(shù)據(jù)庫技術(shù)的未來發(fā)展方向。4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新云數(shù)據(jù)庫具有以下特性:動態(tài)可擴(kuò)展,理論上,云數(shù)據(jù)庫具有無限可擴(kuò)展性;高可用性,不存在單點失效問題;較低使用代價,可以實現(xiàn)按需付費;可以大規(guī)模并行處理。云計算和大數(shù)據(jù)之間關(guān)聯(lián)非常緊密,大數(shù)據(jù)為云計算提供了應(yīng)用空間,云計算為大數(shù)據(jù)提供了處理工具。4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新(2)虛擬化(virtualization)虛擬化技術(shù)是云計算所有要素中最重要的部分,主要包括計算虛擬化、存儲虛擬化和網(wǎng)絡(luò)虛擬化。利用虛擬化技術(shù)可以在一臺主機(jī)上運行多臺虛擬計算機(jī),允許很多用戶共享一臺高性能設(shè)備的使用,可以極大的節(jié)約成本,也為云計算的實現(xiàn)奠定了技術(shù)基礎(chǔ)。4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新(3)數(shù)據(jù)存儲大數(shù)據(jù)的特征,需要新的數(shù)據(jù)存儲技術(shù)和數(shù)據(jù)存儲工具來滿足。目前已經(jīng)出現(xiàn)了一些新型的大數(shù)據(jù)存儲系統(tǒng),具有優(yōu)秀可擴(kuò)展能力的分布式存儲成為大數(shù)據(jù)存儲的主流架構(gòu)方式。大數(shù)據(jù)存儲還需解決一些問題:如何對數(shù)據(jù)進(jìn)行去重;如何更好地實現(xiàn)分層存儲;如何解決數(shù)據(jù)的安全性問題等。4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新(4)數(shù)據(jù)分析大數(shù)據(jù)時代的數(shù)據(jù)分析需要滿足及時有效的要求,既要能處理高速的數(shù)據(jù),又要能夠?qū)崿F(xiàn)實時的分析。目前產(chǎn)生了一些新型的在線事務(wù)處理系統(tǒng),如NoSQL方案和NewSQL方案。4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新4大數(shù)據(jù)時代索引與數(shù)據(jù)庫

事業(yè)面臨的挑戰(zhàn)及創(chuàng)新NoSQL方案通過消除SQL的語言查詢來實現(xiàn)性能的提高和擴(kuò)展性的增加。有以下特征:不需要預(yù)定的模式;沒有共

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論