大數(shù)據(jù)-信息檢索論文_第1頁(yè)
大數(shù)據(jù)-信息檢索論文_第2頁(yè)
大數(shù)據(jù)-信息檢索論文_第3頁(yè)
大數(shù)據(jù)-信息檢索論文_第4頁(yè)
大數(shù)據(jù)-信息檢索論文_第5頁(yè)
已閱讀5頁(yè),還剩5頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、淺談大數(shù)據(jù)的概念、技術(shù)與挑戰(zhàn) 王濤 (信管110502220) 摘要:計(jì)算、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)等新興服務(wù)促使人類(lèi)社會(huì)的數(shù)據(jù)種類(lèi)和規(guī)模正以前所未有的速度增長(zhǎng),大數(shù)據(jù)時(shí)代正式到來(lái)數(shù)據(jù)從簡(jiǎn)單的處理對(duì)象開(kāi)始轉(zhuǎn)變?yōu)橐环N基礎(chǔ)性資源,如何更好地管理和利用大數(shù)據(jù)就云計(jì)算技術(shù)對(duì)于大數(shù)據(jù)時(shí)代數(shù)據(jù)管理所產(chǎn)生的作用進(jìn)行分析最后歸納總結(jié)大數(shù)據(jù)時(shí)代所面臨的新挑戰(zhàn)關(guān)鍵詞:大數(shù)據(jù);技術(shù);挑戰(zhàn);數(shù)據(jù)分析;云計(jì)算Abstract: Data type and amount in human society is growing in amazing speed which is caused by emerging new ser

2、vices such as cloud computing,internet of things and social network,the era of big data has come Data has been fundamental resource from simple dealing object,and how to manage and utilize big data better has attracted much attention key words:big data;technology; Challenge;data analy

3、sis; cloud computing引言近年來(lái),伴隨著物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)等新技術(shù)的迅猛發(fā)展,數(shù)據(jù)正以前所未有的速度不斷增長(zhǎng)和積累,大數(shù)據(jù)時(shí)代已經(jīng)成為普遍關(guān)注的話(huà)題大數(shù)據(jù)的規(guī)模效應(yīng)給數(shù)據(jù)存儲(chǔ)、管理以及數(shù)據(jù)分析帶來(lái)了極大的挑戰(zhàn),數(shù)據(jù)管理方式上的變革正在醞釀和發(fā)生對(duì)大數(shù)據(jù)的基本概念進(jìn)行剖析,并對(duì)大數(shù)據(jù)的主要應(yīng)用作簡(jiǎn)單對(duì)比在此基礎(chǔ)上,闡述大數(shù)據(jù)處理的基本框架。這引起了產(chǎn)業(yè)界、學(xué)術(shù)界、科技界和政府機(jī)構(gòu)的廣泛關(guān)注。大數(shù)據(jù)的火熱并不意味著對(duì)于大數(shù)據(jù)的了解深入,反而表明大數(shù)據(jù)存在過(guò)度炒作的危險(xiǎn)大數(shù)據(jù)的基本概念、關(guān)鍵技術(shù)以及對(duì)其利用上均存在很多的疑問(wèn)和爭(zhēng)議【1】。1、 大數(shù)據(jù)的基本概念及大

4、數(shù)據(jù)時(shí)代產(chǎn)生的必然早在1980年,美國(guó)著名未來(lái)學(xué)家阿爾溫托夫勒( AlvinToffler) 在 第三次浪潮 一書(shū)中就提出了 大數(shù)據(jù) ( BigData) 的概念,并將其贊頌為 第三次浪潮的華彩樂(lè)章2著名的數(shù)據(jù)庫(kù)專(zhuān)家 圖靈獎(jiǎng)獲得者吉姆 格雷( JimGray) 認(rèn)為傳統(tǒng)的實(shí)驗(yàn) 理論和計(jì)算機(jī)3大范式在科學(xué)研究,特別是一些新的研究領(lǐng)域已經(jīng)無(wú)法很好地發(fā)揮作用,于是,其在2007年提出當(dāng)前科學(xué)研究已發(fā)展到了 第4種范式( The FourthParadigm)3,即以大數(shù)據(jù)為代表的數(shù)據(jù)密集型科學(xué)近幾年,一些國(guó)際頂級(jí)學(xué)術(shù)刊物也相繼出版專(zhuān)刊對(duì)大數(shù)據(jù)進(jìn)行探討研究 2008 年9 月,Nature推出了 Bi

5、g Data 專(zhuān)刊4,從互聯(lián)網(wǎng)技術(shù)環(huán)境科學(xué) 生物醫(yī)藥等多個(gè)方面介紹了海量數(shù)據(jù)帶來(lái)的挑戰(zhàn) 2011年2月,Science出版關(guān)于數(shù)據(jù)處理的專(zhuān)刊 Dealing with data5,討論了數(shù)據(jù)洪流( Data Deluge) 所帶來(lái)的挑戰(zhàn),并闡明了大數(shù)據(jù)對(duì)于科學(xué)研究的重要性 2012年4月,歐洲信息學(xué)與數(shù)學(xué)研究協(xié)會(huì)會(huì)刊ERCIM News出版專(zhuān)刊 Big Data6,討論了有關(guān)大數(shù)據(jù)時(shí)代的數(shù)據(jù)管理 數(shù)據(jù)密集型研究的創(chuàng)新技術(shù)等問(wèn)題,并介紹了歐洲科研機(jī)構(gòu)開(kāi)展的研究活動(dòng)和進(jìn)展情況最早提出大數(shù)據(jù)時(shí)代已經(jīng)到來(lái)的是全球知名咨 詢(xún) 公 司 麥 肯 錫,其下屬機(jī)構(gòu)全球研究所( Mckinsey Global I

6、nstitute) 于2011年6月份發(fā)布的一份專(zhuān)門(mén)的研究報(bào)告,將 大數(shù)據(jù) 視為全世界 下一個(gè)創(chuàng)新競(jìng)爭(zhēng)和生產(chǎn)力提高的前沿領(lǐng)域7,并指出,數(shù)據(jù)已經(jīng)滲透到每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,逐漸成為重要的生產(chǎn)因素; 而人們對(duì)于海量數(shù)據(jù)的運(yùn)用將預(yù)示著新一波生產(chǎn)率增長(zhǎng)和消費(fèi)者盈余浪潮的到來(lái) 著名的市場(chǎng)調(diào)研機(jī)構(gòu)IDC( International Data Corporation,國(guó)際數(shù)據(jù)公司) 在同年的報(bào)告中指出,全球數(shù)據(jù)總量在2011年已達(dá)到1.8ZB( 1ZB=240GB) ,而這個(gè)數(shù)據(jù)大約以每?jī)赡攴环乃俣仍鲩L(zhǎng),預(yù)計(jì)至2020年全球擁有的數(shù)據(jù)量將達(dá)35ZB8。華爾街日?qǐng)?bào)更是將大數(shù)據(jù)時(shí)代 智能化生產(chǎn)和無(wú)線(xiàn)

7、網(wǎng)絡(luò)革命稱(chēng)為引領(lǐng)未來(lái)繁榮的三大技術(shù)變革 此外,Gartner、埃森哲、普華永道等咨詢(xún)公司,以及財(cái)富周刊 福布斯 紐約時(shí)報(bào) 等商業(yè)管理刊物也對(duì)大數(shù)據(jù)進(jìn)行了大量的介紹與研究縱觀國(guó)際形勢(shì),對(duì)大數(shù)據(jù)的研究與應(yīng)用已引起各國(guó)政府部門(mén)的高度重視,成為重要的戰(zhàn)略布局方向 各國(guó)陸續(xù)出臺(tái)有關(guān)大數(shù)據(jù)的國(guó)家政策和戰(zhàn)略2012年3月,美國(guó)奧巴馬政府宣布將投資2億美元用于啟動(dòng) 大數(shù)據(jù)研發(fā)倡議( Big Data Researchand Development Initiative)9,旨在提高從海量和復(fù)雜的數(shù)據(jù)中分析萃取信息的能力,這是繼1993年美國(guó)宣布 信息高速公路 計(jì)劃后的又一次重大科技發(fā)展部署 繼美國(guó)率先開(kāi)啟大數(shù)

8、據(jù)國(guó)家戰(zhàn)略先河之后,其他各國(guó)也隨后跟進(jìn),已經(jīng)或者即將出臺(tái)相應(yīng)的戰(zhàn)略舉措 日本政府重新啟動(dòng)2011年日本大地震后一度擱置的政府ICT戰(zhàn)略研究,于2012年7月推出新的綜合戰(zhàn)略 活力ICT日本,重點(diǎn)關(guān)注大數(shù)據(jù)應(yīng)用所需的云計(jì)算 傳感器社會(huì)化媒體等智能技術(shù)開(kāi)發(fā)2013年1月,英國(guó)政府宣布將注資6億英鎊,發(fā)展大數(shù)據(jù) 合成生物等8類(lèi)高新技術(shù),其中信息行業(yè)新興的大數(shù)據(jù)技術(shù)將獲得1.89億英鎊,占據(jù)總投資的近三分之一 澳大利亞政府在同年3月表示,澳聯(lián)邦政府大數(shù)據(jù)戰(zhàn)略草案有望在5月份出臺(tái),預(yù)計(jì)會(huì)在6 7月間正式頒布一些區(qū)域性或全球性組織也對(duì)大數(shù)據(jù)予以高度關(guān)注 在過(guò)去幾年,歐盟已對(duì)科學(xué)數(shù)據(jù)信息化基礎(chǔ)設(shè)施投資1億多

9、歐元,并將數(shù)據(jù)信息化基礎(chǔ)設(shè)施作為Horizon2020計(jì)劃的優(yōu)先領(lǐng)域之一62012年初,世界經(jīng)濟(jì)論壇一份題為 大數(shù)據(jù),大影響( BigData,BigImpact) 的報(bào)告宣稱(chēng),數(shù)據(jù)已經(jīng)成為一種新的經(jīng)濟(jì)資產(chǎn)類(lèi)別,就像貨幣或黃金一樣聯(lián)合國(guó)也推出了全球脈動(dòng)( GlobalPulse)10倡議項(xiàng)目,希望利用大數(shù)據(jù)來(lái)促進(jìn)全球經(jīng)濟(jì)發(fā)展。盡管各界 各地區(qū) 各機(jī)構(gòu)對(duì)大數(shù)據(jù)廣泛關(guān)注,進(jìn)行了大量研究,但目前對(duì)于大數(shù)據(jù)尚未形成公認(rèn)的定義 信息管理專(zhuān)家涂子沛在大數(shù)據(jù): 正在到來(lái)的數(shù)據(jù)革命 中這樣定義大數(shù)據(jù):指那些大小已經(jīng)超出了傳統(tǒng)意義上的尺度,一般的軟件工具難以捕捉 存儲(chǔ)管理和分析的數(shù)據(jù),11一般以 太字節(jié)( TB

10、) 為單位 這一定義基本上簡(jiǎn)單明了地闡述了大數(shù)據(jù)的內(nèi)涵。數(shù)據(jù)是云計(jì)算技術(shù)的延伸,更是社會(huì)進(jìn)步和發(fā)展的必然結(jié)果,大數(shù)據(jù)時(shí)代的到來(lái)引領(lǐng)了未來(lái)IT技術(shù)發(fā)展的戰(zhàn)略走向。在信息和網(wǎng)絡(luò)技術(shù)飛速發(fā)展的今天,越來(lái)越多的企業(yè)業(yè)務(wù)及社會(huì)活動(dòng)實(shí)現(xiàn)了數(shù)字化,特別是隨著數(shù)據(jù)生成的自動(dòng)化及數(shù)據(jù)生成速度的加快,數(shù)據(jù)量也隨之快速增長(zhǎng)【12】。同時(shí),隨著存儲(chǔ)設(shè)備、內(nèi)存、處理器等電腦元件成本的穩(wěn)定下降,使得之前較昂貴的大規(guī)模數(shù)據(jù)存儲(chǔ)和處理變得十分經(jīng)濟(jì)【13】,也使得大數(shù)據(jù)的存在成為可能。傳感器數(shù)據(jù)也是大數(shù)據(jù)的主要來(lái)源之一。在物聯(lián)網(wǎng)時(shí)代,成萬(wàn)上億計(jì)的網(wǎng)絡(luò)傳感器嵌入在數(shù)量不斷增長(zhǎng)的智能電表、移動(dòng)電話(huà)、汽車(chē)等物理設(shè)備中,不斷感知、生成

11、并傳輸超大規(guī)模的有關(guān)地理位置、振動(dòng)、溫度、濕度等新型數(shù)據(jù)。此外,移動(dòng)互聯(lián)網(wǎng)、三網(wǎng)融合、Web 2.0技術(shù)和電子商務(wù)技術(shù)的飛速發(fā)展,也促進(jìn)了大數(shù)據(jù)時(shí)代的產(chǎn)生和發(fā)展??梢园l(fā)現(xiàn),數(shù)字化已經(jīng)成為社會(huì)發(fā)展的必然趨勢(shì)。與生產(chǎn)過(guò)程必須依賴(lài)硬件設(shè)備和人力資本一樣,企業(yè)的業(yè)務(wù)活動(dòng)、創(chuàng)新、成長(zhǎng)也越來(lái)越離不開(kāi)大量數(shù)據(jù)的支持【14】。也就是說(shuō),企業(yè)的任何一項(xiàng)業(yè)務(wù)活動(dòng)都與大量的數(shù)據(jù)緊密相聯(lián),而我們每一個(gè)人都是數(shù)據(jù)的產(chǎn)生者,數(shù)據(jù)量與日俱增,數(shù)據(jù)結(jié)構(gòu)繁雜多變,數(shù)據(jù)產(chǎn)生速度非常之快,我們已經(jīng)進(jìn)入了大數(shù)據(jù)的時(shí)代【15】。2、 大數(shù)據(jù)的特點(diǎn)及關(guān)鍵技術(shù)分析 1.大數(shù)據(jù)的特點(diǎn)大數(shù)據(jù)不是一種新技術(shù),也不是一種新產(chǎn)品,而是一種新現(xiàn)象,是

12、近來(lái)研究的一個(gè)技術(shù)熱點(diǎn) 大數(shù)據(jù)具有以下4個(gè)特點(diǎn),即4個(gè)V16:( 1) 數(shù)據(jù)體量( Volumes) 巨大大型數(shù)據(jù)集,從TB級(jí)別,躍升到PB級(jí)別;( 2) 數(shù)據(jù)類(lèi)別( Variety) 繁多 數(shù)據(jù)來(lái)自多種數(shù)據(jù)源,數(shù)據(jù)種類(lèi)和格式?jīng)_破了以前所限定的結(jié)構(gòu)化數(shù)據(jù)范疇,囊括了半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù);( 3) 價(jià)值( Value) 密度低 以視頻為例,連續(xù)不間斷監(jiān)控過(guò)程中,可能有用的數(shù)據(jù)僅僅一兩秒鐘;( 4) 處理速度( Velocity) 快 包含大量在線(xiàn)或?qū)崟r(shí)數(shù)據(jù)分析處理的需求,1秒定律。隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,數(shù)據(jù)本身就是資產(chǎn)云計(jì)算為數(shù)據(jù)資產(chǎn)提供了保管訪(fǎng)問(wèn)的場(chǎng)所和渠道,但如何盤(pán)活數(shù)據(jù)資產(chǎn),使其為國(guó)

13、家治理企業(yè)決策乃至個(gè)人生活服務(wù),是大數(shù)據(jù)的核心議題,也是云計(jì)算的靈魂和必然的升級(jí)方向。大數(shù)據(jù)已經(jīng)出現(xiàn) IDC多年的研究結(jié)果告訴我們: 全球數(shù)據(jù)量大約每?jī)赡攴环?,每年產(chǎn)生的數(shù)據(jù)量按指數(shù)增長(zhǎng),數(shù)據(jù)增速基本符合摩爾定律 全球有46億移動(dòng)電話(huà)用戶(hù),有20億人訪(fǎng)問(wèn)互聯(lián)網(wǎng),人們以比以往任何時(shí)候都高得多的熱情在與數(shù)據(jù)或信息交互 思科公司預(yù)計(jì),到2013年,在互聯(lián)網(wǎng)上流動(dòng)的數(shù)據(jù)量將達(dá)到每年667艾字節(jié)17。關(guān)鍵技術(shù)2.1云計(jì)算;大數(shù)據(jù)的基礎(chǔ)平臺(tái)與支撐技術(shù)如果將各種大數(shù)據(jù)的應(yīng)用比作一輛輛“汽車(chē)”,支撐起這些“汽車(chē)”運(yùn)行的“高速公路”就是云計(jì)算正是云計(jì)算技術(shù)在數(shù)據(jù)存儲(chǔ)、管理與分析等方面的支撐,才使得大數(shù)據(jù)有用武

14、之地文件系統(tǒng)是支撐上層應(yīng)用的基礎(chǔ)。原始的數(shù)據(jù)存儲(chǔ)在文件系統(tǒng)之中,但是用戶(hù)習(xí)慣通過(guò)數(shù)據(jù)庫(kù)系統(tǒng)來(lái)存取文件因?yàn)檫@樣會(huì)屏蔽掉底層的細(xì)節(jié),且方便數(shù)據(jù)管理直接采用關(guān)系模型的分布式數(shù)據(jù)庫(kù)并不能適應(yīng)大數(shù)據(jù)時(shí)代的數(shù)據(jù)存儲(chǔ)。據(jù)查詢(xún)是數(shù)據(jù)庫(kù)最重要的應(yīng)用之一,而索引則是解決數(shù)據(jù)查詢(xún)問(wèn)題的有效方案。而數(shù)據(jù)分析技術(shù)是最核心的業(yè)務(wù)【18】。2.2大數(shù)據(jù)處理工具關(guān)系數(shù)據(jù)庫(kù)在很長(zhǎng)的時(shí)間里成為數(shù)據(jù)管理的最佳選擇,但是在大數(shù)據(jù)時(shí)代,數(shù)據(jù)管理、分析等的需求多樣化使得關(guān)系數(shù)據(jù)庫(kù)在很多場(chǎng)景不再適用而HadOop是目前最為流行的大數(shù)據(jù)處理平臺(tái)而Hadoop【19】最先是Doug Cutting模仿GFS,MapReduce實(shí)現(xiàn)的一個(gè)云計(jì)算

15、開(kāi)源平臺(tái),后貢獻(xiàn)給ApacheHadoop已經(jīng)發(fā)展成為包括文件系統(tǒng)(HDFS)、數(shù)據(jù)庫(kù)(HBase、Cassandra)、數(shù)據(jù)處理(MapReduce)等功能模塊在內(nèi)的完整生態(tài)系統(tǒng)(Ecosystem)【20】某種程度上可以說(shuō)Hadoop已經(jīng)成為大數(shù)據(jù)處理工具事實(shí)上的標(biāo)準(zhǔn)【21】三、大數(shù)據(jù)時(shí)代面臨的機(jī)遇與挑戰(zhàn)綜上所述,大數(shù)據(jù)時(shí)代的數(shù)據(jù)存在著如下幾個(gè)特點(diǎn):多源異構(gòu);分布廣泛;動(dòng)態(tài)增長(zhǎng);先有數(shù)據(jù)后有模式正是這些與傳統(tǒng)數(shù)據(jù)管理迥然不同的特點(diǎn),使得大數(shù)據(jù)時(shí)代的數(shù)據(jù)管理面臨著新的機(jī)遇與挑戰(zhàn)。大數(shù)據(jù)帶來(lái)的機(jī)遇【22】 1.大數(shù)據(jù)的挖掘和應(yīng)用成為核心,將從多個(gè)方面創(chuàng)造價(jià)值。大數(shù)據(jù)的重心將從存儲(chǔ)和傳輸,過(guò)渡到

16、數(shù)據(jù)的挖掘和應(yīng)用,這將深刻影響企業(yè)的商業(yè)模式 據(jù)麥肯錫測(cè)算,大數(shù)據(jù)的應(yīng)用每年潛在可為美國(guó)醫(yī)療健康業(yè)和歐洲政府分別節(jié)省3000億美元和1000億歐元,利用個(gè)人位置信息潛在可創(chuàng)造出6000億美元價(jià)值,因此大數(shù)據(jù)應(yīng)用具有遠(yuǎn)超萬(wàn)億美元的大市場(chǎng)?!?3】2.大數(shù)據(jù)利用中安全更加重要,為信息安全帶來(lái)發(fā)展契機(jī)。隨著移動(dòng)互聯(lián)網(wǎng)物聯(lián)網(wǎng)等新興IT技術(shù)逐漸步入主流,大數(shù)據(jù)使得數(shù)據(jù)價(jià)值極大提高,無(wú)處不在的數(shù)據(jù),對(duì)信息安全提出了更高要求 同時(shí),大數(shù)據(jù)領(lǐng)域出現(xiàn)的許多新興技術(shù)與產(chǎn)品將為安全分析提供新的可能性; 信息安全和云計(jì)算貫穿于大數(shù)據(jù)產(chǎn)業(yè)鏈的各個(gè)環(huán)節(jié),云安全等關(guān)鍵技術(shù)將更安全地保護(hù)數(shù)據(jù) 大數(shù)據(jù)對(duì)信息安全的要求和促進(jìn)將推

17、動(dòng)信息安全產(chǎn)業(yè)的大發(fā)展。3.大數(shù)據(jù)時(shí)代來(lái)臨,使商業(yè)智能信息安全和云計(jì)算具有更大潛力。大數(shù)據(jù)產(chǎn)業(yè)鏈按產(chǎn)品形態(tài)分為硬件基礎(chǔ)軟件和應(yīng)用軟件三大領(lǐng)域,商業(yè)智能信息安全和云計(jì)算主題橫跨三大領(lǐng)域,將構(gòu)成產(chǎn)業(yè)鏈中快速發(fā)展的三駕馬車(chē)就國(guó)內(nèi)而言,商業(yè)智能市場(chǎng)已步入成長(zhǎng)期,預(yù)計(jì)未來(lái)3年復(fù)合年均增長(zhǎng)率( CAGR) 為35%,十二五期間潛在產(chǎn)值將超300億元; 信息安全預(yù)計(jì)未來(lái)3年CAGR有望保持35%40%的快速增長(zhǎng),十二五期間潛在產(chǎn)值將超4000億元; 云計(jì)算剛進(jìn)入成長(zhǎng)期,預(yù)計(jì)未來(lái)5年CAGR將超50%,2015年產(chǎn)業(yè)規(guī)模預(yù)計(jì)將達(dá)1萬(wàn)億元。(1) 面臨的挑戰(zhàn)1. 大數(shù)據(jù)集成數(shù)據(jù)的廣泛存在性使得數(shù)據(jù)越來(lái)越多地散布

18、于不同的數(shù)據(jù)管理系統(tǒng)中,為了便于進(jìn)行數(shù)據(jù)分析需要進(jìn)行數(shù)據(jù)的集成數(shù)據(jù)集成看起來(lái)并不是一個(gè)新的問(wèn)題,但是大數(shù)據(jù)時(shí)代的數(shù)據(jù)集成卻有了新的需求,因此也面臨著新的挑戰(zhàn)1) 廣泛的異構(gòu)性傳統(tǒng)的數(shù)據(jù)集成中也會(huì)面對(duì)數(shù)據(jù)異構(gòu)的問(wèn)題,但是在大數(shù)據(jù)時(shí)代這種異構(gòu)性出現(xiàn)了新的變化,大量出現(xiàn)的各種數(shù)據(jù)本身是非結(jié)構(gòu)化的或弱結(jié)構(gòu)化的,如留言、博客、圖像、視頻數(shù)據(jù)等,如何將這些數(shù)據(jù)轉(zhuǎn)化成一個(gè)結(jié)構(gòu)化的格式是研究者面臨的一項(xiàng)重大挑戰(zhàn)【25】2) 數(shù)據(jù)質(zhì)量數(shù)據(jù)量大不一定就代表信息量或者數(shù)據(jù)價(jià)值的增大,相反很多時(shí)候意味著信息垃圾的泛濫.2. 大數(shù)據(jù)分析大數(shù)據(jù)最為嚴(yán)重的風(fēng)險(xiǎn)存在于數(shù)據(jù)分析層面。數(shù)據(jù)量的增大會(huì)帶來(lái)規(guī)律的喪失和嚴(yán)重失真?!?

19、6】傳統(tǒng)意義上的數(shù)據(jù)分析主要針對(duì)結(jié)構(gòu)化數(shù)據(jù)展開(kāi),且已經(jīng)形成了一整套行之有效的分析體系首先利用數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù),在此基礎(chǔ)上構(gòu)建數(shù)據(jù)倉(cāng)庫(kù),根據(jù)需要構(gòu)建數(shù)據(jù)立方體進(jìn)行聯(lián)機(jī)分析處理(online analytical processing,OI。AP),可以進(jìn)行多個(gè)維度的下鉆(drill一down)或上卷(rollup)操作對(duì)于從數(shù)據(jù)中提煉更深層次的知識(shí)的需求促使數(shù)據(jù)挖掘技術(shù)的產(chǎn)生,并發(fā)明了聚類(lèi)、關(guān)聯(lián)分析等一系列在實(shí)踐中行之有效的方法這一整套處理流程在處理相對(duì)較少的結(jié)構(gòu)化數(shù)據(jù)時(shí)極為高效但是隨著大數(shù)據(jù)時(shí)代的到來(lái),半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)量的迅猛增長(zhǎng),給傳統(tǒng)的分析技術(shù)帶來(lái)了巨大的沖擊和挑戰(zhàn)。據(jù)阿里巴巴

20、稱(chēng),雖然其各類(lèi)業(yè)務(wù)產(chǎn)生的數(shù)據(jù)為數(shù)據(jù)分析創(chuàng)造了非常好的基礎(chǔ)條件,然而卻招聘不到合適的數(shù)據(jù)科學(xué)家而影響了研發(fā)進(jìn)展【27】。3. 大數(shù)據(jù)的隱私問(wèn)題隱私問(wèn)題由來(lái)已久,這基本也是大家最關(guān)心的問(wèn)題。計(jì)算機(jī)的出現(xiàn)使得越來(lái)越多的數(shù)據(jù)以數(shù)字化的形式存儲(chǔ)在電腦中,互聯(lián)網(wǎng)的發(fā)展則使數(shù)據(jù)更加容易產(chǎn)生和傳播,數(shù)據(jù)隱私問(wèn)題越來(lái)越嚴(yán)重大數(shù)據(jù)高度依賴(lài)數(shù)據(jù)存儲(chǔ)與共享,必須考慮尋求更好的方法消除各種隱患與漏洞,才能有效地管控安全風(fēng)險(xiǎn)。數(shù)據(jù)的隱私保護(hù)是大數(shù)據(jù)分析和處理面臨的重要問(wèn)題,既是技術(shù)問(wèn)題也是社會(huì)學(xué)問(wèn)題。如果對(duì)私人數(shù)據(jù)使用不當(dāng),尤其是泄漏有一定關(guān)聯(lián)的多組數(shù)據(jù),將導(dǎo)致用戶(hù)的隱私泄漏【28】。當(dāng)前,數(shù)據(jù)安全形勢(shì)不容樂(lè)觀,需要保護(hù)

21、的數(shù)據(jù)量增長(zhǎng)已超過(guò)了數(shù)據(jù)總量的增長(zhǎng) 據(jù)IDC統(tǒng)計(jì)【29】:2010年僅有不到1/3的數(shù)據(jù)需要保護(hù),到2020年這一比例將超過(guò)2/5; 2012年的統(tǒng)計(jì)顯示,雖然有35%的信息需要保護(hù),但實(shí)際得到保護(hù)的不到20% 在亞洲 南美等新興市場(chǎng),數(shù)據(jù)保護(hù)的缺失更加嚴(yán)重 首先個(gè)人隱私更容易通過(guò)網(wǎng)絡(luò)泄露,隨著電子商務(wù) 社交網(wǎng)絡(luò)的興起,人們通過(guò)網(wǎng)絡(luò)聯(lián)系的日益緊密,將個(gè)人的相關(guān)數(shù)據(jù)足跡聚集起來(lái)分析,可以很容易獲取個(gè)人的相關(guān)信息,隱私數(shù)據(jù)就可能暴露,而數(shù)據(jù)在網(wǎng)絡(luò)上的發(fā)布機(jī)制使得這種暴露似乎防不勝防; 在國(guó)家層面,大數(shù)據(jù)可能給國(guó)家安全帶來(lái)隱患,如果在大數(shù)據(jù)處理方面落后,就可能導(dǎo)致數(shù)據(jù)的單向透明。信息安全戰(zhàn)略是國(guó)家戰(zhàn)

22、略不可分割的重要組成部分,其必要性體現(xiàn)在其從上而下,而非從下而上的推動(dòng)作用?!?0】美國(guó)發(fā)布大數(shù)據(jù)研發(fā)計(jì)劃,大力發(fā)展大大數(shù)據(jù)技術(shù)就有增強(qiáng)國(guó)家安全方面的戰(zhàn)略考量.4. 大數(shù)據(jù)能耗問(wèn)題在能源價(jià)格上漲、數(shù)據(jù)中心存儲(chǔ)規(guī)模不斷擴(kuò)大的今天,高能耗已逐漸成為制約大數(shù)據(jù)快速發(fā)展的一個(gè)主要瓶頸從小型集群到大規(guī)模數(shù)據(jù)中心都面臨著降低能耗的問(wèn)題,但是尚未引起足夠多的重視,相關(guān)的研究成果也較少在大數(shù)據(jù)管理系統(tǒng)中,能耗主要由兩大部分組成:硬件能耗和軟件能耗,二者之中又以硬件能耗為主理想狀態(tài)下,整個(gè)大數(shù)據(jù)管理系統(tǒng)的能耗應(yīng)該和系統(tǒng)利用率成正比但是實(shí)際情況并不像預(yù)期情況,系統(tǒng)利用率為0時(shí)仍然有能量消耗【31】。5.大數(shù)據(jù)處理

23、與硬件的協(xié)同硬件的快速升級(jí)換代有力地促進(jìn)了大數(shù)據(jù)的發(fā)展,但是這也在一定程度上造成了大量不同架構(gòu)硬件共存的局面.大數(shù)據(jù)處理必須要有舍才有得??梢酝ㄟ^(guò)舍棄一些不必要的性能和精確性來(lái)獲取更為重要的性能和精確性?!?2】6. 大數(shù)據(jù)管理易用性問(wèn)題從數(shù)據(jù)集成到數(shù)據(jù)分析,直到最后的數(shù)據(jù)解釋?zhuān)子眯詰?yīng)當(dāng)貫穿整個(gè)大數(shù)據(jù)的流程易用性的挑戰(zhàn)突出體現(xiàn)在兩個(gè)方面:首先大數(shù)據(jù)時(shí)代的數(shù)據(jù)量大,分析更復(fù)雜,得到的結(jié)果形式更加多樣化其復(fù)雜程度已經(jīng)遠(yuǎn)遠(yuǎn)超出傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)其次大數(shù)據(jù)已經(jīng)廣泛滲透到人們生活的各個(gè)方面,很多行業(yè)都開(kāi)始有了大數(shù)據(jù)分析的需求但是這些行業(yè)的絕大部分從業(yè)者都不是數(shù)據(jù)分析的專(zhuān)家,在復(fù)雜的大數(shù)據(jù)工具面前,他們只

24、是初級(jí)的使用者(naIve users)復(fù)雜的分析過(guò)程和難以理解的分析結(jié)果限制了他們從大數(shù)據(jù)中獲取知識(shí)的能力這兩個(gè)原因?qū)е乱子眯猿蔀榇髷?shù)據(jù)時(shí)代軟件工具設(shè)計(jì)的一個(gè)巨大挑戰(zhàn)關(guān)于大數(shù)據(jù)易用性的研究仍處于一個(gè)起步階段從設(shè)計(jì)學(xué)的角度來(lái)看易用性表現(xiàn)為易見(jiàn)(easy to discover)、易學(xué)(easy to learn)和易用(easy to use)。7. 性能測(cè)試基準(zhǔn)數(shù)據(jù)庫(kù)產(chǎn)品的成功離不開(kāi)以TPC系列為代表的測(cè)試基準(zhǔn)的產(chǎn)生正是有了這些測(cè)試基準(zhǔn),才能夠準(zhǔn)確地衡量不同數(shù)據(jù)庫(kù)產(chǎn)品的性能,并對(duì)其存在的問(wèn)題進(jìn)行改進(jìn)。在過(guò)去20年里,產(chǎn)業(yè)基準(zhǔn)起到了很大的作用。在制定行業(yè)的標(biāo)準(zhǔn)時(shí),性能、持有成本和能源效率是成功

25、的三大關(guān)鍵。產(chǎn)業(yè)界標(biāo)準(zhǔn)的基準(zhǔn)都扮演了非常重要的作用,進(jìn)一步推動(dòng)了計(jì)算機(jī)產(chǎn)業(yè)科學(xué)的發(fā)展【33】。4、 結(jié)果和結(jié)論關(guān)系像互聯(lián)網(wǎng)、云計(jì)算以及物聯(lián)網(wǎng)等技術(shù)一樣,大數(shù)據(jù)時(shí)代的到來(lái)勢(shì)必會(huì)再次讓信息技術(shù)領(lǐng)域煥然一新。大數(shù)據(jù)時(shí)代下,每個(gè)個(gè)體都是數(shù)據(jù)的產(chǎn)生者,企業(yè)的任何一項(xiàng)業(yè)務(wù)活動(dòng)都可以用數(shù)據(jù)來(lái)表示,如何保證大數(shù)據(jù)的質(zhì)量,如何建模、提取并利用隱藏在大數(shù)據(jù)中的信息以提升企業(yè)信息系統(tǒng)績(jī)效、提升企業(yè)決策能力,成為擺在業(yè)界和學(xué)術(shù)界面前的重大難題。總的來(lái)說(shuō),目前對(duì)于大數(shù)據(jù)的研究仍處于一個(gè)非常初步的階段,還有很多基礎(chǔ)性的問(wèn)題有待解決大數(shù)據(jù)的幾個(gè)特征中究竟哪個(gè)最重要?面對(duì)大數(shù)據(jù)管理我們需要的是簡(jiǎn)單的技術(shù)上的演變(evo1ut

26、ion)還是徹底的變革(revoIution)?不同學(xué)科的研究者之間怎樣協(xié)作才能更有利于大數(shù)據(jù)問(wèn)題的解決?諸如此類(lèi)的問(wèn)題還有許多,要解決大數(shù)據(jù)問(wèn)題仍有很長(zhǎng)的路要走。參考文獻(xiàn)1孟小峰,慈祥: 大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)。計(jì)算機(jī)研究與發(fā)展146-169,20132阿爾溫 托夫勒 第三次浪潮M 北京: 三聯(lián)書(shū)店出版社,19843Jim Gray One Science A transformed scientific methodC/Tony H,Stewart T,Kirstin T The fourth paradigm: Dataintensive scientific discoveryR

27、edmond,WA: Microsoft Research,2009: 19334Nature.BigDataEB/OL. data/indexhtml5 Science.Special online collection: Dealing with dataEB/OL http: /wwwsciencemagorg/site/special/data/,20116李國(guó)杰,程學(xué)旗大數(shù)據(jù)研究: 未來(lái)科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域 大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考J 戰(zhàn)略與決策研究,2012,27( 6) :648,6497Big Data: The next frontier for innovat

28、ion,competition and productivity,Mckinsey Global Institute,20118The2011Digital Universe Study: Extracting Value from Chaos International Data Corporation and EMC,June 20119 Big Data across the Federal Government EB/OLhttp: /wwwWhite house gov/sites/default/files/microsites/ostp/big data fact sheet f

29、inal 1pdf10 UN Global Pulse Big Data for Development:Challenges OpportunitiesR/OL.http: //projects/BigDataforDevelopment11涂子沛 大數(shù)據(jù): 正在到來(lái)的數(shù)據(jù)革命M 桂林:廣西師范大學(xué)出版社,2012:575512覃雄派,王會(huì)舉,杜小勇,等。大數(shù)據(jù)分析RDBMS與Mapreduse的競(jìng)爭(zhēng)共性【J】。軟件學(xué)報(bào),2012,23(1),32-45.13郭秦川:官方統(tǒng)計(jì)與大數(shù)據(jù)對(duì)比分析。10047794(2013)080050-614涂子沛,大數(shù)據(jù)(M),廣州:廣州師范大學(xué)出版社。15朱志軍,閏蕾,等大數(shù)據(jù)大價(jià)值、大機(jī)遇、大變革M】電子工業(yè)出版社,201216大數(shù)據(jù)分析技術(shù)的發(fā)展EB/OL 20120516 http: /tech ccidnet com/art/32963/20120516/3859

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論