大數(shù)據(jù)-信息檢索論文_第1頁
大數(shù)據(jù)-信息檢索論文_第2頁
大數(shù)據(jù)-信息檢索論文_第3頁
大數(shù)據(jù)-信息檢索論文_第4頁
大數(shù)據(jù)-信息檢索論文_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、淺談大數(shù)據(jù)的概念、技術(shù)與挑戰(zhàn) 王濤 (信管110502220) 摘要:計算、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)等新興服務(wù)促使人類社會的數(shù)據(jù)種類和規(guī)模正以前所未有的速度增長,大數(shù)據(jù)時代正式到來數(shù)據(jù)從簡單的處理對象開始轉(zhuǎn)變?yōu)橐环N基礎(chǔ)性資源,如何更好地管理和利用大數(shù)據(jù)就云計算技術(shù)對于大數(shù)據(jù)時代數(shù)據(jù)管理所產(chǎn)生的作用進(jìn)行分析最后歸納總結(jié)大數(shù)據(jù)時代所面臨的新挑戰(zhàn)關(guān)鍵詞:大數(shù)據(jù);技術(shù);挑戰(zhàn);數(shù)據(jù)分析;云計算Abstract: Data type and amount in human society is growing in amazing speed which is caused by emerging new ser

2、vices such as cloud computing,internet of things and social network,the era of big data has come Data has been fundamental resource from simple dealing object,and how to manage and utilize big data better has attracted much attention key words:big data;technology; Challenge;data analy

3、sis; cloud computing引言近年來,伴隨著物聯(lián)網(wǎng)、云計算、移動互聯(lián)網(wǎng)等新技術(shù)的迅猛發(fā)展,數(shù)據(jù)正以前所未有的速度不斷增長和積累,大數(shù)據(jù)時代已經(jīng)成為普遍關(guān)注的話題大數(shù)據(jù)的規(guī)模效應(yīng)給數(shù)據(jù)存儲、管理以及數(shù)據(jù)分析帶來了極大的挑戰(zhàn),數(shù)據(jù)管理方式上的變革正在醞釀和發(fā)生對大數(shù)據(jù)的基本概念進(jìn)行剖析,并對大數(shù)據(jù)的主要應(yīng)用作簡單對比在此基礎(chǔ)上,闡述大數(shù)據(jù)處理的基本框架。這引起了產(chǎn)業(yè)界、學(xué)術(shù)界、科技界和政府機(jī)構(gòu)的廣泛關(guān)注。大數(shù)據(jù)的火熱并不意味著對于大數(shù)據(jù)的了解深入,反而表明大數(shù)據(jù)存在過度炒作的危險大數(shù)據(jù)的基本概念、關(guān)鍵技術(shù)以及對其利用上均存在很多的疑問和爭議【1】。1、 大數(shù)據(jù)的基本概念及大

4、數(shù)據(jù)時代產(chǎn)生的必然早在1980年,美國著名未來學(xué)家阿爾溫托夫勒( AlvinToffler) 在 第三次浪潮 一書中就提出了 大數(shù)據(jù) ( BigData) 的概念,并將其贊頌為 第三次浪潮的華彩樂章2著名的數(shù)據(jù)庫專家 圖靈獎獲得者吉姆 格雷( JimGray) 認(rèn)為傳統(tǒng)的實驗 理論和計算機(jī)3大范式在科學(xué)研究,特別是一些新的研究領(lǐng)域已經(jīng)無法很好地發(fā)揮作用,于是,其在2007年提出當(dāng)前科學(xué)研究已發(fā)展到了 第4種范式( The FourthParadigm)3,即以大數(shù)據(jù)為代表的數(shù)據(jù)密集型科學(xué)近幾年,一些國際頂級學(xué)術(shù)刊物也相繼出版專刊對大數(shù)據(jù)進(jìn)行探討研究 2008 年9 月,Nature推出了 Bi

5、g Data ???,從互聯(lián)網(wǎng)技術(shù)環(huán)境科學(xué) 生物醫(yī)藥等多個方面介紹了海量數(shù)據(jù)帶來的挑戰(zhàn) 2011年2月,Science出版關(guān)于數(shù)據(jù)處理的???Dealing with data5,討論了數(shù)據(jù)洪流( Data Deluge) 所帶來的挑戰(zhàn),并闡明了大數(shù)據(jù)對于科學(xué)研究的重要性 2012年4月,歐洲信息學(xué)與數(shù)學(xué)研究協(xié)會會刊ERCIM News出版專刊 Big Data6,討論了有關(guān)大數(shù)據(jù)時代的數(shù)據(jù)管理 數(shù)據(jù)密集型研究的創(chuàng)新技術(shù)等問題,并介紹了歐洲科研機(jī)構(gòu)開展的研究活動和進(jìn)展情況最早提出大數(shù)據(jù)時代已經(jīng)到來的是全球知名咨 詢 公 司 麥 肯 錫,其下屬機(jī)構(gòu)全球研究所( Mckinsey Global I

6、nstitute) 于2011年6月份發(fā)布的一份專門的研究報告,將 大數(shù)據(jù) 視為全世界 下一個創(chuàng)新競爭和生產(chǎn)力提高的前沿領(lǐng)域7,并指出,數(shù)據(jù)已經(jīng)滲透到每一個行業(yè)和業(yè)務(wù)職能領(lǐng)域,逐漸成為重要的生產(chǎn)因素; 而人們對于海量數(shù)據(jù)的運(yùn)用將預(yù)示著新一波生產(chǎn)率增長和消費(fèi)者盈余浪潮的到來 著名的市場調(diào)研機(jī)構(gòu)IDC( International Data Corporation,國際數(shù)據(jù)公司) 在同年的報告中指出,全球數(shù)據(jù)總量在2011年已達(dá)到1.8ZB( 1ZB=240GB) ,而這個數(shù)據(jù)大約以每兩年翻一番的速度增長,預(yù)計至2020年全球擁有的數(shù)據(jù)量將達(dá)35ZB8。華爾街日報更是將大數(shù)據(jù)時代 智能化生產(chǎn)和無線

7、網(wǎng)絡(luò)革命稱為引領(lǐng)未來繁榮的三大技術(shù)變革 此外,Gartner、埃森哲、普華永道等咨詢公司,以及財富周刊 福布斯 紐約時報 等商業(yè)管理刊物也對大數(shù)據(jù)進(jìn)行了大量的介紹與研究縱觀國際形勢,對大數(shù)據(jù)的研究與應(yīng)用已引起各國政府部門的高度重視,成為重要的戰(zhàn)略布局方向 各國陸續(xù)出臺有關(guān)大數(shù)據(jù)的國家政策和戰(zhàn)略2012年3月,美國奧巴馬政府宣布將投資2億美元用于啟動 大數(shù)據(jù)研發(fā)倡議( Big Data Researchand Development Initiative)9,旨在提高從海量和復(fù)雜的數(shù)據(jù)中分析萃取信息的能力,這是繼1993年美國宣布 信息高速公路 計劃后的又一次重大科技發(fā)展部署 繼美國率先開啟大數(shù)

8、據(jù)國家戰(zhàn)略先河之后,其他各國也隨后跟進(jìn),已經(jīng)或者即將出臺相應(yīng)的戰(zhàn)略舉措 日本政府重新啟動2011年日本大地震后一度擱置的政府ICT戰(zhàn)略研究,于2012年7月推出新的綜合戰(zhàn)略 活力ICT日本,重點(diǎn)關(guān)注大數(shù)據(jù)應(yīng)用所需的云計算 傳感器社會化媒體等智能技術(shù)開發(fā)2013年1月,英國政府宣布將注資6億英鎊,發(fā)展大數(shù)據(jù) 合成生物等8類高新技術(shù),其中信息行業(yè)新興的大數(shù)據(jù)技術(shù)將獲得1.89億英鎊,占據(jù)總投資的近三分之一 澳大利亞政府在同年3月表示,澳聯(lián)邦政府大數(shù)據(jù)戰(zhàn)略草案有望在5月份出臺,預(yù)計會在6 7月間正式頒布一些區(qū)域性或全球性組織也對大數(shù)據(jù)予以高度關(guān)注 在過去幾年,歐盟已對科學(xué)數(shù)據(jù)信息化基礎(chǔ)設(shè)施投資1億多

9、歐元,并將數(shù)據(jù)信息化基礎(chǔ)設(shè)施作為Horizon2020計劃的優(yōu)先領(lǐng)域之一62012年初,世界經(jīng)濟(jì)論壇一份題為 大數(shù)據(jù),大影響( BigData,BigImpact) 的報告宣稱,數(shù)據(jù)已經(jīng)成為一種新的經(jīng)濟(jì)資產(chǎn)類別,就像貨幣或黃金一樣聯(lián)合國也推出了全球脈動( GlobalPulse)10倡議項目,希望利用大數(shù)據(jù)來促進(jìn)全球經(jīng)濟(jì)發(fā)展。盡管各界 各地區(qū) 各機(jī)構(gòu)對大數(shù)據(jù)廣泛關(guān)注,進(jìn)行了大量研究,但目前對于大數(shù)據(jù)尚未形成公認(rèn)的定義 信息管理專家涂子沛在大數(shù)據(jù): 正在到來的數(shù)據(jù)革命 中這樣定義大數(shù)據(jù):指那些大小已經(jīng)超出了傳統(tǒng)意義上的尺度,一般的軟件工具難以捕捉 存儲管理和分析的數(shù)據(jù),11一般以 太字節(jié)( TB

10、) 為單位 這一定義基本上簡單明了地闡述了大數(shù)據(jù)的內(nèi)涵。數(shù)據(jù)是云計算技術(shù)的延伸,更是社會進(jìn)步和發(fā)展的必然結(jié)果,大數(shù)據(jù)時代的到來引領(lǐng)了未來IT技術(shù)發(fā)展的戰(zhàn)略走向。在信息和網(wǎng)絡(luò)技術(shù)飛速發(fā)展的今天,越來越多的企業(yè)業(yè)務(wù)及社會活動實現(xiàn)了數(shù)字化,特別是隨著數(shù)據(jù)生成的自動化及數(shù)據(jù)生成速度的加快,數(shù)據(jù)量也隨之快速增長【12】。同時,隨著存儲設(shè)備、內(nèi)存、處理器等電腦元件成本的穩(wěn)定下降,使得之前較昂貴的大規(guī)模數(shù)據(jù)存儲和處理變得十分經(jīng)濟(jì)【13】,也使得大數(shù)據(jù)的存在成為可能。傳感器數(shù)據(jù)也是大數(shù)據(jù)的主要來源之一。在物聯(lián)網(wǎng)時代,成萬上億計的網(wǎng)絡(luò)傳感器嵌入在數(shù)量不斷增長的智能電表、移動電話、汽車等物理設(shè)備中,不斷感知、生成

11、并傳輸超大規(guī)模的有關(guān)地理位置、振動、溫度、濕度等新型數(shù)據(jù)。此外,移動互聯(lián)網(wǎng)、三網(wǎng)融合、Web 2.0技術(shù)和電子商務(wù)技術(shù)的飛速發(fā)展,也促進(jìn)了大數(shù)據(jù)時代的產(chǎn)生和發(fā)展。可以發(fā)現(xiàn),數(shù)字化已經(jīng)成為社會發(fā)展的必然趨勢。與生產(chǎn)過程必須依賴硬件設(shè)備和人力資本一樣,企業(yè)的業(yè)務(wù)活動、創(chuàng)新、成長也越來越離不開大量數(shù)據(jù)的支持【14】。也就是說,企業(yè)的任何一項業(yè)務(wù)活動都與大量的數(shù)據(jù)緊密相聯(lián),而我們每一個人都是數(shù)據(jù)的產(chǎn)生者,數(shù)據(jù)量與日俱增,數(shù)據(jù)結(jié)構(gòu)繁雜多變,數(shù)據(jù)產(chǎn)生速度非常之快,我們已經(jīng)進(jìn)入了大數(shù)據(jù)的時代【15】。2、 大數(shù)據(jù)的特點(diǎn)及關(guān)鍵技術(shù)分析 1.大數(shù)據(jù)的特點(diǎn)大數(shù)據(jù)不是一種新技術(shù),也不是一種新產(chǎn)品,而是一種新現(xiàn)象,是

12、近來研究的一個技術(shù)熱點(diǎn) 大數(shù)據(jù)具有以下4個特點(diǎn),即4個V16:( 1) 數(shù)據(jù)體量( Volumes) 巨大大型數(shù)據(jù)集,從TB級別,躍升到PB級別;( 2) 數(shù)據(jù)類別( Variety) 繁多 數(shù)據(jù)來自多種數(shù)據(jù)源,數(shù)據(jù)種類和格式?jīng)_破了以前所限定的結(jié)構(gòu)化數(shù)據(jù)范疇,囊括了半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù);( 3) 價值( Value) 密度低 以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅一兩秒鐘;( 4) 處理速度( Velocity) 快 包含大量在線或?qū)崟r數(shù)據(jù)分析處理的需求,1秒定律。隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,數(shù)據(jù)本身就是資產(chǎn)云計算為數(shù)據(jù)資產(chǎn)提供了保管訪問的場所和渠道,但如何盤活數(shù)據(jù)資產(chǎn),使其為國

13、家治理企業(yè)決策乃至個人生活服務(wù),是大數(shù)據(jù)的核心議題,也是云計算的靈魂和必然的升級方向。大數(shù)據(jù)已經(jīng)出現(xiàn) IDC多年的研究結(jié)果告訴我們: 全球數(shù)據(jù)量大約每兩年翻一番,每年產(chǎn)生的數(shù)據(jù)量按指數(shù)增長,數(shù)據(jù)增速基本符合摩爾定律 全球有46億移動電話用戶,有20億人訪問互聯(lián)網(wǎng),人們以比以往任何時候都高得多的熱情在與數(shù)據(jù)或信息交互 思科公司預(yù)計,到2013年,在互聯(lián)網(wǎng)上流動的數(shù)據(jù)量將達(dá)到每年667艾字節(jié)17。關(guān)鍵技術(shù)2.1云計算;大數(shù)據(jù)的基礎(chǔ)平臺與支撐技術(shù)如果將各種大數(shù)據(jù)的應(yīng)用比作一輛輛“汽車”,支撐起這些“汽車”運(yùn)行的“高速公路”就是云計算正是云計算技術(shù)在數(shù)據(jù)存儲、管理與分析等方面的支撐,才使得大數(shù)據(jù)有用武

14、之地文件系統(tǒng)是支撐上層應(yīng)用的基礎(chǔ)。原始的數(shù)據(jù)存儲在文件系統(tǒng)之中,但是用戶習(xí)慣通過數(shù)據(jù)庫系統(tǒng)來存取文件因為這樣會屏蔽掉底層的細(xì)節(jié),且方便數(shù)據(jù)管理直接采用關(guān)系模型的分布式數(shù)據(jù)庫并不能適應(yīng)大數(shù)據(jù)時代的數(shù)據(jù)存儲。據(jù)查詢是數(shù)據(jù)庫最重要的應(yīng)用之一,而索引則是解決數(shù)據(jù)查詢問題的有效方案。而數(shù)據(jù)分析技術(shù)是最核心的業(yè)務(wù)【18】。2.2大數(shù)據(jù)處理工具關(guān)系數(shù)據(jù)庫在很長的時間里成為數(shù)據(jù)管理的最佳選擇,但是在大數(shù)據(jù)時代,數(shù)據(jù)管理、分析等的需求多樣化使得關(guān)系數(shù)據(jù)庫在很多場景不再適用而HadOop是目前最為流行的大數(shù)據(jù)處理平臺而Hadoop【19】最先是Doug Cutting模仿GFS,MapReduce實現(xiàn)的一個云計算

15、開源平臺,后貢獻(xiàn)給ApacheHadoop已經(jīng)發(fā)展成為包括文件系統(tǒng)(HDFS)、數(shù)據(jù)庫(HBase、Cassandra)、數(shù)據(jù)處理(MapReduce)等功能模塊在內(nèi)的完整生態(tài)系統(tǒng)(Ecosystem)【20】某種程度上可以說Hadoop已經(jīng)成為大數(shù)據(jù)處理工具事實上的標(biāo)準(zhǔn)【21】三、大數(shù)據(jù)時代面臨的機(jī)遇與挑戰(zhàn)綜上所述,大數(shù)據(jù)時代的數(shù)據(jù)存在著如下幾個特點(diǎn):多源異構(gòu);分布廣泛;動態(tài)增長;先有數(shù)據(jù)后有模式正是這些與傳統(tǒng)數(shù)據(jù)管理迥然不同的特點(diǎn),使得大數(shù)據(jù)時代的數(shù)據(jù)管理面臨著新的機(jī)遇與挑戰(zhàn)。大數(shù)據(jù)帶來的機(jī)遇【22】 1.大數(shù)據(jù)的挖掘和應(yīng)用成為核心,將從多個方面創(chuàng)造價值。大數(shù)據(jù)的重心將從存儲和傳輸,過渡到

16、數(shù)據(jù)的挖掘和應(yīng)用,這將深刻影響企業(yè)的商業(yè)模式 據(jù)麥肯錫測算,大數(shù)據(jù)的應(yīng)用每年潛在可為美國醫(yī)療健康業(yè)和歐洲政府分別節(jié)省3000億美元和1000億歐元,利用個人位置信息潛在可創(chuàng)造出6000億美元價值,因此大數(shù)據(jù)應(yīng)用具有遠(yuǎn)超萬億美元的大市場?!?3】2.大數(shù)據(jù)利用中安全更加重要,為信息安全帶來發(fā)展契機(jī)。隨著移動互聯(lián)網(wǎng)物聯(lián)網(wǎng)等新興IT技術(shù)逐漸步入主流,大數(shù)據(jù)使得數(shù)據(jù)價值極大提高,無處不在的數(shù)據(jù),對信息安全提出了更高要求 同時,大數(shù)據(jù)領(lǐng)域出現(xiàn)的許多新興技術(shù)與產(chǎn)品將為安全分析提供新的可能性; 信息安全和云計算貫穿于大數(shù)據(jù)產(chǎn)業(yè)鏈的各個環(huán)節(jié),云安全等關(guān)鍵技術(shù)將更安全地保護(hù)數(shù)據(jù) 大數(shù)據(jù)對信息安全的要求和促進(jìn)將推

17、動信息安全產(chǎn)業(yè)的大發(fā)展。3.大數(shù)據(jù)時代來臨,使商業(yè)智能信息安全和云計算具有更大潛力。大數(shù)據(jù)產(chǎn)業(yè)鏈按產(chǎn)品形態(tài)分為硬件基礎(chǔ)軟件和應(yīng)用軟件三大領(lǐng)域,商業(yè)智能信息安全和云計算主題橫跨三大領(lǐng)域,將構(gòu)成產(chǎn)業(yè)鏈中快速發(fā)展的三駕馬車就國內(nèi)而言,商業(yè)智能市場已步入成長期,預(yù)計未來3年復(fù)合年均增長率( CAGR) 為35%,十二五期間潛在產(chǎn)值將超300億元; 信息安全預(yù)計未來3年CAGR有望保持35%40%的快速增長,十二五期間潛在產(chǎn)值將超4000億元; 云計算剛進(jìn)入成長期,預(yù)計未來5年CAGR將超50%,2015年產(chǎn)業(yè)規(guī)模預(yù)計將達(dá)1萬億元。(1) 面臨的挑戰(zhàn)1. 大數(shù)據(jù)集成數(shù)據(jù)的廣泛存在性使得數(shù)據(jù)越來越多地散布

18、于不同的數(shù)據(jù)管理系統(tǒng)中,為了便于進(jìn)行數(shù)據(jù)分析需要進(jìn)行數(shù)據(jù)的集成數(shù)據(jù)集成看起來并不是一個新的問題,但是大數(shù)據(jù)時代的數(shù)據(jù)集成卻有了新的需求,因此也面臨著新的挑戰(zhàn)1) 廣泛的異構(gòu)性傳統(tǒng)的數(shù)據(jù)集成中也會面對數(shù)據(jù)異構(gòu)的問題,但是在大數(shù)據(jù)時代這種異構(gòu)性出現(xiàn)了新的變化,大量出現(xiàn)的各種數(shù)據(jù)本身是非結(jié)構(gòu)化的或弱結(jié)構(gòu)化的,如留言、博客、圖像、視頻數(shù)據(jù)等,如何將這些數(shù)據(jù)轉(zhuǎn)化成一個結(jié)構(gòu)化的格式是研究者面臨的一項重大挑戰(zhàn)【25】2) 數(shù)據(jù)質(zhì)量數(shù)據(jù)量大不一定就代表信息量或者數(shù)據(jù)價值的增大,相反很多時候意味著信息垃圾的泛濫.2. 大數(shù)據(jù)分析大數(shù)據(jù)最為嚴(yán)重的風(fēng)險存在于數(shù)據(jù)分析層面。數(shù)據(jù)量的增大會帶來規(guī)律的喪失和嚴(yán)重失真?!?

19、6】傳統(tǒng)意義上的數(shù)據(jù)分析主要針對結(jié)構(gòu)化數(shù)據(jù)展開,且已經(jīng)形成了一整套行之有效的分析體系首先利用數(shù)據(jù)庫來存儲結(jié)構(gòu)化數(shù)據(jù),在此基礎(chǔ)上構(gòu)建數(shù)據(jù)倉庫,根據(jù)需要構(gòu)建數(shù)據(jù)立方體進(jìn)行聯(lián)機(jī)分析處理(online analytical processing,OI。AP),可以進(jìn)行多個維度的下鉆(drill一down)或上卷(rollup)操作對于從數(shù)據(jù)中提煉更深層次的知識的需求促使數(shù)據(jù)挖掘技術(shù)的產(chǎn)生,并發(fā)明了聚類、關(guān)聯(lián)分析等一系列在實踐中行之有效的方法這一整套處理流程在處理相對較少的結(jié)構(gòu)化數(shù)據(jù)時極為高效但是隨著大數(shù)據(jù)時代的到來,半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)量的迅猛增長,給傳統(tǒng)的分析技術(shù)帶來了巨大的沖擊和挑戰(zhàn)。據(jù)阿里巴巴

20、稱,雖然其各類業(yè)務(wù)產(chǎn)生的數(shù)據(jù)為數(shù)據(jù)分析創(chuàng)造了非常好的基礎(chǔ)條件,然而卻招聘不到合適的數(shù)據(jù)科學(xué)家而影響了研發(fā)進(jìn)展【27】。3. 大數(shù)據(jù)的隱私問題隱私問題由來已久,這基本也是大家最關(guān)心的問題。計算機(jī)的出現(xiàn)使得越來越多的數(shù)據(jù)以數(shù)字化的形式存儲在電腦中,互聯(lián)網(wǎng)的發(fā)展則使數(shù)據(jù)更加容易產(chǎn)生和傳播,數(shù)據(jù)隱私問題越來越嚴(yán)重大數(shù)據(jù)高度依賴數(shù)據(jù)存儲與共享,必須考慮尋求更好的方法消除各種隱患與漏洞,才能有效地管控安全風(fēng)險。數(shù)據(jù)的隱私保護(hù)是大數(shù)據(jù)分析和處理面臨的重要問題,既是技術(shù)問題也是社會學(xué)問題。如果對私人數(shù)據(jù)使用不當(dāng),尤其是泄漏有一定關(guān)聯(lián)的多組數(shù)據(jù),將導(dǎo)致用戶的隱私泄漏【28】。當(dāng)前,數(shù)據(jù)安全形勢不容樂觀,需要保護(hù)

21、的數(shù)據(jù)量增長已超過了數(shù)據(jù)總量的增長 據(jù)IDC統(tǒng)計【29】:2010年僅有不到1/3的數(shù)據(jù)需要保護(hù),到2020年這一比例將超過2/5; 2012年的統(tǒng)計顯示,雖然有35%的信息需要保護(hù),但實際得到保護(hù)的不到20% 在亞洲 南美等新興市場,數(shù)據(jù)保護(hù)的缺失更加嚴(yán)重 首先個人隱私更容易通過網(wǎng)絡(luò)泄露,隨著電子商務(wù) 社交網(wǎng)絡(luò)的興起,人們通過網(wǎng)絡(luò)聯(lián)系的日益緊密,將個人的相關(guān)數(shù)據(jù)足跡聚集起來分析,可以很容易獲取個人的相關(guān)信息,隱私數(shù)據(jù)就可能暴露,而數(shù)據(jù)在網(wǎng)絡(luò)上的發(fā)布機(jī)制使得這種暴露似乎防不勝防; 在國家層面,大數(shù)據(jù)可能給國家安全帶來隱患,如果在大數(shù)據(jù)處理方面落后,就可能導(dǎo)致數(shù)據(jù)的單向透明。信息安全戰(zhàn)略是國家戰(zhàn)

22、略不可分割的重要組成部分,其必要性體現(xiàn)在其從上而下,而非從下而上的推動作用?!?0】美國發(fā)布大數(shù)據(jù)研發(fā)計劃,大力發(fā)展大大數(shù)據(jù)技術(shù)就有增強(qiáng)國家安全方面的戰(zhàn)略考量.4. 大數(shù)據(jù)能耗問題在能源價格上漲、數(shù)據(jù)中心存儲規(guī)模不斷擴(kuò)大的今天,高能耗已逐漸成為制約大數(shù)據(jù)快速發(fā)展的一個主要瓶頸從小型集群到大規(guī)模數(shù)據(jù)中心都面臨著降低能耗的問題,但是尚未引起足夠多的重視,相關(guān)的研究成果也較少在大數(shù)據(jù)管理系統(tǒng)中,能耗主要由兩大部分組成:硬件能耗和軟件能耗,二者之中又以硬件能耗為主理想狀態(tài)下,整個大數(shù)據(jù)管理系統(tǒng)的能耗應(yīng)該和系統(tǒng)利用率成正比但是實際情況并不像預(yù)期情況,系統(tǒng)利用率為0時仍然有能量消耗【31】。5.大數(shù)據(jù)處理

23、與硬件的協(xié)同硬件的快速升級換代有力地促進(jìn)了大數(shù)據(jù)的發(fā)展,但是這也在一定程度上造成了大量不同架構(gòu)硬件共存的局面.大數(shù)據(jù)處理必須要有舍才有得??梢酝ㄟ^舍棄一些不必要的性能和精確性來獲取更為重要的性能和精確性?!?2】6. 大數(shù)據(jù)管理易用性問題從數(shù)據(jù)集成到數(shù)據(jù)分析,直到最后的數(shù)據(jù)解釋,易用性應(yīng)當(dāng)貫穿整個大數(shù)據(jù)的流程易用性的挑戰(zhàn)突出體現(xiàn)在兩個方面:首先大數(shù)據(jù)時代的數(shù)據(jù)量大,分析更復(fù)雜,得到的結(jié)果形式更加多樣化其復(fù)雜程度已經(jīng)遠(yuǎn)遠(yuǎn)超出傳統(tǒng)的關(guān)系數(shù)據(jù)庫其次大數(shù)據(jù)已經(jīng)廣泛滲透到人們生活的各個方面,很多行業(yè)都開始有了大數(shù)據(jù)分析的需求但是這些行業(yè)的絕大部分從業(yè)者都不是數(shù)據(jù)分析的專家,在復(fù)雜的大數(shù)據(jù)工具面前,他們只

24、是初級的使用者(naIve users)復(fù)雜的分析過程和難以理解的分析結(jié)果限制了他們從大數(shù)據(jù)中獲取知識的能力這兩個原因?qū)е乱子眯猿蔀榇髷?shù)據(jù)時代軟件工具設(shè)計的一個巨大挑戰(zhàn)關(guān)于大數(shù)據(jù)易用性的研究仍處于一個起步階段從設(shè)計學(xué)的角度來看易用性表現(xiàn)為易見(easy to discover)、易學(xué)(easy to learn)和易用(easy to use)。7. 性能測試基準(zhǔn)數(shù)據(jù)庫產(chǎn)品的成功離不開以TPC系列為代表的測試基準(zhǔn)的產(chǎn)生正是有了這些測試基準(zhǔn),才能夠準(zhǔn)確地衡量不同數(shù)據(jù)庫產(chǎn)品的性能,并對其存在的問題進(jìn)行改進(jìn)。在過去20年里,產(chǎn)業(yè)基準(zhǔn)起到了很大的作用。在制定行業(yè)的標(biāo)準(zhǔn)時,性能、持有成本和能源效率是成功

25、的三大關(guān)鍵。產(chǎn)業(yè)界標(biāo)準(zhǔn)的基準(zhǔn)都扮演了非常重要的作用,進(jìn)一步推動了計算機(jī)產(chǎn)業(yè)科學(xué)的發(fā)展【33】。4、 結(jié)果和結(jié)論關(guān)系像互聯(lián)網(wǎng)、云計算以及物聯(lián)網(wǎng)等技術(shù)一樣,大數(shù)據(jù)時代的到來勢必會再次讓信息技術(shù)領(lǐng)域煥然一新。大數(shù)據(jù)時代下,每個個體都是數(shù)據(jù)的產(chǎn)生者,企業(yè)的任何一項業(yè)務(wù)活動都可以用數(shù)據(jù)來表示,如何保證大數(shù)據(jù)的質(zhì)量,如何建模、提取并利用隱藏在大數(shù)據(jù)中的信息以提升企業(yè)信息系統(tǒng)績效、提升企業(yè)決策能力,成為擺在業(yè)界和學(xué)術(shù)界面前的重大難題。總的來說,目前對于大數(shù)據(jù)的研究仍處于一個非常初步的階段,還有很多基礎(chǔ)性的問題有待解決大數(shù)據(jù)的幾個特征中究竟哪個最重要?面對大數(shù)據(jù)管理我們需要的是簡單的技術(shù)上的演變(evo1ut

26、ion)還是徹底的變革(revoIution)?不同學(xué)科的研究者之間怎樣協(xié)作才能更有利于大數(shù)據(jù)問題的解決?諸如此類的問題還有許多,要解決大數(shù)據(jù)問題仍有很長的路要走。參考文獻(xiàn)1孟小峰,慈祥: 大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)。計算機(jī)研究與發(fā)展146-169,20132阿爾溫 托夫勒 第三次浪潮M 北京: 三聯(lián)書店出版社,19843Jim Gray One Science A transformed scientific methodC/Tony H,Stewart T,Kirstin T The fourth paradigm: Dataintensive scientific discoveryR

27、edmond,WA: Microsoft Research,2009: 19334Nature.BigDataEB/OL. data/indexhtml5 Science.Special online collection: Dealing with dataEB/OL http: /wwwsciencemagorg/site/special/data/,20116李國杰,程學(xué)旗大數(shù)據(jù)研究: 未來科技及經(jīng)濟(jì)社會發(fā)展的重大戰(zhàn)略領(lǐng)域 大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考J 戰(zhàn)略與決策研究,2012,27( 6) :648,6497Big Data: The next frontier for innovat

28、ion,competition and productivity,Mckinsey Global Institute,20118The2011Digital Universe Study: Extracting Value from Chaos International Data Corporation and EMC,June 20119 Big Data across the Federal Government EB/OLhttp: /wwwWhite house gov/sites/default/files/microsites/ostp/big data fact sheet f

29、inal 1pdf10 UN Global Pulse Big Data for Development:Challenges OpportunitiesR/OL.http: //projects/BigDataforDevelopment11涂子沛 大數(shù)據(jù): 正在到來的數(shù)據(jù)革命M 桂林:廣西師范大學(xué)出版社,2012:575512覃雄派,王會舉,杜小勇,等。大數(shù)據(jù)分析RDBMS與Mapreduse的競爭共性【J】。軟件學(xué)報,2012,23(1),32-45.13郭秦川:官方統(tǒng)計與大數(shù)據(jù)對比分析。10047794(2013)080050-614涂子沛,大數(shù)據(jù)(M),廣州:廣州師范大學(xué)出版社。15朱志軍,閏蕾,等大數(shù)據(jù)大價值、大機(jī)遇、大變革M】電子工業(yè)出版社,201216大數(shù)據(jù)分析技術(shù)的發(fā)展EB/OL 20120516 http: /tech ccidnet com/art/32963/20120516/3859

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論