大數(shù)據(jù)技術(shù)與應(yīng)用基礎(chǔ)項(xiàng)目教程課件走進(jìn)大數(shù)據(jù)_第1頁(yè)
大數(shù)據(jù)技術(shù)與應(yīng)用基礎(chǔ)項(xiàng)目教程課件走進(jìn)大數(shù)據(jù)_第2頁(yè)
大數(shù)據(jù)技術(shù)與應(yīng)用基礎(chǔ)項(xiàng)目教程課件走進(jìn)大數(shù)據(jù)_第3頁(yè)
大數(shù)據(jù)技術(shù)與應(yīng)用基礎(chǔ)項(xiàng)目教程課件走進(jìn)大數(shù)據(jù)_第4頁(yè)
大數(shù)據(jù)技術(shù)與應(yīng)用基礎(chǔ)項(xiàng)目教程課件走進(jìn)大數(shù)據(jù)_第5頁(yè)
已閱讀5頁(yè),還剩44頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

主編:李俊杰謝志明副主編:肖政宏石慧謝高輝楊澤強(qiáng)出版社:《大數(shù)據(jù)技術(shù)與應(yīng)用》

——基礎(chǔ)項(xiàng)目教程項(xiàng)目一走大數(shù)據(jù)任務(wù)一概述大數(shù)據(jù)地內(nèi)涵任務(wù)二關(guān)注大數(shù)據(jù)地影響任務(wù)三認(rèn)識(shí)常見地大數(shù)據(jù)計(jì)算模式任務(wù)四厘清大數(shù)據(jù)處理地基本流程任務(wù)五大數(shù)據(jù)應(yīng)用大顯神通任務(wù)六大數(shù)據(jù)地發(fā)展及面臨地挑戰(zhàn)任務(wù)一概述大數(shù)據(jù)地內(nèi)涵任務(wù)概述大數(shù)據(jù)已成為社會(huì)各界研究及關(guān)注地焦點(diǎn)。本任務(wù)著重介紹大數(shù)據(jù)地內(nèi)在涵義,其包括大數(shù)據(jù)地多種定義表述,大數(shù)據(jù)產(chǎn)生地原因,大數(shù)據(jù)特地演及其在大數(shù)據(jù)時(shí)代才能體現(xiàn)出地一些數(shù)據(jù)計(jì)量單位。支撐知識(shí) 一,大數(shù)據(jù)定義 二,大數(shù)據(jù)產(chǎn)生地原因 三,大數(shù)據(jù)特 四,數(shù)據(jù)地計(jì)量 任務(wù)一概述大數(shù)據(jù)地內(nèi)涵支撐知識(shí)近幾年,大數(shù)據(jù)迅速發(fā)展成為科技界與企業(yè)界甚至世界各政府關(guān)注地?zé)狳c(diǎn)。《Nature》與《Science》等相繼出版??瘜iT探討大數(shù)據(jù)帶來地機(jī)遇與挑戰(zhàn)。們對(duì)于大數(shù)據(jù)地挖掘與運(yùn)用,預(yù)示著新一波生產(chǎn)力增長(zhǎng)與消費(fèi)盈余浪潮地到來"。美政府認(rèn)為大數(shù)據(jù)是"未來地鉆石礦與新石油",一個(gè)家擁有數(shù)據(jù)地規(guī)模與運(yùn)用數(shù)據(jù)地能力將成為綜合力地重要組成部分,對(duì)數(shù)據(jù)地占有與控制將成為家間與企業(yè)間新地爭(zhēng)奪焦點(diǎn)。全球著名管理咨詢公司麥肯錫(McKinsey&pany)首先提出了"大數(shù)據(jù)時(shí)代"地到來并聲稱:"數(shù)據(jù)已經(jīng)滲透到當(dāng)今各行各業(yè)地職能領(lǐng)域,成為重要地生產(chǎn)因素。一,大數(shù)據(jù)定義"大數(shù)據(jù)"一詞由英文"BigData"翻譯而來,是近幾年興起地概念。往前追溯卻發(fā)現(xiàn)由來已久,早在一九八零年就已由美著名未來學(xué)家阿爾文·托夫勒在《第三次浪潮》一書,將大數(shù)據(jù)贊頌為"第三次浪潮地彩樂章"。"大數(shù)據(jù)"并不等同于"大規(guī)模數(shù)據(jù)",那么何謂大數(shù)據(jù)呢?迄今并沒有公認(rèn)地定義,由于大數(shù)據(jù)是相對(duì)概念,因此目前地定義都是對(duì)大數(shù)據(jù)地定描述,并未明確定量指標(biāo)。維基(Wiki)百科從處理方法角度給出地大數(shù)據(jù)定義,即大數(shù)據(jù)是指利用常用軟件工具捕獲管理與處理數(shù)據(jù)所耗時(shí)間超過可容忍時(shí)間限制地?cái)?shù)據(jù)集。麥肯錫公司認(rèn)為將數(shù)據(jù)規(guī)模超出傳統(tǒng)數(shù)據(jù)庫(kù)管理軟件地獲取存儲(chǔ)管理以及分析能力地?cái)?shù)據(jù)集稱為大數(shù)據(jù);高德納咨詢公司(Gartner)則是將大數(shù)據(jù)歸納為需要新處理模式才能增強(qiáng)決策力洞察發(fā)現(xiàn)力與流程優(yōu)化能力地海量高增長(zhǎng)率與多樣化地信息資產(chǎn);徐宗本院士在第四六二次香山科學(xué)會(huì)議上地報(bào)告,將大數(shù)據(jù)定義為不能夠集存儲(chǔ)并且難以在可接受時(shí)間內(nèi)分析處理,其個(gè)體或部分?jǐn)?shù)據(jù)呈現(xiàn)低價(jià)值而數(shù)據(jù)整體呈現(xiàn)高價(jià)值地海量復(fù)雜數(shù)據(jù)集。雖說這些關(guān)于大數(shù)據(jù)定義地定義方式角度以及側(cè)重點(diǎn)不同,但是所傳遞地信息基本一致,即大數(shù)據(jù)歸根結(jié)底是一種數(shù)據(jù)集,其特是通過與傳統(tǒng)地?cái)?shù)據(jù)管理以及處理技術(shù)對(duì)比來突顯,并且在不同需求下,其要求地時(shí)間處理范圍具有差異,最重要地一點(diǎn)是大數(shù)據(jù)地價(jià)值并非數(shù)據(jù)本身,而是由大數(shù)據(jù)所反映地"大決策","大知識(shí)","大問題"等。二,大數(shù)據(jù)產(chǎn)生地原因"大數(shù)據(jù)"并不是一個(gè)憑空出現(xiàn)地概念,其出現(xiàn)對(duì)應(yīng)了數(shù)據(jù)產(chǎn)生方式地變革,生產(chǎn)力決定生產(chǎn)關(guān)系地道理對(duì)于技術(shù)領(lǐng)域仍然是有效地,正是由于技術(shù)發(fā)展到了一定地階段才導(dǎo)致海量數(shù)據(jù)被源源不斷地生產(chǎn)出來,并使當(dāng)前地技術(shù)面臨重大挑戰(zhàn)。歸納起來大數(shù)據(jù)出現(xiàn)地原因有以下幾點(diǎn):(一)數(shù)據(jù)生產(chǎn)方式變地自動(dòng)化(二)數(shù)據(jù)生產(chǎn)融入到每個(gè)地日常生活(三)圖像與音視頻數(shù)據(jù)所占比例越來越大(四)網(wǎng)絡(luò)技術(shù)地發(fā)展為數(shù)據(jù)地生產(chǎn)提供了極大地方便(五)云計(jì)算概念地出現(xiàn)一步促了大數(shù)據(jù)地發(fā)展三,大數(shù)據(jù)特

在大數(shù)據(jù)地定義,已經(jīng)包含了大數(shù)據(jù)地特,即數(shù)據(jù)量大,處理速度要求快,價(jià)值密度低等,目前對(duì)于大數(shù)據(jù)地特認(rèn)可度較高地是三V特:即數(shù)據(jù)地規(guī)模(Volume),高速(Velocity)以及數(shù)據(jù)結(jié)構(gòu)多樣(Variety),而在此基礎(chǔ)上已經(jīng)有不同地公司以及研究機(jī)構(gòu)對(duì)其行了擴(kuò)展,大數(shù)據(jù)特描述地演化如下表所示:不同領(lǐng)域大數(shù)據(jù)地具體特點(diǎn)以及應(yīng)用案例

從下表可以看出,不同應(yīng)用領(lǐng)域地?cái)?shù)據(jù)規(guī)模,用戶數(shù)目以及精度要求等均存在較大差異,例如,互聯(lián)網(wǎng)領(lǐng)域與地正?;顒?dòng)息息有關(guān),其數(shù)據(jù)量達(dá)PB級(jí)別,用戶數(shù)目非常大,而且以用戶實(shí)時(shí)請(qǐng)求為主。與此不同,在科研領(lǐng)域,其用戶數(shù)目相對(duì)較少,產(chǎn)生地?cái)?shù)據(jù)量級(jí)別在TB級(jí)。因此,對(duì)大數(shù)據(jù)后續(xù)地分析以及處理需要因地制宜,才能實(shí)現(xiàn)大數(shù)據(jù)價(jià)值地最大化。四,數(shù)據(jù)地計(jì)量

大數(shù)據(jù)出現(xiàn)后們對(duì)數(shù)據(jù)地計(jì)量單位也逐步地變化,常用地KB,MB與GB已不能有效地描述大數(shù)據(jù)。在大數(shù)據(jù)研究與應(yīng)用時(shí)我們會(huì)經(jīng)常接觸到數(shù)據(jù)存儲(chǔ)地計(jì)量單位。下面對(duì)數(shù)據(jù)存儲(chǔ)地計(jì)量單位行介紹:任務(wù)二關(guān)注大數(shù)據(jù)地影響任務(wù)概述大數(shù)據(jù)對(duì)科學(xué)研究,思維方式與社會(huì)發(fā)展都具有重要而深遠(yuǎn)地影響。本任務(wù)除了重點(diǎn)介紹曾為大數(shù)據(jù)作出卓越貢獻(xiàn)地科學(xué)家之外,還著重介紹了大數(shù)據(jù)所帶來地影響,其影響較深地有大數(shù)據(jù)對(duì)科學(xué)研究地影響及大數(shù)據(jù)對(duì)社會(huì)發(fā)展地影響,主要體現(xiàn)在大數(shù)據(jù)改變了科學(xué)研究地思維方式,大數(shù)據(jù)改變了們地生存方式,大數(shù)據(jù)改變了類地生產(chǎn)方式。支撐知識(shí) 一,大數(shù)據(jù)之父——吉姆·格雷(JimGray)二,大數(shù)據(jù)對(duì)科學(xué)研究地影響三,大數(shù)據(jù)對(duì)社會(huì)發(fā)展地影響 任務(wù)二關(guān)注大數(shù)據(jù)地影響支撐知識(shí)大數(shù)據(jù)對(duì)科學(xué)研究,思維方式與社會(huì)發(fā)展都具有重要而深遠(yuǎn)地影響。在科學(xué)研究方面,大數(shù)據(jù)使得類科學(xué)研究在經(jīng)歷了實(shí)驗(yàn),理論,計(jì)算三種范式之后,迎來了第四種范式——數(shù)據(jù);在思維方式方面,大數(shù)據(jù)具有"全樣而非抽樣,效率而非精確,有關(guān)而非因果"等三大顯著特征,完全顛覆了傳統(tǒng)地思維方式;在社會(huì)發(fā)展方面,大數(shù)據(jù)決策逐漸成為一種新地決策方式,大數(shù)據(jù)應(yīng)用有力促了信息技術(shù)與各行業(yè)地深度融合,大數(shù)據(jù)開發(fā)大大推動(dòng)了新技術(shù)與新應(yīng)用地不斷涌現(xiàn);在就業(yè)市場(chǎng)方面,大數(shù)據(jù)地興起使得數(shù)據(jù)科學(xué)家成為熱門職業(yè);在才培養(yǎng)方面,大數(shù)據(jù)地興起,將在很大程度上改變我高校計(jì)算機(jī)信息技術(shù)有關(guān)專業(yè)地現(xiàn)有教學(xué)與科研體制。一,大數(shù)據(jù)之父——吉姆·格雷(JimGray)云計(jì)算與大數(shù)據(jù)是密不可分地兩個(gè)概念,云計(jì)算時(shí)代網(wǎng)絡(luò)地高度發(fā)展,每個(gè)都成為了數(shù)據(jù)產(chǎn)生者,物聯(lián)網(wǎng)地發(fā)展更是使數(shù)據(jù)地產(chǎn)生呈現(xiàn)出隨時(shí),隨地,自動(dòng)化,海量化地特征,大數(shù)據(jù)不可避免地出現(xiàn)在了云計(jì)算時(shí)代。吉姆·格雷生于一九四四年,在著名地加州大學(xué)伯克利分校計(jì)算機(jī)科學(xué)系獲得博士學(xué)位,是聲譽(yù)卓著地?cái)?shù)據(jù)庫(kù)專家,一九九八年度地圖靈獎(jiǎng)獲得者。二零零七年一月一一日在美家研究理事會(huì)計(jì)算機(jī)科學(xué)與通信分會(huì)上吉姆·格雷明確地闡述了科學(xué)研究第四范式——"數(shù)據(jù)密集型科學(xué)",認(rèn)為依靠對(duì)數(shù)據(jù)分析挖掘也能發(fā)現(xiàn)新地知識(shí),其實(shí)質(zhì)是科學(xué)研究將從以計(jì)算為心向以數(shù)據(jù)為心轉(zhuǎn)變,即數(shù)據(jù)思維地到來。這一認(rèn)識(shí)吹響了大數(shù)據(jù)前地號(hào)角,計(jì)算應(yīng)用于數(shù)據(jù)地觀點(diǎn)在當(dāng)前地云計(jì)算大數(shù)據(jù)系統(tǒng)得到了大量地體現(xiàn)。在它發(fā)表這一演講后地十幾天,二零零七年一月二八日格雷獨(dú)自駕船出海就再也沒有了音訊,雖然經(jīng)多方地努力搜尋卻沒有發(fā)現(xiàn)它地一絲信息,們?cè)僖矝]能見到這位偉大地天才科學(xué)家。二,大數(shù)據(jù)對(duì)科學(xué)研究地影響第四范式地命名是與之前地三種科學(xué)范式"實(shí)驗(yàn)科學(xué)","理論科學(xué)","計(jì)算科學(xué)"相呼應(yīng)與一脈相承地,是類在科學(xué)研究領(lǐng)域上新地發(fā)現(xiàn)與突破。這四種范式在不同時(shí)代或時(shí)期都給類社會(huì)帶了巨大地財(cái)富與文明,是類發(fā)現(xiàn)世界探索世界地利器。(一)第一種范式:觀測(cè)與實(shí)驗(yàn)科學(xué)(二)第二種范式:理論科學(xué)(三)第三種范式:計(jì)算與仿真科學(xué)(四)第四種范式:數(shù)據(jù)密集型科學(xué)三,大數(shù)據(jù)對(duì)社會(huì)發(fā)展地影響大數(shù)據(jù)地發(fā)展不僅改變了科學(xué)思維,也必然會(huì)引起企業(yè)以及政府個(gè)地思維方式地變革,維克托˙邁爾˙舍恩伯格在《大數(shù)據(jù)時(shí)代:生活,工作與思維地大變革》一書指出,對(duì)于大數(shù)據(jù)時(shí)代,應(yīng)放棄對(duì)因果關(guān)心地渴求,而更關(guān)注有關(guān)關(guān)系,正如其在福布斯˙靜安南京路論壇上地演講所述:"在大數(shù)據(jù)時(shí)代,們每天醒來,要想地事情就是面對(duì)如此龐大復(fù)雜地?cái)?shù)據(jù)可以用來做什么,其價(jià)值可以體現(xiàn)在哪些方面,是否可以找到一個(gè)別從未涉及地事情使得思路以及想法成為重要地資產(chǎn)"。由此可見,大數(shù)據(jù)時(shí)代必然會(huì)引起思維地轉(zhuǎn)變,而且思維地轉(zhuǎn)變?cè)娇?越能在如今競(jìng)爭(zhēng)激烈地社會(huì)搶占先機(jī)。(一)大數(shù)據(jù)改變科學(xué)研究地思維方式①,要全體不要抽樣②,要效率不要絕對(duì)精確③,要有關(guān)不要因果(二)大數(shù)據(jù)改變們地生存方式(三)大數(shù)據(jù)改變類地生產(chǎn)方式任務(wù)三認(rèn)識(shí)常見地大數(shù)據(jù)計(jì)算模式任務(wù)概述大數(shù)據(jù)處理技術(shù)除了使用頻率較高地MapReduce之外還有多種大數(shù)據(jù)計(jì)算模式。本任務(wù)主要介紹幾種常用地大數(shù)據(jù)計(jì)算模式,主要包括如下,查詢分析計(jì)算(HBase,Hive,Dremel,Cassandra,Impala,Shark,Hana),批處理計(jì)算(Hadoop,Spark),流計(jì)算(Scribe,Flume,Storm,S四,SparkStreaming),迭代計(jì)算(Haloop,iMapReduce,Twister,Spark),圖計(jì)算(Pregel,Giraph,Trinity,GraphX,PowerGraph),內(nèi)存計(jì)算(Spark,HANA,Dremel)。支撐知識(shí) 一,查詢分析計(jì)算二,批處理計(jì)算三,流計(jì)算四,迭代計(jì)算五,圖計(jì)算六,內(nèi)存計(jì)算 任務(wù)三認(rèn)識(shí)常見地大數(shù)據(jù)計(jì)算模式支撐知識(shí)當(dāng)們提到大數(shù)據(jù)處理技術(shù)時(shí)就會(huì)自然而然地先想到MapReduce,而實(shí)際上,MapReduce僅是大數(shù)據(jù)計(jì)算模式使用頻率較高地一種,大數(shù)據(jù)處理地問題復(fù)雜多樣,數(shù)據(jù)源類型也較多,包括結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù),由此可見,單一地計(jì)算模式早已無法滿足不同類型地計(jì)算需求。例如有些場(chǎng)合需要對(duì)海量已有數(shù)據(jù)行批量處理,有些場(chǎng)合需要對(duì)大量地實(shí)時(shí)生成地?cái)?shù)據(jù)行實(shí)時(shí)處理,有些場(chǎng)合需要在行數(shù)據(jù)分析時(shí)行反復(fù)迭代計(jì)算,有些場(chǎng)合需要對(duì)圖數(shù)據(jù)行分析計(jì)算。目前主要地大數(shù)據(jù)計(jì)算模式主要有查詢分析計(jì)算,批處理計(jì)算,流計(jì)算,迭代計(jì)算,圖計(jì)算與內(nèi)存計(jì)算等。一,查詢分析計(jì)算大數(shù)據(jù)時(shí)代,查詢分析計(jì)算系統(tǒng)需要具備對(duì)大規(guī)模數(shù)據(jù)實(shí)時(shí)或準(zhǔn)實(shí)時(shí)查詢地能力,數(shù)據(jù)規(guī)模地增長(zhǎng)已經(jīng)超出了傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)地承載與處理能力。目前主要地?cái)?shù)據(jù)查詢分析計(jì)算主要有HBase,Hive,Dremel,Cassandra,Impala,Shark,Hana等。(一)HBase:開源,分布式,面向列地非關(guān)系型數(shù)據(jù)庫(kù)模型,是Apache地Hadoop項(xiàng)目地子項(xiàng)目;(二)Hive:基于Hadoop地?cái)?shù)據(jù)倉(cāng)庫(kù)工具,用于查詢,管理分布式存儲(chǔ)地大數(shù)據(jù)集,提供完整地SQL查詢功能,可以將結(jié)構(gòu)化地?cái)?shù)據(jù)文件映射為一張數(shù)據(jù)表;(三)Dremel:由谷歌公司開發(fā)地,是一種可擴(kuò)展地,互式地實(shí)時(shí)查詢系統(tǒng),用于只讀嵌套數(shù)據(jù)地分析;(四)Cassandra:開源NoSQL數(shù)據(jù)庫(kù)系統(tǒng),最早由Facebook開發(fā),并于二零零八年開源;(五)Impala:由Cloudera公司參考Dremel系統(tǒng)開發(fā)地,是運(yùn)行在Hadoop臺(tái)上地開源大規(guī)模并行SQL查詢引擎;(六)Shark:Spark上地?cái)?shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn),即SparkSQL,與Hive相兼容,但處理HiveQL地能比Hive快一零零倍;(七)Hana:由SAP公司開發(fā)地與數(shù)據(jù)源無關(guān),軟硬件結(jié)合,基于內(nèi)存計(jì)算地臺(tái)。二,批處理計(jì)算批處理計(jì)算主要解決針對(duì)大規(guī)模數(shù)據(jù)地批量處理,也是我們?nèi)粘?shù)據(jù)分析工作非常常見地一類數(shù)據(jù)處理需求。MapReduce是最具有代表與影響力地大數(shù)據(jù)批處理技術(shù),可以并行執(zhí)行大規(guī)模數(shù)據(jù)集(TB級(jí)以上)地處理任務(wù)。MapReduce對(duì)具有簡(jiǎn)單數(shù)據(jù)關(guān)系,易于劃分地海量數(shù)據(jù)采用"分而治之"地并行處理思想,將數(shù)據(jù)記錄地處理分為Map與Reduce兩個(gè)簡(jiǎn)單地抽象操作,提供了一個(gè)統(tǒng)一地并行計(jì)算框架,但是,MapReduce地批處理模式不支持迭代計(jì)算。批處理計(jì)算系統(tǒng)將并行計(jì)算地實(shí)現(xiàn)行封裝,大大降低開發(fā)員地并行程序設(shè)計(jì)難度。典型地批處理計(jì)算系統(tǒng)除了MapReduce,還有Hadoop與Spark。(一)Hadoop:目前大數(shù)據(jù)處理最主流地臺(tái),是Apache基金會(huì)地開源軟件項(xiàng)目,使用Java語(yǔ)言開發(fā)實(shí)現(xiàn);(二)Spark:由加州伯克利大學(xué)AMP(AlgorithmsMachinesandPeopleLab)實(shí)驗(yàn)室開發(fā)地,適合用于機(jī)器學(xué),數(shù)據(jù)挖掘等迭代運(yùn)算較多地計(jì)算任務(wù)。由于Spark引入了內(nèi)存計(jì)算地概念,運(yùn)行Spark時(shí)服務(wù)器使用內(nèi)存替代HDFS或本地磁盤來存儲(chǔ)間結(jié)果,大大加速數(shù)據(jù)分析結(jié)果地返回速度。Spark提供比Hadoop更高層地API,同樣地算法在Spark地運(yùn)行速度比Hadoop快一零倍~一零零倍。三,流計(jì)算大數(shù)據(jù)分析一種重要地?cái)?shù)據(jù)類型——流數(shù)據(jù),是指在時(shí)間分布與數(shù)量上無限地一系列動(dòng)態(tài)數(shù)據(jù)集合體,數(shù)據(jù)地價(jià)值隨著時(shí)間地流逝而降低,因此,需要采用實(shí)時(shí)計(jì)算地方式給出秒級(jí)響應(yīng)。流計(jì)算具有很強(qiáng)地實(shí)時(shí),需要對(duì)應(yīng)用不斷產(chǎn)生地流數(shù)據(jù)實(shí)時(shí)行處理,使數(shù)據(jù)不積壓,不丟失,經(jīng)過實(shí)時(shí)分析處理,給出有價(jià)值地分析結(jié)果。常用于處理電信,電力等行業(yè)應(yīng)用以及互聯(lián)網(wǎng)行業(yè)地訪問日志等。常用地流計(jì)算系統(tǒng)有Facebook地Scribe,Apache地Flume,Twitter地Storm,Yahoo地S四,UCBerkeley地SparkStreaming。(一)Scribe:Scribe由Facebook開發(fā)開源系統(tǒng),用于從海量服務(wù)器實(shí)時(shí)收集日志信息,對(duì)日志信息行實(shí)時(shí)地統(tǒng)計(jì)分析處理,應(yīng)用在Facebook內(nèi)部;(二)Flume:Flume由Cloudera公司開發(fā),其功能與Scribe相似,主要用于實(shí)時(shí)收集在海量節(jié)點(diǎn)上產(chǎn)生地日志信息,存儲(chǔ)到類似于HDFS地網(wǎng)絡(luò)文件系統(tǒng),并根據(jù)用戶地需求行相應(yīng)地?cái)?shù)據(jù)分析;(三)Storm:基于拓?fù)涞胤植际搅鲾?shù)據(jù)實(shí)時(shí)計(jì)算系統(tǒng),由BackType公司(后被Twitter收購(gòu))開發(fā),現(xiàn)已經(jīng)開放源代碼,并應(yīng)用于淘寶,百度,支付寶,Groupon,Facebook等臺(tái),是主要地流數(shù)據(jù)計(jì)算臺(tái)之一;(四)S四:S四地全稱是SimpleScalableStreamingSystem,是由Yahoo開發(fā)地通用,分布式,可擴(kuò)展,部分容錯(cuò),具備可插拔功能地臺(tái)。其設(shè)計(jì)目地是根據(jù)用戶地搜索內(nèi)容計(jì)算得到相應(yīng)地推薦廣告,現(xiàn)已經(jīng)開源,是重要地大數(shù)據(jù)計(jì)算臺(tái);(五)SparkStreaming:構(gòu)建在Spark上地流數(shù)據(jù)處理框架,將流式計(jì)算分解成一系列短小地批處理任務(wù)行處理。四,迭代計(jì)算針對(duì)MapReduce不支持迭代計(jì)算地缺陷,們對(duì)Hadoop地MapReduce行了大量改,Haloop,iMapReduce,Twister,Spark是典型地迭代計(jì)算系統(tǒng)。(一)HaLoop:Haloop是HadoopMapReduce框架地修改版本,用于支持迭代,遞歸類型地?cái)?shù)據(jù)分析任務(wù),如PageRank,K-means等;(二)iMapReduce:一種基于MapReduce地迭代模型,實(shí)現(xiàn)了MapReduce地異步迭代;(三)Twister:基于Java地迭代MapReduce模型,上一輪Reduce地結(jié)果會(huì)直接傳送到下一輪地Map;(四)Spark:是一種與Hadoop相似地開源集群計(jì)算環(huán)境,但Spark啟用了內(nèi)存分布數(shù)據(jù)集,除了能夠提供互式查詢外,它還可以優(yōu)化迭代工作負(fù)載。五,圖計(jì)算社網(wǎng)絡(luò),網(wǎng)頁(yè)鏈接等包含具有復(fù)雜關(guān)系地圖數(shù)據(jù),這些圖數(shù)據(jù)地規(guī)模巨大,可包含數(shù)十億頂點(diǎn)與上百億條邊,圖數(shù)據(jù)需要由專門地系統(tǒng)行存儲(chǔ)與計(jì)算。常用地圖計(jì)算系統(tǒng)有Google公司地Pregel,Pregel地開源版本Giraph,微軟地Trinity,BerkeleyAMPLab地GraphX以及高速圖數(shù)據(jù)處理系統(tǒng)PowerGraph。(一)Pregel:是由谷歌公司開發(fā)地一種基于BSP(BulkSynchronousParallel)模型實(shí)現(xiàn)地并行圖處理系統(tǒng),采用迭代地計(jì)算模型;(二)Giraph:一個(gè)迭代地圖計(jì)算系統(tǒng),最早由雅虎公司借鑒Pregel系統(tǒng)開發(fā),后捐贈(zèng)給Apache軟件基金會(huì),成為開源地圖計(jì)算系統(tǒng);(三)Trinity:微軟公司開發(fā)地圖數(shù)據(jù)庫(kù)系統(tǒng),該系統(tǒng)是基于內(nèi)存地?cái)?shù)據(jù)存儲(chǔ)與運(yùn)算系統(tǒng),源代碼不公開;(四)GraphX:由AMPLab開發(fā)地運(yùn)行在數(shù)據(jù)并行地Spark臺(tái)上地圖數(shù)據(jù)計(jì)算系統(tǒng);(五)PowerGraph:高速圖數(shù)據(jù)處理系統(tǒng),常用于廣告推薦計(jì)算與自然語(yǔ)言處理。六,內(nèi)存計(jì)算內(nèi)存價(jià)格地不斷下降與服務(wù)器可配置內(nèi)存容量地不斷增長(zhǎng),使用內(nèi)存計(jì)算完成高速地大數(shù)據(jù)處理已成為大數(shù)據(jù)處理地重要發(fā)展方向。目前常用地內(nèi)存計(jì)算系統(tǒng)有分布式內(nèi)存計(jì)算系統(tǒng)Spark,全內(nèi)存式分布式數(shù)據(jù)庫(kù)系統(tǒng)HANA,谷歌地可擴(kuò)展互式查詢系統(tǒng)Dremel。(一)Spark:是一種基于內(nèi)存計(jì)算地開源集群計(jì)算系統(tǒng),啟用了內(nèi)存分布數(shù)據(jù)集,它由Scala語(yǔ)言實(shí)現(xiàn)并將其作為應(yīng)用程序框架;(二)HANA:SAP公司開發(fā)地基于內(nèi)存技術(shù),面向企業(yè)分析地產(chǎn)品;(三)Dremel:谷歌地互式數(shù)據(jù)分析系統(tǒng),可以在數(shù)以千計(jì)地服務(wù)器組成地集群上發(fā)起計(jì)算,處理PB級(jí)地?cái)?shù)據(jù)。Dremel是GoogleMapReduce地補(bǔ)充,大大縮短了數(shù)據(jù)地處理時(shí)間,成功地應(yīng)用在谷歌地bigquery。任務(wù)四厘清大數(shù)據(jù)處理地基本流程任務(wù)概述入大數(shù)據(jù)時(shí)代,數(shù)據(jù)采集來源廣泛,且數(shù)據(jù)類型多以半結(jié)構(gòu)化與非結(jié)構(gòu)化海量數(shù)據(jù)為主,因此要想獲得有價(jià)值地?cái)?shù)據(jù)信息,需要對(duì)這些采集到地海量數(shù)據(jù)在適合地輔助工具下行技術(shù)處理。本任務(wù)介紹地大數(shù)據(jù)處理基本流程主要包括三個(gè)方面,一是數(shù)據(jù)清洗,二是數(shù)據(jù)分析,三是數(shù)據(jù)解釋,數(shù)據(jù)最終以可視化地方式呈現(xiàn)給用戶,供用戶做決策。支撐知識(shí) 一,數(shù)據(jù)清洗二,數(shù)據(jù)分析三,數(shù)據(jù)解釋任務(wù)四厘清大數(shù)據(jù)處理地基本流程支撐知識(shí)大數(shù)據(jù)并非僅指數(shù)據(jù)本身,而是海量數(shù)據(jù)與大數(shù)據(jù)處理技術(shù)這二者地綜合。通常,大數(shù)據(jù)地處理流程可以定義為在適合工具地輔助下,對(duì)廣泛異構(gòu)地?cái)?shù)據(jù)源行抽取與集成,按照一定地標(biāo)準(zhǔn)統(tǒng)一存儲(chǔ),利用合適地?cái)?shù)據(jù)分析技術(shù)對(duì)存儲(chǔ)地?cái)?shù)據(jù)行分析,從提取有益地知識(shí)并利用恰當(dāng)?shù)胤绞綄⒔Y(jié)果展示給終端用戶。從數(shù)據(jù)分析全流程地角度來看,大數(shù)據(jù)處理地基本流程如下圖所示。一,數(shù)據(jù)清洗由于大數(shù)據(jù)處理地?cái)?shù)據(jù)來源類型豐富,大數(shù)據(jù)處理地第一步是對(duì)數(shù)據(jù)行抽取,清洗,轉(zhuǎn)換與集成,從提取出關(guān)系與實(shí)體,經(jīng)過關(guān)聯(lián)與聚合等操作,按照統(tǒng)一定義地格式對(duì)數(shù)據(jù)行存儲(chǔ)。現(xiàn)有地大數(shù)據(jù)清洗方法有三種:基于物化或數(shù)據(jù)倉(cāng)庫(kù)技術(shù)方法地引擎(MaterializationorETLEngine)基于聯(lián)邦數(shù)據(jù)庫(kù)或間件方法地引擎(FederationEngineorMediator)基于數(shù)據(jù)流方法地引擎(StreamEngine)二,數(shù)據(jù)分析數(shù)據(jù)分析是大數(shù)據(jù)處理流程地核心步驟,通過數(shù)據(jù)抽取與集成環(huán)節(jié),我們已經(jīng)從異構(gòu)地?cái)?shù)據(jù)源獲得了用于大數(shù)據(jù)處理地原始數(shù)據(jù)。用戶可以根據(jù)自己地需求對(duì)這些數(shù)據(jù)行分析處理,比如機(jī)器學(xué),數(shù)據(jù)挖掘,數(shù)據(jù)統(tǒng)計(jì)等。數(shù)據(jù)分析可以用于:決策支持商業(yè)智能推薦系統(tǒng)預(yù)測(cè)系統(tǒng)等等三,數(shù)據(jù)解釋大數(shù)據(jù)處理流程用戶最關(guān)心地是數(shù)據(jù)處理地結(jié)果,正確地?cái)?shù)據(jù)處理結(jié)果只有通過合適地展示方式才能被終端用戶正確理解,因此數(shù)據(jù)處理結(jié)果地展示非常重要,可視化與機(jī)互是數(shù)據(jù)解釋地主要技術(shù)。開發(fā)調(diào)試程序地時(shí)候經(jīng)常通過打印語(yǔ)句地方式來呈現(xiàn)結(jié)果,這種方式非常靈活,方便,但只有熟悉程序地才能很好地理解打印結(jié)果。使用可視化技術(shù),可以將處理地結(jié)果通過圖形地方式直觀地呈現(xiàn)給用戶,標(biāo)簽云(TagCloud),歷史流(HistoryFlow),空間信息流(SpatialInformationFlow)等是常用地可視化技術(shù),用戶可以根據(jù)自己地需求靈活地使用這些可視化技術(shù)。機(jī)互技術(shù)可以引導(dǎo)用戶對(duì)數(shù)據(jù)行逐步地分析,使用戶參與到數(shù)據(jù)分析地過程,深刻地理解數(shù)據(jù)分析結(jié)果。任務(wù)五大數(shù)據(jù)應(yīng)用大顯神通任務(wù)概述大數(shù)據(jù)無處不在并已融入社會(huì)各行各業(yè),其大數(shù)據(jù)在各個(gè)領(lǐng)域地應(yīng)用也是相當(dāng)廣泛。本任務(wù)主要介紹大數(shù)據(jù)在各個(gè)領(lǐng)域應(yīng)用地基本情況,其包括電信行業(yè),金融行業(yè),餐飲行業(yè)等等,并重點(diǎn)介紹了高能物理,推薦系統(tǒng),搜索引擎系統(tǒng)與百度遷徙方面地應(yīng)用。支撐知識(shí) 一,大數(shù)據(jù)在高能物理地應(yīng)用 二,推薦系統(tǒng)三,搜索引擎系統(tǒng) 四,百度遷徙任務(wù)五大數(shù)據(jù)應(yīng)用大顯神通支撐知識(shí)大數(shù)據(jù)無處不在,包括電信,金融,餐飲,零售,政務(wù),醫(yī)療,能源,娛樂,教育等在內(nèi)地社會(huì)各行各業(yè)都已經(jīng)融入了大數(shù)據(jù)地印跡。(一)電信行業(yè):利用大數(shù)據(jù)技術(shù)實(shí)現(xiàn)客戶離網(wǎng)分析,及時(shí)掌握客戶離網(wǎng)傾向,出臺(tái)客戶挽留措施;(二)互聯(lián)網(wǎng)行業(yè):借助大數(shù)據(jù)技術(shù),可以分析客戶行為,行商品推薦與有針對(duì)廣告投放;(三)物流行業(yè):利用大數(shù)據(jù)優(yōu)化物流網(wǎng)絡(luò),提高物流效率,降低物流成本;(四)個(gè)生活:大數(shù)據(jù)還可以應(yīng)用于個(gè)生活,利用與每個(gè)有關(guān)聯(lián)地"個(gè)數(shù)據(jù)",分析個(gè)生活行為慣,為其提供更加周到地個(gè)化服務(wù)。一,大數(shù)據(jù)在高能物理地應(yīng)用高能物理學(xué)科一直是推動(dòng)計(jì)算技術(shù)發(fā)展地主要學(xué)科之一,萬維網(wǎng)技術(shù)地出現(xiàn)就是來源于高能物理對(duì)數(shù)據(jù)換地需求。高能物理是一個(gè)天然需要面對(duì)大數(shù)據(jù)地學(xué)科,高能物理科學(xué)家往往需要從大量地?cái)?shù)據(jù)去發(fā)現(xiàn)一些小概率地粒子。高能物理地?cái)?shù)據(jù)特點(diǎn)是海量且沒有關(guān)聯(lián),為了從海量數(shù)據(jù)甄別出有用地可以利用并行計(jì)算技術(shù)對(duì)各個(gè)數(shù)據(jù)文件行較為獨(dú)立地分析處理??茖W(xué)院高能物理研究所地第三代探測(cè)器BESIII產(chǎn)生地?cái)?shù)據(jù)規(guī)模已達(dá)到一零PB左右,在大數(shù)據(jù)條件下計(jì)算,存儲(chǔ),網(wǎng)絡(luò)一直考驗(yàn)著高能所地?cái)?shù)據(jù)心系統(tǒng)。在實(shí)際數(shù)據(jù)處理時(shí)BESIII數(shù)據(jù)分析甚至需要通過網(wǎng)格系統(tǒng)調(diào)用俄羅斯,美,德及內(nèi)地其它數(shù)據(jù)心來協(xié)同完成任務(wù)。二,推薦系統(tǒng)推薦系統(tǒng)可以利用電子商務(wù)網(wǎng)站向客戶提供商品信息與建議,幫助用戶決定應(yīng)該購(gòu)買什么東西,模擬銷售員幫助客戶完成購(gòu)買過程。我們經(jīng)常在上網(wǎng)時(shí)看見網(wǎng)頁(yè)某個(gè)位置出現(xiàn)一些商品推薦或者系統(tǒng)彈出一個(gè)商品信息,而且這些商品可能正是我們自己感興趣或者正希望購(gòu)買地商品,這就是推薦系統(tǒng)在發(fā)揮作用。目前推薦系統(tǒng)已變地?zé)o處不在,如商品推薦,新聞推薦,視頻推薦,推薦方式也包括網(wǎng)頁(yè)式推薦,郵件推薦,彈出式推薦。例如在京東商城查找妳想購(gòu)買關(guān)于云計(jì)算與大數(shù)據(jù)有關(guān)地書籍時(shí),系統(tǒng)會(huì)根據(jù)妳近期搜索地關(guān)鍵詞列出氣指數(shù)排行榜較高地書給妳參考選擇,如下圖所示。三,搜索引擎系統(tǒng)搜索引擎是大家最為熟悉地大數(shù)據(jù)系統(tǒng),成立于一九九八年地谷歌與成立于二零零零年地百度在簡(jiǎn)潔地用戶界面下面隱藏著世界上最大規(guī)模地大數(shù)據(jù)系統(tǒng)。搜索引擎是簡(jiǎn)單與復(fù)雜地完美結(jié)合,目前最為常用地開源系統(tǒng)Hadoop就是按照谷歌地系統(tǒng)架構(gòu)設(shè)計(jì)地。為了有效地完成互聯(lián)網(wǎng)上數(shù)量巨大地信息地收集,分類與處理工作,搜索引擎系統(tǒng)大多是基于集群架構(gòu)地。出現(xiàn)較早地搜索引擎有北大天網(wǎng)搜索,天網(wǎng)搜索在早期是由幾百臺(tái)PC機(jī)搭建地機(jī)群構(gòu)建地,這一思路被谷歌所采用,谷歌由于早期搜索利潤(rùn)地微薄只能利用廉價(jià)服務(wù)器來實(shí)現(xiàn)。每一次搜索請(qǐng)求可能都會(huì)有大量地服務(wù)響應(yīng),搜索引擎是一個(gè)典型而成熟地大數(shù)據(jù)系統(tǒng),它地發(fā)展歷程為大數(shù)據(jù)研究積累了寶貴地經(jīng)驗(yàn)。四,百度遷徙"百度遷徙"項(xiàng)目是二零一四年百度利用其位置服務(wù)(LocationBasedService,LBS)所獲得地?cái)?shù)據(jù),將們?cè)诖汗?jié)期間位置移動(dòng)情況用可視化地方法顯示在屏幕上,如下圖所示。這些位置信息來自于百度地圖地LBS開放臺(tái),通過安裝在大量移動(dòng)終端上地應(yīng)用程序獲取用戶位置信息,這些數(shù)以億計(jì)地信息通過大數(shù)據(jù)處理系統(tǒng)地處理可以反映全總體地遷移情況,通過數(shù)據(jù)可視化,為春運(yùn)時(shí)們了解春運(yùn)情況與決策管理機(jī)構(gòu)行管理決策提供了第一手地信息支持。這一大數(shù)據(jù)系統(tǒng)所提供地服務(wù)為今后政府部門地科學(xué)決策與社會(huì)科學(xué)地研究提供了新地技術(shù)手段。任務(wù)六大數(shù)據(jù)地發(fā)展及面臨地挑戰(zhàn)任務(wù)概述大數(shù)據(jù)時(shí)代悄然掘起,掀起了"第三次信息化浪潮",大數(shù)據(jù)技術(shù)地研究與產(chǎn)業(yè)發(fā)展已快速上升為家戰(zhàn)略,們需要做好時(shí)刻迎接大數(shù)據(jù)地準(zhǔn)備與接受挑戰(zhàn)。本任務(wù)主要介紹了大數(shù)據(jù)地發(fā)展歷程,大數(shù)據(jù)發(fā)展現(xiàn)狀,大數(shù)據(jù)與云計(jì)算,物聯(lián)網(wǎng)三者之間地關(guān)系以及在應(yīng)用大數(shù)據(jù)過程所必然會(huì)遇到地難題。支撐知識(shí) 一,大數(shù)據(jù)地發(fā)展歷程二,大數(shù)據(jù)地發(fā)展現(xiàn)狀三,大數(shù)據(jù)與云計(jì)算,物聯(lián)網(wǎng)地關(guān)系四,大數(shù)據(jù)面臨地挑戰(zhàn)一,大數(shù)據(jù)地發(fā)展歷程以年代或技術(shù)里程碑來劃分,可以認(rèn)為大數(shù)據(jù)地發(fā)展歷程經(jīng)歷了三個(gè)重要階段:萌芽期,成熟期與大規(guī)模應(yīng)用期。第一階段:萌芽期(二零世紀(jì)九零年代到二一世紀(jì)初),隨著數(shù)據(jù)挖掘理論與數(shù)據(jù)庫(kù)技術(shù)地逐步成熟,一批商業(yè)智能工具與知識(shí)管理技術(shù)開始被應(yīng)用,如數(shù)據(jù)倉(cāng)庫(kù),專家系統(tǒng),知識(shí)管理系統(tǒng)等;第二階段:成熟期(二一世紀(jì)前十年),Web二.零應(yīng)用地快速發(fā)展,產(chǎn)生了大量半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù),傳統(tǒng)處理方法以難應(yīng)付,帶動(dòng)了大數(shù)據(jù)技術(shù)地快速突破,大數(shù)據(jù)解決方案逐漸走向成熟,形成了并行計(jì)算與分布式系統(tǒng)兩大核心技術(shù),谷歌地GFS與MapReduce等大數(shù)據(jù)技術(shù)受到追捧,Hadoop臺(tái)開始大行其道;第三階段:大規(guī)模應(yīng)用期(二零一零年以后),大數(shù)據(jù)應(yīng)用滲透各行各業(yè),數(shù)據(jù)驅(qū)動(dòng)決策,信息社會(huì)智能化程度大幅提高。一,大數(shù)據(jù)地發(fā)展歷程以數(shù)據(jù)量地大小來劃分,由于大數(shù)據(jù)地發(fā)展歷程是與有效存儲(chǔ)管理日益增大地?cái)?shù)據(jù)集地能力緊密聯(lián)系在一起地,因此,每一次處理能力地提高都伴隨著新數(shù)據(jù)庫(kù)技術(shù)地發(fā)展。第一階段:MB~GB(二零世紀(jì)七零年代到八零年代),當(dāng)商業(yè)數(shù)據(jù)從MB達(dá)到GB量級(jí)時(shí)是最早點(diǎn)燃挑戰(zhàn)"大數(shù)據(jù)"地信號(hào),迫切需求存儲(chǔ)數(shù)據(jù)并運(yùn)行關(guān)系型數(shù)據(jù)查詢以完成商業(yè)數(shù)據(jù)地分析與報(bào)告,產(chǎn)生了數(shù)據(jù)庫(kù)計(jì)算機(jī)與可以運(yùn)行在通用計(jì)算機(jī)上數(shù)據(jù)庫(kù)軟件系統(tǒng);第二階段:GB~TB(二零世紀(jì)八零年代末期),單個(gè)計(jì)算機(jī)系統(tǒng)地存儲(chǔ)與處理能力受限,提出了數(shù)據(jù)并行化技術(shù)思想,可實(shí)現(xiàn)內(nèi)存享數(shù)據(jù)庫(kù),磁盤享數(shù)據(jù)庫(kù)與無享數(shù)據(jù)庫(kù),這些技術(shù)及系統(tǒng)地出現(xiàn)成為了后來使用分治法并行化數(shù)據(jù)存儲(chǔ)地先驅(qū);第三階段:TB~PB(二零世紀(jì)九零年代末期至今),入互聯(lián)網(wǎng)時(shí)代,PB級(jí)地半結(jié)構(gòu)化與非結(jié)構(gòu)化地網(wǎng)頁(yè)數(shù)據(jù)迅速增長(zhǎng),雖然并行數(shù)據(jù)庫(kù)能夠較好地處理結(jié)構(gòu)化數(shù)據(jù),但是對(duì)于處理半或非結(jié)構(gòu)化數(shù)據(jù)幾乎沒有提供任何支持且處理能力也就幾個(gè)T。為了應(yīng)對(duì)Web規(guī)模地?cái)?shù)據(jù)管理與分析挑戰(zhàn),谷歌提出了GFS文件系統(tǒng)與MapReduce編程模型,運(yùn)行GFS與MapReduce地系統(tǒng)能夠向上與向外擴(kuò)展,能處理無限地?cái)?shù)據(jù)。在此階段,出現(xiàn)了著名地"第四范式",Hadoop,Spark,NoSQL等新興技術(shù);第四階段:PB~EB(不久地將來),大公司存儲(chǔ)與分析地?cái)?shù)據(jù)毫無疑問將在不久后將從PB級(jí)達(dá)到EB級(jí),然而現(xiàn)有地技術(shù)只能處理PB級(jí)地?cái)?shù)據(jù),目前幾乎所有重要地產(chǎn)業(yè)界公司,如EMC,Oracle,Microsoft,Google,Amazon與Facebook等都開始啟動(dòng)各自地大數(shù)據(jù)項(xiàng)目。但迄今為止仍沒有出現(xiàn)革命地新技術(shù)能夠處理更大地?cái)?shù)據(jù)集。二,大數(shù)據(jù)地發(fā)展現(xiàn)狀大數(shù)據(jù)地快速發(fā)展,使之成為信息時(shí)代地一大新興產(chǎn)業(yè),并引起了內(nèi)外政府,學(xué)術(shù)界與產(chǎn)業(yè)界地高度關(guān)注。早在二零零九年,聯(lián)合就啟動(dòng)了"全球脈動(dòng)計(jì)劃",擬通過大數(shù)據(jù)推動(dòng)落后地區(qū)地發(fā)展,而二零一二年一月地世界經(jīng)濟(jì)論壇年會(huì)也把"大數(shù)據(jù),大影響"作為重要議題之一。在美,二零零九年至今,美政府?dāng)?shù)據(jù)庫(kù)(D)全面開放了四零萬政府原始數(shù)據(jù)集,大數(shù)據(jù)已成為美家創(chuàng)新戰(zhàn)略,家安全戰(zhàn)略以及家信息網(wǎng)絡(luò)安全戰(zhàn)略地叉領(lǐng)域與核心領(lǐng)域。二零一二年三月,美政府提出"大數(shù)據(jù)研究與發(fā)展倡議",發(fā)起全球開放政府?dāng)?shù)據(jù)運(yùn)動(dòng),并投資二億美元促大數(shù)據(jù)核心技術(shù)研究與應(yīng)用,涉及NSF,DARPA等六個(gè)政府部門與機(jī)構(gòu),把大數(shù)據(jù)放在重要地戰(zhàn)略位置。英政府也將大數(shù)據(jù)作為重點(diǎn)發(fā)展地科技領(lǐng)域,在發(fā)展八類高新技術(shù)地六億英鎊投資,大數(shù)據(jù)地注資占三成。二零一四年七月,歐盟委員會(huì)也呼吁各成員積極發(fā)展大數(shù)據(jù),迎接"大數(shù)據(jù)"時(shí)代,并將采取具體措施發(fā)展大數(shù)據(jù)業(yè)務(wù)。例如建立大數(shù)據(jù)領(lǐng)域地公私合作關(guān)系;依托"地線二零二零"科研規(guī)劃,創(chuàng)建開放式數(shù)據(jù)孵化器;成立多個(gè)超級(jí)計(jì)算心;在成員創(chuàng)建數(shù)據(jù)處理設(shè)施網(wǎng)絡(luò)。在,政府,學(xué)術(shù)界與產(chǎn)業(yè)界對(duì)大數(shù)據(jù)地研究與應(yīng)用也相當(dāng)重視,紛紛啟動(dòng)了相應(yīng)地研究計(jì)劃。在二零一二年,科技部"十二五"規(guī)劃除了部署關(guān)于物聯(lián)網(wǎng),云計(jì)算地有關(guān)專項(xiàng)外,還專門發(fā)布了《"十二五"家科技計(jì)劃信息技術(shù)領(lǐng)域二零一三年度備選項(xiàng)目征集指南》,其地"先計(jì)算"板塊明確提出"面向大數(shù)據(jù)地先存儲(chǔ)結(jié)構(gòu)及關(guān)鍵技術(shù)",并制定了面向大數(shù)據(jù)地研究計(jì)劃與專項(xiàng)基金,如家"九七三計(jì)劃""八六三計(jì)劃"及家自然科學(xué)基金等。三,大數(shù)據(jù)與云計(jì)算,物聯(lián)網(wǎng)地關(guān)系云計(jì)算,大數(shù)據(jù)與物聯(lián)網(wǎng)代表了IT領(lǐng)域最新地技術(shù)發(fā)展趨勢(shì),三者相輔相成,既有聯(lián)系又有區(qū)別。云計(jì)算最初主要包含了兩類意義:一類是以谷歌地GFS與MapReduce為代表地大規(guī)模分布式并行計(jì)算技術(shù);另一類是以亞馬遜地虛擬機(jī)與對(duì)象存儲(chǔ)為代表地"按需租用"地商業(yè)模式。但是,隨著大數(shù)據(jù)概念地提出,云計(jì)算地分布式計(jì)算技術(shù)開始更多地被列入大數(shù)據(jù)技術(shù),而們提到云計(jì)算時(shí),更多指地是底層基礎(chǔ)IT資源地整合優(yōu)化以及以服務(wù)地方式提供IT資源地商業(yè)模式,如IaaS,PaaS,SaaS。從云計(jì)算與大數(shù)據(jù)概念地誕生到現(xiàn)在,二者之間地關(guān)系非常微妙,既密不可分,又千差萬別。因此,我們不能把云計(jì)算與大數(shù)據(jù)割裂開來作為截然不同地兩類技術(shù)來看待。此外,物聯(lián)網(wǎng)也是與云計(jì)算,大數(shù)據(jù)相伴相生地技術(shù)。下圖描述了三者地聯(lián)系與區(qū)別。大數(shù)據(jù),云計(jì)算與物聯(lián)網(wǎng)地聯(lián)系從整體上看,大數(shù)據(jù),云計(jì)算與物聯(lián)網(wǎng)這三者是相輔相成地。大數(shù)據(jù)根植于云計(jì)算,大數(shù)據(jù)分析地很多技術(shù)都來源于云計(jì)算,云計(jì)算地分布式數(shù)據(jù)存儲(chǔ)與管理系統(tǒng)(包括分布式文件系統(tǒng)與分布式數(shù)據(jù)庫(kù)系統(tǒng))提供了海量數(shù)據(jù)地存儲(chǔ)與管理能力,分布式并行處理框架MapReduce提供了海量數(shù)據(jù)分析能力,沒有這些云計(jì)算技術(shù)地支撐,大數(shù)據(jù)分析就無從談起。反之,大數(shù)據(jù)為云計(jì)算提供了"用武之地",沒有大數(shù)據(jù)這個(gè)"練兵場(chǎng)",云計(jì)算技術(shù)就算再先,也不能很好地發(fā)揮出它地應(yīng)用價(jià)值。物聯(lián)網(wǎng)地傳感器源源不斷產(chǎn)生地大量數(shù)據(jù),構(gòu)成了大數(shù)據(jù)地重要數(shù)據(jù)來源,沒有物聯(lián)網(wǎng)地飛速發(fā)展,就不會(huì)帶來數(shù)據(jù)產(chǎn)生方式地變革,即由數(shù)據(jù)工生產(chǎn)階段轉(zhuǎn)向數(shù)據(jù)自動(dòng)化產(chǎn)生階段;同,物聯(lián)網(wǎng)還需要借助于云計(jì)算與大數(shù)據(jù)技術(shù),實(shí)現(xiàn)物聯(lián)網(wǎng)大數(shù)據(jù)地存儲(chǔ),分析與處理。三者地有機(jī)結(jié)合,從而奠定了"大數(shù)據(jù)時(shí)代"地到來。大數(shù)據(jù),云計(jì)算與物聯(lián)網(wǎng)地區(qū)別大數(shù)據(jù)側(cè)重于對(duì)海量數(shù)據(jù)地存儲(chǔ),處理與分析,從海量數(shù)據(jù)發(fā)現(xiàn)價(jià)值,服務(wù)于生產(chǎn)與生活;云計(jì)算本質(zhì)上旨在整合與優(yōu)化各種IT資源并通過網(wǎng)絡(luò)以服務(wù)地方式,廉價(jià)地提供給用戶;物聯(lián)網(wǎng)地發(fā)展目地是實(shí)現(xiàn)物物相連,應(yīng)用創(chuàng)新是物聯(lián)網(wǎng)發(fā)展地核心。云計(jì)算,大數(shù)據(jù)與物聯(lián)網(wǎng)三者已經(jīng)彼此滲透,相互融合,在很多應(yīng)用場(chǎng)合都可以同時(shí)看到三者地身影。在未來,三者仍會(huì)繼續(xù)相互促,相互影響,更好地服務(wù)于社會(huì)生產(chǎn)與生活地各個(gè)領(lǐng)域。四,大數(shù)據(jù)面臨地挑戰(zhàn)盡管大數(shù)據(jù)是社會(huì)各界都高度關(guān)注地話題,但時(shí)下大數(shù)據(jù)從底層地處理系統(tǒng)到高層地分析手段都存在許多問題,也面臨一系列挑戰(zhàn)。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論