大數(shù)據(jù)導(dǎo)論P(yáng)PT全套完整教學(xué)課件_第1頁(yè)
大數(shù)據(jù)導(dǎo)論P(yáng)PT全套完整教學(xué)課件_第2頁(yè)
大數(shù)據(jù)導(dǎo)論P(yáng)PT全套完整教學(xué)課件_第3頁(yè)
大數(shù)據(jù)導(dǎo)論P(yáng)PT全套完整教學(xué)課件_第4頁(yè)
大數(shù)據(jù)導(dǎo)論P(yáng)PT全套完整教學(xué)課件_第5頁(yè)
已閱讀5頁(yè),還剩337頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)概述第一章隨著信息技術(shù)的迅猛發(fā)展和普及應(yīng)用,行業(yè)應(yīng)用系統(tǒng)的規(guī)模迅速擴(kuò)大,其所產(chǎn)生的數(shù)據(jù)呈指數(shù)型增長(zhǎng)。達(dá)到PB(1024TB)級(jí)規(guī)模的海量數(shù)據(jù)已遠(yuǎn)遠(yuǎn)超出了傳統(tǒng)的計(jì)算技術(shù)和信息系統(tǒng)的處理能力,從而促進(jìn)了大數(shù)據(jù)(BigData)的產(chǎn)生。LOGO第1章大數(shù)據(jù)概述1117第2章大數(shù)據(jù)與云計(jì)算第3章從產(chǎn)業(yè)結(jié)構(gòu)來(lái)探索大數(shù)據(jù)技術(shù)第4章大數(shù)據(jù)的硬件架構(gòu)——集群第5章大數(shù)據(jù)開(kāi)發(fā)與計(jì)算技術(shù)第6章大數(shù)據(jù)存儲(chǔ)技術(shù)第7章大數(shù)據(jù)分析第8章大數(shù)據(jù)與人工智能大數(shù)據(jù)概述什么是大數(shù)據(jù)01大數(shù)據(jù)的數(shù)據(jù)特征及對(duì)科學(xué)研究的影響02大數(shù)據(jù)的數(shù)據(jù)類(lèi)型03大數(shù)據(jù)的可用性及衍生價(jià)值04大數(shù)據(jù)的發(fā)展趨勢(shì)05什么是大數(shù)據(jù)目前,我們已經(jīng)進(jìn)入大數(shù)據(jù)時(shí)代,但對(duì)很多人來(lái)說(shuō),什么是大數(shù)據(jù),大數(shù)據(jù)是怎么產(chǎn)生的,它有什么用?從計(jì)算機(jī)的角度認(rèn)識(shí)從信息時(shí)代怎么進(jìn)入大數(shù)據(jù)時(shí)代的,這些東西并不清楚,所以本節(jié)主要解決以上問(wèn)題,讓我們能夠從科學(xué)的角度認(rèn)識(shí)大數(shù)據(jù)。PART01大數(shù)據(jù)的人才培養(yǎng)大數(shù)據(jù)的人才培養(yǎng)大數(shù)據(jù)的人才培養(yǎng)數(shù)據(jù)分析師能力數(shù)據(jù)分析概念與統(tǒng)計(jì)學(xué)SQL數(shù)據(jù)庫(kù)基礎(chǔ)數(shù)據(jù)采集與處理數(shù)據(jù)建模分析具有數(shù)據(jù)分析的概念及方法論;可以分析描述性統(tǒng)計(jì)分析和推斷性統(tǒng)計(jì)分析;方差分析;回歸分析等能力具有SQL關(guān)系型數(shù)據(jù)庫(kù)基本概念;熟練使用增刪改查SQL語(yǔ)言;熟練使用SQL函數(shù);對(duì)事務(wù)和多用戶并發(fā)有處理辦法等掌握數(shù)據(jù)采集的方法;做過(guò)市場(chǎng)調(diào)研;掌握數(shù)據(jù)預(yù)處理方法;可以將數(shù)據(jù)可視化等掌握主成分分析法;因子分析法;多元回歸分析法;聚類(lèi)分析法;時(shí)間序列等大數(shù)據(jù)的人才培養(yǎng)大數(shù)據(jù)的人才培養(yǎng)大數(shù)據(jù)分析師能力大數(shù)據(jù)基礎(chǔ)理論Hadoop理論數(shù)據(jù)庫(kù)理論及工具數(shù)據(jù)挖掘具有大數(shù)據(jù)分析基礎(chǔ);Python基礎(chǔ);Linux&Ubuntu操作系統(tǒng)基礎(chǔ)等具有Hadoop相關(guān)知識(shí);了解HDFS分布式文件系統(tǒng);MapReduce理論實(shí)戰(zhàn)等Hadoop其他組件具有數(shù)據(jù)庫(kù)理論基礎(chǔ);熟練掌握MySQL或Oracle數(shù)據(jù)庫(kù)或其他關(guān)系型數(shù)據(jù)庫(kù);Hbase,Hive,Sqoop使用;具有數(shù)據(jù)挖掘基本思想;掌握有監(jiān)督和無(wú)監(jiān)督學(xué)習(xí)算法Spark工具及實(shí)戰(zhàn)大數(shù)據(jù)可視化大數(shù)據(jù)分析實(shí)戰(zhàn)掌握Spark理論;SparkRDD基本概念及操作;Spark流式計(jì)算框架SparkStreaming、StructuredStreaming;Spark機(jī)器學(xué)習(xí)算法庫(kù)SparkMLlib基本使用方法掌握數(shù)據(jù)可視化基礎(chǔ);Python數(shù)據(jù)可視化;Python高級(jí)數(shù)據(jù)可視化方法可以利用HDFSShell操作HDFS文件系統(tǒng);利用HiveSQL進(jìn)行數(shù)據(jù)清洗;;利用Sqoop進(jìn)行數(shù)據(jù)傳輸;利用SparkSQL進(jìn)行數(shù)據(jù)讀??;利用SparkMLlib進(jìn)行機(jī)器學(xué)習(xí)建模;利用Python進(jìn)行建模結(jié)果數(shù)據(jù)可視化生產(chǎn)數(shù)據(jù)的三個(gè)階段1.被動(dòng)式生成數(shù)據(jù)是由于數(shù)據(jù)庫(kù)技術(shù)的產(chǎn)生2.主動(dòng)式生成數(shù)據(jù)是由于萬(wàn)維網(wǎng)的發(fā)明與發(fā)展3.感知生成數(shù)據(jù)是由于物聯(lián)網(wǎng)的飛速發(fā)展“”1.1.1大數(shù)據(jù)的來(lái)源數(shù)據(jù)庫(kù)技術(shù)使數(shù)據(jù)的保存和管理變得簡(jiǎn)單,業(yè)務(wù)系統(tǒng)在運(yùn)行時(shí)產(chǎn)生的數(shù)據(jù)直接保存數(shù)據(jù)庫(kù)中,這個(gè)時(shí)候數(shù)據(jù)的產(chǎn)生是被動(dòng)的,數(shù)據(jù)是隨著業(yè)務(wù)系統(tǒng)的運(yùn)行產(chǎn)生的,并且更多地依賴(lài)人工收集數(shù)據(jù)。.被動(dòng)式生成數(shù)據(jù)是由于數(shù)據(jù)庫(kù)技術(shù)的產(chǎn)生Web2.0的發(fā)展大大加速了數(shù)據(jù)的產(chǎn)生,人們可以通過(guò)手機(jī)、電腦等終端隨時(shí)隨地生成數(shù)據(jù)。據(jù)統(tǒng)計(jì),在1分鐘內(nèi),新浪平均有2萬(wàn)條微博產(chǎn)生,蘋(píng)果商店平均有4.7萬(wàn)次應(yīng)用下載,淘寶平均有6萬(wàn)件商品交易記錄,百度大約產(chǎn)生了90萬(wàn)次的搜索查詢(xún),數(shù)據(jù)的生成相比之前大大加速。主動(dòng)式生成數(shù)據(jù)是由于萬(wàn)維網(wǎng)的發(fā)明與發(fā)展感知技術(shù)尤其是物聯(lián)網(wǎng)的發(fā)展促進(jìn)了數(shù)據(jù)生成方式發(fā)生了根本性的變化。各種智能傳感設(shè)備、智能儀表、監(jiān)控探頭和GPS(GlobalPositioningSystem,全球定位系統(tǒng))定位等數(shù)據(jù)采集設(shè)備源源不斷地自動(dòng)采集、生成數(shù)據(jù)。感知生成數(shù)據(jù)是由于物聯(lián)網(wǎng)的飛速發(fā)展1.1.1大數(shù)據(jù)的來(lái)源利用大數(shù)據(jù)1.1.1大數(shù)據(jù)的來(lái)源以2018年雙11期間,淘寶和天貓共實(shí)現(xiàn)2135億的交易額為例,其服務(wù)所支撐的用戶點(diǎn)擊所產(chǎn)生的數(shù)據(jù)量是海量并且是非結(jié)構(gòu)化數(shù)據(jù),用戶所產(chǎn)生的數(shù)據(jù)是一項(xiàng)寶貴的資源,若能從這類(lèi)海量數(shù)據(jù)中快速地分析出數(shù)據(jù)的價(jià)值,便可以用于分析并理解客戶的市場(chǎng)需求,積極改善公司的市場(chǎng)設(shè)施配置策略和服務(wù)模式,還可以極大地提高服務(wù)的用戶體驗(yàn)。大數(shù)據(jù)的產(chǎn)生首先源于互聯(lián)網(wǎng)企業(yè)對(duì)于日益增長(zhǎng)的網(wǎng)絡(luò)數(shù)據(jù)分析的需求,如圖所示。利用大數(shù)據(jù)-問(wèn)題的產(chǎn)生1.1.1大數(shù)據(jù)的來(lái)源

有效地為如此巨大的用戶群體服務(wù),讓他們參與時(shí)能夠享受方便、快捷的服務(wù),成為網(wǎng)站不得不解決的一個(gè)問(wèn)題。為了解決大型網(wǎng)站的訪問(wèn)量大、并發(fā)量高、海量數(shù)據(jù)的問(wèn)題,一般會(huì)考慮業(yè)務(wù)拆分和分布式部署。由于海量非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)的出現(xiàn),數(shù)據(jù)已沒(méi)有辦法在可容忍的時(shí)間內(nèi),使用常規(guī)軟件方法完成存儲(chǔ)、管理和處理任務(wù)??焖僭鲩L(zhǎng)的數(shù)據(jù)量要求數(shù)據(jù)處理的速度也要緊跟其步伐,才能使得獲取到大量的數(shù)據(jù)被有效利用,否則,快速增長(zhǎng)的數(shù)據(jù)量會(huì)成為解決問(wèn)題的負(fù)擔(dān)。在獲取數(shù)據(jù)的過(guò)程中,數(shù)據(jù)不是一成不變的,而是隨著互聯(lián)網(wǎng)在時(shí)時(shí)發(fā)生變化,通常這樣的數(shù)據(jù)價(jià)值會(huì)隨著時(shí)間的推移而呈現(xiàn)降低的趨勢(shì),如果數(shù)據(jù)在獲取時(shí)間內(nèi)沒(méi)有得到有效的處理,就會(huì)導(dǎo)致其失去價(jià)值。各個(gè)機(jī)構(gòu)對(duì)大數(shù)據(jù)的描述1.1.2大數(shù)據(jù)的定義維基百科將大數(shù)據(jù)描述為:大數(shù)據(jù)又稱(chēng)為巨量數(shù)據(jù)、海量數(shù)據(jù),指的是傳統(tǒng)數(shù)據(jù)處理應(yīng)用軟件不足以處理它們大或復(fù)雜的數(shù)據(jù)集的術(shù)語(yǔ)。麥肯錫全球研究所對(duì)大數(shù)據(jù)的解釋?zhuān)阂环N規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類(lèi)型和價(jià)值密度低四大特征。研究機(jī)構(gòu)Gartner(第一家信息技術(shù)研究和分析的公司)對(duì)大數(shù)據(jù)的解釋?zhuān)捍髷?shù)據(jù)是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來(lái)適應(yīng)海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。簡(jiǎn)而言之,大數(shù)據(jù)是現(xiàn)有數(shù)據(jù)庫(kù)管理工具和傳統(tǒng)數(shù)據(jù)處理應(yīng)用方法很難處理的大型、復(fù)雜的數(shù)據(jù)集,大數(shù)據(jù)技術(shù)的范疇包括大數(shù)據(jù)的采集、存儲(chǔ)、搜索、共享、傳輸、分析和可視化等。從某種程度上說(shuō),大數(shù)據(jù)是數(shù)據(jù)分析的前沿技術(shù),即從各種各樣類(lèi)型的數(shù)據(jù)中,快速獲得有價(jià)值信息的能力,就是大數(shù)據(jù)技術(shù)。1.1.3從信息技術(shù)(IT)轉(zhuǎn)向數(shù)據(jù)技術(shù)(DT)

李國(guó)杰院士認(rèn)為:信息系統(tǒng)需要從數(shù)據(jù)圍繞著處理器轉(zhuǎn)改為處理能力圍繞著數(shù)據(jù)轉(zhuǎn),將計(jì)算用于數(shù)據(jù),而不是將數(shù)據(jù)用于計(jì)算?;仡櫽?jì)算機(jī)技術(shù)的發(fā)展歷程,可以清晰地看到計(jì)算機(jī)技術(shù)從面向計(jì)算逐步轉(zhuǎn)變到面向數(shù)據(jù)的過(guò)程,面向數(shù)據(jù)也可以更準(zhǔn)確地稱(chēng)為“面向數(shù)據(jù)的計(jì)算”。面向數(shù)據(jù)要求系統(tǒng)的設(shè)計(jì)和架構(gòu)以圍繞數(shù)據(jù)為核心開(kāi)展。這一過(guò)程的描述如圖所示,該圖從硬件、網(wǎng)絡(luò)和云計(jì)算的演進(jìn)過(guò)程等方面以時(shí)間為順序進(jìn)行了縱向和橫向的對(duì)比。大數(shù)據(jù)的數(shù)據(jù)特征及對(duì)科學(xué)研究的影響大數(shù)據(jù)是指無(wú)法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。所以要對(duì)大數(shù)據(jù)進(jìn)行處理,首先應(yīng)該先了解大數(shù)據(jù)的數(shù)據(jù)特征,進(jìn)行針對(duì)性處理。下面主要講解大數(shù)據(jù)的4V特征及其對(duì)科學(xué)研究有哪些影響。PART021.2.1大數(shù)據(jù)的數(shù)據(jù)4V特征

第一個(gè)特征是數(shù)據(jù)量大(Volume),或者叫大量化、規(guī)模性。需要采集、處理、傳輸?shù)臄?shù)據(jù)量大,數(shù)據(jù)的大小決定所考慮的數(shù)據(jù)的價(jià)值和潛在的信息。處理PB級(jí)的數(shù)據(jù)是比較常態(tài)的情況。企業(yè)內(nèi)部的經(jīng)營(yíng)交易信息,網(wǎng)絡(luò)世界中的商品、物流信息,人與人的交互信息、位置信息等都是大數(shù)據(jù)的主要來(lái)源。第二個(gè)特征是數(shù)據(jù)類(lèi)型繁多(Variety),也叫多樣性。包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等,數(shù)據(jù)的種類(lèi)多、復(fù)雜性高。大數(shù)據(jù)有不同格式,有結(jié)構(gòu)化的關(guān)系型數(shù)據(jù),有半結(jié)構(gòu)化的網(wǎng)頁(yè)數(shù)據(jù),還有非結(jié)構(gòu)化的視頻音頻數(shù)據(jù)。這些非結(jié)構(gòu)化數(shù)據(jù)廣泛存在于社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)、電子商務(wù)之中,其增長(zhǎng)速度比結(jié)構(gòu)化數(shù)據(jù)快10倍到50倍。多類(lèi)型的數(shù)據(jù)對(duì)數(shù)據(jù)的處理能力提出了更高的要求。1.2.1大數(shù)據(jù)的數(shù)據(jù)4V特征

第三個(gè)特征是處理速度快,時(shí)效性高(Velocity),也叫高速性。獲得數(shù)據(jù)的速度快速增長(zhǎng),數(shù)據(jù)需要頻繁地采集、處理并輸出;因?yàn)閿?shù)據(jù)會(huì)存在時(shí)效性,需要快速處理,并得到結(jié)果。如一些電商數(shù)據(jù),如果當(dāng)天的信息不處理,就將會(huì)影響到很多需要立即做出的商業(yè)決策。要達(dá)到立竿見(jiàn)影而非事后見(jiàn)效,實(shí)現(xiàn)實(shí)時(shí)獲取需要的信息,1秒是臨界點(diǎn),即對(duì)于很多實(shí)時(shí)大數(shù)據(jù)應(yīng)用而言,必須要在1秒鐘內(nèi)進(jìn)行處理,否則處理結(jié)果就是過(guò)時(shí)和無(wú)效的。這也是大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘最顯著的特征。

第四個(gè)特征是數(shù)據(jù)價(jià)值密度低(Value)。如隨著物聯(lián)網(wǎng)的廣泛應(yīng)用,信息感知無(wú)處不在,大量的不相關(guān)信息不經(jīng)過(guò)處理則價(jià)值較低,挖掘大數(shù)據(jù)的價(jià)值類(lèi)似于沙里淘金。如何通過(guò)強(qiáng)大的機(jī)器算法更迅速地完成數(shù)據(jù)的價(jià)值“提純”是目前大數(shù)據(jù)要解決的問(wèn)題,即合理運(yùn)用大數(shù)據(jù),以低成本創(chuàng)造高價(jià)值。。1.促進(jìn)了科學(xué)研究的第四范式產(chǎn)生1.2.1大數(shù)據(jù)的數(shù)據(jù)4V特征

大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對(duì)這些含有意義的數(shù)據(jù)進(jìn)行專(zhuān)業(yè)化處理。換而言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實(shí)現(xiàn)盈利的關(guān)鍵,在于提高對(duì)數(shù)據(jù)的“加工能力”,通過(guò)“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”。

大數(shù)據(jù)的產(chǎn)生和信息技術(shù)領(lǐng)域提出的面向數(shù)據(jù)的概念同時(shí)也開(kāi)始深刻地改變了科學(xué)研究的模式,2007年,已故的圖靈獎(jiǎng)得主吉姆·格雷(JimGray,數(shù)據(jù)庫(kù)基本理論的奠基人,如圖所示)提出了數(shù)據(jù)密集型科研“第四范式(TheFourthParadigm)”。他將大數(shù)據(jù)科研從第三范式中分離出來(lái)單獨(dú)作為一種科研范式,他認(rèn)為利用海量的數(shù)據(jù)可以為科學(xué)研究和知識(shí)發(fā)現(xiàn)提供除經(jīng)驗(yàn)、理論、計(jì)算外的第四種重要方法。1.促進(jìn)了科學(xué)研究的第四范式產(chǎn)生1.2.1大數(shù)據(jù)的數(shù)據(jù)4V特征

第一范式——實(shí)驗(yàn),人類(lèi)早期知識(shí)的發(fā)現(xiàn)主要依賴(lài)于經(jīng)驗(yàn)、觀察和實(shí)驗(yàn),需要的計(jì)算和產(chǎn)生的數(shù)據(jù)很少。當(dāng)人類(lèi)知識(shí)積累到一定的程度后,知識(shí)逐漸形成了理論體系,這時(shí)進(jìn)入第二范式——理論,通過(guò)理論研究發(fā)現(xiàn)知識(shí)。計(jì)算機(jī)的出現(xiàn)為人類(lèi)發(fā)現(xiàn)新的知識(shí)提供了重要的工具,這時(shí)進(jìn)入第三范式——計(jì)算,通過(guò)計(jì)算發(fā)現(xiàn)知識(shí)?,F(xiàn)在人類(lèi)在一年內(nèi)所產(chǎn)生的數(shù)據(jù)已經(jīng)超過(guò)人類(lèi)過(guò)去幾千年產(chǎn)生的數(shù)據(jù)的總和,目前的數(shù)據(jù)處理方法在面對(duì)龐大的數(shù)據(jù)時(shí)顯得力不從心,人類(lèi)逐步進(jìn)入面向數(shù)據(jù)的時(shí)代,這時(shí)進(jìn)入第四范式——數(shù)據(jù),通過(guò)數(shù)據(jù)發(fā)現(xiàn)知識(shí),利用海量數(shù)據(jù)加上高速計(jì)算發(fā)現(xiàn)新的知識(shí)是數(shù)據(jù)密集型的科學(xué)發(fā)現(xiàn)。2.促進(jìn)了交叉學(xué)科的發(fā)展1.2.1大數(shù)據(jù)的數(shù)據(jù)4V特征目前,社會(huì)科學(xué)、自然科學(xué)和人文科學(xué)只是學(xué)術(shù)建制意義上的區(qū)分,它們之間已經(jīng)有著密切的聯(lián)系,不再像以前是孤立的存在。自然科學(xué)的根本目的在于發(fā)現(xiàn)自然現(xiàn)象背后的規(guī)律。20世紀(jì)50年代之前,社會(huì)科學(xué)與自然科學(xué)相對(duì)獨(dú)立,跨學(xué)科交叉研究基本沒(méi)有。繼物理計(jì)算和生物計(jì)算之后,社會(huì)計(jì)算(SocialComputing)可能成為科學(xué)計(jì)算研發(fā)的新焦點(diǎn),并產(chǎn)生新的方向和領(lǐng)域。大數(shù)據(jù)的數(shù)據(jù)類(lèi)型PART031.3大數(shù)據(jù)的數(shù)據(jù)類(lèi)型

大數(shù)據(jù)包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)越來(lái)越成為數(shù)據(jù)的主要部分。據(jù)IDC的調(diào)查報(bào)告顯示:半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)快速增長(zhǎng),企業(yè)中80%~90%的數(shù)據(jù)都是半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)每年都按指數(shù)增長(zhǎng)60%,如圖所示。1.3大數(shù)據(jù)的數(shù)據(jù)類(lèi)型結(jié)構(gòu)化數(shù)據(jù)也稱(chēng)作行數(shù)據(jù),是指可以用二維表結(jié)構(gòu)來(lái)邏輯表達(dá)實(shí)現(xiàn)的數(shù)據(jù)(如學(xué)生成績(jī)表),嚴(yán)格地遵循數(shù)據(jù)格式與長(zhǎng)度規(guī)范,主要通過(guò)關(guān)系型數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)和管理。如MySQL、Oracle、SQLServer等可以存儲(chǔ)表現(xiàn)二維形式的數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)的一般特點(diǎn)是:數(shù)據(jù)以行為單位,一行數(shù)據(jù)表示一個(gè)實(shí)體的信息,每一行數(shù)據(jù)的屬性是相同的。但它的擴(kuò)展性不好,如增加一個(gè)字段。結(jié)構(gòu)化數(shù)據(jù)通常按照特定的應(yīng)用對(duì)事物進(jìn)行相應(yīng)的抽象,數(shù)據(jù)最終以表格的形式保存在數(shù)據(jù)庫(kù)中,數(shù)據(jù)格式統(tǒng)一,呈現(xiàn)大眾化、標(biāo)準(zhǔn)化的特點(diǎn)。結(jié)合到典型場(chǎng)景中更容易理解,如企業(yè)ERP(EnterpriseResourcePlanning,企業(yè)資源計(jì)劃)、財(cái)務(wù)系統(tǒng)、醫(yī)療HIS(HospitalInformationSystem)數(shù)據(jù)庫(kù)、教育一卡通、政府行政審批和其他核心數(shù)據(jù)庫(kù)等。1.結(jié)構(gòu)化數(shù)據(jù)1.3大數(shù)據(jù)的數(shù)據(jù)類(lèi)型與結(jié)構(gòu)化數(shù)據(jù)相對(duì)的是不適于用數(shù)據(jù)庫(kù)二維表來(lái)表現(xiàn)的數(shù)據(jù),可以說(shuō)都是非結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)沒(méi)有統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)屬性,一般直接整體進(jìn)行存儲(chǔ),并且一般存儲(chǔ)為二進(jìn)制數(shù)據(jù)格式。包含全部格式的辦公文檔(如Word、PPT)、文本、日志、圖片、音頻、視頻、地形等數(shù)據(jù)。除了存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)和存儲(chǔ)在一個(gè)關(guān)系數(shù)據(jù)庫(kù)之外的明顯區(qū)別之外,結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)最大的區(qū)別在于分析結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的便利性。相對(duì)于特定場(chǎng)景的應(yīng)用,大數(shù)據(jù)關(guān)注非結(jié)構(gòu)化數(shù)據(jù)的價(jià)值密度較低。整體而言,非結(jié)構(gòu)化數(shù)據(jù)的增長(zhǎng)速度比結(jié)構(gòu)化數(shù)據(jù)的增長(zhǎng)速度快10倍到50倍,但這并不意味著結(jié)構(gòu)化數(shù)據(jù)或者半結(jié)構(gòu)化數(shù)據(jù)將面臨淘汰的局面,具體的使用情況以實(shí)際的應(yīng)用場(chǎng)景為準(zhǔn)。但有了海量的非結(jié)構(gòu)化數(shù)據(jù),必須想辦法存儲(chǔ)和分析,從中挖掘出有價(jià)值的信息,為社會(huì)提供更好的服務(wù)。2.非結(jié)構(gòu)化數(shù)據(jù)1.3大數(shù)據(jù)的數(shù)據(jù)類(lèi)型半結(jié)構(gòu)化數(shù)據(jù)是介于結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)之間的數(shù)據(jù),如標(biāo)記語(yǔ)言XML、HTML文檔、電子郵件等屬于半結(jié)構(gòu)化數(shù)據(jù)。電子郵件的本地元數(shù)據(jù)可以實(shí)現(xiàn)分類(lèi)和關(guān)鍵字搜索,不需要任何其他工具,所以半結(jié)構(gòu)化數(shù)據(jù)一般是自描述的,數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容混在一起,沒(méi)有明顯的區(qū)分。目前,對(duì)于半結(jié)構(gòu)化的數(shù)據(jù)的存儲(chǔ)多采用NoSQL數(shù)據(jù)庫(kù),NoSQL泛指非關(guān)系型的數(shù)據(jù)庫(kù)。Google的BigTable和Amazon的Dynamo使用的就是NoSQL型數(shù)據(jù)庫(kù)。NoSQL不會(huì)將組織(模式)與數(shù)據(jù)分開(kāi),這使得NoSQL成為存儲(chǔ)半結(jié)構(gòu)化數(shù)據(jù)更好的選擇。但NoSQL數(shù)據(jù)庫(kù)正處于探索階段。無(wú)論企業(yè)的業(yè)務(wù)具體是什么,其目標(biāo)都是挖掘業(yè)務(wù)價(jià)值,無(wú)論數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)還是非結(jié)構(gòu)化數(shù)據(jù),它們都可能具有很高的價(jià)值。需要?jiǎng)?chuàng)新工具,實(shí)現(xiàn)匯總、查詢(xún)、分析和利用所有數(shù)據(jù)類(lèi)型,以便在整個(gè)企業(yè)數(shù)據(jù)范圍內(nèi)獲得更加深入的業(yè)務(wù)洞察力。3.半結(jié)構(gòu)化數(shù)據(jù)大數(shù)據(jù)的可用性及衍生價(jià)值PART041.4大數(shù)據(jù)的可用性及衍生價(jià)值

進(jìn)入大數(shù)據(jù)時(shí)代以來(lái),全人類(lèi)積累了海量的數(shù)據(jù),這些數(shù)據(jù)仍在不斷急速增加,這帶來(lái)兩個(gè)方面的巨變:一方面,在過(guò)去沒(méi)有海量數(shù)據(jù)積累的時(shí)代無(wú)法實(shí)現(xiàn)的應(yīng)用現(xiàn)在終于可以實(shí)現(xiàn);另一方面,從數(shù)據(jù)匱乏時(shí)代到數(shù)據(jù)泛濫時(shí)代的轉(zhuǎn)變,給數(shù)據(jù)的處理和應(yīng)用帶來(lái)新的挑戰(zhàn)與困擾,即如何從海量數(shù)據(jù)中高效地獲取數(shù)據(jù),有效地深加工并最終得到有價(jià)值意義的數(shù)據(jù)。大數(shù)據(jù)的一個(gè)重要方面是數(shù)據(jù)的可用性。大數(shù)據(jù)的另一個(gè)重要方面是數(shù)據(jù)的復(fù)雜性。

大數(shù)據(jù)可以在眾多領(lǐng)域創(chuàng)造巨大的衍生價(jià)值,使得未來(lái)企業(yè)投資重點(diǎn)不再是以建系統(tǒng)為核心,而是以大數(shù)據(jù)為核心,處理大數(shù)據(jù)的效率逐漸成為企業(yè)的生命力。1.4大數(shù)據(jù)的可用性及衍生價(jià)值大數(shù)據(jù)系統(tǒng)里面都有什么東西呢?1.4大數(shù)據(jù)的可用性及衍生價(jià)值大數(shù)據(jù)涵蓋了計(jì)算和數(shù)據(jù)兩大主題在存儲(chǔ)上,HDFS的分布式存儲(chǔ)可以任意水平擴(kuò)展,可以解決數(shù)據(jù)存儲(chǔ)的難題。在計(jì)算上,從最初的MapReduce,把任務(wù)水平拆分,多臺(tái)機(jī)器并行計(jì)算,再匯總結(jié)果,到基于Spark的內(nèi)存計(jì)算,改造MapReduce每次數(shù)據(jù)存盤(pán)以及編程方式的痛點(diǎn)。有了存儲(chǔ)和計(jì)算框架,周邊就衍生出了很多管理、緩存相關(guān)的技術(shù),如Yarn解決多租戶資源調(diào)度的難題,F(xiàn)lume解決數(shù)據(jù)傳輸?shù)碾y題,Sqoop解決分布式存儲(chǔ)數(shù)據(jù)與傳統(tǒng)DB數(shù)據(jù)之間的轉(zhuǎn)換,Oozie解決了大數(shù)據(jù)計(jì)算任務(wù)的調(diào)度,Kafka提供了發(fā)布訂閱機(jī)制的消息隊(duì)列,ZooKeeper可以幫助用戶完成主備的選舉,Hive在HDFS的基礎(chǔ)上提供了數(shù)據(jù)倉(cāng)庫(kù)的功能,Hbase是基于HDFS實(shí)現(xiàn)的列式數(shù)據(jù)庫(kù)等。大數(shù)據(jù)的發(fā)展趨勢(shì)PART051.5大數(shù)據(jù)的發(fā)展趨勢(shì)從目前發(fā)展形勢(shì)可以看出,大數(shù)據(jù)主要有以下八種發(fā)展趨勢(shì)(1)數(shù)據(jù)的資源化是指大數(shù)據(jù)成為企業(yè)和社會(huì)關(guān)注的重要戰(zhàn)略資源,已成為大家爭(zhēng)相搶奪的新焦點(diǎn)。因而,企業(yè)必須要提前制定大數(shù)據(jù)營(yíng)銷(xiāo)戰(zhàn)略計(jì)劃,搶占市場(chǎng)先機(jī)。(2)與云計(jì)算的深度結(jié)合大數(shù)據(jù)離不開(kāi)云計(jì)算,云計(jì)算為大數(shù)據(jù)提供了彈性可拓展的基礎(chǔ)設(shè)備,是產(chǎn)生大數(shù)據(jù)的平臺(tái)之一。自2013年開(kāi)始,大數(shù)據(jù)技術(shù)已開(kāi)始和云計(jì)算技術(shù)緊密結(jié)合,預(yù)計(jì)未來(lái)兩者關(guān)系將更為密切。除此之外,物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)等新興計(jì)算形態(tài),也將一齊助力大數(shù)據(jù)技術(shù),讓大數(shù)據(jù)發(fā)揮出更大的影響力。(3)科學(xué)理論的突破隨著大數(shù)據(jù)的快速發(fā)展,就像計(jì)算機(jī)和互聯(lián)網(wǎng)一樣,大數(shù)據(jù)很有可能是新一輪的技術(shù)革命。隨之興起的數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和人工智能等相關(guān)技術(shù),可能會(huì)改變數(shù)據(jù)世界里的很多算法和基礎(chǔ)理論,實(shí)現(xiàn)科學(xué)技術(shù)上的突破。(4)數(shù)據(jù)科學(xué)和數(shù)據(jù)聯(lián)盟的成立未來(lái),數(shù)據(jù)科學(xué)將成為一門(mén)專(zhuān)門(mén)的學(xué)科被越來(lái)越多的人所認(rèn)知。各大高校將設(shè)立專(zhuān)門(mén)的數(shù)據(jù)科學(xué)類(lèi)專(zhuān)業(yè),也會(huì)催生一批與之相關(guān)的新的就業(yè)崗位。與此同時(shí),基于數(shù)據(jù)這個(gè)基礎(chǔ)平臺(tái),也將建立起跨領(lǐng)域的數(shù)據(jù)共享平臺(tái),之后,數(shù)據(jù)共享將擴(kuò)展到企業(yè)層面,并且成為未來(lái)產(chǎn)業(yè)的核心一環(huán)。1.5大數(shù)據(jù)的發(fā)展趨勢(shì)(5)數(shù)據(jù)泄露泛濫未來(lái)幾年數(shù)據(jù)泄露事件的增長(zhǎng)率也許會(huì)達(dá)到100%,除非數(shù)據(jù)在其源頭就能夠得到安全保障。企業(yè)需要從新的角度來(lái)確保自身以及客戶數(shù)據(jù),所有數(shù)據(jù)在創(chuàng)建之初便需要獲得安全保障,而并非在數(shù)據(jù)保存的最后一個(gè)環(huán)節(jié),僅僅加強(qiáng)后者的安全措施已被證明于事無(wú)補(bǔ)。(6)數(shù)據(jù)管理成為核心競(jìng)爭(zhēng)力數(shù)據(jù)管理直接影響財(cái)務(wù)表現(xiàn),當(dāng)“數(shù)據(jù)資產(chǎn)是企業(yè)核心資產(chǎn)”的概念深入人心之后,企業(yè)對(duì)于數(shù)據(jù)管理便有了更清晰的界定,將數(shù)據(jù)管理作為企業(yè)核心競(jìng)爭(zhēng)力,持續(xù)發(fā)展,戰(zhàn)略性規(guī)劃與運(yùn)用數(shù)據(jù)資產(chǎn),成為企業(yè)數(shù)據(jù)管理的核心。(7)數(shù)據(jù)質(zhì)量是BI(BusinessIntelligence,商業(yè)智能)成功的關(guān)鍵采用自助式商業(yè)智能工具進(jìn)行大數(shù)據(jù)處理的企業(yè)將會(huì)脫穎而出。其中要面臨的一個(gè)挑戰(zhàn)是,很多數(shù)據(jù)源會(huì)帶來(lái)大量低質(zhì)量數(shù)據(jù)。想要成功,企業(yè)需要理解原始數(shù)據(jù)與數(shù)據(jù)分析之間的差距,從而消除低質(zhì)量數(shù)據(jù)并通過(guò)BI獲得更佳決策。(8)數(shù)據(jù)生態(tài)系統(tǒng)復(fù)合化程度加強(qiáng)大數(shù)據(jù)的世界不只是一個(gè)單一的、巨大的計(jì)算機(jī)網(wǎng)絡(luò),而是一個(gè)由大量活動(dòng)構(gòu)件與多元參與者元素所構(gòu)成的生態(tài)系統(tǒng),終端設(shè)備提供商、基礎(chǔ)設(shè)施提供商、網(wǎng)絡(luò)服務(wù)提供商、網(wǎng)絡(luò)接入服務(wù)提供商、數(shù)據(jù)服務(wù)使用者、數(shù)據(jù)服務(wù)提供商、觸點(diǎn)服務(wù)、數(shù)據(jù)服務(wù)零售商等一系列的參與者共同構(gòu)建的生態(tài)系統(tǒng)。課后習(xí)題1.簡(jiǎn)述什么是大數(shù)據(jù)?2.大數(shù)據(jù)的數(shù)據(jù)有什么特點(diǎn)?3.大數(shù)據(jù)對(duì)科學(xué)研究有什么影響?4.大數(shù)據(jù)有哪些數(shù)據(jù)類(lèi)型?5.大數(shù)據(jù)有哪些應(yīng)用?課后答案1.答:大數(shù)據(jù)(bigdata)是指無(wú)法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。2.答:數(shù)據(jù)量大(Volume)、數(shù)據(jù)類(lèi)型復(fù)雜(Variety)、數(shù)據(jù)產(chǎn)生速度快(Velocity)、價(jià)值密度低(Value)。3.答:促進(jìn)了科學(xué)研究的第四范式產(chǎn)生和交叉學(xué)科的發(fā)展。4.答:有結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)。5.答:大數(shù)據(jù)可以在眾多領(lǐng)域創(chuàng)造巨大的衍生價(jià)值:實(shí)現(xiàn)數(shù)據(jù)的資源化,幫助企業(yè)搶占市場(chǎng),提供個(gè)性化服務(wù),指定有效方針等;與云計(jì)算深度結(jié)合;可能會(huì)改變數(shù)據(jù)世界里的很多算法和基礎(chǔ)理論,實(shí)現(xiàn)科學(xué)技術(shù)上的突破感謝大家的全力支持LOGO第2章大數(shù)據(jù)與云計(jì)算BigDataandCloudComputing云計(jì)算概述2.1云計(jì)算的主要部署模式2.2云計(jì)算的主要服務(wù)模式2.3云計(jì)算與大數(shù)據(jù)體系架構(gòu)關(guān)系2.42.5物聯(lián)網(wǎng)、大數(shù)據(jù)和云計(jì)算之間的關(guān)系2.1.1云計(jì)算的提出

在不同時(shí)期,信息產(chǎn)業(yè)的發(fā)展有兩個(gè)重要的核心驅(qū)動(dòng)力:硬件驅(qū)動(dòng)力、網(wǎng)絡(luò)驅(qū)動(dòng)力。這兩種驅(qū)動(dòng)力量的對(duì)比和變化決定著產(chǎn)業(yè)中不同產(chǎn)品的出現(xiàn)時(shí)期以及不同形態(tài)的企業(yè)出現(xiàn)和消亡的時(shí)間。以硬件為核心驅(qū)動(dòng)的時(shí)代誕生了IBM、微軟、Intel等企業(yè)。以網(wǎng)絡(luò)為核心驅(qū)動(dòng)的時(shí)代誕生了Google、雅虎、亞馬遜等企業(yè)。2.1云計(jì)算概述2.1.1云計(jì)算的提出2.1云計(jì)算概述2006年,Google公司CEO埃里克·施密特(EricSchmidt)在搜索引擎大會(huì)(SESSanJose)首次提出“云計(jì)算”概念及體系架構(gòu),并快速得到了業(yè)界認(rèn)可,如圖所示。2008年,云計(jì)算概念全面進(jìn)入中國(guó),2009年,中國(guó)首屆云計(jì)算大會(huì)召開(kāi),此后云計(jì)算技術(shù)和產(chǎn)品迅速發(fā)展起來(lái)。2.1.2云計(jì)算的定義2.1云計(jì)算概述

(1)維基百科:云計(jì)算是一種動(dòng)態(tài)擴(kuò)展的計(jì)算模式,通過(guò)網(wǎng)絡(luò)將虛擬化的資源作為服務(wù)提供給用戶;云計(jì)算通常包含基礎(chǔ)設(shè)施即服務(wù)(InfrastructureasaService,IaaS)、平臺(tái)即服務(wù)(PlatformasaService,PaaS)、軟件即服務(wù)(SoftwareasaService,SaaS)。

(2)美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)實(shí)驗(yàn)室(NationalInstituteofStandardsandTechnology,NIST):云計(jì)算是一種無(wú)處不在的、便捷的通過(guò)互聯(lián)網(wǎng)訪問(wèn)的一個(gè)可定制的IT資源(IT資源包括網(wǎng)絡(luò)、服務(wù)器、存儲(chǔ)、應(yīng)用軟件和服務(wù))共享池,是一種按使用量付費(fèi)的模式。它能夠通過(guò)最少量的管理或與服務(wù)供應(yīng)商的互動(dòng)實(shí)現(xiàn)計(jì)算資源的迅速供給和釋放。這也是現(xiàn)階段廣為接受的云計(jì)算的定義。2.1.2云計(jì)算的定義2.1云計(jì)算概述

簡(jiǎn)而言之,云計(jì)算是一種通過(guò)互聯(lián)網(wǎng)以服務(wù)的方式提供動(dòng)態(tài)可伸縮的虛擬化資源的計(jì)算模式。云計(jì)算的資源是分布式架構(gòu)并通過(guò)虛擬化技術(shù)實(shí)現(xiàn)動(dòng)態(tài)易擴(kuò)展,通過(guò)互聯(lián)網(wǎng)提供的一種具有服務(wù)等級(jí)協(xié)議(Service-LevelAgreement,SLA)的服務(wù)。該協(xié)議是云服務(wù)提供商和客戶之間的一份商業(yè)保障合同,而非一般的服務(wù)承諾。終端用戶不需要了解“云”中基礎(chǔ)設(shè)施的細(xì)節(jié),不必具有相應(yīng)的專(zhuān)業(yè)知識(shí),也無(wú)需直接進(jìn)行控制,只關(guān)注自己真正需要什么樣的資源以及如何通過(guò)網(wǎng)絡(luò)來(lái)得到相應(yīng)的服務(wù)。2.1.3云計(jì)算的概念模型2.1云計(jì)算概述

(1)用戶的公共性。云計(jì)算面向各類(lèi)用戶,包括企業(yè)、政府、學(xué)術(shù)機(jī)構(gòu)、個(gè)人等用戶,也包括應(yīng)用軟件、中間件平臺(tái)等“用戶”。這些用戶不需了解“云”中基礎(chǔ)設(shè)施的細(xì)節(jié),不必具有相應(yīng)的專(zhuān)業(yè)知識(shí),也無(wú)需直接進(jìn)行控制,只關(guān)注自己真正需要的資源以及如何通過(guò)網(wǎng)絡(luò)來(lái)得到相應(yīng)的服務(wù)。

(2)設(shè)備的多樣性。云計(jì)算希望提供服務(wù)的設(shè)備是多樣的,既包括各種規(guī)模的服務(wù)器、主機(jī)、存儲(chǔ)設(shè)備,也包括各種類(lèi)型的終端設(shè)備,如計(jì)算機(jī)、智能手機(jī)、各種智能傳感器設(shè)備等。2.1.3云計(jì)算的概念模型2.1云計(jì)算概述

(3)商業(yè)模式的服務(wù)性。云計(jì)算的服務(wù)特性體現(xiàn)在兩個(gè)方面:簡(jiǎn)化和標(biāo)準(zhǔn)的服務(wù)接口、按需計(jì)費(fèi)的商業(yè)模式。

(4)提供方式的靈活性。云計(jì)算既可以作為一種公用設(shè)施,提供社會(huì)服務(wù),即“公有云”,也可以作為企業(yè)信息化的集中計(jì)算平臺(tái)來(lái)提供,即“私有云”。2.1.4云計(jì)算的特點(diǎn)2.1云計(jì)算概述(2)資源虛擬化(Virtualization)和彈性調(diào)度。(1)具有大規(guī)模并行計(jì)算能力。(3)數(shù)據(jù)量巨大并且增速迅猛產(chǎn)生了典型的大數(shù)據(jù)處理技術(shù)。

“云”已經(jīng)具有相當(dāng)規(guī)模,Google云計(jì)算已經(jīng)擁有100多萬(wàn)臺(tái)服務(wù)器,Amazon、IBM、微軟、Yahoo等的“云”均擁有幾十萬(wàn)臺(tái)服務(wù)器,企業(yè)私有云一般擁有數(shù)百上千臺(tái)服務(wù)器,這些服務(wù)器的硬件架構(gòu)是集群,為大粒度應(yīng)用提供傳統(tǒng)計(jì)算系統(tǒng)或用戶終端所無(wú)法完成的并行計(jì)算服務(wù)。云計(jì)算向外提供的是計(jì)算能力、存儲(chǔ)能力、網(wǎng)絡(luò)能力等各種服務(wù)能力。

云計(jì)算的硬件資源是以分布式系統(tǒng)為底層架構(gòu),上層通過(guò)虛擬化技術(shù)進(jìn)行業(yè)務(wù)的彈性伸縮,以按需分配方式,為小粒度應(yīng)用提供計(jì)算資源,實(shí)現(xiàn)資源共享。即云計(jì)算能夠根據(jù)用戶的實(shí)際需求動(dòng)態(tài)分配和釋放不同的資源,當(dāng)有新需求出現(xiàn)時(shí),可為用戶快速匹配新的資源并及時(shí)分配,以保證資源提供的彈性;而當(dāng)用戶不再需要這些資源時(shí),會(huì)迅速釋放,提供給其他需要的用戶。

大數(shù)據(jù)離不開(kāi)云處理,云處理為大數(shù)據(jù)提供了彈性可拓展的基礎(chǔ)設(shè)備,是產(chǎn)生大數(shù)據(jù)的平臺(tái)之一。自2013年開(kāi)始,大數(shù)據(jù)技術(shù)已開(kāi)始和云計(jì)算技術(shù)緊密結(jié)合,預(yù)計(jì)未來(lái)兩者關(guān)系將更為密切。除此之外,物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)等新興計(jì)算形態(tài),也將一齊助力大數(shù)據(jù)革命,讓大數(shù)據(jù)營(yíng)銷(xiāo)發(fā)揮出更大的影響力。2.2.1公有云2.2云計(jì)算的主要部署模式

公有云:提供面向社會(huì)大眾、公共群體的云計(jì)算服務(wù)。公有云用戶以付費(fèi)的方式,根據(jù)業(yè)務(wù)需要彈性使用IT分配的資源,用戶不需要自己構(gòu)建硬件、軟件等基礎(chǔ)設(shè)施和后期維護(hù),可以在任何地方、任何時(shí)間、多種方式、以互聯(lián)網(wǎng)的形式訪問(wèn)獲取資源。公有云如同日常生活中按需購(gòu)買(mǎi)使用的水、電一樣,方便、快捷地享受服務(wù)。

目前,比較流行的公有云平臺(tái)有國(guó)外的亞馬遜云平臺(tái)AWS(AmazonWebServices)、GAE(GoogleAppEngine)等,國(guó)內(nèi)的有阿里云、SAE(SinaAppEngine)、BAE(BaiduAppEngine)等。亞馬遜的AWS提供了大量基于云的全球性產(chǎn)品,包括計(jì)算、存儲(chǔ)、數(shù)據(jù)庫(kù)、分析、聯(lián)網(wǎng)、移動(dòng)產(chǎn)品、開(kāi)發(fā)人員工具、管理工具、物聯(lián)網(wǎng)、安全性和企業(yè)級(jí)應(yīng)用程序,這些服務(wù)及應(yīng)用程序可幫助企業(yè)或組織快速發(fā)展自己的業(yè)務(wù)、降低IT成本,使來(lái)自中國(guó)乃至全球的眾多客戶從中獲益。

公有云有很多優(yōu)點(diǎn),但最大的缺點(diǎn)是難以保證數(shù)據(jù)的私密性。2.2.2私有云2.2云計(jì)算的主要部署模式

私有云:提供面向應(yīng)用行業(yè)/組織內(nèi)的云計(jì)算服務(wù)。私有云一般由一個(gè)組織來(lái)使用,同時(shí)由這個(gè)組織來(lái)運(yùn)營(yíng)。如政府機(jī)關(guān)、移動(dòng)通信、學(xué)校等內(nèi)部使用的云平臺(tái)。私有云可較好地解決數(shù)據(jù)私密性問(wèn)題,對(duì)移動(dòng)通信、公安等數(shù)據(jù)私密性要求特別高的企業(yè)或機(jī)構(gòu),建設(shè)私有云將是一個(gè)必然的選擇。使用私有云提供的云計(jì)算服務(wù)需要一定的權(quán)限,一般只提供給企業(yè)內(nèi)部員工使用。其主要目的是合理地組織企業(yè)已有的軟硬件資源,提供更加可靠、彈性的服務(wù)供企業(yè)內(nèi)部使用。比較流行的私有云平臺(tái)有VMwarevCloudSuite和微軟的MicrosoftSystemCenter2016。

2.2.2私有云舉例2.2云計(jì)算的主要部署模式

①VMwarevCloudSuite私有云。

VMware是全球領(lǐng)先的虛擬化解決方案提供商,能對(duì)用戶的硬件資源進(jìn)行有效地整合,簡(jiǎn)化管理,提升硬件資源的利用率。VMwarevCloudSuite可構(gòu)建和管理基于軟件定義數(shù)據(jù)中心的VMwarevSphere企業(yè)私有云,VMwarevSphere能夠跨數(shù)據(jù)中心,實(shí)現(xiàn)高可用的、可擴(kuò)展的并按需分配的企業(yè)硬件IT基礎(chǔ)架構(gòu)。

②MicrosoftSystemCenter2016私有云。

它提供了本地企業(yè)環(huán)境與WindowsAzure集成的各種服務(wù),可以讓企業(yè)輕松地從本地環(huán)境遷移到微軟Azure公有云。它包括基礎(chǔ)設(shè)施管理和DevOps的資源配置、監(jiān)控、自動(dòng)化、端點(diǎn)保護(hù)和備份與恢復(fù)。SystemCenter2016能實(shí)現(xiàn)企業(yè)的數(shù)據(jù)中心向私有云轉(zhuǎn)型,使企業(yè)數(shù)據(jù)中心更可靠、可擴(kuò)展、彈性地滿足企業(yè)不斷增長(zhǎng)的業(yè)務(wù)需求。2.2.3混合云2.2云計(jì)算的主要部署模式

混合云:是把公有云和私有云進(jìn)行整合,吸納二者的優(yōu)點(diǎn),給企業(yè)帶來(lái)真正意義上的云計(jì)算服務(wù)。混合云是未來(lái)云發(fā)展的方向。混合云既能利用企業(yè)在IT基礎(chǔ)設(shè)施的巨大投入,又能解決公有云帶來(lái)的數(shù)據(jù)安全等問(wèn)題,是避免企業(yè)變成信息孤島的最佳解決方案。混合云強(qiáng)調(diào)基礎(chǔ)設(shè)施是由兩種或多種云組成的,但對(duì)外呈現(xiàn)的是一個(gè)完整的整體。企業(yè)正常運(yùn)營(yíng)時(shí),把重要數(shù)據(jù)保存在自己的私有云里面(如財(cái)務(wù)數(shù)據(jù)),把不重要的信息或需要對(duì)公眾開(kāi)放的信息放到公有云里,兩種云組合形成一個(gè)整體,這就是混合云。

組建混合云的利器是OpenStack,它可以把各種云計(jì)算平臺(tái)資源進(jìn)行異構(gòu)整合,構(gòu)建企業(yè)級(jí)混合云,使企業(yè)可以根據(jù)自己的需求靈活自定義各種云計(jì)算服務(wù)。在搭建企業(yè)云計(jì)算平臺(tái)時(shí),使用OpenStack架構(gòu)是最理想的解決方案,雖然入門(mén)門(mén)檻較高,但是隨著項(xiàng)目規(guī)模的擴(kuò)大,企業(yè)終將從中受益,因?yàn)椴槐刂Ц对破脚_(tái)中軟件的購(gòu)買(mǎi)費(fèi)用。2.2.3混合云舉例2.2云計(jì)算的主要部署模式

混合云計(jì)算的典型案例是12306火車(chē)票購(gòu)票網(wǎng)站。12306購(gòu)票網(wǎng)站最初是私有云計(jì)算,消費(fèi)者平時(shí)用12306購(gòu)票沒(méi)有問(wèn)題,但是一到節(jié)假日(如春節(jié)),有大量購(gòu)票需求的時(shí)候,消費(fèi)者在購(gòu)票的時(shí)候就會(huì)出現(xiàn)頁(yè)面響應(yīng)慢或者頁(yè)面報(bào)錯(cuò)的情況,甚至還會(huì)出現(xiàn)無(wú)法付款的情況,用戶體驗(yàn)特別差。為了解決上述問(wèn)題,12306火車(chē)購(gòu)票網(wǎng)站與阿里云簽訂戰(zhàn)略合作,由阿里云提供計(jì)算能力以滿足業(yè)務(wù)高峰期查票檢索服務(wù),而支付業(yè)務(wù)等關(guān)鍵業(yè)務(wù)在12306自己的私有云環(huán)境之中運(yùn)行。兩者組合成一個(gè)新的混合云,對(duì)外呈現(xiàn)還是一個(gè)完整的系統(tǒng)——12306火車(chē)購(gòu)票網(wǎng)站。在企業(yè)中,私有云能更好地調(diào)度和使用自動(dòng)化管理物理資源,使企業(yè)基礎(chǔ)設(shè)施更高效地運(yùn)行,結(jié)合公有云,使企業(yè)在相互協(xié)同、合作、創(chuàng)新等方面更加高效。2.3.1基礎(chǔ)設(shè)施即服務(wù)(IaaS)2.3云計(jì)算的主要服務(wù)模式IaaS主要用戶是系統(tǒng)管理員,他們具有專(zhuān)業(yè)知識(shí)能力,直接利用云提供的資源進(jìn)行業(yè)務(wù)的部署或簡(jiǎn)單的開(kāi)發(fā)。服務(wù)提供商提供給用戶的服務(wù)是計(jì)算和存儲(chǔ)基礎(chǔ)設(shè)施,包括CPU、內(nèi)存、存儲(chǔ)、網(wǎng)絡(luò)和其他基本的資源。用戶不管理或控制任何云計(jì)算基礎(chǔ)設(shè)施,但能控制操作系統(tǒng)的選擇,存儲(chǔ)空間、部署和運(yùn)行任意軟件,也可獲得有限的網(wǎng)絡(luò)組件(如路由器、防火墻、負(fù)載均衡器等)的控制。IaaS的典型代表是Amazon(前身是網(wǎng)上書(shū)店),Amazon的WebService提供了兩個(gè)云平臺(tái):彈性計(jì)算云EC2(ElasticComputingCloud)和簡(jiǎn)單存儲(chǔ)服務(wù)S3(SimpleStorageService),EC2完成計(jì)算功能,S3完成存儲(chǔ)功能。2.3.2平臺(tái)即服務(wù)(PaaS)2.3云計(jì)算的主要服務(wù)模式PaaS主要用戶是開(kāi)發(fā)人員。PaaS是把應(yīng)用服務(wù)的運(yùn)行和開(kāi)發(fā)環(huán)境作為一種服務(wù)提供的商業(yè)模式。即PaaS是把二次開(kāi)發(fā)的平臺(tái)以服務(wù)形式提供給開(kāi)發(fā)軟件的用戶使用,開(kāi)發(fā)人員不需要管理或控制底層的云計(jì)算基礎(chǔ)設(shè)施,但可以方便地使用很多在構(gòu)建應(yīng)用時(shí)的必要服務(wù),能控制部署的應(yīng)用程序開(kāi)發(fā)平臺(tái)。PaaS的典型案例有微軟的VisualStudio開(kāi)發(fā)平臺(tái)和GoogleAppEngine(應(yīng)用引擎)平臺(tái)。GoogleAppEngine和Amazon的S3、EC2不同,因?yàn)楹笳呤侵苯犹峁┑氖且幌盗杏布Y源供用戶選擇使用。PaaS的關(guān)鍵技術(shù)有兩個(gè),一個(gè)是分布式的并行計(jì)算,另一個(gè)是大文件分布式存儲(chǔ)。分布式并行計(jì)算技術(shù)是為了充分利用廣泛部署的普通計(jì)算資源實(shí)現(xiàn)大規(guī)模運(yùn)算和應(yīng)用的目的,實(shí)現(xiàn)真正將傳統(tǒng)運(yùn)算轉(zhuǎn)化為并行計(jì)算,為客戶提供并行服務(wù)。大文件分布式存儲(chǔ)是為了解決海量數(shù)據(jù)存儲(chǔ)在廉價(jià)的不可信結(jié)點(diǎn)集群架構(gòu)上數(shù)據(jù)安全性及運(yùn)行性的保證。2.3.3軟件即服務(wù)(SaaS)2.3云計(jì)算的主要服務(wù)模式SaaS的客戶群體是普通用戶。服務(wù)提供商提供給用戶的服務(wù)是運(yùn)行在云計(jì)算基礎(chǔ)設(shè)施上的應(yīng)用程序,用戶只需要通過(guò)終端設(shè)備接入使用即可,簡(jiǎn)單方便,不需要用戶進(jìn)行軟件開(kāi)發(fā),也無(wú)需管理底層資源。如Office365、嘀嘀打車(chē)、共享單車(chē)等應(yīng)用軟件都屬于SaaS。在云平臺(tái)上,Office365把Word、Excel、PowerPoint、Project、PowerBI、OneNote、OneDrive、Exchange、Skype、SharePoin集成為企業(yè)所需的辦公云平臺(tái),它不僅可以在線使用,還可以下載到本地以客戶端形式使用,是一套完整、容易入門(mén)、性?xún)r(jià)比高、支持混合部署、支持自定義的辦公解決方案,與傳統(tǒng)意義的Office有天壤之別。SaaS的關(guān)鍵技術(shù)是多租戶技術(shù)。云計(jì)算要求硬件資源和軟件資源能夠更好的共享,要具有良好的伸縮性,任何一個(gè)用戶都能夠按照自己的需求進(jìn)行客戶化配置而不影響其他用戶的使用。

2.3.4三種服務(wù)模式之間的關(guān)系2.3云計(jì)算的主要服務(wù)模式

①?gòu)挠脩趔w驗(yàn)角度分析從用戶體驗(yàn)角度而言,它們之間關(guān)系是獨(dú)立的,因?yàn)樗鼈兠鎸?duì)的是不同類(lèi)型的用戶。SaaS主要面對(duì)的是普通用戶。PaaS主要的用戶是開(kāi)發(fā)人員。為了支撐著整個(gè)PaaS平臺(tái)的運(yùn)行,供應(yīng)商需要提供四大功能:友好的開(kāi)發(fā)環(huán)境、豐富的服務(wù)、自動(dòng)的資源調(diào)度、精細(xì)的管理和監(jiān)控。IaaS主要的用戶是系統(tǒng)管理員,具有專(zhuān)業(yè)知識(shí)能力。IaaS供應(yīng)商需要在7個(gè)方面對(duì)基礎(chǔ)設(shè)施進(jìn)行管理以給用戶提供資源,它們是資源抽象、資源監(jiān)控、負(fù)載管理、數(shù)據(jù)管理、資源部署、安全管理和計(jì)費(fèi)管理。

②從技術(shù)角度分析云計(jì)算的服務(wù)層次是根據(jù)服務(wù)類(lèi)型來(lái)劃分的,與大家熟悉的計(jì)算機(jī)網(wǎng)絡(luò)體系結(jié)構(gòu)中層次的劃分不同。從技術(shù)角度而言,它們有一定的繼承關(guān)系,即SaaS基于PaaS,PaaS基于IaaS,但并不是簡(jiǎn)單的繼承關(guān)系。因?yàn)镾aaS可以是基于PaaS或者直接部署于IaaS之上,PaaS可以構(gòu)建于IaaS之上,也可以直接構(gòu)建在物理資源之上,也就是說(shuō)某一層次可以單獨(dú)完成一項(xiàng)用戶的請(qǐng)求而不需要其他層次為其提供必要的服務(wù)和支持。云計(jì)算系統(tǒng)按資源封裝的層次分為對(duì)底層硬件資源不同級(jí)別的封裝,從而實(shí)現(xiàn)將資源轉(zhuǎn)變?yōu)榉?wù)的目的。2.4云計(jì)算與大數(shù)據(jù)體系架構(gòu)關(guān)系

云計(jì)算與大數(shù)據(jù)是一對(duì)相輔相成的概念,它們描述了面向數(shù)據(jù)時(shí)代信息技術(shù)的兩個(gè)方面,云計(jì)算側(cè)重于提供資源和應(yīng)用的網(wǎng)絡(luò)化交付方法,大數(shù)據(jù)側(cè)重于應(yīng)對(duì)數(shù)據(jù)量巨大所帶來(lái)的技術(shù)挑戰(zhàn)。大數(shù)據(jù)分析常和云計(jì)算聯(lián)系到一起,因?yàn)閷?shí)時(shí)的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來(lái)向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。

導(dǎo)言:2.4云計(jì)算與大數(shù)據(jù)體系架構(gòu)關(guān)系2.4.1云計(jì)算基礎(chǔ)設(shè)施——Google平臺(tái)

云計(jì)算的邏輯架構(gòu)是以Google提出的云計(jì)算邏輯架構(gòu)而發(fā)展起來(lái)的,Google提出了一整套基于分布式的并行集群基礎(chǔ)架構(gòu),并且Google的數(shù)據(jù)中心采用廉價(jià)的LinuxPC機(jī)組成集群,利用軟件來(lái)處理集群中經(jīng)常發(fā)生的結(jié)點(diǎn)失效問(wèn)題,從而形成了Google的云計(jì)算基礎(chǔ)架構(gòu)。Google的云計(jì)算基礎(chǔ)架構(gòu)包括三個(gè)相互獨(dú)立又緊密結(jié)合在一起的系統(tǒng):GFS分布式文件系統(tǒng)(GoogleFileSystem)、針對(duì)Google應(yīng)用程序的特點(diǎn)提出的MapReduce編程模式和大規(guī)模分布式數(shù)據(jù)庫(kù)BigTable。2.4云計(jì)算與大數(shù)據(jù)體系架構(gòu)關(guān)系2.4.1云計(jì)算基礎(chǔ)設(shè)施——Google平臺(tái)(1)GFS是建立在集群之上的分布式文件系統(tǒng),解決了超大文件存儲(chǔ)、訪問(wèn)、讀操作比例遠(yuǎn)超過(guò)寫(xiě)操作和集群中的結(jié)點(diǎn)極易發(fā)生故障造成結(jié)點(diǎn)失效等問(wèn)題。GFS默認(rèn)把超大文件分成64MB固定大小的塊,分布在集群的機(jī)器上;為了提高可靠性,每個(gè)塊文件至少有3份以上的冗余,從而解決結(jié)點(diǎn)失效問(wèn)題。(2)MapReduce是分布式并行編程模式,解決了并行計(jì)算問(wèn)題。用戶只需要提供自己的Map函數(shù)以及Reduce函數(shù),就可以在集群上進(jìn)行大規(guī)模的分布式并行數(shù)據(jù)處理,并把結(jié)果存儲(chǔ)在GFS上。(3)BigTable是弱一致性要求的分布式大規(guī)模數(shù)據(jù)庫(kù)管理系統(tǒng),解決了海量非關(guān)系型數(shù)據(jù)的存儲(chǔ)。它是稀疏的、分布式的、持久化的、多維排序的,并以Key/Value對(duì)形式存儲(chǔ)的數(shù)據(jù)模型。BigTable不是關(guān)系型數(shù)據(jù)庫(kù),像它的名字一樣,就是一個(gè)巨大的表格,用來(lái)存儲(chǔ)半結(jié)構(gòu)化數(shù)據(jù)。2.4云計(jì)算與大數(shù)據(jù)體系架構(gòu)關(guān)系2.4.2大數(shù)據(jù)基礎(chǔ)設(shè)施——Hadoop平臺(tái)HDFS是Hadoop的分布式文件存儲(chǔ)系統(tǒng)。從用戶角度看,HDFS和其他分布式文件系統(tǒng)沒(méi)有什么區(qū)別,都具有創(chuàng)建文件、刪除文件、移動(dòng)文件和重命名文件等功能。但HDFS是用來(lái)設(shè)計(jì)存儲(chǔ)大數(shù)據(jù)的,并且是分布式存儲(chǔ),所以所有特點(diǎn)都與大數(shù)據(jù)和分布式有關(guān)。為了滿足大數(shù)據(jù)的處理需求,Hadoop對(duì)超大文件的訪問(wèn)、讀操作比例遠(yuǎn)超過(guò)寫(xiě)操作、集群中的結(jié)點(diǎn)極易發(fā)生故障造成結(jié)點(diǎn)失效等問(wèn)題從技術(shù)上進(jìn)行了優(yōu)化。2.4云計(jì)算與大數(shù)據(jù)體系架構(gòu)關(guān)系2.4.2大數(shù)據(jù)基礎(chǔ)設(shè)施——Hadoop平臺(tái)Hadoop實(shí)現(xiàn)了一個(gè)對(duì)大數(shù)據(jù)進(jìn)行分布式并行處理的系統(tǒng)框架,是一種數(shù)據(jù)并行的處理方法。由實(shí)現(xiàn)數(shù)據(jù)分析的MapReduce計(jì)算框架和實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)的分布式文件系統(tǒng)HDFS有機(jī)結(jié)合組成,它自動(dòng)把應(yīng)用程序分割成許多小的工作單元,并把這些單元放到集群中的相應(yīng)結(jié)點(diǎn)上執(zhí)行,而分布式文件系統(tǒng)HDFS負(fù)責(zé)各個(gè)結(jié)點(diǎn)上數(shù)據(jù)的存儲(chǔ),實(shí)現(xiàn)高吞吐率的數(shù)據(jù)讀寫(xiě)。2.4云計(jì)算與大數(shù)據(jù)體系架構(gòu)關(guān)系2.4.2大數(shù)據(jù)基礎(chǔ)設(shè)施——Hadoop平臺(tái)MapReduce是一個(gè)分布式計(jì)算框架,是Hadoop的一個(gè)基礎(chǔ)組件。分為Map和Reduce過(guò)程,是一種將大任務(wù)細(xì)分處理再匯總結(jié)果的一種方法。MapReduce是一種編程模型,支持使用廉價(jià)的計(jì)算機(jī)集群對(duì)規(guī)模達(dá)到PB級(jí)的數(shù)據(jù)集進(jìn)行分布式并行計(jì)算。MapReduce由Map函數(shù)和Reduce函數(shù)構(gòu)成,分別完成任務(wù)的分解與結(jié)果的匯總。MapReduce的用途是進(jìn)行批量處理,不是進(jìn)行實(shí)時(shí)查詢(xún),即特別不適用于交互式應(yīng)用。它極大地方便了編程人員在不會(huì)分布式并行編程的情況下,將自己的程序運(yùn)行在分布式系統(tǒng)上。2.4云計(jì)算與大數(shù)據(jù)體系架構(gòu)關(guān)系2.4.3Hadoop生態(tài)系統(tǒng)(1)ETLTools是構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的重要環(huán)節(jié),由一系列數(shù)據(jù)倉(cāng)庫(kù)采集工具構(gòu)成。(2)BIReporting(BusinessIntelligenceReporting,商業(yè)智能報(bào)表)能提供綜合報(bào)告、數(shù)據(jù)分析和數(shù)據(jù)集成等功能。(3)RDBMS是關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)。RDBMS中的數(shù)據(jù)存儲(chǔ)在被稱(chēng)為表(Table)的數(shù)據(jù)庫(kù)中。表是相關(guān)記錄的集合,它由行和列組成,是一種二維關(guān)系表。(4)Pig數(shù)據(jù)分析語(yǔ)言提供相應(yīng)的數(shù)據(jù)流(DataFlow)語(yǔ)言和運(yùn)行環(huán)境,實(shí)現(xiàn)數(shù)據(jù)轉(zhuǎn)換(使用管道)和實(shí)驗(yàn)性研究(如快速原型)。適用于數(shù)據(jù)準(zhǔn)備階段,Pig運(yùn)行在由Hadoop基本架構(gòu)構(gòu)建的集群上。(5)Hive分布式數(shù)據(jù)倉(cāng)庫(kù)擅長(zhǎng)于數(shù)據(jù)展示,由Facebook開(kāi)發(fā)。Hive管理存儲(chǔ)在HDFS中的數(shù)據(jù),提供了基于SQL的查詢(xún)語(yǔ)言查詢(xún)數(shù)據(jù)。Hive和Pig都是建立在Hadoop基本架構(gòu)之上,可以用來(lái)從數(shù)據(jù)庫(kù)中提取信息,交給Hadoop處理。(6)Sqoop是數(shù)據(jù)格式轉(zhuǎn)化工具,是完成HDFS和關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù)相互轉(zhuǎn)移的工具。2.4云計(jì)算與大數(shù)據(jù)體系架構(gòu)關(guān)系2.4.3Hadoop生態(tài)系統(tǒng)(7)HBase是類(lèi)似于GoogleBigTable的分布式列數(shù)據(jù)庫(kù)。HBase支持MapReduce的并行計(jì)算和點(diǎn)查詢(xún)(即隨機(jī)讀?。Base是基于Java的產(chǎn)品,與其對(duì)應(yīng)的基于C++的開(kāi)源項(xiàng)目是HyperTable,也是Apache的項(xiàng)目。(8)Avro是一種新的數(shù)據(jù)序列化(Serialization)格式和傳輸工具,主要用來(lái)取代Hadoop基本架構(gòu)中原有的IPC(Inter-ProcessCommunication,進(jìn)程間通信)機(jī)制。(9)Zookeeper是協(xié)同工作系統(tǒng),用于構(gòu)建分布式應(yīng)用,是一種分布式鎖設(shè)施,提供類(lèi)似GoogleChubby(主要用于解決分布式一致性問(wèn)題)的功能,它是基于HBase和HDFS的,由Facebook開(kāi)發(fā)。(10)Ambari旨在將監(jiān)控和管理等核心功能加入Hadoop。Ambari可幫助系統(tǒng)管理員部署和配置Hadoop、升級(jí)集群,并可提供監(jiān)控服務(wù)。(11)Flume是Cloudera提供的一個(gè)高可用的、高可靠的、分布式的海量日志收集工具,即Flume支持在日志系統(tǒng)中定制各類(lèi)數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時(shí),F(xiàn)lume提供對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單處理,并寫(xiě)到各種數(shù)據(jù)接收方(可定制)的能力。2.5物聯(lián)網(wǎng)、大數(shù)據(jù)和云計(jì)算之間的關(guān)系2.5.1物聯(lián)網(wǎng)

物聯(lián)網(wǎng)是新一代信息技術(shù)的重要組成部分,也是信息化時(shí)代的重要發(fā)展階段。其英文名稱(chēng)是:“InternetofThings(IoT)”。顧名思義,物聯(lián)網(wǎng)就是物物相連的互聯(lián)網(wǎng)。其中物聯(lián)網(wǎng)的基礎(chǔ)是互聯(lián)網(wǎng),以互聯(lián)網(wǎng)的形式把物與物聯(lián)系在一起,進(jìn)行信息交換和通信,是互聯(lián)網(wǎng)對(duì)象的擴(kuò)展和延伸,即萬(wàn)物互聯(lián)。

物聯(lián)網(wǎng)必將引發(fā)一場(chǎng)新的技術(shù)與商業(yè)革命,將把人類(lèi)推向一個(gè)萬(wàn)物智能的世界,任何事物都有學(xué)習(xí)、發(fā)現(xiàn)、傾聽(tīng)、感知的能力。未來(lái)的公路、建筑、路燈、護(hù)欄、道路標(biāo)識(shí)線等都遍布信號(hào)探測(cè)器。智能汽車(chē)時(shí)刻與道路探測(cè)器和其他汽車(chē)進(jìn)行高速信息交換,智能汽車(chē)的圖像識(shí)別能力日益成熟,外加道路的全面物聯(lián)網(wǎng)化,汽車(chē)將實(shí)現(xiàn)無(wú)人駕駛,而且比人類(lèi)駕駛的汽車(chē)更安全、快捷。物聯(lián)網(wǎng)將顛覆人與物之間的相處模式,借助科技的力量可以改變?nèi)藗兊纳睢?.5物聯(lián)網(wǎng)、大數(shù)據(jù)和云計(jì)算之間的關(guān)系2.5.2邊緣計(jì)算

隨著物聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能、5G等信息技術(shù)的快速發(fā)展,云計(jì)算已經(jīng)無(wú)法滿足機(jī)器人、智能家居、無(wú)人駕駛、VR(VirtualReality,虛擬現(xiàn)實(shí))/AR(AugmentedReality,增強(qiáng)現(xiàn)實(shí))、新媒體、智能安防、遠(yuǎn)程醫(yī)療、可穿戴設(shè)備、智能制造等場(chǎng)景對(duì)低延遲的高要求,因此邊緣計(jì)算(EdgeComputing)產(chǎn)生。根據(jù)國(guó)際調(diào)研機(jī)構(gòu)Gartner公司的報(bào)告,到2022年,超過(guò)一半的企業(yè)數(shù)據(jù)將在傳統(tǒng)數(shù)據(jù)中心和云平臺(tái)之外的邊緣產(chǎn)生和處理,目前約為10%。邊緣計(jì)算的興起幫助企業(yè)近乎實(shí)時(shí)地分析信息,并圍繞物聯(lián)網(wǎng)設(shè)備和數(shù)據(jù)創(chuàng)造新的價(jià)值。

邊緣計(jì)算集結(jié)了云計(jì)算、CDN(ContentDeliveryNetwork)、硬件設(shè)備、運(yùn)營(yíng)商、研究機(jī)構(gòu)以及其它中小廠商等,CDN算是最早的邊緣計(jì)算的雛形。CDN主要是ContentCache(內(nèi)容緩存),現(xiàn)在是FunctionCache(功能緩存),等于要把計(jì)算功能搬到邊緣上來(lái),而不是簡(jiǎn)單的把內(nèi)容放上去。2.5物聯(lián)網(wǎng)、大數(shù)據(jù)和云計(jì)算之間的關(guān)系2.5.3霧計(jì)算

霧計(jì)算(FogComputing)是一種對(duì)云計(jì)算概念的延伸,云在天空飄浮,高高在上,遙不可及,刻意抽象;而霧卻現(xiàn)實(shí)可及,貼近地面,就在你我身邊。霧計(jì)算將數(shù)據(jù)、數(shù)據(jù)處理和應(yīng)用程序集中在網(wǎng)絡(luò)邊緣的設(shè)備(是由性能較弱、更為分散的各種功能計(jì)算機(jī)組成)中,而不是全部保存在云中,導(dǎo)致數(shù)據(jù)傳遞具有極低時(shí)延。霧計(jì)算具有遼闊的地理分布,帶有大量網(wǎng)絡(luò)結(jié)點(diǎn)的大規(guī)模傳感器網(wǎng)絡(luò)。霧計(jì)算移動(dòng)性好,手機(jī)和其他移動(dòng)設(shè)備可以互相之間直接通信,信號(hào)不必到云端甚至基站去繞一圈,支持很高的移動(dòng)性。

霧計(jì)算是介于云計(jì)算和個(gè)人計(jì)算之間的,是半虛擬化的服務(wù)計(jì)算架構(gòu)模型,強(qiáng)調(diào)數(shù)量,不管單個(gè)計(jì)算結(jié)點(diǎn)能力多么弱都要發(fā)揮作用。與云計(jì)算相比,霧計(jì)算所采用的架構(gòu)更呈分布式,完成的計(jì)算任務(wù)更接近網(wǎng)絡(luò)邊緣。霧計(jì)算將數(shù)據(jù)、數(shù)據(jù)處理和應(yīng)用程序集中在網(wǎng)絡(luò)邊緣的設(shè)備中,而不像云計(jì)算那樣將它們幾乎全部保存在云中,數(shù)據(jù)的存儲(chǔ)及處理更依賴(lài)本地設(shè)備,而非服務(wù)器。霧計(jì)算是新一代分布式計(jì)算,符合互聯(lián)網(wǎng)的“去中心化”特征。2.5物聯(lián)網(wǎng)、大數(shù)據(jù)和云計(jì)算之間的關(guān)系2.5.4大數(shù)據(jù)和云計(jì)算之間的關(guān)系

云計(jì)算的實(shí)質(zhì)是服務(wù),是一種新興的商業(yè)計(jì)算模式。云概念的提出是因?yàn)樗囊?guī)模很大,可以根據(jù)業(yè)務(wù)動(dòng)態(tài)伸縮。云計(jì)算是提供給這種商業(yè)模式的具體實(shí)現(xiàn),是互聯(lián)網(wǎng)產(chǎn)業(yè)發(fā)展到一定階段的必然產(chǎn)物。云計(jì)算與大數(shù)據(jù)是一對(duì)相輔相成的概念,它們描述了面向數(shù)據(jù)時(shí)代信息技術(shù)的兩個(gè)方面,云計(jì)算側(cè)重于提供資源和應(yīng)用的網(wǎng)絡(luò)化交付方法,大數(shù)據(jù)側(cè)重于應(yīng)對(duì)數(shù)據(jù)量巨大所帶來(lái)的技術(shù)挑戰(zhàn)。

云計(jì)算的核心是業(yè)務(wù)模式,其本質(zhì)是數(shù)據(jù)處理技術(shù)。數(shù)據(jù)是資產(chǎn),云計(jì)算為數(shù)據(jù)資產(chǎn)提供了存儲(chǔ)、訪問(wèn)的場(chǎng)所和計(jì)算能力,即云計(jì)算更偏重海量數(shù)據(jù)的存儲(chǔ)和計(jì)算,以及提供的云計(jì)算服務(wù),運(yùn)行云應(yīng)用。但是云計(jì)算缺乏盤(pán)活數(shù)據(jù)資產(chǎn)的能力,挖掘價(jià)值性信息和進(jìn)行預(yù)測(cè)性分析,為國(guó)家治理、企業(yè)決策乃至個(gè)人生活服務(wù),這是大數(shù)據(jù)的核心議題。云計(jì)算是基礎(chǔ)設(shè)施架構(gòu),大數(shù)據(jù)是思想方法,大數(shù)據(jù)技術(shù)將幫助人們從大體量、高度復(fù)雜的數(shù)據(jù)中分析、挖掘信息,從而發(fā)現(xiàn)價(jià)值和預(yù)測(cè)趨勢(shì)。習(xí)題1.簡(jiǎn)述什么是云計(jì)算?2.云計(jì)算有什么特點(diǎn)?3.請(qǐng)簡(jiǎn)述云計(jì)算的三種主要部署模式。4.請(qǐng)簡(jiǎn)述云計(jì)算的三種主要服務(wù)模式。5.請(qǐng)畫(huà)出云計(jì)算基礎(chǔ)設(shè)施Google平臺(tái)的基礎(chǔ)架構(gòu)圖。6.請(qǐng)畫(huà)出云計(jì)算基礎(chǔ)設(shè)施Hadoop平臺(tái)的基礎(chǔ)架構(gòu)圖。7.用自己的語(yǔ)言分別解釋物聯(lián)網(wǎng),邊緣計(jì)算,霧計(jì)算。答案1.簡(jiǎn)述什么是云計(jì)算?①云計(jì)算是一種動(dòng)態(tài)擴(kuò)展的計(jì)算模式,通過(guò)網(wǎng)絡(luò)將虛擬化的資源作為服務(wù)提供給用戶。②云計(jì)算是一種無(wú)處不在的、便捷的通過(guò)互聯(lián)網(wǎng)訪問(wèn)的一個(gè)可定制的IT資源(IT資源包括網(wǎng)絡(luò)、服務(wù)器、存儲(chǔ)、應(yīng)用軟件和服務(wù))共享池,是一種按使用量付費(fèi)的模式。它能夠通過(guò)最少量的管理或與服務(wù)供應(yīng)商的互動(dòng)實(shí)現(xiàn)計(jì)算資源的迅速供給和釋放2.云計(jì)算有什么特點(diǎn)?①具有大規(guī)模并行計(jì)算能力②資源虛擬化和彈性調(diào)度③數(shù)據(jù)量巨大并且增速迅猛產(chǎn)生了典型的大數(shù)據(jù)處理技術(shù)3.請(qǐng)簡(jiǎn)述云計(jì)算的三種主要部署模式。①公有云:提供面向社會(huì)大眾、公共群體的云計(jì)算服務(wù)②私有云:提供面向應(yīng)用行業(yè)/組織內(nèi)的云計(jì)算服務(wù)③混合云:是把公有云和私有云進(jìn)行整合,吸納二者的優(yōu)點(diǎn),給企業(yè)帶來(lái)真正意義上的云計(jì)算服務(wù)答案4.請(qǐng)簡(jiǎn)述云計(jì)算的三種主要服務(wù)模式。1.基礎(chǔ)設(shè)施即服務(wù)(IaaS)①主要用戶是系統(tǒng)管理員②直接利用云提供的資源進(jìn)行業(yè)務(wù)的部署或簡(jiǎn)單的開(kāi)發(fā)③服務(wù)提供商提供給用戶的服務(wù)是計(jì)算和存儲(chǔ)基礎(chǔ)設(shè)施④用戶不管理或控制任何云計(jì)算基礎(chǔ)設(shè)施,但能控制操作系統(tǒng)的選擇⑤關(guān)鍵技術(shù)及解決方案是虛擬化技術(shù)2.平臺(tái)即服務(wù)(PaaS)①主要用戶是開(kāi)發(fā)人員②把應(yīng)用服務(wù)的運(yùn)行和開(kāi)發(fā)環(huán)境作為一種服務(wù)提供的商業(yè)模式即PaaS是把二次開(kāi)發(fā)的平臺(tái)以服務(wù)形式提供給開(kāi)發(fā)軟件的用戶使用③開(kāi)發(fā)人員不需要管理或控制底層的云計(jì)算基礎(chǔ)設(shè)施,但可以方便地使用很多在構(gòu)建應(yīng)用時(shí)的必要服務(wù)④兩個(gè)關(guān)鍵技術(shù):分布式的并行計(jì)算和大文件分布式存儲(chǔ)3.軟件即服務(wù)(SaaS)①主要用戶是普通用戶②服務(wù)提供商提供給用戶的服務(wù)是運(yùn)行在云計(jì)算基礎(chǔ)設(shè)施上的應(yīng)用程序,用戶只需要通過(guò)終端設(shè)備接入使用即可,簡(jiǎn)單方便,不需要用戶進(jìn)行軟件開(kāi)發(fā),也無(wú)需管理底層資源③關(guān)鍵技術(shù)是多租戶技術(shù),使資源能夠更好的共享答案5.請(qǐng)畫(huà)出云計(jì)算基礎(chǔ)設(shè)施Google平臺(tái)的基礎(chǔ)架構(gòu)圖。6.請(qǐng)畫(huà)出云計(jì)算基礎(chǔ)設(shè)施Hadoop平臺(tái)的基礎(chǔ)架構(gòu)圖。

答案7.用自己的語(yǔ)言分別解釋物聯(lián)網(wǎng),邊緣計(jì)算,霧計(jì)算。

物聯(lián)網(wǎng):物聯(lián)網(wǎng)就是物物相連的互聯(lián)網(wǎng)

邊緣計(jì)算:邊緣計(jì)算是指在靠近物或數(shù)據(jù)源頭的一側(cè),采用網(wǎng)絡(luò)、計(jì)算、存儲(chǔ)、應(yīng)用核心能力為一體的開(kāi)放平臺(tái),就近提供最近端服務(wù)

霧計(jì)算:數(shù)據(jù)、(數(shù)據(jù))處理和應(yīng)用程序集中在網(wǎng)絡(luò)邊緣的設(shè)備中,而不是幾乎全部保存在云中,是云計(jì)算(CloudComputing)的延伸概念感謝大家的全力支持LOGO從產(chǎn)業(yè)結(jié)構(gòu)來(lái)探索大數(shù)據(jù)技術(shù)第3章LOGO目錄3.1大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)示意圖概述013.2大數(shù)據(jù)的解決方案023.3大數(shù)據(jù)采集技術(shù)033.4大數(shù)據(jù)預(yù)處理技術(shù)04053.5大數(shù)據(jù)可視化技術(shù)

產(chǎn)業(yè)結(jié)構(gòu)概述產(chǎn)業(yè)結(jié)構(gòu)(IndustrialStructure)是指農(nóng)業(yè)、工業(yè)和服務(wù)業(yè)在一國(guó)經(jīng)濟(jì)結(jié)構(gòu)中所占的比重。近年來(lái),隨著互聯(lián)網(wǎng)、云計(jì)算、物聯(lián)網(wǎng)等信息技術(shù)的進(jìn)步,在工業(yè)化和信息化快速發(fā)展的背景下,大數(shù)據(jù)產(chǎn)業(yè)欣欣向榮。大數(shù)據(jù)的快速發(fā)展是產(chǎn)業(yè)結(jié)構(gòu)轉(zhuǎn)型升級(jí)的重要推動(dòng)力。之后主要介紹三方面內(nèi)容:①?gòu)漠a(chǎn)業(yè)結(jié)構(gòu)探索大數(shù)據(jù)技術(shù)的產(chǎn)生、發(fā)展以及處理的基本流程;②介紹大數(shù)據(jù)采集技術(shù)及大數(shù)據(jù)預(yù)處理技術(shù);③介紹大數(shù)據(jù)可視化技術(shù)及其分類(lèi)。當(dāng)前以微電子、大數(shù)據(jù)、信息產(chǎn)品制造業(yè)為代表的技術(shù)密集型產(chǎn)業(yè)正迅猛發(fā)展,成為帶動(dòng)發(fā)達(dá)國(guó)家經(jīng)濟(jì)增長(zhǎng)的主導(dǎo)產(chǎn)業(yè)。因此可以說(shuō),技術(shù)密集型產(chǎn)業(yè)的發(fā)展水平?jīng)Q定一個(gè)國(guó)家的競(jìng)爭(zhēng)力和經(jīng)濟(jì)增長(zhǎng)的前景。技術(shù)創(chuàng)新與技術(shù)結(jié)構(gòu)變動(dòng)是產(chǎn)業(yè)結(jié)構(gòu)優(yōu)化的決定性因素。從產(chǎn)業(yè)角度看,大數(shù)據(jù)產(chǎn)業(yè)指以數(shù)據(jù)生產(chǎn)、采集、存儲(chǔ)、加工、分析、服務(wù)為主的相關(guān)經(jīng)濟(jì)活動(dòng),包括數(shù)據(jù)資源建設(shè)、數(shù)據(jù)軟硬件產(chǎn)品的開(kāi)發(fā)、銷(xiāo)售和租賃活動(dòng),以及相關(guān)信息技術(shù)服務(wù)。大數(shù)據(jù)融入產(chǎn)業(yè)結(jié)構(gòu)圖主要可以分為三大類(lèi)如左圖所示3.1大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)示意圖概述

大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)所需的技術(shù)支持我們從硬件、基礎(chǔ)軟件、應(yīng)用軟件、信息服務(wù)和數(shù)據(jù)生成、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理、數(shù)據(jù)應(yīng)用共兩條路線、四個(gè)維度來(lái)劃分大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)所需的技術(shù)支持,其中共涉及11個(gè)大類(lèi)主要的產(chǎn)品和服務(wù),如圖所示。其中,基礎(chǔ)軟件(數(shù)據(jù)庫(kù)軟件和分布式文件系統(tǒng))、應(yīng)用軟件是大數(shù)據(jù)產(chǎn)業(yè)價(jià)值轉(zhuǎn)化變現(xiàn)的最關(guān)鍵部分,其他7種在某種意義上是在原有基礎(chǔ)上持續(xù)更新并與大數(shù)據(jù)發(fā)展配套的過(guò)程。對(duì)大數(shù)據(jù)的處理主要包括:數(shù)據(jù)生成(也稱(chēng)為數(shù)據(jù)采集、數(shù)據(jù)獲?。?、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理和數(shù)據(jù)應(yīng)用(也稱(chēng)為數(shù)據(jù)分析與挖掘)。硬件支持軟件支持采集設(shè)備、存儲(chǔ)設(shè)備和服務(wù)器等支持;數(shù)據(jù)庫(kù)軟件、分布式文件系統(tǒng)、智能搜索軟件、采集軟件、分析軟件、監(jiān)測(cè)軟件等各類(lèi)軟件技術(shù)支持;信息服務(wù)有系統(tǒng)集成、IT基礎(chǔ)設(shè)施服務(wù)、咨詢(xún)服務(wù)等,并且要保證信息安全;3.2大數(shù)據(jù)的解決方案大數(shù)據(jù)如此重要,以至于其采集、儲(chǔ)存、搜索、共享、分析、乃至可視化呈現(xiàn),都成為了當(dāng)前重要的研究課題。技術(shù)是大數(shù)據(jù)價(jià)值體現(xiàn)的手段和前進(jìn)的基石。下面從大數(shù)據(jù)數(shù)據(jù)源的產(chǎn)生和處理,以及大數(shù)據(jù)處理的基本流程來(lái)討論大數(shù)據(jù)的解決方案。數(shù)據(jù)產(chǎn)生方式的改變1.運(yùn)營(yíng)式系統(tǒng)階段2.用戶原創(chuàng)內(nèi)容階段3.感知式系統(tǒng)階段運(yùn)營(yíng)式系統(tǒng)階段的代表是數(shù)據(jù)庫(kù)的出現(xiàn),使得數(shù)據(jù)管理的復(fù)雜度大大降低。在實(shí)際使用中,數(shù)據(jù)庫(kù)大多為運(yùn)營(yíng)系統(tǒng)所采用,如銀行的交易記錄系統(tǒng)等。這個(gè)階段的最主要特點(diǎn)是數(shù)據(jù)的產(chǎn)生往往伴隨著一定的運(yùn)營(yíng)活動(dòng),而且數(shù)據(jù)是記錄在數(shù)據(jù)庫(kù)中的,這種數(shù)據(jù)的產(chǎn)生方式是被動(dòng)的。用戶原創(chuàng)內(nèi)容階段的代表是Web2.0的產(chǎn)生,Web2.0的最重要標(biāo)志就是用戶原創(chuàng)內(nèi)容。Web2.0的誕生促使人類(lèi)社會(huì)數(shù)據(jù)量出現(xiàn)第二次大的飛躍,這個(gè)階段的數(shù)據(jù)產(chǎn)生方式是主動(dòng)的。感知式系統(tǒng)階段的代表是物聯(lián)網(wǎng)。隨著技術(shù)的發(fā)展,人們已經(jīng)有能力制造極其微小的帶有處理功能的傳感器,并開(kāi)始將這些設(shè)備廣泛地布置于社會(huì)的各個(gè)角落,通過(guò)這些設(shè)備來(lái)對(duì)整個(gè)社會(huì)的運(yùn)轉(zhuǎn)進(jìn)行監(jiān)控。這些設(shè)備會(huì)源源不斷地產(chǎn)生新數(shù)據(jù),這種數(shù)據(jù)的產(chǎn)生方式是自動(dòng)的。人類(lèi)社會(huì)數(shù)據(jù)量第三次大的飛躍最終導(dǎo)致了大數(shù)據(jù)的產(chǎn)生,這次飛躍的根本原因在于感知式系統(tǒng)的廣泛使用。數(shù)據(jù)采集方式的改變1.傳統(tǒng)的數(shù)據(jù)采集2.大數(shù)據(jù)時(shí)代數(shù)據(jù)采集來(lái)源單一,且存儲(chǔ)、管理和分析的數(shù)據(jù)量也相對(duì)較小,大多采用關(guān)系型數(shù)據(jù)庫(kù)和并行數(shù)據(jù)倉(cāng)庫(kù)即可處理。對(duì)依靠并行計(jì)算提升數(shù)據(jù)處理速度方面而言,傳統(tǒng)的并行數(shù)據(jù)庫(kù)技術(shù)追求高度的一致性和容錯(cuò)性,難以保證其可用性和擴(kuò)展性,并且以往進(jìn)行數(shù)據(jù)采集時(shí)的采樣密度較低,獲得的采樣數(shù)據(jù)有限。有了大數(shù)據(jù)處理平臺(tái)的支撐,可以對(duì)需要分析的事件的數(shù)據(jù)進(jìn)行更加密集地采樣,從而精確地獲取事件的全局?jǐn)?shù)據(jù)。數(shù)據(jù)的采集方式由以往的被動(dòng)采集數(shù)據(jù)轉(zhuǎn)變?yōu)橹鲃?dòng)生成數(shù)據(jù)。在大數(shù)據(jù)的采集過(guò)程中,其主要特點(diǎn)和挑戰(zhàn)是并發(fā)數(shù)高,因?yàn)橥瑫r(shí)有可能會(huì)有成千上萬(wàn)的用戶來(lái)進(jìn)行訪問(wèn)和操作。大數(shù)據(jù)處理的基本流程及相應(yīng)技術(shù)支持大數(shù)據(jù)的處理流程可以定義為在適合工具的輔助下,對(duì)廣泛異構(gòu)的數(shù)據(jù)源進(jìn)行抽取和集成,結(jié)果按照一定的標(biāo)準(zhǔn)統(tǒng)一存儲(chǔ),利用合適的數(shù)據(jù)分析技術(shù)對(duì)存儲(chǔ)的數(shù)據(jù)進(jìn)行分析,從中提取有益的知識(shí)并利用恰當(dāng)?shù)姆绞綄⒔Y(jié)果展示給終端用戶。大數(shù)據(jù)的處理步驟分為:①獲取源數(shù)據(jù);②進(jìn)行數(shù)據(jù)清洗;③數(shù)據(jù)分析;④數(shù)據(jù)解釋?zhuān)虎輰?shù)據(jù)分析與解釋的結(jié)果呈現(xiàn)給用戶。(1)數(shù)據(jù)抽取與集成1.基于物化或ETL(Extract-Transform-Load)方法的引擎。2.基于聯(lián)邦數(shù)據(jù)庫(kù)或中間件方法的引擎由于大數(shù)據(jù)處理的數(shù)據(jù)來(lái)源類(lèi)型豐富,大數(shù)據(jù)處理的第一步就是對(duì)數(shù)據(jù)進(jìn)行清洗,從中提取出關(guān)系和實(shí)體,經(jīng)過(guò)關(guān)聯(lián)和聚合等操作,按照統(tǒng)一定義的格式對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ),即實(shí)現(xiàn)大數(shù)據(jù)預(yù)處理。方法有以下四種ETL是利用某種裝置(如攝像頭、麥克風(fēng)),從系統(tǒng)外部采集數(shù)據(jù)并輸入到系統(tǒng)內(nèi)部的一個(gè)接口。3.基于數(shù)據(jù)流方法的引擎聯(lián)邦數(shù)據(jù)庫(kù)系統(tǒng)是一個(gè)彼此協(xié)作卻又相互獨(dú)立的單元數(shù)據(jù)庫(kù)集合。聯(lián)邦數(shù)據(jù)庫(kù)技術(shù)就是為了實(shí)現(xiàn)對(duì)相互獨(dú)立運(yùn)行的多個(gè)數(shù)據(jù)庫(kù)進(jìn)行互操作,從而進(jìn)行數(shù)據(jù)抽取與集成。數(shù)據(jù)流引擎可以在數(shù)據(jù)到達(dá)時(shí)處理數(shù)據(jù),從而過(guò)濾掉不需要的數(shù)據(jù),或者在將結(jié)果數(shù)據(jù)發(fā)送到最終目的地之前改變傳入的數(shù)據(jù)。4.基于搜索引擎的方法搜索引擎將網(wǎng)頁(yè)大量抓取下來(lái),通過(guò)分析器解析,將有價(jià)值的數(shù)據(jù)入庫(kù),檢索器(索引器)對(duì)有效的內(nèi)數(shù)據(jù)建立檢索。(2)數(shù)據(jù)分析數(shù)據(jù)分析是大數(shù)據(jù)處理流程的核心步驟,通過(guò)數(shù)據(jù)抽取和集成環(huán)節(jié),已經(jīng)從異構(gòu)的數(shù)據(jù)源中獲得了用于大數(shù)據(jù)處理的原始數(shù)據(jù),用戶可以根據(jù)自己的需求對(duì)這些數(shù)據(jù)進(jìn)行分析處理,如數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、數(shù)據(jù)統(tǒng)計(jì)等,數(shù)據(jù)分析可以用于決策支持、商業(yè)智能、推薦系統(tǒng)、預(yù)測(cè)系統(tǒng)等。目前采集到的大數(shù)據(jù)85%以上是非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)無(wú)法勝任這些數(shù)據(jù)的處理。如何高效處理非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),是大數(shù)據(jù)計(jì)算技術(shù)的核心要點(diǎn)。如何能夠在不同的數(shù)據(jù)類(lèi)型中,進(jìn)行交叉計(jì)算,是大數(shù)據(jù)計(jì)算技術(shù)要解決的另一核心問(wèn)題。大數(shù)據(jù)計(jì)算技術(shù)可分為批處理計(jì)算和流處理計(jì)算,批處理計(jì)算主要操作大容量、靜態(tài)的數(shù)據(jù)集,并在計(jì)算過(guò)程完成后返回結(jié)果,適用于需要計(jì)算全部數(shù)據(jù)后才能完成的計(jì)算工作;流處理計(jì)算會(huì)對(duì)隨時(shí)進(jìn)入的數(shù)據(jù)進(jìn)行計(jì)算,流處理計(jì)算無(wú)需對(duì)整個(gè)數(shù)據(jù)集執(zhí)行操作,而是對(duì)通過(guò)傳輸?shù)拿總€(gè)數(shù)據(jù)項(xiàng)執(zhí)行操作,處理結(jié)果立刻可用,并會(huì)隨著新數(shù)據(jù)的抵達(dá)繼續(xù)更新結(jié)果。(2)數(shù)據(jù)分析目前主要流行以下大數(shù)據(jù)分析技術(shù)Hive是Facebook團(tuán)隊(duì)開(kāi)發(fā)的一個(gè)可以支持PB級(jí)別的可伸縮的數(shù)據(jù)倉(cāng)庫(kù)。這是一個(gè)建立在Hadoop之上的開(kāi)源數(shù)據(jù)倉(cāng)庫(kù)解決方案。其使用類(lèi)SQL(HiveQL)語(yǔ)言,底層經(jīng)過(guò)編譯轉(zhuǎn)為MapReduce程序,在Hadoop上運(yùn)行,最終將數(shù)據(jù)存儲(chǔ)在HDFS上。,用戶可以使用的HiveQL將自定義的MapReduce腳本插入到查詢(xún)中。該語(yǔ)言支持基本數(shù)據(jù)類(lèi)型,類(lèi)似數(shù)組和Map的集合或者他們的嵌套組合。Hive簡(jiǎn)化了對(duì)于那些不熟悉HadoopMapReduce接口的用戶學(xué)習(xí)門(mén)檻,Hive提供的一些HiveQL語(yǔ)句不只是可以進(jìn)行查詢(xún)操作,還可以對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行簡(jiǎn)要的分析與計(jì)算。同屬于Hadoop開(kāi)源生態(tài)系統(tǒng)的新成員ApacheSpark提供了一個(gè)比Hive更快的查詢(xún)引擎,因?yàn)樗蕾?lài)于自己的數(shù)據(jù)處理框架而不是依靠Hadoop的HDFS服務(wù)。同時(shí),它還用于事件流處理、實(shí)時(shí)查詢(xún)和機(jī)器學(xué)習(xí)等方面。這是一個(gè)ETL(Extract,Transform,andLoad)工具,可執(zhí)行數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)庫(kù)之間的數(shù)據(jù)同步,提供基于EclipseRCP的圖形操作界面。Talend工具用于協(xié)助進(jìn)行數(shù)據(jù)質(zhì)量、數(shù)據(jù)集成和數(shù)據(jù)管理等方面工作。它是一個(gè)統(tǒng)一的平臺(tái),通過(guò)提供一個(gè)統(tǒng)一的,跨企業(yè)邊界生命周期管理的環(huán)境,使數(shù)據(jù)管理和應(yīng)用更簡(jiǎn)單便捷。這種設(shè)計(jì)可以幫助企業(yè)構(gòu)建靈活、高性能的企業(yè)架構(gòu),在此架構(gòu)下,集成并啟用百分之百開(kāi)源服務(wù)的分布式應(yīng)用程序變?yōu)榭赡堋#?)數(shù)據(jù)解釋大數(shù)據(jù)處理流程中用戶最關(guān)心的是數(shù)據(jù)處理的結(jié)果,計(jì)算結(jié)果的展現(xiàn)方式有標(biāo)簽云、關(guān)系圖等。正確的數(shù)據(jù)處理結(jié)果只有通過(guò)合適的展示方式才能被終端用戶正確理解,因此數(shù)據(jù)處理結(jié)果的展示非常重要,可視化和人機(jī)交互是數(shù)據(jù)解釋的主要技術(shù)。標(biāo)簽云關(guān)系圖3.3大數(shù)據(jù)采集技術(shù)從上一節(jié)的學(xué)習(xí)中可以了解到大數(shù)據(jù)處理關(guān)鍵技術(shù)一般包括:大數(shù)據(jù)采集、大數(shù)據(jù)預(yù)處理、大數(shù)據(jù)存儲(chǔ)及管理、大數(shù)據(jù)分析與解釋、大數(shù)據(jù)展現(xiàn)和應(yīng)用等??梢钥吹剑瑪?shù)據(jù)采集屬于數(shù)據(jù)分析生命周期的第一步,它通過(guò)傳感器數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù)、移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)使用ETL、Flume等方式獲得各種類(lèi)型的結(jié)構(gòu)化、半結(jié)構(gòu)化或者非結(jié)構(gòu)化的海量數(shù)據(jù)。那什么是大數(shù)據(jù)采集技術(shù),以及大數(shù)據(jù)采集有哪些方法呢?3.3.1大數(shù)據(jù)采集概述

大數(shù)據(jù)采集技術(shù)是指對(duì)數(shù)據(jù)進(jìn)行ETL(Extract-Transform-Load)操作,即用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)清洗,最終按照預(yù)先定義好的數(shù)據(jù)模型,將數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)中的過(guò)程。數(shù)據(jù)從數(shù)據(jù)來(lái)源端經(jīng)過(guò)提取(Extract)、轉(zhuǎn)換(Transform)、加載(Load)到目的端,然后進(jìn)行處理分析,最終挖掘數(shù)據(jù)的潛在價(jià)值,提供給用戶解決方案或者決策參考。

大數(shù)據(jù)的采集依靠多個(gè)數(shù)據(jù)庫(kù)接收來(lái)自客戶端(Web、APP或傳感器等)的數(shù)據(jù),并且用戶可以通過(guò)這些數(shù)據(jù)庫(kù)來(lái)進(jìn)行簡(jiǎn)單的查詢(xún)和處理工作。如電商使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)MySQL和Oracle等來(lái)存儲(chǔ)每一筆事務(wù)數(shù)據(jù),除此之外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫(kù)也常用于數(shù)據(jù)的采集。

大數(shù)據(jù)采集技術(shù)系統(tǒng)分類(lèi)1.日志采集系統(tǒng)收集日志數(shù)據(jù),供離線和在線的數(shù)據(jù)分析使用。目前常用的開(kāi)源日志收集系統(tǒng)有Flume、Scribe等。2.網(wǎng)絡(luò)數(shù)據(jù)采集系統(tǒng)通過(guò)網(wǎng)絡(luò)爬蟲(chóng)和一些網(wǎng)站平臺(tái)提供的公共API(如Twitter和新浪微博API)等方式從網(wǎng)站上獲取數(shù)據(jù)。目前常用的網(wǎng)頁(yè)爬蟲(chóng)系統(tǒng)有ApacheNutch、Crawler4j、Scrapy等框架。3.數(shù)據(jù)庫(kù)采集系統(tǒng)一些企業(yè)使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)MySQL和Oracle等來(lái)存儲(chǔ)數(shù)據(jù)。除此之外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫(kù)也常用于數(shù)據(jù)的采集。企業(yè)每時(shí)每刻都在產(chǎn)生業(yè)務(wù)數(shù)據(jù),而這些復(fù)雜的數(shù)據(jù)按照關(guān)系結(jié)構(gòu)模型被歸結(jié)為二元關(guān)系(即二維表格形式)再寫(xiě)到數(shù)據(jù)庫(kù)中,通過(guò)對(duì)這些關(guān)系表格的分類(lèi)、合并、連接或選取等操作來(lái)實(shí)現(xiàn)數(shù)據(jù)的管理,最后由特定的處理分析系統(tǒng)進(jìn)行系統(tǒng)分析。3.3.2日志采集系統(tǒng)——Flume每個(gè)公司的業(yè)務(wù)平臺(tái)每天都會(huì)產(chǎn)生大量的日志數(shù)據(jù),通過(guò)對(duì)這些日志信息進(jìn)行日志采集、收集,然后進(jìn)行數(shù)據(jù)分析,挖掘公司業(yè)務(wù)平臺(tái)日志數(shù)據(jù)中的潛在價(jià)值。為公司決策和公司后臺(tái)服務(wù)器平臺(tái)性能評(píng)估提高可靠的數(shù)據(jù)保證。Flume最早是Cloudera公司提供的實(shí)時(shí)日志采集系統(tǒng),目前是Apache的一個(gè)孵化項(xiàng)目。ApacheFlume是一個(gè)分布式、可靠、可用的服務(wù),用于高效地收集、聚合和移動(dòng)大量的日志數(shù)據(jù),它具有基于流式數(shù)據(jù)流的簡(jiǎn)單靈活的架構(gòu)。其可靠性機(jī)制、完備的故障轉(zhuǎn)移和恢復(fù)機(jī)制使Flume具有強(qiáng)大的容錯(cuò)能力。Flume有日志收集和數(shù)據(jù)處理兩個(gè)功能,F(xiàn)lume支持日志系統(tǒng)中定制各類(lèi)數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù)。同時(shí)Flume提供對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單處理,并寫(xiě)到各種數(shù)據(jù)接收方(可定制)的能力。Flume處理流程Flume的核心就是一個(gè)Agent(媒介),該Agent對(duì)外有兩個(gè)進(jìn)行交互的地方,一個(gè)是接收數(shù)據(jù)的輸入Source(源頭結(jié)點(diǎn)),一個(gè)是數(shù)據(jù)的輸出Sink(匯聚結(jié)點(diǎn)),Sink負(fù)責(zé)將數(shù)據(jù)發(fā)送到外部指定的目的地,如圖Source接收到數(shù)據(jù)之后,將數(shù)據(jù)發(fā)送給Channel(存儲(chǔ)渠道或者存儲(chǔ)通道),Channel作為一個(gè)數(shù)據(jù)緩沖區(qū)會(huì)臨時(shí)存放這些數(shù)據(jù),隨后Sink會(huì)將Channel中的數(shù)據(jù)發(fā)送到指定的地方——外部存儲(chǔ)。注意:只有在Sink將Channel中的數(shù)據(jù)成功發(fā)送出去之后,Channel才會(huì)將臨時(shí)數(shù)據(jù)進(jìn)行刪除,這種機(jī)制保證了數(shù)據(jù)傳輸?shù)目煽啃耘c安全性。在整個(gè)數(shù)據(jù)的傳輸?shù)倪^(guò)程中,流動(dòng)的是Event(事件),即事務(wù)保證是在Event級(jí)別進(jìn)行的。Event將傳輸?shù)臄?shù)據(jù)進(jìn)行封裝,是Flume傳輸數(shù)據(jù)的基本單位。如果是文本文件,通常是一行記錄,Event也是事務(wù)的基本單位。Event從Source流向Channel,再到Sink,本身為一個(gè)字節(jié)數(shù)組,并可攜帶Headers(頭信息)信息。Event代表著一個(gè)數(shù)據(jù)的最小完整單元,從外部數(shù)據(jù)源來(lái),向外部目的地去。AgentFlume架構(gòu)Flume采用了三層架構(gòu),分別為Agent、Collector和Storage,其中,如圖所示所有Agent和Collector由Master統(tǒng)一管理,這使得系統(tǒng)容易監(jiān)控和維護(hù),且Master允許有多個(gè)(使用ZooKeeper進(jìn)行管理和負(fù)載均衡),這就避免了單點(diǎn)故障問(wèn)題。從而具有以下幾個(gè)特性①可靠性,當(dāng)某一個(gè)節(jié)點(diǎn)出現(xiàn)故障時(shí),日志文件能夠被傳送到其他節(jié)點(diǎn)上而不會(huì)丟失。②可擴(kuò)展性,F(xiàn)lume采用了三層架構(gòu),每一層均可以水平擴(kuò)展。③可管理性,所有Agent和Collector由Master統(tǒng)一管理,這使得系統(tǒng)便于維護(hù)。多Master情況④功能的可擴(kuò)展性,用戶可以根據(jù)需要添加自己的Agent、Collector或者Storage。3.3.3消息采集系統(tǒng)——KafkaKafka最初由Linkedin公司開(kāi)發(fā),是一個(gè)支持分區(qū)(partition)、多副本(

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論