云計(jì)算與大數(shù)據(jù)基礎(chǔ)_第1頁
云計(jì)算與大數(shù)據(jù)基礎(chǔ)_第2頁
云計(jì)算與大數(shù)據(jù)基礎(chǔ)_第3頁
云計(jì)算與大數(shù)據(jù)基礎(chǔ)_第4頁
云計(jì)算與大數(shù)據(jù)基礎(chǔ)_第5頁
已閱讀5頁,還剩82頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

云計(jì)算與大數(shù)據(jù)技術(shù)

人民郵電出版社王鵬黃焱安俊秀張逸琴編著

目錄CONTENTS第1章云計(jì)算與大數(shù)據(jù)根底第2章云計(jì)算與大數(shù)據(jù)的相關(guān)技術(shù)第3章虛擬化技術(shù)第4章集群系統(tǒng)根底第5章MPI—面向計(jì)算第6章Hadoop—分布式大數(shù)據(jù)系統(tǒng)第7章HPCC—面向數(shù)據(jù)的高性能計(jì)算集群系統(tǒng)第8章Storm—基于拓?fù)涞牧鲾?shù)據(jù)實(shí)時(shí)計(jì)算系統(tǒng)第9章效勞器與數(shù)據(jù)中心第10章云計(jì)算大數(shù)據(jù)仿真技術(shù)第1章云計(jì)算與大數(shù)據(jù)根底《云計(jì)算與大數(shù)據(jù)技術(shù)》

第1章云計(jì)算與大數(shù)據(jù)根底1.1云計(jì)算技術(shù)概述 云計(jì)算簡(jiǎn)介 云計(jì)算的特點(diǎn) 云計(jì)算技術(shù)分類 1.2大數(shù)據(jù)技術(shù)概述大數(shù)據(jù)簡(jiǎn)介 主要的大數(shù)據(jù)處理系統(tǒng) 大數(shù)據(jù)處理的根本流程 1.3云計(jì)算與大數(shù)據(jù)的開展云計(jì)算簡(jiǎn)介云計(jì)算技術(shù)是硬件技術(shù)和網(wǎng)絡(luò)技術(shù)開展到一定階段而出現(xiàn)的一種新的技術(shù)模型云計(jì)算并不是對(duì)某一項(xiàng)獨(dú)立技術(shù)的稱呼,而是對(duì)實(shí)現(xiàn)云計(jì)算模式所需要的所有技術(shù)的總稱。云計(jì)算技術(shù)的內(nèi)容很多包括分布式計(jì)算技術(shù)、虛擬化技術(shù)、網(wǎng)絡(luò)技術(shù)、效勞器技術(shù)、數(shù)據(jù)中心技術(shù)、云計(jì)算平臺(tái)技術(shù)、存儲(chǔ)技術(shù)等。從廣義上說,云計(jì)算技術(shù)幾乎包括了當(dāng)前信息技術(shù)中的絕大局部。

云計(jì)算簡(jiǎn)介維基百科中對(duì)云計(jì)算的定義為:云計(jì)算是一種基于互聯(lián)網(wǎng)的計(jì)算方式,通過這種方式,共享的軟硬件資源和信息可以按需求提供給計(jì)算機(jī)和其他設(shè)備。2023年的國(guó)務(wù)院政府工作報(bào)告將云計(jì)算作為國(guó)家戰(zhàn)略性新興產(chǎn)業(yè)給出了定義:云計(jì)算是基于互聯(lián)網(wǎng)的效勞的增加、使用和交付模式,通常涉及通過互聯(lián)網(wǎng)來提供動(dòng)態(tài)、易擴(kuò)展且經(jīng)常是虛擬化的資源。云計(jì)算是傳統(tǒng)計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)開展融合的產(chǎn)物,它意味著計(jì)算能力也可作為一種商品通過互聯(lián)網(wǎng)進(jìn)行流通。

云計(jì)算簡(jiǎn)介云計(jì)算技術(shù)的出現(xiàn)改變了信息產(chǎn)業(yè)傳統(tǒng)的格局。傳統(tǒng)的信息產(chǎn)業(yè)企業(yè)既是資源的整合者又是資源的使用者;這這種格局并不符合現(xiàn)代產(chǎn)業(yè)分工高度專業(yè)化的需求,同時(shí)也不符合企業(yè)需要靈敏地適應(yīng)客戶的需要。云計(jì)算簡(jiǎn)介傳統(tǒng)的計(jì)算資源和存儲(chǔ)資源大小通常是相對(duì)固定的,面對(duì)客戶高波動(dòng)性的需求時(shí)會(huì)非常的不敏捷,企業(yè)的計(jì)算和存儲(chǔ)資源要么是被浪費(fèi),要么是面對(duì)客戶峰值需求時(shí)力不從心。云計(jì)算技術(shù)使資源與用戶需求之間是一種彈性化的關(guān)系,資源的使用者和資源的整合者并不是一個(gè)企業(yè),資源的使用者只需要對(duì)資源按需付費(fèi),從而敏捷地響應(yīng)客戶不斷變化的資源需求,這一方法降低了資源使用者的本錢,提高了資源的利用效率。

云計(jì)算簡(jiǎn)介云計(jì)算時(shí)代根本的3種角色:資源的整合運(yùn)營(yíng)者、資源的使用者、終端客戶。資源的整合運(yùn)營(yíng)者就像是發(fā)電廠負(fù)責(zé)資源的整合輸出;資源的使用者負(fù)責(zé)將資源轉(zhuǎn)變?yōu)闈M足客戶需求的各種應(yīng)用;終端客戶為資源的最終消費(fèi)者。云計(jì)算簡(jiǎn)介云計(jì)算這種新的模式的出現(xiàn)被認(rèn)為是信息產(chǎn)業(yè)的一大變革,吸引了大量企業(yè)重新布局:IBM、微軟、谷歌、DELL等企業(yè)國(guó)內(nèi)企業(yè):華為、中興、騰訊、阿里、聯(lián)想、浪潮、五舟等企業(yè)云計(jì)算簡(jiǎn)介云計(jì)算技術(shù)作為一項(xiàng)涵蓋面廣且對(duì)產(chǎn)業(yè)影響深遠(yuǎn)的技術(shù),未來將逐步滲透到信息產(chǎn)業(yè)和其他產(chǎn)業(yè)的方方面面,并將深刻改變產(chǎn)業(yè)的結(jié)構(gòu)模式、技術(shù)模式和產(chǎn)品銷售模式,進(jìn)而深刻影響人們的生活;云計(jì)算會(huì)逐步成為人們生活中必不可少的技術(shù);云計(jì)算簡(jiǎn)介移動(dòng)互聯(lián)網(wǎng)的出現(xiàn)使云計(jì)算應(yīng)用走向了人們的指間,推動(dòng)了云計(jì)算技術(shù)的應(yīng)用開展,今后云計(jì)算將是一項(xiàng)隨時(shí)、隨地、隨身為我們提供效勞的技術(shù);云計(jì)算的出現(xiàn)也將如電的出現(xiàn)一般,為信息產(chǎn)業(yè)的開展提供無限的想象空間,使應(yīng)用的創(chuàng)新能力得到完全釋放。

云計(jì)算簡(jiǎn)介云計(jì)算的特點(diǎn)1.資源池彈性可擴(kuò)張2.按需提供資源效勞3.虛擬化4.網(wǎng)絡(luò)化的資源接入5.高可靠性和平安性云計(jì)算的特點(diǎn)與傳統(tǒng)的資源提供方向相比,云計(jì)算具有以下特點(diǎn):

〔1〕資源池彈性可擴(kuò)張?jiān)朴?jì)算系統(tǒng)的一個(gè)重要特征就是資源的集中管理和輸出,這就是所謂的資源池。從資源低效率的分散使用到資源高效的集約化使用正是云計(jì)算的根本特征之一。分散的資源使用方法造成了資源的極大浪費(fèi),現(xiàn)在每個(gè)人都可能有一到兩臺(tái)自己的計(jì)算機(jī),但對(duì)這種資源的利用率卻非常的低,計(jì)算機(jī)在大量時(shí)間都是在等待狀態(tài)或是在處理文字?jǐn)?shù)據(jù)等低負(fù)荷的任務(wù)。資源集中起來后資源的利用效率會(huì)大大地提高,隨著資源需求的不斷提高,資源池的彈性化擴(kuò)張能力成為云計(jì)算系統(tǒng)的一個(gè)根本要求,云計(jì)算系統(tǒng)只有具備了資源的彈性化擴(kuò)張能力才能有效地應(yīng)對(duì)不斷增長(zhǎng)的資源需求。大多數(shù)云計(jì)算系統(tǒng)都能較為方便地實(shí)現(xiàn)新資源的參加。

云計(jì)算的特點(diǎn)〔2〕按需提供資源效勞云計(jì)算系統(tǒng)帶給客戶最重要的好處就是敏捷地適應(yīng)用戶對(duì)資源不斷變化的需求;云計(jì)算系統(tǒng)實(shí)現(xiàn)按需向用戶提供資源能大大節(jié)省用戶的硬件資源開支,用戶不用自己購(gòu)置并維護(hù)大量固定的硬件資源,只需向自己實(shí)際消費(fèi)的資源量來付費(fèi);按需提供資源效勞使應(yīng)用開發(fā)者在邏輯上可以認(rèn)為資源池的大小是不受限制的,應(yīng)用開發(fā)者的主要精力只需要集中在自己的應(yīng)用上。

云計(jì)算的特點(diǎn)〔3〕虛擬化

現(xiàn)有的云計(jì)算平臺(tái)的重要特點(diǎn)是利用軟件來實(shí)現(xiàn)硬件資源的虛擬化管理、調(diào)度及應(yīng)用。在云計(jì)算中利用虛擬化技術(shù)可大大降低維護(hù)本錢和提高資源的利用率。

云計(jì)算的特點(diǎn)〔4〕網(wǎng)絡(luò)化的資源接入。

從最終用戶的角度看,基于云計(jì)算系統(tǒng)的應(yīng)用效勞通常都是通過網(wǎng)絡(luò)來提供的,應(yīng)用開發(fā)者將云計(jì)算中心的計(jì)算、存儲(chǔ)等資源封裝為不同的應(yīng)用后往往會(huì)通過網(wǎng)絡(luò)提供給最終的用戶。云計(jì)算技術(shù)必須實(shí)現(xiàn)資源的網(wǎng)絡(luò)化接入才能有效地向應(yīng)用開發(fā)者和最終用戶提供資源效勞。以網(wǎng)絡(luò)技術(shù)的開展是推動(dòng)云計(jì)算技術(shù)出現(xiàn)的首要?jiǎng)恿?。云?jì)算的特點(diǎn)〔5〕高可靠性和平安性。

用戶數(shù)據(jù)存儲(chǔ)在效勞器端,而應(yīng)用程序在效勞器端運(yùn)行,計(jì)算由效勞器端來處理。所有的效勞分布在不同的效勞器上,如果什么地方〔節(jié)點(diǎn)〕出問題就在什么地方終止它,另外再啟動(dòng)一個(gè)程序或節(jié)點(diǎn),即自動(dòng)處理失敗節(jié)點(diǎn),從而保證了應(yīng)用和計(jì)算的正常進(jìn)行。數(shù)據(jù)被復(fù)制到多個(gè)效勞器節(jié)點(diǎn)上有多個(gè)副本〔備份〕,存儲(chǔ)在云里的數(shù)據(jù)即使遇到意外刪除或硬件崩潰也不會(huì)受到影響。云計(jì)算的特點(diǎn)云計(jì)算技術(shù)分類云計(jì)算技術(shù)分類1.按技術(shù)路線分類2.按效勞對(duì)象分類3.按資源封裝的層次分類目前已出現(xiàn)的云計(jì)算技術(shù)種類非常多,對(duì)于云計(jì)算的分類可以有多種角度:從技術(shù)路線角度可以分為資源整合型云計(jì)算和資源切分型云計(jì)算;從效勞對(duì)像角度可以被分為公有云和私有云;按資源封裝的層次來分可以分為:根底設(shè)施即效勞〔InfrastructureasaService,IaaS〕平臺(tái)即效勞〔PlatformasaService,PaaS〕軟件即效勞〔SoftwareasaService,SaaS〕。云計(jì)算技術(shù)分類

1.按技術(shù)路線分類

資源整合型云計(jì)算:這種類型的云計(jì)算系統(tǒng)在技術(shù)實(shí)現(xiàn)方面大多表達(dá)為集群架構(gòu),通過將大量節(jié)點(diǎn)的計(jì)算資源和存儲(chǔ)資源整合后輸出。這類系統(tǒng)通常能實(shí)現(xiàn)跨節(jié)點(diǎn)彈性化的資源池構(gòu)建,核心技術(shù)為分布式計(jì)算和存儲(chǔ)技術(shù)。MPI、Hadoop、HPCC、Storm等都可以被分類為資源整合型云計(jì)算系統(tǒng)。云計(jì)算技術(shù)分類資源切分型云計(jì)算:這種類型最為典型的就是虛擬化系統(tǒng),這類云計(jì)算系統(tǒng)通過系統(tǒng)虛擬化實(shí)現(xiàn)對(duì)單個(gè)效勞器資源的彈性化切分,從而有效地利用效勞器資源,其核心技術(shù)為虛擬化技術(shù)。這種技術(shù)的優(yōu)點(diǎn)是用戶的系統(tǒng)可以不做任何改變接入采用虛擬化技術(shù)的云系統(tǒng),是目前應(yīng)用較為廣泛的技術(shù),特別是在桌面云計(jì)算技術(shù)上應(yīng)用得較為成功;缺點(diǎn)是跨節(jié)點(diǎn)的資源整合代價(jià)較大;KVM、VMware都是這類技術(shù)的代表。云計(jì)算技術(shù)分類2.按效勞對(duì)象分類公有云:指效勞對(duì)象是面向公眾的云計(jì)算效勞,公有云對(duì)云計(jì)算系統(tǒng)的穩(wěn)定性、平安性和并發(fā)效勞能力有更高的要求。私有云:指主要效勞于某一組織內(nèi)部的云計(jì)算效勞,其效勞并不向公眾開放,如企業(yè)、政府內(nèi)部的云效勞。公有云與私有云的界限并不是特別清晰,有時(shí)效勞于一個(gè)地區(qū)和團(tuán)體的云也被稱為公有云。所以這種云計(jì)算分類方法并不是一種準(zhǔn)確的分類方法,主要是在商業(yè)領(lǐng)域的一種稱呼。云計(jì)算技術(shù)分類3.按資源封裝的層次分類根底設(shè)施即效勞〔InfrastructureasaService,IaaS〕:把單純的計(jì)算和存儲(chǔ)資源不經(jīng)封裝地直接通過網(wǎng)絡(luò)以效勞的形式提供的用戶使用。這類云計(jì)算效勞用戶的自主性較大,就像是發(fā)電廠將發(fā)的電直接送出去一樣。這類云效勞的對(duì)象往往是具有專業(yè)知識(shí)能力的資源使用者,傳統(tǒng)數(shù)據(jù)中心的主機(jī)租用等可能作為IaaS的典型代表。云計(jì)算技術(shù)分類平臺(tái)即效勞〔PlatformasaService,PaaS〕:計(jì)算和存儲(chǔ)資源經(jīng)封裝后,以某種接口和協(xié)議的形式提供給用戶調(diào)用,資源的使用者不再直接面對(duì)底層資源。平臺(tái)即效勞需要平臺(tái)軟件的支撐,可以認(rèn)為是從資源到應(yīng)用軟件的一個(gè)中間件,通過這類中間件可以大大減小應(yīng)用軟件開發(fā)時(shí)的技術(shù)難度。這類云效勞的對(duì)象往往是云計(jì)算應(yīng)用軟件的開發(fā)者,平臺(tái)軟件的開發(fā)需要使用者具有一定的技術(shù)能力。云計(jì)算技術(shù)分類軟件即效勞〔SoftwareasaService,SaaS〕:將計(jì)算和存儲(chǔ)資源封裝為用戶可以直接使用的應(yīng)用并通過網(wǎng)絡(luò)提供給用戶;SaaS面向的效勞對(duì)象為最終用戶,用戶只是對(duì)軟件功能進(jìn)行使用,無需了解任何云計(jì)算系統(tǒng)的內(nèi)部結(jié)構(gòu),也不需要用戶具有專業(yè)的技術(shù)開發(fā)能力。

云計(jì)算技術(shù)分類圖1.1云計(jì)算效勞體系結(jié)構(gòu)如下圖,云計(jì)算系統(tǒng)按資源封裝的層次分為IaaS、PaaS、SaaS,分為對(duì)底層硬件資源不同級(jí)別的封裝,從而實(shí)現(xiàn)將資源轉(zhuǎn)變?yōu)樾诘哪康?。傳統(tǒng)的信息系統(tǒng)資源的使用者通常是以直接占有物理硬件資源的形式來使用資源的,而云計(jì)算系統(tǒng)通過IaaS、PaaS、SaaS等不同層次的封裝將物理硬件資源封裝后,以效勞的形式利用網(wǎng)絡(luò)提供給資源的使用者。在這里資源的使用者可能是資源的二次加工者,也可能是最終應(yīng)用軟件的使用者,通常IaaS、PaaS層面向的資源使用者往往是資源的二次加工者,這類資源的使用者并不是資源的最終消費(fèi)者,他們將資源轉(zhuǎn)變?yōu)閼?yīng)用效勞程序后以SaaS的形式提供給資源的最終消費(fèi)者。實(shí)現(xiàn)對(duì)物理資源封裝的技術(shù)并不是惟一的,目前不少的軟件都能實(shí)現(xiàn),甚至有的系統(tǒng)只有SaaS層,并沒有進(jìn)行逐層的封裝。

云計(jì)算技術(shù)分類云計(jì)算的效勞層次是根據(jù)效勞類型即效勞集合來劃分,與大家熟悉的計(jì)算機(jī)網(wǎng)絡(luò)體系結(jié)構(gòu)中層次的劃分不同。在計(jì)算機(jī)網(wǎng)絡(luò)中每個(gè)層次都實(shí)現(xiàn)一定的功能,層與層之間有一定關(guān)聯(lián)。而云計(jì)算體系結(jié)構(gòu)中的層次是可以分割的,即某一層次可以單獨(dú)完成一項(xiàng)用戶的請(qǐng)求而不需要其他層次為其提供必要的效勞和支持。

云計(jì)算技術(shù)分類在云計(jì)算效勞體系結(jié)構(gòu)中各層次與相關(guān)云產(chǎn)品對(duì)應(yīng)。應(yīng)用層對(duì)應(yīng)SaaS軟件即效勞,如:GoogleAPPS、SoftWare+Services。平臺(tái)層對(duì)應(yīng)PaaS平臺(tái)即效勞,如:IBMITFactory、GoogleAPPEngine、Force。根底設(shè)施層對(duì)應(yīng)IaaS根底設(shè)施即效勞,如:AmazoEC2、IBMBlueCloud、SunGrid。虛擬化層對(duì)應(yīng)硬件即效勞,結(jié)合PaaS提供硬件效勞,包括效勞器集群及硬件檢測(cè)等效勞。云計(jì)算技術(shù)分類1.2大數(shù)據(jù)技術(shù)概述1.2大數(shù)據(jù)技術(shù)概述大數(shù)據(jù)簡(jiǎn)介1.什么是大數(shù)據(jù)2.?dāng)?shù)據(jù)的來源3.生產(chǎn)數(shù)據(jù)的三個(gè)階段4.大數(shù)據(jù)的特點(diǎn)5.大數(shù)據(jù)的應(yīng)用領(lǐng)域1.2大數(shù)據(jù)技術(shù)概述大數(shù)據(jù)簡(jiǎn)介計(jì)算和數(shù)據(jù)是信息產(chǎn)業(yè)不變的主題,在信息和網(wǎng)絡(luò)技術(shù)迅速開展的推動(dòng)下,人們的感知、計(jì)算、仿真、模擬、傳播等活動(dòng)產(chǎn)生了大量的數(shù)據(jù),數(shù)據(jù)的產(chǎn)生不受時(shí)間、地點(diǎn)的限制,大數(shù)據(jù)的概念逐漸形成,大數(shù)據(jù)涵蓋了計(jì)算和數(shù)據(jù)兩大主題,是產(chǎn)業(yè)界和學(xué)術(shù)界的研究熱點(diǎn),被譽(yù)為未來十年的革命性技術(shù)。大數(shù)據(jù)簡(jiǎn)介2023年,《Nature》雜志推出了“大數(shù)據(jù)〞專輯,引發(fā)了學(xué)術(shù)界和產(chǎn)業(yè)界的關(guān)注;2023年,大數(shù)據(jù)應(yīng)用進(jìn)入我國(guó)并快速開展,目前大數(shù)據(jù)的應(yīng)用和研究已經(jīng)是學(xué)術(shù)界和產(chǎn)業(yè)界的熱點(diǎn);2023年3月,美國(guó)政府發(fā)布《大數(shù)據(jù)研究和開展建議》,投資2億美元開展大數(shù)據(jù),用以強(qiáng)化國(guó)土平安、轉(zhuǎn)變教育學(xué)習(xí)模式、加速科學(xué)和工程領(lǐng)域的創(chuàng)新速度和水平;2023年7月,日本提出以電子政府、電子醫(yī)療、防災(zāi)等為中心制定新ICT〔信息通信技術(shù)〕戰(zhàn)略,發(fā)布“新ICT方案〞,重點(diǎn)關(guān)注大數(shù)據(jù)研究和應(yīng)用;2023年1月,英國(guó)政府宣布將在對(duì)地觀測(cè)、醫(yī)療衛(wèi)生等大數(shù)據(jù)和節(jié)能計(jì)算技術(shù)方面投資1.89億英鎊;2023年我國(guó)上海、重慶等地相繼發(fā)布大數(shù)據(jù)行動(dòng)方案。

1.什么是大數(shù)據(jù)維基百科將大數(shù)據(jù)描述為:大數(shù)據(jù)是現(xiàn)有數(shù)據(jù)庫管理工具和傳統(tǒng)數(shù)據(jù)處理應(yīng)用很難處理的大型、復(fù)雜的數(shù)據(jù)集,大數(shù)據(jù)的挑戰(zhàn)包括采集、存儲(chǔ)、搜索、共享、傳輸、分析和可視化等。大數(shù)據(jù)的“大〞是一個(gè)動(dòng)態(tài)的概念以前10GB的數(shù)據(jù)是個(gè)天文數(shù)字;而現(xiàn)在,在地球、物理、基因、空間科學(xué)等領(lǐng)域,TB級(jí)的數(shù)據(jù)集已經(jīng)很普遍。大數(shù)據(jù)系統(tǒng)需要滿足以下三個(gè)特性。

〔1〕規(guī)模性〔Volume〕:需要采集、處理、傳輸?shù)臄?shù)據(jù)容量大;〔2〕多樣性〔Variety〕:數(shù)據(jù)的種類多、復(fù)雜性高;

〔3〕高速性〔Velocity〕:數(shù)據(jù)需要頻繁地采集、處理并輸出。

大數(shù)據(jù)簡(jiǎn)介2.?dāng)?shù)據(jù)的來源大數(shù)據(jù)的數(shù)據(jù)來源很多,主要有信息管理系統(tǒng)、網(wǎng)絡(luò)信息系統(tǒng)、物聯(lián)網(wǎng)系統(tǒng)、科學(xué)實(shí)驗(yàn)系統(tǒng)等;其數(shù)據(jù)類型包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)?!?〕管理信息系統(tǒng):企業(yè)內(nèi)部使用的信息系統(tǒng),包括辦公自動(dòng)化系統(tǒng)、業(yè)務(wù)管理系統(tǒng)等,是常見的數(shù)據(jù)產(chǎn)生方式。管理信息系統(tǒng)主要通過用戶輸入和系統(tǒng)的二次加工的方式生成數(shù)據(jù),其產(chǎn)生的數(shù)據(jù)大多為結(jié)構(gòu)化數(shù)據(jù),存儲(chǔ)在數(shù)據(jù)庫中。大數(shù)據(jù)簡(jiǎn)介

〔2〕網(wǎng)絡(luò)信息系統(tǒng):基于網(wǎng)絡(luò)運(yùn)行的信息系統(tǒng)是大數(shù)據(jù)產(chǎn)生的重要方式,電子商務(wù)系統(tǒng)、社交網(wǎng)絡(luò)、社會(huì)媒體、搜索引擎等都是常見的網(wǎng)絡(luò)信息系統(tǒng),網(wǎng)絡(luò)信息系統(tǒng)產(chǎn)生的大數(shù)據(jù)多為半結(jié)構(gòu)化或無結(jié)構(gòu)化的數(shù)據(jù),網(wǎng)絡(luò)信息系統(tǒng)與管理信息系統(tǒng)的區(qū)別在于管理信息系統(tǒng)是內(nèi)部使用的,不接入外部的公共網(wǎng)絡(luò)。〔3〕物聯(lián)網(wǎng)系統(tǒng):通過傳感器獲取外界的物理、化學(xué)、生物等數(shù)據(jù)信息?!?〕科學(xué)實(shí)驗(yàn)系統(tǒng):主要用于學(xué)術(shù)科學(xué)研究,其環(huán)境是預(yù)先設(shè)定的,數(shù)據(jù)既可以是由真實(shí)實(shí)驗(yàn)產(chǎn)生也可以是通過模擬方式獲取仿真的。

大數(shù)據(jù)簡(jiǎn)介3.生產(chǎn)數(shù)據(jù)的三個(gè)階段〔1〕被動(dòng)式生成數(shù)據(jù):數(shù)據(jù)庫技術(shù)使得數(shù)據(jù)的保存和管理變得簡(jiǎn)單,業(yè)務(wù)系統(tǒng)在運(yùn)行時(shí)產(chǎn)生的數(shù)據(jù)直接保存數(shù)據(jù)庫中,這個(gè)時(shí)候數(shù)據(jù)的產(chǎn)生是被動(dòng)的,數(shù)據(jù)是隨著業(yè)務(wù)系統(tǒng)的運(yùn)行產(chǎn)生的。大數(shù)據(jù)簡(jiǎn)介〔2〕主動(dòng)式生成數(shù)據(jù):互聯(lián)網(wǎng)的誕生尤其是Web2.0、移動(dòng)互聯(lián)網(wǎng)的開展大大加速了數(shù)據(jù)的產(chǎn)生,人們可以隨時(shí)隨地通過等移動(dòng)終端隨時(shí)隨地地生成數(shù)據(jù),人們開始主動(dòng)地生成數(shù)據(jù)?!?〕感知式生成數(shù)據(jù):感知技術(shù)尤其是物聯(lián)網(wǎng)的開展促進(jìn)了數(shù)據(jù)生成方式發(fā)生了根本性的變化,遍布在城市各個(gè)角落的攝像頭等數(shù)據(jù)采集設(shè)備源源不斷地自動(dòng)采集、生成數(shù)據(jù)。大數(shù)據(jù)簡(jiǎn)介

4.大數(shù)據(jù)的特點(diǎn)〔1〕數(shù)據(jù)產(chǎn)生方式:在大數(shù)據(jù)時(shí)代,數(shù)據(jù)的產(chǎn)生方式發(fā)生了巨大的變化,數(shù)據(jù)的采集方式由以往的被動(dòng)采集數(shù)據(jù)轉(zhuǎn)變?yōu)橹鲃?dòng)生成數(shù)據(jù)。

〔2〕數(shù)據(jù)采集密度:以往我們進(jìn)行數(shù)據(jù)采集時(shí)的采樣密度較低,獲得的采樣數(shù)據(jù)有限;在大數(shù)據(jù)時(shí)代,有了大數(shù)據(jù)處理平臺(tái)的支撐,我們可以對(duì)需要分析的事件的數(shù)據(jù)進(jìn)行更加密集地采樣,從而精確地獲取事件的全局?jǐn)?shù)據(jù)。

〔3〕數(shù)據(jù)源:以往我們多從各個(gè)單一的數(shù)據(jù)源獲取數(shù)據(jù),獲取的數(shù)據(jù)較為孤立,不同數(shù)據(jù)源之間的數(shù)據(jù)整合難度較大;在大數(shù)據(jù)時(shí)代,我們可以通過分布式計(jì)算、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫等技術(shù)對(duì)多個(gè)數(shù)據(jù)源獲取的數(shù)據(jù)進(jìn)行整合處理。

大數(shù)據(jù)簡(jiǎn)介〔4〕數(shù)據(jù)處理方式:

以往我們對(duì)數(shù)據(jù)的處理大多采用離線處理的方式,對(duì)已經(jīng)生成的數(shù)據(jù)集中進(jìn)行分析處理,不對(duì)實(shí)時(shí)產(chǎn)生的數(shù)據(jù)進(jìn)行分析;在大數(shù)據(jù)時(shí)代,我們可以根據(jù)應(yīng)用的實(shí)際需求對(duì)數(shù)據(jù)采取靈活的處理方式,對(duì)于較大的數(shù)據(jù)源、響應(yīng)時(shí)間要求低的應(yīng)用可以采取批處理的方式進(jìn)行集中計(jì)算,而對(duì)于響應(yīng)時(shí)間要求高的實(shí)時(shí)數(shù)據(jù)處理那么采用流處理的方式進(jìn)行實(shí)時(shí)計(jì)算,并且可以通過對(duì)歷史數(shù)據(jù)的分析進(jìn)行預(yù)測(cè)分析;大數(shù)據(jù)簡(jiǎn)介大數(shù)據(jù)需要處理的數(shù)據(jù)大小通常到達(dá)PB〔1024TB〕或EB〔1024PB〕級(jí);數(shù)據(jù)的類型多種多樣,包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù);巨大的數(shù)據(jù)量和種類繁多的數(shù)據(jù)類型給大數(shù)據(jù)系統(tǒng)的存儲(chǔ)和計(jì)算帶來很大挑戰(zhàn),單節(jié)點(diǎn)的存儲(chǔ)容量和計(jì)算能力成為瓶頸;分布式系統(tǒng)是對(duì)大數(shù)據(jù)進(jìn)行處理的根本方法,分布式系統(tǒng)將數(shù)據(jù)切分后存儲(chǔ)到多個(gè)節(jié)點(diǎn)上,并在多個(gè)節(jié)點(diǎn)上發(fā)起計(jì)算,解決單節(jié)點(diǎn)的存儲(chǔ)和計(jì)算瓶頸。常見的數(shù)據(jù)切分的方法有隨機(jī)方法、哈希方法和區(qū)間方法:隨機(jī)方法將數(shù)據(jù)隨機(jī)分布到不同的節(jié)點(diǎn);哈希方法根據(jù)數(shù)據(jù)的某一行或者某一列的哈希值將數(shù)據(jù)分布到不同的節(jié)點(diǎn);區(qū)間方法將不同的數(shù)據(jù)按照不同區(qū)間分布到不同節(jié)點(diǎn)。大數(shù)據(jù)簡(jiǎn)介5.大數(shù)據(jù)的應(yīng)用領(lǐng)域大數(shù)據(jù)在社會(huì)生活的各個(gè)領(lǐng)域得到廣泛的應(yīng)用,不同領(lǐng)域的大數(shù)據(jù)應(yīng)用具有不同的特點(diǎn),其對(duì)響應(yīng)時(shí)間、系統(tǒng)穩(wěn)定性、計(jì)算精確性的要求各不相同,其比照方表1.1所示。

表1.1典型的大數(shù)據(jù)應(yīng)用特征比照

應(yīng)用領(lǐng)域示例用戶數(shù)量響應(yīng)時(shí)延數(shù)據(jù)量級(jí)穩(wěn)定性精確度科學(xué)計(jì)算基因計(jì)算小長(zhǎng)TB一般非常高金融股票交易大實(shí)時(shí)GB非常高非常高社交網(wǎng)絡(luò)Facebook非常大快速PB高高移動(dòng)數(shù)據(jù)移動(dòng)終端非常大快速TB高高物聯(lián)網(wǎng)傳感網(wǎng)大快速TB高高網(wǎng)頁數(shù)據(jù)新聞網(wǎng)站非常大快速GB高高多媒體視頻網(wǎng)站非常大快速GB高一般大數(shù)據(jù)簡(jiǎn)介主要的大數(shù)據(jù)處理系統(tǒng)大數(shù)據(jù)處理的數(shù)據(jù)源類型多種多樣,如結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)處理的需求各不相同:對(duì)海量已有數(shù)據(jù)進(jìn)行批量處理,對(duì)大量的實(shí)時(shí)生成的數(shù)據(jù)進(jìn)行實(shí)時(shí)處理,在進(jìn)行數(shù)據(jù)分析時(shí)進(jìn)行反復(fù)迭代計(jì)算,對(duì)圖數(shù)據(jù)進(jìn)行分析計(jì)算。

主要的大數(shù)據(jù)處理系統(tǒng)目前主要的大數(shù)據(jù)處理系統(tǒng)有:數(shù)據(jù)查詢分析計(jì)算系統(tǒng)、批處理系統(tǒng)、流式計(jì)算系統(tǒng)、迭代計(jì)算系統(tǒng)、圖計(jì)算系統(tǒng)和內(nèi)存計(jì)算系統(tǒng)。

1.?dāng)?shù)據(jù)查詢分析計(jì)算系統(tǒng)大數(shù)據(jù)時(shí)代,數(shù)據(jù)查詢分析計(jì)算系統(tǒng)需要具備對(duì)大規(guī)模數(shù)據(jù)進(jìn)行實(shí)時(shí)或準(zhǔn)實(shí)時(shí)查詢的能力,數(shù)據(jù)規(guī)模的增長(zhǎng)已經(jīng)超出了傳統(tǒng)關(guān)系型數(shù)據(jù)庫的承載和處理能力。目前主要的數(shù)據(jù)查詢分析計(jì)算系統(tǒng)包括HBase、Hive、Cassandra、Dremel、Shark、Hana等。主要的大數(shù)據(jù)處理系統(tǒng)

HBase:開源、分布式、面向列的非關(guān)系型數(shù)據(jù)庫模型,是Apache的Hadoop工程的子工程;源于Google論文《Bigtable:一個(gè)結(jié)構(gòu)化數(shù)據(jù)的分布式存儲(chǔ)系統(tǒng)》,實(shí)現(xiàn)了其中的壓縮算法、內(nèi)存操作和布隆過濾器HBase的編程語言為Java。HBase的表能夠作為MapReduce任務(wù)的輸入和輸出,可以通過JavaAPI來存取數(shù)據(jù)。

主要的大數(shù)據(jù)處理系統(tǒng)Hive:基于Hadoop的數(shù)據(jù)倉庫工具,用于查詢、管理分布式存儲(chǔ)中的大數(shù)據(jù)集,提供完整的SQL查詢功能,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)表。Hive提供了一種類SQL語言〔HiveQL〕可以將SQL語句轉(zhuǎn)換為MapReduce任務(wù)運(yùn)行。

主要的大數(shù)據(jù)處理系統(tǒng)Cassandra:開源NoSQL數(shù)據(jù)庫系統(tǒng),最早由Facebook開發(fā),并于2023年開源;由于其良好的可擴(kuò)展性,Cassandra被Facebook、Twitter、Backspace、Cisco等公司使用;其數(shù)據(jù)模型借鑒了Amazon的Dynamo和GoogleBigTable,是一種流行的分布式結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)方案。

主要的大數(shù)據(jù)處理系統(tǒng)Impala:由Cloudera公司主導(dǎo)開發(fā),是運(yùn)行在Hadoop平臺(tái)上的開源的大規(guī)模并行SQL查詢引擎。用戶可以使用標(biāo)準(zhǔn)的SQL接口的工具查詢存儲(chǔ)在Hadoop的HDFS和HBase中的PB級(jí)大數(shù)據(jù)。

主要的大數(shù)據(jù)處理系統(tǒng)

Shark:Spark上的數(shù)據(jù)倉庫實(shí)現(xiàn),即SQLonSpark;與Hive相兼容,但處理HiveQL的性能比Hive快100倍。Hana:由SAP公司開發(fā)的與數(shù)據(jù)源無關(guān)、軟硬件結(jié)合、基于內(nèi)存計(jì)算的平臺(tái)。主要的大數(shù)據(jù)處理系統(tǒng)2.批處理系統(tǒng)

MapReduce是被廣泛使用的批處理計(jì)算模式。MapReduce對(duì)具有簡(jiǎn)單數(shù)據(jù)關(guān)系、易于劃分的大數(shù)據(jù)采用“分而治之〞的并行處理思想,將數(shù)據(jù)記錄的處理分為Map和Reduce兩個(gè)簡(jiǎn)單的抽象操作,提供了一個(gè)統(tǒng)一的并行計(jì)算框架。批處理系統(tǒng)將復(fù)雜的并行計(jì)算的實(shí)現(xiàn)進(jìn)行封裝,大大降低開發(fā)人員的并行程序設(shè)計(jì)難度。Hadoop和Spark是典型的批處理系統(tǒng)。MapReduce的批處理模式不支持迭代計(jì)算。

主要的大數(shù)據(jù)處理系統(tǒng)

Hadoop:目前大數(shù)據(jù)處理最主流的平臺(tái),是Apache基金會(huì)的開源軟件工程,使用Java語言開發(fā)實(shí)現(xiàn)。Hadoop平臺(tái)使開發(fā)人員無需了解底層的分布式細(xì)節(jié),即可開發(fā)出分布式程序,在集群中對(duì)大數(shù)據(jù)進(jìn)行存儲(chǔ)、分析。主要的大數(shù)據(jù)處理系統(tǒng)Spark:由加州伯克利大學(xué)AMP實(shí)驗(yàn)室開發(fā),適合用于機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等迭代運(yùn)算較多的計(jì)算任務(wù)。Spark引入了內(nèi)存計(jì)算的概念,運(yùn)行Spark時(shí)效勞器可以將中間數(shù)據(jù)存儲(chǔ)在RAM內(nèi)存中,大大加速數(shù)據(jù)分析結(jié)果的返回速度,可用于需要互動(dòng)分析的場(chǎng)景。

主要的大數(shù)據(jù)處理系統(tǒng)3.流式計(jì)算系統(tǒng)流式計(jì)算具有很強(qiáng)的實(shí)時(shí)性,需要對(duì)應(yīng)用源源不斷產(chǎn)生的數(shù)據(jù)實(shí)時(shí)進(jìn)行處理,使數(shù)據(jù)不積壓、不喪失,常用于處理電信、電力等行業(yè)應(yīng)用以及互聯(lián)網(wǎng)行業(yè)的訪問日志等。Facebook的Scribe、Apache的Flume、Twitter的Storm、Yahoo的S4、UCBerkeley的SparkStreaming是常用的流式計(jì)算系統(tǒng)。

主要的大數(shù)據(jù)處理系統(tǒng)Scribe:Scribe由Facebook開發(fā)開源系統(tǒng),用于從海量效勞器實(shí)時(shí)收集日志信息,對(duì)日志信息進(jìn)行實(shí)時(shí)的統(tǒng)計(jì)分析處理,應(yīng)用在Facebook內(nèi)部。Flume:Flume由Cloudera公司開發(fā),其功能與Scribe相似,主要用于實(shí)時(shí)收集在海量節(jié)點(diǎn)上產(chǎn)生的日志信息,存儲(chǔ)到類似于HDFS的網(wǎng)絡(luò)文件系統(tǒng)中,并根據(jù)用戶的需求進(jìn)行相應(yīng)的數(shù)據(jù)分析。主要的大數(shù)據(jù)處理系統(tǒng)

Storm:基于拓?fù)涞姆植际搅鲾?shù)據(jù)實(shí)時(shí)計(jì)算系統(tǒng),由BackType公司〔后被Twitter收購(gòu)〕開發(fā),現(xiàn)已經(jīng)開放源代碼,并應(yīng)用于淘寶、百度、支付寶、Groupon、Facebook等平臺(tái),是主要的流數(shù)據(jù)計(jì)算平臺(tái)之一。主要的大數(shù)據(jù)處理系統(tǒng)S4:S4的全稱是SimpleScalableStreamingSystem,是由Yahoo開發(fā)的通用、分布式、可擴(kuò)展、局部容錯(cuò)、具備可插拔功能的平臺(tái);其設(shè)計(jì)目的是根據(jù)用戶的搜索內(nèi)容計(jì)算得到相應(yīng)的推薦廣告,現(xiàn)已經(jīng)開源,是重要的大數(shù)據(jù)計(jì)算平臺(tái)。主要的大數(shù)據(jù)處理系統(tǒng)SparkStreaming:構(gòu)建在Spark上的流數(shù)據(jù)處理框架,將流式計(jì)算分解成一系列短小的批處理任務(wù)進(jìn)行處理。網(wǎng)站流量統(tǒng)計(jì)是SparkStreaming的一種典型的使用場(chǎng)景,這種應(yīng)用既需要具有實(shí)時(shí)性,還需要進(jìn)行聚合、去重、連接等統(tǒng)計(jì)計(jì)算操作;如果使用HadoopMapReduce框架,那么可以很容易地實(shí)現(xiàn)統(tǒng)計(jì)需求,但無法保證實(shí)時(shí)性;如果使用Storm這種流式框架那么可以保證實(shí)時(shí)性,但實(shí)現(xiàn)難度較大;SparkStreaming可以以準(zhǔn)實(shí)時(shí)的方式方便地實(shí)現(xiàn)復(fù)雜的統(tǒng)計(jì)需求。主要的大數(shù)據(jù)處理系統(tǒng)4.迭代計(jì)算系統(tǒng)針對(duì)MapReduce不支持迭代計(jì)算的缺陷,人們對(duì)Hadoop的MapReduce進(jìn)行了大量改進(jìn),Haloop、iMapReduce、Twister、Spark是典型的迭代計(jì)算系統(tǒng)。HaLoop:Haloop是HadoopMapReduce框架的修改版本,用于支持迭代、遞歸類型的數(shù)據(jù)分析任務(wù),如PageRank、K-means等。iMapReduce:一種基于MapReduce的迭代模型,實(shí)現(xiàn)了MapReduce的異步迭代。Twister:基于Java的迭代MapReduce模型,上一輪Reduce的結(jié)果會(huì)直接傳送到下一輪的Map。Spark:基于內(nèi)存計(jì)算的開源集群計(jì)算框架。

主要的大數(shù)據(jù)處理系統(tǒng)5.圖計(jì)算系統(tǒng)社交網(wǎng)絡(luò)、網(wǎng)頁鏈接等包含具有復(fù)雜關(guān)系的圖數(shù)據(jù),這些圖數(shù)據(jù)的規(guī)模巨大,可包含數(shù)十億頂點(diǎn)和上百億條邊,圖數(shù)據(jù)需要由專門的系統(tǒng)進(jìn)行存儲(chǔ)和計(jì)算。常用的圖計(jì)算系統(tǒng)有Google公司的Pregel、Pregel的開源版本Giraph、微軟的Trinity、BerkeleyAMPLab的GraphX以及高速圖數(shù)據(jù)處理系統(tǒng)PowerGraph。

主要的大數(shù)據(jù)處理系統(tǒng)Pregel:Google公司開發(fā)的一種面向圖數(shù)據(jù)計(jì)算的分布式編程框架,采用迭代的計(jì)算模型。Google的數(shù)據(jù)計(jì)算任務(wù)中,大約80%的任務(wù)處理采用MapReduce模式,如網(wǎng)頁內(nèi)容索引;圖數(shù)據(jù)的計(jì)算任務(wù)約占20%,采用Pregel進(jìn)行處理。Giraph:一個(gè)迭代的圖計(jì)算系統(tǒng),最早由雅虎公司借鑒Pregel系統(tǒng)開發(fā),后捐贈(zèng)給Apache軟件基金會(huì),成為開源的圖計(jì)算系統(tǒng)。Giraph是基于Hadoop建立的,F(xiàn)acebook在其臉譜搜索效勞中大量使用了Giraph。主要的大數(shù)據(jù)處理系統(tǒng)Trinity:微軟公司開發(fā)的圖數(shù)據(jù)庫系統(tǒng),該系統(tǒng)是基于內(nèi)存的數(shù)據(jù)存儲(chǔ)與運(yùn)算系統(tǒng),源代碼不公開。GraphX:由AMPLab開發(fā)的運(yùn)行在數(shù)據(jù)并行的Spark平臺(tái)上的圖數(shù)據(jù)計(jì)算系統(tǒng)。PowerGraph:高速圖處理系統(tǒng),常用于廣告推薦計(jì)算和自然語言處理。

主要的大數(shù)據(jù)處理系統(tǒng)6.內(nèi)存計(jì)算系統(tǒng)隨著內(nèi)存價(jià)格的不斷下降、效勞器可配置內(nèi)存容量的不斷增長(zhǎng),使用內(nèi)存計(jì)算完成高速的大數(shù)據(jù)處理已成為大數(shù)據(jù)處理的重要開展方向。目前常用的內(nèi)存計(jì)算系統(tǒng)有分布式內(nèi)存計(jì)算系統(tǒng)Spark、全內(nèi)存式分布式數(shù)據(jù)庫系統(tǒng)HANA、Google的可擴(kuò)展交互式查詢系統(tǒng)Dremel。

主要的大數(shù)據(jù)處理系統(tǒng)Dremel:Google的交互式數(shù)據(jù)分析系統(tǒng),可以在數(shù)以千計(jì)的效勞器組成的集群上發(fā)起計(jì)算,處理PB級(jí)的數(shù)據(jù)。Dremel是GoogleMapReduce的補(bǔ)充,大大縮短了數(shù)據(jù)的處理時(shí)間,成功地應(yīng)用在Google的bigquery中。HANA:SAP公司開發(fā)的基于內(nèi)存技術(shù)、面向企業(yè)分析性的產(chǎn)品。Spark:基于內(nèi)存計(jì)算的開源集群計(jì)算系統(tǒng)。

主要的大數(shù)據(jù)處理系統(tǒng)大數(shù)據(jù)處理的根本流程大數(shù)據(jù)處理的根本流程大數(shù)據(jù)的處理流程可以定義為在適合工具的輔助下,對(duì)廣泛異構(gòu)的數(shù)據(jù)源進(jìn)行抽取和集成,結(jié)果按照一定的標(biāo)準(zhǔn)統(tǒng)一存儲(chǔ),利用適宜的數(shù)據(jù)分析技術(shù)對(duì)存儲(chǔ)的數(shù)據(jù)進(jìn)行分析,從中提取有益的知識(shí)并利用恰當(dāng)?shù)姆绞綄⒔Y(jié)果展示給終端用戶。大數(shù)據(jù)處理的根本流程如圖1.2所示。

圖1.2大數(shù)據(jù)處理的根本流程

1.?dāng)?shù)據(jù)抽取與集成由于大數(shù)據(jù)處理的數(shù)據(jù)來源類型豐富,大數(shù)據(jù)處理的第一步是對(duì)數(shù)據(jù)進(jìn)行抽取和集成,從中提取出關(guān)系和實(shí)體,經(jīng)過關(guān)聯(lián)和聚合等操作,按照統(tǒng)一定義的格式對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)?,F(xiàn)有的數(shù)據(jù)抽取和集成方法有三種:基于物化或ETL方法的引擎〔MaterializationorETLEngine〕、基于聯(lián)邦數(shù)據(jù)庫或中間件方法的引擎〔FederationEngineorMediator〕、基于數(shù)據(jù)流方法的引擎〔StreamEngine〕。大數(shù)據(jù)處理的根本流程2.?dāng)?shù)據(jù)分析數(shù)據(jù)分析是大數(shù)據(jù)處理流程的核心步驟,通過數(shù)據(jù)抽取和集成環(huán)節(jié),我們已經(jīng)從異構(gòu)的數(shù)據(jù)源中獲得了用于大數(shù)據(jù)處理的原始數(shù)據(jù),用戶可以根據(jù)自己的需求對(duì)這些數(shù)據(jù)進(jìn)行分析處理,比方數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、數(shù)據(jù)統(tǒng)計(jì)等,數(shù)據(jù)分析可以用于決策支持、商業(yè)智能、推薦系統(tǒng)、預(yù)測(cè)系統(tǒng)等。

大數(shù)據(jù)處理的根本流程3.?dāng)?shù)據(jù)解釋大數(shù)據(jù)處理流程中用戶最關(guān)心的是數(shù)據(jù)處理的結(jié)果,正確的數(shù)據(jù)處理結(jié)果只有通過適宜的展示方式才能被終端用戶正確理解,因此數(shù)據(jù)處理結(jié)果的展示非常重要,可視化和人機(jī)交互是數(shù)據(jù)解釋的主要技術(shù)。

大數(shù)據(jù)處理的根本流程我們?cè)陂_發(fā)調(diào)試程序的時(shí)候經(jīng)常通過打印語句的方式來呈現(xiàn)結(jié)果,這種方式非常靈活、方便,但只有熟悉程序的人才能很好地理解打印結(jié)果。使用可視化技術(shù),可以將處理的結(jié)果通過圖形的方式直觀地呈現(xiàn)給用戶,標(biāo)簽云〔TagCloud〕、歷史流〔HistoryFlow〕、空間信息流〔SpatialInformationFlow〕等是常用的可視化技術(shù),用戶可以根據(jù)自己的需求靈活地使用這些可視化技術(shù);人機(jī)交互技術(shù)可以引導(dǎo)用戶對(duì)數(shù)據(jù)進(jìn)行逐步的分析,使用戶參與到數(shù)據(jù)分析的過程中,使用戶可以深刻地理解數(shù)據(jù)分析結(jié)果。

大數(shù)據(jù)處理的根本流程1.3云計(jì)算與大數(shù)據(jù)的開展1.3云計(jì)算與大數(shù)據(jù)的開展

1.云計(jì)算與大數(shù)據(jù)開展歷程早在1958年,人工智能之父JohnMcCarthy創(chuàng)造了函數(shù)式語言LISP,LISP語言后來成為MapReduce的思想來源。1960年JohnMcCarthy預(yù)言了:“今后計(jì)算機(jī)將會(huì)作為公共設(shè)施提供給公眾〞,這一概念與我們現(xiàn)在所定義的云計(jì)算已非常相似,但當(dāng)時(shí)的技術(shù)條件決定了這一設(shè)想只是一種對(duì)未來技術(shù)開展的預(yù)言。云計(jì)算是網(wǎng)絡(luò)技術(shù)開展到一定階段后必然出現(xiàn)的新的技術(shù)體系和產(chǎn)業(yè)模式。1984年SUN公司提出“網(wǎng)絡(luò)就是計(jì)算機(jī)〞這一具有云計(jì)算特征的論點(diǎn),2006年Google公司CEOEricSchmidt提出云計(jì)算概念,2023年云計(jì)算概念全面進(jìn)入中國(guó),2023年中國(guó)首屆云計(jì)算大會(huì)召開,此后云計(jì)算技術(shù)和產(chǎn)品迅速地開展起來。

隨著社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)等技術(shù)的開展,數(shù)據(jù)正在以前所未有的速度增長(zhǎng)和積累,IDC的研究數(shù)據(jù)說明,全球的數(shù)據(jù)量每年增長(zhǎng)50%,兩年翻一番,這意味著全球近兩年產(chǎn)生的數(shù)據(jù)量將超過之前全部數(shù)據(jù)的總和。2023年全球數(shù)據(jù)總量已達(dá)1.8ZB,到2023年,全球數(shù)據(jù)總量將到達(dá)35ZB。2023年《Nature》雜志推出了大數(shù)據(jù)???,2023年《Science》雜志推出大數(shù)據(jù)專刊,討論科學(xué)研究的中大數(shù)據(jù)問題。2023年大數(shù)據(jù)的關(guān)注度和影響力快速增長(zhǎng),成為當(dāng)年達(dá)沃斯世界經(jīng)濟(jì)論壇的主題,美國(guó)政府啟動(dòng)大數(shù)據(jù)開展方案。中國(guó)計(jì)算機(jī)學(xué)會(huì)于2023年成立了大數(shù)據(jù)專家委員會(huì),并發(fā)布了大數(shù)據(jù)技術(shù)白皮書。1.3云計(jì)算與大數(shù)據(jù)的開展

圖1.3近年來云計(jì)算、大數(shù)據(jù)的關(guān)注度

如圖1.3所示為云計(jì)算、大數(shù)據(jù)兩個(gè)關(guān)鍵詞近年來的網(wǎng)絡(luò)關(guān)注度,可以看出2023年至今大數(shù)據(jù)的關(guān)注度越來越高,云計(jì)算和大數(shù)據(jù)是信息技術(shù)未來的開展方向。

1.3云計(jì)算與大數(shù)據(jù)的開展網(wǎng)絡(luò)技術(shù)在云計(jì)算和大數(shù)據(jù)的開展歷程中發(fā)揮了重要的推動(dòng)作用??梢哉J(rèn)為信息技術(shù)的開展經(jīng)歷了硬件開展推動(dòng)和網(wǎng)絡(luò)技術(shù)推動(dòng)兩個(gè)階段。早期主要以硬件開展為主要?jiǎng)恿?,在這個(gè)階段硬件的技術(shù)水平?jīng)Q定著整個(gè)信息技術(shù)的開展水平,硬件的每一次進(jìn)步都有力地推動(dòng)著信息技術(shù)的開展,從電子管技術(shù)到晶體管技術(shù)再到大規(guī)模集成電路,這種技術(shù)變革成為產(chǎn)業(yè)開展的核心動(dòng)力。但網(wǎng)絡(luò)技術(shù)的出現(xiàn)逐步地打破了單純的硬件能力決定技術(shù)開展的格局,通信帶寬的開展為信息技術(shù)的開展提供了新的動(dòng)力,在這一階段通信帶寬成為了信息技術(shù)開展的決定性力量之一,云計(jì)算、大數(shù)據(jù)技術(shù)的出現(xiàn)正是這一階段的產(chǎn)物,其廣泛應(yīng)用并不是單純靠某一個(gè)人創(chuàng)造而是由于技術(shù)開展到現(xiàn)在的必然產(chǎn)物,生產(chǎn)力決定生產(chǎn)關(guān)系的規(guī)律在這里依然是成立的。

1.3云計(jì)算與大數(shù)據(jù)的開展當(dāng)前移動(dòng)互聯(lián)網(wǎng)的出現(xiàn)并迅速普及更是對(duì)云計(jì)算、大數(shù)據(jù)的開展起到了推動(dòng)作用。移動(dòng)瘦客戶終端與云計(jì)算資源池的結(jié)合大大拓展了移動(dòng)應(yīng)用的思路,云計(jì)算資源得以在移動(dòng)終端上實(shí)現(xiàn)隨時(shí)、隨地、隨身資源效勞。移動(dòng)互聯(lián)網(wǎng)再次拓展了以網(wǎng)絡(luò)化資源交付為特點(diǎn)的云計(jì)算技術(shù)的應(yīng)用能力,同時(shí)也改變了數(shù)據(jù)的產(chǎn)生方式,推動(dòng)了全球數(shù)據(jù)的快速增長(zhǎng),推動(dòng)了大數(shù)據(jù)的技術(shù)和應(yīng)用的開展。

1.3云計(jì)算與大數(shù)據(jù)的開展云計(jì)算是一種全新的領(lǐng)先信息技術(shù),結(jié)合IT技術(shù)和互聯(lián)網(wǎng)實(shí)現(xiàn)超級(jí)計(jì)算和存儲(chǔ)的能力,而推動(dòng)云計(jì)算興起的動(dòng)力是高速互聯(lián)網(wǎng)和虛擬化技術(shù)的開展、更加廉價(jià)且功能強(qiáng)勁的芯片及硬盤、數(shù)據(jù)中心的開展。云計(jì)算作為下一代企業(yè)數(shù)據(jù)中心,其根本形式為大量鏈接在一起的共享IT根底設(shè)施,不受本地和遠(yuǎn)程計(jì)算機(jī)資源的限制,可以很方便地訪問云中的“虛擬〞資源,使用戶和云效勞提供商之間可以像訪問網(wǎng)絡(luò)一樣進(jìn)行交互操作。1.3云計(jì)算與大數(shù)據(jù)的開展云計(jì)算的興起有以下因素:〔1〕高速互聯(lián)網(wǎng)技術(shù)開展。云計(jì)算能夠利用現(xiàn)有的IT根底設(shè)施在極短的時(shí)間內(nèi)處理大量的信息以滿足動(dòng)態(tài)網(wǎng)絡(luò)的高性能的需求。

〔2〕資源利用率需求。

引入云計(jì)算模式后可以通過整合資源或采用租用存儲(chǔ)空間、租用計(jì)算能力等效勞來降低企業(yè)運(yùn)行本錢和節(jié)省能源。

同時(shí),利用云計(jì)算將資源集中,統(tǒng)一提供可靠效勞,能減少企業(yè)本錢,提升企業(yè)靈活性,企業(yè)可以把更多的時(shí)間用于效勞客戶和進(jìn)一步研發(fā)新的產(chǎn)品上。

1.3云計(jì)算與大數(shù)據(jù)的開展

〔3〕簡(jiǎn)單與創(chuàng)新需求。

在實(shí)際的業(yè)務(wù)需求中,越來越多的個(gè)人用戶和企業(yè)用戶都在期待著使用計(jì)算機(jī)操作能簡(jiǎn)單化,能夠直接通過購(gòu)置軟件或硬件效勞而不是軟件或硬件實(shí)體,為自己的學(xué)習(xí)、生活和工作帶來更多的便利,能在學(xué)習(xí)場(chǎng)所、工作場(chǎng)所、住所之間建立便利的文件或資料共享的紐帶。而對(duì)資源的利用可以簡(jiǎn)化到通過接入網(wǎng)絡(luò)就可以實(shí)現(xiàn)自己想要實(shí)現(xiàn)的一切,就需要在技術(shù)上有所創(chuàng)新,利用云計(jì)算來提供這一切,將我們需要的資料、數(shù)據(jù)、文檔、程序等全部放在云端實(shí)現(xiàn)同步。1.3云計(jì)算與大數(shù)據(jù)的開展〔4〕其他需求連接設(shè)備、實(shí)時(shí)數(shù)據(jù)流、SOA的采用以及搜索、開放協(xié)作、社會(huì)網(wǎng)絡(luò)和移動(dòng)商務(wù)等的移動(dòng)互聯(lián)網(wǎng)應(yīng)用急劇增長(zhǎng),數(shù)字元器件性能的提升也使IT環(huán)境的規(guī)模大幅度提高,從而進(jìn)一步加強(qiáng)了對(duì)一個(gè)由統(tǒng)一的云進(jìn)行管理的需求。個(gè)人或企業(yè)希望按需計(jì)算或效勞,能在不同的地方實(shí)時(shí)實(shí)現(xiàn)工程、文檔的協(xié)作處理,能在繁雜的信息中方便地找到自己需要的信息等需求也是云計(jì)算興起的原因之一。人類歷史不斷地證明生產(chǎn)力決定生產(chǎn)關(guān)系,技術(shù)的開展歷史也證明了技術(shù)能力決定技術(shù)的形態(tài),1.3云計(jì)算與大數(shù)據(jù)的開展縱觀整個(gè)信息技術(shù)的開展歷史

圖1.4信息產(chǎn)業(yè)開展演進(jìn)路線圖

1.3云計(jì)算與大數(shù)據(jù)的開展硬件驅(qū)動(dòng)的時(shí)代誕生了IBM、微軟、Intel等企業(yè)。20世紀(jì)50年代最早的網(wǎng)絡(luò)開始出現(xiàn),信息產(chǎn)業(yè)的開展驅(qū)動(dòng)力中開始出現(xiàn)網(wǎng)絡(luò)的力量,但當(dāng)時(shí)網(wǎng)絡(luò)性能很弱,網(wǎng)絡(luò)并不是推動(dòng)信息產(chǎn)業(yè)開展的主要?jiǎng)恿?,處理器等硬件的影響還占絕對(duì)主導(dǎo)因素。隨著網(wǎng)絡(luò)的開展,網(wǎng)絡(luò)通信帶寬逐步加大,從20世紀(jì)80年代的局域網(wǎng)到20世紀(jì)90年代的互聯(lián)網(wǎng),網(wǎng)絡(luò)逐漸成為了推動(dòng)信息產(chǎn)業(yè)開展的主導(dǎo)力量,這個(gè)時(shí)期誕生了百度、谷歌、亞馬遜等企業(yè)。直到云計(jì)算的出現(xiàn)才標(biāo)志著網(wǎng)絡(luò)已成為信息產(chǎn)業(yè)開展的主要驅(qū)動(dòng)力,此時(shí)技術(shù)的變革即將出現(xiàn)。

1.3云計(jì)算與大數(shù)據(jù)的開展2.為云計(jì)算與大數(shù)據(jù)開展做出奉獻(xiàn)的科學(xué)家超級(jí)計(jì)算機(jī)之父—西摩·克雷〔SeymourCray〕

在人類解決計(jì)算和存儲(chǔ)問題的歷程中,西摩·克雷成為了一座豐碑,被稱為超級(jí)計(jì)算機(jī)之父。西摩·克雷,生于1925年9月28日,美國(guó)人,1958年設(shè)計(jì)建造了世界上第一臺(tái)基于晶體管的超級(jí)計(jì)算機(jī),成為計(jì)算機(jī)開展史上的重要里程碑。同時(shí)也對(duì)精簡(jiǎn)指令〔RISC〕高端微處理器的產(chǎn)生有重大的奉獻(xiàn)。1972年,他創(chuàng)辦了克雷研究公司,公司的宗旨是只生產(chǎn)超級(jí)計(jì)算機(jī)。此后的十余年中,克雷先后創(chuàng)造了Cray-1、Cray-2等機(jī)型。作為高性能計(jì)算機(jī)領(lǐng)域中最重要的人物之一,他親手設(shè)計(jì)了Cray全部的硬件與操作系統(tǒng)。Cray機(jī)成為了從事高性能計(jì)算學(xué)者中永遠(yuǎn)的記憶,到1986年1月為止,世界上有130臺(tái)超級(jí)計(jì)算機(jī)投入使用,其中大約90臺(tái)是由克雷的上市公司—克雷研究所研制的。美國(guó)的《商業(yè)周刊》在1990年的一篇文章中曾這樣寫道:“西摩·克雷的天賦和非凡的干勁已經(jīng)給本世紀(jì)的技術(shù)留下了不可磨滅的印記〞。2023年11月高性能計(jì)算Top500排行中第2名和第6名均為Cray機(jī)。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論