計(jì)算機(jī)導(dǎo)論 第11章 云計(jì)算與大數(shù)據(jù)_第1頁(yè)
計(jì)算機(jī)導(dǎo)論 第11章 云計(jì)算與大數(shù)據(jù)_第2頁(yè)
計(jì)算機(jī)導(dǎo)論 第11章 云計(jì)算與大數(shù)據(jù)_第3頁(yè)
計(jì)算機(jī)導(dǎo)論 第11章 云計(jì)算與大數(shù)據(jù)_第4頁(yè)
計(jì)算機(jī)導(dǎo)論 第11章 云計(jì)算與大數(shù)據(jù)_第5頁(yè)
已閱讀5頁(yè),還剩41頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

計(jì)算機(jī)導(dǎo)論教師:第11章云計(jì)算與大數(shù)據(jù)11目錄CONTENTS1云計(jì)算基礎(chǔ)2云計(jì)算的關(guān)鍵技術(shù)3云計(jì)算的應(yīng)用4云計(jì)算與其他集群計(jì)算比較5大數(shù)據(jù)簡(jiǎn)介目錄CONTENTS6云計(jì)算與大數(shù)據(jù)系統(tǒng)7大數(shù)據(jù)處理系統(tǒng)實(shí)例8大數(shù)據(jù)的應(yīng)用本章學(xué)習(xí)目標(biāo)了解云計(jì)算的服務(wù)類型和部署方式了解云計(jì)算的關(guān)鍵技術(shù)及云計(jì)算的應(yīng)用理解大數(shù)據(jù)處理的主要過程本章學(xué)習(xí)目標(biāo)云計(jì)算

云計(jì)算是傳統(tǒng)計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)融合發(fā)展的產(chǎn)物,它涉及網(wǎng)絡(luò)存儲(chǔ)(NetworkStorageTechnologies)、分布式計(jì)算(Distributedcomputing)、并行計(jì)算(ParallelComputing)、虛擬化(Virtualization)、負(fù)載均衡(LoadBalance)、效用計(jì)算(UtilityComputing)、熱備份冗余(HighAvailable)等。除此之外,云計(jì)算還要關(guān)注系統(tǒng)的擴(kuò)展及方便管理、降低成本等方面的問題。

云計(jì)算簡(jiǎn)介云計(jì)算發(fā)展歷程1983年SunMicrosystems提出“網(wǎng)絡(luò)是電腦”。2006年3月Amazon推出彈性計(jì)算云(ElasticComputeCloud,EC2)服務(wù)。2006年8月9日Google首席執(zhí)行官埃里克·施密特在搜索引擎大會(huì)(SESSanJose2006)首次提出“云計(jì)算”的概念。2007年10月Google與IBM開始在美國(guó)大學(xué)校園推廣云計(jì)算計(jì)劃。2008年1月30日Google宣布在臺(tái)灣啟動(dòng)“云計(jì)算學(xué)術(shù)計(jì)劃”。2008年2月1日Yahoo、HP和Intel宣布了一項(xiàng)涵蓋美國(guó)、德國(guó)和新加坡的聯(lián)合研究計(jì)劃,推出了云計(jì)算研究測(cè)試床,以推進(jìn)云計(jì)算。2008年8月3日美國(guó)專利商標(biāo)局網(wǎng)站信息顯示,Dell正在申請(qǐng)“云計(jì)算”商標(biāo),此舉旨在加強(qiáng)對(duì)這一未來可能重塑技術(shù)架構(gòu)的術(shù)語的控制權(quán)。2010年3月5日Novell與云安全聯(lián)盟(CSA)共同宣布了一項(xiàng)供應(yīng)商中立計(jì)劃,名為“可信任云計(jì)算計(jì)劃”。2009年1月阿里軟件在江蘇南京建立了中國(guó)首個(gè)“電子商務(wù)云計(jì)算中心”。2009年7月中國(guó)首個(gè)企業(yè)云計(jì)算平臺(tái)“中化企業(yè)云計(jì)算平臺(tái)”誕生2009年11月中國(guó)移動(dòng)云計(jì)算平臺(tái)“大云”計(jì)劃啟動(dòng)。

云計(jì)算的服務(wù)類型

按照提供服務(wù)的層次和類別,云計(jì)算可以包括以下幾個(gè)層次的服務(wù):基礎(chǔ)設(shè)施即服務(wù)(InfrastructureasaService,IaaS)、平臺(tái)即服務(wù)(PlatformasaService,PaaS)、軟件即服務(wù)(Softwareasaservice,SaaS)。不同服務(wù)類型下,用戶通過云計(jì)算獲取的服務(wù)內(nèi)容云計(jì)算的服務(wù)類型1.IaaS

IaaS能為用戶提供計(jì)算基礎(chǔ)架構(gòu),通常指提供物理機(jī)、虛擬機(jī)、網(wǎng)絡(luò)資源及其他資源,如虛擬機(jī)映像庫(kù)、塊存儲(chǔ)或基于文件的存儲(chǔ)、防火墻、負(fù)載均衡、IP地址、虛擬局域網(wǎng)等。目前主要的IaaS提供商和產(chǎn)品包括:Amazon的AWS、Microsoft的Azure、Rackspace的OpenStack、IBM的SoftLayer、VMware的VCloud等。中國(guó)有阿里云、青云及大云等,他們都是采用虛擬技術(shù)來提供虛擬機(jī)IaaS。云計(jì)算的服務(wù)類型2.PaaS

PaaS也被稱為中間件服務(wù),為用戶提供的服務(wù)平臺(tái)包括操作系統(tǒng)、編程語言運(yùn)行環(huán)境、數(shù)據(jù)庫(kù)和大數(shù)據(jù)集處理、Web服務(wù)器等。PaaS把開發(fā)環(huán)境作為一種服務(wù)來提供,可以使用中間商的設(shè)備和軟件開發(fā)自己的程序,通過服務(wù)器和Internet傳給用戶。主要的服務(wù)平臺(tái)包括Amazon的AWSElasticBeanstalk、Google的GAE(GoogleAppEngine)、新浪的ASE、百度云的開發(fā)引擎、大數(shù)據(jù)處理系統(tǒng)hadoop等。云計(jì)算的服務(wù)類型3.SaaS

SaaS是為用戶提供按需支付費(fèi)用的應(yīng)用軟件。用戶不必操心各種應(yīng)用程序的安裝、設(shè)置和運(yùn)行維護(hù),一切都由SaaS提供商來完成。

用戶只需要支付費(fèi)用,通過可視化的客戶端來使用它,如Google的Apps、Microsoft的Office365、Citrix的CloudStack,以及目前流行的各種云存儲(chǔ)(網(wǎng)盤)、云相冊(cè)、云備份、云打印、云監(jiān)控等針對(duì)個(gè)人使用的云服務(wù)產(chǎn)品。公有云公有云是當(dāng)前最主流且最受歡迎的云計(jì)算部署形式之一。公有云由服務(wù)供應(yīng)商運(yùn)行,為用戶提供各種各樣的信息技術(shù)資源。社區(qū)云社區(qū)云是指在一定的地域范圍內(nèi),或面向兩個(gè)及兩個(gè)以上組織開放的云計(jì)算服務(wù),該范圍內(nèi)的用戶一般具有共同的需求,如云服務(wù)模式、安全級(jí)別等。私有云私有云主要為企業(yè)內(nèi)部提供云服務(wù),在企業(yè)的防火墻內(nèi)工作,由企業(yè)自行管理?;旌显苹旌显剖枪性坪退接性频娜诤?,是近年來云計(jì)算的主要模式和發(fā)展方向。目前可供選擇的混合云產(chǎn)品較少。云計(jì)算的部署云計(jì)算的部署在云部署與云計(jì)算的應(yīng)用過程中,不同階段存在不同角色,他們分別能提供云服務(wù)和使用云服務(wù)。云計(jì)算產(chǎn)業(yè)鏈圖如下圖所示。云計(jì)算的特點(diǎn)超大規(guī)模虛擬化高可靠性高可擴(kuò)展通用性按需部署高性價(jià)比動(dòng)態(tài)資源池支持海量信息處理可計(jì)量的服務(wù)云計(jì)算體系結(jié)構(gòu)海量分布式存儲(chǔ)技術(shù)彈性計(jì)算技術(shù)云計(jì)算的關(guān)鍵技術(shù)并行編程模式分布式資源管理技術(shù)云計(jì)算平臺(tái)管理技術(shù)數(shù)據(jù)管理技術(shù)云計(jì)算的應(yīng)用1.云計(jì)算平臺(tái)Google云計(jì)算平臺(tái):Google是云計(jì)算最大的實(shí)踐者之一,運(yùn)營(yíng)較接近云計(jì)算特征的商用平臺(tái)——在線應(yīng)用服務(wù)托管平臺(tái)Google應(yīng)用引擎(GAE)。軟件開發(fā)者可以在此之上編寫應(yīng)用程序。開源云計(jì)算平臺(tái):Hadoop是Apache基金會(huì)的開源云計(jì)算平臺(tái)項(xiàng)目

(分布式系統(tǒng)基礎(chǔ)架構(gòu)),

是從Nutch項(xiàng)目發(fā)展而來的,專門負(fù)責(zé)分布式存儲(chǔ)及分布式運(yùn)算的項(xiàng)目。Hadoop已成為目前應(yīng)用最廣、最成熟的云計(jì)算開源項(xiàng)目之一。Amazon的AWS云服務(wù):Amazon是以在線書店和電子零售業(yè)發(fā)展起來的,

如今已在業(yè)界享有盛譽(yù),它的云計(jì)算服務(wù)不涉及應(yīng)用層面的計(jì)算,主要是基于虛擬化技術(shù)提供底層的可通過網(wǎng)絡(luò)訪問的存儲(chǔ)、計(jì)算機(jī)處理、信息排隊(duì)和數(shù)據(jù)庫(kù)管理系統(tǒng)等租用式服務(wù)。云計(jì)算的應(yīng)用2.云計(jì)算衍生產(chǎn)品

云存儲(chǔ):云存儲(chǔ)是在云計(jì)算概念上延伸和發(fā)展出來的一個(gè)新的概念,是指通過集群應(yīng)用、網(wǎng)格技術(shù)或分布式文件系統(tǒng)等功能,將網(wǎng)絡(luò)中大量不同類型的存儲(chǔ)設(shè)備通過應(yīng)用軟件集合起來協(xié)同工作,共同對(duì)外提供數(shù)據(jù)存儲(chǔ)和業(yè)務(wù)訪問功能的一個(gè)系統(tǒng)。典型的云存儲(chǔ)包括百度云、阿里云、網(wǎng)盤等,為用戶提供存儲(chǔ)和下載大容量文件服務(wù)。云安全:云安全是在Internet和云計(jì)算融合時(shí)代,信息安全的最新發(fā)展之一,包括以下兩方面內(nèi)容:1、云計(jì)算技術(shù)在安全領(lǐng)域的應(yīng)用;2、安全技術(shù)在云計(jì)算平臺(tái)的應(yīng)用。其他:在游戲、教育、通信和娛樂、交通、醫(yī)療等領(lǐng)域,云計(jì)算同樣應(yīng)用廣泛。如交通云、醫(yī)療云、購(gòu)物云和高性能計(jì)算云等。云計(jì)算與其他集群計(jì)算比較1.云計(jì)算與網(wǎng)格計(jì)算

網(wǎng)格計(jì)算(GridComputing)是20世紀(jì)90年代中期發(fā)展起來的所謂下一代Internet核心技術(shù)。網(wǎng)格技術(shù)的開創(chuàng)者IanFoster將之定義為“在動(dòng)態(tài)、多機(jī)構(gòu)參與的虛擬組織中協(xié)同共享資源和求解問題”。網(wǎng)格在網(wǎng)絡(luò)基礎(chǔ)之上,基于SOA(Service-OrientedArchitecture,面向服務(wù)的體系結(jié)構(gòu)),使用互操作、按需集成等技術(shù)手段,將分散在不同地理位置的資源虛擬成一個(gè)有機(jī)整體,以實(shí)現(xiàn)計(jì)算、存儲(chǔ)、數(shù)據(jù)、軟件和設(shè)備等資源的共享,從而大幅提高資源的利用率,使用戶獲得前所未有的計(jì)算和信息能力。云計(jì)算和網(wǎng)格計(jì)算的一個(gè)重要區(qū)別在于資源調(diào)度模式。云計(jì)算采用集群來存儲(chǔ)和管理數(shù)據(jù)資源,運(yùn)行的任務(wù)以數(shù)據(jù)為中心,調(diào)度計(jì)算任務(wù)到數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)運(yùn)行;網(wǎng)格計(jì)算以計(jì)算為中心。

云計(jì)算與其他集群計(jì)算比較2.云計(jì)算與分布式計(jì)算

分布式計(jì)算(DistributedComputation)是指在一個(gè)松散或嚴(yán)格約束條件下使用硬件和軟件系統(tǒng)處理任務(wù),系統(tǒng)包含多個(gè)處理器單元或存儲(chǔ)單元、多個(gè)并發(fā)過程、多個(gè)程序。一個(gè)程序先被分成多個(gè)部分,再通過網(wǎng)絡(luò)連接起來在計(jì)算機(jī)上運(yùn)行。分布式計(jì)算類似于并行計(jì)算,但并行計(jì)算通常指一個(gè)程序的多個(gè)部分同時(shí)運(yùn)行于某臺(tái)計(jì)算機(jī)上的多個(gè)處理器上。因此,分布式計(jì)算通常需要處理異構(gòu)環(huán)境、多樣化的網(wǎng)絡(luò)連接、不可預(yù)知的網(wǎng)絡(luò)或計(jì)算機(jī)錯(cuò)誤。云計(jì)算屬于分布式計(jì)算的范疇,是以提供對(duì)外服務(wù)為導(dǎo)向的分布式計(jì)算形式。

云計(jì)算與其他集群計(jì)算比較3.云計(jì)算與并行計(jì)算

并行計(jì)算(ParallelComputing)是指同時(shí)使用多種計(jì)算資源解決計(jì)算問題的過程,是提高計(jì)算機(jī)系統(tǒng)計(jì)算速度和處理能力的一種有效手段。它的基本思想是用多個(gè)處理器來協(xié)同求解同一問題,即將被求解的問題分解成若干個(gè)部分,各部分均由一個(gè)獨(dú)立的處理機(jī)來并行計(jì)算。并行計(jì)算系統(tǒng)既可以是專門設(shè)計(jì)的、含有多個(gè)處理器的超級(jí)計(jì)算機(jī),也可以是以某種方式互連的若干臺(tái)獨(dú)立計(jì)算機(jī)構(gòu)成的集群。

云計(jì)算是并行計(jì)算的一種形式,也屬于高性能計(jì)算、超級(jí)計(jì)算的形式之一。

云計(jì)算與其他集群計(jì)算比較4.云計(jì)算與效用計(jì)算

效用計(jì)算(UtilityComputing)是一種提供服務(wù)的模型,在這個(gè)模型里服務(wù)提供商能提供客戶需要的計(jì)算資源和基礎(chǔ)設(shè)施管理,并根據(jù)應(yīng)用所占用的資源情況進(jìn)行計(jì)費(fèi),而不僅按照速率進(jìn)行收費(fèi)。效用計(jì)算理念發(fā)展的進(jìn)一步延伸就是云計(jì)算技術(shù),該技術(shù)正在逐步成為技術(shù)發(fā)展的主流。云計(jì)算以服務(wù)的形式提供計(jì)算、存儲(chǔ),應(yīng)用資源的思想與效用計(jì)算非常類似。兩者的區(qū)別不在于思想背后的目標(biāo),而在于組合到一起,使這些思想成為現(xiàn)實(shí)的技術(shù)。

大數(shù)據(jù)簡(jiǎn)介1.大數(shù)據(jù)的定義

“大數(shù)據(jù)(BigData)”是指大量數(shù)據(jù)的集合,可以使用數(shù)據(jù)量來區(qū)分和判斷。維基百科對(duì)“大數(shù)據(jù)”的定義為:巨量資料或大數(shù)據(jù),是指所涉及的資料量規(guī)模巨大。由于數(shù)量太大,想要通過目前的主流軟件,在合理的時(shí)間把這些數(shù)據(jù)采集、管理、處理、整理成為幫助企業(yè)經(jīng)營(yíng)決策的資訊,是無法做到的。

在今天,不同行業(yè)中“大數(shù)據(jù)”的范圍可以從TB到PB,但在20年前,1GB的數(shù)據(jù)已然是大數(shù)據(jù)??梢姡S著計(jì)算機(jī)軟硬件技術(shù)的發(fā)展,符合大數(shù)據(jù)標(biāo)準(zhǔn)的數(shù)據(jù)集容量也會(huì)增長(zhǎng),其數(shù)據(jù)集規(guī)模已經(jīng)超過了傳統(tǒng)數(shù)據(jù)庫(kù)軟件獲取、存儲(chǔ)、分析和管理的能力。

大數(shù)據(jù)簡(jiǎn)介2.大數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)類型

大數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)類型包括以下4種。(1)結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)包括預(yù)定義的數(shù)據(jù)類型、格式和結(jié)構(gòu)的數(shù)據(jù)。例如,關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù)。(2)半結(jié)構(gòu)化數(shù)據(jù)。半結(jié)構(gòu)化數(shù)據(jù)是具有可識(shí)別模式并可解析的文本數(shù)據(jù)文件。例如,自描述和具有定義模式的可擴(kuò)展標(biāo)記語言數(shù)據(jù)文件。(3)準(zhǔn)結(jié)構(gòu)化數(shù)據(jù)。準(zhǔn)結(jié)構(gòu)化數(shù)據(jù)是具有不規(guī)則數(shù)據(jù)格式的文本數(shù)據(jù),使用工具可進(jìn)行格式化。例如,包含不一致的數(shù)據(jù)值和格式化的網(wǎng)站點(diǎn)擊數(shù)據(jù)。(4)非結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)是沒有固定結(jié)構(gòu)的數(shù)據(jù),通常保存為不同類型的文件。例如,文本文檔、圖片、音頻和視頻。

3.大數(shù)據(jù)的特征

數(shù)據(jù)量大速度快類型繁多價(jià)值密度低大數(shù)據(jù)簡(jiǎn)介大數(shù)據(jù)簡(jiǎn)介4.大數(shù)據(jù)的處理技術(shù)按照“大數(shù)據(jù)”處理的實(shí)時(shí)性,大數(shù)據(jù)處理可分為實(shí)時(shí)大數(shù)據(jù)處理和離線大數(shù)據(jù)處理兩種。

大數(shù)據(jù)處理的一般過程為:大數(shù)據(jù)采集、大數(shù)據(jù)預(yù)處理、大數(shù)據(jù)存儲(chǔ)與管理、大數(shù)據(jù)分析與挖掘、大數(shù)據(jù)展現(xiàn)與應(yīng)用。大數(shù)據(jù)處理的關(guān)鍵技術(shù)是在處理大數(shù)據(jù)的各個(gè)階段使用的相關(guān)技術(shù)。

大數(shù)據(jù)處理技術(shù)處理大數(shù)據(jù)各階段的對(duì)應(yīng)技術(shù)大數(shù)據(jù)處理技術(shù)1.大數(shù)據(jù)的采集技術(shù)

“大數(shù)據(jù)采集系統(tǒng)”一般分為大數(shù)據(jù)智能感知層和基礎(chǔ)支撐層。大數(shù)據(jù)智能感知層相關(guān)技術(shù),是指對(duì)海量數(shù)據(jù)的智能化識(shí)別、定位、跟蹤、接入、傳輸、信號(hào)轉(zhuǎn)換、監(jiān)控、初步處理和管理的技術(shù)。

ApacheFlume是Apache旗下的一款開源數(shù)據(jù)采集系統(tǒng),F(xiàn)lume最初是由Cloudera的工程師設(shè)計(jì)用于合并日志數(shù)據(jù)的系統(tǒng),后來逐漸用于處理流數(shù)據(jù)事件。

大數(shù)據(jù)處理技術(shù)2.大數(shù)據(jù)的預(yù)處理技術(shù)

“大數(shù)據(jù)預(yù)處理技術(shù)”主要完成對(duì)已接收數(shù)據(jù)的抽取、清洗等操作。(1)抽?。韩@取的數(shù)據(jù)可能具有多種結(jié)構(gòu)和類型,數(shù)據(jù)抽取可以將這些復(fù)雜的數(shù)據(jù)轉(zhuǎn)化為單一的或便于處理的結(jié)構(gòu)和類型,以達(dá)到快速分析和處理的目的。(2)清洗:大數(shù)據(jù)并不全是有價(jià)值的,有些數(shù)據(jù)并不是人們所關(guān)心的內(nèi)容,或是完全錯(cuò)誤的干擾項(xiàng),因此要對(duì)數(shù)據(jù)過濾、去噪,提取出有效的數(shù)據(jù)。該步驟對(duì)后續(xù)的數(shù)據(jù)分析非常重要,它能夠提高數(shù)據(jù)分析的準(zhǔn)確性。

大數(shù)據(jù)處理技術(shù)3.大數(shù)據(jù)存儲(chǔ)與管理技術(shù)“大數(shù)據(jù)存儲(chǔ)與管理技術(shù)”是解決大數(shù)據(jù)的存儲(chǔ)、表示、處理、可靠性及有效傳輸?shù)汝P(guān)鍵問題的技術(shù),包括如下技術(shù):(1)數(shù)據(jù)庫(kù)技術(shù)。數(shù)據(jù)庫(kù)分為關(guān)系型數(shù)據(jù)庫(kù)、非關(guān)系型數(shù)據(jù)庫(kù)及數(shù)據(jù)庫(kù)緩存系統(tǒng)。關(guān)系型數(shù)據(jù)庫(kù)包含了傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)和NewSQL數(shù)據(jù)庫(kù)。非關(guān)系型數(shù)據(jù)庫(kù)主要是指NoSQL數(shù)據(jù)庫(kù),分為鍵值數(shù)據(jù)庫(kù)、列存數(shù)據(jù)庫(kù)、圖存數(shù)據(jù)庫(kù)及文檔數(shù)據(jù)庫(kù)等。(2)大數(shù)據(jù)安全技術(shù)。大數(shù)據(jù)安全技術(shù)包括數(shù)據(jù)銷毀、透明加解密、分布式訪問控制、數(shù)據(jù)審計(jì)、隱私保護(hù)和推理控制、數(shù)據(jù)真?zhèn)巫R(shí)別和取證、數(shù)據(jù)持有完整性驗(yàn)證等技術(shù)。

大數(shù)據(jù)處理技術(shù)4.大數(shù)據(jù)分析與挖掘技術(shù)

“數(shù)據(jù)挖掘”是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的,但又有潛在價(jià)值的信息和知識(shí)的過程。數(shù)據(jù)挖掘算法能以很高的速度處理大量數(shù)據(jù),通過分割、集群、孤立點(diǎn)分析,以及其他各種方法精煉數(shù)據(jù)、挖掘價(jià)值。數(shù)據(jù)挖掘涉及的技術(shù)方法很多,包括很多分類。5.大數(shù)據(jù)展現(xiàn)與應(yīng)用技術(shù)大數(shù)據(jù)技術(shù)重點(diǎn)應(yīng)用于商業(yè)智能、政府決策、公共服務(wù)三大領(lǐng)域,如應(yīng)用于商業(yè)智能技術(shù)、政府決策技術(shù)、電信數(shù)據(jù)信息處理與挖掘技術(shù)、電網(wǎng)數(shù)據(jù)信息處理與挖掘技術(shù)、氣象信息分析技術(shù)、環(huán)境監(jiān)測(cè)技術(shù)、警務(wù)云應(yīng)用系統(tǒng)(道路監(jiān)控、視頻監(jiān)控、網(wǎng)絡(luò)監(jiān)控、智能交通、反電信詐騙、指揮調(diào)度等公安系統(tǒng))、大規(guī)?;蛐蛄蟹治霰葘?duì)技術(shù)、Web信息挖掘技術(shù)。

1.大數(shù)據(jù)處理系統(tǒng)的功能

云計(jì)算與大數(shù)據(jù)系統(tǒng)海量數(shù)據(jù)存儲(chǔ)

大數(shù)據(jù)處理系統(tǒng)能夠存儲(chǔ)隨時(shí)間變化不斷變大的數(shù)據(jù),多種數(shù)據(jù)類型的數(shù)據(jù),結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),可以存儲(chǔ)極大的數(shù)據(jù)個(gè)體,也可以存儲(chǔ)很小的數(shù)據(jù)個(gè)體。并行服務(wù)快速開發(fā)

系統(tǒng)必須提供并行服務(wù)的開發(fā)框架,讓開發(fā)人員能夠依據(jù)此框架迅速開發(fā)出面向大數(shù)據(jù)的程序代碼,并可在動(dòng)態(tài)分布集群上實(shí)現(xiàn)并行運(yùn)算??稍诹畠r(jià)機(jī)器搭建的集群上運(yùn)行

實(shí)現(xiàn)廉價(jià)是大數(shù)據(jù)處理系統(tǒng)需要達(dá)到的重要目標(biāo)之一,系統(tǒng)可以安裝并運(yùn)行在廉價(jià)的機(jī)器上,還具有將規(guī)模龐大的廉價(jià)機(jī)器組成集群并協(xié)調(diào)工作的功能。高速處理

系統(tǒng)能滿足用戶對(duì)響應(yīng)速度的要求。在數(shù)據(jù)規(guī)模不斷增大、數(shù)據(jù)量短時(shí)間內(nèi)快速增大時(shí),系統(tǒng)的處理速度不受影響。實(shí)用性可靠性可擴(kuò)展性完整性安全性云計(jì)算與大數(shù)據(jù)系統(tǒng)2.大數(shù)據(jù)處理系統(tǒng)的特性云計(jì)算與大數(shù)據(jù)系統(tǒng)3.云計(jì)算與大數(shù)據(jù)處理系統(tǒng)大數(shù)據(jù)處理系統(tǒng)屬于云計(jì)算的PaaS。PaaS能為用戶提供計(jì)算平臺(tái)系統(tǒng)、編程語言的運(yùn)行環(huán)境、數(shù)據(jù)庫(kù)、Web服務(wù)器等,把開發(fā)環(huán)境作為一種服務(wù)來提供。用戶可以使用中間商的設(shè)備開發(fā)和運(yùn)行自己的程序,并通過Internet及其服務(wù)器傳輸?shù)狡渌脩羰种小.?dāng)然,用戶也可以構(gòu)建自己私有的大數(shù)據(jù)處理系統(tǒng),搭建一個(gè)服務(wù)器集群,安裝大數(shù)據(jù)處理軟件,如Hadoop,使用命令行方式,或者調(diào)用Hadoop的API對(duì)靜態(tài)大數(shù)據(jù)文件進(jìn)行處理,或者安裝Spark軟件,對(duì)前臺(tái)的動(dòng)態(tài)數(shù)據(jù)流進(jìn)行實(shí)時(shí)處理。大數(shù)據(jù)處理系統(tǒng)實(shí)例1.Google大數(shù)據(jù)處理系統(tǒng)Google擁有全球較強(qiáng)大的搜索引擎,能為全球用戶提供基于海量數(shù)據(jù)的實(shí)時(shí)搜索服務(wù)。Google為了解決海量數(shù)據(jù)的存儲(chǔ)和快速處理問題,設(shè)計(jì)了一種簡(jiǎn)單而又高效的大數(shù)據(jù)處理系統(tǒng),讓多達(dá)百萬臺(tái)計(jì)算機(jī)協(xié)同工作,共同完成對(duì)海量數(shù)據(jù)的存儲(chǔ)和快速處理。Google大數(shù)據(jù)處理系統(tǒng)的核心技術(shù)包括Google文件系統(tǒng)(GFS)、分布式計(jì)算編程模式(MapReduce)和分布式結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)系統(tǒng)(BigTable)。GFS能提供大數(shù)據(jù)的存儲(chǔ)訪問服務(wù),MapReduce能實(shí)現(xiàn)并行計(jì)算,BigTable能管理和組織結(jié)構(gòu)化大數(shù)據(jù)。1.GFSGoogle大數(shù)據(jù)處理系統(tǒng)GFS是一個(gè)可擴(kuò)展的分布式文件系統(tǒng),用于大型的、分布式的、對(duì)大量數(shù)據(jù)進(jìn)行訪問的應(yīng)用。它與MapReduce及BigTable結(jié)合得非常緊密,是基礎(chǔ)的底層系統(tǒng),可以運(yùn)行于價(jià)格較低的普通硬件上,提供容錯(cuò)功能。GFS將整個(gè)系統(tǒng)的節(jié)點(diǎn)分為Client(客戶端)、Master(主服務(wù)器)和ChunkServer(數(shù)據(jù)塊服務(wù)器)三類。客戶端在訪問GFS時(shí),首先訪問Master主服務(wù)器,獲取將要與之進(jìn)行交互的ChunkSever信息,然后直接訪問ChunkServer來完成數(shù)據(jù)存取。GFS的這種設(shè)計(jì)模式,在實(shí)現(xiàn)大數(shù)據(jù)存儲(chǔ)與處理的目標(biāo)的同時(shí),做到了在一定規(guī)模下使成本降到最低,且保證了系統(tǒng)的可靠性及其他性能。2.MapReduceGoogle大數(shù)據(jù)處理系統(tǒng)

MapReduce是處理大數(shù)據(jù)的并行編程模式,用于大數(shù)據(jù)(大于1TB)的并行計(jì)算,Map(映射)、Reduce(化簡(jiǎn))是從函數(shù)式編程語言和矢量編程語言中借鑒來的,這種編程模式適用于非結(jié)構(gòu)化和結(jié)構(gòu)化的海量數(shù)據(jù)的搜索、挖掘、分析和智能機(jī)器學(xué)習(xí)。與傳統(tǒng)的分布式程序相比,MapReduce封裝了并行處理、容錯(cuò)處理、本地化計(jì)算、負(fù)載均衡等細(xì)節(jié)。3.BigTableGoogle大數(shù)據(jù)處理系統(tǒng)BigTable是一個(gè)為管理大規(guī)模結(jié)構(gòu)化數(shù)據(jù)而設(shè)計(jì)的分布式存儲(chǔ)系統(tǒng),可以擴(kuò)展到PB級(jí)數(shù)據(jù)和上千臺(tái)服務(wù)器。Google的很多數(shù)據(jù),包括Web索引、衛(wèi)星圖像數(shù)據(jù)等在內(nèi)的海量結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)都存儲(chǔ)在BigTable中。BigTable是通過一個(gè)行關(guān)鍵字、一個(gè)列關(guān)鍵字和一個(gè)時(shí)間戳進(jìn)行索引的。BigTable由客戶端、主服務(wù)器和子表服務(wù)器三部分構(gòu)成。大數(shù)據(jù)處理系統(tǒng)實(shí)例2.HadoopHadoop是一個(gè)開源分布式計(jì)算平臺(tái)。用戶可以利用Hadoop輕松地組織計(jì)算機(jī)資源,從而搭建自己的分布式計(jì)算平臺(tái),并且可以充分利用集群的計(jì)算和存儲(chǔ)能力,完成海量數(shù)據(jù)的處理,Hadoop已廣泛被企業(yè)用于搭建大數(shù)據(jù)處理系統(tǒng)。據(jù)不完全統(tǒng)計(jì),全球已經(jīng)有數(shù)以萬計(jì)的Hadoop被安裝和使用,中國(guó)移動(dòng)、百度、阿里巴巴都在大規(guī)模地使用Hadoop。1.基礎(chǔ)部分Hadoop是支撐Hadoop的公共部分,包括文件系統(tǒng)、遠(yuǎn)程過程調(diào)用RPC和序列化函數(shù)庫(kù)等。HadoopCommon可以提供高吞吐量的可靠分布式文件系統(tǒng),是GFS的開源實(shí)現(xiàn)。HDFS是大型分布式數(shù)據(jù)處理模型,是GoogleMapReduce的開源實(shí)現(xiàn)。MapReduce2.配套部分Hadoop01HBase支持結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的分布式數(shù)據(jù)庫(kù),是GoogleBigTable的開源實(shí)現(xiàn)。02Hive提供數(shù)據(jù)摘要和查詢功能的數(shù)據(jù)倉(cāng)庫(kù)。03Pig在MapReduce上構(gòu)建的一種腳本式開發(fā)方式,大大簡(jiǎn)化了MapReduce的開發(fā)工作。2.配套部分Hadoop04Cassandra由Facebook支持的開源、可擴(kuò)展分布式數(shù)據(jù)庫(kù),是Amazon庫(kù)層架

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論