大數(shù)據(jù)中心方案架構(gòu)建設(shè)方案_第1頁(yè)
大數(shù)據(jù)中心方案架構(gòu)建設(shè)方案_第2頁(yè)
大數(shù)據(jù)中心方案架構(gòu)建設(shè)方案_第3頁(yè)
已閱讀5頁(yè),還剩13頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、大數(shù)據(jù)中心方案架構(gòu) 建設(shè)方案3.1數(shù)據(jù)中心架構(gòu)設(shè)計(jì)云計(jì)算數(shù)據(jù)中心通過運(yùn)行在單獨(dú)的服務(wù)器上的云操作 系統(tǒng)對(duì)服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)等資源進(jìn)行虛擬化管理,提供可 以自定義的虛擬機(jī),在虛擬機(jī)上安裝Hadoop 、hbase 等Nosql分布式數(shù)據(jù)庫(kù)集群,對(duì)現(xiàn)有的數(shù)據(jù)ETL采集、清洗、轉(zhuǎn)換、匯總進(jìn)來(lái),使用海量數(shù)據(jù)分布存儲(chǔ)技術(shù),用spark、storm 等大數(shù)據(jù)處理軟件對(duì) hbase中的數(shù)據(jù)進(jìn)行分析處理, 挖掘數(shù)據(jù)價(jià)值。還可以在虛擬機(jī)上運(yùn)行業(yè)務(wù)應(yīng)用系統(tǒng),提供 負(fù)載均衡和冗余備份,達(dá)到系統(tǒng)的穩(wěn)定、高可用和方便的擴(kuò) 展性。通過安裝SSR等安全軟件和安全服務(wù)器,可以保證提升 操作系統(tǒng)的安全級(jí)別,從而達(dá)到國(guó)家等級(jí)保護(hù)

2、的三級(jí)要求, 為客戶構(gòu)建真正的安全長(zhǎng)城。云計(jì)算數(shù)據(jù)中心可以自動(dòng)管理和動(dòng)態(tài)分配、部署、配置、 重新配置以及回收資源,也可以自動(dòng)安裝軟件和應(yīng)用,具有 良好的彈性和靈活性,管理、使用方便。云中心可以向用戶 提供虛擬基礎(chǔ)架構(gòu)。用戶可以自己定義虛擬基礎(chǔ)架構(gòu)的構(gòu) 成,如服務(wù)器配置、數(shù)量,存儲(chǔ)類型和大小等等。用戶通過 自服務(wù)界面提交請(qǐng)求,每個(gè)請(qǐng)求的生命周期由平臺(tái)維護(hù)。服務(wù)器虛擬化系統(tǒng)基于服務(wù)器,存儲(chǔ)和網(wǎng)絡(luò)設(shè)備構(gòu)建資 源池,在資源池上通過資源的管理、調(diào)度和鏡像管理實(shí)現(xiàn)系 統(tǒng)的各種高級(jí)功能,例如計(jì)算層面的系統(tǒng)負(fù)載均衡和虛擬機(jī) 高可用,存儲(chǔ)層面的鏡像復(fù)制和冗余。系統(tǒng)支持以主機(jī)或者 虛擬群集為單位管理資源,虛擬群集

3、為一組共享存儲(chǔ)資源的 物理主機(jī)。云中心既是一個(gè)企業(yè)云,也可以對(duì)外提供服務(wù),擴(kuò)展成公有云。學(xué)校還可以使用別的公有云如阿里云,形成混合云物理 基礎(chǔ)架構(gòu)云業(yè)券' 婦停請(qǐng)?zhí)摂M化董諄池云中心包括 iaas、paas、saas 三層服務(wù):1) . SaaS :提供給客戶的服務(wù)是運(yùn)營(yíng)商運(yùn)行在云計(jì)算基 礎(chǔ)設(shè)施上的應(yīng)用程序,用戶可以在各種設(shè)備上通過客戶端界 面訪問,如瀏覽器。消費(fèi)者不需要管理或控制任何云計(jì)算基 礎(chǔ)設(shè)施,包括網(wǎng)絡(luò)、服務(wù)器、操作系統(tǒng)、存儲(chǔ)等等;2) . PaaS :提供給消費(fèi)者的服務(wù)是把客戶采用提供的開發(fā)語(yǔ)言和工具(例如 Java , python, .Net 等)開發(fā)的或收 購(gòu)的應(yīng)用程序部

4、署到供應(yīng)商的云計(jì)算基礎(chǔ)設(shè)施上去。客戶不 需要管理或控制底層的云基礎(chǔ)設(shè)施,包括網(wǎng)絡(luò)、服務(wù)器、操 作系統(tǒng)、存儲(chǔ)等,但客戶能控制部署的應(yīng)用程序,也可能控 制運(yùn)行應(yīng)用程序的托管環(huán)境配置;可以使用docker容器完成應(yīng)用系統(tǒng)的部署和管理。3). IaaS :提供給消費(fèi)者的服務(wù)是對(duì)所有計(jì)算基礎(chǔ)設(shè)施 的利用,包括處理 CPU、內(nèi)存、存儲(chǔ)、網(wǎng)絡(luò)和其它基本的計(jì) 算資源,用戶能夠部署和運(yùn)行任意軟件,包括操作系統(tǒng)和應(yīng) 用程序。消費(fèi)者不管理或控制任何云計(jì)算基礎(chǔ)設(shè)施,但能控 制操作系統(tǒng)的選擇、存儲(chǔ)空間、部署的應(yīng)用,也有可能獲得 有限制的網(wǎng)絡(luò)組件(例如路由器、,防火墻,、負(fù)載均衡器 等)的控制。云中心采用 xen、kvm

5、、VMware 進(jìn)行虛擬化,LXC 提供Linux容器,支持docker應(yīng)用容器。km BHBBIBilBl ess一.服務(wù)器采用浪潮整機(jī)柜服務(wù)器SmartRack ,面向海量數(shù)據(jù)的存儲(chǔ)和處理,適合云資源池如虛擬化、分布式存儲(chǔ), 大數(shù)據(jù)處理如 Hadoop 集群等應(yīng)用,目前在國(guó)內(nèi)服務(wù)器中 占主導(dǎo)地位,特點(diǎn)如下:定位多種應(yīng)用,支持各類服務(wù)器節(jié)點(diǎn)。針對(duì)不同業(yè)務(wù)對(duì)存儲(chǔ)、計(jì)算、10吞吐量、功耗的不同要 求,設(shè)計(jì)開發(fā)出不同種類的服務(wù)器節(jié)點(diǎn),包括:1U全寬雙路12盤位綜合型節(jié)點(diǎn)、1U全寬單路18盤位冷存儲(chǔ)節(jié)點(diǎn)、 1U半寬雙路計(jì)算型節(jié)點(diǎn),滿足不同需求。整機(jī)柜集中供電、集中散熱,相比其他架構(gòu)服務(wù)器,運(yùn)行功耗降

6、低10%以上。整機(jī)柜由一組電源模塊集中供電,最大輸出功率高達(dá)22.5kw,直接支持交流或高壓直流供電,各節(jié)點(diǎn)通過銅排從電源模塊取電,結(jié)合電源負(fù)載動(dòng)態(tài)調(diào)整技術(shù),電源轉(zhuǎn)換效 率高達(dá)94%以上。機(jī)柜背部風(fēng)扇墻集中散熱,根據(jù)節(jié)點(diǎn)數(shù)量靈活調(diào)節(jié)風(fēng)扇墻高度,采用140mm 大尺寸風(fēng)扇,相同功耗下可提供更大 散熱量。領(lǐng)先的架構(gòu)設(shè)計(jì),保障系統(tǒng)高可靠運(yùn)行。服務(wù)器節(jié)點(diǎn)中無(wú)獨(dú)立的電源和風(fēng)扇,有效降低單點(diǎn)故障。根據(jù)整機(jī)柜實(shí)際負(fù)載情況,電源可實(shí)現(xiàn)N+N/N+2/N+1多種冗余方式。風(fēng)扇可根據(jù)溫度狀況自動(dòng)調(diào)節(jié)轉(zhuǎn)速,支持2+1冗余。對(duì)整機(jī)柜節(jié)點(diǎn)、電源、風(fēng)扇進(jìn)行集中監(jiān)控管理。實(shí)現(xiàn)管理中心 RMC 對(duì)整個(gè)機(jī)柜各模塊的統(tǒng)一監(jiān)控和管

7、 理,節(jié)點(diǎn)、電源、風(fēng)扇的健康狀況、溫度、配置信息一目了 然,還可進(jìn)行批量開關(guān)機(jī)、重啟,功耗控制,風(fēng)扇轉(zhuǎn)速自動(dòng) /手動(dòng)調(diào)節(jié)等功能,搭配專為 Smart Rack設(shè)計(jì)的可視化管 理軟件,輕松實(shí)現(xiàn)簡(jiǎn)易化智能管理。簡(jiǎn)易維護(hù),無(wú)需繁瑣拆裝。獨(dú)有節(jié)點(diǎn)前維護(hù)設(shè)計(jì)、各模組免工具熱插拔設(shè)計(jì)、優(yōu)化 的線纜走線設(shè)計(jì),使得系統(tǒng)運(yùn)維難度大大降低。風(fēng)扇等易損 部件全部裸露在外,更加方便更換維護(hù)。二.云操作系統(tǒng)建議采用浪潮云海云數(shù)據(jù)中心操作系統(tǒng)V3.0,此系統(tǒng)秉承開放化、模塊化、標(biāo)準(zhǔn)化的設(shè)計(jì)理念,基于虛擬化技術(shù),實(shí)現(xiàn)了數(shù)據(jù)中心資源融合、資源管理及服務(wù)交付,簡(jiǎn)化了云 數(shù)據(jù)中心運(yùn)維,提高了云數(shù)據(jù)中心服務(wù)水平。云海云數(shù)據(jù)中心操作

8、系統(tǒng)有以下特點(diǎn):自主可控、安全可靠的云數(shù)據(jù)中心操作系統(tǒng):浪潮自主研發(fā)的國(guó)產(chǎn)云數(shù)據(jù)中心操作系統(tǒng),力口強(qiáng)了 WEB安全、虛擬化安全、數(shù)據(jù)安全、訪問控制、安全審計(jì)等方面 的安全控制,可幫助用戶構(gòu)建安全可控的云數(shù)據(jù)中心。異構(gòu)資源管理:云海OS支持對(duì)數(shù)據(jù)中心各類異構(gòu)硬件設(shè)備及軟件資源的統(tǒng)一管理;支持對(duì) VMWare vSphere、InspuriVirtual等異構(gòu)虛擬化資源池的集中管理,已部署的虛擬化 環(huán)境可被云海OS無(wú)縫接管;精細(xì)的軟硬件資源監(jiān)控:云海OS支持對(duì)數(shù)據(jù)中心主流廠商的服務(wù)器、網(wǎng)絡(luò)設(shè)備、存儲(chǔ)設(shè)備等物理資源,操作系統(tǒng)、數(shù)據(jù)庫(kù)、WEB應(yīng)用等軟件資源,VMWare vSphere 、Inspur

9、 iVirtual 等虛擬 化環(huán)境的精細(xì)監(jiān)控,提供界面、郵件、短信等多種告警方式, 通過詳盡清晰的報(bào)表分析數(shù)據(jù),幫助數(shù)據(jù)中心的運(yùn)維人員隨 時(shí)掌握數(shù)據(jù)中心的各類資源的運(yùn)行狀況,降低運(yùn)維管理復(fù)雜 度,提高運(yùn)維效率。快速的服務(wù)交付:云海OS支持通過虛擬機(jī)模板、應(yīng)用服務(wù)模板的方式, 實(shí)現(xiàn)業(yè)務(wù)的快速交付,業(yè)務(wù)上線時(shí)間由原來(lái)的幾周、幾天, 縮短為幾分鐘,大大提高數(shù)據(jù)中心的服務(wù)水平。資源使用按量計(jì)費(fèi):實(shí)時(shí)的資源使用情況統(tǒng)計(jì),讓用戶精確掌控自身資源 和費(fèi)用使用情況,幫助 IT部門實(shí)現(xiàn)由成本中心向價(jià)值中心 的角色轉(zhuǎn)變。資源按需服務(wù):云海OS可實(shí)現(xiàn)將基礎(chǔ)架構(gòu)作為服務(wù)交付,用戶可通過 自助服務(wù)門戶在線申請(qǐng)及訪問自己

10、的虛擬數(shù)據(jù)中心、應(yīng)用服 務(wù)、虛擬機(jī)等資源,實(shí)現(xiàn)資源的按需申請(qǐng)、便捷獲取、自助 使用??啥ㄖ频臉I(yè)務(wù)流程:云海OS支持用戶創(chuàng)建與原工作流程吻合的資源申請(qǐng) 的審批流程,實(shí)現(xiàn)業(yè)務(wù)流程的個(gè)性化、可定制化。靈活的服務(wù)交付方式:云海OS既支持從下到上的資源申請(qǐng)與審批,也支持從上到下的資源創(chuàng)建與分配的服務(wù)交付方式,可滿足不同客戶 對(duì)資源獲取方式的不同需要。多租戶私有云:云海OS可創(chuàng)建多個(gè)組織,一個(gè)組織可代表某業(yè)務(wù)部 門、分部或子公司。每個(gè)組織都有各自獨(dú)立的虛擬數(shù)據(jù)中心、 用戶及獨(dú)有的目錄,可將組織資源分配給本組織的用戶,每 個(gè)組織如同擁有自己的數(shù)據(jù)中心。利用基于權(quán)限的用戶控制 機(jī)制和基于虛擬交換機(jī)的網(wǎng)絡(luò)隔離技

11、術(shù),實(shí)現(xiàn)多租戶環(huán)境下 的安全性和可靠性,以此構(gòu)建安全的多租戶私有云。靈活可控的權(quán)限管理:云海OS支持用戶自定義角色類型, 不同的權(quán)限可自由 組合,實(shí)現(xiàn)靈活可控的系統(tǒng)權(quán)限管理。服務(wù)全生命周期管理:云海OS涵蓋服務(wù)提供所需的各個(gè)環(huán)節(jié),包括服務(wù)的申請(qǐng)審批;服務(wù)的交付和回收;服務(wù)的使用統(tǒng)計(jì)和計(jì)費(fèi);服務(wù) 的運(yùn)行監(jiān)控服務(wù)移動(dòng)性:通過vApp圭寸裝多個(gè)虛擬機(jī)服務(wù)和相關(guān)的網(wǎng)絡(luò)連接策 略,遵循 OVF等開放式標(biāo)準(zhǔn),實(shí)現(xiàn)同一個(gè)云環(huán)境的終端用 戶彼此之間可以輕松共享服務(wù),而不同的云環(huán)境的用戶可以 輕松的在云之間遷移服務(wù)。3.2大數(shù)據(jù)處理設(shè)計(jì)通過在虛擬機(jī)上安裝 Hadoop2.6 、base1.0 等Nosql 數(shù)據(jù)

12、庫(kù)集群,用sqoop1.3 把現(xiàn)有的數(shù)據(jù)匯總進(jìn)來(lái),要對(duì)現(xiàn) 有數(shù)據(jù)做個(gè)總的分析,對(duì)字段統(tǒng)一定義規(guī)劃,制定轉(zhuǎn)換策略, 做到正確性、唯一性、可用性,去除重復(fù)字段,通過ETL抽取、清洗數(shù)據(jù),把數(shù)據(jù)導(dǎo)入hbase,這樣就可以消除信息孤島,用spark、storm 等大數(shù)據(jù)處理軟件對(duì)hbase中的數(shù)據(jù)進(jìn)行分析處理,挖掘數(shù)據(jù)價(jià)值。云中心通過調(diào)度系統(tǒng)自動(dòng)采集、加工、存儲(chǔ)數(shù)據(jù),為應(yīng)用系統(tǒng)提供支持:應(yīng)用模式nr3UUnix/Unux/Windows大數(shù)據(jù)包'K® iff /C/S 應(yīng)用管理應(yīng)用/見戶 U >科AC笈丄蠶I(窗皿)一Gan»gEiaSqoop基礎(chǔ) 環(huán)境在云中心的平臺(tái)

13、上,開發(fā)招生、創(chuàng)業(yè)、就業(yè)、數(shù)據(jù)實(shí)驗(yàn)室等應(yīng)用系統(tǒng),通過元數(shù)據(jù)庫(kù)管理所有的數(shù)據(jù)數(shù)據(jù)經(jīng)過采 集、加工后進(jìn)入hbase,消除信息孤島,統(tǒng)一管理使用:66個(gè)人卿sts都螢ist書業(yè)詛也辛磚件:Z'工作:孫步住|«rt手甫T _- 7=-二二Td二:=-I' r.RJk Slll*TBiE.F=»石-;i. ZT一 .hadoop2 架構(gòu)體系下圖是hadoop2的架構(gòu)圖05er pBjgsAmbarLAw 口 cassandEOONe池 ookeepBr1etc-HBaseNorne亠 at-onaj DatE&ase05曾YARN FrameworksPIGS

14、criptHCatalogMetadata ServicesMapReduceDistributed ProcessingYARNHiveQueryesource Sched訕門g and NeyotiaboilHDFSDistributed Storage1. HDFS文件系統(tǒng),Hadoop 實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)(Hadoop Distributed File System),簡(jiǎn)稱 HDFS。HDFS有高容錯(cuò)性的特點(diǎn),并且設(shè)計(jì)用來(lái)部署在低廉的(low-cost )硬件上;而且它提供高吞吐量(high throughput)來(lái)訪問應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集(large data

15、 set )的應(yīng)用程序。HDFS放寬了( relax) POSIX的要求,可以以流的形式訪問 (streaming access ) 文件系統(tǒng)中的數(shù)據(jù)。2、 YARN是一套資源統(tǒng)一管理和調(diào)度平臺(tái),可管理各種 計(jì)算框架,包括 MapReduce ,Spark,MPI等。包括 以 下內(nèi)容:ResourceManager ( RM ):整個(gè)系統(tǒng)只有一個(gè) RM,它就只管調(diào)度方面的事情,并且為集群應(yīng)用而優(yōu)化,因而具有很好的性能。RM的一個(gè)核心是它的 Scheduler 。調(diào)度包含兩個(gè)過程,一要搜集各節(jié)點(diǎn)的情況;二要根據(jù)某種 調(diào)度策略,分配合適的節(jié)點(diǎn)。搜集節(jié)點(diǎn)情況是基于一個(gè)資源 容器(resource c

16、ontainer) 的概念,該容器包括 cpu,disk,network 等(目前只用至U cpu)NodeManager (NM ) : NM 是每個(gè)節(jié)點(diǎn)一個(gè)實(shí)例, 管理每個(gè)節(jié)點(diǎn),它觸發(fā)應(yīng)用容器(application container ), 監(jiān)控節(jié)點(diǎn)的資源(cpu/disk 等),并向RM報(bào)告資源的情 況。ApplicationMaster (AM ) : AM 是每個(gè)應(yīng)用一個(gè)實(shí) 例,它是一個(gè)特定的框架接口庫(kù),一方面與RM 中的Scheduler協(xié)商得至I resource container ,另一方面與NM 一起執(zhí)行和監(jiān)控各子任務(wù)部件,從系統(tǒng)的角度,AM本身也一種container

17、(下圖中將它與 container 畫得一樣)。Container :從邏輯上,container 可認(rèn)為是資源的分配 容器,它包括hostname , cpu , memory 等屬性。AM 發(fā) 送 ResourceRequest 給 RM,然后 RM 分配合適的 Container 給AM , AM再將此Container 提交給它所在 節(jié)點(diǎn)的NM , NM 采用此資源容器運(yùn)行任務(wù)。實(shí)際上, Container是一種使用資源的“授權(quán)”,AM得到此授權(quán)后, 在NM的管理下,可以運(yùn)行任何進(jìn)程(包括非Java應(yīng)用,這一點(diǎn)與1.0不同)。二、Hive是基于Hadoop 的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,處理 能

18、力強(qiáng)而且成本低廉主要特點(diǎn):存儲(chǔ)方式是將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表。 提供類SQL語(yǔ)言,實(shí)現(xiàn)完整的SQL查詢功能??梢詫?SQL 語(yǔ)句轉(zhuǎn)換為 MapReduce任務(wù)運(yùn)行,十分適合數(shù)據(jù)倉(cāng)庫(kù)的統(tǒng)計(jì)分析。三、HBaseHBase是一個(gè)分布式的、面向列的開源數(shù)據(jù)庫(kù),它不同 于一般的關(guān)系數(shù)據(jù)庫(kù),是一個(gè)適合于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的數(shù) 據(jù)庫(kù)。另一個(gè)不同的是 HBase基于列的而 不是基于行的模 式。HBase使用和BigTable 非常相同的數(shù)據(jù)模型。用戶 存儲(chǔ)數(shù)據(jù)行在一個(gè)表里。一個(gè)數(shù)據(jù)行擁有一個(gè)可選擇的鍵和 任意數(shù)量的列,一個(gè)或多個(gè)列組成一個(gè)ColumnFamily ,一個(gè)Fmaily下的列位于一個(gè) H

19、File中,易于緩存數(shù)據(jù)。表 是疏松的存儲(chǔ)的,因此用戶可以給行定義各種不同的列。在 HBase中數(shù)據(jù)按主鍵排序,同時(shí)表按主鍵劃分為多個(gè) HRegion ,如下圖所示(HBase數(shù)據(jù)表結(jié)構(gòu)圖):Column familyrowkeycontents:anchorIan guaoe:+ 4 pmkmirhiff 卄(i2imt血:ws i卯.fW " H ' I e 11 tit A I > <P 1 i* bgacfior-so. co. t r itso. ffifff HRow KevCoiumnFjmilysi CQiunnnFaml#rtL / *sorte

20、dk9yttn kcytaiZlP如“;何 MJF*ey2-v&tL t2 key8Wt f2 ktyS vati. M ket 8 vafZ NColumnFamllyzCoIumnKey. Columnvalue(Timestamp)四. Sqoop 是一款開源的工具,主要用于在 HADOOP(Hive)與傳統(tǒng)的數(shù)據(jù)庫(kù)(mysql、oracle)間進(jìn)行數(shù)據(jù)的傳遞,可以將一個(gè)關(guān)系型數(shù)據(jù)庫(kù)(例如: MySQL ,Oracle ,Postgres 等)中的數(shù)據(jù)導(dǎo)進(jìn)到 Hadoop 的HDFS中,也可以將 HDFS的數(shù)據(jù)導(dǎo)進(jìn)到關(guān)系型數(shù)據(jù)庫(kù) 中。五. spark架構(gòu)體系StreamingSp

21、arkrSparkMap Reduce 1RDDFPWe sosYARNShark(Hive on Spark)Bagel(Pregel on Spark)本地運(yùn)行樓式I運(yùn)行摸式HDFS Amazon S3j Hypertable HBasej etcJ.匕Spark與Hadoop 的對(duì)比 Spark的中間數(shù)據(jù)放到內(nèi)存中,對(duì)于迭代運(yùn)算效率更高。Spark更適合于迭代運(yùn)算比較多的ML和DM運(yùn)算,因?yàn)樵赟park里面,有 RDD的抽象概念。 Spark 比 Hadoop 更通用。Spark提供的數(shù)據(jù)集操作類型有很多種,不像Hadoop 只提供了 Map 和Reduce 兩種操作。比如 map,fi

22、lter, flatMap, sample, groupByKey, reduceByKey, union, join, cogroup, mapValues, sort,partionBy 等 多種操作類型,Spark把這些操作稱為Transformations 。 同時(shí)還提供 Count, collect, reduce, lookup, save等多種actions 操作。Spark 的mllib 支持機(jī)器學(xué)習(xí)。這些多種多樣的數(shù)據(jù)集操作類型,給給開發(fā)上層應(yīng) 用的用戶提供了方便。各個(gè)處理節(jié)點(diǎn)之間的通信模型不再像 Hadoop 那樣就是唯一的 Data Shuffle一種模式。用戶可以命名,

23、物化,控制中間結(jié)果的存儲(chǔ)、分區(qū)等??梢哉f(shuō)編程 模型比Hadoop 更靈活。不過由于RDD的特性,Spark不適用那種異步細(xì)粒 度更新狀態(tài)的應(yīng)用,例如web服務(wù)的存儲(chǔ)或者是增量的web爬蟲和索引。就是對(duì)于那種增量修改的應(yīng)用模型不適 合。容錯(cuò)性。在分布式數(shù)據(jù)集計(jì)算時(shí)通過checkpoint來(lái)實(shí)現(xiàn)容錯(cuò),而 checkpoint有兩種方式,一個(gè)是 checkpoint data ,一個(gè)是logging the updates 。用戶可以控制采用哪種方式 來(lái)實(shí)現(xiàn)容錯(cuò)。可用性。Spark 通過提供豐富的 Scala, Java , Python API及交互式Shell來(lái)提高可用性。Spark與Hadoop 的結(jié)合 Spark可以直接對(duì)HDFS進(jìn)行數(shù)據(jù)的讀寫,同樣 支持 Spark on YARN 。 Spark 可以與 MapReduce 運(yùn)行 于同集群中,共享存儲(chǔ)資源與計(jì)算,數(shù)據(jù)倉(cāng)庫(kù)Shark實(shí)現(xiàn)上 借用Hive,幾乎與Hive完全兼容。Spark的適用場(chǎng)景 Spark是基于內(nèi)存的迭代計(jì)算框架,適用于需要 多次操作特定數(shù)據(jù)集的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論