科研大數(shù)據(jù)平臺(tái)項(xiàng)目_第1頁
科研大數(shù)據(jù)平臺(tái)項(xiàng)目_第2頁
科研大數(shù)據(jù)平臺(tái)項(xiàng)目_第3頁
科研大數(shù)據(jù)平臺(tái)項(xiàng)目_第4頁
科研大數(shù)據(jù)平臺(tái)項(xiàng)目_第5頁
已閱讀5頁,還剩23頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、科研大數(shù)據(jù)平臺(tái)項(xiàng)目技術(shù)建議書1 .概述11.1. 項(xiàng)目背景11.2. 需求分析11.3. 方案簡述11.4. 方案價(jià)值22 .設(shè)計(jì)方案42.1. 設(shè)計(jì)原則42.2. 系統(tǒng)架構(gòu)52.3. 分布式數(shù)據(jù)庫系統(tǒng)52.3.1. MPP+ShareNothing架構(gòu)52.3.2. 核心組件52.3.3. 高可用62.3.4. 高性能在線擴(kuò)展72.3.5. 高性能數(shù)據(jù)加載82.3.6. OLAP函數(shù)82.4. HADOOP集群92.4.1. Hadoop企業(yè)版92.4.2. HIVE分布式內(nèi)存分析引擎92.4.3. HBASE分布式實(shí)時(shí)在線數(shù)據(jù)處理引擎102.4.4. Stream流處理引擎112.5. 服

2、務(wù)器虛擬化112.5.1. 設(shè)計(jì)理念112.5.2. 系統(tǒng)結(jié)構(gòu)132.5.3. 服務(wù)器虛擬化系統(tǒng)組成142.6. 云管理平臺(tái)142.6.1. 浪潮云海OS架構(gòu)圖152.6.2. 浪潮云海OS實(shí)現(xiàn)的功能152.7. 爬蟲軟件182.7.1. 建設(shè)網(wǎng)絡(luò)爬蟲私有云182.7.2. 高效的分布式、協(xié)同化數(shù)據(jù)采集模式192.7.3. 爬蟲路線規(guī)劃能力202.7.4. 爬蟲調(diào)度和負(fù)荷規(guī)劃能力202.7.5. 極致的開放兼容平臺(tái). 為什么需要開放的可集成的網(wǎng)頁抓取軟件. 集搜客網(wǎng)絡(luò)爬蟲的開放接口213 .方案優(yōu)勢223.1. 浪潮MPP數(shù)據(jù)庫優(yōu)勢223.1.1. 高性能2

3、23.1.2. 高性價(jià)比223.1.3. 高易用性223.2. 浪潮HADOOP優(yōu)勢223.3. 浪潮云計(jì)算優(yōu)勢223.3.1. 運(yùn)營效率提升223.3.2. 服務(wù)水平提高233.3.3. 實(shí)現(xiàn)數(shù)據(jù)中心的綠色節(jié)能233.3.4. 分工細(xì)化使得終端用戶只需專注自身業(yè)務(wù)233.3.5. 降低總體擁有成本(TCO)233.3.6. 可靠性提高243.3.7. 性能強(qiáng)大243.3.8. 擴(kuò)展性好243.3.9. 可管理性244 .推薦配置25第II頁1 .概述1.1. 項(xiàng)目背景通過本項(xiàng)目的實(shí)施與建設(shè),在以服務(wù)科研工作為主導(dǎo)的原則下,基于高性能大數(shù)據(jù)軟硬件設(shè)施,構(gòu)建多樣化、專業(yè)化、柔性化的科研數(shù)據(jù)服務(wù)應(yīng)

4、用平臺(tái)。利用大數(shù)據(jù)技術(shù),滿足不同層級(jí)用戶的需求,達(dá)到改善我校的科學(xué)研究環(huán)境與學(xué)科建設(shè)、提升我校的科研管理水平、提升我校針對(duì)物流行業(yè)的科研服務(wù)能力等目標(biāo)。本項(xiàng)目分階段實(shí)施,初期重點(diǎn)在于建立一個(gè)能滿足業(yè)務(wù)需求的基于大數(shù)據(jù)的計(jì)算、存儲(chǔ)以及通訊的硬件環(huán)境平臺(tái)和數(shù)據(jù)管理架構(gòu)。1.2. 需求分析要構(gòu)建多樣化、專業(yè)化、柔性化的科研數(shù)據(jù)服務(wù)應(yīng)用平臺(tái),現(xiàn)有架構(gòu)很難承擔(dān)日益增長的數(shù)據(jù)分析需求。迫切需要尋求一種全新的系統(tǒng)架構(gòu)幫助我校滿足日常業(yè)務(wù)及數(shù)據(jù)分析。并有效利用數(shù)據(jù)的價(jià)值,提高系統(tǒng)安全、系統(tǒng)高可用等。需求分析如下:尋求新的系統(tǒng)架構(gòu),從物理架構(gòu)、數(shù)據(jù)架構(gòu)、業(yè)務(wù)模型架構(gòu)及應(yīng)用架構(gòu)等幾方面滿足業(yè)務(wù)需求。從全局及用戶長

5、遠(yuǎn)利益考慮,規(guī)劃先進(jìn)的大數(shù)據(jù)平臺(tái)底層架構(gòu),滿足大數(shù)據(jù)時(shí)代的業(yè)務(wù)需求。保護(hù)用戶現(xiàn)有資源,考慮系統(tǒng)現(xiàn)狀以及現(xiàn)有資源利用等,在系統(tǒng)建設(shè)中,充分考慮現(xiàn)有資源利舊。系統(tǒng)多平臺(tái)整合,建設(shè)統(tǒng)一的底層平臺(tái),提高系統(tǒng)安全等保級(jí)別,規(guī)避系統(tǒng)單點(diǎn)風(fēng)險(xiǎn)。1.3. 方案簡述根據(jù)對(duì)背景及需求的分析,為了幫助我校能夠更好地在大數(shù)據(jù)時(shí)代支撐大規(guī)模數(shù)據(jù)的應(yīng)用,分別從物理架構(gòu)及數(shù)據(jù)架構(gòu)建設(shè)科研大數(shù)據(jù)平臺(tái)系統(tǒng)。物理架構(gòu):采用虛擬化技術(shù),為客戶打造IaaS底層系統(tǒng)架構(gòu)。數(shù)據(jù)架構(gòu):采用與客戶習(xí)慣使用的SQL這種更易于理解的、交互性更好的訪問接口,架構(gòu)需要以MPP數(shù)據(jù)庫及計(jì)算框架為核心,將MPP運(yùn)算調(diào)度引擎完全融入非關(guān)系型運(yùn)算調(diào)度框架,

6、實(shí)現(xiàn)可以同時(shí)調(diào)度關(guān)系運(yùn)算和非關(guān)系運(yùn)算的調(diào)度引擎,構(gòu)建統(tǒng)一的結(jié)構(gòu)化信息提取和數(shù)據(jù)類型轉(zhuǎn)換框架,將非結(jié)構(gòu)化數(shù)據(jù)映射為關(guān)系模型,實(shí)現(xiàn)面向關(guān)系模型的全數(shù)據(jù)統(tǒng)一視圖,從而平滑的實(shí)現(xiàn)MPP數(shù)據(jù)庫和Hadoop的統(tǒng)一調(diào)度和處理,為新型的基礎(chǔ)軟件平臺(tái)和上層應(yīng)用提供數(shù)據(jù)服務(wù)。1.4. 方案價(jià)值彈性擴(kuò)展采用虛擬化技術(shù)做為底層資源抽象技術(shù),為科研大數(shù)據(jù)平臺(tái)動(dòng)態(tài)提供基礎(chǔ)計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)資源,同時(shí)運(yùn)用云平臺(tái)計(jì)算技術(shù)為云數(shù)據(jù)中心提供統(tǒng)一的管理和運(yùn)維平臺(tái),實(shí)現(xiàn)資源彈性服務(wù)、流轉(zhuǎn)和管理。動(dòng)態(tài)資源分配云計(jì)算被認(rèn)為是分布式處理、并行處理以及網(wǎng)絡(luò)計(jì)算的進(jìn)一步發(fā)展,其使用虛擬機(jī)力度方式,根據(jù)應(yīng)用的動(dòng)態(tài)對(duì)資源進(jìn)行增刪??焖夙憫?yīng)以并行計(jì)

7、算為核心,按需調(diào)度計(jì)算任務(wù)分配和計(jì)算資源,并提供從數(shù)據(jù)導(dǎo)入整合處理、計(jì)算模型設(shè)定到計(jì)算結(jié)果輸出、多形式展現(xiàn)、應(yīng)用API等完整的數(shù)據(jù)處理服務(wù)。高可用采用分布式存儲(chǔ)系統(tǒng),數(shù)據(jù)互備,快速備份和恢復(fù)。支持各種數(shù)據(jù)處理、計(jì)算模型,滿足不同領(lǐng)域、不同特點(diǎn)的計(jì)算需求。多副本容錯(cuò),數(shù)據(jù)安全無憂。數(shù)據(jù)分析構(gòu)建大數(shù)據(jù)存儲(chǔ)應(yīng)用平臺(tái),圍繞大數(shù)據(jù)應(yīng)用構(gòu)建大數(shù)據(jù)處理基礎(chǔ)軟件平臺(tái)的關(guān)鍵問題是如何解決結(jié)構(gòu)化和非結(jié)構(gòu)化不同類型的數(shù)據(jù)融合,以及實(shí)現(xiàn)不同類型數(shù)據(jù)處理模式的整合。單一的MPP數(shù)據(jù)庫或Hadoop產(chǎn)品已經(jīng)很難滿足研究所對(duì)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)融合的業(yè)務(wù)需求。應(yīng)用云云計(jì)算并不是一個(gè)突兀全新的理念,云計(jì)算的快速發(fā)展,是需求驅(qū)

8、動(dòng)、技術(shù)進(jìn)步和商業(yè)模式轉(zhuǎn)變共同發(fā)展和促進(jìn)的結(jié)果。隨著我校大規(guī)模計(jì)算和海量數(shù)據(jù)存儲(chǔ)需求的出現(xiàn),使得科研大數(shù)據(jù)平臺(tái)對(duì)IT基礎(chǔ)設(shè)施的需求也隨之增長。云計(jì)算技術(shù)的應(yīng)用能夠給我校在節(jié)約投資、節(jié)省空間、簡化管理、數(shù)據(jù)高度共享和系統(tǒng)高度可靠等方面提供幫助。因此,本方案的核心價(jià)值在于將這兩種方式的界限在實(shí)際應(yīng)用部署中打破,形成以全數(shù)據(jù)處理為核心,垂直整合操作系統(tǒng)、MPP數(shù)據(jù)庫、Hadoop、統(tǒng)一數(shù)據(jù)服務(wù)的基礎(chǔ)軟件平臺(tái)解決方案2 .設(shè)計(jì)方案2.1. 設(shè)計(jì)原則為保證科研大數(shù)據(jù)平臺(tái)項(xiàng)目建設(shè)的成功,在技術(shù)方案中我們主要遵循了以下幾個(gè)原則:先進(jìn)性與成熟技術(shù)的集合:在設(shè)備選型設(shè)計(jì)中,我們要考慮采用當(dāng)今業(yè)界的主流技術(shù),同時(shí)

9、要選用在眾多關(guān)鍵領(lǐng)域中已經(jīng)得到充分驗(yàn)證的產(chǎn)品,以保證系統(tǒng)的更高的可靠性和可用性;高效的可管理性:對(duì)于日益復(fù)雜的IT系統(tǒng)架構(gòu),對(duì)系統(tǒng)的管理要求越來越重,浪潮所推薦的解決方案整體的設(shè)計(jì)思想是利于以后的管理;性能價(jià)格比:保證充分滿足用戶的性能的同時(shí),考慮最優(yōu)的性價(jià)比;堅(jiān)持系統(tǒng)建設(shè)投資經(jīng)濟(jì)合理性的原則;高可靠性:全冗余設(shè)計(jì),避免任何的單點(diǎn)故障,以保證系統(tǒng)的可靠性,同時(shí)便于維護(hù),減少計(jì)劃內(nèi)停機(jī)次數(shù);高安全性:保證系統(tǒng)數(shù)據(jù)的安全,做到重要數(shù)據(jù)冗余存儲(chǔ),提供備份、容災(zāi)及應(yīng)急設(shè)計(jì);平滑擴(kuò)展性:基于統(tǒng)一標(biāo)準(zhǔn)設(shè)計(jì)的硬件平臺(tái)架構(gòu),具有平滑擴(kuò)展的能力,可在未來方便的根據(jù)客戶需求增添新的硬件;開放性與標(biāo)準(zhǔn)化:采用標(biāo)準(zhǔn)的

10、技術(shù)以保證與其他廠家的產(chǎn)品相兼容;產(chǎn)品利用率:考慮現(xiàn)有設(shè)備的使用情況,提高產(chǎn)品的利用率。降低總體擁有成本、提升服務(wù)水平、管理系統(tǒng)風(fēng)險(xiǎn)是整個(gè)硬件平臺(tái)方案的設(shè)計(jì)戰(zhàn)略思想。本次設(shè)計(jì)滿足當(dāng)前階段應(yīng)用需求的同時(shí),具備升級(jí)擴(kuò)容能力,繼續(xù)滿足下一階段的應(yīng)用需求。2.2. 系統(tǒng)架構(gòu)2.3. 分布式數(shù)據(jù)庫系統(tǒng)2.3.1. MPP+ShareNothing架構(gòu)分布式數(shù)據(jù)庫采用完全并行的MPP+ShareNothing的分布式扁平架構(gòu),這種架構(gòu)中的每一個(gè)節(jié)點(diǎn)(Node)都是獨(dú)立的、自給的、節(jié)點(diǎn)之間對(duì)等,而且整個(gè)系統(tǒng)中不存在單點(diǎn)瓶頸,具有非常強(qiáng)的擴(kuò)展性。2.3.2. 核心組件分布式數(shù)據(jù)庫產(chǎn)品總共包含三大核心組件,即G

11、Cluster、GCware和GNode。GCWare用于各節(jié)點(diǎn)GCluster和GNode實(shí)例間共享信息,GCluster負(fù)責(zé)集群調(diào)度,每個(gè)GNode就是最基本的存儲(chǔ)和計(jì)算單元。GCluster:GCluster負(fù)責(zé)SQL的解析、SQL優(yōu)化、分布式執(zhí)行計(jì)劃生成、執(zhí)行調(diào)度。GCWare:GCWare用于各節(jié)點(diǎn)GCluster和GNode實(shí)例間共享信息(包括集群結(jié)構(gòu),節(jié)點(diǎn)狀態(tài),節(jié)點(diǎn)資源狀態(tài)等信息),以及控制多副本數(shù)據(jù)操作時(shí),提供可操作節(jié)點(diǎn),并在多副本操作中,控制各節(jié)點(diǎn)數(shù)據(jù)一致性狀態(tài)。GCWare對(duì)于集群的管理工作是以節(jié)點(diǎn)為基本單位的。GNode:GNode是GCluster中最基本的存儲(chǔ)和計(jì)算單

12、元。GNode是由GCWare管理的一個(gè)8a實(shí)例,每個(gè)GCluster節(jié)點(diǎn)上有一個(gè)GNode實(shí)例運(yùn)行。GNode負(fù)責(zé)集群數(shù)據(jù)在節(jié)點(diǎn)上的實(shí)際存儲(chǔ),并從GCluster接收和執(zhí)行經(jīng)分解的SQL執(zhí)行計(jì)劃,執(zhí)行結(jié)果返回給GCluster。數(shù)據(jù)加載時(shí),GNode直接從集群加載服務(wù)接收數(shù)據(jù),寫入本地存儲(chǔ)空間。2.3.3. 高可用分布式數(shù)據(jù)庫通過SafeGroup組內(nèi)冗余機(jī)制來保證集群的高可用特性:每個(gè)SafeGroup可提供1個(gè)或2個(gè)副本數(shù)據(jù)冗余;SafeGroup內(nèi)數(shù)據(jù)副本自動(dòng)同步;復(fù)制引擎自動(dòng)管理數(shù)據(jù)同步;采用扁平架構(gòu),每一個(gè)節(jié)點(diǎn)都可以充當(dāng)主控節(jié)點(diǎn),避免了Master節(jié)點(diǎn)產(chǎn)生的瓶頸以及當(dāng)Master與

13、Stand-by宕機(jī)產(chǎn)生的整個(gè)集群不可用。HlClusterflB,個(gè)S乖GroUpfr、node2T1P1T1p2HEhVJnodel、-hT1p1一T1p2、'nQde3、u數(shù)據(jù)2個(gè)副本21£1RepljcatorZ復(fù)制引擎IJ2.3.4.高性能在線擴(kuò)展分布式數(shù)據(jù)庫具備在線擴(kuò)展技術(shù):通過SafeGroup動(dòng)態(tài)擴(kuò)展集群節(jié)點(diǎn),實(shí)際可擴(kuò)展到64毛(192)個(gè)節(jié)點(diǎn);每個(gè)節(jié)點(diǎn)可以處理100TB有效數(shù)據(jù),同時(shí)提供計(jì)算和存儲(chǔ)能力;GCware負(fù)責(zé)新節(jié)點(diǎn)的數(shù)據(jù)同步-因?yàn)槔顺狈植际綌?shù)據(jù)庫采用高性能單節(jié)點(diǎn)的時(shí),可以保證平滑擴(kuò)展和性能的線性士外長特性。,2,MPP扁平架構(gòu),因此進(jìn)行集群擴(kuò)展-S

14、afegroup動(dòng)態(tài)擴(kuò)展集群節(jié)點(diǎn)可以實(shí)際擴(kuò)展到192個(gè)節(jié)點(diǎn)(64X3)GCwane負(fù)直新節(jié)點(diǎn)的數(shù)據(jù)同步Scaleup(SMP)高性能節(jié)點(diǎn)1V扁平,對(duì)等高擴(kuò)展能力MPP集群Scaleout(MPP)2.3.5. 高性能數(shù)據(jù)加載數(shù)據(jù)加載功能作為浪潮分布式數(shù)據(jù)庫的一部分而存在,目的是將用戶從其他數(shù)據(jù)源得到的原始數(shù)據(jù)文件,按照某種加載規(guī)則分發(fā)至集群節(jié)點(diǎn),集群各節(jié)點(diǎn)接收數(shù)據(jù)入庫保存到本地磁盤。分布式數(shù)據(jù)庫支持?jǐn)?shù)據(jù)高效并行加載,數(shù)據(jù)加載速度隨節(jié)點(diǎn)的擴(kuò)展而呈現(xiàn)線性增加。集群加載采用C/S架構(gòu),包括數(shù)據(jù)分發(fā)服務(wù)器和數(shù)據(jù)分發(fā)客戶端兩個(gè)應(yīng)用程序。數(shù)據(jù)分發(fā)服務(wù)器接收到客戶端的數(shù)據(jù)加載請(qǐng)求后,服務(wù)器端負(fù)責(zé)原始數(shù)據(jù)文件

15、切分和數(shù)據(jù)文件的下發(fā);各節(jié)點(diǎn)調(diào)用本地的集群加載服務(wù)接收數(shù)據(jù)入庫并保存到本地磁盤。數(shù)據(jù)加載服務(wù)器數(shù)據(jù)片1-datasources2-slicingdata4-databulkloading(remotegbloader)2.3.6. OLAP函數(shù)分布式數(shù)據(jù)庫提供OLAP函數(shù),用于支持復(fù)雜的分析操作,側(cè)重對(duì)決策人員和高層管理人員的決策支持可根據(jù)分析人員的要求,快速靈活地進(jìn)行大數(shù)據(jù)量的復(fù)雜查詢處理,以便他們準(zhǔn)確掌握企業(yè)的經(jīng)營狀況,了解被服務(wù)對(duì)象的需求,制定正確的方案。2.4. Hadoop集群Hadoop技術(shù)給客戶提供穩(wěn)定的、可靠的、易用的大數(shù)據(jù)設(shè)計(jì)架構(gòu),其組件包括::Hadoop企業(yè)版,HIVE分

16、布式內(nèi)存分析引擎,HBASE分布式實(shí)時(shí)在線數(shù)據(jù)處理引擎和Stream流處理引擎。其特點(diǎn)如下:2.4.1. Hadoop企業(yè)版Hadoop企業(yè)版具有高模塊化和松耦合的五層架構(gòu),針對(duì)不同的應(yīng)用領(lǐng)域通過組件之間的靈活組合與高效協(xié)作來提供定制化的支撐。數(shù)據(jù)存儲(chǔ)層:基于HDFS2.2的大數(shù)據(jù)存儲(chǔ)和在線服務(wù)體系,支持ErasureCode在副本數(shù)降低至1.5倍的情況下,提高了可靠性,可同時(shí)容忍四個(gè)數(shù)據(jù)塊丟失,支持可靠存儲(chǔ)TB級(jí)到數(shù)十PB級(jí)的數(shù)據(jù)量。資源管理層:缺省采用下一代資源管理框架YARN進(jìn)行資源的分配和調(diào)度,支持同時(shí)運(yùn)行多個(gè)計(jì)算框架。計(jì)算引擎層:采用Map/Reduce2完成大部分離線批處理計(jì)算任務(wù)

17、。數(shù)據(jù)分析與挖掘?qū)樱褐С蛛x線批量SQL統(tǒng)計(jì),支持R語言以及機(jī)器學(xué)習(xí)算法庫Mahout。數(shù)據(jù)集成層:Sqoop支持從DB到Hadoop的數(shù)據(jù)遷移,F(xiàn)lume支持從日志系統(tǒng)采集數(shù)據(jù)。2.4.2. HIVE分布式內(nèi)存分析引擎HIVE內(nèi)存分析引擎提供大數(shù)據(jù)的交互式SQL統(tǒng)計(jì)和R語言挖掘能力。它具有以下一些特點(diǎn):高性能:HIVE支持將二維數(shù)據(jù)表緩存入獨(dú)立的分布式內(nèi)存(或SSD)中,建立列式存儲(chǔ)、分區(qū)/分塊和索引,采用改進(jìn)后的ApacheSpark作為執(zhí)彳T引擎,SQL執(zhí)行性能比ApacheHadoop/Hive快10100倍左右。更強(qiáng)的SQL支持:HIVE同時(shí)兼容OraclePL/SQL和HiveQL語

18、法,自動(dòng)識(shí)別不同語法,支持存儲(chǔ)過程和函數(shù),支持常用Oracle擴(kuò)展函數(shù)。完整的SQL支持幫助用戶平滑地從原有關(guān)系數(shù)據(jù)庫遷移到大數(shù)據(jù)平臺(tái)。更強(qiáng)的統(tǒng)計(jì)分析能力:用戶可以通過RStudi?;蛘逺命令行訪問存儲(chǔ)在分布式內(nèi)存中的數(shù)據(jù),R語言中數(shù)千個(gè)統(tǒng)計(jì)算法可以和浪潮HIVE提供的分布式并行數(shù)據(jù)挖掘算法交替混合使用,為各行業(yè)進(jìn)行大數(shù)據(jù)挖掘提供了易用而強(qiáng)大的分析工具。支持廣泛的BI和報(bào)表工具:HIVE可以和常用的BI工具對(duì)接,包括Tableau,SAPBusinessObjects,OracleOBIEE等,用戶無需編程就可以方便地為大數(shù)據(jù)創(chuàng)建美麗的報(bào)表,通過浪潮HIVE提供的高速大數(shù)據(jù)統(tǒng)計(jì)分析能力提高決策

19、效率;高擴(kuò)展能力:Inceptor可以隨著集群規(guī)模的擴(kuò)展,線性擴(kuò)展處理能力,可以支持從GB到數(shù)百TB的數(shù)據(jù)處理。2.4.3. HBASE分布式實(shí)時(shí)在線數(shù)據(jù)處理引擎HBASE實(shí)時(shí)在線數(shù)據(jù)處理引擎以ApacheHBase為基礎(chǔ),是企業(yè)建立高并發(fā)的在線業(yè)務(wù)系統(tǒng)的最佳選擇。它有以下特點(diǎn):多種數(shù)據(jù)類型支持:HBASE支持從GB到數(shù)十PB數(shù)據(jù)的處理,支持廣泛的數(shù)據(jù)類型,包括對(duì)結(jié)構(gòu)化記錄、半結(jié)構(gòu)化文本、圖數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)(圖片、音頻、二進(jìn)制文檔等)的存儲(chǔ)、搜索、統(tǒng)計(jì)和分析。高速數(shù)據(jù)處理能力:HBASE支持高速的數(shù)據(jù)檢索、搜索和統(tǒng)計(jì);根據(jù)索引進(jìn)行檢索的延時(shí)在數(shù)毫秒到數(shù)百毫秒量級(jí);支持上億的并發(fā)用戶同時(shí)進(jìn)行數(shù)

20、據(jù)插入、修改、查詢和檢索;支持對(duì)文本建立增量全文索引并且支持秒級(jí)的全文關(guān)鍵字搜索。高效OLAP和批量統(tǒng)計(jì):HBASE為HIVE引擎提供高效數(shù)據(jù)掃描接口,通過HIVE的擴(kuò)展SQL語法,充分利用浪潮HBASE的內(nèi)部數(shù)據(jù)結(jié)構(gòu)以及全局/輔助索引進(jìn)行SQL執(zhí)行加速,可以滿足高速的OLAP數(shù)據(jù)分析應(yīng)用需求;同時(shí)也支持高速的SQL離線批處理,性能接近于存儲(chǔ)在HDFS上的相同數(shù)據(jù)的統(tǒng)計(jì)。高效圖計(jì)算:HBASE提供構(gòu)造圖形的API,幫助用戶構(gòu)造由上億頂點(diǎn)組成的復(fù)雜大圖,同時(shí)提供專有的高效圖算法,包括關(guān)聯(lián)網(wǎng)絡(luò)的高速分析。2.4.4. Stream流處理引擎Stream實(shí)時(shí)流處理引擎以SparkStreaming為

21、基礎(chǔ)。SparkStreaming提供了強(qiáng)大的流計(jì)算(Streaming)表達(dá)能力,支持DAG(有向無環(huán)圖)計(jì)算模型;而Hadoop類的批處理系統(tǒng)只能通過外圍組件連接多個(gè)批次的作業(yè)完成復(fù)雜多階段作業(yè)處理,系統(tǒng)復(fù)雜而低效。Streaming中的復(fù)雜應(yīng)用邏輯以DAG形式的服務(wù)常駐在集群內(nèi)存中,生產(chǎn)系統(tǒng)的消息通過實(shí)時(shí)消息隊(duì)列進(jìn)入計(jì)算集群,在集群內(nèi)以Pipeline方式被依次處理,完成ETL、特征提取、策略檢查、分析告警等復(fù)雜服務(wù)計(jì)算,最終輸出到HBase等存儲(chǔ)集群、告警頁面、實(shí)時(shí)展示頁面等。系統(tǒng)具備強(qiáng)擴(kuò)展性、強(qiáng)容錯(cuò)、低延遲、高吞吐等特點(diǎn),成熟應(yīng)用于傳感器網(wǎng)絡(luò)數(shù)據(jù)處理、服務(wù)監(jiān)控、反作弊、實(shí)時(shí)報(bào)表系統(tǒng)等

22、業(yè)務(wù)。Streaming支持Kafka,Flume等常見消息隊(duì)列或采集工具。2.5. 服務(wù)器虛擬化2.5.1. 設(shè)計(jì)理念浪潮云海?服務(wù)器虛擬化系統(tǒng)是浪潮云計(jì)算解決方案的核心基礎(chǔ),主要負(fù)責(zé)完成底層物理資源的虛擬融合、按需分配與高效管理,可以顯著提高資源交付的敏捷性和靈活性,提升資源的使用效率,為上層業(yè)務(wù)提供不間斷地資源保障與可伸縮的資源供給。浪潮云海?服務(wù)器虛擬化系統(tǒng)為計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)提供了完整的虛擬化解決方案,支持資源的靈活分配、動(dòng)態(tài)組合、在線調(diào)整與智能調(diào)度,并以虛擬機(jī)或虛擬集群的形式將最終資源呈現(xiàn)給用戶。該系統(tǒng)既可以單獨(dú)使用,也可以配合浪潮云計(jì)算管理平臺(tái)來構(gòu)建更大范圍的云數(shù)據(jù)中心或者IaaS

23、系統(tǒng),同時(shí)本系統(tǒng)還提供了開放接口,支持二次開發(fā),方便與其他管理平臺(tái)整合。在設(shè)計(jì)理念上,整個(gè)系統(tǒng)遵循了以下幾個(gè)原則:命令查詢職責(zé)分離(CQRS)CQRS原則基于一個(gè)簡單的事實(shí):資源(對(duì)象)的行為只有兩種,即命令(Command)和查詢(Query)。命令可以改變資源的狀態(tài),而查詢不會(huì)?;谶@一原則,系統(tǒng)可以分為兩個(gè)部分,命令部分和查詢部分,并采用不同的技術(shù)加以實(shí)現(xiàn)和優(yōu)化,簡化整個(gè)系統(tǒng)的設(shè)計(jì),提升整個(gè)系統(tǒng)的性能和可維護(hù)性。獨(dú)立的認(rèn)證服務(wù)服務(wù)器虛擬化是一個(gè)復(fù)雜的軟件系統(tǒng),由多個(gè)不同功能的模塊組合而成,安全認(rèn)證是每個(gè)模塊必須的邏輯。獨(dú)立的認(rèn)證服務(wù)從系統(tǒng)層面劃分出來一個(gè)切面,實(shí)現(xiàn)集中式的認(rèn)證管理,其他模

24、塊只需與認(rèn)證服務(wù)交互,將復(fù)雜的認(rèn)證過程交由認(rèn)證服務(wù)處理,這一過程對(duì)模塊而言是透明的。獨(dú)立的認(rèn)證服務(wù)對(duì)于實(shí)現(xiàn)SSO和系統(tǒng)集成具有重要的意義。獨(dú)立的監(jiān)控服務(wù)系統(tǒng)狀態(tài)是進(jìn)行決策的數(shù)據(jù)基礎(chǔ),這些數(shù)據(jù)多數(shù)是由監(jiān)控服務(wù)提供的,監(jiān)控服務(wù)幾乎存在于任何大型的軟件系統(tǒng)之中。浪潮服務(wù)器虛擬化系統(tǒng)將監(jiān)控服務(wù)剝離出來,以易復(fù)用、易擴(kuò)展、輕量級(jí)為目標(biāo)獨(dú)立發(fā)展,使其可以在不同的系統(tǒng)中提供監(jiān)控服務(wù)。監(jiān)控服務(wù)為服務(wù)器虛擬化系統(tǒng)監(jiān)控資源狀態(tài)提供了極高的靈活性和擴(kuò)展性,大大縮短了系統(tǒng)故障的排查時(shí)間。業(yè)務(wù)數(shù)據(jù)與監(jiān)控?cái)?shù)據(jù)分離業(yè)務(wù)數(shù)據(jù)與監(jiān)控?cái)?shù)據(jù)的分離,主要體現(xiàn)在存儲(chǔ)、UI顯示以及持久化三個(gè)方面。從存儲(chǔ)方面來說,業(yè)務(wù)數(shù)據(jù)和監(jiān)控?cái)?shù)據(jù)的分離

25、主要體現(xiàn)在存儲(chǔ)方式,前者存到關(guān)系數(shù)據(jù)庫,后者存到NOSQL數(shù)據(jù)庫。從UI顯示來說,UI顯示的主要是業(yè)務(wù)數(shù)據(jù),通過查詢關(guān)系數(shù)據(jù)庫獲取,而對(duì)于監(jiān)控?cái)?shù)據(jù),則通過查詢NOSQL數(shù)據(jù)庫中獲取告警信息。從持久化方面的講,業(yè)務(wù)數(shù)據(jù)具有關(guān)系性強(qiáng)和邏輯緊密,體現(xiàn)用戶的業(yè)務(wù)需求,需要較高的可靠性和穩(wěn)定性,因此需要持久化到關(guān)系型數(shù)據(jù)庫中較為合適,這樣既保證了業(yè)務(wù)關(guān)系又確保了數(shù)據(jù)的穩(wěn)定性;而監(jiān)控?cái)?shù)據(jù)強(qiáng)調(diào)實(shí)時(shí)性,體現(xiàn)被監(jiān)控對(duì)象的當(dāng)前狀況,數(shù)據(jù)關(guān)系性不強(qiáng),結(jié)構(gòu)單一,而且不需要進(jìn)行持久化,因此使用易擴(kuò)展、可用性高的內(nèi)存型數(shù)據(jù)庫來存儲(chǔ)這類數(shù)據(jù)比較合適,以最大程度保證數(shù)據(jù)的實(shí)時(shí)性。資源操作與資源狀態(tài)維護(hù)分離資源操作與資源狀態(tài)維

26、護(hù)分離主要體現(xiàn)在虛擬機(jī)的管理上,資源操作基于業(yè)務(wù)流程,而資源狀態(tài)維護(hù)基于事務(wù)的原子操作實(shí)現(xiàn),例如通過監(jiān)控?cái)?shù)據(jù)更新虛擬機(jī)狀態(tài),并維護(hù)數(shù)據(jù)的一致性。這種機(jī)制在虛擬機(jī)管理中體現(xiàn)最為明顯,主要包括狀態(tài)切換和虛擬機(jī)并發(fā)操作處理。首先,對(duì)于狀態(tài)切換失敗處理,如果當(dāng)前存在其他工作流正在處理當(dāng)前虛擬機(jī),將終止整個(gè)工作流并記錄失敗原因;否則強(qiáng)制同步業(yè)務(wù)狀態(tài),使之與監(jiān)控狀態(tài)相同,然后終止整個(gè)工作流并記錄失敗原因。其次,阻止對(duì)同一個(gè)虛擬機(jī)的并發(fā)操作,以避免上述的第一個(gè)可能分支出現(xiàn)。2.5.2. 系統(tǒng)結(jié)構(gòu)服務(wù)器虛擬化系統(tǒng)可分為四個(gè)層次,分別為虛擬層、應(yīng)用層、展示層、運(yùn)維層,虛擬層是整個(gè)系統(tǒng)的基礎(chǔ),在虛擬層之上構(gòu)建了應(yīng)

27、用層,實(shí)現(xiàn)高級(jí)的業(yè)務(wù)邏輯,展示層用于對(duì)外交互,為了便于系統(tǒng)運(yùn)維,專門劃分了運(yùn)維層,涵蓋系統(tǒng)的安裝、部署和安全管理。虛擬層直接構(gòu)建在物理硬件之上,在功能上主要是完成物理資源的池化與重新組合:基于Hypervisor實(shí)現(xiàn)計(jì)算資源的池化,基于分布式存儲(chǔ)/集中式存儲(chǔ)實(shí)現(xiàn)存儲(chǔ)資源的池化,基于虛擬交換機(jī)和虛擬路由器實(shí)現(xiàn)網(wǎng)絡(luò)資源的池化,經(jīng)由這幾種技術(shù)形成了統(tǒng)一的計(jì)算池、存儲(chǔ)池和網(wǎng)絡(luò)池,在此基礎(chǔ)之上通過按需組合構(gòu)建虛擬主機(jī)和虛擬集群對(duì)外提供服務(wù)。虛擬層同時(shí)提供了資源調(diào)度(DRS/DPM/HA)、鏡像管理和資源管理等功能,為上層實(shí)現(xiàn)高級(jí)功能提供支持。應(yīng)用層基于虛擬層構(gòu)建高級(jí)功能,通過組合虛擬層的功能模塊支撐系統(tǒng)

28、的業(yè)務(wù)邏系統(tǒng)部署與升級(jí)輯實(shí)現(xiàn),這些主要的業(yè)務(wù)邏輯包括系統(tǒng)任務(wù)管理、物理資源管理(主機(jī)、存儲(chǔ)、網(wǎng)絡(luò))、系統(tǒng)配置、虛機(jī)、模板管理以及容災(zāi)備份等,這些高級(jí)功能全部封裝在應(yīng)用層實(shí)現(xiàn)。展示層是系統(tǒng)對(duì)外的交互接口,提供WEBGUI界面和API接口兩種形式,方便系統(tǒng)集成和二次開發(fā);在運(yùn)維層,提供資源訪問控制、PXE安裝和在線升級(jí)等功能,簡化系統(tǒng)運(yùn)維。2.5.3. 服務(wù)器虛擬化系統(tǒng)組成SAN管理節(jié)點(diǎn)iSCSIVM計(jì)算節(jié)點(diǎn)服務(wù)器虛擬化系統(tǒng)控制網(wǎng)數(shù)據(jù)網(wǎng)業(yè)務(wù)網(wǎng)一級(jí)存儲(chǔ)-本地口一級(jí)存儲(chǔ)-共享=二級(jí)存儲(chǔ)VM光纖通道上圖中計(jì)算資源和存儲(chǔ)資源均由控制中心統(tǒng)一控制與管理。服務(wù)器虛擬化系統(tǒng)包括三條通信鏈路:控制網(wǎng),用于控制中心

29、與各計(jì)算節(jié)點(diǎn)、存儲(chǔ)節(jié)點(diǎn)及文件系統(tǒng)主控問傳輸資源信息與控制指令;數(shù)據(jù)網(wǎng),連接計(jì)算節(jié)點(diǎn)與存儲(chǔ)系統(tǒng),用于傳輸虛擬機(jī)正常所需的存儲(chǔ)數(shù)據(jù);業(yè)務(wù)網(wǎng),資源租戶及云業(yè)務(wù)用戶通過此網(wǎng)訪問虛擬機(jī)及部署在虛擬機(jī)里的業(yè)務(wù),業(yè)務(wù)網(wǎng)通過VLAN等技術(shù)實(shí)現(xiàn)隔離。2.6. 云管理平臺(tái)浪潮云海os是浪潮自主設(shè)計(jì)的系統(tǒng)架構(gòu),自主研發(fā)的國產(chǎn)云資源管理平臺(tái),支持底層VMWarevSphere平臺(tái)及浪潮自研虛擬化產(chǎn)品Virtual的異構(gòu)虛擬資源池,對(duì)已部署的vSphere環(huán)境無需停機(jī)即可被云海OS接管,實(shí)現(xiàn)對(duì)現(xiàn)有vSphere環(huán)境的無縫兼容,實(shí)現(xiàn)安全可控。浪潮云海OS的架構(gòu)秉承模塊化設(shè)計(jì)理念,結(jié)合浪潮對(duì)云數(shù)據(jù)中心客戶需求的理解,以超越

30、用戶所想,提供超值的用戶體驗(yàn)而完成的系統(tǒng)設(shè)計(jì)。2.6.1. 浪潮云海OS架構(gòu)圖iPort硼GUIS面)租戶界面管理員界面iCloudManager(云計(jì)算管理平臺(tái))iResourceManager【資源管理平W)iScuurity1安全系蛻)|術(shù)共引儀容災(zāi)備份)iDeWtop(卓面虛擬化)iAllt。自動(dòng)化由圜調(diào)優(yōu)ji5ervicew自卸限芳)iChmrgie律克計(jì)計(jì)勤眼務(wù)器存儲(chǔ)設(shè)備網(wǎng)絡(luò)設(shè)備第三方網(wǎng)管平臺(tái)2.6.2. 浪潮云海OS實(shí)現(xiàn)的功能云資源管理(1) 資源池管理:通過添加vCenter/iVirtual將多個(gè)異構(gòu)資源池整合成一個(gè)更大的資源池,進(jìn)行統(tǒng)一管理和資源分配。資源池管理包括對(duì)資源池

31、的擴(kuò)充和縮減,暫停使用某些資源等操作。(2) 資源池集群管理:集群是云資源的載體,是資源池分配的組成單位。通過集群管理功能實(shí)現(xiàn)為不同用戶提供不同等級(jí)的資源服務(wù),擴(kuò)充資源池容量。可重新導(dǎo)入資源池的新增集群,也可暫停在某些集群上新建虛擬數(shù)據(jù)中心及應(yīng)用服務(wù)。(3) 虛擬數(shù)據(jù)中心管理:虛擬數(shù)據(jù)中心(vdc)界定了組織能夠使用資源的范圍,組織管理員可將vdc資源分配給組織內(nèi)用戶。虛擬數(shù)據(jù)中心管理包括創(chuàng)建、導(dǎo)入,暫停使用、重新啟用等操作。(4) 虛擬網(wǎng)絡(luò)管理:虛擬網(wǎng)絡(luò)允許組織及組織用戶像定義物理網(wǎng)絡(luò)一樣定義組織自己內(nèi)部的網(wǎng)絡(luò),以及與組織外網(wǎng)絡(luò)的連接方式,包括直連、NAT等,組織內(nèi)部網(wǎng)絡(luò)的地址分配、VLAN

32、劃分等。(5) 應(yīng)用服務(wù)管理:應(yīng)用服務(wù)(vApp)是指提供某種服務(wù)的一個(gè)或多個(gè)通過特定網(wǎng)絡(luò)連接在一起的虛擬機(jī)集合??赏ㄟ^服務(wù)模板、新建虛擬機(jī)2種方式創(chuàng)建應(yīng)用服務(wù)。操作包括開啟、關(guān)閉、重啟、刪除、復(fù)制、更改所有者、導(dǎo)出為模板等操作。(6) 虛擬機(jī)管理:單獨(dú)對(duì)組成vApp的虛擬機(jī)操作。功能包括虛擬機(jī)控制臺(tái)、開啟、關(guān)閉、重啟、掛起、恢復(fù)、刪除、快照、復(fù)制、移動(dòng)至其他應(yīng)用服務(wù)中、導(dǎo)出為模板等操作。(7)模板/鏡像管理:通過FTP方式將應(yīng)用服務(wù)模板或操作系統(tǒng)安裝鏡像上傳至組織存儲(chǔ)空間下,用于部署應(yīng)用服務(wù)和安裝操作系統(tǒng),也可將服務(wù)模板和鏡像文件共享給其他組織使用。業(yè)務(wù)管理(1) 業(yè)務(wù)審批:審批系統(tǒng)用戶提交

33、的虛擬數(shù)據(jù)中心(vdc)、虛擬網(wǎng)絡(luò)、虛擬應(yīng)用(vApp)申請(qǐng)。(2) 業(yè)務(wù)流程管理:審批流程引擎實(shí)現(xiàn)虛擬數(shù)據(jù)中心、虛擬網(wǎng)絡(luò)、虛擬應(yīng)用服務(wù)審批流程的自定義。(3) 審批歷史查詢:查詢每個(gè)訂單的詳細(xì)信息,包括訂單內(nèi)容,審批流程上的各節(jié)點(diǎn)的審批情況,包括審批人、審批時(shí)間和是否通過等。計(jì)費(fèi)管理(1) 計(jì)費(fèi)設(shè)置:設(shè)置用戶帳戶余額的提醒周期及提醒方式(郵件、短信);定義資源單價(jià)(元/資源度量單位/小時(shí))0(2) 計(jì)費(fèi)等級(jí):資源按一定標(biāo)準(zhǔn)分為不同的等級(jí),各等級(jí)的資源計(jì)費(fèi)系數(shù)不同,組織分為不同的等級(jí),不同等級(jí)的組織計(jì)費(fèi)系數(shù)也不同;系統(tǒng)可自行設(shè)置資源等級(jí)、組織等級(jí)對(duì)應(yīng)的折扣率,從而為不同的用戶提供不同的等級(jí)的服

34、務(wù)。(3) 組織賬戶充值:為組織賬戶充值,并可查詢充值歷史。(4) 查詢組織賬戶余額:查詢各組織的帳戶余額。(5) 查詢組織賬單:查詢組織每月的消費(fèi)金額及費(fèi)用明細(xì)。管理監(jiān)控(6) 監(jiān)控視圖:顯示服務(wù)器、網(wǎng)絡(luò)設(shè)備、數(shù)據(jù)庫、操作系統(tǒng)、web服務(wù)、虛擬化資源組及組內(nèi)各節(jié)點(diǎn)的狀態(tài)統(tǒng)計(jì)信息。(7) 資源管理:開啟、關(guān)閉、重啟服務(wù)器組內(nèi)所有機(jī)器或某些服務(wù)器;配置服務(wù)器BMC信息;獲取并顯示網(wǎng)絡(luò)設(shè)備、數(shù)據(jù)庫、web服務(wù)、操作系統(tǒng)、虛擬化資源的相關(guān)狀態(tài)參數(shù)信息。(8) 節(jié)能管理:節(jié)能管理在不影響正常業(yè)務(wù)的情況下,通過降低服務(wù)器CPU頻率來降低服務(wù)器組或服務(wù)器的能耗。功能包括節(jié)能策略制定及服務(wù)器組或服務(wù)器的能耗

35、曲線顯示。(9) 告警分析:分時(shí)段顯示服務(wù)器、網(wǎng)絡(luò)設(shè)備、數(shù)據(jù)庫、操作系統(tǒng)、web服務(wù)、虛擬化資源等的各監(jiān)測器返回的異常告警信息。(10) 報(bào)表中心:圖表顯示服務(wù)器、網(wǎng)絡(luò)設(shè)備、數(shù)據(jù)庫、操作系統(tǒng)、web服務(wù)、虛擬化資源等的資源狀態(tài)統(tǒng)計(jì)、各監(jiān)測項(xiàng)狀態(tài)。(11) 系統(tǒng)配置:監(jiān)控管理功能模塊的基礎(chǔ)性配置。如添加資源(服務(wù)器、網(wǎng)絡(luò)設(shè)備、操作系統(tǒng)、web服務(wù)、數(shù)據(jù)庫、虛擬化資源、),為資源選擇添加監(jiān)測項(xiàng),通知時(shí)間表設(shè)置,告警通知聯(lián)系人設(shè)置,備份與恢復(fù)當(dāng)前的監(jiān)控管理配置信息。系統(tǒng)管理(1) 組織管理:組織是用戶的集合,是虛擬數(shù)據(jù)中心(VDC)及vApp的所有者,也是資源使用費(fèi)用的承擔(dān)者。組織管理功能包括添加組

36、織、編輯、啟用、禁用、刪除等操作。(2) 用戶管理:系統(tǒng)管理員管理各組織的組織管理員,各組織管理員管理其組織內(nèi)部的組織用戶。用戶管理操作包括:添加、刪除、修改基礎(chǔ)信息、重置密碼、啟用、禁用等操作。(3) 角色管理:角色是系統(tǒng)操作的集合,界定了相同角色的用戶擁有的操作權(quán)限范圍。角色管理包括:添加、編輯、刪除等操作。(4) 日志查詢:根據(jù)時(shí)間、組織、用戶、操作對(duì)象等條件查詢相關(guān)聯(lián)的操作記錄。(5) 系統(tǒng)設(shè)置:配置系統(tǒng)發(fā)送提醒、告警類信息的郵件、短信信息。導(dǎo)出、刪除日志,設(shè)置日志停留時(shí)長。(6) 序列號(hào)管理:系統(tǒng)序列號(hào)分為正式序列號(hào)和試用期序列號(hào),序列號(hào)到期后,系統(tǒng)將無法使用,需重新注冊。(7) L

37、DAP管理:云管理平臺(tái)可與用戶現(xiàn)有的LDAP系統(tǒng)集成,實(shí)現(xiàn)基于LDAP的身份驗(yàn)證訪問機(jī)制,LDAP的用戶可作為云平臺(tái)的用戶來管理或使用云資源。云管理平臺(tái)為客戶帶來的收益使用浪潮云海?云數(shù)據(jù)中心操作系統(tǒng),客戶可以獲得以下收益:節(jié)約軟件采購及服務(wù)成本浪潮提供云數(shù)據(jù)中心整體解決方案,減少項(xiàng)目集成費(fèi)用。全國產(chǎn)的云管理平臺(tái),相對(duì)于國外產(chǎn)品價(jià)格相對(duì)較低,相對(duì)于基于開源的云管理平臺(tái),浪潮云海云數(shù)據(jù)中心管理平臺(tái)更加安全、穩(wěn)定。管理運(yùn)營效率提升云數(shù)據(jù)中心管理平臺(tái)集成虛擬化管理及服務(wù)器、網(wǎng)絡(luò)設(shè)備等硬件設(shè)備和操作系統(tǒng)、web服務(wù)、數(shù)據(jù)庫等中間件的監(jiān)控與管理功能,幾乎涵蓋了數(shù)據(jù)中心所有的可管理對(duì)象范疇,一套系統(tǒng)即可運(yùn)

38、營整個(gè)云數(shù)據(jù)中心。云數(shù)據(jù)中心管理平臺(tái)能夠?qū)崿F(xiàn)對(duì)多虛擬化平臺(tái)的統(tǒng)一管理。通過將多虛擬化平臺(tái)集中到統(tǒng)一管理門戶,形成一個(gè)大的資源池,有效解決異構(gòu)資源池管理問題。服務(wù)水平提高浪潮云海云數(shù)據(jù)中心管理平臺(tái)實(shí)現(xiàn)基礎(chǔ)設(shè)施資源的服務(wù)化(IaaS),以應(yīng)用服務(wù)形式對(duì)外提供服務(wù),利用服務(wù)模板可實(shí)現(xiàn)業(yè)務(wù)的快速部署,顯著縮短應(yīng)用系統(tǒng)上線時(shí)間,幫助客戶快速實(shí)現(xiàn)自身價(jià)值。2.7.爬蟲軟件2.7.1. 建設(shè)網(wǎng)絡(luò)爬蟲私有云GooSeeker網(wǎng)絡(luò)爬蟲軟件由兩部分組成:網(wǎng)絡(luò)爬蟲云服務(wù)器、網(wǎng)絡(luò)爬蟲執(zhí)行單元。可視看監(jiān)控爬蟲群勢同不重不漏深度室度拓展和限定適合數(shù)據(jù)挖掘權(quán)限管理可視化維護(hù)抓取規(guī)則語義字段精確抓取適合大數(shù)據(jù)分析可視化網(wǎng)頁剖

39、析網(wǎng)頁編碼自動(dòng)支持適合集成信,息系統(tǒng)JS網(wǎng)頁一視同仁開放架構(gòu)利于集成所見即所得易使用協(xié)同化助海量抓取團(tuán)隊(duì)學(xué)習(xí)模板草吊定時(shí)抓取性能統(tǒng)計(jì)匚H內(nèi)核高性能動(dòng)態(tài)靜態(tài)抓取一致抓取規(guī)則自動(dòng)生成自動(dòng)補(bǔ)抓網(wǎng)頁解析容錯(cuò)性高抓取規(guī)則即時(shí)驗(yàn)證異地部署防封鎖線索狀態(tài)跟蹤管理2.7.2. 高效的分布式、協(xié)同化數(shù)據(jù)采集模式集搜客GooSeeker用戶無論分布在哪里,都可以享受集搜客網(wǎng)絡(luò)爬蟲的服務(wù),在線版用戶可以創(chuàng)立一個(gè)工作組,邀請(qǐng)其他在線版用戶加入工作組,為相同的采集目的協(xié)同完成數(shù)據(jù)采集任務(wù)。企業(yè)版將這個(gè)能力完全開放,可以完全控制和管理分布式和協(xié)同化數(shù)據(jù)采集模式。在企業(yè)內(nèi)部可以劃分成多個(gè)工作組工作組可以用后臺(tái)管理程序隨時(shí)根

40、據(jù)工作目標(biāo)直接創(chuàng)建工作組大小不受限制工作組的劃分和管理完全受控GooSeeker網(wǎng)絡(luò)爬蟲可以由服務(wù)器統(tǒng)一調(diào)度,企業(yè)版可以用定制開發(fā)的更周密的負(fù)荷分擔(dān)算法控制每個(gè)網(wǎng)絡(luò)爬蟲的運(yùn)行,而且根據(jù)網(wǎng)絡(luò)爬蟲的運(yùn)行狀態(tài)合理調(diào)配工作量,對(duì)于失敗的網(wǎng)絡(luò)爬蟲可以及時(shí)予以隔離,甚至在其他網(wǎng)管系統(tǒng)的輔助下,監(jiān)控網(wǎng)絡(luò)爬蟲計(jì)算機(jī)各個(gè)層面的運(yùn)行狀況。2.7.3. 爬蟲路線規(guī)劃能力集搜客GooSeeker網(wǎng)絡(luò)爬蟲沿著線索擴(kuò)展爬行范圍,而且不限廣度和深度。免費(fèi)在線版用戶在MS謀數(shù)臺(tái)的爬蟲路線工作臺(tái)上規(guī)劃爬蟲路線,主要能力就是:從抓取到的網(wǎng)址上建立下一級(jí)線索,這是深度方向,同時(shí)抓取到的下級(jí)線索不只一個(gè),那么就是在廣度方向進(jìn)行擴(kuò)展。

41、總之,網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁數(shù)據(jù)的時(shí)候,把一些網(wǎng)址作為廣度或者深度方向擴(kuò)展的線索。免費(fèi)在線版只能在定義抓取規(guī)則的時(shí)候規(guī)劃爬蟲路線;而企業(yè)版可以有更多規(guī)劃爬蟲路線的選擇。在抓取結(jié)果清洗和入庫的時(shí)候在深度和廣度方向生成線索,這是企業(yè)版常用的方式,此時(shí),企業(yè)版GooSeeker具有最大的靈活性和控制力,比如,可以用入庫腳本程序任意控制爬蟲路線的生成,可以替換URL中的參數(shù),可以根據(jù)URL地址規(guī)律批量生成網(wǎng)址,可以在一批網(wǎng)址中根據(jù)一定規(guī)則進(jìn)行篩選等等。獲取線索分酣筋訪問控制抓取網(wǎng)頁加翳第三方結(jié)果文件收集軟件*第三方調(diào)度服舒器接收上傳文件解析數(shù)據(jù)本成口S打數(shù)機(jī)MetaCorpora數(shù)據(jù)入庫清洗服簪器臨時(shí)表最大

42、的靈活性在于爬蟲路線的生成時(shí)間。當(dāng)網(wǎng)頁抓取用于探索性研究的時(shí)候,可以根據(jù)需要隨時(shí)延伸爬蟲深度和廣度范圍,不必在第一次數(shù)據(jù)清洗過程就把所有線索都生成好了,其實(shí)那時(shí)可能還不知道是否有必要做爬行范圍延展。而且也容易實(shí)現(xiàn)同一個(gè)網(wǎng)址用于多個(gè)抓取主題,分別為不同的研究目的服務(wù)。2.7.4. 爬蟲調(diào)度和負(fù)荷規(guī)劃能力集搜客GooSeeker網(wǎng)絡(luò)爬蟲是一款高性能網(wǎng)絡(luò)爬蟲軟件,多臺(tái)計(jì)算機(jī)可為同一目標(biāo)協(xié)同工作,同一臺(tái)計(jì)算機(jī)上能運(yùn)行多個(gè)線程并行抓取網(wǎng)頁。那么就需要規(guī)劃每個(gè)網(wǎng)絡(luò)爬蟲線程的工作內(nèi)容和工作負(fù)荷,以及啟動(dòng)和停止時(shí)間等等。免費(fèi)在線版GooSeeker網(wǎng)絡(luò)爬蟲主要依賴周期,卜t網(wǎng)頁抓取調(diào)度文件crontab.xm

43、l管理網(wǎng)絡(luò)爬蟲,比如,一臺(tái)計(jì)算機(jī)上啟動(dòng)多少個(gè)線程,每個(gè)線程在什么時(shí)間啟動(dòng),每一批包含多少網(wǎng)頁,抓取什么主題,按照什么順序等等。crontab.xml文件是預(yù)先生成好的,比如,使用crontab.xml生成器。預(yù)先生成的缺點(diǎn)是調(diào)度爬蟲不夠靈活,如果爬幾十個(gè)網(wǎng)站,這個(gè)缺點(diǎn)并不顯著,如果要爬幾百上千個(gè)網(wǎng)站,要把所有的網(wǎng)站目標(biāo)都編制到crontab文件,將是十分繁瑣的。企業(yè)版GooSeeker網(wǎng)絡(luò)爬蟲可以接受服務(wù)器下發(fā)的任務(wù)安排,也就是crontab文件中的每個(gè)step都可以通過云服務(wù)器下發(fā)下來,那么在云服務(wù)器上可以實(shí)現(xiàn)一個(gè)復(fù)雜的調(diào)度和負(fù)荷規(guī)劃程序,配以爬蟲管理程序,能夠細(xì)致地為每個(gè)爬蟲安排合適的抓取

44、任務(wù)。2.7.5. 極致的開放兼容平臺(tái). 為什么需要開放的可集成的網(wǎng)頁抓取軟件如果網(wǎng)絡(luò)爬蟲只是大型IT系統(tǒng)的一個(gè)模塊,集搜客GooSeeker網(wǎng)絡(luò)爬蟲能否無縫地集成到各種IT系統(tǒng)中?此類IT系統(tǒng)對(duì)網(wǎng)絡(luò)爬蟲的需求主要包括: IT系統(tǒng)可以控制網(wǎng)絡(luò)爬蟲的爬行范圍 IT系統(tǒng)可以控制網(wǎng)絡(luò)爬蟲什么時(shí)候啟動(dòng),每次抓取的批次大小等 IT系統(tǒng)需要及時(shí)獲得爬取結(jié)果,由IT系統(tǒng)負(fù)責(zé)內(nèi)容管理、數(shù)據(jù)挖掘等信息處理過程 IT系統(tǒng)能夠監(jiān)控爬蟲的成功率,可及時(shí)修正失敗狀態(tài),比如,重新啟動(dòng)抓取失敗的線索. 集搜客網(wǎng)絡(luò)爬蟲的開放接口顯然,一個(gè)封閉的網(wǎng)絡(luò)爬蟲軟件不能滿足上述需求,而集搜客網(wǎng)絡(luò)爬蟲提供標(biāo)準(zhǔn)

45、的開放的API接口,也可以直接從數(shù)據(jù)庫層面進(jìn)行對(duì)接,完美解決無縫集成問題。MetaSeeker服務(wù)器強(qiáng)!I錢索窗理程序客戶端調(diào)度規(guī)劃程序基于CM5架構(gòu)的內(nèi)容管理丁口呈現(xiàn)3 .方案優(yōu)勢3.1. 浪潮MPP數(shù)據(jù)庫優(yōu)勢3.1.1. 高性能列存儲(chǔ)技術(shù)在大大減少I/O的同時(shí),能顯著提高查詢性能;智能索引大幅提高查詢性能;高速的數(shù)據(jù)加載性能;高效的并行SQL執(zhí)行計(jì)劃。3.1.2. 高性價(jià)比采用多種壓縮技術(shù),減少存儲(chǔ)數(shù)據(jù)所需的空間,可以將所用空間減少120倍,并相應(yīng)地提高了I/O性能;采用高壓縮技術(shù),能顯著減少存儲(chǔ)開銷,從而幫助客戶減少了數(shù)據(jù)庫整體投入成本。3.1.3. 高易用性易于實(shí)施和管理,只需要傳統(tǒng)數(shù)

46、據(jù)庫1/10的管理成本,與主要商業(yè)智能工具兼容,如Cognos、SAPBO、BIEE、SAS、SPSS3.2. 浪潮Hadoop優(yōu)勢支持高性能交互式數(shù)據(jù)分析,無需等待,實(shí)時(shí)生成統(tǒng)計(jì)結(jié)果。性能比開源Hadoop產(chǎn)品快10到100倍;提供PL/SQL以及R語言,支持更強(qiáng)的統(tǒng)計(jì)分析能力,應(yīng)用遷移非常方便;支持廣泛的BI和報(bào)表工具,無需編程,方便應(yīng)用遷移。3.3. 浪潮云計(jì)算優(yōu)勢方案中虛擬化軟件采用浪潮云海IncloudSphere,國產(chǎn)自主研發(fā),并具備當(dāng)下最主流先進(jìn)的虛擬化功能。云管理平臺(tái)部分采用浪潮云海IncloudManager,全自主知識(shí)產(chǎn)權(quán),突破了云數(shù)據(jù)中心資源管理、調(diào)度、多資源池融合等多項(xiàng)

47、核心技術(shù),實(shí)現(xiàn)了真正的安全可控。3.3.1. 運(yùn)營效率提升通過云海實(shí)現(xiàn)系統(tǒng)的搭建與部署,大大提高運(yùn)營效率。其工作效率的提升不是以百分之多少來衡量的,而是幾倍甚至數(shù)十倍的提升。傳統(tǒng)的一個(gè)操作系統(tǒng)的準(zhǔn)備物理環(huán)境可能需要幾個(gè)小時(shí)甚至幾天,而虛擬化的環(huán)境只需要十幾分鐘。事實(shí)上,只需要人工的幾個(gè)鼠標(biāo)點(diǎn)擊。其余的時(shí)間都是系統(tǒng)自動(dòng)工作而不需要人工的干預(yù)。最快的時(shí)候,搭建一個(gè)數(shù)百操作系統(tǒng)的應(yīng)用人工也只需要配置十幾分鐘。虛擬層會(huì)自動(dòng)的根據(jù)模版生成你需要的工作環(huán)境。3.3.2. 服務(wù)水平提高云計(jì)算環(huán)境可以很容易的幫助企業(yè)建立業(yè)務(wù)和IT資源之間的關(guān)系,使各種應(yīng)用和企業(yè)的苛刻的業(yè)務(wù)條件能對(duì)應(yīng)。從整個(gè)數(shù)據(jù)中心的視圖來看,云數(shù)據(jù)中心管理平臺(tái)可以將所有的物理服務(wù)器作為一個(gè)大的資源池進(jìn)行統(tǒng)一的管理,并可以按需的自動(dòng)進(jìn)行所有運(yùn)算資源的人工或自動(dòng)調(diào)度。因?yàn)樗械挠布Y源與客戶的應(yīng)用及操作系統(tǒng)隔離,今后不論是物理主機(jī)的更換還是存儲(chǔ)的升級(jí),均可以實(shí)現(xiàn)應(yīng)用的零宕機(jī)。也許以前的維護(hù)需要幾天甚至幾周的時(shí)間變更管理準(zhǔn)備。但現(xiàn)在這個(gè)時(shí)間被大大的縮減甚至不需要了

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論