數(shù)據(jù)采集處理項(xiàng)目-技術(shù)方案_第1頁(yè)
數(shù)據(jù)采集處理項(xiàng)目-技術(shù)方案_第2頁(yè)
數(shù)據(jù)采集處理項(xiàng)目-技術(shù)方案_第3頁(yè)
數(shù)據(jù)采集處理項(xiàng)目-技術(shù)方案_第4頁(yè)
數(shù)據(jù)采集處理項(xiàng)目-技術(shù)方案_第5頁(yè)
已閱讀5頁(yè),還剩55頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

xxx大數(shù)據(jù)庫(kù)中心數(shù)據(jù)庫(kù)投資商和企業(yè)數(shù)據(jù)采集處理工程工程編號(hào):I5300000000617001206技術(shù)方案xxx二○一七年六月

目錄1引言 3工程背景 3工程目標(biāo) 3建設(shè)原那么 3參考標(biāo)準(zhǔn) 4名詞解釋 52云數(shù)據(jù)采集中心 7需求概述 7總體設(shè)計(jì) 7 103大數(shù)據(jù)計(jì)算平臺(tái) 34需求概述 34總體設(shè)計(jì) 34數(shù)據(jù)模型設(shè)計(jì) 354數(shù)據(jù)運(yùn)營(yíng) 384.1數(shù)據(jù)挖掘分析 384.2數(shù)據(jù)分析處理的主要工作 384.3數(shù)據(jù)分析團(tuán)隊(duì)組織和管理 395平安設(shè)計(jì) 426風(fēng)險(xiǎn)分析 467部署方案 478實(shí)施方案 489技術(shù)規(guī)格偏離表 4910售后效勞承諾 5211關(guān)于運(yùn)行維護(hù)的承諾 5512保密措施及承諾 5613培訓(xùn)方案 58

1引言工程背景XXX大數(shù)據(jù)中心建設(shè)出發(fā)點(diǎn)考慮從投資者角度涵蓋招商全流程,盡可能為投資者解決工程實(shí)施過(guò)程中的困難和問(wèn)題,便于招商部門準(zhǔn)確掌握全省招商數(shù)據(jù),到達(dá)全省招商工程數(shù)據(jù)共享,形成全省招商工作“一盤棋、一張網(wǎng)、一體化”格局。大數(shù)據(jù)中心將充分發(fā)揮大數(shù)據(jù)優(yōu)勢(shì),加強(qiáng)對(duì)企業(yè)投資工程、投資軌跡分析,評(píng)估出其到XX投資的可行性,為招商過(guò)程留下痕跡、找到規(guī)律、明辨方向、提供“糧食”、提高效率,實(shí)現(xiàn)數(shù)據(jù)尋商、數(shù)據(jù)引商、數(shù)據(jù)助商,實(shí)現(xiàn)數(shù)據(jù)資源實(shí)時(shí)共享、集中管理、隨時(shí)查詢,實(shí)現(xiàn)工程可統(tǒng)計(jì)、可監(jiān)管、可協(xié)調(diào)、可管理、可配對(duì)、可跟蹤、可考核。本次數(shù)據(jù)運(yùn)營(yíng)效勞主要是為大數(shù)據(jù)平臺(tái)制定數(shù)據(jù)運(yùn)營(yíng)標(biāo)準(zhǔn)及管理方法,同時(shí)為“企業(yè)數(shù)據(jù)庫(kù)”提供數(shù)據(jù)采集、存儲(chǔ)與分析效勞,并根據(jù)運(yùn)營(yíng)標(biāo)準(zhǔn)要求持續(xù)開(kāi)展數(shù)據(jù)運(yùn)營(yíng)效勞。工程目標(biāo) 制定招商大數(shù)據(jù)運(yùn)營(yíng)標(biāo)準(zhǔn)及管理方法。 制定招商大數(shù)據(jù)相關(guān)元數(shù)據(jù)標(biāo)準(zhǔn),完成相關(guān)數(shù)據(jù)的采集、整理與存儲(chǔ)。 根據(jù)業(yè)務(wù)需求,研發(fā)招商大數(shù)據(jù)招商業(yè)務(wù)分析模型,并投入應(yīng)用。 根據(jù)運(yùn)營(yíng)標(biāo)準(zhǔn)及管理方法的要求持續(xù)開(kāi)展數(shù)據(jù)運(yùn)營(yíng)工作。建設(shè)原那么基于本工程的建設(shè)要求,本工程將遵循以下建設(shè)原那么: 前瞻性 經(jīng)濟(jì)性和用軟件應(yīng)提供完備的整合方案。 先進(jìn)性和成熟性務(wù)需求。 高性能和平安性攻擊或崩潰時(shí)能快速恢復(fù),確保重要數(shù)據(jù)的機(jī)密性和完整性。參考標(biāo)準(zhǔn) GB/T信息平安技術(shù)—信息系統(tǒng)平安管理要求 GB/T信息平安技術(shù)—信息平安風(fēng)險(xiǎn)評(píng)估標(biāo)準(zhǔn) GB/T信息平安技術(shù)—信息系統(tǒng)平安等級(jí)保護(hù)根本要求 GB/T信息平安技術(shù)—信息系統(tǒng)平安等級(jí)保護(hù)定級(jí)指南 GA/T計(jì)算機(jī)信息系統(tǒng)平安等級(jí)保護(hù)管理要求 GB/T計(jì)算機(jī)軟件產(chǎn)品開(kāi)發(fā)文件編制指 GB/T軟件工程術(shù)語(yǔ) GB/T信息技術(shù)軟件工程術(shù)語(yǔ) GB/T軟件工程產(chǎn)品質(zhì)量第1 GB/T軟件工程產(chǎn)品質(zhì)量第2 GB/T軟件工程產(chǎn)品質(zhì)量第3 GB/T軟件工程產(chǎn)品質(zhì)量第4 GB/T計(jì)算機(jī)軟件可靠性和可維護(hù)性管理 GB/T信息技術(shù)軟件包質(zhì)量要求和測(cè)試名詞解釋DF簡(jiǎn)單存儲(chǔ)分布式文件系〔metrageDstrutedFeystem〕Database〕DCS:數(shù)據(jù)計(jì)算效勞〔DataMPS:消息處理效勞〔MessageDataDMQ:分布式消息隊(duì)列〔DistributedQueue〕:超文本傳輸協(xié)定〔HyperTextTransferMessage

2云數(shù)據(jù)采集中心需求概述根據(jù)1至2年內(nèi)的數(shù)據(jù)存儲(chǔ)和計(jì)算規(guī)模,需要滿足:數(shù)據(jù)采集范圍包括但不限于世界500強(qiáng)、全國(guó)500強(qiáng)、行業(yè)20強(qiáng)企業(yè)相關(guān)數(shù)據(jù)??倲?shù)據(jù)容量至少到達(dá)30T??傮w設(shè)計(jì)整個(gè)云數(shù)據(jù)采集中心分為三局部:硬件資源層、軟件平臺(tái)層、軟件應(yīng)用層。硬件資源層主要指實(shí)體硬件設(shè)備包括用來(lái)存儲(chǔ)數(shù)據(jù)的光纖陣列柜和存儲(chǔ)服務(wù)器用來(lái)作統(tǒng)計(jì)分析以及搜索用的計(jì)算效勞器用來(lái)部署分布式消〔DMQ〕/WEB/APP軟件的及消息效勞器,用來(lái)部署用PostgreSQL關(guān)系數(shù)據(jù)庫(kù)軟件的應(yīng)用數(shù)據(jù)庫(kù)效勞器用來(lái)部署作業(yè)調(diào)度效勞進(jìn)〔J的作業(yè)調(diào)度效勞器。作為數(shù)據(jù)通信用的全千兆三層交換機(jī)等等其中光纖陣列柜主要用來(lái)存儲(chǔ)統(tǒng)計(jì)分析后的粗顆粒度數(shù)據(jù)存儲(chǔ)效勞器用來(lái)部署分布式文件系統(tǒng)和分布式數(shù)據(jù)庫(kù)同存儲(chǔ)非結(jié)構(gòu)化和結(jié)構(gòu)〔臺(tái)標(biāo)圖片電商圖片等等和結(jié)構(gòu)化數(shù)〔行為數(shù)據(jù),索引數(shù)據(jù)g數(shù)據(jù)清理后的細(xì)顆粒度數(shù)據(jù)等等計(jì)算效勞器主要用來(lái)完成數(shù)器和計(jì)算效勞器合二為一所以該效勞器同時(shí)具有計(jì)算和存儲(chǔ)數(shù)據(jù)的功能前云數(shù)據(jù)采集中心需要面對(duì)多種寬帶用戶〔電信、移動(dòng)、聯(lián)通,所以,數(shù)據(jù)中心的對(duì)外的網(wǎng)絡(luò)需要直連上電信移動(dòng)聯(lián)通三家公司的網(wǎng)絡(luò)保證以上三家公司間的通信性能高速和可靠。軟件平臺(tái)層是云數(shù)據(jù)采集中心的核心支撐層,也是我們這次方案設(shè)計(jì)和實(shí)施的主體局部,在核心技術(shù)章節(jié)會(huì)對(duì)“分布式文件系統(tǒng)〔S2DFS〕”、“分布式數(shù)據(jù)庫(kù)〔D2B〕”、“分布式消息效勞〔DMQ〕”“作業(yè)調(diào)度效勞進(jìn)程〔JSS〕、數(shù)據(jù)計(jì)算效勞進(jìn)程〔DCS〕”主要局部加以詳細(xì)的描述。軟件平臺(tái)層的所有效勞器都統(tǒng)一部署的64位操作系統(tǒng)CentOS6.5〔也可以選擇RHEL6.5x64〕;其核心軟件或者進(jìn)程有:分布式文件系統(tǒng)〔S2DFS〕、分布式數(shù)據(jù)庫(kù)〔D2B〕、作業(yè)調(diào)度服務(wù)進(jìn)程〔JSS〕、數(shù)據(jù)計(jì)算效勞進(jìn)程〔DCS〕、作業(yè)生成效勞進(jìn)程〔JGS〕、消息處理效勞進(jìn)程〔MPS〕、流數(shù)據(jù)處理進(jìn)程〔SDS〕等等。WEB及應(yīng)用效勞器軟件Apache&Tomcat,消息隊(duì)列軟件分布式消息〔DMQ〕。還要實(shí)現(xiàn)整個(gè)云數(shù)據(jù)采集中心的資源管理及監(jiān)控管理系統(tǒng)。軟件應(yīng)用層是云數(shù)據(jù)采集中心的功能實(shí)現(xiàn)及UI表達(dá)層,功能實(shí)現(xiàn)需要基于軟件平臺(tái)層的支撐后期設(shè)計(jì)和實(shí)施的主體該層的主要功能應(yīng)用有數(shù)據(jù)采集。本圖片數(shù)據(jù)以及用戶行為數(shù)據(jù)存儲(chǔ)在云數(shù)據(jù)采集中心里以供后期分析計(jì)算用。云數(shù)據(jù)采集中心整體架構(gòu)圖云數(shù)據(jù)采集中心網(wǎng)絡(luò)結(jié)構(gòu)圖分布式文件存儲(chǔ)技術(shù)傳統(tǒng)存儲(chǔ)技術(shù)面臨的問(wèn)題: 構(gòu)建本錢高:大容量及高網(wǎng)絡(luò)帶寬的高端存儲(chǔ)系統(tǒng)架構(gòu)昂貴。 文件系統(tǒng)功能和性能差強(qiáng)人意:難以實(shí)現(xiàn)全局命名空間的文件共享、文件系統(tǒng)難以擴(kuò)展,容易形成瓶頸。 擴(kuò)展性困難:技術(shù)存在瓶頸〔cae-up架構(gòu)決定的、擴(kuò)展本錢無(wú)法控制。 應(yīng)用目標(biāo)差異:主要面臨運(yùn)營(yíng)商、金融行業(yè)的OLTP應(yīng)用、很少針對(duì)海量的流數(shù)據(jù),或者非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行設(shè)計(jì)和優(yōu)化。 異構(gòu)設(shè)備繁雜:不同時(shí)期、不同公司、不同操作系統(tǒng)的異構(gòu)設(shè)備紛繁復(fù)雜,無(wú)法整合,資源利用率極低。分布式文件系統(tǒng)主要為解決以上問(wèn)題而出現(xiàn)的一種新型大規(guī)模數(shù)據(jù)存儲(chǔ)技術(shù)架構(gòu)主要為非結(jié)構(gòu)化數(shù)〔視頻/文件/文檔圖像/音頻等非結(jié)構(gòu)化數(shù)據(jù)提供海量的存儲(chǔ)平臺(tái),以集群的方式提供線性橫向擴(kuò)展能力。分布式文件系統(tǒng)是一種構(gòu)建于通用x6部件之上的高可用高可靠高可擴(kuò)展的新型分布式文件系統(tǒng)應(yīng)用分布式文件系統(tǒng)用戶可以采用廉價(jià)可靠的通用硬盤以及以太網(wǎng)絡(luò)來(lái)構(gòu)建媲美企業(yè)級(jí)存儲(chǔ)產(chǎn)品的存儲(chǔ)系統(tǒng)。分布式文件系統(tǒng)應(yīng)對(duì)的數(shù)據(jù)特性和訪問(wèn)特性: 數(shù)據(jù)量巨大,數(shù)百TB或PB級(jí),增長(zhǎng)迅速; 類型多樣化,包括圖像、文本、語(yǔ)音、視頻等文件數(shù)據(jù); 按時(shí)間有序生成,數(shù)據(jù)均帶有時(shí)間標(biāo)志;前端數(shù)據(jù)寫入速度很高,每秒鐘寫入數(shù)據(jù)可達(dá)幾萬(wàn)甚至幾十萬(wàn)條記錄或者上GB量數(shù)據(jù);更新操作極少:追加方式寫入,一旦寫入,幾乎沒(méi)有數(shù)據(jù)修改,查詢涉及大量的磁盤讀操作,查詢處理產(chǎn)生大量的臨時(shí)結(jié)果,不同類型的數(shù)據(jù)存在聯(lián)合分析查詢;分布式文件系統(tǒng)的根本原理是采用集群方式來(lái)整合物理上獨(dú)立的多個(gè)存儲(chǔ)資源以軟件方式提供單一的名字空間采用多副本的方式保證數(shù)據(jù)的高可用性,任意單一節(jié)點(diǎn)失效均不會(huì)導(dǎo)致數(shù)據(jù)喪失和數(shù)據(jù)效勞的正常運(yùn)行同時(shí)分布式文件系統(tǒng)通過(guò)良好設(shè)計(jì)的系統(tǒng)結(jié)構(gòu)和數(shù)據(jù)分布策略可保證系統(tǒng)性能的高可擴(kuò)展性,并支持存儲(chǔ)容量/性能的在線擴(kuò)展。相比擬于D〔直連存儲(chǔ)、N〔存儲(chǔ)區(qū)域網(wǎng)絡(luò)〕和N〔網(wǎng)絡(luò)存儲(chǔ),應(yīng)用分布式文件系統(tǒng)構(gòu)建的網(wǎng)絡(luò)存儲(chǔ)系統(tǒng)更像是一個(gè)N提供類似于傳統(tǒng)NS的文件級(jí)訪問(wèn)接口〔N和DS都是塊設(shè)備級(jí)別的訪問(wèn)接口。分布式文件系統(tǒng)與傳統(tǒng)設(shè)備的比擬:比擬項(xiàng)高端分布式文件系統(tǒng)性能一般雙端口,性能受機(jī)頭影響,難以擴(kuò)展,出口帶寬是瓶頸一般雙端口,性能受機(jī)頭影響難以擴(kuò)展,較好性能隨節(jié)點(diǎn)數(shù)的增加成線性增長(zhǎng)擴(kuò)展能力性能及容量無(wú)法擴(kuò)展,或者有限擴(kuò)展能較好擴(kuò)展,但本錢高昂性能及容量按需擴(kuò)展,動(dòng)態(tài)均衡可用性方式保護(hù),雙機(jī)保護(hù)停機(jī)Debi時(shí)D方式保護(hù)雙機(jī)保護(hù),停機(jī)基于靈活的多副本機(jī)制,自動(dòng)檢測(cè)自動(dòng)故障恢復(fù),無(wú)需停機(jī)數(shù)據(jù)管理企業(yè)級(jí)功能需要單獨(dú)購(gòu)置企業(yè)級(jí)功能需要單獨(dú)購(gòu)置〔還需要單獨(dú)的文件系統(tǒng)100多萬(wàn)一套〕內(nèi)嵌多種企業(yè)級(jí)應(yīng)用:快照、鏡像、回收站本錢專有的硬件平臺(tái),軟件擁有本錢高,擴(kuò)展本錢高專有的硬件平臺(tái),軟件擁有本錢高,擴(kuò)展本錢高開(kāi)發(fā)通用的硬件平臺(tái),一體化的軟件,本錢低,擴(kuò)展本錢低可維護(hù)性專門的技術(shù)支持效勞,需要培訓(xùn)結(jié)構(gòu)異常復(fù)雜,需要大量培訓(xùn),廠商效勞昂貴內(nèi)嵌多種自動(dòng)化的故障檢測(cè)和恢復(fù)功能國(guó)內(nèi)開(kāi)發(fā),技術(shù)支持快速用戶使用分布式文件系統(tǒng)如同使用本地文件系統(tǒng)。所不同的是,傳統(tǒng)NAS通常以單一節(jié)點(diǎn)的方式實(shí)現(xiàn)容量和性能的擴(kuò)展能力有限易于成為性能瓶頸和單一故障點(diǎn)而分布式文件系統(tǒng)那么有多個(gè)節(jié)點(diǎn)集合地提供效勞由于其結(jié)構(gòu)特征,分布式文件系統(tǒng)的性能和容量均可在線線性擴(kuò)展并且系統(tǒng)內(nèi)不存在單一故障點(diǎn)。比照參看下面兩幅示意圖:傳統(tǒng)存儲(chǔ)架構(gòu)圖分布式文件系統(tǒng)架構(gòu)圖分布式文件系統(tǒng)的設(shè)計(jì)應(yīng)用特別適合海量非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)大量客戶端并發(fā)的密集型應(yīng)用。目前,分布式文件系統(tǒng)已經(jīng)被應(yīng)用于政府、醫(yī)療影像、勘查數(shù)據(jù)計(jì)算、視頻效勞以及動(dòng)畫制作等領(lǐng)域。這些領(lǐng)域的數(shù)據(jù)訪問(wèn)特征均為:的實(shí)際生產(chǎn)環(huán)境使用,分布式文件系統(tǒng)已被證明是該類型應(yīng)用的有效解決方案。布式文件系統(tǒng)的效勞器端程序運(yùn)行于Luxx4系統(tǒng)之上支持多種Lux位發(fā)行版,包括Redhat、CentOS等。分布式文件系統(tǒng)客戶端那么支持Linux和和NFS接口,可以兼容大多數(shù)應(yīng)用。分布式文件系統(tǒng)的核心技術(shù)及特征:擴(kuò)展性和高性能:分布式文件系統(tǒng)利用雙重特性來(lái)提供幾TB至數(shù)PB的高擴(kuò)展存儲(chǔ)解決方案cae-Out架構(gòu)允許通過(guò)簡(jiǎn)單地增加資源來(lái)提高存儲(chǔ)容量和性能,磁盤、計(jì)算和資源都可以獨(dú)立增加,支持和等高速網(wǎng)絡(luò)互聯(lián)。分布式文件系統(tǒng)彈性哈Hash〕解除了分布式文件系統(tǒng)對(duì)元數(shù)據(jù)效勞器的需求,消除了單點(diǎn)故障和性能瓶頸,真正實(shí)現(xiàn)了并行化數(shù)據(jù)訪問(wèn)。高可用性:分布式文件系統(tǒng)可以對(duì)文件進(jìn)行自動(dòng)復(fù)制,如鏡像或多次復(fù)制,從而確保數(shù)據(jù)總是可以訪問(wèn),甚至是在硬件故障的情況下也能正常訪問(wèn)。自我修復(fù)功能能夠把數(shù)據(jù)恢復(fù)到正確的狀態(tài),而且修復(fù)是以增量的方式在后臺(tái)執(zhí)行,幾乎不會(huì)產(chǎn)生性能負(fù)載。分布式文件系統(tǒng)沒(méi)有設(shè)計(jì)自己的私有數(shù)據(jù)文件格式,而是采用操作系統(tǒng)中主流標(biāo)準(zhǔn)的磁盤文件系統(tǒng)〔如數(shù)據(jù)可以使用各種標(biāo)準(zhǔn)工具進(jìn)行復(fù)制和訪問(wèn)。全局統(tǒng)一命名空間:全局統(tǒng)一命名空間將磁盤和內(nèi)存資源聚集成一個(gè)單一的虛擬存儲(chǔ)池,對(duì)上層用戶和應(yīng)用屏蔽了底層的物理硬件。存儲(chǔ)資源可以根據(jù)需要在虛擬存儲(chǔ)池中進(jìn)行彈性擴(kuò)展,比方擴(kuò)容或收縮。當(dāng)存儲(chǔ)虛擬機(jī)映像時(shí),存儲(chǔ)的虛擬映像文件沒(méi)有數(shù)量限制,成千虛擬機(jī)均通過(guò)單一掛載點(diǎn)進(jìn)行數(shù)據(jù)共享。虛擬機(jī)可在命名環(huán)境中經(jīng)常發(fā)生的訪問(wèn)熱點(diǎn)和性能瓶頸問(wèn)題。彈性哈希算法:分布式文件系統(tǒng)采用彈性哈希算法在存儲(chǔ)池中定位數(shù)據(jù),而不是采用集中式或分布式元數(shù)據(jù)效勞器索引。在其他的存儲(chǔ)系統(tǒng)中,元數(shù)據(jù)效勞器通常會(huì)導(dǎo)致性能瓶頸和單點(diǎn)故障問(wèn)題。分布式文件系統(tǒng)中,所有在存儲(chǔ)配置中的存儲(chǔ)系統(tǒng)都可以智能地定位任意數(shù)據(jù)分片,不需要查看索引或者向其他效勞器查詢。這種設(shè)計(jì)機(jī)制完全并行化了數(shù)據(jù)訪問(wèn),實(shí)現(xiàn)了真正的線性性能擴(kuò)展。 彈性卷管理:數(shù)據(jù)儲(chǔ)存在邏輯卷中,邏輯卷可以從虛擬化的物理存,不會(huì)導(dǎo)致應(yīng)用中斷。邏輯卷可以在所有配置效勞器中增長(zhǎng)和縮減,可以在不同效勞器遷移進(jìn)行容量均衡,或者增加和移除系統(tǒng),這些操作都可在線進(jìn)行。文件系統(tǒng)配置更改也可以實(shí)時(shí)在線進(jìn)行并應(yīng)用,從而可以適應(yīng)工作負(fù)載條件變化或在線性能調(diào)優(yōu)。完全軟件實(shí)現(xiàn)〔ftwareOy:分布式文件系統(tǒng)認(rèn)為存儲(chǔ)是軟件問(wèn)題,不能夠把用戶局限于使用特定的供給商或硬件配置來(lái)解決。分布式文件系統(tǒng)采用開(kāi)放式設(shè)計(jì),廣泛支持工業(yè)標(biāo)準(zhǔn)的存儲(chǔ)、網(wǎng)絡(luò)和計(jì)算機(jī)設(shè)備,而非與定制化的專用硬件設(shè)備捆綁。對(duì)于商業(yè)客戶,分布式文件系統(tǒng)可以以虛擬裝置的形式交付,也可以與虛擬機(jī)容器打包,或者是公有云中部署的映像。開(kāi)源社區(qū)中,分布式文件系統(tǒng)被大量部署在基于廉價(jià)閑置硬件的各種操作系統(tǒng)上,構(gòu)成集中統(tǒng)一的虛擬存儲(chǔ)資源池。簡(jiǎn)而言之,分布式文件系統(tǒng)是開(kāi)放的全軟件實(shí)現(xiàn),完全獨(dú)立于硬件和操作系統(tǒng)。布式文件系統(tǒng)不僅提供了一個(gè)分布式文件系統(tǒng),而且還提供了許多RAID和自我修復(fù)等。分布式文件系統(tǒng)汲取了微內(nèi)核架構(gòu)的經(jīng)驗(yàn)教訓(xùn),借鑒了GNU/Hurd操作系統(tǒng)的設(shè)計(jì)思想,在用戶空間實(shí)現(xiàn)了完整的存儲(chǔ)操作系統(tǒng)棧。用戶空間實(shí)〔Userace與傳統(tǒng)的文件系統(tǒng)不同分布式文件系統(tǒng)在用戶空間實(shí)現(xiàn),這使得其安裝和升級(jí)特別簡(jiǎn)便。模塊化堆棧式架〔Mduartacaberchtecture分布式文件系統(tǒng)采用模塊化、堆棧式的架構(gòu),可通過(guò)靈活的配置支持高度定制化的應(yīng)用環(huán)境,比方大文件存儲(chǔ)、海量小文件存儲(chǔ)、分布式文件系統(tǒng)、多傳輸協(xié)議應(yīng)用等。每個(gè)功能以模塊形式實(shí)現(xiàn),然后以積木方式進(jìn)行簡(jiǎn)單的組合,即可實(shí)現(xiàn)復(fù)雜的功能。比方,Replicate模塊可實(shí)現(xiàn)模塊可實(shí)現(xiàn)和原始數(shù)據(jù)格式存〔DatatrednNateFrmats分布式文件系統(tǒng)多種數(shù)據(jù)自動(dòng)修復(fù)機(jī)制。因此,系統(tǒng)極具彈性,即使離線情形下文件也可以通過(guò)其他標(biāo)準(zhǔn)工具進(jìn)行訪問(wèn)。如果用戶需要從分布式文件系統(tǒng)中遷移數(shù)據(jù),不需要作任何修改仍然可以完全使用這些數(shù)據(jù)。無(wú)元數(shù)據(jù)效勞設(shè)計(jì)〔NoMetadatawthteEastcashgrtm:對(duì)存儲(chǔ)系統(tǒng)而言,最大的挑戰(zhàn)之一就是記錄數(shù)據(jù)邏輯與物理位置的映像關(guān)系,即數(shù)據(jù)元數(shù)據(jù),可能還包括諸如屬性和訪問(wèn)權(quán)限等信息。傳統(tǒng)分布式存儲(chǔ)系統(tǒng)使用集中式或分布式元數(shù)據(jù)效勞來(lái)維護(hù)元數(shù)據(jù),集中式元數(shù)據(jù)效勞會(huì)導(dǎo)致單點(diǎn)故障和性能瓶頸問(wèn)題,而分布式元數(shù)據(jù)效勞存在性能負(fù)載和元數(shù)據(jù)同步一致性問(wèn)題。特別是對(duì)于海量小文件的應(yīng)用,元數(shù)據(jù)問(wèn)題是個(gè)非常大的挑戰(zhàn)。分布式文件系統(tǒng)獨(dú)特地采用無(wú)元數(shù)據(jù)效勞的設(shè)計(jì),取而代之使用算法來(lái)定位,效勞器都可以智能地對(duì)文件數(shù)據(jù)分片進(jìn)行定位,僅僅根據(jù)文件名和路徑并運(yùn)用算法即可,而不需要查詢索引或者其他效勞器。這使得數(shù)據(jù)訪問(wèn)完全并行化,從而實(shí)現(xiàn)真正的線性性能擴(kuò)展。無(wú)元數(shù)據(jù)效勞器極大提高了分布式文件系統(tǒng)的性能、可靠性和穩(wěn)定性。 基于標(biāo)準(zhǔn)協(xié)議分布式文件系統(tǒng)存儲(chǔ)效勞支持NF,F,,FTP以及分布式文件系統(tǒng)原生協(xié)議,完全與標(biāo)準(zhǔn)兼容。分布式文件系統(tǒng)技術(shù)及性能指標(biāo): 支持設(shè)備數(shù)量:最大百萬(wàn)臺(tái)以上 支持存儲(chǔ)容量:最大以上 客戶端的數(shù)量:最大支持上億并發(fā)網(wǎng)絡(luò)支持以太網(wǎng)GsGs/NFNBNDGsGs 文件副本數(shù)量:任意(缺省1份)協(xié)議:標(biāo)準(zhǔn) 支持文件數(shù)量:最大上億個(gè)文件 與HDFS的比擬比照項(xiàng)架構(gòu)類型帶元數(shù)據(jù)庫(kù)中心架構(gòu)全分布式去中心架構(gòu)存在方式分布式文件系統(tǒng)軟件,基于x86平臺(tái)使用方式標(biāo)準(zhǔn)協(xié)議〔應(yīng)用代碼與平臺(tái)無(wú)關(guān)性便于移植和維護(hù)〕系統(tǒng)可用性低高數(shù)據(jù)可用性復(fù)制類數(shù)據(jù)定位方式Hash同步方式異步同步負(fù)載均衡自動(dòng)自動(dòng)支持網(wǎng)絡(luò)千兆以太網(wǎng)網(wǎng)約約讀〔1*20GB〕〔萬(wàn)兆〕約125s約25s寫〔1*20GB〕〔萬(wàn)兆〕約200s約20s差距不大分布式并行計(jì)算技術(shù)概述并行計(jì)算技術(shù)真正將傳統(tǒng)運(yùn)算轉(zhuǎn)化為并行運(yùn)算從而更加充分的利用廣泛部署的普通計(jì)算資源實(shí)現(xiàn)大規(guī)模的運(yùn)算和應(yīng)用的目的在此根底上為第三方開(kāi)發(fā)者提供通用平臺(tái),為客戶提供并行效勞。這里主要為門戶網(wǎng)站提供作業(yè)調(diào)度平臺(tái),實(shí)現(xiàn)日志分析,性能優(yōu)化,全文檢索,視頻處理,用為分析等等的支撐平臺(tái)。用戶通過(guò)統(tǒng)一計(jì)算平臺(tái)把任務(wù)分派給系統(tǒng)內(nèi)的多個(gè)節(jié)點(diǎn)調(diào)度節(jié)點(diǎn)資源執(zhí)行任務(wù)發(fā)揮多核并行處理優(yōu)勢(shì)提升運(yùn)算效率充分運(yùn)用網(wǎng)絡(luò)內(nèi)的計(jì)算資源到達(dá)解決大規(guī)模計(jì)算問(wèn)題的目的。分布式并行計(jì)算架構(gòu)圖分布式并行計(jì)算架構(gòu)圖作業(yè)調(diào)度及計(jì)算過(guò)程分布式并行計(jì)算技術(shù)特點(diǎn) 池化資源管理利用池化技術(shù),任何一臺(tái)聯(lián)在互聯(lián)網(wǎng)上的普通PC機(jī)從硬件到軟件,可通過(guò)池化技術(shù)參加效勞器池中,等待任務(wù)分配,系統(tǒng)能充分利用現(xiàn)有效勞器資源,將所有運(yùn)算子任務(wù)分配給節(jié)點(diǎn)效勞器,有效防止計(jì)算資源閑置現(xiàn)象的發(fā)生。 無(wú)中心系統(tǒng)架構(gòu)在平臺(tái)管理下的單節(jié)點(diǎn)能力一致,使節(jié)點(diǎn)在部署上和使用上具備無(wú)差異性,任一節(jié)點(diǎn)功能可由其他節(jié)點(diǎn)替代或強(qiáng)化,可以最大程度確保平臺(tái)資源使用的靈活性以及在災(zāi)備環(huán)境下的可靠性系統(tǒng)架構(gòu)。 通道式工作機(jī)制平臺(tái)為用戶提供一個(gè)并行任務(wù)處理通道,處理過(guò)程對(duì)用戶來(lái)說(shuō)完全透明,由平臺(tái)自動(dòng)進(jìn)行負(fù)載均衡、資源匹配、任務(wù)傳輸?shù)龋褂脩魧W⒂谧陨砣蝿?wù)管理,將執(zhí)行過(guò)程交由平臺(tái)完成。D2B是一個(gè)具有高性能的高性能,可擴(kuò)展,無(wú)模式,面向文檔(dcumet-reted)的數(shù)據(jù)庫(kù)其內(nèi)存儲(chǔ)的是一種JON-e結(jié)構(gòu)化數(shù)據(jù)的分布式數(shù)據(jù)庫(kù)軟件尤其具有高擴(kuò)展性和高可靠性支持大表水平折分以及分區(qū)鏡像。提供內(nèi)存緩存數(shù)據(jù),所以數(shù)據(jù)存取速度非???,主要是由于它處理寫入的方式:它們存儲(chǔ)在內(nèi)存中,然后通過(guò)后臺(tái)線程寫入磁盤。的bjson比擬復(fù)雜的數(shù)據(jù)類型DB另外的最大的特點(diǎn)是他支持的查詢語(yǔ)言非常強(qiáng)大其語(yǔ)法有點(diǎn)類似于面向?qū)ο蟮牟樵冋Z(yǔ)言幾乎可以實(shí)現(xiàn)類似關(guān)系數(shù)據(jù)庫(kù)單表查詢的用,存儲(chǔ)數(shù)據(jù)非常方便。主要功能特性: 面向集合存儲(chǔ),易存儲(chǔ)對(duì)象類型的數(shù)據(jù)“面向集合〔oecto-Oreted意思是數(shù)據(jù)被分組存儲(chǔ)在數(shù)據(jù)集中被稱為一個(gè)集〔ecti)每個(gè)集合在數(shù)據(jù)庫(kù)中都有一個(gè)唯一〔RDBM里的〔tae不同的是它不需要定義任何模〔scema)。 模式自由模式自〔scema-free)意味著對(duì)于存儲(chǔ)在DB數(shù)據(jù)庫(kù)中的文件我們的文件存儲(chǔ)在同一個(gè)數(shù)據(jù)庫(kù)里。 自動(dòng)分片以支持云級(jí)別的伸縮性:自動(dòng)分片功能支持水平的數(shù)據(jù)庫(kù)集群,可動(dòng)態(tài)添加額外的機(jī)器。 支持動(dòng)態(tài)查詢 支持完全索引,包含內(nèi)部對(duì)象。 自動(dòng)處理碎片,以支持云計(jì)算層次的擴(kuò)展性。 可通過(guò)網(wǎng)絡(luò)訪問(wèn)可用于OSX、Linux?和的官方二進(jìn)制版本??捎糜贑、C#、C++、Haskell、Java?、JavaScript、Perl、PHP、Python、Ruby和Scala的官方驅(qū)動(dòng)程序,以及廣泛可用于其他語(yǔ)言的社區(qū)支持的驅(qū)動(dòng)程序。Ad-hocJavaScript查詢讓您能夠使用基于任何文檔屬性的任何條件來(lái)查找數(shù)據(jù)。這些查詢對(duì)應(yīng)于SQL查詢的功能,使SQL開(kāi)發(fā)人員能夠很直觀地編寫D2B查詢。 支持查詢中的正那么表達(dá)式。 D2B查詢結(jié)果存儲(chǔ)在提供過(guò)濾、聚合和排序等一系列功能的游標(biāo)中,包括limit()、skip()、sort()、count()、distinct()和group()等等高級(jí)特性。高級(jí)聚合的map/reduce實(shí)現(xiàn)。 類似于RDBMS的屬性索引支持,可以直接在文檔的選定屬性上創(chuàng)立索引。 使用提示、解釋方案和分析的查詢優(yōu)化特性。 類似于的主/從復(fù)制,支持復(fù)制和故障恢復(fù)。 基于集合的對(duì)象存儲(chǔ),在需要標(biāo)準(zhǔn)化數(shù)據(jù)時(shí)允許參考查詢。 通過(guò)自動(dòng)分片功能水平擴(kuò)展。 高性能無(wú)爭(zhēng)用并發(fā)機(jī)制的即時(shí)更新。D2B效勞端可運(yùn)行在或OSX平臺(tái),支持位應(yīng)用。推薦運(yùn)行在位平臺(tái),因?yàn)樵谖荒J竭\(yùn)行時(shí)支持的最大文件尺寸為2GB。分布式數(shù)據(jù)庫(kù)〔D2B〕集群例如圖D2B與關(guān)系型數(shù)據(jù)庫(kù)的邏輯結(jié)構(gòu)比照:D2B關(guān)系型數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)(database)數(shù)據(jù)庫(kù)(database)文檔(document)D2B的性能指標(biāo):10億約600GB以上〔與每條記錄大小有關(guān)系,這里的數(shù)據(jù):1Kb/條〕寫〔1億,無(wú)索引〕約15000-20000寫〔1億,有索引〕約10000寫〔1億:Replica+Sharding模式〕約6000-8000讀〔1億〕約讀〔1億〕8000-10000統(tǒng)計(jì)一個(gè)值〔10億〕<3s〔復(fù)雜查詢〕最大節(jié)點(diǎn)數(shù)量>1024〔理論上〕Xeon2路16核心,256GB內(nèi)存,15k12的架構(gòu)模式:Replica+Sharding。負(fù)載均衡1)開(kāi)源負(fù)載均衡軟件比擬Server〕可以實(shí)提供虛擬效勞器軟件S基于內(nèi)容請(qǐng)求分發(fā)的內(nèi)核yer-交換機(jī)We效勞軟件及反向代理軟件于〔第七層〕應(yīng)用代理效勞器在國(guó)內(nèi)大型的互聯(lián)網(wǎng)公司都有使用。HAProxy是一款提供高可用性的七層應(yīng)用的代理軟件在國(guó)內(nèi)大型的互聯(lián)網(wǎng)公司都有使用??关?fù)載能力強(qiáng)是工作在網(wǎng)絡(luò)4層之上僅作分發(fā)之用沒(méi)有流量的產(chǎn)生這個(gè)特點(diǎn)也決定了它在負(fù)載均衡軟件里的性能最強(qiáng)的;也是一個(gè)優(yōu)點(diǎn)因?yàn)闆](méi)有可太多配置的東西,所以并不需要太多接觸,大大減少了人為出錯(cuò)的幾率;能不會(huì)收到大流量的影響;能做動(dòng)靜別離;工作在網(wǎng)絡(luò)的層之上可以針如針對(duì)域名目錄結(jié)構(gòu)它的正那么N對(duì)網(wǎng)絡(luò)的依賴非常小理能;單;可以承當(dāng)高的負(fù)載壓力且穩(wěn)定,一般能支撐超過(guò)幾萬(wàn)次的并發(fā)量;N可以通過(guò)端口檢測(cè)到效勞器內(nèi)部的故障,不支持url來(lái)檢測(cè);存器;能夠補(bǔ)充N的一些缺點(diǎn)比方作;功能;是一款負(fù)載均衡軟件單純從效率出色,在并發(fā)處理上也是優(yōu)于較簡(jiǎn)單;可以承當(dāng)高的負(fù)載壓力且穩(wěn)定,一般能支撐超過(guò)幾萬(wàn)次的并發(fā)量;建議用載均衡使用。究竟選擇Nginx還是HAProxy要看團(tuán)隊(duì)對(duì)這兩種軟件的熟悉程度,越熟悉,就能容易掌控,減少風(fēng)險(xiǎn),我們團(tuán)隊(duì)對(duì)Nginx非常熟悉,所以,這里我們推薦用Nginx作為軟件的反向代理工具。數(shù)據(jù)采集概述數(shù)據(jù)采集功能主要完成海量數(shù)采集上傳。數(shù)據(jù)采集的來(lái)源有:、企業(yè)網(wǎng)站、百度、谷歌等。根據(jù)特定的數(shù)據(jù)源,不同應(yīng)用,不同類型的數(shù)據(jù)進(jìn)行收集,并提供統(tǒng)一的數(shù)據(jù)采集方式,方便后臺(tái)數(shù)據(jù)集成、數(shù)據(jù)存儲(chǔ)。數(shù)據(jù)采集結(jié)構(gòu)圖:數(shù)據(jù)采集主要是由采集效勞器,通過(guò)協(xié)議和技術(shù)把數(shù)據(jù)上傳并緩存在EB及消息效勞器上EB及消息效勞器可以緩存一周的數(shù)據(jù)上傳式并最終入庫(kù)存儲(chǔ)臺(tái)標(biāo)等非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)在分布式文件系〔DF中,或者行為等結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)在分布式數(shù)據(jù)庫(kù)〔MongonDB〕中。參見(jiàn)如下數(shù)據(jù)采集/存儲(chǔ)流程圖:DMQ是一個(gè)分布式的消息效勞平臺(tái),提供的功能包括:配置維護(hù)、名字服務(wù)分布式同步組效勞等能提供一種高性能可靠的可擴(kuò)展的分布式的、可配置關(guān)鍵特性,DMQ的核心技術(shù)特點(diǎn):大容量堆內(nèi)存和高可用性:假設(shè)你有臺(tái)效勞器,并且每個(gè)節(jié)點(diǎn)有2GB某臺(tái)效勞器崩潰了,網(wǎng)格只需要簡(jiǎn)單地創(chuàng)立一份喪失數(shù)據(jù)的新副本,并將它們放到另一臺(tái)效勞器上應(yīng)用也無(wú)需再借助于一個(gè)巨大的獨(dú)立數(shù)據(jù)庫(kù)來(lái)獲取數(shù)據(jù)以追求最大性能的-這是80%以上的企業(yè)應(yīng)用中的瓶頸所在! 擴(kuò)展性:由于數(shù)據(jù)是均勻分布的,所以除了考慮到網(wǎng)絡(luò)上的組通訊,根本就沒(méi)有必要來(lái)限制網(wǎng)格的大小網(wǎng)絡(luò)上的組通訊只要能夠發(fā)現(xiàn)一個(gè)新的節(jié)點(diǎn)即可.所有的數(shù)據(jù)獲取方式都是通過(guò)點(diǎn)對(duì)點(diǎn)通信,即節(jié)點(diǎn)之間直接進(jìn)行通信非常容易控制。DMQ的增加或者減少不需要關(guān)閉整個(gè)效勞。簡(jiǎn)單的添加刪除集群中的機(jī)器不會(huì)引發(fā)任何效勞中斷。 數(shù)據(jù)分布DMQ使用一致性哈希算法來(lái)決定集群中鍵值的存儲(chǔ)位置。一致性哈希算法本錢低速度快并且最重要的是不需要額外的元數(shù)據(jù)或者網(wǎng)絡(luò)通信就能確定鍵值的位置。數(shù)據(jù)分布的目的是為了在集群環(huán)境下保持足夠的狀態(tài)副本以使其具備可持續(xù)性和容錯(cuò)性但是又不會(huì)有過(guò)多的副本而阻礙DMQ的可擴(kuò)展性。 原子性一個(gè)Udate操作不是成功就是失敗不會(huì)有第三種狀態(tài)出現(xiàn)。順序性:在一個(gè)DMQ效勞器上的消息a在消息b之前發(fā)布,那么在所有的DMQ效勞器上的消息a都會(huì)在消息b之前被發(fā)布,DMQ會(huì)保持一致順序。 實(shí)時(shí)性對(duì)于每個(gè)etDMQ集群中的所有效勞器都會(huì)保持實(shí)時(shí)更新制度,使得所有的效勞視圖都會(huì)是最新的。 無(wú)論連接到集群中的哪一個(gè)DMQ集群節(jié)點(diǎn)效勞,都是得到同樣的鏡像視圖。 可靠性:數(shù)據(jù)在內(nèi)存中緩存了2成數(shù)據(jù)的喪失。分布式消息管理架構(gòu)圖:MPSMPS2MPS4MPS6MPS8MPS10統(tǒng)一的數(shù)據(jù)視圖心跳/同步Server1【備】〔數(shù)據(jù)〕Server2【主】〔數(shù)據(jù)〕Server3【備】〔數(shù)據(jù)〕Server4【備】〔數(shù)據(jù)〕數(shù)據(jù)網(wǎng)〔電信、移動(dòng)、聯(lián)通〕智能終端智能終端智能終端智能終端智能終端智能終端智能終端智能終端DMQ有以下幾種關(guān)鍵較色,每類較色的職責(zé)如下表格描述?角色名稱職責(zé)就是DMQ集群的老大,它不接受Client的請(qǐng)求,是管理其他DMQ效勞的,只負(fù)責(zé)進(jìn)行投票的發(fā)起和決議,最終更新?tīng)顟B(tài).追隨者(Follower)發(fā)起的投票,向下是面向客戶端的交互,用于接收客戶端的請(qǐng)求和反饋客戶端的結(jié)果。參與領(lǐng)導(dǎo)者〔Leader〕發(fā)起的投票。觀察者(Observer)觀察者可以接收客戶端連接,將寫請(qǐng)求轉(zhuǎn)發(fā)給領(lǐng)導(dǎo)者〔Leader〕節(jié)點(diǎn)。但是Observer不參加投票過(guò)程,只是同步領(lǐng)導(dǎo)者〔Leader〕的狀態(tài)。Observer為系統(tǒng)擴(kuò)展提供了一種方法。DMQ的核心是原子播送這個(gè)機(jī)制保證了各個(gè)erer之間的同步有兩種模式,它們分別是恢復(fù)模式和播送模式?;謴?fù)模式:一般是在效勞剛啟動(dòng)或者在領(lǐng)導(dǎo)者〔Leader〕崩潰后,開(kāi)始進(jìn)入恢復(fù)模式此時(shí)先就會(huì)開(kāi)始選舉領(lǐng)導(dǎo)〔Leader當(dāng)領(lǐng)導(dǎo)〔Leader被選舉出后,恢復(fù)模式就結(jié)束了。進(jìn)行了狀態(tài)同步以后,他就可以開(kāi)始播送消息了,即進(jìn)入播送狀態(tài)。分布式消息數(shù)據(jù)架構(gòu)圖:上圖的M〔Messagesaager消息數(shù)據(jù)管理者通過(guò)嵌入式sql內(nèi)核完成上百萬(wàn)并發(fā)量的緩存數(shù)據(jù)來(lái)提供異步發(fā)布和訂閱。應(yīng)用程序通過(guò)JDBC/REST/Memcached等符合業(yè)界標(biāo)準(zhǔn)接口完成集群中的消息緩存數(shù)據(jù)的操作,集群成員之間也通過(guò)該接口完成成員之間的數(shù)據(jù)同步,狀探測(cè)步。典型分布式消息平臺(tái)比擬:由于常見(jiàn)的RabbitMQ、ActiveMQ和ZeroMQ消息中間件不具備分布式功能,所以不在比擬之列。數(shù)據(jù)采集中心面對(duì)的是高并發(fā)海量數(shù)據(jù)上傳,所以分布式消息平臺(tái)必須在‘?dāng)?shù)據(jù)接收數(shù)據(jù)緩存數(shù)據(jù)發(fā)布’整個(gè)過(guò)程保證數(shù)據(jù)的高性能吞吐、高可靠性、高擴(kuò)展性、可維護(hù)性等屬性。

3大數(shù)據(jù)計(jì)算平臺(tái)需求概述根據(jù)應(yīng)用,這個(gè)工程數(shù)據(jù)量30T,企業(yè)數(shù)據(jù)量非常大,需要大量并發(fā),網(wǎng)絡(luò)爬蟲爬取的企業(yè)數(shù)據(jù)信息存儲(chǔ)在數(shù)據(jù)中心此數(shù)據(jù)量跟企業(yè)記錄相關(guān)。同時(shí)需要對(duì)清洗后的記錄和計(jì)算好的推薦結(jié)果進(jìn)行存儲(chǔ)但是這些數(shù)據(jù)不放在數(shù)據(jù)中心此工程之后會(huì)做成實(shí)時(shí)計(jì)算需要用到流式計(jì)算的相關(guān)計(jì)算和調(diào)度。計(jì)算量很大,可以多部署DCS進(jìn)程,提高計(jì)算并發(fā)度,作業(yè)調(diào)度也要采用分部署調(diào)度架構(gòu)??傮w設(shè)計(jì)云數(shù)據(jù)采集中心與大數(shù)據(jù)計(jì)算平臺(tái)的關(guān)系是云數(shù)據(jù)采集中心提供存儲(chǔ)和計(jì)算資源通過(guò)PI的方式訪問(wèn)資源大數(shù)據(jù)計(jì)算平臺(tái)主要實(shí)現(xiàn)核心算法包括圖像匹配算法,挖掘算法,智能推薦算法,知識(shí)學(xué)習(xí)算法等等,也能夠通過(guò)API的方式建立統(tǒng)計(jì)應(yīng)用智能推薦應(yīng)用等等大數(shù)據(jù)計(jì)算平臺(tái)的需要的數(shù)據(jù)包括網(wǎng)上實(shí)時(shí)爬取得二次計(jì)算分析而獲取的等等都通過(guò)通用接口存儲(chǔ)在云數(shù)據(jù)采集中心的分布式存儲(chǔ)平臺(tái)〔分布式文件系統(tǒng)〔DF、分布式數(shù)據(jù)庫(kù)〔DB計(jì)算時(shí)候,通過(guò)接口發(fā)起作業(yè),由云數(shù)據(jù)采集中心的作業(yè)調(diào)度效勞進(jìn)〔J負(fù)責(zé)調(diào)度由數(shù)據(jù)計(jì)算效勞進(jìn)〔D〕負(fù)責(zé)計(jì)算處理并把結(jié)果反應(yīng)給大數(shù)據(jù)計(jì)算平臺(tái)的各個(gè)應(yīng)用根據(jù)2小節(jié)對(duì)DFS分布式文件系統(tǒng)的詳細(xì)介紹本章節(jié)就不重復(fù)表達(dá),由于要增加新的存儲(chǔ)設(shè)備,對(duì)于新設(shè)備上安裝分布式文件系統(tǒng)是否繼續(xù)選用還是HDFS,我們需要答復(fù)以下幾個(gè)問(wèn)題:第一,預(yù)算增加及擴(kuò)展問(wèn)題要部署DF還得單獨(dú)購(gòu)置兩臺(tái)高性能設(shè)備作為DFS的元數(shù)據(jù)庫(kù)效勞〔注兩臺(tái)設(shè)備構(gòu)成主備配置不能比我們現(xiàn)在選擇的設(shè)備配置差,不然就會(huì)成為瓶頸,如果差了,數(shù)據(jù)節(jié)點(diǎn)就擴(kuò)展不了幾臺(tái)第二,學(xué)習(xí)本錢及進(jìn)度問(wèn)題:要使用HDFS,必須熟悉它的帶來(lái)的整個(gè)DFS集群部署維護(hù)等工作這個(gè)與可利用的團(tuán)隊(duì)資源相提供標(biāo)準(zhǔn)的協(xié)議接口,應(yīng)用程序代碼不需作任么統(tǒng)一接口的底層必須要寫兩種代碼第一是對(duì)面DF第二是面對(duì)HDFS。新增加了開(kāi)發(fā)、維護(hù)、測(cè)試的時(shí)間。第三,空間浪費(fèi)及孤島問(wèn)題:S2DFS與HDFS是兩套不同體系的文件系統(tǒng),他們之間設(shè)備及存儲(chǔ)空間是不能共用的后面增加的6臺(tái),設(shè)備存儲(chǔ)與前面部署的0臺(tái)設(shè)備通過(guò)對(duì)原始數(shù)據(jù)處理壓縮后,存儲(chǔ)空間還有多余。二者構(gòu)成了孤島,同時(shí)造成空間浪費(fèi)。第四,應(yīng)用場(chǎng)景問(wèn)題DFS對(duì)存儲(chǔ)網(wǎng)頁(yè)等文件比擬友好畢竟它的基因就。數(shù)據(jù)模型設(shè)計(jì)數(shù)據(jù)模型主要主企業(yè)數(shù)據(jù)模型與投資商數(shù)據(jù)模型兩個(gè)局部。企業(yè)數(shù)據(jù)模型字段名備注name公司名稱econ_kind企業(yè)類型regist_capi注冊(cè)資本scope經(jīng)營(yíng)范圍term_start營(yíng)業(yè)開(kāi)始日期term_end營(yíng)業(yè)結(jié)束日期belong_org所屬工商局oper_name法人start_date成立日期status在業(yè)employees.job_title主要人員職位employees.sex主要人員性別主要人員姓名分支機(jī)構(gòu)名稱changerecords.change_item變更工程changerecords.change_date變更日期changerecords.before_content變更前內(nèi)容changerecords.after_content變更后內(nèi)容partners.stock_name股東姓名partners.stock_type股東類型partners.identify_type證照/證件類型partners.identify_no證照/證件號(hào)碼partners.should_capi_items.shoud_capi認(rèn)繳出資額partners.should_capi_items.invest_type出資方式partners.should_capi_items.should_capi_date出資時(shí)間partners.real_capi_items.real_capi實(shí)繳出資額partners.real_capi_items.invest_type出資方式partners.real_capi_items.real_capi_date實(shí)繳時(shí)間投資商數(shù)據(jù)模型字段名備注name投資商名稱econ_kind企業(yè)類型regist_capi注冊(cè)資本scope經(jīng)營(yíng)范圍term_start營(yíng)業(yè)開(kāi)始日期term_end營(yíng)業(yè)結(jié)束日期belong_org所屬工商局oper_name法人start_date成立日期status在業(yè)employees.job_title主要人員職位employees.sex主要人員性別主要人員姓名分支機(jī)構(gòu)名稱changerecords.change_item變更工程changerecords.change_date變更日期changerecords.before_content變更前內(nèi)容changerecords.after_content變更后內(nèi)容partners.stock_name股東姓名partners.stock_type股東類型partners.identify_type證照/證件類型partners.identify_no證照/證件號(hào)碼partners.should_capi_items.shoud_capi認(rèn)繳出資額partners.should_capi_items.invest_type出資方式partners.should_capi_items.should_capi_date出資時(shí)間partners.real_capi_items.real_capi實(shí)繳出資額partners.real_capi_items.invest_type出資方式partners.real_capi_items.real_capi_date實(shí)繳時(shí)間Investment_industry投資行業(yè)investment投資金額

4數(shù)據(jù)運(yùn)營(yíng)4.1數(shù)據(jù)挖掘分析行業(yè)數(shù)據(jù)挖掘分析普遍采用CRISP-DM方法論。CRISP-DM將一個(gè)數(shù)據(jù)挖掘工程的生命周期定義為六個(gè)階段:業(yè)務(wù)理解〔也稱為商業(yè)理解〕、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建立模型、模型評(píng)估、模型發(fā)布。1.業(yè)務(wù)理解:從業(yè)務(wù)的角度理解工程目標(biāo)和需求,然后將這種需求轉(zhuǎn)換成一種數(shù)據(jù)挖掘的問(wèn)題定義,并設(shè)計(jì)出到達(dá)目標(biāo)的一個(gè)初步方案。2.數(shù)據(jù)理解:收集初始數(shù)據(jù),識(shí)別數(shù)據(jù)的質(zhì)量問(wèn)題,找到對(duì)數(shù)據(jù)的根本觀察、或假設(shè)隱含的信息來(lái)監(jiān)測(cè)出感興趣的數(shù)據(jù)子集。3.數(shù)據(jù)準(zhǔn)備:對(duì)可用的原始數(shù)據(jù)進(jìn)行一系列的組織以及清洗,使之到達(dá)建模需求。4.建立模型:選擇各種建模技術(shù),并將其參數(shù)校正到優(yōu)化值。常常要退回到數(shù)據(jù)準(zhǔn)備階段。5.模型評(píng)估:對(duì)建立的模型進(jìn)行評(píng)估,重點(diǎn)具體考慮得出的結(jié)果是否符合第一步的商業(yè)目的。6.模型發(fā)布:將發(fā)現(xiàn)的結(jié)果進(jìn)行總結(jié)與應(yīng)用。4.2數(shù)據(jù)分析處理的主要工作首先,是數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市的建立,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。數(shù)據(jù)分析處理以企業(yè)經(jīng)營(yíng)管理需求為根底,根據(jù)不同分析主題,從企業(yè)許多來(lái)自不同的運(yùn)作系統(tǒng)的數(shù)據(jù)中提取出有用的數(shù)據(jù),以保證數(shù)據(jù)的正確性,然后經(jīng)過(guò)抽取、轉(zhuǎn)換和裝載,即ETL過(guò)程,合并到一個(gè)企業(yè)級(jí)的數(shù)據(jù)倉(cāng)庫(kù)里,得到企業(yè)數(shù)據(jù)的一個(gè)全局視圖。其次,是聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘,進(jìn)而將數(shù)據(jù)轉(zhuǎn)化為信息和知識(shí)。聯(lián)機(jī)分析處理是在數(shù)據(jù)倉(cāng)庫(kù)的根底上,對(duì)商業(yè)問(wèn)題進(jìn)行建模和數(shù)據(jù)進(jìn)行多維分析。而數(shù)據(jù)挖掘通過(guò)分析每個(gè)數(shù)據(jù),從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù)。即使用諸如神經(jīng)網(wǎng)絡(luò)、規(guī)那么歸納等技術(shù),用來(lái)發(fā)現(xiàn)數(shù)據(jù)間的聯(lián)系,做出基于數(shù)據(jù)的推斷。通過(guò)聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘,決策人員和高層管理能從多維角度準(zhǔn)確掌控企業(yè)的經(jīng)營(yíng)狀況和了解不同數(shù)據(jù)之間的相關(guān)關(guān)系,以便制定正確的決策。最后,是知識(shí)結(jié)論的可視化展示,實(shí)現(xiàn)知識(shí)向智慧轉(zhuǎn)變。通過(guò)借助信息化系統(tǒng),以簡(jiǎn)單、豐富和直觀的形式,將查詢報(bào)表、統(tǒng)計(jì)分析、多維聯(lián)機(jī)分析和數(shù)據(jù)開(kāi)掘的結(jié)論展現(xiàn)企業(yè)管理者和決策者的面前。而隨著管理者對(duì)知識(shí)的不斷積累和更新,會(huì)進(jìn)一步將知識(shí)轉(zhuǎn)化為企業(yè)管理者的智慧。最終成果為:根據(jù)招商大數(shù)據(jù)平臺(tái)數(shù)據(jù)運(yùn)營(yíng)標(biāo)準(zhǔn)相關(guān)要求至少進(jìn)行三個(gè)月的數(shù)據(jù)運(yùn)營(yíng)效勞,并提供數(shù)據(jù)運(yùn)營(yíng)報(bào)告。驗(yàn)證數(shù)據(jù)運(yùn)營(yíng)標(biāo)準(zhǔn)的流程、優(yōu)化數(shù)據(jù)模板,并形成特定的數(shù)據(jù)運(yùn)營(yíng)操作指南。4.3數(shù)據(jù)分析團(tuán)隊(duì)組織和管理 數(shù)據(jù)分析團(tuán)隊(duì)負(fù)責(zé)開(kāi)展數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)管理和數(shù)據(jù)綜合分析等工作。分析專家做的是預(yù)測(cè)建模、數(shù)據(jù)挖掘以及其他一些高級(jí)分析工作,而不是像定制報(bào)表和電子表格這樣程序化的工作。他們解決問(wèn)題的環(huán)境,使用的方法,甚至需要參加的各類培訓(xùn)都有很大的不同。因此在數(shù)據(jù)分析團(tuán)隊(duì)建設(shè)和組織管理上有其非常特殊的要求。1、數(shù)據(jù)分析團(tuán)隊(duì)建設(shè)〔一〕合理組建數(shù)據(jù)分析團(tuán)隊(duì)。整合客服中心人才資源,組建數(shù)據(jù)分析團(tuán)隊(duì),負(fù)責(zé)開(kāi)展數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)管理和數(shù)據(jù)綜合分析等工作?!捕硰?qiáng)調(diào)共同價(jià)值表達(dá)。數(shù)據(jù)分析團(tuán)隊(duì)成員在目標(biāo)、到達(dá)這些目標(biāo)的路徑和所需的合作上要努力達(dá)成一致,這樣可以增強(qiáng)團(tuán)隊(duì)的認(rèn)同感。強(qiáng)調(diào)數(shù)據(jù)分析團(tuán)隊(duì)的整體利益,確定共同的目標(biāo),鼓勵(lì)分析團(tuán)隊(duì)共享信息和思想,互相幫助實(shí)現(xiàn)共同目標(biāo)。〔三〕引入過(guò)程分析會(huì)議。過(guò)程分析會(huì)議是數(shù)據(jù)分析團(tuán)隊(duì)內(nèi)部充分討論的平臺(tái),通過(guò)過(guò)程分析會(huì)議,增強(qiáng)彼此的溝通,要求每個(gè)數(shù)據(jù)分析人員都提出實(shí)現(xiàn)共同目標(biāo)的方法、思路。〔四〕鼓勵(lì)和促進(jìn)團(tuán)隊(duì)內(nèi)部相互交流。提供數(shù)據(jù)分析團(tuán)隊(duì)的定期交流時(shí)機(jī),鼓勵(lì)每個(gè)數(shù)據(jù)分析人員在完成某個(gè)大數(shù)據(jù)挖掘分析課題后,進(jìn)行充分的交流與總結(jié),增強(qiáng)數(shù)據(jù)分析團(tuán)隊(duì)能力與水平,提煉數(shù)據(jù)分析經(jīng)驗(yàn)?!参濉彻_(kāi)數(shù)據(jù)挖掘分析成果形成鼓勵(lì)。及時(shí)將數(shù)據(jù)分析分析團(tuán)隊(duì)的應(yīng)用情況向辦內(nèi)發(fā)布,使數(shù)據(jù)分析分析團(tuán)隊(duì)成員增強(qiáng)使感。2、團(tuán)隊(duì)組織建設(shè)〔一〕為分析團(tuán)隊(duì)樹立典范。要讓數(shù)據(jù)分析團(tuán)隊(duì)發(fā)揮作用,首先是要在團(tuán)隊(duì)中突出一個(gè)或多個(gè)優(yōu)秀的團(tuán)隊(duì)成員,成為數(shù)據(jù)分析團(tuán)隊(duì)成員的表率,將優(yōu)良的工作作風(fēng)帶入團(tuán)隊(duì)中,影響團(tuán)隊(duì)中的每一位成員?!捕硞魇诮?jīng)驗(yàn)培養(yǎng)團(tuán)隊(duì)精英。要在數(shù)據(jù)分析團(tuán)隊(duì)中做好培訓(xùn)、培養(yǎng)工作,把數(shù)據(jù)分析思路的形成方法傳授給團(tuán)隊(duì)成員,團(tuán)隊(duì)組織要培養(yǎng)團(tuán)隊(duì)精英,發(fā)揮團(tuán)隊(duì)精英的作用,成為團(tuán)隊(duì)的主力?!踩踌`活授權(quán)。隨著數(shù)據(jù)分析團(tuán)隊(duì)的逐漸形成與開(kāi)展,團(tuán)隊(duì)組織要通過(guò)合理授權(quán)讓團(tuán)隊(duì)成員分擔(dān)責(zé)任,使團(tuán)隊(duì)成員更多的參與團(tuán)隊(duì)工作中,允許團(tuán)隊(duì)成員靈活的開(kāi)展工作,給予團(tuán)隊(duì)成員信任,讓他們更積極的為開(kāi)展挖掘數(shù)據(jù)價(jià)值效勞,也給予團(tuán)隊(duì)成員學(xué)習(xí)與成長(zhǎng)空間,實(shí)現(xiàn)團(tuán)隊(duì)成員自我價(jià)值的表達(dá)?!菜摹嘲l(fā)揮團(tuán)隊(duì)凝聚力。數(shù)據(jù)分析團(tuán)隊(duì)的凝聚力是團(tuán)隊(duì)精神的表達(dá),高凝聚力會(huì)帶來(lái)高績(jī)效。團(tuán)隊(duì)組織要讓團(tuán)隊(duì)成員形成共同目標(biāo),并且增強(qiáng)團(tuán)隊(duì)的融合度,形成高昂的團(tuán)隊(duì)士氣,提高團(tuán)隊(duì)績(jī)效。〔五〕形成有效的團(tuán)隊(duì)指揮。數(shù)據(jù)分析團(tuán)隊(duì)的成員在工作不可防止的會(huì)出現(xiàn)各種無(wú)法應(yīng)付的問(wèn)題,團(tuán)隊(duì)組織的管理者,最重要的職責(zé)就是做好指揮工作,要和團(tuán)隊(duì)成員形成良好的溝通,及時(shí)了解團(tuán)隊(duì)成員面臨的問(wèn)題,團(tuán)隊(duì)管理者通過(guò)個(gè)人的工作經(jīng)驗(yàn)、閱歷,以及與相關(guān)部門或上級(jí)的溝通給出良好的解決方案,處理好團(tuán)隊(duì)工作問(wèn)題。

5平安設(shè)計(jì)云數(shù)據(jù)采集中心的平安分為兩大局部一個(gè)是應(yīng)用數(shù)據(jù)的平安一個(gè)是平臺(tái)運(yùn)行的平安。如果租用成熟的DC機(jī)房那么機(jī)房本身的平安就可以不管防火安防,門禁等統(tǒng)統(tǒng)可以忽略,外接的路由器和防火墻也可以不采購(gòu)。平臺(tái)平安平臺(tái)本身的運(yùn)行平安我們采用分布式集群技術(shù)完成每個(gè)業(yè)務(wù)處理群都是以集群方式存在,保證冗余度,每個(gè)集群中效勞進(jìn)程都是主/主、主/備方式運(yùn)行,承載設(shè)備都保證在2臺(tái)以上。按照此設(shè)計(jì)思路,方案劃分了存儲(chǔ)/計(jì)算效勞器集群〔共8臺(tái)設(shè)備、EB/消息效勞器集群〔共4臺(tái)設(shè)備、應(yīng)用數(shù)據(jù)效勞器集群〔共兩臺(tái)設(shè)備負(fù)載均衡效勞器集〔共2臺(tái)設(shè)備專門的數(shù)據(jù)備份效勞器設(shè)備。數(shù)據(jù)平安應(yīng)用數(shù)據(jù)的平安采用實(shí)時(shí)或者定時(shí)備份方式完成備份設(shè)備可以在一定時(shí)期內(nèi)把數(shù)據(jù)備份到專門的數(shù)據(jù)備份效勞器上試實(shí)際情況而定也可以采用己構(gòu)建平臺(tái),把數(shù)據(jù)同步到綿陽(yáng)或者其他地方的數(shù)據(jù)中心中同樣以分布式文件系統(tǒng)先期方案我們建議把數(shù)據(jù)備份到數(shù)據(jù)備份效勞器上,存儲(chǔ)在分布式文件系統(tǒng)〔S2DFS〕由于數(shù)據(jù)量大,容量大,不建議再做備份,因?yàn)榉植际轿募到y(tǒng)〔S2DFS〕可以建立RAID1架構(gòu)模式。我們會(huì)把分布式數(shù)據(jù)庫(kù)〔D2B〕除了架構(gòu)構(gòu)建為Master-Slave、ReplicaSets模式外,另外通過(guò)BackUp/Restore工具完成數(shù)據(jù)備份及恢復(fù),第一次完成冷備份,后面我們就可以通過(guò)增量備份方式完成。參考下面的備份及恢復(fù)架構(gòu):備份策略一個(gè)好的備份恢復(fù)系統(tǒng)除了配備有好的軟硬件之外更需要有良好的備份策略進(jìn)行保證對(duì)于備份系統(tǒng)必須根據(jù)各種應(yīng)用和業(yè)務(wù)的處理類型來(lái)分別制定具體的備份策略。對(duì)于備份系統(tǒng)備份策略的規(guī)劃,建議按照以下流程進(jìn)行:備份任務(wù)指定專用的介質(zhì)集;劃定可以進(jìn)行數(shù)據(jù)備份的時(shí)段。份方式時(shí)要在業(yè)務(wù)系統(tǒng)性能需求許可的情況下最大程度的降低數(shù)據(jù)恢復(fù)時(shí)的復(fù)雜程度。建議:對(duì)于數(shù)據(jù)量較大的系統(tǒng)為降低數(shù)據(jù)備份對(duì)業(yè)務(wù)系統(tǒng)運(yùn)行的影響減少對(duì)備份介質(zhì)的需求,可采用全備份+增量備份的方式進(jìn)行,建議每周進(jìn)行一次全備,一周內(nèi)其他時(shí)間每天進(jìn)行一次增量備份;對(duì)于數(shù)據(jù)量較小的備份任務(wù)或較為關(guān)鍵的業(yè)務(wù)那么建議每天進(jìn)行一次全備份,以降低恢復(fù)時(shí)的復(fù)雜程度;在每次業(yè)務(wù)數(shù)據(jù)做大調(diào)整后應(yīng)立即做一次全備份;對(duì)于相關(guān)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)為保證數(shù)據(jù)一致性盡量安排在同一天進(jìn)行備份;首先保證關(guān)鍵業(yè)務(wù)的數(shù)據(jù)備份;盡量使備份數(shù)量在一周內(nèi)的每天平均分布,可以采用大小數(shù)據(jù)量相搭配,或關(guān)鍵業(yè)務(wù)與非關(guān)鍵業(yè)務(wù)相搭配等方式進(jìn)行;置應(yīng)以保證每一次全備份完成以前,都有可用介質(zhì)供數(shù)據(jù)恢復(fù)使用為準(zhǔn)。下表給出了一個(gè)備份策略定制的例如:星期一星期二星期三星期四星期五星期六星期日備份任務(wù)組一FIIIIII備份任務(wù)組二IFIIIII備份任務(wù)組三IIFIIII備份任務(wù)組四IIIFIII備份任務(wù)組五IIIIFII備份任務(wù)組六IIIIIFI備份任務(wù)組七IIIIIIF……體策略根據(jù)用戶的要求來(lái)定。

6風(fēng)險(xiǎn)分析序號(hào)風(fēng)險(xiǎn)內(nèi)容嚴(yán)重程度應(yīng)對(duì)方法1.能否在公司規(guī)定的較短時(shí)間內(nèi)完成公司這次要求建設(shè)的內(nèi)容aaS平臺(tái)建設(shè)包括軟件硬件平臺(tái)的構(gòu)建?高采用成熟的經(jīng)過(guò)驗(yàn)證的方案,包括在生產(chǎn)環(huán)境中已經(jīng)驗(yàn)證的核心軟件平臺(tái)。2.負(fù)責(zé)該工程的設(shè)計(jì)和實(shí)施的團(tuán)隊(duì)是否能夠很快的掌握涉及到的核心技術(shù)〔分布式文件系統(tǒng)、分布式數(shù)據(jù)庫(kù)、作業(yè)調(diào)度及并行計(jì)算等等〕?高與熟悉這些核心技術(shù)的團(tuán)隊(duì)合作,保證在公司規(guī)定的期限內(nèi)完成該工程。

7部署方案1. 軟件配置表序號(hào)名稱配置描述部署硬件效勞器數(shù)量用途分布式文件系統(tǒng)存儲(chǔ)及計(jì)算效勞器用來(lái)存儲(chǔ)非結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù),文檔等富媒體文件JSS作業(yè)調(diào)度效勞進(jìn)程存儲(chǔ)及計(jì)算效勞器2作〔任務(wù)的調(diào)度程序是計(jì)算任務(wù)的發(fā)起者和調(diào)度者數(shù)據(jù)計(jì)算效勞進(jìn)程存儲(chǔ)及計(jì)算效勞器作業(yè)〔任務(wù)〕的具體負(fù)責(zé)計(jì)算的程序,接受JSS的分配任務(wù),處理任務(wù),比方:圖片特征批評(píng),視頻的分析等等JGS作業(yè)自動(dòng)生成進(jìn)程存儲(chǔ)及計(jì)算效勞器2作〔任務(wù)的自動(dòng)生成主要用來(lái)生成固定規(guī)那么的任務(wù)比方臺(tái)標(biāo)數(shù)據(jù)清理任務(wù)自動(dòng)清理效勞進(jìn)程存儲(chǔ)及計(jì)算效勞器2自動(dòng)定時(shí)去除沒(méi)有利用價(jià)值的歷史數(shù)據(jù)垃圾數(shù)據(jù)消息處理效勞進(jìn)程WEB及消息效勞器6獲取分布式消息隊(duì)列中的數(shù)據(jù)并對(duì)獲取的數(shù)據(jù)進(jìn)行既定規(guī)那么的業(yè)務(wù)處理最后把數(shù)據(jù)存儲(chǔ)在或者中SDS實(shí)時(shí)流數(shù)據(jù)處理效勞進(jìn)程WEB及消息效勞器6能夠?qū)崟r(shí)持續(xù)的完成流式數(shù)據(jù)的計(jì)算處理具有實(shí)時(shí)性,低延遲特點(diǎn)與批計(jì)算相對(duì)應(yīng)分布式數(shù)據(jù)庫(kù)〔開(kāi)源〕分布式數(shù)據(jù)庫(kù)效勞器分布式noSQL數(shù)據(jù)庫(kù)完成海量結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ),具有容量大分布式易擴(kuò)展性能好的特點(diǎn)8實(shí)施方案序號(hào)工作內(nèi)容完成時(shí)間1.實(shí)施啟動(dòng)2017-7-25前2.部署并聯(lián)調(diào)硬件〔安裝操作系統(tǒng)〕及局域網(wǎng)網(wǎng)絡(luò),包括外接三線光纖網(wǎng)絡(luò)2017-8-10前3.部署并聯(lián)調(diào)9.3x64forLinuxApache&Tomcat7.02017-9-15前4.部署并聯(lián)調(diào)分布式文件系統(tǒng)〔S2DFS〕、部署分布2017-9-30前5.企業(yè)數(shù)據(jù)采集效勞、投資商數(shù)據(jù)采集效勞、采集任務(wù)管理、云數(shù)據(jù)存儲(chǔ)、云中心監(jiān)控功能開(kāi)發(fā)2017-10-31前6.企業(yè)數(shù)據(jù)采購(gòu)、投資商數(shù)據(jù)采購(gòu)2017-10-31前7.試運(yùn)行完成,工程驗(yàn)收2017-12-31前

9技術(shù)規(guī)格偏離表名稱序號(hào)磋商文件技術(shù)標(biāo)準(zhǔn)、要求響應(yīng)文件中對(duì)應(yīng)條款內(nèi)容偏離技術(shù)支持資料索引xx大數(shù)據(jù)中心數(shù)據(jù)運(yùn)營(yíng)標(biāo)準(zhǔn)制定4.1結(jié)合xxx的業(yè)務(wù)需要,根據(jù)招商大數(shù)據(jù)平臺(tái)建設(shè)內(nèi)容及招商業(yè)務(wù)的應(yīng)用目標(biāo),參照業(yè)界大數(shù)據(jù)平臺(tái)數(shù)據(jù)運(yùn)營(yíng)成功案例,制定招商大數(shù)據(jù)平臺(tái)數(shù)據(jù)運(yùn)營(yíng)標(biāo)準(zhǔn)及相關(guān)管理規(guī)定,并詳細(xì)提供標(biāo)準(zhǔn)所涉及業(yè)務(wù)表單、報(bào)告模板等資料。4.數(shù)據(jù)運(yùn)營(yíng)無(wú)偏離相關(guān)元數(shù)據(jù)標(biāo)準(zhǔn)制定及數(shù)據(jù)的采集、整理與存儲(chǔ)4.2根據(jù)招商局大數(shù)據(jù)平臺(tái)數(shù)據(jù)分析的需要,制定相關(guān)數(shù)據(jù)的元數(shù)據(jù)標(biāo)準(zhǔn),并完成與當(dāng)前大數(shù)據(jù)平臺(tái)的對(duì)接。根據(jù)所定義的元數(shù)據(jù)標(biāo)準(zhǔn),完成數(shù)據(jù)源的定義與數(shù)據(jù)的采集,并整理形成標(biāo)準(zhǔn)數(shù)據(jù)。同時(shí),結(jié)合招商大數(shù)據(jù)平臺(tái)的數(shù)據(jù)分析特點(diǎn),提出數(shù)據(jù)存儲(chǔ)方案并實(shí)施。供給商需要對(duì)所采集數(shù)據(jù)的數(shù)據(jù)源進(jìn)行可信度驗(yàn)證。數(shù)據(jù)采集范圍包括但不限于世界500強(qiáng)、全國(guó)500強(qiáng)、行業(yè)20強(qiáng)企業(yè)相關(guān)數(shù)據(jù)。要求總數(shù)據(jù)容量至少到達(dá)30個(gè)T。其數(shù)據(jù)采集與存儲(chǔ)必須滿足海量數(shù)據(jù)處理的要求,其架構(gòu)需要能夠根據(jù)數(shù)據(jù)規(guī)模的增大而快速擴(kuò)展。并根據(jù)數(shù)據(jù)采集、整理與存儲(chǔ)管理的特點(diǎn),提取形成數(shù)據(jù)運(yùn)營(yíng)要點(diǎn)。2.云數(shù)據(jù)采集中心3.大數(shù)據(jù)計(jì)算平臺(tái)無(wú)偏離招商業(yè)務(wù)數(shù)據(jù)分析模型4.3根據(jù)招商業(yè)務(wù)的需要,設(shè)計(jì)招商數(shù)據(jù)分析模型,并完成系統(tǒng)實(shí)現(xiàn)。該模型需要在招商大數(shù)據(jù)平臺(tái)的數(shù)據(jù)集上進(jìn)行測(cè)試與驗(yàn)證。3.3.1企業(yè)數(shù)據(jù)模型3.3.2投資商數(shù)據(jù)模型無(wú)偏離數(shù)據(jù)運(yùn)營(yíng)4.4根據(jù)招商大數(shù)據(jù)平臺(tái)數(shù)據(jù)運(yùn)營(yíng)標(biāo)準(zhǔn)相關(guān)要求至少進(jìn)行三個(gè)月的數(shù)據(jù)運(yùn)營(yíng)效勞,并提供數(shù)據(jù)運(yùn)營(yíng)報(bào)告。驗(yàn)證數(shù)據(jù)運(yùn)營(yíng)標(biāo)準(zhǔn)的流程、優(yōu)化數(shù)據(jù)模板,并形成特定的數(shù)據(jù)運(yùn)營(yíng)操作指南。4.2數(shù)據(jù)分析處理的主要工作無(wú)偏離工程運(yùn)維要求4.5提供系統(tǒng)運(yùn)維整體方案,包括運(yùn)維效勞支持方案、針對(duì)不同問(wèn)題的運(yùn)維管理過(guò)程及運(yùn)維支持人員信息。10售后效勞承諾11關(guān)于運(yùn)行維護(hù)的承諾無(wú)偏離

10售后效勞承諾〔1〕本工程應(yīng)用系統(tǒng)從工程總體驗(yàn)收合格之日〔從雙方代表終驗(yàn)簽字之日起計(jì)算〕起,我公司提供所開(kāi)發(fā)系統(tǒng)免費(fèi)維護(hù)12個(gè)月?!?〕在質(zhì)量保證期內(nèi),我方提供技術(shù)效勞、升級(jí)效勞并負(fù)責(zé)對(duì)運(yùn)行中出現(xiàn)軟件故障進(jìn)行處理,根據(jù)實(shí)際故障情況我方派員負(fù)責(zé)查找故障原因并將系統(tǒng)恢復(fù)到正常運(yùn)行狀態(tài)。在質(zhì)量保證期內(nèi),我方向業(yè)主方提供7*24小時(shí)的效勞響應(yīng),保證業(yè)主方可以隨時(shí)找到相應(yīng)的技術(shù)人員,我方在接到用戶、通知后,30分鐘內(nèi)響應(yīng),一般問(wèn)題一天內(nèi)解決,重大問(wèn)題三天內(nèi)解決。特殊情況無(wú)法修復(fù)的,質(zhì)保期內(nèi)我方無(wú)條件更換新軟件;或采取使系統(tǒng)可正常運(yùn)轉(zhuǎn)的措施。〔3〕我方將長(zhǎng)期提供優(yōu)良的技術(shù)支持,保修期間的維護(hù)效勞不收取任何額外費(fèi)用,保證期后,我方承諾仍根據(jù)合同要求向業(yè)主方提供技術(shù)效勞,并以合理價(jià)格提供軟件功能改系統(tǒng)維護(hù)與支持的具體內(nèi)容如下:支持我公司提供對(duì)應(yīng)用系統(tǒng)的運(yùn)行、維護(hù)提供24小時(shí)的實(shí)時(shí)技術(shù)支持。我公司提供熱線或Email、等方式隨時(shí)答復(fù)用戶各種技術(shù)問(wèn)題并在24小時(shí)內(nèi)提出解決方案。故障響應(yīng)7X24小時(shí)的實(shí)時(shí)故障響應(yīng)。我公司在出現(xiàn)系統(tǒng)軟件及應(yīng)用軟件等系統(tǒng)故障的2小時(shí)內(nèi)給予響應(yīng),12小時(shí)內(nèi)恢復(fù)運(yùn)行。遠(yuǎn)程技術(shù)支持當(dāng)系統(tǒng)出現(xiàn)故障,經(jīng)用戶許可后,我公司遠(yuǎn)程登錄用戶系統(tǒng),進(jìn)行故障分析、問(wèn)題定位并提供解決方案。對(duì)系統(tǒng)進(jìn)行的任何配置、數(shù)據(jù)改動(dòng)及其它可能對(duì)系統(tǒng)和業(yè)務(wù)造成不良影響的操作,確保經(jīng)用戶確認(rèn)后進(jìn)行。定期跟蹤工程驗(yàn)收完畢后,我公司將定期、現(xiàn)場(chǎng)跟蹤系統(tǒng)使用情況,聽(tīng)取意見(jiàn)和建議,及時(shí)分析系統(tǒng)存在的問(wèn)題,并隨時(shí)給予解決。必要時(shí),我公司將派遣技術(shù)人員去現(xiàn)場(chǎng)解決存在的問(wèn)題。系統(tǒng)軟件升級(jí)我公司將及時(shí)向用戶通報(bào)系統(tǒng)軟件升級(jí)情況,假設(shè)用戶需要對(duì)系統(tǒng)軟件升級(jí),我公司會(huì)提供升級(jí)版本和相應(yīng)的支持效勞?,F(xiàn)場(chǎng)效勞當(dāng)系統(tǒng)運(yùn)行環(huán)境出現(xiàn)嚴(yán)重故障,或因更換效勞器等原因需要重新搭建系統(tǒng)時(shí),我公司將及時(shí)提供切實(shí)可行的建議,通過(guò)遠(yuǎn)程支持不能及時(shí)解決問(wèn)題時(shí),派技術(shù)支持人員趕赴現(xiàn)場(chǎng),協(xié)助用戶完成故障排除、升級(jí)或遷移操作,對(duì)系統(tǒng)進(jìn)行完整性檢查并跟蹤運(yùn)行。

11關(guān)于運(yùn)行維護(hù)的承諾我公司承諾如假設(shè)我公司為成交供給商,在工程驗(yàn)收合格交付采購(gòu)人使用后,1、為采購(gòu)人免費(fèi)提供運(yùn)行維護(hù)的期限為:12個(gè)月;2、免費(fèi)維護(hù)期過(guò)后每年對(duì)運(yùn)行維護(hù)的收費(fèi)比例為系統(tǒng)建設(shè)經(jīng)費(fèi)的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論