數(shù)據(jù)采集處理項目技術(shù)方案樣本_第1頁
數(shù)據(jù)采集處理項目技術(shù)方案樣本_第2頁
數(shù)據(jù)采集處理項目技術(shù)方案樣本_第3頁
數(shù)據(jù)采集處理項目技術(shù)方案樣本_第4頁
數(shù)據(jù)采集處理項目技術(shù)方案樣本_第5頁
已閱讀5頁,還剩55頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

xxx大數(shù)據(jù)庫中心數(shù)據(jù)庫投資商和公司數(shù)據(jù)采集解決項目項目編號:I7001206技術(shù)方案xxx有限公司二○一七年六月

目錄1引言 3項目背景 3項目目的 3建設(shè)原則 3參照規(guī)范 4名詞解釋 52云數(shù)據(jù)采集中心 7需求概述 7總體設(shè)計 7 103大數(shù)據(jù)計算平臺 34需求概述 34總體設(shè)計 34數(shù)據(jù)模型設(shè)計 354數(shù)據(jù)運營 384.1數(shù)據(jù)挖掘分析 384.2數(shù)據(jù)分析解決重要工作 384.3數(shù)據(jù)分析團隊組織和管理 395安全設(shè)計 426風險分析 467布置方案 478實行籌劃 489技術(shù)規(guī)格偏離表 4910售后服務(wù)承諾 5211關(guān)于運營維護承諾 5512保密辦法及承諾 5613培訓籌劃 58

1引言項目背景XXX大數(shù)據(jù)中心建設(shè)出發(fā)點考慮從投資者角度涵蓋招商全流程,盡量為投資者解決項目實行過程中困難和問題,便于招商部門精確掌握全省招商數(shù)據(jù),達到全省招商項目數(shù)據(jù)共享,形成全省招商工作“一盤棋、一張網(wǎng)、一體化”格局。大數(shù)據(jù)中心將充分發(fā)揮大數(shù)據(jù)優(yōu)勢,加強對公司投資項目、投資軌跡分析,評估出其到XX投資可行性,為招商過程留下痕跡、找到規(guī)律、明辨方向、提供“糧食”、提高效率,實現(xiàn)數(shù)據(jù)尋商、數(shù)據(jù)引商、數(shù)據(jù)助商,實現(xiàn)數(shù)據(jù)資源實時共享、集中管理、隨時查詢,實現(xiàn)項目可記錄、可監(jiān)管、可協(xié)調(diào)、可管理、可配對、可跟蹤、可考核。本次數(shù)據(jù)運營服務(wù)重要是為大數(shù)據(jù)平臺制定數(shù)據(jù)運營規(guī)范及管理辦法,同步為“公司數(shù)據(jù)庫”提供數(shù)據(jù)采集、存儲與分析服務(wù),并依照運營規(guī)范規(guī)定持續(xù)開展數(shù)據(jù)運營服務(wù)。項目目的 制定招商大數(shù)據(jù)運營規(guī)范及管理辦法。 制定招商大數(shù)據(jù)有關(guān)元數(shù)據(jù)原則,完畢有關(guān)數(shù)據(jù)采集、整頓與存儲。 依照業(yè)務(wù)需求,研發(fā)招商大數(shù)據(jù)招商業(yè)務(wù)分析模型,并投入應(yīng)用。 依照運營規(guī)范及管理辦法規(guī)定持續(xù)開展數(shù)據(jù)運營工作。建設(shè)原則基于本項目建設(shè)規(guī)定,本項目將遵循如下建設(shè)原則: 前瞻性 經(jīng)濟性和用軟件應(yīng)提供完備整合方案。 先進性和成熟性務(wù)需求。 高性能和安全性襲擊或崩潰時能迅速恢復,保證重要數(shù)據(jù)機密性和完整性。參照規(guī)范 GB/T信息安全技術(shù)—信息系統(tǒng)安全管理規(guī)定 GB/T信息安全技術(shù)—信息安全風險評估規(guī)范 GB/T信息安全技術(shù)—信息系統(tǒng)安全級別保護基本規(guī)定 GB/T信息安全技術(shù)—信息系統(tǒng)安全級別保護定級指南 GA/T計算機信息系統(tǒng)安全級別保護管理規(guī)定 GB/T計算機軟件產(chǎn)品開發(fā)文獻編制指 GB/T軟件工程術(shù)語 GB/T信息技術(shù)軟件工程術(shù)語 GB/T軟件工程產(chǎn)品質(zhì)量第1 GB/T軟件工程產(chǎn)品質(zhì)量第2 GB/T軟件工程產(chǎn)品質(zhì)量第3 GB/T軟件工程產(chǎn)品質(zhì)量第4 GB/T計算機軟件可靠性和可維護性管理 GB/T信息技術(shù)軟件包質(zhì)量規(guī)定和測試名詞解釋DF簡樸存儲分布式文獻系(metrageDstrutedFeystem)Database)DCS:數(shù)據(jù)計算服務(wù)(DataMPS:消息解決服務(wù)(MessageDataDMQ:分布式消息隊列(DistributedQueue)HTTP:超文本傳播協(xié)定(HyperTextTransferMessage

2云數(shù)據(jù)采集中心需求概述依照1至2年內(nèi)數(shù)據(jù)存儲和計算規(guī)模,需要滿足:數(shù)據(jù)采集范疇涉及但不限于世界500強、全國500強、行業(yè)20強公司有關(guān)數(shù)據(jù)??倲?shù)據(jù)容量至少達到30T??傮w設(shè)計整個云數(shù)據(jù)采集中心分為三某些:硬件資源層、軟件平臺層、軟件應(yīng)用層。硬件資源層重要指實體硬件設(shè)備涉及用來存儲數(shù)據(jù)光纖陣列柜和存儲服務(wù)器用來作記錄分析以及搜索用計算服務(wù)器用來布置分布式消(DMQ)/WEB/APP軟件及消息服務(wù)器,用來布置用PostgreSQL關(guān)系數(shù)據(jù)庫軟件應(yīng)用數(shù)據(jù)庫服務(wù)器用來布置作業(yè)調(diào)度服務(wù)進(J作業(yè)調(diào)度服務(wù)器。作為數(shù)據(jù)通信用全千兆三層互換機等等其中光纖陣列柜重要用來存儲記錄分析后粗顆粒度數(shù)據(jù)存儲服務(wù)器用來布置分布式文獻系統(tǒng)和分布式數(shù)據(jù)庫同存儲非構(gòu)造化和構(gòu)造(臺標圖片電商圖片等等和構(gòu)造化數(shù)(行為數(shù)據(jù),索引數(shù)據(jù)g數(shù)據(jù)清理后細顆粒度數(shù)據(jù)等等計算服務(wù)器重要用來完畢數(shù)務(wù)器和計算服務(wù)器合二為一因此該服務(wù)器同步具備計算和存儲數(shù)據(jù)功能前云數(shù)據(jù)采集中心需要面對各種寬帶顧客(電信、移動、聯(lián)通,因此,數(shù)據(jù)中心對外網(wǎng)絡(luò)需要直連上電信移動聯(lián)通三家公司網(wǎng)絡(luò)保證以上三家公司間通信性能高速和可靠。軟件平臺層是云數(shù)據(jù)采集中心核心支撐層,也是咱們這次方案設(shè)計和實行主體某些,在核心技術(shù)章節(jié)會對“分布式文獻系統(tǒng)(S2DFS)”、“分布式數(shù)據(jù)庫(D2B)”、“分布式消息服務(wù)(DMQ)”“作業(yè)調(diào)度服務(wù)進程(JSS)、數(shù)據(jù)計算服務(wù)進程(DCS)”重要某些加以詳細描述。軟件平臺層所有服務(wù)器都統(tǒng)一布置64位操作系統(tǒng)CentOS6.5(也可以選取RHEL6.5x64);其核心軟件或者進程有:分布式文獻系統(tǒng)(S2DFS)、分布式數(shù)據(jù)庫(D2B)、作業(yè)調(diào)度服務(wù)進程(JSS)、數(shù)據(jù)計算服務(wù)進程(DCS)、作業(yè)生成服務(wù)進程(JGS)、消息處理服務(wù)進程(MPS)、流數(shù)據(jù)解決進程(SDS)等等。WEB及應(yīng)用服務(wù)器軟件Apache&Tomcat,消息隊列軟件分布式消息(DMQ)。還要實現(xiàn)整個云數(shù)據(jù)采集中心資源管理及監(jiān)控管理系統(tǒng)。軟件應(yīng)用層是云數(shù)據(jù)采集中心功能實現(xiàn)及UI表達層,功能實現(xiàn)需要基于軟件平臺層支撐后期設(shè)計和實行主體該層重要功能應(yīng)用有數(shù)據(jù)采集。HTTP本圖片數(shù)據(jù)以及顧客行為數(shù)據(jù)存儲在云數(shù)據(jù)采集中心里以供后期分析計算用。云數(shù)據(jù)采集中心整體架構(gòu)圖云數(shù)據(jù)采集中心網(wǎng)絡(luò)構(gòu)造圖2.3.1分布式文獻存儲技術(shù)老式存儲技術(shù)面臨問題: 構(gòu)建成本高:大容量及高網(wǎng)絡(luò)帶寬高品位存儲系統(tǒng)架構(gòu)昂貴。 文獻系統(tǒng)功能和性能差強人意:難以實現(xiàn)全局命名空間文獻共享、文獻系統(tǒng)難以擴展,容易形成瓶頸。 擴展性困難:技術(shù)存在瓶頸(cae-up架構(gòu)決定、擴展成本無法控制。 應(yīng)用目的差別:重要面臨運營商、金融行業(yè)OLTP應(yīng)用、很少針對海量流數(shù)據(jù),或者非構(gòu)造化數(shù)據(jù)進行設(shè)計和優(yōu)化。 異構(gòu)設(shè)備繁雜:不同步期、不同公司、不同操作系統(tǒng)異構(gòu)設(shè)備紛繁復雜,無法整合,資源運用率極低。分布式文獻系統(tǒng)重要為解決以上問題而浮現(xiàn)一種新型大規(guī)模數(shù)據(jù)存儲技術(shù)架構(gòu)重要為非構(gòu)造化數(shù)(視頻/文獻/文檔圖像/音頻等非構(gòu)造化數(shù)據(jù)提供海量存儲平臺,以集群方式提供線性橫向擴展能力。分布式文獻系統(tǒng)是一種構(gòu)建于通用x6部件之上高可用高可靠高可擴展新型分布式文獻系統(tǒng)應(yīng)用分布式文獻系統(tǒng)顧客可以采用便宜可靠通用硬盤以及以太網(wǎng)絡(luò)來構(gòu)建媲美公司級存儲產(chǎn)品存儲系統(tǒng)。分布式文獻系統(tǒng)應(yīng)對數(shù)據(jù)特性和訪問特性: 數(shù)據(jù)量巨大,數(shù)百TB或PB級,增長迅速; 類型多樣化,涉及圖像、文本、語音、視頻等文獻數(shù)據(jù); 準時間有序生成,數(shù)據(jù)均帶有時間標志;前端數(shù)據(jù)寫入速度很高,每秒鐘寫入數(shù)據(jù)可達幾萬甚至幾十萬條記錄或者上GB量數(shù)據(jù);更新操作很少:追加方式寫入,一旦寫入,幾乎沒有數(shù)據(jù)修改,查詢涉及大量磁盤讀操作,查詢解決產(chǎn)生大量暫時成果,不同類型數(shù)據(jù)存在聯(lián)合分析查詢;分布式文獻系統(tǒng)基本原理是采用集群方式來整合物理上獨立各種存儲資源以軟件方式提供單一名字空間采用多副本方式保證數(shù)據(jù)高可用性,任意單一節(jié)點失效均不會導致數(shù)據(jù)丟失和數(shù)據(jù)服務(wù)正常運營同步分布式文件系統(tǒng)通過良好設(shè)計系統(tǒng)構(gòu)造和數(shù)據(jù)分布方略可保證系統(tǒng)性能高可擴展性,并支持存儲容量/性能在線擴展。相比較于D(直連存儲、N(存儲區(qū)域網(wǎng)絡(luò))和N(網(wǎng)絡(luò)存儲,應(yīng)用分布式文獻系統(tǒng)構(gòu)建網(wǎng)絡(luò)存儲系統(tǒng)更像是一種N提供類似于老式NS文獻級訪問接口(N和DS都是塊設(shè)備級別訪問接口。分布式文獻系統(tǒng)與老式設(shè)備比較:比較項高品位分布式文獻系統(tǒng)性能普通雙端口,性能受機頭影響,難以擴展,出口帶寬是瓶頸普通雙端口,性能受機頭影響難以擴展,較好性能隨節(jié)點數(shù)增長成線性增長擴展能力性能及容量無法擴展,或者有限擴展能較好擴展,但成本高昂性能及容量按需擴展,動態(tài)均衡可用性方式保護,雙機保護停機Debi時D方式保護雙機保護,停機基于靈活多副本機制,自動檢測自動故障恢復,無需停機數(shù)據(jù)管理公司級功能需要單獨購買公司級功能需要單獨購買(還需要單獨文獻系統(tǒng)100多萬一套)內(nèi)嵌各種公司級應(yīng)用:快照、鏡像、回收站成本專有硬件平臺,軟件擁有成本高,擴展成本高專有硬件平臺,軟件擁有成本高,擴展成本高開發(fā)通用硬件平臺,一體化軟件,成本低,擴展成本低可維護性專門技術(shù)支持服務(wù),需要培訓構(gòu)造異常復雜,需要大量培訓,廠商服務(wù)昂貴內(nèi)嵌各種自動化故障檢測和恢復功能國內(nèi)開發(fā),技術(shù)支持迅速顧客使用分布式文獻系統(tǒng)猶如使用本地文獻系統(tǒng)。所不同是,老式NAS普通以單一節(jié)點方式實現(xiàn)容量和性能擴展能力有限易于成為性能瓶頸和單一故障點而分布式文獻系統(tǒng)則有各種節(jié)點集合地提供服務(wù)由于其構(gòu)造特性,分布式文獻系統(tǒng)性能和容量均可在線線性擴展并且系統(tǒng)內(nèi)不存在單一故障點。對比參看下面兩幅示意圖:老式存儲架構(gòu)圖分布式文獻系統(tǒng)架構(gòu)圖分布式文獻系統(tǒng)設(shè)計應(yīng)用特別適合海量非構(gòu)造化數(shù)據(jù)存儲大量客戶端并發(fā)密集型應(yīng)用。當前,分布式文獻系統(tǒng)已經(jīng)被應(yīng)用于政府、醫(yī)療影像、勘查數(shù)據(jù)計算、視頻服務(wù)以及動畫制作等領(lǐng)域。這些領(lǐng)域數(shù)據(jù)訪問特性均為:實際生產(chǎn)環(huán)境使用,分布式文獻系統(tǒng)已被證明是該類型應(yīng)用有效解決方案。布式文獻系統(tǒng)服務(wù)器端程序運營于Luxx4系統(tǒng)之上支持各種Lux位發(fā)行版,涉及Redhat、CentOS等。分布式文獻系統(tǒng)客戶端則支持Linux和和NFS接口,可以兼容大多數(shù)應(yīng)用。分布式文獻系統(tǒng)核心技術(shù)及特性:擴展性和高性能:分布式文獻系統(tǒng)運用雙重特性來提供幾TB至數(shù)PB高擴展存儲解決方案cae-Out架構(gòu)容許通過簡樸地增長資源來提高存儲容量和性能,磁盤、計算和資源都可以獨立增長,支持和等高速網(wǎng)絡(luò)互聯(lián)。分布式文獻系統(tǒng)彈性哈Hash)解除了分布式文獻系統(tǒng)對元數(shù)據(jù)服務(wù)器需求,消除了單點故障和性能瓶頸,真正實現(xiàn)了并行化數(shù)據(jù)訪問。高可用性:分布式文獻系統(tǒng)可以對文獻進行自動復制,如鏡像或多次復制,從而保證數(shù)據(jù)總是可以訪問,甚至是在硬件故障狀況下也能正常訪問。自我修復功能可以把數(shù)據(jù)恢復到對的狀態(tài),并且修復是以增量方式在后臺執(zhí)行,幾乎不會產(chǎn)生性能負載。分布式文獻系統(tǒng)沒有設(shè)計自己私有數(shù)據(jù)文獻格式,而是采用操作系統(tǒng)中主流原則磁盤文獻系統(tǒng)(如數(shù)據(jù)可以使用各種原則工具進行復制和訪問。全局統(tǒng)一命名空間:全局統(tǒng)一命名空間將磁盤和內(nèi)存資源匯集成一個單一虛擬存儲池,對上層顧客和應(yīng)用屏蔽了底層物理硬件。存儲資源可以依照需要在虛擬存儲池中進行彈性擴展,例如擴容或收縮。當存儲虛擬機映像時,存儲虛擬映像文獻沒有數(shù)量限制,成千虛擬機均通過單一掛載點進行數(shù)據(jù)共享。虛擬機可在命名環(huán)境中經(jīng)常發(fā)生訪問熱點和性能瓶頸問題。彈性哈希算法:分布式文獻系統(tǒng)采用彈性哈希算法在存儲池中定位數(shù)據(jù),而不是采用集中式或分布式元數(shù)據(jù)服務(wù)器索引。在其她存儲系統(tǒng)中,元數(shù)據(jù)服務(wù)器普通會導致性能瓶頸和單點故障問題。分布式文獻系統(tǒng)中,所有在存儲配備中存儲系統(tǒng)都可以智能地定位任意數(shù)據(jù)分片,不需要查看索引或者向其她服務(wù)器查詢。這種設(shè)計機制完全并行化了數(shù)據(jù)訪問,實現(xiàn)了真正線性性能擴展。 彈性卷管理:數(shù)據(jù)儲存在邏輯卷中,邏輯卷可以從虛擬化物理存,不會導致應(yīng)用中斷。邏輯卷可以在所有配備服務(wù)器中增長和縮減,可以在不同服務(wù)器遷移進行容量均衡,或者增長和移除系統(tǒng),這些操作都可在線進行。文獻系統(tǒng)配備更改也可以實時在線進行并應(yīng)用,從而可以適應(yīng)工作負載條件變化或在線性能調(diào)優(yōu)。完全軟件實現(xiàn)(ftwareOy:分布式文獻系統(tǒng)以為存儲是軟件問題,不可以把顧客局限于使用特定供應(yīng)商或硬件配備來解決。分布式文獻系統(tǒng)采用開放式設(shè)計,廣泛支持工業(yè)原則存儲、網(wǎng)絡(luò)和計算機設(shè)備,而非與定制化專用硬件設(shè)備捆綁。對于商業(yè)客戶,分布式文獻系統(tǒng)可以以虛擬裝置形式交付,也可以與虛擬機容器打包,或者是公有云中布置映像。開源社區(qū)中,分布式文獻系統(tǒng)被大量布置在基于便宜閑置硬件各種操作系統(tǒng)上,構(gòu)成集中統(tǒng)一虛擬存儲資源池。簡而言之,分布式文獻系統(tǒng)是開放全軟件實現(xiàn),完全獨立于硬件和操作系統(tǒng)。布式文獻系統(tǒng)不但提供了一種分布式文獻系統(tǒng),并且還提供了許多RAID和自我修復等。分布式文獻系統(tǒng)汲取了微內(nèi)核架構(gòu)經(jīng)驗教訓,借鑒了GNU/Hurd操作系統(tǒng)設(shè)計思想,在顧客空間實現(xiàn)了完整存儲操作系統(tǒng)棧。顧客空間實(Userace與老式文獻系統(tǒng)不同分布式文獻系統(tǒng)在顧客空間實現(xiàn),這使得其安裝和升級特別簡便。模塊化堆棧式架(Mduartacaberchtecture分布式文獻系統(tǒng)采用模塊化、堆棧式架構(gòu),可通過靈活配備支持高度定制化應(yīng)用環(huán)境,例如大文獻存儲、海量小文獻存儲、分布式文獻系統(tǒng)、多傳播合同應(yīng)用等。每個功能以模塊形式實現(xiàn),然后以積木方式進行簡樸組合,即可實現(xiàn)復雜功能。例如,Replicate模塊可實現(xiàn)模塊可實現(xiàn)和原始數(shù)據(jù)格式存(DatatrednNateFrmats分布式文獻系統(tǒng)各種數(shù)據(jù)自動修復機制。因而,系統(tǒng)極具彈性,雖然離線情形下文件也可以通過其她原則工具進行訪問。如果顧客需要從分布式文獻系統(tǒng)中遷移數(shù)據(jù),不需要作任何修改依然可以完全使用這些數(shù)據(jù)。無元數(shù)據(jù)服務(wù)設(shè)計(NoMetadatawthteEastcashgrtm:對存儲系統(tǒng)而言,最大挑戰(zhàn)之一就是記錄數(shù)據(jù)邏輯與物理位置映像關(guān)系,即數(shù)據(jù)元數(shù)據(jù),也許還涉及諸如屬性和訪問權(quán)限等信息。老式分布式存儲系統(tǒng)使用集中式或分布式元數(shù)據(jù)服務(wù)來維護元數(shù)據(jù),集中式元數(shù)據(jù)服務(wù)會導致單點故障和性能瓶頸問題,而分布式元數(shù)據(jù)服務(wù)存在性能負載和元數(shù)據(jù)同步一致性問題。特別是對于海量小文獻應(yīng)用,元數(shù)據(jù)問題是個非常大挑戰(zhàn)。分布式文件系統(tǒng)獨特地采用無元數(shù)據(jù)服務(wù)設(shè)計,取而代之使用算法來定位,服務(wù)器都可以智能地對文獻數(shù)據(jù)分片進行定位,僅僅依照文獻名和途徑并運用算法即可,而不需要查詢索引或者其她服務(wù)器。這使得數(shù)據(jù)訪問完全并行化,從而實現(xiàn)真正線性性能擴展。無元數(shù)據(jù)服務(wù)器極大提高了分布式文獻系統(tǒng)性能、可靠性和穩(wěn)定性。 基于原則合同分布式文獻系統(tǒng)存儲服務(wù)支持NF,F(xiàn),TTP,F(xiàn)TP以及分布式文獻系統(tǒng)原生合同,完全與原則兼容。分布式文獻系統(tǒng)技術(shù)及性能指標: 支持設(shè)備數(shù)量:最大百萬臺以上 支持存儲容量:最大以上 客戶端數(shù)量:最大支持上億并發(fā)網(wǎng)絡(luò)支持以太網(wǎng)GsGs/NFNBNDGsGs 文獻副本數(shù)量:任意(缺省1份)合同:原則 支持文獻數(shù)量:最大上億個文獻 與HDFS比較對比項架構(gòu)類型帶元數(shù)據(jù)庫中心架構(gòu)全分布式去中心架構(gòu)存在方式分布式文獻系統(tǒng)軟件,基于x86平臺使用方式原則合同(應(yīng)用代碼與平臺無關(guān)性便于移植和維護)系統(tǒng)可用性低高數(shù)據(jù)可用性復制類數(shù)據(jù)定位方式Hash同步方式異步同步負載均衡自動自動支持網(wǎng)絡(luò)千兆以太網(wǎng)網(wǎng)約約讀(1*20GB)(萬兆)約125s約25s寫(1*20GB)(萬兆)約200s約20s差距不大2.3.2分布式并行計算技術(shù)概述并行計算技術(shù)真正將老式運算轉(zhuǎn)化為并行運算從而更加充分運用廣泛布置普通計算資源實現(xiàn)大規(guī)模運算和應(yīng)用目在此基本上為第三方開發(fā)者提供通用平臺,為客戶提供并行服務(wù)。這里重要為門戶網(wǎng)站提供作業(yè)調(diào)度平臺,實現(xiàn)日記分析,性能優(yōu)化,全文檢索,視頻解決,用為分析等等支撐平臺。顧客通過統(tǒng)一計算平臺把任務(wù)分派給系統(tǒng)內(nèi)各種節(jié)點調(diào)度節(jié)點資源執(zhí)行任務(wù)發(fā)揮多核并行解決優(yōu)勢提高運算效率充分運用網(wǎng)絡(luò)內(nèi)計算資源達到解決大規(guī)模計算問題目。分布式并行計算架構(gòu)圖分布式并行計算架構(gòu)圖作業(yè)調(diào)度及計算過程分布式并行計算技術(shù)特點 池化資源管理運用池化技術(shù),任何一臺聯(lián)在互聯(lián)網(wǎng)上普通PC機從硬件到軟件,可通過池化技術(shù)加入服務(wù)器池中,等待任務(wù)分派,系統(tǒng)能充分運用現(xiàn)有服務(wù)器資源,將所有運算子任務(wù)分派給節(jié)點服務(wù)器,有效避免計算資源閑置現(xiàn)象發(fā)生。 無中心系統(tǒng)架構(gòu)在平臺管理下單節(jié)點能力一致,使節(jié)點在布置上和使用上具備無差別性,任一節(jié)點功能可由其她節(jié)點代替或強化,可以最大限度確保平臺資源使用靈活性以及在災備環(huán)境下可靠性系統(tǒng)架構(gòu)。 通道式工作機制平臺為顧客提供一種并行任務(wù)解決通道,解決過程對顧客來說完全透明,由平臺自動進行負載均衡、資源匹配、任務(wù)傳播等,使顧客專注于自身任務(wù)管理,將執(zhí)行過程交由平臺完畢。2.3.3D2B是一種具備高性能高性能,可擴展,無模式,面向文檔(dcumet-reted)數(shù)據(jù)庫其內(nèi)存儲是一種JON-e構(gòu)造化數(shù)據(jù)分布式數(shù)據(jù)庫軟件特別具備高擴展性和高可靠性支持大表水平折分以及分區(qū)鏡像。提供內(nèi)存緩存數(shù)據(jù),因此數(shù)據(jù)存取速度非??欤匾怯捎谒鉀Q寫入方式:它們存儲在內(nèi)存中,然后通過后臺線程寫入磁盤。bjson比較復雜數(shù)據(jù)類型DB此外最大特點是她支持查詢語言非常強大其語法有點類似于面向?qū)ο蟛樵冋Z言幾乎可以實現(xiàn)類似關(guān)系數(shù)據(jù)庫單表查詢用,存儲數(shù)據(jù)非常以便。重要功能特性: 面向集合存儲,易存儲對象類型數(shù)據(jù)“面向集合(oecto-Oreted意思是數(shù)據(jù)被分組存儲在數(shù)據(jù)集中被稱為一種集(ecti)每個集合在數(shù)據(jù)庫中均有一種唯一(RDBM里(tae不同是它不需要定義任何模(scema)。 模式自由模式自(scema-free)意味著對于存儲在DB數(shù)據(jù)庫中文獻咱們文獻存儲在同一種數(shù)據(jù)庫里。 自動分片以支持云級別伸縮性:自動分片功能支持水平數(shù)據(jù)庫集群,可動態(tài)添加額外機器。 支持動態(tài)查詢 支持完全索引,包括內(nèi)部對象。 自動解決碎片,以支持云計算層次擴展性。 可通過網(wǎng)絡(luò)訪問可用于OSX、Linux?和官方二進制版本。可用于C、C#、C++、Haskell、Java?、JavaScript、Perl、PHP、Python、Ruby和Scala官方驅(qū)動程序,以及廣泛可用于其她語言社區(qū)支持驅(qū)動程序。Ad-hocJavaScript查詢讓您可以使用基于任何文檔屬性任何條件來查找數(shù)據(jù)。這些查詢相應(yīng)于SQL查詢功能,使SQL開發(fā)人員可以很直觀地編寫D2B查詢。 支持查詢中正則表達式。 D2B查詢成果存儲在提供過濾、聚合和排序等一系列功能游標中,包括limit()、skip()、sort()、count()、distinct()和group()等等高檔特性。高檔聚合map/reduce實現(xiàn)。 類似于RDBMS屬性索引支持,可以直接在文檔選定屬性上創(chuàng)立索引。 使用提示、解釋籌劃和分析查詢優(yōu)化特性。 類似于主/從復制,支持復制和故障恢復。 基于集合對象存儲,在需要規(guī)范化數(shù)據(jù)時容許參照查詢。 通過自動分片功能水平擴展。 高性能無爭用并發(fā)機制即時更新。D2B服務(wù)端可運營在或OSX平臺,支持位應(yīng)用。推薦運營在位平臺,由于在位模式運營時支持最大文獻尺寸為2GB。分布式數(shù)據(jù)庫(D2B)集群示例圖D2B與關(guān)系型數(shù)據(jù)庫邏輯構(gòu)造對比:D2B關(guān)系型數(shù)據(jù)庫數(shù)據(jù)庫(database)數(shù)據(jù)庫(database)文檔(document)D2B性能指標:10億約600GB以上(與每條記錄大小關(guān)于系,這里數(shù)據(jù):1Kb/條)寫(1億,無索引)約15000-0寫(1億,有索引)約10000寫(1億:Replica+Sharding模式)約6000-8000讀(1億)約讀(1億)8000-10000記錄一種值(10億)<3s(復雜查詢)最大節(jié)點數(shù)量>1024(理論上)Xeon2路16核心,256GB內(nèi)存,15k12架構(gòu)模式:Replica+Sharding。2.3.4負載均衡1)開源負載均衡軟件比較Server)可以實提供虛擬服務(wù)器軟件S基于內(nèi)容請求分發(fā)內(nèi)核yer-互換機We服務(wù)軟件及反向代理軟件于HTTP(第七層)應(yīng)用代理服務(wù)器在國內(nèi)大型互聯(lián)網(wǎng)公司均有使用。HAProxy是一款提供高可用性七層應(yīng)用代理軟件在國內(nèi)大型互聯(lián)網(wǎng)公司均有使用。抗負載能力強是工作在網(wǎng)絡(luò)4層之上僅作分發(fā)之用沒有流量產(chǎn)生這個特點也決定了它在負載均衡軟件里性能最強;也是一種長處由于沒有可太多配置東西,因此并不需要太多接觸,大大減少了人為出錯幾率;能不會收到大流量影響;能做動靜分離;工作在網(wǎng)絡(luò)層之上可以針如針對域名目錄構(gòu)造它正則N對網(wǎng)絡(luò)依賴非常小理能;單;可以承擔高負載壓力且穩(wěn)定,普通能支撐超過幾萬次并發(fā)量;N可以通過端口檢測到服務(wù)器內(nèi)部故障,不支持url來檢測;存器;可以補充N某些缺陷例如作;功能;是一款負載均衡軟件單純從效率出眾,在并發(fā)解決上也是優(yōu)于較簡樸;可以承擔高負載壓力且穩(wěn)定,普通能支撐超過幾萬次并發(fā)量;建議用載均衡使用。究竟選取Nginx還是HAProxy要看團隊對這兩種軟件熟悉限度,越熟悉,就能容易掌控,減少風險,咱們團隊對Nginx非常熟悉,因此,這里咱們推薦用Nginx作為軟件反向代理工具。2.3.5數(shù)據(jù)采集概述數(shù)據(jù)采集功能重要完畢海量數(shù)采集上傳。數(shù)據(jù)采集來源有:、公司網(wǎng)站、百度、google等。依照特定數(shù)據(jù)源,不同應(yīng)用,不同類型數(shù)據(jù)進行收集,并提供統(tǒng)一數(shù)據(jù)采集方式,以便后臺數(shù)據(jù)集成、數(shù)據(jù)存儲。數(shù)據(jù)采集構(gòu)造圖:數(shù)據(jù)采集重要是由采集服務(wù)器,通過HTTP合同和技術(shù)把數(shù)據(jù)上傳并緩存在EB及消息服務(wù)器上EB及消息服務(wù)器可以緩存一周數(shù)據(jù)上傳式并最后入庫存儲臺標等非構(gòu)造化數(shù)據(jù)存儲在分布式文獻系(DF中,或者行為等構(gòu)造化數(shù)據(jù)存儲在分布式數(shù)據(jù)庫(MongonDB)中。參見如下數(shù)據(jù)采集/存儲流程圖:DMQ是一種分布式消息服務(wù)平臺,提供功能涉及:配備維護、名字服務(wù)分布式同步組服務(wù)等能提供一種高性能可靠可擴展分布式、可配備核心特性,DMQ核心技術(shù)特點:大容量堆內(nèi)存和高可用性:假設(shè)你有臺服務(wù)器,并且每個節(jié)點有2GB某臺服務(wù)器崩潰了,網(wǎng)格只需要簡樸地創(chuàng)立一份丟失數(shù)據(jù)新副本,并將它們放到另一臺服務(wù)器上應(yīng)用也無需再借助于一種巨大獨立數(shù)據(jù)庫來獲取數(shù)據(jù)以追求最大性能-這是80%以上公司應(yīng)用中瓶頸所在! 擴展性:由于數(shù)據(jù)是均勻分布,因此除了考慮到網(wǎng)絡(luò)上組通訊,主線就沒有必要來限制網(wǎng)格大小網(wǎng)絡(luò)上組通訊只要可以發(fā)現(xiàn)一種新節(jié)點即可.所有數(shù)據(jù)獲取方式都是通過點對點通信,即節(jié)點之間直接進行通信非常容易控制。DMQ增長或者減少不需要關(guān)閉整個服務(wù)。簡樸添加刪除集群中機器不會引起任何服務(wù)中斷。 數(shù)據(jù)分布DMQ使用一致性哈希算法來決定集群中鍵值存儲位置。一致性哈希算法成本低速度快并且最重要是不需要額外元數(shù)據(jù)或者網(wǎng)絡(luò)通信就能擬定鍵值位置。數(shù)據(jù)分布目是為了在集群環(huán)境下保持足夠狀態(tài)副本以使其具備可持續(xù)性和容錯性但是又不會有過多副本而阻礙DMQ可擴展性。 原子性一種Udate操作不是成功就是失敗不會有第三種狀態(tài)浮現(xiàn)。順序性:在一種DMQ服務(wù)器上消息a在消息b之前發(fā)布,那么在所有DMQ服務(wù)器上消息a都會在消息b之前被發(fā)布,DMQ會保持一致順序。 實時性對于每個etDMQ集群中所有服務(wù)器都會保持實時更新制度,使得所有服務(wù)視圖都會是最新。 無論連接到集群中哪一種DMQ集群節(jié)點服務(wù),都是得到同樣鏡像視圖。 可靠性:數(shù)據(jù)在內(nèi)存中緩存了2成數(shù)據(jù)丟失。分布式消息管理架構(gòu)圖:MPSMPS2MPS4MPS6MPS8MPS10統(tǒng)一數(shù)據(jù)視圖心跳/同步Server1【備】(數(shù)據(jù))Server2【主】(數(shù)據(jù))Server3【備】(數(shù)據(jù))Server4【備】(數(shù)據(jù))數(shù)據(jù)網(wǎng)(電信、移動、聯(lián)通)智能終端智能終端智能終端智能終端智能終端智能終端智能終端智能終端DMQ有如下幾種核心較色,每類較色職責如下表格描述?角色名稱職責就是DMQ集群老大,它不接受Client祈求,是管理其她DMQ服務(wù),只負責進行投票發(fā)起和決策,最后更新狀態(tài).追隨者(Follower)發(fā)起投票,向下是面向客戶端交互,用于接受客戶端祈求和反饋客戶端成果。參加領(lǐng)導者(Leader)發(fā)起投票。觀測者(Observer)觀測者可以接受客戶端連接,將寫祈求轉(zhuǎn)發(fā)給領(lǐng)導者(Leader)節(jié)點。但是Observer不參加投票過程,只是同步領(lǐng)導者(Leader)狀態(tài)。Observer為系統(tǒng)擴展提供了一種辦法。DMQ核心是原子廣播這個機制保證了各個erer之間同步有兩種模式,它們分別是恢復模式和廣播模式?;謴湍J剑浩胀ㄊ窃诜?wù)剛啟動或者在領(lǐng)導者(Leader)崩潰后,開始進入恢復模式此時先就會開始選舉領(lǐng)導(Leader當領(lǐng)導(Leader被選舉出后,恢復模式就結(jié)束了。進行了狀態(tài)同步后來,她就可以開始廣播消息了,即進入廣播狀態(tài)。分布式消息數(shù)據(jù)架構(gòu)圖:上圖M(Messagesaager消息數(shù)據(jù)管理者通過嵌入式sql內(nèi)核完成上百萬并發(fā)量緩存數(shù)據(jù)來提供異步發(fā)布和訂閱。應(yīng)用程序通過JDBC/REST/Memcached等符合業(yè)界原則接口完畢集群中消息緩存數(shù)據(jù)操作,集群成員之間也通過該接口完畢成員之間數(shù)據(jù)同步,狀探測步。典型分布式消息平臺比較:由于常用RabbitMQ、ActiveMQ和ZeroMQ消息中間件不具備分布式功能,因此不在比較之列。數(shù)據(jù)采集中心面對是高并發(fā)海量數(shù)據(jù)上傳,因此分布式消息平臺必要在‘數(shù)據(jù)接受數(shù)據(jù)緩存數(shù)據(jù)發(fā)布’整個過程保證數(shù)據(jù)高性能吞吐、高可靠性、高擴展性、可維護性等屬性。

3大數(shù)據(jù)計算平臺需求概述依照應(yīng)用,這個項目數(shù)據(jù)量30T,公司數(shù)據(jù)量非常大,需要大量并發(fā),網(wǎng)絡(luò)爬蟲爬取公司數(shù)據(jù)信息存儲在數(shù)據(jù)中心此數(shù)據(jù)量跟公司記錄有關(guān)。同步需要對清洗后記錄和計算好推薦成果進行存儲但是這些數(shù)據(jù)不放在數(shù)據(jù)中心此項目之后會做成實時計算需要用到流式計算有關(guān)計算和調(diào)度。計算量很大,可以多布置DCS進程,提高計算并發(fā)度,作業(yè)調(diào)度也要采用分布置調(diào)度架構(gòu)??傮w設(shè)計云數(shù)據(jù)采集中心與大數(shù)據(jù)計算平臺關(guān)系是云數(shù)據(jù)采集中心提供存儲和計算資源通過PI方式訪問資源大數(shù)據(jù)計算平臺重要實現(xiàn)核心算法涉及圖像匹配算法,挖掘算法,智能推薦算法,知識學習算法等等,也可以通過API方式建立記錄應(yīng)用智能推薦應(yīng)用等等大數(shù)據(jù)計算平臺需要數(shù)據(jù)涉及網(wǎng)上實時爬獲得二次計算分析而獲取等等都通過通用接口存儲在云數(shù)據(jù)采集中心分布式存儲平臺(分布式文獻系統(tǒng)(DF、分布式數(shù)據(jù)庫(DB計算時候,通過接口發(fā)起作業(yè),由云數(shù)據(jù)采集中心作業(yè)調(diào)度服務(wù)進(J負責調(diào)度由數(shù)據(jù)計算服務(wù)進(D)負責計算解決并把成果反饋給大數(shù)據(jù)計算平臺各個應(yīng)用依照2小節(jié)對DFS分布式文獻系統(tǒng)詳細簡介本章節(jié)就不重復論述,由于要增長新存儲設(shè)備,對于新設(shè)備上安裝分布式文獻系統(tǒng)與否繼續(xù)選用還是HDFS,咱們需要回答如下幾種問題:第一,預算增長及擴展問題要布置DF還得單獨購買兩臺高性能設(shè)備作為DFS元數(shù)據(jù)庫服務(wù)(注兩臺設(shè)備構(gòu)成主備配備不能比咱們當前選取設(shè)備配備差,否則就會成為瓶頸,如果差了,數(shù)據(jù)節(jié)點就擴展不了幾臺第二,學習成本及進度問題:要使用HDFS,必要熟悉它帶來整個DFS集群布置維護等工作這個與可運用團隊資源相提供原則合同接口,應(yīng)用程序代碼不需作任么統(tǒng)一接口底層必要要寫兩種代碼第一是對面DF第二是面對HDFS。新增長了開發(fā)、維護、測試時間。第三,空間揮霍及孤島問題:S2DFS與HDFS是兩套不同體系文獻系統(tǒng),她們之間設(shè)備及存儲空間是不能共用背面增長6臺,設(shè)備存儲與前面布置0臺設(shè)備通過對原始數(shù)據(jù)解決壓縮后,存儲空間尚有多余。兩者構(gòu)成了孤島,同步導致空間揮霍。第四,應(yīng)用場景問題DFS對存儲網(wǎng)頁等文獻比較和諧畢竟它基因就。數(shù)據(jù)模型設(shè)計數(shù)據(jù)模型重要主公司數(shù)據(jù)模型與投資商數(shù)據(jù)模型兩個某些。3.3.1公司數(shù)據(jù)模型字段名備注name公司名稱econ_kind公司類型regist_capi注冊資本scope經(jīng)營范疇term_start營業(yè)開始日期term_end營業(yè)結(jié)束日期belong_org所屬工商局oper_name法人start_date成立日期status在業(yè)employees.job_title重要人員職位employees.sex重要人員性別重要人員姓名分支機構(gòu)名稱changerecords.change_item變更項目changerecords.change_date變更日期changerecords.before_content變更前內(nèi)容changerecords.after_content變更后內(nèi)容partners.stock_name股東姓名partners.stock_type股東類型partners.identify_type證照/證件類型partners.identify_no證照/證件號碼partners.should_capi_items.shoud_capi認繳出資額partners.should_capi_items.invest_type出資方式partners.should_capi_items.should_capi_date出資時間partners.real_capi_items.real_capi實繳出資額partners.real_capi_items.invest_type出資方式partners.real_capi_items.real_capi_date實繳時間3.3.2投資商數(shù)據(jù)模型字段名備注name投資商名稱econ_kind公司類型regist_capi注冊資本scope經(jīng)營范疇term_start營業(yè)開始日期term_end營業(yè)結(jié)束日期belong_org所屬工商局oper_name法人start_date成立日期status在業(yè)employees.job_title重要人員職位employees.sex重要人員性別重要人員姓名分支機構(gòu)名稱changerecords.change_item變更項目changerecords.change_date變更日期changerecords.before_content變更前內(nèi)容changerecords.after_content變更后內(nèi)容partners.stock_name股東姓名partners.stock_type股東類型partners.identify_type證照/證件類型partners.identify_no證照/證件號碼partners.should_capi_items.shoud_capi認繳出資額partners.should_capi_items.invest_type出資方式partners.should_capi_items.should_capi_date出資時間partners.real_capi_items.real_capi實繳出資額partners.real_capi_items.invest_type出資方式partners.real_capi_items.real_capi_date實繳時間Investment_industry投資行業(yè)investment投資金額

4數(shù)據(jù)運營4.1數(shù)據(jù)挖掘分析行業(yè)數(shù)據(jù)挖掘分析普遍采用CRISP-DM辦法論。CRISP-DM將一種數(shù)據(jù)挖掘項目生命周期定義為六個階段:業(yè)務(wù)理解(也稱為商業(yè)理解)、數(shù)據(jù)理解、數(shù)據(jù)準備、建立模型、模型評估、模型發(fā)布。1.業(yè)務(wù)理解:從業(yè)務(wù)角度理解項目目的和需求,然后將這種需求轉(zhuǎn)換成一種數(shù)據(jù)挖掘問題定義,并設(shè)計出達到目的一種初步籌劃。2.數(shù)據(jù)理解:收集初始數(shù)據(jù),辨認數(shù)據(jù)質(zhì)量問題,找到對數(shù)據(jù)基本觀測、或假設(shè)隱含信息來監(jiān)測出感興趣數(shù)據(jù)子集。3.數(shù)據(jù)準備:對可用原始數(shù)據(jù)進行一系列組織以及清洗,使之達到建模需求。4.建立模型:選取各種建模技術(shù),并將其參數(shù)校正到優(yōu)化值。經(jīng)常要退回到數(shù)據(jù)準備階段。5.模型評估:對建立模型進行評估,重點詳細考慮得出成果與否符合第一步商業(yè)目。6.模型發(fā)布:將發(fā)現(xiàn)成果進行總結(jié)與應(yīng)用。4.2數(shù)據(jù)分析解決重要工作一方面,是數(shù)據(jù)倉庫或數(shù)據(jù)集市建立,對數(shù)據(jù)進行預解決。數(shù)據(jù)分析解決以公司經(jīng)營管理需求為基本,依照不同分析主題,從公司許多來自不同運作系統(tǒng)數(shù)據(jù)中提取出有用數(shù)據(jù),以保證數(shù)據(jù)對的性,然后通過抽取、轉(zhuǎn)換和裝載,即ETL過程,合并到一種公司級數(shù)據(jù)倉庫里,得到公司數(shù)據(jù)一種全局視圖。另一方面,是聯(lián)機分析解決和數(shù)據(jù)挖掘,進而將數(shù)據(jù)轉(zhuǎn)化為信息和知識。聯(lián)機分析解決是在數(shù)據(jù)倉庫基本上,對商業(yè)問題進行建模和數(shù)據(jù)進行多維分析。而數(shù)據(jù)挖掘通過度析每個數(shù)據(jù),從大量數(shù)據(jù)中尋找其規(guī)律技術(shù)。雖然用諸如神經(jīng)網(wǎng)絡(luò)、規(guī)則歸納等技術(shù),用來發(fā)現(xiàn)數(shù)據(jù)間聯(lián)系,做出基于數(shù)據(jù)推斷。通過聯(lián)機分析解決和數(shù)據(jù)挖掘,決策人員和高層管理能從多維角度精確掌控公司經(jīng)營狀況和理解不同數(shù)據(jù)之間有關(guān)關(guān)系,以便制定對的決策。最后,是知識結(jié)論可視化展示,實現(xiàn)知識向智慧轉(zhuǎn)變。通過借助信息化系統(tǒng),以簡樸、豐富和直觀形式,將查詢報表、記錄分析、多維聯(lián)機分析和數(shù)據(jù)發(fā)掘結(jié)論呈現(xiàn)公司管理者和決策者面前。而隨著管理者對知識不斷積累和更新,會進一步將知識轉(zhuǎn)化為公司管理者智慧。最后成果為:依照招商大數(shù)據(jù)平臺數(shù)據(jù)運營規(guī)范有關(guān)規(guī)定至少進行三個月數(shù)據(jù)運營服務(wù),并提供數(shù)據(jù)運營報告。驗證數(shù)據(jù)運營規(guī)范流程、優(yōu)化數(shù)據(jù)模板,并形成特定數(shù)據(jù)運營操作指南。4.3數(shù)據(jù)分析團隊組織和管理 數(shù)據(jù)分析團隊負責開展數(shù)據(jù)采集、數(shù)據(jù)解決、數(shù)據(jù)管理和數(shù)據(jù)綜合分析等工作。分析專家做是預測建模、數(shù)據(jù)挖掘以及其她某些高檔分析工作,而不是像定制報表和電子表格這樣程序化工作。她們解決問題環(huán)境,用法,甚至需要參加各類培訓均有很大不同。因而在數(shù)據(jù)分析團隊建設(shè)和組織管理上有其非常特殊規(guī)定。1、數(shù)據(jù)分析團隊建設(shè)(一)合理組建數(shù)據(jù)分析團隊。整合客服中心人才資源,組建數(shù)據(jù)分析團隊,負責開展數(shù)據(jù)采集、數(shù)據(jù)解決、數(shù)據(jù)管理和數(shù)據(jù)綜合分析等工作。(二)強調(diào)共同價值體現(xiàn)。數(shù)據(jù)分析團隊成員在目的、達到這些目的途徑和所需合伙上要努力達到一致,這樣可以增強團隊認同感。強調(diào)數(shù)據(jù)分析團隊整體利益,擬定共同目的,勉勵分析團隊共享信息和思想,互相協(xié)助實現(xiàn)共同目的。(三)引入過程分析會議。過程分析會議是數(shù)據(jù)分析團隊內(nèi)部充分討論平臺,通過過程分析會議,增強彼此溝通,規(guī)定每個數(shù)據(jù)分析人員都提出實現(xiàn)共同目的辦法、思路。(四)勉勵和增進團隊內(nèi)部互相交流。提供數(shù)據(jù)分析團隊定期交流機會,勉勵每個數(shù)據(jù)分析人員在完畢某個大數(shù)據(jù)挖掘分析課題后,進行充分交流與總結(jié),增強數(shù)據(jù)分析團隊能力與水平,提煉數(shù)據(jù)分析經(jīng)驗。(五)公開數(shù)據(jù)挖掘分析成果形成勉勵。及時將數(shù)據(jù)分析分析團隊應(yīng)用狀況向辦內(nèi)發(fā)布,使數(shù)據(jù)分析分析團隊成員增強使感。2、團隊組織建設(shè)(一)為分析團隊樹立榜樣。要讓數(shù)據(jù)分析團隊發(fā)揮作用,一方面是要在團隊中突出一種或各種先進團隊成員,成為數(shù)據(jù)分析團隊成員表率,將優(yōu)良工作作風帶入團隊中,影響團隊中每一位成員。(二)傳授經(jīng)驗培養(yǎng)團隊精英。要在數(shù)據(jù)分析團隊中做好培訓、培養(yǎng)工作,把數(shù)據(jù)分析思路形成辦法傳授給團隊成員,團隊組織要培養(yǎng)團隊精英,發(fā)揮團隊精英作用,成為團隊主力。(三)靈活授權(quán)。隨著數(shù)據(jù)分析團隊逐漸形成與發(fā)展,團隊組織要通過合理授權(quán)讓團隊成員分擔責任,使團隊成員更多參加團隊工作中,容許團隊成員靈活開展工作,予以團隊成員信任,讓她們更積極為開展挖掘數(shù)據(jù)價值服務(wù),也予以團隊成員學習與成長空間,實現(xiàn)團隊成員自我價值體現(xiàn)。(四)發(fā)揮團隊凝聚力。數(shù)據(jù)分析團隊凝聚力是團隊精神體現(xiàn),高凝聚力會帶來高績效。團隊組織要讓團隊成員形成共同目的,并且增強團隊融合度,形成高昂團隊士氣,提高團隊績效。(五)形成有效團隊指揮。數(shù)據(jù)分析團隊成員在工作不可避免會浮現(xiàn)各種無法應(yīng)付問題,團隊組織管理者,最重要職責就是做好指揮工作,要和團隊成員形成良好溝通,及時理解團隊成員面臨問題,團隊管理者通過個人工作經(jīng)驗、閱歷,以及與有關(guān)部門或上級溝通給出良好解決方案,解決好團隊工作問題。

5安全設(shè)計云數(shù)據(jù)采集中心安全分為兩大某些一種是應(yīng)用數(shù)據(jù)安全一種是平臺運營安全。如果租用成熟DC機房那么機房自身安全就可以不論防火安防,門禁等統(tǒng)統(tǒng)可以忽視,外接路由器和防火墻也可以不采購。平臺安全平臺自身運營安全咱們采用分布式集群技術(shù)完畢每個業(yè)務(wù)解決群都是以集群方式存在,保證冗余度,每個集群中服務(wù)進程都是主/主、主/備方式運營,承載設(shè)備都保證在2臺以上。按照此設(shè)計思路,方案劃分了存儲/計算服務(wù)器集群(共8臺設(shè)備、EB/消息服務(wù)器集群(共4臺設(shè)備、應(yīng)用數(shù)據(jù)服務(wù)器集群(共兩臺設(shè)備負載均衡服務(wù)器集(共2臺設(shè)備專門數(shù)據(jù)備份服務(wù)器設(shè)備。數(shù)據(jù)安全應(yīng)用數(shù)據(jù)安全采用實時或者定期備份方式完畢備份設(shè)備可以在一定期期內(nèi)把數(shù)據(jù)備份到專門數(shù)據(jù)備份服務(wù)器上試實際狀況而定也可以采用己構(gòu)建平臺,把數(shù)據(jù)同步到綿陽或者其她地方數(shù)據(jù)中心中同樣以分布式文獻系統(tǒng)先期方案咱們建議把數(shù)據(jù)備份到數(shù)據(jù)備份服務(wù)器上,存儲在分布式文獻系統(tǒng)(S2DFS)由于數(shù)據(jù)量大,容量大,不建議再做備份,由于分布式文獻系統(tǒng)(S2DFS)可以建立RAID1架構(gòu)模式。咱們會把分布式數(shù)據(jù)庫(D2B)除了架構(gòu)構(gòu)建為Master-Slave、ReplicaSets模式外,此外通過BackUp/Restore工具完畢數(shù)據(jù)備份及恢復,第一次完畢冷備份,背面咱們就可以通過增量備份方式完畢。參照下面?zhèn)浞菁盎謴图軜?gòu):備份方略一種好備份恢復系統(tǒng)除了配備有好軟硬件之外更需要有良好備份方略進行保證對于備份系統(tǒng)必要依照各種應(yīng)用和業(yè)務(wù)解決類型來分別制定詳細備份方略。對于備份系統(tǒng)備份方略規(guī)劃,建議按照如下流程進行:備份任務(wù)指定專用介質(zhì)集;劃定可以進行數(shù)據(jù)備份時段。份方式時要在業(yè)務(wù)系統(tǒng)性能需求允許狀況下最大限度減少數(shù)據(jù)恢復時復雜限度。建議:對于數(shù)據(jù)量較大系統(tǒng)為減少數(shù)據(jù)備份對業(yè)務(wù)系統(tǒng)運營影響減少對備份介質(zhì)需求,可采用全備份+增量備份方式進行,建議每周進行一次全備,一周內(nèi)其她時間每天進行一次增量備份;對于數(shù)據(jù)量較小備份任務(wù)或較為核心業(yè)務(wù)則建議每天進行一次全備份,以減少恢復時復雜限度;在每次業(yè)務(wù)數(shù)據(jù)做大調(diào)節(jié)后應(yīng)及時做一次全備份;對于有關(guān)業(yè)務(wù)系統(tǒng)數(shù)據(jù)為保證數(shù)據(jù)一致性盡量安排在同一天進行備份;一方面保證核心業(yè)務(wù)數(shù)據(jù)備份;盡量使備份數(shù)量在一周內(nèi)每天平均分布,可以采用大小數(shù)據(jù)量相搭配,或核心業(yè)務(wù)與非核心業(yè)務(wù)相搭配等方式進行;應(yīng)以保證每一次全備份完畢此前,均有可用介質(zhì)供數(shù)據(jù)恢復使用為準。下表給出了一種備份方略定制示例:星期一星期二星期三星期四星期五星期六星期日備份任務(wù)組一FIIIIII備份任務(wù)組二IFIIIII備份任務(wù)組三IIFIIII備份任務(wù)組四IIIFIII備份任務(wù)組五IIIIFII備份任務(wù)組六IIIIIFI備份任務(wù)組七IIIIIIF……體方略依照顧客規(guī)定來定。

6風險分析序號風險內(nèi)容嚴重限度應(yīng)對辦法1.能否在公司規(guī)定較短時間內(nèi)完畢公司這次規(guī)定建設(shè)內(nèi)容aaS平臺建設(shè)涉及軟件硬件平臺構(gòu)建?高采用成熟通過驗證方案,涉及在生產(chǎn)環(huán)境中已經(jīng)驗證核心軟件平臺。2.負責該項目設(shè)計和實行團隊與否可以很快掌握涉及到核心技術(shù)(分布式文獻系統(tǒng)、分布式數(shù)據(jù)庫、作業(yè)調(diào)度及并行計算等等)?高與熟悉這些核心技術(shù)團隊合伙,保證在公司規(guī)定期限內(nèi)完成該項目。

7布置方案1. 軟件配備表序號名稱配備描述布置硬件服務(wù)器數(shù)量用途分布式文獻系統(tǒng)存儲及計算服務(wù)器用來存儲非構(gòu)造化和構(gòu)造化數(shù)據(jù),文檔等富媒體文獻JSS作業(yè)調(diào)度服務(wù)進程存儲及計算服務(wù)器2作(任務(wù)調(diào)度程序是計算任務(wù)發(fā)起者和調(diào)度者數(shù)據(jù)計算服務(wù)進程存儲及計算服務(wù)器作業(yè)(任務(wù))具體負責計算程序,接受JSS分配任務(wù),解決任務(wù),例如:圖片特性批評,視頻分析等等JGS作業(yè)自動生成進程存儲及計算服務(wù)器2作(任務(wù)自動生成重要用來生成固定規(guī)則任務(wù)例如臺標數(shù)據(jù)清理任務(wù)自動清理服務(wù)進程存儲及計算服務(wù)器2自動定期清除沒有運用價值歷史數(shù)據(jù)垃圾數(shù)據(jù)消息解決服務(wù)進程WEB及消息服務(wù)器6獲取分布式消息隊列中數(shù)據(jù)并對獲取數(shù)據(jù)進行既定規(guī)則業(yè)務(wù)解決最后把數(shù)據(jù)存儲在或者中SDS實時流數(shù)據(jù)解決服務(wù)進程WEB及消息服務(wù)器6可以實時持續(xù)完畢流式數(shù)據(jù)計算解決具備實時性,低延遲特點與批計算相相應(yīng)分布式數(shù)據(jù)庫(開源)分布式數(shù)據(jù)庫服務(wù)器分布式noSQL數(shù)據(jù)庫完畢海量結(jié)構(gòu)化數(shù)據(jù)存儲,具備容量大分布式易擴展性能好特點8實行籌劃序號工作內(nèi)容完畢時間1.實行啟動-7-25前2.布置并聯(lián)調(diào)硬件(安裝操作系統(tǒng))及局域網(wǎng)網(wǎng)絡(luò),涉及外接三線光纖網(wǎng)絡(luò)-8-10前3.部署并聯(lián)調(diào)9.3x64forLinuxApache&Tomcat7.0-9-15前4.布置并聯(lián)調(diào)分布式文獻系統(tǒng)(S2DFS)、布置分布-9-30前5.公司數(shù)據(jù)采集服務(wù)、投資商數(shù)據(jù)采集服務(wù)、采集任務(wù)管理、云數(shù)據(jù)存儲、云中心監(jiān)控功能開發(fā)-10-31前6.公司數(shù)據(jù)采購、投資商數(shù)據(jù)采購-10-31前7.試運營完畢,項目驗收-12-31前

9技術(shù)規(guī)格偏離表名稱序號磋商文獻技術(shù)規(guī)范、規(guī)定響應(yīng)文獻中相應(yīng)條款內(nèi)容偏離技術(shù)支持資料索引xx大數(shù)據(jù)中心數(shù)據(jù)運營規(guī)范制定4.1結(jié)合xxx業(yè)務(wù)需要,依照招商大數(shù)據(jù)平臺建設(shè)內(nèi)容及招商業(yè)務(wù)應(yīng)用目的,參照業(yè)界大數(shù)據(jù)平臺數(shù)據(jù)運營成功案例,制定招商大數(shù)據(jù)平臺數(shù)據(jù)運營規(guī)范及有關(guān)管理規(guī)定,并詳細提供規(guī)范所涉及業(yè)務(wù)表單、報告模板等資料。4.數(shù)據(jù)運營無偏離有關(guān)元數(shù)據(jù)原則制定及數(shù)據(jù)采集、整頓與存儲4.2依照招商局大數(shù)據(jù)平臺數(shù)據(jù)分析需要,制定有關(guān)數(shù)據(jù)元數(shù)據(jù)原則,并完畢與當前大數(shù)據(jù)平臺對接。依照所定義元數(shù)據(jù)原則,完畢數(shù)據(jù)源定義與數(shù)據(jù)采集,并整頓形成原則數(shù)據(jù)。同步,結(jié)合招商大數(shù)據(jù)平臺數(shù)據(jù)分析特點,提出數(shù)據(jù)存儲方案并實行。供應(yīng)商需要對所采集數(shù)據(jù)數(shù)據(jù)源進行可信度驗證。數(shù)據(jù)采集范疇涉及但不限于世界500強、全國500強、行業(yè)20強公司有關(guān)數(shù)據(jù)。規(guī)定總數(shù)據(jù)容量至少達到30個T。其數(shù)據(jù)采集與存儲必要滿足海量數(shù)據(jù)解決規(guī)定,其架構(gòu)需要可以依照數(shù)據(jù)規(guī)模增大而迅速擴展。并依照數(shù)據(jù)采集、整頓與存儲管理特點,提取形成數(shù)據(jù)運營要點。2.云數(shù)據(jù)采集中心3.大數(shù)據(jù)計算平臺無偏離招商業(yè)務(wù)數(shù)據(jù)分析模型4.3依照招商業(yè)務(wù)需要,設(shè)計招商數(shù)據(jù)分析模型,并完畢系統(tǒng)實現(xiàn)。該模型需要在招商大數(shù)據(jù)平臺數(shù)據(jù)集上進行測試與驗證。3.3.1公司數(shù)據(jù)模型3.3.2投資商數(shù)據(jù)模型無偏離數(shù)據(jù)運營4.4依照招商大數(shù)據(jù)平臺數(shù)據(jù)運營規(guī)范有關(guān)規(guī)定至少進行三個月數(shù)據(jù)運營服務(wù),并提供數(shù)據(jù)運營報告。驗證數(shù)據(jù)運營規(guī)范流程、優(yōu)化數(shù)據(jù)模板,并形成特定數(shù)據(jù)運營操作指南。4.2數(shù)據(jù)分析解決重要工作無偏離項目運維規(guī)定4.5提供系統(tǒng)運維整體方案,涉及運維服務(wù)支持籌劃、針對不同問題運維管理過程及運維支持人員信息。10售后服務(wù)承諾11關(guān)于運營維護承諾無偏離

10售后服務(wù)承諾(1)本項目應(yīng)用系統(tǒng)從項目總體驗收合格之日(從雙方代表終驗簽字之日起計算)起,我公司提供所開發(fā)系統(tǒng)免費維護12個月。(2)在質(zhì)量保證期內(nèi),我方提供技術(shù)服務(wù)、升級服務(wù)并負責對運營中浮現(xiàn)軟件故障進行解決,依照實際故障狀況我方派員負責查找故障因素并將系統(tǒng)恢復到正常運營狀態(tài)。在質(zhì)量保證期內(nèi),我方向業(yè)主方提供7*24小時服務(wù)響應(yīng),保證業(yè)主方可以隨時找到相應(yīng)技術(shù)人員,我方在接到顧客電話、傳真告知后,30分鐘內(nèi)響應(yīng),普通問題一天內(nèi)解決,重大問題三天內(nèi)解決。特殊狀況無法修復,質(zhì)保期內(nèi)我方無條件更換新軟件;或采用使系統(tǒng)可正常運轉(zhuǎn)辦法。(3)我方將長期提供優(yōu)良技術(shù)支持,保修期間維護服務(wù)不收取任何額外費用,保證期后,我方承諾仍依照合同規(guī)定向業(yè)主方提供技術(shù)服務(wù),并以合理價格提供軟件功能改系統(tǒng)維護與支持詳細內(nèi)容如下:電話支持我公司提供相應(yīng)用系統(tǒng)運營、維護提供24小時實時技術(shù)支持。我公司提供熱線電話或Email、傳真等方式隨時回答顧客各種技術(shù)問題并在24小時內(nèi)提出解決方案。故障響應(yīng)7X24小時實時故障響應(yīng)。我公司在浮現(xiàn)系統(tǒng)軟件及應(yīng)用軟件等系統(tǒng)故障2小時內(nèi)予以響應(yīng),12小時內(nèi)恢復運營。遠程技術(shù)支持當系統(tǒng)浮現(xiàn)故障,經(jīng)顧客允許后,我公司遠程登錄顧客系統(tǒng),進行故障分析、問題定位并提供解決方案。對系統(tǒng)進行任何配備、數(shù)據(jù)改動及其他也許對系統(tǒng)和業(yè)務(wù)導致不良影響操作,保證經(jīng)顧客確認后進行。定期跟蹤項目驗收完畢后,我公司將定期電話、現(xiàn)場跟蹤系統(tǒng)使用狀況,聽取意見和建議,及時分析系統(tǒng)存在問題,并隨時予以解決。必要時,我公司將派遣技術(shù)人員去現(xiàn)場解決存在問題。系統(tǒng)軟件升級我公司將及時向顧客通報系統(tǒng)軟件升級狀況,若顧客需要對系統(tǒng)軟件升級,我公司會提供升級版本和相應(yīng)支持服務(wù)?,F(xiàn)場服務(wù)當系統(tǒng)運營環(huán)境浮現(xiàn)嚴重故障,或因更換服務(wù)器等因素需要重新搭建系統(tǒng)時,我公司將及時提供切實可行建議,通過遠程支持不能及時解決問題時,派技術(shù)支持人員趕赴現(xiàn)場,協(xié)助顧客完畢故障排除、升級或遷移操作,對系統(tǒng)進行完整性檢查并跟蹤運營。

11關(guān)于運營維護承諾我公司承諾如若我公司為成交供應(yīng)商,在項目驗收合格交付采購人使用后,1、為采購人免費提供運營維護期

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論