




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 .典型云計(jì)算平臺(tái)架構(gòu)開源成熟的 hadoop 生態(tài)體系從企業(yè)的技術(shù)選型角度,hadoop 能滿足大數(shù)據(jù)場(chǎng)景下絕打多數(shù)需求,同時(shí)在技術(shù)可行性與成本上,具有無可比擬額優(yōu)勢(shì)。1、 hadoop 是架構(gòu)在廉價(jià)的硬件服務(wù)器上,不需要非常昂貴的硬件做支撐。2、 開源的產(chǎn)品,免費(fèi)的,基于開源協(xié)議,可以自由修改,可控性更大。3、因?yàn)閷儆诙伍_發(fā),同時(shí)因?yàn)橛蟹浅;钴S的社區(qū)討論,對(duì)開發(fā)人員的能力要求相對(duì)不高,工程師的學(xué)習(xí)成本也并不高。4、當(dāng)集群規(guī)模非常大時(shí),開發(fā)成本和維護(hù)成本會(huì)凸顯出來。但是相對(duì)于自研系統(tǒng)來說的話,還是便宜的很多。hadoop 的整個(gè)生態(tài)體系,涵蓋了系統(tǒng)數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)收集、數(shù)據(jù)導(dǎo)入導(dǎo)出到關(guān)系數(shù)據(jù)
2、庫(kù)、并行計(jì)算框架、數(shù)據(jù)序列化處理與任務(wù)調(diào)度、數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)、列式存儲(chǔ)在線數(shù)據(jù)庫(kù)、元數(shù)據(jù)中心、工作流控制、系統(tǒng)部署配置監(jiān)控、可視化處理等等方方面面。word 資料 .大數(shù)據(jù)分析平臺(tái)一、海量數(shù)據(jù)存儲(chǔ)及擴(kuò)展能力基于分布式 hdfs 文件系統(tǒng)存儲(chǔ),ha 高可用配置, 數(shù)據(jù)多副本,異地備份容災(zāi)能力,以最經(jīng)濟(jì)的硬件成本支持海量數(shù)據(jù)存儲(chǔ)和擴(kuò)容。二、高負(fù)載和海量數(shù)據(jù)處理能力基于 yarn 之上的資源管控與調(diào)度模型,支持資源的動(dòng)態(tài)配置與熱啟動(dòng),公平科學(xué)的任務(wù)調(diào)度算法,達(dá)到資源利用的最大化、合理化。優(yōu)先分配就近的運(yùn)算節(jié)點(diǎn),盡可能降低網(wǎng)絡(luò)帶寬。高容錯(cuò)能力,支持任務(wù)重試和資源預(yù)估,不受個(gè)別越算節(jié)點(diǎn)故障影響。支持動(dòng)
3、態(tài)擴(kuò)充運(yùn)算資源。能在海量的服務(wù)器集群中執(zhí)行高復(fù)雜度、高資源需求、高運(yùn)算密集型的任務(wù)。三、靈活快速的平臺(tái)搭建及全面運(yùn)營(yíng)監(jiān)控指標(biāo)體系一鍵式的平臺(tái)搭建,支持快速搭建集群環(huán)境。靈活方便的配置界面,可針對(duì)集群、單機(jī)進(jìn)行系統(tǒng)配置及調(diào)優(yōu)。 提供自定義的服務(wù)模塊安裝、資源分配、權(quán)限管理。指標(biāo)體系全面的監(jiān)控管理、良好的可視化界面,提供自定義腳本的預(yù)警與處理。word 資料 .四、多平臺(tái)、多結(jié)構(gòu)的數(shù)據(jù)接入與處理支持各種格式、多數(shù)據(jù)源的數(shù)據(jù)導(dǎo)入。從系統(tǒng)日志、數(shù)據(jù)庫(kù)、第三方數(shù)據(jù)源等導(dǎo)入數(shù)據(jù)到集群環(huán)境,進(jìn)行快速地?cái)?shù)據(jù)清洗、轉(zhuǎn)化、建模、固化,提供各業(yè)務(wù)模塊進(jìn)行運(yùn)算處理。良好的模板配置,支持多 etl 任務(wù)自動(dòng)生成、運(yùn)行。
4、代碼規(guī)范統(tǒng)一。五、體驗(yàn)良好的交互式展示界面及報(bào)表工具除了展示各個(gè)常規(guī)指標(biāo)及運(yùn)算記過。通過專業(yè)的統(tǒng)計(jì)數(shù)據(jù)分析系統(tǒng)設(shè)計(jì)方法,理清海量數(shù)據(jù)指標(biāo)與維度,按主題、成體系呈現(xiàn)復(fù)雜數(shù)據(jù)背后的聯(lián)系;將多個(gè)視圖整合,展示同一數(shù)據(jù)在不同維度下呈現(xiàn)的數(shù)據(jù)背后的規(guī)律,幫助用戶從不同角度分析數(shù)據(jù)、縮小答案的范圍、展示數(shù)據(jù)的不同影響。具備顯示結(jié)果的形象化和使用過程的互動(dòng)性,便于用戶及時(shí)捕捉其關(guān)注的數(shù)據(jù)信息。word 資料 .hadoop大數(shù)據(jù)分析平臺(tái)解決方案說明簡(jiǎn)介本文檔描述本公司 hadoop 大數(shù)據(jù)分析平臺(tái)解決方案的具體實(shí)現(xiàn)細(xì)節(jié)。本平臺(tái)采用開源hadoop 組件搭建為一個(gè)通用目的的大數(shù)據(jù)分析平臺(tái),可用于各領(lǐng)域,包括:
5、教育、醫(yī)療、電信、銀行等大數(shù)據(jù)應(yīng)用客戶。平臺(tái)具備如下特點(diǎn):1. 一鍵安裝2. 可視化運(yùn)行維護(hù)3. 自由的擴(kuò)展性4. 完全開源,并于最新的穩(wěn)定版本同步5. 無縫集成 hadoop生態(tài)領(lǐng)域的各個(gè)數(shù)據(jù)分析組件6. 可視化大數(shù)據(jù)實(shí)驗(yàn)環(huán)境方案采用的 hadoop模塊列表 hdfs,用于大規(guī)模數(shù)據(jù)存儲(chǔ) yarn,系統(tǒng)資源管理 hive,基于 mapreduce的 sql數(shù)據(jù)訪問 pig,腳本式數(shù)據(jù)處理 storm,流式數(shù)據(jù)處理 spark/spark streaming,內(nèi)存計(jì)算框架 hbase,key-value數(shù)據(jù)存儲(chǔ) mapreduce,離線批處理計(jì)算框架 kafka,消息隊(duì)列式流失數(shù)據(jù)接入 hca
6、tlog,元數(shù)據(jù)管理 ambari,hadoop平臺(tái)監(jiān)控、管理界面 zookeeper,保證系統(tǒng)無單點(diǎn)運(yùn)行 oozie,工作流式任務(wù)調(diào)度方案的硬件方案本方案對(duì)于硬件沒用特別要求,平臺(tái)可以部署在 amazon等云服務(wù)上,可以部署在實(shí)體物理pc服務(wù)器構(gòu)成的集群上,也可以部署在基于openstack等其他虛擬節(jié)點(diǎn)上。大數(shù)據(jù)平臺(tái)功能列表在開源 hadoop模塊的基礎(chǔ)上,本公司的 hadoop大數(shù)據(jù)平臺(tái)對(duì)各模塊做了整合,從而形成一word 資料 .個(gè)通用的、企業(yè)級(jí)的數(shù)據(jù)平臺(tái)。系統(tǒng)結(jié)構(gòu)圖平臺(tái)功能模塊系統(tǒng)管理系統(tǒng)管理模塊提供如下功能:1. 節(jié)點(diǎn)管理,負(fù)責(zé)集群節(jié)點(diǎn)控制,可以增加、停用、啟用或者移除節(jié)點(diǎn)。2.
7、服務(wù)管理,對(duì)節(jié)點(diǎn)上每個(gè)服務(wù)進(jìn)行管理,如 hdfs,yarn,hbase 等,包括停止,啟動(dòng),重啟。3. 對(duì)象管理,hive、hbase、hdfs 數(shù)據(jù)對(duì)象的增刪改查。4. 日志審計(jì),操作日志記錄了所有改變系統(tǒng)配置的操作,通過日志的查詢審計(jì),發(fā)現(xiàn)不當(dāng)操作,保證系統(tǒng)安全穩(wěn)定運(yùn)行。word 資料 .多租戶管理多租戶管理模塊提供如下功能:1. 用戶管理,負(fù)責(zé)用戶的增刪改查。2. 角色管理,負(fù)責(zé)角色的增刪改查。3. 權(quán)限管理,負(fù)責(zé)授權(quán)和取消授權(quán)。4. 隊(duì)列管理,負(fù)責(zé) yarn隊(duì)列管理。5. 資源使用規(guī)則管理,負(fù)責(zé)資源使用規(guī)則的增刪改查。系統(tǒng)監(jiān)控系統(tǒng)監(jiān)控提供如下功能:1. 集群監(jiān)控,顯示集群 cpu、內(nèi)存
8、、網(wǎng)絡(luò)、io使用情況。2. 節(jié)點(diǎn)監(jiān)控,顯示節(jié)點(diǎn)上每個(gè)組件服務(wù)的狀態(tài)及運(yùn)行情況;顯示節(jié)點(diǎn) cpu、內(nèi)存、網(wǎng)絡(luò)、io使用情況。3. 任務(wù)監(jiān)控,監(jiān)控節(jié)點(diǎn)上每個(gè)作業(yè)的完成情況。調(diào)度管理prospector大數(shù)據(jù)平臺(tái)提供所有類型的任務(wù)調(diào)度管理。prospector大數(shù)據(jù)平臺(tái)的任務(wù)類型包括:數(shù)據(jù)集成任務(wù)、數(shù)據(jù)預(yù)處理任務(wù)和數(shù)據(jù)分析任務(wù)三類。prospector大數(shù)據(jù)平臺(tái)可以對(duì)所有類型任務(wù)實(shí)線以下類型調(diào)度: 一次性執(zhí)行 定期執(zhí)行 條件執(zhí)行數(shù)據(jù)集成 (data integrator)數(shù)據(jù)集成理模塊負(fù)責(zé)將外部數(shù)據(jù)源導(dǎo)入到 prospector大數(shù)據(jù)平臺(tái),同時(shí)也負(fù)責(zé)將數(shù)據(jù)分享到其他的外部數(shù)據(jù)存儲(chǔ)。睿帆data in
9、tegrator用于將外部數(shù)據(jù)源的數(shù)據(jù)集成到hadoop大數(shù)據(jù)平臺(tái)。data integrator支持三大類數(shù)據(jù)源:1 數(shù)據(jù)庫(kù)、nosql系統(tǒng)2 文件系統(tǒng)(ftp、hdfs)3 消息隊(duì)列(kafka、activemq)word 資料 .數(shù)據(jù)庫(kù)、nosql系統(tǒng)數(shù)據(jù)源l db2l oraclel teradatal mysqll netezzal postgresqll sybase iql vertical greenpluml hivel hbase文件系統(tǒng)與文件格式l apache logl csv/tsvl html/xmll jsonl avrol parquetl binaryl ke
10、y, valuel orc消息隊(duì)列數(shù)據(jù)源l kafkal activemq數(shù)據(jù)治理(data governor)數(shù)據(jù)治理模塊負(fù)責(zé)對(duì)導(dǎo)入到大數(shù)據(jù)平臺(tái)中的數(shù)據(jù)進(jìn)行處理,對(duì)數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換、過濾、聚合、脫敏等,將數(shù)據(jù)轉(zhuǎn)化成有意義的數(shù)據(jù)供分析人員使用。數(shù)據(jù)治理模塊同時(shí)負(fù)責(zé)數(shù)據(jù)質(zhì)量管理。word 資料 .數(shù)據(jù)質(zhì)量1 數(shù)據(jù)質(zhì)量評(píng)估。提供全方位數(shù)據(jù)質(zhì)量評(píng)估能力,如數(shù)據(jù)的重復(fù)性、關(guān)聯(lián)性、正確性、完全性、一致性、合規(guī)性等,對(duì)數(shù)據(jù)進(jìn)行全面體檢。2 數(shù)據(jù)質(zhì)量檢核和執(zhí)行。提供配置化的度量規(guī)則和檢核方法生成能力,提供檢核腳本的定時(shí)調(diào)度執(zhí)行和第三方調(diào)度工具的調(diào)度執(zhí)行功能。3 數(shù)據(jù)質(zhì)量監(jiān)控。系統(tǒng)提供報(bào)警機(jī)制,對(duì)檢核規(guī)則或
11、方法進(jìn)行閥值設(shè)置,對(duì)超出閥值的規(guī)則進(jìn)行不同級(jí)別的告警和通知。4 定制化數(shù)據(jù)質(zhì)量報(bào)告。系統(tǒng)提供了豐富的api可進(jìn)行定制化數(shù)據(jù)質(zhì)量包括開發(fā),另外系統(tǒng)內(nèi)置了常用質(zhì)量報(bào)告。5 強(qiáng)大的數(shù)據(jù)質(zhì)量問題分析能力。 提供多種問題分析能力,包括血統(tǒng)分析,影響分析,全鏈分析,定位問題產(chǎn)生的根源。數(shù)據(jù)整理與轉(zhuǎn)換1 數(shù)據(jù)整理。包括數(shù)據(jù)過濾、數(shù)據(jù)合并、數(shù)據(jù)拆分、數(shù)據(jù)復(fù)制、數(shù)據(jù)排序等數(shù)據(jù)預(yù)處理功能。2 數(shù)據(jù)轉(zhuǎn)換。計(jì)算產(chǎn)生新變量、重新賦值、統(tǒng)計(jì)匯總、rank、生成隨機(jī)數(shù)、替換缺失值、空值處理、lookup等數(shù)據(jù)轉(zhuǎn)換功能。數(shù)據(jù)分析(data analyzer)數(shù)據(jù)分析模塊提供應(yīng)用開發(fā)環(huán)境、集成簡(jiǎn)化機(jī)器學(xué)習(xí)算法、提供圖形化的拖拽
12、界面供數(shù)據(jù)分析使用。應(yīng)用開發(fā)用戶通過可視化方式定義工作流完成下數(shù)據(jù)分析:統(tǒng)計(jì)報(bào)表、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、文本挖掘。word 資料 .拖拽式可視化開發(fā)環(huán)境企業(yè)數(shù)據(jù)分析用戶通過可視化開發(fā)環(huán)境定義數(shù)據(jù)分析的邏輯,data analyzer將其轉(zhuǎn)化成對(duì)底層數(shù)據(jù)分析算法的調(diào)用,并提供任務(wù)執(zhí)行、任務(wù)調(diào)度和任務(wù)管理功能。data analyzer樣例企業(yè)數(shù)據(jù)分析師可以同過 data analyzer完成一系列數(shù)據(jù)分析。聚類通過聚類算法,data analyzer可以把企業(yè)客戶分成相似但不相同的、又無直接關(guān)聯(lián)關(guān)系的客戶群體,顯而易見是聚類結(jié)果可以幫企業(yè)客戶分群。word 資料 .決策樹通過決策樹算法,data
13、analyzer可以把客戶根據(jù)不同屬性的取值劃分到固定的類別,例如高收入、高潛力、高風(fēng)險(xiǎn)等。而這些通過屬性的分類規(guī)律很可能隱藏在數(shù)據(jù)中而從未被發(fā)現(xiàn)。屬性關(guān)聯(lián)通過屬性關(guān)聯(lián)算法,data analyzer可以發(fā)現(xiàn)客戶年齡、學(xué)歷等屬性與收入、信用記錄之間的潛在關(guān)聯(lián)關(guān)系,從而幫助企業(yè)制定有針對(duì)性的客戶發(fā)展計(jì)劃。預(yù)測(cè)推薦通過關(guān)聯(lián)算法,data analyzer 可以根據(jù)客戶信息預(yù)測(cè)他/她在某方面(音樂、電影)的興趣度,從而協(xié)助企業(yè)的精準(zhǔn)營(yíng)銷。word 資料 .數(shù)據(jù)可視化(data viewer)prospector采用 graph viz, d3 javascripts和 google charts的技術(shù)框架實(shí)現(xiàn)如下數(shù)據(jù)的可視化:結(jié)構(gòu)化數(shù)據(jù)、柱狀圖、非結(jié)構(gòu)化數(shù)據(jù)、網(wǎng)絡(luò)圖、序列圖等。平臺(tái)運(yùn)維本公司對(duì)于 hadoop大數(shù)據(jù)分析平臺(tái)方案提供升級(jí)服務(wù)和 hadoop/spark相
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 國(guó)有土地開發(fā)建設(shè)合同范文
- 國(guó)際商標(biāo)使用權(quán)轉(zhuǎn)讓合同標(biāo)準(zhǔn)格式
- 合資成立分公司合同書
- 成都市房屋租賃簡(jiǎn)易合同模板
- 項(xiàng)目出資合同模板
- 水產(chǎn)養(yǎng)殖基地建設(shè)承包合同范本
- 建筑工程施工合同樣本(律師審核版)
- 訴訟離婚合同范本
- 廣播電視設(shè)備智能生物藥品臨床應(yīng)用技術(shù)考核試卷
- 信息技術(shù)創(chuàng)新與數(shù)字化轉(zhuǎn)型考核試卷
- 2024年單招計(jì)算機(jī)試題題庫(kù)及答案
- 肝癌科普講座課件
- 中國(guó)航天“大總師-孫家棟”
- 機(jī)電運(yùn)輸安全基本知識(shí)
- 基于51單片機(jī)的無功補(bǔ)償裝置
- 幼兒園公開課:大班語(yǔ)言《相反國(guó)》課件(優(yōu)化版)
- 水利設(shè)施維護(hù)投標(biāo)方案(技術(shù)標(biāo))
- 2024屆湖南省長(zhǎng)沙市湖南師大附中等校高三上學(xué)期月考(二)語(yǔ)文試題(解析版)
- 上海科技版小學(xué)二年級(jí)下冊(cè)綜合實(shí)踐活動(dòng)全冊(cè)教案
- 氣缸磨損的測(cè)量說課教案
- 《高鐵乘務(wù)安全管理及應(yīng)急處置》課程教案-崔藝琳編寫
評(píng)論
0/150
提交評(píng)論