




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
典型云計算平臺架構開源成熟的hadoop生態(tài)體系從企業(yè)的技術選型角度,hadoop能滿足大數(shù)據(jù)場景下絕打多數(shù)需求,同時在技術可行性與成本上,具有無可比擬額優(yōu)勢。1、Hadoop是架構在廉價的硬件服務器上,不需要非常昂貴的硬件做支撐。2、開源的產品,免費的,基于開源協(xié)議,可以自由修改,可控性更大。3、因為屬于二次開發(fā),同時因為有非?;钴S的社區(qū)討論,對開發(fā)人員的能力要求相對不高,工程師的學習成本也并不高。4、當集群規(guī)模非常大時,開發(fā)成本和維護成本會凸顯出來。但是相對于自研系統(tǒng)來說的話,還是便宜的很多。hadoop的整個生態(tài)體系,涵蓋了系統(tǒng)數(shù)據(jù)存儲、數(shù)據(jù)收集、數(shù)據(jù)導入導出到關系數(shù)據(jù)庫、并行計算框架、數(shù)據(jù)序列化處理與任務調度、數(shù)據(jù)挖掘和機器學習、列式存儲在線數(shù)據(jù)庫、元數(shù)據(jù)中心、工作流控制、系統(tǒng)部署配置監(jiān)控、可視化處理等等方方面面。大數(shù)據(jù)分析平臺一、海量數(shù)據(jù)存儲及擴展能力基于分布式HDFS文件系統(tǒng)存儲,HA高可用配置,數(shù)據(jù)多副本,異地備份容災能力,以最經濟的硬件成本支持海量數(shù)據(jù)存儲和擴容。二、高負載和海量數(shù)據(jù)處理能力基于yarn之上的資源管控與調度模型,支持資源的動態(tài)配置與熱啟動,公平科學的任務調度算法,達到資源利用的最大化、合理化。優(yōu)先分配就近的運算節(jié)點,盡可能降低網絡帶寬。高容錯能力,支持任務重試和資源預估,不受個別越算節(jié)點故障影響。支持動態(tài)擴充運算資源。能在海量的服務器集群中執(zhí)行高復雜度、高資源需求、高運算密集型的任務。三、靈活快速的平臺搭建及全面運營監(jiān)控指標體系一鍵式的平臺搭建,支持快速搭建集群環(huán)境。靈活方便的配置界面,可針對集群、單機進行系統(tǒng)配置及調優(yōu)。提供自定義的服務模塊安裝、資源分配、權限管理。指標體系全面的監(jiān)控管理、良好的可視化界面,提供自定義腳本的預警與處理。多租戶管理多租戶管理模塊提供如下功能:用戶管理,負責用戶的增刪改查。角色管理,負責角色的增刪改查。權限管理,負責授權和取消授權。隊列管理,負責Yarn隊列管理。資源使用規(guī)則管理,負責資源使用規(guī)則的增刪改查。系統(tǒng)監(jiān)控系統(tǒng)監(jiān)控提供如下功能:集群監(jiān)控,顯示集群cpu、內存、網絡、IO使用情況。節(jié)點監(jiān)控,顯示節(jié)點上每個組件服務的狀態(tài)及運行情況;顯示節(jié)點cpu、內存、網絡、IO使用情況。任務監(jiān)控,監(jiān)控節(jié)點上每個作業(yè)的完成情況。調度管理Prospector大數(shù)據(jù)平臺提供所有類型的任務調度管理。Prospector大數(shù)據(jù)平臺的任務類型包括:數(shù)據(jù)集成任務、數(shù)據(jù)預處理任務和數(shù)據(jù)分析任務三類。Prospector大數(shù)據(jù)平臺可以對所有類型任務實線以下類型調度:一次性執(zhí)行定期執(zhí)行條件執(zhí)行數(shù)據(jù)集成(DataIntegrator)數(shù)據(jù)集成理模塊負責將外部數(shù)據(jù)源導入到Prospector大數(shù)據(jù)平臺,同時也負責將數(shù)據(jù)分享到其他的外部數(shù)據(jù)存儲。睿帆DataIntegrator用于將外部數(shù)據(jù)源的數(shù)據(jù)集成到Hadoop大數(shù)據(jù)平臺。DataIntegrator支持三大類數(shù)據(jù)源:數(shù)據(jù)庫、NoSQL系統(tǒng)文件系統(tǒng)(FTP、HDFS)消息隊列(Kafka、ActiveMQ)數(shù)據(jù)庫、NoSQL系統(tǒng)數(shù)據(jù)源DB2OracleTeradataMySQLNetezzaPostgreSQLSybaseIQVerticaGreenplumHiveHBase文件系統(tǒng)與文件格式ApacheLogCSV/TSVHTML/XMLJSONAVROParquetBinaryKey,ValueORC消息隊列數(shù)據(jù)源KafkaActiveMQ數(shù)據(jù)治理(DataGovernor)數(shù)據(jù)治理模塊負責對導入到大數(shù)據(jù)平臺中的數(shù)據(jù)進行處理,對數(shù)據(jù)進行清洗、轉換、過濾、聚合、脫敏等,將數(shù)據(jù)轉化成有意義的數(shù)據(jù)供分析人員使用。數(shù)據(jù)治理模塊同時負責數(shù)據(jù)質量管理。數(shù)據(jù)質量數(shù)據(jù)質量評估。提供全方位數(shù)據(jù)質量評估能力,如數(shù)據(jù)的重復性、關聯(lián)性、正確性、完全性、一致性、合規(guī)性等,對數(shù)據(jù)進行全面體檢。數(shù)據(jù)質量檢核和執(zhí)行。提供配置化的度量規(guī)則和檢核方法生成能力,提供檢核腳本的定時調度執(zhí)行和第三方調度工具的調度執(zhí)行功能。數(shù)據(jù)質量監(jiān)控。系統(tǒng)提供報警機制,對檢核規(guī)則或方法進行閥值設置,對超出閥值的規(guī)則進行不同級別的告警和通知。定制化數(shù)據(jù)質量報告。系統(tǒng)提供了豐富的API可進行定制化數(shù)據(jù)質量包括開發(fā),另外系統(tǒng)內置了常用質量報告。強大的數(shù)據(jù)質量問題分析能力。提供多種問題分析能力,包括血統(tǒng)分析,影響分析,全鏈分析,定位問題產生的根源。數(shù)據(jù)整理與轉換數(shù)據(jù)整理。包括數(shù)據(jù)過濾、數(shù)據(jù)合并、數(shù)據(jù)拆分、數(shù)據(jù)復制、數(shù)據(jù)排序等數(shù)據(jù)預處理功能。數(shù)據(jù)轉換。計算產生新變量、重新賦值、統(tǒng)計匯總、Rank、生成隨機數(shù)、替換缺失值、空值處理、Lookup等數(shù)據(jù)轉換功能。數(shù)據(jù)分析(DataAnalyzer)數(shù)據(jù)分析模塊提供應用開發(fā)環(huán)境、集成簡化機器學習算法、提供圖形化的拖拽界面供數(shù)據(jù)分析使用。應用開發(fā)用戶通過可視化方式定義工作流完成下數(shù)據(jù)分析:統(tǒng)計報表、數(shù)據(jù)挖掘、機器學習、文本挖掘。拖拽式可視化開發(fā)環(huán)境企業(yè)數(shù)據(jù)分析用戶通過可視化開發(fā)環(huán)境定義數(shù)據(jù)分析的邏輯,DataAnalyzer將其轉化成對底層數(shù)據(jù)分析算法的調用,并提供任務執(zhí)行、任務調度和任務管理功能。DataAnalyzer樣例企業(yè)數(shù)據(jù)分析師可以同過DataAnalyzer完成一系列數(shù)據(jù)分析。聚類通過聚類算法,DataAnalyzer可以把企業(yè)客戶分成相似但不相同的、又無直接關聯(lián)關系的客戶群體,顯而易見是聚類結果可以幫企業(yè)客戶分群。決策樹通過決策樹算法,DataAnalyzer可以把客戶根據(jù)不同屬性的取值劃分到固定的類別,例如高收入、高潛力、高風險等。而這些通過屬性的分類規(guī)律很可能隱藏在數(shù)據(jù)中而從未被發(fā)現(xiàn)。屬性關聯(lián)通過屬性關聯(lián)算法,DataAnalyzer可以發(fā)現(xiàn)客戶年齡、學歷等屬性與收入、信用記錄之間的潛在關聯(lián)關系,從而幫助企業(yè)制定有針對性的客戶發(fā)展計劃。預測推薦通過關聯(lián)算法,DataAnalyzer可以根據(jù)客戶信息預測他/她在某方面(音樂、電影)的興趣度,從而協(xié)助企業(yè)的精準營銷。數(shù)據(jù)可視化(DataViewer)Prospector采用GraphViz,D3Javascripts和GoogleCharts的技術框架實現(xiàn)如下數(shù)據(jù)的可視化:結構化數(shù)據(jù)、柱狀圖、非結構化數(shù)據(jù)、網絡圖、序列圖等。平臺運維本公司對于Hadoop大數(shù)據(jù)分析平臺方案提供升級服務和Hadoop/Spark相關的技術支持。運維服務通過現(xiàn)場和遠程兩種方式配合來
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 護理會診的理由
- 如何緩解護理工作壓力
- 吊車與升降設備維護協(xié)議
- 總裁給新人培訓
- 《畫里空間》教學課件-2024-2025學年湘美版(2024)初中美術七年級下冊
- 幼兒園獲獎公開課:大班健康《身體部位》課件
- 大眾創(chuàng)業(yè)萬眾創(chuàng)新意義
- 常見傳染病管理流程
- 彩云衣美術課件
- 小家電設計工作室創(chuàng)業(yè)計劃
- 2023年教師資格之中學音樂學科知識與教學能力模擬考試試卷B卷含答案
- 旋轉機械故障診斷-不平衡
- 【電力服務收費項目及標準】 電力維護收費標準
- 軟件工程導論(第六版)電子教案(第1-13章)
- 《式微》課件完整版
- 幼兒園中班數(shù)學:《比較6~10兩數(shù)之間的關系》 課件
- 鋁件鍍銀工藝課件
- 供應室技能考核操作標準
- 經典物理浮力計算題(含答案)
- 2021年中國海洋大學輔導員招聘試題及答案解析
- 生物地理中考總復習知識點(地生中考,要這樣復習)
評論
0/150
提交評論