“1+X”(高級)02-阿里云大數(shù)據(jù)體系架構(gòu)_第1頁
“1+X”(高級)02-阿里云大數(shù)據(jù)體系架構(gòu)_第2頁
“1+X”(高級)02-阿里云大數(shù)據(jù)體系架構(gòu)_第3頁
“1+X”(高級)02-阿里云大數(shù)據(jù)體系架構(gòu)_第4頁
“1+X”(高級)02-阿里云大數(shù)據(jù)體系架構(gòu)_第5頁
已閱讀5頁,還剩79頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

阿里云大數(shù)據(jù)體系架構(gòu)學習完本課程后,你將能夠:了解阿里云大數(shù)據(jù)產(chǎn)品體系了解阿里云數(shù)據(jù)存儲與計算工具了解阿里云數(shù)據(jù)挖掘與機器學習工具了解阿里云數(shù)據(jù)可視化工具課程目標課程目錄阿里云大數(shù)據(jù)產(chǎn)品體系數(shù)據(jù)存儲計算工具數(shù)據(jù)挖掘與機器學習工具數(shù)據(jù)可視化工具阿里云大數(shù)據(jù)平臺一站式數(shù)據(jù)平臺提供多層服務行業(yè)解決方案阿里云大數(shù)據(jù)平臺定位阿里云大數(shù)據(jù)平臺產(chǎn)品架構(gòu)

交互式分析引擎

Hologres圖計算引擎GraphCompute大數(shù)據(jù)計算服務MaxCompute開源大數(shù)據(jù)計算服務E-MapReduce實時計算RealtimeComputeIOTDBHDFSOSS異構(gòu)數(shù)據(jù)源管理元數(shù)據(jù)采集與構(gòu)建元數(shù)據(jù)倉庫元數(shù)據(jù)服務跨引擎混合調(diào)度跨云混合調(diào)度跨地域混合調(diào)度流批混合調(diào)度調(diào)度流程邏輯控制離線開發(fā)實時開發(fā)機器學習圖計算分析交互式查詢數(shù)據(jù)服務應用開發(fā)智能云上開發(fā)X-Studio(IDE插件對接各種引擎)數(shù)據(jù)資產(chǎn)數(shù)據(jù)質(zhì)量數(shù)據(jù)安全數(shù)據(jù)分析數(shù)據(jù)監(jiān)控

數(shù)據(jù)分享批量同步實時同步增量同步數(shù)據(jù)轉(zhuǎn)換IOT采集計算存儲引擎全域數(shù)據(jù)集成統(tǒng)一元數(shù)據(jù)中心統(tǒng)一任務調(diào)度智能數(shù)據(jù)開發(fā)數(shù)據(jù)綜合治理DataWorks全域智能大數(shù)據(jù)平臺阿里云大數(shù)據(jù)平臺優(yōu)勢平臺優(yōu)勢應用廣泛的最佳實踐極致的性能與成本易用齊全的產(chǎn)品體系A(chǔ)I加持的雙生系統(tǒng)5阿里云大數(shù)據(jù)平臺VSHadoop大數(shù)據(jù)平臺數(shù)據(jù)采集與預處理:阿里云日志服務、數(shù)據(jù)集成、阿里云消息服務、DTS等數(shù)據(jù)同步工具數(shù)據(jù)存儲:MaxCompute(盤古)、TS、OSS(HBASE、Redis)同樣支持數(shù)據(jù)挖掘\分析:MaxComputeSQL、MaxComputeMR、PAI、ADB等數(shù)據(jù)應用:QuickBI、DataV,同樣支持Tableau、Qlikview、PowrerBI等DataWorks(飛天系統(tǒng))課程目錄阿里云大數(shù)據(jù)產(chǎn)品體系數(shù)據(jù)存儲計算工具2.1阿里云大數(shù)據(jù)計算服務MaxCompute2.2一站式大數(shù)據(jù)開發(fā)平臺DataWorks2.3阿里云分析型數(shù)據(jù)庫AnalyticDB數(shù)據(jù)挖掘與機器學習工具數(shù)據(jù)可視化工具大數(shù)據(jù)計算服務-MaxCompute大數(shù)據(jù)計算服務MaxCompute,由阿里云自主研發(fā),提供針對TB/PB級數(shù)據(jù)、實時性要求不高的分布式處理能力,應用于數(shù)據(jù)分析、挖掘、商業(yè)智能等領(lǐng)域。阿里巴巴的數(shù)據(jù)業(yè)務都運行在MaxCompute。MaxComputeMaxCompute是一種快速、完全托管的EB級數(shù)據(jù)倉庫解決方案。8MaxCompute系統(tǒng)架構(gòu)MaxCompute以數(shù)據(jù)為中心,內(nèi)建多種計算模型和服務接口,滿足廣泛的數(shù)據(jù)分析需求。一切服務“開通”即用,更好地賦能數(shù)據(jù)業(yè)務。以數(shù)據(jù)為中心統(tǒng)一的元數(shù)據(jù)及安全體系多計算模型,多種開發(fā)接口擴展更豐富的應用場景擁抱生態(tài)工具,降低用戶遷移風險與成本開箱即用的產(chǎn)品解決方案9MaxCompute產(chǎn)品特點易用標準API的方式提供服務高并發(fā)高吞吐量數(shù)據(jù)上傳下載全面支持基于SQL的數(shù)據(jù)處理管理與授權(quán)支持多用戶管理協(xié)同分析數(shù)據(jù)支持多種方式對用戶權(quán)限管理配置靈活的數(shù)據(jù)訪問控制策略分布式采用分布式集群架構(gòu)跨集群技術(shù)突破機群規(guī)??梢愿鶕?jù)需要靈活擴展安全自動存儲容錯機制所有計算在沙箱中運行保障數(shù)據(jù)高安全性、高可靠性10MaxCompute的主要功能及作用數(shù)據(jù)通道計算分析開發(fā)SDK安全服務MaxCompute致力于批量結(jié)構(gòu)化數(shù)據(jù)的存儲和計算,提供海量數(shù)據(jù)倉庫的解決方案及分析建模服務。通常和DataWorks一起構(gòu)建大數(shù)據(jù)分析平臺。11MaxCompute常見使用方式客戶端方式使用場景及優(yōu)勢API/SDK:以RESTfulAPI或JavaSDK、pythonSDK的方式提供離線數(shù)據(jù)處理服務。定制開發(fā),滿足個性化需求,與外部系統(tǒng)對接。CLT(CommandLineTool):運行在Window/Linux下的客戶端工具,通過CLT可以提交命令完成Project管理、DDL、DML等操作。本地上傳下載數(shù)據(jù)、項目空間管理;靈活、易用。DataWorks:提供了上層可視化ETL/BI工具,用戶可以基于DataWorks完成數(shù)據(jù)同步、任務調(diào)度、報表生成等常見操作。團隊分工協(xié)作數(shù)據(jù)開發(fā)全流程,高效、安全。IDE插件:eclipse插件、IDEA插件、RStudio插件,擴展IDE對MaxCompute的支持。使用第三方IDE對接MaxCompute,提升本地開發(fā)、調(diào)試效率。MaxCompute的使用有以下幾種方式:12MaxCompute的客戶端MaxCompute客戶端是一個java程序,需要JRE環(huán)境才能運行,請下載并安裝JRE1.6+版本(JRE1.7或以上版本,建議優(yōu)先使用JRE1.7/1.8,其中JRE1.9已經(jīng)支持,JRE1.10暫時還不支持)。1.官網(wǎng)下載客戶端壓縮文件2.解壓文件,可以看到如下4個文件夾:bin/conf/lib/plugins/客戶端工具CLT修改<ODPS_CLIENT>/conf/odps_conf.ini

project_name=[project_name]

access_id=****************

access_key=******************************end_point=/apitunnel_endpoint=log_view_host=https_check=<true|false>

13Java+eclipse的應用JavaeclipseStep01官網(wǎng)導航中找到并下載MaxComputeforeclipse插件;Step02將插件解壓并復制到問eclipse安裝目錄下的plug-in子目錄下;Step03啟動eclipse;Step04檢查Wizard選項,確認配置成功。14使用MaxComputStudioIntelliJIDEAMaxComputeStudio,是面向MaxCompute計算引擎開發(fā)的數(shù)據(jù)處理開發(fā)工具,是一套基于流行的集成開發(fā)平臺IntelliJIDEA的開發(fā)插件。安裝步驟:安裝JDK1.8安裝IntelliJIDEA,需要IntelliJIDEA14.1.4以上在IntelliJIDEA中打開File|Settings|Plugins,點擊Browserepositories...按鈕搜索“MaxComputeStudio",安裝MaxComputeStudio插件完成安裝,重新啟動IntelliJIDEA創(chuàng)建MaxCompute項目鏈接15數(shù)據(jù)上傳/下載綜述DataHub實時數(shù)據(jù)通道OGG插件Flume插件LogStash插件Fluentd插件Tunnel批量數(shù)據(jù)通道DataWorksDTSSqoopKettle插件MaxCompute客戶端MaxCompute系統(tǒng)上傳/下載數(shù)據(jù)包括兩種方式:16MaxComputeSQLMaxComputeSQL是個數(shù)據(jù)倉庫工具,Query解析后,計算和存儲交由底層的飛天實現(xiàn)。MaxComputeSQL支持常用的SQL語法,包括窗口函數(shù)MaxComputeSQL可以看做對標準SQL的支持,但是不能簡單等同于數(shù)據(jù)庫MaxComputeSQL不支持事務、主外鍵約束、索引等MaxComputeSQL長度有限制,目前是不能超過2MMaxComputeSQL適用于海量數(shù)據(jù)(TB/PB級別)的數(shù)據(jù)運算MaxComputeSQL的每個作業(yè)的準備,提交等階段要花費較長時間,實時性不高17MaxComputeSQL的函數(shù)內(nèi)置函數(shù)自定義函數(shù)MaxCompute中的函數(shù)18分布式離線計算框架-MapReduceMR的開發(fā)應用流程123412341)安裝配置環(huán)境2)開發(fā)MR程序;3)本地模式測試腳本4)導出Jar包55)上傳至MaxCompute項目空間66)在MaxCompute中使用MR20MaxCompute

Graph編程模型Graph是MaxCompute提供的面向迭代的圖計算處理框架,為用戶提供類似Pregel的編程接口,用戶可以基于Graph框架提供的接口JavaSDK開發(fā)高效的機器學習或數(shù)據(jù)挖掘算法。圖計算編程模型(類似GooglePregel)數(shù)據(jù)裝載到內(nèi)存,在迭代次數(shù)較多時優(yōu)勢明顯可用于開發(fā)機器學習算法可以支持100億頂點和1500億邊的規(guī)模典型應用:PagerankK-Means聚類一度、二度關(guān)系,最短路徑等Graph作業(yè)處理數(shù)據(jù)是一個圖原始數(shù)據(jù)存儲在Table中,用戶自定義的GraphLoader將Table中的數(shù)據(jù)加載為點和邊迭代計算21Graph的處理流程01加載圖02迭代計算03迭代終止圖加載:調(diào)用GraphLoader將表解析為點和邊分布化:調(diào)用Partitioner對點進

行分片,分配到相應的worker(如2個worker則0,2一組)執(zhí)行用戶實現(xiàn)的Compute:處理上一個超步發(fā)給當前點的消息根據(jù)需要對圖進行編輯

通過Aggregator匯總信息至全局設(shè)置當前點的狀態(tài):結(jié)束或者非結(jié)束框架將消息異步方式發(fā)給下一個超步滿足以下三條之一:所有點均處于已結(jié)束狀態(tài)達到最大迭代次數(shù)某個Aggregator的terminate返回True22使用場景基于SQL構(gòu)建大規(guī)模數(shù)據(jù)倉庫系統(tǒng)和BI系統(tǒng)基于DAG/Graph構(gòu)建大型分布式應用系統(tǒng)基于統(tǒng)計和機器學習的大數(shù)據(jù)統(tǒng)計和數(shù)據(jù)挖掘23課程目錄阿里云大數(shù)據(jù)產(chǎn)品體系數(shù)據(jù)存儲計算工具2.1阿里云大數(shù)據(jù)計算服務MaxCompute

2.2一站式大數(shù)據(jù)開發(fā)平臺DataWorks2.3阿里云分析型數(shù)據(jù)庫AnalyticDB數(shù)據(jù)挖掘與機器學習工具數(shù)據(jù)可視化工具大數(shù)據(jù)開發(fā)平臺-DataWorksDataWorks(數(shù)據(jù)工場,原大數(shù)據(jù)開發(fā)套件)是阿里云數(shù)加重要的PaaS平臺產(chǎn)品,它提供全面托管的工作流服務,一站式開發(fā)管理的界面,幫助企業(yè)專注于數(shù)據(jù)價值的挖掘和探索。它是一套基于MaxCompute(原ODPS)的DW解決方案,它集成了阿里多年的DW實施經(jīng)驗,提供數(shù)據(jù)集成、處理、分析和管理功能,并為代碼開發(fā)、調(diào)試、發(fā)布、運維、監(jiān)控和管理提供了一個高效、安全的離線數(shù)據(jù)開發(fā)環(huán)境。25DataWorks產(chǎn)品架構(gòu)DataWorks提供九個核心功能模塊:以數(shù)據(jù)為基礎(chǔ),以全鏈路加工為核心,提供數(shù)據(jù)匯聚、研發(fā)、治理、服務等多種功能。26DataWorks產(chǎn)品特點易用零成本構(gòu)建數(shù)據(jù)服務輕松構(gòu)建數(shù)據(jù)應用一站式數(shù)據(jù)解決方案管理與授權(quán)支持多用戶管理協(xié)同處理數(shù)據(jù)支持多種方式對用戶權(quán)限管理配置靈活的數(shù)據(jù)訪問控制策略強大數(shù)據(jù)支撐復雜網(wǎng)絡數(shù)據(jù)源環(huán)境千萬級別的復雜任務調(diào)度多種數(shù)據(jù)類型同步處理安全多角色靈活控制開發(fā)、生產(chǎn)環(huán)境隔離智能監(jiān)控27DataWorks

的主要功能及作用全面托管的調(diào)度數(shù)據(jù)轉(zhuǎn)化與同步可視化開發(fā)監(jiān)控告警使用DataWorks,可以對數(shù)據(jù)進行傳輸、轉(zhuǎn)換和集成等操作,從不同的數(shù)據(jù)存儲引入數(shù)據(jù),并進行轉(zhuǎn)化和開發(fā),最后將處理好的數(shù)據(jù)同步至其它數(shù)據(jù)系統(tǒng)。DataWorks提供全鏈路智能大數(shù)據(jù)及AI開發(fā)和治理服務。通常情況下DataWorks和其他產(chǎn)品結(jié)合在一起尤其是MaxCompute搭建數(shù)據(jù)分析系統(tǒng)。28DataWorks的使用流程DataWorks的使用從主賬號(組織管理員)創(chuàng)建項目和子賬號開始并賦權(quán)開始。不同角色的賬號操作模塊不同。開通MaxCompute資源新建項目空間新建項目空間創(chuàng)建子賬號分配項目管理員添加項目成員數(shù)據(jù)開發(fā)生產(chǎn)運維組織管理員(主賬號)項目管理員(子賬號)開發(fā)(子賬號)部署+運維(子賬號)1234開通MaxCompute資源DataWorks29數(shù)據(jù)平臺開發(fā)流程數(shù)據(jù)產(chǎn)生數(shù)據(jù)提取數(shù)據(jù)收集與存儲數(shù)據(jù)分析與處理數(shù)據(jù)展現(xiàn)與分享大數(shù)據(jù)開發(fā)平臺數(shù)據(jù)產(chǎn)生:業(yè)務系統(tǒng)產(chǎn)生的結(jié)構(gòu)化的數(shù)據(jù),通常存儲的數(shù)據(jù)庫中,如MySQL、Oracle、RDS等類型。數(shù)據(jù)收集與存儲:利用MaxCompute的海量數(shù)據(jù)存儲與處理能力來分析這些已有的數(shù)據(jù),首先需要將不同業(yè)務系統(tǒng)的數(shù)據(jù)同步至MaxCompute中。DataWorks提供數(shù)據(jù)集成服務,可將多種數(shù)據(jù)源類型數(shù)據(jù)按照預設(shè)的調(diào)度周期同步到MaxCompute中。數(shù)據(jù)分析與處理:對MaxCompute上的數(shù)據(jù)進行加工(MaxComputeSQL、MaxComputeMR)、分析與挖掘(數(shù)據(jù)分析、數(shù)據(jù)挖掘)等處理,從而發(fā)現(xiàn)其價值。數(shù)據(jù)提?。悍治雠c處理后的結(jié)果數(shù)據(jù),需同步導出至其他(業(yè)務)系統(tǒng),供業(yè)務人員使用其分析的價值。數(shù)據(jù)展現(xiàn)和分享:最后可通過報表、地理信息系統(tǒng)等多種展現(xiàn)方式來展示與分享大數(shù)據(jù)分析、處理后的成果。30數(shù)據(jù)處理數(shù)據(jù)輸入數(shù)據(jù)加工代碼發(fā)布生產(chǎn)運維數(shù)據(jù)輸出生產(chǎn)調(diào)度開發(fā)角色部署/運維運維角色涉及模塊:數(shù)據(jù)開發(fā)模塊發(fā)布管理模塊運維中心模塊數(shù)據(jù)管理模塊注:在數(shù)據(jù)開發(fā)過程中,需由項目管理員在【項目管理>數(shù)據(jù)源配置】來新增數(shù)據(jù)源供開發(fā)使用。31本地數(shù)據(jù)導入DataWorks支持以下兩種操作:將保存在本地的文本文件中的數(shù)據(jù)上傳到工作空間的表中。通過數(shù)據(jù)集成模塊將業(yè)務數(shù)據(jù)從多個不同的數(shù)據(jù)源導入到工作空間。本地文本文件上傳的限制如下:文件類型:僅支持.txt和.csv格式。文件大小:不超過10M。操作對象:導入分區(qū)表時,分區(qū)不允許為中文。32數(shù)據(jù)節(jié)點開發(fā)選擇或新建業(yè)務流程新建或選擇已有的ODPSSQL節(jié)點編寫符合語法的SQL代碼當前界面測試運行、檢查語法邏輯錯誤、輸出結(jié)果配置節(jié)點調(diào)度信息、依賴關(guān)系(非手工流程)保存、提交節(jié)點任務發(fā)布到生產(chǎn)、測試(非單一項目)DataWorks中,ODPSSQL節(jié)點、Shell節(jié)點、PyODPS節(jié)點等各類節(jié)點的開發(fā)過程大同小異,根本區(qū)別在于個不同類型節(jié)點的數(shù)據(jù)處理實現(xiàn)。ODPSSQL節(jié)點開發(fā)過程示例如下:33任務調(diào)度配置任務的時間屬性目前支持月、周、天、小時和分鐘5種配置方式,目前能支持的最短時間為5分鐘。說明:周期運行的任務依賴關(guān)系的優(yōu)先級

大于

時間屬性,即在時間屬性決定的某個時間點到達時,任務實例運行的前提是上游依賴是否全部運行成功。上游依賴的實例沒有全部運行成功

并且

定時運行時間已到,則實例仍為

未運行狀態(tài)。上游依賴的實例全部運行成功

并且

定時運行時間還未到,則實例進入

等待時間

狀態(tài)。上游依賴的實例全部運行成功

并且

定時運行時間已到,則實例進入

等待資源

狀態(tài)準備運行。34DataWorks中的參數(shù)設(shè)置參數(shù)類型設(shè)置方式適用類型參數(shù)編輯框示例系統(tǒng)參數(shù)date和bdp.system.cyctime在調(diào)度系統(tǒng)中運行時,無須在編輯框設(shè)置,可直接在代碼中引用${date}和${bdp.system.cyctime},系統(tǒng)將自動替換這兩個參數(shù)的取值全部節(jié)點類型無自定義參數(shù)在代碼中引用${key1},${key2},然后在“參數(shù)”編輯框以如下方式設(shè)置“key1=value1key2=value2”,除Shell外的其他節(jié)點類型常量參數(shù):param1=”abc”param2=1234;變量參數(shù):param1=$[yyyymmdd],結(jié)果將基于bdp.system.cyctime的取值計算在代碼中引用$1$2$3,然后在“參數(shù)”編輯框以如下方式設(shè)置:“value1value2value3”Shell類型常量參數(shù):”abc”1234;變量參數(shù):$[yyyymmdd],結(jié)果將基于bdp.system.cyctime的取值計算35數(shù)據(jù)管理數(shù)據(jù)管理為用戶提供組織內(nèi)全局數(shù)據(jù)視圖、用戶可以對組織內(nèi)數(shù)據(jù)進行分權(quán)管理、元數(shù)據(jù)信息詳情、數(shù)據(jù)生命周期管理、數(shù)據(jù)表/資源/函數(shù)權(quán)限管理審批等操作。具體功能以及管理模塊權(quán)限如圖:數(shù)據(jù)搜索數(shù)據(jù)權(quán)限申請新建表收藏表修改生命周期修改表結(jié)構(gòu)隱藏表修改表負責人刪除表查看表詳情類目導航配置功能模塊權(quán)限點組織管理員項目管理員開發(fā)權(quán)限管理權(quán)限審批與收回—√—管理配置類目導航配置√√√數(shù)據(jù)管理自己創(chuàng)建的表刪除√√√數(shù)據(jù)管理自己創(chuàng)建的表類目設(shè)置√√√數(shù)據(jù)管理自己收藏的表查看√√√數(shù)據(jù)管理新建表√√√數(shù)據(jù)管理自己創(chuàng)建的表取消隱藏√√√數(shù)據(jù)管理自己創(chuàng)建的表結(jié)構(gòu)變更√√√數(shù)據(jù)管理自己創(chuàng)建的表查看√√√數(shù)據(jù)管理自己申請的權(quán)限內(nèi)容查看√√√數(shù)據(jù)管理自己創(chuàng)建的表隱藏√√√數(shù)據(jù)管理自己創(chuàng)建的表生命周期設(shè)置√√√數(shù)據(jù)管理非自己創(chuàng)建的表數(shù)據(jù)權(quán)限申請√√√36運維操作運維中心僅對開發(fā)、運維、項目管理員角色的人員開放:開發(fā):進行單個工作流/節(jié)點測試、補數(shù)據(jù)、暫停、重跑任務,查看任務運行日志等操作,還可配置監(jiān)控報警;運維:經(jīng)常處理任務異常,運維任務包括:單個工作流/節(jié)點測試、補數(shù)據(jù)、暫停、重跑任務等操作。同時,還可進行批量修改工作流/節(jié)點屬性、批量殺任務及批量重跑、配置監(jiān)控報警等干預性操作。項目管理員:在運維中心模塊中擁有與運維人員同等的操作權(quán)限。37智能監(jiān)控智能監(jiān)控模塊是DataWorks(數(shù)據(jù)工場)任務運行的監(jiān)控及分析系統(tǒng)。根據(jù)監(jiān)控規(guī)則和任務運行情況,智能監(jiān)控決策是否報警、何時報警、如何報警以及給誰報警。智能監(jiān)控會自動選擇最合理的報警時間,報警方式以及報警對象?;€預警和事件告警通過設(shè)定基線監(jiān)控任務,即監(jiān)控范圍設(shè)定報警策略智能判定報警時機和對象、自動升級報警自定義提醒輕量級監(jiān)控功能自行設(shè)定報警對象、條件、方式以及頻次觸發(fā)條件包括完成、出錯、未完成、超時其他值班表功能,即可以設(shè)置某個值班表某個人在某個時間段內(nèi)接收報警值班表支持循環(huán)規(guī)則配置38課程目錄阿里云大數(shù)據(jù)產(chǎn)品體系數(shù)據(jù)存儲計算工具2.1阿里云大數(shù)據(jù)計算服務MaxCompute2.2一站式大數(shù)據(jù)平臺DataWorks

2.3阿里云分析型數(shù)據(jù)庫AnalyticDB數(shù)據(jù)挖掘與機器學習工具數(shù)據(jù)可視化工具AnalyticDB是什么?

分析型數(shù)據(jù)庫(AnalyticDB,原ADS):是阿里巴巴自主研發(fā)的海量數(shù)據(jù)實時高并發(fā)在線分析(RealtimeOLAP)云計算服務,使得您可以在毫秒級針對千億級數(shù)據(jù)進行即時的多維分析透視和業(yè)務探索。分析型數(shù)據(jù)庫對海量數(shù)據(jù)的自由計算和極速響應能力,能讓用戶在瞬息之間進行靈活的數(shù)據(jù)探索,快速發(fā)現(xiàn)數(shù)據(jù)價值,并可直接嵌入業(yè)務系統(tǒng)為終端客戶提供分析服務。AnalyticDB產(chǎn)品架構(gòu)41AnalyticDB

產(chǎn)品特點高度的計算自由無需預先進行數(shù)據(jù)建模海量數(shù)據(jù)靈活分析極速的響應時間毫秒級千億數(shù)據(jù)多維透視毫秒級多個大表關(guān)聯(lián)計算使用簡單支持標準SQL支持標準MySQL協(xié)議內(nèi)置數(shù)據(jù)接入和輸出豐富的特色功能高性能的自動索引海量數(shù)據(jù)的極速導出內(nèi)置空間、分段等函數(shù)42AnalyticDB

的主要功能及作用實時分析急速查詢超大規(guī)模易用兼容ADBMySQL版是云端托管的大規(guī)模并行處理(MPP)的PB級數(shù)據(jù)倉庫,通常作為實時分析數(shù)據(jù)庫應用,實時數(shù)據(jù)分析處理、在線數(shù)據(jù)運營。43AnalyticDB

的使用流程AnalyticDB云原生數(shù)據(jù)倉庫MySQL版完全兼容MySQL協(xié)議,創(chuàng)建好數(shù)據(jù)后,就可以像使用MySQL一樣使用數(shù)據(jù)庫了。開通服務創(chuàng)建集群設(shè)置白名單創(chuàng)建數(shù)據(jù)庫賬號創(chuàng)建數(shù)據(jù)庫連接集群、登錄數(shù)據(jù)庫數(shù)據(jù)操作AnalyticDB44數(shù)據(jù)庫連接MySQL連接命令:mysql–h<adb_url>-P3306–u<adb_user>-p<adb_password>示例:mysql-ham-bp****.-P3306-utest-pTest123參數(shù)說明:adb_url:AnalyticDBforMySQL集群的連接地址,通過控制臺集群信息頁面中的網(wǎng)絡信息區(qū)域獲取連接地址。3306:端口為3306。adb_user:AnalyticDBforMySQL集群中的高權(quán)限賬號或者擁有相關(guān)權(quán)限的普通賬號。adb_password:賬號對應的密碼。通過支持MySQL協(xié)議的客戶端連接數(shù)據(jù):45Java開發(fā)應用首先下載并安裝mysql-connector-java-5.x.x-bin.jar接著在Eclipse中,選擇項目->屬性->Java構(gòu)建路徑,在“庫”選項卡中,選擇“添加外部JAR”,找到下載的mysql-connector-java-5.x.x-bin.jar文件,將其添加進項目Connectionconnection=null;Statementstatement=null;ResultSetrs=null;try{Class.forName("com.mysql.jdbc.Driver");Stringurl="jdbc:mysql://adb_url:3306/db_name?useUnicode=true&characterEncoding=UTF-8";PropertiesconnectionProps=newProperties();connectionProps.put("user","account_name");connectionProps.put("password","account_password");

connection=DriverManager.getConnection(url,connectionProps);statement=connection.createStatement();Stringquery="selectcount(*)frominformation_schema.tables";rs=statement.executeQuery(query);while(rs.next()){System.out.println(rs.getObject(1));}}catch(ClassNotFoundExceptione){46數(shù)據(jù)導入導出數(shù)據(jù)管理DMS自帶功能DMLDataWorks數(shù)據(jù)同步支持CSV、ZIP、SQL文件上傳,普通版上傳文件大小限制為100M,高級版為1GB。分為兩類:其一通過外部表方式,此方式限于常見數(shù)據(jù)庫如RDS、DRDS之間、MaxCompute、OSS之間;其二使用客戶端通過Load命令方式。數(shù)據(jù)源類型支持DataWorks中定義的的數(shù)據(jù)源類型,包括:RDS、自建數(shù)據(jù)庫MySQL/SQLServer/postGreSQL、DRDS、OSS、Oracle、ftp等。實時數(shù)據(jù)傳輸工具其一支持通過DTS實時同步RDSforMySQL、DRDS數(shù)據(jù);其二通過Logstash實時采集日志數(shù)據(jù)或消息類數(shù)據(jù)到ADB。47課程目錄阿里云大數(shù)據(jù)產(chǎn)品體系數(shù)據(jù)存儲計算工具數(shù)據(jù)挖掘與機器學習工具3.1機器學習PAI數(shù)據(jù)可視化工具什么是機器學習PAI阿里云機器學習平臺PAI(PlatformofArtificialIntelligence):是構(gòu)建在阿里云MaxCompute計算平臺之上,集數(shù)據(jù)處理、建模、離線預測、在線預測為一體的機器學習平臺。為算法開發(fā)者提供了豐富的MPI、PS、BSP等編程框架和數(shù)據(jù)存儲接口,同時提供了基于WEB的可視化控制臺,降低了使用門檻。PAI上手簡單、算法豐富、一站式體驗并支持深度學習。機器學習PAI49PAI產(chǎn)品架構(gòu)50PAI產(chǎn)品特點易用通過對底層分布式算法的封裝,提供拖、拉、拽的可視化操作環(huán)境。使機器學習的創(chuàng)建過程像堆積木一樣簡單。算法豐富提供特征過程、數(shù)據(jù)預處理、統(tǒng)計分析、機器學習、深度學習框架、預測評估等300多種算法組件一站式提供模型訓練功能,還提供在線預測功能以及離線調(diào)度功能,讓機器學習訓練結(jié)果和業(yè)務可以無縫銜接。深度學習支持目前Tensorflow、Caffe、MXNet、PyTorch主流的機器學習框架,底層提供GPU卡進行訓練。51PAI的功能及應用可視化建模和分布式訓練交互式AI研發(fā)自動化建模在線預測服務PAI跟DataWorks是無縫打通的,實現(xiàn)SQL、UDF、UDAF、MR等多種數(shù)據(jù)處理,基于PAI平臺上訓練模型,生成的模型可以通過EAS部署到線上環(huán)境,并支持周期性調(diào)度,也可以發(fā)布到DataWorks與其它上下游任務節(jié)點打通依賴關(guān)系。另外調(diào)度任務區(qū)分生產(chǎn)環(huán)境以及開發(fā)環(huán)境,可以做到數(shù)據(jù)安全隔離。即數(shù)據(jù)在MaxCompute或OSS上,PAI完成數(shù)據(jù)建模。52PAI的使用流程PAI的可視化建??梢曰谀0逡部梢孕陆?。開通服務選擇所屬項目空間創(chuàng)建模板或選擇模板配置數(shù)據(jù)源數(shù)據(jù)建模部署應用PAI53PAI的數(shù)據(jù)建模數(shù)據(jù)預處理數(shù)據(jù)特征工程機器學習模型訓練模型評估離線/在線服務學習在明確任務、目標、并且掌握數(shù)據(jù)實際情況前提下,即完成商業(yè)理解任務、數(shù)據(jù)理解任務前提下,開始機器學習的數(shù)據(jù)建模過程:1)數(shù)據(jù)預處理2)選擇特征3)選擇模型進行數(shù)據(jù)訓練4)模型評估5)應用部署及再學習、再訓練54PAI建模支持的組件PAI提供最豐富的組件:包括特征工程、數(shù)據(jù)預處理組件、統(tǒng)計分析、常用機器學習算法、深度學習、垂直應用相關(guān)的文本分析、探索推薦、圖像處理、網(wǎng)格分析等多種算法。數(shù)據(jù)預處理組件特征工程組件統(tǒng)計分析組件機器學習組件文本分析組件網(wǎng)絡分析組件深度學習組件PAI支持的組件55PAI三種建模方式–PAI-AutoLearningPAI-AutoLearning

支持在線標注、自動模型訓練、超參優(yōu)化以及模型評估。只需少量標注數(shù)據(jù)為輸入,無需人工智能基礎(chǔ)、無需寫代碼、無需調(diào)參,模型訓練完整過程交給PAIAutoLearning,即可得到高可用的模型。數(shù)據(jù)標注模型訓練及評估模型試用56PAI三種建模方式–

PAI-StudioPAI-Studio提供可視化的機器學習實驗開發(fā)環(huán)境,幫助用戶實現(xiàn)無代碼開發(fā)人工智能相關(guān)服務。內(nèi)置數(shù)百個成熟的機器學習算法,覆蓋商品推薦、金融風控、廣告預測等場景,滿足用戶不同程度的需求,即開即用。57PAI三種建模方式–

PAI-Studio機器學習控制臺點擊進入PAI-Studio點擊創(chuàng)建項目點擊進入PAI算法平臺58PAI三種建模方式–

PAI-Studio點擊新建實驗點擊查看實驗列表點擊查看數(shù)據(jù)源點擊查看組件點擊查看模型點擊進入設(shè)置59PAI三種建模方式–

PAI-Studio當前進入的實驗點擊查看組件右擊組件,彈出菜單可進行修改、運行、查看數(shù)據(jù)和日志操作組件列表中,展開各類組件中的具體組件,選擇具體組件拖入實驗畫布構(gòu)建實驗60PAI三種建模方式–

PAI-DSWPAI-DSW通過DSW平臺完成數(shù)據(jù)預處理、算法開發(fā)、模型訓練以及模型部署,無需多平臺切換。DSW內(nèi)置了PAI團隊深度優(yōu)化過的Tensorflow框架,同時也支持通過打開Terminal自行安裝第三方庫。61PAI的在線預測、離線調(diào)度PAI除了提供模型訓練功能,還提供了在線預測以及離線調(diào)度功能,讓機器學習訓練結(jié)果和業(yè)務可以無縫銜接。62課程目錄阿里云大數(shù)據(jù)產(chǎn)品體系數(shù)據(jù)存儲計算工具數(shù)據(jù)挖掘與機器學習工具數(shù)據(jù)可視化工具4.1BI分析平臺QuickBI4.2數(shù)據(jù)大屏DataVQuickBI介紹QuickBI是一個基于云計算的靈活的輕量級的自助BI工具服務平臺。它提供海量數(shù)據(jù)實時在線分析,拖拽式操作、豐富的可視化效果,幫助您輕松自如地完成數(shù)據(jù)分析、業(yè)務數(shù)據(jù)探查。它不止是業(yè)務人員看數(shù)據(jù)的工具,更是數(shù)據(jù)化運營的助推器,解決大數(shù)據(jù)應用“最后一公里”的問題,實現(xiàn)人人都是數(shù)據(jù)分析師。QuickBI64QuickBI產(chǎn)品架構(gòu)數(shù)據(jù)源Quick

BIDesign

Portal可視化組件庫智能洞察工作表模型設(shè)計器儀表板數(shù)據(jù)門戶安全管控組織管理智能引擎Super

EngineIn-MemoryIndexMPPCube智能路由算法庫語音識別機器學習文本挖掘65QuickBI產(chǎn)品特點多支持多種類型數(shù)據(jù)源支持多種可視化組件快海量數(shù)據(jù)的實時分析提供智能的一鍵加速好靈活的報表集成方案嚴密的安全權(quán)限管理省門檻低易上手省時間云計算費用低省成本66QuickBI的功能及作用數(shù)據(jù)分析極速建模數(shù)據(jù)可視化多維數(shù)據(jù)分析數(shù)據(jù)報表集成多用戶協(xié)作QuickBI是在大數(shù)據(jù)構(gòu)建與管理之上,直接解決業(yè)務場景問題,支持全局數(shù)據(jù)監(jiān)控和數(shù)據(jù)化運營,QuickBI通常在大數(shù)據(jù)分析平臺實現(xiàn)數(shù)據(jù)分析、數(shù)據(jù)展現(xiàn)。常見應用場景如:數(shù)據(jù)及時分析與決策、報表與自有系統(tǒng)集成、交易數(shù)據(jù)權(quán)限管控等。67QuickBI核心流程QuickBI是一個基于云計算的靈活的輕量級的自助BI工具服務平臺。新建數(shù)據(jù)源創(chuàng)建數(shù)據(jù)集制作工作表、電子表格和儀表板搭建數(shù)據(jù)門戶QuickBI68課程目錄阿里云大數(shù)據(jù)產(chǎn)品體系數(shù)據(jù)存儲計算工具數(shù)據(jù)挖掘與機器學習工具數(shù)據(jù)可視化工具

4.1BI分析平臺QuickBI

4.2數(shù)據(jù)大屏DataV什么是DataVDataV數(shù)據(jù)可視化:是阿里云研發(fā)的,使用可視化大屏的方式來分析并展示龐雜數(shù)據(jù)的產(chǎn)品。DataV旨讓更多的人看到數(shù)據(jù)可視化的魅力,幫助非專業(yè)的工程師通過圖形化的界面輕松搭建專業(yè)水準的可視化應用,滿足會議展覽、業(yè)務監(jiān)控、風險預警、地理信息分析等多種業(yè)務的展示需求。DataV70DataV的特點高性能的三維渲染引擎,游戲級渲染能力大量的炫酷圖表組件專業(yè)級地理信息可視化,地理數(shù)據(jù)多層疊加數(shù)十種行業(yè)數(shù)據(jù)模板多種數(shù)據(jù)源接入圖形

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論