




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數(shù)據(jù)分析學習完本課程后,你將能夠:1.了解指標的定義、價值和評價標準2.掌握指標體系的構建方法3.掌握阿里云大數(shù)據(jù)產品MaxCompute、DataWorks的基本應用課程目標課程目錄數(shù)據(jù)分析指標與實現(xiàn)1.1什么是數(shù)據(jù)指標1.2優(yōu)秀的數(shù)據(jù)指標的特征1.3數(shù)據(jù)分析指標的實現(xiàn)2.基于阿里云平臺進行數(shù)據(jù)分析什么是指標、數(shù)據(jù)指標“如果你不能衡量,那么你就不能有效增長”----現(xiàn)代管理學之父彼得·德魯克對企業(yè)或組織來講,衡量即按統(tǒng)一標準來定義、評價業(yè)務情況,這個標準即指標(Indicator)。指標就是說明總體數(shù)量特征的概念及其數(shù)值的綜合。我們在數(shù)據(jù)庫、數(shù)據(jù)倉庫中進行數(shù)據(jù)操作,包括統(tǒng)計、查詢、分析等,其針對的數(shù)據(jù)字段(這些字段與產品、業(yè)務相關,對產品和業(yè)務有參考價值),本質上都是數(shù)據(jù)指標。企業(yè)指標體系則是若干個反映企業(yè)業(yè)務、企業(yè)生產運營、企業(yè)產品等數(shù)量特征的相對獨立又相互聯(lián)系的數(shù)據(jù)指標所組成的有機整體。數(shù)據(jù)分析與數(shù)據(jù)指標數(shù)據(jù)分析是指用適當?shù)慕y(tǒng)計分析方法對收集來的大量數(shù)據(jù)進行分析,將它們加以匯總和理解并消化,以求最大化地開發(fā)數(shù)據(jù)的價值,發(fā)揮數(shù)據(jù)的作用。一句話,數(shù)據(jù)分析是為了提取有用信息和形成結論而對數(shù)據(jù)加以詳細研究和概括總結的過程;數(shù)據(jù)分析離不開數(shù)據(jù)指標,數(shù)據(jù)指標貫穿數(shù)據(jù)分析過程。數(shù)據(jù)分析是一個過程:確定分析目標-->確定數(shù)據(jù)指標-->獲取數(shù)據(jù)-->生成數(shù)據(jù)指標-->分析數(shù)據(jù)指標-->得出結論;數(shù)據(jù)指標是數(shù)據(jù)分析的載體,是通過數(shù)據(jù)指標實現(xiàn)數(shù)據(jù)分析的目標;各種維度的數(shù)據(jù)指標即為數(shù)據(jù)分析的結果展現(xiàn)形式;數(shù)據(jù)指標結合分析方法得出新的指標,通過數(shù)據(jù)指標獲得分析結論。方法維度指標數(shù)據(jù)分析指標的組成完整的數(shù)據(jù)統(tǒng)計指標:指標的名稱,說明所反映現(xiàn)象數(shù)量特征的性質和內容統(tǒng)計的時間界限和空間范圍計算方法(修飾詞)例如截止2020年1月1日A學校在崗教職工人數(shù)618這一天B店鋪通過直播帶來的利潤數(shù)據(jù)指標的分類6定性vs定量虛榮vs北極星先見性vs后見性相關性vs因果性定性和定量7【例】在績效考核當中管理層:適宜采用定量成分較多、約束力較強、獨立性較高、以最終結果為導向的考核指標普通員工:適宜采用定性成分多、需要上下級隨時充分溝通、主要以工作過程為導向的考核指標定性指標定量指標非結構化的、經驗性的、揭示性的、難以歸類的指標可以被計數(shù)和衡量的指標虛榮和北極星8【例】虛榮指標:總注冊用戶數(shù)北極星指標:總活躍用戶數(shù)、總活躍用戶占比虛榮指標北極星指標容易給人留下印象,但是無法用于決策的指標可以指明工作的方向,幫助改進商業(yè)模式,決策下一步行動的指標先見性和后見性9【例】先見性指標:下半年每個月的預測銷量后見性指標:用戶流失率變化先見性指標后見性指標用于預測企業(yè)未來情況的指標通過對未來的預測,制定利益最大化的策略用于揭示當前存在問題的指標發(fā)現(xiàn)存在的問題后通過干預,減少損失相關和因果10【例】相關指標:雪糕銷量和溺亡人數(shù)因果指標:商品單價和銷售額相關指標因果指標一個或多個指標變化的同時,另一個或多個指標也會隨之變化但是指標之間不存在先后的時間關系一個或多個指標的改變,能夠對另一個或多個指標產生某種作用指標之間的變化存在先后的時間關系數(shù)據(jù)指標的其他分類方式不同行業(yè)、不同企業(yè)、同一企業(yè)不同部門內指標分類不近相同,常見數(shù)據(jù)指標的分類:按通用性分:宏觀指標、特定指標,如互聯(lián)網(wǎng)行業(yè)常見的宏觀指標PV、UV,具體到某業(yè)務的銷售情況則為特定指標;按重要性:KPI指標、普通指標,即核心關鍵指標(按部門、按業(yè)務、按時間等)、一般指標;按指標內容或其數(shù)值表現(xiàn)形式:總量指標、平均指標、相對指標,如上半年總收入、上半年月均收入、上半年增長率按管理功能:描述指標、考核指標、監(jiān)控指標等,其他分類常用的數(shù)據(jù)指標不是所有的數(shù)據(jù)指標都叫指標,只有對當前業(yè)務有參考價值的指標才可稱作指標。對于互聯(lián)網(wǎng)電商而言,常見指標如下:網(wǎng)頁基礎指標:PV(頁面瀏覽量)用戶每1次對網(wǎng)站中的每個網(wǎng)頁訪問(成功訪問/進入)均被記錄1次。用戶對同一頁面的多次瀏覽,瀏覽量累計。在一定統(tǒng)計周期內用戶每次刷新網(wǎng)頁1次也被計算1次;UV(獨立訪客人數(shù))訪問網(wǎng)站的一臺電腦客戶端為一個訪客。統(tǒng)計周期內相同的客戶端只被計算一次;VV(用戶訪問次數(shù))當用戶完成瀏覽并退出所有頁面就算完成了一次訪問,再次打開瀏覽時,VV數(shù)+1;跳出率表示用戶來到該頁面后,沒有進行任何操作就直接離開的比例,代表了對客戶的吸引力;退出率用戶從某個頁面進入網(wǎng)站,最終從該頁面退出的比例;平均訪問時長指在特定統(tǒng)計時間段內,瀏覽網(wǎng)站的一個頁面或整個網(wǎng)站時,用戶所停留的總時間除以該頁面或整個網(wǎng)站的訪問次數(shù)的比例;轉化率在一個統(tǒng)計周期內,完成轉化行為的次數(shù)占推廣信息總點擊次數(shù)的比率;回購率指用戶對商品或者服務的重復購買次數(shù)(回頭客)。常用的數(shù)據(jù)指標不是所有的數(shù)據(jù)指標都叫指標,只有對當前業(yè)務有參考價值的指標才可稱作指標。對于互聯(lián)網(wǎng)電商而言,常見指標如下:用戶基礎指標:ARPU
每個用戶平均收入,ARPU=總收入/用戶數(shù);新增用戶新注冊使用電商系統(tǒng)的用戶,又通常分為:日新增(DNU)、周新增(WAU)、月新增(MAU),注意重新注冊用戶不算,這是衡量營銷推廣渠道效果的最基礎指標;活躍用戶在特定的統(tǒng)計周期內,成功啟動過、使用過產品的用戶;活躍用戶數(shù)根據(jù)不同統(tǒng)計周期可以分為日活躍數(shù)(DAU)、周活躍數(shù)(WAU)、月活躍數(shù)(MAU);注意同周期內用戶個數(shù)不累計;留存率在某一統(tǒng)計時段內的新增用戶數(shù)中再經過一段時間后仍啟動該應用的用戶比例(留存率=留存用戶/新增用戶*100%)。通常重點關注次日、3日、7日、30日即可,并觀察留存率的衰減程度;留存率又分為:次日留存率、7日(周)留存率、30日(月)留存率等等;常用的數(shù)據(jù)指標不是所有的數(shù)據(jù)指標都叫指標,只有對當前業(yè)務有參考價值的指標才可稱作指標。對于互聯(lián)網(wǎng)電商而言,常見指標如下:用戶基礎指標:流失率:指那些曾經使用過產品或服務,由于各種原因不再使用產品或服務的用戶,用戶流失率=某段時間內不再啟動/使用應用的用戶/某段時間內總計的用戶量,流失率和留存率有緊密關聯(lián),流失率高既留存率低,但活躍度不一定高,因此需要綜合分析,也可以按周期統(tǒng)計流失率;一次性用戶:即新增日后再也沒有啟動過/使用過應用的用戶;在實際應用中一般認為至少超過7天時間才能夠定義是否是一次性用戶,即一周以上時間未使用/未登錄應用。使用時長:統(tǒng)計時間段內,某個設備從啟動應用到結束使用的總計時長;啟動/登錄次數(shù):統(tǒng)計時間段內,用戶打開/使用應用的次數(shù);使用間隔:用戶上次使用應用的時間與再次使用時間的時間差。數(shù)據(jù)指標的價值數(shù)據(jù)指標的價值:
改變行為
促成目標:優(yōu)化產品、優(yōu)化定價、優(yōu)化市場定位等【例】指標顯示將“立刻注冊”改成“免費注冊”可以提升20%的轉化率,那么就應該將文案優(yōu)化【反例】銷售員的季度獎金應該與手頭上的訂單數(shù)這一指標掛鉤嗎?銷售團隊會為了個人收入制造大量低質量的潛在客戶,而不是想辦法獲得更多高質量客戶。應該與已完成的訂單數(shù)量或訂單的利潤率掛鉤。課程目錄數(shù)據(jù)分析指標與實現(xiàn)1.1什么是數(shù)據(jù)指標
1.2優(yōu)秀的數(shù)據(jù)指標的特征
1.3數(shù)據(jù)分析指標的實現(xiàn)2.基于阿里云平臺進行數(shù)據(jù)分析優(yōu)秀的數(shù)據(jù)指標的特征可理解是比率可比較不同的時間段不同用戶群體不同競爭產品簡單易懂避免誤導業(yè)務解釋性可操作性強可以比較反映關聯(lián)性本周轉化率比上周高2%本周轉化率為5%Sales銷量?銷售額?里程vs速度當前速度vs區(qū)間平均速度優(yōu)秀的數(shù)據(jù)指標的特征某APP公司面臨一個選擇:該在免費版中提供盡量豐富的功能以吸引新用戶,還是該將這些功能保留在收費版本中,以促使用戶為高級功能付費?推出功能豐富的免費版不利于銷售額的增長而免費版功能過簡又不利于新用戶的增加。方案一:免費功能A
B
C
D
E收費功能F
G
H
I
J
日均新用戶數(shù)100日均收入1000方案二:免費功能A
B
C
收費功能D
E
F
G
H
I
J
日均新用戶數(shù)60日均收入1200指數(shù)=新用戶數(shù)/收入一個結合了二者的數(shù)據(jù)指標來幫助理解產品的改動對公司的整體業(yè)績會有怎樣的影響。否則,可能會片面地為增加銷售額而犧牲新用戶的增長。指數(shù)=
10%指數(shù)=
5%課程目錄數(shù)據(jù)分析指標與實現(xiàn)1.1什么是數(shù)據(jù)指標1.2優(yōu)秀的數(shù)據(jù)指標的特征
1.3數(shù)據(jù)分析指標的實現(xiàn)2.基于阿里云平臺進行數(shù)據(jù)分析數(shù)據(jù)分析指標的實現(xiàn)分析需求目標業(yè)務理解設計指標規(guī)劃分析、計算方法落地實施結果考評數(shù)據(jù)分析指標的實現(xiàn)過程也是從需求出發(fā),首先明確分析的任務目標,結合企業(yè)業(yè)務,設計制定優(yōu)秀的數(shù)據(jù)指標,基于分析目的,采取相應的分析方法,然后指標落地實施,最后考評指標分析結果與原需求目標是否匹配,是否能達到既定目標。數(shù)據(jù)分析指標的設計維度示例在企業(yè)指標體系中有許多指標來衡量企業(yè)的生產運行情況,衡量產品銷售、用戶質量、市場活動、風險控制的效果,基于不同的角度將這些指標進行維度劃分,如下示例:營運指標客戶價值指標財務指標市場營銷活動指標風控類指標市場競爭指標銷售轉化指標數(shù)據(jù)分析指標案例某電商平臺考察風險控制情況,業(yè)務主要是線上銷售商品,客戶購買商品,購買完成對購買過程、快遞物流、購買商品進行線上評價,或者客戶購買商品后由于各種原因線上投訴,還有就是進行線上退、換貨等。結合具體實際情況,設計風控類指標時,可以從三個方面考慮:買家評價、買家投訴、退換貨等。其中,買家評價指標可設計為:
指標名稱指標定義指標作用買家評價率指某段時間參與評價的買家與該時間段買家數(shù)量的比值;反映用戶對評價的參與度,電商網(wǎng)站目前都在積極引導用戶評價,以作為其他買家購物時的參考買家好評率指某段時間內好評的買家數(shù)量與該段時間買家數(shù)量的比值;買家差評率指某段時間內差評的買家數(shù)量與該段時間買家數(shù)量的比值;數(shù)據(jù)指標的分析方法數(shù)據(jù)指標通常分為定量和定性,定性指標即分類指標,如滿意度高還是低、產品質量優(yōu)還是差、一般;定量指標則是通過準確數(shù)量定義、精確衡量并能設定績效目標的考核指標。定性指標分析方法:對比分析,如按時間分析每月滿意度情況;結構分析,如產品質量優(yōu)、一般、差的占比分析;定量指標分析方法:分組分析,指標分組分析,企業(yè)按不同區(qū)域分組,考察某月營收情況;結構分析,在統(tǒng)計分組的基礎上進行分析;交叉分析,即立體分析,指標在橫向分析、縱向分析的基礎上,從交叉、立體出發(fā)從低級到高級分析的綜合分析方法……
數(shù)據(jù)指標的分析方法交叉分析案例:
假設A公司資產凈收益率0.35%,營業(yè)利潤率0.74%,每股收入為0.001元,而B公司資產凈收益率10%,營業(yè)利潤率12%,每股收入為0.3元,如果只看這些數(shù)據(jù),橫向比較明顯B公司優(yōu)于A公司,如果從縱向做對比,發(fā)現(xiàn)A公司一年來,收益率、利潤率、每股收入都是逐月在增加,而B公司三項指標是逐月下降,對于投資者而言,往往認為A公司要比B公司更有吸引力。
數(shù)據(jù)分析指標的系統(tǒng)實現(xiàn)數(shù)據(jù)分析系統(tǒng)(數(shù)據(jù)倉庫)其他業(yè)務系統(tǒng)指標獲取:商業(yè)智能軟件編寫、開發(fā)處理程序數(shù)據(jù)操作語言數(shù)據(jù)分析工具\平臺數(shù)據(jù)挖掘工具\平臺指標定義完成后,就要考慮指標的系統(tǒng)實現(xiàn)了,即如何實現(xiàn)這些數(shù)據(jù)指標。理論上講,數(shù)據(jù)指標可以從指標涉及數(shù)據(jù)的源系統(tǒng)(或其他非系統(tǒng)數(shù)據(jù)源)直接獲得,也可以從專門的數(shù)據(jù)分析系統(tǒng)獲得。數(shù)據(jù)分析指標的系統(tǒng)實現(xiàn)大數(shù)據(jù)、云計算和互聯(lián)網(wǎng)發(fā)展到今天,數(shù)據(jù)量越來越大,維度越來越多。企業(yè)對數(shù)據(jù)、效率要求的逐步提高,也給大數(shù)據(jù)提供了展現(xiàn)能力的平臺,基于大數(shù)據(jù)分析平臺(數(shù)據(jù)倉庫系統(tǒng))獲取各類數(shù)據(jù)分析指標成為企業(yè)數(shù)據(jù)指標分析的常見方式。常見數(shù)據(jù)分析工具:QlikViewTableauPowerBIMicroStrategyFineBIQuickBI臨時分析指標常規(guī)分析指標企業(yè)核心KPI數(shù)據(jù)倉庫系統(tǒng)
指標體系數(shù)據(jù)指標分析案例指標類別指標名稱指標定義單位展現(xiàn)要素集客經營有效集團客戶數(shù)截至統(tǒng)計周期末,訂購了集團通信和信息化產品(不含校園V網(wǎng)、鄉(xiāng)情網(wǎng)、家庭V網(wǎng)),且近三個月累計通信和信息化收入大于0,狀態(tài)在網(wǎng)的A、B、C、D集團客戶數(shù)家本月值同比變化環(huán)比凈增以某企業(yè)實現(xiàn)指標“有效集團客戶數(shù)”為例,此指標的相關信息如下:說明:此指標涉及集團客戶信息、集團客戶訂購產品信息、集團客戶產品使用信息等,是一個綜合性的指標,計算分析方法為“同比”和“環(huán)比”?;跀?shù)據(jù)庫實現(xiàn)數(shù)據(jù)指標分析案例指標“有效集團客戶數(shù)”的數(shù)據(jù)源涉及多個業(yè)務系統(tǒng),其明細口徑為“截至統(tǒng)計周期末,訂購了集團通信和信息化產品(不含校園類產品、家庭類產品),且近三個月累計通信和信息化收入大于0,狀態(tài)在網(wǎng)的集團客戶數(shù)?!保瑪?shù)據(jù)來源分析如下:訂購收入客戶狀態(tài)、客戶數(shù)產品訂購賬戶客戶CRM系統(tǒng)BOSS系統(tǒng)CRM系統(tǒng)說明:CRM:承載客戶管理、客戶產品訂購相關業(yè)務的系統(tǒng);BOSS:承載有關客戶計費、賬務相關業(yè)務的系統(tǒng)?;跀?shù)據(jù)倉庫實現(xiàn)數(shù)據(jù)指標分析案例指標“有效集團客戶數(shù)”的數(shù)據(jù)源涉及多個業(yè)務系統(tǒng),其明細口徑為“截至統(tǒng)計周期末,訂購了集團通信和信息化產品(不含校園類產品、家庭類產品),且近三個月累計通信和信息化收入大于0,狀態(tài)在網(wǎng)的集團客戶數(shù)。”,在數(shù)據(jù)倉庫中實現(xiàn):數(shù)據(jù)展現(xiàn)工具集團客戶類主題倉庫系統(tǒng)技術口徑:selectcount(distinct客戶ID)From客戶表Leftouterjoin訂購表on客戶表.客戶ID=訂購表.客戶IDLeftouterjoin賬戶表on客戶表.客戶ID=賬戶表.客戶IDWhere賬戶表.近三個月累計通信和信息化收入>0And訂購表.訂購產品名稱notin(校園類,家庭類)And客戶表.客戶狀態(tài)=“在網(wǎng)”;更簡單的情況是:客戶表、訂購表、賬戶表在數(shù)據(jù)倉庫中有統(tǒng)一的集團客戶統(tǒng)一視圖課程目錄1.數(shù)據(jù)分析指標與實現(xiàn)2.基于阿里云平臺進行數(shù)據(jù)分析2.1MaxCompute基本操作2.2DataWorks基本操作大數(shù)據(jù)分析平臺/數(shù)據(jù)倉庫當今是互聯(lián)網(wǎng)、云計算、大數(shù)據(jù)快速發(fā)展的時代,企業(yè)如何對海量、多源、多類型數(shù)據(jù)做有效的應用、分析,有效途徑之一就是構建大數(shù)據(jù)分析平臺,通過大數(shù)據(jù)平臺來收集數(shù)據(jù)、存儲數(shù)據(jù)、加工數(shù)據(jù)、分析數(shù)據(jù)、展現(xiàn)及應用數(shù)據(jù)。數(shù)據(jù)分析平臺常見功能組成有:數(shù)據(jù)采集數(shù)據(jù)存儲數(shù)據(jù)分析與處理數(shù)據(jù)展現(xiàn)全過程自動調度和智能運維基于阿里云搭建數(shù)據(jù)分析平臺/數(shù)據(jù)倉庫統(tǒng)一存儲,減少不必要的冗余和跨庫搬移數(shù)據(jù)提供SQL/MR/機器學習/圖計算等多種計算能力,避免為計算而搬數(shù)據(jù)統(tǒng)一權限和計算資源調度,最大化的提升資源的利用率和彈性統(tǒng)一元數(shù)據(jù)最大化數(shù)據(jù)統(tǒng)一管理非結構化數(shù)據(jù)半結構化數(shù)據(jù)結構化數(shù)據(jù)統(tǒng)一數(shù)據(jù)存儲統(tǒng)一計算資源調度SQLMRGraphPAI多種計算框架預測分析人工智能統(tǒng)計分析機器學習多樣化應用場景大數(shù)據(jù)計算服務-MaxCompute大數(shù)據(jù)計算服務MaxCompute,由阿里云自主研發(fā),提供針對TB/PB級數(shù)據(jù)、實時性要求不高的分布式處理能力,應用于數(shù)據(jù)分析、挖掘、商業(yè)智能等領域。阿里巴巴的數(shù)據(jù)業(yè)務都運行在MaxCompute。MaxComputeMaxCompute是一種快速、完全托管的EB級數(shù)據(jù)倉庫解決方案。MaxCompute的主要功能及作用數(shù)據(jù)通道計算分析開發(fā)SDK安全服務MaxCompute致力于批量結構化數(shù)據(jù)的存儲和計算,提供海量數(shù)據(jù)倉庫的解決方案及分析建模服務。通常和DataWorks一起構建大數(shù)據(jù)分析平臺。MaxCompute所有的操作都是基于表,因此MaxCompute的使用從安裝配置環(huán)境后建表開始準備賬號開通服務創(chuàng)建項目空間創(chuàng)建子賬號并賦權安裝配置訪問工具(客戶端等)創(chuàng)建表/數(shù)據(jù)操作MaxComputeMaxCompute的使用流程MaxCompute常見使用方式使用方式使用場景及優(yōu)勢API/SDK:以RESTfulAPI或JavaSDK、pythonSDK的方式提供離線數(shù)據(jù)處理服務。定制開發(fā),滿足個性化需求,與外部系統(tǒng)對接。CLT(CommandLineTool):運行在Window/Linux下的客戶端工具,通過CLT可以提交命令完成Project管理、DDL、DML等操作。本地上傳下載數(shù)據(jù)、項目空間管理;靈活、易用。DataWorks:提供了上層可視化ETL/BI工具,用戶可以基于DataWorks完成數(shù)據(jù)同步、任務調度、報表生成等常見操作。團隊分工協(xié)作數(shù)據(jù)開發(fā)全流程,高效、安全。IDE插件:eclipse插件、IDEA插件、RStudio插件,擴展IDE對MaxCompute的支持。使用第三方IDE對接MaxCompute,提升本地開發(fā)、調試效率。MaxCompute的客戶端配置MaxCompute客戶端是一個java程序,需要JRE環(huán)境才能運行,請下載并安裝JRE1.6+版本(JRE1.7或以上版本,建議優(yōu)先使用JRE1.7/1.8,其中JRE1.9已經支持,JRE1.10暫時還不支持)。
官網(wǎng)下載客戶端壓縮文件
解壓文件,可以看到如下4個文件夾:bin/conf/lib/plugins/客戶端工具CLT修改<ODPS_CLIENT>/conf/odps_conf.ini
project_name=[project_name]
access_id=****************
access_key=******************************end_point=/apitunnel_endpoint=log_view_host=https_check=<true|false>MaxCompute的客戶端應用客戶端工具CLT運行bin目錄下的MaxCompute:Linux系統(tǒng)下運行./bin/odpscmdWindows下運行./bin/odpscmd.batodps@my_project>select*frommy_table; --執(zhí)行SQL語句odps@my_project>descmy_table; --查看表結構odps@my_project>listtables; --查看表名列表odps@my_project>createtablemy_talbe(idbigint);--創(chuàng)建表應用客戶端統(tǒng)計分析數(shù)據(jù)客戶端工具CLT通過客戶端上傳數(shù)據(jù)文件:odps@my_project>createtablet_student(idbigint,scorebigint); --創(chuàng)建表odps@my_project>tunneluploadd:\t_student.csvt_student; ---上傳數(shù)據(jù)文件
odps@my_project>Selectcount(1)as
“人數(shù)“fromt_studentwherescore>=95; --統(tǒng)計優(yōu)秀學生人數(shù)Java+eclipse的應用JavaeclipseStep01官網(wǎng)導航中找到并下載MaxComputeforeclipse插件;Step02將插件解壓并復制到eclipse安裝目錄下的plug-in子目錄下;Step03啟動eclipse;Step04檢查Wizard選項,確認配置成功?;贘ava+eclipse進行MR/Graph的開發(fā)123412341)安裝配置環(huán)境2)開發(fā)MR/Graph程序;3)本地模式測試腳本4)導出Jar包55)上傳至MaxCompute項目空間66)在MaxCompute中使用MR使用MaxComputeStudioIntelliJIDEAMaxComputeStudio,是面向MaxCompute計算引擎開發(fā)的數(shù)據(jù)處理開發(fā)工具,是一套基于流行的集成開發(fā)平臺IntelliJIDEA的開發(fā)插件。安裝步驟:安裝JDK1.8安裝IntelliJIDEA,需要IntelliJIDEA14.1.4以上在IntelliJIDEA中打開File|Settings|Plugins,點擊Browserepositories...按鈕搜索“MaxComputeStudio",安裝MaxComputeStudio插件完成安裝,重新啟動IntelliJIDEA創(chuàng)建MaxCompute項目鏈接使用MaxComputeStudio基于MaxComputeStudio編寫SQL腳本,進行數(shù)據(jù)操作。數(shù)據(jù)上傳/下載綜述DataHub實時數(shù)據(jù)通道OGG插件Flume插件LogStash插件Fluentd插件Tunnel批量數(shù)據(jù)通道DataWorks數(shù)據(jù)集成DTSSqoopKettle插件MaxCompute客戶端MaxCompute系統(tǒng)上傳/下載數(shù)據(jù)包括兩種方式,通過數(shù)據(jù)通路,將分析數(shù)據(jù)導入到MaxCompute中,分析結果又可以通過數(shù)據(jù)通路導出:Tunnel命令MaxCompute客戶端提供Tunnel命令實現(xiàn)數(shù)據(jù)的上傳/下載。基本語法:
tunnel<subcommand>[options][args]可用命令:
upload(u):tunneluploadlog.txttest_project.test_table/p1="b1",p2="b2"; download(d):tunneldownloadtest_project.test_table/p1="b1",p2="b2"test_table.txt; resume(r):tunnelresume
20150610xxxxxxxxxxx70a002ec60c; show(s):tunnelshowhistory-n5; purge(p):tunnelpurge5; help(h):tunnelhelp;MaxComputeSQLMaxComputeSQL是個數(shù)據(jù)倉庫工具,Query解析后,計算和存儲交由底層的飛天實現(xiàn)。MaxComputeSQL支持常用的SQL語法,包括窗口函數(shù)MaxComputeSQL可以看做對標準SQL的支持,但是不能簡單等同于數(shù)據(jù)庫MaxComputeSQL不支持事務、主外鍵約束、索引等MaxComputeSQL長度有限制,目前是不能超過2MMaxComputeSQL適用于海量數(shù)據(jù)(TB/PB級別)的數(shù)據(jù)運算MaxComputeSQL的每個作業(yè)的準備,提交等階段要花費較長時間,實時性不高MaxComputeSQL的運算符and,or,not&、|+,-,*,/,%>,<,>=,<=,=,<>,isnull,isnotnull,like,rlike,in,betweenand關系運算符算術運算符邏輯運算符位運算符MaxComputeSQL的DDL語句創(chuàng)建表/視圖添加分區(qū)查看表/分區(qū)信息刪除分區(qū)修改表修改生命周期DDL語句MaxComputeSQL的DML語句SELECT操作INSERT操作TRUNCATE操作函數(shù)DML語句MaxComputeSQL的函數(shù)內置函數(shù)自定義函數(shù)MaxCompute中的函數(shù)自定義函數(shù)UDAFUserDefinedAggregationFunctionUDFUserDefinedScalarFunctionUDTFUserDefinedTableValuedFunction用戶自定義標量函數(shù)用戶自定義表值函數(shù)用戶自定義聚組函數(shù)UDF:用戶自定義函數(shù)實現(xiàn)UDF需要繼承com.aliyun.odps.udf.UDF類,并實現(xiàn)evaluate方法evaluate方法必須是非
static的public方法evaluate方法的參數(shù)和返回值類型將作為SQL中UDF的函數(shù)簽名用戶可以在UDF中實現(xiàn)多個evaluate方法
調用UDF時框架會依據(jù)UDF調用的參數(shù)類型匹配正確的evaluate方法加載UDF依賴包繼承UDF類定義evaluate方法(函數(shù)簽名)實現(xiàn)evaluate方法UDF實現(xiàn)邏輯UDTF實現(xiàn)邏輯
實現(xiàn)UDTF需要繼承com.aliyun.odps.udf.UDTF類
需要實現(xiàn)4個接口@Resovle()定義函數(shù)的輸入和輸出參數(shù)類型調用UDTF時輸入?yún)?shù)要和@Resolve定義的一致
closesetupprocessforwardoutputUDAF實現(xiàn)邏輯
實現(xiàn)UDAF需要繼承com.aliyun.odps.udf.Aggregator類
需要實現(xiàn)setup,newBuffer,iterate,terminate,merge,close等接口用戶實現(xiàn)自定義的Writablebuffersetup()初始化變量newBuffer()定義數(shù)據(jù)讀寫通道close()關閉、清理terminate()分片結果轉化最終結果merge()中間結果合到分片結果中iterate()每條記錄聚合到結果中UDF的開發(fā)流程配置開發(fā)安裝配置環(huán)境,開發(fā)并使用本地模式測試UDF上傳資源使用odpscmd的命令將本地Jar包上傳MaxCompute創(chuàng)建函數(shù)MaxCompute中,基于上傳的Jar包創(chuàng)建自定義函數(shù)打成Jar包將開發(fā)好的UDF導出成Jar包測試使用在MaxCompute上測試并使用自定義函數(shù)MaxCompute基本操作小結56基于MaxCompute進行數(shù)據(jù)分析:MaxCompute概述、功能、使用流程MaxCompute常見使用方式數(shù)據(jù)上傳和下載MaxCompute
SQL課程目錄1.數(shù)據(jù)分析指標與實現(xiàn)2.基于阿里云平臺進行數(shù)據(jù)分析2.1MaxCompute基本操作
2.2DataWorks基本操作DataWorks(數(shù)據(jù)工場,原大數(shù)據(jù)開發(fā)套件)是阿里云數(shù)加重要的PaaS平臺產品,它提供全面托管的工作流服務,一站式開發(fā)管理的界面,幫助企業(yè)專注于數(shù)據(jù)價值的挖掘和探索。DataWorks支持多種計算和存儲引擎服務,包括離線計算MaxCompute、開源大數(shù)據(jù)引擎E-MapReduce、實時計算(基于Flink)、機器學習PAI、圖計算服務GraphCompute和交互式分析服務等,并且支持用戶自定義接入計算和存儲服務。DataWorks大數(shù)據(jù)開發(fā)平臺-DataWorksDataWorks的主要功能及作用全面托管的調度數(shù)據(jù)轉化與同步可視化開發(fā)監(jiān)控告警使用DataWorks,可以對數(shù)據(jù)進行傳輸、轉換和集成等操作,從不同的數(shù)據(jù)存儲引入數(shù)據(jù),并進行轉化和開發(fā),最后將處理好的數(shù)據(jù)同步至其它數(shù)據(jù)系統(tǒng)。DataWorks提供全鏈路智能大數(shù)據(jù)及AI開發(fā)和治理服務。通常情況下DataWorks和其他產品結合在一起尤其是MaxCompute搭建數(shù)據(jù)分析系統(tǒng)。開通MaxCompute資源新建項目空間創(chuàng)建子賬號分配項目管理員添加項目成員數(shù)據(jù)開發(fā)生產運維組織管理員(主賬號)項目管理員(子賬號)開發(fā)(子賬號)部署+運維(子賬號)1234DataWorks應用流程數(shù)據(jù)產生數(shù)據(jù)提取數(shù)據(jù)收集與存儲數(shù)據(jù)分析與處理數(shù)據(jù)展現(xiàn)與分享大數(shù)據(jù)開發(fā)平臺數(shù)據(jù)產生:業(yè)務系統(tǒng)產生的結構化的數(shù)據(jù),通常存儲的數(shù)據(jù)庫中,如MySQL、Oracle、RDS等類型。數(shù)據(jù)收集與存儲:利用MaxCompute的海量數(shù)據(jù)存儲與處理能力來分析這些已有的數(shù)據(jù),首先需要將不同業(yè)務系統(tǒng)的數(shù)據(jù)同步至MaxCompute中。DataWorks提供數(shù)據(jù)集成服務,可將多種數(shù)據(jù)源類型數(shù)據(jù)按照預設的調度周期同步到MaxCompute中。數(shù)據(jù)分析與處理:對MaxCompute上的數(shù)據(jù)進行加工(MaxComputeSQL、MaxComputeMR)、分析與挖掘(數(shù)據(jù)分析、數(shù)據(jù)挖掘)等處理,從而發(fā)現(xiàn)其價值。數(shù)據(jù)提?。悍治雠c處理后的結果數(shù)據(jù),需同步導出至其他(業(yè)務)系統(tǒng),供業(yè)務人員使用其分析的價值。數(shù)據(jù)展現(xiàn)和分享:最后可通過報表、地理信息系統(tǒng)等多種展現(xiàn)方式來展示與分享大數(shù)據(jù)分析、處理后的成果。數(shù)據(jù)開發(fā)流程數(shù)據(jù)輸入數(shù)據(jù)加工代碼發(fā)布生產運維數(shù)據(jù)輸出生產調度開發(fā)角色部署/運維運維角色涉及模塊:數(shù)據(jù)開發(fā)模塊發(fā)布管理模塊運維中心模塊數(shù)據(jù)管理模塊注:在數(shù)據(jù)開發(fā)過程中,需由項目管理員在【項目管理>數(shù)據(jù)源配置】來新增數(shù)據(jù)源供開發(fā)使用。數(shù)據(jù)開發(fā)流程導入數(shù)據(jù)DataWorks支持以下兩種操作:將保存在本地的文本文件中的數(shù)據(jù)上傳到工作空間的表中。通過數(shù)據(jù)集成模塊將業(yè)務數(shù)據(jù)從多個不同的數(shù)據(jù)源導入到工作空間。本地文本文件上傳的限制如下:文件類型:僅支持.txt和.csv格式。文件大?。翰怀^10M。操作對象:導入分區(qū)表時,分區(qū)不允許為中文。節(jié)點開發(fā)選擇或新建業(yè)務流程新建或選擇已有的ODPSSQL節(jié)點編寫符合語法的SQL代碼當前界面測試運行、檢查語法邏輯錯誤、輸出結果配置節(jié)點調度信息、依賴關系(非手工流程)保存、提交節(jié)點任務發(fā)布到生產、測試(非單一項目)DataWorks中,ODPSSQL節(jié)點、Shell節(jié)點、PyODPS節(jié)點等各類節(jié)點的開發(fā)過程大同小異,根本區(qū)別在于個不同類型節(jié)點的數(shù)據(jù)處理實現(xiàn)。ODPSSQL節(jié)點開發(fā)過程示例如下:調度配置任務的時間屬性目前支持月、周、天、小時和分鐘5種配置方式,目前能支持的最短時間為5分鐘。說明:對于周期運行的任務,依賴關系的優(yōu)先級
大于
時間屬性,即在時間屬性決定的某個時間點到達時,任務實例運行的前提是上游依賴是否全部運行成功。上游依賴的實例沒有全部運行成功
并且
定時運行時間已到,則實例仍為
未運行狀態(tài)。上游依賴的實例全部運行成功
并且
定時運行時間還未到,則實例進入
等待時間
狀態(tài)。上游依賴的實例全部運行成功
并且
定時運行時間已到,則實例進入
等待資源
狀態(tài)準備運行。DataWorks中的參數(shù)設置參數(shù)類型設置方式適用類型參數(shù)編輯框示例系統(tǒng)參數(shù)date和bdp.system.cyctime在調度系統(tǒng)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 企業(yè)形象策劃服務合同
- 專業(yè)分包施工合同協(xié)議書
- 舊機動車買賣居間服務合同
- 石灰土底基層施工勞務承包合同
- 廣州華立學院《區(qū)域數(shù)字經濟調查》2023-2024學年第二學期期末試卷
- 大興安嶺職業(yè)學院《財務報表編制與分析》2023-2024學年第二學期期末試卷
- 下壓式接力跑 教學設計-2023-2024學年高一上學期體育與健康人教版必修第一冊
- 江南影視藝術職業(yè)學院《信息與內容安全》2023-2024學年第二學期期末試卷
- 綿陽飛行職業(yè)學院《馬克思主義經典著作選讀(一)》2023-2024學年第二學期期末試卷
- 長江大學文理學院《家具史》2023-2024學年第二學期期末試卷
- 2020新譯林版高中英語全七冊單詞表(必修一~選擇性必修四)
- 離婚協(xié)議書電子版下載
- 安全教育培訓記錄表(春節(jié)節(jié)后)
- 運籌學完整版課件-002
- 2023年高考全國甲卷語文試卷真題(含答案)
- 2023年中國工商銀行蘇州分行社會招聘30人筆試備考試題及答案解析
- 中糧五常筒倉工程施工組織設計方案
- 汽車尾氣污染與治理汽車尾氣污染課件
- AIGC及ChatGPT保險行業(yè)應用白皮書
- 新人教版五年級下冊數(shù)學(新插圖) 練習二 教學課件
- 磚數(shù)量自動計算、換算表
評論
0/150
提交評論