




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
攜程酒店基于血緣元數(shù)據(jù)的數(shù)據(jù)流程優(yōu)化實(shí)踐一、背景元數(shù)據(jù)MetaData狹義的解釋是用來(lái)描述數(shù)據(jù)的數(shù)據(jù),廣義的來(lái)看,除了業(yè)務(wù)邏輯直接讀寫(xiě)處理的那些業(yè)務(wù)數(shù)據(jù),所有其它用來(lái)維持整個(gè)系統(tǒng)運(yùn)轉(zhuǎn)所需的信息/數(shù)據(jù)都可以叫作元數(shù)據(jù)。比如數(shù)據(jù)表格的Schema信息,任務(wù)的血緣關(guān)系,用戶和腳本/任務(wù)的權(quán)限映射關(guān)系信息等等。在數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)質(zhì)量的評(píng)估中,一個(gè)必不可少的評(píng)價(jià)指標(biāo)就是數(shù)據(jù)產(chǎn)出的及時(shí)性,特別是對(duì)于P0級(jí)別的流程,及時(shí)性指標(biāo)的好壞一方面決定了下游應(yīng)用方能否準(zhǔn)時(shí)地獲取所需的業(yè)務(wù)指標(biāo),直接影響到業(yè)務(wù)的工作效率;另一方面也反映了相應(yīng)指標(biāo)的數(shù)據(jù)架構(gòu)的合理程度。數(shù)據(jù)及時(shí)性,顧名思義就是測(cè)試數(shù)據(jù)需要按時(shí)產(chǎn)出。及時(shí)性重點(diǎn)關(guān)注的三個(gè)要素是:定時(shí)調(diào)度時(shí)間、數(shù)據(jù)任務(wù)優(yōu)先級(jí)以及數(shù)據(jù)產(chǎn)出deadline。其中任務(wù)的優(yōu)先級(jí)決定了它獲取數(shù)據(jù)計(jì)算資源的多少,影響了任務(wù)執(zhí)行時(shí)長(zhǎng)。數(shù)據(jù)deadline則是數(shù)據(jù)最晚產(chǎn)出時(shí)間的統(tǒng)一標(biāo)準(zhǔn),需要嚴(yán)格遵守。這三要素中,屬于業(yè)內(nèi)統(tǒng)一認(rèn)知且在質(zhì)量保障階段需要重點(diǎn)關(guān)注的是:數(shù)據(jù)deadline,這也是我們優(yōu)化數(shù)據(jù)流程產(chǎn)出的最終評(píng)判標(biāo)準(zhǔn)。二、問(wèn)題上述部分已經(jīng)闡述了數(shù)據(jù)及時(shí)性的重要性和評(píng)判標(biāo)準(zhǔn),在通常情況下,為了提升數(shù)據(jù)及時(shí)性,需要投入人力對(duì)重點(diǎn)數(shù)據(jù)流程進(jìn)行優(yōu)化。但針對(duì)數(shù)據(jù)倉(cāng)庫(kù)業(yè)界來(lái)講,對(duì)于一個(gè)重要的數(shù)據(jù)結(jié)果,其上游可能存在幾十個(gè)層級(jí),數(shù)百個(gè)不同的數(shù)據(jù)處理任務(wù),從最初的數(shù)據(jù)到最終的結(jié)果,數(shù)據(jù)流轉(zhuǎn)過(guò)程極其復(fù)雜,傳統(tǒng)的通過(guò)人工逐個(gè)排查的方式去定位影響數(shù)據(jù)流程產(chǎn)出的問(wèn)題節(jié)點(diǎn),存在如下的三項(xiàng)缺點(diǎn):1)覆蓋的任務(wù)范圍有限;2)效率低下,判斷標(biāo)準(zhǔn)不統(tǒng)一,判定準(zhǔn)確率不高;3)無(wú)法形成知識(shí)沉淀,依賴于個(gè)人能力;如果數(shù)據(jù)流程未能充分優(yōu)化,一方面會(huì)存在數(shù)據(jù)結(jié)果產(chǎn)出時(shí)間不穩(wěn)定,影響數(shù)據(jù)的及時(shí)性;另一方面也會(huì)造成計(jì)算資源和存儲(chǔ)資源的浪費(fèi),并且也不易于后續(xù)維護(hù)。三、方案為了避免上述的問(wèn)題,提升數(shù)據(jù)流程優(yōu)化的效率和質(zhì)量,我們采用了從血緣元數(shù)據(jù)出發(fā)的方案。在數(shù)倉(cāng)任務(wù)的執(zhí)行中,都會(huì)依賴于一個(gè)調(diào)度系統(tǒng)組件,目前業(yè)內(nèi)通用的是以DAG為核心的工作流系統(tǒng),數(shù)據(jù)流程中的每個(gè)任務(wù)都會(huì)設(shè)置定時(shí)執(zhí)行或者配置上游依賴,這些設(shè)置的上游依賴就是我們方案中需要的調(diào)度血緣的元數(shù)據(jù)?;谏鲜龅难墧?shù)據(jù),我們的方案中需要實(shí)現(xiàn)以下兩個(gè)功能:基于任務(wù)之間的血緣關(guān)系生成所有上游任務(wù)的層級(jí)依賴數(shù)據(jù)以調(diào)度系統(tǒng)本身的元數(shù)據(jù)作為出發(fā)點(diǎn),調(diào)度系統(tǒng)自身的元數(shù)據(jù)就包含了一個(gè)任務(wù)的上游和下游依賴,基于這個(gè)數(shù)據(jù),通過(guò)層級(jí)遞歸的掃描,就可以得到指定根節(jié)點(diǎn)任務(wù)的所有上游任務(wù)的層級(jí)依賴結(jié)果。設(shè)計(jì)合理的算法定位到有問(wèn)題的任務(wù)在上一步驟得到指定根節(jié)點(diǎn)任務(wù)的所有上游任務(wù)的層級(jí)依賴結(jié)果后,通過(guò)如下三種邏輯定位有問(wèn)題的任務(wù):1)定位過(guò)度分層:JobA的下游只有JobA1在使用,且JobA是JobA1產(chǎn)出的關(guān)鍵路徑,也即JobA1的產(chǎn)出時(shí)間由JobA決定,那么此種情形下,我們可以把JobA的邏輯合并到JobA1,這樣一方面可以減少大數(shù)據(jù)任務(wù)的啟動(dòng)消耗時(shí)間和獲取資源的時(shí)間;另一方面也可以減少依賴層級(jí),方便后續(xù)維護(hù)。2)定位重復(fù)依賴:在較復(fù)雜的數(shù)據(jù)流程中,會(huì)出現(xiàn)如下的情況:JobB2依賴JobB1和JobB,而JobB1也同時(shí)依賴JobB,簡(jiǎn)化后的情況如下圖:此時(shí)我們就可以檢查JobB2的邏輯,考慮任務(wù)內(nèi)容中涉及到JobB的邏輯合并到JobB1,從而可以實(shí)現(xiàn)流程依賴和代碼邏輯的合并優(yōu)化,降低維護(hù)成本,提升整體產(chǎn)出時(shí)間。3)定位關(guān)鍵路徑:在完成上述兩個(gè)步驟后,整個(gè)流程從結(jié)構(gòu)上已經(jīng)基本沒(méi)問(wèn)題,如果要進(jìn)一步優(yōu)化產(chǎn)出時(shí)間,需要針對(duì)特定任務(wù)進(jìn)行調(diào)優(yōu),此時(shí)可以基于已有的上游層級(jí)依賴數(shù)據(jù),計(jì)算得到每個(gè)層級(jí)的最晚產(chǎn)出的任務(wù)Id,這些任務(wù)Id串聯(lián)在一起就是影響整個(gè)流程產(chǎn)出的關(guān)鍵路徑,然后對(duì)關(guān)鍵路徑上的任務(wù)進(jìn)行調(diào)優(yōu)。上述方案的整體設(shè)計(jì)圖如下:四、案例在對(duì)酒店訂單明細(xì)寬表的優(yōu)化過(guò)程中,基于前期的元數(shù)據(jù)建設(shè),主要的工作內(nèi)容分為以下三個(gè)步驟:1)調(diào)度優(yōu)化。調(diào)度優(yōu)化的出發(fā)點(diǎn)是合理分配同步任務(wù)的優(yōu)先級(jí),將非核心任務(wù)的數(shù)據(jù)同步延后。從而降低0到2點(diǎn),酒店訂單寬表核心流程執(zhí)行期間的集群資源壓力。2)模型優(yōu)化。在這一步驟中,我主要是從兩個(gè)方向出發(fā):減少跨層級(jí)重復(fù)依賴,避免相似邏輯代碼的出現(xiàn),提升數(shù)據(jù)結(jié)果的復(fù)用能力。避免濫用分層,對(duì)冗余的分層、中間表進(jìn)行合并,減少任務(wù)調(diào)度鏈路的層級(jí),減少Job數(shù)量,節(jié)省Job的啟動(dòng)時(shí)間。3)任務(wù)優(yōu)化。通過(guò)調(diào)整參數(shù)設(shè)置、SQL邏輯優(yōu)化的方式對(duì)具體任務(wù)進(jìn)行優(yōu)化需要優(yōu)化的任務(wù)。這一步驟的工作也就是傳統(tǒng)認(rèn)知中的任務(wù)優(yōu)化。其中第二步和第三步就是基于本文中的方案快速定位到問(wèn)題任務(wù),整體優(yōu)化后的效果如下:酒店訂單明細(xì)寬表的7日平均產(chǎn)出時(shí)間由2:51提前到1:36,提升45%全流程任務(wù)總數(shù)量從211個(gè)降到145個(gè),減少32%可控上游依賴任務(wù)(非外BU任務(wù))總數(shù)量由180降到117,減少35%關(guān)鍵鏈路調(diào)度層級(jí)由11層減少到6層,且其中兩層是外部BU任務(wù)五、展望基于元數(shù)據(jù)和血緣建設(shè),本方案后續(xù)有如下三點(diǎn)可以深入優(yōu)化:跨多層判斷重復(fù)依賴。由于上述實(shí)際案例中的酒店訂單流程相對(duì)不復(fù)雜,在僅進(jìn)行一層的重復(fù)依賴判斷后,就已經(jīng)達(dá)到了比較滿意的優(yōu)化效果,所以為繼續(xù)進(jìn)行多層重復(fù)依賴的判斷,但從血緣結(jié)構(gòu)上是可以支持多層判斷的。定位多Job中重復(fù)/相似邏輯。多個(gè)任務(wù)依賴同一個(gè)上游任務(wù),可以人工進(jìn)行判斷是否存在可合并的重
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 小區(qū)衛(wèi)生承包協(xié)議書(shū)
- 合租房屋增修協(xié)議
- 如何管理和維護(hù)老顧客
- SCI論文寫(xiě)作與投稿 第2版-課件全套 0-課程介紹 -15-投稿流程示例
- 隴南師范高等專(zhuān)科學(xué)?!妒称窢I(yíng)養(yǎng)與衛(wèi)生學(xué)實(shí)驗(yàn)》2023-2024學(xué)年第二學(xué)期期末試卷
- 陜西工業(yè)職業(yè)技術(shù)學(xué)院《競(jìng)技健美操》2023-2024學(xué)年第一學(xué)期期末試卷
- 陜西師范大學(xué)《鐵路貨物運(yùn)輸》2023-2024學(xué)年第一學(xué)期期末試卷
- 陜西電子信息職業(yè)技術(shù)學(xué)院《物流供應(yīng)鏈管理》2023-2024學(xué)年第二學(xué)期期末試卷
- 陜西省商洛2025屆三月調(diào)考數(shù)學(xué)試題含解析
- 陜西省寧強(qiáng)縣天津高級(jí)中學(xué)2025年高三人教B版選修2-2網(wǎng)課(導(dǎo)數(shù)及其應(yīng)用)測(cè)試題含解析
- 羅秀米粉加工技術(shù)規(guī)程
- 王慧文清華大學(xué)互聯(lián)網(wǎng)產(chǎn)品管理課
- 2024年養(yǎng)老院免責(zé)協(xié)議書(shū)(特殊條款版)
- 光伏項(xiàng)目施工管理手冊(cè)
- 異常子宮出血健康宣教
- 腦出血鉆孔引流手術(shù)后護(hù)理
- 物業(yè)工程部作業(yè)指導(dǎo)書(shū)樣本
- 氫能產(chǎn)業(yè)園規(guī)劃設(shè)計(jì)方案
- 國(guó)開(kāi)2023秋《人文英語(yǔ)4》第5-8單元作文練習(xí)參考答案
- 攔沙壩施工工藝
- 肺癌腫瘤標(biāo)志物檢測(cè)與臨床應(yīng)用
評(píng)論
0/150
提交評(píng)論