攜程酒店基于血緣元數(shù)據(jù)的數(shù)據(jù)流程優(yōu)化實(shí)踐_第1頁(yè)
攜程酒店基于血緣元數(shù)據(jù)的數(shù)據(jù)流程優(yōu)化實(shí)踐_第2頁(yè)
攜程酒店基于血緣元數(shù)據(jù)的數(shù)據(jù)流程優(yōu)化實(shí)踐_第3頁(yè)
攜程酒店基于血緣元數(shù)據(jù)的數(shù)據(jù)流程優(yōu)化實(shí)踐_第4頁(yè)
攜程酒店基于血緣元數(shù)據(jù)的數(shù)據(jù)流程優(yōu)化實(shí)踐_第5頁(yè)
已閱讀5頁(yè),還剩1頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

攜程酒店基于血緣元數(shù)據(jù)的數(shù)據(jù)流程優(yōu)化實(shí)踐一、背景元數(shù)據(jù)MetaData狹義的解釋是用來(lái)描述數(shù)據(jù)的數(shù)據(jù),廣義的來(lái)看,除了業(yè)務(wù)邏輯直接讀寫(xiě)處理的那些業(yè)務(wù)數(shù)據(jù),所有其它用來(lái)維持整個(gè)系統(tǒng)運(yùn)轉(zhuǎn)所需的信息/數(shù)據(jù)都可以叫作元數(shù)據(jù)。比如數(shù)據(jù)表格的Schema信息,任務(wù)的血緣關(guān)系,用戶和腳本/任務(wù)的權(quán)限映射關(guān)系信息等等。在數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)質(zhì)量的評(píng)估中,一個(gè)必不可少的評(píng)價(jià)指標(biāo)就是數(shù)據(jù)產(chǎn)出的及時(shí)性,特別是對(duì)于P0級(jí)別的流程,及時(shí)性指標(biāo)的好壞一方面決定了下游應(yīng)用方能否準(zhǔn)時(shí)地獲取所需的業(yè)務(wù)指標(biāo),直接影響到業(yè)務(wù)的工作效率;另一方面也反映了相應(yīng)指標(biāo)的數(shù)據(jù)架構(gòu)的合理程度。數(shù)據(jù)及時(shí)性,顧名思義就是測(cè)試數(shù)據(jù)需要按時(shí)產(chǎn)出。及時(shí)性重點(diǎn)關(guān)注的三個(gè)要素是:定時(shí)調(diào)度時(shí)間、數(shù)據(jù)任務(wù)優(yōu)先級(jí)以及數(shù)據(jù)產(chǎn)出deadline。其中任務(wù)的優(yōu)先級(jí)決定了它獲取數(shù)據(jù)計(jì)算資源的多少,影響了任務(wù)執(zhí)行時(shí)長(zhǎng)。數(shù)據(jù)deadline則是數(shù)據(jù)最晚產(chǎn)出時(shí)間的統(tǒng)一標(biāo)準(zhǔn),需要嚴(yán)格遵守。這三要素中,屬于業(yè)內(nèi)統(tǒng)一認(rèn)知且在質(zhì)量保障階段需要重點(diǎn)關(guān)注的是:數(shù)據(jù)deadline,這也是我們優(yōu)化數(shù)據(jù)流程產(chǎn)出的最終評(píng)判標(biāo)準(zhǔn)。二、問(wèn)題上述部分已經(jīng)闡述了數(shù)據(jù)及時(shí)性的重要性和評(píng)判標(biāo)準(zhǔn),在通常情況下,為了提升數(shù)據(jù)及時(shí)性,需要投入人力對(duì)重點(diǎn)數(shù)據(jù)流程進(jìn)行優(yōu)化。但針對(duì)數(shù)據(jù)倉(cāng)庫(kù)業(yè)界來(lái)講,對(duì)于一個(gè)重要的數(shù)據(jù)結(jié)果,其上游可能存在幾十個(gè)層級(jí),數(shù)百個(gè)不同的數(shù)據(jù)處理任務(wù),從最初的數(shù)據(jù)到最終的結(jié)果,數(shù)據(jù)流轉(zhuǎn)過(guò)程極其復(fù)雜,傳統(tǒng)的通過(guò)人工逐個(gè)排查的方式去定位影響數(shù)據(jù)流程產(chǎn)出的問(wèn)題節(jié)點(diǎn),存在如下的三項(xiàng)缺點(diǎn):1)覆蓋的任務(wù)范圍有限;2)效率低下,判斷標(biāo)準(zhǔn)不統(tǒng)一,判定準(zhǔn)確率不高;3)無(wú)法形成知識(shí)沉淀,依賴于個(gè)人能力;如果數(shù)據(jù)流程未能充分優(yōu)化,一方面會(huì)存在數(shù)據(jù)結(jié)果產(chǎn)出時(shí)間不穩(wěn)定,影響數(shù)據(jù)的及時(shí)性;另一方面也會(huì)造成計(jì)算資源和存儲(chǔ)資源的浪費(fèi),并且也不易于后續(xù)維護(hù)。三、方案為了避免上述的問(wèn)題,提升數(shù)據(jù)流程優(yōu)化的效率和質(zhì)量,我們采用了從血緣元數(shù)據(jù)出發(fā)的方案。在數(shù)倉(cāng)任務(wù)的執(zhí)行中,都會(huì)依賴于一個(gè)調(diào)度系統(tǒng)組件,目前業(yè)內(nèi)通用的是以DAG為核心的工作流系統(tǒng),數(shù)據(jù)流程中的每個(gè)任務(wù)都會(huì)設(shè)置定時(shí)執(zhí)行或者配置上游依賴,這些設(shè)置的上游依賴就是我們方案中需要的調(diào)度血緣的元數(shù)據(jù)?;谏鲜龅难墧?shù)據(jù),我們的方案中需要實(shí)現(xiàn)以下兩個(gè)功能:基于任務(wù)之間的血緣關(guān)系生成所有上游任務(wù)的層級(jí)依賴數(shù)據(jù)以調(diào)度系統(tǒng)本身的元數(shù)據(jù)作為出發(fā)點(diǎn),調(diào)度系統(tǒng)自身的元數(shù)據(jù)就包含了一個(gè)任務(wù)的上游和下游依賴,基于這個(gè)數(shù)據(jù),通過(guò)層級(jí)遞歸的掃描,就可以得到指定根節(jié)點(diǎn)任務(wù)的所有上游任務(wù)的層級(jí)依賴結(jié)果。設(shè)計(jì)合理的算法定位到有問(wèn)題的任務(wù)在上一步驟得到指定根節(jié)點(diǎn)任務(wù)的所有上游任務(wù)的層級(jí)依賴結(jié)果后,通過(guò)如下三種邏輯定位有問(wèn)題的任務(wù):1)定位過(guò)度分層:JobA的下游只有JobA1在使用,且JobA是JobA1產(chǎn)出的關(guān)鍵路徑,也即JobA1的產(chǎn)出時(shí)間由JobA決定,那么此種情形下,我們可以把JobA的邏輯合并到JobA1,這樣一方面可以減少大數(shù)據(jù)任務(wù)的啟動(dòng)消耗時(shí)間和獲取資源的時(shí)間;另一方面也可以減少依賴層級(jí),方便后續(xù)維護(hù)。2)定位重復(fù)依賴:在較復(fù)雜的數(shù)據(jù)流程中,會(huì)出現(xiàn)如下的情況:JobB2依賴JobB1和JobB,而JobB1也同時(shí)依賴JobB,簡(jiǎn)化后的情況如下圖:此時(shí)我們就可以檢查JobB2的邏輯,考慮任務(wù)內(nèi)容中涉及到JobB的邏輯合并到JobB1,從而可以實(shí)現(xiàn)流程依賴和代碼邏輯的合并優(yōu)化,降低維護(hù)成本,提升整體產(chǎn)出時(shí)間。3)定位關(guān)鍵路徑:在完成上述兩個(gè)步驟后,整個(gè)流程從結(jié)構(gòu)上已經(jīng)基本沒(méi)問(wèn)題,如果要進(jìn)一步優(yōu)化產(chǎn)出時(shí)間,需要針對(duì)特定任務(wù)進(jìn)行調(diào)優(yōu),此時(shí)可以基于已有的上游層級(jí)依賴數(shù)據(jù),計(jì)算得到每個(gè)層級(jí)的最晚產(chǎn)出的任務(wù)Id,這些任務(wù)Id串聯(lián)在一起就是影響整個(gè)流程產(chǎn)出的關(guān)鍵路徑,然后對(duì)關(guān)鍵路徑上的任務(wù)進(jìn)行調(diào)優(yōu)。上述方案的整體設(shè)計(jì)圖如下:四、案例在對(duì)酒店訂單明細(xì)寬表的優(yōu)化過(guò)程中,基于前期的元數(shù)據(jù)建設(shè),主要的工作內(nèi)容分為以下三個(gè)步驟:1)調(diào)度優(yōu)化。調(diào)度優(yōu)化的出發(fā)點(diǎn)是合理分配同步任務(wù)的優(yōu)先級(jí),將非核心任務(wù)的數(shù)據(jù)同步延后。從而降低0到2點(diǎn),酒店訂單寬表核心流程執(zhí)行期間的集群資源壓力。2)模型優(yōu)化。在這一步驟中,我主要是從兩個(gè)方向出發(fā):減少跨層級(jí)重復(fù)依賴,避免相似邏輯代碼的出現(xiàn),提升數(shù)據(jù)結(jié)果的復(fù)用能力。避免濫用分層,對(duì)冗余的分層、中間表進(jìn)行合并,減少任務(wù)調(diào)度鏈路的層級(jí),減少Job數(shù)量,節(jié)省Job的啟動(dòng)時(shí)間。3)任務(wù)優(yōu)化。通過(guò)調(diào)整參數(shù)設(shè)置、SQL邏輯優(yōu)化的方式對(duì)具體任務(wù)進(jìn)行優(yōu)化需要優(yōu)化的任務(wù)。這一步驟的工作也就是傳統(tǒng)認(rèn)知中的任務(wù)優(yōu)化。其中第二步和第三步就是基于本文中的方案快速定位到問(wèn)題任務(wù),整體優(yōu)化后的效果如下:酒店訂單明細(xì)寬表的7日平均產(chǎn)出時(shí)間由2:51提前到1:36,提升45%全流程任務(wù)總數(shù)量從211個(gè)降到145個(gè),減少32%可控上游依賴任務(wù)(非外BU任務(wù))總數(shù)量由180降到117,減少35%關(guān)鍵鏈路調(diào)度層級(jí)由11層減少到6層,且其中兩層是外部BU任務(wù)五、展望基于元數(shù)據(jù)和血緣建設(shè),本方案后續(xù)有如下三點(diǎn)可以深入優(yōu)化:跨多層判斷重復(fù)依賴。由于上述實(shí)際案例中的酒店訂單流程相對(duì)不復(fù)雜,在僅進(jìn)行一層的重復(fù)依賴判斷后,就已經(jīng)達(dá)到了比較滿意的優(yōu)化效果,所以為繼續(xù)進(jìn)行多層重復(fù)依賴的判斷,但從血緣結(jié)構(gòu)上是可以支持多層判斷的。定位多Job中重復(fù)/相似邏輯。多個(gè)任務(wù)依賴同一個(gè)上游任務(wù),可以人工進(jìn)行判斷是否存在可合并的重

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論