數(shù)據(jù)治理:數(shù)據(jù)質(zhì)量評價體系_第1頁
數(shù)據(jù)治理:數(shù)據(jù)質(zhì)量評價體系_第2頁
數(shù)據(jù)治理:數(shù)據(jù)質(zhì)量評價體系_第3頁
數(shù)據(jù)治理:數(shù)據(jù)質(zhì)量評價體系_第4頁
數(shù)據(jù)治理:數(shù)據(jù)質(zhì)量評價體系_第5頁
已閱讀5頁,還剩9頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)治理:數(shù)據(jù)質(zhì)量評價體系

數(shù)據(jù)質(zhì)量人人有責(zé),這不僅僅只是一句口號,更是數(shù)據(jù)工作者的生命

線。數(shù)據(jù)質(zhì)量的好壞直接決定著數(shù)據(jù)價值高低。

數(shù)據(jù)質(zhì)量管理是指在數(shù)據(jù)創(chuàng)建、加工、使用和遷移等過程中,通過開展

數(shù)據(jù)質(zhì)量定義、過程控制、監(jiān)測、問題分析和整改、評估與考核等一系

列管理活動,提高數(shù)據(jù)質(zhì)量以滿足業(yè)務(wù)要求。

可按照"誰創(chuàng)建、誰負(fù)責(zé);誰加工、誰負(fù)責(zé);誰提供、誰負(fù)責(zé)"的原則界

定數(shù)據(jù)質(zhì)量管理責(zé)任,由數(shù)據(jù)流轉(zhuǎn)環(huán)節(jié)的各責(zé)任方對管轄范圍內(nèi)的數(shù)據(jù)

質(zhì)量負(fù)責(zé)。對數(shù)據(jù)質(zhì)量規(guī)則優(yōu)先采取系統(tǒng)程序的自動化控制措施,并盡

可能前移管控點,從源頭上控制數(shù)據(jù)質(zhì)量。

01數(shù)據(jù)治理問題場景

在日常工作中,業(yè)務(wù)領(lǐng)導(dǎo)經(jīng)常會通過報表看板等數(shù)據(jù)產(chǎn)品來了解各項業(yè)

務(wù)的發(fā)展趨勢以及KPI的達(dá)成情況。倘若某天,他打開某張核心報表,

發(fā)現(xiàn)當(dāng)日的數(shù)據(jù)一直是空白的,詢問報表開發(fā)人員,開發(fā)經(jīng)排查分析,

發(fā)現(xiàn)是依賴的上游有延遲,上游數(shù)據(jù)預(yù)計要下午才能到達(dá),導(dǎo)致業(yè)務(wù)領(lǐng)

導(dǎo)在正常時點無法查看業(yè)務(wù)數(shù)據(jù)情況。

又或某天,業(yè)務(wù)人員點開報表發(fā)現(xiàn)當(dāng)日AUM規(guī)模暴增,數(shù)據(jù)增長當(dāng)然

開心,但仔細(xì)推敲,發(fā)現(xiàn)這波動有點不合常理,于是通知數(shù)據(jù)負(fù)責(zé)人驗

證下數(shù)據(jù)是否存在異常。經(jīng)過幾個小時的排查分析,數(shù)據(jù)負(fù)責(zé)人報告說

數(shù)據(jù)確實算的有些問題,業(yè)務(wù)業(yè)務(wù)以后對該報表數(shù)據(jù)的準(zhǔn)確性將會打上

問號。

若類似的數(shù)據(jù)問題經(jīng)常出現(xiàn),估計迎接你的不是美好明天,而是你的職

業(yè)生涯的最后一天。

02數(shù)據(jù)質(zhì)量的重要性

數(shù)據(jù)質(zhì)量為什么至關(guān)重要?因為擁有高質(zhì)量的數(shù)據(jù)可以讓您更好地了解

任何情況,從而更精準(zhǔn)地執(zhí)行任何事情。反之亦然。

伴隨著技術(shù)的進(jìn)步,組織或者企業(yè)能夠收集大量的數(shù)據(jù),用好這些數(shù)據(jù)

已成為焦點。然而,由于以下原因,很多組織或者企業(yè)并沒有實施數(shù)據(jù)

質(zhì)量計劃:

?沒有業(yè)務(wù)部門負(fù)責(zé)數(shù)據(jù)質(zhì)量問題

?數(shù)據(jù)質(zhì)量需要跨職能合作

?它要求組織認(rèn)識到數(shù)據(jù)質(zhì)量是一個重要問題

?它需要數(shù)據(jù)質(zhì)量準(zhǔn)則

?它需要投入財力和人力資源

?它被認(rèn)為是非常人力密集的

?投資回報往往難以量化

看起來,挑戰(zhàn)大于好處。

但是,數(shù)據(jù)質(zhì)量務(wù)必重視,原因有三。

原因一:成本

數(shù)據(jù)質(zhì)量差,是IT項目失敗的主要原因,也是客戶流逝背后的驅(qū)動因素

之一。

原因二:合規(guī)

質(zhì)量差的數(shù)據(jù)會帶來重大的法律或者聲譽風(fēng)險。一些例子如下:

?數(shù)據(jù)缺失導(dǎo)致信用風(fēng)險不準(zhǔn)確

?信用記錄不完整致使風(fēng)險評估錯誤

?監(jiān)管違規(guī)

原因三:決策

質(zhì)量好的數(shù)據(jù)意味著有準(zhǔn)確及時的信息來管理從研發(fā)到銷售的產(chǎn)品和服

務(wù)。質(zhì)量差的數(shù)據(jù)導(dǎo)致錯誤的洞察力,從而做出錯誤的決策。決策的錯

誤,公司會付出沉重的代價。

在企業(yè),數(shù)據(jù)服務(wù)的方式有報表看板、標(biāo)簽指標(biāo)和數(shù)據(jù)接口等,而這些

數(shù)據(jù)服務(wù)要想為業(yè)務(wù)帶來價值的,其首要前提就是要保證數(shù)據(jù)的準(zhǔn)確

性,輸出高質(zhì)量的數(shù)據(jù)。

低質(zhì)量的數(shù)據(jù)會誤導(dǎo)業(yè)務(wù)做出錯誤的決定,致使行動方向發(fā)生偏離。特

別是在數(shù)據(jù)驅(qū)動的組織中,是否有準(zhǔn)確的、可用的高質(zhì)量的數(shù)據(jù),將直

接影響領(lǐng)導(dǎo)層能否做出正確的決策和戰(zhàn)略目標(biāo)的實現(xiàn)。

因此需要特別重視數(shù)據(jù)的質(zhì)量問題,針對數(shù)據(jù)質(zhì)量進(jìn)行專項治理。

03數(shù)據(jù)質(zhì)量常見問題

在前面的場景案例中,我們可以發(fā)現(xiàn)有如下幾個數(shù)據(jù)質(zhì)量問題:

1.數(shù)據(jù)延遲,導(dǎo)致業(yè)務(wù)無法在正常時效內(nèi)獲得數(shù)據(jù)結(jié)果。

2.數(shù)據(jù)錯誤,導(dǎo)致數(shù)據(jù)結(jié)果完全不可信,以致無法使用。

3.數(shù)據(jù)恢復(fù)慢,問題發(fā)生后,排查分析耗時長,數(shù)據(jù)恢復(fù)時間慢。

發(fā)現(xiàn)滯后,數(shù)據(jù)開發(fā)晚于業(yè)務(wù)人員發(fā)現(xiàn)數(shù)據(jù)異常,導(dǎo)致影響已傳導(dǎo)到數(shù)

據(jù)應(yīng)用端。

04數(shù)據(jù)質(zhì)量問題原因

那應(yīng)該如何解決這些質(zhì)量問題,保證數(shù)據(jù)的高質(zhì)量交付呢?

首先,我們需要了解這些質(zhì)量問題產(chǎn)生的根本原因,了解問題才能更好

地去解決問題。通過對歷次數(shù)據(jù)質(zhì)量問題進(jìn)行復(fù)盤、總結(jié),發(fā)現(xiàn)質(zhì)量問

題主要由下面幾類原因引發(fā):

?數(shù)據(jù)平臺問題:平臺不穩(wěn)定、隊列資源不足等,導(dǎo)致作業(yè)運行延

遲、報錯。

?數(shù)據(jù)開發(fā)問題:數(shù)據(jù)開發(fā)人員的任務(wù)腳本性能太差,計算嚴(yán)重耗

時,導(dǎo)致數(shù)據(jù)延遲;或是代碼邏輯設(shè)計有問題,導(dǎo)致數(shù)據(jù)計算有

誤。

?上游系統(tǒng)異常:上游源系統(tǒng)異常,數(shù)據(jù)文件晚到,導(dǎo)致下游依賴作

業(yè)延遲。

05數(shù)據(jù)質(zhì)量治理

出現(xiàn)問題不可怕,可怕的是出現(xiàn)問題后,我們毫無感知,不能做到"早發(fā)

現(xiàn)、早處理、早恢復(fù)",以致問題直接傳導(dǎo)到業(yè)務(wù)方,影響業(yè)務(wù)的開展工

作。

在大數(shù)據(jù)產(chǎn)品矩陣中,我們使用數(shù)據(jù)質(zhì)量監(jiān)控平臺來支持?jǐn)?shù)據(jù)質(zhì)量的監(jiān)

控、治理。

數(shù)據(jù)質(zhì)量監(jiān)控平臺,主要是對Hive數(shù)倉中的庫表數(shù)據(jù)的質(zhì)量進(jìn)行監(jiān)

控,包括表級別和字段級別的數(shù)據(jù)進(jìn)行監(jiān)控,以減少或避免由數(shù)據(jù)質(zhì)量

引起的事故和損失。

借助數(shù)據(jù)質(zhì)量監(jiān)控平臺,我們通過實施下面幾個關(guān)鍵步驟來進(jìn)行數(shù)據(jù)質(zhì)

量的治理:

(1)配置監(jiān)控規(guī)則

對高價值分的作業(yè),我們要求強制配置基礎(chǔ)監(jiān)控規(guī)則,如:主鍵唯一性

校驗、數(shù)據(jù)非空校驗;

另還可以根據(jù)業(yè)務(wù)場景需要,配置對應(yīng)的業(yè)務(wù)規(guī)則監(jiān)控,如:字段總值

環(huán)比校驗、字段極值校驗等,監(jiān)控平臺內(nèi)置了約17種字段級校驗規(guī)

則、5種表級校驗規(guī)則,供直接配置使用;

監(jiān)控規(guī)則規(guī)則描述

表非空校驗表沒有記錄時發(fā)送告警

表環(huán)比校驗如果環(huán)比值超出預(yù)設(shè)規(guī)則上下限值.則會發(fā)送告警

表原表對比如果環(huán)比值超出預(yù)設(shè)規(guī)則上下限值.則會發(fā)送告警

表主鍵唯一如果表根據(jù)主鍵值去重計數(shù)不等于表記錄數(shù),則發(fā)送告警

字段字符非空校驗如果字段出現(xiàn)空值,則會發(fā)送告警

字段字符長度校驗如果字段數(shù)值長度超過預(yù)定義上下限范圍.則會發(fā)送告警

字段字符只允許數(shù)字校驗如果出現(xiàn)非數(shù)字的字符或符號,則會發(fā)送告警

字段字符非法校驗如果出現(xiàn)預(yù)定義禁止值.則會發(fā)送告警

字段字符空值增長率如果空值常長率超出預(yù)定義上下值.則會發(fā)送告警

字段字符格式校驗如果字段值的格式非指定格式,則會發(fā)送告警

字段枚舉允許值校驗如果字段值出現(xiàn)非預(yù)定義允許值,則會發(fā)送告警

字段枚舉空值增長率如果空值增長率超出預(yù)定義上下值,則會發(fā)送告警

字段枚舉非空校驗如果字段出現(xiàn)空值,則會發(fā)送告警

字段數(shù)字非空校驗如果字段出現(xiàn)空值,則會發(fā)送告警

字段數(shù)字空值增長率如果空值增長率超出預(yù)定義上下值.則會發(fā)送告警

字段數(shù)字極值校驗如果字段數(shù)值超過預(yù)定義上下限范圍,則會發(fā)送告警

字段數(shù)字非法值校驗如果出現(xiàn)預(yù)定義禁止值,則會發(fā)送告警

字段數(shù)字環(huán)比校驗如果環(huán)比值超出預(yù)設(shè)規(guī)則上下限值.則會發(fā)送告警

字段數(shù)字均值校驗如果環(huán)比值超出預(yù)設(shè)規(guī)則上下限值.則會發(fā)送告警

字段枚舉環(huán)比如果環(huán)比值超出預(yù)設(shè)規(guī)則上下限值.則會發(fā)送告警…_.

字段空值占比校驗如果空值的記錄條數(shù)和總記錄數(shù)對比,則會發(fā)送吉警歸于三

除內(nèi)置了豐富的校驗規(guī)則,質(zhì)量監(jiān)控平臺還支持SQL自定義監(jiān)控規(guī)則,

極大地滿足各種數(shù)據(jù)監(jiān)控場景。

(2)監(jiān)控告警

當(dāng)校驗規(guī)則識別異常時,需要通知負(fù)責(zé)人進(jìn)行跟進(jìn)處理,質(zhì)量監(jiān)控平臺

支持以電話、郵件和短信等方式通知作業(yè)屬主。作業(yè)屬主收到告警后,

需及時地處理和關(guān)閉告警,否則告警將一直掛在那,在后面的告警響應(yīng)

度中會被稽核到,上報其領(lǐng)導(dǎo)。

(3)全鏈路數(shù)據(jù)監(jiān)控

根據(jù)作業(yè)的價值分級,針對高價值作業(yè),開發(fā)人員可根據(jù)數(shù)據(jù)血緣,對

上游作業(yè)依次配上監(jiān)控,實現(xiàn)全鏈路的數(shù)據(jù)質(zhì)量監(jiān)控。

06數(shù)據(jù)質(zhì)量評價體系

在執(zhí)行了一系列的舉措來提高數(shù)據(jù)質(zhì)量后,如何來驗證數(shù)據(jù)質(zhì)量的治理

效果呢?

根據(jù)企業(yè)本身的數(shù)據(jù)特點,設(shè)計并構(gòu)建了一個數(shù)據(jù)質(zhì)量七維評價模型,

如下圖所示:

數(shù)據(jù)度量整體評分:74.15

副版完整性

7.BJ

告警響應(yīng)度

..「-

,:/溷字星

數(shù)據(jù)質(zhì)量評價模型,分別從數(shù)據(jù)完整性、監(jiān)控覆蓋率、告警響應(yīng)度、作

業(yè)準(zhǔn)確性、作業(yè)穩(wěn)定性、作業(yè)時效性、作業(yè)性能分等七個維度來考量平

臺的數(shù)據(jù)質(zhì)量,基于該模型,還設(shè)計了"數(shù)據(jù)質(zhì)量分"這個指標(biāo),來直觀

地反映平臺數(shù)據(jù)質(zhì)量的建設(shè)水平及健康狀況。

數(shù)據(jù)質(zhì)量七維模型的評價視角及其計算口徑:

數(shù)據(jù)質(zhì)量?績效評分指標(biāo)

考量數(shù)據(jù)項信息是否全面、完整、無抉失

1數(shù)據(jù)完整性指標(biāo)公式:表完整性和字段完整性的平均值

2監(jiān)控覆蓋率,確保數(shù)據(jù)遵循統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)或規(guī)范要求

指標(biāo)公式:巳監(jiān)控作業(yè)個數(shù)/作業(yè)總個數(shù)

通過日常管理、應(yīng)急響應(yīng),降低或消除問題影響,避免數(shù)據(jù)損毀、丟失

3告警響應(yīng)度指標(biāo)公式:巳處理告警個數(shù)/告警總個數(shù)

<

作業(yè)準(zhǔn)確性考量數(shù)據(jù)是否符合預(yù)設(shè)的質(zhì)量要求,如唯一性約束、記錄量校驗等

4指標(biāo)公式:1-告警作業(yè)個數(shù)/監(jiān)控作業(yè)總個數(shù)

5作業(yè)穩(wěn)定性考量作業(yè)的運行穩(wěn)定性,是否經(jīng)常報錯,導(dǎo)致數(shù)據(jù)事故

指標(biāo)公式:1-錯誤作業(yè)個數(shù)/作業(yè)總個數(shù)

6作業(yè)及時性考量數(shù)據(jù)項信息可被獲取和使用的時間是否滿足預(yù)期要求

?指標(biāo)公式:1-延遲作業(yè)個數(shù)/作業(yè)總個數(shù)

考量作業(yè)的執(zhí)行效率和逑康度,診斷作業(yè)是否假斜等性能問題

7作業(yè)性能分指標(biāo)公式:1-(嚴(yán)重I危急)作業(yè)個數(shù)/作業(yè)總個數(shù);冊據(jù)學(xué)堂

數(shù)據(jù)完整性

☆考量數(shù)據(jù)項信息是否全面、完整、無缺失

★指標(biāo)公式:表完整性和字段完整性的平均值

2

監(jiān)控覆蓋率

☆確保數(shù)據(jù)遵循統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)或規(guī)范要求

★指標(biāo)公式:監(jiān)控的高價值作業(yè)個數(shù)/高價值作業(yè)總個數(shù)

其中,高價值作業(yè)是指作業(yè)價值分在80分以上的作業(yè)

3

告警響應(yīng)度

☆通過日常管理、應(yīng)急響應(yīng),降低或消除問題影響,避免數(shù)據(jù)損毀、

丟失

★指標(biāo)公式:已處理告警個數(shù)(本周)/告警總個數(shù)(本周)

4

作業(yè)準(zhǔn)確性

☆考量數(shù)據(jù)是否符合預(yù)設(shè)的質(zhì)量要求,如唯一性約束、記錄量校驗等

★指標(biāo)公式:1-告警作業(yè)個數(shù)(本周)/監(jiān)控作業(yè)總個數(shù)

作業(yè)穩(wěn)定性

☆考量作業(yè)的運行穩(wěn)定性,是否經(jīng)常報錯,導(dǎo)致數(shù)據(jù)事故

★指標(biāo)公式:1-錯誤作業(yè)個數(shù)(本周)/作業(yè)總個數(shù)

作業(yè)時效性

☆考量數(shù)據(jù)項信息可被獲取和使用的時間是否滿足預(yù)期要求

★指標(biāo)公式:1-延遲的高價值作業(yè)個數(shù)(本周)/高價值作業(yè)總個數(shù)

其中,基準(zhǔn)時間為作業(yè)近30天平均完成時間加30分鐘,作業(yè)晚于

基準(zhǔn)即延遲

7

作業(yè)性能分

☆考量作業(yè)的執(zhí)行效率和健康度,診斷作業(yè)是否傾斜等性能問題

★指標(biāo)公式:1-危急作業(yè)個數(shù)(本周)/作業(yè)總個數(shù)

從各質(zhì)量維度的評價視角和指標(biāo)公式可以發(fā)現(xiàn),雖然數(shù)據(jù)質(zhì)量監(jiān)控的是

表及字段的質(zhì)量情況,但我們的質(zhì)量分是設(shè)定在庫這個層級。這么設(shè)計

主要是為了更好地責(zé)任劃分、統(tǒng)籌治理。

比如在銀行業(yè),每個庫都有其對應(yīng)的所屬分層(如明細(xì)層、匯總層、應(yīng)

用層等),且每個庫都有對應(yīng)的庫負(fù)責(zé)人,所以到庫這個層級,我們能

更好的分而治之,由庫負(fù)責(zé)人對庫的質(zhì)量水平負(fù)責(zé)。

基于數(shù)據(jù)質(zhì)量模型,我們還配套對應(yīng)的數(shù)據(jù)質(zhì)量監(jiān)控報告。在報告中我

們不僅能看到數(shù)據(jù)平臺的整體質(zhì)量評分,了解質(zhì)量發(fā)展趨勢,更能通過

多維分析、單維深鉆來了解平臺的質(zhì)量問題根源。

多維分析:詳細(xì)展示七個質(zhì)量維度的評分及趨勢變化,每個維度下還配

有TOP榜,用來展示低質(zhì)量的庫排名,督促庫負(fù)責(zé)人進(jìn)行優(yōu)化、治

理;

作業(yè)準(zhǔn)確性(TOP10窿及整體)作業(yè)準(zhǔn)確性(表明他)

*nsMilft8ftftNUf作m■tHBAA已處哀”個《l

RLDRLD71A3?XMS_COR£.28390no

第"IM

ZCtMIftOMOO1MS.CORE:如“5DO28390390

JIHAJ^WB

XUMta?5986671MS.COW378378

6KCHtWMtfBUNX89.71-\MS.COR£臥?837>378

ZH

AP嚼1RZHIS

9000-KMS.CORE‘r348548

SAf!li^Kg_MDe」1HA9P非

SUMK0690X)01U4S.COR£APWt>.洲iZH15348348

TBBUCza^fp9Z02I\MS_COREb決qZH/3klZHb271271

28

1PJIH^^BZHA1RlZHlS

192161kMS.CORE?Kf?B->w271271

GUV!

92471\MS.CORETHHZHH)28h238238

ALG92.921XMS.CORtJIHAIA28GUvj史圖據(jù)冬空

無無95.361IMSCORfEITHAMKVK7HAMAI7HI?i

1-2$A1.486ft?

單維深鉆:每一個質(zhì)量維度都能從整體下鉆到具體庫及表,深入了解該

維度質(zhì)量評分低的具體原因,以便針對性地解決問題、提高質(zhì)量;

告譬規(guī)弼(各庫表嬲)

asm*8

ttaaStcfTiiMIDBMfluaaMfNLQKBRRfWBUTALQ2

ttiWftSttMIDF$_8W|^M|^^mEILtNFCFS_BS9MMK_SU2

作業(yè)MIDv.FSjtMMBTivrV

作ikt&SttMID

ttSMl:MIDFS.WMHaflUrtfO

盛婷量?本MIDV.FSjtaHBHMtl1*FS-WMSHRARY,

盤IS量■率MIDFSjM>M9hFO

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論