版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)治理:數(shù)據(jù)質(zhì)量評價體系
數(shù)據(jù)質(zhì)量人人有責(zé),這不僅僅只是一句口號,更是數(shù)據(jù)工作者的生命
線。數(shù)據(jù)質(zhì)量的好壞直接決定著數(shù)據(jù)價值高低。
數(shù)據(jù)質(zhì)量管理是指在數(shù)據(jù)創(chuàng)建、加工、使用和遷移等過程中,通過開展
數(shù)據(jù)質(zhì)量定義、過程控制、監(jiān)測、問題分析和整改、評估與考核等一系
列管理活動,提高數(shù)據(jù)質(zhì)量以滿足業(yè)務(wù)要求。
可按照"誰創(chuàng)建、誰負(fù)責(zé);誰加工、誰負(fù)責(zé);誰提供、誰負(fù)責(zé)"的原則界
定數(shù)據(jù)質(zhì)量管理責(zé)任,由數(shù)據(jù)流轉(zhuǎn)環(huán)節(jié)的各責(zé)任方對管轄范圍內(nèi)的數(shù)據(jù)
質(zhì)量負(fù)責(zé)。對數(shù)據(jù)質(zhì)量規(guī)則優(yōu)先采取系統(tǒng)程序的自動化控制措施,并盡
可能前移管控點,從源頭上控制數(shù)據(jù)質(zhì)量。
01數(shù)據(jù)治理問題場景
在日常工作中,業(yè)務(wù)領(lǐng)導(dǎo)經(jīng)常會通過報表看板等數(shù)據(jù)產(chǎn)品來了解各項業(yè)
務(wù)的發(fā)展趨勢以及KPI的達(dá)成情況。倘若某天,他打開某張核心報表,
發(fā)現(xiàn)當(dāng)日的數(shù)據(jù)一直是空白的,詢問報表開發(fā)人員,開發(fā)經(jīng)排查分析,
發(fā)現(xiàn)是依賴的上游有延遲,上游數(shù)據(jù)預(yù)計要下午才能到達(dá),導(dǎo)致業(yè)務(wù)領(lǐng)
導(dǎo)在正常時點無法查看業(yè)務(wù)數(shù)據(jù)情況。
又或某天,業(yè)務(wù)人員點開報表發(fā)現(xiàn)當(dāng)日AUM規(guī)模暴增,數(shù)據(jù)增長當(dāng)然
開心,但仔細(xì)推敲,發(fā)現(xiàn)這波動有點不合常理,于是通知數(shù)據(jù)負(fù)責(zé)人驗
證下數(shù)據(jù)是否存在異常。經(jīng)過幾個小時的排查分析,數(shù)據(jù)負(fù)責(zé)人報告說
數(shù)據(jù)確實算的有些問題,業(yè)務(wù)業(yè)務(wù)以后對該報表數(shù)據(jù)的準(zhǔn)確性將會打上
問號。
若類似的數(shù)據(jù)問題經(jīng)常出現(xiàn),估計迎接你的不是美好明天,而是你的職
業(yè)生涯的最后一天。
02數(shù)據(jù)質(zhì)量的重要性
數(shù)據(jù)質(zhì)量為什么至關(guān)重要?因為擁有高質(zhì)量的數(shù)據(jù)可以讓您更好地了解
任何情況,從而更精準(zhǔn)地執(zhí)行任何事情。反之亦然。
伴隨著技術(shù)的進(jìn)步,組織或者企業(yè)能夠收集大量的數(shù)據(jù),用好這些數(shù)據(jù)
已成為焦點。然而,由于以下原因,很多組織或者企業(yè)并沒有實施數(shù)據(jù)
質(zhì)量計劃:
?沒有業(yè)務(wù)部門負(fù)責(zé)數(shù)據(jù)質(zhì)量問題
?數(shù)據(jù)質(zhì)量需要跨職能合作
?它要求組織認(rèn)識到數(shù)據(jù)質(zhì)量是一個重要問題
?它需要數(shù)據(jù)質(zhì)量準(zhǔn)則
?它需要投入財力和人力資源
?它被認(rèn)為是非常人力密集的
?投資回報往往難以量化
看起來,挑戰(zhàn)大于好處。
但是,數(shù)據(jù)質(zhì)量務(wù)必重視,原因有三。
原因一:成本
數(shù)據(jù)質(zhì)量差,是IT項目失敗的主要原因,也是客戶流逝背后的驅(qū)動因素
之一。
原因二:合規(guī)
質(zhì)量差的數(shù)據(jù)會帶來重大的法律或者聲譽風(fēng)險。一些例子如下:
?數(shù)據(jù)缺失導(dǎo)致信用風(fēng)險不準(zhǔn)確
?信用記錄不完整致使風(fēng)險評估錯誤
?監(jiān)管違規(guī)
原因三:決策
質(zhì)量好的數(shù)據(jù)意味著有準(zhǔn)確及時的信息來管理從研發(fā)到銷售的產(chǎn)品和服
務(wù)。質(zhì)量差的數(shù)據(jù)導(dǎo)致錯誤的洞察力,從而做出錯誤的決策。決策的錯
誤,公司會付出沉重的代價。
在企業(yè),數(shù)據(jù)服務(wù)的方式有報表看板、標(biāo)簽指標(biāo)和數(shù)據(jù)接口等,而這些
數(shù)據(jù)服務(wù)要想為業(yè)務(wù)帶來價值的,其首要前提就是要保證數(shù)據(jù)的準(zhǔn)確
性,輸出高質(zhì)量的數(shù)據(jù)。
低質(zhì)量的數(shù)據(jù)會誤導(dǎo)業(yè)務(wù)做出錯誤的決定,致使行動方向發(fā)生偏離。特
別是在數(shù)據(jù)驅(qū)動的組織中,是否有準(zhǔn)確的、可用的高質(zhì)量的數(shù)據(jù),將直
接影響領(lǐng)導(dǎo)層能否做出正確的決策和戰(zhàn)略目標(biāo)的實現(xiàn)。
因此需要特別重視數(shù)據(jù)的質(zhì)量問題,針對數(shù)據(jù)質(zhì)量進(jìn)行專項治理。
03數(shù)據(jù)質(zhì)量常見問題
在前面的場景案例中,我們可以發(fā)現(xiàn)有如下幾個數(shù)據(jù)質(zhì)量問題:
1.數(shù)據(jù)延遲,導(dǎo)致業(yè)務(wù)無法在正常時效內(nèi)獲得數(shù)據(jù)結(jié)果。
2.數(shù)據(jù)錯誤,導(dǎo)致數(shù)據(jù)結(jié)果完全不可信,以致無法使用。
3.數(shù)據(jù)恢復(fù)慢,問題發(fā)生后,排查分析耗時長,數(shù)據(jù)恢復(fù)時間慢。
發(fā)現(xiàn)滯后,數(shù)據(jù)開發(fā)晚于業(yè)務(wù)人員發(fā)現(xiàn)數(shù)據(jù)異常,導(dǎo)致影響已傳導(dǎo)到數(shù)
據(jù)應(yīng)用端。
04數(shù)據(jù)質(zhì)量問題原因
那應(yīng)該如何解決這些質(zhì)量問題,保證數(shù)據(jù)的高質(zhì)量交付呢?
首先,我們需要了解這些質(zhì)量問題產(chǎn)生的根本原因,了解問題才能更好
地去解決問題。通過對歷次數(shù)據(jù)質(zhì)量問題進(jìn)行復(fù)盤、總結(jié),發(fā)現(xiàn)質(zhì)量問
題主要由下面幾類原因引發(fā):
?數(shù)據(jù)平臺問題:平臺不穩(wěn)定、隊列資源不足等,導(dǎo)致作業(yè)運行延
遲、報錯。
?數(shù)據(jù)開發(fā)問題:數(shù)據(jù)開發(fā)人員的任務(wù)腳本性能太差,計算嚴(yán)重耗
時,導(dǎo)致數(shù)據(jù)延遲;或是代碼邏輯設(shè)計有問題,導(dǎo)致數(shù)據(jù)計算有
誤。
?上游系統(tǒng)異常:上游源系統(tǒng)異常,數(shù)據(jù)文件晚到,導(dǎo)致下游依賴作
業(yè)延遲。
05數(shù)據(jù)質(zhì)量治理
出現(xiàn)問題不可怕,可怕的是出現(xiàn)問題后,我們毫無感知,不能做到"早發(fā)
現(xiàn)、早處理、早恢復(fù)",以致問題直接傳導(dǎo)到業(yè)務(wù)方,影響業(yè)務(wù)的開展工
作。
在大數(shù)據(jù)產(chǎn)品矩陣中,我們使用數(shù)據(jù)質(zhì)量監(jiān)控平臺來支持?jǐn)?shù)據(jù)質(zhì)量的監(jiān)
控、治理。
數(shù)據(jù)質(zhì)量監(jiān)控平臺,主要是對Hive數(shù)倉中的庫表數(shù)據(jù)的質(zhì)量進(jìn)行監(jiān)
控,包括表級別和字段級別的數(shù)據(jù)進(jìn)行監(jiān)控,以減少或避免由數(shù)據(jù)質(zhì)量
引起的事故和損失。
借助數(shù)據(jù)質(zhì)量監(jiān)控平臺,我們通過實施下面幾個關(guān)鍵步驟來進(jìn)行數(shù)據(jù)質(zhì)
量的治理:
(1)配置監(jiān)控規(guī)則
對高價值分的作業(yè),我們要求強制配置基礎(chǔ)監(jiān)控規(guī)則,如:主鍵唯一性
校驗、數(shù)據(jù)非空校驗;
另還可以根據(jù)業(yè)務(wù)場景需要,配置對應(yīng)的業(yè)務(wù)規(guī)則監(jiān)控,如:字段總值
環(huán)比校驗、字段極值校驗等,監(jiān)控平臺內(nèi)置了約17種字段級校驗規(guī)
則、5種表級校驗規(guī)則,供直接配置使用;
監(jiān)控規(guī)則規(guī)則描述
表非空校驗表沒有記錄時發(fā)送告警
表環(huán)比校驗如果環(huán)比值超出預(yù)設(shè)規(guī)則上下限值.則會發(fā)送告警
表原表對比如果環(huán)比值超出預(yù)設(shè)規(guī)則上下限值.則會發(fā)送告警
表主鍵唯一如果表根據(jù)主鍵值去重計數(shù)不等于表記錄數(shù),則發(fā)送告警
字段字符非空校驗如果字段出現(xiàn)空值,則會發(fā)送告警
字段字符長度校驗如果字段數(shù)值長度超過預(yù)定義上下限范圍.則會發(fā)送告警
字段字符只允許數(shù)字校驗如果出現(xiàn)非數(shù)字的字符或符號,則會發(fā)送告警
字段字符非法校驗如果出現(xiàn)預(yù)定義禁止值.則會發(fā)送告警
字段字符空值增長率如果空值常長率超出預(yù)定義上下值.則會發(fā)送告警
字段字符格式校驗如果字段值的格式非指定格式,則會發(fā)送告警
字段枚舉允許值校驗如果字段值出現(xiàn)非預(yù)定義允許值,則會發(fā)送告警
字段枚舉空值增長率如果空值增長率超出預(yù)定義上下值,則會發(fā)送告警
字段枚舉非空校驗如果字段出現(xiàn)空值,則會發(fā)送告警
字段數(shù)字非空校驗如果字段出現(xiàn)空值,則會發(fā)送告警
字段數(shù)字空值增長率如果空值增長率超出預(yù)定義上下值.則會發(fā)送告警
字段數(shù)字極值校驗如果字段數(shù)值超過預(yù)定義上下限范圍,則會發(fā)送告警
字段數(shù)字非法值校驗如果出現(xiàn)預(yù)定義禁止值,則會發(fā)送告警
字段數(shù)字環(huán)比校驗如果環(huán)比值超出預(yù)設(shè)規(guī)則上下限值.則會發(fā)送告警
字段數(shù)字均值校驗如果環(huán)比值超出預(yù)設(shè)規(guī)則上下限值.則會發(fā)送告警
字段枚舉環(huán)比如果環(huán)比值超出預(yù)設(shè)規(guī)則上下限值.則會發(fā)送告警…_.
字段空值占比校驗如果空值的記錄條數(shù)和總記錄數(shù)對比,則會發(fā)送吉警歸于三
除內(nèi)置了豐富的校驗規(guī)則,質(zhì)量監(jiān)控平臺還支持SQL自定義監(jiān)控規(guī)則,
極大地滿足各種數(shù)據(jù)監(jiān)控場景。
(2)監(jiān)控告警
當(dāng)校驗規(guī)則識別異常時,需要通知負(fù)責(zé)人進(jìn)行跟進(jìn)處理,質(zhì)量監(jiān)控平臺
支持以電話、郵件和短信等方式通知作業(yè)屬主。作業(yè)屬主收到告警后,
需及時地處理和關(guān)閉告警,否則告警將一直掛在那,在后面的告警響應(yīng)
度中會被稽核到,上報其領(lǐng)導(dǎo)。
(3)全鏈路數(shù)據(jù)監(jiān)控
根據(jù)作業(yè)的價值分級,針對高價值作業(yè),開發(fā)人員可根據(jù)數(shù)據(jù)血緣,對
上游作業(yè)依次配上監(jiān)控,實現(xiàn)全鏈路的數(shù)據(jù)質(zhì)量監(jiān)控。
06數(shù)據(jù)質(zhì)量評價體系
在執(zhí)行了一系列的舉措來提高數(shù)據(jù)質(zhì)量后,如何來驗證數(shù)據(jù)質(zhì)量的治理
效果呢?
根據(jù)企業(yè)本身的數(shù)據(jù)特點,設(shè)計并構(gòu)建了一個數(shù)據(jù)質(zhì)量七維評價模型,
如下圖所示:
數(shù)據(jù)度量整體評分:74.15
副版完整性
7.BJ
告警響應(yīng)度
..「-
,:/溷字星
數(shù)據(jù)質(zhì)量評價模型,分別從數(shù)據(jù)完整性、監(jiān)控覆蓋率、告警響應(yīng)度、作
業(yè)準(zhǔn)確性、作業(yè)穩(wěn)定性、作業(yè)時效性、作業(yè)性能分等七個維度來考量平
臺的數(shù)據(jù)質(zhì)量,基于該模型,還設(shè)計了"數(shù)據(jù)質(zhì)量分"這個指標(biāo),來直觀
地反映平臺數(shù)據(jù)質(zhì)量的建設(shè)水平及健康狀況。
數(shù)據(jù)質(zhì)量七維模型的評價視角及其計算口徑:
數(shù)據(jù)質(zhì)量?績效評分指標(biāo)
考量數(shù)據(jù)項信息是否全面、完整、無抉失
1數(shù)據(jù)完整性指標(biāo)公式:表完整性和字段完整性的平均值
2監(jiān)控覆蓋率,確保數(shù)據(jù)遵循統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)或規(guī)范要求
指標(biāo)公式:巳監(jiān)控作業(yè)個數(shù)/作業(yè)總個數(shù)
通過日常管理、應(yīng)急響應(yīng),降低或消除問題影響,避免數(shù)據(jù)損毀、丟失
3告警響應(yīng)度指標(biāo)公式:巳處理告警個數(shù)/告警總個數(shù)
<
作業(yè)準(zhǔn)確性考量數(shù)據(jù)是否符合預(yù)設(shè)的質(zhì)量要求,如唯一性約束、記錄量校驗等
4指標(biāo)公式:1-告警作業(yè)個數(shù)/監(jiān)控作業(yè)總個數(shù)
5作業(yè)穩(wěn)定性考量作業(yè)的運行穩(wěn)定性,是否經(jīng)常報錯,導(dǎo)致數(shù)據(jù)事故
指標(biāo)公式:1-錯誤作業(yè)個數(shù)/作業(yè)總個數(shù)
6作業(yè)及時性考量數(shù)據(jù)項信息可被獲取和使用的時間是否滿足預(yù)期要求
?指標(biāo)公式:1-延遲作業(yè)個數(shù)/作業(yè)總個數(shù)
考量作業(yè)的執(zhí)行效率和逑康度,診斷作業(yè)是否假斜等性能問題
7作業(yè)性能分指標(biāo)公式:1-(嚴(yán)重I危急)作業(yè)個數(shù)/作業(yè)總個數(shù);冊據(jù)學(xué)堂
數(shù)據(jù)完整性
☆考量數(shù)據(jù)項信息是否全面、完整、無缺失
★指標(biāo)公式:表完整性和字段完整性的平均值
2
監(jiān)控覆蓋率
☆確保數(shù)據(jù)遵循統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)或規(guī)范要求
★指標(biāo)公式:監(jiān)控的高價值作業(yè)個數(shù)/高價值作業(yè)總個數(shù)
其中,高價值作業(yè)是指作業(yè)價值分在80分以上的作業(yè)
3
告警響應(yīng)度
☆通過日常管理、應(yīng)急響應(yīng),降低或消除問題影響,避免數(shù)據(jù)損毀、
丟失
★指標(biāo)公式:已處理告警個數(shù)(本周)/告警總個數(shù)(本周)
4
作業(yè)準(zhǔn)確性
☆考量數(shù)據(jù)是否符合預(yù)設(shè)的質(zhì)量要求,如唯一性約束、記錄量校驗等
★指標(biāo)公式:1-告警作業(yè)個數(shù)(本周)/監(jiān)控作業(yè)總個數(shù)
作業(yè)穩(wěn)定性
☆考量作業(yè)的運行穩(wěn)定性,是否經(jīng)常報錯,導(dǎo)致數(shù)據(jù)事故
★指標(biāo)公式:1-錯誤作業(yè)個數(shù)(本周)/作業(yè)總個數(shù)
作業(yè)時效性
☆考量數(shù)據(jù)項信息可被獲取和使用的時間是否滿足預(yù)期要求
★指標(biāo)公式:1-延遲的高價值作業(yè)個數(shù)(本周)/高價值作業(yè)總個數(shù)
其中,基準(zhǔn)時間為作業(yè)近30天平均完成時間加30分鐘,作業(yè)晚于
基準(zhǔn)即延遲
7
作業(yè)性能分
☆考量作業(yè)的執(zhí)行效率和健康度,診斷作業(yè)是否傾斜等性能問題
★指標(biāo)公式:1-危急作業(yè)個數(shù)(本周)/作業(yè)總個數(shù)
從各質(zhì)量維度的評價視角和指標(biāo)公式可以發(fā)現(xiàn),雖然數(shù)據(jù)質(zhì)量監(jiān)控的是
表及字段的質(zhì)量情況,但我們的質(zhì)量分是設(shè)定在庫這個層級。這么設(shè)計
主要是為了更好地責(zé)任劃分、統(tǒng)籌治理。
比如在銀行業(yè),每個庫都有其對應(yīng)的所屬分層(如明細(xì)層、匯總層、應(yīng)
用層等),且每個庫都有對應(yīng)的庫負(fù)責(zé)人,所以到庫這個層級,我們能
更好的分而治之,由庫負(fù)責(zé)人對庫的質(zhì)量水平負(fù)責(zé)。
基于數(shù)據(jù)質(zhì)量模型,我們還配套對應(yīng)的數(shù)據(jù)質(zhì)量監(jiān)控報告。在報告中我
們不僅能看到數(shù)據(jù)平臺的整體質(zhì)量評分,了解質(zhì)量發(fā)展趨勢,更能通過
多維分析、單維深鉆來了解平臺的質(zhì)量問題根源。
多維分析:詳細(xì)展示七個質(zhì)量維度的評分及趨勢變化,每個維度下還配
有TOP榜,用來展示低質(zhì)量的庫排名,督促庫負(fù)責(zé)人進(jìn)行優(yōu)化、治
理;
作業(yè)準(zhǔn)確性(TOP10窿及整體)作業(yè)準(zhǔn)確性(表明他)
*nsMilft8ftftNUf作m■tHBAA已處哀”個《l
RLDRLD71A3?XMS_COR£.28390no
第"IM
ZCtMIftOMOO1MS.CORE:如“5DO28390390
JIHAJ^WB
XUMta?5986671MS.COW378378
6KCHtWMtfBUNX89.71-\MS.COR£臥?837>378
ZH
AP嚼1RZHIS
9000-KMS.CORE‘r348548
SAf!li^Kg_MDe」1HA9P非
SUMK0690X)01U4S.COR£APWt>.洲iZH15348348
TBBUCza^fp9Z02I\MS_COREb決qZH/3klZHb271271
28
1PJIH^^BZHA1RlZHlS
192161kMS.CORE?Kf?B->w271271
GUV!
92471\MS.CORETHHZHH)28h238238
ALG92.921XMS.CORtJIHAIA28GUvj史圖據(jù)冬空
無無95.361IMSCORfEITHAMKVK7HAMAI7HI?i
1-2$A1.486ft?
單維深鉆:每一個質(zhì)量維度都能從整體下鉆到具體庫及表,深入了解該
維度質(zhì)量評分低的具體原因,以便針對性地解決問題、提高質(zhì)量;
告譬規(guī)弼(各庫表嬲)
asm*8
ttaaStcfTiiMIDBMfluaaMfNLQKBRRfWBUTALQ2
ttiWftSttMIDF$_8W|^M|^^mEILtNFCFS_BS9MMK_SU2
作業(yè)MIDv.FSjtMMBTivrV
作ikt&SttMID
ttSMl:MIDFS.WMHaflUrtfO
盛婷量?本MIDV.FSjtaHBHMtl1*FS-WMSHRARY,
盤IS量■率MIDFSjM>M9hFO
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 文化場館防水修繕合同
- 汽車制造廠外墻翻新膩子施工合同
- 郊區(qū)倉庫租賃協(xié)議
- 橋梁施工平地機租賃合同
- 高速公路修建施工合同
- 電影院彩繪施工合同
- 證券交易所安保人員聘用協(xié)議
- 建筑施工合同:城市地下管網(wǎng)改造
- 城市公寓交易合同模板
- 紀(jì)念館真石漆修復(fù)合同
- 2024年中國水晶鉆石市場調(diào)查研究報告
- 五年級中國民間故事題及答案
- 藝術(shù)導(dǎo)論學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 八年級語文上冊-成語運用練習(xí)-試題
- 四川省2024年中考數(shù)學(xué)試卷十七套合卷【附答案】
- 2024-2030年中國抹茶行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略分析報告
- 肺部感染護理業(yè)務(wù)學(xué)習(xí)課件 2
- 重慶市2024年高三年級高考一模化學(xué)試題(含答案)
- 2024-2025學(xué)年華東師大版數(shù)學(xué)七年級上冊計算題專項訓(xùn)練
- (必會)山西省生態(tài)環(huán)境監(jiān)測專業(yè)技術(shù)人員大比武理論試題庫(含答案)
- 《誡子書》考點集訓(xùn)2(含答案)- 2024年中考語文一輪復(fù)習(xí)
評論
0/150
提交評論