數(shù)據(jù)治理的核心觀點概述_第1頁
數(shù)據(jù)治理的核心觀點概述_第2頁
數(shù)據(jù)治理的核心觀點概述_第3頁
數(shù)據(jù)治理的核心觀點概述_第4頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、 數(shù)據(jù)治理的核心觀點概述 數(shù)據(jù)不是越多越好不明白如何消費數(shù)據(jù)的數(shù)據(jù)集市建設就是耍流氓大數(shù)據(jù)是AI的基礎,在應用側,AI場景更多的是呈點狀分布數(shù)據(jù)是有成本,此前坐館老司機陳斌老師曾發(fā)表過數(shù)據(jù)是黃金還是垃圾的觀點。數(shù)據(jù)是有成本的。存儲數(shù)據(jù)是需要成本的,數(shù)據(jù)的成本絕非只有物理存儲空間成本那么簡單,實際上它包括了下述五種成本要素:物理存儲器:各種專用或通用的數(shù)據(jù)存儲設備或者分布式存儲設備;人員和軟件:為了有效地管理存儲而必須配備的人員與軟件所投入的資金和努力;電力和空間:為確保存儲系統(tǒng)能正常運行所需要的電力和IDC機房空間的投入;遍歷的時間:為了檢索數(shù)據(jù)而不得不遍歷存儲空間所耗費的時間;災備的成本為了

2、保證數(shù)據(jù)安全而進行數(shù)據(jù)備份所需要的各類資源,數(shù)據(jù)的成本=物理存儲器+人員和軟件+電力和空間+遍歷的時間+災備的成本。一、數(shù)據(jù)的成本價值困局數(shù)據(jù)對企業(yè)的價值并非相同。在許多企業(yè)中,時間會減低我們可以從任何特定數(shù)據(jù)元素中所獲得的價值。例如,很多舊數(shù)據(jù)對建立交易模型用處不大。某個客戶與電子商務平臺交互的舊記錄可能有用,但其價值遠不如最新的數(shù)據(jù)。電話公司幾年前的詳細通話記錄沒有最新的通話記錄對用戶的價值大。三年前的銀行交易記錄不如最近幾個星期的有用。人們可能會偶爾看一下老照片和老視頻,但是經(jīng)常看的還是最近上傳的新照片和新視頻。雖然我們不能說所有的舊數(shù)據(jù)都沒有新數(shù)據(jù)價值大,但在大多數(shù)的情況下,新數(shù)據(jù)更有

3、價值是一個事實。 上面的表達方法叫RFM圖,R代表數(shù)據(jù)的產(chǎn)生時間(Recent), F代表數(shù)據(jù)的使用頻率,M代表以貨幣表達的數(shù)據(jù)價值(Monetary)。從上面的RFM圖可以看出,越是最近產(chǎn)生,越是經(jīng)常使用的數(shù)據(jù)其貨幣價值越高(右后上方的頂點)。相反,產(chǎn)生很久,而且不常使用的數(shù)據(jù)幾乎沒有什么貨幣價值。如果數(shù)據(jù)的價值隨著時間的推移而降低,那么為什么我們還要保存那么多的數(shù)據(jù)呢? 我們把這個問題叫作數(shù)據(jù)的成本價值困局。大多數(shù)公司并沒有對數(shù)據(jù)價值隨時間的推移逐漸降低和維持高速增長的數(shù)據(jù)成本這些事實引起高度注重。通常情況下,更新、更快存儲技術的出現(xiàn)使我們能夠以更低的初始成本來存儲相同數(shù)量的數(shù)據(jù),或者用相

4、同的成本來存儲更多的數(shù)據(jù)。隨著單位存儲成本的下降,我們要保存更多數(shù)據(jù)的愿望也逐漸膨脹。在高速增長的公司,除了要考慮數(shù)據(jù)的價值很可能會隨著時間的推移而降低的事實之外,我們還要考慮雖然單位存儲成本下降,但保存數(shù)據(jù)的總成本極有可能增加的事實。如何對此做出合理的決策對大多數(shù)企業(yè)提出了獨特的新挑戰(zhàn)。準確的價值則取決于最終所選擇的方案能夠帶來的利益。數(shù)據(jù)選項的價值有限度,為了給這個價值一個界限,我們應該開始回答下述五個問題:我們過去經(jīng)常依靠數(shù)據(jù)做出有價值的決定嗎?在那個決定中,我們使用多久以前的數(shù)據(jù)?該數(shù)據(jù)最終創(chuàng)造的價值是多少?維護這些舊數(shù)據(jù)的成本是多少?平衡成本,最終的結果我們贏利嗎?提出這些問題并不意

5、味著要從系統(tǒng)中刪除所有的數(shù)據(jù)。如果沒有一些有意義的數(shù)據(jù),平臺可能無法運作。確切地說是要指出應該評估和質疑保留數(shù)據(jù)的策略,以確保所有保存的數(shù)據(jù)都有價值。如果在過去你沒有依靠數(shù)據(jù)做出更好的決定,那么從明天開始使用所有數(shù)據(jù)的機會也不會太大。即使你開始使用數(shù)據(jù),也不太可能使用所有的數(shù)據(jù)。因此,應該確定:哪些數(shù)據(jù)具有真正的價值?哪些數(shù)據(jù)有價值但應該存儲在低成本的存儲系統(tǒng)?哪些數(shù)據(jù)可以刪除?然而,在大多數(shù)情況下,數(shù)據(jù)的價值會隨著時間的推移而降低,無限的數(shù)據(jù)不等同于無窮的價值。兩者會有一個平衡點,在該點之后,舊數(shù)據(jù)的價值開始明顯地衰減。因此需要了解數(shù)據(jù)的價值,把數(shù)據(jù)在某一年的價值與之前二年、五年的價值進行比

6、較,以此類推,從而確定一個數(shù)據(jù)不再帶來贏利的時間點和額外數(shù)據(jù)的增加會對保留客戶、做出更好決策等等帶來的接近于零價值的時間點。二、大數(shù)據(jù)時代下的數(shù)據(jù)治理壓力上圖為某運營商從運維壓力、管理壓力、增值壓力等角度進行敘述,如果說的淺顯直白一點的話,數(shù)據(jù)治理最主要的動機來自2方面。一方面是業(yè)務上的困擾數(shù)據(jù)標準問題,如數(shù)據(jù)字段口徑不統(tǒng)一、數(shù)據(jù)研發(fā)煙囪式建設,導致重復建設或者數(shù)據(jù)不同源導致的分析結果不可信。一方面是技術上的消耗由于缺乏統(tǒng)一規(guī)劃和明確分工依賴,煙囪式野蠻生長,存儲和計算資源的大量消耗,而其業(yè)務價值無法評估收益。以一貫之的目標驅動圍繞某銀行數(shù)據(jù)平臺建設,提供針對數(shù)據(jù)生命周期的管控機制,體現(xiàn)為以下幾個出發(fā)點:數(shù)據(jù)標準規(guī)范化-規(guī)范化管理構成數(shù)據(jù)平臺的業(yè)務和技術基礎設施,包括數(shù)據(jù)管控制度與流程規(guī)范文檔、信息項定義等。數(shù)據(jù)關系脈絡化-實現(xiàn)對數(shù)據(jù)間流轉、依賴關系的影響和血緣分析。數(shù)據(jù)質量度量化全方位管理數(shù)據(jù)平臺的數(shù)據(jù)質量,實現(xiàn)可定義的數(shù)據(jù)質量檢核和維度分析,以及問題跟蹤。數(shù)據(jù)服務電子化-為數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論