下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、數(shù)據(jù)質(zhì)量 BI 項目成功的基石商業(yè)智能( Business Intelligence , BI )是 IT 領(lǐng)域的一 個熱點話題。日益激烈的市場競爭讓越來越多的企業(yè)負(fù)責(zé)人 傾向于借助商業(yè)智能來輔助決策,而企業(yè)經(jīng)過多年來信息化 的建設(shè)積累下豐富的數(shù)據(jù)也為商業(yè)智能項目的進行奠定了 堅實的基礎(chǔ),在這樣的背景下,企業(yè)上馬商業(yè)智能項目的熱 情逐漸高漲起來。然而,和眾多企業(yè)管理軟件項目一樣,商 業(yè)智能項目的失敗率也居高不下,其中數(shù)據(jù)質(zhì)量問題是諸多 失敗誘因中的一個,特別是在涉及多數(shù)據(jù)源的商業(yè)智能項目 中,數(shù)據(jù)質(zhì)量不高在很大程度上制約了 BI 項目的最終效果, 甚至直接導(dǎo)致了 BI 項目失敗。數(shù)據(jù)質(zhì)量欠佳的
2、原因?qū)е聰?shù)據(jù)庫中數(shù)據(jù)質(zhì)量欠佳的原因很多,其中有人為因 素,也有系統(tǒng)的原因,還有外界不可抗拒的原因,比如,某 個區(qū)域改變了郵件編碼或者電話號碼等,使得系統(tǒng)原有與此 相關(guān)的數(shù)據(jù)變成了錯誤的數(shù)據(jù)。輸入錯誤是最常見的影響數(shù)據(jù)質(zhì)量的行為。比如,原本 應(yīng)為 8 位的電話號碼只有 7 位、 2 月份出現(xiàn)了 31 日、數(shù)字和 字母出現(xiàn)了混淆(把“ I”當(dāng)成了 “ T)等。一般而言,如 果應(yīng)用程序設(shè)計得好一些、糾錯能力強的話,上述錯誤在數(shù) 據(jù)錄入時是可以避免的。而有些錯誤如果不用專門的工具而 單靠應(yīng)用程序是不現(xiàn)實的,比如錯誤的名稱、地址信息等。 另外,在系統(tǒng)維護和數(shù)據(jù)處理時也可能出現(xiàn)錯誤。而錯誤數(shù) 據(jù)的輸入可能
3、擴散到多個系統(tǒng)中,從而影響到整個企業(yè)數(shù)據(jù) 的質(zhì)量,有時即使是相對簡單的數(shù)據(jù)錯誤也會迅速升級為復(fù) 雜問題,降低整個企業(yè)內(nèi)數(shù)據(jù)的質(zhì)量。事實上,每個數(shù)據(jù)維 護操作都可能改變數(shù)據(jù),從而導(dǎo)致無法預(yù)知的結(jié)果。錯誤的數(shù)據(jù)還可能來自第三方。現(xiàn)代企業(yè)與產(chǎn)業(yè)鏈上下 游的關(guān)系越來越密切,不少數(shù)據(jù)就來自上下游企業(yè)。此外, 有些企業(yè)將業(yè)務(wù)流程外包給第三方或者與合作伙伴以及供 應(yīng)商協(xié)作,在這些場合,企業(yè)對外來的數(shù)據(jù)無法即時控制, 這些來源或質(zhì)量無法確定的外部數(shù)據(jù)都可能進入企業(yè)中并 在企業(yè)中擴散。值得注意的是,有些數(shù)據(jù)原本不是錯誤,放到特定場景 就有問題。比如,同一信息不同系統(tǒng)格式可能不同,數(shù)據(jù)集 成時要把以不同格式保存的
4、數(shù)據(jù)合并起來就可能出現(xiàn)問題。 這也就是企業(yè)建立統(tǒng)一的數(shù)據(jù)字典或者上線主數(shù)據(jù)管理系 統(tǒng)的原因之一。另外,同一數(shù)據(jù)可能會保持在多個系統(tǒng),如 果在一個系統(tǒng)中有過修改,也有可能引發(fā)數(shù)據(jù)一致性問題。為了衡量數(shù)據(jù)質(zhì)量,可以從以下幾個維度來考察,即完 全性、符合性、一致性、準(zhǔn)確性、重復(fù)性等。完全性指數(shù)據(jù) 項沒有缺失, 比如個人信息要求必須有身份證號、 郵件地址; 符合性指各個數(shù)據(jù)項符合基本常識,例如郵政編號必須為數(shù) 字、電話號碼應(yīng)沒有字母且長度符合規(guī)定;一致性指在不同 系統(tǒng)中表達(dá)同一信息的代碼是一致的,一致性是涉及多數(shù)據(jù) 源的數(shù)據(jù)集成時常出現(xiàn)的問題;重復(fù)性指的是同樣或者相似 數(shù)據(jù)出現(xiàn)多次。如何保證數(shù)據(jù)質(zhì)量要
5、改善數(shù)據(jù)質(zhì)量可以從兩個方面著手,一個是在數(shù)據(jù)進 入系統(tǒng)時引入各種規(guī)則來保證數(shù)據(jù)的正確性,另一個是在數(shù) 據(jù)集成時引入專門的工具進行數(shù)據(jù)清洗。相對而言,前一個 方法更主動,成本也較低,而后一種方法是事后處理,成本 高,而且以后還需要持續(xù)不斷進行。不過,等到要上 BI 項 目時,改善數(shù)據(jù)質(zhì)量常常只能是依賴后者。改善數(shù)據(jù)質(zhì)量最直接的辦法就是選用數(shù)據(jù)質(zhì)量相關(guān)的 工具。目前,數(shù)據(jù)質(zhì)量已經(jīng)成為一個專門的應(yīng)用領(lǐng)域,市場 上也有很多工具,比如,大多數(shù) BI 廠商都有自己的數(shù)據(jù)質(zhì) 量工具,其 ETL 工具也帶有這部分功能。 因為在數(shù)據(jù)倉庫的 建設(shè)過程中,數(shù)據(jù)清洗是其中必不可少的一步。數(shù)據(jù)質(zhì)量保證通常涉及以下過程:
6、首先使用數(shù)據(jù)剖析工 具對數(shù)據(jù)質(zhì)量進行分析和探查,以深入了解數(shù)據(jù)的結(jié)構(gòu)、數(shù) 值的有效性、分布情況以及在多個分散系統(tǒng)之間關(guān)聯(lián)等重要 信息,然后對數(shù)據(jù)進行清洗、修正、刪除重復(fù)數(shù)據(jù),并實現(xiàn) 數(shù)據(jù)的標(biāo)準(zhǔn)化,最后對這些數(shù)據(jù)進行歸并存入數(shù)據(jù)倉庫。應(yīng)該說,數(shù)據(jù)質(zhì)量工具并不是解決問題的根本辦法,因 為如果管理和流程跟不上的話,單靠數(shù)據(jù)質(zhì)量工具是很難達(dá) 到滿意的效果的。實際上,在數(shù)據(jù)質(zhì)量保證項目中,有一件 非常重要的工作是建立數(shù)據(jù)的標(biāo)準(zhǔn)和規(guī)范、明確數(shù)據(jù)的定 義。因為大多數(shù)企業(yè)沒有建立主數(shù)據(jù)管理系統(tǒng),而應(yīng)用程序 開發(fā)的時間不同,很可能出現(xiàn)同一數(shù)據(jù)采用不同格式進行表 達(dá)的情況,而在對多數(shù)據(jù)源進行數(shù)據(jù)集成時,必須對這些數(shù) 據(jù)格式進行轉(zhuǎn)換,如果有了相關(guān)標(biāo)準(zhǔn)和定義,就可以大大降 低數(shù)據(jù)集成時的工作量和復(fù)雜度。此外,還要建立一個可重 復(fù)的數(shù)據(jù)收集、數(shù)據(jù)修改和數(shù)據(jù)維護流程,而最終的理想結(jié) 果是達(dá)到流程的自動化,從而降低數(shù)據(jù)質(zhì)量保證計劃的總體 開銷。值得強調(diào)的是,由于數(shù)據(jù)的生成和處理是一個持續(xù)不斷 進行的過程,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度出租車租賃行業(yè)風(fēng)險管理與保險合同4篇
- 專業(yè)vi設(shè)計服務(wù)合同(2024年)
- 二零二五年度賭博背景下的離婚協(xié)議及財產(chǎn)分割合同4篇
- 二零二四年度智能化系統(tǒng)安裝工程合同帶眉腳
- 2025年度農(nóng)業(yè)物聯(lián)網(wǎng)技術(shù)研發(fā)合作合同4篇
- 2025年度綠色建筑節(jié)能檢測與認(rèn)證合同范本2篇
- 2025年度航空航天產(chǎn)業(yè)基地承包租賃合同3篇
- 二零二五年度綠色建筑BIM評估合同3篇
- 家庭健康監(jiān)測與日常護理技巧
- 山東2025年山東中醫(yī)藥大學(xué)附屬醫(yī)院放療技師崗位合同制工作人員招聘2人筆試歷年參考題庫附帶答案詳解
- (高清版)JTGT 3360-01-2018 公路橋梁抗風(fēng)設(shè)計規(guī)范
- 小紅書違禁詞清單(2024年)
- 胰島素注射的護理
- 云南省普通高中學(xué)生綜合素質(zhì)評價-基本素質(zhì)評價表
- 2024年消防產(chǎn)品項目營銷策劃方案
- 聞道課件播放器
- 03軸流式壓氣機b特性
- 五星級酒店收入測算f
- 大數(shù)據(jù)與人工智能ppt
- 人教版八年級下冊第一單元英語Unit1 單元設(shè)計
- GB/T 9109.5-2017石油和液體石油產(chǎn)品動態(tài)計量第5部分:油量計算
評論
0/150
提交評論