數(shù)據(jù)質(zhì)量和數(shù)據(jù)清理在電信數(shù)據(jù)倉庫中的應(yīng)用.doc_第1頁
數(shù)據(jù)質(zhì)量和數(shù)據(jù)清理在電信數(shù)據(jù)倉庫中的應(yīng)用.doc_第2頁
數(shù)據(jù)質(zhì)量和數(shù)據(jù)清理在電信數(shù)據(jù)倉庫中的應(yīng)用.doc_第3頁
數(shù)據(jù)質(zhì)量和數(shù)據(jù)清理在電信數(shù)據(jù)倉庫中的應(yīng)用.doc_第4頁
數(shù)據(jù)質(zhì)量和數(shù)據(jù)清理在電信數(shù)據(jù)倉庫中的應(yīng)用.doc_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)據(jù)質(zhì)量和數(shù)據(jù)清理在電信數(shù)據(jù)倉庫中的應(yīng)用Data Quality, Data Cleaning and Applying to Telecom Data Warehouse關(guān)鍵詞:數(shù)據(jù)倉庫;數(shù)據(jù)質(zhì)量;數(shù)據(jù)清理;ETL;構(gòu)件Keywords: Data Warehouse; Data Quality; Data Cleaning; ETL; Component摘要:在研究數(shù)據(jù)質(zhì)量問題相關(guān)理論的基礎(chǔ)上,面對電信企業(yè)高質(zhì)量數(shù)據(jù)需求,設(shè)計了面向電信應(yīng)用的數(shù)據(jù)質(zhì)量控制體系,接著,詳細介紹了包含概念定義層、邏輯規(guī)范層和物理實現(xiàn)層三層的數(shù)據(jù)清理框架,最后描述了采用基于構(gòu)件的設(shè)計模式,實現(xiàn)的以數(shù)據(jù)清理為主要功能的數(shù)據(jù)加載(ETL)系統(tǒng)。目前該系統(tǒng)已經(jīng)應(yīng)用于某電信運營企業(yè)數(shù)據(jù)倉庫項目中,效果顯著。Abstract: Based on the research of the theories related to data quality problems, and for the requirements of high level data quality to telecom enterprises, a data quality control architecture oriented telecom applications is designed. A data cleaning framework with three tiers, such as notion defined tier, logic normalized tier and physical implemented tier, is discussed. An ETL system for the purpose of data cleaning is implemented by using design pattern based on component. The system is in used by a telecom enterprise, and worked well now.1 引言當今企業(yè)已建設(shè)或正在建設(shè)數(shù)據(jù)倉庫系統(tǒng)以輔助決策,提高其核心競爭力,這需要將長期積累的大量反映各種業(yè)務(wù)環(huán)境的數(shù)據(jù),按照相應(yīng)主題從同構(gòu)或異構(gòu)平臺,通過一定的ETL方法和過程將它們進行抽取、過濾、清洗、轉(zhuǎn)換,然后加載到中央數(shù)據(jù)倉庫中進行整合,形成完整的企業(yè)業(yè)務(wù)視圖。數(shù)據(jù)倉庫是一個面向主題的、集成的、時變的、非易失的數(shù)據(jù)集合,支持管理部門的決策過程1。數(shù)據(jù)倉庫也被看作是一種過程,即對企業(yè)中同(異)種數(shù)據(jù)源中的數(shù)據(jù)進行整合、加工和分析的過程。ETL(Extraction, Transformation, Loading)即數(shù)據(jù)抽取、轉(zhuǎn)換和加載,是數(shù)據(jù)倉庫實現(xiàn)過程中,將數(shù)據(jù)由數(shù)據(jù)源系統(tǒng)向數(shù)據(jù)倉庫加載的主要過程?,F(xiàn)實世界中的數(shù)據(jù)源極易受空缺、不一致和噪聲數(shù)據(jù)的侵擾。根據(jù)GIGO(garbage in ,garbage out)原理,沒有良好的數(shù)據(jù)質(zhì)量作后盾,再先進的數(shù)據(jù)處理技術(shù)和分析工具也不能發(fā)揮作用,要想數(shù)據(jù)倉庫真正發(fā)揮作用,就必須提高業(yè)務(wù)系統(tǒng)的數(shù)據(jù)質(zhì)量。由此看來,數(shù)據(jù)質(zhì)量的控制成為數(shù)據(jù)倉庫建設(shè)發(fā)展過程中越來越引起重視的突出問題,而解決這些問題的過程稱為數(shù)據(jù)清理。數(shù)據(jù)清理(data cleaning,data cleansing或者data scrubbing)在文獻2中被定義為:發(fā)現(xiàn)和清除數(shù)據(jù)中的錯誤和不一致來提高數(shù)據(jù)的質(zhì)量。在數(shù)據(jù)倉庫環(huán)境下,數(shù)據(jù)清理是ETL 過程的一個重要部分,要考慮數(shù)據(jù)倉庫的集成性與面向主題的需要。數(shù)據(jù)清理目的是檢測數(shù)據(jù)中存在的錯誤和不一致,剔除或者改正它們,這樣就提高了數(shù)據(jù)的質(zhì)量2。業(yè)務(wù)系統(tǒng)數(shù)據(jù)清理是提升業(yè)務(wù)系統(tǒng)數(shù)據(jù)質(zhì)量的有效手段,是數(shù)據(jù)倉庫實施過程中數(shù)據(jù)質(zhì)量管控的源頭,是整個數(shù)據(jù)倉庫項目成功的關(guān)鍵。業(yè)務(wù)系統(tǒng)數(shù)據(jù)清理工作一方面能有效提升業(yè)務(wù)系統(tǒng)的數(shù)據(jù)質(zhì)量和系統(tǒng)可用性,另一方面也能有效降低整個數(shù)據(jù)倉庫ETL的復(fù)雜度和工作量,保證數(shù)據(jù)倉庫中的數(shù)據(jù)質(zhì)量。2數(shù)據(jù)質(zhì)量問題數(shù)據(jù)清理主要是針對源數(shù)據(jù)庫,對其中出現(xiàn)二義性、重復(fù)、不完整、違反業(yè)務(wù)或邏輯規(guī)則等問題的數(shù)據(jù)進行相應(yīng)的清洗操作,在清洗之前需要進行數(shù)據(jù)質(zhì)量分析,以找出存在問題的數(shù)據(jù),否則數(shù)據(jù)清洗將無從談起。21數(shù)據(jù)質(zhì)量定義文獻3 中數(shù)據(jù)質(zhì)量定義為:數(shù)據(jù)的一致性(consistency)、正確性(correctness)、完整性(completeness)和最小性(minimality)在信息系統(tǒng)中得到滿足的程度。文獻4認為:存在數(shù)據(jù)質(zhì)量指示器和數(shù)據(jù)質(zhì)量參數(shù)兩類數(shù)據(jù)質(zhì)量衡量指標,用戶應(yīng)根據(jù)應(yīng)用的需求選擇其中一部分,在此基礎(chǔ)上提出了數(shù)據(jù)工程中數(shù)據(jù)質(zhì)量的需求分析和模型。依據(jù)文獻,結(jié)合電信運營企業(yè)的特點,對于數(shù)據(jù)質(zhì)量,可以從以下四個方面來定義:l 完整性(Completeness),數(shù)據(jù)是否按規(guī)則填寫完整;l 正確性(Correctness),數(shù)據(jù)是否滿足域定義和業(yè)務(wù)邏輯要求;l 一致性(Consistency),不同系統(tǒng)之間關(guān)聯(lián)的數(shù)據(jù)在定義、含義、取值及操作等方面是否一致;l 當前性(Currency),數(shù)據(jù)是否能夠反應(yīng)當前狀態(tài)。以上四個方面,我們稱之為4C。高質(zhì)量的數(shù)據(jù)應(yīng)該是完整的、正確的、一致的、當前的。22 數(shù)據(jù)質(zhì)量問題的分類文獻2 根據(jù)處理的是單數(shù)據(jù)源還是多數(shù)據(jù)源以及問題出在模式層還是實例層,將數(shù)據(jù)質(zhì)量問題分為4類:單數(shù)據(jù)源模式層問題、單數(shù)據(jù)源實例層問題、多數(shù)據(jù)源模式層問題和多數(shù)據(jù)源實例層問題。文獻5根據(jù)用戶角色的不同將數(shù)據(jù)倉庫質(zhì)量分為四類:設(shè)計與管理質(zhì)量、軟件實現(xiàn)質(zhì)量、數(shù)據(jù)使用質(zhì)量以及數(shù)據(jù)質(zhì)量。其中每一類又定義了包括正確性、完整性、可靠性等指標。電信數(shù)據(jù)倉庫數(shù)據(jù)源具有多樣性,在實際工作中,以參與人為主題,對幾個生產(chǎn)系統(tǒng)進行了信息探索,對數(shù)據(jù)質(zhì)量問題在正確性、完整性和一致性基礎(chǔ)上做了進一步細分,根據(jù)業(yè)務(wù)專家的經(jīng)驗,采用了60個規(guī)則對數(shù)據(jù)質(zhì)量進行檢查。這些規(guī)則的分布如下表所示:表 1 分類應(yīng)用及錯誤實例大類細類規(guī)則出錯實例完整性記錄中的關(guān)鍵字段值缺失108身份證字段為空或不全 系統(tǒng)設(shè)計時缺少必要的字段88無婚姻狀況字段正確性數(shù)據(jù)格式錯誤22日期格式錯誤(20001210.00)內(nèi)容錯誤86用戶類型應(yīng)為“城市用戶”的系統(tǒng)數(shù)據(jù)被定義為“農(nóng)村用戶”;數(shù)據(jù)不符合業(yè)務(wù)邏輯158出現(xiàn)安裝時間為 “2077-12-10”一致性不同的業(yè)務(wù)系統(tǒng)之間信息不一致108地域碼在不同系統(tǒng)中定義不同,如長沙市定義為:“CSS”、“CS”、“1351”業(yè)務(wù)系統(tǒng)內(nèi)部不同的表之間信息不一致77某表按照num_id與主用戶表進行關(guān)聯(lián),有部分num_id在公共用戶表中不存在對本次信息探索中遇到的數(shù)據(jù)質(zhì)量問題,對其中代表性問題歸納如下:(1) 在數(shù)據(jù)模型上,實體語義定義、屬性定義、命名規(guī)則、編碼規(guī)則自成體系,難于與其他系統(tǒng)做匹配;(2) 系統(tǒng)間存在同一實體數(shù)據(jù)記錄數(shù)不一致的現(xiàn)象;(3) 存在信息殘缺現(xiàn)象,缺乏分析所用的部分數(shù)據(jù);(4) 系統(tǒng)中存在非結(jié)構(gòu)化數(shù)據(jù);(5) 歷史數(shù)據(jù)的準確性完全沒有保證。由此可見數(shù)據(jù)質(zhì)量的改進存在若干難點,比如:數(shù)據(jù)量大,數(shù)據(jù)格式不統(tǒng)一;數(shù)據(jù)質(zhì)量標準不容易制定;數(shù)據(jù)清理的邊界不容易定義;生產(chǎn)系統(tǒng)不斷升級改造、人員崗位調(diào)整等因素容易造成前清后亂等等。23 數(shù)據(jù)質(zhì)量控制方法及實現(xiàn)從對數(shù)據(jù)倉庫自身數(shù)據(jù)的監(jiān)控到對數(shù)據(jù)形成過程的管理,數(shù)據(jù)倉庫中用于數(shù)據(jù)質(zhì)量控制的方法有很多,但不論何種方法,面向數(shù)據(jù)倉庫的長期建設(shè),必須建立有效的數(shù)據(jù)質(zhì)量評估體系。文獻6提出:數(shù)據(jù)質(zhì)量將逐漸與企業(yè)業(yè)績和價值掛鉤,企業(yè)應(yīng)當開始采用方法來評估他們的數(shù)據(jù)質(zhì)量能力和成熟度,就此提出了數(shù)據(jù)質(zhì)量成熟度模型的評估理論。文獻7 針對專門的數(shù)據(jù)質(zhì)量模型進行計算的質(zhì)量評估軟件不能適應(yīng)這種動態(tài)性的需求,將質(zhì)量模型的描述作為元數(shù)據(jù)進行定義,在一個質(zhì)量元模型下,可以定義多個質(zhì)量模型。在此基礎(chǔ)上提出了一個可擴展的數(shù)據(jù)質(zhì)量控制元模型,該元模型是對企業(yè)數(shù)據(jù)質(zhì)量模型的抽象,由三層組成:核心層、初始層以及擴展層,目的是為企業(yè)的數(shù)據(jù)質(zhì)量體系定義提供一個完整的框架。電信運營企業(yè)的業(yè)務(wù)需求是非常嚴格的,在領(lǐng)域?qū)<业膮f(xié)助下,并采用了元模型定義的方法,設(shè)計了以下呈螺旋上升趨勢的數(shù)據(jù)質(zhì)量控制方法模型。如圖 1 所示,首先明確清理主題,以及主題域定義的數(shù)據(jù)源及數(shù)據(jù)模型;接著對數(shù)據(jù)源進行抽樣分析,對數(shù)據(jù)問題進行分類;第三步,在業(yè)務(wù)專家協(xié)助下,提出并驗證商務(wù)規(guī)則和清理尺度來確保數(shù)據(jù)質(zhì)量;最后,通過對業(yè)務(wù)規(guī)則的鞏固和進一步核實,確認數(shù)據(jù)質(zhì)量需求。整個過程通過有限循環(huán),最終產(chǎn)生了較完善的業(yè)務(wù)規(guī)則和數(shù)據(jù)質(zhì)量分析報告。圖 1 電信運營企業(yè)數(shù)據(jù)質(zhì)量控制方法3 數(shù)據(jù)清理3. 1 數(shù)據(jù)清理原理存在不完整的、含噪聲的和不一致的數(shù)據(jù)是現(xiàn)實世界數(shù)據(jù)庫或數(shù)據(jù)倉庫的共同特點。數(shù)據(jù)清理原理就是利用有關(guān)技術(shù)如數(shù)理統(tǒng)計、數(shù)據(jù)挖掘或預(yù)定義的清理規(guī)則將臟數(shù)據(jù)轉(zhuǎn)化為滿足數(shù)據(jù)質(zhì)量要求的數(shù)據(jù)8。數(shù)據(jù)清理的原理如圖29 所示。圖 2 數(shù)據(jù)清理原理3. 2 數(shù)據(jù)清理框架數(shù)據(jù)清理過程必須滿足如下幾個條件:不論是單數(shù)據(jù)源還是多數(shù)據(jù)源,都要檢測并且除去數(shù)據(jù)中所有明顯錯誤和不一致;盡可能地減小人工干預(yù)和用戶的編程工作量,而且要容易擴展到其他數(shù)據(jù)源;應(yīng)該和數(shù)據(jù)轉(zhuǎn)化結(jié)合;要有相應(yīng)的描述語言來指定數(shù)據(jù)轉(zhuǎn)化和數(shù)據(jù)清理操作,所有這些操作應(yīng)該在一個統(tǒng)一的框架下完成10。文獻11設(shè)計了數(shù)據(jù)ETL工具的整體框架,使用通用數(shù)據(jù)訪問接口來屏蔽各種數(shù)據(jù)源之間的差異,并以數(shù)據(jù)清理為主要目的,為消除多數(shù)據(jù)源的模式?jīng)_突和數(shù)據(jù)沖突提供了通用而有效的解決方案。文獻12提出了一個數(shù)據(jù)清理框架,試圖清晰地分離邏輯規(guī)范層和物理實現(xiàn)層。用戶在邏輯層設(shè)計數(shù)據(jù)處理流程,確定清理過程需要執(zhí)行的數(shù)據(jù)轉(zhuǎn)化步驟;物理層實現(xiàn)這些數(shù)據(jù)轉(zhuǎn)化操作,并對它們進行優(yōu)化;同時文獻12提出了一種描述性語言。該描述性語言可以在邏輯層上指定數(shù)據(jù)清理過程所需采取的數(shù)據(jù)轉(zhuǎn)化操作,并指定何時可以拋出異常,要求用戶的交互。該描述性語言還可以指定一些數(shù)據(jù)轉(zhuǎn)化操作的參數(shù),比如記錄匹配操作所使用的距離函數(shù)等。文獻13提出了一種交互式的數(shù)據(jù)清理框架,它由主要的四個部分構(gòu)成:數(shù)據(jù)源,數(shù)據(jù)轉(zhuǎn)換引擎,在線記錄器以及自動差異監(jiān)測器。用戶利用系統(tǒng)提供的基本的數(shù)據(jù)轉(zhuǎn)化操作,無須書寫復(fù)雜的程序就能夠完成數(shù)據(jù)清洗任務(wù),而且用戶能夠隨時看到每一步轉(zhuǎn)化操作后的結(jié)果,沒有很長的延遲。不論采用何種清理方法,數(shù)據(jù)清理過程一般由四個階段構(gòu)成:清理主題定義;數(shù)據(jù)(質(zhì)量)分析、定義錯誤類型;針對分析結(jié)果,定義清理技術(shù);實現(xiàn)程序,搜索識別、修正錯誤。結(jié)合文獻12的思想和電信運營企業(yè)的具體環(huán)境,設(shè)計了一個三層的數(shù)據(jù)清理框架,分別為:概念定義層、邏輯規(guī)范層和物理實現(xiàn)層。如圖3所示。圖 3 電信運營企業(yè)數(shù)據(jù)清理框架圖圖3數(shù)據(jù)清理框架包含以下四個方面的內(nèi)容:(1)概念定義層。主要定義了數(shù)據(jù)清理的主題和數(shù)據(jù)質(zhì)量需求。以電信為背景,根據(jù)數(shù)據(jù)倉庫項目的需求,定義了:客戶資料清理,用戶資料清理,定單數(shù)據(jù)清理,產(chǎn)品和服務(wù)清理,套餐和協(xié)議數(shù)據(jù)清理,賬單數(shù)據(jù)清理,話單數(shù)據(jù)清理,客戶服務(wù)數(shù)據(jù)清理和結(jié)算數(shù)據(jù)清理等九大清理主題及其相應(yīng)數(shù)據(jù)質(zhì)量需求。(2)邏輯規(guī)范層。主要是將概念轉(zhuǎn)換為業(yè)務(wù)邏輯,描述數(shù)據(jù)流,并且實現(xiàn)業(yè)務(wù)邏輯向處理邏輯的轉(zhuǎn)換。例如,客戶資料清理可以劃分為:核對有效客戶數(shù),數(shù)據(jù)源間客戶資料對比及核實,補充缺失的客戶關(guān)鍵字段,進行客戶屬性編碼的統(tǒng)一和客戶歸并與切割等五個步驟,根據(jù)每個步驟對質(zhì)量的需求,將業(yè)務(wù)需求轉(zhuǎn)換為相應(yīng)的處理邏輯,例如,客戶歸并與切割可映射到重復(fù)記錄查找,數(shù)據(jù)備份/恢復(fù)/刪除,聚類/孤立點檢測等處理邏輯。(3)物理實現(xiàn)層。實現(xiàn)具體的清理程序以及算法,進行數(shù)據(jù)錯誤的修正和遷移,以及異常后人為干預(yù)是物理實現(xiàn)層的主要功能。(4)層的映射關(guān)系。文獻14給出了一種采用XML描述網(wǎng)絡(luò)映射的模式。在電信數(shù)據(jù)倉庫應(yīng)用中,采用了類似的描述形式,代碼片段如圖4: 圖 4 層級映射代碼片段 圖4相關(guān)結(jié)點的功能:節(jié)點Subject描述清理主題;節(jié)點Processes描述清理步驟;節(jié)點LMethods描述邏輯方法;節(jié)點CProcessList描述清理算法構(gòu)件列表;節(jié)點CProcess描述具體清理算法構(gòu)件。3.3 數(shù)據(jù)清理例程的設(shè)計和實現(xiàn)3.3.1 基于構(gòu)件的設(shè)計思想數(shù)據(jù)清理例程的設(shè)計采用了基于構(gòu)件的模式。構(gòu)件是可以被復(fù)用的軟件實體,是系統(tǒng)中可以明確辨析的構(gòu)成成分。在可復(fù)用構(gòu)件的設(shè)計時,必須明確:構(gòu)件的描述對構(gòu)件的成功復(fù)用至關(guān)重要。一個好的描述是有效檢索與理解的基礎(chǔ)14。在當今面向網(wǎng)絡(luò)的應(yīng)用中,普遍采用了基于XML的構(gòu)件刻面分類描述模式。圖5給出了清理算法構(gòu)件的刻面樹結(jié)構(gòu)和XML描述實例。圖5(a) 構(gòu)件刻面樹結(jié)構(gòu)中,構(gòu)件頭信息(CHeader),描述構(gòu)件創(chuàng)建的一些具歷史信息開發(fā)、維護信息;構(gòu)件標識(CID),用于惟一標識某一構(gòu)件,描述算法、程序等文件;構(gòu)件類別(CClass),用于標識該構(gòu)件所屬的領(lǐng)域功能,操作對象等;構(gòu)件實現(xiàn)(CImplement),描述構(gòu)件的功能及與實現(xiàn)有關(guān)的一些信息,如方法名和輸入、輸出參數(shù)。圖5(b)給出了貝葉斯構(gòu)件XML描述模型。(a) 構(gòu)件刻面樹 (b) 貝葉斯構(gòu)件XML描述圖 5算法構(gòu)件刻面樹結(jié)構(gòu)和XML描述實例3.3.2 數(shù)據(jù)清理系統(tǒng)的實現(xiàn)在數(shù)據(jù)倉庫應(yīng)用中,數(shù)據(jù)清理并不是一個單獨的部分,需要和ETL過程統(tǒng)一使用,在數(shù)據(jù)質(zhì)量控制下,進行循環(huán)處理。數(shù)據(jù)清理系統(tǒng)采用了基于構(gòu)件的設(shè)計思路,實現(xiàn)了以數(shù)據(jù)清理為主的ETL工具。主要功能及流程包括:通用數(shù)據(jù)訪問接口,該接口能夠跨平臺(網(wǎng)絡(luò))訪問數(shù)據(jù),支持在異構(gòu)數(shù)據(jù)源間建立連接,可選多種數(shù)據(jù)訪問接口方式,如JDBC、0DBC、OLEDB等;數(shù)據(jù)抽取,包括模式數(shù)據(jù)和實例數(shù)據(jù)抽取,此過程需要處理噪聲數(shù)據(jù),補充部分特殊空缺值,并建議使用增量的抽取方法;數(shù)據(jù)集成和變換,經(jīng)過數(shù)據(jù)抽取后可以得到多個模式和多個實例數(shù)據(jù)集,在此過程中,需要進行數(shù)據(jù)規(guī)范化和一致性校驗;數(shù)據(jù)規(guī)約,經(jīng)過數(shù)據(jù)集成后的數(shù)據(jù)集中還包含許多相似重復(fù)記錄,此過程要完成重復(fù)數(shù)據(jù)查找,進行數(shù)據(jù)的歸并或切割;數(shù)據(jù)裝載,此過程需要自動或異常后在人工干預(yù)下將清理后數(shù)據(jù)裝載至目標數(shù)據(jù)模型,支持數(shù)據(jù)備份和恢復(fù)功能;元數(shù)據(jù)管理,元數(shù)據(jù)是描述數(shù)據(jù)的數(shù)據(jù),系統(tǒng)使用元數(shù)據(jù)來描述數(shù)據(jù)質(zhì)量對象及其屬性7,描述數(shù)據(jù)清理構(gòu)件對象及屬性和構(gòu)件的檢索方法等屬性,此過程伴隨系統(tǒng)運行的始終。4 結(jié)束語數(shù)據(jù)是數(shù)據(jù)倉庫系統(tǒng)的血液,數(shù)據(jù)倉庫能否為決策提供有效支持的關(guān)鍵就在數(shù)據(jù)質(zhì)量,數(shù)據(jù)質(zhì)量建設(shè)的成功與否直接決定著數(shù)據(jù)倉庫的應(yīng)用質(zhì)量。數(shù)據(jù)清理就是為了解決數(shù)據(jù)質(zhì)量問題,而采取的手動或人工智能的方法進行的清理操作。文章以某電信運營企業(yè)數(shù)據(jù)倉庫項目為例,探討了數(shù)據(jù)質(zhì)量問題的相關(guān)理論,設(shè)計了面向電信服務(wù)的質(zhì)量控制體系,然后針對提出的數(shù)據(jù)質(zhì)量問題,設(shè)計了數(shù)據(jù)清理框架三層模式,并采用軟件構(gòu)件的思想,實現(xiàn)了以數(shù)據(jù)清理為主的ETL工具。參考文獻1 W.H.Inmon. Building the Data Warehouse. New York:John Wiley&Sons,1996.2 Rahm, E., Do, H.H. Data cleaning: problems and current approaches. IEEE Data Engineering Bulletin, 2000,23(4):313.3 Aebi, D., Perrochon, L. Towards improving data quality. In: Sarda, N.L., ed. Proceedings of the International Conference on Information Systems and Management of Data. Delhi, 1993. 273281. 4 Wang, R.Y., Kon, H.B., Madnick, S.E. Data quality requirements analysis and modeling. In: Proceedings of the 9th International Conference on Data Engineering. Vienna: IEEE Computer Society, 1993. 670677.5 Jarke M., Jeusfeld M., Quix C. Architecture and Quality in Data Warehouse: An Extended Repository Approach. Information Systems. 1999, 24(3):229253.6 方幼林, 楊冬青, 唐世渭等. 數(shù)據(jù)倉庫中數(shù)據(jù)質(zhì)量控制研究. 計算機工程與應(yīng)用,2003,13:14.7 管尊友, 馮建華. 一個可擴展的數(shù)據(jù)質(zhì)量元模型. 計算機工程,2005,31(8):7476, 226.8 M Hernandez. A Generation of Band Joins and the Merge/Purge ProblemR. Technical Report CUCS200521995, Department of Computer Science, Columbia University,1995.9 LEE M L, LING T W, LOW W L. IntelliClean: A knowledge-based intelligent data clea

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論