(完整word版)數(shù)據(jù)清洗綜述

上傳人：a*** IP屬地：天津上傳時(shí)間：2022-01-20 格式：DOCX 頁(yè)數(shù)：6 大?。?9.18KB 積分：15 舉報(bào) 版權(quán)申訴

免費(fèi)預(yù)覽已結(jié)束，剩余1頁(yè)可下載查看

 下載本文檔

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)清洗研究綜述隨著信息處理技術(shù)的不斷發(fā)展，各行各業(yè)已建立了很多計(jì)算機(jī)信息系統(tǒng)，積累了大量的數(shù)據(jù)。為了使數(shù)據(jù)能夠有效地支持組織的日常運(yùn)作和決策，要求數(shù)據(jù)可靠無(wú)誤，能夠準(zhǔn)確地反映現(xiàn) 實(shí)世界的狀況。數(shù)據(jù)是信息的基礎(chǔ)，好的數(shù)據(jù)質(zhì)量是各種數(shù)據(jù)分析如OLAP、數(shù)據(jù)挖掘等有效應(yīng)用的基本條件。人們常常抱怨“數(shù)據(jù)豐富，信息貧乏” ，究其原因，一是缺乏有效的數(shù) 據(jù)分析技術(shù)，二是數(shù)據(jù)質(zhì)量不高，如數(shù)據(jù)輸入錯(cuò)誤、不同來(lái)源數(shù)據(jù)引起的不同表示方法，數(shù) 據(jù)間的不一致等，導(dǎo)致現(xiàn)有的數(shù)據(jù)中存在這樣或那樣的臟數(shù)據(jù)。它們主要表現(xiàn)為：拼寫問(wèn)題、打印錯(cuò)誤、不合法值、空值、不一致值、簡(jiǎn)寫、同一實(shí)體的多種表示(重復(fù) )、

2、不遵循引用完整性等。數(shù)據(jù)清洗(Data Cleaning, Data Cleansing或者Data Scrubbing)的目的是檢測(cè)數(shù)據(jù)中存在的錯(cuò)誤和不一致，剔除或者改正它們，以提高數(shù)據(jù)的質(zhì)量1。1 數(shù)據(jù)清洗國(guó)內(nèi)外研究現(xiàn)狀數(shù)據(jù)清洗主要在數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn) (也稱數(shù)據(jù)挖掘 )和總體數(shù)據(jù)質(zhì)量管理這 3 個(gè)領(lǐng)域研究較多。在數(shù)據(jù)倉(cāng)庫(kù)研究和應(yīng)用領(lǐng)域，數(shù)據(jù)清洗處理是構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的第一步，由于數(shù)據(jù) 量巨大，不可能進(jìn)行人工處理，因此自動(dòng)化數(shù)據(jù)清洗受到工商業(yè)界的廣泛關(guān)注。1.1 國(guó)外研究現(xiàn)狀國(guó)外對(duì)數(shù)據(jù)清洗的研究最早出現(xiàn)在美國(guó)，是從對(duì)全美的社會(huì)保險(xiǎn)號(hào)錯(cuò)誤的糾正開(kāi)始2。美國(guó)信息業(yè)和商業(yè)的發(fā)展，極大

3、地刺激了對(duì)數(shù)據(jù)清洗技術(shù)的研究，主要集中在以下4 個(gè)方面。(1) 檢測(cè)并消除數(shù)據(jù)異常采用統(tǒng)計(jì)方法來(lái)檢測(cè)數(shù)值型屬性，計(jì)算字段值的均值和標(biāo)準(zhǔn)差，考慮每個(gè)字段的置信區(qū)間來(lái) 識(shí)別異常字段和記錄。將數(shù)據(jù)挖掘方法引入數(shù)據(jù)清理，如聚類方法用于檢測(cè)異常記錄、模型方法發(fā)現(xiàn)不符合現(xiàn)有模式的異常記錄、關(guān)聯(lián)規(guī)則方法發(fā)現(xiàn)數(shù)據(jù)集中不符合具有高置信度和支持度規(guī)則的異常數(shù)據(jù)。(2) 檢測(cè)并消除近似重復(fù)記錄即對(duì)重復(fù)記錄進(jìn)行清洗。消除數(shù)據(jù)集中的近似重復(fù)記錄問(wèn)題是目前數(shù)據(jù)清洗領(lǐng)域中研究最多的內(nèi)容。為了從數(shù)據(jù)集中消除重復(fù)記錄，首要的問(wèn)題就是如何判斷兩條記錄是否近似重復(fù)。(3) 數(shù)據(jù)的集成在數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用中，數(shù)據(jù)清洗

4、首先必須考慮數(shù)據(jù)集成，主要是將數(shù)據(jù)源中的結(jié)構(gòu)和數(shù)據(jù)映射到目標(biāo)結(jié)構(gòu)與域中。在這方面已經(jīng)開(kāi)展了大量的研究工作。(4) 特定領(lǐng)域的數(shù)據(jù)清洗不少數(shù)據(jù)清洗方案和算法都是針對(duì)特定應(yīng)用問(wèn)題的，只適用于較小的范圍。通用的、與應(yīng)用領(lǐng)域無(wú)關(guān)的算法和方案較少。近年來(lái)，國(guó)外的數(shù)據(jù)清洗技術(shù)發(fā)展得很快，從市場(chǎng)上存在的數(shù)據(jù)清洗軟件可以看出，其中包括商業(yè)上的數(shù)據(jù)清洗軟件，也有大學(xué)和研究機(jī)構(gòu)開(kāi)發(fā)的數(shù)據(jù)清洗軟件。1.2 國(guó)內(nèi)研究現(xiàn)狀目前，國(guó)內(nèi)對(duì)數(shù)據(jù)清洗技術(shù)的研究還處于初級(jí)階段。直接針對(duì)數(shù)據(jù)清洗，特別是針對(duì)中文數(shù) 據(jù)清洗的研究成果并不多。大多是在數(shù)據(jù)倉(cāng)庫(kù)、決策支持、數(shù)據(jù)挖掘研究中，對(duì)其做一些比較簡(jiǎn)單的闡

5、述。銀行、保險(xiǎn)和證券等對(duì)客戶數(shù)據(jù)的準(zhǔn)確性要求很高的行業(yè)，都在做各自的客戶數(shù)據(jù)的清洗工作，針對(duì)各自具體應(yīng)用而開(kāi)發(fā)軟件，而很少有理論性的成果見(jiàn)諸于報(bào)道。2 數(shù)據(jù)清洗的定義與對(duì)象2.1 數(shù)據(jù)清洗定義迄今為止，數(shù)據(jù)清洗還沒(méi)有公認(rèn)的定義，不同的應(yīng)用領(lǐng)域?qū)ζ溆胁煌慕忉尅?1) 數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域中的數(shù)據(jù)清洗在數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域，數(shù)據(jù)清洗定義為清除錯(cuò)誤和不一致數(shù)據(jù)的過(guò)程，并需要解決元組重復(fù)問(wèn)題。當(dāng)然，數(shù)據(jù)清洗并不是簡(jiǎn)單地用優(yōu)質(zhì)數(shù)據(jù)更新記錄，它還涉及數(shù)據(jù)的分解與重組。(2) 數(shù)據(jù)挖掘領(lǐng)域中的數(shù)據(jù)清洗數(shù)據(jù)挖掘 (早期又稱為數(shù)據(jù)庫(kù)的知識(shí)發(fā)現(xiàn) )過(guò)程中，數(shù)據(jù)清洗是第一個(gè)步驟，即對(duì)數(shù)據(jù)進(jìn)行預(yù) 處理的過(guò)程。各種

6、不同的 KDD 和 DW 系統(tǒng)都是針對(duì)特定的應(yīng)用領(lǐng)域進(jìn)行數(shù)據(jù)清洗的。文獻(xiàn)3 認(rèn)為，信息的模式被用于發(fā)現(xiàn)“垃圾模式” ，即沒(méi)有意義的或錯(cuò)誤的模式，這屬于數(shù)據(jù)清洗的一種。(3)數(shù)據(jù)質(zhì)量管理領(lǐng)域中的數(shù)據(jù)清洗數(shù)據(jù)質(zhì)量管理是一個(gè)學(xué)術(shù)界和商業(yè)界都感興趣的領(lǐng)域。全面數(shù)據(jù)質(zhì)量管理解決整個(gè)信息業(yè)務(wù) 過(guò)程中的數(shù)據(jù)質(zhì)量及集成問(wèn)題。在該領(lǐng)域中，沒(méi)有直接定義數(shù)據(jù)清洗過(guò)程。有些文章從數(shù)據(jù) 質(zhì)量的角度，將數(shù)據(jù)清洗過(guò)程定義為一個(gè)評(píng)價(jià)數(shù)據(jù)正確性并改善其質(zhì)量的過(guò)程。2.2 數(shù)據(jù)清洗的對(duì)象數(shù)據(jù)清洗的對(duì)象可以按照數(shù)據(jù)清洗對(duì)象的來(lái)源領(lǐng)域與產(chǎn)生原因進(jìn)行分類。前者屬于宏觀層面的劃分，后者屬于微觀層面的劃分。(1) 來(lái)源領(lǐng)

7、域很多領(lǐng)域都涉及到數(shù)據(jù)清洗，如數(shù)字化文獻(xiàn)服務(wù)、搜索引擎、金融領(lǐng)域、政府機(jī)構(gòu)等，數(shù)據(jù) 清洗的目的是為信息系統(tǒng)提供準(zhǔn)確而有效的數(shù)據(jù)。數(shù)字化文獻(xiàn)服務(wù)領(lǐng)域，在進(jìn)行數(shù)字化文獻(xiàn)資源加工時(shí)，OCR軟件有時(shí)會(huì)造成字符識(shí)別錯(cuò)誤，或由于標(biāo)引人員的疏忽而導(dǎo)致標(biāo)引詞的錯(cuò)誤等，是數(shù)據(jù)清洗需要完成的任務(wù)。搜索引擎為用戶在互聯(lián)網(wǎng)上查找具體的網(wǎng)頁(yè)提供了方便，它是通過(guò)為某一網(wǎng)頁(yè)的內(nèi)容進(jìn)行索引而實(shí)現(xiàn)的。而一個(gè)網(wǎng)頁(yè)上到底哪些部分需要索引，則是數(shù)據(jù)清洗需要關(guān)注的問(wèn)題。例如，網(wǎng)頁(yè)中的廣告部分，通常是不需要索引的。按照網(wǎng)絡(luò)數(shù)據(jù)清洗的粒度不同，可以將網(wǎng)絡(luò)數(shù)據(jù) 清洗分為兩類，即 Web 頁(yè)面級(jí)別的數(shù)據(jù)清洗和基于頁(yè)面內(nèi)部元素級(jí)別的數(shù)

8、據(jù)清洗，前者以 Google公司提出的PageRank算法和IBM公司Clever系統(tǒng)的HITS算法為代表；而后者的思路則集中體現(xiàn)在作為 MSN搜索引擎核心技術(shù)之一的VIPS算法上4。在金融系統(tǒng)中，也存在很多“臟數(shù)據(jù)” 。主要表現(xiàn)為：數(shù)據(jù)格式錯(cuò)誤，數(shù)據(jù)不一致，數(shù)據(jù)重復(fù)、錯(cuò)誤，業(yè)務(wù)邏輯的不合理，違反業(yè)務(wù)規(guī)則等。例如，未經(jīng)驗(yàn)證的身份證號(hào)碼、未經(jīng)驗(yàn)證的日期字段等，還有賬戶開(kāi)戶日期晚于用戶銷戶日期、交易處理的操作員號(hào)不存在、性別超過(guò)取值范圍等。此外，也有因?yàn)樵聪到y(tǒng)基于性能的考慮，放棄了外鍵約束，從而導(dǎo)致數(shù)據(jù)不一致的結(jié)果。電子政務(wù)系統(tǒng)也存在“臟數(shù)據(jù)” 。為了能夠更好地對(duì)公民負(fù)責(zé)并且

9、能夠與全國(guó)的其他警察局共享數(shù)據(jù)，英國(guó) Hum-berside 州警察局使用數(shù)據(jù)清洗軟件清洗大范圍的嫌疑犯和犯罪分子的數(shù)據(jù)。這次清洗的范圍龐大，跨越不同的系統(tǒng)，不僅有該警察局內(nèi)部系統(tǒng)的數(shù)據(jù)，還有外部的數(shù)據(jù)庫(kù)包括本地的和整個(gè)英國(guó)范圍內(nèi)的。其中有些數(shù)據(jù)庫(kù)能夠相連和整合，而有些則不能。例如，“指令部級(jí)控制”的犯罪記錄數(shù)據(jù)庫(kù)是用來(lái)記錄犯罪事件的，該數(shù)據(jù)庫(kù)是和嫌疑犯數(shù) 據(jù)庫(kù)分開(kāi)的。而嫌疑犯數(shù)據(jù)庫(kù)也許和家庭犯罪或孩童犯罪數(shù)據(jù)庫(kù)是分開(kāi)的5。(2) 產(chǎn)生原因在微觀方面，數(shù)據(jù)清洗的對(duì)象分為模式層數(shù)據(jù)清洗與實(shí)例層數(shù)據(jù)清洗6。數(shù)據(jù)清洗的任務(wù)是過(guò)濾或者修改那些不符合要求的數(shù)據(jù)。不符合要求的數(shù)據(jù)主要是有

10、不完整的數(shù)據(jù)、錯(cuò)誤的數(shù)據(jù)和重復(fù)的數(shù)據(jù) 3 大類。不完整數(shù)據(jù)的特征是一些應(yīng)該有的信息缺失，如機(jī)構(gòu)名稱、分公司的名稱、區(qū)域信息缺失等錯(cuò)誤數(shù)據(jù)產(chǎn)生的原因是業(yè)務(wù)系統(tǒng)不夠健全，在接收輸入后沒(méi)有進(jìn)行判斷而直接寫入后臺(tái)數(shù)據(jù) 庫(kù)造成的，比如數(shù)值數(shù)據(jù)輸成全角數(shù)字字符、字符串?dāng)?shù)據(jù)后有一個(gè)回車、日期格式不正確、日期越界等。錯(cuò)誤值包括輸入錯(cuò)誤和錯(cuò)誤數(shù)據(jù)，輸入錯(cuò)誤是由原始數(shù)據(jù)錄入人員疏忽而造成的，而錯(cuò)誤數(shù)據(jù)大多是由一些客觀原因引起的，例如人員填寫的所屬單位的不同和人員的升遷等。異常數(shù)據(jù)是指所有記錄中如果一個(gè)或幾個(gè)字段間絕大部分遵循某種模式，其它不遵循該模式的記錄，如年齡字段超過(guò)歷史上的最高記

11、錄年齡等。重復(fù)數(shù)據(jù)也就是“相似重復(fù)記錄” ，指同一個(gè)現(xiàn)實(shí)實(shí)體在數(shù)據(jù)集合中用多條不完全相同的記錄來(lái)表示，由于它們?cè)诟袷?、拼寫上的差異?導(dǎo)致數(shù)據(jù)庫(kù)管理系統(tǒng)不能正確識(shí)別。從狹義的角度看，如果兩條記錄在某些字段的值相等或足夠相似，則認(rèn)為這兩條記錄互為相似重復(fù)。識(shí)別相似重復(fù)記錄是數(shù)據(jù)清洗活動(dòng)的核心。此外，由于法人或作者更換單位造成數(shù)據(jù)的不一致情況、不同的計(jì)量單位、過(guò)時(shí)的地址、郵編等其他情況也是數(shù)據(jù)清洗的對(duì)象。3 數(shù)據(jù)清洗基本原理與框架模型3.1 基本原理數(shù)據(jù)清洗的原理為：利用有關(guān)技術(shù)，如統(tǒng)計(jì)方法、數(shù)據(jù)挖掘方法、模式規(guī)則方法等將臟數(shù)據(jù) 轉(zhuǎn)換為滿足數(shù)據(jù)質(zhì)量要求的數(shù)據(jù)。數(shù)據(jù)清洗按照

12、實(shí)現(xiàn)方式與范圍，可分為以下 4 種。(1) 手工實(shí)現(xiàn) 通過(guò)人工檢查，只要投入足夠的人力、物力與財(cái)力，也能發(fā)現(xiàn)所有錯(cuò)誤，但效率低下。在大數(shù)據(jù)量的情況下，手工操作幾乎是不可能的。(2) 編寫專門的應(yīng)用程序這種方法能解決某個(gè)特定的問(wèn)題，但不夠靈活，特別是在清洗過(guò)程需要反復(fù)進(jìn)行(一般來(lái)說(shuō)，數(shù)據(jù)清洗一遍就達(dá)到要求的很少)時(shí)，導(dǎo)致程序復(fù)雜，清洗過(guò)程變化時(shí)，工作量大。而且這種方法也沒(méi)有充分利用目前數(shù)據(jù)庫(kù)提供的強(qiáng)大數(shù)據(jù)處理能力。(3) 解決某類特定應(yīng)用域的問(wèn)題如根據(jù)概率統(tǒng)計(jì)學(xué)原理查找數(shù)值異常的記錄，對(duì)姓名、地址、郵政編碼等進(jìn)行清洗，這是目前研究較多的領(lǐng)域，也是應(yīng)用最成功的一類。(4) 與特定應(yīng)用領(lǐng)

13、域無(wú)關(guān)的數(shù)據(jù)清洗這一部分的研究主要集中在清洗重復(fù)記錄上。在以上 4 種實(shí)現(xiàn)方法中，后兩種具有某種通用性及其較大的實(shí)用性，引起了越來(lái)越多的關(guān)注。但是不管哪種方法，都由 3 個(gè)階段組成：數(shù)據(jù)分析、定義；搜索、識(shí)別錯(cuò)誤記錄；修正錯(cuò)誤。3.2 數(shù)據(jù)清洗的框架模型目前已經(jīng)研究出很多數(shù)據(jù)清洗的框架模型，下面介紹 3 個(gè)有代表性的框架模型。(1) Trillium 的模型Trillium7 是由 Harte Hanks Data Technologies 的 Trillium Software Systems 部門創(chuàng)建的企業(yè)范圍的數(shù)據(jù)清洗軟件。 Trillium 將數(shù)據(jù)清洗的過(guò)程分成 5

14、個(gè)步驟，分別由 5 個(gè)模塊來(lái)完成。 Converson Workbench 提供了一整套數(shù)據(jù)審計(jì)、分析和重組工具； Parser 對(duì)遺產(chǎn)數(shù)據(jù)和操作型系統(tǒng)的數(shù)據(jù)作解析、驗(yàn)證和標(biāo)準(zhǔn)化； Matcher地提供一套標(biāo)準(zhǔn)規(guī)則用于記錄連接和匹配，使得用戶可以方便地調(diào)整和定制以滿足其特殊的業(yè)務(wù)要求； Geocoder驗(yàn)證、糾正和增強(qiáng)物理數(shù)據(jù)； Utilties提供聯(lián)機(jī)數(shù)據(jù)瀏覽，域級(jí)頻率統(tǒng)計(jì)，詞的計(jì)數(shù)和分布。另外，合并、選擇和格式重組工具提供數(shù)據(jù)重組能力。(2) Bohn 模型Bohn 數(shù)據(jù)清洗模型 8將數(shù)據(jù)清洗分為以下 4 個(gè)主要部分：數(shù)據(jù)檢查：確認(rèn)數(shù)據(jù)質(zhì)量，內(nèi)部模式和主要字段(使用的不同字段)；數(shù)據(jù)

15、詞法分析：確定每個(gè)字段內(nèi)的各個(gè)元素的上下文和目的地；數(shù)據(jù)校正：將數(shù)據(jù)與已知清單(通常為地址)匹配并保證所有的字段被標(biāo)明為好、壞或可自動(dòng)校正。但是，這并不表示在軟件設(shè)計(jì)的時(shí)候需要有許多值的判斷。只要可能，技術(shù)人員就應(yīng)該與客戶一起校正源中的數(shù)據(jù)；記錄匹配：決定兩個(gè)記錄(可能是不同類型的)是否代表同一個(gè)對(duì)象。該過(guò)程涉及許多值判斷和復(fù)雜的軟件工具。AJAX模型AJAX9模型由Helena Galhardas提出，該模型是邏輯層面的模型 (Logic Level)，將數(shù)據(jù)清洗過(guò)程分為 5 個(gè)操作步驟：源數(shù)據(jù)的映射 (Mapping) ；對(duì)映射后的記錄進(jìn)行匹配(Matching)；對(duì)記錄做

16、聚集操作 (Clustering)；對(duì)聚集進(jìn)行合并 (Merging) ；對(duì)合并后的數(shù)據(jù)做視圖顯示(Viewing) 。4 數(shù)據(jù)清洗算法與工具4.1 數(shù)據(jù)清洗算法在臟數(shù)據(jù)清洗算法上，一些研究機(jī)構(gòu)提出了臟數(shù)據(jù)預(yù)處理、排序鄰居方法、多次遍歷數(shù)據(jù)清洗方法、采用領(lǐng)域知識(shí)進(jìn)行清洗、采用數(shù)據(jù)庫(kù)管理系統(tǒng)的集成數(shù)據(jù)清洗等算法。本文將針對(duì) 屬性和重復(fù)記錄的清洗分別從檢測(cè)和清洗兩個(gè)角度對(duì)相關(guān)算法展開(kāi)論述，如圖1 所示。圖 1 數(shù)據(jù)清洗方法分類(1) 自動(dòng)檢測(cè)屬性錯(cuò)誤的方法人工檢測(cè)數(shù)據(jù)集中的屬性錯(cuò)誤，需要花費(fèi)大量的人力、物力和時(shí)間，而且這個(gè)過(guò)程本身很容易出錯(cuò)，所以需要利用高效的方法自動(dòng)檢

17、測(cè)數(shù)據(jù)集中的屬性錯(cuò)誤，方法主要有：基于統(tǒng)計(jì)的方法 10，聚類方法 11，關(guān)聯(lián)規(guī)則的方法 10等。表 1 給出自動(dòng)檢測(cè)屬性錯(cuò)誤的方法比較。(2) 屬性清洗的方法空缺值的清洗方法主要有：忽略元組；人工填寫空缺值；使用一個(gè)全局變量填充空缺值；使用屬性的平均值、中間值、最大值、最小值或更為復(fù)雜的概率統(tǒng)計(jì)函數(shù)值填充空缺值。噪聲數(shù)據(jù)的清洗方法主要有：分箱(Bi nning),通過(guò)考察屬性值的周圍值來(lái)平滑屬性的值。屬性值被分布到一些等深或等寬的“箱”中，用箱中屬性值的平均值或中值來(lái)替換“箱”中的屬性值；計(jì)算機(jī)和人工檢查相結(jié)合，計(jì)算機(jī)檢測(cè)可疑數(shù)據(jù)，然后對(duì)它們進(jìn)行人工判斷；使用簡(jiǎn)單規(guī)則庫(kù)檢測(cè)和修

18、正錯(cuò)誤；使用不同屬性間的約束檢測(cè)和修正錯(cuò)誤；使用外部數(shù)據(jù)源檢測(cè)和修正錯(cuò)誤。不一致數(shù)據(jù)的清洗方法。對(duì)于有些事務(wù)，所記錄的數(shù)據(jù)可能存在不一致。有些數(shù)據(jù)不一致，可以使用其他材料人工加以更正。例如，數(shù)據(jù)輸入時(shí)的錯(cuò)誤可以使用紙上的記錄加以更正。知識(shí)工程工具也可以用來(lái)檢測(cè)違反限制的數(shù)據(jù)。例如，知道屬性間的函數(shù)依賴，可以查找違反函數(shù)依賴的值 11。此外，數(shù)據(jù)集成也可能產(chǎn)生數(shù)據(jù)不一致。表 2 給出屬性清洗的方法比較情況。(3) 檢測(cè)重復(fù)記錄的算法消除重復(fù)記錄可以針對(duì)兩個(gè)數(shù)據(jù)集或者一個(gè)合并后的數(shù)據(jù)集，首先需要檢測(cè)出標(biāo)識(shí)同一個(gè)現(xiàn)實(shí)實(shí)體的重復(fù)記錄，即匹配過(guò)程。檢測(cè)重復(fù)記錄的算法主要有：基本的字

19、段匹配算法10，遞歸的字段匹配算法10，Smith-Waterman算法10,12，編輯距離13,14、Cosine相似度函數(shù)14,15 。表 3 給出檢測(cè)重復(fù)記錄算法的比較情況。(4)重復(fù)記錄清洗的算法目前消除重復(fù)記錄的基本思想是“排序和合并” ，先將數(shù)據(jù)庫(kù)中的記錄排序，然后通過(guò)比較鄰近記錄是否相似來(lái)檢測(cè)記錄是否重復(fù)。消除重復(fù)記錄的算法主要有：優(yōu)先隊(duì)列算法 14,16 ，近鄰排序算法 (Sorted-Neighborhood Method, SNM)14,17 ，多趟近鄰排序 (Multi -Pass Sorted-Neighborhood, MPN)14,

20、17 。表 4 給出重復(fù)記錄清洗算法的比較情況。4.2 數(shù)據(jù)清洗工具從特定功能的清洗工具、ETL工具以及其他工具 3個(gè)方面來(lái)對(duì)數(shù)據(jù)清洗工具進(jìn)行介紹。 (1)特定功能的清洗工具特定的清洗工具主要處理特殊的領(lǐng)域問(wèn)題，基本上是姓名和地址數(shù)據(jù)的清洗，或者消除重復(fù)。轉(zhuǎn)換是由預(yù)先定義的規(guī)則庫(kù)或者和用戶交互來(lái)完成的。在特殊領(lǐng)域的清洗中，姓名和地址在很多數(shù)據(jù)庫(kù)中都有記錄而且有很大的基數(shù)。特定的清洗工具提供抽取和轉(zhuǎn)換姓名及地址信息到標(biāo)準(zhǔn)元素的功能，與在基于清洗過(guò)的數(shù)據(jù)工具相結(jié)合來(lái)確認(rèn)街道名稱、城市和郵政編碼。特殊領(lǐng)域的清洗工具現(xiàn)有 IDCENTRIC、 PUREINTEGRAT、E QUIC

21、KADDRESS REUNION TRILLIUM等14。消除重復(fù)的一類工具根據(jù)匹配的要求探測(cè)和去除數(shù)據(jù)集中相似重復(fù)記錄。有些工具還允許用戶指定匹配的規(guī)則。目前已有的用于消除重復(fù)記錄的清洗工具有 DATACLEANSER MERGE/PURGE LIBRARYMATCHIT ASTERMERGE?14。ETL工具現(xiàn)有大量的工具支持?jǐn)?shù)據(jù)倉(cāng)庫(kù)的 ETL 處理，如 COPYMANAGER、DATASTAGE EXTRACT、 WERMART等。它們使用建立在 DBMS上的知識(shí)庫(kù)以統(tǒng)一的方式來(lái)管理所有關(guān)于數(shù)據(jù)源、目標(biāo)模式、映射、教本程序等的原數(shù)據(jù)。模式和數(shù)據(jù)通過(guò)本地文

22、件和DBMS網(wǎng)關(guān)、ODBC等標(biāo)準(zhǔn)接口從操作型數(shù)據(jù)源收取數(shù)據(jù)。這些工具提供規(guī)則語(yǔ)言和預(yù)定義的轉(zhuǎn)換函數(shù)庫(kù)來(lái)指定映射步驟14。ETL工具很少內(nèi)置數(shù)據(jù)清洗的功能，但是允許用戶通過(guò)API指定清洗功能。通常這些工具沒(méi)有用數(shù)據(jù)分析來(lái)支持自動(dòng)探測(cè)錯(cuò)誤數(shù)據(jù)和數(shù)據(jù)不一致。然而，用戶可以通過(guò)維護(hù)原數(shù)據(jù)和運(yùn) 用集合函數(shù) (Sum、 Count、 Min、 Max 等)決定內(nèi)容的特征等辦法來(lái)完成這些工作。這些工具提供的轉(zhuǎn)換工具庫(kù)包含了許多數(shù)據(jù)轉(zhuǎn)換和清洗所需的函數(shù)，例如數(shù)據(jù)類轉(zhuǎn)變，字符串函數(shù)，數(shù)學(xué)、科學(xué)和統(tǒng)計(jì)的函數(shù)等。規(guī)則語(yǔ)言包含If-then和Case結(jié)構(gòu)來(lái)處理例外情況，例如，錯(cuò)誤拼寫、縮寫，丟失或者含糊

23、的值和超出范圍的值 14。而在我國(guó)，對(duì)數(shù)據(jù)清洗的研究甚少，還沒(méi)有一個(gè)成型的完善的 ETL工具應(yīng)用于數(shù)據(jù)倉(cāng)庫(kù)的系統(tǒng)中18。(3) 其他工具其他與數(shù)據(jù)清洗相關(guān)的工具包括：基于引擎的工具(COPYMANAGER、 DECISIONBAS、EPOWERMART 、 DATASTAGE、 WAREHOUSEADMINISTRATOR、) 數(shù) 據(jù) 分析工具 (MIGRATIONARCHITECT WIZRULE DATAMININGSUITE和業(yè)務(wù)流程再設(shè)計(jì)工具(INTEGRITY) 數(shù)據(jù)輪廓分析工具 (如MIGRATIONARCHITECT Cevoke Softwar等)、數(shù)據(jù)挖掘工具(如 WIZRULE 等)19 。4.3 數(shù)據(jù)清洗工具功能簡(jiǎn)介表 5 是對(duì)各種典型數(shù)據(jù)清洗工具功能的描述。5 數(shù)據(jù)清洗評(píng)估數(shù)據(jù)清洗的評(píng)估實(shí)質(zhì)上是對(duì)清洗后的數(shù)據(jù)的質(zhì)量進(jìn)行評(píng)估，而數(shù)據(jù)質(zhì)量的評(píng)估過(guò)程是一種通過(guò)測(cè)量和改善數(shù)據(jù)綜合特征來(lái)優(yōu)化數(shù)據(jù)價(jià)值的過(guò)程。數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)和方法研究的難點(diǎn)在于數(shù)據(jù)質(zhì)量的含義、內(nèi)容、分類、分級(jí)、質(zhì)量的評(píng)價(jià)指標(biāo)等。文獻(xiàn)20和文獻(xiàn) 21提出了一些數(shù)據(jù)質(zhì)量的評(píng)估指標(biāo)。在進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估時(shí)，要根據(jù)具體的數(shù)據(jù)質(zhì)量評(píng)估需求對(duì)數(shù)據(jù)質(zhì)量評(píng)估指標(biāo)進(jìn)行相應(yīng)的取舍。但是，數(shù)據(jù)質(zhì)量評(píng)估至少應(yīng)該包含以下兩方面的基本評(píng)估指標(biāo) 18 。(1)數(shù)據(jù)對(duì)用戶必須是可信

人人文庫(kù)> 全部分類> 應(yīng)用文書(shū) > 作業(yè)報(bào)告

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

(完整word版)數(shù)據(jù)清洗綜述

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

(完整word版)數(shù)據(jù)清洗綜述

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔