下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)清洗研究綜述隨著信息處理技術(shù)的不斷發(fā)展, 各行各業(yè)已建立了很多計(jì)算機(jī)信息系統(tǒng), 積累了大量的數(shù)據(jù)。 為了使數(shù)據(jù)能夠有效地支持組織的日常運(yùn)作和決策, 要求數(shù)據(jù)可靠無(wú)誤, 能夠準(zhǔn)確地反映現(xiàn) 實(shí)世界的狀況。數(shù)據(jù)是信息的基礎(chǔ),好的數(shù)據(jù)質(zhì)量是各種數(shù)據(jù)分析如OLAP、數(shù)據(jù)挖掘等有效應(yīng)用的基本條件。人們常常抱怨“數(shù)據(jù)豐富,信息貧乏” ,究其原因,一是缺乏有效的數(shù) 據(jù)分析技術(shù),二是數(shù)據(jù)質(zhì)量不高,如數(shù)據(jù)輸入錯(cuò)誤、不同來(lái)源數(shù)據(jù)引起的不同表示方法,數(shù) 據(jù)間的不一致等, 導(dǎo)致現(xiàn)有的數(shù)據(jù)中存在這樣或那樣的臟數(shù)據(jù)。 它們主要表現(xiàn)為: 拼寫問(wèn)題、 打印錯(cuò)誤、不合法值、空值、不一致值、簡(jiǎn)寫、同一實(shí)體的多種表示(重復(fù) )、
2、不遵循引用完整性等。數(shù)據(jù)清洗(Data Cleaning, Data Cleansing或者Data Scrubbing)的目的是檢測(cè)數(shù)據(jù)中存在的錯(cuò)誤 和不一致,剔除或者改正它們,以提高數(shù)據(jù)的質(zhì)量1。1 數(shù)據(jù)清洗國(guó)內(nèi)外研究現(xiàn)狀數(shù)據(jù)清洗主要在數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn) (也稱數(shù)據(jù)挖掘 )和總體數(shù)據(jù)質(zhì)量管理這 3 個(gè)領(lǐng)域 研究較多。 在數(shù)據(jù)倉(cāng)庫(kù)研究和應(yīng)用領(lǐng)域, 數(shù)據(jù)清洗處理是構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的第一步, 由于數(shù)據(jù) 量巨大,不可能進(jìn)行人工處理,因此自動(dòng)化數(shù)據(jù)清洗受到工商業(yè)界的廣泛關(guān)注。1.1 國(guó)外研究現(xiàn)狀國(guó)外對(duì)數(shù)據(jù)清洗的研究最早出現(xiàn)在美國(guó),是從對(duì)全美的社會(huì)保險(xiǎn)號(hào)錯(cuò)誤的糾正開(kāi)始2。美國(guó)信息業(yè)和商業(yè)的發(fā)展,極大
3、地刺激了對(duì)數(shù)據(jù)清洗技術(shù)的研究,主要集中在以下4 個(gè)方面。(1) 檢測(cè)并消除數(shù)據(jù)異常采用統(tǒng)計(jì)方法來(lái)檢測(cè)數(shù)值型屬性, 計(jì)算字段值的均值和標(biāo)準(zhǔn)差, 考慮每個(gè)字段的置信區(qū)間來(lái) 識(shí)別異常字段和記錄。 將數(shù)據(jù)挖掘方法引入數(shù)據(jù)清理, 如聚類方法用于檢測(cè)異常記錄、 模型 方法發(fā)現(xiàn)不符合現(xiàn)有模式的異常記錄、 關(guān)聯(lián)規(guī)則方法發(fā)現(xiàn)數(shù)據(jù)集中不符合具有高置信度和支 持度規(guī)則的異常數(shù)據(jù)。(2) 檢測(cè)并消除近似重復(fù)記錄即對(duì)重復(fù)記錄進(jìn)行清洗。 消除數(shù)據(jù)集中的近似重復(fù)記錄問(wèn)題是目前數(shù)據(jù)清洗領(lǐng)域中研究最多 的內(nèi)容。為了從數(shù)據(jù)集中消除重復(fù)記錄,首要的問(wèn)題就是如何判斷兩條記錄是否近似重復(fù)。(3) 數(shù)據(jù)的集成在數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用中, 數(shù)據(jù)清洗
4、首先必須考慮數(shù)據(jù)集成, 主要是將數(shù)據(jù)源中的結(jié)構(gòu)和數(shù)據(jù)映射 到目標(biāo)結(jié)構(gòu)與域中。在這方面已經(jīng)開(kāi)展了大量的研究工作。(4) 特定領(lǐng)域的數(shù)據(jù)清洗不少數(shù)據(jù)清洗方案和算法都是針對(duì)特定應(yīng)用問(wèn)題的, 只適用于較小的范圍。 通用的、 與應(yīng)用 領(lǐng)域無(wú)關(guān)的算法和方案較少。近年來(lái), 國(guó)外的數(shù)據(jù)清洗技術(shù)發(fā)展得很快, 從市場(chǎng)上存在的數(shù)據(jù)清洗軟件可以看出, 其中包 括商業(yè)上的數(shù)據(jù)清洗軟件,也有大學(xué)和研究機(jī)構(gòu)開(kāi)發(fā)的數(shù)據(jù)清洗軟件。1.2 國(guó)內(nèi)研究現(xiàn)狀目前, 國(guó)內(nèi)對(duì)數(shù)據(jù)清洗技術(shù)的研究還處于初級(jí)階段。 直接針對(duì)數(shù)據(jù)清洗, 特別是針對(duì)中文數(shù) 據(jù)清洗的研究成果并不多。大多是在數(shù)據(jù)倉(cāng)庫(kù)、決策支持、數(shù)據(jù)挖掘研究中,對(duì)其做一些比 較簡(jiǎn)單的闡
5、述。 銀行、 保險(xiǎn)和證券等對(duì)客戶數(shù)據(jù)的準(zhǔn)確性要求很高的行業(yè), 都在做各自的客 戶數(shù)據(jù)的清洗工作,針對(duì)各自具體應(yīng)用而開(kāi)發(fā)軟件,而很少有理論性的成果見(jiàn)諸于報(bào)道。2 數(shù)據(jù)清洗的定義與對(duì)象2.1 數(shù)據(jù)清洗定義 迄今為止,數(shù)據(jù)清洗還沒(méi)有公認(rèn)的定義,不同的應(yīng)用領(lǐng)域?qū)ζ溆胁煌慕忉尅?1) 數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域中的數(shù)據(jù)清洗 在數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域, 數(shù)據(jù)清洗定義為清除錯(cuò)誤和不一致數(shù)據(jù)的過(guò)程, 并需要解決元組重復(fù)問(wèn)題。 當(dāng)然,數(shù)據(jù)清洗并不是簡(jiǎn)單地用優(yōu)質(zhì)數(shù)據(jù)更新記錄,它還涉及數(shù)據(jù)的分解與重組。(2) 數(shù)據(jù)挖掘領(lǐng)域中的數(shù)據(jù)清洗數(shù)據(jù)挖掘 (早期又稱為數(shù)據(jù)庫(kù)的知識(shí)發(fā)現(xiàn) )過(guò)程中,數(shù)據(jù)清洗是第一個(gè)步驟,即對(duì)數(shù)據(jù)進(jìn)行預(yù) 處理的過(guò)程。各種
6、不同的 KDD 和 DW 系統(tǒng)都是針對(duì)特定的應(yīng)用領(lǐng)域進(jìn)行數(shù)據(jù)清洗的。文獻(xiàn)3 認(rèn)為,信息的模式被用于發(fā)現(xiàn)“垃圾模式” ,即沒(méi)有意義的或錯(cuò)誤的模式,這屬于數(shù)據(jù)清 洗的一種。(3)數(shù)據(jù)質(zhì)量管理領(lǐng)域中的數(shù)據(jù)清洗 數(shù)據(jù)質(zhì)量管理是一個(gè)學(xué)術(shù)界和商業(yè)界都感興趣的領(lǐng)域。 全面數(shù)據(jù)質(zhì)量管理解決整個(gè)信息業(yè)務(wù) 過(guò)程中的數(shù)據(jù)質(zhì)量及集成問(wèn)題。 在該領(lǐng)域中, 沒(méi)有直接定義數(shù)據(jù)清洗過(guò)程。 有些文章從數(shù)據(jù) 質(zhì)量的角度,將數(shù)據(jù)清洗過(guò)程定義為一個(gè)評(píng)價(jià)數(shù)據(jù)正確性并改善其質(zhì)量的過(guò)程。2.2 數(shù)據(jù)清洗的對(duì)象 數(shù)據(jù)清洗的對(duì)象可以按照數(shù)據(jù)清洗對(duì)象的來(lái)源領(lǐng)域與產(chǎn)生原因進(jìn)行分類。 前者屬于宏觀層面 的劃分,后者屬于微觀層面的劃分。(1) 來(lái)源領(lǐng)
7、域 很多領(lǐng)域都涉及到數(shù)據(jù)清洗,如數(shù)字化文獻(xiàn)服務(wù)、搜索引擎、金融領(lǐng)域、政府機(jī)構(gòu)等,數(shù)據(jù) 清洗的目的是為信息系統(tǒng)提供準(zhǔn)確而有效的數(shù)據(jù)。數(shù)字化文獻(xiàn)服務(wù)領(lǐng)域,在進(jìn)行數(shù)字化文獻(xiàn)資源加工時(shí),OCR軟件有時(shí)會(huì)造成字符識(shí)別錯(cuò)誤,或由于標(biāo)引人員的疏忽而導(dǎo)致標(biāo)引詞的錯(cuò)誤等,是數(shù)據(jù)清洗需要完成的任務(wù)。搜索引擎為用戶在互聯(lián)網(wǎng)上查找具體的網(wǎng)頁(yè)提供了方便,它是通過(guò)為某一網(wǎng)頁(yè)的內(nèi)容進(jìn)行索引而實(shí)現(xiàn)的。而一個(gè)網(wǎng)頁(yè)上到底哪些部分需要索引,則是數(shù)據(jù)清洗需要關(guān)注的問(wèn)題。例如, 網(wǎng)頁(yè)中的廣告部分, 通常是不需要索引的。 按照網(wǎng)絡(luò)數(shù)據(jù)清洗的粒度不同, 可以將網(wǎng)絡(luò)數(shù)據(jù) 清洗分為兩類,即 Web 頁(yè)面級(jí)別的數(shù)據(jù)清洗和基于頁(yè)面內(nèi)部元素級(jí)別的數(shù)
8、據(jù)清洗,前者以 Google公司提出的PageRank算法和IBM公司Clever系統(tǒng)的HITS算法為代表;而后者的思 路則集中體現(xiàn)在作為 MSN搜索引擎核心技術(shù)之一的VIPS算法上4。在金融系統(tǒng)中,也存在很多“臟數(shù)據(jù)” 。主要表現(xiàn)為:數(shù)據(jù)格式錯(cuò)誤,數(shù)據(jù)不一致,數(shù)據(jù)重 復(fù)、錯(cuò)誤,業(yè)務(wù)邏輯的不合理,違反業(yè)務(wù)規(guī)則等。例如,未經(jīng)驗(yàn)證的身份證號(hào)碼、未經(jīng)驗(yàn)證 的日期字段等, 還有賬戶開(kāi)戶日期晚于用戶銷戶日期、 交易處理的操作員號(hào)不存在、 性別超 過(guò)取值范圍等。 此外,也有因?yàn)樵聪到y(tǒng)基于性能的考慮, 放棄了外鍵約束, 從而導(dǎo)致數(shù)據(jù)不 一致的結(jié)果。電子政務(wù)系統(tǒng)也存在“臟數(shù)據(jù)” 。為了能夠更好地對(duì)公民負(fù)責(zé)并且
9、能夠與全國(guó)的其他警察局 共享數(shù)據(jù), 英國(guó) Hum-berside 州警察局使用數(shù)據(jù)清洗軟件清洗大范圍的嫌疑犯和犯罪分子的 數(shù)據(jù)。 這次清洗的范圍龐大,跨越不同的系統(tǒng),不僅有該警察局內(nèi)部系統(tǒng)的數(shù)據(jù),還有外部的數(shù)據(jù)庫(kù)包括本地的和整個(gè)英國(guó)范圍內(nèi)的。 其中有些數(shù)據(jù)庫(kù)能夠相連和整合, 而有些則不能。 例如,“指令部級(jí)控制”的犯罪記錄數(shù)據(jù)庫(kù)是用來(lái)記錄犯罪事件的,該數(shù)據(jù)庫(kù)是和嫌疑犯數(shù) 據(jù)庫(kù)分開(kāi)的。而嫌疑犯數(shù)據(jù)庫(kù)也許和家庭犯罪或孩童犯罪數(shù)據(jù)庫(kù)是分開(kāi)的5。(2) 產(chǎn)生原因 在微觀方面,數(shù)據(jù)清洗的對(duì)象分為模式層數(shù)據(jù)清洗與實(shí)例層數(shù)據(jù)清洗6。數(shù)據(jù)清洗的任務(wù)是過(guò)濾或者修改那些不符合要求的數(shù)據(jù)。 不符合要求的數(shù)據(jù)主要是有
10、不完整的數(shù)據(jù)、 錯(cuò)誤的 數(shù)據(jù)和重復(fù)的數(shù)據(jù) 3 大類。不完整數(shù)據(jù)的特征是一些應(yīng)該有的信息缺失, 如機(jī)構(gòu)名稱、 分公司的名稱、 區(qū)域信息缺失等 錯(cuò)誤數(shù)據(jù)產(chǎn)生的原因是業(yè)務(wù)系統(tǒng)不夠健全, 在接收輸入后沒(méi)有進(jìn)行判斷而直接寫入后臺(tái)數(shù)據(jù) 庫(kù)造成的,比如數(shù)值數(shù)據(jù)輸成全角數(shù)字字符、字符串?dāng)?shù)據(jù)后有一個(gè)回車、日期格式不正確、日期越界等。 錯(cuò)誤值包括輸入錯(cuò)誤和錯(cuò)誤數(shù)據(jù), 輸入錯(cuò)誤是由原始數(shù)據(jù)錄入人員疏忽而造成 的,而錯(cuò)誤數(shù)據(jù)大多是由一些客觀原因引起的, 例如人員填寫的所屬單位的不同和人員的升 遷等。異常數(shù)據(jù)是指所有記錄中如果一個(gè)或幾個(gè)字段間絕大部分遵循某種模式, 其它不遵循該模式 的記錄,如年齡字段超過(guò)歷史上的最高記
11、錄年齡等。重復(fù)數(shù)據(jù)也就是“相似重復(fù)記錄” ,指同一個(gè)現(xiàn)實(shí)實(shí)體在數(shù)據(jù)集合中用多條不完全相同的記 錄來(lái)表示, 由于它們?cè)诟袷?、拼寫上的差異?導(dǎo)致數(shù)據(jù)庫(kù)管理系統(tǒng)不能正確識(shí)別。 從狹義的 角度看,如果兩條記錄在某些字段的值相等或足夠相似,則認(rèn)為這兩條記錄互為相似重復(fù)。 識(shí)別相似重復(fù)記錄是數(shù)據(jù)清洗活動(dòng)的核心。此外, 由于法人或作者更換單位造成數(shù)據(jù)的不一致情況、 不同的計(jì)量單位、 過(guò)時(shí)的地址、郵 編等其他情況也是數(shù)據(jù)清洗的對(duì)象。3 數(shù)據(jù)清洗基本原理與框架模型3.1 基本原理數(shù)據(jù)清洗的原理為: 利用有關(guān)技術(shù), 如統(tǒng)計(jì)方法、 數(shù)據(jù)挖掘方法、 模式規(guī)則方法等將臟數(shù)據(jù) 轉(zhuǎn)換為滿足數(shù)據(jù)質(zhì)量要求的數(shù)據(jù)。數(shù)據(jù)清洗按照
12、實(shí)現(xiàn)方式與范圍,可分為以下 4 種。(1) 手工實(shí)現(xiàn) 通過(guò)人工檢查,只要投入足夠的人力、物力與財(cái)力,也能發(fā)現(xiàn)所有錯(cuò)誤,但效率低下。在大 數(shù)據(jù)量的情況下,手工操作幾乎是不可能的。(2) 編寫專門的應(yīng)用程序這種方法能解決某個(gè)特定的問(wèn)題, 但不夠靈活, 特別是在清洗過(guò)程需要反復(fù)進(jìn)行(一般來(lái)說(shuō),數(shù)據(jù)清洗一遍就達(dá)到要求的很少)時(shí),導(dǎo)致程序復(fù)雜,清洗過(guò)程變化時(shí),工作量大。而且這種方法也沒(méi)有充分利用目前數(shù)據(jù)庫(kù)提供的強(qiáng)大數(shù)據(jù)處理能力。(3) 解決某類特定應(yīng)用域的問(wèn)題如根據(jù)概率統(tǒng)計(jì)學(xué)原理查找數(shù)值異常的記錄, 對(duì)姓名、地址、 郵政編碼等進(jìn)行清洗,這是目 前研究較多的領(lǐng)域,也是應(yīng)用最成功的一類。(4) 與特定應(yīng)用領(lǐng)
13、域無(wú)關(guān)的數(shù)據(jù)清洗這一部分的研究主要集中在清洗重復(fù)記錄上。在以上 4 種實(shí)現(xiàn)方法中, 后兩種具有某種通用性及其較大的實(shí)用性, 引起了越來(lái)越多的關(guān)注。 但是不管哪種方法, 都由 3 個(gè)階段組成: 數(shù)據(jù)分析、 定義; 搜索、識(shí)別錯(cuò)誤記錄; 修正錯(cuò)誤。3.2 數(shù)據(jù)清洗的框架模型目前已經(jīng)研究出很多數(shù)據(jù)清洗的框架模型,下面介紹 3 個(gè)有代表性的框架模型。(1) Trillium 的模型Trillium7 是由 Harte Hanks Data Technologies 的 Trillium Software Systems 部門創(chuàng)建的企業(yè)范 圍的數(shù)據(jù)清洗軟件。 Trillium 將數(shù)據(jù)清洗的過(guò)程分成 5
14、個(gè)步驟,分別由 5 個(gè)模塊來(lái)完成。 Converson Workbench 提供了一整套數(shù)據(jù)審計(jì)、分析和重組工具; Parser 對(duì)遺產(chǎn)數(shù)據(jù)和操作型系統(tǒng)的數(shù)據(jù)作解析、驗(yàn)證和標(biāo)準(zhǔn)化; Matcher地提供一套標(biāo)準(zhǔn)規(guī)則用于記錄連接和匹配,使得用戶可以方便地調(diào)整和定制以滿足其特殊的業(yè)務(wù)要求; Geocoder驗(yàn)證、糾正和增強(qiáng)物理數(shù)據(jù); Utilties提供聯(lián)機(jī)數(shù)據(jù)瀏覽,域級(jí)頻率統(tǒng)計(jì),詞的計(jì)數(shù)和分布。另外,合并、選擇和格式 重組工具提供數(shù)據(jù)重組能力。(2) Bohn 模型Bohn 數(shù)據(jù)清洗模型 8將數(shù)據(jù)清洗分為以下 4 個(gè)主要部分: 數(shù)據(jù)檢查:確認(rèn)數(shù)據(jù)質(zhì)量,內(nèi)部模式和主要字段(使用的不同字段); 數(shù)據(jù)
15、詞法分析:確定每個(gè)字段內(nèi)的各個(gè)元素的上下文和目的地; 數(shù)據(jù)校正:將數(shù)據(jù)與已知清單(通常為地址)匹配并保證所有的字段被標(biāo)明為好、壞或可自動(dòng)校正。但是, 這并不表示在軟件設(shè)計(jì)的時(shí)候需要有許多值的判斷。只要可能,技術(shù)人員就 應(yīng)該與客戶一起校正源中的數(shù)據(jù); 記錄匹配:決定兩個(gè)記錄(可能是不同類型的)是否代表同一個(gè)對(duì)象。該過(guò)程涉及許多值判 斷和復(fù)雜的軟件工具。AJAX模型AJAX9模型由Helena Galhardas提出,該模型是邏輯層面的模型 (Logic Level),將數(shù)據(jù)清洗過(guò)程分為 5 個(gè)操作步驟: 源數(shù)據(jù)的映射 (Mapping) ; 對(duì)映射后的記錄進(jìn)行匹配(Matching); 對(duì)記錄做
16、聚集操作 (Clustering); 對(duì)聚集進(jìn)行合并 (Merging) ; 對(duì)合并后的數(shù)據(jù)做視圖顯示(Viewing) 。4 數(shù)據(jù)清洗算法與工具4.1 數(shù)據(jù)清洗算法在臟數(shù)據(jù)清洗算法上, 一些研究機(jī)構(gòu)提出了臟數(shù)據(jù)預(yù)處理、 排序鄰居方法、 多次遍歷數(shù)據(jù)清 洗方法、 采用領(lǐng)域知識(shí)進(jìn)行清洗、 采用數(shù)據(jù)庫(kù)管理系統(tǒng)的集成數(shù)據(jù)清洗等算法。 本文將針對(duì) 屬性和重復(fù)記錄的清洗分別從檢測(cè)和清洗兩個(gè)角度對(duì)相關(guān)算法展開(kāi)論述,如圖1 所示。圖 1 數(shù)據(jù)清洗方法分類(1) 自動(dòng)檢測(cè)屬性錯(cuò)誤的方法人工檢測(cè)數(shù)據(jù)集中的屬性錯(cuò)誤, 需要花費(fèi)大量的人力、 物力和時(shí)間, 而且這個(gè)過(guò)程本身很容 易出錯(cuò), 所以需要利用高效的方法自動(dòng)檢
17、測(cè)數(shù)據(jù)集中的屬性錯(cuò)誤,方法主要有: 基于統(tǒng)計(jì)的方法 10,聚類方法 11,關(guān)聯(lián)規(guī)則的方法 10等。表 1 給出自動(dòng)檢測(cè)屬性錯(cuò)誤的方法比較。(2) 屬性清洗的方法 空缺值的清洗方法主要有:忽略元組;人工填寫空缺值;使用一個(gè)全局變量填充空缺值; 使用屬性的平均值、中間值、最大值、最小值或更為復(fù)雜的概率統(tǒng)計(jì)函數(shù)值填充空缺值。 噪聲數(shù)據(jù)的清洗方法主要有:分箱(Bi nning),通過(guò)考察屬性值的周圍值來(lái)平滑屬性的值。屬性值被分布到一些等深或等寬的“箱”中,用箱中屬性值的平均值或中值來(lái)替換“箱”中 的屬性值; 計(jì)算機(jī)和人工檢查相結(jié)合,計(jì)算機(jī)檢測(cè)可疑數(shù)據(jù), 然后對(duì)它們進(jìn)行人工判斷;使 用簡(jiǎn)單規(guī)則庫(kù)檢測(cè)和修
18、正錯(cuò)誤; 使用不同屬性間的約束檢測(cè)和修正錯(cuò)誤; 使用外部數(shù)據(jù)源檢 測(cè)和修正錯(cuò)誤。 不一致數(shù)據(jù)的清洗方法。對(duì)于有些事務(wù), 所記錄的數(shù)據(jù)可能存在不一致。 有些數(shù)據(jù)不一致,可以使用其他材料人工加以更正。例如,數(shù)據(jù)輸入時(shí)的錯(cuò)誤可以使用紙上的記錄加以更正。知識(shí)工程工具也可以用來(lái)檢測(cè)違反限制的數(shù)據(jù)。 例如, 知道屬性間的函數(shù)依賴, 可以查找違 反函數(shù)依賴的值 11。此外,數(shù)據(jù)集成也可能產(chǎn)生數(shù)據(jù)不一致。表 2 給出屬性清洗的方法比 較情況。(3) 檢測(cè)重復(fù)記錄的算法消除重復(fù)記錄可以針對(duì)兩個(gè)數(shù)據(jù)集或者一個(gè)合并后的數(shù)據(jù)集,首先需要檢測(cè)出標(biāo)識(shí)同一個(gè)現(xiàn)實(shí)實(shí)體的重復(fù)記錄,即匹配過(guò)程。檢測(cè)重復(fù)記錄的算法主要有:基本的字
19、段匹配算法10,遞歸的字段匹配算法10,Smith-Waterman算法10,12,編輯距離13,14、Cosine相似度函 數(shù)14,15 。表 3 給出檢測(cè)重復(fù)記錄算法的比較情況。(4)重復(fù)記錄清洗的算法 目前消除重復(fù)記錄的基本思想是“排序和合并” ,先將數(shù)據(jù)庫(kù)中的記錄排序,然后通過(guò)比較 鄰近記錄是否相似來(lái)檢測(cè)記錄是否重復(fù)。 消除重復(fù)記錄的算法主要有: 優(yōu)先隊(duì)列算法 14,16 , 近 鄰 排 序 算 法 (Sorted-Neighborhood Method, SNM)14,17 , 多 趟 近 鄰 排 序 (Multi -Pass Sorted-Neighborhood, MPN)14,
20、17 。表 4 給出重復(fù)記錄清洗算法的比較情況。4.2 數(shù)據(jù)清洗工具從特定功能的清洗工具、ETL工具以及其他工具 3個(gè)方面來(lái)對(duì)數(shù)據(jù)清洗工具進(jìn)行介紹。 (1)特定功能的清洗工具特定的清洗工具主要處理特殊的領(lǐng)域問(wèn)題, 基本上是姓名和地址數(shù)據(jù)的清洗, 或者消除重復(fù)。 轉(zhuǎn)換是由預(yù)先定義的規(guī)則庫(kù)或者和用戶交互來(lái)完成的。在特殊領(lǐng)域的清洗中, 姓名和地址在很多數(shù)據(jù)庫(kù)中都有記錄而且有很大的基數(shù)。 特定的清洗 工具提供抽取和轉(zhuǎn)換姓名及地址信息到標(biāo)準(zhǔn)元素的功能, 與在基于清洗過(guò)的數(shù)據(jù)工具相結(jié)合 來(lái)確認(rèn)街道名稱、 城市和郵政編碼。 特殊領(lǐng)域的清洗工具現(xiàn)有 IDCENTRIC、 PUREINTEGRAT、E QUIC
21、KADDRESS REUNION TRILLIUM等14。消除重復(fù)的一類工具根據(jù)匹配的要求探測(cè)和去除數(shù)據(jù)集中相似重復(fù)記錄。有些工具還允許用戶指定 匹配 的 規(guī)則 。 目前 已有的 用 于消除 重復(fù)記 錄的 清 洗 工 具 有 DATACLEANSER MERGE/PURGE LIBRARYMATCHIT ASTERMERGE?14。ETL工具 現(xiàn)有大量的工具支持?jǐn)?shù)據(jù)倉(cāng)庫(kù)的 ETL 處理,如 COPYMANAGER、DATASTAGE EXTRACT、 WERMART等。它們使用建立在 DBMS上的知識(shí)庫(kù)以統(tǒng)一的方式來(lái)管理所有關(guān)于數(shù)據(jù)源、目 標(biāo)模式、映射、教本程序等的原數(shù)據(jù)。模式和數(shù)據(jù)通過(guò)本地文
22、件和DBMS網(wǎng)關(guān)、ODBC等標(biāo)準(zhǔn)接口從操作型數(shù)據(jù)源收取數(shù)據(jù)。 這些工具提供規(guī)則語(yǔ)言和預(yù)定義的轉(zhuǎn)換函數(shù)庫(kù)來(lái)指定映射 步驟14。ETL工具很少內(nèi)置數(shù)據(jù)清洗的功能,但是允許用戶通過(guò)API指定清洗功能。通常這些工具沒(méi)有用數(shù)據(jù)分析來(lái)支持自動(dòng)探測(cè)錯(cuò)誤數(shù)據(jù)和數(shù)據(jù)不一致。 然而, 用戶可以通過(guò)維護(hù)原數(shù)據(jù)和運(yùn) 用集合函數(shù) (Sum、 Count、 Min、 Max 等)決定內(nèi)容的特征等辦法來(lái)完成這些工作。這些工具 提供的轉(zhuǎn)換工具庫(kù)包含了許多數(shù)據(jù)轉(zhuǎn)換和清洗所需的函數(shù),例如數(shù)據(jù)類轉(zhuǎn)變,字符串函數(shù), 數(shù)學(xué)、科學(xué)和統(tǒng)計(jì)的函數(shù)等。規(guī)則語(yǔ)言包含If-then和Case結(jié)構(gòu)來(lái)處理例外情況,例如,錯(cuò)誤拼寫、 縮寫,丟失或者含糊
23、的值和超出范圍的值 14。而在我國(guó), 對(duì)數(shù)據(jù)清洗的研究甚少, 還沒(méi)有一個(gè)成型的完善的 ETL工具應(yīng)用于數(shù)據(jù)倉(cāng)庫(kù)的系統(tǒng)中18。(3) 其他工具 其他與數(shù)據(jù)清洗相關(guān)的工具包括:基于引擎的工具(COPYMANAGER、 DECISIONBAS、EPOWERMART 、 DATASTAGE、 WAREHOUSEADMINISTRATOR、) 數(shù) 據(jù) 分 析 工 具 (MIGRATIONARCHITECT WIZRULE DATAMININGSUITE和業(yè)務(wù)流程再設(shè)計(jì)工具(INTEGRITY) 數(shù)據(jù)輪廓分析工具 (如MIGRATIONARCHITECT Cevoke Softwar等)、數(shù)據(jù)挖掘工具(如 WIZRULE 等)19 。4.3 數(shù)據(jù)清洗工具功能簡(jiǎn)介表 5 是對(duì)各種典型數(shù)據(jù)清洗工具功能的描述。5 數(shù)據(jù)清洗評(píng)估 數(shù)據(jù)清洗的評(píng)估實(shí)質(zhì)上是對(duì)清洗后的數(shù)據(jù)的質(zhì)量進(jìn)行評(píng)估, 而數(shù)據(jù)質(zhì)量的評(píng)估過(guò)程是一種通 過(guò)測(cè)量和改善數(shù)據(jù)綜合特征來(lái)優(yōu)化數(shù)據(jù)價(jià)值的過(guò)程。 數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)和方法研究的難點(diǎn)在 于數(shù)據(jù)質(zhì)量的含義、內(nèi)容、分類、分級(jí)、質(zhì)量的評(píng)價(jià)指標(biāo)等。文獻(xiàn)20和文獻(xiàn) 21提出了一些數(shù)據(jù)質(zhì)量的評(píng)估指標(biāo)。在進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估時(shí),要根據(jù)具體 的數(shù)據(jù)質(zhì)量評(píng)估需求對(duì)數(shù)據(jù)質(zhì)量評(píng)估指標(biāo)進(jìn)行相應(yīng)的取舍。但是, 數(shù)據(jù)質(zhì)量評(píng)估至少應(yīng)該包含以下兩方面的基本評(píng)估指標(biāo) 18 。(1)數(shù)據(jù)對(duì)用戶必須是可信
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 戒毒管理知識(shí)培訓(xùn)課件
- 貴州工程應(yīng)用技術(shù)學(xué)院《行政法原理》2023-2024學(xué)年第一學(xué)期期末試卷
- 創(chuàng)意繪畫(huà)教學(xué)講座
- 二零二五年度房產(chǎn)交易稅費(fèi)籌劃服務(wù)協(xié)議范本6篇
- Unit 4 Then and now PartB (說(shuō)課稿)-2023-2024學(xué)年人教PEP版英語(yǔ)六年級(jí)下冊(cè)
- 2025年幼兒園教師個(gè)人工作計(jì)劃表
- 2025年行政人事工作計(jì)劃范例
- 2025年幼兒園大班工作計(jì)劃材料
- 人教版七年級(jí)數(shù)學(xué)下冊(cè)期末考試試卷分析范文
- 2025年總務(wù)處工作計(jì)劃范文
- 2024-2025學(xué)年北京房山區(qū)初三(上)期末英語(yǔ)試卷
- 2024年三年級(jí)英語(yǔ)教學(xué)工作總結(jié)(修改)
- 咖啡廳店面轉(zhuǎn)讓協(xié)議書(shū)
- 期末(試題)-2024-2025學(xué)年人教PEP版英語(yǔ)六年級(jí)上冊(cè)
- 鮮奶購(gòu)銷合同模板
- 申論公務(wù)員考試試題與參考答案(2024年)
- DB4101T 9.1-2023 反恐怖防范管理規(guī)范 第1部分:通則
- 正面管教 讀書(shū)分享(課堂PPT)
- 教練技術(shù)CP理論P(yáng)PT課件
- 產(chǎn)品生命周期曲線(高清)
- 機(jī)械工程學(xué)報(bào)標(biāo)準(zhǔn)格式
評(píng)論
0/150
提交評(píng)論