2023學年完整公開課版數(shù)據(jù)清洗_第1頁
2023學年完整公開課版數(shù)據(jù)清洗_第2頁
2023學年完整公開課版數(shù)據(jù)清洗_第3頁
2023學年完整公開課版數(shù)據(jù)清洗_第4頁
2023學年完整公開課版數(shù)據(jù)清洗_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數(shù)據(jù)清洗了解數(shù)據(jù)清洗的知識一、基本概念

二、數(shù)據(jù)清洗的原理

三、數(shù)據(jù)清洗主要類型

四、數(shù)據(jù)清洗方法數(shù)據(jù)清洗(Datacleaning)–對數(shù)據(jù)進行重新審查和校驗的過程,目的在于刪除重復信息、糾正存在的錯誤,并提供數(shù)據(jù)一致性。數(shù)據(jù)清洗從名字上也看的出就是把“臟”的“洗掉”,指發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識別的錯誤的最后一道程序,包括檢查數(shù)據(jù)一致性,處理無效值和缺失值等。因為數(shù)據(jù)倉庫中的數(shù)據(jù)是面向某一主題的數(shù)據(jù)的集合,這些數(shù)據(jù)從多個業(yè)務系統(tǒng)中抽取而來而且包含歷史數(shù)據(jù),這樣就避免不了有的數(shù)據(jù)是錯誤數(shù)據(jù)、有的數(shù)據(jù)相互之間有沖突,這些錯誤的或有沖突的數(shù)據(jù)顯然是我們不想要的,稱為“臟數(shù)據(jù)”。我們要按照一定的規(guī)則把“臟數(shù)據(jù)”“洗掉”,這就是數(shù)據(jù)清洗。1、基本概念數(shù)據(jù)清洗原理:利用有關技術如數(shù)理統(tǒng)計、數(shù)據(jù)挖掘或預定義的清理規(guī)則將臟數(shù)據(jù)轉化為滿足數(shù)據(jù)質量要求的數(shù)據(jù)。2、數(shù)據(jù)清洗的原理殘缺數(shù)據(jù):這一類數(shù)據(jù)主要是一些應該有的信息缺失,如供應商的名稱、分公司的名稱、客戶的區(qū)域信息缺失、業(yè)務系統(tǒng)中主表與明細表不能匹配等。錯誤數(shù)據(jù):這一類錯誤產生的原因是業(yè)務系統(tǒng)不夠健全,在接收輸入后沒有進行判斷直接寫入后臺數(shù)據(jù)庫造成的,比如數(shù)值數(shù)據(jù)輸成全角數(shù)字字符、字符串數(shù)據(jù)后面有一個回車操作、日期格式不正確、日期越界等。重復數(shù)據(jù):對于這一類數(shù)據(jù)——特別是維表中會出現(xiàn)這種情況——將重復數(shù)據(jù)記錄的所有字段導出來,讓客戶確認并整理。3、數(shù)據(jù)清洗主要類型數(shù)據(jù)清理一般針對具體應用,因而難以歸納統(tǒng)一的方法和步驟,但是根據(jù)數(shù)據(jù)不同可以給出相應的數(shù)據(jù)清理方法。解決不完整數(shù)據(jù)(即值缺失)的方法錯誤值的檢測及解決方法重復記錄的檢測及消除方法不一致性(數(shù)據(jù)源內部及數(shù)據(jù)源之間)的檢測及解決方法4、數(shù)據(jù)清洗方法數(shù)據(jù)清洗從名字上也看的出就是把“臟”的“洗掉”,指發(fā)現(xiàn)并糾

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論