數(shù)據(jù)清洗超詳細(xì)概述_第1頁(yè)
數(shù)據(jù)清洗超詳細(xì)概述_第2頁(yè)
數(shù)據(jù)清洗超詳細(xì)概述_第3頁(yè)
數(shù)據(jù)清洗超詳細(xì)概述_第4頁(yè)
數(shù)據(jù)清洗超詳細(xì)概述_第5頁(yè)
已閱讀5頁(yè),還剩21頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)清洗超詳細(xì)概述簡(jiǎn)介

大數(shù)據(jù)時(shí)代,必須經(jīng)過(guò)清洗、分析、建模、可視化才能體現(xiàn)其價(jià)值,然后眾多數(shù)據(jù)中總是存在很多“臟數(shù)據(jù)”,也就是不完整、不規(guī)范、不準(zhǔn)確的數(shù)據(jù),數(shù)據(jù)清洗就是指將“臟數(shù)據(jù)”洗掉,包括檢查數(shù)據(jù)一致性,處理無(wú)效值和缺失值,從而提高數(shù)據(jù)質(zhì)量。

數(shù)據(jù)清洗(datacleaning)可以有多重表述方式,一般認(rèn)為,數(shù)據(jù)清洗的含義就是檢測(cè)和取出數(shù)據(jù)集中的噪聲數(shù)據(jù)和無(wú)關(guān)數(shù)據(jù),處理遺漏數(shù)據(jù),去除空白數(shù)據(jù)和知識(shí)背景下的白噪聲(1)一致性檢查根據(jù)每個(gè)變量的合理取值范圍和相互關(guān)系,檢查數(shù)據(jù)是否規(guī)范,是否超出正常范圍,邏輯上不符或相互矛盾的數(shù)據(jù)。比如年齡、體重、考試成績(jī)出現(xiàn)了負(fù)數(shù),都是超出了正常的范圍。SPAA、SAS、Excel等軟件都能根據(jù)定義的取值范圍進(jìn)行識(shí)別篩選。(2)無(wú)效值和缺失值的處理常用的處理方法有估算、整例刪除、變量刪除和成對(duì)刪除?估算,就是用某個(gè)變量的樣本均值、中位數(shù)或者眾數(shù)代替無(wú)效值和缺失值,這種辦法簡(jiǎn)單,但沒(méi)有充分考慮數(shù)據(jù)中已有的信息,誤差可能比較大,另一種辦法通過(guò)變量之間的相關(guān)分析或邏輯推論進(jìn)行估計(jì),比如某一產(chǎn)品的擁有情況可能和家庭收入有關(guān),可以根據(jù)調(diào)查對(duì)象的家庭收入推算擁有這一產(chǎn)品的可能性。?

整例刪除,剔除含有缺失值的樣本,但這種做飯可能會(huì)導(dǎo)致有效樣本量大大減少,無(wú)法利用已有的數(shù)據(jù)。因此,只適合關(guān)鍵變量確實(shí),或者含有無(wú)效值或缺失值的樣本比重很少的情況。?

變量刪除,如果某一個(gè)變量無(wú)效值和缺失值很多,而且經(jīng)過(guò)分析該變量對(duì)所研究問(wèn)題不重要,則可以考慮將該變量刪除?

成對(duì)刪除,用一個(gè)特殊嗎代替無(wú)效值和缺失值,同時(shí)保留數(shù)據(jù)集中的全部變量和樣本,但是計(jì)算時(shí)只采用有完整答案的樣本,因?yàn)椴煌姆治鲆蛏婕暗淖兞坎煌?,有效樣本量也不同。清洗原?/p>

利用有關(guān)技術(shù)如數(shù)據(jù)倉(cāng)庫(kù)、數(shù)理統(tǒng)計(jì)、數(shù)據(jù)挖掘或預(yù)定義的清理規(guī)則將臟數(shù)據(jù)轉(zhuǎn)化為滿足要求的數(shù)據(jù)1、預(yù)定義清理規(guī)則預(yù)定義清理規(guī)則一般利用大數(shù)據(jù)算法實(shí)現(xiàn),具體流程如下:2、數(shù)理統(tǒng)計(jì)清洗通過(guò)專門(mén)編寫(xiě)的應(yīng)用程序清洗數(shù)據(jù),這也是數(shù)據(jù)挖掘的模式,比如無(wú)監(jiān)督學(xué)習(xí)中的聚類,但是這種辦法不夠靈活,清理過(guò)程需要反復(fù)進(jìn)行3、數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)清洗可以手工實(shí)現(xiàn),但是效率很低數(shù)據(jù)清洗的流程1、數(shù)據(jù)清洗----預(yù)處理預(yù)處理階段有兩個(gè)工作(1)選擇數(shù)據(jù)處理工具

一般使用關(guān)系型數(shù)據(jù)庫(kù),單機(jī)可以使用MySQL。如果數(shù)據(jù)量很大,可以采用文本文件存儲(chǔ)+Python操作(2)查看數(shù)據(jù)的元數(shù)據(jù)和數(shù)據(jù)特征

元數(shù)據(jù)包括字段解釋、數(shù)據(jù)來(lái)源、代碼表等描述數(shù)據(jù)的信息,然后抽取一部分?jǐn)?shù)據(jù),使用人工查看,對(duì)數(shù)據(jù)本身有一定的直觀了解,方便后續(xù)處理2、數(shù)據(jù)清洗----缺失值清洗

缺失值是最常見(jiàn)的數(shù)據(jù)問(wèn)題,處理辦法有很多,一般采用下面的4個(gè)步驟(1)確定缺失值范圍

對(duì)每個(gè)字段計(jì)算缺失值比例,然后按照缺失比例和字段重要性制定不同策略(2)去除不需要的字段

直接刪除不需要的字段,但要備份。刪除操作最好不要直接操作于原始數(shù)據(jù),應(yīng)抽取部分?jǐn)?shù)據(jù)進(jìn)行模型構(gòu)建,查看模型效果,如果效果可以就推廣到所有數(shù)據(jù)(3)填充缺失值內(nèi)容

該步驟是最重要的一步,一般包含以下幾種方式用業(yè)務(wù)知識(shí)或者經(jīng)驗(yàn)填充,比如字段“我愛(ài)*”,可以通過(guò)經(jīng)驗(yàn)推斷“*”填充“你”用同一個(gè)字段指標(biāo)的計(jì)算結(jié)果填充,比如平均數(shù)、中位數(shù)等用不同指標(biāo)的計(jì)算結(jié)果進(jìn)行填充,比如通過(guò)身份證號(hào)推斷年齡,通過(guò)收件人郵政編碼推斷大體位置等(4)重新獲取數(shù)據(jù)3、數(shù)據(jù)清洗----格式與內(nèi)容清洗(1)時(shí)間日期、數(shù)值、全半角等顯示格式不一致(2)內(nèi)容中有不該存在的字符

比如身份證號(hào)中出現(xiàn)了字母,姓名中出現(xiàn)數(shù)字等。(3)內(nèi)容與該字段內(nèi)容不符

如姓名寫(xiě)成了性別,身份證號(hào)寫(xiě)成了手機(jī)號(hào)等4、數(shù)據(jù)清洗----邏輯錯(cuò)誤清洗(1)數(shù)據(jù)去重(2)去掉不合理的數(shù)值

比如年齡為200歲,或者-20歲(3)去掉不可靠的字段

比如身份證號(hào)出生年月為20000101,年齡填了80歲5、數(shù)據(jù)清洗----關(guān)聯(lián)性驗(yàn)證

如果數(shù)據(jù)有多個(gè)來(lái)源,可以進(jìn)行關(guān)聯(lián)性驗(yàn)證,該過(guò)程經(jīng)常用于多數(shù)據(jù)源合并的過(guò)程,通過(guò)驗(yàn)證數(shù)據(jù)之間的關(guān)聯(lián)性來(lái)選擇準(zhǔn)確的特征屬性。比如商品銷(xiāo)售有線下記錄,也有電話客服記錄,兩者通過(guò)姓名和手機(jī)號(hào)關(guān)聯(lián),看一下同一個(gè)人線下登記的商品信息和線上問(wèn)卷調(diào)查出來(lái)的信息是不是一致的數(shù)據(jù)清洗的工具1、OpenRefine

是一種新的具有數(shù)據(jù)畫(huà)像、清洗、轉(zhuǎn)換等功能的工具,可以觀察和操作數(shù)據(jù),類似于Excel表格處理軟件,但是工作方式更像數(shù)據(jù)庫(kù)。

特點(diǎn):在數(shù)據(jù)導(dǎo)入的時(shí)候可以根據(jù)數(shù)據(jù)類型將數(shù)據(jù)轉(zhuǎn)換為對(duì)應(yīng)的數(shù)值和日期型;相似單元格聚類,可以根據(jù)單元格字符串的相似性進(jìn)行聚類,而且還支持關(guān)鍵詞碰撞和近鄰匹配算法。2、DataCleaner

簡(jiǎn)單、易用的工具,可以分析、比較、驗(yàn)證和監(jiān)控?cái)?shù)據(jù),能夠?qū)⒘鑱y的半結(jié)構(gòu)化數(shù)據(jù)集轉(zhuǎn)換為可視化,并且讀取干凈可讀的數(shù)據(jù)集,另外還提供數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)管理服務(wù)

特點(diǎn):可以訪問(wèn)不同類型的數(shù)據(jù)存儲(chǔ),如Oracle、MySQL等,可以作為引擎來(lái)處理、轉(zhuǎn)換和統(tǒng)一來(lái)自多個(gè)數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)。3、Kettle

國(guó)外開(kāi)源的ETL工具,Java編寫(xiě),可以在Windows、Linux等系統(tǒng)上運(yùn)行,支持圖形化的GUI設(shè)計(jì)

特點(diǎn):開(kāi)源免費(fèi),可維護(hù)性好,便于調(diào)試,開(kāi)發(fā)簡(jiǎn)單4、Beeload

特點(diǎn):支持大部分主流數(shù)據(jù)接口,用圖形操作界面輔助用戶完成數(shù)據(jù)抽取、轉(zhuǎn)換、裝載等規(guī)則的設(shè)計(jì),并且支持抽取數(shù)據(jù)的切分、過(guò)濾操作實(shí)戰(zhàn)一、下載安裝1、下載OpenRefine官網(wǎng):OpenR2、安裝OpenRefine解壓后雙擊運(yùn)行openrefine.exe。如果電腦上沒(méi)有Java環(huán)境,會(huì)自動(dòng)跳轉(zhuǎn)到瀏覽器下載Java界面點(diǎn)擊同意并開(kāi)始免費(fèi)下載,然后安裝Java到這兒環(huán)境配置好了,重新雙擊openrefine.exe運(yùn)行,會(huì)啟動(dòng)程序并自動(dòng)跳轉(zhuǎn)到瀏覽器OpenRefine主頁(yè)面二、運(yùn)行OpenRefine對(duì)數(shù)據(jù)查看、清洗、導(dǎo)出選擇本地存儲(chǔ)文件,以水利局輸沙率文件作為今天的測(cè)試數(shù)據(jù)吧,內(nèi)容如圖所示1、啟動(dòng)OpenRefine,在瀏覽器中打開(kāi)運(yùn)行界面2、單擊CreateProject中的選擇文件按鈕,然后選擇桌面上的“實(shí)測(cè)懸移質(zhì)輸沙率成果表_利津(三)40108400_2019_9.csv”文件,然后點(diǎn)擊next按鈕,可以查看已經(jīng)導(dǎo)入的文件內(nèi)容了3、點(diǎn)擊右上角的CreateProject,進(jìn)入到數(shù)據(jù)記錄的顯示界面,如圖所示

4、選擇菜單欄中的下拉箭頭,可以對(duì)每一列數(shù)據(jù)進(jìn)行清洗和轉(zhuǎn)換,如圖所示5、如果要對(duì)數(shù)據(jù)進(jìn)行過(guò)濾,可以選擇Facet下的Textfacet命令,如圖所示6、在左邊區(qū)域Facet/Filter下可以看到內(nèi)容分組的結(jié)果,有助于用戶對(duì)數(shù)據(jù)進(jìn)行分析7、如果要對(duì)顯示的數(shù)據(jù)繼續(xù)查詢,例如,想要查看2020年的某一條數(shù)據(jù),可以選擇這一組,就過(guò)濾了整個(gè)數(shù)據(jù)表,在屏幕上只顯示這一條數(shù)據(jù)8、如果要對(duì)數(shù)據(jù)進(jìn)行編輯,可以單擊每一行右側(cè)的Edit按鈕,對(duì)數(shù)據(jù)進(jìn)行修改,如下圖將日期12改成9,修改完成后單擊Apply按鈕進(jìn)行保存,如下圖9、導(dǎo)出數(shù)據(jù),選擇Export菜單中的Templating選項(xiàng),如下圖所示:10、在網(wǎng)頁(yè)中查看生成的數(shù)據(jù),如下圖11、單擊Export按鈕,即可輸出數(shù)據(jù)保存成.txt格式的文件,如下圖三、Excel有效性分析1.打開(kāi)Excel,將txt中的內(nèi)容,復(fù)制粘貼到Excel第一列中,如下圖2.選中第一列數(shù)據(jù),選擇“數(shù)據(jù)”菜單,找到“數(shù)據(jù)驗(yàn)證”選項(xiàng),在彈出的“數(shù)據(jù)驗(yàn)證”對(duì)話框中分別設(shè)置“驗(yàn)證條件”和“最大值”和“最小值”3.設(shè)置完成后

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論