大數(shù)據(jù)爬取、清洗與可視化教程課件第八章數(shù)據(jù)清洗

上傳人：r*** IP屬地：北京上傳時間：2024-08-28 格式：PPTX 頁數(shù)：35 大?。?80.45KB 積分：1.2 舉報 版權(quán)申訴

大數(shù)據(jù)爬取、清洗與可視化教程課件第八章數(shù)據(jù)清洗_第2頁

大數(shù)據(jù)爬取、清洗與可視化教程課件第八章數(shù)據(jù)清洗_第3頁

大數(shù)據(jù)爬取、清洗與可視化教程課件第八章數(shù)據(jù)清洗_第4頁

大數(shù)據(jù)爬取、清洗與可視化教程課件第八章數(shù)據(jù)清洗_第5頁

已閱讀5頁，還剩30頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

第8章

數(shù)據(jù)清洗

目錄8.1數(shù)據(jù)清洗概述8.1.1數(shù)據(jù)清洗原理8.1.2主要數(shù)據(jù)類型8.1.3常用工具8.2數(shù)據(jù)清洗方法8.2.1重復(fù)數(shù)據(jù)處理8.2.2缺失數(shù)據(jù)處理8.2.3異常數(shù)據(jù)處理8.2.4格式內(nèi)容清洗8.2.5邏輯錯誤清洗

8.3

數(shù)據(jù)規(guī)整8.3.1字段拆分8.3.2數(shù)據(jù)分組8.3.3數(shù)據(jù)聚合8.3.4數(shù)據(jù)分割8.3.5數(shù)據(jù)合并第8章

數(shù)據(jù)清洗

在數(shù)據(jù)開發(fā)過程中，我們采集到的海量數(shù)據(jù)一般是不完整的、有噪聲的且是不一致的。如果直接將這些雜亂的數(shù)據(jù)應(yīng)用到數(shù)據(jù)挖掘和可視化之中，可能會導(dǎo)致大量的誤差出現(xiàn)，甚至是決策的干擾或者錯誤，因此必須要先經(jīng)過數(shù)據(jù)清洗過程，過濾一些錯誤信息。

所謂數(shù)據(jù)清洗，就是試圖檢測和去除數(shù)據(jù)集合中的噪聲數(shù)據(jù)和無關(guān)數(shù)據(jù)，處理重復(fù)數(shù)據(jù)、彌補缺失數(shù)據(jù)和知識背景中的白噪聲的過程，從而達到提升數(shù)據(jù)質(zhì)量的目的。數(shù)據(jù)清洗在整個數(shù)據(jù)分析過程中是不可或缺的一個環(huán)節(jié)，在實際環(huán)境下，數(shù)據(jù)清洗的時間和復(fù)雜度甚至高于數(shù)據(jù)爬取的過程。8.1數(shù)據(jù)清洗概述

數(shù)據(jù)清洗（DataCleaning）是對數(shù)據(jù)進行重新審查和校驗的過程，其目的在于刪除重復(fù)信息、糾正存在的錯誤，并提供數(shù)據(jù)一致性。

數(shù)據(jù)清洗工作是數(shù)據(jù)分析過程中的關(guān)鍵步驟，其結(jié)果關(guān)系到模型的最終運行效果和最終結(jié)論。而這一切操作都源自數(shù)據(jù)清洗的對象——數(shù)據(jù)的質(zhì)量。部分學(xué)者認為數(shù)據(jù)質(zhì)量問題應(yīng)該在數(shù)據(jù)產(chǎn)生的源頭解決，也就是說，在爬取時應(yīng)盡量避免錯誤數(shù)據(jù)的產(chǎn)生。然而在實際環(huán)境下，由于各種不可避免的因素，這一目標很難達成。

基于此，數(shù)據(jù)清洗這一步驟是必然存在的，它可能會出現(xiàn)在數(shù)據(jù)加載到數(shù)據(jù)倉庫之前的環(huán)節(jié)，也有可能在數(shù)據(jù)分析之后再進行，這完全取決于應(yīng)用環(huán)節(jié)的需求，但是無論如何，這一步驟是不可能跳過的。在特定的場景下，數(shù)據(jù)清洗過程的操作具備一定的重復(fù)性，因此開發(fā)人員一般會采用可復(fù)用的方式循環(huán)執(zhí)行此過程。8.1數(shù)據(jù)清洗概述8.1.1數(shù)據(jù)清洗原理

因為數(shù)據(jù)倉庫中的數(shù)據(jù)是面向某個主題的數(shù)據(jù)的集合，這些數(shù)據(jù)從多個業(yè)務(wù)系統(tǒng)中爬取而來且包含歷史數(shù)據(jù)，這樣就避免不了有的數(shù)據(jù)是錯誤數(shù)據(jù)、有的數(shù)據(jù)相互之間有沖突，這些錯誤的或有沖突的數(shù)據(jù)顯然不是我們分析的對象，它們被稱為“臟數(shù)據(jù)”。

數(shù)據(jù)清洗是利用有關(guān)技術(shù)，如數(shù)理統(tǒng)計、數(shù)據(jù)挖掘或預(yù)定義的清理規(guī)則，將臟數(shù)據(jù)轉(zhuǎn)化為滿足數(shù)據(jù)質(zhì)量要求的數(shù)據(jù)。本質(zhì)上，數(shù)據(jù)清洗就是把“臟”的數(shù)據(jù)“洗掉”，它是發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識別的錯誤的最后一道程序，包括檢查數(shù)據(jù)一致性、處理無效值和缺失值等。8.1數(shù)據(jù)清洗概述8.1.2主要數(shù)據(jù)類型

不符合要求的數(shù)據(jù)主要有不完整的數(shù)據(jù)（缺失數(shù)據(jù)）、異常數(shù)據(jù)和重復(fù)數(shù)據(jù)三大類。1．缺失數(shù)據(jù)

這一類數(shù)據(jù)主要是一些必備信息的缺失，如供應(yīng)商的名稱、公司的名稱、客戶的區(qū)域信息缺失，業(yè)務(wù)系統(tǒng)中主表與明細表不匹配等。這一類數(shù)據(jù)過濾出來后，按缺失的內(nèi)容分別寫入不同Excel文件向客戶提交，并要求在規(guī)定的時間內(nèi)補全，補全后才寫入數(shù)據(jù)倉庫。8.1數(shù)據(jù)清洗概述8.1.2主要數(shù)據(jù)類型2．異常數(shù)據(jù)

異常數(shù)據(jù)產(chǎn)生的原因是業(yè)務(wù)系統(tǒng)不夠健全，在接收輸入后沒有進行判斷就直接寫入后臺數(shù)據(jù)庫造成的，比如數(shù)值型數(shù)據(jù)輸入成全角數(shù)字字符、字符串?dāng)?shù)據(jù)后面有一個回車操作、日期格式不正確、日期越界等。這一類數(shù)據(jù)也要進行分類，對于類似于全角字符、數(shù)據(jù)前后有不可見字符等問題，只能通過編碼方式找出來，然后要求客戶在業(yè)務(wù)系統(tǒng)修正之后爬取數(shù)據(jù)。日期格式不正確或者日期越界將導(dǎo)致系統(tǒng)運行失敗，這一類錯誤同樣需要修正之后再進行爬取。3．重復(fù)數(shù)據(jù)

對于這一類數(shù)據(jù)，特別是多個維度的表中會出現(xiàn)這種情況，將重復(fù)數(shù)據(jù)記錄的所有字段導(dǎo)出來，讓客戶確認并整理。8.1數(shù)據(jù)清洗概述8.1.2主要數(shù)據(jù)類型

數(shù)據(jù)清洗是一個反復(fù)的過程，不可能在幾天內(nèi)完成。對于過濾掉的數(shù)據(jù)，要寫入文本文件或者將過濾數(shù)據(jù)寫入數(shù)據(jù)表。在開發(fā)初期，要頻繁地進行溝通，不斷修正錯誤和驗證數(shù)據(jù)，以提高數(shù)據(jù)清洗的效率。需要注意的是，在數(shù)據(jù)清洗時，不要將有用的數(shù)據(jù)過濾掉，對于每個過濾規(guī)則要認真進行驗證

并確認。

數(shù)據(jù)清洗的流程如圖8-1所示。第一步就是獲取各種形式的數(shù)據(jù)，包含臟數(shù)據(jù)；第二步是確定數(shù)據(jù)清洗的策略和方法，這部分由實際環(huán)境的需求所決定，同時會結(jié)合數(shù)理統(tǒng)計和數(shù)據(jù)挖掘等相關(guān)技術(shù)，實現(xiàn)缺失值的清洗，去除不需要的字段，填充缺失內(nèi)容，修正錯誤的內(nèi)容；第三步即重新爬取數(shù)據(jù)，此時的數(shù)據(jù)即可滿足實際環(huán)境下的基本需求。8.1數(shù)據(jù)清洗概述

圖8-1數(shù)據(jù)清洗的流程8.1數(shù)據(jù)清洗概述8.1.3常用工具

在數(shù)據(jù)清洗和分析過程中，經(jīng)常使用基于Python的第三方工具輔助完成，這些工具使用簡單，效率較高。常用的數(shù)據(jù)清洗和分析工具有NumPy、Pandas和Scipy等，本節(jié)主要針對NumPy和Scipy進行簡單介紹。1．NumPyNumPy（NumericalPython）是Python的一種開源的數(shù)值計算擴展工具。它可用來存儲和處理大型矩陣，比Python自身的嵌套列表結(jié)構(gòu)高效得多，支持大量的維度數(shù)組與矩陣運算。此外，針對數(shù)組運算提供大量的數(shù)學(xué)函數(shù)庫。8.1數(shù)據(jù)清洗概述8.1.3常用工具NumPy提供了許多高級的數(shù)值編程工具，常用于科學(xué)計算中，主要包括：

一個強大的N維數(shù)組對象（Array）；

成熟的函數(shù)庫；

用于整合C/C++和FORTRAN代碼的工具包；

實用的線性代數(shù)、傅里葉變換和隨機數(shù)生成函數(shù)。NumPy通常與Scipy（ScientificPython）和Matplotlib（繪圖庫）一起使用，這種組合廣泛用于替代MATLAB。NumPy現(xiàn)已被視為一種更加現(xiàn)代和完整的編程工具。8.2數(shù)據(jù)清洗方法

本節(jié)主要針對數(shù)據(jù)源中的重復(fù)數(shù)據(jù)、缺失數(shù)據(jù)和異常數(shù)據(jù)進行清洗，同時涉及部分字段拆分問題。需要說明的是，在爬取的數(shù)據(jù)中，一般不會同時存在以上3種類型的數(shù)據(jù)，常見的是兩種甚至一種類型的數(shù)據(jù)。讀者在實際操作過程中，應(yīng)根據(jù)開發(fā)需求，有針對性地選擇恰當(dāng)?shù)膶崿F(xiàn)方案。8.2.1重復(fù)數(shù)據(jù)處理

在數(shù)據(jù)庫或者數(shù)據(jù)倉庫中，理論上一個實體應(yīng)該只有一條與之對應(yīng)的記錄。但很多原因可能導(dǎo)致集成后的數(shù)據(jù)出現(xiàn)同一實體對應(yīng)多條記錄的情況，例如數(shù)據(jù)錄入出錯、數(shù)據(jù)不完整、數(shù)據(jù)縮寫等。在數(shù)據(jù)清洗過程中，重復(fù)記錄的檢測與清除是一項非常重要的操作。

8.2數(shù)據(jù)清洗方法8.2.1重復(fù)數(shù)據(jù)處理1．重復(fù)數(shù)據(jù)的分類

重復(fù)數(shù)據(jù)主要分為兩類。

（1）完全重復(fù)數(shù)據(jù)

完全重復(fù)數(shù)據(jù)即兩個數(shù)據(jù)行的內(nèi)容完全一致，這類數(shù)據(jù)很容易辨別。

針對完全重復(fù)數(shù)據(jù)的檢測，一個最簡單的方式就是對于數(shù)據(jù)集進行排序，然后通過比較相鄰的記錄并進行合并操作，或者直接采用第三方包中提供的方法去除重復(fù)項。

（2）不完全重復(fù)數(shù)據(jù)

不完全重復(fù)數(shù)據(jù)是指客觀上表示現(xiàn)實世界中的同一實體，但是由于表達方式不同，或者拼寫錯誤等原因，導(dǎo)致數(shù)據(jù)存在多條重復(fù)信息。8.2數(shù)據(jù)清洗方法8.2.1重復(fù)數(shù)據(jù)處理

對于不完全重復(fù)數(shù)據(jù)，檢查可能出現(xiàn)的重復(fù)記錄需要有充足的計算能力，因為檢查一條記錄就需要遍歷整個數(shù)據(jù)集。也就是說，對這個數(shù)據(jù)集的檢查需要所有的記錄之間實現(xiàn)兩兩匹配，其計算的復(fù)雜度為O(n2)。對于可能重復(fù)的記錄檢測需要使用模糊匹配的邏輯，也可以通過計算字符串的相似度，模糊匹配出疑似的重復(fù)數(shù)據(jù)，然后結(jié)合其他的參考字段進行查重操作。

在數(shù)據(jù)清洗過程中，重復(fù)值處理操作并非只執(zhí)行一次。一般在數(shù)據(jù)清洗的第一步執(zhí)行第一次的重復(fù)值去除操作，此時可以簡化后續(xù)的操作，減少數(shù)據(jù)量，但是在后續(xù)清洗過程中，可能會產(chǎn)生新的重復(fù)值，因此在后續(xù)的數(shù)據(jù)清洗環(huán)節(jié)，仍需要重復(fù)執(zhí)行此操作。具體執(zhí)行階段的設(shè)計和執(zhí)行周期由目標任務(wù)決定。8.2數(shù)據(jù)清洗方法8.2.1重復(fù)數(shù)據(jù)處理2．去除完全重復(fù)數(shù)據(jù)

在Pandas中提供了重復(fù)數(shù)據(jù)的判斷和刪除方法：duplicated()和drop_duplicates()。

（1）duplicated()duplicated()用于指定列數(shù)據(jù)重復(fù)項的判斷，返回的內(nèi)容是：指定列重復(fù)行。

（2）drop_duplicates()drop_duplicates()用于刪除指定列重復(fù)項的數(shù)據(jù)，返回的內(nèi)容是：新產(chǎn)生的DataFrame。

8.2數(shù)據(jù)清洗方法8.2.2缺失數(shù)據(jù)處理

記錄中的某個或者某些屬性的值是不完整的，這些值被稱為缺失值。缺失值的產(chǎn)生原因多種多樣，主要分為機械原因和人為原因。

機械原因

由于機械原因?qū)е碌臄?shù)據(jù)收集或保存的失敗而造成的數(shù)據(jù)缺失，比如數(shù)據(jù)存儲的失敗、存儲器損壞、機械故障導(dǎo)致某段時間數(shù)據(jù)未能收集等。

人為原因

人為原因是由于人的主觀失誤、歷史局限或有意隱瞞造成的數(shù)據(jù)缺失，比如被訪人拒絕透露相關(guān)問題的答案或者回答的問題是無效的、數(shù)據(jù)錄入人員漏錄入數(shù)據(jù)等。

對于缺失值的處理，主要分為刪除法和插補法。8.2數(shù)據(jù)清洗方法8.2.2缺失數(shù)據(jù)處理

記錄中的某個或者某些屬性的值是不完整的，這些值被稱為缺失值。缺失值的產(chǎn)生原因多種多樣，主要分為機械原因和人為原因。

機械原因

人為原因

對于缺失值的處理，主要分為刪除法和插補法。8.2數(shù)據(jù)清洗方法8.2.2缺失數(shù)據(jù)處理1．刪除法

（1）識別缺失值

在Pandas中提供了識別缺失值的方法：isnull()，以及識別非缺失值的方法：notnull()。

基本語法如下：isnull()：識別缺失值notnull()：識別非缺失值

這兩個方法是元素級別的判斷，即將對應(yīng)的所有元素的位置都列出來，元素為空或者NA就顯示True，否則就是False。直接返回bool值類型的數(shù)據(jù)矩陣。

此外，還可以結(jié)合其他的函數(shù)，輔助缺失值的判斷。8.2數(shù)據(jù)清洗方法8.2.2缺失數(shù)據(jù)處理（2）刪除缺失值

刪除法是指將缺失值的特征或者記錄刪除。刪除法分為刪除觀測記錄和刪除特征兩種，它屬于通過減少樣本量來換取信息完整度的一種方法，是最簡單的缺失值處理方法。Pandas中提供了簡單的刪除缺失值的方法：dropna()，通過參數(shù)控制，此方法既可以刪除觀測記錄，也可以刪除特征。2．插補法

插補法與刪除法不同，它使用建議的數(shù)據(jù)替換缺失值，從而保留當(dāng)前記錄中的其他維度數(shù)據(jù)。表8-2列出了常見的插補方法。8.2數(shù)據(jù)清洗方法8.2.2缺失數(shù)據(jù)處理

表8-2常見的插補方法

下面介紹替換法和插值法。（1）替換法

替換法是指用一個特定的值替換缺失值。由于數(shù)據(jù)類型不同，處理方法也不盡相同。當(dāng)缺失值為數(shù)值型時，可以利用固定的數(shù)據(jù)或者統(tǒng)計量來替代缺失值；當(dāng)缺失值的類型為字符型時，則可以選擇使用特定的字符替代缺失值。插補方法具體操作均值/中位數(shù)/眾數(shù)插補

根據(jù)屬性值的類型，用該屬性取值的平均數(shù)/中位數(shù)/眾數(shù)進行插補替換法

將缺失的屬性值用一個特定的值替換最近鄰插補

在記錄中找到與缺失樣本最接近的樣本的該屬性值插補回歸方法

對帶有缺失值的變量，根據(jù)已有數(shù)據(jù)和與其有關(guān)的其他變量（因變量）的數(shù)據(jù)建立擬合模型來預(yù)測缺失的屬性值插值法利用已知點擬合的插值函數(shù)f(x)，未知值由對應(yīng)點xi求出的函數(shù)值f(xi)近似代替8.2數(shù)據(jù)清洗方法8.2.2缺失數(shù)據(jù)處理

（2）插值法

替換法使用的難度較低，但是統(tǒng)一替換相同的數(shù)據(jù)，會影響數(shù)據(jù)的標準差，導(dǎo)致信息量的變動。在面對數(shù)值類型的缺失問題時，還可以使用插值法。

常用的插值法有線性插值、多項式插值和樣條插值等。

線性插值是一種較為簡單的插值方法，它針對已知的值求出線性方程，通過求解線性方程式得到缺失值。

多項式插值利用已知的值擬合一個多項式，使得現(xiàn)有的數(shù)據(jù)滿足這個多項式，再利用這個多項式求解缺失值。常見的多項式插值有拉格朗日插值和牛頓插值等。

樣條插值是以可變樣條來擬合一條經(jīng)過一系列點的光滑曲線的插值方法。插值的樣條由一些多項式組成，每個多項式都由相鄰兩個數(shù)據(jù)點決定，這樣可以保證兩個相鄰多項式及其導(dǎo)數(shù)在銜接處是連續(xù)的。8.2數(shù)據(jù)清洗方法8.2.3異常數(shù)據(jù)處理

異常值是指數(shù)據(jù)中個別數(shù)值明顯偏離其余的數(shù)值，有時也稱為離群點。檢測異常值就是檢驗數(shù)據(jù)中是否有輸入錯誤及是否含有不合理的數(shù)據(jù)。如果計算分析過程中有大量異常值的存在，而且算法對于異常值敏感，那么數(shù)據(jù)分析的結(jié)果將產(chǎn)生偏差，甚至出現(xiàn)錯誤。

另一方面，異常值在某些場景下反而是非常重要的，例如疾病預(yù)測。通常健康人的身體指標在某些維度上是相似的，如果一個人的身體指標出現(xiàn)了異常，那么他的身體在某些方面肯定發(fā)生了改變，當(dāng)然這種改變并不一定是由疾病引起（通常被稱為噪聲點）的，但異常的發(fā)生和檢測是疾病預(yù)測一個重要起始點。相似的操作也可以應(yīng)用到信用欺詐、網(wǎng)絡(luò)攻擊等場景中。8.2數(shù)據(jù)清洗方法8.2.3異常數(shù)據(jù)處理

針對數(shù)值類型，一般異常值的檢測方法有基于統(tǒng)計的方法、基于聚類的方法及專門檢測異常值的方法等。

基于統(tǒng)計的方法一般用于連續(xù)型的數(shù)據(jù)，可以通過簡單的統(tǒng)計量或者使用散點圖觀察異常值的存在。針對簡單的數(shù)據(jù)計算，可以使用describe()方法對統(tǒng)計字段進行描述性分析。而對更專業(yè)的數(shù)據(jù)計算，可以使用

原則實現(xiàn)數(shù)據(jù)分析。

表8-4常見的異常值處理方法異常值處理方法具體描述刪除含有異常值的記錄直接將含有異常值的記錄刪除按照缺失值處理將異常值視為缺失值，利用缺失值處理的方法進行處理平均值修正用前后兩個觀測值的平均值修正該異常值不處理直接在具有異常值的數(shù)據(jù)集上進行數(shù)據(jù)挖掘8.2數(shù)據(jù)清洗方法8.2.4格式內(nèi)容清洗

如果數(shù)據(jù)由系統(tǒng)日志而來，那么通常在格式內(nèi)容方面會與元數(shù)據(jù)的描述一致。而如果數(shù)據(jù)由人工收集或用戶填寫而來，則有可能在格式內(nèi)容上存在一些問題。簡單來說，格式內(nèi)容問題有以下幾類。1．時間、日期、數(shù)值、全半角等顯示格式不一致

這種問題通常與輸入有關(guān)，在整合多來源的數(shù)據(jù)時也有可能遇到此類問題，將其處理成某種一致的格式即可。2．內(nèi)容中有不該存在的字符

某些內(nèi)容可能只包括一部分字符，比如身份證號是數(shù)字或數(shù)字+字母，中國人姓名是漢字，而可能出現(xiàn)姓名中存在數(shù)字、身份證號中出現(xiàn)漢字等問題。這種情況下，需要以半自動校驗半人工方式來找出可能存在的問題，并去除不需要的字符。8.2數(shù)據(jù)清洗方法8.2.4格式內(nèi)容清洗3．內(nèi)容與該字段應(yīng)有內(nèi)容不符

這種問題很常見，比如姓名錯寫為性別、身份證號錯寫為手機號等。但該問題的特殊性在于：并不能以簡單的刪除來處理。因為這有可能是人工填寫錯誤，也有可能是前端沒有校驗，還有可能是導(dǎo)入數(shù)據(jù)時部分或全部存在列沒有對齊等，因此要詳細識別問題產(chǎn)生的原因。

格式內(nèi)容問題一般是細節(jié)的問題，但很多分析失誤都在此處出現(xiàn)，比如統(tǒng)計值不全（數(shù)字中添加字母等）、模型輸出失敗或效果不好（數(shù)據(jù)列混淆等）。8.2.5邏輯錯誤清洗8.2數(shù)據(jù)清洗方法8.2.5邏輯錯誤清洗

邏輯錯誤清洗工作是去掉一些使用簡單邏輯推理就可以直接發(fā)現(xiàn)問題的數(shù)據(jù)，防止數(shù)據(jù)分析結(jié)果走偏。邏輯錯誤清洗主要包含以下內(nèi)容。1．去除不合理值

不合理的數(shù)值類似于異常值，可以通過簡單的統(tǒng)計量或者使用散點圖觀察到它們的存在。

除了算術(shù)統(tǒng)計，還可以通過人工的方式篩選出這些不合理值。2．修正矛盾內(nèi)容

有些字段是可以互相驗證的，例如，我們知道身份證號的中間幾位是個人的出生年月，在填寫年齡時，如果兩者嚴重不符，則被認為是矛盾的數(shù)據(jù)。在這種情況下，需要根據(jù)字段的數(shù)據(jù)來源，來判定哪個字段提供的信息更為可靠，去除或重構(gòu)不可靠的字段。

8.3數(shù)據(jù)規(guī)整8.3數(shù)據(jù)規(guī)整

現(xiàn)有數(shù)據(jù)往往是不同時期采集的，人工操作多，數(shù)據(jù)輸入操作不嚴謹，有時會存在以下質(zhì)量問題：數(shù)據(jù)編碼問題、數(shù)據(jù)分層問題、數(shù)據(jù)特征及描述問題。

數(shù)據(jù)規(guī)整是指，根據(jù)標準規(guī)范，對采集的原始數(shù)據(jù)進行層次劃分、編碼賦值、格式轉(zhuǎn)換等處理，以達到入庫或更新的要求。

針對不同的數(shù)據(jù)來源和種類，數(shù)據(jù)規(guī)整的方法與思路不同。一般在完成數(shù)據(jù)清洗的基礎(chǔ)上，再進行數(shù)據(jù)規(guī)整的操作。8.3.1字段拆分

如果數(shù)據(jù)中有包含多個信息單元的字符串字段，在將該字段中的值拆分為多個單獨的字段的情況下，數(shù)據(jù)分析將更為輕松。在Python中，可以自定義拆分選項，基于指定的分隔符來分隔值。8.3數(shù)據(jù)規(guī)整8.3.2數(shù)據(jù)分組

對于通過爬蟲獲得的數(shù)據(jù)，雖然經(jīng)過數(shù)據(jù)清洗、字段拆分等手段進行了初步處理，但由于數(shù)據(jù)龐雜，還不能直接進入對數(shù)據(jù)的分析階段。在此之前，有必要對數(shù)據(jù)進行分組處理，以反映數(shù)據(jù)分布的特征及規(guī)律。

數(shù)據(jù)分組是根據(jù)統(tǒng)計研究的需要，將原始數(shù)據(jù)按照某種標準劃分成不同的組別，分組后的數(shù)據(jù)稱為分組數(shù)據(jù)。數(shù)據(jù)分組的主要目的是觀察數(shù)據(jù)的分布特征。數(shù)據(jù)分組后，再計算出各組中數(shù)據(jù)出現(xiàn)的頻數(shù)，就形成了一張頻數(shù)分布表。8.3數(shù)據(jù)規(guī)整8.3.2數(shù)據(jù)分組

對于非數(shù)值型數(shù)據(jù)，依據(jù)屬性的不同將其劃分為若干組；對于數(shù)值型數(shù)據(jù)，依據(jù)數(shù)值的不同將數(shù)據(jù)劃分為若干組。分組后，要使組內(nèi)的差距盡可能小，而組與組之間則有明顯的差異，從而使大量無序、混沌的數(shù)據(jù)變?yōu)橛行?、層次分明、顯示總體數(shù)量特征的信息。

數(shù)據(jù)分組應(yīng)遵循兩個基本原則。

（1）窮盡性原則

窮盡性原則要求每一項數(shù)據(jù)都能劃歸到某個組中，不會產(chǎn)生“遺漏”現(xiàn)象。

（2）互斥性原則

互斥性原則要求將數(shù)據(jù)分組后，各個組的范圍應(yīng)互不相容、互為排斥。即每個數(shù)據(jù)在特定的分組標志下只能歸屬到某個組，而不能同時或可能同時歸屬到某幾個組。8.3數(shù)據(jù)規(guī)整8.3.3數(shù)據(jù)聚合

數(shù)據(jù)聚合是指任何能夠從數(shù)組產(chǎn)生標量值的數(shù)據(jù)轉(zhuǎn)換過程，可以簡單地將其理解為統(tǒng)計計算，如mean()、sum()、max()等。數(shù)據(jù)聚合本身與分組并沒有直接關(guān)系，在任何一列（行）或全部列（行）上都可以進行。當(dāng)這種運算被應(yīng)用在分組數(shù)據(jù)上時，結(jié)果可能會變得更有意義?；诖?，經(jīng)常把分組和聚合操作組合在一起，執(zhí)行一個完整的功能。

針對DataFrameGroupby對象，可以應(yīng)用的聚合運算方法有以下幾種。1．使用內(nèi)置的方法

常見的內(nèi)置聚合運算方法如表8-5所示。這些方法為查看每一組數(shù)據(jù)的整體情況和分布狀態(tài)提供了良好的支持。8.3數(shù)據(jù)規(guī)整8.3.3數(shù)據(jù)聚合

表8-5常見的內(nèi)置聚合運算方法聚合方法具體描述count分組數(shù)目，非NA值head前n個值sum求和mean非NA值平均數(shù)聚合方法具體描述median非NA值的算術(shù)中位數(shù)std、var分母為n-1的標準差和方差min、max非NA值最小值、最大值prod非NA值的積first、last第一個和最后一個非NA值8.3數(shù)據(jù)規(guī)整8.3.4數(shù)據(jù)分割1．?dāng)?shù)據(jù)分割簡介

數(shù)據(jù)分割是指把邏輯上為統(tǒng)一整體的數(shù)據(jù)分割成較小的、可以獨立管理的物理單元進行存儲，以便進行數(shù)據(jù)的重構(gòu)、重組和恢復(fù)，從而提高創(chuàng)建索引和順序掃描效率。

數(shù)據(jù)分割的目的是把數(shù)據(jù)劃分成小的物理單元，這樣在管理數(shù)據(jù)時就會有更大的靈活性。小批量的存儲單元具有容易重構(gòu)、自由索引、順序掃描、容易重組、容易恢復(fù)和監(jiān)控等優(yōu)點，而網(wǎng)絡(luò)爬蟲往往能獲取到海量數(shù)據(jù)，如果期望達到大批量存儲的優(yōu)勢，數(shù)據(jù)分割則是數(shù)據(jù)獲取后經(jīng)常采用的操作。

數(shù)據(jù)分割的標準通?？蛇x擇按日期、地域、業(yè)務(wù)領(lǐng)域或組織單位等來進行分割，也可以按多個分割標準的組合進行具體實施，但一般情況下，分割標準應(yīng)包括日期信息。數(shù)據(jù)分割主要采用以下兩種方式。8.3數(shù)據(jù)規(guī)整8.3.4數(shù)據(jù)分割

（1）水平分割

水平分

人人文庫> 全部分類> 應(yīng)用文書 > 產(chǎn)品手冊

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)爬取、清洗與可視化教程課件第八章數(shù)據(jù)清洗

文檔簡介

溫馨提示

最新文檔

評論

大數(shù)據(jù)爬取、清洗與可視化教程課件第八章數(shù)據(jù)清洗

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔