




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
ETL數(shù)據(jù)預(yù)處理技術(shù)主講人:張宏偉任務(wù)8-2-1重復(fù)值處理01.重復(fù)值處理概述02.目錄重復(fù)值處理方式CONTENTS03.樣例解析
從數(shù)據(jù)采集所獲得的原始數(shù)據(jù)集中,往往會(huì)存在著許多重復(fù)數(shù)據(jù)。所謂重復(fù)數(shù)據(jù)是指在數(shù)據(jù)結(jié)構(gòu)中所有列的內(nèi)容都相同,即行重復(fù)。而處理重復(fù)數(shù)據(jù)是數(shù)據(jù)分析中經(jīng)常要面對的問題之一。pandas提供了duplicated()和drop_duplicates()函數(shù)可用于標(biāo)記及刪除重復(fù)數(shù)據(jù)。(1)duplicated()函數(shù)duplicated()函數(shù)用于標(biāo)記Series中的值、DataFrame中的記錄行是否是重復(fù),重復(fù)為True,不重復(fù)為False。函數(shù)使用方式如下:
pandas.DataFrame.duplicated(subset=None,keep=’first’)其中參數(shù)解釋如下:subset:用于識(shí)別重復(fù)的列標(biāo)簽或列標(biāo)簽序列,默認(rèn)所有列標(biāo)簽keep=‘frist’:除了第一次出現(xiàn)外,其余相同的被標(biāo)記為重復(fù)keep=’last’:除了最后一次出現(xiàn)外,其余相同的被標(biāo)記為重復(fù)keep=False:所有相同的都被標(biāo)記為重復(fù)(2)drop_duplicates()函數(shù)drop_duplicates()函數(shù)用于刪除Series、DataFrame中重復(fù)記錄,并返回刪除重復(fù)后的結(jié)果。該函數(shù)語法格式如下:pandas.DataFrame.drop_duplicates(subset=None,keep=’first’,inplace=False)參數(shù)說明如下:subset:表示要進(jìn)行去重的列名,默認(rèn)為None。keep:有三個(gè)可選參數(shù),分別是first、last、False,默認(rèn)為first,表示只保留第一次出現(xiàn)的重復(fù)項(xiàng),刪除其余重復(fù)項(xiàng),last表示只保留最后一次出現(xiàn)的重復(fù)項(xiàng),F(xiàn)alse則表示刪除所有重復(fù)項(xiàng)。inplace:布爾值參數(shù),默認(rèn)為False表示刪除重復(fù)項(xiàng)后返回一個(gè)副本,若為Ture則表示直接在原數(shù)據(jù)上刪除重復(fù)項(xiàng)。現(xiàn)有某商場的產(chǎn)品銷售數(shù)據(jù)如右圖所示:(1)標(biāo)記重復(fù)數(shù)據(jù)(2)刪除重復(fù)數(shù)據(jù)首先讀取數(shù)據(jù):輸出結(jié)果如下:(1)標(biāo)記重復(fù)數(shù)據(jù),代碼如下::輸出結(jié)果如下:當(dāng)參數(shù)值不一樣的時(shí)候,得到的結(jié)果是不同的,比如keep=False得到的結(jié)果就是標(biāo)記所有的重復(fù)數(shù)據(jù),大家可以自行嘗試(2)刪除重復(fù)數(shù)據(jù),代碼如下:輸出結(jié)果如下:
跟標(biāo)記重復(fù)值類似,當(dāng)參數(shù)值不一樣的時(shí)候,得到的結(jié)果是不同的,比如keep=False得到的結(jié)果就是刪除所有的重復(fù)數(shù)據(jù),大
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 農(nóng)村分房合同范本
- 關(guān)于漲房租合同范本
- 2025年中國負(fù)載箱市場調(diào)查研究及行業(yè)投資潛力預(yù)測報(bào)告
- 科技創(chuàng)新在職業(yè)教育中的實(shí)施策略與效果評估
- 全站儀實(shí)習(xí)報(bào)告五
- 企業(yè)商品委托銷售合同范本
- 中知貫標(biāo)認(rèn)證合同范本
- 蘿莉養(yǎng)成計(jì)劃手游
- 浙江兩項(xiàng)計(jì)劃2017
- 農(nóng)村養(yǎng)殖牛蛙合同范本
- 創(chuàng)傷性腦疝查房
- 《政府管制基本理論》課件
- 環(huán)境巖土工程學(xué)課件-東南大學(xué)-潘華良境巖土工程學(xué)概論-9大環(huán)境巖土工程問題
- 《紅樓夢》中寶黛之間的愛情與悲劇分析
- 養(yǎng)老產(chǎn)業(yè)并購重組
- 2024年1月浙江高考英語聽力考試試題真題完整版答案詳解+MP3文本
- 《SolidWorks建模實(shí)例教程》第5章 裝配建模及實(shí)例
- 口腔科護(hù)理教學(xué)查房
- 《趙匡胤:北宋的開國皇帝》
- 二年級(jí) 書法 開學(xué)第一課課
- 精神科病人跌倒的預(yù)防與處理
評論
0/150
提交評論