版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
5.4格式不一致數(shù)據(jù)的處理學(xué)習(xí)內(nèi)容1.字符格式不一致數(shù)據(jù)的處理2.日期格式不一致數(shù)據(jù)的處理5.4格式不一致數(shù)據(jù)的處理
在實際的工作中,因為人工操作或者系統(tǒng)設(shè)計的缺陷,導(dǎo)致收集的數(shù)據(jù)集可能存在數(shù)據(jù)格式不一致的情況,例如姓名的大小寫字母和空格的不一致,日期格式的不一致等。5.4.1字符格式不一致的處理示例:數(shù)據(jù)集(data/names.txt)01importpandasaspd02df=pd.read_csv("data/names.txt",sep=',')03df問題:拼音大小寫混亂!5.4格式不一致數(shù)據(jù)的處理
5.4.1字符格式不一致的處理示例:數(shù)據(jù)集(data/names.txt)04df['拼音']=df['拼音'].map(str.strip)#去除'拼音'列字符串前后的空格05df['拼音']=df['拼音'].map(str.title)#將'拼音'列字符串首字母變?yōu)榇髮懽帜?6df經(jīng)過第4-5行處理,詩人的拼音字符格式統(tǒng)一了,全部設(shè)置為首字母大寫。5.4格式不一致數(shù)據(jù)的處理
5.4.2日期格式不一致的處理日期是數(shù)據(jù)集中的常用字典,而且日期常常有很多種表達格式。比如,2021年7月1日是中國共產(chǎn)黨建黨100周年,對于這個日期可以有五種不同的表達格式:5.4格式不一致數(shù)據(jù)的處理
5.4.2日期格式不一致的處理pandas提供了to_datetime()方法來進行批量的日期格式轉(zhuǎn)換01importpandasaspd02df=pd.DataFrame({'原日期':['20210701','2021/07/01','2021.07.01','01-July-21','07/01/2021']})03df['轉(zhuǎn)換后的日期']=pd.to_datetime(df['原日期'])04df第2行代碼產(chǎn)生DataFrame對象df,初始值包括了5種不同的日期格式。第3行代碼利用pandas的to_datetime()方法統(tǒng)一日期格式,并賦值給新的列'轉(zhuǎn)換后的日期'。第4行代碼輸出變換后的df的結(jié)果。5.4格式不一致數(shù)據(jù)的處理
5.4.2日期格式不一致的處理有時候為了統(tǒng)計的需要,還需要將日期按年,月,日進行分割。Series對象提供了dt對象來獲取日期的上述屬性:表5.4.1
dt對象的屬性說明序號參數(shù)說明1year年2month月3day日4quarter季度5is_leap_year是否是閏年6day_name()星期5.4格式不一致數(shù)據(jù)的處理
5.4.2日期格式不一致的處理05df['年'],df['月'],df['日']=df['轉(zhuǎn)換后的日期'].dt.year,df['轉(zhuǎn)換后的日期'].dt.month,df['轉(zhuǎn)換后的日期'].dt.day06df['季度']=df['轉(zhuǎn)換后的日期'].dt.quarter07df['星期']=df['轉(zhuǎn)換后的日期'].dt.day_name()08df['閏年']=df['轉(zhuǎn)換后的日期'].dt.is_leap_year09df5.4格式不一致數(shù)據(jù)的處理
5.4.2日期格式不一致的處理
以電影數(shù)據(jù)集(data/movies3.csv)為例,對日期格式不一致的數(shù)據(jù)進行處理。01importpandasaspd02df=pd.read_csv('data/movies3.csv')03df
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年石油化工工程施工協(xié)議
- 2025年度民用爆炸物品運輸安全協(xié)議(資源保障與合規(guī))3篇
- 2024年園林景區(qū)管理服務(wù)人員勞動合同3篇
- 2025年度文化展覽vi設(shè)計及展覽導(dǎo)視系統(tǒng)合同3篇
- 2025年度智能安防系統(tǒng)弱電工程合同書2篇
- 2024年環(huán)保供應(yīng)商合作協(xié)議
- 2024年離婚財產(chǎn)處理協(xié)議樣本版B版
- 二零二五年度健身房店面出租合同范本2篇
- 《情侶戀愛2025年度情感維系與責(zé)任擔(dān)當協(xié)議書35條》2篇
- 2024年魚塘環(huán)境整治協(xié)議2篇
- 體檢營銷話術(shù)與技巧培訓(xùn)
- TSG 07-2019電梯安裝修理維護質(zhì)量保證手冊程序文件制度文件表單一整套
- 2023-2024學(xué)年浙江省杭州市西湖區(qū)五年級(上)期末數(shù)學(xué)試卷
- 建設(shè)工程造價案例分析-形成性考核2(占形考總分25%)-國開(SC)-參考資料
- 《期貨市場發(fā)展之》課件
- 酒店旅游業(yè)OTA平臺整合營銷推廣策略
- 系統(tǒng)解剖學(xué)(南方醫(yī)科大學(xué))智慧樹知到期末考試答案章節(jié)答案2024年南方醫(yī)科大學(xué)
- 《生物質(zhì)熱電聯(lián)產(chǎn)工程設(shè)計規(guī)范》
- 科研倫理與學(xué)術(shù)規(guī)范期末考試
- 2022公務(wù)員錄用體檢操作手冊(試行)
- 深化校企合作協(xié)同育人的實踐案例
評論
0/150
提交評論