財務(wù)大數(shù)據(jù)分析 課件 項目二任務(wù)一 Pandas 數(shù)據(jù)處理基礎(chǔ)_第1頁
財務(wù)大數(shù)據(jù)分析 課件 項目二任務(wù)一 Pandas 數(shù)據(jù)處理基礎(chǔ)_第2頁
財務(wù)大數(shù)據(jù)分析 課件 項目二任務(wù)一 Pandas 數(shù)據(jù)處理基礎(chǔ)_第3頁
財務(wù)大數(shù)據(jù)分析 課件 項目二任務(wù)一 Pandas 數(shù)據(jù)處理基礎(chǔ)_第4頁
財務(wù)大數(shù)據(jù)分析 課件 項目二任務(wù)一 Pandas 數(shù)據(jù)處理基礎(chǔ)_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

項目二

數(shù)據(jù)處理與數(shù)據(jù)可視化基礎(chǔ)《財務(wù)大數(shù)據(jù)分析》課程JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江蘇信息職業(yè)技術(shù)學院財務(wù)大數(shù)據(jù)分析課程團隊

目錄任務(wù)一Pandas數(shù)據(jù)處理基礎(chǔ)任務(wù)二

Matplotlib數(shù)據(jù)可視化基礎(chǔ)JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江蘇信息職業(yè)技術(shù)學院1.知道橫向或縱向堆疊合并數(shù)據(jù);

2.掌握主鍵合并數(shù)據(jù);

3.掌握重疊合并數(shù)據(jù);

4.了解Pyplot基礎(chǔ)語法;

5.繪制直方圖、折線圖。學習任務(wù)JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江蘇信息職業(yè)技術(shù)學院任務(wù)一

Pandas數(shù)據(jù)處理基礎(chǔ)JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江蘇信息職業(yè)技術(shù)學院堆疊就是簡單地把兩個表拼在一起,也被稱作軸向連接、綁定或連接。依照連接軸的方向,數(shù)據(jù)堆疊可分為橫向堆疊和縱向堆疊。一1、堆疊合并數(shù)據(jù)合并數(shù)據(jù)(1)橫向堆疊橫向堆疊,即將兩個表在x軸向拼接在一起,可以使用concat函數(shù)完成。concat函數(shù)的基本語法如下。一concat函數(shù)的常用參數(shù)及相關(guān)參數(shù)說明如表所示。合并數(shù)據(jù)當axis=1的時候,concat做行對齊,然后將不同列名稱的兩張或多張表合并。當兩個表索引不完全一樣時,可以使用join參數(shù)選擇是內(nèi)連接還是外連接。在內(nèi)連接的情況下,僅僅返回索引重疊部分;在外連接的情況下,則顯示索引的并集部分數(shù)據(jù),不足的地方則使用空值填補。當兩張表完全一樣時,不論join參數(shù)的取值是inner或者outer,結(jié)果都是將兩個表完全按照x軸拼接起來,具體實現(xiàn)如圖所示。合并數(shù)據(jù)二一合并數(shù)據(jù)(2)縱向堆疊對比橫向堆疊,縱向堆疊是將兩個數(shù)據(jù)表在y軸向上拼接。concat函數(shù)和append方法兩者都可以實現(xiàn)縱向堆疊。使用concat函數(shù)時,在默認情況下,即axis=0時,concat做列對齊,將不同行索引的兩張或多張表縱向合并。在兩張表的列名并不完全相同的情況下,可以使用join參數(shù):取值為inner時,返回的僅僅是列名的交集所代表的列;取值為outer時,返回的是兩者列名的并集所代表的列。不論join參數(shù)的取值是inner或者outer,結(jié)果都是將兩個表完全按照y軸拼接起來除了concat函數(shù)之外,append方法也可以用于縱向合并兩張表。但是使用append方法實現(xiàn)縱向表堆疊有一個前提條件,那就是兩張表的列名需要完全一致。append方法的基本方法如下。一合并數(shù)據(jù)主鍵合并,即通過一個或多個鍵將兩個數(shù)據(jù)集的行連接起來,類似于SQL中的join。針對兩張包含不同字段的表,將其根據(jù)某幾個字段一一對應(yīng)拼接起來,結(jié)果集的列數(shù)為兩個原數(shù)據(jù)的列數(shù)和減去連接鍵的數(shù)量。pandas庫中的merge函數(shù)和join方法都可以實現(xiàn)主鍵合并,但兩者的實現(xiàn)方式并不相同。一2、主鍵合并數(shù)據(jù)合并數(shù)據(jù)merge函數(shù)的具體用法如下一合并數(shù)據(jù)和數(shù)據(jù)庫的join一樣,merge函數(shù)也有左連接(left)、右連接(right)、內(nèi)連接(inner)和外連接(outer)。但比起數(shù)據(jù)庫SQL語言中的join,merge函數(shù)還有其自身獨到之處,例如可以在合并過程中對數(shù)據(jù)集中的數(shù)據(jù)進行排序等。根據(jù)merge函數(shù)中的參數(shù)說明,并按照需求修改相關(guān)參數(shù),即可以多種方法實現(xiàn)主鍵合并。merge函數(shù)的具體的參數(shù)及其說明如表所示。除了使用merge函數(shù)以外,join方法也可以實現(xiàn)部分主鍵合并的功能。但是使用join方法時,兩個主鍵的名字必須相同,其具體用法如下。一合并數(shù)據(jù)數(shù)據(jù)分析和處理過程中偶爾會出現(xiàn)兩份數(shù)據(jù)的內(nèi)容幾乎一致的情況,但是某些特征在其中一張表上是完整的,而在另外一張表上的數(shù)據(jù)則是缺失的。這時除了使用將數(shù)據(jù)一對一比較,然后進行填充的方法外,還有一種方法就是重疊合并。重疊合并在其他工具或者語言中并不常見,但是pandas庫的開發(fā)者希望pandas能夠解決幾乎所有的數(shù)據(jù)分析問題,因此提供了combine_first方法來進行重疊數(shù)據(jù)合并。一3、重疊合并數(shù)據(jù)合并數(shù)據(jù)一4、任務(wù)實現(xiàn)合并數(shù)據(jù)(1)堆疊不同時間的訂單詳情表訂單詳情表meal_order_detail1、meal_order_detail2、meal_order_detail3具有相同的特征,但數(shù)據(jù)時間不同,訂單編號也不同,在數(shù)據(jù)分析過程中需要使用全部數(shù)據(jù),故需要將幾張表做縱向堆疊操作。(2)主鍵合并訂單詳情表、訂單信息表和客戶信息表訂單詳情表、訂單信息表和客戶信息表之間存在相同意義的字段,因此需通過主鍵合并的方式將3張表合并為一張寬表。pandas提供了readexcel函數(shù)來讀取“xls”“xlsx”兩種Excel文件,其語法和常用參數(shù)如下。二1、Excel文件讀取讀/寫Excel文件read_excel函數(shù)的常用參數(shù)及其說明將文件存儲問Excel文件,可以使用to_excel函數(shù)。其使用語法和常用參數(shù)如下。DataFrame.to_excel(excel_writer=None,sheetname=’None’,na_rep=’’,header=True,index=True,index_label=None,mode=’w’,encoding=None)to_excel函數(shù)和to_csv函數(shù)的常用參數(shù)基本一致,區(qū)別之處在于,to_excel函數(shù)指定存儲文件的文件路徑參數(shù)名稱為excel_writer,并且沒有sep參數(shù);to_csv

函數(shù)增加了一個sheetname參數(shù),用來指定存儲的ExcelSheet的名稱,默認為Sheet1。二2、Excel文件存儲讀/寫Excel文件1、刪除法刪除法是指將含有缺失值的特征或者記錄刪除。刪除法分為刪除觀測記錄和刪除特征兩種,它屬于通過減少樣本量來換取信息完整度的一種方法,是一種最簡單的缺失值處理方法。pandas中提供了簡便的刪除缺失值的方法dropna,通過參數(shù)控制,該方法既可以刪除觀測記錄、也可以刪除特征,該方法的基本語法如下。三檢測與處理缺失值對菜品訂單詳情表利用dropna方法進行缺失值處理,如圖所示。三檢測與處理缺失值使用dropna方法刪除缺失值當how參數(shù)取值為any時,刪除了一個特征,說明這個特征存在缺失值。若how參數(shù)不取any這個默認值,而是取all,則表示整個特征全部為缺失值時才會執(zhí)行刪除操作。2、替換法替換法是指用一個特定的值替換缺失值。特征可分分為數(shù)值型和類別型,兩者出現(xiàn)缺失值時的處理方法也是不同的。缺失值所在特征為數(shù)值型型時,通常利用其均值、中位數(shù)和眾數(shù)等描述其集中趨勢的統(tǒng)計量來代替缺失值:缺失值月所在特征為類別型時,則選擇使用眾數(shù)來替換缺失值。pandas庫中提供了缺失值替換的方法fillna,其基本語法如下。三檢測與處理缺失值3、插值法在面對數(shù)據(jù)缺失問題時,除了這兩種方法之外,還有一種常用的方法——插值法。常用的插值法有線性插值、多項式插值和樣條插值等。線性插值是一種較為簡單的插值方法,它針對已知的值求出線性方程,通過求解線性方程得到缺失值。多項式插值是利用已知的值擬合一個多項式,使得現(xiàn)有的數(shù)據(jù)滿足這個多項式,再利用這個多項式求解缺失值。常見的多項式插值有拉格朗日插值和牛頓插值等。樣條插值是以可變樣條來做出一條經(jīng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論