Python數(shù)據(jù)分析基礎(chǔ)與應(yīng)用（微課版）教案模塊5 Pandas數(shù)據(jù)預處理

上傳人：h*** IP屬地：山東上傳時間：2025-06-20 格式：DOCX 頁數(shù)：10 大?。?8.16KB 積分：15 舉報 版權(quán)申訴

Python數(shù)據(jù)分析基礎(chǔ)與應(yīng)用（微課版）教案模塊5 Pandas數(shù)據(jù)預處理_第2頁

Python數(shù)據(jù)分析基礎(chǔ)與應(yīng)用（微課版）教案模塊5 Pandas數(shù)據(jù)預處理_第3頁

Python數(shù)據(jù)分析基礎(chǔ)與應(yīng)用（微課版）教案模塊5 Pandas數(shù)據(jù)預處理_第4頁

Python數(shù)據(jù)分析基礎(chǔ)與應(yīng)用（微課版）教案模塊5 Pandas數(shù)據(jù)預處理_第5頁

已閱讀5頁，還剩5頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

Python數(shù)據(jù)分析基礎(chǔ)與應(yīng)用模塊模塊5Pandas數(shù)據(jù)預處理【學習與訓練】5.1Pandas數(shù)據(jù)清理5.1.1Pandas缺失值處理1．使用函數(shù)檢查缺失值Pandas提供了isnull()和notnull()兩個函數(shù)檢查缺失值，它們同時適用于Series和DataFrame對象。isnull()函數(shù)用來判斷元素是否為空，notnull()函數(shù)用來判斷元素是否不為空。isnull()函數(shù)的語法格式如下：isnuull(obj)或者obj.isnull()obj表示檢查缺失值的Series對象或者DataFrame對象。如果發(fā)現(xiàn)數(shù)據(jù)中存在缺失值，就將這個位置標記為True，否則就標記為False。notnull()函數(shù)的語法格式與isnull()函數(shù)類似，如果發(fā)現(xiàn)數(shù)據(jù)中有缺失值時返回False。Pandas還提供了any()函數(shù)和all()函數(shù)檢測行或者列，any()函數(shù)用來檢測行或者列的元素是否包含缺失值，如果行或列中的元素包含缺失值，則返回True，否則返加False。all()函數(shù)用來檢測行或者列中所有元素都不包含缺失值，如果行或列中的所有元素都不包含缺失值，則返回True，否則返加False。2．使用fillna()函數(shù)填充缺失值Pandas提供了多種方法來清除缺失值，其中fillna()函數(shù)可以實現(xiàn)用非空數(shù)據(jù)“填充”NaN值。使用fillna()函數(shù)填充缺失值時，既可以使用標量、字典，也可以使用Series或DataFrame對象。fillna()函數(shù)的語法格式如下：fillna(value=None,method=None,axis=None,inplace=False,limit=None,downcast=Nome,**kwargs)其主要函數(shù)參數(shù)說明如下：?value：用于填充的數(shù)值。?method：表示填充方式，默認為None。其取值如下：?pad/ffill：向前填充，即使用缺失值前面的一個非缺失值去填充該缺失值。?backfill/bfill：后向填充，即使用缺失值后面的一個非缺失值填充該缺失值。?None：指定一個值去替換缺失值。?axis：用于修改填充方向，默認值為axis=0，表示按列填充；如果設(shè)置為1，則表示按行填充。?inplace：該參數(shù)的取值為：True、False，默認值為False。如果該參數(shù)設(shè)置為True表示不創(chuàng)建副本，直接修改源對象；如果設(shè)置為False表示創(chuàng)建一個副本，只修改副本，源對象不變。?limit：用于限制填充個數(shù)，表示可以連續(xù)填充的最大數(shù)量，默認值為None。3．使用函數(shù)值替換缺失數(shù)據(jù)Pandas使用mean()、median()和mode()函數(shù)計算列的均值（所有值加起來的平均值）、中位數(shù)值（排序后排在中間的數(shù)）和眾數(shù)（出現(xiàn)頻率最高的數(shù)）。然后使用這些函數(shù)的返回值替換缺失數(shù)據(jù)。計算某列數(shù)據(jù)之和時，處理缺失數(shù)據(jù)需要注意兩點：（1）數(shù)據(jù)求和時，將NA值視為0。（2）如果要計算的數(shù)據(jù)全為NA，那么結(jié)果就是NA。在某些情況下，需要使用replace()函數(shù)將DataFrame中的通用值替換成特定值，這和使用fillna()函數(shù)替換NaN值是類似的。4．使用dropna()函數(shù)刪除缺失值（1）刪除至少包含1個缺失值的行（2）刪除至少包含1個缺失值的列（3）刪除所有元素都為缺失值的行（4）保留至少包含3個非空值的行（5）刪除指定列中值為空的行5.1.2Pandas清洗無效數(shù)據(jù)1．清洗格式錯誤數(shù)據(jù)數(shù)據(jù)格式錯誤會使數(shù)據(jù)分析變得困難，甚至不可能?？梢詫㈠e誤格式的數(shù)據(jù)轉(zhuǎn)換為相同格式的數(shù)據(jù)。2．清洗超出范圍的錯誤數(shù)據(jù)如果年齡數(shù)據(jù)超過了150，百分制考試成績超過了100分，顯然是錯誤數(shù)據(jù)，我們可以對錯誤的數(shù)據(jù)進行替換或移除。5.1.3Pandas重復值檢測與處理1．使用duplicated()函數(shù)判斷與標記重復值duplicated()函數(shù)用于標記Series中的值、DataFrame中的記錄行是否是重復，有重復則返回True，無重復則返回False。該函數(shù)返回一個由布爾值組成的Series對象，該對象的行索引保持不變，數(shù)據(jù)則變?yōu)闃擞浭欠駷橹貜椭档牟紶栔?。duplicated()函數(shù)的語法格式如下：pandas.Series.duplicated(self,keep='first')pandas.DataFrame.duplicated(self,subset=None,keep='first')其函數(shù)參數(shù)說明如下：（1）subset：用于指定檢測重復的數(shù)據(jù)范圍，默認為數(shù)據(jù)集的所有列，可指定特定數(shù)據(jù)列。指定特定的列后，它僅檢測指定的列是否存在重復項。（2）keep：控制如何標記重復值。它有3個不同的取值：frist、last和False，默認值為“frist”。?keep='frist'：表示從前向后查找，標記重復數(shù)據(jù)第一次出現(xiàn)為False，即除了第一次出現(xiàn)外，其余相同的值標記為重復值。?keep='last'：表示從后向前查找，標記重復數(shù)據(jù)最后一次出現(xiàn)為False，即除了最后一次出現(xiàn)外，其余相同的值標記為重復值。?keep=False：標記所有重復數(shù)據(jù)為True，即所有相同的都被標記為重復。2．使用drop_duplicates()函數(shù)刪除重復值PandaDataFrame對象提供了一個去重函數(shù)drop_duplicates()，在識別出重復的數(shù)據(jù)后可以使用Pandas的drop_duplicate函數(shù)將其刪除，該函數(shù)的語法格式如下：pandas.DataFrame.drop_duplicates(subset=None,keep='first',inplace=False)或pandas.Series.drop_duplicates(keep='first',inplace=False)該函數(shù)參數(shù)說明如下：?subset：指定要去重的列名，默認為None。?keep：有3個可選參數(shù)，分別是first、last、False，默認為first，表示只保留第1次出現(xiàn)的重復項，刪除其余重復項，last表示只保留最后一次出現(xiàn)的重復項，F(xiàn)alse則表示刪除所有重復項。?inplace：為布爾值參數(shù)，默認值False表示刪除重復項后返回一個副本，若設(shè)置為Ture則表示直接在原數(shù)據(jù)上刪除重復項。5.1.4Pandas異常值檢測與處理1．基于3σ原則檢測異常值基于3σ原則檢測異常值具體步驟如下：（1）需要保證數(shù)據(jù)列大致上服從正態(tài)分布；（2）計算需要檢驗的數(shù)據(jù)列的平均值和標準差；（3）比較數(shù)據(jù)列的每個值與平均值的偏差是否超過3倍，如果超過3倍，則為異常值；（4）剔除異常值，得到規(guī)范的數(shù)據(jù)。2．認知箱形圖（1）箱形圖的基本組成與特征數(shù)據(jù)節(jié)點箱形圖（Box-plot）又稱為盒須圖、盒式圖或箱線圖，是一種用作顯示一組數(shù)據(jù)分散情況的統(tǒng)計圖。（2）熟知箱形圖的作用①識別數(shù)據(jù)的異常值②易于發(fā)現(xiàn)數(shù)據(jù)的偏態(tài)和尾重③能用于數(shù)據(jù)探索性分析，分析數(shù)據(jù)的形狀掃描二維碼，瀏覽箱形圖作用的具體介紹。Pandas提供了一個專門用來繪制箱型圖的boxplot()方法。3．基于箱形圖檢測與處理異常值從集合角度來看，異常值即離群點。因此，為了處理異常值，首先是判別數(shù)據(jù)集中是否存在離群點，哪些是異常值，然后再根據(jù)實際情況選擇如何處理異常值。檢測出異常值后，通常會采用如下方式處理這些異常值：?直接將含有異常值的記錄刪除?用具體的值來進行替換，可用前后兩個觀測值的平均值修正該異常值?將異常值視為缺失值，按照缺失值的處理方法修正該異常值?對異常值不處理，直接在具有異常值的數(shù)據(jù)集上進行統(tǒng)計分析異常數(shù)據(jù)被檢測出來之后，需要進一步確認他們是否為真正的異常值，等確認完以后再決定選用哪種方法進行解決。如果希望對異常值進行修改，則可以使用Pandas中replace()函數(shù)進行替換，該方法不僅可以對單個數(shù)據(jù)進行替換，也可以多個數(shù)據(jù)執(zhí)行批量替換操作。replace()函數(shù)的語法格式如下：replace(to_replace=None,value=None,inplace=False,limit=None,regex=False,method=‘pad’)其部分函數(shù)參數(shù)說明如下：?to_replace：表示查找被替換值的方式。?value：用來替換任何匹配to_replace的值，默認值為None。?limit：表示前向或后向填充數(shù)據(jù)的最大范圍。?regex：表示是否將to_replace和value解釋為正則表達式，接收布爾值或與to_replace相同的類型，默認值為False。?method：表示替換時使用的方法，pad/ffill表示前向填充，bfill表示后向填充。3．處理異常值代碼如下：df.replace(to_replace=30,value=3)5.1.5Pandas刪除數(shù)據(jù)集中指定行或列的數(shù)據(jù)1．使用dropna()函數(shù)刪除缺失值如果想刪除缺失值，使用dropna()函數(shù)結(jié)合參數(shù)axis就可以實現(xiàn)。在默認情況下，按照axis=0來按行處理，這意味著如果某一行中存在NaN值將會刪除整行數(shù)據(jù)。dropna()函數(shù)的語法格式如下：DataFrame.dropna(axis=0,how='any',thresh=None,subset=None,inplace=False)該函數(shù)參數(shù)說明如下：?axis：確定刪除的行或列，默認值為0，如果設(shè)置參數(shù)axis為0或者index，則表示刪除包含缺失值的整行；如果設(shè)置參數(shù)axis為1或者columns，則表示刪除包含缺失值的整列。?how：確定刪除行或列的標準，默認值為'any'，如果一行或一列里任何一個數(shù)據(jù)有出現(xiàn)NaN就刪除整行或整列；如果設(shè)置how='all'，則一行或一列數(shù)據(jù)全為NaN才刪除整行或整列。?thresh：類型為int，表示有效數(shù)據(jù)數(shù)量的最小要求，設(shè)置需要多少非空值的數(shù)據(jù)才可以保留下來的，例如，如果設(shè)置為thresh=2，則表示該行或該列至少有兩個非NaN值時才將其予以保留。?subset：設(shè)置想要處理缺失值的列。如果是多個列，可以使用列名的list作為參數(shù)。?inplace：該參數(shù)為bool類型，表示是否修改源文件。如果設(shè)置為True，則表示直接修改源數(shù)據(jù)；如果設(shè)置為False，則表示返回數(shù)據(jù)集的副本，針對原數(shù)據(jù)的副本進行修改。2．使用drop()函數(shù)刪除指定行或列的數(shù)據(jù)使用drop()函數(shù)可以刪除指定行或列的數(shù)據(jù)，該數(shù)的語法格式如下：drop(labels,axis=0,level=None,inplace=False,errors='raise')該函數(shù)參數(shù)說明如下：?labels：接收字符串或數(shù)組，代表刪除的行或列的標簽，無默認值。?axis：axis設(shè)置為0時表示刪除行數(shù)據(jù)，axis設(shè)置為1時表示刪除列數(shù)據(jù)。?level：接收整型數(shù)據(jù)或索引名，代表標簽所在級別，默認為None。?inplace：默認值為False，表示操作對原數(shù)據(jù)不生效。如果要對原數(shù)據(jù)生效，則將inplace設(shè)置為True。?errors：errors='raise'會讓程序在labels接收到不存在的行名或者列名時拋出錯誤導致程序停止運行，errors='ignore'會忽略沒有的行名或者列名，只對存在的行名或者列名進行操作，該參數(shù)的默認值為errors='raise'。5.2Pandas數(shù)據(jù)合并5.2.1使用merge()函數(shù)通過主鍵合并數(shù)據(jù)在Pandas中，通過兩個數(shù)據(jù)集中一個或多個鍵來合并數(shù)據(jù)時，可以使用merge()函數(shù)實現(xiàn)。merge()函數(shù)根據(jù)一個或多個鍵將不同的DataFrame對象連接起來，大多數(shù)情況是將兩個DataFrame對象中重疊的列作為合并的鍵，其語法格式如下：merge(left,right,how='inner',on=None,left_on=None,right_on=None,left_index=False,right_index=False,sort=True,suffixes=('_x','_y'),copy=True)使用merge()函數(shù)進行合并時，默認會使用重疊的列索引作為合并鍵，并采用內(nèi)連接方式合并數(shù)據(jù)，即只取行索引重疊的數(shù)據(jù)。5.2.2使用join()函數(shù)通過索引或指定列合并數(shù)據(jù)join()函數(shù)的語法格式如下：join(other,how='left',on=None,lsuffix='',rsuffix='',sort=True)該函數(shù)參數(shù)說明如下所示：?how：表示連接方式，其取值為：｛left,inner,outer,right｝，默認使用left的連接方式。?on：表示連接列名。?lsuffix：接收字符串，用于在左側(cè)重疊的列名后添加后綴名。?rsuffix：接收字符串，用于在右側(cè)重疊的列名后添加后綴名。?sort：默認值為False，根據(jù)連接鍵對合并的數(shù)據(jù)進行排序。1．join()函數(shù)使用默認方式合并數(shù)據(jù)join()函數(shù)默認使用左連接方式，即以左數(shù)據(jù)集為基準，使用join()函數(shù)進行合并后，左數(shù)據(jù)集的數(shù)據(jù)會全部展示。如果兩個數(shù)據(jù)集中沒有重疊的索引，當使用左連接合并時，右數(shù)據(jù)集中的數(shù)據(jù)將不會展示出來。對于merge()函數(shù)，如果兩個數(shù)據(jù)集中沒有重疊的索引，可以設(shè)置merge()函數(shù)的left_index和right_index參數(shù)，對于join()函數(shù)則只需要將對象名稱作為參數(shù)傳入即可。2．join()函數(shù)使用外連接方式合并數(shù)據(jù)為了將右數(shù)據(jù)集中的數(shù)據(jù)展示出來，可以使用how參數(shù)將連接方式設(shè)置為外連接方式，合并后缺失的數(shù)據(jù)使用NaN填充。3．join()函數(shù)使用參數(shù)on指定重疊的列名合并數(shù)據(jù)如果兩個數(shù)據(jù)集中行索引和列名重疊，使用join()函數(shù)進行合并時，使用參數(shù)on指定的重疊的列名即可。5.2.3使用concat()函數(shù)沿軸連接數(shù)據(jù)1．使用concat()函數(shù)在DataFrame縱向執(zhí)行連接操作創(chuàng)建兩個DataFrame對象，并對其進行連接。（1）縱向外連接操作concat()函數(shù)的axis參數(shù)取默認值0，即縱向連接，連接后的結(jié)果數(shù)據(jù)集的行數(shù)為兩個被連接數(shù)據(jù)集的行數(shù)之和；join參數(shù)取默認值outer，即外連接。（2）縱向內(nèi)連接操作concat()函數(shù)的axis參數(shù)取默認值0，即縱向連接，join參數(shù)設(shè)置為inner，即內(nèi)連接。2．使用concat()函數(shù)沿著橫向連接DataFrame對象（1）橫向外連接操作concat()函數(shù)的axis參數(shù)設(shè)置為1，即橫向連接，join參數(shù)設(shè)置為outer，即外連接。連接后的結(jié)果數(shù)據(jù)集的列數(shù)為兩個被連接數(shù)據(jù)集的列數(shù)之和。（2）橫向內(nèi)連接操作concat()函數(shù)的axis參數(shù)設(shè)置為1，即橫向連接，join參數(shù)設(shè)置為inner，即內(nèi)連接。3．在concat()函數(shù)中使用keys參數(shù)給連接一個指定的鍵在concat()函數(shù)中使用keys參數(shù)給連接一個指定的鍵，行索引index會存在重復使用的現(xiàn)象。如果想讓輸出的行索引遵循依次遞增的規(guī)則，那么需要將ignore_index設(shè)置為True。5.2.4使用append()函數(shù)縱向連接DataFrame對象append()函數(shù)是concat()函數(shù)的簡略形式，但是append()函數(shù)只能在axis=0方向（縱向）上進行數(shù)據(jù)連接。append()函數(shù)的語法格式如下：left.append(right)或left.append(right,ignore_index=True)該函數(shù)的功能為：將left指定數(shù)據(jù)集與right指定數(shù)據(jù)集進行縱向合并。其中，DataFrame與Series進行合并時，需要使用參數(shù)ignore_index=True。5.2.5使用combine_first()函數(shù)合并重疊數(shù)據(jù)combine_first()函數(shù)的語法格式如下。bine_first(other)其中，obj1為函數(shù)調(diào)用對象的數(shù)據(jù)集；other為函數(shù)參數(shù)對象的數(shù)據(jù)集，該參數(shù)用于接收填充缺失值的DataFrame對象。5.3Pandas數(shù)據(jù)抽取5.3.1字段抽取字段抽取是根據(jù)已知列數(shù)據(jù)的開始和結(jié)束位置，抽取出新的數(shù)據(jù)。字段抽取采用slice()函數(shù)，該函數(shù)的語法格式如下：Series.str.slice(start=None,stop=None)函數(shù)參數(shù)說明如下：?start：表示字段抽取的開始位置。?stop：表示字段抽取的結(jié)束位置。5.3.2字段拆分字段拆分是指按照約定規(guī)則拆分已有的字符串，字符分割函數(shù)有正序分割列split()函數(shù)和逆序分割列rsplit()函數(shù)。split()函數(shù)的語法格式如下：Series.str.split(sep=None,n=-1,expand=False)該函數(shù)參數(shù)說明如下：?sep：表示字符串中分隔字符的分隔符，默認分隔符為空格。?n：接收整數(shù)，默認值為-1，表示分割的列數(shù)。?expand：接收布爾值，默認值為False，表示返回序列（Series）或者索引（Index）；如果值設(shè)置為True，則返回DataFrame對象或復雜索引（MultiIndex）。5.3.3數(shù)據(jù)記錄抽取數(shù)據(jù)記錄抽取是指根據(jù)一定的條件，對數(shù)據(jù)記錄進行抽取。記錄抽取函數(shù)的語法格式如下：datafram[condition]函數(shù)返回值是DataFram。函數(shù)參數(shù)condition為過濾條件，常用條件類型如下：①比較運算：大于（>）、小于（<）、大于等于（>=）、小于等于（<=）、不等于（!=）。②范圍運算：between(left,right)。③空值匹配：pandas.isnull(column)。④字符匹配：str.contains(patten,na=False)，其中na參數(shù)是指空值的處理方式，如果值設(shè)置為False，則不匹配空值。⑤邏輯運算：與（&），或（|），取反（not）。5.3.4日期轉(zhuǎn)換與日期抽取Pandas處理日期和時間數(shù)據(jù)的方式有多種，其中日期轉(zhuǎn)換、日期格式化和日期抽取是常見的3項功能。1．日期轉(zhuǎn)換日期轉(zhuǎn)換是指將字符型的日期格式的數(shù)據(jù)轉(zhuǎn)換成為日期型數(shù)據(jù)。日期轉(zhuǎn)換函數(shù)to_datetime()的語法格式如下：pandas.to_datetime(strDate,format,errors='raise')該函數(shù)參數(shù)說明如下：?strDate：表示字符型時間列；?format：表示日期時間格式符。?errors：取值范圍為{'ignore'，'raise'，'coerce'}，默認為'raise'。?如果取值為“raise”，則無效的數(shù)據(jù)將引發(fā)異常。?如果取值為“coerce”，則無效的數(shù)據(jù)將設(shè)置為NaN。?如果取值為“ignore”，則無效的數(shù)據(jù)將返回輸入。2．日期格式化日期格式化是將日期時間型數(shù)據(jù)，按照指定格式，轉(zhuǎn)為字符型數(shù)據(jù)。日期格式化函數(shù)的語法格式如下：df_dt.apply(lambdax:datetime.strftime(x,format))或df_dt.dt.strftime(format)該函數(shù)參數(shù)說明如下：?df_dt：表示數(shù)據(jù)集中日期時間列名。?format：表示時間日期格式符，如表5-2所示。3．日期抽取日期抽取是指從日期格式中抽取出需要的部分內(nèi)容，日期抽取語法格式如下：df_perty該函數(shù)參數(shù)說明如下：?df_dt：表示數(shù)據(jù)集中日期時間列名。?property：表示時間屬性。5.4Pandas數(shù)據(jù)重塑5.4.1重塑層次化索引1．使用stack()函數(shù)將數(shù)據(jù)的列索引轉(zhuǎn)換為行索引stack()函數(shù)可以將數(shù)據(jù)的列索引轉(zhuǎn)換為行索引，stack()函數(shù)的語法格式如下：stack(level=-1,dropna=True)該函數(shù)返回值為DataFrame或Series對象。函數(shù)參數(shù)說明如下：?level：表示操作索引的級別或級別名稱。默認值為-1，表示操作內(nèi)層索引；如果其值設(shè)置為0，則表示操作外層索引。?dropna：接收布爾值，默認值為True，表示自動將旋轉(zhuǎn)后的缺失值刪除；如果其值設(shè)置為1，則表示保留缺失值。2．使用unstack()函數(shù)將數(shù)據(jù)的行索引轉(zhuǎn)換為列索引unstack()函數(shù)可以將數(shù)據(jù)的行索引轉(zhuǎn)換為列索引，unstack()函數(shù)的語法格式如下：DataFrame.unstack(level=-1,fill_value=None)或Series.unstack(level=-1,fill_value=None)該函數(shù)返回值為DataFrame或Series。函數(shù)參數(shù)說明如下：?level：表示unstack索引的級別或級別名稱。默認值為-1，表示操作內(nèi)層索引，如果其值設(shè)置為0，則表示操作外層索引。?fill_value：默認值為None，如果設(shè)置其他值，則旋轉(zhuǎn)過程中產(chǎn)生了缺失值，則用該參數(shù)的值替換NaN缺失值。5.4.2使用pivot()函數(shù)實現(xiàn)軸向旋轉(zhuǎn)Pandas提供了pivot()函數(shù)，該函數(shù)會根據(jù)給定的行索引或列索引重新組織一個DataFrame對象，即將一個DataFrame的記錄數(shù)據(jù)整合成表格，俗稱數(shù)據(jù)透視，類似Excel中的數(shù)據(jù)透視表功能，它返回重塑的DataFrame，這樣的好處是使得數(shù)據(jù)更加的直觀和容易分析。pivot()函數(shù)的語法結(jié)構(gòu)如下：pivot(index=None,columns=None,values=None)或者pivot(index,columns,values)其含義與作用是將index指定為行索引，columns指定為列索引，values則是填充新DataFrame對象中的值。即根據(jù)DataFrame的3列數(shù)據(jù)生成數(shù)據(jù)透視表，使用索引/列中的唯一值并填充值。該函數(shù)參數(shù)說明如下：?index：為可選參數(shù)，可接收string或object類型的值，用于創(chuàng)建新DataFrame對象行索引的列名稱。如果未指定，則使用原DataFrame對象的索引。?columns：可接收string或object類型的值，用于創(chuàng)建新DataFrame對象列索引的列名稱。如果未指定，則使用原DataFrame對象的索引?values：用于填充新DataFrame對象中值的列名稱。如果未指定，則將使用剩余列進行填充，結(jié)果將具有分層索引列。5.4.3使用melt()函數(shù)將DataFrame從寬格式轉(zhuǎn)換為長格式數(shù)據(jù)分析時經(jīng)常要把寬數(shù)據(jù)格式轉(zhuǎn)換為長數(shù)據(jù)格式，有點像excel的逆透視過程。melt()函數(shù)的語法格式如下：melt(id_vars=None,value_vars=None,var_name=None,value_name='value',col_level=None)該函數(shù)的功能為：將DataFrame壓縮為一種格式，其中一列或多列是標識符變量（id_vars），而所有其他列均視為測量變量(value_vars)，相對于行軸為“unpivoted”，僅留下兩個非標識符列‘variable’和‘value’。該函數(shù)參數(shù)說明如下：?id_vars：為可選參數(shù)，用作標識符變量的列。?value_vars：為可選參數(shù)，要取消透視的列。如果未指定，則使用未設(shè)置為id_vars的所有列。?var_name：用于自定義“variable”列的名稱。如果沒有，則使用“variable”。?value_name：用于自定義“value”列的名稱，默認為“value”。?col_level：為可選參數(shù)，如果列是MultiIndex，則使用此級別進行融合。5.4.4使用pivot_table()函數(shù)聚合與透視數(shù)據(jù)Pandas提供了制作數(shù)據(jù)透視表的函數(shù)pivot_table()，pivot_table()函數(shù)用于將列數(shù)據(jù)設(shè)定為行索引和列索引，并可以聚合運算。pivot_table()函數(shù)的語法格式如下：dataframe.pivot_table(values=None,index=None,columns=None,aggfunc='mean',fill_value=None,margins=False,dropna=True,margins_name='All')或pandas.pivot_table(data,values=None,index=None,columns=None,ag

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

Python數(shù)據(jù)分析基礎(chǔ)與應(yīng)用（微課版）教案模塊5 Pandas數(shù)據(jù)預處理

文檔簡介

溫馨提示

最新文檔

評論

Python數(shù)據(jù)分析基礎(chǔ)與應(yīng)用（微課版） 教案 模塊5 Pandas數(shù)據(jù)預處理

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

Python數(shù)據(jù)分析基礎(chǔ)與應(yīng)用（微課版）教案模塊5 Pandas數(shù)據(jù)預處理