Python數(shù)據(jù)分析與應用-從數(shù)據(jù)獲取到可視化(第2版)教案-教學設計 第4章 數(shù)據(jù)預處理_第1頁
Python數(shù)據(jù)分析與應用-從數(shù)據(jù)獲取到可視化(第2版)教案-教學設計 第4章 數(shù)據(jù)預處理_第2頁
Python數(shù)據(jù)分析與應用-從數(shù)據(jù)獲取到可視化(第2版)教案-教學設計 第4章 數(shù)據(jù)預處理_第3頁
Python數(shù)據(jù)分析與應用-從數(shù)據(jù)獲取到可視化(第2版)教案-教學設計 第4章 數(shù)據(jù)預處理_第4頁
Python數(shù)據(jù)分析與應用-從數(shù)據(jù)獲取到可視化(第2版)教案-教學設計 第4章 數(shù)據(jù)預處理_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

博學谷——讓IT教學更簡單,讓IT學習更有效PAGE12PAGE8《Python數(shù)據(jù)分析與應用:從數(shù)據(jù)獲取到可視化(第2版)》教學設計課程名稱:授課年級:授課學期:教師姓名:年月課題名稱第4章數(shù)據(jù)預處理計劃課時6課時教學引入在數(shù)據(jù)分析工作前期收集的數(shù)據(jù)或多或少會存在著一些瑕疵或不足,比如數(shù)據(jù)缺失、重復、格式不統(tǒng)一等,因此我們在分析數(shù)據(jù)之前需要先對數(shù)據(jù)進行預處理,包括數(shù)據(jù)清洗、數(shù)據(jù)合并、數(shù)據(jù)重塑和數(shù)據(jù)轉(zhuǎn)換。為了處理這些問題數(shù)據(jù),pandas提供了很多用于數(shù)據(jù)預處理的函數(shù)與方法。接下來,本章將針對pandas中數(shù)據(jù)預處理的內(nèi)容進行詳細地講解。教學目標使學生掌握缺失值的檢測方式,能夠通過isnull()和notnull()函數(shù)檢測數(shù)據(jù)中是否存在缺失值使學生掌握缺失值的處理方式,能夠通過dropna()或fillna()方法刪除缺失值或填充缺失值使學生掌握重復值的檢測方式,能夠通過duplicated()方法檢測數(shù)據(jù)中是否存在重復值使學生掌握重復值的處理方式,能夠通過drop_duplicates()方法刪除重復值使學生熟悉異常值的檢測方式,能夠通過3σ原則和箱形圖檢測數(shù)據(jù)中是否存在異常值使學生掌握異常值的處理方式,能夠通過replace()方法替換數(shù)據(jù)中的異常值使學生熟悉數(shù)據(jù)類型的轉(zhuǎn)換方式,能夠通過astype()方法或to_numberic()函數(shù)轉(zhuǎn)換數(shù)據(jù)類型使學生掌握數(shù)據(jù)合并的相關(guān)操作,能夠根據(jù)需求選擇適合的方案實現(xiàn)數(shù)據(jù)合并的操作使學生掌握數(shù)據(jù)重塑的相關(guān)操作,能夠根據(jù)需求選擇適合的方案實現(xiàn)數(shù)據(jù)重塑的相關(guān)操作使學生掌握數(shù)據(jù)轉(zhuǎn)換的相關(guān)操作,能夠根據(jù)需求選擇適合的方案實現(xiàn)數(shù)據(jù)轉(zhuǎn)換的相關(guān)操作教學重點缺失值的檢測缺失值的處理重復值的檢測重復值的處理堆疊合并主鍵合并教學難點異常值的檢測主鍵合并面元劃分啞變量處理教學方式課堂教學以PPT講授為主,并結(jié)合多媒體進行教學教學過程第一課時(缺失值的檢測、缺失值的處理、重復值的檢測、重復值的處理)一、創(chuàng)設情景,導入新課教師提前準備兩份數(shù)據(jù),一份不包含缺失值、重復值、異常值的數(shù)據(jù),一份包含缺失值、重復值、異常值的數(shù)據(jù),給學生提問問題,例如問題是:如果要計算平均值,大家覺得哪份數(shù)據(jù)得到的結(jié)果相對是比較準確的,并根據(jù)學生的問題進行總結(jié),引出數(shù)據(jù)清洗的好處,也就是提高數(shù)據(jù)的質(zhì)量,從而實現(xiàn)導入新課的目的。二、新課講解知識點1-缺失值的檢測教師通過PPT結(jié)合實操的形式講解缺失值的檢測。(1)什么是缺失值缺失值是指數(shù)據(jù)集中某個或某些屬性的值是不完整的。缺失值一般使用None或np.nan表示,統(tǒng)一標記為NaN。(2)檢測缺失值的方式isnull():在檢測到缺失值的位置標記True,其他位置標記為False。notnull():在檢測到缺失值的位置標記False,其他位置標記為True。(3)通過代碼演示如何使用isnull()函數(shù)檢測缺失值(4)通過代碼演示如何使用notnull()函數(shù)檢測缺失值(5)通過代碼演示如何自定義函數(shù)來了解缺失值的占比情況知識點2-缺失值的處理教師通過PPT結(jié)合實操的形式講解缺失值的處理。(1)處理缺失值的方式刪除缺失值填充缺失值(2)dropna()方法的語法格式(3)通過代碼演示如何使用dropna()方法刪除缺失值(4)fillna()方法的語法格式(5)通過代碼演示如何使用fillna()方法填充缺失值(6)填充不同的值在調(diào)用fillna()方法填充缺失值時傳入一個字典給value參數(shù),其中字典的鍵為列索引,字典的值為待替換的值。(7)通過代碼演示如何使用fillna()方法填充不同的值。(8)填充缺失值相鄰的前面的有效值在調(diào)用fillna()方法時給method參數(shù)傳入值ffill,指定填充方式為前向填充。(9)通過代碼演示如何使用fillna()方法實現(xiàn)前向填充的效果。知識點3-重復值的檢測教師通過PPT結(jié)合實操的形式講解重復值的檢測。(1)什么是重復值重復值是指數(shù)據(jù)集中某個或某些記錄是完全相同的。(2)檢測重復值的方式duplicated()方法默認會對所有數(shù)據(jù)進行檢測,檢測的標準為:只要一行數(shù)據(jù)與其他行數(shù)據(jù)的所有值是完全相同的,就會將這一行數(shù)據(jù)判定為重復值,并標記為True,非重復值標記為False。(3)duplicated()方法的語法格式(4)通過代碼演示如何使用duplicated()方法檢測缺失值知識點4-重復值的處理教師通過PPT結(jié)合實操的形式講解重復值的處理。(1)重復值的處理方式重復值會影響分析結(jié)果的準確性,一般情況下需要進行刪除。(2)drop_duplicates()方法的語法格式(3)通過代碼演示如何使用drop_duplicates()方法刪除重復值三、歸納總結(jié)教師回顧本節(jié)課所講的內(nèi)容,并通過測試題的方式引導學生解答問題并給予指導。四、布置作業(yè)教師通過高校教輔平臺()布置本節(jié)課作業(yè)以及下節(jié)課的預習作業(yè)。第二課時(異常值的檢測、異常值的處理、轉(zhuǎn)換數(shù)據(jù)類型、堆疊合并)一、復習鞏固教師通過上節(jié)課作業(yè)的完成情況,對學生吸收不好的知識點進行再次鞏固講解。二、通過直接引入的方式導入新課上節(jié)課我們主要學習了缺失值的檢測與處理、重復值的檢測與處理,本節(jié)課將繼續(xù)學習異常值的檢測與處理、轉(zhuǎn)換數(shù)據(jù)類型和堆疊合并。三、新課講解知識點1-異常值的檢測教師通過PPT結(jié)合實操的形式講解異常值的檢測。(1)什么是異常值異常值是指數(shù)據(jù)集中的個別值明顯偏離它所屬數(shù)據(jù)集的其余值,這些數(shù)值是不合理的或錯誤的。(2)異常值的檢測方式3σ原則:適用于符合或近似正態(tài)分布的數(shù)據(jù)集。箱形圖:可以檢測任意的數(shù)據(jù)集。(3)基于3σ原則檢測的原理凡是誤差超過(μ-3σ,μ+3σ)區(qū)間的數(shù)值就認為是異常值。(4)基于3σ原則檢測的函數(shù)(5)通過代碼演示如何基于3σ原則檢測異常值(6)基于箱形圖檢測的原理箱形圖可以展示異常值。異常值的范圍一般是小于Q1–1.5IQR或大于Q3+1.5IQR。(7)通過代碼演示如何繪制繪制箱形圖(8)通過代碼演示如何確定異常值的位置知識點2-異常值的處理教師通過PPT結(jié)合實操的形式講解異常值的處理。(1)異常值的處理方式異常值被檢測出來之后,需要進一步確認是否為真正的異常值。通常情況下會使用指定的值或根據(jù)一些算法計算的值替換異常值。(2)replace()方法的語法格式(3)通過代碼演示如何使用replace()方法替換一個異常值(4)通過代碼演示如何使用replace()方法替換多個異常值知識點3-轉(zhuǎn)換數(shù)據(jù)類型教師通過PPT結(jié)合實操的形式講解轉(zhuǎn)換數(shù)據(jù)類型。(1)轉(zhuǎn)換數(shù)據(jù)類型的使用場景(2)轉(zhuǎn)換數(shù)據(jù)類型的方式通過astype()方法轉(zhuǎn)換數(shù)據(jù)的類型。通過to_numeric()函數(shù)轉(zhuǎn)換數(shù)據(jù)類型。(3)astype()方法的語法格式(4)通過代碼演示如何使用astype()方法轉(zhuǎn)換數(shù)據(jù)的類型(5)to_numeric()方法的作用to_numeric()函數(shù)用于將字符串、混合類型等一些復雜類型的數(shù)據(jù)轉(zhuǎn)換為數(shù)值類型的數(shù)據(jù),并能夠按照不同的參數(shù)配置靈活地處理這些復雜類型的數(shù)據(jù)。(6)to_numeric()方法的語法格式(7)通過代碼演示如何使用to_numeric()方法轉(zhuǎn)換數(shù)據(jù)的類型知識點4-堆疊合并教師通過PPT結(jié)合實操的形式講解堆疊合并。(1)什么是堆疊合并堆疊合并指的是沿著某個軸的方向?qū)蓚€或兩個以上的對象按照一定的邏輯關(guān)系進行合并。(2)concat()函數(shù)的語法格式(3)橫向堆疊與外連接(4)通過代碼演示如何實現(xiàn)橫向堆疊與外連接的效果(5)縱向堆疊與內(nèi)連接(6)通過代碼演示如何實現(xiàn)縱向堆疊與內(nèi)連接的效果四、歸納總結(jié)教師回顧本節(jié)課所講的內(nèi)容,并通過測試題的方式引導學生解答問題并給予指導。五、布置作業(yè)教師通過高校教輔平臺()布置本節(jié)課作業(yè)以及下節(jié)課的預習作業(yè)。第三課時(主鍵合并、根據(jù)索引合并、合并重疊數(shù)據(jù)、重塑分層索引)一、復習鞏固教師通過上節(jié)課作業(yè)的完成情況,對學生吸收不好的知識點進行再次鞏固講解。二、通過直接引入的方式導入新課上節(jié)課我們主要學習了異常值的檢測、異常值的處理、轉(zhuǎn)換數(shù)據(jù)類型和堆疊合并,本節(jié)課將學習其他幾種合并數(shù)據(jù)的方式,包括主鍵合并、根據(jù)索引合并、合并重疊數(shù)據(jù),以及重塑分層索引。三、新課講解知識點1-主鍵合并教師通過PPT結(jié)合實操的形式講解主鍵合并。(1)什么是主鍵合并主鍵合并類似于關(guān)系型數(shù)據(jù)庫的主鍵查詢操作,它指的是根據(jù)一個或多個鍵將兩個對象進行合并,大多數(shù)情況下會將這兩個對象中共有的列作為合并的鍵。(2)merge()函數(shù)的語法格式(3)通過代碼演示一個鍵合并的效果(4)通過代碼演示兩個鍵合并的效果(5)通過代碼演示全外連接合并的效果(6)通過代碼演示左連接合并的效果知識點2-根據(jù)索引合并教師通過PPT結(jié)合實操的形式講解根據(jù)索引合并。(1)什么是根據(jù)索引合并根據(jù)索引合并指的是根據(jù)行索引或列索引將多個對象合并成一個對象。(2)join()方法的語法格式(3)通過代碼演示如何使用join()方法實現(xiàn)沒有重疊列合并的效果(4)通過代碼演示如何使用join()方法實現(xiàn)有重疊列合并的效果知識點3-合并重疊數(shù)據(jù)教師通過PPT結(jié)合實操的形式講解合并重疊數(shù)據(jù)。(1)combine_first()方法的語法格式(2)通過代碼演示如何使用combine_first()方法實現(xiàn)合并重疊數(shù)據(jù)的效果知識點4-重塑分層索引教師通過PPT結(jié)合實操的形式講解重塑分層索引。(1)重塑分層索引的方法stack()方法用于將數(shù)據(jù)的列“旋轉(zhuǎn)”為行。unstack()方法用于將數(shù)據(jù)的行“旋轉(zhuǎn)”為列。(2)通過代碼演示如何使用stack()方法實現(xiàn)重塑索引的操作(3)通過代碼演示如何使用unstack()方法實現(xiàn)重塑索引的操作(4)通過代碼演示如何使用stack()方法實現(xiàn)重塑分層索引的效果四、歸納總結(jié)教師回顧本節(jié)課所講的內(nèi)容,并通過測試題的方式引導學生解答問題并給予指導。五、布置作業(yè)教師通過高校教輔平臺()布置本節(jié)課作業(yè)以及下節(jié)課的預習作業(yè)。第四課時(軸向旋轉(zhuǎn)、面元劃分、啞變量處理、案例:預處理二手房數(shù)據(jù))一、復習鞏固教師通過上節(jié)課作業(yè)的完成情況,對學生吸收不好的知識點進行再次鞏固講解。二、通過直接引入的方式導入新課上節(jié)課我們主要學習了主鍵合并、根據(jù)索引合并、合并重疊數(shù)據(jù)、重塑分層索引,本節(jié)課將繼續(xù)學習軸向旋轉(zhuǎn)、面元劃分、啞變量處理,以及圍繞所學的知識完成一個案例。三、新課講解知識點1-軸向旋轉(zhuǎn)教師通過PPT結(jié)合實操的形式講解軸向旋轉(zhuǎn)。(1)軸向旋轉(zhuǎn)的舉例(2)pivot()方法的語法格式(3)通過代碼演示如何使用pivot()方法實現(xiàn)軸向旋轉(zhuǎn)的效果知識點2-面元劃分教師通過PPT結(jié)合實操的形式講解面元劃分。(1)什么是面元劃分面元劃分是指連續(xù)數(shù)據(jù)被離散化處理,按一定的映射關(guān)系劃分為相應的面元,這里的面元可以理解為區(qū)間。(2)面元劃分的舉例(3)cut()函數(shù)的語法格式(4)通過代碼演示如何使用cut()函數(shù)實現(xiàn)面元劃分操作知識點3-啞變量處理教師通過PPT結(jié)合實操的形式講解啞變量處理。(1)什么是啞變量啞變量又稱虛擬變量、名義變量等,它是人為虛設的變量,用來反映某個變量的不同類別,常用的取值為0和1。(2)get_dummies()函數(shù)的語法格式(3)通過代碼演示如何使用get_dummies()函數(shù)實現(xiàn)啞變量處理的效果知識點4-案例:預處理二手房數(shù)據(jù)教師通過PPT結(jié)合實操的形式講解案例。(1)通過PPT介紹案例的需求(2)通過代碼演示如何讀取數(shù)據(jù)和合并數(shù)據(jù)(3)通過代碼演示案例的實現(xiàn)步驟四、歸納總結(jié)教師回顧本節(jié)課所講的內(nèi)容,并通過測試題的方式引導學生解答問題并給予指導。五、布置作業(yè)教師通過高校教輔平臺()布置本節(jié)課作業(yè)以及下節(jié)課的預習作業(yè)。第五、六課時(上機練習)上機練習主要針對本章中需要重點掌握的知識點,以及在程序中容易出錯的內(nèi)容進行練習,通過上機練習可以考察同學對知識點的掌握情況,對代碼的熟練程度。上機一:(考察知識點為缺失值的檢測、缺失值的處理、重復值的檢測、重復值的處理、異常值的檢測、異常值的處理)形式:單獨完成題目:練習4

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論