![《機器學習與Python實踐》課件-機器學習項目流程_第1頁](http://file4.renrendoc.com/view15/M00/03/02/wKhkGWetRzyAO60YAACiwx6OprA668.jpg)
![《機器學習與Python實踐》課件-機器學習項目流程_第2頁](http://file4.renrendoc.com/view15/M00/03/02/wKhkGWetRzyAO60YAACiwx6OprA6682.jpg)
![《機器學習與Python實踐》課件-機器學習項目流程_第3頁](http://file4.renrendoc.com/view15/M00/03/02/wKhkGWetRzyAO60YAACiwx6OprA6683.jpg)
![《機器學習與Python實踐》課件-機器學習項目流程_第4頁](http://file4.renrendoc.com/view15/M00/03/02/wKhkGWetRzyAO60YAACiwx6OprA6684.jpg)
![《機器學習與Python實踐》課件-機器學習項目流程_第5頁](http://file4.renrendoc.com/view15/M00/03/02/wKhkGWetRzyAO60YAACiwx6OprA6685.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
本章目錄01
機器學習項目流程概述02數(shù)據(jù)清洗03特征工程04數(shù)據(jù)建模1.機器學習項目流程概述01
機器學習項目流程概述02數(shù)據(jù)清洗03特征工程04數(shù)據(jù)建模機器學習的一般步驟機器學習的一般步驟
數(shù)據(jù)搜集數(shù)據(jù)清洗特征工程數(shù)據(jù)建模機器學習的一般步驟
數(shù)據(jù)搜集數(shù)據(jù)清洗特征工程數(shù)據(jù)建模基于性能指標比較幾種機器學習模型對最佳模型執(zhí)行超參數(shù)調(diào)整在測試集上評估最佳模型解釋模型結(jié)果得出結(jié)論數(shù)據(jù)清理和格式化探索性數(shù)據(jù)分析(EDA)特征工程特征選擇網(wǎng)絡下載網(wǎng)絡爬蟲數(shù)據(jù)庫讀取開放數(shù)據(jù)……2.數(shù)據(jù)清洗01
機器學習項目流程概述02數(shù)據(jù)清洗03特征工程04數(shù)據(jù)建模2.數(shù)據(jù)清洗什么是數(shù)據(jù)清洗?數(shù)據(jù)清洗是指發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識別的錯誤的最后一道程序,包括檢查數(shù)據(jù)一致性,處理無效值和缺失值等。與問卷審核不同,錄入后的數(shù)據(jù)清理一般是由計算機而不是人工完成。2.數(shù)據(jù)清洗不合法值空值異常檢測重復處理拼寫錯誤命名習慣數(shù)理統(tǒng)計技術(shù)數(shù)據(jù)挖掘技術(shù)臟數(shù)據(jù)數(shù)據(jù)清理策略、規(guī)則滿足數(shù)據(jù)質(zhì)量要求的數(shù)據(jù)數(shù)據(jù)清理原理探索性數(shù)據(jù)分析(EDA)探索性數(shù)據(jù)分析(EDA)是一個開放式流程,我們制作繪圖并計算統(tǒng)計數(shù)據(jù),以便探索我們的數(shù)據(jù)。目的是找到異常,模式,趨勢或關(guān)系。這些可能是有趣的(例如,找到兩個變量之間的相關(guān)性),或者它們可用于建模決策,例如使用哪些特征。簡而言之,EDA的目標是確定我們的數(shù)據(jù)可以告訴我們什么!探索性數(shù)據(jù)分析(EDA)探索性數(shù)據(jù)分析(EDA)單變量圖顯示此變量的分布plt.hist()可以顯示單變量圖,也叫直方圖探索性數(shù)據(jù)分析(EDA)boxplot
:箱型圖又稱為盒須圖、盒式圖或箱線圖,是一種用作顯示一組數(shù)據(jù)分散情況資料的統(tǒng)計圖。它能顯示出一組數(shù)據(jù)的最大值、最小值、中位數(shù)及上下四分位數(shù)。探索性數(shù)據(jù)分析(EDA)IQR=Q3-Q1,即上四分位數(shù)與下四分位數(shù)之間的差,也就是盒子的長度。最小觀測值為min=Q1-1.5*IQR,如果存在離群點小于最小觀測值,則下限為最小觀測值,離群點單獨以點匯出。最大觀測值為max=Q3+1.5*IQR,如果存在離群點大于最大觀測值,則上限為最大觀測值,離群點單獨以點匯出。如果沒有比最大觀測值大的數(shù),則上限為最大值。探索性數(shù)據(jù)分析(EDA)尋找關(guān)系為了查看分類變量-categoricalvariables對分數(shù)的影響,我們可以通過分類變量的值來繪制密度圖。密度圖還顯示單個變量的分布,可以認為是平滑的直方圖。如果我們通過為分類變量密度曲線著色,這將向我們展示分布如何基于類別變化的。探索性數(shù)據(jù)分析(EDA)這幅圖我們可以看到建筑類型對EnergyStarScore有重大影響。辦公樓往往有較高的分數(shù),而酒店的分數(shù)較低。
探索性數(shù)據(jù)分析(EDA)現(xiàn)在我們有了正確的列數(shù)據(jù)類型,我們可以通過查看每列中缺失值的百分比來開始分析。當我們進行探索性數(shù)據(jù)分析時,缺失的值很好,但是必須使用機器學習方法進行填寫。探索性數(shù)據(jù)分析(EDA)PairsPlot是一次檢查多個變量的好方法,因為它顯示了對角線上的變量對和單個變量直方圖之間的散點圖。3.特征工程01
機器學習項目流程概述02數(shù)據(jù)清洗03特征工程04數(shù)據(jù)建模3.特征工程特征工程和特征選擇特征工程:獲取原始數(shù)據(jù)并提取或創(chuàng)建新特征的過程。這可能意味著需要對變量進行變換,例如自然對數(shù)和平方根,或者對分類變量進行one-hot編碼,以便它們可以在模型中使用。一般來說,我認為特征工程是從原始數(shù)據(jù)創(chuàng)建附加特征。特征選擇:選擇數(shù)據(jù)中最相關(guān)的特征的過程。在特征選擇中,我們刪除特征以幫助模型更好地總結(jié)新數(shù)據(jù)并創(chuàng)建更具可解釋性的模型。一般來說,特征選擇是減去特征,所以我們只留下那些最重要的特征。特征工程主要方法離散型變量處理分箱/分區(qū)交叉特征特征縮放特征提取……特征工程在數(shù)據(jù)挖掘中有舉足輕重的位置數(shù)據(jù)領(lǐng)域一致認為:數(shù)據(jù)和特征決定了機器學習的上限,而模型和算法只能逼近這個上限而已。特征工程重要性:特征越好,靈活性越強;特征越好,模型越簡單;特征越好,性能越出色;好特征即使使用一般的模型,也能得到很好的效果!3.特征工程特征選擇主要方法去除變化小的特征去除共線特征去除重復特征主成分分析(PCA)……特征選擇主要有兩個功能:減少特征數(shù)量、降維,使模型泛化能力更強,減少過擬合增強對特征和特征值之間的理解3.特征工程數(shù)據(jù)劃分訓練集測試集數(shù)據(jù)集驗證集訓練集測試集驗證集時間序列不考慮時間因素,通常打亂數(shù)據(jù)3.特征工程4.數(shù)據(jù)建模01
機器學習項目流程概述02數(shù)據(jù)清洗03特征工程04數(shù)據(jù)建模數(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025小學五年級少先隊工作計劃(5篇)
- 2024-2025學年第16課中國賦稅制度的演變-勤徑學升高中歷史選擇性必修1同步練測(統(tǒng)編版2019)
- 2025年雙方共同撫養(yǎng)孩子的離異協(xié)議書
- 2025年姿態(tài)敏感器項目立項申請報告模范
- 2025年中藥材供應協(xié)議書
- 2025年醫(yī)用手器械租賃合同
- 2025年會員服務權(quán)益轉(zhuǎn)移協(xié)議
- 2025年銅基記憶合金材料項目申請報告模板
- 2025年螺旋錐齒輪項目提案報告模板
- 2025年沙發(fā)項目規(guī)劃申請報告模稿
- 新教科版三年級下冊科學 第二單元重點題型練習課件
- 新概念英語第三冊課后習題答案詳解
- 寧夏回族自治區(qū)地圖矢量動態(tài)PPT模板(圖文)
- 靜脈中等長度導管臨床應用專家共識-
- 中小學教師教育法律法規(guī)培訓PPT頁
- 事故隱患報告和舉報獎勵制度
- 陶行知教育名篇讀書分享ppt
- 學前兒童數(shù)學教育高職全套完整教學課件
- 高考百日誓師教師誓詞
- 2023年河南省開封市中考一模數(shù)學試題
- 菲斯特轉(zhuǎn)子秤的
評論
0/150
提交評論