《Python機器學習:原理與實踐(第2版)》課件 薛薇 - 第1-3章 機器學習概述-數(shù)據(jù)預測與預測建模_第1頁
《Python機器學習:原理與實踐(第2版)》課件 薛薇 - 第1-3章 機器學習概述-數(shù)據(jù)預測與預測建模_第2頁
《Python機器學習:原理與實踐(第2版)》課件 薛薇 - 第1-3章 機器學習概述-數(shù)據(jù)預測與預測建模_第3頁
《Python機器學習:原理與實踐(第2版)》課件 薛薇 - 第1-3章 機器學習概述-數(shù)據(jù)預測與預測建模_第4頁
《Python機器學習:原理與實踐(第2版)》課件 薛薇 - 第1-3章 機器學習概述-數(shù)據(jù)預測與預測建模_第5頁
已閱讀5頁,還剩57頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第1章機器學習概述機器學習的發(fā)展:人工智能中的機器學習

機器學習的核心:數(shù)據(jù)和數(shù)據(jù)建模符號主義人工智能:基于“一切都可規(guī)則化編碼”的基本信念:通過硬編碼,依指定規(guī)則自動完成相應的處理任務例:依據(jù)BMI判斷肥胖棋類對弈程序專家系統(tǒng)(沒有常識的專家系統(tǒng)是沒有意義的)符號主義人工智能(弱人工智能)很難解決沒有明確規(guī)則定義的問題(諸如語言翻譯、語音識別、圖像分類等)不能僅依據(jù)BMI對肥胖進行判斷機器學習的發(fā)展:人工智能中的機器學習

誕生于20世紀50年代的人工智能(ArtificialIntelligence,AI),因旨在實現(xiàn)人腦部分思維的計算機模擬,完成人類智力任務的自動化實現(xiàn)強人工智能:會聽(語音識別和機器翻譯等)、會看(文字識別和圖像識別等)、會說(語音合成和人機對話等)、會學習(知識表示和機器學習等)、會思考(邏輯推理和人機對弈)和會行動(機器人和自動駕駛等)的能力人工智能的研究經(jīng)歷了從符號主義人工智能(symbolicAI)、機器學習(MachineLearning)、深度學習(DeepLearning)的不同發(fā)展階段第1章機器學習概述機器學習的發(fā)展:人工智能中的機器學習

第1章機器學習概述人工智能的研究經(jīng)歷了從符號主義人工智能(symbolicAI),到機器學習(MachineLearning)到深度學習(DeepLearning)的不同發(fā)展階段。符號主義人工智能:基于“一切都可規(guī)則化編碼”的基本信念機器學習概念的提出源于“人工智能之父”阿蘭·圖靈的圖靈測試:“思考的機器”是可能的機器學習目的:教計算機借助某些算法完成任務相對于經(jīng)典的程序設計范式,機器學習是一種新的編程范式機器學習的核心:數(shù)據(jù)和數(shù)據(jù)建模

實現(xiàn)新的編程范式的核心任務發(fā)現(xiàn)隱藏在“數(shù)據(jù)”和“答案”中的“規(guī)則”理論可行性:1783年貝葉斯提出的貝葉斯定理存在一種能夠從歷史經(jīng)驗,即數(shù)據(jù)集中的“數(shù)據(jù)”和“答案”中,學習兩者之間關聯(lián)性“規(guī)則”的數(shù)學方法將“數(shù)據(jù)”和“答案”視為一種廣義數(shù)據(jù),借助數(shù)學方法學習“規(guī)則”的本質(zhì)是基于數(shù)據(jù)的建模從機器學習到深度學習:2006年提出的深度學習從數(shù)據(jù)中學習“數(shù)據(jù)表示”強調(diào)基于訓練數(shù)據(jù),通過眾多連續(xù)的神經(jīng)網(wǎng)絡層,過濾和提取數(shù)據(jù)中的服務于預測的重要特征相對于擁有眾多層的深度學習,機器學習有時也被稱為淺層學習(ShallowLearning)第1章機器學習概述機器學習的核心:數(shù)據(jù)和數(shù)據(jù)建模

機器學習的對象:數(shù)據(jù)集合,簡稱數(shù)據(jù)集(也稱樣本集)例如:結構化數(shù)據(jù):數(shù)據(jù)集中的一行通常稱為一個樣本觀測數(shù)據(jù)集中的一列通常稱為一個變量(特征)依各變量的取值類型可將變量細分為:數(shù)值型、順序型和類別型三類,后兩類統(tǒng)稱為分類型不同視角下的數(shù)據(jù)集合經(jīng)典統(tǒng)計中的樣本;基于樣本對總體特征或關系進行推斷機器學習中的數(shù)據(jù)集,一般不具有隨機樣本的典型特征第1章機器學習概述機器學習的核心:數(shù)據(jù)和數(shù)據(jù)建模

半結構化數(shù)據(jù):結構不固定的數(shù)據(jù)例:員工簡歷數(shù)據(jù)JSON(JavaScriptObjectNotation)格式:非結構化數(shù)據(jù):文本、圖像、音頻和視頻數(shù)據(jù)數(shù)據(jù)的數(shù)字化和結構化處理數(shù)字的數(shù)字化二進制,比特位文本的數(shù)字化ASCII編碼、國家漢字編碼標準GBK、萬國碼圖形的數(shù)字化:位圖和矢量圖類似于計算機字形碼第1章機器學習概述機器學習的核心:數(shù)據(jù)和數(shù)據(jù)建模

機器學習的任務:數(shù)據(jù)建模,完成兩大主要任務:數(shù)據(jù)預測;數(shù)據(jù)聚類數(shù)據(jù)預測:基于已有數(shù)據(jù)集,歸納出輸入變量和輸出變量之間的數(shù)量關系回歸預測和分類預測(二分類預測和多分類預測)目的:在數(shù)量關系具有普適性和未來不變的假設下,可用于對新數(shù)據(jù)輸出變量取值的預測發(fā)現(xiàn)對輸出變量產(chǎn)生重要影響的輸入變量例如:空氣質(zhì)量數(shù)據(jù)的分析方法特點:經(jīng)典統(tǒng)計一般為驗證式分析;機器學習的歸納式分析特點(從統(tǒng)計的模型驅動到機器學習的數(shù)據(jù)驅動)統(tǒng)計方法有嚴格的數(shù)理支撐;機器學習探索式的試驗發(fā)現(xiàn)第1章機器學習概述機器學習的核心:數(shù)據(jù)和數(shù)據(jù)建模

機器學習的任務:數(shù)據(jù)聚類發(fā)現(xiàn)數(shù)據(jù)中可能存在的小類,并通過小類刻畫和揭示數(shù)據(jù)的內(nèi)在組織結構聚類結果:給每個樣本觀測指派一個屬于哪個小類的標簽,稱為聚類解。聚類解將保存在一個新生成的分類型變量中例如:數(shù)據(jù)聚類和數(shù)據(jù)預測中的分類有聯(lián)系更有區(qū)別:有監(jiān)督學習和無監(jiān)督學習第1章機器學習概述機器學習的核心:數(shù)據(jù)和數(shù)據(jù)建模

機器學習的任務:數(shù)據(jù)建模其他方面:關聯(lián)分析:尋找到事物之間的聯(lián)系規(guī)律,發(fā)現(xiàn)它們之間的關聯(lián)性模式診斷:模式(Pattern)是一個數(shù)據(jù)集合,由分散于數(shù)據(jù)集中的極少量的零星數(shù)據(jù)組成。模式通常具有其他眾多數(shù)據(jù)所沒有的某種局部的、非隨機的、非常規(guī)的特殊結構或相關性。模式診斷就是要從不同角度采用不同方法發(fā)現(xiàn)數(shù)據(jù)中可能存在的模式第1章機器學習概述第2章機器學習中的Python基礎Python:機器學習的首選工具Python的集成開發(fā)環(huán)境:AnacondaPython第三方包的引用NumPy使用示例Pandas使用示例NumPy和Pandas的綜合應用Matplotlib的綜合應用Python:機器學習的首選工具

Python是一款面向對象的解釋型計算機語言。開源、代碼可讀性強,可實現(xiàn)高效開發(fā)等是Python的重要特征面向對象的程序設計(ObjectOrientedProgramming,OOP)是相對面向過程的程序設計而言的OOP采用“封裝”的思想,將具有一定獨立性和通用性的處理過程和變量(數(shù)據(jù)),封裝在“對象”中變量稱為對象的“屬性”,變量值對應屬性值(有具體變量值的對象稱為“對象實例”)處理過程稱為對象的“方法”多個具有內(nèi)在聯(lián)系的對象可進一步封裝在“類”中Python在機器學習領域獲得廣泛使用的原因:簡明易用,嚴謹專業(yè)良好的開發(fā)社區(qū)生態(tài)豐富的第三方程序包NumPyPandasSciPyMatplotlibScikit-learn(skLearn)第2章Python機器學習基礎Python的集成開發(fā)環(huán)境:Anaconda

Anaconda:兼容Linux、Windows和MacOSX.環(huán)境,支持Python2.X和Python3.X,且可方便快捷完成機器學習和數(shù)據(jù)科學任務的開源IDE通常將Anaconda可視為Python的發(fā)行版Anaconda?Anaconda的官方下載地址為:/AnacondaPrompt的使用第2章Python機器學習基礎Python的集成開發(fā)環(huán)境:Anaconda

Spyder的使用:

Python程序的擴展名為.py第2章Python機器學習基礎JupyterNotebook的使用:

1984年提出的文字表達化編程形式的具體體現(xiàn)是一個基于網(wǎng)頁的交互式筆記本;擴展名為.ipynb的JSON格式文件第2章Python機器學習基礎Python第三方包的引用第三方包以模塊(Moduel,文件擴展名為.py)方式,將可實現(xiàn)各種功能的程序代碼(變量、函數(shù))“打包”在一起包由多個相關模塊組成,一般以文件目錄的形式組織(目錄名為包名)引用第三方包中的模塊的基本函數(shù):import函數(shù)import

包名或模塊名:導入指定包或模塊import

包名.模塊名:導入指定包中的指定模塊from

模塊名

import函數(shù)名:導入指定模塊中的指定函數(shù)from

模塊名

import

函數(shù)名1,函數(shù)名2,…:導入指定模塊中的若干個指定函數(shù)from

模塊名

import*:導入指定模塊中的所有函數(shù)可增加:as別名importnumpyasnp,表示導入numpy并指定別名為np指定別名可以有效避免不同模塊有相同函數(shù)名的問題之后可在自己編寫的Python程序直接調(diào)用已導入模塊中的函數(shù),通過代碼重用(重復使用)的方式快速實現(xiàn)某種特定功能第2章Python機器學習基礎

列表:Python重要的數(shù)據(jù)組織形式,NumPy數(shù)組數(shù)據(jù)的重要來源NumPy數(shù)組中元素應有相同的數(shù)據(jù)類型,列表可以不同Chapter2_1.ipynb第2章Python機器學習基礎NumPy(NumericalPython)使用示例:最常用的

Python

包。特點:第二,擁有豐富的數(shù)學運算和統(tǒng)計函數(shù)指定種子的目的是確保每次運行代碼時生成的隨機數(shù)可以再現(xiàn)。否則,每次運行代碼生成的隨機數(shù)會不相同random.randn()生成服從均值為0標準差為1的標準正態(tài)分布的隨機數(shù)Chapter2_1.ipynb第2章Python機器學習基礎NumPy(NumericalPython)使用示例:最常用的

Python

包。特點:第二,擁有豐富的數(shù)學運算和統(tǒng)計函數(shù)random.normal()函數(shù)生成2行5列的2維數(shù)組,數(shù)組元素服從均值為5標準差為1的正態(tài)分布利用floor函數(shù)得到距各數(shù)組元素最近的最大整數(shù)eye(5)函數(shù)生成5行5列的單位陣YChapter2_1.ipynb第2章Python機器學習基礎Pandas(Pythondataanalysis)使用示例:提供了快速便捷組織和處理結構化數(shù)據(jù)的數(shù)據(jù)結構和大量功能豐富的函數(shù)。特點:基于NumPy構建:序列(Series):對應1維數(shù)組數(shù)據(jù)框(DataFrame):對應2維表格型數(shù)據(jù)結構,也稱數(shù)據(jù)框為序列的容器Pandas數(shù)據(jù)框是存儲機器學習數(shù)據(jù)集的常用形式Pandas的索引Chapter2_2.ipynb第2章Python機器學習基礎Pandas的數(shù)據(jù)框Chapter2_2.ipynb第2章Python機器學習基礎Pandas的數(shù)據(jù)加工處理Chapter2_2.ipynb第2章Python機器學習基礎NumPy和Pandas的綜合應用:空氣質(zhì)量監(jiān)測數(shù)據(jù)的預處理和基本分析數(shù)據(jù)預處理Chapter2_3.ipynb第2章Python機器學習基礎基本分析NumPy和Pandas的綜合應用:空氣質(zhì)量監(jiān)測數(shù)據(jù)的預處理和基本分析Chapter2_3.ipynb第2章Python機器學習基礎派生虛擬自變量NumPy和Pandas的綜合應用:空氣質(zhì)量監(jiān)測數(shù)據(jù)的預處理和基本分析Chapter2_3.ipynb第2章Python機器學習基礎抽取數(shù)據(jù)子集NumPy和Pandas的綜合應用:空氣質(zhì)量監(jiān)測數(shù)據(jù)的預處理和基本分析Chapter2_3.ipynb第2章Python機器學習基礎AQI的時序變化特點Matplotlib的綜合應用:空氣質(zhì)量監(jiān)測數(shù)據(jù)的圖形化展示Chapter2_4.ipynb第2章Python機器學習基礎第3章數(shù)據(jù)預測與預測建模從線性回歸預測模型說起認識線性分類預測模型從線性預測模型到非線性預測模型預測模型的參數(shù)估計預測模型的選擇導言

數(shù)據(jù)預測,簡而言之就是基于已有數(shù)據(jù)集,歸納出輸入變量和輸出變量之間的數(shù)量關系?;谶@種數(shù)量關系:一方面,可發(fā)現(xiàn)對輸出變量產(chǎn)生重要影響的輸入變量;另一方面,在數(shù)量關系具有普適性和未來不變的假設下,可用于對新數(shù)據(jù)輸出變量取值的預測。對數(shù)值型輸出變量的預測稱為回歸。對分類型輸出變量的預測稱為分類數(shù)據(jù)預測涉及的問題第一,預測模型基礎第二,參數(shù)估計策略第三,模型選擇第3章數(shù)據(jù)預測與預測建模從線性回歸預測模型說起

預測模型一般以數(shù)學形式展現(xiàn),以精確刻畫和表述輸入變量和輸出變量取值之間的數(shù)量關系??杉毞譃榛貧w預測模型和分類預測模型,分別適用于回歸問題和分類問題線性回歸預測模型的含義線性回歸預測模型用于預測的回歸方程應明確模型系數(shù)的實際含義應明確預測模型和回歸方程的聯(lián)系第3章數(shù)據(jù)預測與預測建模

從線性回歸預測模型說起

線性回歸模型的幾何理解可將數(shù)據(jù)集中的N個樣本觀測數(shù)據(jù),視為m維實數(shù)空間中的N

個點幾何上與2維平面中的一條直線相對應,該直線稱為回歸直線與3維平面中的一個平面相對應,該平面稱為回歸平面線性回歸預測模型的評價均方誤差:越小越好擬合優(yōu)度:R方,越接近1越好第3章數(shù)據(jù)預測與預測建模

從線性回歸預測模型說起

Python應用實踐:PM2.5濃度預測建立一元線性回歸模型第3章數(shù)據(jù)預測與預測建模Chapter3_1.ipynb從線性回歸預測模型說起

Python應用實踐:PM2.5濃度預測建立多元線性回歸模型第3章數(shù)據(jù)預測與預測建模Chapter3_1.ipynbPython模擬:可通過增加模型的復雜度減少模型的預測誤差第3章數(shù)據(jù)預測與預測建模

增加模型復雜度可以有效降低模型的預測誤差,但當復雜度達到一定程度后再繼續(xù)增加就不再有意義了Chapter3_2.ipynbLogistic回歸預測模型:分類預測模型僅討論二分類預測模型,多分類預測可通過多個二分類預測實現(xiàn)再看一般線性回歸模型對響應概率建模,稱為:一般線性概率模型一般線性概率模型的不足:無法保證模型給出的概率值限制在0-1范圍內(nèi)線性概率模型反映了概率與自變量取值之間的線性而非一般經(jīng)驗上的非線性關系例:收入和購買某奢侈品的概率認識線性分類預測模型

第3章數(shù)據(jù)預測與預測建模Logistic回歸預測模型:二分類預測模型

認識線性分類預測模型

第3章數(shù)據(jù)預測與預測建模Logistic回歸預測模型:二分類預測模型β的實際意義仍不明顯例:有x1,x2兩個輸入變量;當x1從0變化到1時:優(yōu)勢(odds)優(yōu)勢比(OddsRatio)Logistic回歸模型中:于是:輸入變量變化一個單位引起的優(yōu)勢比為exp(β)輸入變量變化一個單位引起響應概率比(相對風險)近似為exp(β)接近0時

第3章數(shù)據(jù)預測與預測建模認識線性分類預測模型

線性分類模型的幾何理解二分類預測建模的目的,就是找到一條能夠將不同形狀或顏色的樣本觀測點有效分開的分類線,即分類邊界分類直線分類平面第3章數(shù)據(jù)預測與預測建模Python應用實踐:空氣質(zhì)量等級預測建立簡單二分類預測模型數(shù)據(jù)預處理建立二項Logistic回歸模型繪制二項Logistic回歸模型的分類邊界計算分類模型的評價指標

(chapter3-3.ipynb)

第3章數(shù)據(jù)預測與預測建模Python應用實踐:空氣質(zhì)量等級預測建立簡單二分類預測模型模型的評價(chapter3-3.ipynb)第3章數(shù)據(jù)預測與預測建模認識線性分類預測模型

二分類預測模型中的誤差評價指標混淆矩陣注意:總錯判率會受數(shù)據(jù)不平衡性的影響TPR(真正率)TNR1-TNR=FPR(假正率)第3章數(shù)據(jù)預測與預測建模

查全率也稱召回率(Recall)第3章數(shù)據(jù)預測與預測建模Python應用實踐:空氣質(zhì)量等級預測建立較復雜的二分類預測模型建立二項Logistic回歸模型計算模型的混淆矩陣,總正確率,F(xiàn)1得分評價模型:采用二分類模型評價的圖形化方式ROC曲線和PR曲線評價模型預測精度優(yōu)于前模型(chapter3-3.ipynb)第3章數(shù)據(jù)預測與預測建模預測模型的評價---模型的圖形化評價工具

ROC曲線按預測概率降序排序取分位點上的概率值作為判斷1/0的閾值計算TPR和FPR,點連線AUC值第3章數(shù)據(jù)預測與預測建模Python應用實踐:空氣質(zhì)量等級預測ROC曲線和AUC值;PR曲線chapter3-3.ipynb第3章數(shù)據(jù)預測與預測建模

第3章數(shù)據(jù)預測與預測建模提高預測精度從直線到曲線,從平面到曲面

從線性預測模型到非線性預測模型

解決非線性回歸和非線性分類問題:從直線到曲線,從平面到曲面第3章數(shù)據(jù)預測與預測建模

預測模型的參數(shù)估計

總損失:第3章數(shù)據(jù)預測與預測建模

預測模型的參數(shù)估計

其中:第3章數(shù)據(jù)預測與預測建模

預測模型的參數(shù)估計

第3章數(shù)據(jù)預測與預測建模參數(shù)解空間和搜索策略參數(shù)的最小二乘估計損失函數(shù)L是模型參數(shù)的非負二次函數(shù)

第3章數(shù)據(jù)預測與預測建模參數(shù)解空間和搜索策略在預測模型參數(shù)解空間中,采用一定的搜索策略估計參數(shù)梯度下降法預測模型的參數(shù)估計第3章數(shù)據(jù)預測與預測建模預測模型的選擇

預測模型的選擇涉及兩個問題:如何估計預測模型未來的預測性能?若僅傾向選擇復雜模型會導致哪些問題,應如何解決?兩個重要概念訓練誤差:指預測模型對訓練集中各樣本觀測輸出變量的實際值與預測值不一致程度的數(shù)值化度量。泛化誤差:是預測模型對新數(shù)據(jù)集進行預測時,給出的預測值和實際值不一致程度的數(shù)值化度量。預測誤差測度模型在未來新數(shù)據(jù)集上的預測性能。泛化誤差值較低,說明模型具有一般預測場景下的普適性和推廣性,認為模型有較高的泛化能力訓練誤差和泛化誤差的不同預測建模時可直接計算出預測模型的訓練誤差泛化誤差是未知的,無法直接計算得到,只能給出泛化誤差的估計值第3章數(shù)據(jù)預測與預測建模預測模型的選擇

泛化誤差的估計訓練誤差,即為用于估計預測模型參數(shù)(也稱訓練預測模型)的數(shù)據(jù)集,其中的樣本觀測稱為“袋內(nèi)觀測”在恰當?shù)挠柧殬颖玖肯?,增加模型的復雜度會帶來訓練誤差的降低模型復雜度確定的條件下,訓練誤差會隨樣本量增加而下降第3章數(shù)據(jù)預測與預測建模預測模型的選擇

第3章數(shù)據(jù)預測與預

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論