版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
機器學(xué)習(xí)基礎(chǔ)概述《Python機器學(xué)習(xí)與項目實踐》XXX大學(xué)教學(xué)內(nèi)容機器學(xué)習(xí)概念原理線性回歸定義經(jīng)驗風(fēng)險最小化最小均方誤差結(jié)構(gòu)風(fēng)險最小化最大似然估計最大后驗估計機器學(xué)習(xí)的幾個關(guān)鍵點數(shù)據(jù)特征表示“狗”“大家好”“X-Y”“我有什么可以幫你嗎”“你好”用戶輸入機器(落子位置)語音識別圖像識別圍棋對話系統(tǒng)特征是被觀測對象的一個獨立可觀測的屬性或特點。特征工程和特征學(xué)習(xí)特征學(xué)習(xí)(或表征學(xué)習(xí))是一種將原始數(shù)據(jù)轉(zhuǎn)換為能夠被機器學(xué)習(xí)并有效開發(fā)的數(shù)據(jù)的一種技術(shù),即如何讓機器自動地學(xué)習(xí)出有效的特征。特征工程利用領(lǐng)域知識和現(xiàn)有樣本數(shù)據(jù),創(chuàng)造出新的特征。主要包括特征選擇(FeatureSelection)、特征提?。‵eatureExtraction)和特征構(gòu)建(FeatureConstruction)。評價指標機器學(xué)習(xí)分類任務(wù)的常用評價指標:準確率(Accuracy)、精確率(Precision)、召回率(Recall)、P-R曲線(Precision-RecallCurve)、F1-Score、ROC、AUC、混淆矩陣(ConfuseMatrix)。評價指標機器學(xué)習(xí)分類任務(wù)的常用評價指標:準確率(Accuracy)、準確率的定義是預(yù)測正確的結(jié)果占總樣本的百分比,真正例(TruePositive,TP):被模型預(yù)測為正的正樣本;假正例(FalsePositive,F(xiàn)P):被模型預(yù)測為正的負樣本;假負例(FalseNegative,F(xiàn)N):被模型預(yù)測為負的正樣本;真負例(TrueNegative,TN):被模型預(yù)測為負的負樣本。評價指標機器學(xué)習(xí)分類任務(wù)的常用評價指標:精確率(Precision)、評價指標機器學(xué)習(xí)分類任務(wù)的常用評價指標:召回率(Recall)、評價指標機器學(xué)習(xí)分類任務(wù)的常用評價指標:P-R曲線(Precision-RecallCurve)、P-R曲線是描述精確率/召回率變化的曲線。評價指標機器學(xué)習(xí)分類任務(wù)的常用評價指標:F1-Score是精確率和召回率的加權(quán)調(diào)和平均。評價指標機器學(xué)習(xí)分類任務(wù)的常用評價指標:ROC、AUC、混淆矩陣(ConfuseMatrix)。評價指標機器學(xué)習(xí)分類任務(wù)的常用評價指標:ROC、ROC曲線圖評價指標機器學(xué)習(xí)分類任務(wù)的常用評價指標:AUC、AUC曲線圖評價指標機器學(xué)習(xí)分類任務(wù)的常用評價指標:混淆矩陣(ConfuseMatrix):混淆矩陣又稱為錯誤矩陣,它可以直觀地反映算法的效果?;煜仃嚳梢晥D損失函數(shù)損失函數(shù)常見損失函數(shù),曲線圖如圖0-1損失函數(shù)(0-1LossFunction)平方損失函數(shù)(QuadraticLossFunction)指數(shù)損失函數(shù)(Exp-LossFunction)交叉熵損失函數(shù)(Cross-EntropyLossFunction)Hinge損失函數(shù)(HingeLossFunction)評價指標機器學(xué)習(xí)分類任務(wù)的常用評價指標:P-R曲線(Precision-RecallCurve)、F1-Score、ROC、AUC、混淆矩陣(ConfuseMatrix)。評價指標機器學(xué)習(xí)分類任務(wù)的常用評價指標:P-R曲線(Precision-RecallCurve)、F1-Score、ROC、AUC、混淆矩陣(ConfuseMatrix)。機器學(xué)習(xí)≈構(gòu)建一個映射函數(shù)“貓”“你好”“5-5”“今天天氣真不錯”“你好”用戶輸入機器(落子位置)語音識別圖像識別圍棋對話系統(tǒng)現(xiàn)實世界的問題都比較復(fù)雜很難通過規(guī)則來手工實現(xiàn)為什么要“機器學(xué)習(xí)”?什么是機器學(xué)習(xí)?機器學(xué)習(xí):通過算法使得機器能從大量數(shù)據(jù)中學(xué)習(xí)規(guī)律從而對新的樣本做決策。規(guī)律:決策(預(yù)測)函數(shù)獨立同分布p(x,y)機器學(xué)習(xí)的三要素
常見的機器學(xué)習(xí)問題分類聚類回歸模型以線性回歸(LinearRegression)為例模型:學(xué)習(xí)準則損失函數(shù)0-1損失函數(shù)平方損失函數(shù)學(xué)習(xí)準則
最優(yōu)化問題機器學(xué)習(xí)問題轉(zhuǎn)化成為一個最優(yōu)化問題梯度下降法(GradientDescent)搜索步長α中也叫作學(xué)習(xí)率(LearningRate)學(xué)習(xí)率是十分重要的超參數(shù)!隨機梯度下降法隨機梯度下降法(StochasticGradientDescent,SGD)也叫增量梯度下降,每個樣本都進行更新小批量(Mini-Batch)隨機梯度下降法隨機梯度下降法Why?機器學(xué)習(xí)=優(yōu)化?機器學(xué)習(xí)=優(yōu)化?過擬合:經(jīng)驗風(fēng)險最小化原則很容易導(dǎo)致模型在訓(xùn)練集上錯誤率很低,但是在未知數(shù)據(jù)上錯誤率很高。過擬合問題往往是由于訓(xùn)練數(shù)據(jù)少和噪聲等原因造成的。NO!泛化錯誤期望風(fēng)險經(jīng)驗風(fēng)險泛化錯誤
如何減少泛化錯誤?正則化優(yōu)化降低模型復(fù)雜度經(jīng)驗風(fēng)險最小正則化(regularization)L1/L2約束、數(shù)據(jù)增強權(quán)重衰減、隨機梯度下降、提前停止所有損害優(yōu)化的方法都是正則化。增加優(yōu)化約束干擾優(yōu)化過程提前停止我們使用一個驗證集(ValidationDataset)來測試每一次迭代的參數(shù)在驗證集上是否最優(yōu)。如果在驗證集上的錯誤率不再下降,就停止迭代。線性回歸線性回歸(LinearRegression)模型:增廣權(quán)重向量和增廣特征向量優(yōu)化方法經(jīng)驗風(fēng)險最小化(最小二乘法)結(jié)構(gòu)風(fēng)險最小化(嶺回歸)最大似然估計最大后驗估計經(jīng)驗風(fēng)險最小化矩陣微積分標量關(guān)于向量的偏導(dǎo)數(shù)向量關(guān)于向量的偏導(dǎo)數(shù)向量函數(shù)及其導(dǎo)數(shù)經(jīng)驗風(fēng)險最小化模型學(xué)習(xí)準則經(jīng)驗風(fēng)險最小化優(yōu)化結(jié)構(gòu)風(fēng)險最小化結(jié)構(gòu)風(fēng)險最小化準則得到嶺回歸(RidgeRegression)最大似然估計關(guān)于概率的一些基本概念概率(Probability)一個隨機事件發(fā)生的可能性大小,為0到1之間的實數(shù)。隨機變量(RandomVariable)比如隨機擲一個骰子,得到的點數(shù)就可以看成一個隨機變量X,其取值為{1,2,3,4,5,6}。概率分布(ProbabilityDistribution)一個隨機變量X取每種可能值的概率并滿足概率的一些基本概念伯努利分布(BernoulliDistribution)在一次試驗中,事件A出現(xiàn)的概率為μ,不出現(xiàn)的概率為1?μ。若用變量X表示事件A出現(xiàn)的次數(shù),則X的取值為0和1,其相應(yīng)的分布為二項分布(BinomialDistribution)在n次伯努利分布中,若以變量X表示事件A出現(xiàn)的次數(shù),則X的取值為{0,…,n},其相應(yīng)的分布二項式系數(shù),表示從n個元素中取出k個元素而不考慮其順序的組合的總數(shù)。概率的一些基本概念
概率的一些基本概念條件概率(ConditionalProbability)對于離散隨機向量(X,Y),已知X=x的條件下,隨機變量Y=y的條件概率為:貝葉斯公式兩個條件概率p(y|x)和p(x|y)之間的關(guān)系例子性別\行業(yè)計算機教育男0.40.10.5女0.10.40.50.60.4p(男|計算機)=MarginalProbabilityMarginalProbability似然(Likelihood)
似然likelihood先驗prior后驗posterior貝葉斯公式:從概率角度來看線性回歸
線性回歸中的似然函數(shù)參數(shù)w在訓(xùn)練集D上的似然函數(shù)(Likelihood)為最大似然估計最大似然估計(MaximumLikelihoodEstimate,MLE)是指找到一組參數(shù)w使得似然函數(shù)p(y|X;w,σ)最大最大后驗估計最大后驗估計似然likelihood先驗prior后驗posterior正則化系數(shù)總結(jié)無先驗引入先驗平方誤差經(jīng)驗風(fēng)險最小化結(jié)構(gòu)風(fēng)險最小化概率最大似然估計最大后驗估計多項式回歸一個例子:PolynomialCurveFittingFromchapter1ofBishop’sPRML.模型損失函數(shù)WhichDegreeofPolynomial?AmodelselectionproblemM=9→
E(w)=0:ThisisoverfittingControllingOverfitting:RegularizationAsorderofpolynomialMincreases,sodocoefficientmagnitudes!對大的系數(shù)進行懲罰Co
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度智能化設(shè)備安裝與維護服務(wù)合同樣本3篇
- 2025年度倉儲物流中心場地使用權(quán)及運營管理合同3篇
- 2025年度新能源項目撤資協(xié)議范本8篇
- 2025年度新型能源技術(shù)研發(fā)與應(yīng)用合同樣板3篇
- 2025年托盤銷售合同17智能化托盤銷售及售后服務(wù)協(xié)議3篇
- 2025年度個人健康保險貸款及還款支持協(xié)議4篇
- 2025年度個人反擔(dān)保合同示范文本-船舶交易保障專用4篇
- 2025年湖南永州云谷信息有限公司招聘筆試參考題庫含答案解析
- 2025年浙江衢州江山市屬國有公司招聘筆試參考題庫含答案解析
- 2025年福建中咨工程咨詢有限公司招聘筆試參考題庫含答案解析
- 沖壓生產(chǎn)的品質(zhì)保障
- 《腎臟的結(jié)構(gòu)和功能》課件
- 2023年湖南聯(lián)通校園招聘筆試題庫及答案解析
- 上海市徐匯區(qū)、金山區(qū)、松江區(qū)2023屆高一上數(shù)學(xué)期末統(tǒng)考試題含解析
- 護士事業(yè)單位工作人員年度考核登記表
- 天津市新版就業(yè)、勞動合同登記名冊
- 產(chǎn)科操作技術(shù)規(guī)范范本
- 人教版八年級上冊地理全冊單元測試卷(含期中期末試卷及答案)
- 各種焊工證件比較和釋義
- 感染性疾病標志物及快速診斷課件(PPT 134頁)
- 2022年煤礦地面消防應(yīng)急預(yù)案范文
評論
0/150
提交評論