第九屆機(jī)器學(xué)習(xí)

上傳人：洞*** IP屬地：北京上傳時(shí)間：2023-02-02 格式：PPTX 頁(yè)數(shù)：84 大?。?.98MB 積分：14 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩79頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

線性回歸與Logistic回歸鄒偉2/83主要內(nèi)容線性回歸高斯分布最大似然估計(jì)MLE最小二乘法的本質(zhì)Logistic回歸分類(lèi)問(wèn)題的首選算法多分類(lèi)：Softmax回歸目標(biāo)函數(shù)技術(shù)點(diǎn)梯度下降算法最大似然估計(jì)特征選擇3/83股價(jià)預(yù)測(cè)方法：自回歸參數(shù)：100階4/83生豬價(jià)格預(yù)測(cè)背景生豬期貨價(jià)格波動(dòng)劇烈大/中型養(yǎng)殖戶為主直接意義：預(yù)測(cè)半年到一年后的生豬價(jià)格，對(duì)當(dāng)前養(yǎng)殖規(guī)模的確定有重大決策意義。模型實(shí)踐：藍(lán)色曲線為歷史生豬價(jià)格，用于建模；綠色曲線為回測(cè)數(shù)據(jù)，用于驗(yàn)證模型；紅色曲線為模型預(yù)測(cè)結(jié)果。5/83線性回歸y=ax+b6/83多個(gè)變量的情形考慮兩個(gè)變量7/83使用極大似然估計(jì)解釋最小二乘誤差ε(i)(1≤i≤m)是獨(dú)立同分布的，服從均值為0，方差為某定值σ2的高斯分布。原因：中心極限定理8/83中心極限定理的意義實(shí)際問(wèn)題中，很多隨機(jī)現(xiàn)象可以看做眾多因素的獨(dú)立影響的綜合反應(yīng)，往往近似服從正態(tài)分布。城市耗電量：大量用戶的耗電量總和測(cè)量誤差：許多觀察不到的、微小誤差的總和注：應(yīng)用前提是多個(gè)隨機(jī)變量的和，有些問(wèn)題是乘性誤差，則需要鑒別或者取對(duì)數(shù)后再使用。9/83似然函數(shù)10/83高斯的對(duì)數(shù)似然與最小二乘11/83話題：聊聊“假設(shè)”機(jī)器學(xué)習(xí)中的建模過(guò)程，往往充斥著假設(shè)，合理的假設(shè)是合理模型的必要前提。假設(shè)具有三個(gè)性質(zhì)：內(nèi)涵性簡(jiǎn)化性發(fā)散性12/83假設(shè)的內(nèi)涵性所謂假設(shè)，就是根據(jù)常理應(yīng)該是正確的。如假定一個(gè)人的身高位于區(qū)間[150cm,220cm]，這能夠使得大多數(shù)情況都是對(duì)的，但很顯然有些籃球運(yùn)動(dòng)員已經(jīng)不屬于這個(gè)區(qū)間。所以，假設(shè)的第一個(gè)性質(zhì)：假設(shè)往往是正確的但不一定總是正確。我們可以稱之為“假設(shè)的內(nèi)涵性”。13/83假設(shè)的簡(jiǎn)化性假設(shè)只是接近真實(shí)，往往需要做若干簡(jiǎn)化。如，在自然語(yǔ)言處理中，往往使用詞袋模型(BagOfWords)，認(rèn)為一篇文檔的詞是獨(dú)立的——這樣的好處是計(jì)算該文檔的似然概率非常簡(jiǎn)潔，只需要每個(gè)詞出現(xiàn)概率乘積即可。但我們知道這個(gè)假設(shè)是錯(cuò)的：一個(gè)文檔前一個(gè)詞是“正態(tài)”，則下一個(gè)詞極有可能是“分布”，文檔的詞并非真的獨(dú)立。這個(gè)現(xiàn)象可以稱之為“假設(shè)的簡(jiǎn)化性”。14/83假設(shè)的發(fā)散性在某個(gè)簡(jiǎn)化的假設(shè)下推導(dǎo)得到的結(jié)論，不一定只有在假設(shè)成立時(shí)結(jié)論才成立。如，我們假定文本中的詞是獨(dú)立的，通過(guò)樸素貝葉斯做分類(lèi)(如垃圾郵件的判定)。我們發(fā)現(xiàn)：即使使用這樣明顯不正確的假設(shè)，但它的分類(lèi)效果往往在實(shí)踐中是堪用的。這個(gè)現(xiàn)象可以稱之為“假設(shè)的發(fā)散性”。15/83θ的解析式的求解過(guò)程將M個(gè)N維樣本組成矩陣X：X的每一行對(duì)應(yīng)一個(gè)樣本，共M個(gè)樣本(measurements)X的每一列對(duì)應(yīng)樣本的一個(gè)維度，共N維(regressors)還有額外的一維常數(shù)項(xiàng)，全為1目標(biāo)函數(shù)梯度：16/83最小二乘意義下的參數(shù)最優(yōu)解參數(shù)的解析式若XTX不可逆或防止過(guò)擬合，增加λ擾動(dòng)“簡(jiǎn)便”方法記憶結(jié)論17/83加入λ擾動(dòng)后XTX半正定：對(duì)于任意的非零向量u對(duì)于任意的實(shí)數(shù)λ>0，正定，從而可逆，保證回歸公式一定有意義。18/83線性回歸的復(fù)雜度懲罰因子線性回歸的目標(biāo)函數(shù)為：將目標(biāo)函數(shù)增加平方和損失：本質(zhì)即為假定參數(shù)θ服從高斯分布。Ridge：Hoerl,Kennard,1970LASSO：Tibshirani,1996LeastAbsoluteShrinkageandSelectionOperatorLARS算法解決Lasso計(jì)算，BarsleyEfron,2004LeastAngleRegression19/83正則項(xiàng)與防止過(guò)擬合L2-norm：L1-norm：ElasticNet：20/83正則化與稀疏21/83L1-norm如何處理梯度？目標(biāo)函數(shù)：給定：近似：梯度：二階導(dǎo)：實(shí)踐中，對(duì)于一般問(wèn)題，如?。?2/83機(jī)器學(xué)習(xí)與數(shù)據(jù)使用交叉驗(yàn)證如：十折交叉驗(yàn)證23/83Moore-Penrose廣義逆矩陣(偽逆)若A為非奇異矩陣，則線性方程組Ax=b的解為，從方程解的直觀意義上，可以定義：若A為可逆方陣，即為當(dāng)A為矩陣(非方陣)時(shí)，稱A+稱為A的廣義逆(偽逆)。奇異值分解SVD24/83SVD計(jì)算矩陣的廣義逆對(duì)于m×n的矩陣A，若它的SVD分解為：則，A的廣義逆為：可以驗(yàn)證，若A是n×n的可逆陣，則若A是不可逆陣或m≠n，則25/83梯度下降算法初始化θ(隨機(jī)初始化)沿著負(fù)梯度方向迭代，更新后的θ使J(θ)更小α：學(xué)習(xí)率、步長(zhǎng)26/83梯度方向27/83批量梯度下降算法28/83批量梯度下降圖示29/83隨機(jī)梯度下降算法30/83折中：mini-batch如果不是每拿到一個(gè)樣本即更改梯度，而是若干個(gè)樣本的平均梯度作為更新方向，則是mini-batch梯度下降算法。31/83回歸Code32/83附：學(xué)習(xí)率Code33/83線性回歸、rate、Loss34/83SGD與學(xué)習(xí)率35/83隨機(jī)梯度下降SGD36/83批量與隨機(jī)梯度下降37/83線性回歸的進(jìn)一步分析可以對(duì)樣本是非線性的，只要對(duì)參數(shù)θ線性38/83Code39/83線性回歸40/83線性回歸41/83特征選擇42/83超參與過(guò)擬合43/8344/83高階系數(shù)與過(guò)擬合45/83CoefficientofDetermination對(duì)于m個(gè)樣本某模型的估計(jì)值為計(jì)算樣本的總平方和TSS(TotalSumofSquares)：即樣本偽方差的m倍計(jì)算殘差平方和RSS(ResidualSumofSquares)：注：RSS即誤差平方和SSE(SumofSquaresforError)定義R2越大，擬合效果越好R2的最優(yōu)值為1；若模型預(yù)測(cè)為隨機(jī)值，R2有可能為負(fù)若預(yù)測(cè)值恒為樣本期望，R2為0亦可定義ESS(ExplainedSumofSquares)：TSS=ESS+RSS只有在無(wú)偏估計(jì)時(shí)上述等式才成立，否則，

TSS≥ESS+RSSESS又稱回歸平方和SSR(SumofSquaresforRegression)46/83TSS≥ESS+RSS47/83局部加權(quán)回歸黑色是樣本點(diǎn)紅色是線性回歸曲線綠色是局部加權(quán)回歸曲線48/83局部加權(quán)線性回歸LWR：LocallyWeightedlinearRegression49/83權(quán)值的設(shè)置ω的一種可能的選擇方式(高斯核函數(shù))：τ稱為帶寬，它控制著訓(xùn)練樣本隨著與x(i)距離的衰減速率。多項(xiàng)式核函數(shù)在SVM章節(jié)繼續(xù)核函數(shù)的討論。50/83思考：用回歸解決分類(lèi)問(wèn)題？51/83線性回歸-Logistic回歸紫色：線性回歸綠色：Logistic回歸左側(cè)：線性回歸右側(cè)：Softmax回歸52/83Logistic回歸Logistic/sigmoid函數(shù)53/83Logistic回歸參數(shù)估計(jì)假定：54/83對(duì)數(shù)似然函數(shù)55/83參數(shù)的迭代Logistic回歸參數(shù)的學(xué)習(xí)規(guī)則：比較上面的結(jié)果和線性回歸的結(jié)論的差別：它們具有相同的形式！56/83對(duì)數(shù)線性模型一個(gè)事件的幾率odds，是指該事件發(fā)生的概率與該事件不發(fā)生的概率的比值。對(duì)數(shù)幾率：logit函數(shù)57/83Logistic回歸的損失函數(shù)58/83Logistic回歸的損失：59/83分類(lèi)：Logistic回歸沿似然函數(shù)正梯度上升維度提升60/83異或61/83數(shù)據(jù)升維：“選取特征”62/83廣義線性模型GLMy不再只是正態(tài)分布，而是擴(kuò)大為指數(shù)族中的任一分布；變量xg(x)y連接函數(shù)g連接函數(shù)g單調(diào)可導(dǎo)如Logistic回歸中的拉伸變換：63/83Softmax回歸K分類(lèi)，第k類(lèi)的參數(shù)為，組成二維矩陣概率：似然函數(shù)：對(duì)數(shù)似然：隨機(jī)梯度：64/83Code65/83Softmax分類(lèi)66/83特征選擇67/83骰子問(wèn)題普通的一個(gè)骰子的某一次投擲，出現(xiàn)點(diǎn)5的概率是多大？等概率：各點(diǎn)的概率都是1/6對(duì)于“一無(wú)所知”的骰子，假定所有點(diǎn)數(shù)等概率出現(xiàn)是“最安全”的做法。對(duì)給定的某個(gè)骰子，經(jīng)過(guò)N次投擲后發(fā)現(xiàn)，點(diǎn)數(shù)的均值為2.71828，請(qǐng)問(wèn)：再投一次出現(xiàn)點(diǎn)5的概率有多大？68/83帶約束的優(yōu)化問(wèn)題令6個(gè)面朝上的概率為(p1,p2…p6)，用向量p表示。目標(biāo)函數(shù)：約束條件：Lagrange函數(shù)：求解：69/83使用梯度下降計(jì)算Lagrange乘子根據(jù)pi的解：構(gòu)造目標(biāo)函數(shù)并計(jì)算梯度：70/83預(yù)測(cè)結(jié)果0.3010.2270.1710.1290.0980.07471/83目標(biāo)函數(shù)的有效性72/83數(shù)據(jù)顯示73/83擬合與預(yù)測(cè)y=2.877+0.046*TV+0.179*Radio+0.0035*Newspaper74/83小結(jié)本模型雖然簡(jiǎn)單，但它涵蓋了機(jī)器學(xué)習(xí)相當(dāng)部分的內(nèi)容。使用75%的訓(xùn)練集和25%的測(cè)試集分析模型后，使用最為簡(jiǎn)單的方法：直接刪除；反而得到了更好的預(yù)測(cè)結(jié)果。奧卡姆剃刀如果用簡(jiǎn)單模型可以解決問(wèn)題，則不使用更復(fù)雜的模型。復(fù)雜模型往往增加不確定性，造成過(guò)多人力和物力成本，且容易過(guò)擬合。75/83鳶尾花數(shù)據(jù)集鳶尾花數(shù)據(jù)集或許是最有名的模式識(shí)別測(cè)試數(shù)據(jù)。早在1936年，模式識(shí)別的先驅(qū)Fisher就在論文“Theuseofmultiplemeasurementsintaxonomicproblems”中使用了它(直至今日該論文仍然被頻繁引用)。該數(shù)據(jù)集包括3個(gè)鳶尾花類(lèi)別，每個(gè)類(lèi)別有50個(gè)樣本。其中一個(gè)類(lèi)別是與另外兩類(lèi)線性可分的，而另外兩類(lèi)不能線性可分。由于Fisher的最原始數(shù)據(jù)集存在兩個(gè)錯(cuò)誤(35號(hào)和38號(hào)樣本)，實(shí)驗(yàn)中我們使用的是修正過(guò)的數(shù)據(jù)。下載鏈接：76/83數(shù)據(jù)描述該數(shù)據(jù)集共150行，每行1個(gè)樣本。每個(gè)樣本有5個(gè)字段，分別是花萼長(zhǎng)度(單位cm)花萼寬度(單位：cm)花瓣長(zhǎng)度(單位：cm)花瓣寬度(單位：cm)類(lèi)別(共3類(lèi))Irissetosa山鳶尾Irisversicolor雜色鳶尾IrisVirginica維吉尼亞鳶尾77/83鳶尾花的分類(lèi)78/83波士頓房屋價(jià)格預(yù)測(cè)波士頓房?jī)r(jià)數(shù)據(jù)最早來(lái)自于卡耐基梅隆大學(xué)CMU的統(tǒng)計(jì)圖書(shū)館(StatLiblibrary)，由HarrisonD.和RubinfeldD.L在1978年的著作Hedonicpricesandthedemandforcleanair中。數(shù)據(jù)下載鏈接：特征描述：79/83ElasticNet/LASSO的2階特征預(yù)測(cè)80/83北京市區(qū)域犯罪率分析81/83北京市區(qū)域犯罪率分析82/83總結(jié)和思考Logistic/Softmax回歸是實(shí)踐中解決分類(lèi)問(wèn)題的最重要方法。方法簡(jiǎn)單、容易實(shí)現(xiàn)、效果良好、易于解釋不止是分類(lèi)：推薦系統(tǒng)特征選擇很重要，除了人工選擇，還可以用其他機(jī)器學(xué)習(xí)方法，如隨機(jī)森林、PCA、LDA等。梯度下降算法是參數(shù)優(yōu)化的重要手段，尤其SGD。適用于在線學(xué)習(xí)跳出局部極小值思考：計(jì)算可逆方陣的逆，可

人人文庫(kù)> 全部分類(lèi)> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

第九屆機(jī)器學(xué)習(xí)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

第九屆機(jī)器學(xué)習(xí)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔