第九屆機器學習_第1頁
第九屆機器學習_第2頁
第九屆機器學習_第3頁
第九屆機器學習_第4頁
第九屆機器學習_第5頁
已閱讀5頁,還剩79頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

線性回歸與Logistic回歸鄒偉2/83主要內(nèi)容線性回歸高斯分布最大似然估計MLE最小二乘法的本質(zhì)Logistic回歸分類問題的首選算法多分類:Softmax回歸目標函數(shù)技術(shù)點梯度下降算法最大似然估計特征選擇3/83股價預(yù)測方法:自回歸參數(shù):100階4/83生豬價格預(yù)測背景生豬期貨價格波動劇烈大/中型養(yǎng)殖戶為主直接意義:預(yù)測半年到一年后的生豬價格,對當前養(yǎng)殖規(guī)模的確定有重大決策意義。模型實踐:藍色曲線為歷史生豬價格,用于建模;綠色曲線為回測數(shù)據(jù),用于驗證模型;紅色曲線為模型預(yù)測結(jié)果。5/83線性回歸y=ax+b6/83多個變量的情形考慮兩個變量7/83使用極大似然估計解釋最小二乘誤差ε(i)(1≤i≤m)是獨立同分布的,服從均值為0,方差為某定值σ2的高斯分布。原因:中心極限定理8/83中心極限定理的意義實際問題中,很多隨機現(xiàn)象可以看做眾多因素的獨立影響的綜合反應(yīng),往往近似服從正態(tài)分布。城市耗電量:大量用戶的耗電量總和測量誤差:許多觀察不到的、微小誤差的總和注:應(yīng)用前提是多個隨機變量的和,有些問題是乘性誤差,則需要鑒別或者取對數(shù)后再使用。9/83似然函數(shù)10/83高斯的對數(shù)似然與最小二乘11/83話題:聊聊“假設(shè)”機器學習中的建模過程,往往充斥著假設(shè),合理的假設(shè)是合理模型的必要前提。假設(shè)具有三個性質(zhì):內(nèi)涵性簡化性發(fā)散性12/83假設(shè)的內(nèi)涵性所謂假設(shè),就是根據(jù)常理應(yīng)該是正確的。如假定一個人的身高位于區(qū)間[150cm,220cm],這能夠使得大多數(shù)情況都是對的,但很顯然有些籃球運動員已經(jīng)不屬于這個區(qū)間。所以,假設(shè)的第一個性質(zhì):假設(shè)往往是正確的但不一定總是正確。我們可以稱之為“假設(shè)的內(nèi)涵性”。13/83假設(shè)的簡化性假設(shè)只是接近真實,往往需要做若干簡化。如,在自然語言處理中,往往使用詞袋模型(BagOfWords),認為一篇文檔的詞是獨立的——這樣的好處是計算該文檔的似然概率非常簡潔,只需要每個詞出現(xiàn)概率乘積即可。但我們知道這個假設(shè)是錯的:一個文檔前一個詞是“正態(tài)”,則下一個詞極有可能是“分布”,文檔的詞并非真的獨立。這個現(xiàn)象可以稱之為“假設(shè)的簡化性”。14/83假設(shè)的發(fā)散性在某個簡化的假設(shè)下推導得到的結(jié)論,不一定只有在假設(shè)成立時結(jié)論才成立。如,我們假定文本中的詞是獨立的,通過樸素貝葉斯做分類(如垃圾郵件的判定)。我們發(fā)現(xiàn):即使使用這樣明顯不正確的假設(shè),但它的分類效果往往在實踐中是堪用的。這個現(xiàn)象可以稱之為“假設(shè)的發(fā)散性”。15/83θ的解析式的求解過程將M個N維樣本組成矩陣X:X的每一行對應(yīng)一個樣本,共M個樣本(measurements)X的每一列對應(yīng)樣本的一個維度,共N維(regressors)還有額外的一維常數(shù)項,全為1目標函數(shù)梯度:16/83最小二乘意義下的參數(shù)最優(yōu)解參數(shù)的解析式若XTX不可逆或防止過擬合,增加λ擾動“簡便”方法記憶結(jié)論17/83加入λ擾動后XTX半正定:對于任意的非零向量u對于任意的實數(shù)λ>0,正定,從而可逆,保證回歸公式一定有意義。18/83線性回歸的復雜度懲罰因子線性回歸的目標函數(shù)為:將目標函數(shù)增加平方和損失:本質(zhì)即為假定參數(shù)θ服從高斯分布。Ridge:Hoerl,Kennard,1970LASSO:Tibshirani,1996LeastAbsoluteShrinkageandSelectionOperatorLARS算法解決Lasso計算,BarsleyEfron,2004LeastAngleRegression19/83正則項與防止過擬合L2-norm:L1-norm:ElasticNet:20/83正則化與稀疏21/83L1-norm如何處理梯度?目標函數(shù):給定:近似:梯度:二階導:實踐中,對于一般問題,如?。?2/83機器學習與數(shù)據(jù)使用交叉驗證如:十折交叉驗證23/83Moore-Penrose廣義逆矩陣(偽逆)若A為非奇異矩陣,則線性方程組Ax=b的解為,從方程解的直觀意義上,可以定義:若A為可逆方陣,即為當A為矩陣(非方陣)時,稱A+稱為A的廣義逆(偽逆)。奇異值分解SVD24/83SVD計算矩陣的廣義逆對于m×n的矩陣A,若它的SVD分解為:則,A的廣義逆為:可以驗證,若A是n×n的可逆陣,則若A是不可逆陣或m≠n,則25/83梯度下降算法初始化θ(隨機初始化)沿著負梯度方向迭代,更新后的θ使J(θ)更小α:學習率、步長26/83梯度方向27/83批量梯度下降算法28/83批量梯度下降圖示29/83隨機梯度下降算法30/83折中:mini-batch如果不是每拿到一個樣本即更改梯度,而是若干個樣本的平均梯度作為更新方向,則是mini-batch梯度下降算法。31/83回歸Code32/83附:學習率Code33/83線性回歸、rate、Loss34/83SGD與學習率35/83隨機梯度下降SGD36/83批量與隨機梯度下降37/83線性回歸的進一步分析可以對樣本是非線性的,只要對參數(shù)θ線性38/83Code39/83線性回歸40/83線性回歸41/83特征選擇42/83超參與過擬合43/8344/83高階系數(shù)與過擬合45/83CoefficientofDetermination對于m個樣本某模型的估計值為計算樣本的總平方和TSS(TotalSumofSquares):即樣本偽方差的m倍計算殘差平方和RSS(ResidualSumofSquares):注:RSS即誤差平方和SSE(SumofSquaresforError)定義R2越大,擬合效果越好R2的最優(yōu)值為1;若模型預(yù)測為隨機值,R2有可能為負若預(yù)測值恒為樣本期望,R2為0亦可定義ESS(ExplainedSumofSquares):TSS=ESS+RSS只有在無偏估計時上述等式才成立,否則,

TSS≥ESS+RSSESS又稱回歸平方和SSR(SumofSquaresforRegression)46/83TSS≥ESS+RSS47/83局部加權(quán)回歸黑色是樣本點紅色是線性回歸曲線綠色是局部加權(quán)回歸曲線48/83局部加權(quán)線性回歸LWR:LocallyWeightedlinearRegression49/83權(quán)值的設(shè)置ω的一種可能的選擇方式(高斯核函數(shù)):τ稱為帶寬,它控制著訓練樣本隨著與x(i)距離的衰減速率。多項式核函數(shù)在SVM章節(jié)繼續(xù)核函數(shù)的討論。50/83思考:用回歸解決分類問題?51/83線性回歸-Logistic回歸紫色:線性回歸綠色:Logistic回歸左側(cè):線性回歸右側(cè):Softmax回歸52/83Logistic回歸Logistic/sigmoid函數(shù)53/83Logistic回歸參數(shù)估計假定:54/83對數(shù)似然函數(shù)55/83參數(shù)的迭代Logistic回歸參數(shù)的學習規(guī)則:比較上面的結(jié)果和線性回歸的結(jié)論的差別:它們具有相同的形式!56/83對數(shù)線性模型一個事件的幾率odds,是指該事件發(fā)生的概率與該事件不發(fā)生的概率的比值。對數(shù)幾率:logit函數(shù)57/83Logistic回歸的損失函數(shù)58/83Logistic回歸的損失:59/83分類:Logistic回歸沿似然函數(shù)正梯度上升維度提升60/83異或61/83數(shù)據(jù)升維:“選取特征”62/83廣義線性模型GLMy不再只是正態(tài)分布,而是擴大為指數(shù)族中的任一分布;變量xg(x)y連接函數(shù)g連接函數(shù)g單調(diào)可導如Logistic回歸中的拉伸變換:63/83Softmax回歸K分類,第k類的參數(shù)為,組成二維矩陣概率:似然函數(shù):對數(shù)似然:隨機梯度:64/83Code65/83Softmax分類66/83特征選擇67/83骰子問題普通的一個骰子的某一次投擲,出現(xiàn)點5的概率是多大?等概率:各點的概率都是1/6對于“一無所知”的骰子,假定所有點數(shù)等概率出現(xiàn)是“最安全”的做法。對給定的某個骰子,經(jīng)過N次投擲后發(fā)現(xiàn),點數(shù)的均值為2.71828,請問:再投一次出現(xiàn)點5的概率有多大?68/83帶約束的優(yōu)化問題令6個面朝上的概率為(p1,p2…p6),用向量p表示。目標函數(shù):約束條件:Lagrange函數(shù):求解:69/83使用梯度下降計算Lagrange乘子根據(jù)pi的解:構(gòu)造目標函數(shù)并計算梯度:70/83預(yù)測結(jié)果0.3010.2270.1710.1290.0980.07471/83目標函數(shù)的有效性72/83數(shù)據(jù)顯示73/83擬合與預(yù)測y=2.877+0.046*TV+0.179*Radio+0.0035*Newspaper74/83小結(jié)本模型雖然簡單,但它涵蓋了機器學習相當部分的內(nèi)容。使用75%的訓練集和25%的測試集分析模型后,使用最為簡單的方法:直接刪除;反而得到了更好的預(yù)測結(jié)果。奧卡姆剃刀如果用簡單模型可以解決問題,則不使用更復雜的模型。復雜模型往往增加不確定性,造成過多人力和物力成本,且容易過擬合。75/83鳶尾花數(shù)據(jù)集鳶尾花數(shù)據(jù)集或許是最有名的模式識別測試數(shù)據(jù)。早在1936年,模式識別的先驅(qū)Fisher就在論文“Theuseofmultiplemeasurementsintaxonomicproblems”中使用了它(直至今日該論文仍然被頻繁引用)。該數(shù)據(jù)集包括3個鳶尾花類別,每個類別有50個樣本。其中一個類別是與另外兩類線性可分的,而另外兩類不能線性可分。由于Fisher的最原始數(shù)據(jù)集存在兩個錯誤(35號和38號樣本),實驗中我們使用的是修正過的數(shù)據(jù)。下載鏈接:76/83數(shù)據(jù)描述該數(shù)據(jù)集共150行,每行1個樣本。每個樣本有5個字段,分別是花萼長度(單位cm)花萼寬度(單位:cm)花瓣長度(單位:cm)花瓣寬度(單位:cm)類別(共3類)Irissetosa山鳶尾Irisversicolor雜色鳶尾IrisVirginica維吉尼亞鳶尾77/83鳶尾花的分類78/83波士頓房屋價格預(yù)測波士頓房價數(shù)據(jù)最早來自于卡耐基梅隆大學CMU的統(tǒng)計圖書館(StatLiblibrary),由HarrisonD.和RubinfeldD.L在1978年的著作Hedonicpricesandthedemandforcleanair中。數(shù)據(jù)下載鏈接:特征描述:79/83ElasticNet/LASSO的2階特征預(yù)測80/83北京市區(qū)域犯罪率分析81/83北京市區(qū)域犯罪率分析82/83總結(jié)和思考Logistic/Softmax回歸是實踐中解決分類問題的最重要方法。方法簡單、容易實現(xiàn)、效果良好、易于解釋不止是分類:推薦系統(tǒng)特征選擇很重要,除了人工選擇,還可以用其他機器學習方法,如隨機森林、PCA、LDA等。梯度下降算法是參數(shù)優(yōu)化的重要手段,尤其SGD。適用于在線學習跳出局部極小值思考:計算可逆方陣的逆,可

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論