現(xiàn)代機器學(xué)習(xí) 課件 第3章 線性回歸與分類模型_第1頁
現(xiàn)代機器學(xué)習(xí) 課件 第3章 線性回歸與分類模型_第2頁
現(xiàn)代機器學(xué)習(xí) 課件 第3章 線性回歸與分類模型_第3頁
現(xiàn)代機器學(xué)習(xí) 課件 第3章 線性回歸與分類模型_第4頁
現(xiàn)代機器學(xué)習(xí) 課件 第3章 線性回歸與分類模型_第5頁
已閱讀5頁,還剩57頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第3章線性回歸與分類模型3.1線性回歸模型3.2貝葉斯線性回歸3.3正則化線性回歸3.4線性分類模型本章小結(jié)

3.1線性回歸模型線性回歸屬于機器學(xué)習(xí)中的監(jiān)督學(xué)習(xí)兩大任務(wù)之一的回歸任務(wù)?;貧w的目的是為了預(yù)測,比如預(yù)測明天的天氣溫度,預(yù)測股票的走勢、物體的類別等?;貧w之所以能預(yù)測是因為通過歷史數(shù)據(jù)摸透了“規(guī)律”,然后通過規(guī)律來得到預(yù)測結(jié)果?;貧w分析本質(zhì)上是一個函數(shù)估計問題,即找出因變量和自變量之間的因果關(guān)系。若回歸分析的變量是連續(xù)變量(房價、疾病發(fā)生概率等),則是一般所說的回歸預(yù)測;若因變量是離散變量(類別),則是回歸分類??偟膩碚f,回歸分析是一種有監(jiān)督的學(xué)習(xí)方法。

線性回歸有很多實際用途,最常見的有以下兩大類:

(1)基于觀測或歷史數(shù)據(jù)進行預(yù)測。在已有數(shù)據(jù)上對觀測數(shù)據(jù)和歷史數(shù)據(jù)進行回歸分析,得到線性模型,利用該模型對新數(shù)據(jù)進行預(yù)測。

(2)變量相關(guān)性分析。線性模型中因變量與多個自變量間的相關(guān)性是有區(qū)別的,使用線性回歸方法進行分析,可以了解哪些因素對最終結(jié)果影響最大。

3.1.1線性函數(shù)模型

下面將以一元線性回歸為例具體介紹線性回歸模型。對于一元線性回歸,其模型如下:

一元線性回歸模型可借助條件數(shù)學(xué)期望等價地寫為E[y|x]=β0+β1x。也就是說,在給定的條件下,y的條件數(shù)學(xué)期望為x的線性變換。

一元線性回歸模型的直觀意義可總結(jié)為如下的四點:

(1)β0,β1為未知參數(shù)。

(2)β0為x=0時的應(yīng)變量的均值(回歸直線在y軸上的截距)。

(3)β1為x增加一個單位時應(yīng)變量的平均變化率(回歸直線的斜率)。若β1>0,則y與x正相關(guān);若β1<0,則y與x負相關(guān);若β1=0,則y與x不相關(guān)。

(4)β0+β1x為自變量取值x時應(yīng)變量的均值。

設(shè)(xi,yi)(i=1,2,…,n)為自變量x與應(yīng)變量y的n對觀測值,由此可繪出圖3.1所示的散點圖。圖3.1自變量x與應(yīng)變量y的散點圖和回歸直線示意圖

1.模型的參數(shù)估計

對于預(yù)測變量的取值(x1,x2,…,xn)及相應(yīng)的應(yīng)變量yi=β0+β1xi+εi,i=1,2,…,n的觀測值(yi,y2,…,yn),記

則對參數(shù)β0和β1的最小二乘估計就是求Q(β0,β1)的最小值點所對應(yīng)的令式(3-6)右端對β0、β1的偏導(dǎo)數(shù)均為0,有

2.參數(shù)估計量的性質(zhì)

3.模型的統(tǒng)計推斷

模型的統(tǒng)計推斷包括參數(shù)的假設(shè)檢驗(雙邊或單邊)和置信區(qū)間。

1)關(guān)于β1的統(tǒng)計推斷

2)關(guān)于β0的統(tǒng)計推斷

由式(3-16)和式(3-10)可知

從而可知β0的置信度等于1-a的置信區(qū)間為

設(shè)檢驗問題為

其拒絕域為

3)關(guān)于σ2的統(tǒng)計推斷

4)關(guān)于估計值的統(tǒng)計推斷

得到回歸方程的參數(shù)估計后,通常有兩個目的,一是研究因變量y與自變量x之間的相關(guān)關(guān)系;二是對給定自變量x的取值x0,使用這個模型來估計因變量的取值y0。

回歸方程:

5)關(guān)于相關(guān)系數(shù)的統(tǒng)計推斷

相關(guān)系數(shù)度量兩個變量之間(線性)相關(guān)的程度,相關(guān)系數(shù)的正負號與回歸直線的斜率的正負號相同。自變量x或因變量y的線性變換不改變相關(guān)系數(shù)的值,相關(guān)系數(shù)既可以刻畫兩個獨立變化的量之間的相關(guān)程度,也可以刻畫相互依賴的量(如體重與身高)之間的相關(guān)程度。

一元線性回歸分析中,自變量x與因變量y之間的相關(guān)系數(shù)r的估計量為皮爾遜(Pearson)相關(guān)系數(shù):

借助Pearson相關(guān)系數(shù)臨界值表,可對相關(guān)系數(shù)做假設(shè)檢驗和區(qū)間估計。

6)一無限性回歸分析中的方差分析

方差分析的想法是將因變量y的全變差分解為自變量x導(dǎo)致的變差與隨機因素導(dǎo)致的變差之和。

3.1.2偏置與方差分解

偏置方差分解(Bias-VarianceDecomposition)是統(tǒng)計學(xué)派表達模型式,也是機器學(xué)習(xí)中一種重要的分析技術(shù)(解釋學(xué)習(xí)算法泛復(fù)雜度的一種方化性能的一種重要工具)。給定學(xué)習(xí)目標和訓(xùn)練集規(guī)模,它可以把一種學(xué)習(xí)算法的期望誤差分解為三個非負項的和,即noise(本真噪音)、bias和variance。

variance度量了在面對同樣規(guī)模的不同訓(xùn)練集時,學(xué)習(xí)算法的估計結(jié)果發(fā)生變動的概率(相關(guān)于觀測樣本的誤差,刻畫了一個學(xué)習(xí)算法的精確性和特定性:一個高的方差意味著一個弱的匹配)。

偏置方差分解試圖對學(xué)習(xí)算法的期望泛化錯誤率進行拆解,因為算法在不同的訓(xùn)練集上學(xué)得的結(jié)果很可能不同,即便這些訓(xùn)練集來自同一個分布。對測試樣本x,令yD為x在數(shù)據(jù)集中的標記,f(x;D)為在訓(xùn)練集D上學(xué)得的模型f在x上的預(yù)測輸出。以回歸任務(wù)為例,學(xué)習(xí)算法的期望預(yù)測為

使用樣本數(shù)相同的不同訓(xùn)練集產(chǎn)生的方差為

噪聲為

期望輸出與真實標記的差別稱為偏置(bias),即

當(dāng)我們假定噪聲期望為零時,通過簡單的多項式展開合并可對算法的期望誤差進行分解:

于是

偏置度量了學(xué)習(xí)算法期望預(yù)測與真實結(jié)果的偏離程度,即刻畫了學(xué)習(xí)算法本身的擬合能力;方差度量了同樣大小的訓(xùn)練集的變動所導(dǎo)致的學(xué)習(xí)性能的變化,即刻畫了數(shù)據(jù)擾動

所造成的影響;噪聲表達了在當(dāng)前任務(wù)上任何學(xué)習(xí)算法所能達到的期望泛化誤差的下界,即刻畫了學(xué)習(xí)問題本身的難度。偏置方差分解說明泛化性能是由學(xué)習(xí)算法的能力、數(shù)據(jù)的

充分性以及學(xué)習(xí)任務(wù)本身的難度所共同決定的。給定學(xué)習(xí)任務(wù),為了取得好的泛化性能,則需使偏置較小,即能夠充分擬合數(shù)據(jù),并且使方差較小,使得數(shù)據(jù)擾動產(chǎn)生的影響小。

3.2貝葉斯線性回歸

貝葉斯線性回歸是在統(tǒng)計方法中使用貝葉斯推斷的簡單實現(xiàn)之一,因此常作為貝葉斯理論或數(shù)值計算教學(xué)的重要例子。除典型的線性回歸應(yīng)用外,貝葉斯線性回歸模型還可被用于觀測數(shù)據(jù)較少但要求提供后驗分布的應(yīng)用問題上,例如對物理常數(shù)的精確估計。此外,還有將貝葉斯線性回歸的性質(zhì)用于變量篩選和降維的。

3.2.1問題定義

前面章節(jié)中介紹了線性回歸模型,確定線性回歸模型就是要確定模型中的參數(shù)(w與b),其關(guān)鍵在于如何衡量f(x)與y的差別。均方誤差正是回歸任務(wù)中最常用的度量函數(shù)。均方誤差有非常好的幾何意義,它對應(yīng)了常用的歐幾里得距離。但是,這種方法很容易導(dǎo)致過擬合現(xiàn)象。貝葉斯線性回歸不僅可以解決極大似然估計中存在的過擬合問題,而且,它對數(shù)據(jù)樣本的利用率為100%,僅僅使用訓(xùn)練樣本就可以有效而準確地確定模型的復(fù)雜度。

3.2.2問題求解

求解式(3-44)要求預(yù)先給定權(quán)重系數(shù)的先驗概率P(w),即一個連續(xù)概率分布,通常的選擇為0均值的正態(tài)分布:

1.極大后驗估計(MAP)

在貝葉斯線性回歸中,MAP可以被視為一種特殊的貝葉斯估計,其求解步驟與極大似然估計類似。對給定的先驗,MAP將式(3-35)轉(zhuǎn)化為求解w使后驗概率最大的優(yōu)化問題,

并求得后驗的眾數(shù)。由于正態(tài)分布的眾數(shù)即是均值,因此MAP通常被應(yīng)用于正態(tài)先驗。

這里以0均值正態(tài)先驗為例介紹MAP的求解步驟。首先給定權(quán)重系數(shù)w的0均值正態(tài)分布先驗:P(w)=N(w|0,σ2w)。由于邊緣似然與w相互獨立,此時求解后驗概率的極大值等價于求解似然概率和先驗概率乘積的極大值:

2.共軛先驗求解

由于貝葉斯線性回歸的似然是正態(tài)分布,因此在權(quán)重系數(shù)的先驗存在共軛分布時可利用共軛性求解后驗。這里以正態(tài)先驗為例介紹其求解步驟。

首先引入權(quán)重系數(shù)的0均值正態(tài)先驗:P(w)=N(w|0,σ2w后驗正比于似然和先驗的),隨后由式(3-44)可知,

在正態(tài)似然下,方差已知的正態(tài)先驗的共軛分布是正態(tài)分布,因此將式(3-51)按正態(tài)分布的解析形式進行整理如下:

式中,Λ定義與先前相同。以式(3-51)作推導(dǎo),可以得到權(quán)重系數(shù)的均值和置信區(qū)間,完成對貝葉斯線性回歸的求解。

3.數(shù)值方法

一般地,貝葉斯推斷的數(shù)值方法都適用于貝葉斯線性回歸,其中最常見的是馬爾可夫鏈蒙特卡羅。這里以馬爾可夫鏈蒙特卡羅(MarkovChainMonteCarlo,MCMC)方法中的吉布斯采樣算法為例介紹。

3.3-正則化線性回歸

線性回歸的一個很重要的問題就是過擬合(overfitting)問題。所謂過擬合,就是模型訓(xùn)練誤差極小,而檢驗誤差很大。一個好的學(xué)習(xí)器不僅能的夠很好地擬合訓(xùn)練數(shù)據(jù),而且能夠?qū)ξ粗獦颖居泻軓姷姆夯芰?即泛化誤差低。

通常有以下解決過擬合問題的方法:

(1)丟棄一些不能幫助我們正確預(yù)測的特征。

(2)正則化。保留所有的特征,但是減少參數(shù)的大小。

(3)增加數(shù)據(jù)量。因為導(dǎo)致過擬合的原因就是過度擬合測試數(shù)據(jù)集,那么增加數(shù)據(jù)集就可以提高泛化性。

正則

3.3.1嶺回歸

假設(shè)回歸模型表達為

那么它的普通最小二乘法解為

不失一般性,假設(shè)所有的矩陣X中包含的向量及Y都是標準化的,即樣本均值為0樣本方差為1,那么存在正交矩陣V,滿足:

由于VTV=VVT=I,而且λ1≥λ2≥…≥λp,回歸系數(shù)的總方差和為

嶺回歸提供了一個估計方法,可以克服共線性造成的問題。嶺回歸方法的實現(xiàn)有多種方法。嶺回歸中非常關(guān)鍵的問題就是參數(shù)k的選擇,常用的選取k值的方法有以下幾種:

(1)固定k值。k的值由下式?jīng)Q定:

2)迭代法。以式(3-62)中定義的k為初始值k0,假設(shè)ki已知,那么由下式定義ki+1:

如果ki和ki+1相差很小,則停止迭代。

3.3.2Lasso回歸

Lasso回歸與嶺回歸非常相似,都是通過約束參數(shù)防止過擬合的,它們的差別在于使用了不同的正則化項。Lasso能夠?qū)⒁恍┳饔帽容^小的特征的參數(shù)訓(xùn)練為0,從而獲得稀疏解,也就是說在訓(xùn)練模型的過程中實現(xiàn)了降維(特征篩選)的目的。

Lasso回歸的代價函數(shù)為

3.3.3-邏輯回歸

邏輯回歸又稱Logistic回歸,在周志華老師的《機器學(xué)習(xí)》中被稱為對數(shù)幾率回歸,是一種廣義的線性回歸分析模型,因此與多重線性回歸分析有很多相同之處,都具有wx+b,其中w和b是待求參數(shù)。其區(qū)別在于它們的因變量不同,多重線性回歸直接將wx+b作為因變量,即y=wx+b,而Logistic回歸則通過函數(shù)L將wx+b對應(yīng)一個隱狀態(tài)p,即p=L(wx+b),然后根據(jù)p與1-p的大小決定因變量的值。如果L是Logistic函數(shù),就是Logistic回歸;如果L是多項式函數(shù),就是多項式回歸。Logistic回歸常用于數(shù)據(jù)挖掘、疾病自動診斷、經(jīng)濟預(yù)測等領(lǐng)域。

Logistic回歸模型的適用條件:

(1)因變量為二分類的分類變量或某事件的發(fā)生率,并且是數(shù)值型變量。但是需要注意,重復(fù)計數(shù)現(xiàn)象指標不適用于Logistic回歸。

(2)殘差和因變量都要服從二項分布。二項分布對應(yīng)的是分類變量,所以不是正態(tài)分布,進而不是用最小二乘法,而是用最大似然法來解決方程估計和檢驗問題。

(3)自變量和Logistic概率是線性關(guān)系。

(4)各觀測對象間相互獨立。

Logistic回歸模型通過使用其固有的Logistic函數(shù)估計概率,以衡量因變量(我們想要預(yù)測的標簽)與一個或多個自變量(特征)之間的關(guān)系。然后這些概率必須二值化才能真地進行預(yù)測,這就是Logistic函數(shù)的任務(wù)。Logistic函數(shù)也稱為Sigmoid函數(shù)(見圖3.2)圖3.2Logistic函數(shù)

Logistic回歸算法是一種被人們廣泛使用的算法,因為它非常高效,不需要太大的計算量,又通俗易懂,不需要縮放輸入特征,不需要任何調(diào)整,并且輸出的是校準好的預(yù)測概率(0~1)。與線性回歸一樣,當(dāng)去掉與輸出變量無關(guān)的屬性以及相似度高的屬性時,Logistic回歸效果確實會更好。因此特征處理在Logistic回歸和線性回歸的性能方面起著重要的作用。Logistic回歸的一個缺點就是不能用來解決非線性問題,因為它的決策邊界是線性的。

3.4線性分類模型

3.4.1生成式模型與判別式模型生成式模型(GenerativeModel):由數(shù)據(jù)學(xué)習(xí)聯(lián)合概率密度分布p(x,y),然后生成條件概率分布P(y|x),或者直接學(xué)得一個決策函數(shù)Y=f(x),用作模型預(yù)測。判別式模型(DiscriminativeModel):由數(shù)據(jù)直接學(xué)習(xí)決策函數(shù)f(x)或者條件概率分布P(y|x)作為預(yù)測。

3.4.2線性判別分析

線性判別分析是一種經(jīng)典的線性學(xué)習(xí)方法,因為最早由Fisher于1936年提出,亦稱判別分析。

給定數(shù)據(jù)集D={(xi,yi)}i=1m,yi∈{0,1},令X,iμi,Σi分別表示第i∈{0,1}類實例的集合、均值向量、協(xié)方差矩陣。若將數(shù)據(jù)投影到直線上(w是該直線對應(yīng)的投影向量),則兩類樣本的中心在直線上的投影分別為wTμ0和wTμ

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論