機器學習理論與應用 課件 第2章回歸分析a_第1頁
機器學習理論與應用 課件 第2章回歸分析a_第2頁
機器學習理論與應用 課件 第2章回歸分析a_第3頁
機器學習理論與應用 課件 第2章回歸分析a_第4頁
機器學習理論與應用 課件 第2章回歸分析a_第5頁
已閱讀5頁,還剩23頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第2章

回歸分析內容提要概述一元線性回歸多元線性回歸多項式回歸回歸分析的效果評價邏輯回歸概述某位房產銷售積累了幾十套房屋的面積與對應的房屋交易價格的交易數(shù)據(jù),希望找到房屋面積與交易價格之間的規(guī)律(關系公式)。利用交易數(shù)據(jù)構建關系式,這是一個機器學習任務。采用數(shù)理思維進行定量分析,用數(shù)學公式建立它們之間的關系式。例如一元一次方程:y=w0+w1x,其中自變量x代表房屋的面積,因變量y代表交易價格,w是參數(shù)。這個數(shù)學公式被稱為兩個變量之間的線性回歸方程。這種方法屬于回歸分析。概述回歸分析(RegressionAnalysis)主要研究一些變量之間的關系問題,是研究和發(fā)現(xiàn)多個變量之間依賴關系的一種重要方法。按自變量數(shù)量分為:只有1個自變量的一元回歸分析、多個自變量的多元回歸分析按變量間是否線性關系分為:線性回歸分析、非線性回歸分析非線性回歸包括多項式回歸、邏輯回歸。廣義線性回歸是線性回歸的推廣,擴展了模型的假設和應用范圍。內容提要概述一元線性回歸多元線性回歸多項式回歸回歸分析的效果評價邏輯回歸一元線性回歸方程(公式)是由因變量(dependentvariable)y與自變量(independentvariable)x構成的的一元一次方程:

其中,w0和w1是回歸系數(shù),w0屬于常數(shù)項。一元線性回歸公式的含義是自變量x的變化引起因變量y的變化,x的值以比例w1影響(y?w0)的值。回歸分析的工作內容:尋找數(shù)據(jù)中隱含的變量y與x之間的最適合關系,建立一個回歸關系式,量化關系之間的強度,使用回歸關系式預測因變量值,或解釋變量之間的關系。一元線性回歸一元線性回歸公式的建立與使用問題:給定數(shù)據(jù)集D={(xi,yi)}(i=1,2,3,...,n),請求出擬合D的回歸公式,并預測新樣本xj對應的yj值。解:(1)選用一元線性回歸公式描述變量x與y之間的關系(2)推導回歸系數(shù)的求解方法將數(shù)據(jù)集D代入上式,獲得n個方程組:求解方程組的準則為所有殘差平方的總和最小。真實值yi與公式的計算值w0+w1xi之間的差值稱為殘差實施這個準則:使用優(yōu)化理論+最小二乘法求解方程組將殘差平方和作為目標函數(shù)(或稱損失函數(shù))最小化這個目標函數(shù)來求出回歸系數(shù)w1和w0。依據(jù)關于函數(shù)極值的定理,令目標函數(shù)對系數(shù)變量w1和w0的偏導數(shù)為零:一元線性回歸公式的建立一元線性回歸公式的建立從中可解出回歸系數(shù)w1和w0的計算公式

其中,變量上短橫線表示均值,SXY和SXX計算公式如下:一元線性回歸公式的使用(3)使用回歸公式進行預測將新樣本xj代入所求得的回歸公式,計算出因變量的預測值(估計值)一元線性回歸之例題內容提要概述一元線性回歸多元線性回歸多項式回歸回歸分析的效果評價邏輯回歸因變量y與k個自變量(x1,x2,...,xk)的多元線性回歸方程為:其中,(w0,w1,w2,...,wk)是回歸系數(shù),w0屬于常數(shù)項。記增廣向量x=(1,x1,x2,...,xk),列向量w=(w0,w1,w2,...,wk)T,上式寫為向量形式:多元線性回歸多元線性回歸的損失函數(shù)類似地,設定求解準則為殘差平方和最小,則最小化如下目標函數(shù)(損失函數(shù)):為推導矩陣形式的解法,將數(shù)據(jù)集D={(xi1,xi2,...,xik,yi)},其中i=1,2,3,...,n,寫為列向量y與增廣矩陣X的形式:數(shù)據(jù)集D構成的n個方程組可以寫為向量與矩陣形式:其中,y是數(shù)值列向量,X是數(shù)值矩陣,列向量w是待求的回歸系數(shù)向量將上式用于目標函數(shù),則有向量與矩陣形式的目標函數(shù):同樣采用求極值方法,令J(w)對w的偏導數(shù)為零,可推導出回歸系數(shù)向量的計算公式多元線性回歸的目標函數(shù)目標函數(shù)的矩陣求逆解法通過正規(guī)方程的推導,可獲得回歸系數(shù)向量的計算公式:當矩陣XTX可逆時,上式存在唯一解矩陣可逆的條件:矩陣滿秩,或者矩陣的特征值均不為零,或者矩陣的行列式不為零(即非奇異矩陣)。當XTX不可逆時的解決方法樣本數(shù)量少于樣本特征個數(shù),導致XTX的秩不是滿秩,則刪除一些不重要的特征,使得X列的秩等于X行的秩。某些特征之間有線性相關關系,即存在冗余性,導致X列的秩不是滿秩,則找出冗余特征并刪除,使得XTX滿秩。采用數(shù)值近似計算方法求目標函數(shù)的最小值,同時獲得對應的回歸系數(shù)。例如,基于梯度下降法的數(shù)值近似計算。從幾何角度看,對一個函數(shù)的偏導數(shù)就是梯度,該函數(shù)的值下降最快的方向是負梯度方向。對XTX求逆,當某些特征之間的線性相關性比較大時,XTX的行列式接近于0,很可能出現(xiàn)病態(tài)矩陣現(xiàn)象(即矩陣中某個元素的很小的變動引起計算結果的誤差很大)一種解決方法是使用能處理共線性和病態(tài)矩陣問題的嶺回歸方法。目標函數(shù)的其它解法內容提要概述一元線性回歸多元線性回歸多項式回歸回歸分析的效果評價邏輯回歸多項式回歸若回歸公式里出現(xiàn)自變量的2次或大于2次方項,則是多項式回歸(PolynomialRegression)。因變量y與自變量x的回歸方程中出現(xiàn)最高r次方的自變量xr(階次r≥2),該方程稱為一元多項式回歸方程:當多項式回歸關系式中的自變量有多個時,稱為多元多項式回歸。二元二次多項式回歸方程如下:多項式回歸從類比思維的角度分析,多項式回歸公式與多元線性回歸公式在形式上是相似的,可以使用相同的求解方法。技巧:變量替換,令x1=x,x2=x2,...,xr=xr,則一元r次多項式回歸公式就轉化為如下的r元線性回歸公式:對于二元二次多項式回歸方程,進行變量替換,令z1=x,z2=x2,z3=x12,z4=x22,z5=x1x2,轉化為五元線性回歸公式:中國古人會運用類比推理,揭示不同事物之間的共同特征,荀子在《勸學》篇以“不積跬步,無以至千里;不積小流,無以成江?!眮眍惐葘W習的方法與成果。多項式回歸之例題內容提要概述一元線性回歸多元線性回歸多項式回歸回歸分析的效果評價邏輯回歸回歸分析的效果評價遵循客觀嚴謹?shù)目茖W觀,需要評價回歸公式/模型的回歸效果,即它擬合數(shù)據(jù)集的程度如何。幾個評價指標如下:求得回歸公式之后,就可以將數(shù)據(jù)集中對應自變量的數(shù)據(jù)xi代入回歸公式計算因變量的估計值

,對應的殘差指一個觀測值yi與其估計值之間的差,即平均絕對誤差(MeanAbsoluteError,MAE)計算殘差絕對值總和的均值,用于評估回歸公式的預測結果和數(shù)據(jù)集的接近程度,其值越小說明擬合效果越好?;貧w分析的評價指標均方誤差(MeanSquaredError,MSE)是一個估計平均誤差程度的指標,計算殘差平方和的均值;其值越小說明擬合效果越好均方根誤差具有與殘差一致的量綱:回歸分析的評價指標設離差為觀測值yi與其均值的差yi?。n個觀測值的離差平方的總和構成總離差平方和(SST)??傠x差平方和可以分解為回歸平方和(SSR)與殘差平方和(SSE)這兩部分,即SST=SSR+SSE:

SSR

SSE回歸分析的評價指標決定系數(shù)(R-square)定義為回歸平方和占總離差平方和的比例,即決定系數(shù)是反映模型擬合優(yōu)度的統(tǒng)計量,給出由回歸公式解釋因變量變化的比例。決定系數(shù)的正常取值范圍為[0,1],R2越接近1,說明回歸方程擬合得越好;R2越接近0,說明回歸方程擬合得越差。但是,決定系數(shù)會隨自變量數(shù)量增大而增大,即

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論