(4.3.1)-第4章作業(yè)-多元線性回歸方法原理詳解_第1頁
(4.3.1)-第4章作業(yè)-多元線性回歸方法原理詳解_第2頁
(4.3.1)-第4章作業(yè)-多元線性回歸方法原理詳解_第3頁
(4.3.1)-第4章作業(yè)-多元線性回歸方法原理詳解_第4頁
(4.3.1)-第4章作業(yè)-多元線性回歸方法原理詳解_第5頁
已閱讀5頁,還剩28頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

多元線性回歸目錄CONTENTS1回歸定義2算法流程3超參數(shù)4解題思路定義1PARTONE回歸分析回歸分類線性回歸回歸預測回歸分析

回歸分析:確定兩種或兩種以上變量間相互依賴的定量關系的一種統(tǒng)計分析方法。也就是根據(jù)數(shù)據(jù)集D,擬合出近似的曲線,所以回歸也常稱為擬合(Fit)。

回歸分析后將得到回歸方程,與具體數(shù)據(jù)結合后可得到對應的預測結果。回歸預測回歸分類一元回歸分析

回歸分析因變量和自變量的個數(shù)因變量和自變量的函數(shù)表達式多元回歸分析線性回歸分析非線性回歸分析線性回歸一元線性回歸因變量和自變量的個數(shù)多元線性回歸定義:僅用一個特征進行的線性回歸定義:通過n個特征進行的線性回歸公式:y=wx+b

例子:學分績點=(綜合成績-60)/10+1.5

算法流程2數(shù)據(jù)預處理算法模型模型評估PARTTWO模型預測算法流程算法流程打個形象的比喻:

訓練集——學生的課本;學生根據(jù)課本里的內(nèi)容來掌握知識。

驗證集——作業(yè),通過作業(yè)可以知道不同學生學習情況、進步的速度快慢。

測試集——考試,考的題是平常都沒有見過,考察學生舉一反三的能力。說明:一般三者切分的比例是6:2:2,驗證集并不是必須的。數(shù)據(jù)預處理

數(shù)據(jù)預處理(datapreprocessing)是指對所收集數(shù)據(jù)進行分類或分組前所做的審核、篩選、排序等必要的處理。常用的數(shù)據(jù)預處理方式有數(shù)據(jù)歸一化、數(shù)據(jù)增強、缺失值處理、異常點/離群點檢測等。最大最小值歸一化方法:將不同量綱的數(shù)據(jù)統(tǒng)一歸一化為[0,1]之間的數(shù)據(jù)。缺點:這種方法有個缺陷就是當有新數(shù)據(jù)加入時,可能導致max和min的變化,需要重新定義。最大最小值歸一化方法:將不同量綱的數(shù)據(jù)統(tǒng)一歸一化為[0,1]之間的數(shù)據(jù)。模型訓練—多元線性回歸公式

損失函數(shù)

損失函數(shù)(lossfunction)又稱代價函數(shù)(costfunction),是預測結果和實際結果之間的差別,如平方損失函數(shù)。模型訓練-損失函數(shù)

由于該函數(shù)為凸函數(shù),只有一個全局最優(yōu)解,因此使用此函數(shù)作為損失函數(shù)有利于使用梯度下降法進行模型訓練時取得全局最優(yōu)解。凸函數(shù)(下凸)

設f(x)在區(qū)間D上連續(xù),如果對D上任意兩點a、b恒有:f((a+b)/2)<(f(a)+f(b))/2

則f(x)在D上的圖形是(向下)凸的(或凸弧)。

凸函數(shù):只有一個局部最低點。

非凸函數(shù):有多個局部最低點,一個全局最低點。優(yōu)化器

優(yōu)化器能指引損失函數(shù)的各個參數(shù)往正確的方向更新合適的大小,使得更新后的各個參數(shù)能讓損失函數(shù)值不斷逼近全局最小。優(yōu)化器梯度下降法動量優(yōu)化法自適應學習率優(yōu)化算法標準梯度下降法(GradientDescent,GD)MomentunAdagrad算法NAGRMSprop算法AdaDleta算法Adam算法批量梯度下降法((BatchGradientDescent,BGD)隨機梯度下降法(StochasticGradientDescent)標準梯度下降梯度下降法的計算過程就是沿梯度下降的方向求解極小值的過程(也可以沿梯度上升方向求解極大值),公式如下:

學習率

學習率大學習率小超參數(shù)

超參數(shù)是在開始學習過程之前設置值的參數(shù),而不是通過訓練得到的參數(shù)數(shù)據(jù)。參數(shù)與超參數(shù)的區(qū)別:

模型參數(shù):根據(jù)數(shù)據(jù)自動估算的,由數(shù)據(jù)來驅(qū)動調(diào)整,如線性回歸中的系數(shù)w。

模型超參數(shù):手動設置的,并且在過程中用于幫助估計模型參數(shù),如模型的訓練次數(shù)、學習率、損失函數(shù)。模型訓練-梯度下降

代入

代入

將(2)式代入(1)式可得:

模型評估性能評估指標回歸準確率(Accuracy)錯誤率(Errorrate)靈敏度(sensitive)特異度(specificity)精確率、精度(Precision)召回率(recall)綜合評價指標(F-Measure)平均絕對誤差(MeanAbsoluteError,MAE)均方誤差(MeanSquaredError,MSE)均方根誤差(RootMeanSquareError,RMSE)分類模型評估解題思路4數(shù)據(jù)預處理模型訓練模型評估PARTFOUR數(shù)據(jù)集劃分數(shù)據(jù)預處理-分析數(shù)據(jù)集數(shù)據(jù)預處理-皮爾遜相關系數(shù)

皮爾遜相關系數(shù)(Pearsoncorrelationcoefficient),又稱皮爾遜積矩相關系數(shù)(Pearsonproduct-momentcorrelationcoefficient,簡稱PPMCC或PCCs),是用于度量兩個變量X和Y之間的相關性(線性相關),可用于特征挑選。其值介于-1與1之間,兩個變量之間的皮爾遜相關系數(shù)定義為兩個變量之間的協(xié)方差和標準差的商,公式如下:

例子:求解平時分預測問題?,F(xiàn)有一數(shù)據(jù)集共有四條數(shù)據(jù),記錄了課堂回答次數(shù)、作業(yè)上交次數(shù)和平時分。通過多元線性回歸方法對該數(shù)據(jù)集構建一個平時分預測模型,求該數(shù)據(jù)集課堂回答次數(shù)和作業(yè)上交次數(shù)與平時分的相關系數(shù)。1487259501733394

根據(jù)數(shù)據(jù)集可知:數(shù)據(jù)預處理-皮爾遜相關系數(shù)數(shù)據(jù)預處理-歸一化

歸一化公式如下:特征值=(特征值-特征最小值)/(特征最大值-特征最小值)

如果缺少歸一化步驟,由于不同特征值的不同取值范圍,可能會導致利用梯度下降法訓練的結果異常,出現(xiàn)缺失值。例子:求解平時分預測問題?,F(xiàn)有一數(shù)據(jù)集共有四條數(shù)據(jù),記錄了課堂回答次數(shù)、作業(yè)上交次數(shù)和平時分。通過多元線性回歸方法對該數(shù)據(jù)集構建一個平時分預測模型,求問該數(shù)據(jù)集歸一化后的結果。14872595017333941/33/47/112/31100011/221/22歸一化數(shù)據(jù)集劃分將數(shù)據(jù)集D劃分成兩個互斥集合,常用的是將訓練集和測試集比例選取為7:3。1/33/47/112/31100011/221/22模型訓練-多元線性回歸公式例子:求解平時分預測問題。現(xiàn)有一數(shù)據(jù)集共有四條數(shù)據(jù),記錄了課堂回答次數(shù)、作業(yè)上交次數(shù)和平時分。通過多元線性回歸方法對該數(shù)據(jù)集構建一個平時分預測模型,求問該模型的回歸方程形式。根據(jù)數(shù)據(jù)集可知,自變量應為課堂回答次數(shù)、作業(yè)上交次數(shù)與偏置,因變量為平時分,因此多元線性回歸方程如下:

模型訓練-梯度下降例子:求解平時分預測問題?,F(xiàn)有一數(shù)據(jù)集共有四條數(shù)據(jù),記錄了課堂回答次數(shù)、作業(yè)上交次數(shù)和平時分。通過多元線性回歸方法對該數(shù)據(jù)集構建一個平時分預測模型,優(yōu)化器使用學習率為0.04的標準梯度下降,求問訓練1000次后的系數(shù)。系數(shù)變化公式:訓練結果:10.9434090.9686110.96475420.8905030.9393420.93186430.8410380.9120520.901176···10000.0006950.6788910.547003系數(shù)訓練次數(shù)模型評估例子:求解平時分預測問題?,F(xiàn)有一數(shù)據(jù)集共有四條數(shù)據(jù),記錄了課堂回答次數(shù)、作業(yè)上交次數(shù)和平時分。通過多元線性回歸方法對該數(shù)據(jù)集構建一個平時分預測模型,優(yōu)化器使用學習率為0.04的標準梯度下降,求問訓練1000次后的RMSE。3485.98087584.0

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論