《機(jī)器學(xué)習(xí)與Python實(shí)踐》課件-08線性回歸_第1頁(yè)
《機(jī)器學(xué)習(xí)與Python實(shí)踐》課件-08線性回歸_第2頁(yè)
《機(jī)器學(xué)習(xí)與Python實(shí)踐》課件-08線性回歸_第3頁(yè)
《機(jī)器學(xué)習(xí)與Python實(shí)踐》課件-08線性回歸_第4頁(yè)
《機(jī)器學(xué)習(xí)與Python實(shí)踐》課件-08線性回歸_第5頁(yè)
已閱讀5頁(yè),還剩26頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

本章目錄01

線性回歸02梯度下降03正則化04回歸的評(píng)價(jià)指標(biāo)1.線性回歸01認(rèn)識(shí)Python01

線性回歸02梯度下降03正則化04回歸的評(píng)價(jià)指標(biāo)監(jiān)督學(xué)習(xí)分為回歸和分類回歸(Regression、Prediction)如何預(yù)測(cè)上海浦東的房?jī)r(jià)?未來(lái)的股票市場(chǎng)走向?分類(Classification)身高1.85m,體重100kg的男人穿什么尺碼的T恤?根據(jù)腫瘤的體積、患者的年齡來(lái)判斷良性或惡性?回歸的概念標(biāo)簽連續(xù)標(biāo)簽離散線性回歸-概念線性回歸(LinearRegression)是一種通過(guò)屬性的線性組合來(lái)進(jìn)行預(yù)測(cè)的線性模型,其目的是找到一條直線或者一個(gè)平面或者更高維的超平面,使得預(yù)測(cè)值與真實(shí)值之間的誤差最小化。線性回歸-符號(hào)約定建筑面積總層數(shù)樓層實(shí)用面積房?jī)r(jià)143.7311010536200162.231811837000199.510101704250096.531137431200…………………………

線性回歸-算法流程

模型機(jī)器學(xué)習(xí)算法訓(xùn)練數(shù)據(jù)特征預(yù)測(cè)結(jié)果線性回歸-算法流程

損失函數(shù)(LossFunction)度量單樣本預(yù)測(cè)的錯(cuò)誤程度,損失函數(shù)值越小,模型就越好。常用的損失函數(shù)包括:0-1損失函數(shù)、平方損失函數(shù)、絕對(duì)損失函數(shù)、對(duì)數(shù)損失函數(shù)等。

代價(jià)函數(shù)(CostFunction)度量全部樣本集的平均誤差。常用的代價(jià)函數(shù)包括均方誤差、均方根誤差、平均絕對(duì)誤差等。

目標(biāo)函數(shù)(ObjectFunction)代價(jià)函數(shù)和正則化函數(shù),最終要優(yōu)化的函數(shù)。備注:損失函數(shù)的系數(shù)1/2是為了便于計(jì)算,使對(duì)平方項(xiàng)求導(dǎo)后的常數(shù)系數(shù)為1,這樣在形式上稍微簡(jiǎn)單一些。有些教科書(shū)把系數(shù)設(shè)為1/2,有些設(shè)置為1,這些都不影響結(jié)果。

線性回歸-最小二乘法(LSM)

需要用到向量平方的性質(zhì):

線性回歸-最小二乘法(LSM)需要用到以下幾個(gè)矩陣的求導(dǎo)法則:

由于中間兩項(xiàng)互為轉(zhuǎn)置:

1.線性回歸01

線性回歸02梯度下降03正則化04回歸的評(píng)價(jià)指標(biāo)梯度下降

學(xué)習(xí)率步長(zhǎng)梯度下降的三種形式批量梯度下降(BatchGradientDescent,BGD)梯度下降的每一步中,都用到了所有的訓(xùn)練樣本隨機(jī)梯度下降(StochasticGradientDescent,SGD)梯度下降的每一步中,用到一個(gè)樣本,在每一次計(jì)算之后便更新參數(shù),而不需要首先將所有的訓(xùn)練集求和小批量梯度下降(Mini-BatchGradientDescent,MBGD)梯度下降的每一步中,用到了一定批量的訓(xùn)練樣本梯度下降的三種形式批量梯度下降(BatchGradientDescent)梯度下降的每一步中,都用到了所有的訓(xùn)練樣本

梯度學(xué)習(xí)率梯度下降的三種形式隨機(jī)梯度下降(StochasticGradientDescent)

推導(dǎo)

梯度下降的三種形式隨機(jī)梯度下降(StochasticGradientDescent)梯度下降的每一步中,用到一個(gè)樣本,在每一次計(jì)算之后便更新參數(shù),而不需要首先將所有的訓(xùn)練集求和

梯度下降的三種形式小批量梯度下降(Mini-BatchGradientDescent)

梯度下降與最小二乘法比較

數(shù)據(jù)歸一化/標(biāo)準(zhǔn)化

梯度

梯度為什么要標(biāo)準(zhǔn)化/歸一化?提升模型精度:不同維度之間的特征在數(shù)值上有一定比較性,可以大大提高分類器的準(zhǔn)確性。加速模型收斂:最優(yōu)解的尋優(yōu)過(guò)程明顯會(huì)變得平緩,更容易正確的收斂到最優(yōu)解。數(shù)據(jù)歸一化/標(biāo)準(zhǔn)化歸一化(最大-最小規(guī)范化)

將數(shù)據(jù)映射到[0,1]區(qū)間Z-Score標(biāo)準(zhǔn)化

處理后的數(shù)據(jù)均值為0,方差為1數(shù)據(jù)歸一化的目的是使得各特征對(duì)目標(biāo)變量的影響一致,會(huì)將特征數(shù)據(jù)進(jìn)行伸縮變化,所以數(shù)據(jù)歸一化是會(huì)改變特征數(shù)據(jù)分布的。數(shù)據(jù)標(biāo)準(zhǔn)化為了不同特征之間具備可比性,經(jīng)過(guò)標(biāo)準(zhǔn)化變換之后的特征數(shù)據(jù)分布沒(méi)有發(fā)生改變。就是當(dāng)數(shù)據(jù)特征取值范圍或單位差異較大時(shí),最好是做一下標(biāo)準(zhǔn)化處理。數(shù)據(jù)歸一化/標(biāo)準(zhǔn)化需要做數(shù)據(jù)歸一化/標(biāo)準(zhǔn)化線性模型,如基于距離度量的模型包括KNN(K近鄰)、K-means聚類、感知機(jī)和SVM。另外,線性回歸類的幾個(gè)模型一般情況下也是需要做數(shù)據(jù)歸一化/標(biāo)準(zhǔn)化處理的。不需要做數(shù)據(jù)歸一化/標(biāo)準(zhǔn)化決策樹(shù)、基于決策樹(shù)的Boosting和Bagging等集成學(xué)習(xí)模型對(duì)于特征取值大小并不敏感,如隨機(jī)森林、XGBoost、LightGBM等樹(shù)模型,以及樸素貝葉斯,以上這些模型一般不需要做數(shù)據(jù)歸一化/標(biāo)準(zhǔn)化處理。3.正則化01

線性回歸02梯度下降03正則化04回歸的評(píng)價(jià)指標(biāo)過(guò)擬合和欠擬合欠擬合過(guò)擬合正合適過(guò)擬合的處理1.獲得更多的訓(xùn)練數(shù)據(jù)使用更多的訓(xùn)練數(shù)據(jù)是解決過(guò)擬合問(wèn)題最有效的手段,因?yàn)楦嗟臉颖灸軌蜃屇P蛯W(xué)習(xí)到更多更有效的特征,減小噪聲的影響。2.降維即丟棄一些不能幫助我們正確預(yù)測(cè)的特征??梢允鞘止みx擇保留哪些特征,或者使用一些模型選擇的算法來(lái)幫忙(例如PCA)。3.正則化正則化(regularization)的技術(shù),保留所有的特征,但是減少參數(shù)的大?。╩agnitude),它可以改善或者減少過(guò)擬合問(wèn)題。4.集成學(xué)習(xí)方法集成學(xué)習(xí)是把多個(gè)模型集成在一起,來(lái)降低單一模型的過(guò)擬合風(fēng)險(xiǎn)。通過(guò)這張圖可以看出,各種不同算法在輸入的數(shù)據(jù)量達(dá)到一定級(jí)數(shù)后,都有相近的高準(zhǔn)確度。于是誕生了機(jī)器學(xué)習(xí)界的名言:成功的機(jī)器學(xué)習(xí)應(yīng)用不是擁有最好的算法,而是擁有最多的數(shù)據(jù)!

數(shù)據(jù)決定一切

數(shù)據(jù)大小準(zhǔn)確率欠擬合的處理1.添加新特征當(dāng)特征不足或者現(xiàn)有特征與樣本標(biāo)簽的相關(guān)性不強(qiáng)時(shí),模型容易出現(xiàn)欠擬合。通過(guò)挖掘組合特征等新的特征,往往能夠取得更好的效果。2.增加模型復(fù)雜度簡(jiǎn)單模型的學(xué)習(xí)能力較差,通過(guò)增加模型的復(fù)雜度可以使模型擁有更強(qiáng)的擬合能力。例如,在線性模型中添加高次項(xiàng),在神經(jīng)網(wǎng)絡(luò)模型中增加網(wǎng)絡(luò)層數(shù)或神經(jīng)元個(gè)數(shù)等。3.減小正則化系數(shù)正則化是用來(lái)防止過(guò)擬合的,但當(dāng)模型出現(xiàn)欠擬合現(xiàn)象時(shí),則需要有針對(duì)性地減小正則化系數(shù)。

正則化(彈性網(wǎng)絡(luò))L2正則化可以防止過(guò)擬合正則化L1正則化可以產(chǎn)生稀疏模型圖上面中的藍(lán)色輪廓線是沒(méi)有正則化損失函數(shù)的等高線,中心的藍(lán)色點(diǎn)為最優(yōu)解,左圖、右圖分別為L(zhǎng)1、L2正則化給出的限制。

L1正則化是指在損失函數(shù)中加入權(quán)值向量w的絕對(duì)值之和,L1的功能是使權(quán)重稀疏在損失函數(shù)中加入權(quán)值向量w的平方和,L2的功能是使權(quán)重平滑。4.回歸的評(píng)價(jià)指標(biāo)01

線性回歸02梯度下降03正則化04回歸的評(píng)價(jià)指標(biāo)回歸的評(píng)價(jià)指標(biāo)

回歸的評(píng)價(jià)指標(biāo)

越接近于1,說(shuō)明模型擬合得越好參考文獻(xiàn)

[1]AndrewNg.MachineLearning[EB/OL].StanfordUniversity,2014./course/ml[2]李航.統(tǒng)計(jì)學(xué)習(xí)方法[M].北京:清華大學(xué)出版社,2019.[3]周志華.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016.[4]WEINBERGERK.Distancemetriclearningforlargemarginnearestneighborclassification[J].AdvancesinNeuralInformationProcessingSystems,2006,18.[5]HOERLAE,KENNARDRW.Ridgeregression:applicationstononorthogonalproblems[J].Technometrics,1970,12(1):69–82.[6]TIBSHIRANIR.Regressionselectionandshrinkageviathelasso[J].Journal

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論