深度學(xué)習(xí)及其優(yōu)化方法ppt課件

上傳人：陳*** IP屬地：廣東上傳時間：2020-05-14 格式：PPT 頁數(shù)：54 大小：4.78MB 積分：20 舉報 版權(quán)申訴

已閱讀5頁，還剩49頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

,深度學(xué)習(xí)(DeepLearning)及其優(yōu)化方法,1/25,報告人：胡海根E-mail:hghu,浙江工業(yè)大學(xué)計算機(jī)學(xué)院,Outline,2/25,深度學(xué)習(xí)的概念,3/25,什么是deeplearning?深度學(xué)習(xí)：一種基于無監(jiān)督特征學(xué)習(xí)和特征層次結(jié)構(gòu)的學(xué)習(xí)方法。本質(zhì)：通過構(gòu)建多隱層的模型和海量訓(xùn)練數(shù)據(jù)，來學(xué)習(xí)更有用的特征，從而最終提升分類或預(yù)測的準(zhǔn)確性。含多隱層的多層感知器就是一種深度學(xué)習(xí)結(jié)構(gòu)。,DL訓(xùn)練過程,4/25,深度學(xué)習(xí)的基本思想：對于DeepLearning，需要自動地學(xué)習(xí)特征，假設(shè)有一堆輸入I，輸出是O，設(shè)計一個系統(tǒng)S（有n層），形象地表示為：I=S1=S2=.=Sn=O，通過調(diào)整系統(tǒng)中參數(shù)，使得它的輸出仍然是輸入I，那么就可以自動地獲取得到輸入I的一系列層次特征，即S1，.,Sn。用自下而上的無監(jiān)督學(xué)習(xí)1）逐層構(gòu)建單層神經(jīng)元。2）每層采用wake-sleep算法進(jìn)行調(diào)優(yōu)。每次僅調(diào)整一層，逐層調(diào)整。,5/25,第二步：自頂向下的監(jiān)督學(xué)習(xí)這一步是在第一步學(xué)習(xí)獲得各層參數(shù)進(jìn)的基礎(chǔ)上，在最頂?shù)木幋a層添加一個分類器（如，SVM等），而后通過帶標(biāo)簽數(shù)據(jù)的監(jiān)督學(xué)習(xí)，利用梯度下降法去微調(diào)整個網(wǎng)絡(luò)參數(shù)。,DL訓(xùn)練過程,6/25,深度學(xué)習(xí)的具體模型及方法：1、自動編碼器（AutoEncoder）2、稀疏自動編碼器(SparseAutoEncoder)3、限制波爾茲曼機(jī)（RestrictedBoltzmannMachine）4、深信度網(wǎng)絡(luò)（DeepBeliefNetworks）5、卷積神經(jīng)網(wǎng)絡(luò)（ConvolutionalNeuralNetworks）,DL訓(xùn)練過程,自動編碼器,7/25,1、自動編碼器（AutoEncoder）通過調(diào)整encoder和decoder的參數(shù)，使得重構(gòu)誤差最小，就得到了輸入input信號的第一個表示了，也就是編碼code了。因為是無標(biāo)簽數(shù)據(jù)，所以誤差的來源就是直接重構(gòu)后與原輸入相比得到。,稀疏自動編碼器,8/25,如上圖，其實就是限制每次得到的表達(dá)code盡量稀疏。因為稀疏的表達(dá)往往比其他的表達(dá)要有效。,2、稀疏自動編碼器(SparseAutoEncoder)AutoEncoder的基礎(chǔ)上加上L1的Regularity限制（L1主要是約束每一層中的節(jié)點中大部分都要為0，只有少數(shù)不為0），就可以得到SparseAutoEncoder法。,RBM,9/25,3、限制波爾茲曼機(jī)（RBM）定義：假設(shè)有一個二部圖，同層節(jié)點之間沒有鏈接，一層是可視層，即輸入數(shù)據(jù)層（v)，一層是隱藏層(h)，如果假設(shè)所有的節(jié)點都是隨機(jī)二值（0，1）變量節(jié)點，同時假設(shè)全概率分布p(v,h)滿足Boltzmann分布，稱這個模型是RBM。,RBM,10/25,給定隱層h的基礎(chǔ)上，可視層的概率確定：（可視層節(jié)點之間是條件獨立的）給定可視層v的基礎(chǔ)上，隱層的概率確定：給定一個滿足獨立同分布的樣本集：D=v(1),v(2),v(N)，我們需要學(xué)習(xí)參數(shù)=W,a,b。最大似然估計：對最大對數(shù)似然函數(shù)求導(dǎo)，就可以得到L最大時對應(yīng)的參數(shù)W了。,DBN,11/25,DBNs由多個限制玻爾茲曼機(jī)（RBM）層組成，一個典型的神經(jīng)網(wǎng)絡(luò)類型如下圖所示。,CNN,12/25,5、卷積神經(jīng)網(wǎng)絡(luò)（ConvolutionalNeuralNetworks）卷積神經(jīng)網(wǎng)絡(luò)是一個多層的神經(jīng)網(wǎng)絡(luò)，每層由多個二維平面組成，而每個平面由多個獨立神經(jīng)元組成。CNNs是第一個真正成功訓(xùn)練多層網(wǎng)絡(luò)結(jié)構(gòu)的學(xué)習(xí)算法。,核心思想：局部感受野、權(quán)值共享以及時間或空間子采樣這三種結(jié)構(gòu)思想結(jié)合起來獲得某種程度的位移、尺度、形變不變性。,LossFunction一般形式,13/25,LossFunction一般形式,14/25,回歸函數(shù)及目標(biāo)函數(shù)以均方誤差作為目標(biāo)函數(shù)（損失函數(shù)），目的是使其值最小化，用于優(yōu)化上式。,數(shù)學(xué)概念,15/25,1、梯度（一階導(dǎo)數(shù)）某一點的梯度方向是在該點坡度最陡的方向，而梯度的大小告訴我們坡度到底有多陡；對于一個含有n個變量的標(biāo)量函數(shù)，即函數(shù)輸入一個n維的向量，輸出一個數(shù)值，梯度可以定義為：,數(shù)學(xué)概念,16/25,2、Hesse矩陣（二階導(dǎo)數(shù)）Hesse矩陣常被應(yīng)用于牛頓法解決的大規(guī)模優(yōu)化問題，主要形式如下：,當(dāng)f(x)是下列形式：其中x為列向量，A是n階對稱矩陣，b是n維列向量，c是常數(shù)。f(x)梯度是Ax+b,Hesse矩陣等于A。,數(shù)學(xué)概念,17/25,3、Jacobian矩陣Jacobian矩陣實際上是向量值函數(shù)的梯度矩陣，假設(shè)F:RnRm是一個從n維歐氏空間轉(zhuǎn)換到m維歐氏空間的函數(shù)。這個函數(shù)由m個實函數(shù)組成:,這些函數(shù)的偏導(dǎo)數(shù)(如果存在)可以組成一個m行n列的矩陣(mbyn)，這就是所謂的雅可比矩陣：,優(yōu)化方法,18/25,1、GradientDescentGradientdescent(steepestdescent)，也叫批量梯度下降法BatchGradientDescent，BSD，利用一階的梯度信息找到函數(shù)局部最優(yōu)解的一種方法，主要迭代公式如下:,其中，是第k次迭代我們選擇移動的方向，是第k次迭代用linesearch方法選擇移動的距離，每次移動的距離系數(shù)可以相同，也可以不同，有時候我們也叫學(xué)習(xí)率（learningrate）。,優(yōu)化方法,19/25,1、GradientDescent該方法利用目標(biāo)函數(shù)的局部性質(zhì)，得到局部最優(yōu)解，具有一定的“盲目性”，如果目標(biāo)函數(shù)是一個凸優(yōu)化問題，那么局部最優(yōu)解就是全局最優(yōu)解；每一次迭代的移動方向都與出發(fā)點的等高線垂直，此外，鋸齒現(xiàn)象（zig-zagging）將會導(dǎo)致收斂速度變慢:,優(yōu)化方法,20/25,2、Newtonsmethod牛頓法則是利用局部的一階和二階偏導(dǎo)信息，推測整個目標(biāo)函數(shù)的形狀；進(jìn)而可以求得出近似函數(shù)的全局最小值，然后將當(dāng)前的最小值設(shè)定近似函數(shù)的最小值；相比最速下降法，牛頓法帶有一定對全局的預(yù)測性，收斂性質(zhì)也更優(yōu)良。,優(yōu)化方法,21/25,2、Newtonsmethod推導(dǎo)過程如下：利用Taylor級數(shù)求得原目標(biāo)函數(shù)的二階近似：把x看做自變量，所有帶有xk的項看做常量，令一階導(dǎo)數(shù)為0，即可求近似函數(shù)的最小值：即：將當(dāng)前的最小值設(shè)定近似函數(shù)的最小值(或者乘以步長)。,優(yōu)化方法,22/25,2、Newtonsmethod牛頓法主要存在的問題是：Hesse矩陣不可逆時無法計算；矩陣的逆計算復(fù)雜為n的立方，當(dāng)問題規(guī)模比較大時，計算量很大；解決的辦法是采用擬牛頓法如BFGS,L-BFGS,DFP,BroydensAlgorithm進(jìn)行近似；如果初始值離局部極小值太遠(yuǎn)，Taylor展開并不能對原函數(shù)進(jìn)行良好的近似。,優(yōu)化方法,23/25,2、Newtonsmethod在牛頓法的迭代中，需要計算海賽矩陣的逆矩陣H-1這一計算比較復(fù)雜，考慮用一個n階矩陣來近似代替H-1，這就是擬牛頓法的基本思路。DFP(Davidon-Fletcher-Powell）使用一個n階矩陣Gk+1來近似H-1BFGS(Broyden-Fletcher-Goldfarb-Shanno）使用一個n階矩陣Bk來逼近HL-BFGS（Limited-BFGS)：由于上述兩種擬牛頓法都要保存一個n階矩陣，對于內(nèi)存消耗非常大，因此在此基礎(chǔ)上提出了一種節(jié)約內(nèi)存的方法L-BFGS。,優(yōu)化方法,24/25,3、ConjugateGradients共軛梯度法是介于最速下降法與牛頓法之間的一個方法；它僅需利用一階導(dǎo)數(shù)信息，但克服了最速下降法收斂慢的缺點；避免牛頓法需要存儲和計算Hesse矩陣并求逆的缺點.共軛梯度法不僅是解決大型線性方程組最有用的方法之一，也是解大型非線性最優(yōu)化最有效的算法之一。與最速梯度下降的不同，共軛梯度的優(yōu)點主要體現(xiàn)在選擇搜索方向上：,優(yōu)化方法,25/25,3、ConjugateGradients共軛方向：如上圖，d(1)方向與二次函數(shù)的等值線相切，d(1)的共軛方向d(2)則指向橢圓的中心。對于二維二次函數(shù)，若在兩個共軛方向上進(jìn)行一維搜索，經(jīng)過兩次迭代必然達(dá)到最小點。,優(yōu)化方法,26/25,3、ConjugateGradients確定了移動方向（GD：垂直于等值線，CG：共軛方向），并在該方向上搜索極小值點（恰好與該處的等值線相切），然后移動到最小值點，重復(fù)以上過程，過程如下圖：,優(yōu)化方法,27/25,4、隨機(jī)梯度下降算法（SGD）,優(yōu)化方法,28/25,4、隨機(jī)梯度下降算法（SGD）SGD是最速梯度下降法的變種，每次只使用一個樣本，迭代一次計算量為n2，當(dāng)m很大的時候，隨機(jī)梯度下降迭代一次的速度要遠(yuǎn)高于梯度下降：梯度下降需要把m個樣本全部帶入計算，迭代一次計算量為m*n2,優(yōu)化方法,29/25,5、Mini-batchGradientDescent介于BSD和SGD之間的一種優(yōu)化算法，每次選取一定量的訓(xùn)練樣本進(jìn)行迭代；速度比BSD快，比SGD慢；精度比BSD低，比SGD高。選擇n個訓(xùn)練樣本（nm，m為總訓(xùn)練集樣本數(shù)）在這n個樣本中進(jìn)行n次迭代，每次使用1個樣本對n次迭代得出的n個gradient進(jìn)行加權(quán)平均再并求和，作為這一次mini-batch下降梯度；不斷在訓(xùn)練集中重復(fù)以上步驟，直到收斂。,優(yōu)化方法,30/25,5、Mini-batchGradientDescent其思想是：SGD就是每一次迭代計算mini-batch的梯度，然后對參數(shù)進(jìn)行更新；其中，是學(xué)習(xí)率，是梯度，SGD完全依賴于當(dāng)前batch的梯度，可理解為允許當(dāng)前batch的梯度多大程度影響參數(shù)更新。,優(yōu)化方法,31/25,5、Mini-batchGradientDescent面臨的挑戰(zhàn)：learningrate選取比較困難對于稀疏數(shù)據(jù)或者特征，有時我們可能想更新快一些；對于常出現(xiàn)的特征更新慢一些，這時候SGD就不太能滿足要求了；SGD容易收斂到局部最優(yōu)，并且在某些情況下可能被困在鞍點,優(yōu)化方法-Momentum,32/25,momentum是模擬物理里動量的概念，積累之前的動量來替代真正的梯度：其中，是動量因子。,優(yōu)化方法-Momentum,33/25,SGDwithoutmomentum,SGDwithmomentum,優(yōu)化方法-Momentum,34/25,特點：下降初期時，使用上一次參數(shù)更新，下降方向一致，乘上較大的能夠進(jìn)行很好的加速；下降中后期時，在局部最小值來回震蕩的時候，使得更新幅度增大，跳出陷阱；在梯度改變方向的時候，能夠減少更新；總之，momentum項能夠在相關(guān)方向加速SGD，抑制振蕩，從而加快收斂。,優(yōu)化方法-Nesterov,35/25,nesterov項在梯度更新時做一個校正，避免前進(jìn)太快，同時提高靈敏度：并沒有直接改變當(dāng)前梯度，所以Nesterov的改進(jìn)就是讓之前的動量直接影響當(dāng)前的梯度。即：因此，加上nesterov項后，梯度在大的跳躍后，進(jìn)行計算對當(dāng)前梯度進(jìn)行校正。,優(yōu)化方法-Nesterov,36/25,momentum首先計算一個梯度(短的藍(lán)色向量)，然后在加速更新梯度的方向進(jìn)行一個大的跳躍(長的藍(lán)色向量)，nesterov項首先在之前加速的梯度方向進(jìn)行一個大的跳躍(棕色向量)，計算梯度然后進(jìn)行校正(綠色梯向量)：momentum項和nesterov項都是為了使梯度更新更加靈活，對不同情況有針對性。,優(yōu)化方法-Adagrad,37/25,Adagrad其實是對學(xué)習(xí)率進(jìn)行了一個約束，即：對從1到進(jìn)行一個遞推形成一個約束項regularizer,優(yōu)化方法-Adagrad,38/25,特點：前期較小時候，regularizer較大，能夠放大梯度；后期較大的時候，regularizer較小，能夠約束梯度；適合處理稀疏梯度。缺點：仍依賴于人工設(shè)置一個全局學(xué)習(xí)率；設(shè)置過大的話，會使regularizer過于敏感，對梯度的調(diào)節(jié)太大；中后期，分母上梯度平方的累加將會越來越大，使，訓(xùn)練提前結(jié)束。,優(yōu)化方法-Adadelta,39/25,Adadelta是對Adagrad的擴(kuò)展，Adagrad會累加之前所有的梯度平方，而Adadelta只累加固定大小的項，并且也不直接存儲這些項，僅僅是近似計算對應(yīng)的平均值。即：其實Adadelta還是依賴于全局學(xué)習(xí)率的，但作者做了一定處理，經(jīng)過近似牛頓迭代法之后：此時Adadelta已經(jīng)不用依賴于全局學(xué)習(xí)率了,優(yōu)化方法-Adadelta,40/25,特點：訓(xùn)練初中期，加速效果不錯，很快；訓(xùn)練后期，反復(fù)在局部最小值附近抖動。,優(yōu)化方法-RMSprop,41/25,RMSprop可以算作Adadelta的一個特例：當(dāng)時，就變?yōu)榱饲筇荻绕椒胶偷钠骄鶖?shù)；如果再求根的話，就變成了RMS(均方根)：此時，這個RMS就可以作為學(xué)習(xí)率的一個約束：,優(yōu)化方法-RMSprop,42/25,RMSprop：其實RMSprop依然依賴于全局學(xué)習(xí)率；RMSprop算是Adagrad的一種發(fā)展，和Adadelta的變體，效果趨于二者之間；適合處理非平穩(wěn)目標(biāo)-對于RNN效果很好。,優(yōu)化方法-Adam,43/25,Adam(AdaptiveMomentEstimation)本質(zhì)上是帶有動量項的RMSprop，它利用梯度的一階矩估計和二階矩估計動態(tài)調(diào)整每個參數(shù)的學(xué)習(xí)率；Adam的優(yōu)點主要在于經(jīng)過偏置校正后，每一次迭代學(xué)習(xí)率都有個確定范圍，使得參數(shù)比較平穩(wěn)。,優(yōu)化方法-Adam,44/25,公式如下：其中，、分別是對梯度的一階矩估計和二階矩估計，可以看作對期望、的估計；、是對、的校正，這樣可以近似為對期望的無偏估計。對學(xué)習(xí)率形成一個動態(tài)約束，而且有明確的范圍。,優(yōu)化方法-Adam,45/25,特點：結(jié)合了Adagrad善于處理稀疏梯度和RMSprop善于處理非平穩(wěn)目標(biāo)的優(yōu)點；對內(nèi)存需求較??；為不同的參數(shù)計算不同的自適應(yīng)學(xué)習(xí)率；也適用于大多非凸優(yōu)化-適用于大數(shù)據(jù)集和高維空間,優(yōu)化方法-Adamax,46/25,Adamax是Adam的一種變體，此方法對學(xué)習(xí)率的上限提供了一個更簡單的范圍：可以看出，Adamax學(xué)習(xí)率的邊界范圍更簡單,優(yōu)化方法-Nadam,47/25,Nadam類似于帶有Nesterov動量項的Adam：,優(yōu)化方法-Nadam,48/25,可以看出，Nadam對學(xué)習(xí)率有了更強(qiáng)的約束，同時對梯度的更新也有更直接的影響;一般而言，在想使用帶動量的RMSprop，或者Adam的地方，大多可以使用Nadam取得更好的效果。,優(yōu)化方法-Visualizationofalgorithms,49/25,優(yōu)化方法-Visualizationofalgorithms,50/25,Adagrad,Adadelta,RMSprop,和Adam效果明顯,優(yōu)化方法-建議

人人文庫> 全部分類> 教育資料 > 作文作品

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

深度學(xué)習(xí)及其優(yōu)化方法ppt課件

文檔簡介

溫馨提示

最新文檔

評論

深度學(xué)習(xí)及其優(yōu)化方法ppt課件

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔