




已閱讀5頁,還剩49頁未讀, 繼續(xù)免費閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
,深度學(xué)習(xí)(DeepLearning)及其優(yōu)化方法,1/25,報告人:胡海根E-mail:hghu,浙江工業(yè)大學(xué)計算機(jī)學(xué)院,Outline,2/25,深度學(xué)習(xí)的概念,3/25,什么是deeplearning?深度學(xué)習(xí):一種基于無監(jiān)督特征學(xué)習(xí)和特征層次結(jié)構(gòu)的學(xué)習(xí)方法。本質(zhì):通過構(gòu)建多隱層的模型和海量訓(xùn)練數(shù)據(jù),來學(xué)習(xí)更有用的特征,從而最終提升分類或預(yù)測的準(zhǔn)確性。含多隱層的多層感知器就是一種深度學(xué)習(xí)結(jié)構(gòu)。,DL訓(xùn)練過程,4/25,深度學(xué)習(xí)的基本思想:對于DeepLearning,需要自動地學(xué)習(xí)特征,假設(shè)有一堆輸入I,輸出是O,設(shè)計一個系統(tǒng)S(有n層),形象地表示為:I=S1=S2=.=Sn=O,通過調(diào)整系統(tǒng)中參數(shù),使得它的輸出仍然是輸入I,那么就可以自動地獲取得到輸入I的一系列層次特征,即S1,.,Sn。用自下而上的無監(jiān)督學(xué)習(xí)1)逐層構(gòu)建單層神經(jīng)元。2)每層采用wake-sleep算法進(jìn)行調(diào)優(yōu)。每次僅調(diào)整一層,逐層調(diào)整。,5/25,第二步:自頂向下的監(jiān)督學(xué)習(xí)這一步是在第一步學(xué)習(xí)獲得各層參數(shù)進(jìn)的基礎(chǔ)上,在最頂?shù)木幋a層添加一個分類器(如,SVM等),而后通過帶標(biāo)簽數(shù)據(jù)的監(jiān)督學(xué)習(xí),利用梯度下降法去微調(diào)整個網(wǎng)絡(luò)參數(shù)。,DL訓(xùn)練過程,6/25,深度學(xué)習(xí)的具體模型及方法:1、自動編碼器(AutoEncoder)2、稀疏自動編碼器(SparseAutoEncoder)3、限制波爾茲曼機(jī)(RestrictedBoltzmannMachine)4、深信度網(wǎng)絡(luò)(DeepBeliefNetworks)5、卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks),DL訓(xùn)練過程,自動編碼器,7/25,1、自動編碼器(AutoEncoder)通過調(diào)整encoder和decoder的參數(shù),使得重構(gòu)誤差最小,就得到了輸入input信號的第一個表示了,也就是編碼code了。因為是無標(biāo)簽數(shù)據(jù),所以誤差的來源就是直接重構(gòu)后與原輸入相比得到。,稀疏自動編碼器,8/25,如上圖,其實就是限制每次得到的表達(dá)code盡量稀疏。因為稀疏的表達(dá)往往比其他的表達(dá)要有效。,2、稀疏自動編碼器(SparseAutoEncoder)AutoEncoder的基礎(chǔ)上加上L1的Regularity限制(L1主要是約束每一層中的節(jié)點中大部分都要為0,只有少數(shù)不為0),就可以得到SparseAutoEncoder法。,RBM,9/25,3、限制波爾茲曼機(jī)(RBM)定義:假設(shè)有一個二部圖,同層節(jié)點之間沒有鏈接,一層是可視層,即輸入數(shù)據(jù)層(v),一層是隱藏層(h),如果假設(shè)所有的節(jié)點都是隨機(jī)二值(0,1)變量節(jié)點,同時假設(shè)全概率分布p(v,h)滿足Boltzmann分布,稱這個模型是RBM。,RBM,10/25,給定隱層h的基礎(chǔ)上,可視層的概率確定:(可視層節(jié)點之間是條件獨立的)給定可視層v的基礎(chǔ)上,隱層的概率確定:給定一個滿足獨立同分布的樣本集:D=v(1),v(2),v(N),我們需要學(xué)習(xí)參數(shù)=W,a,b。最大似然估計:對最大對數(shù)似然函數(shù)求導(dǎo),就可以得到L最大時對應(yīng)的參數(shù)W了。,DBN,11/25,DBNs由多個限制玻爾茲曼機(jī)(RBM)層組成,一個典型的神經(jīng)網(wǎng)絡(luò)類型如下圖所示。,CNN,12/25,5、卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks)卷積神經(jīng)網(wǎng)絡(luò)是一個多層的神經(jīng)網(wǎng)絡(luò),每層由多個二維平面組成,而每個平面由多個獨立神經(jīng)元組成。CNNs是第一個真正成功訓(xùn)練多層網(wǎng)絡(luò)結(jié)構(gòu)的學(xué)習(xí)算法。,核心思想:局部感受野、權(quán)值共享以及時間或空間子采樣這三種結(jié)構(gòu)思想結(jié)合起來獲得某種程度的位移、尺度、形變不變性。,LossFunction一般形式,13/25,LossFunction一般形式,14/25,回歸函數(shù)及目標(biāo)函數(shù)以均方誤差作為目標(biāo)函數(shù)(損失函數(shù)),目的是使其值最小化,用于優(yōu)化上式。,數(shù)學(xué)概念,15/25,1、梯度(一階導(dǎo)數(shù))某一點的梯度方向是在該點坡度最陡的方向,而梯度的大小告訴我們坡度到底有多陡;對于一個含有n個變量的標(biāo)量函數(shù),即函數(shù)輸入一個n維的向量,輸出一個數(shù)值,梯度可以定義為:,數(shù)學(xué)概念,16/25,2、Hesse矩陣(二階導(dǎo)數(shù))Hesse矩陣常被應(yīng)用于牛頓法解決的大規(guī)模優(yōu)化問題,主要形式如下:,當(dāng)f(x)是下列形式:其中x為列向量,A是n階對稱矩陣,b是n維列向量,c是常數(shù)。f(x)梯度是Ax+b,Hesse矩陣等于A。,數(shù)學(xué)概念,17/25,3、Jacobian矩陣Jacobian矩陣實際上是向量值函數(shù)的梯度矩陣,假設(shè)F:RnRm是一個從n維歐氏空間轉(zhuǎn)換到m維歐氏空間的函數(shù)。這個函數(shù)由m個實函數(shù)組成:,這些函數(shù)的偏導(dǎo)數(shù)(如果存在)可以組成一個m行n列的矩陣(mbyn),這就是所謂的雅可比矩陣:,優(yōu)化方法,18/25,1、GradientDescentGradientdescent(steepestdescent),也叫批量梯度下降法BatchGradientDescent,BSD,利用一階的梯度信息找到函數(shù)局部最優(yōu)解的一種方法,主要迭代公式如下:,其中,是第k次迭代我們選擇移動的方向,是第k次迭代用linesearch方法選擇移動的距離,每次移動的距離系數(shù)可以相同,也可以不同,有時候我們也叫學(xué)習(xí)率(learningrate)。,優(yōu)化方法,19/25,1、GradientDescent該方法利用目標(biāo)函數(shù)的局部性質(zhì),得到局部最優(yōu)解,具有一定的“盲目性”,如果目標(biāo)函數(shù)是一個凸優(yōu)化問題,那么局部最優(yōu)解就是全局最優(yōu)解;每一次迭代的移動方向都與出發(fā)點的等高線垂直,此外,鋸齒現(xiàn)象(zig-zagging)將會導(dǎo)致收斂速度變慢:,優(yōu)化方法,20/25,2、Newtonsmethod牛頓法則是利用局部的一階和二階偏導(dǎo)信息,推測整個目標(biāo)函數(shù)的形狀;進(jìn)而可以求得出近似函數(shù)的全局最小值,然后將當(dāng)前的最小值設(shè)定近似函數(shù)的最小值;相比最速下降法,牛頓法帶有一定對全局的預(yù)測性,收斂性質(zhì)也更優(yōu)良。,優(yōu)化方法,21/25,2、Newtonsmethod推導(dǎo)過程如下:利用Taylor級數(shù)求得原目標(biāo)函數(shù)的二階近似:把x看做自變量,所有帶有xk的項看做常量,令一階導(dǎo)數(shù)為0,即可求近似函數(shù)的最小值:即:將當(dāng)前的最小值設(shè)定近似函數(shù)的最小值(或者乘以步長)。,優(yōu)化方法,22/25,2、Newtonsmethod牛頓法主要存在的問題是:Hesse矩陣不可逆時無法計算;矩陣的逆計算復(fù)雜為n的立方,當(dāng)問題規(guī)模比較大時,計算量很大;解決的辦法是采用擬牛頓法如BFGS,L-BFGS,DFP,BroydensAlgorithm進(jìn)行近似;如果初始值離局部極小值太遠(yuǎn),Taylor展開并不能對原函數(shù)進(jìn)行良好的近似。,優(yōu)化方法,23/25,2、Newtonsmethod在牛頓法的迭代中,需要計算海賽矩陣的逆矩陣H-1這一計算比較復(fù)雜,考慮用一個n階矩陣來近似代替H-1,這就是擬牛頓法的基本思路。DFP(Davidon-Fletcher-Powell)使用一個n階矩陣Gk+1來近似H-1BFGS(Broyden-Fletcher-Goldfarb-Shanno)使用一個n階矩陣Bk來逼近HL-BFGS(Limited-BFGS):由于上述兩種擬牛頓法都要保存一個n階矩陣,對于內(nèi)存消耗非常大,因此在此基礎(chǔ)上提出了一種節(jié)約內(nèi)存的方法L-BFGS。,優(yōu)化方法,24/25,3、ConjugateGradients共軛梯度法是介于最速下降法與牛頓法之間的一個方法;它僅需利用一階導(dǎo)數(shù)信息,但克服了最速下降法收斂慢的缺點;避免牛頓法需要存儲和計算Hesse矩陣并求逆的缺點.共軛梯度法不僅是解決大型線性方程組最有用的方法之一,也是解大型非線性最優(yōu)化最有效的算法之一。與最速梯度下降的不同,共軛梯度的優(yōu)點主要體現(xiàn)在選擇搜索方向上:,優(yōu)化方法,25/25,3、ConjugateGradients共軛方向:如上圖,d(1)方向與二次函數(shù)的等值線相切,d(1)的共軛方向d(2)則指向橢圓的中心。對于二維二次函數(shù),若在兩個共軛方向上進(jìn)行一維搜索,經(jīng)過兩次迭代必然達(dá)到最小點。,優(yōu)化方法,26/25,3、ConjugateGradients確定了移動方向(GD:垂直于等值線,CG:共軛方向),并在該方向上搜索極小值點(恰好與該處的等值線相切),然后移動到最小值點,重復(fù)以上過程,過程如下圖:,優(yōu)化方法,27/25,4、隨機(jī)梯度下降算法(SGD),優(yōu)化方法,28/25,4、隨機(jī)梯度下降算法(SGD)SGD是最速梯度下降法的變種,每次只使用一個樣本,迭代一次計算量為n2,當(dāng)m很大的時候,隨機(jī)梯度下降迭代一次的速度要遠(yuǎn)高于梯度下降:梯度下降需要把m個樣本全部帶入計算,迭代一次計算量為m*n2,優(yōu)化方法,29/25,5、Mini-batchGradientDescent介于BSD和SGD之間的一種優(yōu)化算法,每次選取一定量的訓(xùn)練樣本進(jìn)行迭代;速度比BSD快,比SGD慢;精度比BSD低,比SGD高。選擇n個訓(xùn)練樣本(nm,m為總訓(xùn)練集樣本數(shù))在這n個樣本中進(jìn)行n次迭代,每次使用1個樣本對n次迭代得出的n個gradient進(jìn)行加權(quán)平均再并求和,作為這一次mini-batch下降梯度;不斷在訓(xùn)練集中重復(fù)以上步驟,直到收斂。,優(yōu)化方法,30/25,5、Mini-batchGradientDescent其思想是:SGD就是每一次迭代計算mini-batch的梯度,然后對參數(shù)進(jìn)行更新;其中,是學(xué)習(xí)率,是梯度,SGD完全依賴于當(dāng)前batch的梯度,可理解為允許當(dāng)前batch的梯度多大程度影響參數(shù)更新。,優(yōu)化方法,31/25,5、Mini-batchGradientDescent面臨的挑戰(zhàn):learningrate選取比較困難對于稀疏數(shù)據(jù)或者特征,有時我們可能想更新快一些;對于常出現(xiàn)的特征更新慢一些,這時候SGD就不太能滿足要求了;SGD容易收斂到局部最優(yōu),并且在某些情況下可能被困在鞍點,優(yōu)化方法-Momentum,32/25,momentum是模擬物理里動量的概念,積累之前的動量來替代真正的梯度:其中,是動量因子。,優(yōu)化方法-Momentum,33/25,SGDwithoutmomentum,SGDwithmomentum,優(yōu)化方法-Momentum,34/25,特點:下降初期時,使用上一次參數(shù)更新,下降方向一致,乘上較大的能夠進(jìn)行很好的加速;下降中后期時,在局部最小值來回震蕩的時候,使得更新幅度增大,跳出陷阱;在梯度改變方向的時候,能夠減少更新;總之,momentum項能夠在相關(guān)方向加速SGD,抑制振蕩,從而加快收斂。,優(yōu)化方法-Nesterov,35/25,nesterov項在梯度更新時做一個校正,避免前進(jìn)太快,同時提高靈敏度:并沒有直接改變當(dāng)前梯度,所以Nesterov的改進(jìn)就是讓之前的動量直接影響當(dāng)前的梯度。即:因此,加上nesterov項后,梯度在大的跳躍后,進(jìn)行計算對當(dāng)前梯度進(jìn)行校正。,優(yōu)化方法-Nesterov,36/25,momentum首先計算一個梯度(短的藍(lán)色向量),然后在加速更新梯度的方向進(jìn)行一個大的跳躍(長的藍(lán)色向量),nesterov項首先在之前加速的梯度方向進(jìn)行一個大的跳躍(棕色向量),計算梯度然后進(jìn)行校正(綠色梯向量):momentum項和nesterov項都是為了使梯度更新更加靈活,對不同情況有針對性。,優(yōu)化方法-Adagrad,37/25,Adagrad其實是對學(xué)習(xí)率進(jìn)行了一個約束,即:對從1到進(jìn)行一個遞推形成一個約束項regularizer,優(yōu)化方法-Adagrad,38/25,特點:前期較小時候,regularizer較大,能夠放大梯度;后期較大的時候,regularizer較小,能夠約束梯度;適合處理稀疏梯度。缺點:仍依賴于人工設(shè)置一個全局學(xué)習(xí)率;設(shè)置過大的話,會使regularizer過于敏感,對梯度的調(diào)節(jié)太大;中后期,分母上梯度平方的累加將會越來越大,使,訓(xùn)練提前結(jié)束。,優(yōu)化方法-Adadelta,39/25,Adadelta是對Adagrad的擴(kuò)展,Adagrad會累加之前所有的梯度平方,而Adadelta只累加固定大小的項,并且也不直接存儲這些項,僅僅是近似計算對應(yīng)的平均值。即:其實Adadelta還是依賴于全局學(xué)習(xí)率的,但作者做了一定處理,經(jīng)過近似牛頓迭代法之后:此時Adadelta已經(jīng)不用依賴于全局學(xué)習(xí)率了,優(yōu)化方法-Adadelta,40/25,特點:訓(xùn)練初中期,加速效果不錯,很快;訓(xùn)練后期,反復(fù)在局部最小值附近抖動。,優(yōu)化方法-RMSprop,41/25,RMSprop可以算作Adadelta的一個特例:當(dāng)時,就變?yōu)榱饲筇荻绕椒胶偷钠骄鶖?shù);如果再求根的話,就變成了RMS(均方根):此時,這個RMS就可以作為學(xué)習(xí)率的一個約束:,優(yōu)化方法-RMSprop,42/25,RMSprop:其實RMSprop依然依賴于全局學(xué)習(xí)率;RMSprop算是Adagrad的一種發(fā)展,和Adadelta的變體,效果趨于二者之間;適合處理非平穩(wěn)目標(biāo)-對于RNN效果很好。,優(yōu)化方法-Adam,43/25,Adam(AdaptiveMomentEstimation)本質(zhì)上是帶有動量項的RMSprop,它利用梯度的一階矩估計和二階矩估計動態(tài)調(diào)整每個參數(shù)的學(xué)習(xí)率;Adam的優(yōu)點主要在于經(jīng)過偏置校正后,每一次迭代學(xué)習(xí)率都有個確定范圍,使得參數(shù)比較平穩(wěn)。,優(yōu)化方法-Adam,44/25,公式如下:其中,、分別是對梯度的一階矩估計和二階矩估計,可以看作對期望、的估計;、是對、的校正,這樣可以近似為對期望的無偏估計。對學(xué)習(xí)率形成一個動態(tài)約束,而且有明確的范圍。,優(yōu)化方法-Adam,45/25,特點:結(jié)合了Adagrad善于處理稀疏梯度和RMSprop善于處理非平穩(wěn)目標(biāo)的優(yōu)點;對內(nèi)存需求較??;為不同的參數(shù)計算不同的自適應(yīng)學(xué)習(xí)率;也適用于大多非凸優(yōu)化-適用于大數(shù)據(jù)集和高維空間,優(yōu)化方法-Adamax,46/25,Adamax是Adam的一種變體,此方法對學(xué)習(xí)率的上限提供了一個更簡單的范圍:可以看出,Adamax學(xué)習(xí)率的邊界范圍更簡單,優(yōu)化方法-Nadam,47/25,Nadam類似于帶有Nesterov動量項的Adam:,優(yōu)化方法-Nadam,48/25,可以看出,Nadam對學(xué)習(xí)率有了更強(qiáng)的約束,同時對梯度的更新也有更直接的影響;一般而言,在想使用帶動量的RMSprop,或者Adam的地方,大多可以使用Nadam取得更好的效果。,優(yōu)化方法-Visualizationofalgorithms,49/25,優(yōu)化方法-Visualizationofalgorithms,50/25,Adagrad,Adadelta,RMSprop,和Adam效果明顯,優(yōu)化方法-建議
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 學(xué)校智能化管理制度
- 學(xué)校科創(chuàng)室管理制度
- 學(xué)生新宿舍管理制度
- 安全措施及管理制度
- 安置點物資管理制度
- 完整版公司管理制度
- 寶雞市廣場管理制度
- 實驗室危廢管理制度
- 客房工作車管理制度
- 宣傳海報組管理制度
- 國家開放大學(xué)《社會保障基礎(chǔ)》期末考試題庫
- 《休克新進(jìn)展》課件
- 旅游景區(qū)消防維保方案及管理
- 高端仿真花采購合同
- ISO 22003-1:2022《食品安全-第 1 部分:食品安全管理體系 審核與認(rèn)證機(jī)構(gòu)要求》中文版(機(jī)翻)
- 室內(nèi)裝修拆除施工方案
- 天津市濱海新區(qū)2023-2024學(xué)年高一年級下學(xué)期期末檢測語文試題(解析版)
- 內(nèi)科學(xué) 消化系統(tǒng)疾病 習(xí)題集 帶答案
- 研究生學(xué)術(shù)表達(dá)能力培養(yǎng)智慧樹知到答案2024年西安建筑科技大學(xué)、清華大學(xué)、同濟(jì)大學(xué)、山東大學(xué)、河北工程大學(xué)、《環(huán)境工程》英文版和《環(huán)境工程》編輯部
- 安踏組織架構(gòu)分析文檔
- 護(hù)理病歷質(zhì)控
評論
0/150
提交評論