




已閱讀5頁(yè),還剩49頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
,深度學(xué)習(xí)(DeepLearning)及其優(yōu)化方法,1/25,報(bào)告人:胡海根E-mail:hghu,浙江工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,Outline,2/25,深度學(xué)習(xí)的概念,3/25,什么是deeplearning?深度學(xué)習(xí):一種基于無(wú)監(jiān)督特征學(xué)習(xí)和特征層次結(jié)構(gòu)的學(xué)習(xí)方法。本質(zhì):通過(guò)構(gòu)建多隱層的模型和海量訓(xùn)練數(shù)據(jù),來(lái)學(xué)習(xí)更有用的特征,從而最終提升分類或預(yù)測(cè)的準(zhǔn)確性。含多隱層的多層感知器就是一種深度學(xué)習(xí)結(jié)構(gòu)。,DL訓(xùn)練過(guò)程,4/25,深度學(xué)習(xí)的基本思想:對(duì)于DeepLearning,需要自動(dòng)地學(xué)習(xí)特征,假設(shè)有一堆輸入I,輸出是O,設(shè)計(jì)一個(gè)系統(tǒng)S(有n層),形象地表示為:I=S1=S2=.=Sn=O,通過(guò)調(diào)整系統(tǒng)中參數(shù),使得它的輸出仍然是輸入I,那么就可以自動(dòng)地獲取得到輸入I的一系列層次特征,即S1,.,Sn。用自下而上的無(wú)監(jiān)督學(xué)習(xí)1)逐層構(gòu)建單層神經(jīng)元。2)每層采用wake-sleep算法進(jìn)行調(diào)優(yōu)。每次僅調(diào)整一層,逐層調(diào)整。,5/25,第二步:自頂向下的監(jiān)督學(xué)習(xí)這一步是在第一步學(xué)習(xí)獲得各層參數(shù)進(jìn)的基礎(chǔ)上,在最頂?shù)木幋a層添加一個(gè)分類器(如,SVM等),而后通過(guò)帶標(biāo)簽數(shù)據(jù)的監(jiān)督學(xué)習(xí),利用梯度下降法去微調(diào)整個(gè)網(wǎng)絡(luò)參數(shù)。,DL訓(xùn)練過(guò)程,6/25,深度學(xué)習(xí)的具體模型及方法:1、自動(dòng)編碼器(AutoEncoder)2、稀疏自動(dòng)編碼器(SparseAutoEncoder)3、限制波爾茲曼機(jī)(RestrictedBoltzmannMachine)4、深信度網(wǎng)絡(luò)(DeepBeliefNetworks)5、卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks),DL訓(xùn)練過(guò)程,自動(dòng)編碼器,7/25,1、自動(dòng)編碼器(AutoEncoder)通過(guò)調(diào)整encoder和decoder的參數(shù),使得重構(gòu)誤差最小,就得到了輸入input信號(hào)的第一個(gè)表示了,也就是編碼code了。因?yàn)槭菬o(wú)標(biāo)簽數(shù)據(jù),所以誤差的來(lái)源就是直接重構(gòu)后與原輸入相比得到。,稀疏自動(dòng)編碼器,8/25,如上圖,其實(shí)就是限制每次得到的表達(dá)code盡量稀疏。因?yàn)橄∈璧谋磉_(dá)往往比其他的表達(dá)要有效。,2、稀疏自動(dòng)編碼器(SparseAutoEncoder)AutoEncoder的基礎(chǔ)上加上L1的Regularity限制(L1主要是約束每一層中的節(jié)點(diǎn)中大部分都要為0,只有少數(shù)不為0),就可以得到SparseAutoEncoder法。,RBM,9/25,3、限制波爾茲曼機(jī)(RBM)定義:假設(shè)有一個(gè)二部圖,同層節(jié)點(diǎn)之間沒(méi)有鏈接,一層是可視層,即輸入數(shù)據(jù)層(v),一層是隱藏層(h),如果假設(shè)所有的節(jié)點(diǎn)都是隨機(jī)二值(0,1)變量節(jié)點(diǎn),同時(shí)假設(shè)全概率分布p(v,h)滿足Boltzmann分布,稱這個(gè)模型是RBM。,RBM,10/25,給定隱層h的基礎(chǔ)上,可視層的概率確定:(可視層節(jié)點(diǎn)之間是條件獨(dú)立的)給定可視層v的基礎(chǔ)上,隱層的概率確定:給定一個(gè)滿足獨(dú)立同分布的樣本集:D=v(1),v(2),v(N),我們需要學(xué)習(xí)參數(shù)=W,a,b。最大似然估計(jì):對(duì)最大對(duì)數(shù)似然函數(shù)求導(dǎo),就可以得到L最大時(shí)對(duì)應(yīng)的參數(shù)W了。,DBN,11/25,DBNs由多個(gè)限制玻爾茲曼機(jī)(RBM)層組成,一個(gè)典型的神經(jīng)網(wǎng)絡(luò)類型如下圖所示。,CNN,12/25,5、卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks)卷積神經(jīng)網(wǎng)絡(luò)是一個(gè)多層的神經(jīng)網(wǎng)絡(luò),每層由多個(gè)二維平面組成,而每個(gè)平面由多個(gè)獨(dú)立神經(jīng)元組成。CNNs是第一個(gè)真正成功訓(xùn)練多層網(wǎng)絡(luò)結(jié)構(gòu)的學(xué)習(xí)算法。,核心思想:局部感受野、權(quán)值共享以及時(shí)間或空間子采樣這三種結(jié)構(gòu)思想結(jié)合起來(lái)獲得某種程度的位移、尺度、形變不變性。,LossFunction一般形式,13/25,LossFunction一般形式,14/25,回歸函數(shù)及目標(biāo)函數(shù)以均方誤差作為目標(biāo)函數(shù)(損失函數(shù)),目的是使其值最小化,用于優(yōu)化上式。,數(shù)學(xué)概念,15/25,1、梯度(一階導(dǎo)數(shù))某一點(diǎn)的梯度方向是在該點(diǎn)坡度最陡的方向,而梯度的大小告訴我們坡度到底有多陡;對(duì)于一個(gè)含有n個(gè)變量的標(biāo)量函數(shù),即函數(shù)輸入一個(gè)n維的向量,輸出一個(gè)數(shù)值,梯度可以定義為:,數(shù)學(xué)概念,16/25,2、Hesse矩陣(二階導(dǎo)數(shù))Hesse矩陣常被應(yīng)用于牛頓法解決的大規(guī)模優(yōu)化問(wèn)題,主要形式如下:,當(dāng)f(x)是下列形式:其中x為列向量,A是n階對(duì)稱矩陣,b是n維列向量,c是常數(shù)。f(x)梯度是Ax+b,Hesse矩陣等于A。,數(shù)學(xué)概念,17/25,3、Jacobian矩陣Jacobian矩陣實(shí)際上是向量值函數(shù)的梯度矩陣,假設(shè)F:RnRm是一個(gè)從n維歐氏空間轉(zhuǎn)換到m維歐氏空間的函數(shù)。這個(gè)函數(shù)由m個(gè)實(shí)函數(shù)組成:,這些函數(shù)的偏導(dǎo)數(shù)(如果存在)可以組成一個(gè)m行n列的矩陣(mbyn),這就是所謂的雅可比矩陣:,優(yōu)化方法,18/25,1、GradientDescentGradientdescent(steepestdescent),也叫批量梯度下降法BatchGradientDescent,BSD,利用一階的梯度信息找到函數(shù)局部最優(yōu)解的一種方法,主要迭代公式如下:,其中,是第k次迭代我們選擇移動(dòng)的方向,是第k次迭代用linesearch方法選擇移動(dòng)的距離,每次移動(dòng)的距離系數(shù)可以相同,也可以不同,有時(shí)候我們也叫學(xué)習(xí)率(learningrate)。,優(yōu)化方法,19/25,1、GradientDescent該方法利用目標(biāo)函數(shù)的局部性質(zhì),得到局部最優(yōu)解,具有一定的“盲目性”,如果目標(biāo)函數(shù)是一個(gè)凸優(yōu)化問(wèn)題,那么局部最優(yōu)解就是全局最優(yōu)解;每一次迭代的移動(dòng)方向都與出發(fā)點(diǎn)的等高線垂直,此外,鋸齒現(xiàn)象(zig-zagging)將會(huì)導(dǎo)致收斂速度變慢:,優(yōu)化方法,20/25,2、Newtonsmethod牛頓法則是利用局部的一階和二階偏導(dǎo)信息,推測(cè)整個(gè)目標(biāo)函數(shù)的形狀;進(jìn)而可以求得出近似函數(shù)的全局最小值,然后將當(dāng)前的最小值設(shè)定近似函數(shù)的最小值;相比最速下降法,牛頓法帶有一定對(duì)全局的預(yù)測(cè)性,收斂性質(zhì)也更優(yōu)良。,優(yōu)化方法,21/25,2、Newtonsmethod推導(dǎo)過(guò)程如下:利用Taylor級(jí)數(shù)求得原目標(biāo)函數(shù)的二階近似:把x看做自變量,所有帶有xk的項(xiàng)看做常量,令一階導(dǎo)數(shù)為0,即可求近似函數(shù)的最小值:即:將當(dāng)前的最小值設(shè)定近似函數(shù)的最小值(或者乘以步長(zhǎng))。,優(yōu)化方法,22/25,2、Newtonsmethod牛頓法主要存在的問(wèn)題是:Hesse矩陣不可逆時(shí)無(wú)法計(jì)算;矩陣的逆計(jì)算復(fù)雜為n的立方,當(dāng)問(wèn)題規(guī)模比較大時(shí),計(jì)算量很大;解決的辦法是采用擬牛頓法如BFGS,L-BFGS,DFP,BroydensAlgorithm進(jìn)行近似;如果初始值離局部極小值太遠(yuǎn),Taylor展開(kāi)并不能對(duì)原函數(shù)進(jìn)行良好的近似。,優(yōu)化方法,23/25,2、Newtonsmethod在牛頓法的迭代中,需要計(jì)算海賽矩陣的逆矩陣H-1這一計(jì)算比較復(fù)雜,考慮用一個(gè)n階矩陣來(lái)近似代替H-1,這就是擬牛頓法的基本思路。DFP(Davidon-Fletcher-Powell)使用一個(gè)n階矩陣Gk+1來(lái)近似H-1BFGS(Broyden-Fletcher-Goldfarb-Shanno)使用一個(gè)n階矩陣Bk來(lái)逼近HL-BFGS(Limited-BFGS):由于上述兩種擬牛頓法都要保存一個(gè)n階矩陣,對(duì)于內(nèi)存消耗非常大,因此在此基礎(chǔ)上提出了一種節(jié)約內(nèi)存的方法L-BFGS。,優(yōu)化方法,24/25,3、ConjugateGradients共軛梯度法是介于最速下降法與牛頓法之間的一個(gè)方法;它僅需利用一階導(dǎo)數(shù)信息,但克服了最速下降法收斂慢的缺點(diǎn);避免牛頓法需要存儲(chǔ)和計(jì)算Hesse矩陣并求逆的缺點(diǎn).共軛梯度法不僅是解決大型線性方程組最有用的方法之一,也是解大型非線性最優(yōu)化最有效的算法之一。與最速梯度下降的不同,共軛梯度的優(yōu)點(diǎn)主要體現(xiàn)在選擇搜索方向上:,優(yōu)化方法,25/25,3、ConjugateGradients共軛方向:如上圖,d(1)方向與二次函數(shù)的等值線相切,d(1)的共軛方向d(2)則指向橢圓的中心。對(duì)于二維二次函數(shù),若在兩個(gè)共軛方向上進(jìn)行一維搜索,經(jīng)過(guò)兩次迭代必然達(dá)到最小點(diǎn)。,優(yōu)化方法,26/25,3、ConjugateGradients確定了移動(dòng)方向(GD:垂直于等值線,CG:共軛方向),并在該方向上搜索極小值點(diǎn)(恰好與該處的等值線相切),然后移動(dòng)到最小值點(diǎn),重復(fù)以上過(guò)程,過(guò)程如下圖:,優(yōu)化方法,27/25,4、隨機(jī)梯度下降算法(SGD),優(yōu)化方法,28/25,4、隨機(jī)梯度下降算法(SGD)SGD是最速梯度下降法的變種,每次只使用一個(gè)樣本,迭代一次計(jì)算量為n2,當(dāng)m很大的時(shí)候,隨機(jī)梯度下降迭代一次的速度要遠(yuǎn)高于梯度下降:梯度下降需要把m個(gè)樣本全部帶入計(jì)算,迭代一次計(jì)算量為m*n2,優(yōu)化方法,29/25,5、Mini-batchGradientDescent介于BSD和SGD之間的一種優(yōu)化算法,每次選取一定量的訓(xùn)練樣本進(jìn)行迭代;速度比BSD快,比SGD慢;精度比BSD低,比SGD高。選擇n個(gè)訓(xùn)練樣本(nm,m為總訓(xùn)練集樣本數(shù))在這n個(gè)樣本中進(jìn)行n次迭代,每次使用1個(gè)樣本對(duì)n次迭代得出的n個(gè)gradient進(jìn)行加權(quán)平均再并求和,作為這一次mini-batch下降梯度;不斷在訓(xùn)練集中重復(fù)以上步驟,直到收斂。,優(yōu)化方法,30/25,5、Mini-batchGradientDescent其思想是:SGD就是每一次迭代計(jì)算mini-batch的梯度,然后對(duì)參數(shù)進(jìn)行更新;其中,是學(xué)習(xí)率,是梯度,SGD完全依賴于當(dāng)前batch的梯度,可理解為允許當(dāng)前batch的梯度多大程度影響參數(shù)更新。,優(yōu)化方法,31/25,5、Mini-batchGradientDescent面臨的挑戰(zhàn):learningrate選取比較困難對(duì)于稀疏數(shù)據(jù)或者特征,有時(shí)我們可能想更新快一些;對(duì)于常出現(xiàn)的特征更新慢一些,這時(shí)候SGD就不太能滿足要求了;SGD容易收斂到局部最優(yōu),并且在某些情況下可能被困在鞍點(diǎn),優(yōu)化方法-Momentum,32/25,momentum是模擬物理里動(dòng)量的概念,積累之前的動(dòng)量來(lái)替代真正的梯度:其中,是動(dòng)量因子。,優(yōu)化方法-Momentum,33/25,SGDwithoutmomentum,SGDwithmomentum,優(yōu)化方法-Momentum,34/25,特點(diǎn):下降初期時(shí),使用上一次參數(shù)更新,下降方向一致,乘上較大的能夠進(jìn)行很好的加速;下降中后期時(shí),在局部最小值來(lái)回震蕩的時(shí)候,使得更新幅度增大,跳出陷阱;在梯度改變方向的時(shí)候,能夠減少更新;總之,momentum項(xiàng)能夠在相關(guān)方向加速SGD,抑制振蕩,從而加快收斂。,優(yōu)化方法-Nesterov,35/25,nesterov項(xiàng)在梯度更新時(shí)做一個(gè)校正,避免前進(jìn)太快,同時(shí)提高靈敏度:并沒(méi)有直接改變當(dāng)前梯度,所以Nesterov的改進(jìn)就是讓之前的動(dòng)量直接影響當(dāng)前的梯度。即:因此,加上nesterov項(xiàng)后,梯度在大的跳躍后,進(jìn)行計(jì)算對(duì)當(dāng)前梯度進(jìn)行校正。,優(yōu)化方法-Nesterov,36/25,momentum首先計(jì)算一個(gè)梯度(短的藍(lán)色向量),然后在加速更新梯度的方向進(jìn)行一個(gè)大的跳躍(長(zhǎng)的藍(lán)色向量),nesterov項(xiàng)首先在之前加速的梯度方向進(jìn)行一個(gè)大的跳躍(棕色向量),計(jì)算梯度然后進(jìn)行校正(綠色梯向量):momentum項(xiàng)和nesterov項(xiàng)都是為了使梯度更新更加靈活,對(duì)不同情況有針對(duì)性。,優(yōu)化方法-Adagrad,37/25,Adagrad其實(shí)是對(duì)學(xué)習(xí)率進(jìn)行了一個(gè)約束,即:對(duì)從1到進(jìn)行一個(gè)遞推形成一個(gè)約束項(xiàng)regularizer,優(yōu)化方法-Adagrad,38/25,特點(diǎn):前期較小時(shí)候,regularizer較大,能夠放大梯度;后期較大的時(shí)候,regularizer較小,能夠約束梯度;適合處理稀疏梯度。缺點(diǎn):仍依賴于人工設(shè)置一個(gè)全局學(xué)習(xí)率;設(shè)置過(guò)大的話,會(huì)使regularizer過(guò)于敏感,對(duì)梯度的調(diào)節(jié)太大;中后期,分母上梯度平方的累加將會(huì)越來(lái)越大,使,訓(xùn)練提前結(jié)束。,優(yōu)化方法-Adadelta,39/25,Adadelta是對(duì)Adagrad的擴(kuò)展,Adagrad會(huì)累加之前所有的梯度平方,而Adadelta只累加固定大小的項(xiàng),并且也不直接存儲(chǔ)這些項(xiàng),僅僅是近似計(jì)算對(duì)應(yīng)的平均值。即:其實(shí)Adadelta還是依賴于全局學(xué)習(xí)率的,但作者做了一定處理,經(jīng)過(guò)近似牛頓迭代法之后:此時(shí)Adadelta已經(jīng)不用依賴于全局學(xué)習(xí)率了,優(yōu)化方法-Adadelta,40/25,特點(diǎn):訓(xùn)練初中期,加速效果不錯(cuò),很快;訓(xùn)練后期,反復(fù)在局部最小值附近抖動(dòng)。,優(yōu)化方法-RMSprop,41/25,RMSprop可以算作Adadelta的一個(gè)特例:當(dāng)時(shí),就變?yōu)榱饲筇荻绕椒胶偷钠骄鶖?shù);如果再求根的話,就變成了RMS(均方根):此時(shí),這個(gè)RMS就可以作為學(xué)習(xí)率的一個(gè)約束:,優(yōu)化方法-RMSprop,42/25,RMSprop:其實(shí)RMSprop依然依賴于全局學(xué)習(xí)率;RMSprop算是Adagrad的一種發(fā)展,和Adadelta的變體,效果趨于二者之間;適合處理非平穩(wěn)目標(biāo)-對(duì)于RNN效果很好。,優(yōu)化方法-Adam,43/25,Adam(AdaptiveMomentEstimation)本質(zhì)上是帶有動(dòng)量項(xiàng)的RMSprop,它利用梯度的一階矩估計(jì)和二階矩估計(jì)動(dòng)態(tài)調(diào)整每個(gè)參數(shù)的學(xué)習(xí)率;Adam的優(yōu)點(diǎn)主要在于經(jīng)過(guò)偏置校正后,每一次迭代學(xué)習(xí)率都有個(gè)確定范圍,使得參數(shù)比較平穩(wěn)。,優(yōu)化方法-Adam,44/25,公式如下:其中,、分別是對(duì)梯度的一階矩估計(jì)和二階矩估計(jì),可以看作對(duì)期望、的估計(jì);、是對(duì)、的校正,這樣可以近似為對(duì)期望的無(wú)偏估計(jì)。對(duì)學(xué)習(xí)率形成一個(gè)動(dòng)態(tài)約束,而且有明確的范圍。,優(yōu)化方法-Adam,45/25,特點(diǎn):結(jié)合了Adagrad善于處理稀疏梯度和RMSprop善于處理非平穩(wěn)目標(biāo)的優(yōu)點(diǎn);對(duì)內(nèi)存需求較?。粸椴煌膮?shù)計(jì)算不同的自適應(yīng)學(xué)習(xí)率;也適用于大多非凸優(yōu)化-適用于大數(shù)據(jù)集和高維空間,優(yōu)化方法-Adamax,46/25,Adamax是Adam的一種變體,此方法對(duì)學(xué)習(xí)率的上限提供了一個(gè)更簡(jiǎn)單的范圍:可以看出,Adamax學(xué)習(xí)率的邊界范圍更簡(jiǎn)單,優(yōu)化方法-Nadam,47/25,Nadam類似于帶有Nesterov動(dòng)量項(xiàng)的Adam:,優(yōu)化方法-Nadam,48/25,可以看出,Nadam對(duì)學(xué)習(xí)率有了更強(qiáng)的約束,同時(shí)對(duì)梯度的更新也有更直接的影響;一般而言,在想使用帶動(dòng)量的RMSprop,或者Adam的地方,大多可以使用Nadam取得更好的效果。,優(yōu)化方法-Visualizationofalgorithms,49/25,優(yōu)化方法-Visualizationofalgorithms,50/25,Adagrad,Adadelta,RMSprop,和Adam效果明顯,優(yōu)化方法-建議
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 紀(jì)委崗位面試真題及答案
- 《綜合的矯正策略》課件
- 《團(tuán)隊(duì)新風(fēng)采》課件
- 《腎上腺罕見(jiàn)病變的影像學(xué)診斷》課件
- 高等數(shù)學(xué)之導(dǎo)數(shù)與微分:課件精講
- 《零售促銷策略》課件
- 《中文概述青島》課件
- 陜西高考英語(yǔ)高頻詞匯單選題100道及答案
- 《建筑智能化系統(tǒng)集成》課件
- 《試井解釋原理》課件
- 2025年湖南省長(zhǎng)沙市中考適應(yīng)性試卷英語(yǔ)試題(原卷版+解析版)
- 急性闌尾炎課件
- 餐飲部菜品制作流程優(yōu)化方案
- 2025年故宮博物院招聘事業(yè)編制工作人員歷年高頻重點(diǎn)模擬試卷提升(共500題附帶答案詳解)
- 非煤礦山安全生產(chǎn)作業(yè)指導(dǎo)書(shū)
- 2025年福建新華發(fā)行集團(tuán)招聘筆試參考題庫(kù)含答案解析
- 蒙醫(yī)學(xué)在腫瘤治療中的應(yīng)用
- 2025年全國(guó)保密知識(shí)競(jìng)賽題庫(kù)及答案(共290題)
- (新版)妊娠期惡心嘔吐及妊娠劇吐管理指南解讀
- 小學(xué)生涯回顧分享模板
- 《MOFs材料介紹圖》課件
評(píng)論
0/150
提交評(píng)論