深度學(xué)習(xí)的基本理論與方法幻燈片

上傳人：優(yōu)*** IP屬地：廣東上傳時間：2020-06-23 格式：PPT 頁數(shù)：98 大?。?5.84MB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩93頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、深度學(xué)習(xí)的基本理論與方法,成科揚(yáng) 2013年10月30日,1,6/23/2020,目錄,概述動機(jī) 深度學(xué)習(xí)簡介深度學(xué)習(xí)的訓(xùn)練過程深度學(xué)習(xí)的具體模型及方法深度學(xué)習(xí)的性能比較深度學(xué)習(xí)的應(yīng)用展望參考文獻(xiàn) 相關(guān)程序軟件及鏈接,2,6/23/2020,概述,深度學(xué)習(xí)：一種基于無監(jiān)督特征學(xué)習(xí)和特征層次結(jié)構(gòu)的學(xué)習(xí)方法可能的的名稱：深度學(xué)習(xí) 特征學(xué)習(xí) 無監(jiān)督特征學(xué)習(xí),3,6/23/2020,動機(jī),良好的特征表達(dá)，對最終算法的準(zhǔn)確性起了非常關(guān)鍵的作用；識別系統(tǒng)主要的計算和測試工作耗時主要集中在特征提取部分；特征的樣式目前一般都是人工設(shè)計的，靠人工提取特征。,傳統(tǒng)的模式識別方法：,4,

2、6/23/2020,動機(jī)為什么要自動學(xué)習(xí)特征,實驗：LP- Multiple Kernel Learning Gehler and Nowozin, On Feature Combination for Multiclass Object Classification, ICCV09 采用39 個不同的特征 PHOG, SIFT, V1S+, Region Cov. Etc. 在普通特征上MKL表現(xiàn) 有限結(jié)論：特征更重要,5,6/23/2020,動機(jī)為什么要自動學(xué)習(xí)特征,機(jī)器學(xué)習(xí)中，獲得好的特征是識別成功的關(guān)鍵目前存在大量人工設(shè)計的特征，不同研究對象特征不同，特征具有多樣性，如：SIF

3、T, HOG, LBP等手工選取特征費(fèi)時費(fèi)力，需要啟發(fā)式專業(yè)知識，很大程度上靠經(jīng)驗和運(yùn)氣是否能自動地學(xué)習(xí)特征？,6,6/23/2020,中層特征中層信號：,動機(jī)為什么要自動學(xué)習(xí)特征,“Tokens” from Vision by D.Marr:,連續(xù),平行,連接,拐角,物體部件:,他們對于人工而言是十分困難的，那么如何學(xué)習(xí)呢？,7,6/23/2020,動機(jī)為什么要自動學(xué)習(xí)特征,一般而言，特征越多，給出信息就越多，識別準(zhǔn)確性會得到提升；但特征多，計算復(fù)雜度增加，探索的空間大，可以用來訓(xùn)練的數(shù)據(jù)在每個特征上就會稀疏。結(jié)論：不一定特征越多越好！需要有多少個特征，需要學(xué)習(xí)確定。,8,6/

4、23/2020,動機(jī)為什么采用層次網(wǎng)絡(luò)結(jié)構(gòu),人腦視覺機(jī)理 1981年的諾貝爾醫(yī)學(xué)獎獲得者 David Hubel和TorstenWiesel發(fā)現(xiàn)了視覺系統(tǒng)的信息處理機(jī)制發(fā)現(xiàn)了一種被稱為“方向選擇性細(xì)胞的神經(jīng)元細(xì)胞，當(dāng)瞳孔發(fā)現(xiàn)了眼前的物體的邊緣，而且這個邊緣指向某個方向時，這種神經(jīng)元細(xì)胞就會活躍,9,6/23/2020,動機(jī)為什么采用層次網(wǎng)絡(luò)結(jié)構(gòu),人腦視覺機(jī)理人的視覺系統(tǒng)的信息處理是分級的高層的特征是低層特征的組合，從低層到高層的特征表示越來越抽象，越來越能表現(xiàn)語義或者意圖抽象層面越高，存在的可能猜測就越少，就越利于分類,10,6/23/2020,動機(jī)為什么采用層次網(wǎng)絡(luò)結(jié)構(gòu),視覺的

5、層次性屬性學(xué)習(xí)，類別作為屬性的一種組合映射 Lampert et al. CVPR09,類別標(biāo)簽,屬性,圖像特征,11,6/23/2020,動機(jī)為什么采用層次網(wǎng)絡(luò)結(jié)構(gòu),特征表示的粒度具有結(jié)構(gòu)性（或者語義）的高層特征對于分類更有意義,12,6/23/2020,動機(jī)為什么采用層次網(wǎng)絡(luò)結(jié)構(gòu),初級（淺層）特征表示,高層特征或圖像，往往是由一些基本結(jié)構(gòu)（淺層特征）組成的,13,6/23/2020,動機(jī)為什么采用層次網(wǎng)絡(luò)結(jié)構(gòu),結(jié)構(gòu)性特征表示,14,6/23/2020,動機(jī)為什么采用層次網(wǎng)絡(luò)結(jié)構(gòu),淺層學(xué)習(xí)的局限人工神經(jīng)網(wǎng)絡(luò)（BP算法）雖被稱作多層感知機(jī)，但實際是種只含有一層隱層節(jié)點的淺層模型

6、 SVM、Boosting、最大熵方法（如LR，Logistic Regression）帶有一層隱層節(jié)點（如SVM、Boosting），或沒有隱層節(jié)點（如LR）的淺層模型局限性：有限樣本和計算單元情況下對復(fù)雜函數(shù)的表示能力有限，針對復(fù)雜分類問題其泛化能力受限。,15,6/23/2020,深度學(xué)習(xí),2006年，加拿大多倫多大學(xué)教授、機(jī)器學(xué)習(xí)領(lǐng)域的泰斗Geoffrey Hinton在科學(xué)上發(fā)表論文提出深度學(xué)習(xí)主要觀點： 1）多隱層的人工神經(jīng)網(wǎng)絡(luò)具有優(yōu)異的特征學(xué)習(xí)能力，學(xué)習(xí)得到的特征對數(shù)據(jù)有更本質(zhì)的刻畫，從而有利于可視化或分類； 2）深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練上的難度，可以通過“逐層初始化”（layer

7、-wise pre-training）來有效克服，逐層初始化可通過無監(jiān)督學(xué)習(xí)實現(xiàn)的。,16,6/23/2020,深度學(xué)習(xí),本質(zhì)：通過構(gòu)建多隱層的模型和海量訓(xùn)練數(shù)據(jù)（可為無標(biāo)簽數(shù)據(jù)），來學(xué)習(xí)更有用的特征，從而最終提升分類或預(yù)測的準(zhǔn)確性。 “深度模型”是手段，“特征學(xué)習(xí)”是目的。與淺層學(xué)習(xí)區(qū)別： 1）強(qiáng)調(diào)了模型結(jié)構(gòu)的深度，通常有5-10多層的隱層節(jié)點； 2）明確突出了特征學(xué)習(xí)的重要性，通過逐層特征變換，將樣本在原空間的特征表示變換到一個新特征空間，從而使分類或預(yù)測更加容易。與人工規(guī)則構(gòu)造特征的方法相比，利用大數(shù)據(jù)來學(xué)習(xí)特征，更能夠刻畫數(shù)據(jù)的豐富內(nèi)在信息。,17,6/23/2020,深度學(xué)習(xí),好處

8、：可通過學(xué)習(xí)一種深層非線性網(wǎng)絡(luò)結(jié)構(gòu)，實現(xiàn)復(fù)雜函數(shù)逼近，表征輸入數(shù)據(jù)分布式表示。,18,6/23/2020,深度學(xué)習(xí) vs. 神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò) ：深度學(xué)習(xí)：,19,6/23/2020,深度學(xué)習(xí) vs. 神經(jīng)網(wǎng)絡(luò),相同點：二者均采用分層結(jié)構(gòu)，系統(tǒng)包括輸入層、隱層（多層）、輸出層組成的多層網(wǎng)絡(luò)，只有相鄰層節(jié)點之間有連接，同一層以及跨層節(jié)點之間相互無連接，每一層可以看作是一個logistic 回歸模型。不同點：神經(jīng)網(wǎng)絡(luò)：采用BP算法調(diào)整參數(shù)，即采用迭代算法來訓(xùn)練整個網(wǎng)絡(luò)。隨機(jī)設(shè)定初值，計算當(dāng)前網(wǎng)絡(luò)的輸出，然后根據(jù)當(dāng)前輸出和樣本真實標(biāo)簽之間的差去改變前面各層的參數(shù)，直到收斂；深度學(xué)習(xí)：采用逐層

9、訓(xùn)練機(jī)制。采用該機(jī)制的原因在于如果采用BP機(jī)制，對于一個deep network（7層以上），殘差傳播到最前面的層將變得很小，出現(xiàn)所謂的gradient diffusion（梯度擴(kuò)散）。,20,6/23/2020,深度學(xué)習(xí) vs. 神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)的局限性： 1）比較容易過擬合，參數(shù)比較難調(diào)整，而且需要不少技巧； 2）訓(xùn)練速度比較慢，在層次比較少（小于等于3）的情況下效果并不比其它方法更優(yōu)；,21,6/23/2020,深度學(xué)習(xí)訓(xùn)練過程,不采用BP算法的原因（1）反饋調(diào)整時，梯度越來越稀疏，從頂層越往下，誤差校正信號越來越??；（2）收斂易至局部最小，由于是采用隨機(jī)值初始化，當(dāng)初值是遠(yuǎn)離最優(yōu)

10、區(qū)域時易導(dǎo)致這一情況；（3）BP算法需要有標(biāo)簽數(shù)據(jù)來訓(xùn)練，但大部分?jǐn)?shù)據(jù)是無標(biāo)簽的；,22,6/23/2020,深度學(xué)習(xí)訓(xùn)練過程,第一步：采用自下而上的無監(jiān)督學(xué)習(xí) 1）逐層構(gòu)建單層神經(jīng)元。 2）每層采用wake-sleep算法進(jìn)行調(diào)優(yōu)。每次僅調(diào)整一層，逐層調(diào)整。這個過程可以看作是一個feature learning的過程，是和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)區(qū)別最大的部分。,23,6/23/2020,深度學(xué)習(xí)訓(xùn)練過程,wake-sleep算法: 1）wake階段：認(rèn)知過程，通過下層的輸入特征（Input）和向上的認(rèn)知（Encoder）權(quán)重產(chǎn)生每一層的抽象表示（Code），再通過當(dāng)前的生成（Decoder）權(quán)重

11、產(chǎn)生一個重建信息（Reconstruction），計算輸入特征和重建信息殘差，使用梯度下降修改層間的下行生成（Decoder）權(quán)重。也就是“如果現(xiàn)實跟我想象的不一樣，改變我的生成權(quán)重使得我想象的東西變得與現(xiàn)實一樣”。 2）sleep階段：生成過程，通過上層概念（Code）和向下的生成（Decoder）權(quán)重，生成下層的狀態(tài)，再利用認(rèn)知（Encoder）權(quán)重產(chǎn)生一個抽象景象。利用初始上層概念和新建抽象景象的殘差，利用梯度下降修改層間向上的認(rèn)知（Encoder）權(quán)重。也就是“如果夢中的景象不是我腦中的相應(yīng)概念，改變我的認(rèn)知權(quán)重使得這種景象在我看來就是這個概念”。,24,6/23/2020,深度學(xué)習(xí)

12、訓(xùn)練過程,Encoder,Decoder,Input Image,Class label,e.g.,Features,Encoder,Decoder,Features,Encoder,Decoder,AutoEncoder:,25,6/23/2020,深度學(xué)習(xí)訓(xùn)練過程,第二步：自頂向下的監(jiān)督學(xué)習(xí) 這一步是在第一步學(xué)習(xí)獲得各層參數(shù)進(jìn)的基礎(chǔ)上，在最頂?shù)木幋a層添加一個分類器（例如羅杰斯特回歸、SVM等），而后通過帶標(biāo)簽數(shù)據(jù)的監(jiān)督學(xué)習(xí)，利用梯度下降法去微調(diào)整個網(wǎng)絡(luò)參數(shù)。深度學(xué)習(xí)的第一步實質(zhì)上是一個網(wǎng)絡(luò)參數(shù)初始化過程。區(qū)別于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)初值隨機(jī)初始化，深度學(xué)習(xí)模型是通過無監(jiān)督學(xué)習(xí)輸入數(shù)據(jù)的結(jié)構(gòu)得到的，

13、因而這個初值更接近全局最優(yōu)，從而能夠取得更好的效果。,26,6/23/2020,深度學(xué)習(xí)的具體模型及方法,自動編碼器（ AutoEncoder ）稀疏自動編碼器(Sparse AutoEncoder) 降噪自動編碼器(Denoising AutoEncoders),27,6/23/2020,深度學(xué)習(xí)的具體模型及方法,Encoder,Decoder,Input (Image/ Features),Output Features,e.g.,Feed-back / generative / top-down path,Feed-forward / bottom-up path,自動編碼器（ Aut

14、oEncoder ）,28,6/23/2020,深度學(xué)習(xí)的具體模型及方法,(Wx),(WTz),(Binary) Input x,(Binary) Features z,e.g.,自動編碼器（ AutoEncoder ）,Encoder filters W Sigmoid function (.),Decoder filters WT Sigmoid function (.),29,6/23/2020,深度學(xué)習(xí)的具體模型及方法,稀疏自動編碼器(Sparse AutoEncoder),限制每次得到的表達(dá)code盡量稀疏,限制每次得到的表達(dá)code盡量稀疏,30,6/23/2020,深度學(xué)習(xí)的具體

15、模型及方法,稀疏自動編碼器(Sparse AutoEncoder),Filters,Features,Sparse Coding,Input Patch,31,6/23/2020,深度學(xué)習(xí)的具體模型及方法,(Wx),Dz,Input Patch x,Sparse Features z,e.g.,Encoder filters W Sigmoid function (.),Decoder filters D,L1 Sparsity,Training,稀疏自動編碼器(Sparse AutoEncoder),32,6/23/2020,深度學(xué)習(xí)的具體模型及方法,稀疏自動編碼器(Sparse AutoE

16、ncoder) 1）Training階段：給定一系列的樣本圖片x1, x 2, ，我們需要學(xué)習(xí)得到一組基1, 2, ，也就是字典。可使用K-SVD方法交替迭代調(diào)整a k， k，直至收斂，從而可以獲得一組可以良好表示這一系列x的字典。,33,6/23/2020,深度學(xué)習(xí)的具體模型及方法,稀疏自動編碼器(Sparse AutoEncoder) 2）Coding階段：給定一個新的圖片x，由上面得到的字典，利用OMP算法求解一個LASSO問題得到稀疏向量a。這個稀疏向量就是這個輸入向量x的一個稀疏表達(dá)。,34,6/23/2020,深度學(xué)習(xí)的具體模型及方法,稀疏自動編碼器(Sparse AutoEnc

17、oder),35,6/23/2020,深度學(xué)習(xí)的具體模型及方法,降噪自動編碼器(Denoising AutoEncoders) 在自動編碼器的基礎(chǔ)上，對訓(xùn)練數(shù)據(jù)加入噪聲，自動編碼器必須學(xué)習(xí)去去除這種噪聲而獲得真正的沒有被噪聲污染過的輸入。因此，這就迫使編碼器去學(xué)習(xí)輸入信號的更加魯棒的表達(dá)，這也是它的泛化能力比一般編碼器強(qiáng)的原因。,36,6/23/2020,深度學(xué)習(xí)的具體模型及方法,Autoencoder (most Deep Learning methods) RBMs / DBMs Lee / Salakhutdinov Denoising autoencoders Ranzato Pred

18、ictive sparse decomposition Ranzato Decoder-only Sparse coding Yu Deconvolutional Nets Yu Encoder-only Neural nets (supervised) Ranzato,37,6/23/2020,深度學(xué)習(xí)的具體模型及方法,限制波爾茲曼機(jī)（Restricted Boltzmann Machine）定義：假設(shè)有一個二部圖，同層節(jié)點之間沒有鏈接，一層是可視層，即輸入數(shù)據(jù)層（v)，一層是隱藏層(h)，如果假設(shè)所有的節(jié)點都是隨機(jī)二值（ 0，1值）變量節(jié)點，同時假設(shè)全概率分布p(v,h)滿足Boltzm

19、ann 分布，我們稱這個模型是Restricted BoltzmannMachine (RBM)。,38,6/23/2020,深度學(xué)習(xí)的具體模型及方法,限制波爾茲曼機(jī)（Restricted Boltzmann Machine）限制波爾茲曼機(jī)（RBM）是一種深度學(xué)習(xí)模型。,39,6/23/2020,深度學(xué)習(xí)的具體模型及方法,限制波爾茲曼機(jī)（Restricted Boltzmann Machine）定義聯(lián)合組態(tài)（jointconfiguration）能量：這樣某個組態(tài)的聯(lián)合概率分布可以通過Boltzmann 分布和這個組態(tài)的能量來確定：,40,6/23/2020,深度學(xué)習(xí)的具體模型及方法,限

20、制波爾茲曼機(jī)（Restricted Boltzmann Machine）給定隱層h的基礎(chǔ)上，可視層的概率確定：（可視層節(jié)點之間是條件獨立的）給定可視層v的基礎(chǔ)上，隱層的概率確定：,41,6/23/2020,深度學(xué)習(xí)的具體模型及方法,限制波爾茲曼機(jī)（Restricted Boltzmann Machine）待求問題：給定一個滿足獨立同分布的樣本集：D=v(1), v(2), v(N)，需要學(xué)習(xí)模型參數(shù)=W,a,b。求解：最大似然估計：我們需要選擇一個參數(shù)，讓我們當(dāng)前的觀測樣本的概率最大對最大對數(shù)似然函數(shù)求導(dǎo)，即可得到L最大時對應(yīng)的參數(shù)W：若隱藏層層數(shù)增加，可得到Deep Bol

21、tzmann Machine(DBM),42,6/23/2020,深度學(xué)習(xí)的具體模型及方法,Deep Boltzmann Machine(DBM),43,6/23/2020,深度學(xué)習(xí)的具體模型及方法,深信度網(wǎng)絡(luò)（Deep Belief Networks）,Deep Belief Networks是在靠近可視層的部分使用貝葉斯信念網(wǎng)絡(luò)（即有向圖模型），而在最遠(yuǎn)離可視層的部分使用Restricted Boltzmann Machine的模型。,44,6/23/2020,深度學(xué)習(xí)的具體模型及方法,深信度網(wǎng)絡(luò)（Deep Belief Networks）,45,6/23/2020,深度學(xué)習(xí)的具體模型及方

22、法,卷積波爾茲曼機(jī)（Convolutional RBM） CRBM是為識別二維圖像信息而特殊設(shè)計的一個多層感知器。,概念示范：輸入圖像通過與m個可訓(xùn)練的濾波器和可加偏置進(jìn)行卷積，在C1層產(chǎn)生m個特征映射圖，然后特征映射圖中每組的n個像素再進(jìn)行求和，加權(quán)值，加偏置，通過一個Sigmoid函數(shù)得到m個S2層的特征映射圖。這些映射圖再進(jìn)過濾波得到C3層。這個層級結(jié)構(gòu)再和S2一樣產(chǎn)生S4。最終，這些像素值被光柵化，并連接成一個向量輸入到傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)，得到輸出。,46,6/23/2020,深度學(xué)習(xí)的具體模型及方法,卷積波爾茲曼機(jī)（Convolutional RBM）權(quán)值共享,減少參數(shù)的方法：每個神

23、經(jīng)元無需對全局圖像做感受，只需感受局部區(qū)域（Feature Map），在高層會將這些感受不同局部的神經(jīng)元綜合起來獲得全局信息。每個神經(jīng)元參數(shù)設(shè)為相同，即權(quán)值共享，也即每個神經(jīng)元用同一個卷積核去卷積圖像。,47,6/23/2020,深度學(xué)習(xí)的具體模型及方法,卷積波爾茲曼機(jī)（Convolutional RBM）隱層神經(jīng)元數(shù)量的確定,神經(jīng)元數(shù)量與輸入圖像大小、濾波器大小和濾波器的滑動步長有關(guān)。例如，輸入圖像是1000 x1000像素，濾波器大小是10 x10，假設(shè)濾波器間沒有重疊，即步長為10，這樣隱層的神經(jīng)元個數(shù)就是(1000 x1000 )/ (10 x10)=10000個,48,6/23

24、/2020,深度學(xué)習(xí)的具體模型及方法,卷積波爾茲曼機(jī)（Convolutional RBM）多濾波器情形,不同的顏色表示不同種類的濾波器,每層隱層神經(jīng)元的個數(shù)按濾波器種類的數(shù)量翻倍每層隱層參數(shù)個數(shù)僅與濾波器大小、濾波器種類的多少有關(guān) 例如：隱含層的每個神經(jīng)元都連接10 x10像素圖像區(qū)域，同時有100種卷積核（濾波器）。則參數(shù)總個數(shù)為：（10 x10+1）x100=10100個,49,6/23/2020,深度學(xué)習(xí)的具體模型及方法,卷積波爾茲曼機(jī)（Convolutional RBM）,卷積過程：用一個可訓(xùn)練的濾波器fx去卷積一個輸入的圖像（第一階段是輸入的圖像，后面的階段就是Feature M

25、ap了），然后加一個偏置bx，得到卷積層Cx。子采樣過程：每鄰域n個像素通過池化（pooling）步驟變?yōu)橐粋€像素，然后通過標(biāo)量Wx+1加權(quán)，再增加偏置bx+1，然后通過一個sigmoid激活函數(shù)，產(chǎn)生一個大概縮小n倍的特征映射圖Sx+1。,50,6/23/2020,深度學(xué)習(xí)的具體模型及方法,卷積波爾茲曼機(jī)（Convolutional RBM）,CNN的關(guān)鍵技術(shù)：局部感受野、權(quán)值共享、時間或空間子采樣 CNN的優(yōu)點： 1、避免了顯式的特征抽取，而隱式地從訓(xùn)練數(shù)據(jù)中進(jìn)行學(xué)習(xí)； 2、同一特征映射面上的神經(jīng)元權(quán)值相同，從而網(wǎng)絡(luò)可以并行學(xué)習(xí)，降低了網(wǎng)絡(luò)的復(fù)雜性； 3、采用時間或者空間的子采樣結(jié)構(gòu)，可

26、以獲得某種程度的位移、尺度、形變魯棒性； 3、輸入信息和網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)能很好的吻合，在語音識別和圖像處理方面有著獨特優(yōu)勢。,51,6/23/2020,深度學(xué)習(xí)的具體模型及方法,基于CRBM的深度學(xué)習(xí)框架,52,6/23/2020,深度學(xué)習(xí)性能比較,Deep nets VS. Boosting,53,6/23/2020,深度學(xué)習(xí)性能比較,Deep nets VS. Probabilistic Models,54,6/23/2020,深度學(xué)習(xí)性能比較,隨機(jī)文法模型 Set of production rules for objects Zhu & Mumford, Stochastic Gramma

27、r of Images, F&T 2006,自動學(xué)習(xí),人工指定,S.C. Zhu et al.,55,6/23/2020,深度學(xué)習(xí)性能比較,基于文法模型的物體檢測 -R. Girshick, P. Felzenszwalb, D. McAllester, NIPS 2011 -Learn local appearance & shape,人工指定,自動學(xué)習(xí),56,6/23/2020,深度學(xué)習(xí)性能比較,部件和結(jié)構(gòu)模型 Defined connectivity graph Learn appearance / relative position,Felzenszwalb & Huttenloche

28、r CVPR00 ,Fischler and R. Elschlager 1973 ,人工指定,自動學(xué)習(xí),57,6/23/2020,深度學(xué)習(xí)性能比較,基于部件與結(jié)構(gòu)的分層模型 -Fidler et al. ECCV10 -Fidler & Leonardis CVPR07,人工指定,自動學(xué)習(xí),58,6/23/2020,深度學(xué)習(xí)性能比較,遞歸和與圖模型 -Leo Zhu, Yuanhao Chen, Alan Yuille & collaborators Recursive composition, AND/OR graph Learn # units at layer,人工指定,自動學(xué)習(xí),59

29、,6/23/2020,深度學(xué)習(xí)性能比較,自動編碼模型 Hinton et al. ICANN11 反卷積網(wǎng)絡(luò)模型 Zeiler et al. ICCV11 -Explicit representation of what/where,人工指定,自動學(xué)習(xí),60,6/23/2020,深度學(xué)習(xí)性能比較,神經(jīng)網(wǎng)絡(luò) Dedicated pooling / LCN layers No separation of what/where Modality independent (e.g. speech, images),Le et al., ICML12,人工指定,自動學(xué)習(xí),61,6/23/2020,深度學(xué)

30、習(xí)性能比較,波爾茲曼機(jī) Homogenous architecture No separation of what/where Modality independent (e.g. speech, images),Salakhutdinov & Hinton AISTATS09,人工指定,自動學(xué)習(xí),62,6/23/2020,深度學(xué)習(xí)的應(yīng)用,深度學(xué)習(xí)在圖像識別上的應(yīng)用,空間金字塔（Spatial Pyramids ）,63,6/23/2020,深度學(xué)習(xí)的應(yīng)用,深度學(xué)習(xí)在圖像識別上的應(yīng)用,64,6/23/2020,深度學(xué)習(xí)的應(yīng)用,深度學(xué)習(xí)在圖像識別上的應(yīng)用,65,6/23/2020,深度學(xué)習(xí)的應(yīng)用

31、,深度學(xué)習(xí)在圖像識別上的應(yīng)用,66,6/23/2020,深度學(xué)習(xí)的應(yīng)用,深度學(xué)習(xí)在圖像識別上的應(yīng)用,實驗在Caltech 256數(shù)據(jù)集上，利用單特征識別，Sparse CRBM性能最優(yōu),67,6/23/2020,深度學(xué)習(xí)的應(yīng)用,深度學(xué)習(xí)在音頻識別上的應(yīng)用,Convolutional DBN for audio,Max pooling node Detection nodes,Max pooling node Detection nodes,68,6/23/2020,深度學(xué)習(xí)的應(yīng)用,深度學(xué)習(xí)在音頻識別上的應(yīng)用,Convolutional DBN for audio,69,6/23/2020,深度

32、學(xué)習(xí)的應(yīng)用,深度學(xué)習(xí)在音頻識別上的應(yīng)用,70,6/23/2020,深度學(xué)習(xí)的應(yīng)用,深度學(xué)習(xí)在音頻識別上的應(yīng)用,71,6/23/2020,深度學(xué)習(xí)的應(yīng)用,深度學(xué)習(xí)在視頻識別上的應(yīng)用,SPACE-TIME DEEP BELIEF NETWORKS,72,6/23/2020,深度學(xué)習(xí)的應(yīng)用,深度學(xué)習(xí)在視頻識別上的應(yīng)用,73,6/23/2020,深度學(xué)習(xí)的應(yīng)用,深度學(xué)習(xí)在多模態(tài)學(xué)習(xí)中的應(yīng)用,74,6/23/2020,深度學(xué)習(xí)的應(yīng)用,深度學(xué)習(xí)在多模態(tài)學(xué)習(xí)中的應(yīng)用,75,6/23/2020,深度學(xué)習(xí)的應(yīng)用,深度學(xué)習(xí)在多模態(tài)學(xué)習(xí)中的應(yīng)用,76,6/23/2020,深度學(xué)習(xí)的應(yīng)用,深度學(xué)習(xí)在多模態(tài)學(xué)習(xí)中的應(yīng)用

33、,77,6/23/2020,深度學(xué)習(xí)的應(yīng)用,深度學(xué)習(xí)在多模態(tài)學(xué)習(xí)中的應(yīng)用,78,6/23/2020,深度學(xué)習(xí)的應(yīng)用,深度學(xué)習(xí)在多模態(tài)學(xué)習(xí)中的應(yīng)用,如果模態(tài)間存在著內(nèi)在的聯(lián)系，即存在shared Representation，那么理論上模型應(yīng)支持訓(xùn)練一個模態(tài)，而測試另一個模態(tài)時，仍能獲得好的分類性能。,79,6/23/2020,深度學(xué)習(xí)的應(yīng)用,深度學(xué)習(xí)在多任務(wù)學(xué)習(xí)中的應(yīng)用,80,6/23/2020,深度學(xué)習(xí)的應(yīng)用,深度學(xué)習(xí)在多任務(wù)學(xué)習(xí)中的應(yīng)用在深度學(xué)習(xí)模型中，對于相關(guān)任務(wù)的聯(lián)合學(xué)習(xí)，往往會取得較好的特征表達(dá)；多任務(wù)聯(lián)合學(xué)習(xí)，能夠增強(qiáng)損失函數(shù)的作用效能；比如：單獨進(jìn)行人臉檢測會比較難（光照、

34、遮擋等因素），但是當(dāng)人臉檢測與人臉識別這兩個相關(guān)的任務(wù)聯(lián)合學(xué)習(xí)時，人臉檢測的難度反而降低了。,81,6/23/2020,深度學(xué)習(xí)的應(yīng)用,基于深度學(xué)習(xí)的遷移學(xué)習(xí)應(yīng)用,82,6/23/2020,深度學(xué)習(xí)的應(yīng)用,基于深度學(xué)習(xí)的遷移學(xué)習(xí)應(yīng)用,特征共享,83,6/23/2020,深度學(xué)習(xí)的應(yīng)用,基于深度學(xué)習(xí)的遷移學(xué)習(xí)應(yīng)用,84,6/23/2020,深度學(xué)習(xí)的應(yīng)用,深度學(xué)習(xí)在大尺度數(shù)據(jù)集上的應(yīng)用大尺度數(shù)據(jù)集：樣本總數(shù)100M, 類別總數(shù)10K, 特征維度10K,85,6/23/2020,深度學(xué)習(xí)的應(yīng)用,深度學(xué)習(xí)在大尺度數(shù)據(jù)集上的應(yīng)用,模型的并行運(yùn)算化,86,6/23/2020,深度學(xué)習(xí)的應(yīng)用,深度學(xué)習(xí)

35、在大尺度數(shù)據(jù)集上的應(yīng)用,分布式深度學(xué)習(xí)模型,87,6/23/2020,深度學(xué)習(xí)的應(yīng)用,深度學(xué)習(xí)在大尺度數(shù)據(jù)集上的應(yīng)用,分布式深度學(xué)習(xí)模型,88,6/23/2020,深度學(xué)習(xí)的應(yīng)用,深度學(xué)習(xí)在大尺度數(shù)據(jù)集上的應(yīng)用,參數(shù)個數(shù)達(dá)到1.15 billion，若不能并行優(yōu)化參數(shù)，任務(wù)無法完成！,89,6/23/2020,深度學(xué)習(xí)的應(yīng)用,深度學(xué)習(xí)的State-of-the-art,90,6/23/2020,展望,未來需解決的問題：對于一個特定的框架，多少維的輸入它可以表現(xiàn)得較優(yōu)？對捕捉短時或者長時間的時間依賴，哪種架構(gòu)才是有效的？如何對于一個給定的深度學(xué)習(xí)架構(gòu)，融合多種感知的信息？如何分辨和利用

36、學(xué)習(xí)獲得的中、高層特征語義知識？有什么正確的機(jī)理可以去增強(qiáng)一個給定的深度學(xué)習(xí)架構(gòu)，以改進(jìn)其魯棒性和對變形及數(shù)據(jù)丟失的不變性？模型方面是否有其他更為有效且有理論依據(jù)的深度模型學(xué)習(xí)算法？是否存在更有效的可并行訓(xùn)練算法？,91,6/23/2020,參考文獻(xiàn),Tutorials & Background Material Yoshua Bengio, Learning Deep Architectures for AI, Foundations and Trends in Machine Learning, 2(1), pp.1-127, 2009. LeCun, Chopra, Hadsell

37、, Ranzato, Huang: A Tutorial on Energy-Based Learning, in Bakir, G. and Hofman, T. and Scholkopf, B. and Smola, A. and Taskar, B. (Eds), Predicting Structured Data, MIT Press, 2006 Convolutional Nets LeCun, Bottou, Bengio and Haffner: Gradient-Based Learning Applied to Document Recognition, Proceedi

38、ngs of the IEEE, 86(11):2278-2324, November 1998 Jarrett, Kavukcuoglu, Ranzato, LeCun: What is the Best Multi-Stage Architecture for Object Recognition?, Proc. International Conference on Computer Vision (ICCV09), IEEE, 2009 Kavukcuoglu, Sermanet, Boureau, Gregor, Mathieu, LeCun: Learning Convolutio

39、nal Feature Hierachies for Visual Recognition, Advances in Neural Information Processing Systems (NIPS 2010), 23, 2010,92,6/23/2020,參考文獻(xiàn),Unsupervised Learning ICA with Reconstruction Cost for Efficient Overcomplete Feature Learning. Le,Karpenko, Ngiam, Ng. In NIPS 2011 Rifai, Vincent, Muller, Glorot

40、, Bengio, Contracting Auto-Encoders: Explicit invariance during feature extraction, in: Proceedings of the Twenty-eight International Conference on Machine Learning (ICML11), 2011 - Vincent, Larochelle, Lajoie, Bengio, Manzagol, Stacked Denoising Autoencoders: Learning Useful Representations in a De

41、ep Network with a Local Denoising Criterion, Journal of Machine Learning Research, 11:3371-3408, 2010. - Gregor, Szlam, LeCun: Structured Sparse Coding via Lateral Inhibition, Advances in Neural Information Processing Systems (NIPS 2011), 24, 2011 - Kavukcuoglu, Ranzato, LeCun. Fast Inference in Spa

42、rse Coding Algorithms with Applications to Object Recognition. ArXiv 1010.3467 2008 - Hinton, Krizhevsky, Wang, Transforming Auto-encoders, ICANN, 2011 Multi-modal Learning Multimodal deep learning, Ngiam, Khosla, Kim, Nam, Lee, Ng. In Proceedings of the Twenty-Eighth International Conference on Mac

43、hine Learning, 2011.,93,6/23/2020,參考文獻(xiàn),Locally Connected Nets Gregor, LeCun “Emergence of complex-like cells in a temporal product network with local receptive fields” Arxiv. 2009 Ranzato, Mnih, Hinton “Generating more realistic images using gated MRFs”NIPS 2010 Le, Ngiam, Chen, Chia, Koh, Ng “Tiled

44、 convolutional neural networks” NIPS 2010 Distributed Learning Le, Ranzato, Monga, Devin, Corrado, Chen, Dean, Ng. Building High-Level Features Using Large Scale Unsupervised Learning. International Conference of Machine Learning (ICML 2012), Edinburgh, 2012. Papers on Scene Parsing Farabet, Couprie

45、, Najman, LeCun, “Scene Parsing with Multiscale Feature Learning, Purity Trees, and Optimal Covers”, in Proc. of the International Conference on Machine Learning (ICML12), Edinburgh, Scotland, 2012. - Socher, Lin, Ng, Manning, “Parsing Natural Scenes and Natural Language with Recursive Neural Networ

46、ks”. International Conference of Machine Learning (ICML 2011) 2011.,94,6/23/2020,參考文獻(xiàn),Papers on Object Recognition - Boureau, Le Roux, Bach, Ponce, LeCun: Ask the locals: multi-way local pooling for image recognition, Proc. ICCV 2011 - Sermanet, LeCun: Traffic Sign Recognition with Multi-Scale Convo

47、lutional Networks, Proceedings of International Joint Conference on Neural Networks (IJCNN11) - Ciresan, Meier, Gambardella, Schmidhuber. Convolutional Neural Network Committees For Handwritten Character Classification. 11th International Conference on Document Analysis and Recognition (ICDAR 2011),

48、 Beijing, China. - Ciresan, Meier, Masci, Gambardella, Schmidhuber. Flexible, High Performance Convolutional Neural Networks for Image Classification. International Joint Conference on Artificial Intelligence IJCAI-2011. Papers on Action Recognition Learning hierarchical spatio-temporal features for

49、 action recognition with independent subspace analysis, Le, Zou, Yeung, Ng. CVPR 2011 Papers on Segmentation Turaga, Briggman, Helmstaedter, Denk, Seung Maximin learning of image segmentation. NIPS, 2009.,95,6/23/2020,參考文獻(xiàn),Papers on Vision for Robotics Hadsell, Sermanet, Scoffier, Erkan, Kavackuoglu, Mulle

人人文庫> 全部分類> 專業(yè)文獻(xiàn) > 通信電子

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

深度學(xué)習(xí)的基本理論與方法幻燈片

文檔簡介

溫馨提示

最新文檔

評論

深度學(xué)習(xí)的基本理論與方法幻燈片

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔