自編碼(Autoencoder)_第1頁
自編碼(Autoencoder)_第2頁
自編碼(Autoencoder)_第3頁
自編碼(Autoencoder)_第4頁
自編碼(Autoencoder)_第5頁
已閱讀5頁,還剩33頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、大綱稀疏自編碼(Sparse Autoencoder)棧式自編碼 (Stacked Autoencoder)去噪自編碼(Denoising Autoencoder)壓縮自編碼(Contrative Autoencoder)自編碼簡介(Autoencoder)自編碼簡介(Autoencoder):輸入值:編碼函數:編碼或內部表示:解碼函數:輸出,也稱“重建值”( )hf xxfg( ( )rg f x( , )L r x:損失函數,用于測量重建的好 壞,目標是最小化L的期望值。自編碼簡介(Autoencoder)自動編碼器就是一種盡可能復現輸入信號的神經網絡;自動編碼器必須捕捉可以代表輸入數據的

2、最重要的因素;類似 PCA,找到可以代表原信息的主要成分。Input:數據的輸入;Encoder:編碼器;Code:輸入的一個表示;Decoder:解碼器;Reconstruction: input的重建;Error: 重建數據和input的誤差。自編碼簡介(Autoencoder)幾種自編碼的共同點幾種自編碼的共同點自編碼的共同點:是除了預防針對x簡單地學習一個恒等函數外,還包含在以下兩方面取折中。1、學習到一個針對x的表示h,x也能通過一個解碼器從h中還原;需要注意的是:這并不需要對所有x都滿足,只滿足對那些服從數據分布的x即可。(重建誤差)2、減小模型代表性的能力,使在盡可能多的輸入方向

3、上不敏感。(模型的表達能力,泛化能力?)自編碼簡介(Autoencoder)如何在重建誤差和表達能力之間取折中呢?如何在重建誤差和表達能力之間取折中呢?解決方法:區(qū)分訓練樣本的哪些變量需要表示。學到一個數據的表示(映射,mapping),對流形的方向比較敏感,對正交于流形的方向不敏感。將在正交于流形的方向產生一個收縮的表示。圖中,黑色的線為流形空間,向右的綠色箭頭與流形相切,藍色的箭頭正交于流形。自編碼簡介(Autoencoder)重建誤差的概率解釋重建誤差的概率解釋log( |( ( )LP x g f x 目標函數:l 損失函數的選取取決于輸入數據的類型:如果輸入是實數值,無界值,損失函數

4、使用平方差(squared error);如果輸入時位矢量,交叉熵(cross-entropy)更適合做損失函數。什么是交叉熵?什么是交叉熵? p和q分布的交叉熵是:p分布的信息熵信息熵和p和q的DL散度散度的和。( , ) log ( )(| )pKLH p qEqH pDpql 我們可以認為訓練一個解碼函數等同于對條件分布P(x|h)的估計;同樣的道理,可以將編碼函數理解為一個條件分布Q(h|x),而不僅僅是一個“干巴巴”的函數式子。稀疏自動編碼器(Sparse Autoencoder )如果在AutoEncoder的基礎上加上L1的Regularity限制(L1主要是約束每一層中的節(jié)點中

5、大部分都要為0,只有少數不為0,這就是Sparse名字的來源),我們就可以得到Sparse AutoEncoder法。如上圖,其實就是限制每次得到的表達code盡量稀疏。因為稀疏的表達往往比其他的表達要有效(人腦好像也是這樣的,某個輸入只是刺激某些神經元,其他的大部分的神經元是受到抑制的)。稀疏自動編碼器(Sparse Autoencoder )輸入:基礎知識回顧基礎知識回顧3,1( )()()TW biiihxf W xfW xb輸出:123,x x x激活函數:1( )1exp()f zzSigmiod( )( )(1( )fzf zf zSigmoid函數曲線導數:稀疏自動編碼器(Spa

6、rse Autoencoder )簡單神經網絡(三層,單隱藏層)簡單神經網絡(三層,單隱藏層)L層第i個單元的輸入單元總的加權和表示為:( ) liz例如:所以:進一步簡寫:稀疏自動編碼器(Sparse Autoencoder )反向傳播算法(反向傳播算法(Backpropagation algorithm)輸入:共m個訓練集損失函數:其中,類似于加入正則化項(權重衰減項,weight decay),如下式:稀疏自動編碼器(Sparse Autoencoder )反向傳播算法(反向傳播算法(Backpropagation algorithm)首先,通過前向網絡,計算每個神經元的激活值(acti

7、vations),包括輸出值:其次,對于第L層的第i節(jié)點,計算其誤差項:對于輸出節(jié)點,詳細推導步驟表示輸出層有:推導見下一張PPT。稀疏自動編碼器(Sparse Autoencoder )反向傳播算法(反向傳播算法(Backpropagation algorithm)如何得來的呢?推導過程:對于,有:其中,表示l+1層神經元個數詳細推導步驟1(1)( )( )(1)( )llsjlillljijizEEzzz1( )(1)( )()llslsjiilijljiwf zz1(1)( )()()lslljijijwfz稀疏自動編碼器(Sparse Autoencoder )自編碼 設法學習到一個函

8、數,使得:回到自編碼回到自編碼即: xx稀疏自動編碼器(Sparse Autoencoder )為隱藏單元 j 的平均激活值如左圖,(2)11a(2)22a(2)33a一般強制約束jWhy? 看下文是一個稀疏參數,一般取接近于0的值,比如0.05;也就是說,每個隱藏單元j的平均激活值接近于0.05。稀疏自動編碼器(Sparse Autoencoder )該式的另外一個作用是:對j偏離我們添加一個額外的懲罰項來最優(yōu)化目標函數。即:其中,KL散度公式:的程度進行懲罰 ?左圖中,=0.2當 =0.2j時,KL散度值達到最小,其值為0。當j趨于0或1時,KL散度值趨于無窮大。因此,為了使以上懲罰項最小

9、,必須使得:j稀疏自動編碼器(Sparse Autoencoder )因此,全局損失函數為:哎媽,這玩意終于出來了!其中:稀疏自動編碼器(Sparse Autoencoder )為什么能稀疏?1、減小編碼后隱藏層神經元個數。 比如,后一層比前一層神經元個數少。 如果激活函數不使用sigmoid函數,而 使用線性函數,就是PCA模型。2、隱藏層的任何一個神經元不應該總是高度激活 。通過設置j的值充分小,一般接近于0,比如0.01等。為使KL散度盡可能小,則:(2)1a從而使得類似于右圖中的神經元激活值較小,處于抑制狀態(tài)。(2)2a(2)3a小稀疏自動編碼器(Sparse Autoencoder

10、)部分代碼:初始化前向計算各神經元的線性組合值和激活值權值懲罰項稀疏項損失函數的總表達式棧式自編碼 (Stacked Autoencoder)棧式自編碼在預訓練(初始化)深度神經網絡的權重使用較多棧式自編碼神經網絡是一個由多層稀疏自編碼器組成的神經網絡,其前一層自編碼器的輸出作為其后一層自編碼器的輸入。采用逐層貪婪訓練法進行訓練,獲取棧式自編碼神經網絡參數。按照從前向后的順序執(zhí)行每一層自編碼器的編碼步驟:( )( )a()llf z(1)( ,1)( )( ,1)llllzWab是最深層隱藏單元的激活值,這個向量是對輸入值的更高階的表示。其中,( )an 作為softmax分類器的輸入特征,可

11、以網絡中學的特征用于分類問題。 通過將( )an棧式自編碼 (Stacked Autoencoder)具體實例具體實例訓練一個包含兩個隱含層的棧式自編碼網絡,用來進行MNIST手寫數字分類。首先首先,你需要用原始輸入 訓練第一個自編碼器,它能夠學習得到原始輸入的一階特征表示然后然后,你再用這些一階特征作為另一個稀疏自編碼器的輸入,使用它們來學習二階特征( )kx(1)kh(2)kh棧式自編碼 (Stacked Autoencoder)接下來接下來,你可以把這些二階特征作為softmax分類器的輸入,訓練得到一個能將二階特征映射到數字標簽的模型。最終最終,你可以將這三層結合起來構建一個包含兩個隱

12、藏層和一個最終softmax分類器層的棧式自編碼網絡,這個網絡能夠如你所愿地對MNIST數字進行分類。棧式自編碼 (Stacked Autoencoder)棧式自編碼神經網絡具有強大的表達能力及深度神經網絡的所有優(yōu)點。更進一步,它通常能夠獲取到輸入的“層次型分組”或者“部分-整體分解”結構。自編碼器傾向于學習得到能更好地表示輸入數據的特征。舉個例子,如果網絡的輸入數據是圖像,網絡的第一層會學習如何去識別邊,第二層一般會學習如何去組合邊,從而構成輪廓、角等。更高層會學習如何去組合更形象且有意義的特征。例如,如果輸入數據集包含人臉圖像,更高層會學習如何識別或組合眼睛、鼻子、嘴等人臉器官。本節(jié)本節(jié)小

13、結小結去噪自編碼(Denoising Autoencoder):為輸入值:通過對x隨機映射或添加噪聲而獲得xx x(x|x)Dqz( )gyy(x)f訓練指導思想:最小化L (x,z)H其中,1L (x,z) = -log(1)log(1)dHkkkkkxzxz信息熵KL散度+去噪自編碼(Denoising Autoencoder)噪聲的兩個來源噪聲的兩個來源:1、來自于樣本中選擇的訓練數據集x2、對數據集x的隨機破壞(或添加噪聲),從而獲得x 去噪自編碼(Denoising Autoencoder)流形學習觀點流形學習觀點重建干凈的數據x DAE用于從破損的x:破損處理,灰色的圈代表等概率的

14、破損C(x|x)x:圖中的紅十字,分布在低維流 形附近。DAE 訓練最小化均方誤差:學習一個向量場(綠色的箭頭)2g( ( )f xxg( ( )f xx向量場用于估計一個梯度場(log( )Q xx(x)Q其中,是未知的數據分布去噪自編碼(Denoising Autoencoder)學習學習一個一個向量場用于估計梯度場向量場用于估計梯度場這個屬性在以下前提條件下已被證明(Alain and Bengio, 2012, 2013)g( ( )f x用于估計梯度場(log( )Q xx x是連續(xù)值,損壞(添加噪聲)和重建分布都服從高斯分布 均方誤差:2g( ( )f xx 破損處理服從以下分布:

15、2(| )( ;,)C Xx xN xxI 更準確地說,(log( )Q xx2g( ( )f xx是一個相容估計,即:2g( ( )(log( )f xxQ xx去噪自編碼(Denoising Autoencoder)1、圖中每個箭頭長度正比于:重建值減去自編碼的輸入矢量;2、方向:根據隱含估計的概率分布指向更高的概率值;3、注意:估計密度函數的頂峰(數據流形上)和低谷(局部最小)向量場為零值。去噪自編碼(Denoising Autoencoder)將梯度場變成一個生成模型將梯度場變成一個生成模型 編碼-解碼對的應用可以給我們生成一個大概的結構,如果我們考慮蒙特卡羅馬爾科夫鏈算法 (MCMC

16、),兩方面需要注意:1、從低概率結構轉移到高概率結構2、加入隨機性,使得鏈可到處轉移(不至于在一些概率或模型的頂峰被困住,陷入局部最優(yōu)?),并且有機會遍歷整個空間,使得概率等于潛在模型的概率從概念上的理解,我們在做編碼解碼操作時,需要加入噪聲,但加入多少?怎么加合適呢?(But how much and how?) 下頁將作出解釋去噪自編碼(Denoising Autoencoder)圖中,C 和P 是條件隨機的,f 和g 是確定性計算。(a)在x中加入噪聲, 產生x (b)使用f函數對x進行編碼(c)使用g函數進行解碼(d)從重建的分布中進行采樣獲得一個新的狀態(tài) xt+1(|( ( )P X

17、g f x從估計分布中產生馬爾科夫鏈的步驟:答案在:Bengio et al. (2013) (Theorem 1)理論表明,自編碼 是相關的真值條件分布 的 一個相容估計,然而,以上馬爾科夫鏈的平穩(wěn)分布是X 的數據生成分布 的 一個相容估計。(|)P X X去噪自編碼(Denoising Autoencoder)圖中數據(黑圈)分布在低維流形(螺旋線)的附近馬爾科夫鏈的兩個隨機步驟:x: 綠色的圓圈 代表狗的真實圖像值。 : 藍色的圓圈 代表添加噪聲后狗的圖像值。x ( | )C x x : 代表各向同性(等概率?)高斯噪聲,圖中的綠色。 ( | )C x x 1、通過 將x變換成x 2、在

18、降噪后重建的分布中 對下一個狀態(tài)進行采樣。( | )P x x x有很多種可能,取決于 ,x 圖中,藍色的扁平形狀就是 的表示結果( | )P x x x分布在 附近的流形上。x 說明:去噪自編碼(Denoising Autoencoder)去噪自動編碼器DA是在自動編碼器的基礎上,訓練數據加入噪聲,所以自動編碼器必須學習去去除這種噪聲而獲得真正的沒有被噪聲污染過的輸入。 因此,這就迫使編碼器去學習輸入信號的更加魯棒的表達,這也是它的泛化能力比一般編碼器強的原因。本節(jié)本節(jié)小結小結壓縮自編碼(Contrative Autoencoder) 好的特征表示大致有2個衡量標準:1. 可以很好的重構出輸

19、入數據; 2.對輸入數據一定程度下的擾動具有不變形。 普通的autoencoder、sparse autoencoder和stacked autoencoder主要是符合第一個標準。而deniose autoencoder和contractive autoencoder則主要體現在第二個。在一些分類任務中,第二個標準顯得更重要。引言引言壓縮自編碼(Contrative Autoencoder)普通自編碼:壓縮自編碼:其中,雅克比矩陣:When Sigmoid,壓縮自編碼(Contrative Autoencoder)CAE與正則化自編碼(即與正則化自編碼(即weight decay)的關系)的關系 1、當線性編碼,并且 為恒等函數時,有: 對于,fswdAECAEJJ 此時,使權值W盡量

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論