深度卷積對抗生成網(wǎng)絡(luò)_第1頁
深度卷積對抗生成網(wǎng)絡(luò)_第2頁
深度卷積對抗生成網(wǎng)絡(luò)_第3頁
免費預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、深度卷積對抗生成網(wǎng)絡(luò)(DCGAN)版權(quán)聲明: 本文為 CSDN 博主原創(chuàng)文章, 未經(jīng)博主允許不得轉(zhuǎn)載。卷積神經(jīng)網(wǎng)絡(luò)在有監(jiān)督學(xué)習(xí)中的各項任務(wù)上都有很好的表現(xiàn),但在無監(jiān)督學(xué)習(xí)領(lǐng)域,卻比較少。本文介紹的算法將有監(jiān)督學(xué)習(xí)中的 CNN 和無監(jiān)督學(xué)習(xí)中的 GAN 結(jié)合到了一起。在非 CNN 條件下, LAPGAN 在圖像分辨率提升領(lǐng)域也取得了好的效果。與其將本文看成是 CNN 的擴(kuò)展,不如將其看成 GAN 的擴(kuò)展到 CNN 領(lǐng)域。而 GAN 的基本算法,可以參考對抗神經(jīng)網(wǎng)絡(luò)。 GAN 無需特定的 cost function 的優(yōu)勢和學(xué)習(xí)過程可以學(xué)習(xí)到很好的特征表示,但是GAN 訓(xùn)練起來非常不穩(wěn)定,經(jīng)常會使

2、得生成器產(chǎn)生沒有意義的輸出。而論文的貢獻(xiàn)就在于:為 CNN 的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)設(shè)置了一系列的限制來使得它可以穩(wěn)定的訓(xùn)練。使用得到的特征表示來進(jìn)行圖像分類,得到比較好的效果來驗證生成的圖像特征表示的表達(dá)能力對GAN學(xué)習(xí)到的 filter 進(jìn)行了定性的分析。 展示了生成的特征表示的向量計算特性。模型結(jié)構(gòu)模型結(jié)構(gòu)上需要做如下幾點變化:將pooling層convolutions替代,其中,在discriminator上用strided convolutions替代,在generator上用fractional-strided convolutions替代。在 generator和discriminator

3、上都使用 batchnorm 。 解決初始化差的問題幫助梯度傳播到每一層防止generator把所有的樣本都收斂到同一個點。直接將BN 應(yīng)用到所有層會導(dǎo)致樣本震蕩和模型不穩(wěn)定,通過在generator輸出層和 discriminator輸入層不采用 BN 可以防止這種現(xiàn)象。移除全連接層global pooling增加了模型的穩(wěn)定性,但傷害了收斂速度。在generator的除了輸出層外的所有層使用ReLU ,輸出層采用tanh 。在discriminator的所有層上使用LeakyReLU 。DCGAN 的 generator 網(wǎng)絡(luò)結(jié)構(gòu):其中,這里的 conv 層是 four fractiona

4、lly-strided convolution ,在其他的 paper 中也可能被稱為是deconvolution.訓(xùn)練細(xì)節(jié)預(yù)處理環(huán)節(jié),將圖像mini-batch訓(xùn)練, batch size0.02) 的正態(tài)分布中隨即得到scale 到 tanh 的 -1, 1 。是 128. 所有的參數(shù)初始化由(0,LeakyReLU的斜率是 0.2. 雖然之前的GAN使用momentum來加速訓(xùn)練,DCGAN使用調(diào)好超參的 Adam optimizer 。 learning rate=0.0002 將 momentum 參數(shù) beta 從 0.9 降為 0.5 來防止震蕩和不穩(wěn)定。 LSUN 效果圖經(jīng)過一

5、次循環(huán)的訓(xùn)練 (online learning) 和收斂后得模型得到的效果分別如下: 這表明了 DCGAN 不是通過記憶訓(xùn)練數(shù)據(jù)來生成 /過擬合高質(zhì)量的圖片。DCGAN capabilities驗證為了驗證DCGAN 的特征表示的有效性,將特征表示輸入到L2-SVM 中,并將分類結(jié)果與其他的無監(jiān)督學(xué)習(xí)算法進(jìn)行對比。為了做到這一點,使用在ImageNet-1K上訓(xùn)練得到的generator ,使用所有層的所有 CNN 特征作為輸入,將每一層的 CNN 特征使用 max-pooling 的方式降到 4× 4,然后展開,形成一個 28672 維的向量,輸入到 L2-SVM 中。 Mnist

6、 數(shù)據(jù)集上的效果對比: SVNH 數(shù)據(jù)集上的對比:漫游隱空間通過慢慢的調(diào)整初始向量來探索隱空間是如何影響最終圖片的生成的。這樣,既可以探索圖片特征是如何折疊到隱空間的,又可以判斷這些圖片是由于真正學(xué)習(xí)到了語義特征還是只是記住了圖片(如果有 sharp 的變化)。由上圖,可以看到一些逐漸的變化,比如第六行中,逐漸有了一個窗戶。第四行中,電視逐漸消失。Discriminator Filter通過分析filter ,我們可以看到,在對房屋特征的學(xué)習(xí)中,GAN 確實學(xué)習(xí)到了床、窗口等特征。 左側(cè)是隨機 filter ,右側(cè)是學(xué)習(xí)到的filter ,可見,右側(cè)的filter 還是有意義的。Semanti

7、c Mask在隱空間上,假設(shè)知道哪幾個變量控制著某個物體,那么僵這幾個變量擋住是不是就可以將生成圖片中的某個物體消失?論文中的實驗是這樣的:首先,生成150 張圖片,包括有窗戶的和沒有窗戶的,然后使用一個邏輯斯底回歸函數(shù)來進(jìn)行分類,對于權(quán)重不為0 的特征,認(rèn)為它和窗戶有關(guān)。將其擋住,得到新的生成圖片。 Vector Arithmetic 類似于 word2vec ,圖像是不是也有類似的特點,可以在隱空間里進(jìn)行加減法來得到新的圖像?實驗表明,使用單張圖片的表示并不穩(wěn)定,使用三張圖片會比較穩(wěn)定。可以看到,單張圖片并不穩(wěn)定,而三張圖片則可以學(xué)到表情和墨鏡等特征。更甚者,可以學(xué)到一個穩(wěn)定的向量, 來進(jìn)行某種變換, 比如,方位變換??偨Y(jié)這篇 paper 的主要貢獻(xiàn)看似簡單,但其實工作量很大,充分

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論