第7章-生成對抗網(wǎng)絡(luò)_第1頁
第7章-生成對抗網(wǎng)絡(luò)_第2頁
第7章-生成對抗網(wǎng)絡(luò)_第3頁
第7章-生成對抗網(wǎng)絡(luò)_第4頁
第7章-生成對抗網(wǎng)絡(luò)_第5頁
已閱讀5頁,還剩30頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

深度學(xué)習(xí)

第7章生成對抗網(wǎng)絡(luò)

一個(gè)極具挑戰(zhàn)的機(jī)器學(xué)習(xí)問題1

生成對抗網(wǎng)絡(luò)的基本原理2

生成對抗網(wǎng)絡(luò)的設(shè)計(jì)3

GAN的應(yīng)用4

基于DCGAN手寫數(shù)字生成實(shí)例5

著名物理學(xué)家Richard指出,要想真正理解一樣?xùn)|西,必須能夠把它創(chuàng)造出來。令機(jī)器理解現(xiàn)實(shí)世界,觀測現(xiàn)實(shí)世界的樣本,學(xué)習(xí)其內(nèi)在統(tǒng)計(jì)規(guī)律,并基于此進(jìn)行推理與創(chuàng)造而實(shí)現(xiàn)真正的人工智能,也不失為一個(gè)好的辦法!

近年來,深度學(xué)習(xí)在很多領(lǐng)域的都取得了突破性進(jìn)展,但大家似乎發(fā)現(xiàn)了這樣的一個(gè)現(xiàn)實(shí),即深度學(xué)習(xí)取得突破性進(jìn)展的工作基本都是判別模型相關(guān)的。機(jī)器學(xué)習(xí)方法可以分為生成方法(generativeapproach)和判別方法(discriminativeapproach),所學(xué)到的模型分別稱為生成式模型(generativemodel)和判別式模型(discriminativemodel)。生成方法通過觀測數(shù)據(jù)學(xué)習(xí)樣本與標(biāo)簽的聯(lián)合概率分布P(X,Y),訓(xùn)練好的模型能夠生成符合樣本分布的新數(shù)據(jù),它可以用于有監(jiān)督學(xué)習(xí),也可用于無監(jiān)督學(xué)習(xí)。

1.生成對抗網(wǎng)絡(luò)GANGAN包含一個(gè)生成模型和一個(gè)判別模型。生成模型捕捉樣本數(shù)據(jù)的分布,判別模型是一個(gè)二分類器,判別輸入是真實(shí)數(shù)據(jù)還是生成的樣本。這個(gè)模型的優(yōu)化過程是一個(gè)“二元極小極大博弈”問題,訓(xùn)練時(shí)固定一方,更新另一個(gè)模型的參數(shù),交替迭代,使得對方的錯(cuò)誤最大化,最終,生成模型能估測出樣本數(shù)據(jù)的分布。

2.變分自編碼器在概率圖形模型的框架中對這一問題進(jìn)行形式化——在概率圖形模型中,在數(shù)據(jù)的對數(shù)似然上最大化下限。

3.自回歸模型PixelRNN這樣的自回歸模型則通過給定的之前的像素對每個(gè)單個(gè)像素的條件分布建模來訓(xùn)練網(wǎng)絡(luò)。這類似于將圖像的像素插入char-rnn中,但該RNN在圖像的水平和垂直方向上同時(shí)運(yùn)行,而不只是字符的1D序列。近兩年來流行的生成式模型主要分為三種方法:

相對于判別式模型來說,生成式模型的研究進(jìn)展較為緩慢,究其原因主要是(1)較高的計(jì)算復(fù)雜度。涉及最大似然估計(jì)、馬爾可夫鏈方法、蒙特卡羅迭代、近似法等(2)生成式模型對真實(shí)世界進(jìn)行建模需要大量先驗(yàn)知識,建模的好壞直接影響生成式模型的性能,而真實(shí)世界的數(shù)據(jù)往往非常復(fù)雜,擬合模型所需計(jì)算量往往非常龐大,甚至難以承受。(3)對概率分布的估計(jì)是有偏的,數(shù)據(jù)的建模采樣效率也較低。

針對上述困難,2014年Goodfellow等人啟發(fā)自博弈論中的二人零和博弈,開創(chuàng)性地提出了一種新型生成式模型——生成式對抗網(wǎng)絡(luò)(GenerativeAdversarialNetworks,GAN)。盡管GAN從提出至今不過幾年的時(shí)間,但關(guān)注和研究熱度急速上升,并已從學(xué)術(shù)界延伸至工業(yè)界,Google、OpenAI、Facebook和Twitter等知名人工智能企業(yè)紛紛投入大量精力研究和拓展GAN的應(yīng)用。目前,生成對抗網(wǎng)絡(luò)已經(jīng)從最初的圖片生成,被拓展到計(jì)算機(jī)視覺的各個(gè)領(lǐng)域,如圖像分割、視頻預(yù)測、風(fēng)格遷移等,若干研究工作也已成功將GAN應(yīng)用在強(qiáng)化學(xué)習(xí)中。

一個(gè)極具挑戰(zhàn)的機(jī)器學(xué)習(xí)問題1

生成對抗網(wǎng)絡(luò)的基本原理2

生成對抗網(wǎng)絡(luò)的設(shè)計(jì)3

GAN的應(yīng)用4

基于DCGAN手寫數(shù)字生成實(shí)例5兩位博弈方的利益之和為零或一個(gè)常數(shù),即一方有所得,另一方必有所失。GAN模型中的兩位博弈方分別由生成式模型G和判別式模型D充當(dāng)。生成模型捕捉樣本數(shù)據(jù)的分布,判別模型是一個(gè)二分類器。左圖是一個(gè)判別式模型,當(dāng)輸入訓(xùn)練數(shù)據(jù)x時(shí),期待輸出高概率(接近1);右圖下半部分是生成模型,輸入是一些服從某一簡單分布(例如高斯分布)的隨機(jī)噪聲z,輸出是與訓(xùn)練圖像相同尺寸的生成圖像。向判別模型D輸入生成樣本,對于D來說期望輸出低概率(判斷為生成樣本),對于生成模型G來說要盡量欺騙D,使判別模型輸出高概率(誤判為真實(shí)樣本),從而形成競爭與對抗。生成對抗網(wǎng)絡(luò)GAN的優(yōu)勢(1)根據(jù)實(shí)際的結(jié)果,它們看上去可以比其它模型產(chǎn)生了更好的樣本。生成對抗式網(wǎng)絡(luò)框架能訓(xùn)練任何一種生成器網(wǎng)絡(luò)。大部分其他的框架需要該生成器網(wǎng)絡(luò)有一些特定的函數(shù)形式,比如輸出層是高斯的。重要的是所有其他的框架需要生成器網(wǎng)絡(luò)遍布非零質(zhì)量(non-zeromass)。生成對抗式網(wǎng)絡(luò)能學(xué)習(xí)可以僅在與數(shù)據(jù)接近的細(xì)流形(thinmanifold)上生成點(diǎn)。(2)不需要設(shè)計(jì)遵循任何種類的因式分解的模型,任何生成器網(wǎng)絡(luò)和任何鑒別器都會(huì)有用。無需利用馬爾科夫鏈反復(fù)采樣,無需在學(xué)習(xí)過程中進(jìn)行推斷,回避了近似計(jì)算棘手的概率的難題。(3)與PixelRNN相比,生成一個(gè)樣本的運(yùn)行時(shí)間更小。GAN每次能產(chǎn)生一個(gè)樣本,而PixelRNN需要一次產(chǎn)生一個(gè)像素來生成樣本。與VAE相比,它沒有變化的下限。如果鑒別器網(wǎng)絡(luò)能完美適合,那么這個(gè)生成器網(wǎng)絡(luò)會(huì)完美地恢復(fù)訓(xùn)練分布。換句話說,各種對抗式生成網(wǎng)絡(luò)會(huì)漸進(jìn)一致,而VAE有一定偏置。與深度玻爾茲曼機(jī)相比,既沒有一個(gè)變化的下限,也沒有棘手的分區(qū)函數(shù)。它的樣本可以一次性生成,而不是通過反復(fù)應(yīng)用馬爾可夫鏈運(yùn)算器。GAN目前存在的主要問題(1)解決不收斂(non-convergence)的問題目前面臨的基本問題是:所有的理論都認(rèn)為GAN應(yīng)該在納什均衡(Nashequilibrium)上有卓越的表現(xiàn),但梯度下降只有在凸函數(shù)的情況下才能保證實(shí)現(xiàn)納什均衡。當(dāng)博弈雙方都由神經(jīng)網(wǎng)絡(luò)表示時(shí),在沒有實(shí)際達(dá)到均衡的情況下,讓它們永遠(yuǎn)保持對自己策略的調(diào)整是可能的。(2)難以訓(xùn)練,崩潰問題(collapseproblem)GAN模型被定義為極小極大問題,沒有損失函數(shù),在訓(xùn)練過程中很難區(qū)分是否正在取得進(jìn)展。GAN的學(xué)習(xí)過程可能發(fā)生崩潰問題,生成器開始退化,總是生成同樣的樣本點(diǎn),無法繼續(xù)學(xué)習(xí)。當(dāng)生成模型崩潰時(shí),判別模型也會(huì)對相似的樣本點(diǎn)指向相似的方向,訓(xùn)練無法繼續(xù)。(3)無需預(yù)先建模,模型過于自由不可控與其他生成式模型相比,GAN這種競爭的方式不再要求一個(gè)假設(shè)的數(shù)據(jù)分布,即不需要formulatep(x),而是使用一種分布直接進(jìn)行采樣,從而真正達(dá)到理論上可以完全逼近真實(shí)數(shù)據(jù),這也是GAN最大的優(yōu)勢。然而,這種不需要預(yù)先建模的方法缺點(diǎn)是太過自由了,對于較大的圖片,較多的pixel的情形,基于簡單GAN的方式就不太可控了。在GAN中,每次學(xué)習(xí)參數(shù)的更新過程,被設(shè)為D更新k回,G才更新1回,也是出于類似的考慮。

一個(gè)極具挑戰(zhàn)的機(jī)器學(xué)習(xí)問題1

生成對抗網(wǎng)絡(luò)的基本原理2

生成對抗網(wǎng)絡(luò)的設(shè)計(jì)3

GAN的應(yīng)用4

基于DCGAN手寫數(shù)字生成實(shí)例53.1條件生成式對抗網(wǎng)絡(luò)

在生成模型(D)和判別模型(G)的建模中均引入條件變量y,使用額外信息y對模型增加條件,可以指導(dǎo)數(shù)據(jù)生成過程。這些條件變量y可以基于多種信息,例如類別標(biāo)簽,用于圖像修復(fù)的部分?jǐn)?shù)據(jù),來自不同模態(tài)的數(shù)據(jù)。如果條件變量y是類別標(biāo)簽,可以看作GAN是把純無監(jiān)督的GAN變成有監(jiān)督的模型的一種改進(jìn)。

GAN這種不需要預(yù)先建模的方法缺點(diǎn)是太過自由了,對于較大的圖片,較多的pixel的情形,基于簡單GAN的方式就不太可控了。條件生成對抗網(wǎng)絡(luò)3.2拉普拉斯金字塔生成式對抗網(wǎng)絡(luò)

給GAN加一些約束,還有另一個(gè)方法是不讓GAN一次完成全部任務(wù),而是一次生成一部分,分多次生成一張完整的圖片,這是DeepMind的DRAW的思想。DRAW中指出,人類在完成一幅圖畫時(shí),都不一定是一筆完成的,DRAW用了一種sequentialVAE的模型,讓機(jī)器一點(diǎn)點(diǎn)“寫”出一個(gè)個(gè)數(shù)字。而Facebook提出的LAPGAN則是采用了這樣的思想,在GAN基礎(chǔ)上做出了改進(jìn)。圖像金字塔

采用了圖像金字塔,首先生成粗糙的圖片,然后在粗糙圖片的基礎(chǔ)上,生成高分辨率的圖片。

圖像金字塔方式主要的操作便是下采樣和上采樣,而優(yōu)勢是每次只考慮樣本和生成圖像之間的殘差的學(xué)習(xí)效果,某種程度上和ResidualNetwork的思想是一樣的。針對殘差的逼近和學(xué)習(xí),相對更加容易。LAPGAN的學(xué)習(xí)過程

生成網(wǎng)絡(luò)有所不同之處在于,將高層金字塔圖像也作為輸出,和噪音一起生成低層的圖像,相當(dāng)于一個(gè)CGAN。通過上述網(wǎng)絡(luò),就可以生成最后的高分辨率的圖像,如下圖。

LAPGAN生成網(wǎng)絡(luò)從中可以看出LAPGAN優(yōu)于GAN,邊緣更加銳利;引入類標(biāo)條件的LAPGAN優(yōu)于普通LAPGAN,物體結(jié)構(gòu)更加清晰;

LAPGAN主要是利用了拉普拉斯金字塔,和CGAN(條件生成-對抗網(wǎng)絡(luò))結(jié)合一起,用低分辨率的圖片作為條件,生成高分辨率的圖像。LAPGAN的優(yōu)點(diǎn):(1)與ResidualNetwork有異曲同工之妙,針對殘差的逼近和學(xué)習(xí)相對容易。(2)逐級獨(dú)立訓(xùn)練提高了網(wǎng)絡(luò)簡單記憶輸入樣本的難度,許多高性能的深度網(wǎng)絡(luò)都面臨著這樣的問題。(3)減少了每一次GAN需要學(xué)習(xí)的內(nèi)容,也就從而增大了GAN的學(xué)習(xí)能力。3.3深度卷積生成式對抗網(wǎng)絡(luò)深度卷積生成對抗網(wǎng)絡(luò)(DeepConvolutionalGenerativeAdversarialNetworks,DCGAN)中,生成式模型G(z)使用一個(gè)比較特殊的深度卷積網(wǎng)絡(luò)來實(shí)現(xiàn),如圖所示。與原始的GAN不同,將池化層的卷積替代,在判別器上用跨越卷積(stridedconvolutions)替代,在生成器上用微步幅卷積(fractional-stridedconvolutions)替代;在生成器G和辨別器D上都使用BatchNormalization(批量歸一化)。解決初始化差的問題;幫助梯度傳播到每一層;防止生成器G把所有的樣本都收斂到同一個(gè)點(diǎn);直接將BN應(yīng)用到所有層會(huì)導(dǎo)致樣本震蕩和模型不穩(wěn)定,通過在生成器G輸出層和辨別器D輸入層不采用BN可以防止這種現(xiàn)象;移除全連接層,全局池化增加了模型的穩(wěn)定性,但傷害了收斂速度;在生成器G的除了輸出層外的所有層使用ReLU,輸出層采用tanh;在辨別器D的所有層上使用LeakyReLU。生成式模型G(z)判別式模型D(x)微步幅卷積判別式模型D(x)則仍是一個(gè)傳統(tǒng)的深度卷積網(wǎng)絡(luò)

DCGAN的生成式模型G(z)中出現(xiàn)了上采樣(upsampling)。卷積神經(jīng)網(wǎng)絡(luò)的下采樣很好理解,加入polling層即可,然而這里的上采樣要如何實(shí)現(xiàn)呢?這里,DCGAN通過微步幅卷積(fractionally-stridedconvolution)進(jìn)行上采樣。3.4WassersteinGAN

2014年IanGoodfellow提出以來,GAN就存在著訓(xùn)練困難、生成器和判別器的loss無法指示訓(xùn)練進(jìn)程、生成樣本缺乏多樣性等問題。從那時(shí)起,很多論文都在嘗試解決,但是效果不盡人意,而WassersteinGAN(WGAN)成功地做到了。WassersteinGAN原理,改進(jìn)后相比原始GAN的算法實(shí)現(xiàn)流程卻只改了四點(diǎn):(1)判別器最后一層去掉sigmoid;(2)生成器和判別器的損失函數(shù)不取對數(shù);(3)每次更新判別器的參數(shù)之后把它們的絕對值截?cái)嗟讲怀^一個(gè)固定常數(shù)c;(4)不要用基于動(dòng)量的優(yōu)化算法(包括momentum和Adam),推薦RMSProp,SGD也行。

一個(gè)極具挑戰(zhàn)的機(jī)器學(xué)習(xí)問題1

生成對抗網(wǎng)絡(luò)的基本原理2

生成對抗網(wǎng)絡(luò)的設(shè)計(jì)3

GAN的應(yīng)用4

基于DCGAN手寫數(shù)字生成實(shí)例54.1計(jì)算機(jī)視覺領(lǐng)域GAN應(yīng)用最成功的領(lǐng)域是計(jì)算機(jī)視覺,包括圖像和視頻生成,如圖像翻譯、圖像超分辨率、圖像修復(fù)、圖像上色、人臉圖像編輯以及視頻生成等。下圖使用GAN生成人臉。使用GAN生成的人臉GAN應(yīng)用于圖像翻譯,例如,根據(jù)輪廓圖像生成照片、根據(jù)白天圖像生成對應(yīng)夜景等。將圖像翻譯拓展使多模態(tài)圖像翻譯,大大增加了生成圖像的多樣性,如圖所示。除了從二維圖像到二維圖像的翻譯外,PrGAN能夠以一種完全無監(jiān)督的訓(xùn)練方式將給定的一系列甚至是一張2D圖像翻譯為該物體的3D體素形狀和深度信息。使用GAN進(jìn)行圖像翻譯用于超分辨率的生成式對抗網(wǎng)絡(luò)SRGAN,如圖。該模型的目標(biāo)函數(shù)由對抗損失函數(shù)和內(nèi)容損失函數(shù)共同構(gòu)成。其中,對抗損失函數(shù)通過訓(xùn)練判別器區(qū)分真實(shí)圖片和由生成器進(jìn)行超分辨重構(gòu)的圖片,從而能夠?qū)W習(xí)自然圖片的流形結(jié)構(gòu),通過峰值信噪比和結(jié)構(gòu)相似性等指標(biāo)對重建圖像進(jìn)行評估,SRGAN的效果比現(xiàn)有最先進(jìn)的采用深度殘差網(wǎng)絡(luò)優(yōu)化均方差更接近高分辨率原圖。使用GAN進(jìn)行超分辨率圖像修復(fù)

cGAN應(yīng)用到圖像修復(fù),以圖像缺失部分的周邊像素為條件訓(xùn)練生成式模型,生成完整的修復(fù)圖像,利用對抗思想訓(xùn)練判別器對真實(shí)樣本和修復(fù)樣本進(jìn)行判斷。經(jīng)對抗訓(xùn)練后,生成器所生成的修復(fù)圖像與遮擋區(qū)塊周邊是連貫的,而且是符合語義的。視頻生成4.2語言和語音領(lǐng)域根據(jù)文本生成圖像4.3半監(jiān)督領(lǐng)域

GAN強(qiáng)大的表征能力使之能夠生成與真實(shí)數(shù)據(jù)分布相一致的數(shù)據(jù),因此,可用于解決訓(xùn)練數(shù)據(jù)不足時(shí)的學(xué)習(xí)問題,有效緩解基于深度學(xué)習(xí)的解決方案對訓(xùn)練數(shù)據(jù)量的需求。此外,盡管GAN作為一種無監(jiān)督學(xué)習(xí)方法被提出,但可廣泛應(yīng)用于半監(jiān)督學(xué)習(xí)過程中無標(biāo)簽數(shù)據(jù)對模型的預(yù)訓(xùn)練。

Odena提出的Semi-GAN和AC-GAN也是GAN在多分類問題上的成功應(yīng)用。文獻(xiàn)指出,將經(jīng)過訓(xùn)練的判別器作為一個(gè)通用特征提取器用于多分類問題,只需結(jié)合少量標(biāo)簽信息便可達(dá)到令人滿意的分類效果,

GAN的判別器D實(shí)際上是一個(gè)二分類的分類器,區(qū)分樣本是真實(shí)樣本還是生成樣本。Springenberg和Salimans等結(jié)合文獻(xiàn)先對樣本進(jìn)行聚類,然后,通過計(jì)算有標(biāo)簽數(shù)據(jù)的預(yù)測類別分布和真實(shí)類別分布之間的交叉熵進(jìn)行半監(jiān)督學(xué)習(xí),將樸素GAN的判別器從二元分類器擴(kuò)展為多類別分類器,從而輸出Sof

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論