论文学习记录:PROGRESSIVE GROWING OF GANS
論文鏈接:https://arxiv.org/pdf/1710.10196.pdf
前言
這是一種針對(duì)GANs的訓(xùn)練優(yōu)化方法,從低分辨率圖像開(kāi)始,通過(guò)向網(wǎng)絡(luò)添加層來(lái)逐步提高分辨率,如圖1。這種遞增的特性允許訓(xùn)練首先發(fā)現(xiàn)圖像分布的大尺度結(jié)構(gòu),然后將注意力轉(zhuǎn)移到越來(lái)越細(xì)的尺度細(xì)節(jié)上,而不必同時(shí)學(xué)習(xí)所有的尺度。
圖1: 初始訓(xùn)練時(shí),生成器(G)和鑒別器(D)的空間分辨率都很低,即4x4像素。隨著訓(xùn)練的進(jìn)行,我們逐漸在G和D上增加層,從而提高了生成圖像的空間分辨率。在整個(gè)過(guò)程中,所有現(xiàn)有層都是可訓(xùn)練的。這里N x N是指在N x N空間分辨率下的卷積層。這允許在高分辨率下穩(wěn)定的擬合,也能夠極大地加快訓(xùn)練速度。右邊展示了使用漸進(jìn)式增長(zhǎng)生成的6個(gè)1024 x 1024像素示例圖像。
我們使用生成器和鑒別器網(wǎng)絡(luò),它們彼此鏡像,同步發(fā)展。在整個(gè)訓(xùn)練過(guò)程中,兩個(gè)網(wǎng)絡(luò)中的所有現(xiàn)有層在訓(xùn)練階段都是可訓(xùn)練的。當(dāng)新層被添加到網(wǎng)絡(luò)中時(shí),我們平滑地淡出現(xiàn)有網(wǎng)絡(luò),如圖2所示,這避免了對(duì)已經(jīng)訓(xùn)練良好的小分辨率層的突然沖擊。
圖2:當(dāng)加倍生成器(G)和鑒別器(D)的分辨率時(shí),我們“平滑”地添加新圖層。該例子說(shuō)明了從16×16圖像(a)(a)(a)到32×32圖像(c)(c)(c)的轉(zhuǎn)換過(guò)程。在轉(zhuǎn)換(b)(b)(b)過(guò)程中,我們將操作在更高分辨率上的層類(lèi)似殘差塊一樣處理,其權(quán)重aaa從0到1線性增加。這里2x2x2x和0.5x0.5x0.5x分別表示使用最鄰近鄰濾波和平均池化將圖像分辨率加倍和減半。toRGBtoRGBtoRGB表示將特征向量投影到RGB顏色層,fromRGBfromRGBfromRGB做相反操作; 都使用1 x 1卷積。在訓(xùn)練鑒別器時(shí),我們輸入經(jīng)過(guò)縮小的真實(shí)圖像,以匹配當(dāng)前網(wǎng)絡(luò)的分辨率。在分辨率轉(zhuǎn)換期間,類(lèi)似于生成器輸出組合兩種分辨率的方式,我們?cè)谡鎸?shí)圖像的兩種分辨率之間插入。
漸進(jìn)式訓(xùn)練有幾個(gè)好處。
在早期,由于類(lèi)別信息和模式較少,小圖像的生成實(shí)質(zhì)上更穩(wěn)定(Odena et al.,2017):通過(guò)一點(diǎn)一點(diǎn)地提高分辨率,通過(guò)重復(fù)一個(gè)簡(jiǎn)化問(wèn)題,而非直接解決從隱向量直接找到10242^22的圖像。實(shí)際上,它穩(wěn)定了訓(xùn)練,使我們能夠使用WGAN-GP或者LSGANs (Gulrajani et al., 2017)損失可靠地合成百萬(wàn)像素級(jí)的圖像 (Mao et al., 2016b)。
減少了訓(xùn)練時(shí)間:隨著GANs的逐漸增長(zhǎng),大多數(shù)迭代過(guò)程都是在較低的分辨率下完成的,根據(jù)最終輸出的分辨率,一般可以快2-6倍地獲得相近結(jié)果質(zhì)量。
逐步構(gòu)建GANs的想法與Wang等人(2017)的工作有關(guān),他們使用多種鑒別器對(duì)不同的空間分辨率進(jìn)行操作。Durugkar等(2016)同時(shí)使用一個(gè)生成器和多個(gè)鑒別器進(jìn)行工作,而Ghosh等(2017)使用多個(gè)生成器和一個(gè)鑒別器來(lái)做相反model工作。分級(jí)GANs (Denton. 等,2015; Huang等,2016; Zhang等,2017)為一個(gè)圖像金字塔的每一層定義一個(gè)生成器和鑒別器。這些方法建立在與我們的工作相同的觀察基礎(chǔ)上——從隱變量到高分辨率圖像的復(fù)雜映射通過(guò)逐步學(xué)習(xí)會(huì)更加容易——但關(guān)鍵的區(qū)別在于我們只著眼于單個(gè)GAN,而非它們的廣義結(jié)構(gòu)體系。與早期自適應(yīng)增長(zhǎng)網(wǎng)絡(luò)的研究相比,如GNG(Fritzke, 1995)和NeuroEvolution of Augmenting Topologies (NEAT)(Stanley & Mikkulainen, 2002),它們無(wú)節(jié)制地增加網(wǎng)絡(luò),而我們只是逐步引入預(yù)置的層。在此意義上,我們的方法類(lèi)似于自動(dòng)編碼器的分層訓(xùn)練(Bengio等人,2007)。
正文部分將描述一些tricks。
文章目錄
- 前言
- 一、基于 ‘批標(biāo)準(zhǔn)差’ 增加多樣性(INCREASING VARIATION USING MINIBATCH STANDARD DEVIATION)
- 二、歸一化處理生成器和鑒別器(NORMALIZATION IN GENERATOR AND DISCRIMINATOR)
- 1. 平衡學(xué)習(xí)率(EQUALIZED LEARNING RATE)
- 2. 生成器的像素歸一化(PIXELWISE FEATURE VECTOR NORMALIZATION IN GENERATOR)
- 三、構(gòu)造漸增型網(wǎng)絡(luò)(PROGRESSIVE NETWORK)
- 1. 上采樣(UPSAMPLE)和下采樣(DOWNSAMPLE)
- 2. 設(shè)計(jì)不同level的生成器和判別器 (level = log2_22?(res), res:當(dāng)前分辨率)
- (1)建立level=2的初始卷積層
- (2)建立拓?fù)渚矸e層
- (3)生成器輸出(整合特征圖:toRGB)
- 四、訓(xùn)練配置(TRAINING CONFIGURATION)
- 1. Adam算法
- 2. mini_batch設(shè)置
- 3. Cost Function WGAN-GP
- 五、生成結(jié)果的質(zhì)量評(píng)價(jià) -- 多尺度統(tǒng)計(jì)相似度( MULTI-SCALE STATISTICAL SIMILARITY)
- 總結(jié)
以下是本篇文章正文內(nèi)容
一、基于 ‘批標(biāo)準(zhǔn)差’ 增加多樣性(INCREASING VARIATION USING MINIBATCH STANDARD DEVIATION)
由于GAN網(wǎng)絡(luò)傾向于學(xué)習(xí)數(shù)據(jù)集的子分部,由此2016年Salimans提出‘minibatch discrimination’即‘批判別’作為解決方案。它們不僅從單個(gè)圖像中更是在整個(gè)minibatch中計(jì)算特征統(tǒng)計(jì)數(shù)據(jù),從而激勵(lì)生成圖像和訓(xùn)練圖像的minibatch顯示類(lèi)似的統(tǒng)計(jì)數(shù)據(jù)或分布。
這是通過(guò)在鑒別器的末尾添加一個(gè)minibatch層來(lái)實(shí)現(xiàn)的,該層將學(xué)習(xí)一個(gè)大型張量,該張量將輸入量激活并映射到一組統(tǒng)計(jì)數(shù)組中。在一個(gè)minibatch中,為每個(gè)示例生成一組單獨(dú)的統(tǒng)計(jì)信息組,并將其拼接到層的輸出,以便鑒別器可以在內(nèi)部使用統(tǒng)計(jì)信息。我們大大簡(jiǎn)化了這種方法,同時(shí)也改進(jìn)了多樣性。
在簡(jiǎn)化方案中既沒(méi)有可學(xué)習(xí)參數(shù)也沒(méi)有新的超參數(shù)。我們首先計(jì)算每個(gè)minibatch空間位置上每個(gè)特征圖的標(biāo)準(zhǔn)差。然后,我們將這些估計(jì)值平均到所有特征圖和空間位置,得到單一值。我們復(fù)制擴(kuò)張?jiān)撝?#xff0c;將其連接到所有空間位置,并覆蓋整個(gè)minibatch,從而產(chǎn)生一個(gè)額外的(常量)特征圖。計(jì)算方法簡(jiǎn)述如下:
input:[N,H,W,fmaps];獲取批大小s=nhwf.shape;(1) 先計(jì)算N個(gè)特征圖的標(biāo)準(zhǔn)差得到特征圖fmap1:[1,H,W,fmaps](2) 對(duì)fmap1求均值,得到值M1:[1,1,1,1](3) 復(fù)制擴(kuò)張M1得到N個(gè)特征圖fmap2:[N,H,W,1](4) 將fmap2添加至每個(gè)樣本的特征圖中理論上,這一層可以插入到鑒別器的任何地方,但是我們發(fā)現(xiàn)最好是在接近末端插入。
二、歸一化處理生成器和鑒別器(NORMALIZATION IN GENERATOR AND DISCRIMINATOR)
由于兩種網(wǎng)絡(luò)之間的不健康競(jìng)爭(zhēng),GANs傾向于信號(hào)強(qiáng)度的升級(jí)。GANs的實(shí)際需要是限制信號(hào)的大小和競(jìng)爭(zhēng)。我們使用一種方法,它包含了兩個(gè)成分,而這兩個(gè)成分都不包含可學(xué)習(xí)參數(shù)。
PGGAN使用兩種不同的方式來(lái)限制梯度和不健康博弈,而且方法均采用非訓(xùn)練的處理方式.
1. 平衡學(xué)習(xí)率(EQUALIZED LEARNING RATE)
使用簡(jiǎn)單的N(0,1)N(0,1)N(0,1)初始化,然后在運(yùn)行時(shí)顯式地縮放權(quán)重。詳細(xì)解釋就是:Initialization權(quán)重后設(shè)置Wi=Wi/cW_i = W_i /cWi?=Wi?/c,其中WiW_iWi?是權(quán)重,ccc是He的初始化方法的每層歸一化常數(shù)(He,2015)。
動(dòng)態(tài)地進(jìn)行而非在初始化做有些許好處,與常用的自適應(yīng)隨機(jī)梯度下降方法(如RMSProp (Tieleman & Hinton, 2012)和Adam (Kingma & Ba, 2015))中的尺度不變性有關(guān)。這些方法通過(guò)預(yù)估的標(biāo)準(zhǔn)差對(duì)梯度更新進(jìn)行標(biāo)準(zhǔn)化,從而使更新不依賴(lài)于參數(shù)的尺度。如果某些參數(shù)的動(dòng)態(tài)范圍比其他參數(shù)大,則需要更長(zhǎng)的時(shí)間來(lái)調(diào)整。初始化導(dǎo)致的結(jié)果會(huì)使學(xué)習(xí)率過(guò)大或過(guò)小。我們的方法確保了動(dòng)態(tài)范圍,因此學(xué)習(xí)速度對(duì)所有權(quán)值而言是相同的。
He的初始化方法能夠確保網(wǎng)絡(luò)初始化的時(shí)候,隨機(jī)初始化的參數(shù)不會(huì)大幅度地改變輸入信號(hào)的強(qiáng)度。然而PGGAN中不僅限初始狀態(tài)scale而是實(shí)時(shí)scale,其中He公式如下:
2. 生成器的像素歸一化(PIXELWISE FEATURE VECTOR NORMALIZATION IN GENERATOR)
為了避免由于競(jìng)爭(zhēng)導(dǎo)致生成器和鑒別器的大小交替失控的情況(生成器的梯度崩潰),我們?cè)诿總€(gè)卷積層之后將生成器中每個(gè)像素的特征向量歸一化為單位長(zhǎng)度。我們使用一種變體的“局部響應(yīng)歸一化”(Krizhevsky,2012)來(lái)實(shí)現(xiàn)這一點(diǎn)。公式如下:
bx,y=ax,y1N∑j=0N?1(ax,yj)2+?b_{x,y}=\frac{a_{x,y}}{\sqrt{\frac{1}{N}\sum_{j=0}^{N-1}(a_{x,y}^j)^2+\epsilon}}bx,y?=N1?∑j=0N?1?(ax,yj?)2+??ax,y??其中:?=10?8\epsilon=10^{-8}?=10?8,NNN是feature map的個(gè)數(shù),bx,yb_{x,y}bx,y?和ax,ya_{x,y}ax,y?則分別是像素(x,y)(x,y)(x,y)中的初始和歸一化特征向量。
Pixel norm(像素規(guī)范),它是local response normalization的變種。Pixel norm沿著channel維度做歸一化,這樣歸一化的一個(gè)好處在于,feature map的每個(gè)位置都具有單位長(zhǎng)度。這個(gè)歸一化策略與作者設(shè)計(jì)的Generator輸出有較大關(guān)系,Generator的輸出層并沒(méi)有Tanh或者Sigmoid激活函數(shù)。
三、構(gòu)造漸增型網(wǎng)絡(luò)(PROGRESSIVE NETWORK)
在遞增的訓(xùn)練階段,生成器和判別器的型號(hào)也是在逐步拓展的,比如訓(xùn)練128x128圖像,我們從4x4開(kāi)始訓(xùn)練,訓(xùn)練階段有:
stage 1 4x4 穩(wěn)定 level2-net
stage 2 8x8 過(guò)渡 level3-net
stage 3 8x8 穩(wěn)定 level3-net
stage 4 16x16 過(guò)渡 level4-net
stage 5 16x16 穩(wěn)定 level4-net
stage 6 32x32 過(guò)渡 level5-net
stage 7 32x32 穩(wěn)定 level5-net
stage 8 64x64 過(guò)渡 level6-net
stage 9 64x64 穩(wěn)定 level6-net
stage 10 128x128 過(guò)渡 level7-net
stage 11 128x128 穩(wěn)定 level7-net
生成器和鑒別器的網(wǎng)絡(luò)架構(gòu)主要由復(fù)制的3層塊組成,我們?cè)谟?xùn)練過(guò)程中逐一引入。生成器的最后一個(gè)Conv 1 x 1層對(duì)應(yīng)于圖2中的toRGB,鑒別器的第一個(gè)Conv 1 x 1層對(duì)應(yīng)于fromRGB。我們從4×4分辨率開(kāi)始訓(xùn)練網(wǎng)絡(luò),直到鑒別器已經(jīng)處理了規(guī)定數(shù)目的真實(shí)圖像。然后在兩個(gè)階段交替進(jìn)行: 在同數(shù)量圖像組中在第一個(gè)3層塊中進(jìn)行圖像淡入處理,為這些圖像中定網(wǎng)絡(luò),在接下來(lái)的3層塊中再進(jìn)行淡入處理,以此類(lèi)推。
我們的隱向量對(duì)應(yīng)于512維超球面上的隨機(jī)點(diǎn),并且我們?cè)?span id="ozvdkddzhkzd" class="katex--inline">[?1,1][-1,1][?1,1]中表示訓(xùn)練和生成的圖像。除了最后一層使用線性激活之外,我們?cè)趦蓚€(gè)網(wǎng)絡(luò)的所有層中都使用 leakiness為0.2的leaky ReLU。在GANs的兩種網(wǎng)絡(luò)中不使用批處理歸一化、層歸一化或權(quán)值歸一化,但我們?cè)谏善髦忻總€(gè)Conv 3 x 3層之后對(duì)特征向量進(jìn)行像素歸一化,如2.2節(jié)所述。我們根據(jù)帶有單位方差的正態(tài)分布將所有的權(quán)值初始化,并將偏差參數(shù)初始化為0。在運(yùn)行時(shí),使用特定于層的常數(shù)來(lái)縮放權(quán)重,如2.1節(jié)所述。我們將跨小批(cross-minibatch)標(biāo)準(zhǔn)偏差作為4 x 4分辨率的附加特征圖加入鑒別器的末端,如第1節(jié)所述。
1. 上采樣(UPSAMPLE)和下采樣(DOWNSAMPLE)
論文中上采樣由近鄰插值方法,下采樣由平均池化方法實(shí)現(xiàn)。
同時(shí)在卷積過(guò)程中,考慮到deconv會(huì)讓生成模型遭受checkerboard效應(yīng),PGGAN移除了deconv 方式,改用了conv + upsample。
以下論文給出的生成器和判別器中的卷積塊:
生成器卷積塊:
判別器卷積塊:
2. 設(shè)計(jì)不同level的生成器和判別器 (level = log2_22?(res), res:當(dāng)前分辨率)
GAN網(wǎng)絡(luò)從最低分辨率4x4慢慢向最高分辨率1024x1024學(xué)習(xí),其中G&D網(wǎng)絡(luò)也是逐階段遞增的。 以生成器為例,描述生成器的不同階段的搭建方式:
(1)建立level=2的初始卷積層
如圖構(gòu)造了一個(gè)CONV4x4+CONV3x3的二級(jí)初始結(jié)構(gòu)。
(2)建立拓?fù)渚矸e層
網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)如上圖,通過(guò)卷積塊拼接成更高級(jí)網(wǎng)絡(luò),其中每個(gè)卷積塊的特征圖數(shù)量是指定的,PGGAN在論文里指定為:
feats_map_num = [512,512,512,512,256,128,64,32,16]
(3)生成器輸出(整合特征圖:toRGB)
經(jīng)過(guò)多層卷積之后,我們獲得了特征圖,輸出端則需要將這些特征圖整合為3通道的RGB圖像,具體而言就是要構(gòu)造一個(gè)toRGB函數(shù),并考慮特征圖整合過(guò)程中的過(guò)渡階段。
四、訓(xùn)練配置(TRAINING CONFIGURATION)
1. Adam算法
在訓(xùn)練網(wǎng)絡(luò)時(shí)采用Adam優(yōu)化算法 (Kingma & Ba, 2015) :
從while循環(huán)往下看:
第一行是更新step,訓(xùn)練集采樣,
第二行是計(jì)算梯度,
第三行計(jì)算一階矩的估計(jì),即mean均值
第四行計(jì)算二階距的估計(jì),即variance,是二階距的一種。
第五、六行則是對(duì)mean和var進(jìn)行校正,因?yàn)閙ean和var的初始值為0,所以它們會(huì)向0偏置,這樣處理后會(huì)減少這種偏置影響。
第七行梯度下降。?\epsilon?后的梯度是用一階距和二階距估計(jì)的。
由上圖算法顯示,Adam算法可描述為兩種隨機(jī)梯度下降擴(kuò)展式的集合,即:
適應(yīng)性梯度算法(AdaGrad)為每一個(gè)參數(shù)保留一個(gè)學(xué)習(xí)率以提升在稀疏梯度(即自然語(yǔ)言和計(jì)算機(jī)視覺(jué)問(wèn)題)上的性能。
均方根傳播(RMSProp)基于權(quán)重梯度最近量級(jí)的均值為每一個(gè)參數(shù)適應(yīng)性地保留學(xué)習(xí)率。這意味著算法在非穩(wěn)態(tài)和在線問(wèn)題上有很有優(yōu)秀的性能。
按照吳恩達(dá)博士的理論分析,使用Adam算法,可以方便設(shè)置?\epsilon?的同時(shí),能夠起到天然退火(annealing)的效果。
論文中設(shè)置步長(zhǎng)0.001,一階矩估計(jì)的指數(shù)衰減率0.9,二階矩估計(jì)的指數(shù)衰減率0.99,分辨率10E-8。
2. mini_batch設(shè)置
為了節(jié)省內(nèi)存預(yù)算,在分辨率較大(>=1282>=128^2>=1282)的情況下逐次降低minibatch size,比如:
42=1282∽size=164^2=128^2\backsim size=1642=1282∽size=16
2562∽size=14256^2\backsim size=142562∽size=14
5122∽size=6512^2\backsim size=65122∽size=6
10242∽size=31024^2\backsim size=310242∽size=3
3. Cost Function WGAN-GP
論文中使用了WGAN-GP loss(基于WGAN的改進(jìn)函數(shù)模型,加入gradient penalty——一種聯(lián)系了閾值K和原距離函數(shù)的loss function,它實(shí)現(xiàn)了將參數(shù)與限制聯(lián)系起來(lái)達(dá)到真實(shí)的Lipschitz限制條件。),在此基礎(chǔ)上進(jìn)行了進(jìn)一步的改進(jìn),首先設(shè)置了ncritic=1n_{critic}=1ncritic?=1,在每批樣本進(jìn)行了生成器與鑒別器的交替訓(xùn)練。此外,為了解決鑒別器的零漂問(wèn)題,將loss修正入如下:
L′=L+?driftEx∈Pr[D(x)2],?drift=1L'=L+\epsilon_{drift}E_{x\in P_r}[D(x)^2], \ \ \epsilon_{drift}=1L′=L+?drift?Ex∈Pr??[D(x)2],???drift?=1
五、生成結(jié)果的質(zhì)量評(píng)價(jià) – 多尺度統(tǒng)計(jì)相似度( MULTI-SCALE STATISTICAL SIMILARITY)
總體思想:生成器可以基于所有尺度,產(chǎn)生局部圖像結(jié)構(gòu)和訓(xùn)練集是相似的樣例。通過(guò)收集和評(píng)估一些指示性指標(biāo),可以對(duì)結(jié)果圖像進(jìn)行一些比較可信的評(píng)價(jià)。
具體策略:從16216^2162像素開(kāi)始學(xué)習(xí)生成圖像和目標(biāo)圖像的Laplacian金字塔(Burt&Adelson,1987),并通過(guò)它表示局部圖片匹配分布的多尺度統(tǒng)計(jì)相似性,其中單個(gè)拉普拉斯金字塔等級(jí)對(duì)應(yīng)于一個(gè)特定的空間頻帶。隨機(jī)采樣特定數(shù)目的結(jié)果圖像,并從拉普拉斯Laplacian金字塔的每一級(jí)中提取描述符。在論文中每個(gè)描述符都是具有3個(gè)顏色通道的7×77\times77×7的相鄰像素點(diǎn),記為x∈R147x\in R^{147}x∈R147。根據(jù)訓(xùn)練集和生成集中的lll級(jí)的patch匹配分別求得每個(gè)顏色通道的均值和標(biāo)準(zhǔn)差,然后通過(guò)計(jì)算它們的SWD(sliced Wasserstein distance)值來(lái)評(píng)估統(tǒng)計(jì)相似性。
總結(jié)
PGGAN在生成高分辨率圖像上具有著相當(dāng)杰出的能力,而它在人臉圖像生成上所展示的優(yōu)良表現(xiàn),是否說(shuō)明它在數(shù)據(jù)擴(kuò)展和場(chǎng)景生成領(lǐng)域同樣能夠提高其效能?這里可以多做一些嘗試和研究。
參考:
https://blog.csdn.net/liujunru2013/article/details/78545882
https://blog.csdn.net/weixin_41024483/article/details/83116856
https://blog.csdn.net/u013412904/article/details/79045473
https://blog.csdn.net/u013139259/article/details/78885815
總結(jié)
以上是生活随笔為你收集整理的论文学习记录:PROGRESSIVE GROWING OF GANS的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 浅谈数字音视频传输网络——AVB
- 下一篇: GANs简介