日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Generative Adversarial Nets[BEGAN]

發(fā)布時(shí)間:2024/1/17 编程问答 44 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Generative Adversarial Nets[BEGAN] 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

本文來自《BEGAN: Boundary Equilibrium Generative Adversarial Networks》,時(shí)間線為2017年3月。是google的工作。
作者提出一個新的均衡執(zhí)行方法,該方法與從Wasserstein距離導(dǎo)出的loss相結(jié)合,用于訓(xùn)練基于自動編碼器的GAN。該方法在訓(xùn)練中會平衡生成器和判別器。另外,它提供一個新的近似收斂測度,快而且穩(wěn)定,且結(jié)果質(zhì)量高。同時(shí)作者提出一種控制圖像多樣性和可視化質(zhì)量之間權(quán)衡的方法。作者專注于圖像生成任務(wù),即使在更高分辨率下也能創(chuàng)造視覺質(zhì)量的新里程碑。

1 引言

GAN現(xiàn)在已經(jīng)成為一類用于學(xué)習(xí)數(shù)據(jù)分布\(p_{model}(x)\)的方法,并提供生成模型可以基于其進(jìn)行采樣。GAN可以生成非常有說服力的圖像,比通過逐像素loss的自動編碼器生成的圖像要有紋理的多。然而GAN仍然面對一些問題:

  • 基本很難訓(xùn)練,即使采用了一些技巧[15,16]。
  • 正確的超參數(shù)選擇是關(guān)鍵。
  • 控制生成的樣本的圖像多樣性也是很困難的。
  • 平衡判別器和生成器之間的收斂也很難:判別器總是在訓(xùn)練開始就容易更收斂.
  • GAN容易遭受mode collapse。

提出的啟發(fā)式正則如批判別(batch discrimination)[16]和排斥正則化器(repelling regularizer)[21]都一定程度緩解這些問題。本文的貢獻(xiàn):

  • 一個簡單魯棒的GAN結(jié)構(gòu),基于標(biāo)準(zhǔn)訓(xùn)練過程更快速和穩(wěn)定的收斂;
  • 一個均衡概念用于平衡生成器和判別器;
  • 一個新的控制方法來平衡圖像多樣性和可視化質(zhì)量;
  • 一個收斂的近似測度。據(jù)作者所知,另一個就是Wasserstein GAN。

2 相關(guān)工作

DCGAN是首次提出卷積結(jié)構(gòu)來提升可視化質(zhì)量的。然后基于能量GAN(EBGAN)是一類用于將判別器建模成能量函數(shù)的GAN。該變種收斂的更穩(wěn)定,而且同時(shí)也很容易訓(xùn)練和對超參數(shù)變化的魯棒性。
而更早的GAN變種都缺少收斂測度。Wasserstein GAN近來引入的loss來扮演收斂測度。在他們的實(shí)現(xiàn)中,代價(jià)就是訓(xùn)練更慢了,但是好處就是穩(wěn)定和更好的模式覆蓋。

3 提出的方法

作者使用EBGAN中的自動編碼器作為判別器。而典型的GAN是直接匹配數(shù)據(jù)分布的,作者的方法意在從Wasserstein距離導(dǎo)出的loss匹配自動編碼器的loss分布。這目標(biāo)可以通過使用一個典型GAN目標(biāo)和額外的均衡項(xiàng)來平衡判別器和生成器達(dá)到。作者的方法更容易訓(xùn)練而且相對經(jīng)典GAN使用的是更簡單的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。

3.1 自動編碼器的Wasserstein距離下界

我們期望研究匹配誤差分布的影響,而不是直接匹配樣本的分布。 作者首先引入自動編碼器的loss,然后計(jì)算介于真實(shí)的和生成的樣本的自動編碼器loss分布之間的Wasserstein距離的下限。

首先引入\(\mathcal{L}:\mathbb{R}^{N_x}\mapsto R^+\)作為訓(xùn)練逐像素自動編碼器的loss:


\(\mu_{1,2}\)作為自動編碼器loss的兩個分布,令\(\Gamma(\mu_1,\mu_2)\)是所有\(\mu_1\)\(\mu_2\)的耦合集合,令\(m_{1,2}\in \mathbb{R}\)是他們各自的均值。Wasserstein距離可以表示成:

使用Jensen不等式,我們可以得到一個\(W_1(\mu_1,\mu_2)\)的下界:

注意的是我們意在最優(yōu)化介于自動編碼器loss分布的Wasserstein距離下界,而不是樣本分布。

3.2 GAN目標(biāo)

作者設(shè)計(jì)的判別器能夠最大化介于自動編碼器loss的等式1。令\(\mu_1\)表示loss \(\mathcal{L}(x)\)的分布,其中\(x\)是真實(shí)樣本。令\(\mu_2\)是loss \(\mathcal{L}(G(z))\)的分布,其中\(G:\mathbb{R}^{N_z}\mapsto \mathbb{R}^{N_x}\)是生成器函數(shù),\(z\in[-1,1]^{N_z}\)是維度為\(N_z\)的均勻隨機(jī)樣本。

因?yàn)?span id="ozvdkddzhkzd" class="math inline">\(m_1,m_2\in\mathbb{R}^+\)只有2個可能的方案去最大化\(|m_1-m_2|\):


作者選擇解決方案(b)作為目標(biāo),因?yàn)樽钚』?span id="ozvdkddzhkzd" class="math inline">\(m_1\)很自然的自動編碼真實(shí)的圖片。給定判別器和生成器參數(shù)\(\theta_D\)\(\theta_G\),通過最小化\(\mathcal{L}_D\)\(\mathcal{L}_G\),作者將該問題表示成GAN目標(biāo),其中\(z_D\)\(z_G\)采樣自\(z\):

下面,會使用縮寫表示法:\(G(\cdot)=G(\cdot,\theta_G)\)\(mathcal{L}(\cdot)=\mathcal{L}(\cdot;\theta_D)\)

該式子雖然類似WGAN中的式子,不過還是有2個重要的差別:

  • 介于loss之間進(jìn)行匹配分布,不是介于樣本之間;
  • 不顯式需要判別器是K-Lipschitz,因?yàn)檫@里不是使用的Kantorovich和Rubinstein對偶原理[18]

對于函數(shù)近似,我們必須考慮每個函數(shù)G和D的表征能力。這是有模型實(shí)現(xiàn)的函數(shù)和參數(shù)量共同決定的。通常的情形是G和D不是很好平衡,判別器D很容易壓倒另一方。為了考慮到這種情況,作者引入了均衡概念。

3.3 均衡(Equilibrium)

實(shí)際上,平衡生成器和判別器的loss是很關(guān)鍵的;當(dāng)平衡時(shí):


如果我們生成的樣本不能讓判別器與真實(shí)樣本進(jìn)行區(qū)分,則他們錯誤的分布應(yīng)該是一樣的,當(dāng)然也包含期望誤差。該概念讓我們平衡分配給生成器和判別器的影響,讓他們誰都贏不了對方。

更進(jìn)一層,我們可以通過一個新的超參數(shù)\(\gamma\in[0,1]\)去自定義均衡的程度,定義如下:


在本文的模型中,判別器有2個競爭的目標(biāo):1)自動編碼真實(shí)圖片;2)判別器判別生成的圖片和真實(shí)圖片。\(\gamma\)項(xiàng)讓我們能夠平衡這2個目標(biāo)。更低的\(\gamma\)值生成更少的圖像多樣性,因?yàn)榕袆e器更關(guān)注自動編碼真實(shí)圖片。作者這里將\(\gamma\)看成是多樣性的比率。也存在圖像清晰且具有細(xì)節(jié)的邊界。

3.4 邊界均衡GAN(Boundary Equilibrium GAN)

BEGAN的目標(biāo)是:


這里使用比例控制論(Proportional Control Theory)來管理均衡\(\mathbb{E}[\mathcal{L}(G(z))]=\gamma\mathbb{E}[\mathcal{L}(x)]\)。這是通過變量\(k_t\in[0,1]\)來控制在梯度下降過程中多少程度重視\(\mathcal{L}(G(z_D))\)。這里初始化\(k_0=0\)。超參數(shù)\(\lambda_k\)\(k\)的比例增益;在機(jī)器學(xué)習(xí)中,它就是\(k\)的學(xué)習(xí)率。作者使用0.001。本質(zhì)上,這可以被認(rèn)為是閉環(huán)反饋控制的一種形式,其中在每一步調(diào)整\(k_t\)以管理式子4。

在早期訓(xùn)練過程中,G傾向生成自動編碼器容易重構(gòu)的數(shù)據(jù),因?yàn)榇藭r(shí)生成的數(shù)據(jù)接近0,而真實(shí)數(shù)據(jù)分布還沒學(xué)習(xí)準(zhǔn)確。這主要是因?yàn)樵缙谑?span id="ozvdkddzhkzd" class="math inline">\(\mathcal{L}(x)>\mathcal{L}(G(z))\),這會通過均衡約束在整個訓(xùn)練過程中進(jìn)行管理。

式子1的近似引入和式子4中\(\gamma\)對Wasserstein距離有很大的影響。后續(xù),評估由各種\(\gamma\)值產(chǎn)生的樣本是主要關(guān)注點(diǎn),如下面結(jié)果部分所示。

相比傳統(tǒng)GAN需要交替訓(xùn)練D和G,或者預(yù)訓(xùn)練D。本文提出的BEGAN都不需要。采用Adam和默認(rèn)的超參數(shù)訓(xùn)練即可。\(\theta_D\)\(\theta_G\)是基于他們各自的loss關(guān)于Adam優(yōu)化器獨(dú)立更新的,本文中batchsize采用\(n=16\)

3.4.1 收斂測度

決定GAN的收斂通常是一個困難的任務(wù),因?yàn)樵际阶邮且粤愫陀螒蚨x的。而且后續(xù)訓(xùn)練中會出現(xiàn)一個loss上升,另一個loss下降的情況。epochs的數(shù)值或者可視化肉眼檢測通常是唯一實(shí)際可以感知當(dāng)前訓(xùn)練程度的方法。

作者提出一個全局收斂測度方式,也是通過使用均衡概念:我們可以構(gòu)建收斂過程,先找到比例控制算法\(|\gamma\mathcal{L}(x)-\mathcal{L}(G(z_G))|\)的瞬時(shí)過程誤差,然后找到該誤差的最低絕對值的最接近重建\(\mathcal{L}(x)\)。該測度可以形式化為兩項(xiàng)的和:


該測度可以用來決定什么時(shí)候該網(wǎng)絡(luò)達(dá)到最終態(tài)還是該模型已經(jīng)坍塌。

3.5 模型結(jié)構(gòu)

判別器\(D:\mathbb{R}^{N_x}\mapsto \mathbb{R}^{N_x}\)是基于卷積神經(jīng)網(wǎng)絡(luò)的自動編碼器。\(N_x=H\times W\times C\)表示\(x\)的維度,其中對應(yīng)的表示為高,寬,通道。作者將深度編碼和解碼器共同構(gòu)建一個自動編碼器。意圖盡可能簡單的避免需要典型GAN的那些技巧。


如圖1所示,作者使用3x3的卷積和指數(shù)線性單元(ELU)作為輸出層激活函數(shù)。每一層以一定量(通常是2)進(jìn)行重復(fù)。作者實(shí)驗(yàn)發(fā)現(xiàn)更多的重復(fù)會有更好的可視化結(jié)果。每次下采樣時(shí),卷積濾波器會線性增長。下采樣是通過stride=2進(jìn)行子采樣實(shí)現(xiàn)的,上采樣是通過最近鄰實(shí)現(xiàn)的。在介于編碼器和生成器的邊界上,處理的數(shù)據(jù)的張量通過全連接層進(jìn)行映射(后面不跟任何非線性函數(shù)),嵌入狀態(tài)為\(h\in\mathbb{R}^{N_h}\),這里\(N_h\)是自動編碼器隱藏層的維度。

生成器\(G:\mathbb{R}^{N_z}\mapsto \mathbb{R}^{N_x}\)使用同樣的結(jié)構(gòu)(權(quán)重不同)作為判別器的解碼器。作者選擇這個結(jié)構(gòu)純粹就是因?yàn)樗唵巍]斎霠顟B(tài)是\(z\in[-1,1]^{N_z}\)是均勻采樣。

3.5.1 可選的改善

這個簡單結(jié)構(gòu)獲得了很好的質(zhì)量結(jié)果,也具有很好的魯棒性。

此外,還有一些方式有助于梯度傳播并生成更清晰的圖片。受到深度殘差網(wǎng)絡(luò)的啟發(fā),作者通過消失的殘差來初始化網(wǎng)絡(luò):如連續(xù)的同樣尺度的層,層的輸入是與他的輸出相結(jié)合的:\(in_{x+1}=carry\times in_x+(1-carry)\times out_x\)。在本文實(shí)驗(yàn)中,以\(carry=1\)開始,然后到16000 steps(一個epoch)時(shí)逐步減少到0。

同時(shí)引入skip連接來幫助梯度傳播。第一個解碼器張量\(h_0\)是通過將\(h\)映射到一個\(8\times 8\times n\)張量上獲取的。在每個上采樣step之后,輸出與\(h_0\)的上采樣以相同維度進(jìn)行合并。skip連接是基于隱藏層和解碼器每個后續(xù)上采樣層之間建立的。

作者并沒有測試經(jīng)典GAN上的一些方法,如BN,dropout,轉(zhuǎn)置卷積或卷積濾波器指數(shù)增長等。

4 實(shí)驗(yàn)

4.1 步驟

作者用Adam訓(xùn)練模型,其學(xué)習(xí)率為0.0001,當(dāng)收斂測度開始停滯時(shí),以衰減因子為2進(jìn)行衰減。當(dāng)以大學(xué)習(xí)率開始訓(xùn)練時(shí),會觀測到模型坍塌或者可視化假圖現(xiàn)象,這可以簡單的通過減少學(xué)習(xí)率來避免。作者訓(xùn)練的模型分辨率從32變化到256,增加或者移除卷積層一次來適應(yīng)圖像尺度,保證最終下采樣后圖片大小為8x8.作者在大部分實(shí)驗(yàn)中\(N_hN_z=64\)

作者為128x128圖像的最大模型的卷積有128個濾波器,總共有\(17.3\times 10^6\)個訓(xùn)練參數(shù)。在P100 GPU上大概需要訓(xùn)練2.5天。更小的模型如尺度為32x32的,在單塊GPU上訓(xùn)練幾個小時(shí)即可。

作者用360K個名人圖像做訓(xùn)練集,以此代替CelebA。該數(shù)據(jù)集有更多人臉姿態(tài)變化,包括相機(jī)軸上的角度等等。

4.2 圖像多樣性和質(zhì)量

4.3 空間連續(xù)性

4.4 收斂測度和圖像質(zhì)量

4.5 不平衡網(wǎng)絡(luò)的均衡(Equilibrium for unbalanced networks)

4.6 數(shù)值實(shí)驗(yàn)

reference:

[1] Martin Arjovsky, Soumith Chintala, and Léon Bottou. Wasserstein gan. arXiv preprint arXiv:1701.07875, 2017.
[2] Sanjeev Arora, Rong Ge, Yingyu Liang, Tengyu Ma, and Yi Zhang. Generalization and equilibrium in generative adversarial nets (gans). arXiv preprint arXiv:1703.00573, 2017.
[3] Yoshua Bengio, Patrice Simard, and Paolo Frasconi. Learning long-term dependencies with gradient descent is difficult. IEEE transactions on neural networks, 5(2):157–166, 1994.
[4] Djork-Arné Clevert, Thomas Unterthiner, and Sepp Hochreiter. Fast and accurate deep network learning by exponential linear units (elus). arXiv preprint arXiv:1511.07289, 2015.
[5] Vincent Dumoulin, Ishmael Belghazi, Ben Poole, Alex Lamb, Martin Arjovsky, Olivier Mastropietro, and Aaron Courville. Adversarially learned inference. arXiv preprint arXiv:1606.00704, 2016.
[6] Ian Goodfellow. Nips 2016 tutorial: Generative adversarial networks. arXiv preprint arXiv:1701.00160, 2016.
[7] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative adversarial nets. In Advances in neural information processing systems, pages 2672–2680, 2014.
[8] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 770–778, 2016.
[9] Gao Huang, Zhuang Liu, Kilian Q Weinberger, and Laurens van der Maaten. Densely connected convolutional networks. arXiv preprint arXiv:1608.06993, 2016.
[10] Diederik Kingma and Jimmy Ba. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980, 2014.
[11] Diederik P Kingma and Max Welling. Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114, 2013.
[12] Ziwei Liu, Ping Luo, Xiaogang Wang, and Xiaoou Tang. Deep learning face attributes in the wild. In Proceedings of International Conference on Computer Vision (ICCV), 2015.
[13] Aaron van den Oord, Nal Kalchbrenner, Oriol Vinyals, Lasse Espeholt, Alex Graves, and Koray Kavukcuoglu. Conditional image generation with pixelcnn decoders. arXiv preprint arXiv:1606.05328, 2016.
[14] Ben Poole, Alexander A Alemi, Jascha Sohl-Dickstein, and Anelia Angelova. Improved generator objectives for gans. arXiv preprint arXiv:1612.02780, 2016.
[15] Alec Radford, Luke Metz, and Soumith Chintala. Unsupervised representation learning with deep convolutional generative adversarial networks. arXiv preprint arXiv:1511.06434, 2015.
[16] Tim Salimans, Ian Goodfellow,Wojciech Zaremba, Vicki Cheung, Alec Radford, and Xi Chen. Improved techniques for training gans. In Advances in Neural Information Processing Systems, pages 2226–2234, 2016.
[17] Rupesh Kumar Srivastava, Klaus Greff, and Jürgen Schmidhuber. Highway networks. arXiv preprint arXiv:1505.00387, 2015.
[18] Cédric Villani. Optimal transport: old and new, volume 338. Springer Science & Business Media, 2008.
[19] D Warde-Farley and Y Bengio. Improving generative adversarial networks with denoising feature matching. ICLR submissions, 8, 2017.
[20] Han Zhang, Tao Xu, Hongsheng Li, Shaoting Zhang, Xiaolei Huang, Xiaogang Wang, and Dimitris Metaxas. Stackgan: Text to photo-realistic image synthesis with stacked generative adversarial networks. arXiv preprint arXiv:1612.03242, 2016.
[21] Junbo Zhao, Michael Mathieu, and Yann LeCun. Energy-based generative adversarial network. arXiv preprint arXiv:1609.03126, 2016.

轉(zhuǎn)載于:https://www.cnblogs.com/shouhuxianjian/p/10405147.html

總結(jié)

以上是生活随笔為你收集整理的Generative Adversarial Nets[BEGAN]的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。