日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

2018最佳GAN论文回顾(下)

發(fā)布時間:2024/8/23 编程问答 44 豆豆
生活随笔 收集整理的這篇文章主要介紹了 2018最佳GAN论文回顾(下) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

繼上一篇《2018最佳GAN論文回顧(上)》,我又繼續(xù)介紹了一個對于GAN的基于樣式的生成器體系結(jié)構(gòu)的新論文,提出了一個新的模型來應對這種挑戰(zhàn)。

一種用于生成式對抗網(wǎng)絡(luò)的基于生成器體系結(jié)構(gòu)的方式A Style-Based Generator Architecture for Generative Adversarial Networks

?

這是NVIDIA的一篇新論文,一個對于GAN(StyleGAN)的基于樣式的生成器體系結(jié)構(gòu),提出了一個新的模型來應對這個挑戰(zhàn)。StyleGAN是一步一步地生成人工圖像的,從非常低的分辨率開始,一直到高分辨率(1024×1024)。通過分別地修改網(wǎng)絡(luò)中每個級別的輸入,它可以控制在該級別中所表示的視覺特征,從粗糙的特征(姿勢、面部形狀)到精細的細節(jié)(頭發(fā)顏色),而不會影響其它的級別。

這種技術(shù)不僅可以更好地理解所生成的輸出,而且還可以產(chǎn)生最高水平的結(jié)果?—?比以前生成的圖像看起來更加真實的高分辨率圖像。

?

2018年NVIDIA首次使用ProGAN應對這一挑戰(zhàn)時,研究人員都無法生成高質(zhì)量的大圖像(如:1024×1024)。ProGAN的關(guān)鍵創(chuàng)新點是漸進式訓練?—?它首先使用非常低分辨率的圖像(如:4×4)開始訓練生成器和識別器,并且每次都增加一個更高分辨率的網(wǎng)絡(luò)層。

這項技術(shù)首先通過學習即使在低分辨率圖像中也可以顯示的基本特征,來創(chuàng)建圖像的基本部分,并且隨著分辨率的提高和時間的推移,學習越來越多的細節(jié)。低分辨率圖像的訓練不僅簡單、快速,而且有助于更高級別的訓練,因此,整體的訓練也就更快。

ProGAN生成高質(zhì)量的圖像,但與大多數(shù)模型一樣,它控制所生成圖像的特定特征的能力非常有限。換句話說,這些特性是互相關(guān)聯(lián)的,因此嘗試調(diào)整一下輸入,即使是一點兒,通常也會同時影響多個特性。一個很好的類比就是基因組,在其中改變一個基因可能影響多個特性。

?

StyleGAN如何工作

StyleGAN論文提供了一個升級版本的ProGAN圖像生成器,重點關(guān)注生成器網(wǎng)絡(luò)。作者們觀察到ProGAN漸進層的一個潛在的好處是,如果使用得當,它們能夠控制圖像的不同視覺特征。層和分辨率越低,它所影響的特征就越粗糙。本文將這些特征分為三種類型:

1、粗糙的—分辨率最高82,影響姿勢、一般發(fā)型、面部形狀等;

2、中等的—分辨率為162至322,影響更精細的面部特征、發(fā)型、眼睛的睜開或是閉合等;

3、高質(zhì)的—分辨率為642到10242,影響顏色方案(眼睛、頭發(fā)和皮膚)和微觀特征;

除ProGAN生成器之外的一些:

映射網(wǎng)絡(luò)

映射網(wǎng)絡(luò)的目標是將輸入向量編碼為中間向量,中間向量的不同元素控制不同的視覺特征。這是一個非常重要的過程,因為使用輸入向量來控制視覺特征的能力是非常有限的,因為它必須遵循訓練數(shù)據(jù)的概率密度。例如,如果黑頭發(fā)的人的圖像在數(shù)據(jù)集中更常見,那么更多的輸入值將會被映射到該特征上。因此,該模型無法將部分輸入(向量中的元素)映射到特征上,這一現(xiàn)象被稱為特征糾纏。然而,通過使用另一個神經(jīng)網(wǎng)絡(luò),該模型可以生成一個不必遵循訓練數(shù)據(jù)分布的向量,并且可以減少特征之間的相關(guān)性。

映射網(wǎng)絡(luò)由8個全連接的層組成,它的輸出?與輸入層(512×1)的大小相同。

?

樣式模塊(AdaIN)

AdaIN(自適應實例標準化)模塊將映射網(wǎng)絡(luò)創(chuàng)建的編碼信息?傳輸?shù)缴傻膱D像中。該模塊被添加到合成網(wǎng)絡(luò)的每個分辨率級別中,并定義該級別中特征的可視化表達式:

1、卷積層輸出的每個通道首先進行標準化,以確保步驟3的縮放和切換具有預期的效果;

2、中間向量?使用另一個全連接的網(wǎng)絡(luò)層(標記為A)轉(zhuǎn)換為每個通道的比例和偏差;

3、比例和偏差的向量切換卷積輸出的每個通道,從而定義卷積中每個過濾器的重要性。這個調(diào)優(yōu)操作將信息從?轉(zhuǎn)換為可視的表達方式;

?

刪除傳統(tǒng)輸入

大多數(shù)的模型以及其中的ProGAN使用隨機輸入來創(chuàng)建生成器的初始圖像(即4×4級別的輸入)。StyleGAN團隊發(fā)現(xiàn)圖像特征是由?和AdaIN控制的,因此可以忽略初始輸入,并用常量值替代。雖然本文沒有解釋它為什么能提高性能,但一個保險的假設(shè)是它減少了特征糾纏,對于網(wǎng)絡(luò)在只使用?而不依賴于糾纏輸入向量的情況下更容易學習。

?

隨機變化

人們的臉上有許多小的特征,可以看作是隨機的,例如:雀斑、發(fā)髻線的準確位置、皺紋、使圖像更逼真的特征以及各種增加輸出的變化。將這些小特征插入GAN圖像的常用方法是在輸入向量中添加隨機噪聲。然而,在許多情況下,由于上述特征的糾纏現(xiàn)象,控制噪聲的影響是很復雜的,從而會導致圖像的其它特征受到影響。

StyleGAN中的噪聲以類似于AdaIN機制的方式添加,在AdaIN模塊之前向每個通道添加一個縮放過的噪聲,并稍微改變其操作的分辨率級別特征的視覺表達方式。

?

樣式混合

StyleGAN生成器在合成網(wǎng)絡(luò)的每個級別中使用了中間向量,這有可能導致網(wǎng)絡(luò)學習到這些級別是相關(guān)的。為了降低相關(guān)性,模型隨機選擇兩個輸入向量,并為它們生成了中間向量?。然后,它用第一個輸入向量來訓練一些網(wǎng)絡(luò)級別,然后(在一個隨機點中)切換到另一個輸入向量來訓練其余的級別。隨機的切換確保了網(wǎng)絡(luò)不會學習并依賴于一個合成網(wǎng)絡(luò)級別之間的相關(guān)性。

雖然它并不會提高所有數(shù)據(jù)集上的模型性能,但是這個概念有一個非常有趣的副作用?—?它能夠以一種連貫的方式來組合多個圖像(視頻請查看原文)。該模型生成了兩個圖像A和B,然后通過從A中提取低級別的特征并從B中提取其余特征再組合這兩個圖像。

在W中的截取技巧

在生成模型中的一個挑戰(zhàn),是處理在訓練數(shù)據(jù)中表現(xiàn)不佳的地方。這導致了生成器無法學習和創(chuàng)建與它們類似的圖像(相反,它會創(chuàng)建效果不好的圖像)。為了避免生成較差的圖像,StyleGAN截斷了中間向量?,迫使它保持接近“平均”的中間向量。

對模型進行訓練之后,通過選擇多個隨機的輸入,用映射網(wǎng)絡(luò)生成它們的中間向量,并計算這些向量的平均值,從而生成“平均”的平均值?。當生成新的圖像時,不用直接使用映射網(wǎng)絡(luò)的輸出,而是將值?轉(zhuǎn)換為?_new=?_avg+�(??-?_avg),其中�的值定義了圖像與“平均”圖像的差異量(以及輸出的多樣性)。有趣的是,在仿射轉(zhuǎn)換塊之前,通過對每個級別使用不同的�,模型可以控制每個特征集與平均值的差異量。

微調(diào)

在ProGAN上,StyleGAN的另外一個改進措施是更新幾個網(wǎng)絡(luò)超參數(shù),例如訓練持續(xù)時間和損失函數(shù),并將離得最近的放大或縮小尺度替換為雙線性采樣。

?

結(jié)果

本文介紹了兩個數(shù)據(jù)集的最新結(jié)果,一個是由名人圖片組成的—??CelebA-HQ,另一個是由“普通”人圖片組成的、更加多樣化的新數(shù)據(jù)集— Flickr-Faces-HQ (FFHQ)。下圖顯示了模型的不同配置的Frèchet inception distance (FID)得分

與ProGAN相比,模型在不同配置下的性能(FID得分),分數(shù)越低模型越好

除了這些結(jié)果之外,本文還說明了該模型并不僅僅是通過在臥室圖像和汽車圖像兩個數(shù)據(jù)集上展示其結(jié)果而定制的。

特征分離

為了使關(guān)于特征分離的討論更加的量化,本文提出了兩種新的特征分離的測量方法:

1、感知路徑長度?—?當在兩個隨機輸入之間插入時,測量兩個連續(xù)圖像(它們的VGG16嵌入)之間的差異。劇烈的變化意味著多個特性已經(jīng)同時改變了,它們有可能會被糾纏;

2、線性可分離性??—??是將輸入按照二進制類進行分類的能力,如男性和女性。分類越好,特征就越容易區(qū)分。

通過對輸入的向量z和中間向量?的指標進行比較,作者們發(fā)現(xiàn)在?中的特征很明顯地更容易分離。這些指標還表明了在映射網(wǎng)絡(luò)中選擇8個層與選擇1到2個層相比的好處。

實施細節(jié)

StyleGAN在CelebA-HQ和FFHQ數(shù)據(jù)集上接受了為期一周的訓練,使用了8個Tesla V100 GPU。它是在TensorFlow中實現(xiàn)的,并且將開源的。

結(jié)論

StyleGAN是一篇突破性的論文,它不僅可以生成高質(zhì)量的和逼真的圖像,而且還可以對生成的圖像進行較好的控制和理解,甚至使生成可信度較高的假圖像變得比以前更加的容易。在StyleGAN中提出的一些技術(shù),特別是映射網(wǎng)絡(luò)和自適應實例標準化(AdaIN),可能是未來許多在GAN方面創(chuàng)新的基礎(chǔ)。

?


原文鏈接
本文為云棲社區(qū)原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。

總結(jié)

以上是生活随笔為你收集整理的2018最佳GAN论文回顾(下)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。