日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ICCV 2019 | COCO-GAN:通过条件坐标的部分图像生成

發(fā)布時間:2024/10/8 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 ICCV 2019 | COCO-GAN:通过条件坐标的部分图像生成 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

作者丨文永明

學校丨中山大學碩士生

研究方向丨Object Manipulation、機器人視覺、GAN


引言


這是一篇發(fā)表在 ICCV 2019 的 Oral 論文,是國立清華大學、國立臺灣大學以及谷歌 AI 團隊的工作。他們從人類觀察事物的生理局限性得到啟發(fā),每次觀察圖像都是先分開幾次來看局部,最后基于空間關(guān)系合理地拼湊到一起,得到整體的理解。

他們基于這一行為的習慣,提出了條件坐標生成對抗網(wǎng)絡(luò)(COCO-GAN)[1]。也就是分開多次來生成與坐標相關(guān)的圖像,再拼接起來形成更大的逼真連貫的假圖像。這一方法能夠通過一部分圖像來生成,而且生成完整的全圖完全可以達到 state-of-the-art-quality 的效果。
另外,他們的 COCO-GAN 還可以做很多有趣新穎的應(yīng)用方法,比如超邊界圖像生成、全景圖的生成、小塊引導(dǎo)生成,為未來 GAN 的其他應(yīng)用方向作出了先進性的啟發(fā)。?
這篇 Oral 的源碼將會在在 Github 上放出,不過作者表示還在完善當中,Github 鏈接是:https://github.com/hubert0527/COCO-GAN
還有一些好玩的應(yīng)用視頻在下面這個項目地址中:https://hubert0527.github.io/COCO-GAN/

模型架構(gòu)

作者使用與 ACGAN(Auxiliary Classifier GAN)[2] 相似的架構(gòu),在 ACGAN 中,判別器 D 不僅需要判斷每個樣本的真假,還需要完成一個分類任務(wù)即預(yù)測標簽的任務(wù),標簽是離散的,需要通過增加一個輔助分類器去實現(xiàn),一般是用交叉熵損失函數(shù)實現(xiàn)。
而在 COCO-GAN 中,判別器 D 不僅需要判斷每個樣本的真假,還需要完成一個預(yù)測坐標位置的任務(wù),損失函數(shù)也類似,不過稍有不同的是坐標信息是連續(xù)的,所以輔助的預(yù)測的損失函數(shù)作者使用了 L2 損失,這樣子最終就能使得生成器 G 生成對應(yīng)坐標的小塊圖像。

▲?Fig 1.?COCO-GAN的訓練流程示意圖

COCO-GAN 的基本流程可以分為以下幾步:
1. 將坐標作為條件加入到潛在特征向量中,復(fù)制多個輸入到生成器 G 當中,獨立的分別生成多個小塊的圖像;
2. 將多個小塊圖像互不重疊地拼接起來成為大塊圖像,同時根據(jù)坐標條件裁剪真實的大塊圖像;
3. 用生成拼接的大塊圖像盡量迷惑判別器 D,使得判別器 D 分不出是真實的大塊圖像還是生成拼接出來的;
4. 同時坐標信息訓練判別器 D,使得具有輔助預(yù)測大塊圖像的坐標的作用,使用 L2 損失函數(shù)。

▲?Fig 2.?COCO-GAN的生成全圖的流程示意圖


最后測試階段只需要共享相同的潛在特征向量和不同的坐標作為條件輸入到生成器 G,生成拼接多個小塊,使得拼接以后和真實圖片大小一致,就可以生成看起來平滑而又真實的假全圖了。具體來說作者這樣巧妙的設(shè)計的有三點好處:
1. 生成圖片看起來真實平滑。小塊圖像拼接以后再給判別器 D 訓練能把多個相鄰小塊圖像之間的連續(xù)性和一致性也考慮到對抗損失當中,使得生成器 G 生成拼接出來的大塊圖像看起來不奇怪,很平滑真實,足以迷惑判別器 D;
2. 計算高效,低內(nèi)存占用。因為內(nèi)部的分治算法可以有效降低內(nèi)存占用,而多個小塊圖像是相互獨立地生成的,不依賴于其他塊信息,而共享同樣的潛在向量,所以具有高并行性,而且計算只用到了局部的視圖;
3. 創(chuàng)新性的應(yīng)用。可以生成比訓練樣本更大的圖像即超邊界生成,只需要把學習到的坐標流形往外推算,而這是其他 GAN 都做不到的,是 COCO-GAN 獨有的,還有類似的小塊引導(dǎo)生成,全景圖生成等新穎特別的應(yīng)用。

損失函數(shù)


COCO-GAN 使用了三項損失來進行訓練 :?
1. Wasserstein 對抗損失 [4]?,使用 Wasserstein 距離,其中 ψ?表示裁剪函數(shù),φ 表示拼接函數(shù),將真實圖像 x 根據(jù)坐標條件裁剪出大塊圖像,將潛在的特征向量 z 根據(jù)坐標條件 C" 輸入到生成器 G,生成多個小塊圖像 S",在經(jīng)過 φ 函數(shù)拼接出大塊的假圖像 s',一方面迫使判別器 D 學會區(qū)分真實的大塊圖像 x' 和大塊的假圖像 s',另一方面鼓勵生成器 G 生成拼接以后看起來真實的假圖像來盡可能迷惑判別器 D:


2. 梯度懲罰:

3.?空間一致性損失,和 ACGAN 的損失相似,這里稍有不同的是 ACGAN 處理多個不同離散的標簽的分類問題,一般使用交叉熵。而 COCO-GAN 處理的坐標位置信息是連續(xù)的,因此作者使用了 L2 損失,從而可以更好的拉近真實的大塊圖像的位置分布和判別器估計的位置分布:

前兩項損失是 WGAN-GP 的損失很常見,最后一項空間一致性損失目標是減少真實的大塊圖像坐標位置 c' 和判別器 D 輔助估計預(yù)測的坐標位置的。COCO-GAN 中判別器 D 和生成器 G 的損失函數(shù)如下:


實驗效果


人臉和臥室圖像的生成?
作者使用 COCO-GAN 對 CelebA 和 LSUN bedroom 的數(shù)據(jù)集的生成效果,還是看起來挺真實的,并且作者也具體分析了 FID 這一評估指數(shù)。

▲Fig 3.?COCO-GAN生成圖片的效果
作者使用 FID 作為評估指標,FID 對模型坍塌很敏感,較低的 FID 意味著較高圖片的質(zhì)量和多樣性。所以 FID 值越小,那么代表這個 GAN 模型的生成多樣性越強,生成質(zhì)量越高。

▲?Table 1. 不同數(shù)據(jù)集中不同方法和COCO-GAN的FID分數(shù)對比


在 CeleA-HQ1024x1024 數(shù)據(jù)集中 FID 分數(shù)稍微差一點,而在其他四個不同的數(shù)據(jù)集中 COCO-GAN 的 FID 分數(shù)最低,效果最好,作者因此得出 COCO-GAN 有著和其他 state-of-the-art 的生成模型相媲美的效果。

▲?Fig 4.?COCO-GAN選取不同大小的micro patches生成的圖像?

使用 COCO-GAN 選取不同大小的小塊生成的圖像,Fig 4 中每個子圖對應(yīng)三行圖像從上至下分別是全圖、大塊圖像、小塊圖像,(a)(b)(c) 三個子圖對應(yīng)選取由大到小的小塊生成的圖像,可以看出選取不同大小的小塊圖像生成質(zhì)量都挺高的,看起來較為平滑真實,除了有些眼睛有點不平行。
超邊界圖像生成

▲?Fig 5.?COCO-GAN獨有的超邊界生成臥室圖像 [3]?
COCO-GAN 獨有的超邊界生成,因為 COCO-GAN 不依賴于生成部分周圍的信息,只需要坐標位置作為條件就能預(yù)測了。通過固定的潛在特征向量,外推超過訓練圖片樣本坐標信息分布,比如這里原來的訓練樣本圖像是 256 × 256,生成的時候外推一個小塊圖像(64?× 64 pixels),就可以得到學習推測出外面一圈的圖像,得到?384?× 384 的超邊界圖像,這是該篇 Oral 論文的一大亮點特色。?

全景圖生成


▲?Fig 6.?COCO-GAN全景圖生成[3]


COCO-GAN 還可以做全景圖的生成,因為全景圖是水平方向循環(huán)的,COCO-GAN 只需要使用圓柱形的坐標系統(tǒng)訓練即可得到全景圖的生成。
小塊引導(dǎo)生成

▲?Fig 7.?COCO-GAN小塊引導(dǎo)生成

COCO-GAN 另外一個有趣的特色應(yīng)用是小塊引導(dǎo)生成,用另外一個新的網(wǎng)絡(luò) Q 內(nèi)嵌在判別器 D 當中,來預(yù)測小塊圖像 s' 對應(yīng)的潛在的特征向量 z,這樣我們把預(yù)測出來的小塊圖像對應(yīng)的特征向量結(jié)合不同的坐標條件輸入到 COCO-GAN 的生成器中,這樣就可以生成原來完整的全圖來,效果還很好很逼真,這也是該篇 Oral 論文的一大亮點特色。而且相比于其他高分辨率圖像生成的算法來說,COCO-GAN 計算效率高,內(nèi)存占用低,因為他們只用到了局部的視圖。
插值實驗

▲?Fig 8.?選取不同特征向量生成的圖像

▲?Fig 9.?選取不同坐標條件生成的圖像

插值采樣不同的特征向量下生成的圖像都是平滑連續(xù)的,線性插值選取空間坐標生成的圖像也可以看出是基本連續(xù)的,除了印堂部分學習的不太好,作者說是因為離散稀疏采樣的緣故。

總結(jié)思考

非常有趣的一篇 ICCV 的 Oral 論文,文章從人的多次局部視野理解全局信息的行為習慣出發(fā),動機合理可解釋強,提出一種引入條件坐標機制的新穎的 GAN,分小塊來生成再拼接,把小塊之間的連續(xù)性一致性都考慮進對抗損失當中了,而且實驗做的特別充分,應(yīng)用的方法也特別新穎有趣,尤其是超邊界生成是 COCO-GAN 獨有的。類似全景圖生成、小塊引導(dǎo)生成都為未來 GAN 做其他新穎有趣的方向有了新的啟發(fā),可以把 GAN 應(yīng)用在超分辨率重建、圖像修復(fù)、圖像還原等工作中。

參考文獻


[1]. Lin C H, Chang C C, Chen Y S, et al. COCO-GAN: Generation by Parts via Conditional Coordinating [J]. arXiv preprint arXiv:1904.00284, 2019.?

[2]. Odena, Augustus, Christopher Olah, and Jonathon Shlens. "Conditional image synthesis with auxiliary classifier gans." Proceedings of the 34th International Conference on Machine Learning-Volume 70. JMLR. org, 2017.?

[3]. https://hubert0527.github.io/COCO-GAN/

[4].?https://zhuanlan.zhihu.com/p/83355309


點擊以下標題查看更多往期內(nèi)容:?

#投 稿 通 道#

?讓你的論文被更多人看到?


如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學習心得技術(shù)干貨。我們的目的只有一個,讓知識真正流動起來。

??來稿標準:

? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?

? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認每篇文章都是首發(fā),均會添加“原創(chuàng)”標志

? 投稿郵箱:

? 投稿郵箱:hr@paperweekly.site?

? 所有文章配圖,請單獨在附件中發(fā)送?

? 請留下即時聯(lián)系方式(微信或手機),以便我們在編輯發(fā)布時和作者溝通

?

現(xiàn)在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

▽ 點擊 |?閱讀原文?| 下載論文

總結(jié)

以上是生活随笔為你收集整理的ICCV 2019 | COCO-GAN:通过条件坐标的部分图像生成的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。