日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

裤子换裙子,就问你GAN的这波操作秀不秀

發(fā)布時(shí)間:2023/12/4 编程问答 63 豆豆
生活随笔 收集整理的這篇文章主要介紹了 裤子换裙子,就问你GAN的这波操作秀不秀 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

全世界只有3.14 %?的人關(guān)注了

數(shù)據(jù)與算法之美


把照片里的綿羊換成長頸鹿、牛仔長褲換成短裙。聽起來有點(diǎn)不可思議,但韓國科學(xué)技術(shù)院和浦項(xiàng)科技大學(xué)的研究人員目前已實(shí)現(xiàn)了這一騷操作。


他們開發(fā)的一種機(jī)器學(xué)習(xí)算法可在多個(gè)圖像數(shù)據(jù)集上實(shí)現(xiàn)這種操作。其論文《InstaGAN: Instance-Aware Image-to-Image Translation》已被 ICLR2019 接收。


長褲變短裙


圖像到圖像的轉(zhuǎn)換系統(tǒng)——即學(xué)會(huì)把輸入圖像映射到輸出圖像的系統(tǒng)——并非什么新鮮事。去年 12 月,Google AI 研究人員開發(fā)了一種模型,該模型通過預(yù)測對(duì)象的大小、遮擋、姿勢(shì)、形狀等,可以逼真地將其插入照片中的合理位置。但正如 InstaGAN 的創(chuàng)建者在論文中所說的一樣,即使當(dāng)前最先進(jìn)的方法仍是不夠完美的。


本文要介紹的這項(xiàng)新研究基于 CycleGAN 實(shí)現(xiàn)了實(shí)例級(jí)別的圖像轉(zhuǎn)換。


圖源:Context-Aware Synthesis and Placement of Object Instances


克服了 pix2pix 在圖像轉(zhuǎn)換中必須一一配對(duì)的限制,給定兩個(gè)無序圖像集 X 和 Y,CycleGAN 可以自動(dòng)對(duì)它們進(jìn)行互相「翻譯」。



但它無法編碼圖像中的實(shí)例信息,因此在涉及目標(biāo)類別特征的圖像轉(zhuǎn)換時(shí),效果不太理想。


「由于其近期基于生成對(duì)抗網(wǎng)絡(luò)取得的進(jìn)步令人印象深刻,無監(jiān)督的圖像到圖像轉(zhuǎn)換已受到大量關(guān)注。然而,以前的方法在面對(duì)具有挑戰(zhàn)性的任務(wù)時(shí)常常失敗,尤其是當(dāng)圖像具有多個(gè)目標(biāo)實(shí)例并且任務(wù)涉及形狀的大幅變化時(shí)。」研究人員表示。


他們的解決方案是 InstaGAN 系統(tǒng),該系統(tǒng)結(jié)合了多個(gè)任務(wù)目標(biāo)的實(shí)例信息。InstaGAN 會(huì)生成圖像的實(shí)例分割掩碼(屬于同一實(shí)例的像素組),它會(huì)結(jié)合目標(biāo)的邊界并同時(shí)忽略顏色等細(xì)節(jié)。


新奇的是,InstaGAN 轉(zhuǎn)換了一幅圖像和一組相應(yīng)的實(shí)例屬性,并同時(shí)力求保留背景語境。當(dāng)與一種創(chuàng)新的技術(shù)(該技術(shù)允許其在傳統(tǒng)硬件上處理大量實(shí)例屬性)結(jié)合時(shí),它可以推廣到具有許多實(shí)例的圖像。如下圖所示,把兩個(gè)人的牛仔褲換成裙子,把四只綿羊換成長頸鹿都不是問題。



「據(jù)我們所知,在我們之前,還沒有人實(shí)現(xiàn)過圖像到圖像轉(zhuǎn)換中的多實(shí)例轉(zhuǎn)換任務(wù)。和以前在簡單設(shè)置中的結(jié)果不同,我們的重點(diǎn)是和諧,讓實(shí)例與背景自然地渲染?!?/span>


研究人員為 InstaGAN 系統(tǒng)提供了來自不同數(shù)據(jù)集(包括 multi-human parsing(MHP)數(shù)據(jù)集、MS COCO 數(shù)據(jù)集和 clothing co-parsing(CCP)數(shù)據(jù)集)的兩類圖像。與圖像到圖像轉(zhuǎn)換的公認(rèn)基線 CycleGAN 相比,InstaGAN 能夠更成功地在保留原始語境的同時(shí)生成目標(biāo)實(shí)例的「合理形狀」。


「在不同數(shù)據(jù)集上的實(shí)驗(yàn)成功實(shí)現(xiàn)了圖像至圖像轉(zhuǎn)換中的挑戰(zhàn)性任務(wù)——多實(shí)例轉(zhuǎn)換,包括把時(shí)尚圖像中的牛仔褲換成短裙等新任務(wù)。探索新任務(wù)和新信息將是未來有趣的研究方向。」研究人員寫道。


這篇論文已被 ICLR2019 接收為 Poster 論文,獲得了 7、8、7 的高分,其中一位評(píng)審在評(píng)審意見中寫道:


本文作者對(duì)多圖像實(shí)例進(jìn)行非成對(duì)的跨域轉(zhuǎn)換,他們提出了一種方法——InstaGAN。該方法基于 CycleGAN,考慮了以每個(gè)實(shí)例分割掩碼形式存在的實(shí)例信息。


本文文筆較好,容易理解。該方法很新穎,解決了一類之前方法無法解決的信息問題。該模型及訓(xùn)練目標(biāo)每個(gè)部分的動(dòng)機(jī)在該問題的語境中都得到了清晰的解釋。結(jié)果看起來相當(dāng)不錯(cuò),明顯優(yōu)于 CycleGAN 和其它基線。


論文:INSTAGAN: INSTANCE-AWARE IMAGE-TO-IMAGE TRANSLATION



  • 論文鏈接:https://arxiv.org/pdf/1812.10889.pdf

  • 項(xiàng)目地址:https://github.com/sangwoomo/instagan

  • ICLR 鏈接:https://openreview.net/forum?id=ryxwJhC9YX


摘要:由于生成對(duì)抗網(wǎng)絡(luò)的快速發(fā)展,無監(jiān)督圖像到圖像的轉(zhuǎn)換吸引了大量研究者的目光。然而,之前的方法通常不適用于較難的任務(wù),尤其是在圖像擁有多個(gè)目標(biāo)實(shí)例或轉(zhuǎn)換任務(wù)涉及極具挑戰(zhàn)性的形狀問題時(shí),如將時(shí)尚圖片中的褲子轉(zhuǎn)換成短裙。


為了解決這一問題,本文提出了一種新的方法——instance-aware GAN(InstaGAN),這種 GAN 結(jié)合了實(shí)例信息(如目標(biāo)分割掩碼),提高了多實(shí)例轉(zhuǎn)換的能力。在保持實(shí)例置換不變性的同時(shí),該 GAN 對(duì)圖像和相應(yīng)的實(shí)例屬性集進(jìn)行轉(zhuǎn)換。為此,研究人員引入了一個(gè)語境保留損失函數(shù),鼓勵(lì)網(wǎng)絡(luò)學(xué)習(xí)目標(biāo)實(shí)例之外的恒等函數(shù)。


此外,他們還提出了一種序列 mini-batch 推理/訓(xùn)練技術(shù),這種技術(shù)借助有限的 GPU 內(nèi)存處理多個(gè)實(shí)例,增強(qiáng)了該網(wǎng)絡(luò)在多實(shí)例任務(wù)中的泛化能力。對(duì)比評(píng)估證明了該方法在不同圖像數(shù)據(jù)集上的有效性,尤其是在上述具有挑戰(zhàn)性的情況下。


圖 1:先前方法(CycleGAN, Zhu et al. (2017))的轉(zhuǎn)換結(jié)果 vs InstaGAN。后者在多實(shí)例轉(zhuǎn)換問題中得到的結(jié)果更好。


在谷歌搜索圖片上的結(jié)果(褲子→短裙)


在 YouTube 視頻上的結(jié)果(褲子→短裙)


研究者還在 GitHub 給出了兩個(gè)預(yù)訓(xùn)練模型,感興趣的讀者可以下載試試。點(diǎn)擊以下鏈接下載預(yù)訓(xùn)練模型(褲子→短裙及/或綿羊→長頸鹿):


地址:https://drive.google.com/drive/folders/10TfnuqZ4tIVAQP23cgHxJQKuVeJusu85


圖 2:(a)InstaGAN 架構(gòu)概覽,其中的生成器 G_XY、G_YX 和判別器 D_X、D_Y 分別遵循(b)和(c)中的架構(gòu)。每個(gè)網(wǎng)絡(luò)都同時(shí)編碼一幅圖像及相應(yīng)的一套實(shí)例掩碼。


InstaGAN 成功地把牛仔褲和短裙互換,把短褲和長褲互換。


圖 4:在 clothing co-parsing(CCP)(Yang et al., 2014)數(shù)據(jù)集上的轉(zhuǎn)換結(jié)果。


綿羊和長頸鹿互換,杯子和瓶子互換都不是問題。


圖 6:在 COCO(Lin et al., 2014)數(shù)據(jù)集上的轉(zhuǎn)換結(jié)果。


我們可以只給第一位小姐姐換短裙,也可以只給第二位小姐姐換,當(dāng)然一起換也 OK。


圖 7:輸入掩碼不同,InstaGAN 得到的結(jié)果也不同。


具體的玩法自然不限于此,作者可沒說需要限制性別。


圖 13:在 MHP 數(shù)據(jù)集上的更多轉(zhuǎn)換結(jié)果(褲子→短裙)。


從展示的案例中也可以發(fā)現(xiàn),CycleGAN 的轉(zhuǎn)換效果總是受到源圖像的形狀偏差影響,所以其轉(zhuǎn)換偏向于目標(biāo)的紋理層面。比如,在下圖中,CycleGAN 就把短脖子的綿羊變成了短頸鹿。


圖 15:在 COCO 數(shù)據(jù)集上的更多轉(zhuǎn)換結(jié)果(綿羊→長頸鹿)。


給予贊賞的同時(shí),同一位評(píng)審也指出了該論文的一些不足,并給出了相應(yīng)的建議:


就測試領(lǐng)域的數(shù)量(三類圖像對(duì)——長頸鹿/綿羊,長褲/短裙,杯子/瓶子)來看,結(jié)果有一定的局限性。從某種意義上來說,這也是可以理解的。誰也不會(huì)沒事用它來轉(zhuǎn)換從未在相同語境出現(xiàn)過或者大小不同的目標(biāo)(如杯子和長頸鹿)。但如果示例對(duì)更多會(huì)更好,也會(huì)使該系統(tǒng)更具說服力。


此外,如果單個(gè)模型可以在多個(gè)類別對(duì)上訓(xùn)練并從它們之間共享的信息中受益,那將很有趣。


評(píng)估主要是定性的。我希望看更多該模型的控制變量實(shí)驗(yàn)。


圖 9:關(guān)于本文所述方法每個(gè)組成部分效果的控制變量研究。這些部分包括:InstaGAN 架構(gòu)、語境保留損失函數(shù)、序列 mini-batch 推理/訓(xùn)練算法,分別表示為 InstaGAN、L_ctx 及 Sequential。


圖 10:關(guān)于序列 mini-batch 推理/訓(xùn)練技術(shù)效果的控制變量研究?!窸ne」和「Seq」分別表示「one-step」推理和序列推理。


參考:李宏毅老師slides?

版權(quán)歸原作者所有,轉(zhuǎn)載僅供學(xué)習(xí)使用,不用于任何商業(yè)用途,如有侵權(quán)請(qǐng)留言聯(lián)系刪除,感謝合作。


精品課程推薦:

選購數(shù)學(xué)科普正版讀物

嚴(yán)選“數(shù)學(xué)思維好物”

送給孩子的益智禮物? ?| ??辦公室神器

算法工程師成長閱讀? ?| ??居家高科技

理工科男女實(shí)用型禮物精選? ?

----點(diǎn)擊頭像關(guān)注----

超級(jí)數(shù)學(xué)建模

數(shù)據(jù)與算法之美

少年數(shù)學(xué)家

數(shù)銳學(xué)堂

驚喜醬(個(gè)人號(hào))

玩酷屋COOL


創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)

總結(jié)

以上是生活随笔為你收集整理的裤子换裙子,就问你GAN的这波操作秀不秀的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。