當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

降维打击：这款GAN可以让真人「二次元化」

發(fā)布時間：2025/6/17 编程问答 30 豆豆

生活随笔收集整理的這篇文章主要介紹了降维打击：这款GAN可以让真人「二次元化」小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

選自arXiv

作者：Kaidi Cao、Jing Liao、Lu Yuan

機(jī)器之心編譯

來自清華、香港城市大學(xué)和微軟的研究者最近提出了 CariGAN，可以在沒有成對圖像的情況下將真人照片自動轉(zhuǎn)換成形式夸張的漫畫。目前這篇論文已經(jīng)被 SIGGRAPH Asia 2018 大會收錄。

漫畫可被定義為通過素描、鉛筆筆畫或其他藝術(shù)形式以簡化或夸大的形式描繪人物的形式（通常是面部）。作為傳達(dá)幽默或諷刺的一種形式，漫畫通常用于娛樂，作為禮品或紀(jì)念品，也可由街邊藝術(shù)家創(chuàng)作。藝人可以從被畫者面部捕捉到獨(dú)特的特征，并進(jìn)行夸大和藝術(shù)化。

眾所周知，我們能看到的絕大多數(shù)照片和漫畫的例子都是不成對的，所以直接進(jìn)行「翻譯」是不可行的，我們無法通過有監(jiān)督學(xué)習(xí)來訓(xùn)練計算機(jī)實(shí)現(xiàn)這種風(fēng)格遷移，如自編碼器、Pix2Pix，或是其他適用于成對圖像的神經(jīng)網(wǎng)絡(luò)。

圖 1. 人臉漫畫化結(jié)果對比。（b）為手繪漫畫，（c）為風(fēng)格遷移自動生成，（d）為 CycleGAN，（e）和（f）為新論文的結(jié)果。其中（d）（e）（f）都是在同一個數(shù)據(jù)集上進(jìn)行訓(xùn)練的。

總而言之，生成漫畫有兩個關(guān)鍵：形狀夸張和外觀風(fēng)格化，如圖 1 (a)(b) 所示。在這篇論文中，研究者提出了一個用于非成對圖像到漫畫轉(zhuǎn)換的 GAN，他們將其稱之為「CariGANs」。該網(wǎng)絡(luò)會使用兩個組件以明確模擬人臉漫畫的幾何夸張形狀和外觀風(fēng)格。

其中 CariGeoGAN 只建模幾何到幾何的形狀轉(zhuǎn)換，即人臉圖像形狀到人臉漫畫形狀的轉(zhuǎn)換。另外一個組件 CariStyGAN 會將漫畫中的外表風(fēng)格轉(zhuǎn)換到人臉圖像中，并且不產(chǎn)生任何幾何形變。兩個 GAN 進(jìn)行獨(dú)立的訓(xùn)練，這可以令學(xué)習(xí)過程更加魯棒。

為了構(gòu)建非成對圖像間的關(guān)系，CariGeoGAN 和 CariStyGAN 都使用 cycle-consistency 的網(wǎng)絡(luò)結(jié)構(gòu)，它廣泛應(yīng)用于交叉領(lǐng)域或無監(jiān)督圖像轉(zhuǎn)換任務(wù)中。最后，夸張的形狀對經(jīng)過風(fēng)格遷移的人臉進(jìn)行變形，從而獲得最終的輸出結(jié)果。

CariGeoGAN 使用人臉特征點(diǎn)的 PCA 表征作為 GAN 的輸入和輸出。該表征隱性地強(qiáng)制執(zhí)行該網(wǎng)絡(luò)中較為重要的人臉形狀約束。此外，研究者還在 CariGeoGAN 中考慮新的特征損失（characteristic loss），以鼓勵獨(dú)特人臉特征的夸張表達(dá)，避免不規(guī)則失真。CariGeoGAN 輸出人臉特征點(diǎn)位置，而不是圖像，這樣在圖像實(shí)現(xiàn)形狀變形之前可以調(diào)整夸張程度。這使得輸出結(jié)果可控，且具備幾何形狀多樣性。

至于風(fēng)格，CariStyGAN 用于像素到像素的遷移，不會產(chǎn)生任何幾何變形。為了排除訓(xùn)練 CariStyGAN 時的幾何推斷，研究者通過 CariGeoGAN 的逆幾何映射將所有原始漫畫變形為人臉圖像的形狀，從而創(chuàng)建中間漫畫數(shù)據(jù)集。

總體而言，本文的貢獻(xiàn)可以總結(jié)為以下幾點(diǎn)：

展示了非成對照片到漫畫轉(zhuǎn)換的首個深度神經(jīng)網(wǎng)絡(luò)。
展示了用于幾何夸張的 CariGeoGAN，是使用 cycle-consisteny 的 GAN 實(shí)現(xiàn)幾何形狀跨域轉(zhuǎn)換的首次嘗試。
展示了用于外觀風(fēng)格化的 CariStyGAN，允許多模態(tài)圖像轉(zhuǎn)換，同時通過添加感知損失保留生成漫畫的一致性。
該 CariGAN 允許用戶僅通過調(diào)參或給出一個示例漫畫來控制幾何形狀與外觀風(fēng)格中的夸張程度。

論文：CariGANs: Unpaired Photo-to-Caricature Translation

論文鏈接：https://arxiv.org/pdf/1811.00222.pdf

摘要：人臉漫畫是一種用夸張手法傳遞幽默感或諷刺性的人臉繪畫藝術(shù)形式。本研究提出首個用于非成對圖像轉(zhuǎn)漫畫的生成對抗網(wǎng)絡(luò)（GAN）——CariGANs。它顯性地使用兩個組件建模幾何夸張線條和外觀風(fēng)格：CariGeoGAN，僅建模從人臉圖像到漫畫的幾何變換；CariStyGAN，將漫畫的外觀風(fēng)格遷移到人臉圖像，且不存在任何幾何變形。通過這種方式，一個困難的跨域轉(zhuǎn)換問題被分解成兩個較為簡單的任務(wù)。從感官角度來看，CariGANs 生成的漫畫與人類手繪的漫畫相差無幾，同時與當(dāng)前最優(yōu)的方法相比，CariGANs 生成的漫畫更好地保存了人臉特征的一致性。此外，CariGANs 允許用戶調(diào)整參數(shù)或者為用戶提供示例漫畫，從而使用戶可以控制幾何線條夸張程度、改變漫畫的顏色／紋理風(fēng)格。

方法

就漫畫生成而言，之前基于示例學(xué)習(xí)的方法對成對圖像-漫畫數(shù)據(jù)非常依賴，需要藝術(shù)家為每張圖像繪制對應(yīng)的漫畫。因此構(gòu)建這樣的成對圖像數(shù)據(jù)集是不可行的，因為成本極高且需要花費(fèi)大量時間。而本文提出的方法如下圖所示利用兩個 GAN 分別學(xué)習(xí)幾何形變與風(fēng)格，從而借助 CycleGAN 的思想處理非成對圖像的轉(zhuǎn)換。

圖 2：本研究提出方法的整體流程圖。輸入圖像來自 CelebA 數(shù)據(jù)集。

圖 3：第一行圖像是來自人像數(shù)據(jù)庫的部分樣本，第二行是漫畫。

圖 4：CariGeoGAN 的架構(gòu)。它基本上遵循 CycleGAN 的網(wǎng)絡(luò)結(jié)構(gòu)，cycle Loss 為 L_cyc，對抗損失為 L_gan。但是我們的輸入和輸出是向量而非圖像，我們添加了 characteristic loss L_cha 以增加人物的獨(dú)特特征。

圖 8：CariStyGan 架構(gòu)。為簡潔起見，此處我們僅展示了 X → Y ′ 變換的網(wǎng)絡(luò)架構(gòu)。Y ′ → X 變換的網(wǎng)絡(luò)架構(gòu)與該架構(gòu)對稱。輸入圖像來自 CelebA 數(shù)據(jù)集。

圖 7：CariStyGAN 與 CycleGAN 和 MUNIT 的對比。所有網(wǎng)絡(luò)使用同樣的數(shù)據(jù)集進(jìn)行訓(xùn)練來學(xué)習(xí)外觀風(fēng)格映射 X ? Y ′。

圖 10：在 CariGeoGAN 中使用 PCA 表征和使用 2D 坐標(biāo)的對比。輸入圖像來自 CelebA 數(shù)據(jù)集。

對比和結(jié)果

圖 12：風(fēng)格嵌入系統(tǒng)的 T-SNE 可視化。其中灰點(diǎn)表示圖像、紅點(diǎn)表示手繪的人臉漫畫、綠點(diǎn)表示生成的結(jié)果。一種不同點(diǎn)所對應(yīng)的示例圖像以對應(yīng)的色彩框標(biāo)注出來。

圖 16：對比基于深度學(xué)習(xí)的人臉漫畫方法，從左到右分別為兩種一般的圖像風(fēng)格遷移方法、兩種基于面部特性的風(fēng)格遷移方法、兩種單模型圖像轉(zhuǎn)換網(wǎng)絡(luò)和多模態(tài)圖像轉(zhuǎn)換網(wǎng)絡(luò)（MUNIT）。輸入圖像都選自 CelebA 數(shù)據(jù)集中，但除去了用于訓(xùn)練的 10K 張圖像。

本文為機(jī)器之心編譯，轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)。

?------------------------------------------------

加入機(jī)器之心（全職記者 / 實(shí)習(xí)生）：hr@jiqizhixin.com

投稿或?qū)で髨蟮?#xff1a;content@jiqizhixin.com

廣告 & 商務(wù)合作：bd@jiqizhixin.com

總結(jié)

以上是生活随笔為你收集整理的降维打击：这款GAN可以让真人「二次元化」的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：清华出品：一文看尽AI芯片两类瓶颈三大趋
下一篇：同步pod时区与node主机保持一致