降维打击:这款GAN可以让真人「二次元化」
選自arXiv
作者:Kaidi Cao、Jing Liao、Lu Yuan
機(jī)器之心編譯
來自清華、香港城市大學(xué)和微軟的研究者最近提出了 CariGAN,可以在沒有成對圖像的情況下將真人照片自動轉(zhuǎn)換成形式夸張的漫畫。目前這篇論文已經(jīng)被 SIGGRAPH Asia 2018 大會收錄。
漫畫可被定義為通過素描、鉛筆筆畫或其他藝術(shù)形式以簡化或夸大的形式描繪人物的形式(通常是面部)。作為傳達(dá)幽默或諷刺的一種形式,漫畫通常用于娛樂,作為禮品或紀(jì)念品,也可由街邊藝術(shù)家創(chuàng)作。藝人可以從被畫者面部捕捉到獨(dú)特的特征,并進(jìn)行夸大和藝術(shù)化。
眾所周知,我們能看到的絕大多數(shù)照片和漫畫的例子都是不成對的,所以直接進(jìn)行「翻譯」是不可行的,我們無法通過有監(jiān)督學(xué)習(xí)來訓(xùn)練計算機(jī)實(shí)現(xiàn)這種風(fēng)格遷移,如自編碼器、Pix2Pix,或是其他適用于成對圖像的神經(jīng)網(wǎng)絡(luò)。
圖 1. 人臉漫畫化結(jié)果對比。(b)為手繪漫畫,(c)為風(fēng)格遷移自動生成,(d)為 CycleGAN,(e)和(f)為新論文的結(jié)果。其中(d)(e)(f)都是在同一個數(shù)據(jù)集上進(jìn)行訓(xùn)練的。
總而言之,生成漫畫有兩個關(guān)鍵:形狀夸張和外觀風(fēng)格化,如圖 1 (a)(b) 所示。在這篇論文中,研究者提出了一個用于非成對圖像到漫畫轉(zhuǎn)換的 GAN,他們將其稱之為「CariGANs」。該網(wǎng)絡(luò)會使用兩個組件以明確模擬人臉漫畫的幾何夸張形狀和外觀風(fēng)格。
其中 CariGeoGAN 只建模幾何到幾何的形狀轉(zhuǎn)換,即人臉圖像形狀到人臉漫畫形狀的轉(zhuǎn)換。另外一個組件 CariStyGAN 會將漫畫中的外表風(fēng)格轉(zhuǎn)換到人臉圖像中,并且不產(chǎn)生任何幾何形變。兩個 GAN 進(jìn)行獨(dú)立的訓(xùn)練,這可以令學(xué)習(xí)過程更加魯棒。
為了構(gòu)建非成對圖像間的關(guān)系,CariGeoGAN 和 CariStyGAN 都使用 cycle-consistency 的網(wǎng)絡(luò)結(jié)構(gòu),它廣泛應(yīng)用于交叉領(lǐng)域或無監(jiān)督圖像轉(zhuǎn)換任務(wù)中。最后,夸張的形狀對經(jīng)過風(fēng)格遷移的人臉進(jìn)行變形,從而獲得最終的輸出結(jié)果。
CariGeoGAN 使用人臉特征點(diǎn)的 PCA 表征作為 GAN 的輸入和輸出。該表征隱性地強(qiáng)制執(zhí)行該網(wǎng)絡(luò)中較為重要的人臉形狀約束。此外,研究者還在 CariGeoGAN 中考慮新的特征損失(characteristic loss),以鼓勵獨(dú)特人臉特征的夸張表達(dá),避免不規(guī)則失真。CariGeoGAN 輸出人臉特征點(diǎn)位置,而不是圖像,這樣在圖像實(shí)現(xiàn)形狀變形之前可以調(diào)整夸張程度。這使得輸出結(jié)果可控,且具備幾何形狀多樣性。
至于風(fēng)格,CariStyGAN 用于像素到像素的遷移,不會產(chǎn)生任何幾何變形。為了排除訓(xùn)練 CariStyGAN 時的幾何推斷,研究者通過 CariGeoGAN 的逆幾何映射將所有原始漫畫變形為人臉圖像的形狀,從而創(chuàng)建中間漫畫數(shù)據(jù)集。
總體而言,本文的貢獻(xiàn)可以總結(jié)為以下幾點(diǎn):
展示了非成對照片到漫畫轉(zhuǎn)換的首個深度神經(jīng)網(wǎng)絡(luò)。
展示了用于幾何夸張的 CariGeoGAN,是使用 cycle-consisteny 的 GAN 實(shí)現(xiàn)幾何形狀跨域轉(zhuǎn)換的首次嘗試。
展示了用于外觀風(fēng)格化的 CariStyGAN,允許多模態(tài)圖像轉(zhuǎn)換,同時通過添加感知損失保留生成漫畫的一致性。
該 CariGAN 允許用戶僅通過調(diào)參或給出一個示例漫畫來控制幾何形狀與外觀風(fēng)格中的夸張程度。
論文:CariGANs: Unpaired Photo-to-Caricature Translation
論文鏈接:https://arxiv.org/pdf/1811.00222.pdf
摘要:人臉漫畫是一種用夸張手法傳遞幽默感或諷刺性的人臉繪畫藝術(shù)形式。本研究提出首個用于非成對圖像轉(zhuǎn)漫畫的生成對抗網(wǎng)絡(luò)(GAN)——CariGANs。它顯性地使用兩個組件建模幾何夸張線條和外觀風(fēng)格:CariGeoGAN,僅建模從人臉圖像到漫畫的幾何變換;CariStyGAN,將漫畫的外觀風(fēng)格遷移到人臉圖像,且不存在任何幾何變形。通過這種方式,一個困難的跨域轉(zhuǎn)換問題被分解成兩個較為簡單的任務(wù)。從感官角度來看,CariGANs 生成的漫畫與人類手繪的漫畫相差無幾,同時與當(dāng)前最優(yōu)的方法相比,CariGANs 生成的漫畫更好地保存了人臉特征的一致性。此外,CariGANs 允許用戶調(diào)整參數(shù)或者為用戶提供示例漫畫,從而使用戶可以控制幾何線條夸張程度、改變漫畫的顏色/紋理風(fēng)格。
方法
就漫畫生成而言,之前基于示例學(xué)習(xí)的方法對成對圖像-漫畫數(shù)據(jù)非常依賴,需要藝術(shù)家為每張圖像繪制對應(yīng)的漫畫。因此構(gòu)建這樣的成對圖像數(shù)據(jù)集是不可行的,因為成本極高且需要花費(fèi)大量時間。而本文提出的方法如下圖所示利用兩個 GAN 分別學(xué)習(xí)幾何形變與風(fēng)格,從而借助 CycleGAN 的思想處理非成對圖像的轉(zhuǎn)換。
圖 2:本研究提出方法的整體流程圖。輸入圖像來自 CelebA 數(shù)據(jù)集。
圖 3:第一行圖像是來自人像數(shù)據(jù)庫的部分樣本,第二行是漫畫。
圖 4:CariGeoGAN 的架構(gòu)。它基本上遵循 CycleGAN 的網(wǎng)絡(luò)結(jié)構(gòu),cycle Loss 為 L_cyc,對抗損失為 L_gan。但是我們的輸入和輸出是向量而非圖像,我們添加了 characteristic loss L_cha 以增加人物的獨(dú)特特征。
圖 8:CariStyGan 架構(gòu)。為簡潔起見,此處我們僅展示了 X → Y ′ 變換的網(wǎng)絡(luò)架構(gòu)。Y ′ → X 變換的網(wǎng)絡(luò)架構(gòu)與該架構(gòu)對稱。輸入圖像來自 CelebA 數(shù)據(jù)集。
圖 7:CariStyGAN 與 CycleGAN 和 MUNIT 的對比。所有網(wǎng)絡(luò)使用同樣的數(shù)據(jù)集進(jìn)行訓(xùn)練來學(xué)習(xí)外觀風(fēng)格映射 X ? Y ′。
圖 10:在 CariGeoGAN 中使用 PCA 表征和使用 2D 坐標(biāo)的對比。輸入圖像來自 CelebA 數(shù)據(jù)集。
對比和結(jié)果
圖 12:風(fēng)格嵌入系統(tǒng)的 T-SNE 可視化。其中灰點(diǎn)表示圖像、紅點(diǎn)表示手繪的人臉漫畫、綠點(diǎn)表示生成的結(jié)果。一種不同點(diǎn)所對應(yīng)的示例圖像以對應(yīng)的色彩框標(biāo)注出來。
圖 16:對比基于深度學(xué)習(xí)的人臉漫畫方法,從左到右分別為兩種一般的圖像風(fēng)格遷移方法、兩種基于面部特性的風(fēng)格遷移方法、兩種單模型圖像轉(zhuǎn)換網(wǎng)絡(luò)和多模態(tài)圖像轉(zhuǎn)換網(wǎng)絡(luò)(MUNIT)。輸入圖像都選自 CelebA 數(shù)據(jù)集中,但除去了用于訓(xùn)練的 10K 張圖像。
本文為機(jī)器之心編譯,轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)。
?------------------------------------------------
加入機(jī)器之心(全職記者 / 實(shí)習(xí)生):hr@jiqizhixin.com
投稿或?qū)で髨蟮?#xff1a;content@jiqizhixin.com
廣告 & 商務(wù)合作:bd@jiqizhixin.com
總結(jié)
以上是生活随笔為你收集整理的降维打击:这款GAN可以让真人「二次元化」的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 清华出品:一文看尽AI芯片两类瓶颈三大趋
- 下一篇: 同步pod时区与node主机保持一致