日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

CVPR2020/UDA/图像翻译-Cross-domain Correspondence Learning for Exemplar-based Image Translation基于范例的跨域对应

發(fā)布時(shí)間:2023/12/8 编程问答 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 CVPR2020/UDA/图像翻译-Cross-domain Correspondence Learning for Exemplar-based Image Translation基于范例的跨域对应 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Cross-domain Correspondence Learning for Exemplar-based Image Translation基于范例的跨域?qū)?yīng)學(xué)習(xí)的圖像翻譯

  • 0.摘要
  • 1.概述
  • 2.相關(guān)工作
    • 2.1.圖像到圖像的翻譯
    • 2.2.基于范例的圖像合成
    • 2.3.語義關(guān)聯(lián)性
  • 3.方法
    • 3.1. 跨域通信網(wǎng)絡(luò)
      • 3.1.1.領(lǐng)域?qū)R
      • 3.1.2.共享域內(nèi)的對應(yīng)
    • 3.2.翻譯網(wǎng)絡(luò)
    • 3.3.基于范例的翻譯的損失
      • 3.3.1.偽范例對的損失
      • 3.3.2.領(lǐng)域?qū)R損失
      • 3.3.3.翻譯范例損失
      • 3.3.4.對應(yīng)正則化
      • 3.3.5.對抗損失
      • 3.3.6.總損失
  • 4.實(shí)驗(yàn)
  • 6.結(jié)論
  • 參考文獻(xiàn)

論文地址
代碼地址

0.摘要

我們提出了一個(gè)基于范例的圖像翻譯的通用框架,該框架從給定范例圖像的不同域(例如,語義分割掩碼、邊緣映射或姿勢關(guān)鍵點(diǎn))中的輸入合成照片真實(shí)感圖像。輸出的樣式(例如顏色、紋理)與示例中語義上對應(yīng)的對象一致。我們建議共同學(xué)習(xí)跨域?qū)?yīng)和圖像翻譯,這兩項(xiàng)任務(wù)相互促進(jìn),因此可以在較弱的監(jiān)督下學(xué)習(xí)。來自不同區(qū)域的圖像首先與中間區(qū)域?qū)R,在中間區(qū)域建立密集的對應(yīng)關(guān)系。然后,網(wǎng)絡(luò)根據(jù)樣本中語義對應(yīng)的補(bǔ)丁的出現(xiàn)來合成圖像。我們在幾個(gè)圖像翻譯任務(wù)中展示了我們的方法的有效性。我們的方法在圖像質(zhì)量方面明顯優(yōu)于最先進(jìn)的方法,圖像風(fēng)格忠實(shí)于樣本,語義一致。此外,我們還展示了我們的方法在幾個(gè)應(yīng)用中的實(shí)用性

1.概述

條件圖像合成的目的是根據(jù)一定的輸入數(shù)據(jù)生成逼真的圖像[18,45,52,6]。我們感興趣的是一種特定形式的條件圖像合成,它將語義分割蒙版、邊緣映射和關(guān)鍵點(diǎn)轉(zhuǎn)換為真實(shí)感圖像,給出一個(gè)示例圖像,如圖1所示。我們將這種形式稱為基于范例的圖像平移。它允許根據(jù)用戶給出的范例對多模態(tài)生成進(jìn)行更靈活的控制。

圖1:基于范例的圖像合成。給定樣本圖像(第一行),我們的網(wǎng)絡(luò)以分割蒙版、邊緣和姿態(tài)的形式將輸入轉(zhuǎn)換為逼真的圖像(第二行)。更多結(jié)果請參考補(bǔ)充材料。

最近的方法使用神經(jīng)網(wǎng)絡(luò)直接學(xué)習(xí)從語義分割蒙版到范例圖像的映射[17,38,34,44]。這些方法中的大多數(shù)都將范例的樣式編碼成一個(gè)潛在的樣式向量,網(wǎng)絡(luò)從中合成具有與范例相似的所需樣式的圖像。然而,樣式代碼只描述了范例的全局樣式,而忽略了空間性相關(guān)的信息。因此,它導(dǎo)致了一些局部風(fēng)格在最終的圖像中被“洗去”。
為了解決這個(gè)問題,必須在圖像轉(zhuǎn)換之前建立輸入和范例之間的跨域?qū)?yīng)關(guān)系。作為圖像類比[14]的擴(kuò)展,深度類比[27]試圖在圖像對之間找到密集的語義對應(yīng)關(guān)系。它利用在真實(shí)圖像分類任務(wù)中預(yù)先訓(xùn)練的VGG的深層特征進(jìn)行匹配。我們認(rèn)為,這種表示可能無法處理從掩模(或邊緣、關(guān)鍵點(diǎn))到照片的更具挑戰(zhàn)性的映射,因?yàn)轭A(yù)先訓(xùn)練的網(wǎng)絡(luò)無法識別這些圖像。為了在訓(xùn)練中考慮蒙版(或邊緣),一些方法[10,46,5]明確地將范例圖像分割為語義區(qū)域,并學(xué)習(xí)分別合成不同的部分。通過這種方式,它成功地產(chǎn)生了高質(zhì)量的結(jié)果。然而,這些方法都是任務(wù)特定的,不適合一般翻譯。
如何為基于范例的圖像平移找到一個(gè)更普遍的解決方案是不平凡的。我們的目標(biāo)是學(xué)習(xí)跨域圖像(如mask-to-image、edge-to-image、key - point -to-image等)的密集語義對應(yīng),然后利用它來指導(dǎo)圖像的翻譯。這是一種弱監(jiān)督學(xué)習(xí),因?yàn)槲覀兗葲]有對應(yīng)的注解,也沒有隨機(jī)范例給出的綜合基礎(chǔ)真理。
在本文中,我們提出了一個(gè)跨域通信網(wǎng)絡(luò)(CoCosNet),它可以同時(shí)學(xué)習(xí)跨域通信和圖像翻譯。該網(wǎng)絡(luò)結(jié)構(gòu)包括兩個(gè)子網(wǎng)絡(luò):1)跨域?qū)?yīng)網(wǎng)絡(luò)將不同域的輸入轉(zhuǎn)換為中間特征域,從而建立可靠的密集對應(yīng);2)翻譯網(wǎng)絡(luò),使用一組空間變異的去規(guī)范化塊[38]逐步合成輸出,使用來自一個(gè)扭曲的范例的樣式細(xì)節(jié),根據(jù)估計(jì)的對應(yīng)關(guān)系語義上對齊到蒙版(或邊緣,關(guān)鍵點(diǎn)地圖)。兩個(gè)子網(wǎng)絡(luò)相互促進(jìn),用新穎的損耗函數(shù)端到端學(xué)習(xí)。我們的方法在圖像質(zhì)量方面比以前的方法有很大的優(yōu)勢,實(shí)例級外觀忠實(shí)于范例。此外,隱式學(xué)習(xí)的跨域通信可以實(shí)現(xiàn)一些有趣的應(yīng)用,如圖像編輯和化妝轉(zhuǎn)移。我們的貢獻(xiàn)可以總結(jié)如下:

  • 我們解決了圖像平移弱監(jiān)督聯(lián)合學(xué)習(xí)的密集跨域?qū)?yīng)問題。
  • 通過跨域?qū)?yīng),我們提出了一個(gè)基于范例的圖像平移的通用解決方案,該方案首次在實(shí)例級輸出與范例的精細(xì)結(jié)構(gòu)相似的圖像。
  • 我們的方法在圖像質(zhì)量方面優(yōu)于最先進(jìn)的方法,在各種應(yīng)用任務(wù)中有很大的優(yōu)勢。

2.相關(guān)工作

2.1.圖像到圖像的翻譯

圖像平移的目標(biāo)是學(xué)習(xí)不同圖像域之間的映射關(guān)系。當(dāng)代最著名的方法是通過條件生成對抗網(wǎng)絡(luò)[36]來解決這個(gè)問題,該網(wǎng)絡(luò)利用成對數(shù)據(jù)[18,45,38]或非成對數(shù)據(jù)[52,47,22,29,42]。由于從一個(gè)圖像域到另一個(gè)圖像域的映射本質(zhì)上是多模態(tài)的,接下來的工作通過從潛在空間進(jìn)行隨機(jī)采樣來提高合成的多樣性[53,17,24]。然而,這些方法都不允許對輸出進(jìn)行精細(xì)的控制,因?yàn)闈撛诘谋硎鞠喈?dāng)復(fù)雜,并且與圖像風(fēng)格沒有明確的對應(yīng)關(guān)系。相比之下,我們的方法支持根據(jù)用戶給出的范例定制結(jié)果,這允許更靈活地控制多模態(tài)生成。

2.2.基于范例的圖像合成

近年來,一些作品[39,44,34,40,2]提出了在范例的指導(dǎo)下,從語義布局合成真實(shí)感圖像。非參數(shù)或半?yún)?shù)方法[39,2]通過合成從大型數(shù)據(jù)庫中檢索到的圖像片段來合成圖像。然而,主流作品將這個(gè)問題表述為圖像到圖像的翻譯。Huang et al. [17] and Ma et al.[34]提出采用自適應(yīng)實(shí)例歸一化(AdaIN)[16]將樣式代碼從范例轉(zhuǎn)移到源圖像中。Park等人的[38]學(xué)習(xí)了一種編碼器,將范例圖像映射為一個(gè)向量,圖像將由此進(jìn)一步合成。在[44]中提出了風(fēng)格一致性鑒別器來檢測圖像對是否表現(xiàn)出相似的風(fēng)格。但該方法需要從視頻片段中構(gòu)建風(fēng)格一致的圖像對,不適合一般的圖像平移。與上面所有只傳遞全局樣式的方法不同,我們的方法從語義上對應(yīng)的范例區(qū)域傳遞精細(xì)樣式。我們的工作受到了最近基于范例的圖像著色的啟發(fā)[48,13],但我們解決了一個(gè)更普遍的問題:在不同的域之間轉(zhuǎn)換圖像。

2.3.語義關(guān)聯(lián)性

早期關(guān)于語義對應(yīng)的研究[33,8,43]主要關(guān)注手工特征的匹配。隨著卷積神經(jīng)網(wǎng)絡(luò)的出現(xiàn),深度特征被證明是表達(dá)高級語義的有力工具。Long et al.[32]首先提出通過匹配從預(yù)先訓(xùn)練的分類模型中提取的深度特征來建立語義對應(yīng)。接下來的研究通過加入額外的標(biāo)注[51,7,11,12,21,25],采用由粗到細(xì)的策略[27]或保留可靠的稀疏匹配[1],進(jìn)一步提高了對應(yīng)質(zhì)量。然而,這些方法都只能處理自然圖像之間的對應(yīng)關(guān)系,而不能處理跨域圖像,如邊緣圖像和真實(shí)感圖像。我們探索這個(gè)新的場景,并在弱監(jiān)督的情況下隱式學(xué)習(xí)任務(wù)。

3.方法

我們的目標(biāo)是學(xué)習(xí)翻譯從源域A到目標(biāo)域B給定一個(gè)輸入圖像xA∈A范例圖像和yB∈B .生成的輸出需要符合xA的語義內(nèi)容,而類似的風(fēng)格內(nèi)容與yB相似。為此,首先建立xA和yB之間的對應(yīng)關(guān)系,它們位于不同的領(lǐng)域,并相應(yīng)地對示例圖像進(jìn)行扭曲,使其語義與xA一致(章節(jié)3.1)。然后,根據(jù)扭曲的范例(第3.2節(jié))合成一幅圖像。整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,以掩碼進(jìn)行圖像合成為例。

圖2:CoCosNet架構(gòu)的圖示。給定輸入xA∈ A和范例yB∈ B、 對應(yīng)子模塊將它們調(diào)整到同一個(gè)域中,在該域中可以建立密集的對應(yīng)關(guān)系。然后,翻譯網(wǎng)絡(luò)根據(jù)扭曲的樣本生成最終輸出→x,產(chǎn)生基于范例的翻譯輸出

3.1. 跨域通信網(wǎng)絡(luò)

通常,語義對應(yīng)是通過將特征域中的補(bǔ)丁[27,25]與預(yù)先訓(xùn)練的分類模型進(jìn)行匹配來發(fā)現(xiàn)的。然而,預(yù)先訓(xùn)練的模型通常針對特定類型的圖像(例如自然圖像)進(jìn)行訓(xùn)練,因此提取的特征不能概括為描述另一個(gè)領(lǐng)域的語義。因此,以前的工作無法建立異質(zhì)圖像之間的對應(yīng)關(guān)系,例如邊緣圖像和照片真實(shí)感圖像。為了解決這個(gè)問題,我們提出了一種新的跨域通信網(wǎng)絡(luò),將輸入域映射到共享域,在共享域中,表示能夠表示兩個(gè)輸入域的語義。因此,可以在域S中找到可靠的語義對應(yīng)。

3.1.1.領(lǐng)域?qū)R

如圖2所示,我們首先將輸入圖像和示例適配到共享域S。具體而言,xA和yB被送入特征金字塔網(wǎng)絡(luò),該網(wǎng)絡(luò)通過利用局部和全局圖像上下文來提取多尺度深度特征[41,28]。提取的特征映射進(jìn)一步轉(zhuǎn)換為S中的表示,用xS表示∈ RHW×C和yS∈ RHW×C(H,W為特征空間尺寸;C為通道方向尺寸)。FA→S和FB→S分別是兩個(gè)輸入域的域變換,因此自適應(yīng)表示可以表示為,:

其中θ表示可學(xué)習(xí)參數(shù)。xS和yS包含區(qū)分性特征,這些特征描述了輸入的語義。在實(shí)踐中,域?qū)R對于對應(yīng)來說至關(guān)重要,因?yàn)橹挥挟?dāng)xS和yS位于同一個(gè)域中時(shí),它們才能進(jìn)一步匹配某種相似性度量

3.1.2.共享域內(nèi)的對應(yīng)

我們建議將xS和yS的特征與[48]中提出的對應(yīng)層相匹配。具體來說,我們計(jì)算一個(gè)相關(guān)矩陣M∈ RHW×HW,其中每個(gè)元素都是成對的特征相關(guān)性

這里是xS(u)和yS(v)∈ RC表示在位置u和v處的xS和yS信道集中特性,即xS(u)=xS(u)? 平均值(xS(u))和yS(v)=yS(v)? 平均值(yS(v))。M(u,v)表示xS(u)和yS(v)之間有更高的語義相似性 .
現(xiàn)在的挑戰(zhàn)是如何在沒有直接監(jiān)督的情況下學(xué)習(xí)對應(yīng)。我們的想法是與圖像翻譯共同訓(xùn)練。翻譯網(wǎng)絡(luò)可能會發(fā)現(xiàn),僅通過引用樣本中正確的對應(yīng)區(qū)域,更容易生成高質(zhì)量的輸出,這隱含地推動(dòng)網(wǎng)絡(luò)學(xué)習(xí)準(zhǔn)確的對應(yīng)。有鑒于此,我們根據(jù)M對yB進(jìn)行了扭曲,得到了扭曲的例子ry→x∈ RHW。具體來說,我們通過選擇yB中最相關(guān)的像素并計(jì)算其加權(quán)平均值獲得了ry→x

這里,α是控制softmax清晰度的系數(shù),我們將其默認(rèn)值設(shè)置為100。在接下來的過程中,圖像將以ry→x為條件進(jìn)行合成,對應(yīng)網(wǎng)絡(luò)在間接監(jiān)督下學(xué)習(xí)其任務(wù)。

3.2.翻譯網(wǎng)絡(luò)

在ry→x的指導(dǎo)下,翻譯網(wǎng)絡(luò)G將常量代碼z轉(zhuǎn)換為所需的輸出xB∈ B。為了保持ry→x變化的結(jié)構(gòu)信息,我們使用空間自適應(yīng)非規(guī)范化(SPADE)塊[38]將空間變化的樣本樣式投射到不同的激活位置。如圖2所示,翻譯網(wǎng)絡(luò)有L層,范例樣式逐步注入。相對于[38]為批量歸一化(BN)計(jì)算分層統(tǒng)計(jì)量,我們經(jīng)驗(yàn)地發(fā)現(xiàn),計(jì)算每個(gè)空間位置統(tǒng)計(jì)信息的標(biāo)準(zhǔn)化,即位置標(biāo)準(zhǔn)化(PN)[26],能更好地保留先前各層中合成的結(jié)構(gòu)信息。因此,我們建議結(jié)合位置規(guī)范化和空間變異非規(guī)范化,從樣本中進(jìn)行高保真紋理傳輸 。
形式上,給定激活Fi∈RCi×Hi×Wi在第i個(gè)規(guī)范化層之前,我們通過下式注入范例風(fēng)格:

其中統(tǒng)計(jì)值μih,w和σih,w只在通道方向上計(jì)算,與BN相比。反正態(tài)化參數(shù)αi和βi表征了由θT參數(shù)化的投影T從ry→x映射到樣本的樣式。

我們使用兩個(gè)普通卷積層來實(shí)現(xiàn)T,因此α和β具有與ry→x相同的空間大小。通過每個(gè)歸一化層的樣式調(diào)制,整體圖像轉(zhuǎn)換可以表示為:

其中θG為可學(xué)參數(shù)。

3.3.基于范例的翻譯的損失

我們用以下的損失函數(shù)聯(lián)合訓(xùn)練跨域?qū)?yīng)和圖像合成,希望這兩個(gè)任務(wù)能互相受益。

3.3.1.偽范例對的損失

我們利用成對的數(shù)據(jù){xA, xB}構(gòu)建范例訓(xùn)練對,這些數(shù)據(jù)在語義上是一致的,但在域上是不同的。具體來說,我們對xB應(yīng)用隨機(jī)幾何畸變,得到畸變圖像xˋB = h(xB),其中h表示圖像扭曲或隨機(jī)翻轉(zhuǎn)等增廣操作。當(dāng)xˋB被視為范例時(shí),xA的翻譯應(yīng)該是對應(yīng)的xB。通過這種方法,我們得到了偽范例對。我們建議通過最小化特征匹配損失來懲罰翻譯輸出和地面真值xB之間的差異[19,18,6]

式中,φl代表預(yù)訓(xùn)練VGG-19模型中l(wèi)層的激活,λl平衡各項(xiàng)。

3.3.2.領(lǐng)域?qū)R損失

我們需要確保轉(zhuǎn)換后的嵌入xS和yS位于同一個(gè)域中。為了實(shí)現(xiàn)這一點(diǎn),我們再次利用圖像對{xA,xB},其特征嵌入應(yīng)在域轉(zhuǎn)換后精確對齊:

請注意,我們將通道規(guī)格化作為FA→S的最后一層和FB→S因此,最小化這個(gè)域差異不會導(dǎo)致一個(gè)微不足道的解決方案(即,小幅度的激活)。

3.3.3.翻譯范例損失

當(dāng)樣本的語義布局與源圖像有顯著差異時(shí),使用成對或偽樣本對進(jìn)行學(xué)習(xí)很難推廣到一般情況下。為了解決這個(gè)問題,我們提出以下?lián)p失。
首先,最終輸出應(yīng)該與輸入xA或?qū)?yīng)的xB的語義一致。因此,我們懲罰知覺損失,以最小化語義差異:.

這里我們選擇φl作為VGG-19網(wǎng)絡(luò)中relu4 2層后的激活,因?yàn)檫@一層主要包含高級語義
另一方面,我們需要一個(gè)損失函數(shù)來鼓勵(lì)xB采用來自yB的語義對應(yīng)補(bǔ)丁的外觀。為此,我們使用[35]中提出的上下文損失來匹配xB和yB之間的統(tǒng)計(jì)數(shù)據(jù),即

其中,i和j索引的是包含nl特征的第φl層的特征圖,ωl控制不同層的相對重要性。盡管如此,我們還是依賴于經(jīng)過預(yù)訓(xùn)練的VGG特性。與主要利用高級特征的Lperc相反,上下文丟失使用relu2.2到relu5.2層,因?yàn)榈图壧卣鞑东@更豐富的樣式信息(例如顏色或紋理),這些信息對于傳遞示例外觀非常有用。

3.3.4.對應(yīng)正則化

此外,學(xué)習(xí)到的對應(yīng)應(yīng)該是循環(huán)一致的,即圖像在前后扭曲后應(yīng)該匹配自身:

其中ry→x→y(v) = ∑u softmaxu(αM(u, v))·ry→x(u)是前后扭曲的圖像。事實(shí)上,這個(gè)目標(biāo)函數(shù)是至關(guān)重要的,因?yàn)槭┘釉诰W(wǎng)絡(luò)末端的剩余損失函數(shù)是弱監(jiān)督,不能保證網(wǎng)絡(luò)學(xué)習(xí)有意義的對應(yīng)。從圖9可以看出,如果沒有Lreg,網(wǎng)絡(luò)雖然可以生成似是而非的翻譯結(jié)果,但卻不能正確學(xué)習(xí)跨域?qū)?yīng)關(guān)系。正則化Lreg通過約束反向扭曲的圖像ry→x,使其保持在域B中,這隱含地鼓勵(lì)對應(yīng)如所期望的那樣有意義。

3.3.5.對抗損失

我們訓(xùn)練一個(gè)鑒別器[9]來鑒別域b的平移輸出和真實(shí)樣本。同時(shí)交替訓(xùn)練鑒別器D和平移網(wǎng)絡(luò)G,直到合成的圖像看起來與真實(shí)圖像不可區(qū)分。D和G的對抗目標(biāo)分別定義為:

其中h(t) = min(0 ,?1 + t)是用于正則化鑒別器的鉸鏈函數(shù)[49,3]

3.3.6.總損失

總之,我們優(yōu)化了以下目標(biāo):

這里用ψ來平衡目標(biāo)。

4.實(shí)驗(yàn)







6.結(jié)論

在本文中,我們提出了CocosNet,它依靠跨域?qū)?yīng)來翻譯圖像。我們的方法在定量和定性上都比領(lǐng)先的方法取得了更好的性能。此外,我們的方法學(xué)習(xí)了跨域圖像的密集對應(yīng),為一些有趣的應(yīng)用鋪平了道路。我們的方法是計(jì)算密集型的,我們把高分辨率的合成留給未來的工作。

參考文獻(xiàn)

[1] K. Aberman, J. Liao, M. Shi, D. Lischinski, B. Chen, and D. Cohen-Or, “Neural best-buddies: Sparse cross-domain correspondence,” ACM Transactions on Graphics (TOG), vol. 37, no. 4, p. 69, 2018. 2
[2] A. Bansal, Y . Sheikh, and D. Ramanan, “Shapes and context: In-the-wild image synthesis & manipulation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 2317–2326. 2
[3] A. Brock, J. Donahue, and K. Simonyan, “Large scale GAN training for high fidelity natural image synthesis,” arXiv preprint arXiv:1809.11096, 2018. 5, 7
[4] Z. Cao, G. Hidalgo, T. Simon, S.-E. Wei, and Y . Sheikh, “Openpose: realtime multi-person 2d pose estimation using part affinity fields,” arXiv preprint arXiv:1812.08008, 2018. 5
[5] H. Chang, J. Lu, F. Y u, and A. Finkelstein, “Pairedcyclegan: Asymmetric style transfer for applying and removing makeup,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 40–48. 2
[6] Q. Chen and V . Koltun, “Photographic image synthesis with cascaded refinement networks,” in Proceedings of the IEEE International Conference on Computer Vision, 2017, pp. 1511–1520. 1, 4
[7] C. B. Choy, J. Gwak, S. Savarese, and M. Chandraker, “Universal correspondence network,” in Advances in Neural Information Processing Systems, 2016, pp. 2414–2422. 2
[8] N. Dalal and B. Triggs, “Histograms of oriented gradients for human detection,” 2005. 2
[9] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y . Bengio, “Generative adversarial nets,” in Advances in neural information processing systems, 2014, pp. 2672–2680. 5
[10] S. Gu, J. Bao, H. Y ang, D. Chen, F. Wen, and L. Y uan, “Mask-guided portrait editing with conditional gans,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 3436–3445. 2
[11] B. Ham, M. Cho, C. Schmid, and J. Ponce, “Proposal flow: Semantic correspondences from object proposals,” IEEE transactions on pattern analysis and machine intelligence, vol. 40, no. 7, pp. 1711–1725, 2017. 2
[12] K. Han, R. S. Rezende, B. Ham, K.-Y . K. Wong, M. Cho, C. Schmid, and J. Ponce, “Scnet: Learning semantic correspondence,” in Proceedings of the IEEE International Conference on Computer Vision, 2017, pp. 1831–1840. 2
[13] M. He, D. Chen, J. Liao, P . V . Sander, and L. Y uan, “Deep exemplar-based colorization,” ACM Transactions on Graphics (TOG), vol. 37, no. 4, p. 47, 2018. 2
[14] A. Hertzmann, C. E. Jacobs, N. Oliver, B. Curless, and D. H. Salesin, “Image analogies,” in Proceedings of the 28th annual conference on Computer graphics and interactive techniques. ACM, 2001, pp. 327–340. 1
[15] M. Heusel, H. Ramsauer, T. Unterthiner, B. Nessler, and S. Hochreiter, “Gans trained by a two time-scale update rule converge to a local nash equilibrium,” in Advances in Neural Information Processing Systems, 2017, pp. 6626–6637. 5, 6
[16] X. Huang and S. Belongie, “Arbitrary style transfer in realtime with adaptive instance normalization,” in Proceedings of the IEEE International Conference on Computer Vision, 2017, pp. 1501–1510. 2
[17] X. Huang, M.-Y . Liu, S. Belongie, and J. Kautz, “Multimodal unsupervised image-to-image translation,” in Proceedings of the European Conference on Computer Vision (ECCV), 2018, pp. 172–189. 1, 2, 6
[18] P . Isola, J.-Y . Zhu, T. Zhou, and A. A. Efros, “Image-toimage translation with conditional adversarial networks,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, pp. 1125–1134. 1, 2, 4
[19] J. Johnson, A. Alahi, and L. Fei-Fei, “Perceptual losses for real-time style transfer and super-resolution,” in European conference on computer vision. Springer, 2016, pp. 694– 711. 4
[20] T. Karras, T. Aila, S. Laine, and J. Lehtinen, “Progressive growing of GANs for improved quality, stability, and variation,” arXiv preprint arXiv:1710.10196, 2017. 6
[21] S. Kim, D. Min, B. Ham, S. Jeon, S. Lin, and K. Sohn, “Fcss: Fully convolutional self-similarity for dense semantic correspondence,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 6560–6569. 2
[22] T. Kim, M. Cha, H. Kim, J. K. Lee, and J. Kim, “Learning to discover cross-domain relations with generative adversarial networks,” in Proceedings of the 34th International Conference on Machine Learning-V olume 70. JMLR. org, 2017, pp. 1857–1865. 2
[23] D. P . Kingma and J. Ba, “Adam: A method for stochastic optimization,” arXiv preprint arXiv:1412.6980, 2014. 5
[24] H.-Y . Lee, H.-Y . Tseng, J.-B. Huang, M. Singh, and M.-H. Y ang, “Diverse image-to-image translation via disentangled representations,” in Proceedings of the European Conference on Computer Vision (ECCV), 2018, pp. 35–51. 2
[25] J. Lee, D. Kim, J. Ponce, and B. Ham, “Sfnet: Learning object-aware semantic correspondence,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 2278–2287. 2, 3
[26] B. Li, F. Wu, K. Q. Weinberger, and S. Belongie, “Positional Normalization,” arXiv e-prints, p. arXiv:1907.04312, Jul. 2019. 4
[27] J. Liao, Y . Y ao, L. Y uan, G. Hua, and S. B. Kang, “Visual attribute transfer through deep image analogy,” arXiv preprint arXiv:1705.01088, 2017. 1, 2, 3
[28] T.-Y . Lin, P . Dollár, R. Girshick, K. He, B. Hariharan, and S. Belongie, “Feature pyramid networks for object detection,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, pp. 2117–2125. 3
[29] M.-Y . Liu, T. Breuel, and J. Kautz, “Unsupervised image-toimage translation networks,” in Advances in neural information processing systems, 2017, pp. 700–708. 2
[30] Z. Liu, P . Luo, X. Wang, and X. Tang, “Deep learning face attributes in the wild,” in Proceedings of International Conference on Computer Vision (ICCV), Dec. 2015. 5
[31] Z. Liu, P . Luo, S. Qiu, X. Wang, and X. Tang, “Deepfashion: Powering robust clothes recognition and retrieval with rich annotations,” in Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Jun. 2016. 5
[32] J. L. Long, N. Zhang, and T. Darrell, “Do convnets learn correspondence?” in Advances in Neural Information Processing Systems, 2014, pp. 1601–1609. 2
[33] D. G. Lowe, “Distinctive image features from scale-invariant keypoints,” International journal of computer vision, vol. 60, no. 2, pp. 91–110, 2004. 2
[34] L. Ma, X. Jia, S. Georgoulis, T. Tuytelaars, and L. V an Gool, “Exemplar guided unsupervised image-to-image translation with semantic consistency,” ICLR, 2019. 1, 2, 6
[35] R. Mechrez, I. Talmi, and L. Zelnik-Manor, “The contextual loss for image transformation with non-aligned data,” in Proceedings of the European Conference on Computer Vision (ECCV), 2018, pp. 768–783. 4
[36] M. Mirza and S. Osindero, “Conditional generative adversarial nets,” arXiv preprint arXiv:1411.1784, 2014. 2
[37] T. Miyato, T. Kataoka, M. Koyama, and Y . Y oshida, “Spectral normalization for generative adversarial networks,” arXiv preprint arXiv:1802.05957, 2018. 5
[38] T. Park, M.-Y . Liu, T.-C. Wang, and J.-Y . Zhu, “Semantic image synthesis with spatially-adaptive normalization,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 2337–2346. 1, 2, 4, 6
[39] X. Qi, Q. Chen, J. Jia, and V . Koltun, “Semi-parametric image synthesis,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 8808– 8816. 2, 5, 6
[40] M. Riviere, O. Teytaud, J. Rapin, Y . LeCun, and C. Couprie, “Inspirational adversarial image generation,” arXiv preprint arXiv:1906.11661, 2019. 2
[41] O. Ronneberger, P . Fischer, and T. Brox, “U-net: Convolutional networks for biomedical image segmentation,” in International Conference on Medical image computing and computer-assisted intervention. Springer, 2015, pp. 234– 241. 3
[42] A. Royer, K. Bousmalis, S. Gouws, F. Bertsch, I. Mosseri, F. Cole, and K. Murphy, “Xgan: Unsupervised imageto-image translation for many-to-many mappings,” arXiv preprint arXiv:1711.05139, 2017. 2
[43] E. Tola, V . Lepetit, and P . Fua, “Daisy: An efficient dense descriptor applied to wide-baseline stereo,” IEEE transactions on pattern analysis and machine intelligence, vol. 32, no. 5, pp. 815–830, 2009. 2
[44] M. Wang, G.-Y . Y ang, R. Li, R.-Z. Liang, S.-H. Zhang, P . Hall, S.-M. Hu et al., “Example-guided style consistent image synthesis from semantic labeling,” arXiv preprint arXiv:1906.01314, 2019. 1, 2
[45] T.-C. Wang, M.-Y . Liu, J.-Y . Zhu, A. Tao, J. Kautz, and B. Catanzaro, “High-resolution image synthesis and semantic manipulation with conditional GANs,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2018, pp. 8798–8807. 1, 2, 6
[46] R. Yi, Y .-J. Liu, Y .-K. Lai, and P . L. Rosin, “Apdrawinggan: Generating artistic portrait drawings from face photos with hierarchical gans,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 10 743–10 752. 2
[47] Z. Yi, H. Zhang, P . Tan, and M. Gong, “Dualgan: Unsupervised dual learning for image-to-image translation,” in Proceedings of the IEEE international conference on computer vision, 2017, pp. 2849–2857. 2
[48] B. Zhang, M. He, J. Liao, P . V . Sander, L. Y uan, A. Bermak, and D. Chen, “Deep exemplar-based video colorization,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 8052–8061. 2, 3
[49] H. Zhang, I. Goodfellow, D. Metaxas, and A. Odena, “Selfattention generative adversarial networks,” arXiv preprint arXiv:1805.08318, 2018. 5
[50] B. Zhou, H. Zhao, X. Puig, S. Fidler, A. Barriuso, and A. Torralba, “Scene parsing through ade20k dataset,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, pp. 633–641. 5
[51] T. Zhou, P . Krahenbuhl, M. Aubry, Q. Huang, and A. A. Efros, “Learning dense correspondence via 3d-guided cycle consistency,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 117– 126. 2
[52] J.-Y . Zhu, T. Park, P . Isola, and A. A. Efros, “Unpaired image-to-image translation using cycle-consistent adversarial networks,” in Proceedings of the IEEE international conference on computer vision, 2017, pp. 2223–2232. 1, 2
[53] J.-Y . Zhu, R. Zhang, D. Pathak, T. Darrell, A. A. Efros, O. Wang, and E. Shechtman, “Toward multimodal image-to image translation,” in Advances in Neural Information Processing Systems, 2017, pp. 465–476. 2

總結(jié)

以上是生活随笔為你收集整理的CVPR2020/UDA/图像翻译-Cross-domain Correspondence Learning for Exemplar-based Image Translation基于范例的跨域对应的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。