當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

风格迁移篇-AdaIN --使用自适应实例规范化实时传输任意样式

發布時間：2023/12/10 编程问答 34 豆豆

生活随笔收集整理的這篇文章主要介紹了风格迁移篇-AdaIN --使用自适应实例规范化实时传输任意样式小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

Abstract
1. Introduction
2. Related Work
3. Background
- 3.1. Batch Normalization
- 3.2. Instance Normalization
- 3.3. Conditional Instance Normalization
4. Interpreting Instance Normalization
5. Adaptive Instance Normalization
6. Experimental Setup
- 6.1. Architecture
- 6.2. Training
7. Results
- 7.1. Comparison with other methods
7.2. Additional experiments.
7.3. Runtime controls
8. Discussion and Conclusion
References

代碼： https://github.com/xunhuang1995/AdaIN-style
論文： http://arxiv.org/abs/1703.06868

Abstract

Gatys等人最近介紹了一種神經算法，該算法以另一圖像的樣式呈現內容圖像，實現所謂的樣式轉換。然而，他們的框架需要緩慢的迭代優化過程，這限制了其實際應用。提出了前饋神經網絡的快速近似，以加快神經風格的轉換。不幸的是，速度的提高是有代價的：網絡通常與一組固定的樣式相聯系，無法適應任意的新樣式。在本文中，我們提出了一種簡單而有效的方法，首次實現了實時任意樣式的傳輸。我們方法的核心是一個新的自適應實例歸一化（AdaIN）層，該層將內容特征的均值和方差與樣式特征的均值和方差對齊。我們的方法實現了與現有最快方法相當的速度，不受預定義樣式集的限制。此外，我們的方法允許靈活的用戶控制，如內容風格權衡、風格插值、顏色和空間控制，所有這些都使用單個前饋神經網絡。

1. Introduction

Gatys等人[16]的開創性工作表明，深度神經網絡（DNN）不僅編碼圖像的內容，而且編碼圖像的樣式信息。此外，圖像樣式和內容在某種程度上是可分離的：可以更改圖像的樣式，同時保留其內容。[16]的風格轉換方法足夠靈活，可以將任意圖像的內容和風格結合起來。然而，它依賴的優化過程非常緩慢。

為了加速神經風格的轉換，人們付出了大量的努力。[24，51，31]試圖訓練前饋神經網絡，該網絡通過一次向前傳遞執行風格化。大多數前饋方法的一個主要限制是每個網絡僅限于一種樣式。最近有一些工作解決了這個問題，但它們要么仍然局限于有限的風格集[11、32、55、5]，要么比單一風格轉換方法慢得多[6]。

在這項工作中，我們提出了第一種神經式傳輸算法，解決了這一基本的靈活性和速度難題。我們的方法可以實時傳輸任意新樣式，結合了基于優化的框架[16]的靈活性和類似于最快前饋方法[24，52]的速度。我們的方法受到實例歸一化（IN）[52，11]層的啟發，該層在前饋式傳輸中非常有效。為了解釋實例規范化的成功，我們提出了一種新的解釋，即實例規范化通過規范化特征統計來執行樣式規范化，已發現特征統計攜帶圖像的樣式信息[16，30，33]。基于我們的解釋，我們引入了對IN的一個簡單擴展，即自適應實例規范化（AdaIN）。給定內容輸入和樣式輸入，AdaIN只需調整內容輸入的均值和方差以匹配樣式輸入的均值和方差。通過實驗，我們發現AdaIN通過傳遞特征統計信息，有效地結合了前者的內容和后者的風格。然后，通過將AdaIN輸出反轉回圖像空間，學習解碼器網絡以生成最終樣式化圖像。我們的方法比[16]快近三個數量級，同時不犧牲將輸入轉換為任意新樣式的靈活性。此外，我們的方法在運行時提供了豐富的用戶控制，而不需要對訓練過程進行任何修改。

2. Related Work

風格轉換。風格轉換問題源于非光真實感渲染[28]，與紋理合成和轉換密切相關[13、12、14]。一些早期方法包括線性濾波器響應的直方圖匹配[19]和非參數采樣[12，15]。這些方法通常依賴于低級統計數據，并且往往無法捕獲語義結構。Gatys等人[16]首次通過匹配DNN卷積層中的特征統計數據證明了令人印象深刻的風格轉換結果。最近，對[16]提出了一些改進。李和Wand[30]在深度特征空間中引入了一種基于馬爾可夫隨機場（MRF）的框架來增強局部模式。Gatys等人[17]提出了控制顏色保存、空間位置和風格轉移規模的方法。Ruder等人[45]通過施加時間約束，提高了視頻風格傳輸的質量1 arXiv:1703.06868v2[cs.CV]2017年7月30日。

Gatys等人[16]的框架基于緩慢的優化過程，該過程迭代更新圖像，以最小化由丟失網絡計算的內容丟失和樣式丟失。即使與現代GPU融合，也可能需要幾分鐘的時間。因此，移動應用程序中的設備處理速度太慢，不實用。一種常見的解決方法是用前饋神經網絡代替優化過程，前饋神經網絡經過訓練以最小化相同目標[24、51、31]。這些前饋式傳輸方法比基于優化的方法快約三個數量級，為實時應用打開了大門。王等人[53]使用多分辨率架構增強了前饋風格傳輸的粒度。Ulyanov等人[52]提出了提高生成樣本質量和多樣性的方法。然而，上述前饋方法在每個網絡綁定到固定樣式的意義上是有限的。為了解決這個問題，Dumoulin等人[11]引入了一個能夠編碼32種樣式及其插值的單一網絡。與我們的工作同時，李等人[32]提出了一種前饋架構，可以合成多達300種紋理并傳輸16種風格。然而，上述兩種方法不能適應訓練期間未觀察到的任意風格。

最近，陳和施密特[6]介紹了一種前饋方法，借助于樣式交換層，該方法可以傳輸任意樣式。給定內容和樣式圖像的特征激活，樣式交換層以逐塊方式用最接近的匹配樣式特征替換內容特征。然而，他們的樣式交換層創建了一個新的計算瓶頸：超過95%的計算用于512×512輸入圖像的樣式交換。我們的方法還允許任意風格轉換，同時比[6]快1-2個數量級。
風格轉換中的另一個中心問題是使用哪種風格損失函數。Gatys等人[16]的原始框架通過匹配Gram矩陣捕獲的特征激活之間的二階統計量來匹配樣式。已經提出了其他有效損失函數，例如MRF損失[30]、對抗性損失[31]、直方圖損失[54]、珊瑚損失[41]、MMD損失[33]以及信道均值和方差之間的距離[33]。注意，上述所有損失函數都旨在匹配樣式圖像和合成圖像之間的一些特征統計信息。

深度生成圖像建模。圖像生成有幾種替代框架，包括變分自動編碼器[27]、自回歸模型[40]和生成對抗網絡[18]。值得注意的是，GANs獲得了最令人印象深刻的視覺質量。已經提出了對GAN框架的各種改進，例如條件生成[43，23]、多級處理[9，20]和更好的訓練目標[46，1]。GANs還被應用于風格轉換[31]和跨域圖像生成[50、3、23、38、37、25]。

3. Background

3.1. Batch Normalization

Ioffe和Szegedy[22]的開創性工作引入了批量歸一化（BN）層，通過歸一化特征統計數據，顯著簡化了前饋網絡的訓練。BN層最初設計用于加速判別網絡的訓練，但也被發現在生成圖像建模中有效[42]。給定輸入批次x∈ RN×C×H×W，BN歸一化每個特征通道的平均值和標準偏差：

其中γ，β∈ RC是從數據中學習的仿射參數；μ（x），σ（x）∈ RC是平均值和標準差，針對每個特征通道獨立計算批次大小和空間尺寸：

BN在訓練過程中使用小批量統計數據，在推理過程中用流行的統計數據替換它們，引入了訓練和推理之間的差異。最近提出了批重正化[21]，通過在訓練期間逐漸使用流行的統計數據來解決這個問題。作為BN的另一個有趣應用，李等人[34]發現，BN可以通過重新計算目標域中的流行統計數據來緩解域轉移。最近，提出了幾種替代的歸一化方案，以將BN的有效性擴展到遞歸架構[35、2、47、8、29、44]

3.2. Instance Normalization

在原始前饋樣式化方法[51]中，樣式傳輸網絡在每個卷積層之后包含一個BN層。令人驚訝的是，Ulyanov等人[52]發現，只需將BN層替換為IN層即可實現顯著改善：

與BN層不同的是，這里μ（x）和σ（x）是針對每個通道和每個樣本在空間維度上獨立計算的：

【圖1。為了理解IN在風格轉換中有效的原因，我們使用（a）MS-COCO中的原始圖像[36]，（b）對比度歸一化圖像，以及（c）使用預先訓練的風格轉換網絡[24]的風格歸一化圖像來訓練IN模型和BN模型。即使將所有訓練圖像歸一化為相同的對比度，IN帶來的改善仍然顯著，但當所有圖像（近似）歸一化為相同的樣式時，改善要小得多。我們的結果表明，IN執行了一種風格規范化。】

另一個區別是，IN層在測試時應用不變，而BN層通常用總體統計替換小批量統計。

3.3. Conditional Instance Normalization

Dumoulin等人[11]沒有學習一組仿射參數γ和β，而是提出了一個條件實例歸一化（CIN）層，該層為每個樣式學習一組不同的參數γs和βs：

在訓練期間，從固定的樣式集中隨機選擇樣式圖像及其索引∈ {1，2，…，S}（在他們的實驗中S=32）。然后，內容圖像由樣式傳輸網絡處理，其中在CIN層中使用相應的γs和βs。令人驚訝的是，通過在層中使用相同的卷積參數但不同的仿射參數，該網絡可以生成完全不同樣式的圖像。
與沒有歸一化層的網絡相比，具有CIN層的網絡需要2F S附加參數，其中F是網絡中特征映射的總數[11]。由于附加參數的數量與樣式的數量呈線性關系，因此將其方法擴展到建模大量樣式（例如，數萬種）是一個挑戰。此外，如果不重新訓練網絡，他們的方法無法適應任意的新風格。

4. Interpreting Instance Normalization

盡管（有條件的）實例規范化取得了巨大成功，但它們在風格轉換方面特別有效的原因仍然不清楚。Ulyanov等人[52]將IN的成功歸因于其對內容圖像對比度的不變性。然而，IN發生在特征空間中，因此它應該比像素空間中的簡單對比度歸一化具有更深遠的影響。也許更令人驚訝的是，中的仿射參數可以完全改變輸出圖像的樣式。

眾所周知，DNN的卷積特征統計可以捕捉圖像的樣式[16、30、33]。雖然Gatys等人[16]使用二階統計量作為其優化目標，但Li等人[33]最近表明，匹配許多其他統計量，包括通道均值和方差，也可以有效地進行風格轉換。基于這些觀察結果，我們認為實例規范化通過規范化特征統計信息（即均值和方差）來執行一種形式的風格規范化。雖然DNN在[16，33]中用作圖像描述符，但我們認為生成器網絡的特征統計也可以控制生成圖像的樣式。

我們運行改進的紋理網絡代碼[52]來執行單樣式轉換，使用IN或BN層。正如所料，具有IN的模型比BN模型收斂更快（圖1（a））。為了測試[52]中的解釋，我們通過在亮度通道上執行直方圖均衡化，將所有訓練圖像歸一化為相同的對比度。如圖1（b）所示，in仍然有效，表明[52]中的解釋不完整。為了驗證我們的假設，我們使用[24]提供的預訓練風格傳輸網絡將所有訓練圖像歸一化為相同風格（不同于目標風格）。根據圖1（c），當圖像已經被樣式歸一化時，輸入帶來的改善變得更小。剩下的差距可以解釋為[24]的樣式規范化并不完美。此外，在樣式歸一化圖像上訓練BN的模型可以像在原始圖像上訓練IN的模型一樣快速收斂。我們的結果表明，IN確實執行了一種風格規范化。

由于BN歸一化了一批樣本而不是單個樣本的特征統計，因此可以直觀地理解為將一批樣本歸一化為以單個樣式為中心。然而，每個樣本仍然可能有不同的樣式。當我們想要將所有圖像傳輸到同一樣式時，這是不可取的，就像原始前饋樣式傳輸算法[51]中的情況一樣。雖然卷積層可能會學習補償批內風格的差異，但這對訓練提出了額外的挑戰。另一方面，IN可以將每個樣本的樣式規范化為目標樣式。由于網絡的其余部分可以專注于內容操作，同時丟棄原始樣式信息，因此可以方便地進行培訓。CIN成功的原因也很清楚：不同的仿射參數可以將特征統計歸一化為不同的值，從而將輸出圖像歸一化為不同的樣式。

[圖2:我們的風格轉換算法概述。我們使用固定VGG-19網絡的前幾層對內容和樣式圖像進行編碼。AdaIN層用于在特征空間中執行樣式轉換。學習解碼器將AdaIN輸出反轉到圖像空間。我們使用相同的VGG編碼器來計算內容損失Lc（等式12）和樣式損失Ls（等式13）。]

5. Adaptive Instance Normalization

如果IN將輸入規格化為仿射參數指定的單個樣式，是否可以通過使用自適應仿射變換使其適應任意給定的樣式？在這里，我們提出了對IN的一個簡單擴展，我們稱之為自適應實例規范化（AdaIN）。AdaIN接收內容輸入x和樣式輸入y，并簡單地對齊x的通道均值和方差以匹配y的均值和方差。與BN、IN或CIN不同，AdaIN沒有可學習的仿射參數。相反，它從樣式輸入中自適應計算仿射參數：

其中，我們簡單地用σ（y）縮放歸一化內容輸入，并用μ（y）移位。與中類似，這些統計數據是跨空間位置計算的。
直觀地說，讓我們考慮一個檢測特定風格筆觸的特征通道。具有這種筆劃的樣式圖像將對此特征產生高平均激活。AdaIN生成的輸出將具有與此特征相同的高平均激活率，同時保留內容圖像的空間結構。可以使用前饋解碼器將筆劃特征反轉到圖像空間，類似于[10]。該特征通道的方差可以編碼更精細的樣式信息，這些信息也會傳輸到AdaIN輸出和最終輸出圖像。
簡而言之，AdaIN通過傳輸特征統計信息，特別是通道均值和方差，在特征空間中執行樣式轉換。我們的AdaIN層與[6]中提出的樣式交換層起著類似的作用。雖然樣式交換操作非常耗時和占用內存，但我們的AdaIN層與IN層一樣簡單，幾乎不增加任何計算成本。

6. Experimental Setup

圖2顯示了基于擬議AdaIN層的我們風格傳輸網絡的概述。代碼和預訓練模型（在Torch 7[7]中）可從以下網址獲得： https://github.com/xunhuang1995/AdaIN-style

6.1. Architecture

我們的風格傳輸網絡T將內容圖像c和任意風格圖像s作為輸入，并合成將前者的內容和后者的風格重新組合的輸出圖像。我們采用了一種簡單的編碼器-解碼器架構，其中編碼器f固定在預訓練VGG-19[48]的前幾層（直到relu4 1）。在特征空間中對內容和樣式圖像進行編碼后，我們將兩個特征映射饋送到AdaIN層，該層將內容特征映射的均值和方差與樣式特征映射的均值和方差對齊，生成目標特征映射t：

訓練隨機初始化的解碼器g將t映射回圖像空間，生成樣式化圖像t（c，s）：

解碼器主要鏡像編碼器，所有池層由最近的上采樣取代，以減少棋盤效應。我們在f和g中使用反射填充來避免邊界偽影。另一個重要的架構選擇是解碼器應該使用實例層、批處理層還是不使用規范化層。如第。4.IN將每個樣本歸一化為單個樣式，而BN將一批樣本歸一化為圍繞單個樣式居中。當我們希望解碼器生成風格迥異的圖像時，兩者都是不可取的。因此，我們在解碼器中不使用歸一化層。以秒為單位。7.1我們將表明，解碼器中的IN/BN層確實會影響性能。

6.2. Training

我們使用MS-COCO[36]作為內容圖像，使用主要從WikiArt[39]收集的繪畫數據集作為風格圖像，按照[6]的設置來訓練我們的網絡。每個數據集包含大約80000個訓練示例。我們使用adam優化器[26]和8個內容樣式圖像對的批量大小。在訓練過程中，我們首先將兩幅圖像的最小維數調整為512，同時保持縱橫比，然后隨機裁剪大小為256×256的區域。由于我們的網絡是完全卷積的，因此它可以在測試期間應用于任何大小的圖像。
與[51，11，52]類似，我們使用預訓練VGG19[48]來計算損失函數，以訓練解碼器：

它是內容損失Lc和風格損失Ls與風格損失權重λ的加權組合。內容損失是目標特征和輸出圖像特征之間的歐幾里得距離。我們使用AdaIN輸出t作為內容目標，而不是內容圖像的常用特征響應。我們發現，這導致了更快的收斂速度，也符合我們反轉AdaIN輸出t的目標。

由于我們的AdaIN層只傳遞樣式特征的均值和標準差，因此我們的樣式損失僅與這些統計數據匹配。雖然我們發現常用的Gram矩陣損失可以產生類似的結果，但我們匹配IN統計，因為它在概念上更清晰。李等人[33]也探討了這種風格的喪失。

其中，每個φi表示VGG-19中用于計算樣式損耗的層。在我們的實驗中，我們使用等權重的relu1 1、relu2 1、relu3 1、relu4 1層。

7. Results

7.1. Comparison with other methods

在本小節中，我們將我們的方法與三種類型的樣式轉換方法進行比較：1）靈活但緩慢的基于優化的方法[16]，2）限制于單一樣式的快速前饋方法[52]，以及3）基于靈活面片的中速方法[6]。如果沒有另外提及，則通過使用默認配置運行其代碼來獲得比較方法的結果。對于【6】，我們使用作者提供的預訓練逆網絡。所有測試圖像的大小為512×512。

定性示例。在圖4中，我們展示了通過比較方法生成的示例樣式轉換結果。注意，在我們的模型訓練期間，從未觀察到所有測試樣式圖像，而[52]的結果是通過將一個網絡擬合到每個測試樣式來獲得的。即便如此，對于許多圖像（例如第1、2、3行），我們的風格化圖像的質量與[52]和[16]相當有競爭力。在其他一些情況下（例如第5行），我們的方法的質量略低于[52]和[16]。這并不意外，因為我們相信在速度、靈活性和質量之間有三種權衡。與[6]相比，對于大多數比較的圖像，我們的方法似乎更忠實地傳遞了樣式。最后一個示例清楚地說明了[6]的一個主要限制，即嘗試將每個內容補丁與最接近的匹配樣式補丁相匹配。但是，如果大多數內容修補程序與不代表目標樣式的少數樣式修補程序匹配，則樣式傳輸將失敗。因此，我們認為匹配全局特征統計是一種更通用的解決方案，盡管在某些情況下（例如第3行），[6]的方法也可以產生吸引人的結果。

定量評估。我們的算法是否權衡了一些質量以獲得更高的速度和靈活性，如果是這樣的話，代價是多少？為了定量地回答這個問題，我們將我們的方法與基于優化的方法[16]和快速單風格轉換方法[52]在內容和風格損失方面進行了比較。由于我們的方法使用了基于IN統計的樣式損失，因此我們也相應地修改了[16]和[52]中的損失函數，以進行公平比較（圖4中的結果仍然是使用默認的Gram矩陣損失獲得的）。此處顯示的內容損失與[52，16]中所示相同。報告的數字是從WikiArt數據集[39]和MS-COCO[36]的測試集中隨機選擇的10幅風格圖像和50幅內容圖像的平均數。

如圖3所示，我們合成圖像的平均內容和風格損失略高，但與Ulyanov等人[52]的單一風格轉移方法相當。特別是，我們的方法和[52]都在優化的50到100次迭代之間獲得了類似于[16]的風格損失。這證明了我們的方法具有很強的泛化能力，考慮到我們的網絡在訓練期間從未見過測試風格，而[52]的每個網絡都是針對一種測試風格進行專門訓練的。此外，請注意，我們的樣式損失比原始內容圖像的樣式損失小得多。

速度分析。我們的大部分計算都花在內容編碼、樣式編碼和解碼上，每種編碼大約占用三分之一的時間。在一些應用場景中，例如視頻處理，樣式圖像只需要編碼一次，AdaIN可以使用存儲的樣式統計信息來處理所有后續圖像。在其他一些情況下（例如，將相同的內容轉換為不同的樣式），可以共享用于內容編碼的計算。

在選項卡中。1我們將我們的方法與之前的方法[16、52、11、6]進行了速度比較。除去樣式編碼時間，我們的算法對256×256和512×512圖像分別以56和15fps的速度運行，從而可以實時處理用戶上傳的任意樣式。在適用于任意樣式的算法中，我們的方法比[16]快近3個數量級，比[6]快1-2個數量級。與[6]相比，速度的提高對于更高分辨率的圖像尤其重要，因為[6]中的樣式交換層不能很好地擴展到高分辨率樣式圖像。此外，我們的方法實現了與僅限于幾種風格的前饋方法相當的速度[52，11]。我們的方法處理時間稍長，主要是由于我們基于VGG的網絡更大，而不是方法上的局限性。有了更高效的架構，我們的速度可以進一步提高。

【表1。256×256和512×512圖像的速度比較（秒）。我們的方法實現了與局限于少量樣式的方法相當的速度[52，11]，同時比適用于任意樣式的其他現有算法快得多[16，6]。我們顯示了不包括和包括（括號中）樣式編碼過程的處理時間。結果使用Pascal Titan X GPU獲得，平均超過100幅圖像。】

7.2. Additional experiments.

在本小節中，我們進行實驗來證明我們的重要架構選擇。我們表示第2.1節中描述的方法。6作為Enc-AdaIN-Dec。我們實驗了一個名為Enc Concat Dec的模型，該模型用串聯取代AdaIN，這是一種自然的基線策略，用于組合來自內容和樣式圖像的信息。此外，我們在解碼器的層中使用BN /運行模型，分別表示為Enc AdaIN BNDec和Enc AdaIN INDec。其他訓練設置保持不變。
在圖5和圖6中，我們展示了比較方法的示例和訓練曲線。在由Enconcat Dec基線生成的圖像（圖5（d））中，可以清楚地觀察到樣式圖像的對象輪廓，這表明網絡無法將樣式信息與樣式圖像的內容分離開來。這也與圖6一致，其中Enc Concat Dec可以達到較低的樣式損失，但無法減少內容損失。層中含有BN/的模型也會獲得更差的質量結果和更高的損失。分層的結果尤其糟糕。這再次驗證了我們的說法，即分層往往會將輸出標準化為單個樣式，因此當我們想要生成不同樣式的圖像時，應該避免。

7.3. Runtime controls

為了進一步強調我們方法的靈活性，我們展示了我們的風格轉換網絡允許用戶控制風格化程度，在不同風格之間插值，在保留顏色的同時轉換風格，以及在不同的空間區域使用不同的風格。請注意，所有這些控件僅在運行時使用相同的網絡應用，沒有對訓練過程進行任何修改。

內容風格權衡。在訓練期間，可以通過調整Eqa中的風格權重λ來控制風格轉移的程度。11.此外，我們的方法允許在測試時通過在反饋給解碼器的特征映射之間插值來權衡內容風格。注意，這相當于AdaIN仿射參數之間的插值。

當α=0時，該網絡試圖忠實地重建內容圖像，當α=1時，合成最具風格的圖像。如圖7所示，通過將α從0更改為1，可以觀察到內容相似性和風格相似性之間的平滑過渡。
樣式插值。要在一組K樣式圖像s1、s2、…、之間插值。。。，具有相應權重w1，w2。。。，wK使得PK k=1 wK=1，我們在特征圖之間進行類似的插值（結果如圖8所示）：

空間和顏色控制。Gatys等人[17]最近引入了用戶對顏色信息和風格轉移的空間位置的控制，這可以很容易地納入我們的框架。為了保留內容圖像的顏色，我們首先將樣式圖像的顏色分布使用顏色對齊的樣式圖像作為樣式輸入，執行正常樣式轉換。示例結果如圖9所示。
在圖10中，我們證明了我們的方法可以將內容圖像的不同區域轉換為不同的樣式。這是通過使用來自不同風格輸入的統計信息分別對內容特征圖中的不同區域執行AdaIN來實現的，類似于[4，17]，但以完全前饋的方式。雖然我們的譯碼器只在具有同質風格的輸入上訓練，但它自然地推廣到不同區域具有不同風格的輸入。

8. Discussion and Conclusion

在本文中，我們提出了一個簡單的自適應實例規范化（AdaIN）層，該層首次支持實時的任意樣式傳輸。除了引人入勝的應用之外，我們相信這項工作還為我們理解深度圖像表示提供了幫助。
有趣的是，考慮我們的方法與以前基于特征統計的神經風格轉換方法之間的概念差異。Gatys等人[16]采用優化過程操縱像素值以匹配特征統計。在[24，51，52]中，優化過程被前饋神經網絡取代。盡管如此，網絡訓練工作是修改像素值以間接匹配特征統計。我們采用了一種非常不同的方法，一次直接對齊特征空間中的統計信息，然后將特征反轉回像素空間。
鑒于我們的方法簡單，我們認為仍有很大的改進空間。在未來的工作中，我們計劃探索更先進的網絡架構，如殘余架構[24]或具有編碼器額外跳過連接的架構[23]。我們還計劃研究更復雜的訓練方案，如增量訓練[32]。此外，我們的AdaIN層只對齊最基本的特征統計（均值和方差）。用相關對齊[49]或直方圖匹配[54]替換AdaIN可能會通過傳遞高階統計量進一步提高質量。另一個有趣的方向是將AdaIN應用于紋理合成。

References

[1] M. Arjovsky, S. Chintala, and L. Bottou. Wasserstein gan.
arXiv preprint arXiv:1701.07875, 2017. 2
[2] J. L. Ba, J. R. Kiros, and G. E. Hinton. Layer normalization.
arXiv preprint arXiv:1607.06450, 2016. 2
[3] K. Bousmalis, N. Silberman, D. Dohan, D. Erhan, and
D. Krishnan. Unsupervised pixel-level domain adapta-
tion with generative adversarial networks. arXiv preprint
arXiv:1612.05424, 2016. 2
[4] A. J. Champandard. Semantic style transfer and turn-
ing two-bit doodles into fine artworks. arXiv preprint
arXiv:1603.01768, 2016. 8
[5] D. Chen, L. Y uan, J. Liao, N. Y u, and G. Hua. Stylebank:
An explicit representation for neural image style transfer. In
CVPR, 2017. 1
[6] T. Q. Chen and M. Schmidt. Fast patch-based style transfer
of arbitrary style. arXiv preprint arXiv:1612.04337, 2016. 1,
2, 4, 5, 6, 7
[7] R. Collobert, K. Kavukcuoglu, and C. Farabet. Torch7:
A matlab-like environment for machine learning. In NIPS
Workshop, 2011. 4
[8] T. Cooijmans, N. Ballas, C. Laurent, C ? . Gülc ?ehre, and
A. Courville. Recurrent batch normalization. In ICLR, 2017.
2
[9] E. L. Denton, S. Chintala, R. Fergus, et al. Deep genera-
tive image models using a laplacian pyramid of adversarial
networks. In NIPS, 2015. 2
[10] A. Dosovitskiy and T. Brox. Inverting visual representations
with convolutional networks. In CVPR, 2016. 4
[11] V . Dumoulin, J. Shlens, and M. Kudlur. A learned represen-
tation for artistic style. In ICLR, 2017. 1, 2, 3, 5, 6, 7
[12] A. A. Efros and W. T. Freeman. Image quilting for texture
synthesis and transfer. In SIGGRAPH, 2001. 1
[13] A. A. Efros and T. K. Leung. Texture synthesis by non-
parametric sampling. In ICCV, 1999. 1
[14] M. Elad and P . Milanfar. Style-transfer via texture-synthesis.
arXiv preprint arXiv:1609.03057, 2016. 1
[15] O. Frigo, N. Sabater, J. Delon, and P . Hellier. Split and
match: example-based adaptive patch sampling for unsuper-
vised style transfer. In CVPR, 2016. 1
[16] L. A. Gatys, A. S. Ecker, and M. Bethge. Image style transfer
using convolutional neural networks. In CVPR, 2016. 1, 2,
3, 5, 6, 7, 8
[17] L. A. Gatys, A. S. Ecker, M. Bethge, A. Hertzmann, and
E. Shechtman. Controlling perceptual factors in neural style
transfer. In CVPR, 2017. 1, 7, 8
[18] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu,
D. Warde-Farley, S. Ozair, A. Courville, and Y . Bengio. Gen-
erative adversarial nets. In NIPS, 2014. 2
[19] D. J. Heeger and J. R. Bergen. Pyramid-based texture analy-
sis/synthesis. In SIGGRAPH, 1995. 1
[20] X. Huang, Y . Li, O. Poursaeed, J. Hopcroft, and S. Belongie.
Stacked generative adversarial networks. In CVPR, 2017. 2
[21] S. Ioffe. Batch renormalization: Towards reducing minibatch
dependence in batch-normalized models. arXiv preprint
arXiv:1702.03275, 2017. 2
[22] S. Ioffe and C. Szegedy. Batch normalization: Accelerating
deep network training by reducing internal covariate shift. In
JMLR, 2015. 2
[23] P . Isola, J.-Y . Zhu, T. Zhou, and A. A. Efros. Image-to-image
translation with conditional adversarial networks. In CVPR,
2017. 2, 8
[24] J. Johnson, A. Alahi, and L. Fei-Fei. Perceptual losses for
real-time style transfer and super-resolution. In ECCV, 2016.
1, 2, 3, 8
[25] T. Kim, M. Cha, H. Kim, J. Lee, and J. Kim. Learning to
discover cross-domain relations with generative adversarial
networks. arXiv preprint arXiv:1703.05192, 2017. 2
[26] D. Kingma and J. Ba. Adam: A method for stochastic opti-
mization. In ICLR, 2015. 5
[27] D. P . Kingma and M. Welling. Auto-encoding variational
bayes. In ICLR, 2014. 2
[28] J. E. Kyprianidis, J. Collomosse, T. Wang, and T. Isenberg.
State of the” art: A taxonomy of artistic stylization tech-
niques for images and video. TVCG, 2013. 1
[29] C. Laurent, G. Pereyra, P . Brakel, Y . Zhang, and Y . Ben-
gio. Batch normalized recurrent neural networks. In ICASSP,
2016. 2
[30] C. Li and M. Wand. Combining markov random fields and
convolutional neural networks for image synthesis. In CVPR,
2016. 1, 2, 3
[31] C. Li and M. Wand. Precomputed real-time texture synthesis
with markovian generative adversarial networks. In ECCV,
2016. 1, 2
[32] Y . Li, C. Fang, J. Yang, Z. Wang, X. Lu, and M.-H. Yang.
Diversified texture synthesis with feed-forward networks. In
CVPR, 2017. 1, 2, 8
[33] Y . Li, N. Wang, J. Liu, and X. Hou. Demystifying neural
style transfer. arXiv preprint arXiv:1701.01036, 2017. 1, 2,
3, 5
[34] Y . Li, N. Wang, J. Shi, J. Liu, and X. Hou. Revisiting
batch normalization for practical domain adaptation. arXiv
preprint arXiv:1603.04779, 2016. 2
[35] Q. Liao, K. Kawaguchi, and T. Poggio. Streaming normal-
ization: Towards simpler and more biologically-plausible
normalizations for online and recurrent learning. arXiv
preprint arXiv:1610.06160, 2016. 2
[36] T.-Y . Lin, M. Maire, S. Belongie, J. Hays, P . Perona, D. Ra-
manan, P . Dollár, and C. L. Zitnick. Microsoft coco: Com-
mon objects in context. In ECCV, 2014. 3, 5
[37] M.-Y . Liu, T. Breuel, and J. Kautz. Unsupervised
image-to-image translation networks. arXiv preprint
arXiv:1703.00848, 2017. 2
[38] M.-Y . Liu and O. Tuzel. Coupled generative adversarial net-
works. In NIPS, 2016. 2
[39] K. Nichol. Painter by numbers, wikiart. https://www.
kaggle.com/c/painter-by-numbers, 2016. 5
[40] A. v. d. Oord, N. Kalchbrenner, and K. Kavukcuoglu. Pixel
recurrent neural networks. In ICML, 2016. 2
[41] X. Peng and K. Saenko. Synthetic to real adaptation
with deep generative correlation alignment networks. arXiv
preprint arXiv:1701.05524, 2017. 2
[42] A. Radford, L. Metz, and S. Chintala. Unsupervised repre-
sentation learning with deep convolutional generative adver-
sarial networks. In ICLR, 2016. 2
[43] S. Reed, Z. Akata, X. Yan, L. Logeswaran, B. Schiele, and
H. Lee. Generative adversarial text to image synthesis. In
ICML, 2016. 2
[44] M. Ren, R. Liao, R. Urtasun, F. H. Sinz, and R. S. Zemel.
Normalizing the normalizers: Comparing and extending net-
work normalization schemes. In ICLR, 2017. 2
[45] M. Ruder, A. Dosovitskiy, and T. Brox. Artistic style transfer
for videos. In GCPR, 2016. 1
[46] T. Salimans, I. Goodfellow, W. Zaremba, V . Cheung, A. Rad-
ford, and X. Chen. Improved techniques for training gans. In
NIPS, 2016. 2
[47] T. Salimans and D. P . Kingma. Weight normalization: A
simple reparameterization to accelerate training of deep neu-
ral networks. In NIPS, 2016. 2
[48] K. Simonyan and A. Zisserman. V ery deep convolutional
networks for large-scale image recognition. In ICLR, 2015.
4, 5
[49] B. Sun, J. Feng, and K. Saenko. Return of frustratingly easy
domain adaptation. In AAAI, 2016. 8
[50] Y . Taigman, A. Polyak, and L. Wolf. Unsupervised cross-
domain image generation. In ICLR, 2017. 2
[51] D. Ulyanov, V . Lebedev, A. V edaldi, and V . Lempitsky. Tex-
ture networks: Feed-forward synthesis of textures and styl-
ized images. In ICML, 2016. 1, 2, 4, 5, 8
[52] D. Ulyanov, A. V edaldi, and V . Lempitsky. Improved texture
networks: Maximizing quality and diversity in feed-forward
stylization and texture synthesis. In CVPR, 2017. 1, 2, 3, 5,
6, 7, 8
[53] X. Wang, G. Oxholm, D. Zhang, and Y .-F. Wang. Mul-
timodal transfer: A hierarchical deep convolutional neu-
ral network for fast artistic style transfer. arXiv preprint
arXiv:1612.01895, 2016. 2
[54] P . Wilmot, E. Risser, and C. Barnes. Stable and controllable
neural texture synthesis and style transfer using histogram
losses. arXiv preprint arXiv:1701.08893, 2017. 2, 8
[55] H. Zhang and K. Dana. Multi-style generative network for
real-time transfer. arXiv preprint arXiv:1703.06953, 2017. 1

總結

以上是生活随笔為你收集整理的风格迁移篇-AdaIN --使用自适应实例规范化实时传输任意样式的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Ubuntu GNOME 15.10升级
下一篇： 2016-04-29 二分查找的面试题