當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

风格迁移篇---SAnet：风格注意网络下的任意风格转换

發布時間：2023/12/10 编程问答 35 豆豆

生活随笔收集整理的這篇文章主要介紹了风格迁移篇---SAnet：风格注意网络下的任意风格转换小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

這里寫目錄標題

Abstract
1. Introduction
2. Related Work
3. Method
- 3.1. Network Architecture
- 3.2. SANet for Style Feature Embedding
- 3.3. Full System
4. Experimental Results
- 4.1. Experimental Settings
- 4.2. Comparison with Prior Work
- 4.3. Ablation Studies
- 4.4. Runtime Controls
5. Conclusions
Acknowledgments.
References

論文地址： http://arxiv.org/abs/1812.02342
代碼地址： https://github.com/GlebSBrykin/SANET

Abstract

任意風格轉換旨在合成具有圖像風格的內容圖像，以創建以前從未見過的第三個圖像。最近的任意風格轉換算法發現平衡內容結構和風格模式很有挑戰性。此外，由于基于補丁的機制，很難同時維護全局和局部樣式的模式。在本文中，我們介紹了一種新的風格注意網絡（SANet），該網絡根據內容圖像的語義空間分布高效靈活地集成局部風格模式。新的身份丟失函數和多級特征嵌入使我們的SANet和解碼器能夠在豐富樣式模式的同時盡可能保留*指示等貢獻內容結構。實驗結果表明，我們的算法實時合成的樣式化圖像的質量高于最先進的算法生成的圖像。

1. Introduction

藝術風格轉移是一種通過在內容圖像上均勻地從給定風格圖像合成全局和局部風格圖案，同時保持其原始結構來創建藝術的技術。最近，Gatys等人[5]的開創性工作表明，從預訓練的深度神經網絡中提取的特征之間的相關性可以很好地捕捉風格模式。Gatys等人[5]的方法是1 arXiv:1812.02342v5[cs.CV]2019年5月23日，足夠靈活，可以組合任意圖像的內容和樣式，但由于迭代優化過程，速度太慢。

為了降低這一過程的計算成本，已經做出了重大努力。基于前饋網絡，開發了幾種方法[1、8、12、22、3、14、19、26、29]。前饋方法可以有效地合成樣式化圖像，但僅限于固定數量的樣式或提供的視覺質量不足。

對于任意樣式轉換，一些方法[13、7、20]整體調整內容特征，以匹配樣式特征的二階統計量。AdaIN[7]簡單地調整內容圖像的均值和方差，以匹配樣式圖像的均值和方差。雖然AdaIN通過傳輸特征統計信息有效地結合了內容圖像的結構和樣式模式，但由于該方法過于簡化，其輸出質量受到影響。WCT[13]使用協方差而不是方差，通過白化和著色過程將內容特征轉換為樣式特征空間。通過在預先訓練的編碼器-解碼器模塊中嵌入這些風格化特征，無風格解碼器合成了風格化圖像。然而，如果特征具有大量維度，則WCT將相應地需要計算昂貴的操作。Avatar Net[20]是一個基于補丁的樣式裝飾器模塊，它將內容特征映射為樣式模式的特征，同時保持內容結構。阿凡達網不僅考慮整體風格分布，還考慮局部風格模式。然而，盡管做出了寶貴的努力，這些方法仍然不能反映風格圖像的細節紋理，扭曲內容結構，或者無法平衡局部和全局風格模式。

在這項工作中，我們提出了一種新的任意風格傳輸算法，該算法實時合成高質量的風格化圖像，同時保留內容結構。這是通過一種新型的注意力網絡（SANet）和一種新的身份丟失函數實現的。對于任意風格轉換，我們的前饋網絡由sanet和解碼器組成，通過根據內容特征在空間上重新排列風格特征來學習內容特征和風格特征之間的語義相關性。

我們提出的SANet與化身網絡的風格特征裝飾器密切相關[20]。然而，有兩個主要區別：該模型使用1）學習的相似核而不是固定的相似核；2）軟注意而不是硬注意。換言之，為了風格裝飾的目的，我們將自注意力機制更改為可學習的基于軟注意力的網絡。我們的SANet使用可學習的相似性核將內容特征圖表示為與其每個位置相似的樣式特征的加權和。使用訓練過程中的身份丟失，輸入相同的圖像對，并訓練我們的模型以恢復相同的結果。在推理時，用樣式圖像替換其中一個輸入圖像，并基于樣式特征盡可能多地恢復內容圖像。與內容-風格的權衡不同，身份丟失有助于保持內容結構而不損失風格的豐富性，因為它有助于根據風格特征恢復內容。我們工作的主要貢獻如下：

我們提出了一種新的SANet，可以靈活地將語義最近的樣式特征與內容特征相匹配。
我們提出了一種由SANets和解碼器組成的前饋網絡的學習方法，該方法使用傳統的重建損失和新的身份損失進行優化。
我們的實驗表明，我們的方法在合成高質量的樣式化圖像時效率很高（約為每秒18-24幀，512像素），同時平衡全局和局部樣式模式并保留內容結構。
【圖2：培訓流程概述。（a）固定VGG編碼器編碼內容和風格的圖像。分別來自Relu 4 1和Relu 5 1特征的兩個SANets地圖特征。解碼器將組合的SANet輸出特征轉換為IC（等式4）。固定VGG編碼器用于計算Lc（等式7）和Ls（等式8）。（b）身份丟失指數（等式9）量化了Ic和Icc之間或Is和Iss之間的差異，其中Ic（Is）是原始內容（樣式）圖像，Icc（Iss）是從圖像對（內容或樣式）合成的輸出圖像】

2. Related Work

任意樣式轉換。任意風格轉換的最終目標是同時實現并保持泛化、質量和效率。盡管最近取得了一些進展，但現有方法[5、4、1、8、12、22、3、6、10、11、23、24、28、18]在泛化、質量和效率之間進行了權衡。最近，人們提出了幾種方法[13、20、2、7]來實現任意樣式的轉換。AdaIN算法通過傳輸全局特征統計信息，簡單地調整內容圖像的均值和方差，以匹配樣式圖像的均值和方差。WCT執行一對特征變換（白化和著色），用于在預訓練的編碼器-解碼器模塊中嵌入特征。Avatar Net引入了基于補丁的特征裝飾器，該裝飾器將內容特征轉換為語義最近的風格特征，同時最小化其整體特征分布之間的差異。在許多情況下，我們觀察到WCT和AvatarNet的結果不能充分表示細節紋理或保持內容結構。我們推測，WCT和Avatar Net可能無法合成詳細的紋理樣式，因為它們預先訓練了通用編碼器-解碼器網絡，這些網絡是從樣式特征差異很大的通用圖像（如MS-COCO數據集[15]）中學習的。因此，這些方法考慮將樣式特征映射到特征空間中的內容特征，但無法控制樣式的全局統計信息或內容結構。雖然化身網絡可以通過基于補丁的樣式裝飾器獲得局部樣式模式，但樣式圖像中樣式模式的規模取決于補丁大小。因此，不能同時考慮全局和局部風格模式。相比之下，AdaIN可以很好地轉換紋理和顏色分布，但不能很好地表示局部風格的圖案。在這種方法中，存在另一種規模適應的內容和風格損失的組合，在內容和風格之間進行權衡。在本文中，我們嘗試使用SANets和提出的身份丟失來解決這些問題。這樣，所提出的風格轉換網絡可以表示全局和局部風格模式，并在不損失風格豐富性的情況下保持內容結構。

自我注意力機制。我們的風格注意力模塊與最近用于圖像生成和機器翻譯的自注意力方法[25，30]有關。這些模型通過關注所有位置并在嵌入空間中取其加權平均值來計算序列或圖像中某個位置的響應。該算法通過稍微修改自注意力機制來學習內容特征和風格特征之間的映射。

3. Method

本文提出的風格傳遞網絡由編碼器-解碼器模塊和風格注意模塊組成，如圖2所示。所提出的前饋網絡有效地生成高質量的風格化圖像，適當地反映全局和局部風格模式。我們新的身份丟失功能有助于保持內容的詳細結構，同時充分反映風格

3.1. Network Architecture

我們的風格傳遞網絡以內容圖像Ic和任意風格圖像為輸入，并使用前者的語義結構和后者的特征合成風格化圖像Ic。在這項工作中，預訓練VGG-19網絡[21]被用作編碼器，對稱解碼器和兩個SANet被聯合訓練用于任意樣式的傳輸。我們的解碼器遵循[7]的設置。

為了充分結合全局樣式模式和局部樣式模式，我們將從不同層（Relu 4 1和Relu 5 1）編碼的VGG特征映射作為輸入，并結合兩個輸出特征映射，從而集成了兩個SANet。從內容圖像Ic和樣式圖像Is對中，我們首先在編碼器的特定層（例如，Relu 4 1）提取其各自的VGG特征映射Fc=E（Ic）和Fs=E（Is）。

在對內容和樣式圖像進行編碼后，我們將兩個特征映射提供給SANet模塊，該模塊映射內容特征映射Fc和樣式特征映射Fs之間的對應關系，生成以下輸出特征映射：

將1×1卷積應用于Fcs并按如下方式對兩個矩陣進行元素求和后，我們得到Fcsc：

其中“+”表示按元素求和。我們將來自兩個SANet的兩個輸出特征映射合并為:

其中，F r 4 1csc和F r 5 1csc是從兩個SANet獲得的輸出特征圖，conv3×3表示用于組合兩個特征圖的3×3卷積，F r 5 1csc在上采樣后添加到F r 4 1csc。

然后，通過將F mcsc饋送到解碼器中來合成樣式化的輸出圖像ic，如下所示：

3.2. SANet for Style Feature Embedding

圖3顯示了使用SANet模塊嵌入樣式特征。編碼器的內容特征映射Fc和樣式特征映射Fs被歸一化，然后轉換為兩個特征空間f和g，以計算f ic和f J之間的注意力，如下所示：

其中，f（Fc）=Wf Fc，g（Fs）=WgFs，h（Fs）=WhFs。此外，F表示F的均值-方差通道歸一化版本。響應通過系數C（F）=P進行歸一化?j exp（f（f ic）T g（f js））。這里，i是輸出位置的索引，j是枚舉所有可能位置的索引。在上述公式中，Wf、Wg和Wh是學習的權重矩陣，如[30]中所示，它們被實現為1×1卷積。

我們的SANet的網絡結構類似于現有的非局部塊結構[27]，但輸入數據的數量不同（SANet的輸入由Fc和Fs組成）。SANet模塊可以通過學習映射內容和樣式特征圖之間的關系（例如親和力），在內容特征圖的每個位置適當嵌入局部樣式模式。

3.3. Full System

如圖2所示，我們使用編碼器（預訓練VGG-19[21]）來計算用于訓練SANet和解碼器的損失函數：

其中，內容、風格和身份損失的組成部分分別為Lc、Ls和Lidentity，λc和λs是不同損失的權重。
與[7]類似，內容損失是均值-方差通道方向歸一化目標特征F r 4 1c和F r 5 1c與輸出圖像VGG特征E（Ics）r 4 1和E（Ics）r 5 1的均值-方差通道方向歸一化特征之間的歐氏距離，如下所示：

樣式損失定義如下：

其中，每個φ表示編碼器中用于計算樣式損失的層的特征圖。我們使用等權重的Relu 1 1、Relu 2 1、Relu 3 1、Relu 4 1和Relu 5 1層。我們應用了Gram矩陣損失[5]和AdaIN風格損失[7]，但結果表明AdaIN風格損失更令人滿意。

【圖4：結果詳細信息。為了更好地可視化，在最下面一行中由邊界框標記的區域在最上面一行中被放大。】

【圖5：五種風格轉換算法的用戶偏好結果】

當Wf、Wg和Wh固定為標識矩陣時，內容特征圖中的每個位置都可以轉換為樣式特征圖中語義最近的特征。在這種情況下，系統無法解析足夠的樣式特征。在SANet中，雖然Wf、Wg和Wh是可學習矩陣，但我們的風格轉換模型可以通過只考慮風格損失Ls的全局統計信息來訓練。

為了考慮內容特征和風格特征之間的全局統計和語義局部映射，我們定義了一個新的身份丟失函數，如下所示：

其中，Icc（或Iss）表示從兩個相同內容（或樣式）圖像合成的輸出圖像，每個φi表示編碼器中的一層，λidentity1和λidentity2是身份損失權重。在我們的實驗中，加權參數簡單地設置為λc=1、λs=3、λidentity1=1和λidentity2=50。

內容和風格損失控制著內容圖像結構和風格模式之間的權衡。與其他兩種損失不同，身份損失是從相同的輸入圖像計算的，樣式特征沒有差異。因此，身份丟失集中保持內容圖像的結構，而不是更改樣式統計。因此，身份丟失使得能夠同時保持內容圖像的結構和參考圖像的風格特征

4. Experimental Results

圖2顯示了基于擬議SANets的我們風格的傳輸網絡的概述。演示站點將通過https://dypark86.github.io/SANET/.

4.1. Experimental Settings

我們使用MS-COCO[15]對內容圖像進行訓練，使用WikiArt[17]對風格圖像進行訓練。這兩個數據集包含大約80000個訓練圖像。我們使用了Adam優化器[9]，學習率為0.0001，批量大小為五個內容風格的圖像對。在訓練過程中，我們首先將兩幅圖像的較小維度重新縮放到512，同時保持縱橫比，然后隨機裁剪256×256像素的區域。在測試階段，我們的網絡可以處理任何輸入大小，因為它是完全卷積的。

4.2. Comparison with Prior Work

為了評估我們的方法，我們將其與三種類型的任意樣式變換方法進行了比較：Gatys等人[5]提出的迭代優化方法，兩種基于特征變換的方法（WCT[13]和AdaIN[7]），以及基于面片的方法Avatar Net[20]。

定性示例。在圖11中，我們展示了通過最先進的方法合成的風格轉換結果的示例。補充材料中提供了其他結果。注意，在我們的模型訓練期間，沒有觀察到任何測試風格的圖像。

基于優化的方法[5]允許任意樣式轉換，但可能會遇到錯誤的局部最小值（例如，圖11中的第2行和第4行）。AdaIN[7]簡單地調整內容特征的均值和方差來合成樣式化圖像。然而，由于內容和樣式之間的權衡，其結果不太吸引人，并且通常保留內容的一些顏色分布（例如，圖11中的第1、2和8行）。此外，AdaIN[7]和WCT[13]有時都會產生扭曲的局部樣式模式，這是因為整體調整了內容特征，以匹配樣式特征的二階統計量，如圖11所示。盡管化身網絡[20]根據內容圖像的語義空間分布用樣式模式裝飾圖像，并應用多尺度樣式轉換，但由于其依賴于面片大小，它通常不能同時表示局部和全局樣式模式。此外，在大多數情況下，它不能保持內容結構（圖11中的第4列）。相反，在大多數示例中，我們的方法可以解析不同的樣式模式，例如全局顏色分布、紋理和局部樣式模式，同時保持內容的結構，如圖11所示。

與其他算法不同，我們的可學習SANet可以靈活地解析足夠級別的樣式特征，而無需最大程度地對齊內容和樣式特征，而無需考慮較大的域差距（圖11中的第1行和第6行）。該SANet在語義上區分了內容結構，并將相似的風格模式轉移到具有5個相同語義的區域。我們的方法為每種類型的語義內容轉換不同的風格。在圖11（第3行）中，我們的樣式化圖像中的天空和建筑物使用不同的樣式模式進行樣式化，而其他方法的結果在天空和建筑物之間具有模糊的樣式邊界。

我們還在圖4中提供了結果的詳細信息。我們的結果展示了多尺度風格模式（例如，顏色分布、灌木筆劃以及風格圖像中粗糙紋理的白色和紅色模式）。Avatar Net和WCT會扭曲筆刷筆劃，輸出模糊的頭發紋理，并且不會保留人臉的外觀。AdaIN甚至不能保持顏色分布。

用戶研究。我們使用了14幅內容圖像和70幅風格圖像，總共合成了980幅圖像。我們為每個受試者隨機選擇了30種內容和風格組合，并以隨機順序向他們展示了通過五種比較方法獲得的風格化圖像。然后，我們要求受試者指出他/她最喜歡的每種風格的結果。我們收集了80位用戶的2400張選票，并在圖5中顯示了每種方法的投票百分比。結果表明，與其他方法相比，我們的方法得到的程式化結果更受歡迎。

效率表1顯示了該方法和其他方法在兩個圖像尺度（256和512像素）下的運行時性能。我們測量了運行時性能，包括樣式編碼的時間。基于優化的方法[5]由于其迭代優化過程，計算成本不現實。相比之下，我們的多尺度模型（Relu 4 1和Relu 5 1）算法對于256和512像素圖像分別以59 fps和18 fps的速度運行，而單尺度（僅Relu 4 1）算法對于256和512像素圖像分別以83 fps和24 fps的速度運行。因此，我們的方法可以實時處理風格轉換。我們的模型比基于矩陣計算的方法（WCT[13]和Avatar Net[20]）快7-20倍。

4.3. Ablation Studies

損失分析。在本節中，我們展示了內容風格喪失和身份喪失的影響。圖6（a）顯示了通過將λidentity1、λidentity2和λs分別固定在0、0和5，同時將λc從1增加到50而獲得的結果。圖6（b）顯示了通過將λc和λs分別固定在0和5，并分別將λidentity1和λidentity2從1增加到100和從50增加到5000而獲得的結果。在沒有身份丟失的情況下，如果我們增加內容丟失的權重，內容結構會得到保留，但由于內容丟失和樣式丟失之間的權衡，樣式模式的特征會消失。相反，在不丟失內容的情況下增加身份丟失的權重，可以在保持樣式模式的同時盡可能地保留內容結構。然而，內容結構的變化的失真是不可避免的。因此，我們結合了內容風格損失和身份損失來維護內容結構，同時豐富風格模式。

【圖6：內容風格損失與身份損失。（a）通過將λidentity1、λidentity2和λs分別固定在0、0和5，并將λc從1增加到50獲得的結果。（b）通過將λc和λs分別固定在0和5，并將λidentity1和λidentity2分別從1增加到100和從50增加到5000獲得的結果。】

【圖7：多級特征嵌入。通過在多個層次上嵌入特征，我們可以豐富樣式化圖像的局部和全局模式。】

多級特征嵌入。圖7分別顯示了從Relu 4 1和Relu 5 1獲得的兩個樣式化輸出。當僅使用Relu 4 1進行樣式轉換時，可以很好地保持樣式特征和內容結構的全局統計信息。然而，當地風格的圖案并不常見。相比之下，Relu 5 1有助于添加局部風格模式，例如圓形模式，因為感受野更寬。然而，內容結構被扭曲，筆觸等紋理消失。在我們的工作中，為了豐富樣式模式，我們將從不同（Relu 4 1和Relu 5 1）層編碼的VGG特征映射作為輸入，并結合兩個輸出特征映射，集成了兩個SANet

4.4. Runtime Controls

在本節中，我們通過幾個應用展示了我們方法的靈活性。

【圖8：運行時的內容-風格權衡。我們的算法允許在運行時通過在特征映射F mccc和F mcsc之間插值來調整這種權衡。】

[圖9：具有四種不同樣式的樣式插值。]

[圖10：空間控制示例。左：內容圖像。中間：樣式圖像和遮罩。右：來自兩個不同樣式圖像的樣式化圖像。]

內容-風格權衡。可以在訓練期間通過調整等式6中的樣式權重λs來控制樣式化程度，或者在測試期間通過在饋送到解碼器的特征映射之間插值來控制樣式化程度。對于運行時控制，我們調整了mcsc的樣式化特性← ? αF mcsc+（1? α） F mccc和?α ∈ [0, 1]. 通過將兩幅內容圖像作為模型的輸入，獲得了映射F-mccc。當α=0時，網絡嘗試重建內容圖像，當α=1時，嘗試合成最具風格的圖像（如圖8所示）。

樣式插值。為了在多個樣式圖像之間插值，可以將來自不同樣式的mcsc的特征映射的凸組合饋入解碼器（如圖9所示）。

空間控制。圖10顯示了在空間上控制樣式化的示例。此外，還需要一組掩碼M（圖10第3列）作為輸入，以映射內容區域和樣式之間的空間對應關系。我們可以通過用M J F mcsc替換F mcsc在每個空間區域中分配不同的樣式，其中J是一個簡單的maskout操作。

5. Conclusions

在這項工作中，我們提出了一種新的任意風格轉換算法，該算法由風格注意網絡和解碼器組成。我們的算法是有效的。與[20]中基于補丁的樣式裝飾器不同，我們提出的SANet可以通過使用傳統的樣式重建損失和身份損失進行學習來靈活地裝飾樣式特征。此外，提出的身份丟失有助于SANet保持內容結構，豐富局部和全局風格模式。實驗結果表明，該方法合成的圖像優于其他最先進的任意樣式傳輸算法。

Acknowledgments.

致謝。本研究由文化、體育和旅游部（MCST）和韓國創意內容署（KOCCA）在2019年文化技術（CT）研發計劃中提供支持

References

[1] D. Chen, L. Y uan, J. Liao, N. Y u, and G. Hua. StyleBank:
An explicit representation for neural image style transfer. In
Proc. CVPR, volume 1, page 4, 2017.
[2] T. Q. Chen and M. Schmidt. Fast patch-based style transfer
of arbitrary style. arXiv preprint arXiv:1612.04337, 2016.
[3] V . Dumoulin, J. Shlens, and M. Kudlur. A learned represen-
tation for artistic style. In Proc. ICLR, 2017.
[4] L. Gatys, A. S. Ecker, and M. Bethge. Texture synthesis
using convolutional neural networks. In Advances in Neural
Information Processing Systems, pages 262–270, 2015.
[5] L. A. Gatys, A. S. Ecker, and M. Bethge. Image style transfer
using convolutional neural networks. In Proc. CVPR, pages
2414–2423, 2016.
[6] L. A. Gatys, A. S. Ecker, M. Bethge, A. Hertzmann, and
E. Shechtman. Controlling perceptual factors in neural style
transfer. In Proc. CVPR, 2017.
[7] X. Huang and S. J. Belongie. Arbitrary style transfer in real-
time with adaptive instance normalization. In Proc. ICCV,
pages 1510–1519, 2017.
[8] J. Johnson, A. Alahi, and L. Fei-Fei. Perceptual losses for
real-time style transfer and super-resolution. In Proc. ECCV,
pages 694–711. Springer, 2016.
[9] D. P . Kingma and J. Ba. Adam: A method for stochastic
optimization. arXiv preprint arXiv:1412.6980, 2014.
[10] C. Li and M. Wand. Combining Markov random fields and
convolutional neural networks for image synthesis. In Proc.
CVPR, pages 2479–2486, 2016.
[11] C. Li and M. Wand. Precomputed real-time texture synthesis
with Markovian generative adversarial networks. In Proc.
ECCV, pages 702–716. Springer, 2016.
[12] Y . Li, C. Fang, J. Yang, Z. Wang, X. Lu, and M.-H. Yang.
Diversified texture synthesis with feed-forward networks. In
Proc. CVPR, 2017.
[13] Y . Li, C. Fang, J. Yang, Z. Wang, X. Lu, and M.-H. Yang.
Universal style transfer via feature transforms. In Advances
in Neural Information Processing Systems, pages 386–396,
2017.
[14] Y . Li, N. Wang, J. Liu, and X. Hou. Demystifying neural
style transfer. arXiv preprint arXiv:1701.01036, 2017.
[15] T.-Y . Lin, M. Maire, S. Belongie, J. Hays, P . Perona, D. Ra-
manan, P . Dollár, and C. L. Zitnick. Microsoft COCO: Com-
mon objects in context. In Proc. ECCV, pages 740–755.
Springer, 2014.
[16] A. Paszke, S. Chintala, R. Collobert, K. Kavukcuoglu,
C. Farabet, S. Bengio, I. Melvin, J. Weston, and J. Ma-
riethoz. PyTorch: Tensors and dynamic neural net-
works in Python with strong GPU acceleration, Available:
https://github.com/pytorch/pytorch, May 2017.
[17] F. Phillips and B. Mackintosh. Wiki Art Gallery, Inc.: A
case for critical thinking. Issues in Accounting Education,
26(3):593–608, 2011.
[18] E. Risser, P . Wilmot, and C. Barnes. Stable and controllable
neural texture synthesis and style transfer using histogram
losses. arXiv preprint arXiv:1701.08893, 2017.
[19] F. Shen, S. Yan, and G. Zeng. Meta networks for neural style
transfer. arXiv preprint arXiv:1709.04111, 2017.
[20] L. Sheng, Z. Lin, J. Shao, and X. Wang. Avatar-Net: Multi-
scale zero-shot style transfer by feature decoration. In Proc.
CVPR, pages 8242–8250, 2018.
[21] K. Simonyan and A. Zisserman. V ery deep convolutional
networks for large-scale image recognition. arXiv preprint
arXiv:1409.1556, 2014.
[22] D. Ulyanov, V . Lebedev, A. V edaldi, and V . S. Lempitsky.
Texture networks: Feed-forward synthesis of textures and
stylized images. In Proc. ICML, pages 1349–1357, 2016.
[23] D. Ulyanov, A. V edaldi, and V . Lempitsky. Instance normal-
ization: The missing ingredient for fast stylization. arXiv
preprint arXiv:1607.08022, (2016).
[24] D. Ulyanov, A. V edaldi, and V . S. Lempitsky. Improved
texture networks: Maximizing quality and diversity in feed-
forward stylization and texture synthesis. In Proc. CVPR,
volume 1, page 3, 2017.
[25] A. V aswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones,
A. N. Gomez, ?. Kaiser, and I. Polosukhin. Attention is all
you need. In Advances in Neural Information Processing
Systems, pages 5998–6008, 2017.
[26] H. Wang, X. Liang, H. Zhang, D.-Y . Yeung, and E. P . Xing.
ZM-Net: Real-time zero-shot image manipulation network.
arXiv preprint arXiv:1703.07255, 2017.
[27] X. Wang, R. Girshick, A. Gupta, and K. He. Non-local neural
networks. arXiv preprint arXiv:1711.07971, 2017.
[28] X. Wang, G. Oxholm, D. Zhang, and Y .-F. Wang. Multi-
modal transfer: A hierarchical deep convolutional neural net-
work for fast artistic style transfer. In Proc. CVPR, volume 2,
page 7, 2017.
[29] H. Zhang and K. Dana. Multi-style generative network for
real-time transfer. arXiv preprint arXiv:1703.06953, 2017.
[30] H. Zhang, I. Goodfellow, D. Metaxas, and A. Odena. Self-
attention generative adversarial networks. arXiv preprint
arXiv:1805.08318, 2018.

總結

以上是生活随笔為你收集整理的风格迁移篇---SAnet：风格注意网络下的任意风格转换的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： 847. Shortest Path V
下一篇： QMouseEvent 的坐标__Win