风格迁移篇--AdaAttN:重新审视任意神经风格转移中的注意机制
本文提出了一種新的注意力和歸一化模塊,稱為自適應注意力歸一化:AdaAttN,實現了最先進的任意圖像/視頻風格遷移,性能優于SANet、AdaIN等網絡,代碼已開源。
作者單位:百度,南京大學,國防科大
paddle代碼:https://github.com/PaddlePaddle/PaddleGAN
pytorch代碼:https://github.com/Huage001/AdaAttN
論文:http://arxiv.org/abs/2108.03647
文章目錄
- Abstract
- 1、Introduction
- 2、Related Works
- 2.1. Arbitrary Style Transfer
- 2.2. Video Style Transfer
- 3、Methods
- 3.1. Overall Framework
- 3.2. Adaptive Attention Normalization
- 3.3. Loss Function
- 3.4. Extension for Video Style Transfer
- 4. Experiments
- 4.1. Implementing Details
- 4.2. Comparison with State-of-the-Art Methods
- 4.3. Ablation Study
- 4.4. Video Style Transfer
- 4.5. Multi-Style Transfer
- 5、 Conclusion
- 6、References
- A. Network Details
- A.1. Decoder
- A.2. AdaAttN
- B. More Results
- B.1. Image Style Transfe
- B.2. Video Style Transfer
Abstract
快速任意神經風格轉換因其在各種應用中的靈活性而引起學術界、工業界和藝術界的廣泛關注。現有的解決方案要么在不考慮特征分布的情況下專注地將深度樣式特征融合到深度內容特征中,要么根據樣式自適應地規范化深度內容特征,使其全局統計信息匹配。雖然有效,留下淺層特征未被探索,并且沒有局部考慮特征統計,但它們容易產生不自然的輸出,產生令人不快的局部扭曲。為了緩解這一問題,本文提出了一種新的注意力和歸一化模塊,稱為自適應注意力歸一化(AdaAttN),用于在每個點的基礎上自適應地執行注意力歸一化。具體來說,空間注意力分數是從內容和風格圖像的淺層和深層特征中學習的。然后,通過將樣式特征點視為所有樣式特征點的注意力加權輸出的分布來計算逐點加權統計。最后,對內容特征進行歸一化,使其顯示與計算的逐點加權樣式特征統計相同的局部特征統計。此外,為了提高局部視覺質量,基于ADAATN推導了一種新的局部特征丟失算法。我們還擴展了AdaAttN,以便在稍作修改的情況下進行視頻樣式傳輸。實驗表明,我們的方法實現了最先進的任意圖像/視頻樣式傳輸。代碼和型號可用1。
1、Introduction
給定內容圖像Ic和風格圖像Is,藝術風格轉移旨在將Is的風格模式應用到Ic上,同時保留Ic的內容結構,它廣泛用于計算機輔助藝術生成。Gatys等人[9]的開創性工作提出了一種圖像優化方法,該方法迭代最小化預訓練深度神經網絡特征空間中的聯合內容和風格損失。這一耗時的優化過程促使研究人員探索更有效的方法。Johnson等人[18]也考慮使用前饋網絡直接生成渲染圖像,并實現實時風格傳輸。由于學習的模型只能適用于一種特定的樣式,因此該方法及其后續工作[40、34、35、21、27、39、16、20]被分類為每種樣式每種模型方法[17]。在文獻中,有多種風格的每模型解決方案[7、2、23、44]和任意風格的每模型[14、3、22、28、15、24、6、5、43、32、42、11]方法。在后一種情況下,模型可以接受任何樣式圖像作為輸入,并在訓練模型后在一次向前傳遞中生成樣式化結果。因此,它是最靈活的,越來越受到學術界、工業界和藝術界的關注。
然而,隨意的風格轉換遠未得到解決。對于任意樣式的傳輸網絡,實現靈活性犧牲了本地樣式模式建模能力。例如,開拓性工作[14]提出了一種簡單而有效的方法AdaIN,該方法將樣式圖像的全局均值和方差轉換為arXiv:2108.03647v2[cs.CV]2021 8月11日特征空間中的內容圖像,以支持任意輸入樣式圖像。由于特征的均值和方差是全局計算的,局部細節和逐點模式在很大程度上被忽略,因此局部風格化性能在很大程度上降低[28]。[5、22、15、24、10]中也存在靈活性和能力之間的類似權衡,其中內容圖像的所有局部特征點都由基于樣式圖像的相同變換函數處理。為了增強任意風格轉換模型的局部性意識,最近,多部著作[28,6,43]對此任務采用了注意力機制。他們的共同直覺是,模型應該更加關注樣式圖像中的那些特征相似區域,以便將內容圖像區域樣式化。事實證明,這種注意機制對于在任意樣式轉換中生成更多局部樣式細節是有效的。不幸的是,在提高性能的同時,它并沒有完全解決這個問題,局部失真仍然存在。
不難揭示注意力機制面臨上述困境的原因。深入研究當前基于注意力的任意風格轉換解決方案的細節,可以很容易地發現:1)設計的注意力機制通常基于更高抽象級別的深度CNN特征,而忽略了低級別的細節;2) 注意力分數通常用于重新加權樣式圖像的特征圖,重新加權的樣式特征簡單地融合到內容特征中進行解碼。基于深度CNN特征的注意力策略使得淺層網絡層的低層圖像模式未被探索。因此,注意力分數可能很少關注低層次的紋理,并且受高層次語義的支配。同時,如SANet[28](圖3(b))所述,風格特征的空間重新加權,然后再融合重新加權的風格特征和內容特征,其工作原理不考慮特征分布。
為此,我們試圖解決這些問題,并在風格模式轉換和內容結構保持之間取得更好的平衡。基于上述分析得出的經驗教訓,我們提出了一種新的注意力和歸一化模塊,稱為自適應注意力歸一化(AdaAttN),用于任意風格轉換。它可以在每個點的基礎上自適應地執行注意力歸一化,以進行特征分布對齊。更詳細地說,空間注意力分數是從內容和風格圖像的淺層和深層特征中學習的。然后,通過將樣式特征點視為所有空間特征點的注意力加權輸出的分布來計算每點加權統計。最后,對內容特征進行歸一化,使其局部特征統計與逐點加權樣式特征統計相同。通過這種方式,注意力模塊同時考慮了風格圖像和內容圖像的淺層和深層CNN特征。同時,實現了從內容特征到調制樣式特征的逐點特征統計的對齊。基于AdaAttN模塊,推導了一種新的優化目標局部特征丟失和一種新的任意圖像樣式傳輸管道。我們的貢獻可以總結如下:
- 我們介紹了一種用于任意樣式傳輸的新型AdaAttN模塊。它在注意力分數計算中同時考慮了淺層和深層特征,并適當規范了內容特征,使特征統計與基于每個點的風格特征的注意力加權均值和方差圖很好地對齊。
- 提出了一種新的優化目標,稱為局部特征損失。它有助于模型訓練,并通過正則化生成圖像的局部特征來提高任意樣式的傳輸質量。
- 我們進行了大量實驗,并與其他最先進的方法進行了比較,以證明我們提出的方法的有效性。
- 通過簡單引入基于余弦距離的注意力和圖像相似性損失,進一步擴展我們的視頻風格傳輸模型,可以得到穩定而吸引人的結果。
2、Related Works
2.1. Arbitrary Style Transfer
最近的任意風格轉換方法可以分為兩類:基于全局轉換的方法和基于局部轉換的方法。前一類的共同思想是在全局范圍內應用特征修改。WCT[24]通過兩個轉換步驟實現了這一點,包括增白和著色。Huang等人[14]提出AdaIN,自適應地應用每個風格特征的均值和標準差來移動和重新縮放相應的歸一化內容特征,使內容特征和風格特征共享相同的分布。Jing等人[15]通過動態實例歸一化擴展了該方法,其中中間卷積塊的權重由另一個以樣式圖像為輸入的網絡生成。李等人[22]提出根據內容和風格特征生成線性變換。此外,鄧等人[5]得到了具有多通道相關性的變換函數。雖然這些方法完成了整個任意樣式傳輸任務,并在該領域取得了很大進展,但由于它們所利用的全局轉換難以處理詳細的局部信息,因此局部樣式傳輸性能通常不令人滿意。
對于后者,陳等人[3]提出了一種風格交換方法,這是一種基于補丁的風格轉移方法,依賴于內容和風格補丁之間的相似性。[11] 是另一種基于面片的方法,同時考慮全局統計和局部面片的匹配。Avatar Net[32]進一步提出了一個多尺度框架,該框架結合了風格交換和AdaIN功能的思想。近年來,由于注意力機制能夠對樣式和內容圖像的局部特征之間的細粒度對應進行建模,因此它被廣泛應用于任意樣式轉換。在這一過程中,Park等人[28]提出了風格注意網絡(SANet),以匹配內容和風格特征。Y ao等人[43]考慮了具有這種注意力框架的不同類型的中風。鄧等人[6]提出了一個多適應模塊,對內容特征應用點式注意,對風格特征應用通道式注意。這些方法采用的常見做法是僅基于深度CNN特征構建注意力機制,而不考慮淺層特征,并簡單地混合內容特征和重新加權的風格特征。因此,它往往會極大地扭曲原始內容結構,并對人眼產生不希望的效果。在本文中,我們的目標是探索風格模式轉換和內容結構保持之間的更好權衡。0
2.2. Video Style Transfer
直接將圖像樣式傳輸技術應用于視頻幀序列通常會導致由時間不一致性引起的閃爍效應。因此,許多工作將光流一致性約束添加到原始圖像樣式傳輸解決方案中,例如,[30]用于基于優化的視頻樣式傳輸,[31,1,12,13,8]用于每個樣式/模型方法,[37,38]用于任意樣式/模型方法,以及[36,4,26]用于圖像到圖像轉換框架。光流約束提高了視頻風格傳輸的穩定性。然而,它嚴重依賴于預提取的高精度光流場來執行基于流的扭曲。也有一些工作用光流翹曲以外的方法解決穩定性問題。[22,5]利用變換模型的線性來保證特征空間上的幀間一致性。吳等人[41]提出了一種基于SANet的方法,該方法借助SSIM一致性約束使當前幀聚焦于前一幀的相似區域。與這些方法不同的是,在本文中,我們添加了一種新的基于注意機制的圖像相似性損失來克服閃爍偽影,并且在不需要先決條件光流的情況下實現了相當甚至更好的穩定性。
3、Methods
3.1. Overall Framework
該網絡采用樣式圖像和內容圖像集成電路來合成樣式化圖像集成電路。在我們提出的模型中,我們使用預先訓練的VGG-19網絡[33]作為編碼器來提取多尺度特征地圖。解碼器遵循[14]的設置,具有對稱結構的VGG19為了充分利用淺層和深層的功能,我們采用了多級策略,分別在VGG的ReLU3 1、ReLU-4 1和ReLU-5 1層上集成了三個AdaAttN模塊,如圖2所示。我們將VGG中ReLU-x 1層的提取特征表示為F x? ∈ RC×H?W? 當它拍攝圖像時? 作為輸入和? 這里可以是c或s,分別表示內容和樣式特征。為了充分利用低層模式,我們進一步將當前層的特征與其先前層的下采樣特征連接為:
其中Dx表示雙線性插值層,該層將輸入特征降采樣為相同的F x形狀? , 和⊕ 這里表示沿通道維度的級聯操作。然后,我們可以將AdaAttN模塊在l層的嵌入特征表示為:
其中,Fc、Fs和Fc分別是內容、樣式和嵌入特征。利用多級嵌入特征,我們可以合成帶有解碼器的風格化圖像集成電路,如下所示:
3.2. Adaptive Attention Normalization
特征轉換模塊是任意樣式轉換模型的關鍵組件。圖3展示了我們的模塊與其他框架的比較。開創性的AdaIN[14]只考慮整體風格分布,并對內容特征進行操作,使其特征分布與風格特征的分布全局一致。通過考慮局部風格模式,SANet[28]從風格和內容特征圖計算注意力圖,然后用注意力圖調整風格特征,將注意力輸出融合到內容特征中。薩內特在當地風格化中發揮作用。然而,它缺乏低層匹配和局部特征分布對齊。受AdaIN和SAnet經驗教訓啟發,我們提出了自適應注意力歸一化(AdaAttN)模塊,該模塊可以通過考慮具有注意力機制的低層和高層特征,在每個點的基礎上自適應地傳遞特征分布。如圖3(c)所示,AdaAttN分三步工作:(1)計算注意力地圖,從淺層到深層包含內容和風格特征;(2) 計算樣式特征的加權均值和標準方差圖;(3) 自適應歸一化內容特征,以實現逐點特征分布對齊。
**注意力地圖生成。**在任意風格轉換方法中,注意力機制用于衡量內容和風格特征之間的相似性。與以往只使用較深特征的方法不同,我們同時使用內容和風格特征的低層和高層。為了計算x層的注意力圖A,我們將Q(查詢)、K(鍵)和V(值)表示為:
其中f、g和h是1×1可學習卷積層,此處的N orm表示信道平均方差歸一化,如在實例歸一化中使用的。注意力圖A可以計算為:
? 表示矩陣乘法。
**加權均值和標準方差圖。**正如SANet[28]所做的那樣,將注意力得分矩陣A應用于風格特征F x可以被視為通過所有風格特征點的加權總和來計算每個目標風格特征點。在本文中,我們將此過程解釋為將注意力輸出視為所有加權風格特征點的分布來逐個查看目標風格特征點。然后從這個角度出發,我們可以計算每個分布的統計數據。我們分別將這類統計量稱為注意力加權平均值和注意力加權標準方差。因此,注意力加權平均值M∈ RC×HcWc變為:
其中A∈ RHcWc×HsWs和V∈ RC×HsWs。由于變量的方差等于其平方的期望值減去其期望值的平方,因此我們可以獲得注意力加權標準差S∈ RC×HcWc組件:
其中·表示元素乘積。
自適應歸一化。最后,對于歸一化內容特征圖的每個位置和每個通道,使用S中的相應比例和M中的偏移來生成變換后的特征圖:
簡而言之,AdaAttN通過生成注意力加權均值和方差圖來執行特征統計傳輸。如圖3所示,與AdaIN相比,AdaAttN考慮的是逐點統計,而不是全局統計。AdaAttN比AdaIN更一般。對于每個i,j,如果設置Ai,j=1 /(HsWs),AdaAttN可以專用于AdaIN。與SANet相比,注意力機制用于計算目標特征分布,而不是直接生成傳輸的特征進行進一步融合。
3.3. Loss Function
我們的總體損失函數是全局損失(Lgs)和局部特征損失(Llf)的加權總和:
其中λg和λl是控制其相應損失項權重的超參數。各損失條款的詳細信息將在本節剩余部分中解釋。
首先,在[14]和許多其他工作之后,對VGG特征空間中生成的圖像和樣式圖像之間的平均μ和標準偏差σ的距離進行懲罰,以保證全局樣式化效果(Lgs):
其中E()表示VGG編碼器的特征,其上標x表示層索引。
提出的新型局部特征丟失Llf約束了樣式化圖像的特征映射與AdaAttN函數的變換結果一致:
AdaAttN在哪里? 用作應具有確定性的監督信號。因此,我們考慮了沒有三個可學習的1×1卷積核(f、g和h)的AdaAttN的無參數版本。與[14,28]中使用的傳統內容丟失項相比,局部特征丟失使模型為局部區域生成更好的樣式化輸出。
3.4. Extension for Video Style Transfer
與其他基于注意力的方法相比,我們的方法能夠生成更自然的風格化結果,沒有太多的局部失真,因此它在視頻風格傳輸方面具有很大的潛力。只需稍作修改,我們的模型就可以擴展到視頻樣式傳輸。
首先,我們注意到,由于指數計算,等式5中的Softmax函數在注意力分數中表現出強烈的排他性,它可以主要關注局部模式,并且對穩定性有負面影響。對于視頻樣式傳輸,或者,我們考慮余弦相似性用于注意力圖計算:
其中,余弦相似性導致比Softmax更平坦的注意力分數分布。因此,局部特征統計將更加穩定,局部風格模式不會被過度強調,從而更好地保證一致性。
其次,基于注意機制,我們設計了一種新的跨圖像相似性損失項Lis來正則化兩個內容圖像c1、c2之間的相關內容:
其中,N xc是層ReLU-x 1,F x,i的內容特征圖F xc中的空間維度大小? 表示F x第i個位置的特征向量? , Di,j,xu,v測量F x,iu和F x,jv的余弦距離。在每個訓練迭代中,對兩個輸入視頻幀進行采樣以實現這種丟失。直觀上,這種跨圖像相似性損失要求兩個內容圖像的樣式化結果與兩個原始圖像共享相似的局部相似模式。因此,它確保了視頻樣式傳輸中幀間關系的感知,并有助于獲得穩定的結果。
4. Experiments
4.1. Implementing Details
我們使用MSCOCO[25]作為我們的內容圖像集,WikiArt[29]作為我們的樣式圖像集來訓練我們的任意樣式轉換模型。λg、λl和λis(用于視頻樣式傳輸僅)分別設置為10、3和100。Adam[19]的α、β1和β2分別為0.0001、0.9和0.999,用作求解器。在訓練階段,所有圖像以512×512分辨率加載,并隨機裁剪為256×256以進行增強。在推理過程中,我們的模型可以應用于任何分辨率的圖像。在本節中,圖像和視頻分別使用512×512和512×256分辨率。訓練在單個Nvidia Tesla P40 GPU上持續50K次迭代,批量大小為8個圖像和4個視頻。有關詳細的網絡配置,請參閱附錄。
4.2. Comparison with State-of-the-Art Methods
定性比較。如圖4所示,我們將我們的方法與六種最先進的任意樣式傳輸方法進行了比較,包括AdaIN[14]、SANet[28]、MAST[5]、Linear[22]、MCCNet[5]和Avatar Net[32]。AdaIN[14]直接全局調整內容特征的二階統計量,我們可以看到樣式模式在傳輸時丟失了嚴重的內容細節(第1、第5和第6行)。Avatar Net[32]利用AdaIN進行多尺度傳輸,并引入了具有面片匹配策略的樣式裝飾器,這導致了帶有明顯斑塊(第1、第6和第8行)的模糊樣式化結果。SANet[28]和MAST[5]采用注意機制,在深層將風格特征專注地轉換為內容特征。這將導致內容結構受損(第3、4和6行)和紋理變臟(第1、2和8行)。一些樣式補丁甚至不正確地直接傳輸到內容圖像中(第4行、第8行)。線性[22]和MCCNet[5]分別通過線性投影和每通道相關性修改特征,兩者都產生相對干凈的樣式化輸出。然而,樣式圖像的紋理模式無法自適應捕獲,內容細節丟失(第3、第5和第6行),內容圖像顏色保留(第7行)。如第3列所示,AdaAttN可以自適應地將樣式模式適當地轉移到內容圖像的每個位置,這歸因于每一點上新穎的注意力歸一化。結果表明,AdaAttN在風格轉換和內容結構保持之間實現了更好的平衡。用戶研究。在SANet之后,隨機選取15幅內容圖像和15幅風格圖像,形成總共225幅圖像對。然后,我們隨機抽取20個內容-風格對,用不同的方法合成風格化圖像。結果以隨機順序并排呈現,我們要求受試者從三個視圖中選擇他們最喜歡的一個:內容保留、風格化程度和總體偏好。我們從100個用戶的每個視圖中收集2000張投票,并以條形圖的形式顯示每個方法的投票數。圖6中的結果表明,我們的風格化結果比競爭對手更有吸引力。效率分析。我們在表1中演示了AdaAttN和SOTA前饋方法的運行時性能。所有實驗均使用單個Nvidia P40 GPU進行。雖然使用了多深度特征層(從1 1到5 1),但我們的方法仍然可以在256px下達到20 FPS,這與SOTA方法(如SANet[28]和Linear[22])相當。因此,我們提出的ADAATN可以實際地實時合成樣式化圖像。
4.3. Ablation Study
損失函數。如圖5所示,我們展示了消融研究結果,以驗證用于訓練AdaAttN的每個損失項的有效性。(1) 為了驗證我們提出的局部特征丟失Llf的有效性,我們將其替換為普通L2內容丟失Lc,該Lc約束Ic和Ic之間的特征距離,并用于許多樣式轉換方法[14、6、28]。如第4欄所示,其視覺質量明顯低于完整模型。這表明,與內容丟失相比,我們提出的局部特征丟失可以更好地考慮樣式模式,同時保留內容結構。(2) 我們刪除了僅使用Llf的全局損失Lgs和訓練模型。如第5列所示,風格模式的傳遞也很弱,沒有風格損失,這表明Llf可以在一定程度上迫使網絡學習風格傳遞。然而,整體顏色飽和度降低,這表明需要全局樣式損失。低電平功能。為了驗證AdaAttN中使用的淺特征的有效性,我們通過將AdaAttN的Q和K從F 1:x替換為F x來移除淺特征。可以觀察到一些局部內容損壞和臟紋理(圖5的最后一列)。我們的AdaAttN可以有效地利用淺層特征來生成令人愉快的風格化結果。
4.4. Video Style Transfer
對于視頻風格化,我們將我們的方法與SOTA方法SANet、Linear和MCCNet進行比較,其中光流不用于穩定。為了驗證我們提出的視頻風格化方法的有效性,我們還提供了添加Cos和Lis的消融結果,其中Cos表示余弦相似性的注意力分數(等式12)。定性結果見圖7,定量結果見圖9。多樣式轉換的結果。ble。2都證明了(1)我們的方法比基于注意力的方法SANet更穩定;(2) 用基于余弦距離的注意力代替Softmax激活可以顯著提高時間一致性;(3) 通過我們提出的修改,AdaAttN比線性和MCCNet更穩定,后者是用于視頻風格化的。
4.5. Multi-Style Transfer
繼之前的工作[28,6]之后,我們探索了通過平均不同風格的均值和標準方差圖來插值多個風格圖像,然后使用組合均值和方差來調制解碼的內容特征(圖8)。除了樣式插值外,我們還可以通過將多個樣式圖像連接到一個圖像并將其饋送到AdaAttN中來實現多樣式轉換(圖9)。從這些結果中,我們可以看到AdaAttN可以靈活地支持各種運行時控制,并產生合理的結果。
5、 Conclusion
在本文中,我們提出了一種用于任意樣式傳輸的新型AdaAttN模塊。AdaAttN使用樣式特征的每點注意力加權均值和方差通過調制執行特征統計數據傳輸。注意力權重由風格和內容特征從低級到高級生成。只需稍作修改,我們的模型就可以進行視頻風格的傳輸。實驗結果表明,我們的方法可以為圖像和視頻生成高質量的風格化結果。AdaAttN具有改進其他圖像處理或翻譯任務的潛力,我們將在未來的工作中對此進行探索。
6、References
[1] Dongdong Chen, Jing Liao, Lu Y uan, Nenghai Y u, and Gang
Hua. Coherent online video style transfer. In Proceedings
of the IEEE International Conference on Computer Vision,
pages 1105–1114, 2017. 3
[2] Dongdong Chen, Lu Y uan, Jing Liao, Nenghai Y u, and Gang
Hua. Stylebank: An explicit representation for neural im-
age style transfer. In Proceedings of the IEEE conference on
computer vision and pattern recognition, pages 1897–1906,
2017. 1
[3] Tian Qi Chen and Mark Schmidt. Fast patch-based style
transfer of arbitrary style. arXiv preprint arXiv:1612.04337,
2016. 1, 2
[4] Yang Chen, Yingwei Pan, Ting Yao, Xinmei Tian, and Tao
Mei. Mocycle-gan: Unpaired video-to-video translation. In
Proceedings of the 27th ACM International Conference on
Multimedia, pages 647–655, 2019. 3
[5] Yingying Deng, Fan Tang, Weiming Dong, Haibin Huang,
Chongyang Ma, and Changsheng Xu. Arbitrary video
style transfer via multi-channel correlation. arXiv preprint
arXiv:2009.08003, 2020. 1, 2, 3, 7
[6] Yingying Deng, Fan Tang, Weiming Dong, Wen Sun, Feiyue
Huang, and Changsheng Xu. Arbitrary style transfer via
multi-adaptation network. In Proceedings of the 28th ACM
International Conference on Multimedia, pages 2719–2727,
2020. 1, 2, 3, 8
[7] Vincent Dumoulin, Jonathon Shlens, and Manjunath Kud-
lur. A learned representation for artistic style. arXiv preprint
arXiv:1610.07629, 2016. 1
[8] Chang Gao, Derun Gu, Fangjun Zhang, and Yizhou Y u.
Reconet: Real-time coherent video style transfer network.
In Asian Conference on Computer Vision, pages 637–653.
Springer, 2018. 3
[9] Leon A. Gatys, Alexander S. Ecker, and Matthias Bethge.
Image style transfer using convolutional neural networks. In
Proceedings of the IEEE Conference on Computer Vision
and Pattern Recognition (CVPR), June 2016. 1
[10] Golnaz Ghiasi, Honglak Lee, Manjunath Kudlur, Vincent
Dumoulin, and Jonathon Shlens. Exploring the structure of a
real-time, arbitrary neural artistic stylization network. arXiv
preprint arXiv:1705.06830, 2017. 2
[11] Shuyang Gu, Congliang Chen, Jing Liao, and Lu Y uan. Ar-
bitrary style transfer with deep feature reshuffle. In Proceed-
ings of the IEEE Conference on Computer Vision and Pattern
Recognition, pages 8222–8231, 2018. 1, 2
[12] Agrim Gupta, Justin Johnson, Alexandre Alahi, and Li Fei-
Fei. Characterizing and improving stability in neural style
transfer. In Proceedings of the IEEE International Confer-
ence on Computer Vision, pages 4067–4076, 2017. 3
[13] Haozhi Huang, Hao Wang, Wenhan Luo, Lin Ma, Wenhao
Jiang, Xiaolong Zhu, Zhifeng Li, and Wei Liu. Real-time
neural style transfer for videos. In Proceedings of the IEEE
Conference on Computer Vision and Pattern Recognition,
pages 783–791, 2017. 3
[14] Xun Huang and Serge Belongie. Arbitrary style transfer in
real-time with adaptive instance normalization. In Proceed-
ings of the IEEE International Conference on Computer Vi-
sion, pages 1501–1510, 2017. 1, 2, 3, 4, 5, 7, 8
[15] Y ongcheng Jing, Xiao Liu, Y ukang Ding, Xinchao Wang,
Errui Ding, Mingli Song, and Shilei Wen. Dynamic instance
normalization for arbitrary style transfer. In Proceedings of
the AAAI Conference on Artificial Intelligence, volume 34,
pages 4369–4376, 2020. 1, 2
[16] Y ongcheng Jing, Yang Liu, Yezhou Yang, Zunlei Feng,
Yizhou Y u, Dacheng Tao, and Mingli Song. Stroke con-
trollable fast style transfer with adaptive receptive fields. In
Proceedings of the European Conference on Computer Vi-
sion (ECCV), pages 238–254, 2018. 1
[17] Y ongcheng Jing, Yezhou Yang, Zunlei Feng, Jingwen Ye,
Yizhou Y u, and Mingli Song. Neural style transfer: A review.
IEEE transactions on visualization and computer graphics,
26(11):3365–3385, 2019. 1
[18] Justin Johnson, Alexandre Alahi, and Li Fei-Fei. Perceptual
losses for real-time style transfer and super-resolution. In
European conference on computer vision, pages 694–711.
Springer, 2016. 1
[19] Diederik P Kingma and Jimmy Ba. Adam: A method for
stochastic optimization. arXiv preprint arXiv:1412.6980,
2014. 7
[20] Dmytro Kotovenko, Artsiom Sanakoyeu, Sabine Lang, and
Bjorn Ommer. Content and style disentanglement for artistic
style transfer. In Proceedings of the IEEE/CVF International
Conference on Computer Vision (ICCV), October 2019. 1
[21] Chuan Li and Michael Wand. Precomputed real-time texture
synthesis with markovian generative adversarial networks. In
European conference on computer vision, pages 702–716.
Springer, 2016. 1
[22] Xueting Li, Sifei Liu, Jan Kautz, and Ming-Hsuan Yang.
Learning linear transformations for fast arbitrary style trans-
fer. arXiv preprint arXiv:1808.04537, 2018. 1, 2, 3, 7
[23] Yijun Li, Chen Fang, Jimei Yang, Zhaowen Wang, Xin Lu,
and Ming-Hsuan Yang. Diversified texture synthesis with
feed-forward networks. In Proceedings of the IEEE Con-
ference on Computer Vision and Pattern Recognition, pages
3920–3928, 2017. 1
[24] Yijun Li, Chen Fang, Jimei Yang, Zhaowen Wang, Xin Lu,
and Ming-Hsuan Yang. Universal style transfer via feature
transforms. arXiv preprint arXiv:1705.08086, 2017. 1, 2
[25] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays,
Pietro Perona, Deva Ramanan, Piotr Dollár, and C Lawrence
Zitnick. Microsoft coco: Common objects in context. In
European conference on computer vision, pages 740–755.
Springer, 2014. 6
[26] Songhua Liu, Hao Wu, Shoutong Luo, and Zhengxing Sun.
Stable video style transfer based on partial convolution with
depth-aware supervision. In Proceedings of the 28th ACM
International Conference on Multimedia, pages 2445–2453,
2020. 3
[27] Xiao-Chang Liu, Ming-Ming Cheng, Y u-Kun Lai, and
Paul L Rosin. Depth-aware neural style transfer. In Proceed-
ings of the Symposium on Non-Photorealistic Animation and
Rendering, pages 1–10, 2017. 1
[28] Dae Y oung Park and Kwang Hee Lee. Arbitrary style
transfer with style-attentional networks. In Proceedings of
the IEEE/CVF Conference on Computer Vision and Pattern
Recognition, pages 5880–5888, 2019. 1, 2, 3, 4, 5, 7, 8, 11
[29] Fred Phillips and Brandy Mackintosh. Wiki art gallery, inc.:
A case for critical thinking. Issues in Accounting Education,
26(3):593–608, 2011. 6
[30] Manuel Ruder, Alexey Dosovitskiy, and Thomas Brox.
Artistic style transfer for videos. In German conference on
pattern recognition, pages 26–36. Springer, 2016. 3
[31] Manuel Ruder, Alexey Dosovitskiy, and Thomas Brox.
Artistic style transfer for videos and spherical images. Inter-
national Journal of Computer Vision, 126(11):1199–1219,
2018. 3
[32] Lu Sheng, Ziyi Lin, Jing Shao, and Xiaogang Wang. Avatar-
net: Multi-scale zero-shot style transfer by feature decora-
tion. In Proceedings of the IEEE Conference on Computer
Vision and Pattern Recognition, pages 8242–8250, 2018. 1,
3, 7
[33] Karen Simonyan and Andrew Zisserman. V ery deep convo-
lutional networks for large-scale image recognition. In In-
ternational Conference on Learning Representations, 2015.
3
[34] Dmitry Ulyanov, V adim Lebedev, Andrea V edaldi, and Vic-
tor S Lempitsky. Texture networks: Feed-forward synthesis
of textures and stylized images. In ICML, volume 1, page 4,
2016. 1
[35] Dmitry Ulyanov, Andrea V edaldi, and Victor Lempitsky. Im-
proved texture networks: Maximizing quality and diversity
in feed-forward stylization and texture synthesis. In Pro-
ceedings of the IEEE Conference on Computer Vision and
Pattern Recognition, pages 6924–6932, 2017. 1
[36] Ting-Chun Wang, Ming-Y u Liu, Jun-Yan Zhu, Guilin Liu,
Andrew Tao, Jan Kautz, and Bryan Catanzaro. Video-to-
video synthesis. arXiv preprint arXiv:1808.06601, 2018. 3
[37] Wenjing Wang, Jizheng Xu, Li Zhang, Y ue Wang, and Jiay-
ing Liu. Consistent video style transfer via compound reg-
ularization. In Proceedings of the AAAI Conference on Ar-
tificial Intelligence, volume 34, pages 12233–12240, 2020.
3
[38] Wenjing Wang, Shuai Yang, Jizheng Xu, and Jiaying Liu.
Consistent video style transfer via relaxation and regulariza-
tion. IEEE Trans. Image Process., 2020. 3
[39] Xin Wang, Geoffrey Oxholm, Da Zhang, and Y uan-Fang
Wang. Multimodal transfer: A hierarchical deep convolu-
tional neural network for fast artistic style transfer. In Pro-
ceedings of the IEEE Conference on Computer Vision and
Pattern Recognition, pages 5239–5247, 2017. 1
[40] Hao Wu, Zhengxing Sun, and Weihang Y uan. Direction-
aware neural style transfer. In Proceedings of the 26th ACM
international conference on Multimedia, pages 1163–1171,
2018. 1
[41] Xinxiao Wu and Jialu Chen. Preserving global and local
temporal consistency for arbitrary video style transfer. In
Proceedings of the 28th ACM International Conference on
Multimedia, pages 1791–1799, 2020. 3
[42] Zhijie Wu, Chunjin Song, Yang Zhou, Minglun Gong, and
Hui Huang. Efanet: Exchangeable feature alignment net-
work for arbitrary style transfer. In Proceedings of the
AAAI Conference on Artificial Intelligence, volume 34, pages
12305–12312, 2020. 1
[43] Y uan Yao, Jianqiang Ren, Xuansong Xie, Weidong Liu,
Y ong-Jin Liu, and Jun Wang. Attention-aware multi-stroke
style transfer. In Proceedings of the IEEE/CVF Conference
on Computer Vision and Pattern Recognition, pages 1467–
1475, 2019. 1, 2, 3
[44] Hang Zhang and Kristin Dana. Multi-style generative net-
work for real-time transfer. In Proceedings of the European
Conference on Computer Vision (ECCV) Workshops, pages
0–0, 2018. 1
A. Network Details
A.1. Decoder
我們框架的解碼器將ReLU-3 1、ReLU-4 1和ReLU-5 1層上的三個AdaAttN模塊的結果作為輸入。與SANet的解碼器類似,ReLU-5 1上的特征被上采樣到與ReLU4 1相同的大小,然后進行元素相加。然后,有一個可學習的3×3卷積塊用于特征變換。以下架構與VGG編碼器(高達ReLU-4 1)對稱,除了ReLU-3 1層上的輸入通道數量是兩倍,以便在此級別上合并AdaAttN輸出。完整的解碼器配置如表3所示。
A.2. AdaAttN
我們提供AdaAttN模塊的PyTorch代碼。該實現非常優雅,其整體時間和空間復雜性與SANet相同[28]。
B. More Results
B.1. Image Style Transfe
用戶控制。我們的方法可以方便地支持用戶控制的樣式化。用戶指定的內容區域將通過操作AdaAttN模塊中使用的注意力圖來采用用戶指定的樣式區域的特征。實際上,用戶可以通過鼠標單擊(例如,圖10(左))在內容和樣式圖像上選擇點,也可以概述具有閉合邊界的區域(例如,圖10(右))。然后,可以通過經典的區域增長算法生成用戶指定的內容和樣式圖像區域。要實現使用控制的樣式化,只需將指定內容區域和不感興趣的樣式區域之間的注意力分數設置為?∞ 之前,AdaAttN中的Softmax操作可以很好地工作。更多消融。正如我們在主要論文中所討論的,有兩個因素導致SANet的扭曲stlylization:缺乏底層特征和分布對齊失敗。為了進一步說明這些因素的影響,我們在四種設置下進行了更多的消融研究:(1)AdaAttN,(2)沒有淺特征的AdaAttN,(3)具有淺特征的SANet,和(4)SANet。如圖11所示,淺特征和特征分布對齊在一定程度上防止了臟紋理。將它們結合在一起,本文中的AdaAtN以最小的失真獲得了最佳的風格化結果。內容和風格的成對組合。為了證明我們的方法對不同內容和樣式的魯棒性,我們在圖12中提供了8個內容圖像和6個樣式圖像之間成對組合的樣式化結果。可以看出,我們的AdaAttN能夠有力地實現吸引人的風格轉換結果。
B.2. Video Style Transfer
B、 2。視頻風格傳遞定量結果。作為表2的補充,用于視頻風格化的所有20種風格2的光流誤差如表4所示。定性結果。我們在圖13中提供了更多視頻風格轉換示例。完整的動畫可以在附件中找到。
總結
以上是生活随笔為你收集整理的风格迁移篇--AdaAttN:重新审视任意神经风格转移中的注意机制的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Start Instance 操作详解
- 下一篇: 机器学习中的数学--数学知识复习