CVPR 2021 | 澳洲国立大学提出基于模型的图像风格迁移
?作者|侯云鐘
學校|澳洲國立大學博士生
研究方向|計算機視覺
本文從另外一個角度解讀,澳洲國立大學鄭良老師實驗室 CVPR 2021 新工作。一般而言,我們需要同時利用兩張圖片完成圖像的風格遷移(style transfer):一張圖片指導內容(content);一張圖片指導風格(style)。在本文中, 我們探尋如何在僅利用一張圖片作為內容指導的情況下,通過訓練好的模型作為指導,將該圖片遷移至一種未曾見過的風格。我們首先展示一些示例結果,如下圖,在只利用目標(target)圖片的情況下,我們可以將其有效遷移至未曾見過的源(source)圖片風格。
基于模型的圖像風格遷移。在沒有利用源圖片(c)作為圖像風格指導的情況下,我們僅利用目標圖片(a),即可將其遷移至源域風格(b)。
論文標題:
Visualizing Adapted Knowledge in Domain Transfer
論文地址:
https://arxiv.org/abs/2104.10602
代碼地址:
https://github.com/hou-yz/DA_visualization
基于圖片的圖像風格遷移
不論是風格遷移(style transfer)還是圖像變換(image translation)工作,想要在保持圖片內容的條件下變換圖像的風格,都需要同時利用兩張圖片:一張圖片??指示內容;一張圖片??指示風格。此外,它們還需要一個特定的評價網絡 d,來推動圖像風格的變換。在風格遷移中(如 neural style transfer [1]),d 可能是 ImageNet 預訓練 VGG 的特征分布;在圖像變化中(如 cyclegan [2]),d 可能是兩個域分別對應的判別器網絡(discriminator)。
neural style transfer [1] 利用內容圖像、風格圖像、和基于ImageNet預訓練的VGG的評價網絡
cyclegan [2] 利用內容圖像數據集、風格圖像數據集(兩者互易)、和判別器形式的評價網絡
對于傳統的風格遷移,可以形式化的記為?,其中??為生成圖片,?分別代表風格圖像和內容圖像,d 代表某一特定評價網絡。
基于模型的圖像風格遷移
在本文中,不同于兩張圖片,我們利用訓練好的兩個模型,來指導圖像的風格遷移。特別的,我們考慮域遷移(domain adaptation)的任務情景:給定源域(source domain)和目標域(target domain),以及訓練好的適用于源域的網絡??和適用于目標域的網絡?,且默認這兩個網絡共享分類層 p(域遷移中常見設置)。
域遷移:可以得到分別適用于源域和目標域的兩個神經網絡模型,以此推動圖像風格遷移
基于這兩個網絡,我們探尋能否將目標域圖像直接遷移至源域風格。我們可以進一步給出任務目標的形式化定義?,其中圖片 x 指導生成圖片??的內容。對比傳統的圖像風格遷移?,基于模型的風格遷移存在以下區別:
1. 不能基于內容-風格圖像對??訓練,而是憑借源域模型??和目標域模型??指導圖像風格差異;
2. 風格遷移的標準不依賴于特定的評價網絡 d,而仍是依賴源域模型??和目標域模型?。
Source-Free Image Translation 方法
面對基于模型的風格遷移目標?,我們設計了一套方法,完成基于模型的圖像風格遷移任務。特別的,我們只利用目標域圖片??作為內容指導(即作為 x),而完全避免在圖像遷移的過程中利用源域圖片?。由此,我們的方法也得名source-free image translation(SFIT),即不依賴源域數據的圖像風格遷移。
基于模型的風格遷移:不依賴風格圖像和評價網絡;而是依賴源域模型、目標域模型
SFIT 方法的流程設計如下。給定(目標域)內容圖片 x,我們訓練一個生成器 來將其遷移至(源域)風格,生成圖片 。面對原始的內容圖片 x 和生成的風格化圖片 ,傳統的基于圖像的風格遷移和本文中提出的基于模型的風格遷移存在以下區別:
基于圖片的風格遷移(neural style transfer)約束生成圖片 內容上接近 (content loss: 評價網絡 d 特征圖之差),風格上接近 (style loss: 評價網絡 d 特征圖分布的區別)
基于模型的風格遷移(SFIT)約束這內容圖片 x 和生成的風格化圖片 在經過(預訓練且固定的)目標域模型 和源域模型 后,能獲得相似的輸出。我們通過約束最終輸出的相似和特征圖的分布相似,完成對生成圖片內容和風格上的約束。
損失函數設計
知識蒸餾(knowledge distillation):直接約束風格化前后圖片在源域和目標域模型上輸出相似。
由于這兩個模型描述相同的語義,相似輸出保證內容(按照網絡準確率的概率)不變。?
關系保持(relationship preserving):歸一化版本的 style loss,約束兩路特征圖輸出在特征分布(Gram 矩陣,即特征圖關于通道的自相關矩陣:抵消 HW 維度,剩余通道數 D 維度)上接近。
傳統的style loss約束兩張圖片在同一個評價網絡 d 上特征圖分布相似;
relationship preserving loss約束兩張圖片分別經過源域模型 和目標域模型 后,得到的特征圖歸一化分布相似。
由于兩個模型適用場景不同,相似輸出分布保證兩張圖片分別適應兩種風格(原始圖像及兩個域對應模型固定不變,則生成圖像需適應源域風格)。
為何約束不同網絡的特征圖分布可以遷移風格?
Demystifying neural style transfer [3] 一文證明,傳統 style loss 可以以類似域遷移中 Maximum Mean Discrepancy (MMD) loss 的方式,通過不同圖片在同一網絡的 Gram 矩陣以及二階統計量,遷移圖像的風格。
由于我們假設,源域的網絡 和一個適用于目標域的網絡 共享分類層 p (域遷移中常見設置),我們可以認為這兩個網絡在通道維度上語義是相對對齊的(共享分類層,需要global average pooling之后的特征向量在通道上對齊,才能在兩個不同的域上都獲得較好的結果)。鑒于此,我們可以認為, 和 這兩個網絡以一種松散的方式,保持著類似于同一網絡的特性,即通道維度語義對齊。
但畢竟,兩個網絡肯定還是存在差別,通道之間的關系也不可能嚴格維持不變。由此,我們在 relationship preserving loss 中,使用歸一化的 Gram 矩陣而非原始的 Gram 矩陣(如傳 統style loss)。
如下圖,歸一化的?Gram 矩陣能提供更加均勻的約束,而且能免于對某些維度的過度自信(傳統 style loss 存在過大 loss 值,在網絡不嚴格一致的情況下,可能過于自信)。
relationship preserving loss和傳統style loss對應的歸一化/原始Gram矩陣差別:歸一化的更加均勻,且避免過強(過度自信)的約束
實驗結果
實驗結果表明,僅依賴模型,也可以將目標域圖像有效遷移至源域風格。
VisDA數據集上風格遷移更多結果。左為原始圖片,右為風格化圖片。
我們也同時對比了利用不同方式遷移圖像風格的效果。如下圖,直接對齊Batch Norm 層中的統計量可以輕微遷移圖像風格 (b);傳統的 style loss 有效遷移風格,但存在邊緣和前景的過度白化 (c);文章中提出從 relationship preserving loss 則是在保持前景的同時(更加銳利的邊緣、和背景的區別更明顯),有效遷移的圖像風格。?
此外,我們還利用定量實驗驗證了風格遷移的結果是對源域和目標域模型知識差異的有效刻畫,且生成的風格圖片可進一步幫助微調域遷移模型。關于這方面的分析,請見論文原文,或從域遷移任務可解釋新角度的分析文章:
https://zhuanlan.zhihu.com/p/371101640
參考文獻
[1] Gatys, L. A., Ecker, A. S., & Bethge, M. (2016). Image style transfer using convolutional neural networks. InProceedings of the IEEE conference on computer vision and pattern recognition(pp. 2414-2423).?
[2]. Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. InProceedings of the IEEE international conference on computer vision(pp. 2223-2232).?
[3]. Li, Y., Wang, N., Liu, J., & Hou, X. (2017, August). Demystifying neural style transfer. InProceedings of the 26th International Joint Conference on Artificial Intelligence(pp. 2230-2236).
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的CVPR 2021 | 澳洲国立大学提出基于模型的图像风格迁移的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 17.5米大板都落着,超牌车2023年还
- 下一篇: 购车时最重要的是看什么呢?