利用条件GANs的pix2pix进化版:高分辨率图像合成和语义操作 | PaperDaily #23
在碎片化閱讀充斥眼球的時代,越來越少的人會去關注每篇論文背后的探索和思考。
在這個欄目里,你會快速 get 每篇精選論文的亮點和痛點,時刻緊跟 AI 前沿成果。
點擊本文底部的「閱讀原文」即刻加入社區,查看更多最新論文推薦。
這是 PaperDaily 的第?23?篇文章本期推薦的論文筆記來自 PaperWeekly 社區用戶 @Aidon。這個名為 pix2pixHD 的項目來自英偉達和 UC Berkeley,利用條件 GAN 進行 2048 x 1024 分辨率的圖像合成和處理。
本文從三個方面對 pix2pix 方法做了改進,還將他們的方法擴展到交互式語義操作,這對于傳統的圖像逼真渲染是一個顛覆性的工作。
如果你對本文工作感興趣,點擊底部的閱讀原文即可查看原論文。
關于作者:鄭琪,華中科技大學碩士生,研究方向為計算機視覺和自然語言處理。
■?論文 | High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs
■ 鏈接 | https://www.paperweekly.site/papers/1278
■ 作者 | Aidon
論文導讀
現有的用于圖像逼真渲染的圖形學技術,在構建和編輯虛擬環境時往往非常復雜并且耗時,因為刻畫真實的世界要考慮的方面太多。
如果我們可以從數據中學習出一個模型,將圖形渲染的問題變成模型學習和推理的問題,那么當我們需要創造新的虛擬環境時,只需要在新的數據上訓練我們的模型即可。
之前的一些利用語義標簽合成圖像的工作存在兩個主要問題:1. 難以用 GANs 生成高分辨率圖像(比如 pix2pix 方法);2. 相比于真實圖像,生成的圖像往往缺少一些細節和逼真的紋理。
本文從三個方面對 pix2pix 方法做了改進:一個 coarse-to-fine 生成器,一個 multi-scale 判別器和一個魯棒的 loss,從而成功合成出 2048 x 1024 的逼真圖像。此外,本文還將他們的方法擴展到交互式語義操作,這對于傳統的圖像逼真渲染是一個顛覆性的工作。
模型介紹
1. The pix2pix Baseline?
給定語義標簽圖和對應的真實照片集 (si,xi),該模型中的生成器用于從語義標簽圖生成出真實圖像,而判別器用于區分真實圖像和生成的圖像,該條件GANs對應的優化問題如下:
其中:
pix2pix 采用 U-Net 作為生成器,在 Cityscapes 數據集上生成的圖像分辨率最高只有 256 x 256。
2. Coarse-to-fine 生成器?
這里一個基本的想法是將生成器拆分成兩個子網絡 G={G1,G2}:全局生成器網絡 G1 和局部增強網絡 G2,前者輸入和輸出的分辨率保持一致(如 1024 x 512),后者輸出尺寸(2048 x 1024)是輸入尺寸(1024 x 512)的 4 倍(長寬各兩倍)。
以此類推,如果想要得到更高分辨率的圖像,只需要增加更多的局部增強網絡即可(如 G={G1,G2,G3}),具體的網絡結構如圖所示:
其中 G1 由卷積前端,一系列殘差塊和一個轉置卷積后端組成,G2 也由卷積前端,一系列殘差塊和一個轉置卷積(有時也叫反卷積)后端組成。從圖中可以看到,的輸入是由的輸出和最后一層的 feature map 相加得到,這樣就使得全局信息可以傳遞到 G2。
3. Multi-scale 判別器?
要在高分辨率下區分真實的與合成的圖像,就要求判別器有很大的感受野,這需要更深的網絡或者更大的卷積核才能實現,而這兩種選擇都會增加網絡容量從而使網絡更容易產生過擬合問題,并且訓練所需的存儲空間也會增大。
這里用 3 個判別器 {D1,D2,D3} 來處理不同尺度的圖像,它們具有相同的網絡結構:
4. 改進的 adversarial loss?
由于生成器要產生不同尺度的圖像,為使訓練更加穩定,這里引入特征匹配損失:
其中表示判別器 Dk 提取的第 i 層特征,T 為總的層數,Ni 為該層總元素的個數。于是,總的目標函數如下:
5. 學習 instance-level 的特征嵌入?
當前的圖像合成方法都只利用了 pixel-level 的語義標簽圖,這樣無法區分同類物體,而 instance-level 的語義標簽為每一個單獨的物體提供了唯一的標簽。
文章指出,示例圖(instance map)所提供的最重要的信息其實是物體的邊緣。所以本文首先計算出示例邊緣圖(instance boundary map),如圖所示:
然后將語義標簽圖和示例邊緣圖連接起來,輸入到生成器網絡中。?
考慮到一個理想的圖像合成算法應該能夠從同一個語義標簽圖產生出多種逼真的圖像,而現有的方法無法讓用戶直觀地控制產生什么樣的圖像,并且不允許 object-level 的控制,于是本文提出將額外的低維特征也輸入到生成器網絡中。
為此,需要訓練一個編碼器網絡 E,用于確定與真實圖像中每個目標示例的低維特征向量,以 G(s,E(x)) 代替之前的 G(s),如圖所示:
在編碼器訓練好之后,輸入訓練圖像,找出圖像中的所有示例,并記錄對應的特征。然后利用 KK-means 聚類得到每一個語義類別的特征編碼。推斷時,隨機選取一個聚類中心作為編碼特征,與之前的標簽圖連接輸入到生成器網絡中。
實驗結果
實驗中設置 λ=10,K=10,用 3 維向量對示例特征進行編碼,采樣 LSGANs 用于穩定訓練。實驗比較了不同的圖像合成算法,包括 pix2pix 和 CRN,還比較了加入感知損失(w/o VGG)的結果,其中 F(i) 表示 VGG 網絡的第 i 層。
在 Cityscapes 數據集上的實驗結果如下:
在 NYU Indoor RGBD 數據集上的實驗結果如下:
更多關于的實驗結果可以閱讀原文或者訪問 project 網頁:
https://tcwang0509.github.io/pix2pixHD/
總結
本文提出了一個有通用性的基于條件 GANs 的網絡框架,用于高分辨率圖像合成和語義操作。相比于 pix2pix,本文在語義分割結果和圖像合成的清晰度以及細節上都有了很大的提升。
本文由 AI 學術社區 PaperWeekly 精選推薦,社區目前已覆蓋自然語言處理、計算機視覺、人工智能、機器學習、數據挖掘和信息檢索等研究方向,點擊「閱讀原文」即刻加入社區!
? ? ? ? ??
?我是彩蛋
?PaperWeekly x 百度
深度學習有獎調研
你最喜歡的深度學習框架是...
TensorFlow? PyTorch? Caffe?
?
?獎品福利?
我們將從認真作答的同學中抽取50名
贈送限量版禮品一份作為答謝
?
長按識別二維碼,參與調研
*本次活動獎品由百度提供
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 查看原論文
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的利用条件GANs的pix2pix进化版:高分辨率图像合成和语义操作 | PaperDaily #23的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 亚马逊高级应用科学家熊元骏:人类行为理解
- 下一篇: 当我们谈论「Chatbot」时,我们在读