當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

MIT麻省理工最新研究揭示GAN生成数据可视化分析

發布時間：2024/3/12 编程问答 30 豆豆

生活随笔收集整理的這篇文章主要介紹了 MIT麻省理工最新研究揭示GAN生成数据可视化分析小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

背景

生成對抗網絡（GAN）對于合成真實圖像非常有用，但我們不禁要問：你怎么知道GAN不能生成什么模式丟失或模式崩潰被認為是GAN面臨的最大挑戰之一，GAN忽略了目標分布的某些部分，但是對于GAN中的這種現象，目前的分析工具提供的信息很少.

麻省理工學院的研究可視化了分布和實例級別的模式崩潰。

首先，作者部署了一個語義分割網絡來比較分割后的目標在結果圖像中的分布和訓練集的目標集。統計上的差異可以揭示GAN忽略的目標類別。

圖1a顯示，在church-GAN模型中，目標類別（如人、車和柵欄）在生成的分布中出現的像素比訓練分布中少。

圖1b我們比較了一對真實圖像及其重構，其中無法生成人和柵欄的個體實例。在每個塊中，我們都顯示真實照片（左上），生成的重建圖（右上）和兩者的分割圖（下）。

然后，給出被省略的目標類別，作者直接可視化了GAN的省略。具體來說，作者比較了照片和GAN反轉的相似圖像之間的具體差異。為此，作者放寬了反問題的局限性，解決了GAN單層（而不是整個發生器）的反轉問題。

在實驗中，作者應用這個框架分析了最近幾次在不同場景數據集上訓練的GANs作者驚訝地發現，丟失的目標類別沒有被扭曲、渲染不良或渲染噪音。相反，它們實際上根本沒有渲染，就好像對象不是場景的一部分圖1b顯示了一個例子，在這個例子中，您可以看到更大的肖像被完全跳過，柵欄的平行線被完全忽略。因此，GAN可以忽略太難處理的類別，同時獲得更高的平均視覺質量輸出。

方法

數量分布水平模式崩塌

利用場景圖像的層次結構可以分析GAN的系統誤差每個場景都可以自然地分解成對象，這樣就可以通過估計構成目標統計信息的偏差來估計與真實場景分布的偏差。例如，裝飾臥室的GAN也應該裝飾一些窗簾如果窗簾的統計數據偏離了真實照片的統計數據，那么我們就知道可以通過檢查窗簾來查看GAN的具體缺陷。

為了實現這一目標，作者利用文獻[44]提出的統一感知分析網絡對所有圖像進行分割，將圖像中的每個像素標記為336個目標類別之一對于每個圖像樣本，作者收集每個目標類別的總像素面積，并收集所有分割目標類別的均值和協方差統計作者在一個生成的大圖像集和訓練集圖像上對這些統計數據進行采樣作者將所有目標分割的統計數據稱為“生成的圖像分割統計”。

圖2顯示了兩個網絡的平均統計數據。在每個圖中，將生成的每個目標類別的平均分割頻率與真實分布進行比較。

來看看臥室生成遺漏的可視化；

已測試用于LSUN臥室的漸進式GAN。最重要的是，對對象分布的比較表明，許多類的對象被發電機排除在外，包括人，靠墊，地毯，燈具和幾種類型的家具。在底部，照片圖中顯示了其重建G（E（x））以及分段。這些示例直接顯示出許多對象類被省略。

由于大多數類別不會出現在大多數圖像上，因此作者會按降序對類別進行分類，然后重點關注最常見的類別這種比較揭示了當前最佳模型之間的許多具體差異。分析中使用的兩個模型都是在相同的圖像分布（LSUN臥室集）上訓練的，但是WGAN-GP與真實分布之間的差距遠遠大于StyleGAN與真實分布之間的差距。

也可以使用一個值來總結段的統計差異。為此，作者定義了Frechet分割距離（FSD），它類似于常用的Frechet起始距離（FID）度量，但FSD可以解釋為：

其中μt是訓練圖像樣本上每個目標類別的平均像素數，∑t是這些像素數的協方差同樣，μg和∑g反映了生成模型的分割統計作者對實驗中產生的10000個樣本和10000個自然圖像進行了統計比較。

生成圖像分割統計信息可以測量整個分布：例如，它們可以顯示生成器忽略特定目標類別的情況但是，它們并不單獨排除應該生成目標但未生成的特定圖像為了獲得更深入的了解，需要一種在每個圖像上可視化生成器省略的方法。

定量模式級崩潰

為了解決上述問題，作者比較了圖像對（x，x'），其中x是真實圖像（包含GAN生成器G中缺少的特定目標類別），x'是GAN模型層可以生成的所有圖像的空間投影。

定義可解決的問題，理想情況下，您可以找到一個由生成器G完美組合的圖像，并使其接近真實圖像x。在數學中，目標是找到，，l是圖像特征空間中的距離度量不幸的是，由于G中含有大量的層，以前的方法無法解決發電機的這個完全逆問題因此，作者轉向求解這個完全反問題的一個可解子問題。作者將生成器G分解為若干層：

其中g u 1，…，gu n是生成器的幾個早期層，gu f組合了g的所有后期層。

任何可以由G生成的圖像都可以由G-u f生成，也就是說，如果用range（G）表示可以由G輸出的所有圖像的集合，那么就有range（G）換句話說，G不能生成G-u f不能生成的任何圖像。因此，可以在范圍（G）中確定的任何遺漏也在范圍（G）中丟失。

因此，對于圖層反轉，作者通過簡單地反轉G的后期圖層來可視化省略：

作者說，雖然最終的目標是中間表示r，但它可以從估計的z提供很多幫助：z的初始估計可以幫助搜索更好的r值，這些r值更有可能是z生成的。因此，求解這個逆問題的過程分為兩個步驟：首先，構造一個近似整個G的神經網絡E，并計算估計結果Z00= E（x）。然后，通過求解一個優化問題來確定一個中間表示，該中間表示可以生成一個重建圖像來非常相似地恢復x圖3顯示了這個層逆方法。

層反演方法綜述首先，訓練反向G的網絡E；這可用于獲得隱含z_0=E（x）及其中間表示的初始估計然后使用r_0初始化對r*的搜索，以使重建的x'接近目標x。

通過在更小的問題上預訓練各個層，可以更輕松地訓練深度網絡。因此，為了學習逆推神經網絡 E，作者選擇了逐層執行的方法。對于每一層 g_i ∈ {g_1, ..., g_n, G_f }，訓練一個小網絡 e_i 以近似地逆推 g_i。也就是說，定義 r_i = g_i(r_i?1)，目標是學習一個網絡 e_i，使其能近似計算 r_{i?1} ≈ e_i(r_i)。作者也希望網絡 e_i 的預測能夠很好地保留層 g_i 的輸出，因此需要 r_i ≈ g_i(e_i(r_i))。作者通過最小化左逆推和右逆推損失來訓練 e_i：

為了將訓練集中在由生成器獲得的表示流形附近，作者對 z 進行了采樣，并使用層 g_i 計算了 r_{i?1} 和 r_i 的樣本，因此 r_{i?1} = g_{i?1}(· ·· g_1(z)· ··)。這里 ||·||_1 表示 L1 損失，作者將 λ_R 設為 0.01 以強調 r_{i?1} 的重建。

一旦所有層都反轉，就可以為整個G構建反轉網絡：

實驗結果

這些差異通過Frechet分割距離進行了總結，證實了較好模型的分割統計量整體上更接近真實分布。

10000幅圖像有限樣本集上圖像分割統計生成的靈敏度。

圖6的前三列比較了新的逆方法和以前的逆方法圖6的最后三列比較了完全新方法（f）和兩個燒蝕實驗版本。

者應用上述逆推力工具測試了不同發生器在訓練集外合成圖像的能力。圖7顯示了使用在LSUN臥室集合上訓練的漸進GAN來反轉和重建不同場景的自然照片的定性結果的應用方法（f）。

總結

作者提出了一種方法來測量和可視化最新生成模型中的模式下降。產生的圖像分割統計信息可以比較不同模型和架構的質量，并提供有關它們的輸出空間的語義差異。層反轉讓我們進一步探究發電機的范圍自然照片，揭示特定的對象和樣式無法代表。

通過相互比較標記的分布，并通過比較自然照片與不完美的重建，我們可以識別出特定的物體，生成器無法生成的零件和樣式。作者在此提出的方法構成了分析和理解物體潛在空間的第一步。GAN并指出其他問題。

相關論文源碼下載地址：關注“圖像算法”微信公眾號回復“GANMIT”

總結

以上是生活随笔為你收集整理的MIT麻省理工最新研究揭示GAN生成数据可视化分析的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： GBase 8s灾备集群HAC (四)
下一篇：【找工作】三大运营商、航十