Efficient Diffusion Models for Vision: A Survey
Efficient Diffusion Models for Vision: A Survey
論文:https://arxiv.org/abs/2210.09292
摘要
? 擴散模型(DM)在內容生成方面表現出了最先進的性能,無需對抗性訓練。這些模型采用兩步過程進行訓練。首先,前向擴散過程會逐漸增加數據(通常是圖像)的噪聲。然后,反向擴散過程逐漸去除噪聲,將其轉化為正在建模的目標分布的樣本。DM受非平衡熱力學的啟發,具有固有的高計算復雜性。由于高維空間中頻繁的函數求值和梯度計算,這些模型在訓練和推理階段都會產生相當大的計算開銷。這不僅會妨礙基于擴散的建模的民主化,而且會阻礙擴散模型在實際應用中的適應性。更不用說,由于過度的能源消耗和環境恐慌,計算模型的效率正迅速成為一個重要問題。這些因素導致了文獻中的多個貢獻,這些貢獻集中在設計計算效率高的DM上。在這篇綜述中,我們介紹了視覺擴散模型的最新進展,特別關注影響DM計算效率的重要設計方面。特別是,我們強調最近提出的設計選擇,這些設計選擇導致了更高效的DM。與其他最近的評論不同,這些評論從廣泛的角度討論了擴散模型,本次調查旨在通過突出文獻中的設計策略來推動這一研究方向,從而為更廣泛的研究群體提供實用的模型。我們還從計算效率的角度展望了視覺擴散模型的未來。
1. 介紹
? 深度生成性建模已經成為最令人興奮的計算工具之一,甚至挑戰著人類的創造力[1]。在過去十年中,生成對抗網絡(GAN)[91]、[92]由于其高質量的樣本生成而受到了廣泛關注。然而,擴散模型[2]、[3]、[4]最近已成為一種更強大的生成技術,威脅著GAN在合成數據生成中的統治地位。
? 擴散模型由于其比GAN更穩定的訓練以及生成的樣本質量更高而迅速流行。這些模型能夠解決GAN的一些臭名昭著的局限性,如模式崩潰、對抗性學習的開銷和收斂失敗[5]。與GAN相比,擴散模型的訓練過程使用了一種非常不同的策略,包括用高斯噪聲污染訓練數據,然后學習從噪聲中恢復原始數據。從可擴展性和可并行性的角度來看,這些模型也很適合,這增加了它們的吸引力。此外,由于他們的訓練過程是基于對原始數據進行小的修改并對其進行校正,因此他們學習的數據分布的樣本與原始數據密切相關。因此,在生成的樣本中實現了強烈的真實感。正是由于這些屬性,當前圖像生成的最新技術受到擴散模型的強烈影響,取得了驚人的結果[6]、[7]、[10]。
? 由于其驚人的生成能力,擴散模型很快在低級和高級視覺任務中得到應用,包括但不限于圖像去噪[93]、[74]、修補[100]、圖像超分辨率[98]、[99]、[101]、語義分割[94]、[95]、[96]、圖像到圖像的翻譯[4]等,自從擴散概率模型[8]比最初的擴散模型[46]有了重大進展以來,這方面的研究論文數量不斷增加,每天都有新的令人興奮的模型出現。特別是,在DALL-E[7]、Imagen[102]和Stable[80]模型實現了高質量的文本到圖像生成之后,擴散建模在社交媒體上得到了相當大的宣傳。最近,文本到視頻的生成技術進一步助長了這種炒作,視頻看起來相當復雜[88],[103]。圖1提供了關于擴散模型的最新文獻的統計數據和時間線概述,以顯示其受歡迎程度,特別是在視覺社區。
? 擴散模型屬于概率模型的一類,它需要過多的計算資源來建模未觀察到的數據細節。他們的訓練過程需要評估遵循迭代估計(和梯度計算)的模型。當處理圖像和視頻等高維數據時,計算成本變得特別巨大[9]。例如,[11]中的高端擴散模型培訓需要V100 GPU150-1000 天。此外,由于推理階段還需要對有噪聲的輸入空間進行重復評估,因此該階段的計算要求也很高。在[11]中,需要5天的A100 GPU才能產生50k樣本。Rombach等人[80]正確地指出,訓練有效擴散模型的巨大計算需求是這項技術民主化的關鍵瓶頸,因為研究界通常缺乏這類資源。顯然,使用擴散模型的最令人興奮的結果首先是由Meta AI[88]和Google Research[103]實現的,他們擁有巨大的計算能力。同樣值得注意的是,評估一個已經訓練好的模型需要花費大量的時間和內存,因為模型可能需要運行多個步驟(例如25-1000)以生成樣本[10]。這是擴散模型實際應用的潛在障礙,尤其是在資源受限的環境中。
? 在當代大規模數據時代,早期關于擴散模型的研究側重于高質量樣本的生成,而忽略了計算成本[8],[11],[12]。然而,在達到合理的質量里程碑之后,最近的工作也開始考慮計算效率,例如[80]、[97]、[60]。特別是,為了解決推理階段生成過程緩慢的真正缺陷,最近的工作出現了一種新趨勢,重點是提高效率。在這篇綜述文章中,我們將在計算效率視角下發展的擴散模型統稱為有效擴散模型。這些新興模型對研究界更有價值,因為它們需要可訪問的計算資源。盡管在提高計算效率方面不斷取得進展,但在樣本生成方面,擴散模型仍然比GAN慢得多[13],[14]。我們在不犧牲樣本生成的高質量的情況下,回顧了與效率相關的現有工作。此外,我們還討論了模型速度和采樣質量之間的權衡。
? 為什么模型效率至關重要?擴散模型已經能夠產生驚人質量的圖像和視頻,幾乎不需要用戶的努力-見圖2。這預示著這些模型在日常生活應用領域中的廣泛應用,如娛樂行業。擴散模型或任何人工智能平臺的創新能力都不是免費的。高質量的生成性建模是能量密集型的,質量要求越高,消耗的能量就越多。訓練一個復雜的人工智能模型需要時間、金錢和力量[15]、[16],從而留下大量的碳足跡。從一個角度來看,OpenAI在45 TB的數據上訓練了GPT-3模型[17]。Nvidia使用512個V100 GPU訓練了MegatronLM的最終版本,這是一種與GPT-3相當但比GPT-3小的語言模型。單個V100 GPU可能消耗300瓦。如果我們估計功耗為250瓦,512 V100 GPU使用128000瓦或128千瓦(kW)[18]。MegatronLM運行9天需要27648千瓦時的電力。根據美國能源信息管理局的數據,平均家庭每年消耗10649千瓦時。這意味著,培訓MegatronLM所需的能量幾乎相當于三座房屋一年所需的能源。在目前最受炒作的擴散模型中(由于其執行文本到圖像任務的能力),例如DALL-e[7]、Imagen[102]和Stable[80],Stable是迄今為止最有效的,因為其擴散過程主要在低維潛在空間中進行。然而,即使是這個模型的訓練也需要相當于燃燒近7000公斤煤炭的能量1。更不用說文本到圖像擴散模型已經依賴于語言模型,如上面提到的GPT-3。其他擴散模型,尤其是對于更復雜的任務,例如文本到視頻,預計需要更多的能量2。因此,由于這些模型的快速普及,重點關注更高效的方案至關重要。
? 本次調查的動機和獨特性:由于擴散模型最近受到了研究界的極大關注,文獻在這方面正經歷著大量的貢獻。這也導致了最近出現的評論文章。其中,Yang等人[3]從方法和應用的角度回顧了擴散建模的廣闊方向,Cao等人[2]也更廣泛地討論了擴散模型。與我們的綜述更相關的是[4],它關注視覺領域中的擴散模型。一方面,在這之前,所有這些評論都已經浮出水面方向完全成熟。例如,使用擴散模型[88]、[103]實現高質量文本到視頻生成的突破實際上是在所有這些調查出現之后實現的。另一方面,這些調查都沒有關注模型的計算效率,這是推動這一研究方向的中心方面。因此,這些調查留下了明顯的空白。我們的目標是通過強調提高擴散模型計算效率的技術的基本方案來解決這一問題。我們從這一務實的角度對現有方法進行了全面審查,預計將以本文編寫過程中出現的審查未涵蓋的方式推進這一研究方向。
2. 擴散模型概述
? 概率擴散模型的最初想法是對隨機噪聲的特定分布進行建模。因此,生成樣本的分布應該與原始樣本的分布相同。它包括一個正向過程(或擴散過程),其中復雜數據(通常是圖像)被逐漸加噪,以及一個反向過程(或反向擴散過程)。這里,我們特別描述了三種模型,因為它們對有效擴散結構的影響。它包括去噪擴散概率模型(DDPM)[8]、潛在擴散模型(LDM)[10]和特征金字塔潛在擴散模型[19]。
A. The Baseline: Denoising diffusion probabilistic models (DDPM):
? 假設我們有一個從真實數據分布中采樣的原始數據點x0~q(x)x_0~q(x)x0?~q(x)。讓我們定義一個正向擴散過程,在該過程中,我們逐漸向樣本添加少量高斯噪聲,從而產生一系列噪聲樣本x1,…,xTx_1,…,x_Tx1?,…,xT?。步長[βt∈(0,1)]t=1T[β_t∈(0,1)] ^T_{t=1}[βt?∈(0,1)]t=1T?由方差調度控制。
? 然而,擴散模型的實際優勢是稱為反向擴散的反向過程,因為訓練擴散模型的目的是學習反向過程。這可以通過訓練神經網絡來近似這些條件概率來完成,以便運行反向擴散過程。
? 當條件為x0x_0x0?時,反向條件概率是可處理的
? 將訓練數據的概率最大化的反向馬爾可夫變換用于訓練擴散模型。實踐中的訓練類似于減小負對數概率的變化上限。由于此配置與VAE極為相似,我們可以應用變化下限來優化負對數似然。
? 為了使方程中的每個分量都可以解析計算,可以將目標重新表述為許多KL散度和熵項的混合。讓我們分別標記變分下限損耗的每個分量:
? 由于LVLB中的每個KL項(不包括L0)都比較兩個高斯分布,因此它們可以以封閉形式計算。在反向擴散過程中,訓練神經網絡來近似條件概率分布。由于xtx_txt?在訓練時可用作輸入,高斯噪聲項可以重新參數化為:
? 從經驗上講,訓練擴散模型在忽略加權項的簡化目標下效果更好:
? 最后一個簡單的目標是L=Lt+CL=L_t+CL=Lt?+C,其中C是一個不依賴于θθθ的常數。
? 模型效率:通過遵循反向擴散過程的馬爾可夫鏈從DDPM生成樣本非常緩慢,因為T可以達到一個或幾千個步驟。例如,在Nvidia 2080 Ti GPU上,從DDPM中采集尺寸為32×32的50k圖像大約需要20小時,但從GAN中采集不到一分鐘。
B. Latent diffusion model (LDM):
? 這些模型在潛在空間而不是像素空間執行擴散過程,降低了訓練成本,提高了推理速度。這是由發現驅動的,即大多數圖片比特都有助于感知細節,并且語義和概念組成在極端壓縮后仍然存在。通過生成性建模學習,LDM通過首先使用自動編碼器去除像素級冗余,然后利用擴散過程對學習到的潛在信息操縱/生成語義思想,從而松散地分解感知壓縮和語義壓縮。
? 在感知壓縮過程中使用自動編碼器模型。E編碼器用于壓縮輸入圖片x∈ ×3轉換為較小的2D潛向量。z=?(x)∈Rh×w×cz=\epsilon(x)∈R^{h×w×c}z=?(x)∈Rh×w×c,其中下采樣率f=H/h=W/w=2m,m∈Nf=H/h=W/w=2^m,m∈ Nf=H/h=W/w=2m,m∈N然后,解碼器D從潛在向量x~=D(z)\widetilde{x}=D(z)x=D(z)重建圖像。為了防止潛在空間中的任意大的方差,該研究研究了自動編碼器訓練中的兩種正則化。
? LDM模型的神經主干被實現為時間條件UNet。該模型能夠主要從2D卷積層構建底層UNet,并使用重新加權的邊界進一步將目標集中在感知上最相關的比特上,該邊界現在為:
? 在潛在向量z上,發生擴散和去噪過程。去噪模型是一個有時間條件的UNet,它補充了一個交叉注意機制,以管理圖片制作的靈活條件信息(例如類標簽、語義圖、圖像的模糊變體)。該設計類似于將各種模態的表示融合到具有交叉注意機制的模型中。每種條件信息都與特定于域的編碼器τ∈RM×dττ∈\mathbb{R}^{M×d_τ}τ∈RM×dτ?:
C. Feature Pyramid Latent Diffusion Model ( Frido):
? Frido將輸入圖像分解為與尺度無關的量化特征,然后通過粗選通到細選通獲得輸出結果。簡而言之,作者首先使用多尺度MS-VQGAN(multi-scale VQGAN),將輸入圖像編碼到潛在空間,然后使用Frido在潛在空間中進行擴散。MS-VQGAN的編碼器將輸入圖像編碼為N級潛在變量,類似于圖像金字塔,但在潛在空間中。低級潛在變量保持低級視覺細節,而高級潛在變量保持高級形狀和結構。然后,解碼器將獲得的所有尺度的隱藏變量解碼為輸出圖像。這個隱藏變量的金字塔的大小也會隨著層數的增加而減小,并且每層都是上層的一半。通過這種方式,可以維護高級語義信息和更低級的細節。給定圖像x0x_0x0?,編碼器E首先生成N個尺度的潛在特征圖集每個尺度T步需要NTN×TNStepTNTN×TNStepTNTN×TNStepT。然后向前添加噪聲的擴散操作首先破壞圖像的細節,然后破壞高級形狀,最后破壞整個圖像的結構。
? 相應的去噪過程是一個從高水平到低水平的過程。基于先前的U-Net,作者提出了一種特征金字塔U-Net(PyU-Net)[19],以實現多尺度的去噪過程。該PyU網絡的兩個創新之處:通過向每個尺度添加一個輕量級網絡,每個層的隱藏變量映射到同一維度,以便它們可以統一為U-Net的輸入。相應地,也有必要為U-Net的輸入增加輕量化。要重新映射回當前縮放信息維度的網絡量。添加了從粗到精的門控,以允許低級別去噪,從而利用現有的高級別信息。為了更有效地進行培訓,作者使用了教師強制技巧,與教師強制一起工作,以保持培訓效率,同時防止過度匹配,并使UNet能夠獲得有關當前規模級別和時間步長的信息。最后,另一個特定級別的投影解碼U-Net輸出,以預測z上添加的噪聲,目標如下:
3. EFFECTIVE STRATEGIES FOR EFFICIENT DIFFUSION MODELS:
? 擴散模型需要重構需要采樣的數據分布。有效擴散模型的主要障礙是其采樣過程效率低下,因為從DDPM生成樣本非常緩慢。擴散模型依賴于擴散步驟的長馬爾可夫鏈來生成樣本,因此在時間和計算方面可能非常昂貴。
? 近年來,為加快取樣程序作出了重大努力。我們將這些影響策略分為兩類:高效設計策略(EDS)和高效過程策略(EPS),前者建議對基線擴散模型的設計進行修改,后者建議如何提高擴散模型的效率或加快采樣過程。然而,這些策略是通過修改文獻推斷出來的,未來的工作可能包括以下未提及的一些新穎策略。
A. Efficient Design Strategies (EDS)
? 這些策略基于擴散模型的架構。表1包括了所包括的每個建筑類別中的一些代表性工作。以下討論了每個類別的簡要描述及其對擴散模型效率的影響:
? 1-分類器導向或非導向設計:分類器導向是最近開發的一種策略,用于在訓練后條件擴散模型中平衡模式覆蓋率和樣本保真度,低溫采樣或截斷用于其他形式的生成模型。一個例子是Nichol[44]的一個工作,該工作在噪聲圖像xtx_txt?上訓練分類器fφ(y∣xt,t)f_φ(y|x_t,t)fφ?(y∣xt?,t),和使用漸變?xlogfφ(y∣xt)?xlog f_φ(y|x_t)?xlogfφ?(y∣xt?),以通過改變噪聲預測來將擴散采樣過程導向條件信息y(例如,目標類標簽)。
? 指導是一種權衡:它增強了對調節信號和整體樣本質量的堅持,但變化的代價很高。盡管分類器指南成功地權衡了截斷或低溫采樣的質量指標(IS和FID),但它仍然依賴于圖像分類器的梯度。
? 無分類器引導[20]在沒有這種梯度的情況下實現了相同的效果。無分類器引導是修改梯度以具有與分類器引導相同的效果但沒有分類器的替代方法。它提高了樣本質量,同時降低了擴散模型中的樣本多樣性。
? 2-離散或連續設計:擴散過程是一個連續的例子,其特征可能是隨機微分方程。概率流ODE(擴散ODE)是連續時間微分方程[45]。去噪擴散概率模型(DDPMs)[8]在連續狀態空間中的圖像和波形生成方面顯示了令人印象深刻的結果。
? 去噪擴散模型在許多常見圖像數據集上產生了顯著的對數似然分數,并且在連續情況下產生了高質量的圖像。許多數據集是離散的,但為了便于建模,它們經常被嵌入到連續的空間中,并被連續建模。
? 結構化的破壞過程適用于文本數據,使用令牌之間的相似性來實現漸進破壞和去噪。具有離散狀態空間的擴散模型首先由Sohl-Dickstein等人[46]引入,他們考慮了二元隨機變量的擴散過程。考慮二元隨機變量的簡單2×。
? Hoogeboom等人[47]后來將其擴展到分類變量,提出了一個轉移矩陣。
? 然而,這可能會導致棘手的建模問題,例如“去量化”阻塞、奇怪的梯度問題以及理解對數似然度量的困難。通過單獨表示離散數據,可以避免所有這些顧慮。
? 對于有序數據,離散模型不是均勻地過渡到任何其他狀態,而是通過使用離散的截斷高斯分布來模擬連續的空間擴散模型。
? 就有效設計而言,離散擴散設計更可取,因為它有助于減少樣本數量。具有離散狀態空間的擴散模型首先由Sohl-Dickstein等人[46]提出,他考慮了二元隨機變量的擴散過程。
? 盡管擴散模型已經在離散和連續狀態空間中提出,但當前的許多工作都集中于在連續狀態空間(例如,對于實值圖像和波形數據)中運行的高斯擴散過程。
? 3-分數匹配網絡或SDE設計:分數網絡可用于創建ODE(“基于分數的擴散ODE”),用于評估精確概率[30],[48]。他們通過將參數化得分網絡與一階數據得分函數匹配來模擬數據的分布。關于隨機變量x的對數似然的梯度被定義為分數。
? 分數匹配的目的是通過優化Fisher散度來減少ptextdata和ptextdata之間的差異。它已用于醫學應用,如低劑量計算機斷層掃描(LDCT),導致低信號-信噪比(SNR)和診斷性能的潛在損害。條件降噪擴散概率模型(DDPM)已被證明能夠提高LDCT降噪性能,并在高計算效率下獲得令人鼓舞的結果。特別是考慮到原始DDPM模型的高采樣成本,可以對快速常微分方程(ODE)求解器進行縮放,以大大提高采樣效率。實驗[49]表明,加速DDPM可以在不降低圖像質量的情況下實現20倍的加速。
? 隨機微分方程(SDE)[21]是一個微分方程,其中一個或多個項是隨機過程,產生的解本身就是隨機過程。
? 擴散ODE可以看作是一種減少離散化誤差的半線性形式。DPM solver在CIFAR-10上用50個步驟完成了SOTA[73],它可以生成高質量的圖像),這是一個廣泛的升級。
? 與具有離散步長的傳統擴散方法相比,微分方程的數值公式使用高級求解器實現了更有效的采樣。靈感來自分數SDE和概率流(擴散),ODE。
? 4-金字塔或非金字塔設計:訓練擴散模型的金字塔方法,使其能夠通過提供坐標信息作為條件來理解輸入的不同尺度。這些模型連接輸入圖像并協調每個像素的值。然后,將隨機調整到目標分辨率的大小應用于合并的輸入。調整后的坐標值用正弦波編碼,擴展到高維空間,并作為訓練時的條件。得益于類似UNet的模型結構[59],成本函數對所有不同的分辨率都是海帶不變的,因此可以僅使用單個網絡進行優化。多尺度分數函數(采樣速度)是擴散模型的最關鍵缺點,通過反向采樣過程,與單個完整DDPM相比,采樣速度也可以更快。
? 因此,金字塔或多尺度方法為擴散模型提供了更好的效率。
? 5-基于像素或潛在表示的設計:數字圖像的大部分比特對應于不重要的信息。
? 雖然DM允許通過最小化負責任的損失項來抑制語義上無意義的信息,但梯度(在訓練期間)和神經網絡主干(在訓練和推理期間)仍然必須在所有像素上進行評估,從而導致冗余計算和不必要的昂貴優化和推理。
? 模型類潛伏擴散模型(LDMs)通過單個網絡通道從潛伏空間提供有效的圖像生成。LDMs在學習的潛伏空間中工作,在空間維度方面表現出更好的縮放特性。
? 因此,與基于像素的設計相比,潛在模型是有效的。
B. Efficient Process Strategies (EPS)
? 這些戰略的目標是改進擴散過程本身。表2包括所包括的每個工藝類別中的一些代表性工作。下面對每種類型及其對擴散模型效率的影響進行了簡要描述:
? 1-訓練策略:為了提高采樣速度,有幾種策略側重于修改訓練模式和噪聲時間表。然而,再訓練模型需要更多的處理,并增加了不穩定訓練的風險。幸運的是,有一系列稱為無訓練采樣的方法,它們使用預先訓練的模型直接增強了采樣算法。
? 高級無訓練采樣的目的是提供一種有效的采樣方法,用于以更少的步驟和更高的精度從預先訓練的模型中學習。分析方法、隱式采樣器、微分方程求解器采樣器和動態規劃調整是三種類型。
? 通過使用內存技術,動態編程可以遍歷所有選項,以在相對較短的時間內找到最佳解決方案。與以前的高效采樣方法相比,動態規劃方法發現了最佳采樣路徑,而不是構造更快速減少誤差的強步驟。
? 2-噪聲分布策略:與DDPM[8]不同,DDPM將噪聲規模定義為常數,對噪聲規模學習效果的研究受到了很大的關注[55],因為噪聲計劃學習在擴散和采樣期間也很重要。
? 每個采樣步驟都可以被視為在直達前面分布的直線上的隨機游走,這表明降噪可能有助于采樣操作。隨機噪聲的隨機游動由擴散和采樣過程中的噪聲學習引導,從而實現更有效的重構。
? 在大多數已知方法中,擴散過程的潛在噪聲分布是高斯噪聲。另一方面,用更多的自由度擬合分布可以提高此類生成模型的性能。正在研究擴散過程的其他噪聲分布形式。去噪擴散伽馬模型(DDGM)[54]表明,伽馬分布的噪聲改善了圖像和聲音的生成。
? 從隨機噪聲中獲得的樣本將在每個采樣步驟中重新調整,以更接近原始分布。
? 然而,使用擴散模型進行采樣需要太多的步驟,導致耗時的情況[74]。
? 3-混合或統一策略:混合建模需要將另一種形式的生成模型合并到擴散模型管道中,以利用其他人的高采樣速度,如對抗性訓練網絡和自回歸編碼器,以及高表達性,如規范化流[75]、[60]、[62]。因此,通過將兩個或多個模型與指定的模式組合來提取所有的優勢,可能會導致一種稱為混合建模的升級。
? 擴散方案學習的目的是研究不同擴散模式對模型速度的影響。截斷擴散和采樣過程,從而縮短采樣時間,有利于降低采樣時間,同時提高生產質量。截斷模式的主要目標是使用各種生成模型(如GAN[76]和V AE[77])生成較少分散的數據。
? 通過逐步從一個樣本模型提取知識到另一個樣本,可以增強擴散模型[78]。在教學生創建盡可能接近教師模型的一步樣本之前,學生模型在每個蒸餾步驟中都會根據教師模型重新加權。因此,學生模型可以在每次蒸餾操作期間將樣本步驟的數量減少一半。
? 廣義擴散的加速方法有助于廣泛模型的求解,并提供了有效采樣機制的見解。其他相關研究建立了擴散模型與去噪分數匹配之間的關系,這可以被認為是一種統一。
? 4-調度策略:改進訓練計劃需要更新經典的訓練方法,如擴散方案、噪聲方案和數據分配方案,所有這些都與采樣無關。
? 在求解擴散SDE時,減小離散化步長有助于加快采樣操作。然而,這種技術會導致離散化錯誤,并顯著影響模型性能[60]。因此,已經設計了幾種策略來優化離散化方案,以在保持優良樣本質量的同時最小化采樣步驟。
? 為了創建預測,馬爾可夫過程僅使用前一階段的樣本,這限制了大量早期數據的使用。相比之下,非馬爾科夫過程的轉換核可能依賴于更多的樣本,并使用這些樣本中的更多信息。因此,它可以創建具有高步長的準確預測,從而加快采樣方法。
? 或者,只需執行反向過程的某些階段以獲取樣本,就可以用樣本質量換取采樣速度。一些采樣可以通過在早期暫停或截斷正向和反向過程,或者通過重新訓練學生網絡并通過知識蒸餾繞過部分階段來完成。
? 使用強條件條件,擴散取樣可以在幾個步驟中完成。早期停止(ES)DDPM通過使用VAE生成之前的數據來生成隱式分布,從而學習潛在空間[66]。
? 如前所述,生成過程通常需要與擴散過程相同的步驟來重建DDPM中的原始數據分布[8]。然而,擴散模型具有所謂的解耦特性,因為它不需要相同數量的擴散和采樣步驟。隱式采樣方法基于生成隱式模型,包括確定性擴散和跳步采樣。令人驚訝的是,隱式模型不需要重新訓練,因為前鋒的擴散概率密度在任何時候都是恒定的。DDIM[43]使用連續過程公式來解決跳躍加速問題。
? 5-檢索策略:在訓練過程中,RDM[71]、[72]從外部數據庫獲取最近鄰居的集合,擴散模型以這些信息樣本為條件。檢索增強的工作原理是查找與您提供的提示類似的照片,然后讓模型在創建過程中查看它們。
? 在訓練過程中,通過CLIP和從每個訓練實例附近獲得的可比較視覺特征被輸入擴散模型。通過使用CLIP的組合圖像-文本嵌入空間[79],該模型在未經明確訓練的任務(如類條件或文本-圖像合成)上提供了非常有競爭力的性能,并且可能取決于文本和圖片嵌入,以提高其性能。檢索增強擴散模型[80]最近被有效地用于文本引導的藝術圖像合成。
? Retrieval Augmented Text to Image Generator(Re-Imagen),[81]是一種生成模型,它使用提取的信息來生成高度忠實的圖像,即使對于罕見或不可見的實體也是如此。在文本消息中,Re-Imagen訪問外部多模態知識庫以檢索相關對(圖像、文本),并將其用作生成圖像的參考。
4. 比較性能和討論
? 在本節中,我們將討論不同擴散模型的比較性能,特別是在采樣效率和參數數量方面。我們還將討論未來的工作方向,以引導新的研究進入這個令人興奮的領域。
? 如前所述,迄今為止的研究重點主要是提高生成樣品的質量,穩定擴散改變了過程,重點是效率。在進行比較分析之前,我們將提到研究界用于比較擴散模型性能的重要質量和效率指標。
? 1-初始得分(IS):初始得分旨在根據ImageNet數據集評估創建圖片的多樣性和分辨率[82]。它分為兩部分:多樣性測量和質量測量。多樣性是根據生成樣本的類別熵來衡量的:熵越高,樣本的多樣性就越大。使用熵和樣本與相關類別圖片之間的相似性來衡量質量,因為如果樣本更接近ImageNet數據集的特定類別圖片,則樣本將具有更高的分辨率。
? 2 Frechet初始距離(FID):雖然初始分數包括合適的評估方法,但其建立取決于具有1000個類的特定數據集以及包括隨機性(如初始權重和代碼結構)的訓練網絡。因此,ImageNet和真實世界照片之間的偏差可能會導致不正確的結果。
? 此外,樣本批量大大低于1000個類別,導致低置信統計。要解決來自特定參考數據集的偏差,建議FID[83]。使用均值和協方差,分數計算真實世界數據分布與生成樣本之間的距離。
? 3負對數概率(NLL):Razavi等人將負對數似然視為描述所有數據分布模式的一種常見評估指標。在流場標準化方面已經做了大量工作[而VAE場采用NLL作為評估選項之一。一些擴散模型,如增強型DDPM,將NLL視為訓練目標。
? 一些效率指標包括:
? 1-采樣速度或吞吐量:快速采樣是擴散模型與采樣質量指標一起的主要效率目標。采樣/秒。一個簡單的度量是生成這些樣本的步驟數,因為步驟數較少是可取的。
? 2-計算工作量:現代HPC數據中心是解決擴散模型等重計算工作量的關鍵。由于NVIDIA Tesla V100 Tensor Core是最先進的數據中心GPU之一,一些工作將擴散模型的性能與V100天進行了比較。
? 3-模型復雜性:參數數量:模型參數是重要的指標。然而,很難將其與效率直接聯系起來,因為新的重型和性能最佳的模型中的更多參數在參數數量上是密集的。
? 但是,如果可以用較少的參數實現相同的性能,則表明模型效率。
? 然而,與成熟的質量指標相比,效率指標仍然沒有標準化,基于效率指標的開放挑戰和基準仍然缺失。這是有助于擴散模型效率研究的另一個方向。
? 由于生成圖像合成模型的興起,圖像修補最近已成為一個重要的研究問題[44],[40],[84],[85]。大多數修復解決方案在對象移除或紋理合成方面表現良好,而語義生成仍然難以實現。為了解決這些問題,推出了NTIRE 2022[84]圖像修補挑戰賽,其目標是開發解決方案,在生成引人注目的語義圖像的同時,在不同且具有挑戰性的掩模上實現穩健的性能。提出的挑戰包括兩個方面:無監督圖像修復和語義引導圖像修復。對于Track1,向參與者提供了四個數據集:FFHQ、Places、ImageNet和WikiArt,并訓練他們的模型執行一個與掩模無關的圖像修復解決方案。對于 Track 2,FFHQ 和Places.。
? 總的來說,擴散模型在圖像繪制中表現出優異的效果,因為它們可以在沒有直接監督的情況下應用于此任務。在這個挑戰中,這些方法在每個數據集7000張圖像上進行了測試。然而,挑戰的獲勝者依賴于一個潛在擴散模型(LDM)引用的LDM系統,該系統在潛在表示而非像素級執行降噪過程,從而將推理時間大大減少到平均每512×512圖像大小10秒。
? 為了發現潛在擴散模型[10]對文學新興趨勢的影響,我們使用書目網絡。為此,我們使用聚類方法。在聚類分析中,子問題的數量由分辨率設置。此參數的值越大,將創建的簇越多。我們試圖盡量減少集群的數量,以集中在相關性廣告影響方面最具代表性的工作上,這導致基于50篇研究論文的三個集群。圖7以三原色顯示了這些簇,表中列出了每個簇中的一篇代表性論文。這種文獻計量網絡的可視化提供了對相關文獻的自動洞察,而這些文獻是無法手動理解的。這種可視化及其理解的深度幫助我們修改了分類法,這將在下面的章節中討論。
5. 未來工作方向
? 擴散模型的流行性、可用性和創造性正在吸引計算機視覺界的新研究,特別是在有效利用計算資源和穩定擴散的開源可用性之后。可以公平地說,穩定擴散已被證明是一個改變游戲規則的模型。然而,每天都有新的文學作品出現,以應對其他挑戰。一些新興的研究方向如下:
-
檢索增強通過查找與指定提示相似的圖像,然后模型可以在生成過程中看到它們。
-
另一個新興領域是少鏡頭擴散模型(FSDM)的開發,該模型為利用條件DDPM的少鏡頭生成提供了一個框架。通過使用基于集合的視覺變換器(Vit)聚集圖像補丁信息,訓練這些模型以適應基于給定類別的小圖像集的生成過程。像DreamBooth[86]這樣的新方法是“個性化”文本到圖像擴散模型(專門針對用戶的需求)。給定一個主題的幾個圖像作為輸入,這樣的模型可以對預先訓練的文本到圖像模型進行微調,使其學會將唯一標識符與特定主題綁定。通過利用模型中嵌入的語義先驗和新的特定于類的先驗保留損失,這些模型能夠在參考圖像中未出現的不同場景、姿勢、視圖和照明條件下合成對象。[32]介紹了CycleDiffusion,它表明大規模文本到圖像擴散模型可以用作零鏡頭圖像到圖像編輯器。它可以通過在基于能量的模型的統一即插即用公式中控制潛在代碼來指導預先訓練的擴散模型和GAN。
-
過去,大多數文本到圖像模型都是作為適當的應用程序開發的。然而,穩定擴散開源的到來已經引發了另一個趨勢,這將有助于擴散研究的發展。
-
另一個新的研究方向是視頻擴散模型的創新架構[87],[3],這是標準圖像架構的自然擴展。該架構可以使用來自圖像和視頻數據的聯合訓練來生成以及更高分辨率的視頻。無文本視頻數據的視頻生成可以引入如所示的高效設計[88]。
-
由于擴散模型具有多對多的性質,因此它是人類運動的理想選擇,但它們往往是資源密集型的,難以控制。運動擴散模型(MDM)是一種經過仔細調整的無分類器生成擴散模型,用于人體運動域。該模型基于變壓器,并結合了運動生成文獻中的知識。它在每個散射階段使用樣本預測而不是噪聲。這有助于在運動位置和速度處使用已確定的幾何損失,例如腳接觸損失。這是一種通用方法,允許不同的調節模式和不同的生成任務。類似的工作是Motiondiffle[90],它是使用擴散模型的文本驅動人類運動生成。它表明了用擴散模型生成復雜的視覺數據的未來趨勢。
-
擴散模型的可解釋性和可解釋性將顯示這些模型的內部工作和學習過程。如果實際的學習過程得到很好的解釋,它可以導致有效的擴散模型設計。引入了一種稱為DAAM[31]的可解釋性方法,以基于對潛在去噪子網絡中的交叉關注激活進行放大和聚合來生成像素級屬性圖。
6. 結論
? 在這篇綜述中,我們介紹了擴散模型的最新進展,并討論了導致DM變得低效和計算昂貴的重要設計方面。我們專注于最近提出的設計選擇,這些設計選擇產生了有效的擴散模型。與之前對擴散模型進行一般分類的工作不同,本文討論了導致高效和低效擴散模型的有效策略。我們從效率指標的角度對現有的擴散方法進行了比較分析,并為計算效率擴散模型的未來研究工作提供了新的方向。
總結
以上是生活随笔為你收集整理的Efficient Diffusion Models for Vision: A Survey的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: [算法]不用第三个数交换2个数的位置
- 下一篇: TypeScript Generics(