當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

你可能不知道，Diffusion现在有多火

發(fā)布時(shí)間：2024/1/8 编程问答 51 豆豆

生活随笔收集整理的這篇文章主要介紹了你可能不知道，Diffusion现在有多火小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

就在一個(gè)月前，我還很疑惑為什么大廠們都要去卷文本生成圖像，當(dāng)時(shí)自己總結(jié)了兩個(gè)有價(jià)值的落地點(diǎn)（美術(shù)教育和內(nèi)容生成），但始終不太exciting，感覺現(xiàn)在的技術(shù)離目標(biāo)還有不少距離。

結(jié)果才短短一個(gè)月，我的認(rèn)知就被革新了。

在過去的一兩周里，我的twitter每天都在被Diffusion刷屏，各種玩法層出不窮。如果這樣描述你沒有感覺，那你可以打開這個(gè)網(wǎng)站，來看看過去一周內(nèi)Diffusion相關(guān)的新項(xiàng)目列表：

https://multimodal.art/news/1-week-of-stable-diffusion

我數(shù)了一下，非完全統(tǒng)計(jì)一共24個(gè)，平均每天就有3+個(gè)Diffusion的項(xiàng)目，仿佛是一個(gè)新的大航海時(shí)代。

Stable Diffusion

這次火爆的源起，是慕尼黑大學(xué)的CompVis組，聯(lián)合Stability AI^[1]和Runway^[2]發(fā)布了他們預(yù)訓(xùn)練的Diffusion生成模型^[3]。

不就開源了一個(gè)模型嗎？有啥呢？

首先，它開源。別看OpenAI的DALLE2和Google的Imagen效果都那么好，可他們都是半開不開的，Diffusion的訓(xùn)練成本更高，普通人根本訓(xùn)不起。這次能開源要得益于Stability AI的加持，由國外超級(jí)富豪Emad Mostaque創(chuàng)辦，目標(biāo)是創(chuàng)造開源的AI工具，大家可以把它當(dāng)成真正的「Open AI」。這次的Stable Diffusion，是Stability AI的第一個(gè)公開產(chǎn)品，在4000臺(tái)A100上訓(xùn)了一個(gè)月^[4]，有錢真好。

其次，它輕量，一張10GB以上顯存的卡就能跑。要知道即使DALLE2開源了，普通人也是用不起的，而Stable Diffusion經(jīng)過優(yōu)化后一張卡就能放得下了，做到了真真正正的親民。

最后，它效果真的好，好到能商用。這主要?dú)w功于高質(zhì)量數(shù)據(jù)集LAION^[5]的加持，我分別挑了DALLE2和Imagen的prompt來對(duì)比，感覺Stable Diffusion不亞于那兩個(gè)大模型：

同時(shí)它還有很多種玩法：

文本生成圖像

圖像+文本生成圖像

補(bǔ)全圖像中的某個(gè)部分（例如把貓換成一只狗）

種種以上因素，讓Stable Diffusion在幾天內(nèi)引爆了AI圈。

Diffusion的大航海時(shí)代

Diffusion最早是15年的一篇文章提出的^[6]，但當(dāng)時(shí)并不完善，直到20年時(shí)的DDPM^[7]才真正做work。之后的事情大家也就知道了，從21年底到22年間，先后有OpenAI的GLIDE、DALLE2和Google的Imagen都用上了這個(gè)工作。

Diffusion的核心思想，就是把生成的過程拆成一個(gè)個(gè)簡(jiǎn)單的小步驟，而不是像其他模型一樣「一步到位」，這樣擬合起來相對(duì)容易，所以做出來效果很好，同時(shí)訓(xùn)練起來也更加穩(wěn)定。

不過隨之而來的，就是它訓(xùn)練過程消耗資源大（每一個(gè)小步都需要訓(xùn)練），同時(shí)生成的速度也慢（一步一步生成）。

正因?yàn)樗嬖谌秉c(diǎn)，在理論上還有很多研究可以做，同時(shí)它優(yōu)秀的效果，使AIGC可以更進(jìn)一步。

想想在過去，在移動(dòng)互聯(lián)網(wǎng)時(shí)代中，UGC撐起了多少應(yīng)用吧：微博、知乎、B站、頭條、抖音。。如果AI能增加UGC的效率，或者直接生產(chǎn)內(nèi)容，會(huì)是什么樣呢？再想想未來，在元宇宙里，如果不需要那么多人力去建模，那未來是不是能來的更快一些呢？

聽到這里，是不是開始exciting了！

那就開始學(xué)習(xí)吧！

學(xué)習(xí)資料匯總

下面是我收集的靠譜學(xué)習(xí)資料：

HuggingFace推薦的博客：

https://lilianweng.github.io/posts/2021-07-11-diffusion-models/
https://yang-song.net/blog/2021/score/
代碼+公式：https://huggingface.co/blog/annotated-diffusion

介紹和Paper匯總：https://github.com/heejkoo/Awesome-Diffusion-Models

蘇神博客：https://spaces.ac.cn/

知乎討論：https://www.zhihu.com/question/536012286

B站視頻：

https://www.bilibili.com/video/BV1b541197HX
https://www.bilibili.com/video/BV1cW4y1z7pp

參考資料

[1]

Stability AI: https://stability.ai/

[2]

Runway: https://runwayml.com/

[3]

High-Resolution Image Synthesis with Latent Diffusion Models: https://ommer-lab.com/research/latent-diffusion-models/

[4]

Stable Diffusion及其背后的機(jī)構(gòu)Stability AI: https://www.bihuoji.com/441035.html

[5]

LAION: https://laion.ai/

[6]

Deep Unsupervised Learning using Nonequilibrium Thermodynamics: https://arxiv.org/pdf/1503.03585.pdf

[7]

Denoising Diffusion Probabilistic Models: https://arxiv.org/abs/2006.11239

點(diǎn)贊

在看

總結(jié)

以上是生活随笔為你收集整理的你可能不知道，Diffusion现在有多火的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： jenkins自动打包报错：cannot
下一篇：粒子群优化能做相机标定吗