你可能不知道,Diffusion现在有多火
就在一個(gè)月前,我還很疑惑為什么大廠們都要去卷文本生成圖像,當(dāng)時(shí)自己總結(jié)了兩個(gè)有價(jià)值的落地點(diǎn)(美術(shù)教育和內(nèi)容生成),但始終不太exciting,感覺現(xiàn)在的技術(shù)離目標(biāo)還有不少距離。
結(jié)果才短短一個(gè)月,我的認(rèn)知就被革新了。
在過去的一兩周里,我的twitter每天都在被Diffusion刷屏,各種玩法層出不窮。如果這樣描述你沒有感覺,那你可以打開這個(gè)網(wǎng)站,來看看過去一周內(nèi)Diffusion相關(guān)的新項(xiàng)目列表:
https://multimodal.art/news/1-week-of-stable-diffusion我數(shù)了一下,非完全統(tǒng)計(jì)一共24個(gè),平均每天就有3+個(gè)Diffusion的項(xiàng)目,仿佛是一個(gè)新的大航海時(shí)代。
Stable Diffusion
這次火爆的源起,是慕尼黑大學(xué)的CompVis組,聯(lián)合Stability AI[1]和Runway[2]發(fā)布了他們預(yù)訓(xùn)練的Diffusion生成模型[3]。
不就開源了一個(gè)模型嗎?有啥呢?
首先,它開源。別看OpenAI的DALLE2和Google的Imagen效果都那么好,可他們都是半開不開的,Diffusion的訓(xùn)練成本更高,普通人根本訓(xùn)不起。這次能開源要得益于Stability AI的加持,由國外超級(jí)富豪Emad Mostaque創(chuàng)辦,目標(biāo)是創(chuàng)造開源的AI工具,大家可以把它當(dāng)成真正的「Open AI」。這次的Stable Diffusion,是Stability AI的第一個(gè)公開產(chǎn)品,在4000臺(tái)A100上訓(xùn)了一個(gè)月[4],有錢真好。
其次,它輕量,一張10GB以上顯存的卡就能跑。要知道即使DALLE2開源了,普通人也是用不起的,而Stable Diffusion經(jīng)過優(yōu)化后一張卡就能放得下了,做到了真真正正的親民。
最后,它效果真的好,好到能商用。這主要?dú)w功于高質(zhì)量數(shù)據(jù)集LAION[5]的加持,我分別挑了DALLE2和Imagen的prompt來對(duì)比,感覺Stable Diffusion不亞于那兩個(gè)大模型:
同時(shí)它還有很多種玩法:
文本生成圖像
圖像+文本生成圖像
補(bǔ)全圖像中的某個(gè)部分(例如把貓換成一只狗)
種種以上因素,讓Stable Diffusion在幾天內(nèi)引爆了AI圈。
Diffusion的大航海時(shí)代
Diffusion最早是15年的一篇文章提出的[6],但當(dāng)時(shí)并不完善,直到20年時(shí)的DDPM[7]才真正做work。之后的事情大家也就知道了,從21年底到22年間,先后有OpenAI的GLIDE、DALLE2和Google的Imagen都用上了這個(gè)工作。
Diffusion的核心思想,就是把生成的過程拆成一個(gè)個(gè)簡(jiǎn)單的小步驟,而不是像其他模型一樣「一步到位」,這樣擬合起來相對(duì)容易,所以做出來效果很好,同時(shí)訓(xùn)練起來也更加穩(wěn)定。
不過隨之而來的,就是它訓(xùn)練過程消耗資源大(每一個(gè)小步都需要訓(xùn)練),同時(shí)生成的速度也慢(一步一步生成)。
正因?yàn)樗嬖谌秉c(diǎn),在理論上還有很多研究可以做,同時(shí)它優(yōu)秀的效果,使AIGC可以更進(jìn)一步。
想想在過去,在移動(dòng)互聯(lián)網(wǎng)時(shí)代中,UGC撐起了多少應(yīng)用吧:微博、知乎、B站、頭條、抖音。。如果AI能增加UGC的效率,或者直接生產(chǎn)內(nèi)容,會(huì)是什么樣呢?再想想未來,在元宇宙里,如果不需要那么多人力去建模,那未來是不是能來的更快一些呢?
聽到這里,是不是開始exciting了!
那就開始學(xué)習(xí)吧!
學(xué)習(xí)資料匯總
下面是我收集的靠譜學(xué)習(xí)資料:
HuggingFace推薦的博客:
https://lilianweng.github.io/posts/2021-07-11-diffusion-models/
https://yang-song.net/blog/2021/score/
代碼+公式:https://huggingface.co/blog/annotated-diffusion
介紹和Paper匯總:https://github.com/heejkoo/Awesome-Diffusion-Models
蘇神博客:https://spaces.ac.cn/
知乎討論:https://www.zhihu.com/question/536012286
B站視頻:
https://www.bilibili.com/video/BV1b541197HX
https://www.bilibili.com/video/BV1cW4y1z7pp
參考資料
[1]
Stability AI: https://stability.ai/
[2]Runway: https://runwayml.com/
[3]High-Resolution Image Synthesis with Latent Diffusion Models: https://ommer-lab.com/research/latent-diffusion-models/
[4]Stable Diffusion及其背后的機(jī)構(gòu)Stability AI: https://www.bihuoji.com/441035.html
[5]LAION: https://laion.ai/
[6]Deep Unsupervised Learning using Nonequilibrium Thermodynamics: https://arxiv.org/pdf/1503.03585.pdf
[7]Denoising Diffusion Probabilistic Models: https://arxiv.org/abs/2006.11239
分享
收藏
點(diǎn)贊
在看
總結(jié)
以上是生活随笔為你收集整理的你可能不知道,Diffusion现在有多火的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: jenkins自动打包报错:cannot
- 下一篇: 粒子群优化能做相机标定吗