【深度学习】围观特斯拉总监把玩MNIST
最近大名鼎鼎的特斯拉AI總監(jiān)Andrej Karpathy發(fā)了篇博客(看來寫博客是個(gè)好習(xí)慣),叫Deep Neural Nets: 33 years ago and 33 years from now[1]。飯后花了點(diǎn)時(shí)間圍觀了一下,寫得確實(shí)挺有意思。
1989年的LeNet和MNIST他先嘗試復(fù)現(xiàn)了一下深度學(xué)習(xí)開山模型LeNet,然后嘗試?yán)眠@33年人類的新知識去改進(jìn)模型的效果。他干了這么幾個(gè)事情:
Baseline.
2. 把原文的MSE loss換成如今多分類的標(biāo)配Cross Entropy Loss
eval:?split?train.?loss?9.536698e-06.?error?0.00%.?misses:?0 eval:?split?test?.?loss?9.536698e-06.?error?4.38%.?misses:?873. 首戰(zhàn)失敗,懷疑SGD優(yōu)化器不給力,換成了AdamW,并使用“大家都知道”的最優(yōu)學(xué)習(xí)率3e-4,還加了點(diǎn)weight decay
eval:?split?train.?loss?0.000000e+00.?error?0.00%.?misses:?0 eval:?split?test?.?loss?0.000000e+00.?error?3.59%.?misses:?724. 嘗到甜頭,但發(fā)現(xiàn)train/test的差別仍很大,提示可能過擬合。遂略微添加數(shù)據(jù)增強(qiáng)。
eval:?split?train.?loss?8.780676e-04.?error?1.70%.?misses:?123 eval:?split?test?.?loss?8.780676e-04.?error?2.19%.?misses:?435. 感覺還有過擬合,遂增加dropout,并把tanh激活函數(shù)換成了ReLU
eval:?split?train.?loss?2.601336e-03.?error?1.47%.?misses:?106 eval:?split?test?.?loss?2.601336e-03.?error?1.59%.?misses:?32通過一步一步加料,總監(jiān)成功把33年前經(jīng)典問題的錯誤率又降低了60%!這幾步雖然常見,但也體現(xiàn)了總監(jiān)扎實(shí)的基本功,試想還有幾個(gè)總監(jiān)能調(diào)得動模型呢??!!
總監(jiān)的錯例,有些看起來不該錯但他還不滿意,又嘗試了一些例如Vision Transformer之類更新潮酷炫的東西,但比較遺憾都沒有再漲點(diǎn)了。最后從本源出發(fā),增加了一些數(shù)據(jù),錯誤率進(jìn)一步降低,達(dá)到了1.25%。
eval:?split?train.?loss?3.238392e-04.?error?1.07%.?misses:?31 eval:?split?test?.?loss?3.238392e-04.?error?1.25%.?misses:?24觀察上面的錯例其實(shí)大家也能感受到有些錯誤應(yīng)該是可以搞對的,此時(shí)增加數(shù)據(jù)確實(shí)是一個(gè)好辦法。但更重要的是,希望大家也能養(yǎng)成總監(jiān)一樣把結(jié)果可視化出來檢視的好習(xí)慣!
最后總監(jiān)總結(jié)了一下以2022年的未來人身份把玩33年前數(shù)據(jù)集的感受
做的事情內(nèi)核并沒有變,還是可微分的神經(jīng)網(wǎng)絡(luò)、優(yōu)化那一套
當(dāng)時(shí)的數(shù)據(jù)集好小(a baby)啊,MNIST只有7000多張,CLIP訓(xùn)練圖片有400百萬張,而且每張圖的分辨率都大得多
當(dāng)時(shí)網(wǎng)絡(luò)好小啊
當(dāng)時(shí)的訓(xùn)練好慢啊,7000多張圖+這么小的網(wǎng)絡(luò)要跑3天,現(xiàn)在總監(jiān)的Macbook可以90s訓(xùn)練完
該領(lǐng)域還是有進(jìn)步的,可以用現(xiàn)在的技巧使錯誤率下降60%
單純增大數(shù)據(jù)集效果不大,還得配上各種技巧才能駕馭
再往前走得靠大模型了,就得大算力
最后的最后總監(jiān)展望了一下再過33年那時(shí)的人們會怎么看今天的深度學(xué)習(xí)
除了規(guī)模更大,宏觀上網(wǎng)絡(luò)估計(jì)還像今天這樣
模型肯定會比現(xiàn)在大超級多
那時(shí)訓(xùn)練現(xiàn)在的大網(wǎng)絡(luò)估計(jì)也只要一兩分鐘
一些細(xì)節(jié)知識還是會進(jìn)步的
數(shù)據(jù)集肯定會變得更大
計(jì)算基礎(chǔ)設(shè)施估計(jì)得變了
最最最后,總監(jiān)說往后訓(xùn)基礎(chǔ)模型,甚至模型,的人都會變少了,到2055年估計(jì)大家可以用自然語言教模型干一些事情了。
好,圍觀結(jié)束,祝大家晚安。
參考資料
[1]
Deep Neural Nets: 33 years ago and 33 years from now: https://karpathy.github.io/2022/03/14/lecun1989/
往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載(圖文+視頻)機(jī)器學(xué)習(xí)入門系列下載中國大學(xué)慕課《機(jī)器學(xué)習(xí)》(黃海廣主講)機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)交流qq群955171419,加入微信群請掃碼:總結(jié)
以上是生活随笔為你收集整理的【深度学习】围观特斯拉总监把玩MNIST的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Dubbo:RPC原理
- 下一篇: 浅谈XSS攻击的那些事(附常用绕过姿势)