當(dāng)前位置：首頁 > 人工智能 > pytorch >内容正文

pytorch

【深度学习】围观特斯拉总监把玩MNIST

發(fā)布時(shí)間：2025/3/12 pytorch 19 豆豆

生活随笔收集整理的這篇文章主要介紹了【深度学习】围观特斯拉总监把玩MNIST 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

最近大名鼎鼎的特斯拉AI總監(jiān)Andrej Karpathy發(fā)了篇博客（看來寫博客是個(gè)好習(xí)慣），叫Deep Neural Nets: 33 years ago and 33 years from now^[1]。飯后花了點(diǎn)時(shí)間圍觀了一下，寫得確實(shí)挺有意思。

1989年的LeNet和MNIST

他先嘗試復(fù)現(xiàn)了一下深度學(xué)習(xí)開山模型LeNet，然后嘗試?yán)眠@33年人類的新知識去改進(jìn)模型的效果。他干了這么幾個(gè)事情：

Baseline.

eval:?split?train.?loss?4.073383e-03.?error?0.62%.?misses:?45 eval:?split?test?.?loss?2.838382e-02.?error?4.09%.?misses:?82

2. 把原文的MSE loss換成如今多分類的標(biāo)配Cross Entropy Loss

eval:?split?train.?loss?9.536698e-06.?error?0.00%.?misses:?0 eval:?split?test?.?loss?9.536698e-06.?error?4.38%.?misses:?87

3. 首戰(zhàn)失敗，懷疑SGD優(yōu)化器不給力，換成了AdamW，并使用“大家都知道”的最優(yōu)學(xué)習(xí)率3e-4，還加了點(diǎn)weight decay

eval:?split?train.?loss?0.000000e+00.?error?0.00%.?misses:?0 eval:?split?test?.?loss?0.000000e+00.?error?3.59%.?misses:?72

4. 嘗到甜頭，但發(fā)現(xiàn)train/test的差別仍很大，提示可能過擬合。遂略微添加數(shù)據(jù)增強(qiáng)。

eval:?split?train.?loss?8.780676e-04.?error?1.70%.?misses:?123 eval:?split?test?.?loss?8.780676e-04.?error?2.19%.?misses:?43

5. 感覺還有過擬合，遂增加dropout，并把tanh激活函數(shù)換成了ReLU

eval:?split?train.?loss?2.601336e-03.?error?1.47%.?misses:?106 eval:?split?test?.?loss?2.601336e-03.?error?1.59%.?misses:?32

通過一步一步加料，總監(jiān)成功把33年前經(jīng)典問題的錯誤率又降低了60%！這幾步雖然常見，但也體現(xiàn)了總監(jiān)扎實(shí)的基本功，試想還有幾個(gè)總監(jiān)能調(diào)得動模型呢？？！！

總監(jiān)的錯例，有些看起來不該錯

但他還不滿意，又嘗試了一些例如Vision Transformer之類更新潮酷炫的東西，但比較遺憾都沒有再漲點(diǎn)了。最后從本源出發(fā)，增加了一些數(shù)據(jù)，錯誤率進(jìn)一步降低，達(dá)到了1.25%。

eval:?split?train.?loss?3.238392e-04.?error?1.07%.?misses:?31 eval:?split?test?.?loss?3.238392e-04.?error?1.25%.?misses:?24

觀察上面的錯例其實(shí)大家也能感受到有些錯誤應(yīng)該是可以搞對的，此時(shí)增加數(shù)據(jù)確實(shí)是一個(gè)好辦法。但更重要的是，希望大家也能養(yǎng)成總監(jiān)一樣把結(jié)果可視化出來檢視的好習(xí)慣！

最后總監(jiān)總結(jié)了一下以2022年的未來人身份把玩33年前數(shù)據(jù)集的感受

做的事情內(nèi)核并沒有變，還是可微分的神經(jīng)網(wǎng)絡(luò)、優(yōu)化那一套

當(dāng)時(shí)的數(shù)據(jù)集好小（a baby）啊，MNIST只有7000多張，CLIP訓(xùn)練圖片有400百萬張，而且每張圖的分辨率都大得多

當(dāng)時(shí)網(wǎng)絡(luò)好小啊

當(dāng)時(shí)的訓(xùn)練好慢啊，7000多張圖+這么小的網(wǎng)絡(luò)要跑3天，現(xiàn)在總監(jiān)的Macbook可以90s訓(xùn)練完

該領(lǐng)域還是有進(jìn)步的，可以用現(xiàn)在的技巧使錯誤率下降60%

單純增大數(shù)據(jù)集效果不大，還得配上各種技巧才能駕馭

再往前走得靠大模型了，就得大算力

最后的最后總監(jiān)展望了一下再過33年那時(shí)的人們會怎么看今天的深度學(xué)習(xí)

除了規(guī)模更大，宏觀上網(wǎng)絡(luò)估計(jì)還像今天這樣

模型肯定會比現(xiàn)在大超級多

那時(shí)訓(xùn)練現(xiàn)在的大網(wǎng)絡(luò)估計(jì)也只要一兩分鐘

一些細(xì)節(jié)知識還是會進(jìn)步的

數(shù)據(jù)集肯定會變得更大

計(jì)算基礎(chǔ)設(shè)施估計(jì)得變了

最最最后，總監(jiān)說往后訓(xùn)基礎(chǔ)模型，甚至模型，的人都會變少了，到2055年估計(jì)大家可以用自然語言教模型干一些事情了。

好，圍觀結(jié)束，祝大家晚安。

參考資料

[1]

Deep Neural Nets: 33 years ago and 33 years from now: https://karpathy.github.io/2022/03/14/lecun1989/

往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載(圖文+視頻)機(jī)器學(xué)習(xí)入門系列下載中國大學(xué)慕課《機(jī)器學(xué)習(xí)》（黃海廣主講）機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)交流qq群955171419，加入微信群請掃碼：

總結(jié)

以上是生活随笔為你收集整理的【深度学习】围观特斯拉总监把玩MNIST的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Dubbo：RPC原理
下一篇：浅谈XSS攻击的那些事（附常用绕过姿势）