日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 人工智能 > pytorch >内容正文

pytorch

【深度学习】围观特斯拉总监把玩MNIST

發(fā)布時(shí)間:2025/3/12 pytorch 19 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【深度学习】围观特斯拉总监把玩MNIST 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

最近大名鼎鼎的特斯拉AI總監(jiān)Andrej Karpathy發(fā)了篇博客(看來寫博客是個(gè)好習(xí)慣),叫Deep Neural Nets: 33 years ago and 33 years from now[1]。飯后花了點(diǎn)時(shí)間圍觀了一下,寫得確實(shí)挺有意思。

1989年的LeNet和MNIST

他先嘗試復(fù)現(xiàn)了一下深度學(xué)習(xí)開山模型LeNet,然后嘗試?yán)眠@33年人類的新知識去改進(jìn)模型的效果。他干了這么幾個(gè)事情:

  • Baseline.

  • eval:?split?train.?loss?4.073383e-03.?error?0.62%.?misses:?45 eval:?split?test?.?loss?2.838382e-02.?error?4.09%.?misses:?82

    2. 把原文的MSE loss換成如今多分類的標(biāo)配Cross Entropy Loss

    eval:?split?train.?loss?9.536698e-06.?error?0.00%.?misses:?0 eval:?split?test?.?loss?9.536698e-06.?error?4.38%.?misses:?87

    3. 首戰(zhàn)失敗,懷疑SGD優(yōu)化器不給力,換成了AdamW,并使用“大家都知道”的最優(yōu)學(xué)習(xí)率3e-4,還加了點(diǎn)weight decay

    eval:?split?train.?loss?0.000000e+00.?error?0.00%.?misses:?0 eval:?split?test?.?loss?0.000000e+00.?error?3.59%.?misses:?72

    4. 嘗到甜頭,但發(fā)現(xiàn)train/test的差別仍很大,提示可能過擬合。遂略微添加數(shù)據(jù)增強(qiáng)。

    eval:?split?train.?loss?8.780676e-04.?error?1.70%.?misses:?123 eval:?split?test?.?loss?8.780676e-04.?error?2.19%.?misses:?43

    5. 感覺還有過擬合,遂增加dropout,并把tanh激活函數(shù)換成了ReLU

    eval:?split?train.?loss?2.601336e-03.?error?1.47%.?misses:?106 eval:?split?test?.?loss?2.601336e-03.?error?1.59%.?misses:?32

    通過一步一步加料,總監(jiān)成功把33年前經(jīng)典問題的錯誤率又降低了60%!這幾步雖然常見,但也體現(xiàn)了總監(jiān)扎實(shí)的基本功,試想還有幾個(gè)總監(jiān)能調(diào)得動模型呢??!!

    總監(jiān)的錯例,有些看起來不該錯

    但他還不滿意,又嘗試了一些例如Vision Transformer之類更新潮酷炫的東西,但比較遺憾都沒有再漲點(diǎn)了。最后從本源出發(fā),增加了一些數(shù)據(jù),錯誤率進(jìn)一步降低,達(dá)到了1.25%。

    eval:?split?train.?loss?3.238392e-04.?error?1.07%.?misses:?31 eval:?split?test?.?loss?3.238392e-04.?error?1.25%.?misses:?24

    觀察上面的錯例其實(shí)大家也能感受到有些錯誤應(yīng)該是可以搞對的,此時(shí)增加數(shù)據(jù)確實(shí)是一個(gè)好辦法。但更重要的是,希望大家也能養(yǎng)成總監(jiān)一樣把結(jié)果可視化出來檢視的好習(xí)慣!

    最后總監(jiān)總結(jié)了一下以2022年的未來人身份把玩33年前數(shù)據(jù)集的感受

  • 做的事情內(nèi)核并沒有變,還是可微分的神經(jīng)網(wǎng)絡(luò)、優(yōu)化那一套

  • 當(dāng)時(shí)的數(shù)據(jù)集好小(a baby)啊,MNIST只有7000多張,CLIP訓(xùn)練圖片有400百萬張,而且每張圖的分辨率都大得多

  • 當(dāng)時(shí)網(wǎng)絡(luò)好小啊

  • 當(dāng)時(shí)的訓(xùn)練好慢啊,7000多張圖+這么小的網(wǎng)絡(luò)要跑3天,現(xiàn)在總監(jiān)的Macbook可以90s訓(xùn)練完

  • 該領(lǐng)域還是有進(jìn)步的,可以用現(xiàn)在的技巧使錯誤率下降60%

  • 單純增大數(shù)據(jù)集效果不大,還得配上各種技巧才能駕馭

  • 再往前走得靠大模型了,就得大算力

  • 最后的最后總監(jiān)展望了一下再過33年那時(shí)的人們會怎么看今天的深度學(xué)習(xí)

  • 除了規(guī)模更大,宏觀上網(wǎng)絡(luò)估計(jì)還像今天這樣

  • 模型肯定會比現(xiàn)在大超級多

  • 那時(shí)訓(xùn)練現(xiàn)在的大網(wǎng)絡(luò)估計(jì)也只要一兩分鐘

  • 一些細(xì)節(jié)知識還是會進(jìn)步的

  • 數(shù)據(jù)集肯定會變得更大

  • 計(jì)算基礎(chǔ)設(shè)施估計(jì)得變了

  • 最最最后,總監(jiān)說往后訓(xùn)基礎(chǔ)模型,甚至模型,的人都會變少了,到2055年估計(jì)大家可以用自然語言教模型干一些事情了。

    好,圍觀結(jié)束,祝大家晚安。

    參考資料

    [1]

    Deep Neural Nets: 33 years ago and 33 years from now: https://karpathy.github.io/2022/03/14/lecun1989/

    往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載(圖文+視頻)機(jī)器學(xué)習(xí)入門系列下載中國大學(xué)慕課《機(jī)器學(xué)習(xí)》(黃海廣主講)機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)交流qq群955171419,加入微信群請掃碼:

    總結(jié)

    以上是生活随笔為你收集整理的【深度学习】围观特斯拉总监把玩MNIST的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。