當前位置：首頁 > 人工智能 > pytorch >内容正文

pytorch

2.8 Adam 优化算法-深度学习第二课《改善深层神经网络》-Stanford吴恩达教授

發(fā)布時間：2025/4/5 pytorch 21 豆豆

生活随笔收集整理的這篇文章主要介紹了 2.8 Adam 优化算法-深度学习第二课《改善深层神经网络》-Stanford吴恩达教授小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

2.7 RMSprop

回到目錄

2.9 學習率衰減

Adam優(yōu)化算法 (Adam Optimization Algorithm)

在深度學習的歷史上，包括許多知名研究者在內(nèi)，提出了優(yōu)化算法，并很好地解決了一些問題，但隨后這些優(yōu)化算法被指出并不能一般化，并不適用于多種神經(jīng)網(wǎng)絡(luò)，時間久了，深度學習圈子里的人開始多少有些質(zhì)疑全新的優(yōu)化算法，很多人都覺得動量（Momentum）梯度下降法很好用，很難再想出更好的優(yōu)化算法。所以RMSprop以及Adam優(yōu)化算法（Adam優(yōu)化算法也是本視頻的內(nèi)容），就是少有的經(jīng)受住人們考驗的兩種算法，已被證明適用于不同的深度學習結(jié)構(gòu)，這個算法我會毫不猶豫地推薦給你，因為很多人都試過，并且用它很好地解決了許多問題。

Adam優(yōu)化算法基本上就是將Momentum和RMSprop結(jié)合在一起，那么來看看如何使用Adam算法。

使用Adam算法，首先你要初始化， $v_{dW}=0，S_{dW}=0，v_{db}=0，S_{db}=0$ ，在第 $t$ 次迭代中，你要計算微分，用當前的mini-batch計算 $d W ， d b$ ，一般你會用mini-batch梯度下降法。接下來計算Momentum指數(shù)加權(quán)平均數(shù)，所以 $vdW=β1vdW+(1?β1)dWv_{dW}=\beta_1v_{dW}+(1-\beta_1)dW$ （使用 $β1\beta_1$ ，這樣就不會跟超參數(shù) $β2\beta_2$ 混淆，因為后面RMSprop要用到 $β2\beta_2$ ），使用Momentum時我們肯定會用這個公式，但現(xiàn)在不叫它 $β\beta$ ，而叫它 $β1\beta_1$ 。同樣 $vdb=β1vdb+(1?β1)dbv_{db}=\beta_1v_{db}+(1-\beta_1)db$ 。

接著你用RMSprop進行更新，即用不同的超參數(shù) $β2\beta_2$ ， $SdW=β2SdW+(1?β2)(dW)2S_{dW}=\beta_2S_{dW}+(1-\beta_2)(dW)^2$ ，再說一次，這里是對整個微分 $d W$ 進行平方處理， $Sdb=β2Sdb+(1?β2)(db)2S_{db}=\beta_2S_{db}+(1-\beta_2)(db)^2$ 。

相當于Momentum更新了超參數(shù) $β1\beta_1$ ，RMSprop更新了超參數(shù) $β2\beta_2$ 。一般使用Adam算法的時候，要計算偏差修正， $v_{dW}^{corrected}$ ，修正也就是在偏差修正之后，

$vdWcorrected=vdW1?β1t，v_{dW}^{corrected}=\frac{v_{dW}}{1-\beta_1^t}，$

同樣，

$vdbcorrected=vdb1?β1t，v_{db}^{corrected}=\frac{v_{db}}{1-\beta_1^t}，$

$S$ 也使用偏差修正，也就是

$SdWcorrected=SdW1?β2t，，S_{dW}^{corrected}=\frac{S_{dW}}{1-\beta_2^t}，，$

$Sdbcorrected=Sdb1?β2t，。S_{db}^{corrected}=\frac{S_{db}}{1-\beta_2^t}，。$

最后更新權(quán)重，所以 $W$ 更新后是

$W:=W?αvdWcorrectedSdWcorrected+?W:=W-\frac{\alpha v_{dW}^{corrected}}{\sqrt{S_{dW}^{corrected}}+\epsilon}$

（如果你只是用Momentum，使用 $v_{dW}$ 或者修正后的 $v_{dW}$ ，但現(xiàn)在我們加入了RMSprop的部分，所以我們要除以修正后 $S_{dW}$ 的平方根加上 $?\epsilon$ ）。

根據(jù)類似的公式更新 $b$ 值，

$b:=b?αvdbcorrectedSdbcorrected+?。b:=b-\frac{\alpha v_{db}^{corrected}}{\sqrt{S_{db}^{corrected}}+\epsilon}。$

所以Adam算法結(jié)合了Momentum和RMSprop梯度下降法，并且是一種極其常用的學習算法，被證明能有效適用于不同神經(jīng)網(wǎng)絡(luò)，適用于廣泛的結(jié)構(gòu)。

本算法中有很多超參數(shù)，超參數(shù)學習率 $α\alpha$ 很重要，也經(jīng)常需要調(diào)試，你可以嘗試一系列值，然后看哪個有效。 $β1\beta_1$ 常用的缺省值為0.9，這是 $d W$ 的移動平均數(shù)，也就是 $d W$ 的加權(quán)平均數(shù)，這是Momentum涉及的項。至于超參數(shù) $β2\beta_2$ ，Adam論文作者，也就是Adam算法的發(fā)明者，推薦使用0.999，這是在計算 $dW)^2$ 以及 $db)^2$ 的移動加權(quán)平均值，關(guān)于 $?\epsilon$ 的選擇其實沒那么重要，Adam論文的作者建議 $?\epsilon$ 為 $10^{-8}$ ，但你并不需要設(shè)置它，因為它并不會影響算法表現(xiàn)。但是在使用Adam的時候，人們往往使用缺省值即可， $β1，β2\beta_1，\beta_2$ 和 $?\epsilon$ 都是如此，我覺得沒人會去調(diào)整 $?\epsilon$ ，然后嘗試不同的 $α\alpha$ 值，看看哪個效果最好。你也可以調(diào)整 $β1\beta_1$ 和 $β2\beta_2$ ，但我認識的業(yè)內(nèi)人士很少這么干。

為什么這個算法叫做Adam？Adam代表的是Adaptive Moment Estimation， $β1\beta_1$ 用于計算這個微分（ $d W$ ），叫做第一矩， $β2\beta_2$ 用來計算平方數(shù)的指數(shù)加權(quán)平均數(shù)（ $dW)^2$ ），叫做第二矩，所以Adam的名字由此而來，但是大家都簡稱Adam權(quán)威算法。

順便提一下，我有一個老朋友兼合作伙伴叫做Adam Coates。據(jù)我所知，他跟Adam算法沒有任何關(guān)系，不過我覺得他偶爾會用到這個算法，不過有時有人會問我這個問題，我想你可能也有相同的疑惑。

這就是關(guān)于Adam優(yōu)化算法的全部內(nèi)容，有了它，你可以更加快速地訓練神經(jīng)網(wǎng)絡(luò)，在結(jié)束本周課程之前，我們還要講一下超參數(shù)調(diào)整，以及更好地理解神經(jīng)網(wǎng)絡(luò)的優(yōu)化問題有哪些。下個視頻中，我們將講講學習率衰減。

課程PPT

2.7 RMSprop

回到目錄

2.9 學習率衰減

總結(jié)

以上是生活随笔為你收集整理的2.8 Adam 优化算法-深度学习第二课《改善深层神经网络》-Stanford吴恩达教授的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： 2.7 RMSprop-深度学习第二课《
下一篇： 2.9 学习率衰减-深度学习第二课《改善