當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Adam是RmsProp和momentum算法的结合(列表比较)

發布時間：2023/12/20 编程问答 28 豆豆

生活随笔收集整理的這篇文章主要介紹了 Adam是RmsProp和momentum算法的结合(列表比较) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

RmsPropMomentumAdam

$sdw=βsdw+(1?β)dW2{s_{dw}} = \beta {s_{dw}} + (1 - \beta )d{W^2}$ $sdb=βsdb+(1?β)db2{s_{db}} = \beta {s_{db}} + (1 - \beta )d{b^2}$	$vdw=βvdw+(1?β)dW{v_{dw}} = \beta {v_{dw}} + (1 - \beta )dW$ $vdb=βvdb+(1?β)db{v_{db}} = \beta {v_{db}} + (1 - \beta )db$	$vdw=β1vdw+(1?β1)dW{v_{dw}} = {\beta _1}{v_{dw}} + (1 - {\beta _1})dW$ $vdb=β1vdb+(1?β1)db{v_{db}} = {\beta _1}{v_{db}} + (1 - {\beta _1})db$ $sdw=β2sdw+(1?β2)dW2{s_{dw}} = {\beta _2}{s_{dw}} + (1 - {\beta _2})d{W^2}$ $sdb=β2sdb+(1?β2)db2{s_{db}} = {\beta _2}{s_{db}} + (1 - {\beta _2})d{b^2}$
無修正	無修正	$vdwc=vdw1?β1tv_{dw}^c = \frac{{{v_{dw}}}}{{1 - \beta _1^t}}$ $vdbc=vdb1?β1tv_{db}^c = \frac{{{v_{db}}}}{{1 - \beta _1^t}}$ $sdwc=sdw1?β2ts_{dw}^c = \frac{{{s_{dw}}}}{{1 - \beta _2^t}}$ $sdbc=sdb1?β2ts_{db}^c = \frac{{{s_{db}}}}{{1 - \beta _2^t}}$
$\alpha \frac{{dW}}{{\sqrt {{s_{dw}}} + \varepsilon }}$ $\alpha \frac{{db}}{{\sqrt {{s_{db}}} + \varepsilon }}$	$\alpha {v_{dw}}$ $\alpha {v_{db}}$	$\alpha \frac{{v_{dw}^c}}{{\sqrt {s_{dw}^c} + \varepsilon }}$ $\alpha \frac{{v_{db}^c}}{{\sqrt {s_{db}^c} + \varepsilon }}$

算法偽代碼來自[1].
[2]中有一句話：
The method combines the advantages of two recently popular optimization methods: the ability of AdaGrad to deal with sparse gradients, and the ability of RMSProp to deal with non-stationary objectives.
意思是Adam是RmsProp和Momentum算法的結合.
根據表格來理解，其實是：
Momentum算法寫成了指數平均的形式。
Adam其實是在RmsProp的基礎上，對RmsProp的分子做了加權指數平均處理。

Reference:
[1]https://blog.csdn.net/willduan1/article/details/78070086
[2]ADAM:A method for stochastic optimization

總結

以上是生活随笔為你收集整理的Adam是RmsProp和momentum算法的结合(列表比较)的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：快速保留小数点后面几位(转)
下一篇：知乎上砍手豪关于kaggle的观点(转载