日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

adadelta算法_神经网络中常用的优化算法

發(fā)布時間:2025/4/16 编程问答 19 豆豆
生活随笔 收集整理的這篇文章主要介紹了 adadelta算法_神经网络中常用的优化算法 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

優(yōu)化算法的目的:1. 跳出局部極值點或鞍點,尋找全局最小值;2.使訓(xùn)練過程更加穩(wěn)定,更加容易收斂。

優(yōu)化算法的改進無非兩方面:1.方向--加動量,2.學(xué)習(xí)速率--加衰減

1.SGD

2.[Momentum](https://zh.d2l.ai/chapter_optimization/momentum.html)

常取0.9. 從學(xué)習(xí)率的角度理解動量法:指數(shù)加權(quán)移動平均,也可以理解為滑動窗口。在動量法中,自變量在各個方向上的移動幅度不僅取決于當(dāng)前梯度,還取決于過去的各個梯度在各個方向上是否一致。也就是說,若某個緯度的歷史梯度震蕩比較大,則在該維度上學(xué)習(xí)會更加慎重。

3.[Nesterov(NAG)](https://blog.csdn.net/tsyccnh/article/details/76673073)

這個想法太巧妙了,動量法可以重寫為:

是與當(dāng)前時刻 無關(guān)的,所以不管方向為何, 都一定會在的方向上走上一段距離的。那為何不先在方向上走一步后,再算梯度呢。

藍線為動量法,棕線為t-1時刻的動量方向,紅線為

方向上走一步后梯度,綠線為兩者之和。

4.Adagrad

為所有緯度設(shè)置相同的學(xué)習(xí)率是訓(xùn)練更加容易震蕩。AdaGrad算法,它根據(jù)自變量在每個維度的梯度值的大小來調(diào)整各個維度上的學(xué)習(xí)率,從而避免統(tǒng)一的學(xué)習(xí)率難以適應(yīng)所有維度的問題。

這里說一下

的計算 : 是 對應(yīng)元素相乘,是一個和 相同尺寸的向量, 所以Adagrad不同維度的學(xué)習(xí)率是不一樣的。

5.Adadelta

Adagrad有個明顯的缺點,沒有對過往的

進行衰減,導(dǎo)致迭代一定次數(shù)后, 必然趨近于0。

Adadelta就是為了解決 Adagrad 學(xué)習(xí)率急劇下降問題的。

他們管在

前面乘一個1-v叫指數(shù)加權(quán)平均。

Adadelta會對過去的

有個v的指數(shù)倍的衰減,有了這個衰減,就可以把Adadelta算法理解為一個滑動的窗,對窗內(nèi)的進行指數(shù)加權(quán)平均。

(為什么要在

前面乘個1-v的系數(shù)?歸一化就這么重要么?)

6.Adam

Adadelta+動量

他們管

叫偏差修正。因為u, v一般取0.9以上,且 一般初始化為0,所以在t較小時, 只有 ,所以引入偏差修正。隨著t的增大, 越來越接近 。

總結(jié)

以上是生活随笔為你收集整理的adadelta算法_神经网络中常用的优化算法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。