當(dāng)前位置：首頁 > 人工智能 > pytorch >内容正文

pytorch

李宏毅深度学习——梯度下降

發(fā)布時(shí)間：2025/3/21 pytorch 44 豆豆

生活随笔收集整理的這篇文章主要介紹了李宏毅深度学习——梯度下降小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?Loss function是function的function（function為自變量，線性回歸中w、b為自變量）

一開始離目標(biāo)遠(yuǎn)learning_rate的值要比較大，等到離目標(biāo)近的時(shí)候調(diào)小learning_rate

?是導(dǎo)數(shù)，是所有之前步驟算出?的均方根（先求平方，再求均值，最后開根號(hào)）

?出現(xiàn)矛盾，分母的地方gradient越大步伐越小，分子的地方gradient越大步伐越大

一個(gè)參數(shù)的時(shí)候，最好的步伐和微分大小成正比

a和b比較，a的微分大，a距離最低點(diǎn)是比較遠(yuǎn)（只考慮w1）

c和d比較，c的微分大，c距離最低點(diǎn)是比較遠(yuǎn)（只考慮w2）

如果比較是跨參數(shù)的話，結(jié)論就不成立了。c對(duì)w2的微分值大，a對(duì)w1的微分值小，但是c離最低點(diǎn)更近

所以不僅要考慮一次微分，還要考慮二次微分

最好的step不僅要正比于一次微分，還要和二次微分成反比?

w1這張圖的二次微分小，w2這張圖的二次微分大，這樣就能解釋，c對(duì)w2的微分值大，a對(duì)w1的微分值小，但是c離最低點(diǎn)更近，因?yàn)檫€要除掉各自的二次微分。

adagrad并沒有直接計(jì)算二次微分（要花很長時(shí)間），adagrad是利用一次微分來估計(jì)二次微分

隨機(jī)梯度下降，加快速度

w1對(duì)y的影響比較小，所以對(duì)loss的影響比較小

w2對(duì)y的影響比較大，所以對(duì)loss的影響比較大

這對(duì)gradient descent有影響（沒直接往圓心走），隨意要去量綱

錯(cuò)誤，update參數(shù)以后loss不一定會(huì)下降?

（u,v）是一個(gè)向量

（delta(theta1),delta(theta2)）也是一個(gè)向量

要求兩個(gè)向量的內(nèi)集最小

顯然兩者成180度的時(shí)候，模模cos（theta）是最小的

前提是learning_rate一定要小，不然不成立

《新程序員》：云原生和全面數(shù)字化實(shí)踐50位技術(shù)專家共同創(chuàng)作，文字、視頻、音頻交互閱讀

以上是生活随笔為你收集整理的李宏毅深度学习——梯度下降的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。