日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 人工智能 > pytorch >内容正文

pytorch

李宏毅深度学习——梯度下降

發(fā)布時(shí)間:2025/3/21 pytorch 44 豆豆
生活随笔 收集整理的這篇文章主要介紹了 李宏毅深度学习——梯度下降 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?Loss function是function的function(function為自變量,線性回歸中w、b為自變量)

一開始離目標(biāo)遠(yuǎn)learning_rate的值要比較大,等到離目標(biāo)近的時(shí)候調(diào)小learning_rate

?是導(dǎo)數(shù),是所有之前步驟算出?的均方根(先求平方,再求均值,最后開根號(hào))

?出現(xiàn)矛盾,分母的地方gradient越大步伐越小,分子的地方gradient越大步伐越大

一個(gè)參數(shù)的時(shí)候,最好的步伐和微分大小成正比

a和b比較,a的微分大,a距離最低點(diǎn)是比較遠(yuǎn)(只考慮w1)

c和d比較,c的微分大,c距離最低點(diǎn)是比較遠(yuǎn)(只考慮w2)

如果比較是跨參數(shù)的話,結(jié)論就不成立了。c對(duì)w2的微分值大,a對(duì)w1的微分值小,但是c離最低點(diǎn)更近

所以不僅要考慮一次微分,還要考慮二次微分

最好的step不僅要正比于一次微分,還要和二次微分成反比?

w1這張圖的二次微分小,w2這張圖的二次微分大,這樣就能解釋,c對(duì)w2的微分值大,a對(duì)w1的微分值小,但是c離最低點(diǎn)更近,因?yàn)檫€要除掉各自的二次微分。

adagrad并沒有直接計(jì)算二次微分(要花很長時(shí)間),adagrad是利用一次微分來估計(jì)二次微分

隨機(jī)梯度下降,加快速度

w1對(duì)y的影響比較小,所以對(duì)loss的影響比較小

w2對(duì)y的影響比較大,所以對(duì)loss的影響比較大

這對(duì)gradient descent有影響(沒直接往圓心走),隨意要去量綱

錯(cuò)誤,update參數(shù)以后loss不一定會(huì)下降?

?

?

(u,v) 是一個(gè)向量

(delta(theta1),delta(theta2))也是一個(gè)向量

要求兩個(gè)向量的內(nèi)集最小

顯然兩者成180度的時(shí)候,模模cos(theta)是最小的

前提是learning_rate一定要小,不然不成立

《新程序員》:云原生和全面數(shù)字化實(shí)踐50位技術(shù)專家共同創(chuàng)作,文字、視頻、音頻交互閱讀

總結(jié)

以上是生活随笔為你收集整理的李宏毅深度学习——梯度下降的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。