日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

关于weight decay

發(fā)布時(shí)間:2023/12/16 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 关于weight decay 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

weight decay的作用主要是令神經(jīng)網(wǎng)絡(luò)中的權(quán)重變小(趨于0),以防止過擬合
y=∑iwixiy=\sum_{i}{w_ix_i}y=i?wi?xi?,則因噪聲的存在,可能會(huì)令其中某幾個(gè)www偏大,導(dǎo)致無法正確擬合正常輸入
weight decay的公式為:

C=C0+λ2n∑iwi2C=C_0+\frac{\lambda}{2n}\sum_i{w_i^2}C=C0?+2nλ?i?wi2?

?C?wk=?C0?wk+λwkn\frac{\partial{C}}{\partial{w_k}}=\frac{\partial{C_0}}{\partial{w_k}}+\frac{\lambda w_k}{n}?wk??C?=?wk??C0??+nλwk??

其中C0C_0C0?為原誤差,λ\lambdaλ為weight decay系數(shù),也可以看做是懲罰值, 12\frac{1}{2}21?則用于求導(dǎo)時(shí)的簡(jiǎn)化

原始梯度下降wnew=wold?ηΔ,Δ=?C0?wkw_{new}=w_{old}-\eta\Delta ,\Delta=\frac{\partial{C_0}}{\partial{w_k}}wnew?=wold??ηΔ,Δ=?wk??C0??

使用了weight decay之后,Δ\DeltaΔ中多了一項(xiàng)λwkn\frac{\lambda w_k}{n}nλwk??,即對(duì)梯度下降時(shí)較大的權(quán)重,會(huì)賦予較大的懲罰值,使新的w趨于0

而在選取decay值上,目前尚沒有比較普適的公式
How could I choose the value of weight decay for neural network regularization 中提到用平時(shí)調(diào)參時(shí)常用的兩種策略:grid search 和 random search
其實(shí)都是類似窮舉,首先需要有個(gè)驗(yàn)證集(不同于訓(xùn)練集),分別對(duì)驗(yàn)證集采取不同decay值(如0.5, 0.1, 0.01等等)進(jìn)行測(cè)試,選取其中效果較好的decay,即作為訓(xùn)練集的decay

總結(jié)

以上是生活随笔為你收集整理的关于weight decay的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。