日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

tf.clip_by_global_norm理解

發布時間:2025/3/21 编程问答 22 豆豆
生活随笔 收集整理的這篇文章主要介紹了 tf.clip_by_global_norm理解 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Gradient Clipping的引入是為了處理gradient explosion或者gradients vanishing的問題。當在一次迭代中權重的更新過于迅猛的話,很容易導致loss divergence。Gradient Clipping的直觀作用就是讓權重的更新限制在一個合適的范圍。

具體的細節是?
1.在solver中先設置一個clip_gradient?
2.在前向傳播與反向傳播之后,我們會得到每個權重的梯度diff,這時不像通常那樣直接使用這些梯度進行權重更新,而是先求所有權重梯度的平方和sumsq_diff,如果sumsq_diff > clip_gradient,則求縮放因子= clip_scale_factor gradient / sumsq_diff。這個scale_factor在(0,1)之間。如果權重梯度的平方和sumsq_diff越大,那縮放因子將越小。?
3.最后將所有的權重梯度乘以這個縮放因子,這時得到的梯度才是最后的梯度信息。

這樣就保證了在一次迭代更新中,所有權重的梯度的平方和在一個設定范圍以內,這個范圍就是clip_gradient.

tf.clip_by_global_norm

tf.clip_by_global_norm(t_list, clip_norm, use_norm=None, name=None)


通過權重梯度的總和的比率來截取多個張量的值。?
t_list 是梯度張量, clip_norm 是截取的比率, 這個函數返回截取過的梯度張量和一個所有張量的全局范數。

t_list[i] 的更新公式如下:

t_list[i] * clip_norm / max(global_norm, clip_norm)


其中global_norm = sqrt(sum([l2norm(t)**2 for t in t_list]))?
global_norm 是所有梯度的平方和,如果 clip_norm > global_norm ,就不進行截取。?
但是這個函數的速度比clip_by_norm() 要慢,因為在截取之前所有的參數都要準備好
————————————————
版權聲明:本文為CSDN博主「mstar1992」的原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/u013713117/article/details/56281715

總結

以上是生活随笔為你收集整理的tf.clip_by_global_norm理解的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。