日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人工智能 > 循环神经网络 >内容正文

循环神经网络

1.8 循环神经网络的梯度消失-深度学习第五课《序列模型》-Stanford吴恩达教授

發(fā)布時間:2025/4/5 循环神经网络 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 1.8 循环神经网络的梯度消失-深度学习第五课《序列模型》-Stanford吴恩达教授 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

←上一篇↓↑下一篇→
1.7 對新序列采樣回到目錄1.9 GRU 單元

循環(huán)神經(jīng)網(wǎng)絡的梯度消失 (Vanishing Gradient with RNNs)

你已經(jīng)了解了RNN時如何工作的了,并且知道如何應用到具體問題上,比如命名實體識別,比如語言模型,你也看到了怎么把反向傳播用于RNN。其實,基本的RNN算法還有一個很大的問題,就是梯度消失的問題。這節(jié)課我們會討論,在下幾節(jié)課我們會討論一些方法用來解決這個問題。

你已經(jīng)知道了RNN的樣子,現(xiàn)在我們舉個語言模型的例子,假如看到這個句子(上圖編號1所示),“The cat, which already ate ……, was full.”,前后應該保持一致,因為cat是單數(shù),所以應該用was。“The cats, which ate ……, were full.”(上圖編號2所示),cats是復數(shù),所以用were。這個例子中的句子有長期的依賴,最前面的單詞對句子后面的單詞有影響。但是我們目前見到的基本的RNN模型(上圖編號3所示的網(wǎng)絡模型),不擅長捕獲這種長期依賴效應,解釋一下為什么。

你應該還記得之前討論的訓練很深的網(wǎng)絡,我們討論了梯度消失的問題。比如說一個很深很深的網(wǎng)絡(上圖編號4所示),100層,甚至更深,對這個網(wǎng)絡從左到右做前向傳播然后再反向傳播。我們知道如果這是個很深的神經(jīng)網(wǎng)絡,從輸出 y^\hat{y}y^? 得到的梯度很難傳播回去,很難影響靠前層的權重,很難影響前面層(編號5所示的層)的計算。

對于有同樣問題的RNN,首先從左到右前向傳播,然后反向傳播。但是反向傳播會很困難,因為同樣的梯度消失的問題,后面層的輸出誤差(上圖編號6所示)很難影響前面層(上圖編號7所示的層)的計算。這就意味著,實際上很難讓一個神經(jīng)網(wǎng)絡能夠意識到它要記住看到的是單數(shù)名詞還是復數(shù)名詞,然后在序列后面生成依賴單復數(shù)形式的was或者were。而且在英語里面,這中間的內容(上圖編號8所示)可以任意長,對吧?所以你需要長時間記住單詞是單數(shù)還是復數(shù),這樣后面的句子才能用到這些信息。也正是這個原因,所以基本的RNN模型會有很多局部影響,意味著這個輸出 y^<3>\hat{y}^{<3>}y^?<3> (上圖編號9所示)主要受 y^<3>\hat{y}^{<3>}y^?<3> 附近的值(上圖編號10所示)的影響,上圖編號11所示的一個數(shù)值主要與附近的輸入(上圖編號12所示)有關,上圖編號6所示的輸出,基本上很難受到序列靠前的輸入(上圖編號10所示)的影響,這是因為不管輸出是什么,不管是對的,還是錯的,這個區(qū)域都很難反向傳播到序列的前面部分,也因此網(wǎng)絡很難調整序列前面的計算。這是基本的RNN算法的一個缺點,我們會在下幾節(jié)視頻里處理這個問題。如果不管的話,RNN會不擅長處理長期依賴的問題。

盡管我們一直在討論梯度消失問題,但是,你應該記得我們在講很深的神經(jīng)網(wǎng)絡時,我們也提到了梯度爆炸,我們在反向傳播的時候,隨著層數(shù)的增多,梯度不僅可能指數(shù)型的下降,也可能指數(shù)型的上升。事實上梯度消失在訓練RNN時是首要的問題,盡管梯度爆炸也是會出現(xiàn),但是梯度爆炸很明顯,因為指數(shù)級大的梯度會讓你的參數(shù)變得極其大,以至于你的網(wǎng)絡參數(shù)崩潰。所以梯度爆炸很容易發(fā)現(xiàn),因為參數(shù)會大到崩潰,你會看到很多NaN,或者不是數(shù)字的情況,這意味著你的網(wǎng)絡計算出現(xiàn)了數(shù)值溢出。如果你發(fā)現(xiàn)了梯度爆炸的問題,一個解決方法就是用梯度修剪。梯度修剪的意思就是觀察你的梯度向量,如果它大于某個閾值,縮放梯度向量,保證它不會太大,這就是通過一些最大值來修剪的方法。所以如果你遇到了梯度爆炸,如果導數(shù)值很大,或者出現(xiàn)了NaN,就用梯度修剪,這是相對比較魯棒的,這是梯度爆炸的解決方法。然而梯度消失更難解決,這也是我們下幾節(jié)視頻的主題。

總結一下,在前面的課程,我們了解了訓練很深的神經(jīng)網(wǎng)絡時,隨著層數(shù)的增加,導數(shù)有可能指數(shù)型的下降或者指數(shù)型的增加,我們可能會遇到梯度消失或者梯度爆炸的問題。加入一個RNN處理1,000個時間序列的數(shù)據(jù)集或者10,000個時間序列的數(shù)據(jù)集,這就是一個1,000層或者10,000層的神經(jīng)網(wǎng)絡,這樣的網(wǎng)絡就會遇到上述類型的問題。梯度爆炸基本上用梯度修剪就可以應對,但梯度消失比較棘手。我們下節(jié)會介紹GRU,門控循環(huán)單元網(wǎng)絡,這個網(wǎng)絡可以有效地解決梯度消失的問題,并且能夠使你的神經(jīng)網(wǎng)絡捕獲更長的長期依賴,我們去下個視頻一探究竟吧。

課程板書



←上一篇↓↑下一篇→
1.7 對新序列采樣回到目錄1.9 GRU 單元

總結

以上是生活随笔為你收集整理的1.8 循环神经网络的梯度消失-深度学习第五课《序列模型》-Stanford吴恩达教授的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 欧美一本 | 午夜精品福利一区二区蜜股av | 情趣五月天 | 国产999在线| 日本一区二区三区视频在线 | 黄色片子一级 | 久草www| 国产剧情精品在线 | 国产真人做爰视频免费 | 欧美大片xxxx | 韩国视频一区 | 最新中文字幕在线观看视频 | 国产精品亚洲视频 | 免费黄色一级视频 | heyzo久久 | 成人小视频在线看 | 99热在线这里只有精品 | 国产大奶| 久久久久人妻一区精品 | 韩国女主播裸体摇奶 | 狠狠操狠狠爱 | 亚洲淫欲 | 亚洲影库 | 不卡在线一区 | 日韩美女视频一区二区 | 成人av免费网站 | 污污视频在线观看免费 | 久久国内免费视频 | 精品人妻无码一区二区性色 | www.com捏胸挤出奶 | 久久短视频 | 51成人做爰www免费看网站 | 人妻久久一区二区三区 | 成人毛片18女人毛片免费 | 青草福利 | 亚洲一区二区黄色 | 中文字幕电影一区二区 | 自拍偷拍色 | 亚洲网色 | 91大神视频在线播放 | 久久精品免费一区二区 | 伊人网国产 | 男人插入女人阴道视频 | 97色资源| 性色一区| 国产av无码专区亚洲av毛片搜 | 日韩性av| 伊人婷婷综合 | av污 | 国产成人高清 | 欧美看片 | 免费三片在线播放 | 视频一二区 | 黄网站在线观看视频 | 草草在线影院 | 婷婷一区二区三区四区 | 欧美日韩在线视频一区二区 | 91毛片网站| 五月激情婷婷丁香 | 亚洲自拍p | 国产精品日韩 | 99在线精品免费视频 | 亚洲精品高潮 | 欧美一及片 | 香蕉久久精品 | 国产精品99久久久精品无码 | 好色av | 娇妻第一次尝试交换的后果 | 蜜臀av性久久久久蜜臀aⅴ涩爱 | 久久在线视频 | 黄色在线观看免费 | 香蕉尹人 | 成人a区 | 一区二区三区四区欧美 | 99热在线这里只有精品 | 国产猛男猛女超爽免费视频 | 91精品久久久久久粉嫩 | 99精品国产免费 | av毛片在线免费看 | 日韩全黄 | 国产sss| 一区二区三区人妻 | 亚洲国产欧美在线观看 | 日本成人在线不卡 | 视频一区二区三区精品 | 91理论片午午伦夜理片久久 | 日韩欧美一区视频 | 久久天天东北熟女毛茸茸 | 解开人妻的裙子猛烈进入 | 让男按摩师摸好爽视频 | 亚洲久久综合 | 琪琪免费视频 | 99热免费观看 | 国产无遮挡又黄又爽在线观看 | www.av欧美| 精品www| 69久人妻无码精品一区 | 五十路黄色片 | 日韩一级二级视频 |