日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人工智能 > pytorch >内容正文

pytorch

eta 深度学习 参数_深度学习中的参数梯度推导(一)

發布時間:2025/3/21 pytorch 41 豆豆
生活随笔 收集整理的這篇文章主要介紹了 eta 深度学习 参数_深度学习中的参数梯度推导(一) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

必備的數學知識

矩陣微分與求導

前言

深度學習向來被很多人認為是“黑盒”,因為似乎很多人都不清楚深度學習的運作方式,本系列《深度學習中的數學》的連載文章主要目的就是向大家揭開深度學習背后工作的機理。

在正式開始之前,我想說一些題外話。我們經常能聽到關于神經網絡不具備解釋性的言論,而我個人對此的觀點是神經網絡是具有解釋性的,只是很多人在用神經網絡的時候,僅僅停留在調包的層面上,那又怎么可能知道神經網絡是如何運作的呢?這個問題需要從參數的梯度來窺探究竟的,如果你能手撕一遍神經網絡參數的梯度推導公式,再輔以深度學習計算框架,如tensorflow或pytorch的自動求導的驗證,那么原本所謂的黑盒在那時候的你看來就是個徹底的白盒了。

本系列的內容編排大致如下:

  • 一些重要的數學預備知識:矩陣微分的數學準備 + 矩陣微分的應用demo,分為上下兩個部分

  • DNN的前向傳播算法與反向梯度推導

  • CNN的前向傳播算法與反向梯度推導

  • RNN的前向傳播算法與反向梯度推導 + RNN會引起梯度消失的原因分析

  • LSTM前向傳播算法與反向梯度推導 + LSTM能解決梯度消失的原因分析

  • 借助tensorflow的自動求導工具,驗證上述所有導數推導結論的正確性

注意:

  • 本系列默認讀者已具備梯度,導數,梯度下降等基礎的數學概念

  • 本系列默認讀者已具備基本的線性代數知識

1.1

數學符號

1.2

矩陣導數的定義和布局

根據求導的自變量和因變量是標量,向量還是矩陣,我們有9種可能的矩陣求導定義,形式上如下所示:

-----------簡單難度-----------

總結一點就是,求導結果與因變量同形,這就是所謂的分母布局

總結一點就是,求導結果與自變量同形,這就是所謂的分子布局

感覺出一些東西了嗎,所謂矩陣求導,不過是逐元素進行標量層面的求導然后排列成向量/矩陣罷了。

--------------難度稍大一點----------

1.3

矩陣求導的優勢

之所以要搞矩陣微分,當然不是吃飽了撐著,而是為了在分析大量的神經網絡參數的時候不容易出錯。

由此可見,對于第一個例子,或許我們通過定義法尚且能又快又準地寫出求導結果,但對于第二例子,按照定義出發,從標量對標量求導的角度出發,計算出y后再對x求導就顯得有點繁瑣了,而且還容易出錯。但如果從矩陣求導的角度入手,因為是在向量/矩陣的維度上看待求導操作,所以求導的結果可以很容易寫成向量和矩陣的組合,這樣又高效,形式又簡潔。

1.4

矩陣微分與矩陣求導

上面這個式子左邊看著挺惡心的,但右邊的數學含義是非常明顯的,就是兩個矩陣對應元素相乘然后相加,跟向量的內積類似,這個叫矩陣的內積

1.5

矩陣微分性質歸納

上篇小結

至此,我們已了解了為什么要學矩陣求導,以及各種常見情況下(向量對矩陣,矩陣對向量,以及矩陣對矩陣的導數沒提)的導數定義。此外,我們學習到矩陣微分和矩陣導數的關系,以及一些常見的矩陣微分性質。在下篇中,我們將介紹矩陣導數中的鏈式法則以及專門針對標量對矩陣/向量求導的核心方法-跡技巧。最后,我們將用一個2層多分類的神經網絡作為例子,演習一下如何用矩陣求導來得到神經網絡中的參數的梯度。

深度學習

TO BE CONTINUED

數學

文章作者:?中國電信研究院 | 劉心唯

文章內容系作者個人觀點,不代表融智未來公眾號的觀點或立場。

你們點點“分享”,給我充點兒電吧~

總結

以上是生活随笔為你收集整理的eta 深度学习 参数_深度学习中的参数梯度推导(一)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。