當前位置：首頁 > 人工智能 > pytorch >内容正文

pytorch

深度学习（30）随机梯度下降七: 多层感知机梯度（反向传播算法）

發(fā)布時間：2023/12/15 pytorch 35 豆豆

生活随笔收集整理的這篇文章主要介紹了深度学习（30）随机梯度下降七: 多层感知机梯度（反向传播算法）小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

深度學習（30）隨機梯度下降八: 多層感知機梯度（反向傳播算法）

1. 多層感知機模型
2. 多層感知機梯度
3. 傳播規(guī)律小結

tens
Recap
Chain Rule

Multi-output Perceptron

$?E?wjk=(Ok?tk)Ok(1?Ok)xj0\frac{?E}{?w_{jk}} =(O_k-t_k)O_k (1-O_k)x_j^0$
Multi-Layer Perception

1. 多層感知機模型

$?E?wjk=(Ok?tk)Ok(1?Ok)xj0\frac{?E}{?w_{jk}}=(O_k-t_k)O_k (1-O_k)x_j^0$ $→\to$ $?E?wjk=(Ok?tk)Ok(1?Ok)xjJ\frac{?E}{?w_{jk}}=(O_k-t_k)O_k (1-O_k)x_j^J$ 設: $δ_k^K=(O_k-t_k)O_k (1-O_k)$ 注: 這里可以將 $δ_k^K$ 理解為是k節(jié)點的一個屬性; $?E?wjk=δkKxjJ\frac{?E}{?w_{jk}} =δ_k^K x_j^J$

2. 多層感知機梯度

$?E?wij=??wij12∑k∈K(Ok?tk)2\frac{?E}{?w_{ij}} =\frac{?}{?w_{ij} } \frac{ 1}{2} ∑_{k∈K}(O_k-t_k)^2$ $?E?wij=∑k∈K(Ok?tk)??wijOk\frac{?E}{?w_{ij}} =∑_{k∈K}(O_k-t_k ) \frac{ ?}{?w_{ij}} O_k$
$?E?wij=∑k∈K(Ok?tk)??wijσ(xk)\frac{?E}{?w_{ij}} =∑_{k∈K}(O_k-t_k ) \frac{ ?}{?w_{ij}} σ(x_k )$ $?E?wij=∑k∈K(Ok?tk)?σ(xk)?xk?xk?wij\frac{?E}{?w_{ij}} =∑_{k∈K}(O_k-t_k ) \frac{?σ(x_k )}{?x_k } \frac{?x_k}{?w_{ij} }$ $?E?wij=∑k∈K(Ok?tk)σ(xk)(1?σ(xk))?xk?wij\frac{?E}{?w_{ij}} =∑_{k∈K}(O_k-t_k ) σ(x_k )(1-σ(x_k ))\frac{?x_k}{?w_{ij} }$ $?E?wij=∑k∈K(Ok?tk)Ok(1?Ok)?xk?wij\frac{?E}{?w_{ij}} =∑_{k∈K}(O_k-t_k )O_k (1-O_k)\frac{?x_k}{?w_{ij} }$ $?E?wij=∑k∈K(Ok?tk)Ok(1?Ok)?xk?Oj?Oj?wij\frac{?E}{?w_{ij}} =∑_{k∈K}(O_k-t_k )O_k (1-O_k)\frac{?x_k}{?O_j} \frac{?O_j}{?w_{ij}}$ $∵xkK=O0Jw0kJ+O1Jw1kJ+?+OjJwjkJ+?+OnJwnkJ\because x_k^K=O_0^J w_{0k}^J+O_1^J w_{1k}^J+?+O_j^J w_{jk}^J+?+O_n^J w_{nk}^J$ $∴?E?wij=∑k∈K(Ok?tk)Ok(1?Ok)wjk?Oj?wij\therefore\frac{?E}{?w_{ij}} =∑_{k∈K}(O_k-t_k )O_k (1-O_k)w_{jk} \frac{?O_j}{?w_{ij}}$ $?E?wij=?Oj?wij∑k∈K(Ok?tk)Ok(1?Ok)wjk\frac{?E}{?w_{ij}} = \frac{?O_j}{?w_{ij}}∑_{k∈K}(O_k-t_k )O_k (1-O_k)w_{jk}$ $∵?Oj?wij=?Oj?xj?xj?wij=Oj(1?Oj)?xj?wij\because\frac{?O_j}{?w_{ij}}=\frac{?O_j}{?x_j} \frac{?x_j}{?w_{ij}} =O_j (1-O_j)\frac{?x_j}{?w_{ij}}$ $∴?E?wij=Oj(1?Oj)?xj?wij∑k∈K(Ok?tk)Ok(1?Ok)wjk\therefore\frac{?E}{?w_{ij}} =O_j (1-O_j) \frac{?x_j}{?w_{ij}}∑_{k∈K}(O_k-t_k ) O_k (1-O_k)w_{jk}$ $?E?wij=Oj(1?Oj)Oi∑k∈K(Ok?tk)Ok(1?Ok)wjk\frac{?E}{?w_{ij}} =O_j (1-O_j)O_i ∑_{k∈K}(O_k-t_k ) O_k (1-O_k)w_{jk}$ $∵(Ok?tk)Ok(1?Ok)=δk\because (O_k-t_k ) O_k (1-O_k )=δ_k$ $∴?E?wij=OiOj(1?Oj)∑k∈Kδkwjk\therefore \frac{?E}{?w_{ij}}=O_i O_j (1-O_j)∑_{k∈K}δ_k w_{jk}$ 設: $δ_j^J=O_j (1-O_j)∑_{k∈K}δ_k w_{jk}$ 則: $?E?wij=δjJOiI\frac{?E}{?w_{ij}}=δ_j^J O_i^I$ 注: 可以把 $δ_k^K$ 理解為當前連接w_ij對誤差函數(shù)的貢獻值;

3. 傳播規(guī)律小結

輸出層
$?E?wjk=δk(K)Oj\frac{?E}{?w_{jk}}=δ_k^{(K)} O_j$ $δ_k^{(K)}=O_k (1-O_k)(O_k-t_k)$
倒數(shù)第二層
$?E?wij=δj(J)Oi\frac{?E}{?w_{ij}}=δ_j^{(J)} O_i$ $δ_j^{(J)}=O_j (1-O_j)∑_kδ_k^{(K)} w_{jk}$
倒數(shù)第三層
$?E?wni=δi(I)On\frac{?E}{?w_{ni}}=δ_i^{(I)} O_n$ $δ_i^{(I)}=O_i (1-O_i)∑_jδ_j^{(J)} w_{ij}$ 其中 $O_n$ 為倒數(shù)第三層的輸入，即倒數(shù)第四層的輸出。

依照此規(guī)律，只需要循環(huán)迭代計算每一層每個節(jié)點的 $δ_k^{(K)}$ 、 $δ_j^{(J)}$ 、 $δ_i^{(I)}$ 等值即可求得當前層的偏導數(shù)，從而得到每層權值矩陣W的梯度，再通過梯度下降算法迭代優(yōu)化網絡參數(shù)即可。

參考文獻:
[1] 龍良曲:《深度學習與TensorFlow2入門實戰(zhàn)》

總結

以上是生活随笔為你收集整理的深度学习（30）随机梯度下降七: 多层感知机梯度（反向传播算法）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：确认C浪下跌结束方法
下一篇：深度学习（31）随机梯度下降九: Him