當前位置：首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

AI应用开发基础傻瓜书系列2-神经网络中反向传播与梯度下降的基本概念

發布時間：2024/7/23 ChatGpt 47 豆豆

生活随笔收集整理的這篇文章主要介紹了 AI应用开发基础傻瓜书系列2-神经网络中反向传播与梯度下降的基本概念小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

AI應用開發基礎傻瓜書系列2-神經網絡中反向傳播與梯度下降的基本概念

Content
01.0-神經網絡的基本工作原理
01.1-基本數學導數公式
01.2-Python-Numpy庫的點滴
02.0-反向傳播與梯度下降
02.1-線性反向傳播
02.2-非線性反向傳播
02.3-梯度下降
03.0-損失函數
03.1-均方差損失函數
03.2-交叉熵損失函數
04.0-單入單出單層-單變量線性回歸
04.1-最小二乘法
04.2-梯度下降法
04.3-神經網絡法
04.4-梯度下降的三種形式
04.5-實現邏輯非門
05.0-多入單出單層-多變量線性回歸
05.1-正規方程法
05.2-神經網絡法
05.3-樣本特征數據的歸一化
05.4-歸一化的后遺癥
05.5-正確的推理方法
05.6-歸一化標簽值
06.0-多入多出單層神經網絡-多變量線性分類
06.1-二分類原理
06.2-線性二分類實現
06.3-線性二分類結果可視化
06.4-多分類原理
06.5-線性多分類實現
06.6-線性多分類結果可視化
07.0-激活函數
07.1-擠壓型激活函數
07.2-半線性激活函數
07.3-用雙曲正切函數分類
07.4-實現邏輯與門和或門
08.0-單入單出雙層-萬能近似定理
08.1-雙層擬合網絡的原理
08.2-雙層擬合網絡的實現
09.0-多入多出雙層-雙變量非線性分類
09.1-實現邏輯異或門
09.2-理解二分類的工作原理
09.3-非線性多分類
09.4-理解多分類的工作原理
10.0-調參與優化
10.1-權重矩陣初始化
10.2-參數調優
10.3-搜索最優學習率
10.4-梯度下降優化算法
10.5-自適應學習率算法
11.0-深度學習基礎
11.1-三層神經網絡的實現
11.2-驗證與測試
11.3-梯度檢查
11.4-手工測試訓練效果
11.5-搭建深度神經網絡框架
12.0-卷積神經網絡
12.1-卷積
12.2-池化
14.1-神經網絡模型概述
14.2-Windows模型的部署
14.3-Android模型的部署

第二篇：神經網絡中反向傳播與梯度下降的基本概念

預警：本篇博客中會涉及到偏導數的概念，但是非常初級，很容易理解，建議硬著頭皮看，跟著算一遍，看完之后保證會覺得人生美好了很多。

反向傳播和梯度下降這兩個詞，第一眼看上去似懂非懂，不明覺厲。這兩個概念是整個神經網絡中的重要組成部分，是和誤差函數/損失函數的概念分不開的。

神經網絡訓練的最基本的思想就是：先“蒙”一個結果，我們叫預測結果a，看看這個預測結果和事先標記好的訓練集中的真實結果y之間的差距，然后調整策略，再試一次，這一次就不是“蒙”了，而是有依據地向正確的方向靠近。如此反復多次，一直到預測結果和真實結果之間相差無幾，亦即|a-y|->0，就結束訓練。

在神經網絡訓練中，我們把“蒙”叫做初始化，可以隨機，也可以根據以前的經驗給定初始值。即使是“蒙”，也是有技術含量的。

通俗地理解反向傳播

舉個通俗的例子，Bob拿了一支沒有準星的步槍，或者是準星有bug，或者是Bob眼神兒不好看不清靶子，或者是霧很大…反正就是Bob很倒霉。第一次試槍后，拉回靶子一看，彈著點偏左了，于是在第二次試槍時，Bob就會有意識地向右側偏幾毫米，再看靶子上的彈著點，如此反復幾次，Bob就會掌握這支步槍的脾氣了。下圖顯示了Bob的5次試槍過程：

在這個例子中：

每次試槍彈著點和靶心之間的差距就叫做誤差，可以用一個誤差函數來表示，比如差距的絕對值，如圖中的紅色線。
一共試槍5次，就是迭代/訓練了5次的過程。
每次試槍后，把靶子拉回來看彈著點，然后調整下一次的射擊角度的過程，叫做反向傳播。注意，把靶子拉回來看和跑到靶子前面去看有本質的區別，后者容易有生命危險，因為還有別的射擊者。一個不恰當的比喻是，在數學概念中，人跑到靶子前面去看，叫做正向微分；把靶子拉回來看，叫做反向微分。
每次調整角度的數值和方向，叫做梯度。比如向右側調整1毫米，或者向左下方調整2毫米。如圖中的綠色矢量線。

上圖是每次單發點射，所以每次訓練樣本的個數是1。在實際的神經網絡訓練中，通常需要多個樣本，做批量訓練，以避免單個樣本本身采樣時帶來的誤差。在本例中，多個樣本可以描述為連發射擊，假設一次可以連打3發子彈，每次的離散程度都類似，如下圖所示：

如果每次3發子彈連發，這3發子彈的彈著點和靶心之間的差距之和再除以3，叫做損失，可以用損失函數來表示。

其實損失就是所有樣本的誤差的總和，所以有時候損失函數可以和誤差函數混用概念。

其實射擊還不這么簡單，如果是遠距離狙擊，還要考慮空氣阻力和風速，在神經網絡里，空氣阻力和風速可以對應到隱藏層的概念上。

用數學概念理解反向傳播

我們再用一個純數學的例子來說明反向傳播的概念。

假設我們有一個函數
$z = x ? y ，其中 : x = w ? 2 + b, y = b + 1 ，即 : z = (w ? 2 + b) ? (b + 1)$

關系如下圖：

注意這里x,
y, z不是變量，w,
b是才變量，因為在神經網絡中，我們要最終求解的是w和b的值，x,y,z只是樣本值。

當w = 3,
b = 4時，會得到如下結果

最終的z值，受到了前面很多因素的影響：變量w，變量b，計算式x，計算式y。常數是個定值，不考慮。目前的z=50，如果我們想讓z變大一些，w和b應該如何變化呢？

我們從z開始一層一層向回看，圖中各節點關于變量b的偏導計算結果如下圖：

因為z = x

y，其中x = w
2 + b，y = b +
1

所以：

$?z?b=?z?x??x?b+?z?y??y?b=5?1+10?1=15\frac{\partial{z}}{\partial{b}}=\frac{\partial{z}}{\partial{x}}*\frac{\partial{x}}{\partial{b}}+\frac{\partial{z}}{\partial{y}}*\frac{\partial{y}}{\partial{b}}=5*1+10*1=15$

其中：

$?z?x=??x(x?y)=y=5\frac{\partial{z}}{\partial{x}}=\frac{\partial{}}{\partial{x}}(x*y)=y=5$

$?z?y=??y(x?y)=x=10\frac{\partial{z}}{\partial{y}}=\frac{\partial{}}{\partial{y}}(x*y)=x=10$

$?x?b=??b(w?2+b)=1\frac{\partial{x}}{\partial{b}}=\frac{\partial{}}{\partial{b}}(w*2+b)=1$

$?y?b=??b(b+1)=1\frac{\partial{y}}{\partial{b}}=\frac{\partial{}}{\partial{b}}(b+1)=1$

有一個很有趣的問題是：z
= x * y = 10 * 5 = 50，表面看起來x=10，y=5，似乎x對z的貢獻較大。那么x的微小變化和y的微小變化對z來說，哪一個貢獻大呢？

我們假設只有x變化時，△x =
0.1, 則z = (x

△x) * y
= 10.1 * 5 = 50.5

我們再假設只有y變化時，△y =
0.1, 則z = x *
(y +△y) = 10

5.1 = 51

50.5 < 51，說明y的微小變化對z的貢獻比較大，這個從

$?z?x=??x(x?y)=5<?z?y=??y(x?y)=10\frac{\partial{z}}{\partial{x}}=\frac{\partial{}}{\partial{x}}(x*y)=5 < \frac{\partial{z}}{\partial{y}}=\frac{\partial{}}{\partial{y}}(x*y)=10$

和這兩個值的比較來看也可以證明。而△x和△y就可以理解為梯度值。

同理，我們也可以得到圖中各變量對w的偏導值：

從以上兩圖可以看出，反向微分保留了所有變量（包括中間變量）對結果z的影響。若z為誤差函數，則對圖進行一次計算，可以得到所有節點對z的影響，即梯度值，下一步就可以利用這些梯度值來更新w和b的權重。

w的變化和b的變化，哪一個對z的變化貢獻大？從圖中還可以注意到：

$?z?b=15\frac{\partial{z}}{\partial{b}}=15$

$?z?w=10\frac{\partial{z}}{\partial{w}}=10$

所以每次w和b的變化值是不相同的，b的變化會比w大一些，也就是每一步的跨度大一些，這個是與z
= xy = (w2+b)*(b+1)這個算式相關的，并不代表神經網絡中實際情況。

反向傳播的實際計算過程（單變量）

還是用上面的例子，目前：

$w = 3$
$b = 4$
$x = w ? 2 + b = 10$
$y = b + 1 = 5$
$z = x ? y = 50$

假設我們最終的目的想讓z
= 60，只改變b的值，如何實現？

答案就是偏導數：

$?z?b=ΔzΔb=15\frac{\partial{z}}{\partial{b}}=\frac{\Delta{z}}{\Delta{b}}=15$

目前z=50, 距離60相差10，所以我們令 $Δz=60?50=10\Delta{z}=60-50=10$ ，則：

$ΔzΔb=15=10Δb\frac{\Delta{z}}{\Delta{b}}=15=\frac{10}{\Delta{b}} \\$

所以:

$Δb=0.66667\Delta{b} = 0.66667$

再帶入式子中（順便說一句，下面這個計算過程就叫做前向計算）

$w = 3$
$b = 4 + 0.66667 = 4.66667$
$x = w ? 2 + b = 10.66667$
$y = b + 1 = 5.66667$
$z = x ? y = 10.66667 ? 5.66667 = 60.4445$

一下子超過60了，咋辦？再來一次（下面的過程就叫做反向傳播）：

我們令 $Δz=60?60.4445=?0.4445\Delta{z}=60-60.4445=-0.4445$ ，則：

$ΔzΔb=15=?0.4445Δb\frac{\Delta{z}}{\Delta{b}}=15=\frac{-0.4445}{\Delta{b}} \\$

所以:

$Δb=?0.02963\Delta{b} = -0.02963$

再帶入式子中：

$w = 3$
$b = 4.66667 ? 0.02963 = 4.63704$
$x = w ? 2 + b = 10.63704$
$y = b + 1 = 5.63704$
$z = x ? y = 10.63704 ? 5.63704 = 59.96$

咦哈！59.96了！再迭代幾次，應該可以近似等于60了，直到誤差不大于0.00001時，我們就可以結束迭代了，對于計算機來說，這些運算的執行速度很快。

有的同學會說了：這個問題不是用數學公式倒推求解一個二次方程，就能直接得到準確的b值嗎？是的！但是我們是要說明機器學習的方法，機器并不會解二次方程，而且很多時候不是用二次方程就能解決實際問題的。而上例所示，是用機器所擅長的迭代計算的方法來不斷逼近真實解，這就是機器學習的真諦！而且這種方法是普遍適用的。

用二維平面函數說明梯度下降原理

很多資料中會用下面這個圖來說明梯度下降，但是都沒有說清楚以下幾個問題：

1）為啥用這個看上去像 $y = x^2$ 族的函數來說明梯度下降？

2）在最低點的左側，梯度值是負數；在最低點的右側，梯度值是正數。為什么說是“下降”？

3）為什么1—>2，2—>3等等的連線不是這條曲線的切線呢，而好像是弦線？

為何用$y =

x^2$函數？

這是因為有一種損失函數的形式就是均方差，亦即：

$\sum_{i}(a_i - y_i) ^ 2$

其中a是本次迭代的預測結果，y是樣本中的真實結果。我們的目的就是在這個函數上求最小值，使loss最小，這樣樣本值和預測值就會非常非常接近，以便于我們以后預測不在樣本中的真實數據。

為什么說是“梯度下降”？

“梯度下降”，剛接觸這個詞時，我總是往“降低難度”或“降低維度”方面去理解，因為有個“下降”的動詞在里面。而實際上，“下降”在這里面的含義是“與導數相反的方向”的意思。

我們假設上面這個圖形的函數是 $y = (x-1)^2+0.001$ ，則 $y’_x = 2(x-1)$ 。

在點B上，這個函數的切線（綠色）是指向下方的（Y軸方向），所以是個負數：假設 $X_B$
= 0.1, 則 $y ’ = 2 ? (0.1 ? 1) = ? 1.8$ 。
在F點上，切線（綠色）向上：假設 $X_F$
= 1.5, 則 $y ’ = 2 ? (1.5 ? 1) = 1$ ，是個正數。

而在標準的權重更新公式里：

$η*\Delta{w}$

$η*\Delta{b}$

可以看到無論是w還是b，都是用上一次的權重值減去步長 $×\times$ 梯度。注意，我們在上一個例子中，是用b直接加減 $Δb\Delta{b}$ 的，并沒有用到η，或者說η=1。這樣的問題就是步長可能過大，一下子就跳過了極值點。

當梯度(y’)是正數時，即點F的位置， $x = x ? η ? 1$ ，切線向上，x值會變小，權重值會從右側向x=1靠近；
當梯度(y’)是負數時，亦即點B的位置，切線向下，x值會變大：$x = x
η*(-1.8)
= x + η*1.8$，最終運算結果變成了加法，與切線方向相反，權重值會從左側向x=1靠近。

所以總體上看，無論x在極值的左側還是右側，都會向中間（坡底）靠攏，確實是“下降”了。

不知不覺中，我們已經接觸到了第一個神經網絡中的超參η，即步長值，這個值對于神經網絡訓練非常重要，決定了訓練時間的長短，它的取值一般是從0.1到0.0001，自己選擇。

曲線和弦線的關系？

我們先知道了A點的切線的方向，亦即黃色的線，但是不知道長度

我們有步長值η，以及梯度下降公式 $X_1 = X_0 – η * dx$

因為 $yx′的導數dx=2(X?1),η=0.1,X0=0.2,于是有X1=X0–0.1?2(X0?1)=0.36y'_x的導數dx = 2(X-1), η = 0.1, X_0 = 0.2, 于是有X_1 = X_0–0.1*2(X_0-1) = 0.36$ ，這就等同于我們知道了切線的長度，亦即綠色的線的長度和方向都確定了

然后我們可以畫出紅色的線（亦即弦線）

所以，弦線在這里面沒啥用途，只是表示一個迭代跳躍的動作而已。實際的變化值已經由綠色的線定義好了。

參考資料

http://colah.github.io/posts/2015-08-Backprop/

點擊這里提交問題與建議
聯系我們: msraeduhub@microsoft.com
學習了這么多，還沒過癮怎么辦？歡迎加入“微軟 AI 應用開發實戰交流群”，跟大家一起暢談AI，答疑解惑。掃描下方二維碼，回復“申請入群”，即刻邀請你入群。

總結

以上是生活随笔為你收集整理的AI应用开发基础傻瓜书系列2-神经网络中反向传播与梯度下降的基本概念的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： python使用spark-sql读取数
下一篇： AI 趋势