當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

DL3 - optimization algorithms

發布時間：2024/1/8 编程问答 48 豆豆

生活随笔收集整理的這篇文章主要介紹了 DL3 - optimization algorithms 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

title: DL3 - 加快神經網絡訓練速度的優化算法
date: 2019-08-17 02:40:57
tags: deeplearning
categories: deeplearning

Welcome to MyBlog!

本文所以截圖以及文字均來自于：Coursera

1 小批量梯度下降算法（mini-batch gradient descent)

首先將你的訓練集拆分成更小的微小的訓練集即小批量訓練集(mini-batch) 比如說每一個微型訓練集只有1000個訓練樣例也就是說取x1至x1000作為第一個微訓練集也叫做小批量訓練集然后取接下來的1000個樣例 x1001至x2000這1000個樣例依次繼續

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-6i3VgsjS-1610775595598)(https://i.loli.net/2019/08/28/57gxIMFENLkJWv9.png)]

將mini-batch極端的設置為m，就得到了批量梯度下降

極端地設置為1，就得到了隨機梯度下降

兩種方法的區別：批量梯度下降算法可能從這里開始它的噪聲相對小些每一步相對大些并且最終可以達到最小值而相對的隨機梯度下降算法讓我們選一個不同的點假使從這里開始這時對于每一次迭代你就在一個樣本上做梯度下降大多數時候你可以達到全局最小值但是有時候也可能因為某組數據不太好把你指向一個錯誤的方向因此隨機梯度算法的噪聲會非常大一般來說它會沿著正確的方向但是有事也會指向錯誤的方向而且隨機梯度下降算法最后也不會收斂到一個點它一般會在最低點附近擺動但是不會達到并且停在那里實際上 mini-batch的大小一般會在這2個極端之間

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-6m4QwgoX-1610775595599)(https://i.loli.net/2019/08/28/YQXVuR8HgA4lrd3.png)]

2 指數加權（滑動）平均

beta*V_(t-1)加上之前使用的是0.1 現在把它換成(1-beta)*theta_t 之前beta=0.9 出于我們之后會講的某些原因當你計算這個公式的時候你可以認為V_t近似于 1/(1-beta)天溫度的平均舉例來說當beta=0.9的時候你可以認為它是前10天的氣溫平均值

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-PWzzACD4-1610775595600)(https://i.loli.net/2019/08/28/Y1HuTEiq6vUFjPl.png)]

3 偏差修正

它能夠幫助你更好地計算平均值

工作原理：用vt/1-βt代替vt（t是下標）

在機器學習中多數的指數加權平均運算并不會使用偏差修正因為大多數人更愿意在初始階段用一個稍帶偏差的值進行運算不過如果在初始階段就開始考慮偏差指數加權移動均指仍處于預熱階段偏差修正可以幫你盡早做出更好的估計

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-SuX0Q2Ng-1610775595601)(https://i.loli.net/2019/08/28/9IXPFviqufD4YoS.png)]

4 動量梯度下降算法

它幾乎總會比標準的梯度下降算法更快一言以蔽之算法的主要思想是計算梯度的指數加權平均然后使用這個梯度來更新權重

可以減少震蕩，原因：如果把這些梯度平均一下你會發現這些震蕩在縱軸上的平均值趨近于0 所以在垂直方向上你會希望減慢速度正數和負數在計算平均時相互抵消了平均值接近于0 然而在水平方向上所有導數都指向水平方向的右邊所以水平方向的平均值仍然較大因此在數次迭代之后你會發現動量梯度下降算法的每一步在垂直方向上的振蕩非常小且在水平方向上運動得更快這會讓你的算法選擇更加直接的路徑或者說減弱了前往最小值的路徑上的振蕩

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-gNCN0hA1-1610775595603)(https://i.loli.net/2019/08/28/akwGWuSgt32xMIj.png)]

5 RMSprop 均方根傳遞（root mean square prop）

你希望減慢b方向的學習也就是垂直方向同時加速或至少不減慢水平方向的學習這就是RMSprop算法要做的

現在我們來理解一下它的工作原理記得在水平方向上即例子中W的方向上我們希望學習速率較快而在垂直方向上即例子中b的方向上我們希望降低垂直方向上的振蕩對于S_dW和S_db這兩項我們希望S_dW相對較小因此這里除以的是一個較小的數而S_db相對較大因此這里除以的是一個較大的數這樣就可以減緩垂直方向上的更新

另一個收效是你可以使用更大的學習率alpha 學習得更快而不用擔心在垂直方向上發散

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-iRweA9WM-1610775595605)(https://i.loli.net/2019/08/28/azu2tUcdsJ9qBn7.png)]

6 Adam優化算法（自適應矩估計Adaptive Moment Estimation）

Adam優化算法本質上是將動量算法和RMSprop結合起來:在動量梯度下降算法抵消部分震蕩的前提下，利用了rms梯度下降算法降低震蕩

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-iVZCCQ6T-1610775595606)(https://i.loli.net/2019/08/28/3LOcsl7n4fFihtW.png)]
t表示迭代次數

超參數的選擇

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-6ervWB1u-1610775595607)(https://i.loli.net/2019/08/28/cqlDBOVoQ5GRgWa.png)]

7 學習率衰減 learning rate decay

如果你想使用學習率衰減你可以嘗試不同的超參數組合包括α0 以及這個衰減率的超參數然后去嘗試尋找一個效果好的數值

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-TuFiT57x-1610775595608)(https://i.loli.net/2019/08/28/18qR9I4vEFDBTMr.png)]

7.1 其他學習率衰減的方法

k表示常數

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-JLTHlD0d-1610775595609)(https://i.loli.net/2019/08/28/tCSQj5FnGyJoNTO.png)]

8 局部最優點，鞍點

對于一個高維空間的函數如果梯度為零則在每個方向上它可能是凸函數或者是凹函數假設在一個 2萬維的空間中如果一個點要成為局部最優則需要在所有的2萬個方向上都像這樣因此這件事發生的概率非常低大概2的負2萬次方你更有可能遇到的情況是
某些方向的曲線像這樣向上彎曲同時另一些方向的曲線則向下彎曲并非所有曲線都向上彎曲 這就是為什么在高維空間中你更有可能碰到一個像右圖這樣的鞍點而不是局部最優

8.1 停滯區

實際上是停滯區(Plateaus) 停滯區指的是導數長時間接近于零的一段區域如果你在這里那么梯度下降會沿著這個曲面向下移動然而因為梯度為零或接近于零曲面很平你會花費很長的時間緩慢地在停滯區里找到這個點然后因為左側或右側的隨機擾動,你的算法終于能夠離開這個停滯區它一直沿著這個很長的坡往下走, 直到抵達此處, 離開這個停滯區

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-L6sPtDKC-1610775595610)(https://i.loli.net/2019/08/28/R3zsKiFMrCyvdu2.png)]

首先實際上你不太可能陷入糟糕的局部最優點只要你訓練的是一個較大的神經網絡有很多參數代價函數J定義在一個相對高維的空間上

其次停滯區是個問題, 它會讓學習過程變得相當慢這也是像動量(Momentum)算法
或RmsProp算法或Adam算法能改善你的學習算法的地方

總結

以上是生活随笔為你收集整理的DL3 - optimization algorithms的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：力库华为机试题练习
下一篇： intellij idea cpu占用率