當前位置：首頁 > 人工智能 > pytorch >内容正文

pytorch

李宏毅机器学习课程９~~~深度学习技巧

發(fā)布時間：2023/12/13 pytorch 54 豆豆

生活随笔收集整理的這篇文章主要介紹了李宏毅机器学习课程９~~~深度学习技巧小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

Recipe of Deep Learning

Overfitting

overfitting的判斷是要訓練誤差與測試誤差做比較。這個56-layer的網(wǎng)絡(luò)在訓練集上都沒有訓練好，說白了就是有點欠擬合。所以僅僅依靠測試集上的結(jié)果來判斷56-layer比20-layer overfitting是不合理的。

更多理解見
Overfitting and Underfitting With Machine Learning Algorithms

各種改進技巧

New activation function

RELU　

針對負向，提出了Leaky ReLU, Parametric ReLU

ReLU，P-ReLU, Leaky-ReLU

ReLU 簡單而粗暴，大于0的留下，否則一律為0。
因為神經(jīng)網(wǎng)絡(luò)的數(shù)學基礎(chǔ)是處處可微的，所以選取的激活函數(shù)要能保證數(shù)據(jù)輸入與輸出也是可微的。

Rectified linear unit(ReLU) 函數(shù)的激活函數(shù)可以表示為f(x)=max(0,x)，它更加符合神經(jīng)元的激活原理。它的一個平滑解析函數(shù)為f(x)=ln(1+exp(x))，被稱為softplus function。softplus 的微分就是logistic函數(shù)f(x)=1/(1+exp(?x))。

可以看到，當x<0時，ReLU硬飽和，而當x>0時，則不存在飽和問題。所以，ReLU 能夠在x>0時保持梯度不衰減，從而緩解梯度消失問題。這讓我們能夠直接以監(jiān)督的方式訓練深度神經(jīng)網(wǎng)絡(luò)，而無需依賴無監(jiān)督的逐層預(yù)訓練。

然而，隨著訓練的推進，部分輸入會落入硬飽和區(qū)，導致對應(yīng)權(quán)重無法更新。這種現(xiàn)象被稱為“神經(jīng)元死亡”。與sigmoid類似，ReLU的輸出均值也大于0，偏移現(xiàn)象和神經(jīng)元死亡會共同影響網(wǎng)絡(luò)的收斂性。

針對在x<0的硬飽和問題，我們對ReLU做出相應(yīng)的改進，使得

sigmoid 和 tanh作為激活函數(shù)的話，一定要注意一定要對 input 進行歸一話，否則激活后的值都會進入平坦區(qū)，使隱層的輸出全部趨同，但是 ReLU 并不需要輸入歸一化來防止它們達到飽和。

用ReLU代替了傳統(tǒng)的Tanh或者Logistic。好處有：

ReLU本質(zhì)上是分段線性模型，前向計算非常簡單，無需指數(shù)之類操作；
ReLU的偏導也很簡單，反向傳播梯度，無需指數(shù)或者除法之類操作；
ReLU不容易發(fā)生梯度發(fā)散問題，Tanh和Logistic激活函數(shù)在兩端的時候?qū)?shù)容易趨近于零，多級連乘后梯度更加約等于0；
ReLU關(guān)閉了右邊，從而會使得很多的隱層輸出為0，即網(wǎng)絡(luò)變得稀疏，起到了類似L1的正則化作用，可以在一定程度上緩解過擬合。

當然，ReLU也是有缺點的，比如左邊全部關(guān)了很容易導致某些隱藏節(jié)點永無翻身之日，所以后來又出現(xiàn)pReLU、random ReLU等改進，而且ReLU會很容易改變數(shù)據(jù)的分布，因此ReLU后加Batch Normalization也是常用的改進的方法。

使用了 ReLu 的 CNN 在 CIFAR-10數(shù)據(jù)集 batchsize 為100的訓練中，epoch 5（2500次迭代）就把驗證集錯誤率降到了25%，而 Tanh 則要花上35個epoch，速度提升了六倍。

卷積神經(jīng)網(wǎng)絡(luò)推薦選擇的是 relu
循環(huán)神經(jīng)網(wǎng)絡(luò)推薦選擇的是 relu 或tanh

Leaky-ReLU

當unit沒有被激活時，允許小的非零的梯度。f(x)=x,x>0，f(x)=0.01x,x<=0。

Maxout

Learnable activation function [Ian J. Goodfellow, ICML’s 13]

Adaptive Learning Rate

RMSProp

Momentum

慣性的計算可以發(fā)現(xiàn)慣性與之前所有的梯度是有關(guān)的。通俗的理解為對梯度的平均，使得縱向的擺動變小了，橫向的運動更快了。可加快梯度下降。

Adam

RMSProp + Momentum

Early Stopping

Early Stopping 是用來確定Epochs，合理的是用validation set 和training set 的誤差曲線來確定。

Early Stopping
減少參數(shù)的更新次數(shù)，最終目的也是為了不要讓參數(shù)離零太遠。
降低神經(jīng)網(wǎng)絡(luò)中的方差。
優(yōu)點：只運行一次梯度下降，可以找出W的較小值，中間值和較大值。而L2正則化需要超級參數(shù)lamb
缺點：提前停止了優(yōu)化代價函數(shù)J,可能代價函數(shù)值不夠小。

Regularization

加正則項的目的是為了讓目標函數(shù)更平滑。而bias與函數(shù)的平滑沒有關(guān)系，所有加正則項時不用考慮bias項，只需考慮權(quán)重項。

權(quán)重參數(shù)初始化時，盡可能的靠近零。在做參數(shù)更新的時候，是為了離零越來越遠。做正則化的時候，是為了不要讓權(quán)重參數(shù)離零太遠。

L2 正則化

被稱為權(quán)重衰減，這是因為權(quán)重乘以了一個小于的數(shù)。
權(quán)重衰減項來源L2，這是因為權(quán)重乘以了一個小于1的參數(shù)。

L2 Regularization

w并不會變成零，最終會達到平衡，而且保證ｗ的平滑性。

L1 Regularization

L1， L2 都是為了使得權(quán)重參數(shù)不要太大。 L1是減去一個固定的值，L2是乘以一個小于1的值。這樣L1很少會出現(xiàn)很小的值，但是有可能得到比較大的值，也就是說L1得到的值是稀疏的。L2可以保留得到很多很小的值。

Regularization 與Early Early Stopping功能類似。如果使用了Early Early Stopping后，有時候可能沒必要使用Regularization

Early Stopping
減少參數(shù)的更新次數(shù)，最終目的也是為了不要讓參數(shù)離零太遠。
降低神經(jīng)網(wǎng)絡(luò)中的方差。
優(yōu)點：只運行一次梯度下降，可以找出W的較小值，中間值和較大值。而L2正則化需要超級參數(shù)lamb
缺點：提前停止了優(yōu)化代價函數(shù)J,可能代價函數(shù)值不夠小。

Dropout

Training 使用Dropout，比如p%，而Testing不用Dropout. 但是Testing時權(quán)值需要乘以（１－p%）

Dropout直觀理解，訓練的時候需要加重，測試的時候需要去重。

Dropout的直觀理解。但是partner可能會擺爛，所以訓練要好好的做。但是測試階段是沒有人擺爛。

Dropout的直觀理解。訓練的時候有Dropout,測試的時候也需要相應(yīng)縮減。

雖然有Dropout，在訓練階段，有minbatchsize,每個神經(jīng)元點的權(quán)值訓練相當于多個網(wǎng)絡(luò)dropout的網(wǎng)絡(luò)依次訓練。說白了就是第一個minbatch，訓練確定的某個神經(jīng)元的權(quán)值，會在第二個minbatch的時候繼續(xù)訓練（前提是該神經(jīng)元沒有被dropout）,　這類似于多個網(wǎng)絡(luò)依次訓練確定神經(jīng)元的權(quán)值。

重點閱讀。
深度學習（Deep Learning）讀書思考三：正則化

機器學習中防止過擬合的處理方法

參考文獻

http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17.html

機器學習中防止過擬合的處理方法

總結(jié)

以上是生活随笔為你收集整理的李宏毅机器学习课程９~~~深度学习技巧的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：李宏毅机器学习课程８~~~keras
下一篇：深度学习（Deep Learning）读