深度学习(25)随机梯度下降三: 激活函数的梯度
深度學(xué)習(xí)(25)隨機(jī)梯度下降三: 激活函數(shù)的梯度
- 1. Activation Functions
- 2. Deriative
- 3. Sigmoid/Logistic
- (1) Derivative
- (2) tf.sigmoid
- 4. Tanh
- (1) Derivative
- (2) tf.tanh
- 5. Rectified Linear Unit(ReLU)
- (1) Derivative
- (2) tf.nn.relu
Outline
- sigmoid
- tanh
- relu
1. Activation Functions
2. Deriative
3. Sigmoid/Logistic
f(x)=σ(x)=11+e?xf(x)=σ(x)=\frac{1}{1+e^{-x} }f(x)=σ(x)=1+e?x1?
當(dāng)a<0a<0a<0時(shí),函數(shù)值逼近于0; 當(dāng)a>0a>0a>0時(shí),函數(shù)值逼近于1;
這樣就體現(xiàn)了Sigmoid函數(shù)與神經(jīng)元類(lèi)似的方面,與神經(jīng)元一樣,當(dāng)a過(guò)小或者過(guò)大時(shí),都不會(huì)做出應(yīng)激反應(yīng)。
(1) Derivative
(2) tf.sigmoid
(a)y = tf.sigmoid(a): y為經(jīng)過(guò)激活函數(shù)處理后的a;
(b)grads = tape.gradient(y, [a]): 梯度更新;
4. Tanh
f(x)=tanh?(x)=(ex?e?x)(ex+e?x)=2sigmoid(2x)?1f(x)=tanh?(x)\\=\frac{(e^x-e^{-x})}{(e^x+e^{-x})} \\=2sigmoid(2x)-1f(x)=tanh?(x)=(ex+e?x)(ex?e?x)?=2sigmoid(2x)?1
常應(yīng)用于RNN,即循環(huán)神經(jīng)網(wǎng)絡(luò);
(1) Derivative
(2) tf.tanh
5. Rectified Linear Unit(ReLU)
f(x)={0for?x<0xfor?x≥0f(x)=\begin{cases}0 &\text{for}\ x<0\\x&\text{for}\ x\geq0\end{cases}f(x)={0x?for?x<0for?x≥0?
(1) Derivative
f′(x)={0for?x<01for?x≥0f'(x)=\begin{cases}0 &\text{for}\ x<0\\1 &\text{for}\ x\geq0\end{cases}f′(x)={01?for?x<0for?x≥0?
(2) tf.nn.relu
- tf.nn.leaky_relu(a):
- f(x)={kxfor?x<0xfor?x≥0f(x)=\begin{cases}kx &\text{for}\ x<0\\x&\text{for}\ x\geq0\end{cases}f(x)={kxx?for?x<0for?x≥0?
這里的kkk是一個(gè)很小的值,當(dāng)x<0x<0x<0時(shí),函數(shù)值會(huì)慢慢逼近0。
參考文獻(xiàn):
[1] 龍良曲:《深度學(xué)習(xí)與TensorFlow2入門(mén)實(shí)戰(zhàn)》
總結(jié)
以上是生活随笔為你收集整理的深度学习(25)随机梯度下降三: 激活函数的梯度的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 股票定向增发流程
- 下一篇: 梳理百年深度学习发展史-七月在线机器学习