人工神经网络之激活函数总结
激活函數(shù):
傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中最常用的兩個(gè)激活函數(shù),Sigmoid系(Logistic-Sigmoid、Tanh-Sigmoid)被視為神經(jīng)網(wǎng)絡(luò)的核心所在.從數(shù)學(xué)上來看,非線性的Sigmoid函數(shù)對中央?yún)^(qū)的信號增益較大,對兩側(cè)區(qū)的信號增益小,在信號的特征空間映射上,有很好的效果,通過對加權(quán)的輸入進(jìn)行非線性組合產(chǎn)生非線性決策邊界.從神經(jīng)科學(xué)上來看,中央?yún)^(qū)酷似神經(jīng)元的興奮態(tài),兩側(cè)區(qū)酷似神經(jīng)元的抑制態(tài),因而在神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方面,可以將重點(diǎn)特征推向中央?yún)^(qū),將非重點(diǎn)特征推向兩側(cè)區(qū).
Relu函數(shù)為現(xiàn)在深度學(xué)習(xí)使用比較廣泛的激活函數(shù),相比前面兩個(gè),其優(yōu)點(diǎn)在于計(jì)算簡單,導(dǎo)數(shù)簡單,收斂快,單側(cè)抑制 ,相對寬闊的興奮邊界 ,稀疏激活性;缺點(diǎn)在于在訓(xùn)練的時(shí)候,網(wǎng)絡(luò)很脆弱,很容易出現(xiàn)很多神經(jīng)元值為0,從而再也訓(xùn)練不動.一般將學(xué)習(xí)率設(shè)置為較小值來避免這種情況的發(fā)生.
?
比較:
激活函數(shù)的一些可取的屬性包括:
非線性:當(dāng)激活函數(shù)是非線性的,然后一個(gè)兩層神經(jīng)網(wǎng)絡(luò)可以證明是一個(gè)通用函數(shù)近似值.而identity激活函數(shù)不滿足這個(gè)屬性.當(dāng)多層網(wǎng)絡(luò)使用identity激活函數(shù),整個(gè)網(wǎng)絡(luò)就相當(dāng)于一個(gè)單層模型.
連續(xù)可微的:這個(gè)屬性對基于梯度優(yōu)化方法是必要的.二進(jìn)制激活函數(shù)在0點(diǎn)沒有可微性,它在其他值上全部可導(dǎo)為0,基于梯度優(yōu)化方法對于它毫無進(jìn)展.
范圍:當(dāng)激活函數(shù)的范圍是有限的,基于梯度的訓(xùn)練方法往往更穩(wěn)定,因?yàn)槟J斤@著影響幾個(gè)有限權(quán)重.當(dāng)范圍是無限的,訓(xùn)練通常更有效率,因?yàn)槟J斤@著影響大部分權(quán)重.在后一種情況下,較小的學(xué)習(xí)利率通常是必要的.
單調(diào):當(dāng)激活函數(shù)是單調(diào)時(shí),與單層模型相關(guān)的錯誤表面是凸的.
平滑性:有單調(diào)導(dǎo)數(shù)的平滑函數(shù)已經(jīng)被證明在某些情況下推廣地更好.這些屬性表明這些激活函數(shù)和Occam's razor更一致.
原點(diǎn)附近近似identity:當(dāng)激活函數(shù)有這個(gè)屬性,對于小的隨機(jī)值初始化權(quán)重,神經(jīng)網(wǎng)絡(luò)將有效地學(xué)習(xí).當(dāng)激活函數(shù)沒有這個(gè)屬性,在初始化權(quán)值必須使用特殊例子.在下面的表中,激活函數(shù),表明有該屬性.
?
常見函數(shù):
總結(jié)
以上是生活随笔為你收集整理的人工神经网络之激活函数总结的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 人工神经网络模型与分类
- 下一篇: 人工神经网络之激活函数 -RELU函数