Google提出的新型激活函数:Swish
簡介
Swish是Google在10月16號提出的一種新型激活函數(shù),其原始公式為:f(x)=x * sigmod(x),變形Swish-B激活函數(shù)的公式則為f(x)=x * sigmod(b * x),其擁有不飽和,光滑,非單調(diào)性的特征,而Google在論文中的多項測試表明Swish以及Swish-B激活函數(shù)的性能即佳,在不同的數(shù)據(jù)集上都表現(xiàn)出了要優(yōu)于當(dāng)前最佳激活函數(shù)的性能.
論文地址:https://arxiv.org/abs/1710.05941
詳細(xì)講述
激活函數(shù)常在神經(jīng)網(wǎng)絡(luò)中用于添加非線性因素,可以將激活函數(shù)定義為一個幾乎處處可微的函數(shù):h : R → R .[1].
激活函數(shù)存在飽和問題,當(dāng)激活函數(shù)滿足上述公式第一種情況時,稱之為右飽和,反之為左飽和.
如果激活函數(shù)在非極限狀態(tài)下存在一個常數(shù)C可以證明,在x大于或小于該常數(shù)C時,h(x)的一次導(dǎo)數(shù)存在恒等于零的情況時,則稱h(x)為右硬飽和函數(shù)或左硬飽和函數(shù).否則稱其為軟飽和函數(shù).
因為反向傳播算法的計算方式,可證明飽和激活函數(shù)會導(dǎo)致神經(jīng)網(wǎng)絡(luò)的性能大幅度下降.從而產(chǎn)生梯度消失問題,如常見的sigmod或tanh函數(shù)都存在該問題.
而現(xiàn)在深度神經(jīng)網(wǎng)絡(luò)中常用的激活函數(shù)為ReLU激活函數(shù),其存在有上界,無下界,光滑的特點,其變種擁有在大多數(shù)數(shù)據(jù)集上的最佳性能.但是其變種復(fù)雜多樣想要使用仍然存在很多的調(diào)試問題.而新的Swish函數(shù)則不同,其Swish-B形式在谷歌論文中的大型數(shù)據(jù)集即各種神經(jīng)網(wǎng)絡(luò)中中擁有絕對的優(yōu)勢,雖然現(xiàn)在還沒有數(shù)學(xué)證明,但是其實踐結(jié)果卻可能意味著,我們之后再也不需要測試很多的激活函數(shù)了,這大大降低了我們的工作量.
Swish與ReLU一樣有下界而無上界,但是其非單調(diào)性確與其他常見的激活函數(shù)不同,通知其也擁有平滑和一階導(dǎo)數(shù),二階導(dǎo)數(shù)平滑的特性.
谷歌測試證明,Swish適應(yīng)于局部響應(yīng)歸一化,并且在40以上全連接層的效果要遠(yuǎn)優(yōu)于其他激活函數(shù),而在40全連接層之內(nèi)則性能差距不明顯.但是根據(jù)在mnist數(shù)據(jù)上AleNet的測試效果卻證明,Swish在低全連接層上與Relu的性能差距依舊有較大的優(yōu)勢.
對于MNIST數(shù)據(jù)集而言,五層內(nèi)的全連接層已經(jīng)可以達(dá)到更好的測試性能,但是為了測試兩種激活函數(shù)的不同,我使用了3,10,45三種不同的全連接層進(jìn)行測試,同時為了加大數(shù)據(jù)集的難度,我同時使用了Fashion-MNIST數(shù)據(jù)集進(jìn)行測試
測試結(jié)果:
總結(jié).
google的論文告訴我們在更大的數(shù)據(jù)集與更深的神經(jīng)網(wǎng)絡(luò)上,Swish擁有更好的性能,而且當(dāng)其與局部響應(yīng)歸一化結(jié)合使用時,味道更佳,但是我們在mnist與Fashion-MNIST數(shù)據(jù)集上的測試同時也表明,其實在部分中小型數(shù)據(jù)集上Swish激活函數(shù),可能也擁有不錯的性能表現(xiàn).由于該函數(shù)沒有數(shù)學(xué)證明,我們在使用時可能需要多實踐一些.但是總體上我們可以認(rèn)為,該激活函數(shù)是有效的.看來我們之后又多了一個煉丹的利器.
參考
[1] Noisy Activation Functions: Caglar Gulcehre, Marcin Moczulski
,Misha Denil, Yoshua Bengio.arXiv:1603.00391v3
[2] Fashion-MNIST: a Novel Image Dataset for Benchmarking Machine Learning Algorithms. Han Xiao, Kashif Rasul, Roland Vollgraf. arXiv:1708.07747
[3] Swish: a Self-Gated Activation Function.Prajit Ramachandran, Barret Zoph, Quoc V. Leoc V. Le. arXiv:1710.05941
總結(jié)
以上是生活随笔為你收集整理的Google提出的新型激活函数:Swish的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Rosonblatt线性感知器
- 下一篇: 理解朴素贝叶斯