ShuffleNet论文阅读笔记
目錄
論文信息:
摘要:
網(wǎng)絡結(jié)構(gòu):
網(wǎng)絡架構(gòu):
實驗結(jié)果:
論文信息:
鏈接:ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices
發(fā)表時間:2017年
來源:Face++
作者:Xiangyu Zhang
摘要:
本文引入了一種極具計算效率的CNN架構(gòu),名為ShuffleNet,它專門設計用于計算能力非常有限的移動設備。新架構(gòu)采用了兩種新的操作,逐點組卷積和通道整合,大大降低了計算成本,同時保持了精度。
由于昂貴的1x1卷積代價,在極小的網(wǎng)絡中,最先進的基礎架構(gòu)如Xception 和ResNeXt 變得不那么有效。我們建議使用逐點組卷積來減少1x1卷積的計算復雜度。為了克服群組卷積帶來的副作用,我們提出了一種新穎的頻道平滑操作來幫助跨特征頻道的信息流動。基于這兩種技術(shù),我們構(gòu)建了一個稱為ShuffNet的高效架構(gòu).
網(wǎng)絡結(jié)構(gòu):
- 1x1卷積的計算量問題
分組卷積應用在很多輕量級網(wǎng)絡中,例如Xception 和ResNeXt等。但這些網(wǎng)絡存在一個很大的弊端是采用了密集的1x1 pointwise convolution,1x1卷積占據(jù)了很大的計算量。一個簡單的解決方案就是在1x1層上應用通道稀疏連接,例如對1x1卷積采用channel sparse connection 即分組操作,通過確保每個卷積僅在相應的輸入通道組上運行,組卷積顯著降低了計算成本,如上圖(a)所示。
- 分組卷積帶來的通道特征通訊問題
如果多個組卷積疊加在一起,則會產(chǎn)生一個副作用:某個通道的輸出僅從一小部分輸入通道中導出。上圖(a)示出了兩個堆疊的卷積層的情況。很明顯,某個群體的輸出只與群組內(nèi)的輸入有關(guān)。該屬性阻止通道組之間的信息流并削弱表示。如果我們允許組卷積從不同的組獲得輸入數(shù)據(jù)(如上圖(b)所示),輸入和輸出通道將完全相關(guān)。具體而言,對于從前一個組層生成的特征映射,我們可以首先將每個組中的通道劃分為若干個子組,然后將下一層中的每個組用不同的子組進行組合。這可以通過通道平滑操作(上圖(c))得到高效和優(yōu)雅地實現(xiàn)。
網(wǎng)絡架構(gòu):
-
Shuf?eNet Unit
(a)是一個用DWConv改造后的resnet結(jié)構(gòu);
(b)對(a)進行改進,將密集的1x1卷積替換成1x1的group convolution和channel shuffle操作的組合,注意3x3的depthwise convolution之后沒有使用ReLU激活函數(shù);
(c)中將DWConv的步長變?yōu)?來進行降維,將跳線鏈接改為步長為2的AVG Pool層以保證兩條線的輸出shape相同,然后將Add改為Concat連接,減少參數(shù)量和計算量。
-
Shuf?eNet 網(wǎng)絡結(jié)構(gòu)
實驗結(jié)果:
- 不同group,不同通道數(shù)的對比
從上圖可以看出group越大,效果越好,因為group越大信息能得到更充分的混合,網(wǎng)絡的特征提取能力越強。1x是基準模型,而0.5x和0.25x表示的是在基準模型上將通道數(shù)縮小為原來的0.5和0.25,可見通道數(shù)越多精度越高,但計算量和參數(shù)量也更多。還可以看出較小的模型傾向于從group中獲益更多。
- 有無shuffle通道混合對比
可見采用channle shuffle之后,網(wǎng)絡性能更好,尤其是,當組數(shù)相對較大時(例如g=8),帶有信道混合的模型以相當大的優(yōu)勢勝過對應的模型,這證明channle shuffle的有效性。
- ShuffleNet與MobileNet對比
與MobileNet相比,ShuffleNet在計算復雜度和精度方面都表現(xiàn)得更加優(yōu)秀。
?
?
總結(jié)
以上是生活随笔為你收集整理的ShuffleNet论文阅读笔记的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: MobileNet论文阅读笔记
- 下一篇: ACNet论文阅读笔记