网络架构之争:三大主流架构对决,谁是王者?深入思考CNN、Transformer与MLP
作者丨happy
編輯丨極市平臺
本文首發于極市平臺公眾號,轉載請獲得授權并標明出處。
論文鏈接:https://arXiv.org/abs/2108.13002
本文是中科大&MSRA在DNN的CNN、Transformer以及MLP三大流派紛爭方面的一點深入思考。為分析不同架構的特性,作者首先構建了一個統一架構SPACH將Mixing做成可配置型,以此為基礎上CNN、Transformer以及MLP進行挖掘得出:多階段優于單階段、局部建模非常重要以及CNN與Transformer的互補性。基于所挖掘特性構建了一種CNN與Transformer混合模型,所得模型僅需63M參數量即可在ImageNet數據集上取得83.9%的top1精度,優于Swin-B、CaiT-S36。
Abstract
CNN占據了CV的主流,近來Transformer與MLP開始在ImageNet分類任務上引領新的趨勢。
本文對這些深度神經網絡架構進行實證研究并嘗試理解他們的利與弊。為確保公平性,我們首先開發了一種稱之為SPACH的統一架構,它采用獨立的模塊進行空域與通道處理。基于SPACH的實驗表明:在適度規模下,所有架構可以取得相當的性能。然而,隨著網絡放大,他們表現出不同的行為。基于所得發現,我們采用卷積與Transformer提出了兩個混合模塊。所提Hybrid-MS-S+僅需63M參數量12.3GFLOPs即可取得83.9%top1精度,已有現有精心設計的模型具有相當的性能。
全文鏈接:網絡架構之爭:三大主流架構對決,誰是王者?深入思考CNN、Transformer與MLP
關注極市平臺公眾號,獲取最新CV干貨
總結
以上是生活随笔為你收集整理的网络架构之争:三大主流架构对决,谁是王者?深入思考CNN、Transformer与MLP的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 别魔改网络了,Google研究员:模型精
- 下一篇: 反光衣识别算法冠军方案总结(附源码)|极