论文笔记 Aggregated Residual Transformations for Deep Neural Networks
這篇文章構(gòu)建了一個基本“Block”,并在此“Block”基礎(chǔ)上引入了一個新的維度“cardinality”(字母“C”在圖、表中表示這一維度)。深度網(wǎng)絡(luò)的另外兩個維度分別為depth(層數(shù))、width(width指一個層的channel的數(shù)目)。
?
首先我們先了解一個這個“Block”是如何構(gòu)建的,如下圖所示(ResNeXt是這篇論文提出模型的簡化表示)
左邊是標(biāo)準(zhǔn)殘差網(wǎng)絡(luò)“Block”,右圖是作者引入的“Block”。這新的Block有什么優(yōu)勢呢?作者應(yīng)該是受到了Inception models的啟發(fā),論文中指出“Unlike VGG-nets, the family of Inception models have demonstrated that carefully designed topologies are able to achieve compelling accuracy with low theoretical complexity”。再進(jìn)一步就是,“The split-transform-merge behavior of Inception modules is expected to approach the representational power of large and dense layers, but at a considerably lower computational complexity”。說得簡單點就是“在達(dá)到大型、緊湊深度網(wǎng)絡(luò)的準(zhǔn)確率的同時,降低模型的計算復(fù)雜度”(這就是這篇paper追求的一個效果)。Figure 1右邊就是就是采用split-transform-merge策略構(gòu)建的。
?
Inception models在實際應(yīng)用時有一個很不方便的地方:每一個分支的卷積核大小、尺寸是“定制的”,不同的“Block”之間也是“定制的”。如果我們想要應(yīng)用這一模型或者在這一框架下設(shè)計一個新的網(wǎng)絡(luò),那么上述“定制化”的特點會引入很多“超參數(shù)”。如果你自己設(shè)計過網(wǎng)絡(luò)或者更改過現(xiàn)有網(wǎng)絡(luò),你就會理解“超參數(shù)”過多對于我們的設(shè)計簡直就是一個“災(zāi)難”。此時,如果沒有一個合適的設(shè)計策略的話,說直白點就是“靠天吃飯”了。
?
受VGG/ResNets成功的啟發(fā),作者總結(jié)了以下兩個設(shè)計“Block”原則:
除此之外,所有的“Block”具有相同的拓?fù)浣Y(jié)構(gòu)。作者給出了一些設(shè)計的模板,再結(jié)合上述兩條原則,我們基本可以構(gòu)建所需要的任意網(wǎng)絡(luò)了(是不是覺得網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計一下子變得簡單了很多),模板如下表所示
這還沒有結(jié)束,作者有給出了Figure 1左邊結(jié)構(gòu)的兩種等價表述形式,如下圖所示
這就極大的方便了我們的實現(xiàn)。此時Alexnet引入的group convolution概念就有了用武之地(當(dāng)時引入這一概念是受GPU條件的限制)。采用Figure 3(c)的形式,可以在Caffe中直接實現(xiàn)而無需更改任何源代碼。
?
下面我們通過實驗效果看看這一模型的威力
由Table 4可以得出,即使復(fù)雜度減少一半,該模型依然可以取得比ResNet-200還好的實驗效果,達(dá)到了作者追求的“在達(dá)到復(fù)雜、緊湊深度模型準(zhǔn)確率的同時,減少計算復(fù)雜度的目的”。
?
總結(jié):
- 作者要求“Block”具有相同的拓?fù)浣Y(jié)構(gòu),同時給出“Blcok”擴(kuò)展的設(shè)計原則和模板(通過repeating building blocks可以得出網(wǎng)絡(luò)結(jié)構(gòu)),極大的簡化了網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計的工作量。
- 相同實現(xiàn)不同等價形式的給出,一能加深我們理解,二能為我們提供快速實現(xiàn)的可能。
- 這真的是一篇佳作哦。
轉(zhuǎn)載于:https://www.cnblogs.com/everyday-haoguo/p/Note-ResNeXt.html
總結(jié)
以上是生活随笔為你收集整理的论文笔记 Aggregated Residual Transformations for Deep Neural Networks的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: jquery里面的$(this)和thi
- 下一篇: 使用 NVM 管理不同的 Node.js