當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文笔记 Aggregated Residual Transformations for Deep Neural Networks

發(fā)布時間：2023/12/18 编程问答 37 豆豆

生活随笔收集整理的這篇文章主要介紹了论文笔记 Aggregated Residual Transformations for Deep Neural Networks 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

這篇文章構(gòu)建了一個基本“Block”，并在此“Block”基礎(chǔ)上引入了一個新的維度“cardinality”(字母“C”在圖、表中表示這一維度)。深度網(wǎng)絡(luò)的另外兩個維度分別為depth（層數(shù)）、width（width指一個層的channel的數(shù)目）。

首先我們先了解一個這個“Block”是如何構(gòu)建的，如下圖所示（ResNeXt是這篇論文提出模型的簡化表示）

左邊是標(biāo)準(zhǔn)殘差網(wǎng)絡(luò)“Block”，右圖是作者引入的“Block”。這新的Block有什么優(yōu)勢呢？作者應(yīng)該是受到了Inception models的啟發(fā)，論文中指出“Unlike VGG-nets， the family of Inception models have demonstrated that carefully designed topologies are able to achieve compelling accuracy with low theoretical complexity”。再進(jìn)一步就是，“The split-transform-merge behavior of Inception modules is expected to approach the representational power of large and dense layers, but at a considerably lower computational complexity”。說得簡單點就是“在達(dá)到大型、緊湊深度網(wǎng)絡(luò)的準(zhǔn)確率的同時，降低模型的計算復(fù)雜度”（這就是這篇paper追求的一個效果）。Figure 1右邊就是就是采用split-transform-merge策略構(gòu)建的。

Inception models在實際應(yīng)用時有一個很不方便的地方：每一個分支的卷積核大小、尺寸是“定制的”，不同的“Block”之間也是“定制的”。如果我們想要應(yīng)用這一模型或者在這一框架下設(shè)計一個新的網(wǎng)絡(luò)，那么上述“定制化”的特點會引入很多“超參數(shù)”。如果你自己設(shè)計過網(wǎng)絡(luò)或者更改過現(xiàn)有網(wǎng)絡(luò)，你就會理解“超參數(shù)”過多對于我們的設(shè)計簡直就是一個“災(zāi)難”。此時，如果沒有一個合適的設(shè)計策略的話，說直白點就是“靠天吃飯”了。

受VGG/ResNets成功的啟發(fā)，作者總結(jié)了以下兩個設(shè)計“Block”原則：

“If producing spatial maps of the same size, the blocks share the same hyper-parameters(width and filter sizes)”

"Each time when the spatial map is downsampled by a factor of 2, the width of the blocks is multiplied by a factor of 2"

除此之外，所有的“Block”具有相同的拓?fù)浣Y(jié)構(gòu)。作者給出了一些設(shè)計的模板，再結(jié)合上述兩條原則，我們基本可以構(gòu)建所需要的任意網(wǎng)絡(luò)了(是不是覺得網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計一下子變得簡單了很多)，模板如下表所示

這還沒有結(jié)束，作者有給出了Figure 1左邊結(jié)構(gòu)的兩種等價表述形式，如下圖所示

這就極大的方便了我們的實現(xiàn)。此時Alexnet引入的group convolution概念就有了用武之地（當(dāng)時引入這一概念是受GPU條件的限制）。采用Figure 3（c）的形式，可以在Caffe中直接實現(xiàn)而無需更改任何源代碼。

下面我們通過實驗效果看看這一模型的威力

由Table 4可以得出，即使復(fù)雜度減少一半，該模型依然可以取得比ResNet-200還好的實驗效果，達(dá)到了作者追求的“在達(dá)到復(fù)雜、緊湊深度模型準(zhǔn)確率的同時，減少計算復(fù)雜度的目的”。

總結(jié)：

作者要求“Block”具有相同的拓?fù)浣Y(jié)構(gòu)，同時給出“Blcok”擴(kuò)展的設(shè)計原則和模板（通過repeating building blocks可以得出網(wǎng)絡(luò)結(jié)構(gòu)），極大的簡化了網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計的工作量。
相同實現(xiàn)不同等價形式的給出，一能加深我們理解，二能為我們提供快速實現(xiàn)的可能。
這真的是一篇佳作哦。

轉(zhuǎn)載于:https://www.cnblogs.com/everyday-haoguo/p/Note-ResNeXt.html

總結(jié)

以上是生活随笔為你收集整理的论文笔记 Aggregated Residual Transformations for Deep Neural Networks的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： jquery里面的$(this)和thi
下一篇：使用 NVM 管理不同的 Node.js