當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【模型解读】从2D卷积到3D卷积，都有什么不一样

發(fā)布時間：2025/3/20 编程问答 28 豆豆

生活随笔收集整理的這篇文章主要介紹了【模型解读】从2D卷积到3D卷积，都有什么不一样小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

接著模型解讀系列，在中國科幻作家劉慈欣的科幻小說《三體Ⅲ·死神永生》中，首次提出了降維打擊這個概念，這是本質(zhì)上區(qū)別于同一維度的攻擊，破壞性也更大。

而現(xiàn)在我們要說的是從二維卷積升級到三維卷積，它相比2D卷積是否會有不一樣呢？

作者 | 言有三

編輯 | 言有三

3D卷積

首先看一下二維卷積，一個3*3的卷積核，在單通道圖像上進(jìn)行卷積，得到輸出。

然后我們再看一下3維卷積，一個3*3*3的卷積核在立方體上進(jìn)行卷積，得到輸出。

就是這樣，沒什么其他花樣了。

可能有人會問，這跟多通道卷積有什么區(qū)別呢？

有。

多通道卷積不同的通道上的卷積核的參數(shù)是不同的，而3D卷積則由于卷積核本身是3D的，所以這個由于“深度”造成的看似不同通道上用的就是同一個卷積，權(quán)重共享嘛。

總之，多了一個深度通道，這個深度可能是視頻上的連續(xù)幀，也可能是立體圖像中的不同切片。

3D卷積的應(yīng)用

上面也說了，3D卷積就是多了一個深度通道，而這個深度通道可能是視頻上的連續(xù)幀，也可能是立體圖像中的不同切片，所以從應(yīng)用上來說，主要就是兩大主要方向。

2.1 視頻分類

相比于2D圖像，什么數(shù)據(jù)多了一個維度呢？當(dāng)然就是視頻了，視頻的幀數(shù)，就是完美的另一個深度維度，將3D卷積用于視頻的分類，再自然不過，關(guān)鍵就是看誰先來干。

據(jù)我所知，文【1】是最早的，看看他們使用的網(wǎng)絡(luò)結(jié)構(gòu)。

網(wǎng)絡(luò)很淺，只有3個卷積層和1個全連接層，2個池化層，這樣的網(wǎng)絡(luò)規(guī)模和LeNet5可以稱兄道弟了。不過3D多了一個維度，計算量自然是多了很多。

這里有兩個3D卷積層，卷積核大小分別是7x7x3，7x6x3，前兩維是空間的卷積，后一維是時間的卷積，看得出來，不需要保持一致，而且通常空間的卷積核大小和時間就不會一致，畢竟處理的“分辨率”不同。

這個網(wǎng)絡(luò)結(jié)構(gòu)在視頻分類數(shù)據(jù)集UCF-101上的top-1精度為63.3%，別看這個指標(biāo)不高，其他的比如LSTM，雙流網(wǎng)絡(luò)等也差不太多，而普通的2D卷積或者傳統(tǒng)方法則要低于這個指標(biāo)。

更細(xì)致的三維卷積在視頻分類中應(yīng)用的網(wǎng)絡(luò)結(jié)構(gòu)的探索在文【2】中，感興趣讀者可以自取。

2.2 圖像分割

既然可以用于分類，自然也可以用于分割。不過對視頻使用3D卷積似乎優(yōu)勢并不大，而在醫(yī)學(xué)領(lǐng)域的應(yīng)用前景更大一些。

醫(yī)學(xué)數(shù)據(jù)通常都是3D的，比如CT掃描的數(shù)據(jù)，雖然我們看的片子是2D的，但其實那只是一個切片，真正的掃描數(shù)據(jù)是3D的。

而如果要分割出一些病變組織，比如腫瘤，也必須是3D的。

具體的網(wǎng)絡(luò)結(jié)構(gòu)就是將U-Net改為3D的形式。

就講這么多，未完待續(xù)。

【1】Ji S, Xu W, Yang M, et al. 3D convolutional neural networks for human action recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(1): 221-231.

【2】Tran D, Bourdev L, Fergus R, et al. Learning spatiotemporal features with 3d convolutional networks[C]//Proceedings of the IEEE international conference on computer vision. 2015: 4489-4497.

【3】Casamitjana A, Puch S, Aduriz A, et al. 3D Convolutional Neural Networks for Brain Tumor Segmentation: a comparison of multi-resolution architectures[C]//International Workshop on Brainlesion: Glioma, Multiple Sclerosis, Stroke and Traumatic Brain Injuries. Springer, Cham, 2016: 150-161.

總結(jié)

我們面臨的很多的數(shù)據(jù)都是高維的，比如街景地圖，比如視頻，比如醫(yī)學(xué)圖像，比如點云，將二維拓展至更高維的卷積也是很自然的想法，總之多嘗試吧。

轉(zhuǎn)載文章請后臺聯(lián)系

侵權(quán)必究

更多請關(guān)注知乎專欄《有三AI學(xué)院》

往期精選

【模型解讀】“不正經(jīng)”的卷積神經(jīng)網(wǎng)絡(luò)
【模型解讀】resnet中的殘差連接，你確定真的看懂了？
【模型解讀】pooling去哪兒了？
【模型解讀】說說移動端基準(zhǔn)模型MobileNets
【模型解讀】GoogLeNet中的inception結(jié)構(gòu)，你看懂了嗎
【模型解讀】network in network中的1*1卷積，你懂了嗎
【模型解讀】從“局部連接”回到“全連接”的神經(jīng)網(wǎng)絡(luò)
【模型解讀】深度學(xué)習(xí)網(wǎng)絡(luò)只能有一個輸入嗎

想要變身”AI專家“，就戳戳手指關(guān)注我們吧

別忘了點“好看”支持作者噢? ????

總結(jié)

以上是生活随笔為你收集整理的【模型解读】从2D卷积到3D卷积，都有什么不一样的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【研究院】滴滴研究院，都在做什么
下一篇： 2019年有三AI“春季”划，给我一个荣