【模型解读】从2D卷积到3D卷积,都有什么不一样
接著模型解讀系列,在中國科幻作家劉慈欣的科幻小說《三體Ⅲ·死神永生》中,首次提出了降維打擊這個概念,這是本質(zhì)上區(qū)別于同一維度的攻擊,破壞性也更大。
而現(xiàn)在我們要說的是從二維卷積升級到三維卷積,它相比2D卷積是否會有不一樣呢?
作者 | 言有三
編輯 | 言有三
01
3D卷積
首先看一下二維卷積,一個3*3的卷積核,在單通道圖像上進(jìn)行卷積,得到輸出。
然后我們再看一下3維卷積,一個3*3*3的卷積核在立方體上進(jìn)行卷積,得到輸出。
就是這樣,沒什么其他花樣了。
可能有人會問,這跟多通道卷積有什么區(qū)別呢?
有。
多通道卷積不同的通道上的卷積核的參數(shù)是不同的,而3D卷積則由于卷積核本身是3D的,所以這個由于“深度”造成的看似不同通道上用的就是同一個卷積,權(quán)重共享嘛。
總之,多了一個深度通道,這個深度可能是視頻上的連續(xù)幀,也可能是立體圖像中的不同切片。
02
3D卷積的應(yīng)用
上面也說了,3D卷積就是多了一個深度通道,而這個深度通道可能是視頻上的連續(xù)幀,也可能是立體圖像中的不同切片,所以從應(yīng)用上來說,主要就是兩大主要方向。
2.1 視頻分類
相比于2D圖像,什么數(shù)據(jù)多了一個維度呢?當(dāng)然就是視頻了,視頻的幀數(shù),就是完美的另一個深度維度,將3D卷積用于視頻的分類,再自然不過,關(guān)鍵就是看誰先來干。
據(jù)我所知,文【1】是最早的,看看他們使用的網(wǎng)絡(luò)結(jié)構(gòu)。
網(wǎng)絡(luò)很淺,只有3個卷積層和1個全連接層,2個池化層,這樣的網(wǎng)絡(luò)規(guī)模和LeNet5可以稱兄道弟了。不過3D多了一個維度,計算量自然是多了很多。
這里有兩個3D卷積層,卷積核大小分別是7x7x3,7x6x3,前兩維是空間的卷積,后一維是時間的卷積,看得出來,不需要保持一致,而且通常空間的卷積核大小和時間就不會一致,畢竟處理的“分辨率”不同。
這個網(wǎng)絡(luò)結(jié)構(gòu)在視頻分類數(shù)據(jù)集UCF-101上的top-1精度為63.3%,別看這個指標(biāo)不高,其他的比如LSTM,雙流網(wǎng)絡(luò)等也差不太多,而普通的2D卷積或者傳統(tǒng)方法則要低于這個指標(biāo)。
更細(xì)致的三維卷積在視頻分類中應(yīng)用的網(wǎng)絡(luò)結(jié)構(gòu)的探索在文【2】中,感興趣讀者可以自取。
2.2 圖像分割
既然可以用于分類,自然也可以用于分割。不過對視頻使用3D卷積似乎優(yōu)勢并不大,而在醫(yī)學(xué)領(lǐng)域的應(yīng)用前景更大一些。
醫(yī)學(xué)數(shù)據(jù)通常都是3D的,比如CT掃描的數(shù)據(jù),雖然我們看的片子是2D的,但其實那只是一個切片,真正的掃描數(shù)據(jù)是3D的。
而如果要分割出一些病變組織,比如腫瘤,也必須是3D的。
具體的網(wǎng)絡(luò)結(jié)構(gòu)就是將U-Net改為3D的形式。
就講這么多,未完待續(xù)。
【1】Ji S, Xu W, Yang M, et al. 3D convolutional neural networks for human action recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(1): 221-231.
【2】Tran D, Bourdev L, Fergus R, et al. Learning spatiotemporal features with 3d convolutional networks[C]//Proceedings of the IEEE international conference on computer vision. 2015: 4489-4497.
【3】Casamitjana A, Puch S, Aduriz A, et al. 3D Convolutional Neural Networks for Brain Tumor Segmentation: a comparison of multi-resolution architectures[C]//International Workshop on Brainlesion: Glioma, Multiple Sclerosis, Stroke and Traumatic Brain Injuries. Springer, Cham, 2016: 150-161.
總結(jié)
我們面臨的很多的數(shù)據(jù)都是高維的,比如街景地圖,比如視頻,比如醫(yī)學(xué)圖像,比如點云,將二維拓展至更高維的卷積也是很自然的想法,總之多嘗試吧。
轉(zhuǎn)載文章請后臺聯(lián)系
侵權(quán)必究
更多請關(guān)注知乎專欄《有三AI學(xué)院》
往期精選
【模型解讀】“不正經(jīng)”的卷積神經(jīng)網(wǎng)絡(luò)
【模型解讀】resnet中的殘差連接,你確定真的看懂了?
【模型解讀】pooling去哪兒了?
【模型解讀】說說移動端基準(zhǔn)模型MobileNets
【模型解讀】GoogLeNet中的inception結(jié)構(gòu),你看懂了嗎
【模型解讀】network in network中的1*1卷積,你懂了嗎
【模型解讀】從“局部連接”回到“全連接”的神經(jīng)網(wǎng)絡(luò)
【模型解讀】深度學(xué)習(xí)網(wǎng)絡(luò)只能有一個輸入嗎
想要變身”AI專家“,就戳戳手指關(guān)注我們吧
別忘了點“好看”支持作者噢? ????
總結(jié)
以上是生活随笔為你收集整理的【模型解读】从2D卷积到3D卷积,都有什么不一样的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【研究院】滴滴研究院,都在做什么
- 下一篇: 2019年有三AI“春季”划,给我一个荣