日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【模型解读】从“局部连接”回到“全连接”的神经网络

發(fā)布時間:2025/3/20 编程问答 16 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【模型解读】从“局部连接”回到“全连接”的神经网络 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

09

這是深度學(xué)習(xí)模型解讀第9篇,本篇我們簡單介紹非局部神經(jīng)網(wǎng)絡(luò)。

言有三

畢業(yè)于中國科學(xué)院,計(jì)算機(jī)視覺方向從業(yè)者,有三工作室等創(chuàng)始人

作者 | 言有三(微信號:Longlongtogo)

編輯 | 言有三

與全連接神經(jīng)網(wǎng)絡(luò)相比,卷積神經(jīng)網(wǎng)絡(luò)在每一層是局部的,采用了較小的卷積核,感受實(shí)際對應(yīng)到原始圖像空間較大的區(qū)域,而且隨著網(wǎng)絡(luò)的加深,感受野增加。但是感受野畢竟不是全圖,在降采樣的過程中也會丟失信息。

那為什么還要這么做呢?首先這是計(jì)算量的限制,卷積核越大計(jì)算量越大,而且會存在非常多的冗余。另外,這也是模仿人眼的分層視覺理論,即不斷加深抽象層級。

雖然網(wǎng)絡(luò)結(jié)構(gòu)從全連接進(jìn)化到局部連接后才有了現(xiàn)在的發(fā)展,但并不意味著擁有更大視野的全連接就沒有用了,至少Non-local networks又開始重新思考這個問題。

1

什么是Non-Local Networks

這背后的核心思想是non-local,說到non-local又得提一下經(jīng)典的non-local means濾波算法。

假設(shè)輸入是f,輸出是g,一個經(jīng)典的局部濾波算子如上,它是只在一個鄰域內(nèi)的加權(quán)平均,所以稱之為local濾波方法,實(shí)際上上面是雙邊濾波的公式。

而non-local顧名思義,將這個鄰域擴(kuò)展到全圖。如上圖p作為中心像素,q1,q2,q3對p的濾波都有貢獻(xiàn),實(shí)際上圖像上任意一個點(diǎn)都有貢獻(xiàn)。

借用論文中的公式如上,很簡單,關(guān)鍵就在這個f如何定義。傳統(tǒng)的最好的圖像降噪算法BM3D,就是non-local means方法,它通過計(jì)算不同圖像塊的相似性來獲得權(quán)重。

2

為什么需要Non-local?

在正式說如何實(shí)現(xiàn)時,先來總結(jié)一下為什么我們需要這個non-local連接。

首先我們要看現(xiàn)在的CNN是怎么做的,為了能夠捕捉到更大的感受野,現(xiàn)在的CNN是通過不斷加深網(wǎng)絡(luò),逐步增加感受野的方案,RNN則是通過循環(huán)的方式處理序列輸入(如視頻幀序列或者圖片上一行一列等空間序列),從而融合非局部的信息,它們都有幾個缺點(diǎn)。

(1)? 計(jì)算效率不高,這是肯定的,明明可以一步到位,卻去增加了網(wǎng)絡(luò)深度。

(2)? 感知效率不高,雖然感受野可以通過深度增加,但這個增加是有限的,實(shí)際上感受野并沒有理論計(jì)算出來那么大,很多的長程的信息依然獲取不到。

(3)? 增加優(yōu)化難度,我們知道隨著網(wǎng)絡(luò)的加深,網(wǎng)絡(luò)的優(yōu)化會面對各種梯度問題。

而更大的感受野對于視頻圖像中的場景理解,跟蹤,語音識別等時序問題都是必要的。因此我們需要一個Non-Local連接,而non-local也有理由表現(xiàn)得更好,就好比Non-Local means方法比local filter方法去噪更強(qiáng),dense crf比普通的crf更強(qiáng)一樣。

3

怎么實(shí)現(xiàn)

首先要說明的是,non-local可以是只在圖像空間上的non-local,也可以是不同時間幀上的non-local,甚至是兩者的融合,不過理解起來都是一樣的。

上面展示的是一個視頻數(shù)據(jù)的block,首先我們要注意,non-local-block可以作為基礎(chǔ)的block嵌入到現(xiàn)有的模塊,因?yàn)樗妮斎肱c輸出相等,都是T*H*W*1024。

其中1024是通道數(shù),T就是時間幀數(shù)。?是矩陣乘法,⊕是逐像素相加。

我們看上面的圖,f的操作,對應(yīng)的就是輸入T*H*W*512與512*THW矩陣相乘輸出THW*THW的模塊??梢钥吹?#xff0c;f(.)的操作就是每個通道上每個點(diǎn)的特征向量進(jìn)行內(nèi)積,空間信息保留了下來,輸出還是HxW大小。

另外上面的設(shè)計(jì)采用了殘差的方式,所以可以輕松地嵌入現(xiàn)有的任何網(wǎng)絡(luò)。

4

總結(jié)

一如既往,咱們沒有貼實(shí)踐效果。從理論猜想和作者的實(shí)驗(yàn)結(jié)果都可以看出,對于視頻分類non-local比對應(yīng)的local網(wǎng)絡(luò)效果會更好,這是必然的,視頻中的主體空間移動速度非???#xff0c;如果沒有大的感受野未必能很魯棒的捕捉一個動作到底是跳高還是跳水。

依據(jù)作者們的結(jié)論,在網(wǎng)絡(luò)淺層效果會更好,我想這也是可以理解的,畢竟隨著網(wǎng)絡(luò)深度增加,感受野增加了。

更多的實(shí)踐,放心,隨著咱們這個系列接近尾聲,實(shí)踐也快來了,不過你可能需要補(bǔ)一補(bǔ)以前的知識了。

參考文獻(xiàn)

【1】Wang X, Girshick R, Gupta A, et al. Non-local neural networks[C]//The IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2018.

十月開始,我們有三AI學(xué)院開啟了“稷”劃和“濟(jì)”劃,幫助想入行以及想取得更多實(shí)戰(zhàn)經(jīng)驗(yàn)的同學(xué)。內(nèi)容覆蓋從自動駕駛到美顏直播等領(lǐng)域的實(shí)戰(zhàn)項(xiàng)目,從圖像基礎(chǔ)到深度學(xué)習(xí)理論的系統(tǒng)知識,歡迎關(guān)注。

有三AI“【濟(jì)】劃”,從圖像基礎(chǔ)到深度學(xué)習(xí)

有三AI“十月【稷】劃”,從自動駕駛到模型優(yōu)化

如果想加入我們,后臺留言吧

微信

Longlongtogo

公眾號內(nèi)容

1 圖像基礎(chǔ)|2 深度學(xué)習(xí)|3 行業(yè)信息

模型解讀

  • 【模型解讀】“全連接”的卷積網(wǎng)絡(luò),有什么好?

  • 【模型解讀】“不正經(jīng)”的卷積神經(jīng)網(wǎng)絡(luò)

  • 【模型解讀】resnet中的殘差連接,你確定真的看懂了?

  • 【模型解讀】pooling去哪兒了?

總結(jié)

以上是生活随笔為你收集整理的【模型解读】从“局部连接”回到“全连接”的神经网络的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。