胶囊网络全新升级!引入自注意力机制的Efficient-CapsNet
?PaperWeekly 原創 ·?作者|孫裕道
學校|北京郵電大學博士生
研究方向|GAN圖像生成、情緒對抗樣本生成
論文鏈接:
https://arxiv.org/abs/2101.12491
論文代碼:
https://github.com/EscVM/Efficient-CapsNet
Capsule介紹
深度學習之父 Hinton 針對卷積神經網絡在特征提取的時候會忽略特征之間的關系的這個問題提出了 Capsule Network,卷積神經網絡雖然能夠通過卷積和池化能解決一定程度上平移不變性,旋轉不變性以及放縮不變性,但是不能考慮到特征之間的相對位置關系。Capsule 是一個擁有多個神經元標量的組合體向量,它能夠識別一個視覺實體,并輸出關于該實體的方向,大小,物體與物體之間的相對位置關系等。?
考慮如下場景,如果你是一名空軍指揮官,要執行一次無人機的精準轟炸任務,其中一次轟炸大任務分為掃描任務,定位任務和轟炸任務三個子任務,為了能夠讓敵軍城市癱瘓,最佳的選擇轟炸目標就是電力供應中樞核電站,如下圖標注所示,CNN 其實只能執行第一類無人機的掃描任務,判別該城市中是否有主要的目標核電站的存在,Capsule Network 則可以執行第二類無人機的定位任務,因為其輸出的實例化參數中有核電站的相對位置信息。
1.1 Capsule Network的解析
1.1.1 Capusle Network的算法框架
Capsule Network 最核心的算法就是動態路由算法,將論文中的算法簡化成如下算法所示:?
為了能夠能加清晰直觀的闡述出 Capsule Network 動態路由算法的細節,根據如上算法框架做了如下兩幅分別時動態路由迭代一次和動態路由迭代多次(3 次)的原理圖。
▲圖1.Capsule Network參數更新迭代一次原理圖
▲圖2.Capsule Network參數更新迭代一次原理圖
1.1.2?仿射變換
在上面的算法流程圖中仿射變換中, 表示將低一層的特征向量 通過仿射矩陣 映射成高一層特征向量 。如以下圖的皮卡丘的分解圖示為例:
該圖片示由皮卡丘和其背景構成
皮卡丘整體是由臉頰和身體構成
身體則是由小短腿和軀干構成?
臉部又有嘴和眼睛構成
仿射矩陣可以看作是了局部和整體的一種相對關系,如上圖所示每個部分對應的仿射矩陣在圖中所標注,則有:
皮卡丘的臉頰對該圖像的仿射矩陣為
皮卡丘的身體對該圖像的仿射矩陣為
皮卡丘的眼睛對該圖像的仿射矩陣為
皮卡丘的嘴巴對該圖像的仿射矩陣為
皮卡丘的腿部對該圖像的仿射矩陣為
皮卡丘的軀干對該圖像的仿射矩陣為
假定 ? 是皮卡丘眼睛的位置向量, ?是皮卡丘嘴巴的位置向量。則我們可以求出皮卡丘臉頰的位置向量為 。
1.1.3?動態路由算法
耦合系數 系數的計算公式是 。耦合系數 是通過動態路的方法計算出來的。耦合系數的主要作用是最大池化的一個加強版。最大池化依靠提取特征的區域最大化,以此來提取到了這個區域里最顯著的特征信息,但是它存在一個問題是它忽略了其他有用信息的信息。動態路由算法確定耦合系數目的也是提取特征信息,但是它并不會丟棄其它相關的信息。
動態路由算法中 是 Capsule Network 的非線性的激活函數。公式中的 是將向量的長度控制在范圍 [0,1] 中,公式中 的作用是將特征向量正則化為單位向量。公式 則是用于動態路由更新參數。
Efficient-Capsnet
2.1 論文貢獻
論文中提出的 Efficient-Capsnet 方法大大減少了可訓練參數的數量。
論文中提出的 Efficient-Capsnet 方法在三個不同的數據集上獲得最先進的結果。
引入了一種新穎的非迭代、高度并行的路由算法,該算法利用 Self-ATTENTION 來有效地路由數量減少的 Capsnet。?
2.2 模型介紹
下圖為 Efficient-Capsnet 整體架構示意圖。該網絡可以大致分為三個不同的部分,其中前兩個部分是主 Capsnet 層與輸入空間交互的主要工具。每個 Capsnet 利用下面的卷積層濾波器將像素強度轉換成它所作用的特征的矢量表示。
Capsnet 內神經元的活動體現了它在訓練過程中學會代表的實體的各種屬性,其中這些屬性可以包括許多不同類型的實例化參數,例如姿態、紋理、變形以及特征本身的存在。每個向量的長度用于表示膠囊所代表的實體存在的概率,不需要任何合理的目標函數最小化。網絡的最后一部分在自我關注算法下運行,將低級膠囊路由到它們所代表的整體。
Efficient-Capsnet 利用了原始 Capsnet 中的激活函數的一個變體,擠壓激活函數:
其中, 表示的是 capsule。非線性確保了短向量收縮到幾乎為 0 的長度,而長向量收縮到略小于 1 的長度。
2.3 自注意力路由
下圖展示了自注意力 機制的第 層的原理圖,其中 表示的是第 層共有 個膠囊,其中每個膠囊的維度為 。
表示的是第 層共有 個膠囊,其中每個膠囊的維度為 。 表示的是權重矩陣,它包含了前后兩層 capsule 的仿射變換, 表示的是先驗矩陣, 是系數矩陣。
對于如上圖 層的 capsule, 表示 層 capsule 的預測,對于每個 capsule 根據權重矩陣預測下一層 的 capsule 的屬性。
層的 capsule 的計算公式如下所示,其中先驗矩陣 包含所有權重的判別信息。自注意力算法生成耦合系數矩陣 。耦合系數由自注意力張量計算得來,具體公式如下所示:
每個 capsule 包含一個 矩陣,根號 是用來幫助穩定訓練并且平衡耦合系數和先驗。下公式是用來計算 層中 capsule 所需要的最終系數。
在 層和 層中的耦合系數的作用是去獲得路由權重,其中計算公式如下所示:
Eifficent-Capsule 的輸出層不再是個標量,而是個向量。每個 capsule 輸出的向量不僅表示類的概率,也包含了各個屬性的信息。其中目標函數為:
該目標函數的形式為 margin 損失, 是損失函數,,, 都是超參數。?
2.4 實驗對比
下圖比較了總結了各個方法的結果。對于 MNIST 數據集,經典的 CNN 網絡和基于 Capsule 的網絡之間的差距是顯而易見的。該論文提出的方法與所有其他類似的方法具相比優勢很明顯,只有一半的參數。?
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的胶囊网络全新升级!引入自注意力机制的Efficient-CapsNet的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: T5 PEGASUS:开源一个中文生成式
- 下一篇: 移动白银会员是什么意思