CVPR19 基于图卷积网络的多标签图像识别模型 论文笔记
筆記
曠視研究院的研究員提出了如下模型,用于圖像的多標簽分類.
該模型與一般模型不一樣的一點是,它的分類器是生成的,因此它有一個專門生成分類器的子網絡.
網絡主要由兩部分構成
動機
GCN層
每個標簽可以看做是一個特征向量.
在第一層的時候,標簽的特征向量是ddd維度的,剛好是一個詞嵌入向量.
在第二層的時候,標簽的特征向量是d′d'd′維度的,是經過了一個轉換矩陣W2W^2W2的映射.
在第三層的時候,標簽的特征向量是DDD維度的,也是經過了一個轉換矩陣W3W^3W3的映射,映射完之后,每個標簽的特征向量維度剛好和ResNet101抽取到的特征維度相同了,因此可以作為該標簽的分類器了.
這對應第2個動機.
至此還未用到標簽間的拓撲圖結構,也就沒有用到標簽間的共現關系,因此他們設計了一個共現矩陣AAA,用于引導信息在標簽間的傳遞.
A∈Rn?nA \in R^{n*n}A∈Rn?n,其中nnn是標簽的數量.
矩陣是一個先驗矩陣,不需要被學習.
這就對應了第1個動機
因此得到了GCN變換公式:
Hl∈Rn?d,Wl∈Rd?d′,A∈Rn?nH^l \in R^{n*d},W^l\in R^{d*d'},A\in R^{n*n}Hl∈Rn?d,Wl∈Rd?d′,A∈Rn?n
Hl+1=h(AHlWl)H^{l+1}=h(AH^{l}W^{l})Hl+1=h(AHlWl)
AAA的設計
如圖所示,一個很樸素的想法,就是計算一對標簽的條件概率作為他們的相關系數.
這樣有兩個壞處
作如下改進: 將矩陣進行二值化,設置一個閾值τ∈[0,1]\tau \in [0,1]τ∈[0,1]
Aij=[Pij≥τ]A_{ij}=[P_{ij} \ge \tau]Aij?=[Pij?≥τ]
二值化之后解決了上述兩個問題,然而也會引入新的問題,即過度平滑問題.
因此他們提出了二次加權的方法:
ppp是一個預設的超參數.
當p→1p \rightarrow 1p→1的時候,節點自身的特征往往不會被考慮.
當p→0p \rightarrow 0p→0的時候,節點相鄰點的特征往往不會被考慮.
細節
當一個標簽包含多個單詞的時候,將所有單詞的embedding取平均.
實驗結果
可視化
通過對分類器的可視化,我們可以發現,確實使用GCN可以學習到吧標間之間的內在關聯性.
總結
以上是默认站点為你收集整理的CVPR19 基于图卷积网络的多标签图像识别模型 论文笔记的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Simple-Faster-RCNN源码
- 下一篇: 数字图像处理作业