日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 默认站点!

默认站点

當前位置: 首頁 >

CVPR19 基于图卷积网络的多标签图像识别模型 论文笔记

發布時間:2023/12/3 45 豆豆
默认站点 收集整理的這篇文章主要介紹了 CVPR19 基于图卷积网络的多标签图像识别模型 论文笔记 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

筆記

曠視研究院的研究員提出了如下模型,用于圖像的多標簽分類.

該模型與一般模型不一樣的一點是,它的分類器是生成的,因此它有一個專門生成分類器的子網絡.

網絡主要由兩部分構成

  • 特征表示子網絡,該網絡由ResNet-101構成,即藍色框圈出的部分.
  • 分類器生成子網絡,該網絡由3個GCN層串聯組合而成,即紅色框組成部分.
  • 動機

  • 基于標簽的共現模式,曠視研究員設計了一個全新的標簽相關系數矩陣,可顯式地用 GCN建模標簽相關性,讓節點的特征在更新時也能從相關聯的節點(標簽)吸收信息。
  • 由于從詞嵌入向量到分類器的映射參數在所有類別中是共享的,所以習得的分類器能夠在詞嵌入空間中(語義相關的概念在詞嵌入空間中彼此臨近)保留較弱的語義結構。與此同時,對于可以對標簽依賴性進行隱式建模的分類器函數,所有分類器的梯度都會對它產生影響。
  • GCN層

    每個標簽可以看做是一個特征向量.
    在第一層的時候,標簽的特征向量是ddd維度的,剛好是一個詞嵌入向量.
    在第二層的時候,標簽的特征向量是d′d'd維度的,是經過了一個轉換矩陣W2W^2W2的映射.
    在第三層的時候,標簽的特征向量是DDD維度的,也是經過了一個轉換矩陣W3W^3W3的映射,映射完之后,每個標簽的特征向量維度剛好和ResNet101抽取到的特征維度相同了,因此可以作為該標簽的分類器了.
    這對應第2個動機.

    至此還未用到標簽間的拓撲圖結構,也就沒有用到標簽間的共現關系,因此他們設計了一個共現矩陣AAA,用于引導信息在標簽間的傳遞.
    A∈Rn?nA \in R^{n*n}ARn?n,其中nnn是標簽的數量.
    矩陣是一個先驗矩陣,不需要被學習.
    這就對應了第1個動機

    因此得到了GCN變換公式:

    Hl∈Rn?d,Wl∈Rd?d′,A∈Rn?nH^l \in R^{n*d},W^l\in R^{d*d'},A\in R^{n*n}HlRn?d,WlRd?d,ARn?n

    Hl+1=h(AHlWl)H^{l+1}=h(AH^{l}W^{l})Hl+1=h(AHlWl)

    AAA的設計


    如圖所示,一個很樸素的想法,就是計算一對標簽的條件概率作為他們的相關系數.
    這樣有兩個壞處

  • 測試和訓練過程中的條件概率可能會不一樣.
  • 存在噪音問題導,致長尾分布.
  • 作如下改進: 將矩陣進行二值化,設置一個閾值τ∈[0,1]\tau \in [0,1]τ[0,1]

    Aij=[Pij≥τ]A_{ij}=[P_{ij} \ge \tau]Aij?=[Pij?τ]

    二值化之后解決了上述兩個問題,然而也會引入新的問題,即過度平滑問題.

    因此他們提出了二次加權的方法:


    ppp是一個預設的超參數.
    p→1p \rightarrow 1p1的時候,節點自身的特征往往不會被考慮.
    p→0p \rightarrow 0p0的時候,節點相鄰點的特征往往不會被考慮.

    細節

    當一個標簽包含多個單詞的時候,將所有單詞的embedding取平均.

    實驗結果

    可視化


    通過對分類器的可視化,我們可以發現,確實使用GCN可以學習到吧標間之間的內在關聯性.

    總結

    以上是默认站点為你收集整理的CVPR19 基于图卷积网络的多标签图像识别模型 论文笔记的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得默认站点網站內容還不錯,歡迎將默认站点推薦給好友。