日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ECCV 2020 《Improving One-stage Visual Grounding by Recursive Sub-query Construction》论文笔记

發(fā)布時間:2025/3/15 编程问答 18 豆豆
生活随笔 收集整理的這篇文章主要介紹了 ECCV 2020 《Improving One-stage Visual Grounding by Recursive Sub-query Construction》论文笔记 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

目錄

  • 簡介
  • 動機(jī)
  • 貢獻(xiàn)
  • 方法
  • 實驗

簡介

本文出自羅徹斯特大學(xué)+騰訊AI Lab
下載鏈接

動機(jī)

現(xiàn)有的visual grounding方法可以分為兩類:一階段、兩階段。本文面向一階段方法,提升現(xiàn)有方法處理長(long)、復(fù)雜(complex)query的能力。本質(zhì)是:本文提出了一個可以用在一階段visual grounding模型中的query modeling方法(兩階段模型中有很多query modeling方法,但是由于一些限制,不能直接用于一階段模型)。

貢獻(xiàn)

  • 對一階段的visual grounding方法進(jìn)行了改善,提升了其處理長且復(fù)雜的query的能力;
  • 提出了一個遞歸的子查詢構(gòu)建網(wǎng)絡(luò),通過遞歸來降低referring ambiguity;
  • 實驗結(jié)果好,在不同數(shù)據(jù)集上提升5-12個百分點。
  • 方法

    本文方法的整體架構(gòu)如下圖所示,共包含兩個核心模塊:子查詢學(xué)習(xí)器(Sub-query Learner)和子查詢調(diào)制器(Sub-query Modulation)。

    子查詢學(xué)習(xí)器負(fù)責(zé)學(xué)習(xí)Query中每個word的注意力αn(k)\alpha_n^{(k)}αn(k)?,通過下式得到:
    αn(k)=softmax[Wa1(k)tanh(Wa0(k)hn(k)(v ̄(k?1)⊙sn)+ba0(k))+ba1(k))]\alpha_n^{(k)}=\text{softmax}[W_{a1}^{(k)} \text{tanh}(W_{a0}^{(k)} h_{n}^{(k)} (\overline{v}^{(k-1)} \odot s_n ) + b_{a0}^{(k)} ) + b_{a1}^{(k)} )]αn(k)?=softmax[Wa1(k)?tanh(Wa0(k)?hn(k)?(v(k?1)sn?)+ba0(k)?)+ba1(k)?)]
    可以看出,學(xué)習(xí)注意力的過程中,同時考慮了{sn}n=1N\{s_n\}_{n=1}^{N}{sn?}n=1N?(query word feature,N代表word個數(shù))、v ̄(k?1)\overline{v}^{(k-1)}v(k?1)(text-conditional visual feature)和{hn(k)}n=1N\{h_{n}^{(k)}\}_{n=1}^{N}{hn(k)?}n=1N?(history vector)。其中:

    • {sn}n=1N\{s_n\}_{n=1}^{N}{sn?}n=1N?沒什么好說的,就是query中每個單詞的特征;
    • v ̄(k?1)\overline{v}^{(k-1)}v(k?1)是上一輪得到的text-conditional visual feature的均值池化(H×W×C→1×1×CH \times W \times C \rightarrow 1 \times 1 \times CH×W×C1×1×C);
    • {hn(k)}n=1N\{h_{n}^{(k)}\}_{n=1}^{N}{hn(k)?}n=1N?表示每個word在以前的迭代過程中被“訪問”的概率,通過h(k)=1?min(∑i=1k?1α(i),1)\bf{h}^{(k)} = \textbf{1} - \text{min}(\sum_{i=1}^{k-1}\bf{\alpha}^{(i)}, \bf{1})h(k)=1?min(i=1k?1?α(i),1)計算。

    對于這部分,作者添加了兩個loss,如下所示:

    • Ldiv=∣∣ATA⊙(1?I)∣∣F2L_{div}=|| A^TA \odot ({\bf 1}-I) ||^2_FLdiv?=ATA(1?I)F2?AAAK×NK \times NK×N的矩陣,由每輪迭代得到的attention拼接而成,KKK是迭代輪數(shù),NNN是word個數(shù)。此loss用于控制每一輪中,不應(yīng)該focus在相同的單詞上,也就是強(qiáng)制提升每輪迭代關(guān)注的單詞的差異性。
    • Lcover=∣∣1?min(∑i=1Kα(i),1)∣∣1L_{cover} = || \bf1-\text{min}(\sum_{i=1}^K {\bf \alpha}^{(i)}, \bf 1) ||_1Lcover?=1?min(i=1K?α(i),1)1?,此loss用于提升word的查全性。

    子查詢調(diào)制器就是基于子查詢學(xué)習(xí)器得到的注意力,對text-conditional visual feature進(jìn)行refine,增強(qiáng)referred object的特征,并壓制其他object的特征。共分為三步:

  • 基于子查詢學(xué)習(xí)器得到的αn(k)\alpha_n^{(k)}αn(k)?sns_nsn?添加attention,得到q(k)=∑n=1Nαn(k)snq^{(k)}=\sum_{n=1}^N\alpha_n^{(k)}s_nq(k)=n=1N?αn(k)?sn?
  • 基于q(k)q^{(k)}q(k),分別使用兩個MLPs得到尺度向量γ(k)=tanh(Wγ(k)q(k)+bγ(k))\gamma^{(k)}=\text{tanh}(W_\gamma^{(k)}q^{(k)} + b_\gamma^{(k)})γ(k)=tanh(Wγ(k)?q(k)+bγ(k)?)和平移向量β(k)=tanh(Wβ(k)q(k)+bβ(k))\beta^{(k)}=\text{tanh}(W_\beta^{(k)}q^{(k)} + b_\beta^{(k)})β(k)=tanh(Wβ(k)?q(k)+bβ(k)?)
  • 基于上一輪迭代得到的text-conditional visual feature v(k?1)v^{(k-1)}v(k?1)、尺度向量γ(k)\gamma^{(k)}γ(k)和平移向量β(k)\beta^{(k)}β(k),計算得到此輪的text-conditional visual feature v(k)v^{(k)}v(k),具體公式為:
    v(k)(i,j)=f2{ReLU[f1(v(k?1)(i,j))⊙γ(k)+β(k)]+v(k?1)(i,j)}v^{(k)}(i,j)=f_2\{ ReLU[f_1(v^{(k-1)}(i,j)) \odot \gamma^{(k)} + \beta^{(k)}] +v^{(k-1)}(i,j) \}v(k)(i,j)=f2?{ReLU[f1?(v(k?1)(i,j))γ(k)+β(k)]+v(k?1)(i,j)}
    上式中,f1,f2f_1, f_2f1?,f2?是兩個可學(xué)習(xí)的mapping層,具體結(jié)構(gòu)在上面的整體框架圖中有展示,f1=1×1conv+instance?normalization?layerf_1=1 \times 1 \space \text{conv} + \text{instance normalization layer}f1?=1×1?conv+instance?normalization?layerf2=3×3conv+BN+ReLUf_2=3 \times 3 \space \text{conv} + \text{BN} + \text{ReLU}f2?=3×3?conv+BN+ReLU
  • 實驗

    在RefCOCO、RefCOCO+和RefCOCOg上的實驗結(jié)果:

    在ReferItGame和Flickr30K Entities上的實驗結(jié)果:

    關(guān)于query modeling的消融實驗:

    一些可視化的結(jié)果:

    總結(jié)

    以上是生活随笔為你收集整理的ECCV 2020 《Improving One-stage Visual Grounding by Recursive Sub-query Construction》论文笔记的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。