感知算法论文(八):Generalized Intersection over Union:A Metric and A Loss for Bounding Box Regression(2019)
文章目錄
- 摘要
- 引言
- 2. 相關(guān)工作
- 3. Generalized Intersection over Union
- 3.1 GIoU as Loss for Bounding Box Regression
- 4. 實(shí)驗(yàn)
- 4.1 YOLO v3
- 4.2 Faster R-CNN and Mask R-CNN
- 5. 結(jié)論
摘要
Intersection over Union(IoU)是目標(biāo)檢測(cè)領(lǐng)域應(yīng)用最多的度量方式。
優(yōu)化b-box的參數(shù)的回歸過(guò)程所使用的損失函數(shù)和最大化度量值之間存在一定的鴻溝
二維軸心對(duì)齊的b-box情況,IoU可以直接作為回歸損失
但是,IoU無(wú)法優(yōu)化不重疊的b-box情況
本文通過(guò)引入一個(gè)更一般化的度量方式來(lái)作為新的loss和新的度量
本文通過(guò)將提出的 generalizedIoU(GIoU)generalized IoU (GIoU)generalizedIoU(GIoU) 和已有的 SOTA 算法合并,來(lái)測(cè)試效果。
引言
b-box 回歸是 2D/3D 計(jì)算機(jī)視覺問(wèn)題的基礎(chǔ),目標(biāo)定位、多目標(biāo)檢測(cè)、目標(biāo)追蹤和實(shí)例分割等都依賴于精準(zhǔn)的b-box回歸。
目前,在提升應(yīng)用層面性能的方式是使用更好的backbone[15,13],或用更好的方式來(lái)提取局部特征[6]。忽略了使用 l1l_1l1? 或 l2l_2l2? 回歸來(lái)代替基于 IoU 的回歸損失的方式,
IoU 類似于 Jaccard 系數(shù),用于度量?jī)蓚€(gè)任意形狀的相似程度
IoU 將目標(biāo)的形狀屬性(如b-box的寬度、高度和位置等)編碼到 region 屬性中,然后計(jì)算一個(gè)基于其面積的標(biāo)準(zhǔn)化度量。
該屬性使得 IoU 對(duì)目標(biāo)的尺度具有穩(wěn)定性
最小化一般的 loss 和提升其 IoU 值沒有很強(qiáng)的聯(lián)系,假設(shè)二維情況的例子如圖1(a),其中預(yù)測(cè)的b-box是黑色框,真實(shí)的b-box是綠色框,用(左上,右下)(x1,y1,x2,y2)(x_1,y_1,x_2,y_2)(x1?,y1?,x2?,y2?)來(lái)表示。為了簡(jiǎn)化,假設(shè)兩個(gè)b-box的一個(gè)corner的距離是固定的(左下),因此,如果預(yù)測(cè)的第二個(gè)角位于以綠色框的第二個(gè)角為中心的半徑固定的圓上(灰色虛線圓圈),則任何預(yù)測(cè)的b-box和真實(shí)b-box的 l2l_2l2? 距離將相同。但 IoU 值不同(圖1(a))。圖1(b)也一樣。
由此可知,這些度量方式的局部最優(yōu)并不是 IoU 的局部最優(yōu),此外,lnl_nln? 距離對(duì)尺度變化不具有穩(wěn)定性。一些具有相同重復(fù)率但不同尺度的b-box,將會(huì)有不同的度量結(jié)果。
本文將會(huì)研究?jī)蓚€(gè)坐標(biāo)來(lái)對(duì)齊的矩形的 IoU,該方法具有直觀可解釋性,與目前一般的觀點(diǎn)相反,IoU 可以反向傳播,也就是說(shuō)可以直接將 IoU 作為目標(biāo)函數(shù)來(lái)優(yōu)化。
將優(yōu)化度量方式和優(yōu)化損失函數(shù)進(jìn)行對(duì)比,最優(yōu)的方式是使用度量方式本身來(lái)進(jìn)行優(yōu)化。
但是 IoU 可以作為度量方式,也可以作為損失:如果兩個(gè)目標(biāo)沒有重疊, IoU 值將為0,無(wú)法反映兩個(gè)形狀的距離,如果兩個(gè)目標(biāo)無(wú)重疊且使用 IoU 作為損失函數(shù),則 IoU 的值為0,梯度為0,無(wú)法優(yōu)化。
本文中,我們將通過(guò)擴(kuò)展到無(wú)重疊的情況,來(lái)解決 IoU 的缺點(diǎn)。
假設(shè)滿足以下要求:
- 與一般的 IoU 定義相同,將形狀屬性編碼為區(qū)域?qū)傩?/li>
- 保持 IoU 的形狀不變性
- 保證在目標(biāo)重疊情況下,與 IoU 相關(guān)性較強(qiáng)
我們將這個(gè)更一般化的 IoU 稱為 GIoU,作為衡量?jī)蓚€(gè)任意形狀的度量,同樣地,我們對(duì)兩個(gè)對(duì)齊矩形的 GIoU 獲得了解析解,允許其可作為損失函數(shù)使用。
將 GIoU loss 集成到優(yōu)異的目標(biāo)檢測(cè)算法中,可以提升檢測(cè)效果。
本文主要貢獻(xiàn)如下:
- 提出了一種更 generalized 的 IoU,并作為衡量?jī)蓚€(gè)任意形狀的度量方式
- 為 GIoU 提供了解析解
- 將 GIoU 和目前流行的目標(biāo)檢測(cè)算法集成起來(lái),獲得了效果的提升。
2. 相關(guān)工作
目標(biāo)檢測(cè)準(zhǔn)確性度量:
IoU 是目標(biāo)檢測(cè)中常用的評(píng)估指標(biāo),用于確定預(yù)測(cè)結(jié)果中真正例和假正例,使用IoU 作為衡量標(biāo)準(zhǔn)時(shí),需要確定一個(gè)閾值。例如在 PASCAL VOC 中,一般使用 mAP,其計(jì)算基于固定的 IoU 閾值,如0.5。
任意的 IoU 閾值并不能完全反應(yīng)某種方法的定位效果,所有高于閾值的框都被認(rèn)定為同樣的質(zhì)量,為了降低閾值對(duì)抑制結(jié)果的影響性, MS COCO 數(shù)據(jù)集將多種 IoU 閾值取得的平均結(jié)果也就是 average mAP 作為衡量準(zhǔn)則。
Bounding box representations and losses:
2維目標(biāo)檢測(cè)中,一個(gè)很重要的步驟是學(xué)習(xí)b-box 的參數(shù),目前已經(jīng)出現(xiàn)了一些不同的 b-box representations 和 losses 。
YOLO v1 [19] 中提出對(duì)有輕微形變的邊界框參數(shù)直接進(jìn)行回歸的方法,來(lái)預(yù)測(cè)b-box大小的平方根,來(lái)彌補(bǔ)尺度敏感性。
[5] 中的 R-CNN 使用選擇性搜索方法來(lái)預(yù)測(cè)b-box的位置和偏移量來(lái)參數(shù)化b-box。為了減輕尺度敏感性,用log域來(lái)表示b-box的尺寸和偏移,之后使用 l2l_2l2? 規(guī)范化目標(biāo)函數(shù),如 MSE loss,來(lái)作為優(yōu)化目標(biāo)。
[7] 中的 Fast R-CNN 使用 l1l_1l1? loss 來(lái)保證學(xué)習(xí)過(guò)程對(duì)異常值更加魯棒。
[22] 中提出使用一系列的 anchor boxes,之后回歸得到預(yù)測(cè) b-box 的尺寸和偏移量。但這很難訓(xùn)練,由于正例和負(fù)例類別不平衡,為了解決該問(wèn)題,作者后續(xù)提出了focal loss[13] ,該 loss 和本文的落腳點(diǎn)一致。
很多流行的目標(biāo)檢測(cè)方法都是使用上述的 b-box 表示方法和損失函數(shù),已經(jīng)取得了很好的效果。下面將介紹GIoU。
使用近似或代替函數(shù)來(lái)優(yōu)化 IoU:
語(yǔ)義分割任務(wù)中,一般使用近似的或者代替的函數(shù)來(lái)優(yōu)化 IoU。
近期的目標(biāo)檢測(cè)任務(wù)中,很多方法直接或間接合并 IoU,來(lái)更好的執(zhí)行b-box 回歸。但是這些方法在非重疊情況下優(yōu)化 IoU 時(shí),要么只能得到近似最優(yōu),要么會(huì)無(wú)法得到最優(yōu)。
本文通過(guò)引入 Generalized IoU 來(lái)解決 IoU 的缺陷,直接將 GIoU 作為優(yōu)化目標(biāo)來(lái)訓(xùn)練目標(biāo)檢測(cè)問(wèn)題。
3. Generalized Intersection over Union
IoU 用于對(duì)比兩個(gè)任意形狀 A 和 B 的相似度:
IoU=∣A?B∣∣A?B∣IoU=\frac{|A \bigcap B|}{|A \bigcup B|}IoU=∣A?B∣∣A?B∣?
該兩個(gè)特征在 2D/3D計(jì)算機(jī)視覺任務(wù)中用的很多,如下所示:
- IoU 作為距離來(lái)講(LIoU=1?IoUL_{IoU}=1-IoULIoU?=1?IoU),是一個(gè)數(shù)學(xué)上的衡量標(biāo)準(zhǔn),也就是說(shuō) LIoUL_{IoU}LIoU? 滿足非負(fù)性、同一性、對(duì)稱性和三角不等性。
- IoU 對(duì)尺度不敏感,意味著兩個(gè)任意形狀的 A 和 B 對(duì)其空間尺度不敏感。
IoU 的缺點(diǎn):
- 如果 ∣A?B∣=0|A\bigcap B|=0∣A?B∣=0,則IoU(A,B)=0IoU(A,B)=0IoU(A,B)=0。在此情況下, IoU 并不能反映兩個(gè)形狀的距離。
- IoU 無(wú)法精確反映兩者重合度大小,如下所示,三種情況 IoU 都相等,但其重合度是不同的,左圖最好,右圖最差。
為了解決 IoU 的缺點(diǎn),本文提出了 GIoU,對(duì)兩個(gè)任意凸面形狀的 A 和 B,首先尋找凸面形狀 C(包含A 和 B)。如需要對(duì)比兩個(gè)特殊幾何形狀,那么 C 也是同樣的類型的幾何形狀。如A 和 B 是兩個(gè)橢圓,C 則是兩者交集,也是一個(gè)橢圓。之后計(jì)算 C 的面積和整個(gè)A 和 B 包含的面積的比例。
GIoU 是先計(jì)算兩個(gè)框的最小閉包區(qū)域面積,再計(jì)算IoU,再計(jì)算閉包區(qū)域中不屬于兩個(gè)框的區(qū)域占閉包區(qū)域的比重,最后用IoU減去這個(gè)比重得到GIoU,如下所示:
GIoU 也是一個(gè)距離度量,LGIoU=1?GIoUL_{GIoU}=1-GIoULGIoU?=1?GIoU,具有所有的屬性,包括非負(fù)性、同一性、對(duì)稱性和三角不等性。
類似于 IoU,GIoU 對(duì)尺度不敏感
GIoU 永遠(yuǎn)是 IoU 的下界,GIoU(A,B)≤IoU(A,B)GIoU(A, B) ≤ IoU(A, B)GIoU(A,B)≤IoU(A,B),且當(dāng) A 和 B 有較強(qiáng)的形狀相似性時(shí),該下界更收斂,也就是 limA→BGIoU(A,B)=IoU(A,B)lim_{A\to B} GIoU(A, B) =IoU(A, B)limA→B?GIoU(A,B)=IoU(A,B)。
與IoU只關(guān)注重疊區(qū)域不同,GIoU不僅關(guān)注重疊區(qū)域,還關(guān)注其他的非重合區(qū)域,能更好的反映兩者的重合度。
IoU(A,B)<=1IoU(A, B) <=1IoU(A,B)<=1,而 ?1<=GIoU(A,B)<=1-1<=GIoU(A,B)<=1?1<=GIoU(A,B)<=1,具有對(duì)稱性。
i) 類似于 IoU,1表示兩個(gè)形狀重合的很完美,也就是 ∣A?B∣=∣A?B∣|A \bigcap B| =|A \bigcup B|∣A?B∣=∣A?B∣時(shí),GIoU=IoU=1。
ii) 當(dāng)兩個(gè)形狀的重復(fù)ratio ∣A?B∣|A\bigcup B|∣A?B∣ 和 ∣C∣|C|∣C∣ 的面積接近于0時(shí),GIoU 的值接近-1。也就是lim∣A?B∣∣C∣→0GIoU(A,B)=?1lim_{\frac{|A\bigcup B|}{|C|} \to 0} GIoU (A, B)=-1lim∣C∣∣A?B∣?→0?GIoU(A,B)=?1
總之,該一般性保留了 IoU 的主要特征,同時(shí)避免了其缺點(diǎn),因此,GIoU 可以在2D/3D 計(jì)算機(jī)視覺任務(wù)中適當(dāng)?shù)卮?IoU 來(lái)衡量距離。
本文主要研究2D 的目標(biāo)檢測(cè),可以簡(jiǎn)單的獲得 GIoU 的解析解,故可以將其作為距離度量和損失度量。
3.1 GIoU as Loss for Bounding Box Regression
IoU 沒有解析解,無(wú)法直接作為損失函數(shù)來(lái)優(yōu)化,
2D 目標(biāo)檢測(cè)是對(duì)比兩個(gè)坐標(biāo)對(duì)齊的的任意形狀的距離,GIoU 可以直接得到其解析解,該情況下,重疊部分和最小的閉包目標(biāo)都是矩形形狀,可以看出,它們頂點(diǎn)的坐標(biāo)僅僅是被比較的兩個(gè)邊界框中的一個(gè)的坐標(biāo),這可以通過(guò)使用min和max函數(shù)比較每個(gè)頂點(diǎn)的坐標(biāo)來(lái)實(shí)現(xiàn)。要檢查兩個(gè)邊框是否重疊,還必須檢查一個(gè)條件。因此,我們有一個(gè)解析的解來(lái)計(jì)算IoU和GIoU。
因?yàn)楸尘笆?min,max 和逐塊的線性函數(shù),如Relu 和 feasible,Alg2 中展示了,每個(gè)模型都有很好的表現(xiàn)。因此,IoU 或 GIoU 都可以被作為損失函數(shù),如 LIoUL_{IoU}LIoU? 或 LGIoUL_{GIoU}LGIoU? ,來(lái)優(yōu)化目標(biāo)檢測(cè)的網(wǎng)絡(luò)。
- 分別計(jì)算 gt 和 predict box 的面積
- 計(jì)算交集面積
- 計(jì)算最小閉包面積
- 計(jì)算 IoU 和 GIoU
- 根據(jù)公式得到 loss
此情況下,我們直接優(yōu)化距離來(lái)作為損失,該損失是最優(yōu)的形式,然而,對(duì)于不重疊的情況, IoU 的梯度為0,這會(huì)影響訓(xùn)練過(guò)程和收斂速度,包括無(wú)重疊情況。
另外,使用 property 3(下界的那個(gè)關(guān)系),可以發(fā)現(xiàn) GIoU 和 IoU 有著很強(qiáng)的關(guān)聯(lián),尤其是在 IoU 的值較大的時(shí)候,我們?cè)趫D2 中呈現(xiàn)了這種關(guān)系,使用10k 個(gè)隨機(jī)樣本。
圖2中,我們觀察到在重復(fù)率較低情況下, 如 IoU <=0.2,GIoU<=0.2,GIoU有能力比 IoU 獲得更多的變化,結(jié)尾處,GIoU 可能比 IoU 的梯度更加陡峭,所以將 GIoU 作為 loss 比使用 IoU 更好。
Loss Stability:
本文研究了如果存在極端的情況,會(huì)否使得 loss 不穩(wěn)定或不明確,如何確定輸出值。
假設(shè)gt box BgB^gBg是一個(gè)矩形區(qū)域,其面積大于0,那么 Ag>0A^g>0Ag>0。
Alg.2(1) 和 Alg.2(4) 分別確定了預(yù)測(cè)區(qū)域 ApA^pAp 和重疊區(qū)域 LLL 都是非負(fù)的,即 Ap>=0,L>=0A^p>=0, L>=0Ap>=0,L>=0。所以對(duì)所有的預(yù)測(cè)值 Bp=(x1p,x2p,y1p,y2p)∈R4B^p=(x_1^p, x_2^p, y_1^p, y_2^p) \in R^4Bp=(x1p?,x2p?,y1p?,y2p?)∈R4,都有 union u>0u>0u>0。
這就保證了對(duì)于所有的預(yù)測(cè)輸出, IoU 的分母不會(huì)為0,此外,對(duì)任何值 Bp=(x1p,x2p,y1p,y2p)∈R4B^p=(x_1^p, x_2^p, y_1^p, y_2^p) \in R^4Bp=(x1p?,x2p?,y1p?,y2p?)∈R4,union 都大于交集面積,也就是 u>=Lu>=Lu>=L。因此,LIoUL_{IoU}LIoU? 總是有上下界的,也就是0<=LIoU<=10<=L_{IoU}<=10<=LIoU?<=1。
為了驗(yàn)證 LIoUL_{IoU}LIoU? 的穩(wěn)定性,額外的一項(xiàng) Ac?uAc\frac{A^c-u}{A^c}AcAc?u? 應(yīng)該被預(yù)定義為一個(gè)確定的值。
所有預(yù)測(cè)的值的最小閉包 BcB^cBc 不會(huì)比BgB^gBg還小,所以 Ac?uAc\frac{A^c-u}{A^c}AcAc?u?的分母總是一個(gè)正的非零值,因?yàn)?Ac>=AgA^c>=A^gAc>=Ag,且 Ag>=0A^g>=0Ag>=0。
此外,所有預(yù)測(cè)得到的最小閉包不會(huì)小于 union,也就是 Ac>=uA^c>=uAc>=u。故 GIoU 的額外一項(xiàng)是正的且有界的,因此, 0<=LGIoU<=20<=L_{GIoU}<=20<=LGIoU?<=2。
當(dāng) IoU=0 時(shí),LGIoUL_{GIoU}LGIoU?的特點(diǎn):
對(duì)于 GIoU loss,我們有 LGIoU=1?GIoU=1+Ac?uAc?IoUL_{GIoU}=1-GIoU=1+\frac{A^c-u}{A^c}-IoULGIoU?=1?GIoU=1+AcAc?u??IoU,當(dāng) BgB^gBg 和 BpB^pBp 沒有重疊時(shí), L=0L=0L=0 ,IoU=0IoU=0IoU=0,GIoU loss 簡(jiǎn)化為LGIoU=1?GIoU=1+Ac?uAc=2?uAcL_{GIoU}=1-GIoU=1+\frac{A^c-u}{A^c}=2-\frac{u}{A^c}LGIoU?=1?GIoU=1+AcAc?u?=2?Acu?。
該情況下,為了最小化 LGIoUL_{GIoU}LGIoU?,需要最大化 uAc\frac{u}{A^c}Acu?,該項(xiàng)被規(guī)范化到0~1之間,也就是0<=uAc<=10<=\frac{u}{A^c}<=10<=Acu?<=1。當(dāng)最小閉包 AcA^cAc 最小的時(shí)候,該值最大,且 u=Ag+Apu=A^g+A^pu=Ag+Ap,更精確的說(shuō),也就是預(yù)測(cè)的b-box ApA^pAp 是最大的。
為了實(shí)現(xiàn)該目標(biāo),預(yù)測(cè)的 b-box BpB^pBp 的最高點(diǎn),應(yīng)該移動(dòng)到一個(gè)方向,來(lái)促進(jìn) BgB^gBg 和 BpB^pBp 的重疊,保證 IoU 不等于0。
4. 實(shí)驗(yàn)
通過(guò)將本文提出的GIoU loss 和已有的 Faster R-CNN 、Mask R-CNN 和 YOLOv3等網(wǎng)絡(luò)的結(jié)合,來(lái)探究本文網(wǎng)絡(luò)的的效果。
我們將其原有的 loss 使用 LGIoUL_{GIoU}LGIoU? 來(lái)替換,也就是替換 Faster/ Mask R-CNN 中的 l1l_1l1? 損失,替換 YOLO v3中的 MSE 損失,同時(shí)對(duì)比了最終結(jié)果。
數(shù)據(jù)集:
PASCAL VOC[4] 和 MS COCO[14]。
PASCAL VOC 2007: Pascal Visual Object Classes(VOC)基準(zhǔn)是分類任務(wù)、分割任務(wù)和目標(biāo)檢測(cè)任務(wù)的應(yīng)用很廣泛的數(shù)據(jù)集。包括 9963 個(gè)圖像,訓(xùn)練和測(cè)試各占一半,20個(gè)預(yù)定義的類別都有b-box 標(biāo)注。
MS COCO: 包括多于 200000 個(gè)圖像,用于訓(xùn)練,驗(yàn)證和測(cè)試的數(shù)據(jù)集多于 500000 個(gè)標(biāo)注好的實(shí)例,共80個(gè)類。
實(shí)驗(yàn)細(xì)節(jié)介紹:
使用不同 IoU 閾值所得到的類間的 mAP 來(lái)衡量真陽(yáng)性和假陽(yáng)性。主要使用 AP 來(lái)衡量該基準(zhǔn)數(shù)據(jù)集的性能,之后將不同 IoU 閾值情況下所獲得的 mAP 的均值來(lái)作為衡量標(biāo)準(zhǔn),包括 IoU ={0.5,0.55,…,0.95}等。
此外,使用 GIoU 來(lái)修正評(píng)估結(jié)果,來(lái)確定其真陽(yáng)性和假陽(yáng)性。因此,我們使用 mAP 的均值來(lái)作為衡量AP 的一個(gè)值,當(dāng)閾值為0.75時(shí),表中表示為 AP75。
4.1 YOLO v3
訓(xùn)練過(guò)程:
此處使用原始的 Darknet 實(shí)現(xiàn)的 YOLO v3,對(duì)于基準(zhǔn)結(jié)果(使用 MSE loss 訓(xùn)練的),我們使用 Darknet-608 作為backbone網(wǎng)絡(luò),并且使用基準(zhǔn)參數(shù)。
為了分別訓(xùn)練基于 IoU 和 GIoU 的 YOLO v3,我們直接利用 IoU 和 GIoU 來(lái)代替 MSE 。
考慮到分類需要額外的 MSE loss ,且由于我們使用有界的距離損失來(lái)代替無(wú)界的距離損失,我們需要調(diào)整新的b-box回歸來(lái)解決分類損失。我們使用了一個(gè)非常小的變化來(lái)調(diào)整回歸 loss 來(lái)應(yīng)對(duì) MSE 分類損失。
1)PASCAL VOC 2007:
遵循原始網(wǎng)絡(luò)的訓(xùn)練過(guò)程,我們?cè)谟?xùn)練集和驗(yàn)證集上使用每種 loss 來(lái)訓(xùn)練網(wǎng)絡(luò),迭代次數(shù)大于50K,如表1所示。
對(duì)比標(biāo)準(zhǔn) IoU 和新的 GIoU 的效果,從表中可知,使用 LGIoUL_{GIoU}LGIoU? 作為回歸損失時(shí)比使用 MSE 作為回歸損失的效果好。
2)MS COCO 數(shù)據(jù)集:
遵循原始網(wǎng)絡(luò)訓(xùn)練方法,使用所有的訓(xùn)練集和 88% 的驗(yàn)證集來(lái)進(jìn)行約502k次的訓(xùn)練,之后,我們使用剩余的 12% 的驗(yàn)證集得到的結(jié)果如表2所示。
同樣在 MS COCO 2018 數(shù)據(jù)集中也進(jìn)行了實(shí)驗(yàn),結(jié)果見表3.
圖3(a)中展示了使用 LGIoUL_{GIoU}LGIoU? 時(shí), YOLO v3的定位準(zhǔn)確性有所提高。
由于目前對(duì)正則化參數(shù)進(jìn)行了簡(jiǎn)單的調(diào)優(yōu),平衡了邊界框損失和分類損失,但與基準(zhǔn)結(jié)果相比,分類得分可能不是最優(yōu),如圖3(b)。
由于基于 AP 的性能度量受到分類誤差的影響較大,我們認(rèn)為通過(guò)尋找正則化參數(shù)可以進(jìn)一步改善結(jié)果。
4.2 Faster R-CNN and Mask R-CNN
訓(xùn)練過(guò)程:
對(duì)于基準(zhǔn)過(guò)程(使用 l1l_1l1?-smooth),本文使用 RestNet-50 作為 Faster R-CNN 和 Mask RCNN 的 backbone,參數(shù)都使用默認(rèn)參數(shù)。
分別使用 GIoU 和 IoU 對(duì)兩個(gè)分割網(wǎng)絡(luò)進(jìn)行訓(xùn)練,也就是利用 $ L_{IoU}$ 和 LGIoUL_{GIoU}LGIoU? loss 代替 l1l_1l1?-smooth loss 進(jìn)行訓(xùn)練,如 Alg.2 所示。
類似于 YOLO v3,我們對(duì)新的回歸損失進(jìn)行了最小的調(diào)整,使之與分類和分割損失等其他損失相對(duì)應(yīng),我們只是簡(jiǎn)單地將所有實(shí)驗(yàn)的 L_{IoU}$ 和 LGIoUL_{GIoU}LGIoU? 乘以10。
PASCAL VOC 2007:
由于該數(shù)據(jù)集中沒有實(shí)例mask的標(biāo)記,所以無(wú)法在該數(shù)據(jù)集上測(cè)試 Mask R-CNN 的效果,因此僅僅對(duì) Faster R-CNN 進(jìn)行測(cè)試,見表4。
使用 LGIoUL_{GIoU}LGIoU? loss 比使用 l1l_1l1?-smooth loss 的效果更好,此外,將 LIoUL_{IoU}LIoU? loss 合并到回歸損失中后,可以對(duì) Faster R-CNN 的基準(zhǔn)性能略有提高,但比使用 LGIoUL_{GIoU}LGIoU? loss 帶來(lái)的提升略差,如圖4,IoU 的閾值從 0.5~0.95。
MS COCO:
在 MS COCO 2018 訓(xùn)練集上訓(xùn)練了 Faster R-CNN 和 Mask R-CNN,迭代次數(shù)為95k,驗(yàn)證集上的結(jié)果分別見表5和表7。
在 MS COCO 2018 challenge 測(cè)試的結(jié)果見表6和8。
LGIoUL_{GIoU}LGIoU? 作為 loss 的檢測(cè)效果優(yōu)于 l1l_1l1?-smooth,然而其提升的數(shù)量低于之前的實(shí)驗(yàn),其原因有很多:
-
首先,Faster R-CNN [22] 和 Mask R-CNN [6] 的anchor box 比 YOLO v3 的更加密集,導(dǎo)致 GIoU 相對(duì)于 IoU 的優(yōu)勢(shì)場(chǎng)景不太常見,如不重疊的邊界框。
-
其次,在 PASCAL VOC 上對(duì)b-box 的正則化參數(shù)進(jìn)行了簡(jiǎn)單的調(diào)優(yōu),在 MS 上得到了次優(yōu)的結(jié)果。
5. 結(jié)論
本文提出了GIoU 作為新的度量方式,來(lái)衡量?jī)蓚€(gè)任意形狀的距離,能夠克服 IoU 的缺點(diǎn)。
同樣,我們對(duì)兩個(gè)坐標(biāo)對(duì)齊的矩形的 GIoU 提出了解析解,GIoU 作為距離度量,其導(dǎo)數(shù)可以計(jì)算出來(lái),故 GIoU 可以被作為 b-box 的回歸損失。
通過(guò)將該損失應(yīng)用于目前先進(jìn)的目標(biāo)檢測(cè)方法中,對(duì)其性能都有了一定的提升,如在 PASCAL VOC 和 MS COCO 等數(shù)據(jù)集上都有效果的提升。
由于最優(yōu)損失函數(shù)就是該度量標(biāo)準(zhǔn)本身,所以 GIoU 損失可以作為最優(yōu) b-box 回歸損失。
未來(lái),我們可以研究在兩個(gè)可旋轉(zhuǎn)的矩形的 GIoU,可以用于3D 目標(biāo)檢測(cè)框架。
總結(jié)
以上是生活随笔為你收集整理的感知算法论文(八):Generalized Intersection over Union:A Metric and A Loss for Bounding Box Regression(2019)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 车险电子保单怎么用
- 下一篇: 感知算法论文(九):Towards Ac