當前位置：首頁 > 人文社科 > 生活经验 >内容正文

生活经验

YOLOV4各个创新功能模块技术分析（二）

發布時間：2023/11/28 生活经验 49 豆豆

生活随笔收集整理的這篇文章主要介紹了 YOLOV4各个创新功能模块技术分析（二）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

YOLOV4各個創新功能模塊技術分析（二）

四.數據增強相關-GridMask
Data Augmentation

論文名稱：GridMask Data
Augmentation

論文地址：https://arxiv.org/abs/2001.04086v2

論文摘要

本文提出了一種新的數據增強方法GridMask。它利用信息去除來實現各種計算機視覺任務的最新結果。分析了信息丟棄的需求。在此基礎上，指出了現有信息丟棄算法的局限性，提出了一種簡單有效的結構化方法。它基于輸入圖像區域的刪除。大量實驗表明，本方法優于最新的AutoAugment，這是由于使用強化學習來尋找最佳策略而導致的計算代價更高。在用于識別的ImageNet數據集、COCO2017對象檢測和用于語義分割的Cityscapes數據集上，本方法都顯著提高了性能。大量的實驗證明了新方法的有效性和通用性。

本文可以認為是前面3篇文章的改進版本。本文的出發點是：刪除信息和保留信息之間要做一個平衡，而隨機擦除、cutout和hide-seek方法都可能會出現可判別區域全部刪除或者全部保留，引入噪聲，可能不好。如下所示：

要實現上述平衡，作者發現非常簡單，只需要結構化drop操作，例如均勻分布似的刪除正方形區域即可。并且可以通過密度和size參數控制，達到平衡。如下所示：

其包括4個超參，如下所示：

首先定義k，即圖像信息的保留比例，其中H和W分別是原圖的高和寬，M是保留下來的像素數，保留比例k如下，該參數k和上述的4個參數無直接關系，但是該參數間接定義了r：

d決定了一個dropped
square的大小，參數 x和 y的取值有一定隨機性.

其實看起來，就是兩個參數: r和d，r通過k計算而來，用于計算保留比例(核心參數)，d用了控制每個塊的大小。d越大，每個黑色塊面積就越大，黑色塊的個數就越少，d越小，黑色塊越小，個數就越多。xy僅僅用于控制第一個黑色塊的偏移而已。

對于應用概率的選擇，可以采用固定值或者線性增加操作，作者表示線性增加會更好，例如首先選擇r = 0.6，然后隨著訓練epoch的增加，概率從0增加到0.8，達到240th epoch后固定，這種操作也是非常make sense，為了模擬更多場景，在應用于圖片前，還可以對mask進行旋轉。這種策略當然也可以應用于前3種數據增強策略上。

五.數據增強相關-object
Region Mining with Adversarial Erasin

論文地址：https://arxiv.org/pdf/1703.08448.pdf

論文摘要

研究了一種利用分類網絡逐步挖掘目標區域的方法來解決弱監督語義分割問題。分類網絡只對來自感興趣對象的小而稀疏的區分區域做出響應，這偏離了分割任務的要求，分割任務需要對密集、內部和整體區域進行本地化，以便進行像素級推理。為了縮小這一差距，提出了一種新的對抗性擦除方法來逐步定位和擴展目標區域。從單個小目標區域開始，提出的方法通過以對抗的方式擦除當前的挖掘區域，驅動分類網絡順序地發現新的和補充的目標區域。這些局部區域最終構成一個稠密完整的學習語義分割的對象區域。為了通過對抗性擦除進一步提高發現區域的質量，開發了一種在線禁止性分段學習方法，通過提供由更可靠的分類分數調節的輔助分段監督，與對抗性擦除協作。盡管該方法明顯簡單，但在帕斯卡VOC 2012 val和測試集（這是最新的技術狀態）上，其平均交集（mIoU）得分分別達到55.0%和55.7%。

本文在yolov4中僅僅是提了一下，不是重點，但是覺得思想不錯，所以還是寫一下。本文要解決的問題是使用分類做法來做分割任務(弱監督分割)，思想比較有趣。如下所示：

通過迭代訓練的方式不斷挖掘不同的可判別區域，最終組合得到完整的分割結果。第t次訓練迭代(一次迭代就是指的一次完整的訓練過程)，對于每張圖片都可以得到cam圖(類別激活圖)，將cam圖二值化然后蓋在原圖上，進行下一次迭代訓練，每次迭代都是學習一個不同的可判別區域，迭代結束條件就是分類性能不行了，因為可判別區域全部被蓋住了(由于該參數其實很難設置，故實驗直接取3)。最后的分割結果就是多次迭代的cam圖疊加起來即可。本文是cvpr2017的論文，放在現在來看，做法其實超級麻煩，現在而言肯定直接采用細粒度方法，采用特征擦除技術，端到端訓練，學習出所有可判別區域。應該不會比這種做法效果差，但是在當時還是不錯的思想。但是其也提供了一種思路：是否可以采用分類預測出來的cam，結合弱監督做法，把cam的輸出也引入某種監督，在提升分類性能的同時，提升可判別學習能力。

六.數據增強相關-mixup

論文名稱：mixup: BEYOND
EMPIRICAL RISK MINIMIZATION

論文地址：https://arxiv.org/abs/1710.09412

論文摘要

大型深層神經網絡功能強大，但表現出不受歡迎的行為，如記憶和對敵對例子的敏感性。在這項工作中，提出了mixup，一個簡單的學習原則來緩解這些問題。從本質上講，mixup訓練一個神經網絡，這是關于一對例子及其標簽的凸組合的。通過這樣做，mixup使神經網絡正則化，以利于訓練實例之間的簡單線性行為。在ImageNet-2012、CIFAR-10、CIFAR-100、Google命令和UCI數據集上的實驗表明，mixup改進了最先進的神經網絡體系結構的通用性。本文還發現，混合減少了對腐敗標簽的記憶，提高了對抗性例子的魯棒性，并穩定了生成性對抗性網絡的訓練。

mixup由于非常有名，想大家都應該知道，而且網上各種解答非常多，故這里就不重點說了。

其核心操作是：兩張圖片采用比例混合，label也需要混合。

論文中提到的一些關鍵的Insight：

1 也考慮過三個或者三個以上的標簽做混合，但是效果幾乎和兩個一樣，而且增加了mixup過程的時間。2 當前的mixup使用了一個單一的loader獲取minibatch，對其隨機打亂后，mixup對同一個minibatch內的數據做混合。這樣的策略和在整個數據集隨機打亂效果是一樣的，而且還減少了IO的開銷。3 在同種標簽的數據中使用mixup不會造成結果的顯著增強

七．數據增強相關-cutmix和Mosaic

論文名稱：CutMix:
Regularization Strategy to Train Strong Classifiers with Localizable Features

論文地址：https://arxiv.org/abs/1905.04899

開源地址：https://github.com/clovaai/CutMix-PyTorch

論文摘要

為了提高卷積神經網絡分類器的性能，提出了區域退學策略。事實證明，它們可以有效地引導模型關注對象中不易區分的部分（例如，腿而不是人頭），從而使網絡更好地進行泛化，并具有更好的對象定位能力。另一方面，當前的區域性丟失方法通過疊加一塊黑色像素或隨機噪聲來去除訓練圖像上的信息像素。這種刪除是不可取的，因為它會導致信息丟失和訓練效率低下。提出了CutMix增強策略：在訓練圖像中剪切和粘貼面片，其中地面真值標簽也與面片的面積成比例地混合。通過有效利用訓練像素和保持區域回歸的正則化效果，CutMix在CIFAR和ImageNet分類任務以及ImageNet弱監督定位任務中始終優于最新的增強策略。此外，與以前的增強方法不同，CutMix訓練的ImageNet分類器在用作預訓練模型時，在Pascal檢測和MS-COCO圖像字幕基準方面獲得了一致的性能增益。證明了CutMix提高了模型對輸入腐敗的魯棒性及其分布外檢測性能。

簡單來說cutmix相當于cutout+mixup的結合，可以應用于各種任務中。

mixup相當于是全圖融合，cutout僅僅對圖片進行增強，不改變label，而cutmix則是采用了cutout的局部融合思想，并且采用了mixup的混合label策略，看起來比較make sense。cutmix和mixup的區別是，其混合位置是采用hard 0-1掩碼，而不是soft操作,相當于新合成的兩張圖是來自兩張圖片的hard結合，而不是Mixup的線性組合。但是其label還是和mixup一樣是線性組合。作者認為mixup的缺點是：Mixup samples suffer from the fact that they are locally ambiguous

and unnatural, and therefore confuses the model, especially for localization。

M是和原圖大小一樣的矩陣，只有0-1值，用于控制線性混合度，通過參數可以控制裁剪矩形大小，

偽代碼如下：

而Mosaic增強是本文提出的，屬于cutmix的擴展，cutmix是兩張圖混合，而馬賽克增強是4張圖混合，好處非常明顯是一張圖相當于4張圖，等價于batch增加了，可以顯著減少訓練需要的batch size大小。

總結

以上是生活随笔為你收集整理的YOLOV4各个创新功能模块技术分析（二）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： YOLOV4各个创新功能模块技术分析（一
下一篇： YOLOV4各个创新功能模块技术分析（三