日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ICME2021:基于机器视觉的RD模型

發布時間:2023/12/14 编程问答 22 豆豆
生活随笔 收集整理的這篇文章主要介紹了 ICME2021:基于机器视觉的RD模型 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文來自ICME2021論文《Visual Analysis Motivated Rate-Distortion Model for Image Coding》

本文針對VVC幀內編碼提出了一個面向視覺分析的RD模型,該模型包括碼率控制策略和失真度量模型。首先提出了針對機器的ROI(ROIM)來度量不同CTU在視覺分析中的重要性。然后提出了基于ROIM和局部紋理特征的CTU級碼率分配模型。提出多尺度特征失真(multi-scale feature distortion ?,MSFD)來度量CU的失真。實驗顯示在同樣視覺分析(例如圖像分類、目標檢測和語義分割)質量下本文方法可節省28.17%的碼率。

深度學習算法在處理機器視覺任務時能達到很好的效果,例如對于圖像分類問題ResNet-50的top-5準確率能達到97%,但輸入圖像往往是未壓縮或壓縮質量很高的。實驗顯示當圖像編碼碼率較低時視覺分析效果會急劇下降。如Fig.1,當bpp為0.1時top-5準確率僅為68%。這個現象揭示了現有的編碼算法在處理機器視覺認為時不夠高效,尤其是低碼率情況下。

本文為VVC幀內預測提出了面向視覺分析的RDO模型,整個模型框架如Fig.2所示。

碼率分配策略

ROIM生成

VTM中碼率分配的基本單元是CTU,為了保持一致本文的ROIM基本單元也是CTU。ROIM會生成每個CTU在視覺處理任務中的重要性。ROIM模型包括兩個部分:Mi和Mc。Mi揭示了每個CTU的重要性,Mc相鄰CTU的連通性。ROIM模型是基于預訓練的RPN的,RPN會生成一系列bounding box(非極大抑制之前,NMS)稱為B。第k個CTU的重要性計算方式如下:

S_C表示CTU集,函數f(A)表示區域A的像素數。

相鄰CTU的連通性計算如下:

L(i,j)表示CTUi和CTUj相鄰邊的長度,A(i,j)表示CTUi和CTUj相鄰邊在bounding box中的長度,如Fig.3所示。

碼率分配

在VTM中,CTU級碼率分配是基于紋理信息的,對于第i個CTU目標碼率計算如下,

基于視覺分析任務和局部紋理信息,本文提出新的碼率分配方法,

QP限制

在VTM中QP估計過程和RDO過程相互獨立,因此為了保持重建圖像的一致性需要對CTU的QP進行限制,QP估計過程需要滿足公式(6)和(7),

其中QP_pic是整幀圖像的QP,QP_cu是已編碼CTU的平均QP。但是QP估計帶來的塊效應會影響視覺分析任務,因此本文基于相鄰CTU的連通性提出了新的QP限制策略,首先尋找CTUk來限制CTUi,

最終CTU的QP計算方式如公式(10),

RDO

本文提出了基于CNN進行特征提取的RDO模型。其中特征相似性的計算方式如下,

其中RecF和OriF分別代表從重建圖像和原始圖像中提取的特征。

失真度量

測試了4個CNN模型在語義分割任務上的特征失真,包括ResNet18、ResNet34、VGG-11和VGG-16(都不帶最后的池化層和全連接層)。這些模型在ImageNet數據集上預訓練,并從COCO-2014數據集上隨機選擇100幅圖像驗證模型速度和效果。效果用置信度為0.5時的mAP評價(mAP@50),速度以VGG-11為基準,結果如表1。最終選擇VGG-11作為特征提取器。

多尺度特征失真

由于編碼器進行塊劃分后會產生很多小塊,這些小塊很難提取出有效特征。為了解決在計算CU失真時缺少上下文信息的問題,本文利用多尺度窗口從已編碼CU中提取一系列上下文信息。本方法利用左側和上方重建像素作為參考。

Fig.4是多尺度特征失真MSFD框架。公式(11)中FDi是重建CU和原始CU特征的余弦距離。

多尺度窗口可以增加小尺寸CU的上下文信息,但是對于極小的塊(如4x4)還是難以提取有效特征,所以對于長或寬小于16的塊使用余弦距離的最大值來估計FD。但是這種近似處理會引入像素級失真,為了平衡重建區域質量在失真度量時加入MSE,

實驗結果

視覺分析任務和數據集

為了驗證本文方法的泛化性能,選擇了3種視覺任務:圖像分類、目標檢測和語義分割。對于圖像分類任務,從ImageNet數據集中選擇1000個圖像并使用VGG-19模型作為分類網絡測試top-1和top-5準確率。對于目標檢測,從VOC-2007中隨機選擇1000個圖像,使用YOLOv3測試mAP@50。對于語義分割,從COCO-2014中隨機選擇1000個圖像,使用mask RCNN并測試mAP@50。

配置和實驗

實驗平臺為VTM10.1。QP={40,42,44,46}。配置為All intra。對于模型超參數,公式(5)中alpha=10000,Fig.4中?d ?=8,多尺度窗口設為3,權重wi分別為{4,2,1}。VTM10.1作為anchor。

實驗分析

如Fig.5所示,本文方法在各種視覺處理任務中效果都更優。

BD-Rate結果如表2所示,其中計算BD-Rate時失真計算采用的是分類準確率和mAP@50。

感興趣的請關注微信公眾號Video Coding

總結

以上是生活随笔為你收集整理的ICME2021:基于机器视觉的RD模型的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。