當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

端到端图像压缩《Asymmetric Gained Deep Image Compression With Continuous Rate Adaptation》

發(fā)布時間：2023/12/29 编程问答 33 豆豆

生活随笔收集整理的這篇文章主要介紹了端到端图像压缩《Asymmetric Gained Deep Image Compression With Continuous Rate Adaptation》小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

Asymmetric Gained Deep Image Compression With Continuous Rate Adaptation

一簡介
二內(nèi)容
- 2.1 目前方法的缺陷
- 2.2 整體方案
- 2.2 Gain Unit
- 2.3 連續(xù)可變速率模型
- 2.4 高斯熵模型
- 2.5 實驗補充說明
三性能結(jié)論

論文地址：https://openaccess.thecvf.com/content/CVPR2021/papers/Cui_Asymmetric_Gained_Deep_Image_Compression_With_Continuous_Rate_Adaptation_CVPR_2021_paper.pdf

代碼地址：https://github.com/mmSir/GainedVAE

華為可變速率文章，代碼非官方部署，一個小哥實現(xiàn)的，該文章僅供本人筆記用，如果問題歡迎討論。

一簡介

???????提出了一種連續(xù)速率可調(diào)的學(xué)習(xí)圖像壓縮框架，即非對稱增益變分自動編碼器（AGVAE）。 AG-VAE 利用一對增益單元在一個模型中實現(xiàn)離散速率自適應(yīng)，而額外的計算可以忽略不計。并且通過使用指數(shù)插值，在不影響性能的情況下實現(xiàn)連續(xù)速率自適應(yīng)。除此之外，部署了非對稱的熵模型提高模型的性能增益。

二內(nèi)容

2.1 目前方法的缺陷

???????在之前的圖像壓縮工作中，都是通過改變損失函數(shù)中的 $λ\lambda$ 超參數(shù)調(diào)整模型的碼率，這會導(dǎo)致無法將圖像壓縮至固定碼率點的情況，并且要為此訓(xùn)練多個模型，需要消耗大量的訓(xùn)練時間和存儲模型所需要的空間。為此，單個模型能夠覆蓋多個碼率的情形有很大的應(yīng)用需求。
???????在以往的可變速率技術(shù)方案中，基于RNN方案進行漸進式的圖像編碼，但是RD性能比較差，基于條件的conditional卷積網(wǎng)絡(luò)復(fù)雜度高并且占用內(nèi)存大，可變的量化bin size方式會導(dǎo)致性能的下降，此外對于BottleNeck層的尺度縮放方案在低碼率的情況下會掉性能。

???????在編解碼方案中，不同通道對最后的重建質(zhì)量的影響是不同的。作者探索基線方案中，被量化中的前32個通道信息對最后重建圖像質(zhì)量的影響，得出不同通道有不同重要性的結(jié)論，并且對通道進行scale的縮放，被量化后的潛在表示值乘以尺度縮放因子，得到潛在表示縮放后的重建質(zhì)量。

2.2 整體方案

???????整體方案還是和Google[1]的網(wǎng)絡(luò)一致，對比框架優(yōu)化了 Gain Unit 單元，擴展了自回歸模型中的Mask Convolution，從1個5x5和擴展成 3x3，5x5，7x7的網(wǎng)絡(luò)，并且文章中有優(yōu)化熵模型，從單高斯模型擴展到高斯分布的兩側(cè)采用不同方差的半邊高斯分布。

圖1.整體網(wǎng)絡(luò)框架圖

2.2 Gain Unit

???????標(biāo)記編碼器的輸出 $y∈Rc,h,wy\in R^{c,h,w}$ 即有c個通道（一般為192）w,h的寬高。 $yi∈Rh,wy_i\in R^{h,w}$ 則表示單個通道的潛在表示，其中 $i∈Ci\in C$ ，對應(yīng)的Gain Unit 單元是有一個矩陣 $\in R^{c,n}$ ，表示這個矩陣實際上是為每一個通道的潛在表示分配一個長度為 n 的向量， $ms∈m(s,0),m(s,1),m(s,2),...m(s,c?1)m_s \in { m_{(s,0)},m_{(s,1)},m_{(s,2)},...m_{(s,c-1)} }$ 。即每個 $m_s$ 是一個長度為n的向量，對于每個通道的操作表示如下： $y￣=yi×ms,i\overline{y}=y_{i} \times m_{s,i}$ 這里就是關(guān)于 Gain Unit的說明，每一個通道上的潛在表示都會乘以對應(yīng)向量中的某個值，下面介紹基于Gain Unit的離散可變速率框架：

???????編碼器的輸出 $y$ 經(jīng)過Unit Gain單元進行處理縮放之后，得到 $y￣\overline{y}$ ，并且需要經(jīng)過量化，得到量化后的潛在表示 $y^=round(y￣)\hat{y}=round(\overline{y})$ ，解碼端會同樣部署Inverce-Unit Gain，從熵解碼器中得到 $y^\hat{y}$ ，然后進行對應(yīng)擬變換得到 $y′=InverseGain(yi^×ms,i′)y^{'}=Inverse Gain(\hat{y_i}\times m^{'} _{s,i})$ 。

???????整體框架的損失函數(shù)優(yōu)化主流的損失函數(shù)基本保持一致：

其中， $RφR_{\varphi}$ 項表示碼率， $D$ 表示失真， $βs\beta_s$ 表示訓(xùn)練模型中，失真和碼率的權(quán)衡， $βs\beta_s$ 越大，則表示模型越注重重建圖像的質(zhì)量， $βs\beta_s$ 是從一組預(yù)定好的參數(shù)集中選取的。有 $βs∈B\beta_s \in B$ ，其中B的長度為n，定義好了一系列的權(quán)重值。此外，可以發(fā)現(xiàn)， $βs\beta_s$ 的長度為n，而對于每一個Unit Gain 矩陣，每一個通道的scale向量的長度也是n。不同與之前的模型，每一個模型的訓(xùn)練 $βs\beta_s$ 為預(yù)定的單個數(shù)值，而此處的 $βs\beta_s$ 在訓(xùn)練中從 B 的預(yù)定義池中隨機選取的，并且在選取 $βs\beta_s$ 后，得到對應(yīng)的 ${m_s, m^{'}_s}$ 。

???????在推理階段，可以訓(xùn)練的Unit Gain 矩陣中獲取到有映射關(guān)系的 ${m_s, m^{'}_s}$ 對潛在表示 $y$ 和 $y^\hat{y}$ 進行縮放，得到對應(yīng)幾個離散情況下的離散點，如下圖所示，訓(xùn)練了基于mse loss和(1-msssim) loss的兩個模型。并且通過修改Gain Unit矩陣中的對應(yīng) ${m_s, m^{'}_s}$ 向量，得到的離散RD曲線，離散的模型記為DVR模型。

2.3 連續(xù)可變速率模型

本文通過了采用不同的 ${m_s, m^{'}_s}$ 矢量對完成單模型多碼率的模型設(shè)置，與此同時，可以對 ${m_s, m^{'}_s}$ 和 ${m_{s-1}, m^{'}_{s-1}}$ 進行差值完成連續(xù)可變速率的實現(xiàn)。為了確保不同的 ${m_s, m^{'}_s}$ 之間的對于潛在表示 $y$ 和 $y^\hat{y}$ 的縮放結(jié)果是一致的，對不同的 ${m_s, m^{'}_s}$ 有以下約束：
${m_s*m^{'}_s}={m_t*m^{'}_t}=C$
${m_s, m^{'}_s}$ 和 ${m_t, m^{'}_t}$ （ $r,t∈[0,1,...n?1]r,t\in [0,1,...n-1]$ ）表示不同的增益矢量單元對應(yīng)在不同的 $βs\beta_s$ 和 $βt\beta_t$ 。有以下公式：

此處 ${m_v, m^{'}_v}$ 表示 ${m_r, m^{'}_r}$ 和 ${m_t m^{'}_t}$ 之間的差值系數(shù)，通過控制參數(shù) $l$ 來表示 ${m_v, m^{'}_v}$ 的取值情況，當(dāng) $l$ 從0取到1時，模型能夠取到兩個離散點 ${m_r, m^{'}_r}$ 和 ${m_t m^{'}_t}$ 之間所有的連續(xù)的碼率點，從而實現(xiàn)連續(xù)可變速率的目的。結(jié)果如下圖所示：

可以從上圖看出，插值后的模型RD性能基本無損甚至比擬合的曲線RD性能更高。

2.4 高斯熵模型

???????在之前的工作中，文章大致采用了三種概率密度函數(shù)對參數(shù)進行建模：單高斯概率密度函數(shù)，混合高斯概率密度函數(shù)，單拉普拉斯概率密度函數(shù)。其中單高斯概率密度函數(shù)表達如下：

$μ\mu$ 和 $σ\sigma$ 表示概率密度函數(shù)的均值和方差，上述對稱的方式對于建模的精準(zhǔn)度不夠高，不夠freedom ，因此使用一種非對稱的熵模型，具體如下：

公式中， $μ\mu$ 還是表示原來的含義，但是對于均值左右兩側(cè)的方差采用非對稱的形式，即左邊和右邊采用不同的方差， $σl和σr\sigma_l和\sigma_r$ 則分別表示兩側(cè)的方差參數(shù)。

2.5 實驗補充說明

在實驗中，對應(yīng)訓(xùn)練msssim的模型使用的 $B_{msssim}={\{0.07,0.03,0.007,0.003,0.001,0.0006\}}$ 六個數(shù)值，和訓(xùn)練psnr指標(biāo)的模型 $B_{mse}={\{0.05,0.03,0.007,0.003,0.001,0.0003\}}$ ，以訓(xùn)練psnr模型為例，在訓(xùn)練的每個batch，會隨機生成一個索引值 $s∈{0,1,2,3,4,5}s\in{\{0,1,2,3,4,5\}}$ ,對應(yīng)能夠取到 $B_{mse}={\{0.05,0.03,0.007,0.003,0.001,0.0003\}}$ 中的對應(yīng)值，與此同時為整個Unit Gain單元初始化一個長度矩陣 $M [6] [192]$ 的矩陣，同樣Inverce Gain也會有一個同樣的矩陣，上面的 $m_s$ 就是表示，對應(yīng)可以通過s索引得到 $m_s=M[s][:]$ ，在訓(xùn)練開始前，可以把 $M$ 矩陣初始化為常量，在每個batch的迭代中，從M矩陣中提取的 $m_s$ 都會被更新，并且保存。

三性能結(jié)論

整體的性能是基于圖一框架以及對應(yīng)的使用非對稱熵模型得到的，除此之外，還使用了 $論文^{1}$ 中的attention機制和 $論文^{2}$ 中Universal量化技術(shù)和 $論文^{3}$ 中采用的并行上下文技術(shù)，整體性能展示如下：

Yulun Zhang, Kunpeng Li, Kai Li, Bineng Zhong, and YunFu. Residual nonlocal attention networks for image restora-tion.ICLR, 2019.

Jacob Ziv. On universal quantization.IEEE Transactions onInformation Theory, 1985.3,5,6

Aaron Van Den Oord, Nal Kalchbrenner, Oriol Vinyals,Lasse Espeholt, Alex Graves, and Koray Kavukcuoglu. Con-ditional image generation with pixelcnn decoders.NIPS,2016.3,5,6

總結(jié)

以上是生活随笔為你收集整理的端到端图像压缩《Asymmetric Gained Deep Image Compression With Continuous Rate Adaptation》的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： 10款js图片代码_图片滚动代码_图片切
下一篇： iapp教程从入门到精通全部,小白用的i