【图像压缩】CLIC2021 Winner 《Perceptual Learned Image Compression With Continuous Rate Adaptation》

updating......

【图像压缩】CLIC2021 Winner 《Perceptual Learned Image Compression With Continuous Rate Adaptation》_第1张图片

CLIC2021 Image赛道获胜者

1 绪论

本文提出了一种感知学习图像压缩框架,使用率失真、感知和对抗损失用端到端的方式训练网络。为了有效给不同图像区域分配比特数,在可变比特率自适应框架中提出了感兴趣区域(ROI)技术。本文还研究了低比特率(0.075 bpp)下的训练稳定性以及 E2E 优化框架相对于后处理框架的优越性。本文提出的框架在宽比特范围上获得了很好的重建效果。

2 提出的方法

2.1 网络结构

【图像压缩】CLIC2021 Winner 《Perceptual Learned Image Compression With Continuous Rate Adaptation》_第2张图片

【图像压缩】CLIC2021 Winner 《Perceptual Learned Image Compression With Continuous Rate Adaptation》_第3张图片

框架包括编码器、生成器和熵模型,熵模型包括超编码器、超解码器、上下文模块和收集模块。对抗训练框架,判别器结构设计如图3。

2.1.1 自编码器

在编码器与生成器中,GDN被用来归一化中间特征和增加非线性。使用Cheng提出的注意力模块提升编码器与生成器的容量,生成器容量的增加导致更好的性能。

2.1.2 熵模型

使用超先验模型,提取边信息z建模隐层变量y,使用均匀噪声U(-\frac{1}{2}, \frac{1}{2})模拟量化。将\hat{z}的概率估计建模为全分解密度模型,\hat{y}被建模为非对称高斯模型[1]。非对称熵模型有足够自由度且当\hat{y}有非对称分布的时候起估计误差很小。该估计可以公式化为:

p(\hat{y}) \sim N(\mu, \sigma_l^2, \sigma_r^2)

其中\sigma_l^2, \sigma_r^2代表非对称高斯分布的左右尺度参数。所有参数\mu, \sigma_l^2, \sigma_r ^2都是可训练的,增加了计算复杂度,因为收集模块的输出通道数增加了。

2.1.3 连续比特率适应

为实现在一个模型中实现灵活比特率适应,在编码器和生成器中添加了一对增益单元[1]。增益单元对用于重新调整 y 。 然后对重新缩放的 y 进行量化。 增益单元可以控制量化过程中的信息丢失,从而控制比特率。 增益单元由增益矩阵M\in R^{c\times n}组成,其中 c 是 y 的通道数,n 是增益向量的数量。 每个增益向量对应一个比特率。在实验中,总是将 n 设置为 3。 在增益单元对被训练后,可以通过增益向量之间的指数插值来实现连续速率自适应,而不会影响性能。

2.1.4 判别器

采用对抗训练以充分利用生成器的生成能力。使用ESRGAN中的判别器,平均相对判别器预测一个真实图像比假图像更逼真的概率。判别器损失定义如下:

L_D^{R_a} = -E_{x_r}[log(D_{R_a}(x_r, x_f))] - E_{x_f}[log(1-D_{R_a}(x_f, x_r))]

生成器对抗损失对称定义如下:

L_G^{R_a} = -E_{x_r}[1-log(D_{R_a}(x_f, x_r))] - E_{x_f}[log(D_{R_a}(x_r, x_f))]

使用PatchGAN判别器的思想增强判别器,D_{R_a}的输出是一个矩阵而非单个的值,矩阵中每个值对应于一个图像块在判别器中的输出。判别器试图判别每个图像块的真假且在图像块的尺度上惩罚结构。PatchGAN不仅可以再训练更多的纹理,而且参数更少,可以应用于任意大的图像。判别器结构如图3。

优化

我们框架的优化目标包括四部分:比特率、失真、感知和对抗损失。失真损失使用L1损失,因为相比于MSE它对于大差别惩罚更少;感知损失使用LPIPS而不是VGG损失,因为它能减少伪影。对抗损失使用平均相对损失见2.1.4。总目标函数公式化如下:

L_{total} = \alpha \times L_{rate} + \lambda_1 \times L_{L1} + \lambda_2 \times L_{LPIPS} + \lambda_3 \times L_{GAN}

针对不同比特率训练的时候,保持\lambda_S不变调整\alpha

单张图像的最优比特分配

【图像压缩】CLIC2021 Winner 《Perceptual Learned Image Compression With Continuous Rate Adaptation》_第4张图片

提出最优比特分配技术,在感兴趣区域(ROI)分配更多的比特,在背景区域分配更少的比特。ROI区域可以手动选择或者使用分割框架。这项技术可以很容易地整合到我们地框架,因为我们框架使用增益单元实现单模型的连续比特率控制。在图像x和隐层变量y之间存在空间相关性,这意味着,只要获得ROI,就可以通过增益单元减少对应的y来为背景分配更少的比特,反之亦然。通过这项技术,可以减少比特花费同时保持图像质量或者只增加少许比特就提升图像质量。ROI技术作用如图4所示。

实验

训练细节:

【图像压缩】CLIC2021 Winner 《Perceptual Learned Image Compression With Continuous Rate Adaptation》_第5张图片

低比特率时稳定性

同时使用GAN和E2E优化图像压缩在低比特率时非常具有挑战性,因为用于图像重建的信息很少。如果仍然使用和中高目标比特率时相同的损失权重训练过程将不稳定且会出现伪影。我们有三种方法稳定训练:

1)提高L1损失项的权重。L1损失项与对抗损失相反,L1损失使重建图像与原始图像逐像素相似,而对抗损失帮助重建图像更逼真和随机。因此,L1项的增加使得训练更稳定。在我们的训练中,增加权重从0.01到0.04。

2)在每个转置卷积之后添加均匀池化操作。最普遍的伪影是棋盘伪影,众所周知非单位步幅的转置卷积会导致棋盘伪影,[2]在每个转置卷积后面添加均匀池化操作避免伪影,但池化操作会平滑图像与中间特征表示,在中高比特率时,去除池化操作。

3)使用可变比特率模型实现低比特率。可变比特率模型的一个优点是解码端处理低、高比特信息。实验显示,不同比特率混合训练可以提高最低比特率时的表现。

相比后处理框架的优越性

我们的感知图像压缩框架是端到端优化的。因为所有模型是联合优化的,感知损失也可以指导量化过程中y的信息损失。CLIC2020获胜者基于VTM的后处理图像增强方法只能使用固定信息,因此限制了深度神经网络的生成能力。比较结果如图1,我们的方法道路纹理更逼真,因为VTM重建图片丢失了道路细节,因此道路纹理增强是很困难的。

【图像压缩】CLIC2021 Winner 《Perceptual Learned Image Compression With Continuous Rate Adaptation》_第6张图片

定性定量结果

定性结果如图5,低比特率结果也能很好,逼真无伪影。

【图像压缩】CLIC2021 Winner 《Perceptual Learned Image Compression With Continuous Rate Adaptation》_第7张图片

定量结果如表1。

【图像压缩】CLIC2021 Winner 《Perceptual Learned Image Compression With Continuous Rate Adaptation》_第8张图片

[1]Ze Cui, Jing Wang, Shangyin Gao, Tiansheng Guo, Yihui Feng, and Bo Bai. Asymmetric gained deep image compression with continuous rate adaptation. CVPR, 2021

[2]Yusuke Sugawara, Sayaka Shiota, and Hitoshi Kiya. Super- resolution using convolutional neural networks without any checkerboard artifacts.

你可能感兴趣的:(图像压缩,视听觉处理,图像压缩,CLIC2021,对抗训练,低比特率,可变比特率模型)