来源:投稿 作者:小灰灰
编辑:学姐
论文标题: VARIABLE BITRATE IMAGE COMPRESSION WITH QUALITY SCALING FACTORS
最近,学习图像压缩出现了显著的编码效率提高,甚至比最先进的传统编解码器有了很大的改善。同时,大多数现有方法需要针对不同的比特率目标训练单独的模型。在本文中,我们提出将一组质量比例因子嵌入到学习的图像压缩网络中
,通过该网络,我们可以使用单个模型在整个比特率范围内对图像进行编码
。
该解决方案提供了与需要多个比特率相关模型的方法相同的性能
,并显著降低了实际实现的复杂性
。我们的工作还展示了各种压缩网络结构、图像内容和训练损失函数的泛化。
几十年来,人们对图像压缩进行了广泛的研究,产生了许多著名的标准,如JPEG、JPEG2000、WebP、BPG
(也称为高效视频编码的内部配置文件)等。最近,受深度学习成功的启发,出现了基于学习的图像压缩,提供与传统方案相比具有竞争力甚至更优的性能。图像压缩中的许多组件(例如量化、熵编码、变换、损失函数等)已从手工实现有效地替换为完全学习的方法。然而,由于高时空复杂度要求(例如,不可持续的计算负担和内存消耗),它们仍然远未成为大规模部署的实用编解码器。在设计学习网络时,为了考虑这些实际实现问题,已经进行了一些探索,例如整数网络结构,以缓解硬件平台之间的浮动变化。
另一方面,率失真优化(RDO)
是有损图像压缩的关键组成部分。可以将其描述为R+λD
的优化。其中D
是由峰值信噪比(PSNR)
或MS-SSIM[8](多尺度结构相似性)
测量的失真,R
是比特率,λ
是控制R
和D
之间权衡的超参数。为了实现最佳率失真(RD)性能
,大多数基于学习的方法需要针对单个比特率目标重新训练单独的模型,这在时间和空间上都是低效的。一些早期尝试是为了避免不同策略的多个模型,但这些方法要么过于复杂,无法实际应用,要么需要独特的网络结构。
超参数λ
是RDO
中在不同比特率预算下控制失真的唯一因素,我们还受到H.264/AVC
和JPEG
中引入的量化缩放机制的激励。考虑到卷积(conv)
操作可以被视为替代变换,特征映射(fmap)
可以在不同预算下适当缩放,而无需重新训练。如下文所示,实验结果通过可视化FMAP
验证了我们的假设,FMAP
在不同比特率下表现出相似的模式。因此,我们引入了一组质量比例因子,可以轻松嵌入到压缩框架中,而无需重新训练整个网络。使]
中最新的最先进的学习图像压缩方法和不同的质量损失函数(例如,峰值信噪比和MS-SSIM)进行了实验,证明了我们的方法在实际应用中的通用性和高效性。
1)色彩空间转换
(Color Space Conversion"),将RGB转换为YUV色彩空间,YUV的数据更好处理
2)色度缩减采样
(Chromenance Downsampling),将蓝红色度层的“分辨率”变小,因为人眼对颜色不敏感
3)离散余弦变换
(Discrete Cosine Transform),找出人眼不敏感的高频信息
4)量化
(Quantization),删除人眼不敏感的高频信息
5)霍夫曼编码
(Run-length Encoding & Huffman Encoding),通用数据压缩
现有的基于学习的方法通常在RDO
中使用不同的λ
,以在不同的比特率目标下获得最佳性能。然而,如何在不同λ下训练参数仍然没有得到很好的探索。为了解决这个问题,我们首先在高比特率下训练了一个与[1]类似的简单VAE
网络,然后重新训练该网络以获得不同但较低比特率的多个模型。
图1
然后,我们在上图中绘制潜在特征的FMAP
,用于可视化,其中分别显示通道59、100和165处的FMAP
,以及比特率为0.18
位/像素(bpp)、0.39
位/像素和0.67
位/像素的FMAP。一个有趣的观察结果是,在不同比特率的特定信道上,FMAP
保留了类似但缩放的模式,从而得出了一个合理的结论,即我们可以在识别卷积后应用缩放,而无需完全的重新训练。因此,在这项工作中,我们提出将比例因子嵌入到网络中,同时保持模型参数(例如,conv核
)始终固定。
由于堆叠卷积可被视为连续的变换形式,其输出即变换系数将量化并进行熵编码以产生二进制字符串。与量化缩放类似,我们设计了一组质量缩放因子(SF),并将其对应的反向函数放入编码器-解码器对中,如图1所示。注意,这些SF
和ISF函数
在各种比特率下训练,随后用于使用固定的模型参数控制比特率。
关注下方《学姐带你玩AI》
回复“500”获取AI必读高分论文合集
码字不易,欢迎大家点赞评论收藏!