图像压缩之《Discernible Compressed Images via Deep Perception Consistency》

图像压缩之《Discernible Compressed Images via Deep Perception Consistency》_第1张图片

论文地址:https://arxiv.org/pdf/2002.06810.pdf

代码地址:暂未公布

摘要

传统的图像压缩方法都是通过最小化原图像与压缩图像之间的外观差异,而较少的去注意其在其他视觉任务上的功效,比如图像识别与目标检测。本文旨在通过要求外观和感知一致性来压缩图像,基于编解码架构,作者提出使用一个预训练的CNN模型来提取原图像和压缩图像的特征并使用最大均值差异来最小化两种特征之间分布的差异。这样可以使图像压缩模型保持较高的图像质量,同时在特征域保持感知一致性,如此可以提高图像识别和检测等领域的表现。

感知一致性图像压缩模型

本文方法的基本结构如下图所示;

图像压缩之《Discernible Compressed Images via Deep Perception Consistency》_第2张图片

作者使用一个训练好的网络作为感知来同时处理原图像与压缩图像,这样考虑到失真表现和感知一致性,其优化目标为:

图像压缩之《Discernible Compressed Images via Deep Perception Consistency》_第3张图片

其中lambda为平衡参数,F()为感知模型;

特征分布优化

优于感知模型会提取高维特征,直接最小化特征之间的差异很困难,所以作者使用最大均值差异(Maximun mean discrepancy, MMD)来监督压缩任务。MMD是通过在核空间中映射样本数据来描述两种分布的差异。

假设给定具有n张图像的数据集,图像特征X采样自分布p,特征Y采样自分布q,那么p与q之间的MMD距离的平方可以定义为:

 此函数可以进一步由核技巧进行拓展,如下所示:

图像压缩之《Discernible Compressed Images via Deep Perception Consistency》_第4张图片

 其中k()是用来将给定的数据映射至更高维度空间的核函数,它可以是线性核,高斯核等。

因为每个核都有衡量数据分布的函数,所以现实中决定哪一个函数最好是很难的,因此借用论文[1]中的策略,用核函数集来映射特征,其形式如下:

图像压缩之《Discernible Compressed Images via Deep Perception Consistency》_第5张图片

 所以结合MMD损失的图像压缩的总的损失函数如下:

图像压缩之《Discernible Compressed Images via Deep Perception Consistency》_第6张图片

 Alogrithm1描述了本文图像压缩算法的基本处理过程,其中以mini-batch为基础,其中训练时pre-trained网络参数固定不进行更新,其目的是作为正则项监督编解码网络以提高压缩效果:

图像压缩之《Discernible Compressed Images via Deep Perception Consistency》_第7张图片

实验表明该方法在压缩图像中的目标检测与目标识别等视觉任务的性能相对于JPEG压缩算法有所提升,但是在PSNR与MSSSIM指标上提升的不明显。

 

参考文献

[1] Mingsheng Long, Yue Cao, Jianmin Wang, and Michael Jordan. Learning transferable features with deep adaptation networks. In ICML, 2015.

你可能感兴趣的:(图像与视频压缩)