深度学习图像压缩:End-to-end Optimized Image Compression 笔记


本系列文章由@邻居张师傅 出品,转载请注明出处。

文章链接: https://blog.csdn.net/qq_39120048/article/details/117753592

邮箱: [email protected]


目录

  • ABSTRACT
  • 1 INTRODUCTION
  • 2 CHOICE OF FORWARD, INVERSE, AND PERCEPTUAL TRANSFORMS


论文地址:End-to-end Optimized Image Compression


ABSTRACT

本文描述了一种图像压缩方法,包括非线性分析变换、均匀量化器和非线性合成变换。
这些变换是在卷积线性滤波器和非线性激活函数的三个连续阶段中构造的。


1 INTRODUCTION

数据压缩常被规划成一个目标:为给定的离散数据集合设计编码以最小化熵
传统数据压缩严重依赖于数据的概率结构的知识,因此该问题与概率源建模密切相关。
连续值的数据(例如图像像素强度的向量)必须被量化为有限的离散值集合,这会引入误差
有损压缩问题(lossy compression problem)需要权衡取舍两个相互竞争的成本:rate(离散化表示的熵,比特率) 和 distortion(量化产生的误差)

速率和失真的联合优化是困难的。
没有进一步的约束,高维空间中最优量化的一般问题是难以解决的。
大多数现有的图像压缩方法通过将数据向量线性变换成合适的连续值表示,独立量化其元素,然后使用无损熵编码对所得的离散表示进行编码来操作
这种方案叫做转换编码(transform coding)

深度学习图像压缩:End-to-end Optimized Image Compression 笔记_第1张图片
根据一组图像上的 R 和 D 的加权和 R + λD 来优化了参数向量 φ 和 θ

对于率失真曲线上的任何期望点,分析和合成变换的参数都使用随机梯度下降来联合优化。
为了在量化(几乎在任何地方都产生零梯度导致反向传播无法进行)的情况下实现这一点,我们使用基于概率模型的连续松弛的代理损失函数(?),用加性均匀噪声(-0.5 至 0.5)代替量化步长。

2 CHOICE OF FORWARD, INVERSE, AND PERCEPTUAL TRANSFORMS

批量归一化(batch normalization)一旦训练完成,缩放参数通常是固定的,这就将归一化转化为数据的仿射变换
而GDN是空间自适应的,并且可能是高度非线性的

深度学习图像压缩:End-to-end Optimized Image Compression 笔记_第2张图片
深度学习图像压缩:End-to-end Optimized Image Compression 笔记_第3张图片

截自 Variational image compression with a scale hyperprior ,未引入hyperior

你可能感兴趣的:(点云压缩,论文笔记,深度学习,人工智能,机器学习)