【点云压缩】Variational Image Compression with A Scale Hyperprior

Variational Image Compression with A Scale Hyperprior

本文给出了压缩的一种较为新的方法:利用超先验的知识。超先验是”先验的先验”。

Intro

本文给出了边信息(Side information)的定义:边信息是从编码器流向解码器额外的比特流,该信息向熵模型进行了信号修改,从而减少了不匹配(additional bits of information sent from the encoder to the decoder, which signal modifications to the entropy model intended to reduce the mismatch)。因此,这种边信息被视为熵模型参数的先验,而边信息更成为了隐藏表征的“先验的先验”了。

Ideas

Background

基于变换的模型

变换的编码(Transform coding)现在在深度学习上是热门的。输入图像的向量的 x x x可以使用一个参数化的变换,变成:

y = g a ( x ; ϕ g ) y=g_a(x;\phi_g) y=ga(x;ϕg)

这里的 y y y是潜在的特征; ϕ g \phi_g ϕg是变换器(编码器)的参数;这个过程就叫做Parametric Analysis过程。而注意的是,这里的 y y y需要经过量化之后才能熵编码(量化为离散的值,使其可以被无损地熵编码)。假定量化后的潜在特征为 y ^ \hat y y^,则重建所使用变换,使得:

x ^ = g s ( y ^ ; θ g ) \hat x = g_{s}\left(\hat{{y}} ; {\theta}_{g}\right) x^=gs(y^;θg)

其中,这个过程叫Parametric Synthesis过程(这里同样等效地看成解码器)。 θ g {\theta}_{g} θg是解码器的参数。

VAE

变分自编码器(Variational Autoencoder, VAE)相较于AE,它把输入映射到一个分布中(这个分布通常是Gussian)而不是一个具体的向量,如上一小节介绍的基于变换的模型中的 y y y。在VAE中,他利用“推断模型”(Inference Model)推出在图像的概率源中的潜在表示(“inferring” the latent representation from the source image),用“生成模型”(Generative model)生成概率从而得到重建图像。

更具体的请参照[1]。但是请注意,在本文中,我们使用 z z z来表达超先验信息而并非潜在分布。请注意区分。

Model

如图2所示,利用先验知识得到的潜在表征 y y y(图2的左数第二张图)是有结构性依赖的(空间耦合性),而这是不能被变分模型的全分解所捕获的。于是,将采用超先验的方式进行建模。

【点云压缩】Variational Image Compression with A Scale Hyperprior_第1张图片

所谓的超先验就是先验的先验。因此,再建立了一个潜在表征 y y y的潜在表征 z z z,以求捕获这种空间依赖性。值得一提的是,这里的 z z z便是边信息( z z z is then quantized, compressed, and transmitted as side information)。捕捉到潜在表征 z z z之后,用其量化后的 z ^ \hat z z^来估算 σ ^ \hat \sigma σ^。这个 σ ^ \hat \sigma σ^将会被用于在解码器端重建 y ^ \hat y y^,以获得 x ^ \hat x x^

【点云压缩】Variational Image Compression with A Scale Hyperprior_第2张图片

Reference

[1] https://libertydream.github.io/2020/07/26/从Autoencoder到beta-VAE/# VAE:变分自编码器

你可能感兴趣的:(点云阅读笔记,深度学习,机器学习,计算机视觉)