一种能击败 MPEG-4 的视频压缩编码器

文章目录

    • 背景
    • 基线编解码器(MB)
    • 带残差编码的视频编解码器
    • 实验
      • 实验一
      • 实验二
    • 总结
    • 参考

背景

由于人们每天对视频的数量需求巨大且分辨率在不断提高,这使得视频压缩仍然是一个非常热门的话题。现有的流行的视频压缩算法,如 MPEG 和 H.26x 族,都是通过计算像素块的运动来估计这些块在附近帧中的外观。除了估计位移外,还存储量重建误差的近似值。

除了通用的视频压缩算法,还有使用 基于模型的编码方案 的视频压缩编解码器。这些方案背后的思想一般是独立于当前的压缩背景的,与标准的视频压缩算法有着根本的不同,也具有这不同的优缺点。

在文中,提出了一种基于模型的视频压缩编解码器,它结合了来自明显不相关的领域中的三种最先进的算法,即 3D姿态跟踪、基于 PDE 的图像压缩 和 静电半色调。它们的组合使得击败 MPEG-1 甚至是 MPEG-4 都有可能。与许多其它的基于模型的编码算法相比,该算法不是专门针对人脸或是其它特定对象的,因此适用于不同类型的视频。

基线编解码器(MB)

算法的概述:

  1. 跟踪视频中的移动对象
  2. 利用跟踪结果估计目标模型中每个顶点的颜色
  3. 如果有需要的话,对背景进行重构和压缩
  4. 使用通用熵编码器 PAQ 对所有数据进行保存和压缩

为了重建视频的一帧,该模型简单地使用编码时跟踪的姿势投影到加载的背景图像上。作者用 MB 表示这种基于模型的编码器。

对于编解码器的第一步,这里使用了 3D 姿态跟踪算法,因为它报告了 HumanEva-Ⅱ 基准中最好的跟踪结果之一。

带残差编码的视频编解码器

这里对增强编码器(MB + DH)是对上述基线编码器(MB)的扩展。通过对基线编码器(MB)进行扩展,对残差图像进行了编码,还镜这些残差图像存储为一组像素,让其在这些像素之间进行均匀扩散修复。

线性扩散方程的稳态计算方程:一种能击败 MPEG-4 的视频压缩编码器_第1张图片

从灰值视频的第一帧开始,当使用均匀扩散对视频进行涂装时,差值点应该根据平滑图像的拉普拉斯算子的大小来分布。

之后我们便可以使用 抖动算法(dithering algorithm)来进行涂装。
一种能击败 MPEG-4 的视频压缩编码器_第2张图片

下图显示了两个具有代表性的结果,使用了 Floyd-Steinberg 算法进行抖动,并比较了四种不同的抖动算法的性能。
一种能击败 MPEG-4 的视频压缩编码器_第3张图片
这些实验使用了 500 个 掩模点,撇开图像和预平滑量不谈,发现一种静电半色调算法的性能最好。因此作者在编解码器中选择了这个算法。

静电半色调算法背后的基本思想是将黑点建模为带负电荷的粒子,把像素当作是带正电荷的。因此,根据物理“同性相斥,异性相吸”的原理,粒子之间会相互排斥,但会被响应的图像区域所吸引。

u(x)∈[0,1] 表示位置 x 的灰色值。那么,像素 x 的电荷等于 1−u(x)。当粒子的正负电荷总量相等时(稳态),粒子就会被自动绑定到相应的图像域。最后得到的半色调结果就是该粒子系统的稳态。

将作用在每个粒子上的所有力相加,就得到了更新方程:
一种能击败 MPEG-4 的视频压缩编码器_第4张图片

一种能击败 MPEG-4 的视频压缩编码器_第5张图片

实验

为了验证 增强编码器(MB + DH)的性能,作者将其与 MPEG-1 和 MPEG-4 进行了比较

实验一

第一个实验编码了 HumanEva-II 跟踪基准的序列 S4。

下图是文中的 MB 编解码器 与 MPEG-1 和 MPEG-4 使用 HumanEva-II 序列 S4。实验中,增强编解码器(MB + DH)以每帧 400 点的结果显示为比较。下图对应显示的是第500帧。
一种能击败 MPEG-4 的视频压缩编码器_第6张图片

下图是上图的放大图。可以看到,基线编解码器(MB)和增强编解码器(MB + DH)在物体和背景区域有明显的边界,但简单的模型着色算法还远远不够完美。在算法 MB+DH 加上 400 个额外的点,试图减少这个问题,更好的结果如图所示。
一种能击败 MPEG-4 的视频压缩编码器_第7张图片
我们可以看到 MB 编解码器创建了清晰的边界,而 MPEG-1 以及 MPEG- 4 产生了块状的结果。由于 MB 中简单的模型着色方法的性能相当差,通过附加存储信息改进了这一点,达到了更优的效果。不过,更精确对象模型的表示应该会显著提高算法的性能。

实验二

该实验使用 “Cart” 序列让 基线编解码器(MB)与 MPEG-1 和 MPEG-4 进行比较。MB 编解码器 忽略了 360 帧中的损坏,而 MPEG-1 和 MPEG-4 编码了原始帧。
一种能击败 MPEG-4 的视频压缩编码器_第8张图片

  • 可以看到,该图片背景所带来的噪声非常大,它恶化了基于扩散的图像压缩方法的结果。

  • 此外,对象模型往往不能代表图中人物执行的复杂运动,例如由于肌肉收缩或关节角度缺失。

  • 还有,脚的下侧在许多帧中都是可见的。由于脚不包括在物体模型中,人是部分从图像中看到的,这导致了错误的颜色。

  • 最后,该序列比 HumanEva-II 序列短,导致对象模型和背景开销较大。

由于这些原因,对于这个序列,MB 算法比 MPEG-4 算法差。然而,MB 算法仍然在大多数帧中击败了 MPEG-1。

总结

文中的解压缩编码器显示了很好的结果,可以击败 MPEG-1 ,甚至是 MPEG-4。如果能更准确的估计或是提前知道运动前景的外观时, 增强编码器 的性能会显著提高

参考

  • Video Compression with 3-D Pose Tracking, PDE-based Image Coding, and Electrostatic Halftoning

你可能感兴趣的:(数据压缩,图像处理,计算机视觉,python)