由于人们每天对视频的数量需求巨大且分辨率在不断提高,这使得视频压缩仍然是一个非常热门的话题。现有的流行的视频压缩算法,如 MPEG 和 H.26x 族,都是通过计算像素块的运动来估计这些块在附近帧中的外观。除了估计位移外,还存储量重建误差的近似值。
除了通用的视频压缩算法,还有使用 基于模型的编码方案 的视频压缩编解码器。这些方案背后的思想一般是独立于当前的压缩背景的,与标准的视频压缩算法有着根本的不同,也具有这不同的优缺点。
在文中,提出了一种基于模型的视频压缩编解码器,它结合了来自明显不相关的领域中的三种最先进的算法,即 3D姿态跟踪、基于 PDE 的图像压缩 和 静电半色调。它们的组合使得击败 MPEG-1 甚至是 MPEG-4 都有可能。与许多其它的基于模型的编码算法相比,该算法不是专门针对人脸或是其它特定对象的,因此适用于不同类型的视频。
算法的概述:
为了重建视频的一帧,该模型简单地使用编码时跟踪的姿势投影到加载的背景图像上。作者用 MB 表示这种基于模型的编码器。
对于编解码器的第一步,这里使用了 3D 姿态跟踪算法,因为它报告了 HumanEva-Ⅱ 基准中最好的跟踪结果之一。
这里对增强编码器
(MB + DH)是对上述基线编码器
(MB)的扩展。通过对基线编码器(MB)进行扩展,对残差图像进行了编码,还镜这些残差图像存储为一组像素,让其在这些像素之间进行均匀扩散修复。
从灰值视频的第一帧开始,当使用均匀扩散对视频进行涂装时,差值点应该根据平滑图像的拉普拉斯算子的大小来分布。
之后我们便可以使用 抖动算法
(dithering algorithm)来进行涂装。
下图显示了两个具有代表性的结果,使用了 Floyd-Steinberg 算法进行抖动,并比较了四种不同的抖动算法的性能。
这些实验使用了 500 个 掩模点,撇开图像和预平滑量不谈,发现一种静电半色调算法的性能最好。因此作者在编解码器中选择了这个算法。
静电半色调算法背后的基本思想是将黑点建模为带负电荷的粒子,把像素当作是带正电荷的。因此,根据物理“同性相斥,异性相吸”的原理,粒子之间会相互排斥,但会被响应的图像区域所吸引。
用 u(x)∈[0,1]
表示位置 x 的灰色值。那么,像素 x 的电荷等于 1−u(x)
。当粒子的正负电荷总量相等时(稳态),粒子就会被自动绑定到相应的图像域。最后得到的半色调结果就是该粒子系统的稳态。
为了验证 增强编码器
(MB + DH)的性能,作者将其与 MPEG-1 和 MPEG-4 进行了比较
第一个实验编码了 HumanEva-II 跟踪基准的序列 S4。
下图是文中的 MB 编解码器 与 MPEG-1 和 MPEG-4 使用 HumanEva-II 序列 S4。实验中,增强编解码器
(MB + DH)以每帧 400 点的结果显示为比较。下图对应显示的是第500帧。
下图是上图的放大图。可以看到,基线编解码器
(MB)和增强编解码器
(MB + DH)在物体和背景区域有明显的边界,但简单的模型着色算法还远远不够完美。在算法 MB+DH 加上 400 个额外的点,试图减少这个问题,更好的结果如图所示。
我们可以看到 MB 编解码器创建了清晰的边界,而 MPEG-1 以及 MPEG- 4 产生了块状的结果。由于 MB 中简单的模型着色方法的性能相当差,通过附加存储信息改进了这一点,达到了更优的效果。不过,更精确对象模型的表示应该会显著提高算法的性能。
该实验使用 “Cart” 序列让 基线编解码器
(MB)与 MPEG-1 和 MPEG-4 进行比较。MB 编解码器 忽略了 360 帧中的损坏,而 MPEG-1 和 MPEG-4 编码了原始帧。
可以看到,该图片背景所带来的噪声非常大,它恶化了基于扩散的图像压缩方法的结果。
此外,对象模型往往不能代表图中人物执行的复杂运动,例如由于肌肉收缩或关节角度缺失。
还有,脚的下侧在许多帧中都是可见的。由于脚不包括在物体模型中,人是部分从图像中看到的,这导致了错误的颜色。
最后,该序列比 HumanEva-II 序列短,导致对象模型和背景开销较大。
由于这些原因,对于这个序列,MB 算法比 MPEG-4 算法差。然而,MB 算法仍然在大多数帧中击败了 MPEG-1。
文中的解压缩编码器显示了很好的结果,可以击败 MPEG-1 ,甚至是 MPEG-4。如果能更准确的估计或是提前知道运动前景的外观时, 增强编码器
的性能会显著提高