视频压缩与三维姿态跟踪,基于偏微分方程的图像编码和静电半调

文章目录

    • 背景
    • 介绍
    • MB --> MB + DH
      • MB
        • 1. 算法概述
      • MB + DH
    • 实验
      • 实验一
      • 实验二
    • HumanEva Dataset
      • 人体姿态估计
      • 人体姿态估计数据集
      • HumanEva Dataset 介绍
    • 引文

背景

由于每天创建和观看的视频数量巨大且分辨率不断提高,视频压缩仍然是一个正在进行的研究课题。最流行的视频压缩算法,如 MPEG 和 H.26x 族,通过计算像素块的运动来估计这些块在附近帧中的外观。

介绍

文中提出的基于模型的视频压缩编解码器与这些现有的方法有很大的不同。它结合了来自明显不相关领域的三种最先进的算法,即 3-D 姿态跟踪、基于 pde 的图像压缩和半色调。它们的组合使得击败 MPEG-1 甚至 MPEG-4 。与许多其他基于模型的编码算法相比,该压缩方法不是专门针对人脸或其他特定对象的,因此适用于不同类型的视频。

论文中提到的压缩算法 = 3D 姿态跟踪 + 基于 pde 的图像压缩 + 半色调

基线视频压缩算法(MB)–> 拓展为带有剩余编码(MB+DH)的算法

MB --> MB + DH

MB

1. 算法概述

  1. 跟踪视频中的移动对象
  2. 利用跟踪结果估计目标模型中每个顶点的颜色
  3. 如果有需要的话,对背景进行重构和压缩
  4. 使用通用熵编码器 PAQ 对所有数据进行保存和压缩

为了重建视频的一帧,对象模型简单地使用编码时跟踪的姿势投影到加载的背景图片上。文中用 MB 表示这种基于模型的编解码器。
我们使用中解释的 3-D 姿态跟踪算法, 因为它报告了 HumanEva- II 基准中最好的跟踪结果之一。

然而,跟踪失败或模型不准确有时会导致糟糕的视频质量。因此,将在下一节部分介绍一种可以纠正此类问题的算法。

MB + DH

DH 是增强编解码器是 MB 编解码器的扩展。它还对残差图像进行编码, 即由基线编解码器压缩的每一帧的错误。这些残差图像被存储为一组像素,在这些像素之间进行均匀扩散修复。

视频压缩与三维姿态跟踪,基于偏微分方程的图像编码和静电半调_第1张图片

为了重建视频,我们首先执行基线编解码器(MB)中的步骤。然后加载(第一帧)或使用存储的粒子运动和粒子在前一帧中的位置重建修补掩模。将加载的 误差图像的值插值并添加到帧中。

实验

实验一

下图为 MB、MPEG-1、MPEG-4 对 HumanEva-II 序列 S4 的压缩情况图示
视频压缩与三维姿态跟踪,基于偏微分方程的图像编码和静电半调_第2张图片

可以看到,我们的方法在物体和背景区域有明显的边界,简单的模型着色算法还远远不够完美。在算法 MB+DH 加上 400 个额外的点,试图减少这个问题,更好的结果如图所示。

视频压缩与三维姿态跟踪,基于偏微分方程的图像编码和静电半调_第3张图片

我们可以看到 MB 编解码器创建了清晰的边界,而 MPEG-1 以及 MPEG- 4 产生了块状的结果。由于 MB 中简单的模型着色方法的性能相当差,通过附加存储信息改进了这一点,达到了更优的效果。不过,对象模型的更精确表示应该会显著提高算法的性能。

实验二

下图是使用 “Cart”序列将 MB 与 MPEG-1 和 MPEG-4 进行比较。

视频压缩与三维姿态跟踪,基于偏微分方程的图像编码和静电半调_第4张图片

可以看到,该图片背景所带来的噪声非常大,它恶化了基于扩散的图像压缩方法的结果。此外,对象模型往往不能代表图中人物执行的复杂运动,例如由于肌肉收缩或关节角度缺失。还有,脚的下侧在许多帧中都是可见的。由于脚不包括在物体模型中,人是部分从内部看到 的,这导致了错误的颜色。最后,该序列比 HumanEva-II 序列短,导致对象模型和背景开销较大。由于这些原因,对于这个序列,MB 算法比 MPEG-4 算法差。然而,MB 算法仍然在大多数帧中击败了 MPEG-1。

HumanEva Dataset

  • 官网链接:HumanEva Dataset

人体姿态估计

人体姿态估计(Human Pose Estimation)是计算机视觉领域中的一个重要研究方向,被广泛应用于人体活动分析、人机交互以及视频监视等方面。人体姿态估计是指通过计算机算法在图像或视频中定位人体关键点(如肩、肘、腕、髋膝、膝、踝等)。

视频压缩与三维姿态跟踪,基于偏微分方程的图像编码和静电半调_第5张图片

人体姿态估计的作用:

  1. 利用人体姿态进行摔倒检测或用于增强安保和监控;
  2. 用于健身、体育和舞蹈等教学;
  3. 训练机器人,让机器人“学会”移动自己的关节;
  4. 电影特效制作或交互游戏中追踪人体的运动。通过追踪人体姿态的变化,实现虚拟人物与现实人物动作的融合与同步。

人体姿态估计数据集

人体姿态估计数据集就是一堆用于训练人体姿态模型的数据。由于缺乏高质量的数据集,在人体姿势估计方面进展缓慢。在近几年中,一些具有挑战性的数据集已经发布,这使得研究人员进行研发工作。本文所使用的 HumanEva Dataset 就是一种人体姿态估计数据集。

HumanEva Dataset 介绍

HumanEva 数据集目前有 HumanEva_1 与 HumanEva_2 两个版本。
HumanEva-I 数据集包含 7 个经过校准的视频序列(4 个灰度和 3 个颜色),这些序列与从动作捕捉系统获得的 3D 身体姿势同步。该数据库包含4个执行6种常见动作(例如步行,慢跑,手势等)的受试者。向参与者提供用于计算2D和3D姿势中的错误的误差指标。数据集包含训练、验证和测试(带有保留的基本实况)集。

视频压缩与三维姿态跟踪,基于偏微分方程的图像编码和静电半调_第6张图片

引文

  • Video Compression with 3-D Pose Tracking, PDE-Based Image Coding, and Electrostatic Halftoning

你可能感兴趣的:(目标跟踪,计算机视觉,人工智能,数据压缩)