论文 | 《HMDB: A Large Video Database for Human Motion Recognition》

未经允许,不得转载,谢谢~~

主要记录一下对于HMDB数据集的一些主要说明;

HMDB-51是action recognition方向用于判断视频分类模型准确度的一个很经典常用的benchmark。

image.png

一 基本情况

  1. 关于人类活动的数据集;
  2. 拥有51 distinct action classes;
  3. 每个类都至少包含101个clips;
  4. 共计6766个video clips;

二 HMDB-51数据集介绍

2.1 数据集采集

  1. 数据来源:电影,一些现有的公开数据集,其他在网上可以获取到的资源(YouTube,Google videos);
  2. 从一共超过60类总挑选出每类都包含101个视频以上的51个类别;
  3. 视频分类(5大类):
  • 常见的面部动作(smile,laugh,chew,talk)
  • 有其他东西配合的面部动作(smoke,eat,drink)
  • 常见的肢体动作(climb,dive,jump)
  • 有其他东西配合的肢体动作(brush hair,catch,draw sword)
  • 人类交互之间的肢体动作(hug,kiss,shake hands)

2.2 数据标注

与一般的视频动作识别数据的不同之处在于除了标注每个clip的label外,还手工标注了很多额外的信息:

  1. visible body parts (身体的哪些部分是可见的,例如头部,上半身,还是完整的)
  2. camera motion(相机是运动的还是静止拍摄的)
  3. camera view point(相机拍摄角度是前面,后面还是侧面)
  4. video quality(视频质量的好坏,可以简单理解为清晰度,例good表示能够清晰的看见手指和眼睛这样的小部位)
  5. the number of people involved (视频中包含了多少个人)

具体的分布可以看一下这张图:


2.3 训练集和测试集的产生

  1. 分成3个不同的training and testing splits;
  2. 保证每个对应的training中和testing中不会同时出现来自同一个视频的片段;
  3. 相机角度、视频质量等会相对均衡地分布在traing和testing这两个集合中;
  4. 对于每个类别,都会产生70个相应的training clips和30个testing clips,已达到7/3的比例;

2.4 视频归一化处理

  1. 为了包含数据集中视频大小和帧率的一致性;
  2. height of frame = 240;
  3. 保持原始的长宽比,根据height来得到宽度;
  4. 帧率=30 fps
  5. 视频压缩使用的是ffmpeg库中的DivX 5.0 codec

剩下对视频数据集使用没有用的部分就先不整理了~~~

你可能感兴趣的:(论文 | 《HMDB: A Large Video Database for Human Motion Recognition》)