本文介绍了时空局部原子视觉动作(AVA)的视频数据集。 AVA dataset密集注释了430个15分钟视频剪辑中的80种原子视觉动作,这些动作在空间和时间上都已经定位,从而导致有158万个动作标签,每人经常出现多个标签。我们的数据集的主要特征是:(1)原子视觉动作的定义,而不是复合动作; (2)精确的时空注释,每个人可能有多个注释; (3)在15分钟的视频剪辑中详尽地标注这些原子动作; (4)人们在连续的片段之间在时间上联系在一起; (5)使用电影来收集各种动作表示。这与现有的时空动作识别数据集不同,后者通常为短视频剪辑中的复合动作提供稀疏注释.AVA具有逼真的场景和动作复杂性,揭示了动作识别的内在困难。为了对此进行基准测试,我们提出了一种基于当前最先进方法的动作定位新方法,并展示了在JHMDB和UCF101-24类别上的更好性能。在设定现有数据集的最新状态的同时,AVA的总体结果仅为15.6%mAP,这突出说明了需要开发新的视频理解方法。
我们将一种新的带注释的视频数据集AVA引入到高级动作识别研究中(见图1)。
注释以1 Hz的采样频率以人为中心。每个人都使用边界框进行定位,并且附加的标签对应于演员执行的(可能有多个)动作:一个与演员的姿势(橙色文字)相对应的动作-站立,坐下,步行,游泳等—并且可能存在与对象进行交互(红色文本)或与其他人进行交互(蓝色文本)相对应的其他操作。包含多个演员的框架中的每个人都被分别标记。要标记一个人执行的动作,关键选择是注释词汇表,而该词表又取决于对动作进行分类的时间粒度。我们使用短片段(以关键帧为中心的±1.5秒)来提供时间上下文,以在中间帧中标记动作。这使注释者可以使用运动线索来消除诸如在静态框架中无法解决的歧义(如拾起或放下)。我们对时间上下文保持相对简短,因为我们对物理行为的(时空)精细注释感兴趣,这会激发“原子视觉动作”(AVA)。词汇表由80种不同的原子视觉动作组成。我们的数据集来自第15至第30位每分钟间隔430部不同的电影,给定1 Hz的采样频率,每个影片将获得近900个关键帧。在每个关键帧中,每个人都用AVA词汇中的(可能是多个)动作标记。每个人都链接到连续的关键帧,以提供短期的动作标签序列(第4.3节)。现在,我们激励AVA的主要设计选择
原子动作类别。 Barker&Wright [3]在对堪萨斯州一个小镇居民日常生活中的“行为发作”的经典研究中指出了活动的等级性质(图2)。
在最好的层次上,动作由原子的身体运动或物体操纵组成,但在更粗糙的层次上,最自然的描述是意图性和目标行为的术语。此层次结构定义了构成的动作标签词汇,这导致了我们领域的缓慢发展与对象识别相比;详尽列出高层的行为事件是不切实际的。但是,如果我们将自己限制在合适的时间范围内,则这些动作本质上是非常物理的并且具有清晰的视觉特征。此处,我们以1 Hz注释关键帧,因为这足以捕获动作的完整语义内容,同时使我们能够避免要求不切实际的时间注释动作边界。 THUMOS的挑战[18]观察到动作边界(不同于对象)本质上是模糊的,从而导致显着的注释者之间的分歧。相比之下,注释者可以轻松地确定(使用±1.5s上下文)一帧是否包含给定动作。有效地,AVA将动作起点和终点定位为可接受的±0.5 s的精度。
**以人为本的行动时间序列。**虽然诸如树木倒下之类的事件并不涉及人,但我们的重点是将人的活动视为单一主体。运动中可能有多个人,或者两个人拥抱在一起,但是每个人都是一个有不同选择的主体,因此我们将每个人分开对待。随时间分配给一个人的动作标签是用于时间建模的丰富数据源(第4.3节)。
**电影的注释。**理想情况下,我们希望行为是“野生的”。我们还没有这样的行为集,但是电影是一个令人信服的近似,尤其是当我们考虑流派和电影行业蓬勃发展的国家的多样性时。我们希望在此过程中有一些bias。故事必须有趣,电影语言[2]的语法通过镜头的并置进行交流。也就是说,在每一个镜头中,我们都可以期待由有能力的演员传达的一系列人类动作,多少代表了现实。 AVA补充了来自用户生成的视频的当前数据集,因为我们希望电影包含更多的活动,以适合讲述各种故事。
详尽的动作标签。我们在所有关键帧中标记所有人的所有动作。这自然会导致齐普夫定律类型在各个动作类别之间失衡。典型动作(站立或坐着)的示例将比令人难忘的动作(跳舞)更多,但这是应该的!识别模型需要在逼真的“长尾”动作分布上运行[15],而不是使用人工平衡的数据集进行构建。该协议的另一个结果是,由于我们没有通过显式查询互联网视频资源来检索动作类别的示例,因此避免了某种偏见:开门是电影剪辑中经常发生的常见事件;但是,在YouTube上被标记为此类的开门动作很可能值得关注,以使其非典型。我们认为,AVA具有逼真的复杂性,它揭示了该领域许多流行数据集所隐藏的动作识别的内在困难。例如,一个人的视频剪辑在典型的背景下执行视觉上显着的动作(如游泳)很容易与一个跑步的人区分开。与AVA相比,在AVA中我们遇到多个角色,这些角色的图像尺寸很小,它们执行的动作只有一些微妙的不同,例如触摸与握持一个对象。为了验证这种直觉,我们在JHMDB [20],UCF101-24类别[32]和AVA上进行了比较基准测试。我们用于时空动作定位的方法(请参阅第5节)建立在多帧方法的基础上[16,41],但是通过I3D卷积对小管进行了分类[6]。我们在JHMDB [20]和UCF101-24类别[32](请参见第6节)上获得了最新的性能,而AVA上的mAP仅为15.6%。
AVA数据集的注释包括五个阶段:动作词汇生成,电影和片段选择,图3.动作注释的用户界面。第3.5节中的详细信息。人员边界框注释,人员链接和动作注释。
我们遵循三个原则来生成我们的动作词汇。第一个是普遍性。我们在日常生活场景中收集通用动作,而不是在特定环境中进行特定活动(例如在篮球场上打篮球)。第二个是原子性。我们的动作类具有清晰的视觉特征,并且通常独立于交互的对象(例如,在没有指定要保留的对象的情况下保持)。这使我们的清单简短而完整。最后一个是穷举。我们使用先前数据集中的知识初始化了列表,并反复进行了几轮迭代,直到它覆盖了AVA数据集中约99%的由注释者标记的动作。最后,我们在词汇表中设置了14个姿势类,49个人-对象交互类和17个人-人交互类
AVA数据集的原始视频内容来自YouTube。首先,我们汇总了许多不同国籍的顶尖演员。对于每个名称,我们都会发布一个YouTube搜索查询,最多可以检索2000个结果。我们仅包含带有“电影”或“电视”主题注释,持续时间超过30分钟,自上传以来至少有一年且观看次数至少为1000的视频。我们还排除了黑白,低分辨率,动画,卡通和游戏视频以及包含成熟内容的视频。为了在约束内创建代表性数据集,我们的选择标准避免使用动作关键字,使用自动动作分类器或强制统一标签分布来进行过滤。我们的目标是通过从大型电影行业中采样来创建国际电影收藏。然而,电影中的动作描写是有偏差的,例如。性别[10],并不能反映人类活动的“真实”分布。每部电影对数据集的贡献均等,因为我们仅标记了从第15分钟到第30分钟的子部分。我们跳过电影的开头,以避免注释标题或预告片。我们选择15分钟的时长,以便能够在固定的注释预算下包含更多电影,从而增加了数据集的多样性。然后将每个15分钟的剪辑分为897个重叠的3s电影片段,步幅为1秒
我们使用边界框来定位一个人及其动作。当关键帧中存在多个主题时,每个主题会分别显示给注释器以进行动作注释,因此它们的动作标签可能会有所不同。由于边界框注释是手动密集型的,因此我们选择一种混合方法。**首先,我们使用Faster-RCNN人员检测器生成边界框的初始集合[31]。我们设置工作点以确保高精度。然后,注释者对检测器遗漏的其余边界框进行注释。这种混合方法可确保完全的边界框调用,这对于基准测试至关重要,同时将手动注释的成本降至最低。**此手动注释仅检索了我们的人员检测器遗漏的5%的边界框,从而验证了我们的设计选择。在下一步操作注释中,注释者将标记并删除所有不正确的边界框。
我们在短时间内链接边界框,以获得真实的人的运动轨迹。我们使用人嵌入[45]计算相邻关键帧中边界框之间的成对相似度,并使用匈牙利算法[25]求解最佳匹配。虽然自动匹配通常很强大,但我们还会使用验证每个匹配项的人工注释者来进一步消除误报。此过程将产生81,000个Tracklet,范围从几秒钟到几分钟不等。
动作标签由众包注释器使用图3所示的界面生成。
左面板显示目标片段的中间帧(顶部)和该片段为循环嵌入的视频(底部)。覆盖在中间框架上的边界框指定需要标记其动作的人。右侧是文本框,最多可输入7个动作标签,包括1个姿势动作(必填),3个人对物体的交互作用(可选)和3个人对人的交互作用(可选)。如果列出的动作均不是描述性动作,则注释者可以标记一个名为“其他动作”的复选框。此外,它们可能标记包含受阻或不适当内容或不正确边界框的线段。在实践中,我们注意到,当注释者被指示从80个类的庞大词汇表中找到所有正确的动作时,它们不可避免地会错过正确的动作。受[36]的启发,我们将动作注释流程分为两个阶段:动作建议和验证。我们首先要求多个注释者为每个问题提议行动候选者,因此联合集合具有比单个提议更高的召回率。然后,注释者在第二阶段验证这些提议的候选者。结果表明,使用这种两阶段方法可以显着提高召回率,尤其是在操作较少的示例上。请参阅补充材料中的详细分析。在提议阶段,注释者平均需要22秒来注释给定的视频片段,而在验证阶段,注释者需要19.7秒。每个视频剪辑都由三个独立的注释者来注释,并且只有经过至少两个注释者验证的动作标签,我们才将其视为基本事实。注释符以随机顺序显示。
我们的训练/验证/测试集是在视频级别划分的,因此,一个视频的所有片段都只会出现在一个划分中。 430个视频分为235个训练视频,64个验证视频和131个测试视频,大致按55:15:30的比例划分,从而产生了211,000个训练,57k验证和118k测试片段。