谷歌AVA数据库的1705.08421论文

目的是理解AVA数据库的做成过程。翻译了谷歌AVA数据库的1705.08421论文。

翻译初版,部分还需要斟酌,之后在改善。

内容参见如下。

概要

本论文提出了一个视频数据集,(时空局部化)原子视觉动作(Atomic Visual Actions (AVA))。

这个AVA数据集密集的标注了80种原子视觉动作,在57.6k的基于带有空间和时间的动作的视频片段上,作为结果,有210k动作标签,包括对每个人多次动作的复数标签。

与目前已有的数据集的主要差异是,(1)原子视觉动作的定义,避免收集每个/所有的复杂动作的数据。(2)清晰的时空的标注,包括对每个人的复数标签。(3)使用多样,真实的视频素材。

这个不同于针对各种动作识别的已经存在的数据集。如 JHMDB UCF 数据集,它们提供了至多 24 种混合动作的标注,诸如在特定环境如球场下所抓取的灌篮。我们实现了能体现最高水平的方法,能定位动作。尽管这样,在我们数据集上的表现保持了低调,强调为了视频理解而开发新方法的需要。此 AVA 数据集是在此方向上第一步,以使能在真实场景上的表现与进步能够度量。

1.      介绍

   此论文提出了一个新的标注视频数据集AVA,我们已经收集的视频可以支持动作识别的研究。Fig. 1展示了典型的帧。标注以人为中心。每个人用框定位,关联的标签相当于人在做的(可能,复数)动作。有的动作相当于这个人的姿势,他或她在站立,坐着,走路,游泳等。可能有额外动作相当于与物体互动,或人与人互动。提出的框架自然适应不同人做的不同的动作。
   谷歌AVA数据库的1705.08421论文_第1张图片
   我们的数据源是电影,好莱坞或其他地方制作的特色影片,我们分析连续3秒长的视频片段,在每个片段,中间帧是作为描述点被标注,但标注者通过视频的大量暂存内容用来获得的感性的提示,包括运动提示。这个标注的好的衡量作为我们的叫法是“Atomic Visual Actions”,简称AVA,也作为数据集的名称。这数据集当前包括了80中不同的原子视觉动作。数据库包括了来自192部不同电影的57.6k视频片段,每片段是3秒长的视频段落,这是从每个电影中的15分钟视频块中提取出来的。使用每个电影的15分钟的视频块,确保在同一时间的连续的多样性。我们标注了总共210k动作,显示了复数动作标签会频繁出现。我们计划发布标注的数据集到计算机视觉协会(/社区)。

      基础工作是通过细小的细节观察Kansas小镇的孩子,关于他们日常生活。他们提议一个他们成为“behavior episode 行为插曲”的单元,例子包括一组男孩移动箱子穿过一个加油站,一个女孩与她母亲交换话语,一个男孩从学校回家。他们记下了活动的自然类型,在Fig2插了画。在最好层次上这些动作能用简单肢体动作被描述出来,或物体的操作,但在粗的层次上,大部分自然描述是根据意向性(intentionality)和有意图(goal-directed)的行为。

  现在我们准备在AVA里解释3个关键设计选择。
  为什么短的时间范围?
      粗粒度的活动/事件的理解,在目标和子目标的条件下是容易做的。但是本质上这是一个无限序列,正像所有句子的序列。另一个问题是目标可能不是明显可见的。如果我们看见某个人走路,他们做这个为运动或去小卖部?然而如果我们限制自己到好的刻度,然后这些动作实际上是非常自然的,有清晰可视的特征。我们最终希望理解在粗粒度上的活动的分析,通过概念结构的影响,如剧本,模式,经由好的AVA单元。但这是非常面向未来的工作。诸如Zachsetal的研究表明,粗粒度边界是一定范围边界的一个子序列,暗示一定范围单元应该在组合粗粒度单元上证明有用。我们选择标注在3秒长的视频片段中的关键帧,这是很足够的,对理解内容和预防清晰时间标注的显示;“THUMOS挑战”观察了动作边界是模糊和主观的,引导了显著的内在标注分歧和价值偏差。相比之下,这是可行的,为标注者决定(用-1.5s+1.5s内容)一个特定帧是否包含了给定的动作。这个任务是比指定时间边界,从本质上要减少了模糊性。

   为什么以人为中心?
     有各种没有人参与的事件,如树木陷落,但我们的焦点是在人的动作上,当作单独的因素。在一个运动事件可能有多人,或仅2人拥抱,但每个人是一个他或她自己选择的因素,因此我们能每个独立处理。我们不能阻止协作或竞争行为,但每个因素是通过物体与人的姿势,互动被描述的。


       为什么是电影?

             

实际上我们想要“在偏远地区”的行为,通过BarkerWright的现代版来记录在数字表格。

我们没有那些东西。那下一个最好的选择就是电影。超过一百多年来,摄影师在媒介上已经生产了很多故事,如果我们考虑风格,地域的多样性,随着不断增长的电影工业,我们可以期望一个人类行为的显著范围,在这些电影中展示出来。在这个过程中我们期待一些趋势。故事必须是感兴趣的,有通过并列关联的电影语言的语法。那就是说,在一个射手,我们期望一个人类动作的展现时序,少量事实的代表,被好演员所演绎的。它不是我们完美的关注这个数据那样。仅仅是比和用户的不同搭配产生内容的工作好点,如动物计谋的视频, DIY 教育视频,诸如孩子生日聚会等的事件,等等。我们期望电影能包含大范围活动,最好作为不同类型故事来讲述。我们把它作为一个考虑点,即仅包括来自至少 30 分钟长的电影,抽样 15 分钟间隔的视频。

    本论文是按照如下组织的。第2章我们重审视之前的动作识别数据集,并指出与我们AVA数据集的差异。第3章我们讨论标注过程。第4张面向一些来自数据集的感兴趣的统计。第5章解释基准方法和报告结果。第6章给出结论。


    待续。。。







你可能感兴趣的:(图像标注)