Visual Semantic Role Labeling 文章理解速递

Visual Semantic Role Labeling,CS,2015

论文链接

摘要

1)动机:经典的动作识别方法要么研究在图像或视频剪辑水平上的动作分类任务,要么最多是在做动作的人周围产生一个边界框。这样的输出对图像完全理解是不够的。
2)内容:提出了 Visual Semantic Role Labeling视觉语义角色标记任务:给定一个图像,检测到正在做行动的人,并定位交互的对象。

Introduction

1)动机:目前的动作识别数据集将每个人划分为k种不同的活动,并专注于粗糙的活动(比如“打棒球”、“烹饪”、“园艺”)。我们认为这样的一个粗略的理解是不完整的,只有当我们能够推理构成每个这样的活动的细粒度的动作(比如“击中”用球棒打球,用刀“切”洋葱,用割草机“割”草坪),并能够针对每个动作将场景中不同语义角色的物体联系起来。如下图所示:
Visual Semantic Role Labeling 文章理解速递_第1张图片
2)Visual Semantic Role Labeling:推理细粒度的动作,并检测这个动作的各种语义角色:agent(粉框)、instrument(蓝框)和物体(橙框)。
下表列出了我们研究的一系列行动以及各种角色:
Visual Semantic Role Labeling 文章理解速递_第2张图片
3)数据集V-COCO( Verbs in COCO):在Microsoft COCO (Common Objects in COntext) 数据集上进行注释标记构建这个任务的数据集。与大多数现有的数据集不同,这些数据集都有对象或动作标记,这个工作使COCO除了详细的对象实例分割标记之外,现在还有详细的动作标签。
V-COCO数据集总共包含10346张图像,其中包含16199个人的实例。每个带注释的人都有26个不同动作的二进制标签。V-COCO数据集被分割为train、val和test,train和val来自COCO的train集,而测试集来自COCO的val集。
Visual Semantic Role Labeling 文章理解速递_第3张图片

优缺点

优点:细粒度、包括了动作类别和动作相关的语义角色
缺点:一个动作对应N个语义角色,例如用球拍击打球,因此难以确定语义角色的数量

你可能感兴趣的:(计算机视觉,人工智能,深度学习)