HICO-DET:适合踏入 HOI detection 领域的初学者阅读的论文......

Learning to Detect Human-Object Interactions

摘要

我们研究了在静态图像中检测人-物交互(HOI)的问题,定义为预测一个人和一个对象的边界框,该边界框带有一个交互类标签,将他们连接起来。HOI检测是计算机视觉中的一个基本问题,因为它提供了有关被检测对象之间交互的语义信息。我们引入了HICO-DET,这是一个新的用于HOI检测的大型基准,通过使用实例注释来增强当前的HICO分类基准。为了解决这个问题,我们提出了基于人类目标区域的卷积神经网络(HO-RCNN)。HO-RCNN的核心是交互模式,这是一种新的DNN输入,用于描述两个边界框之间的空间关系。在HICO-DET上的实验表明,我们的HO-RCNN通过交互模式利用人-物空间关系,显著提高了HOI检测的性能。

1.导言

人机交互的视觉识别(例如“骑马”、“吃三明治”)是计算机视觉中的一个基本问题。成功的HOI识别不仅可以识别对象,还可以识别对象之间的关系,提供对视觉场景语义的更深入理解,而不仅仅是对象识别[19,32,12]或对象检测[8,29,23,3]。如果没有HOI识别,图像只能被解释为对象边界框的集合。人工智能系统只能获取诸如“棒球棒在右角”和“一个男孩靠近棒球棒”之类的信息,但不能获取“一个戴帽子的男孩正在挥动棒球棒”之类的信息。HOI识别最近在计算机视觉领域引起了越来越多的关注[10,34,33,6,25,4,5,28,13]。虽然取得了重大进展,但识别HOI的问题仍远未得到解决。一个关键问题是,这些方法已经使用具有有限HOI类别的小型数据集评估,例如PASCAL VOC[7]中的10个类别和Stanford 40 Actions[35]中的40个类别。此外,这些数据集仅为每个对象类别提供有限的交互类。例如,在Stanfor

你可能感兴趣的:(HOI,计算机视觉,深度学习,人工智能)