Learning to Detect Human-Object Interactions 文章解读

Learning to Detect Human-Object Interactions,WACV,2018

论文下载
code:http://www.umich.edu/∼ywchao/hico/

摘要

主要研究领域定义了HOI detection任务:在静态图像中检测人-对象交互(HOI)的问题,也就是给定一张图片,预测一个人和一个对象边界框并预测连接他们的交互类别。
主要工作:1)介绍了HICO-DET数据集,一个新的HOI检测基准,是将目前的HICO分类benchmark添加实例标注增强得到的。2)提出了Human-Object Region-based Convolutional Neural Networks (HO-RCNN).这个网络的核心是Interaction Pattern,这个交互模式表征了两个边界框之间的空间关系。

Introduction

目前HOI方法中存在的问题:在有限的HOI类别的小数据集上验证,比如有10个类别的PASCAL VOC数据集和有40个类别的Stanford 40 Actions数据集。并且这些数据集对于每个物体来说只提供有限种类的交互类别。导致没有办法识别一个算法是否真的能够识别交互,或者它是否只是简单地识别当前的物体。这个问题随着HICO(Humans interacting with Common Objects)数据集的提出得到解决,这个数据集是一个大型的数据集包含了600个HOI类别,超过了80个常见的物体类别并且每个对象类别具有不同的交互类别。但是HICO数据集只能用来HOI分类,也就是判断一个HOI类别是不是在图像中出现,并不能准确地定位图像中出现的交互作用及其对象。

定义HOI Detection:正式的,将HOI检测问题定义为预测一对边界框——首先是一个人,第二个是一个对象——并识别交互类别。

contributions:1)介绍了HICO-DET数据集,提供了超过150K个人-对象对的注释实例,跨越了HICO中的600个HOI类别,即每个HOI类别平均有250个实例。2)提出了Human-Object Region-based Convolutional Neural Networks (HO-RCNN).这个网络的核心是Interaction Pattern,这个交互模式表征了两个边界框之间的空间关系。

相关工作

HOI Recognition

Gupta和Malik [11]通过将交互的人和对象连接起来,并标记它们的语义角色,从而得到了增强后的MS-COCO数据集 [22]。Yatskar等人[36]提供了一个用于情况识别的图像数据集,定义为识别活动以及参与的对象及其角色。与HICO不同的是,这两个数据集都没有为每个对象类别提供不同的交互类集。

Object Detection

Sadeghi和Farhadi [31]提出了“视觉短语”,即将每一对相互作用的对象作为一个单元,并利用 object detectors来定位它们。HOI检测进一步扩展了检测中的“视觉短语”来定位每一对对象中的单个对象。

HO-RCNN

HO-RCNN是一个多流网络,它分两步检测HOIs。首先使用最先进的人和对象探测器生成人-物体区域对的proposals。然后,每对人-物体proposal被传递到ConvNet中以生成HOI分类分数。
Learning to Detect Human-Object Interactions 文章解读_第1张图片
整体架构:首先生成人-对象区域对的proposals。多流体系结构由三个流组成,分别为:1)human stream从被检测到的人类中提取局部特征。2)object stream从检测到的对象中提取局部特征。3)pairwise stream提取编码被检测到的人和对象之间的成对空间关系的特征。每个流的最后一层是一个二值分类器,它输出HOI的置信度分数。最终的置信度分数是通过将所有流中的分数相加而获得的。

人和对象分支:给定一个人-物体的proposal,首先使用边界框裁剪完整的输入图像,然后调整大小到固定的大小。然后将这个归一化的图像patch传递到一个卷积网络中提取特征,最后一层是大小为K的全连接层,其中K是感兴趣的HOI类的数量,每个输出对应于一个HOI类的置信度分数。

成对分支:给定一个人-对象proposal,成对流提取编码人和对象之间空间关系的特征,并为每个HOI类生成一个置信分数。在这不是直接将bbox的坐标输入DNN,而是提出了Interaction Patterns来输入DNN。
给定一对边界框,它的Interaction Patterns是一个有两个通道的二值图像:第一个通道中被第一个边界框包围的像素值为1,在其他地方的值为0;第二个通道中被第二个边界框包围的像素值为1,在其他地方的值为0。但有两个细节:1)Interaction Patterns应该具有平移不变性,因此,从交互模式中删除了“attention window注意窗口”之外的所有像素,即包围两个边界框的最紧密的窗口。这使得成对流只关注包含目标边界框的bbox,而忽略全局上下文。2)第二,Interaction Patterns的长宽比可能会随着注意窗口的不同而有所不同。这是有问题的,因为DNN需要固定大小(和长宽比)的输入。因此该文提出resize without/with padding zeros两种,这使得Interaction Patterns的大小标准化,同时保持注意窗口的长宽比。
Learning to Detect Human-Object Interactions 文章解读_第2张图片
训练:HO-RCNN生成HOI置信度分数。正如在[1]中提到的,一个人可以同时出现对目标对象执行不同类型的动作,例如,一个人可以同时“骑着”和“抱着”自行车。因此,HOI识别应该被视为一个多标签的分类问题。因此,该文通过对每个HOI类别的分类输出应用一个sigmod交叉熵损失来训练HO-RCNN。

构建HICO-DET数据集

对于每个图像,注释器都会有一个句子描述,比如“一个骑自行车的人”,并被要求继续进行以下三个步骤:
第一步:在每个人周围画一个边界框:第一步是在所描述的交互中涉及的每个人周围绘制边界框。
步骤2:在每个对象周围绘制一个边界框:第一步是在所描述的交互中涉及的每个对象周围绘制边界框。
步骤3:将每个人链接到对象:第一步是在所描述的交互中涉及的每个对象周围绘制边界框。请注意,如果一个人正在与多个对象交互,那么他可以链接到多个对象;如果一个对象与多个人交互,那么一个对象可以与多个人联系起来。
数据集的数据统计表如下:
Learning to Detect Human-Object Interactions 文章解读_第3张图片

实验

设置:人或者对象的bbox和ground truth之间的最小交并比大于0.5则算作TP样本。指标为mAP。测试了三个不同的HOI类别集的mAP:(a)在HICO中的所有600个HOI类别(完整),(b) 138个训练实例少于10个的HOI类别(Rare),和© 462个HOI类别有10个或更多的训练实例(非罕见)。还考虑了两种不同的评估设置: (1)已知对象Known Object设置:对于每个HOI类别,只在包含目标对象类别的检测上评估,这个时候的挑战就在于定位HoI并对交互进行分类。(2)默认值Default设置:对于每个HOI类别,在完整的测试集上评估检测结果,包括包含和不包含目标对象类别的图像。这是一个更具挑战性的环境还需要区分没有目标的图像。

你可能感兴趣的:(计算机视觉,人工智能,深度学习)