HOI经典论文WACV 2018 | Learning to Detect Human-Object Interactions 论文学习笔记

本文研究内容为在静态图像种检测人物交互关系。其被定义为预测一个人、物边界框,以及一个将他们联系起来的交互类标签。HOI检测是计算机视觉种一个基本的问题,因为它提供了被检测物体之间交互的语义信息。同时本文引入了HICO-DET,一个新的HOI检测的基准数据集,使用实例标注来扩充当前的HICO分类基准数据集。本文还提出了基于人物对区域的卷积神经网络(HO-RCNN),该方法的核心就是交互模式,它是一个能够描述两个边界框之间的空间关系的DNN输入。

论文地址:https://arxiv.org/abs/1702.05448
代码地址:

文章目录

  • 1 研究背景
  • 2 研究内容
  • 3 研究方法
  • 4 HICO-DET数据集
  • 5 实验细节
  • 6 结论

1 研究背景

人物交互的视觉识别(如“骑马”,“吃三明治”)是计算机视觉的一个基本任务,它要求不仅能够识别物体,同时识别出物体之间的关系,能对视觉场景的语义进行深入理解,而不仅仅是目标识别或目标检测。如果没有HOI,那么一个图片只能被解释为对于目标边界框的收集,AI系统也只能识别出“一个网球拍在右边角落”或者“一个男孩位于一个网球旁边‘而不能识别出“一个戴帽子的男孩在挥动网球拍”。目前HOI识别主要问题是使用有限的HOI种类的小规模数据集来评估这些方法,如PASCAL VOC仅包含10个种类,40 Actions仅包含40个种类,并且这些数据集对于每种物体只能提供有限的几种交互类型。如在40 Action种,汽车只有一种交互(修车),我们无法判断它到底是识别了这种交互还是仅仅只是识别了汽车。后来提出了HICO(人类与公共对象的交互)包含了80种公共对象的600种交互类型,为每个对象类别提供一组不同的交互,HICO用于图像级的HOI分类的基准数据集。但是HOI分类并不能精准定位图像中的交互,为了能将HOI标到图像区域,我们提出了一个新的研究问题,在静态图像中检测人物交互对,HOI检测不仅能确定HOI的存在,同时能够估计他们的位置,我们将HOI检测定义为:
检测一组边界框,首先是人然后是物体,以及识别他们之间的交互类别,通过识别被检测目标之间的交互关系能够弥补HOI分类(交互类别)和目标检测(位置)之间的关系。
HOI经典论文WACV 2018 | Learning to Detect Human-Object Interactions 论文学习笔记_第1张图片

2 研究内容

  1. 本文引入了HICO-DET数据集,是第一个用于HOI检测的基准数据集。
  2. 提出了基于人物区域的卷积神经网络,是一个基于DNN的框架,HO-RCNN的核心是交互模式,它是一种能够描述两个边界框之间的空间关系的DNN输入。

3 研究方法

HO-RCNN方法

  1. 我们首先使用先进的人物检测器产生人物区域对的建议框。在开始前先假设一个感兴趣的HOI种类的列表(如骑马,吃苹果),所以我们首先检测人和感兴趣的物体(如马,苹果)的边界框,我们使这些检测框具有很高的分数,对于每个HOI种类,其建议框是通过将检测到的人与检测到的感兴趣的物体进行配对。
    HOI经典论文WACV 2018 | Learning to Detect Human-Object Interactions 论文学习笔记_第2张图片
  2. 每个人物的建议框被送到卷积网络,会产生HOI分类的分数,我们的网络采用多流结构来提取被检测的人、物、人物空间关系的特征。
    不同的流提取不同的特征,一些人与物的局部信息,如人的身体姿势,物体的环境信息对于区分HOI来说都是重要的,如”骑自行车“,人的姿势更可能是坐着的,被骑的自行车上部更可能被人的身体压住,其空间关系也是重要线索,人的位置更可能在自行车的中上部。
    因此我们的多流结构由以下几部分组成:
  • 人物流提取被检测到的人体的特征
  • 物体流用于提取被检测到的物体的特征
  • 成对流用于提取被检测到的人于物体之间的空间关系的成对编码的特征
    每个流的最后一层是一个二分类器,输出对于HOI类别的分数,最终的分数就是将所有流的分数加起来之和。对于多分类的最终分数就是单独计算每个HOI种类的最终得分。
    HOI经典论文WACV 2018 | Learning to Detect Human-Object Interactions 论文学习笔记_第3张图片
  1. 人-物流
    首先给出一个人-物对的建议框,然后人物流从人物的边界框中提取局部特征,并为每个类别产生一个置信分数,然后使用人物的建议框裁剪图片并调整到固定尺寸,这些标准化之后的图像块被送到卷积网络中进行处理,最后是一个全连接层,大小为K,K表示HOI种类的数量,每个输出对应一个HOI种类的置信分数。物体流与人物流是相似的,除开刚开始时是使用物体的边界框进行裁剪然后调整大小的。

  2. 成对流
    对于给出的 人-物建议框,成对流会提取对人体与物体之间的空间关系进行编码的特征,并产生一个关于每个HOI类别的置信分数,由于其关注点是人与物之间的空间关系,这种流的输入会忽略像素值,仅仅利用边界框的位置信息。我们提出了一种交互模式,用于描述两个边界框的相对位置的一种DNN输入,给出一对边界框,这种交互模式是具有两个通道的二值图像,第一个通道在第一个边界框包围处的像素值为1,在其他位置的像素值为0。第二个通道在第二个边界框包围处的像素值为1,其他地方的像素值为0。在成对流中,第一个通道对应人体边界框,第二个通道对应物体边界框,这种配置能使DNN学习到对人物空间配置相似的2D模式相应的2D滤波器。
    HOI经典论文WACV 2018 | Learning to Detect Human-Object Interactions 论文学习笔记_第4张图片

对于交互模式任然有两个问题需要解决:

(1)平移不变性,也就是边界框对的平移不对引起交互模式的改变,即无论边界框对出现在图像的左边还是右边,只要这两个边界框对是相同的,那么他们的交互模式也是相同的。因此我们从交互模式中删除掉“注意窗口”(只包含两个边界框的窗口)之外的所有像素,这使得成对流仅仅关注于包含这个“注意窗口”,而忽略掉全局平移。

(2)交互模式的窗口可能会因为注意窗口的不同而不同,但是DNN的输入是固定大小(纵横比)的。为此,我们使用以下方法解决该问题:

  • 重新调整交互模式的每个边并设置为固定长度,而不考虑其纵横比,这也可能会导致注意窗口的纵横比的改变。
  • 将长边调整到固定长度,保持纵横比不变,在短边两端填充0。这种方法能够规范化交互模式的大小并保持纵横比不变。
    HOI经典论文WACV 2018 | Learning to Detect Human-Object Interactions 论文学习笔记_第5张图片
  1. 使用多标签分类损失训练
    给出一个人物对建议框,我们的HO-RCNN会产生一个感兴趣的HOI种类列表的置信分数,由于一个人可以对一个对象有多种交互,如一个人可以同时骑自行车与握着自行车。因此对于HOI的分类应该是一个多标签的分类,因此我们在每个HOI种类的分类输出上使用交叉熵损失函数,将单个损失求和计算总的损失。

4 HICO-DET数据集

HICO数据集仅仅标注出一个图像中是否存在感兴趣的HOI种类,我们对其进一步标注,每个实例被表示为带有一个类别标签的人物建议框对。
在标注时候可能会存在多个人-物交互对,或者存在一个人同于与多个物体交互。就会导致对于同一目标的多次标注。
HOI经典论文WACV 2018 | Learning to Detect Human-Object Interactions 论文学习笔记_第6张图片
因此我们使用了以下方法:

  • 在参与所描述交互的每个人体周围画一个边界框
  • 在所描述的交互所涉及的物体周围画一个交互框
  • 将发生交互的人体交互框与物体框连接起来(当一个人与多个物体有交互框时,她可能连接多个物体,如果多个人都与该物体有交互,那么一个物体可能与多个人体向连接)
    HOI经典论文WACV 2018 | Learning to Detect Human-Object Interactions 论文学习笔记_第7张图片

5 实验细节

  1. 使用mAP作为评价指标,如果一个人体的边界框与物体边界框与真实值的重叠区域的最小值大于0.5,那么就是正例。min(IoUh,IoUo) > 0.5。我们从两个方面进行评估:
  • 已知对象设置,仅在包含目标对象的图像上评估,该方法的挑战在于对HOI的定位。
  • 对于每个HOI种类,我们在所有测试集上评估(可能包含也可能不包含目标),其挑战在于要区分背景图片。
  1. 我们首先使用Fast-RCNN在MS-COCO训练集上训练的80个检测器,在每张图像中检测到的人体和物体进行配对产生每个HOI类别的建议框,为每个人体和物体分别产生10个建议框,那么每个类就有100个建议框。采用SGD方法,并且在前100k次迭代中的学习率为0.001,在另外50k次的迭代中学习率为0.0001。
    使用batchsize为64,选择8张随机采样的图片,每个图片随机选择8个建议框。
  • 1个正例,也就是这些目标对象的建议框与至少一个真实实例的重叠部分min(IoUh,IoUo) > 0.5
  • 3个I类负例,也就是这些目标对象的建议框与至少一个真实实例的重叠部分0.1h,IoUo) <0.5
  • 4个II类负例,这些建议框不包含目标对象

6 结论

  1. 我们在静态图上研究了人物交互,同时引入论文HICO-DET,一个新的用于人物交互检测的基准。
  2. 提出了HO-RCNN,一个基于DNN的框架,其核心就是交互模式,可以描述两个边界框之间的空间关系。

一句话总结:该论文提出了一个新的人物交互检测的数据集HICO-DET与提出了一种新的基于深度学习的框架HO-RCNN,该框架采用多流结构,使用人体流提取人体特征,物体流提取物体特征,使用成对流提取人与物之间的空间关系特征。

你可能感兴趣的:(human,object,interaction,目标检测,图像处理,分类)