paper reading(2)-HOTR: End-to-End Human-Object Interaction Detection with Transformers

注:该文章取自CVPR2021
源码:

Abstract

首先介绍了一下HOI任务:检测人与物体交互关系的任务,包含
i)定位交互的主体和客体
ii)交互标签的分类
大多数现有的方法是通过检测人和对象,分别推断每一对直接的关系,但这种方法是间接地解决问题。
本文提出了HOTR框架,基于transformer的encoder-decoder结构直接预测(人,物体,交互)的三元组集合。这种预测集合的方法,有效地利用了内部语义关系,节约了时间成本。

1. Introduction

先前解决HOI的方法是,先进行对象检测,然后将<人,对象>进行后处理,间接、耗时、计算量大。
parallel HOI detectors:第二部分related work会进行详细介绍。
HOI detection存在的问题:i)需要额外的后处理ii)关系建模有助于目标检测,但考虑高级别的依赖关系是否有效,还需进一步研究。
HOTR (Human-Object interaction TRansformer)算法利用直接的集预测方法一次性预测场景中的一组交互。作者设计了一个基于transformer的encoder-decoder结构来预测一组HOI的triplet.
首先,集合级别的直接预测省去了手工后处理的阶段;模型以端到端方式进行训练,将预测的triplet与ground-truth进行匹配作为loss。其次,transformer的自注意机制使得模型能够挖掘人和物体之间的上下文关系以及它们之间的相互作用,使得集合级预测框架更适合于高级场景理解。
contribution总结如下:
·提出了HOTR,是在首个在HOI领域的基于transformer的集合预测方法。它没有后处理过程,并能对交互关系进行建模
·提出了HO Pointers:将两个parallel decoders的输出进行关联;一个recomposition step来预测最终的HOI triplets集合;一个新的损失函数来实现端到端的训练。

2. Related Work

2.1. Human-Object Interaction Detection

主要分为顺序方法和并行方法。在顺序方法中,首先进行目标检测,每对被检测的目标通过单独的神经网络进行推断来预测交互。并行HOI检测器并行地执行目标检测和交互预测。

Sequential HOI Detectors

InteractNet、iCAN、No-Frills HOI detection 、Graph-based approaches、Deep Contextual Attention、heterogeneous graph network

Parallel HOI Detectors

可以与现有的目标检测器并行,具有快速推理时间

2.2. Object Detection with Transformers

DETR方法:推断出N个固定大小的预测集,通过一次decoder,其中N明显大于图像中对象的数量。DETR的主要损失是在预测对象和真实对象之间产生最优的二部匹配。然后,针对特定对象的损失(类和边界框)进行优化。

3. Method

本文的目标是预测一组人、对象、交互的triplet,同时以端到端方式考虑triplet之间的内在语义关系。

3.1. Detection as Set Prediction

Object Detection as Set Prediction

将目标检测的集预测体系结构直接扩展到HOI检测
DETR中的transformer encoder-decoder结构将N个位置embedding转换为对象类和边界框的N个预测集。

HOI Detection as Set Prediction

与对象检测类似,HOI检测可以定义为一个集合预测问题,其中每个预测包括一个人区域(即交互主体)的定位,一个对象区域(即交互目标)的定位,以及交互类型的多标签分类。一个简单的方法是修改DETR的多层感知机head,将每个位置embedding转换为预测人框、对象框和动作分类。然而,这种架构存在一个问题,即同一个对象的定位需要通过多个位置embedding进行冗余预测(例如,如果同一个人坐在椅子上同时在计算机上工作,两个不同的查询必须为同一个人推断冗余回归)。

3.2. HOTR architecture

paper reading(2)-HOTR: End-to-End Human-Object Interaction Detection with Transformers_第1张图片
该结构具有一个共享编码器和两个并行解码器(即实例解码器和交互解码器)。两个解码器的结果与我们提出的HO Pointers来生成最终的HOI triplet相关联。

Transformer Encoder-Decoder architecture

HOTR的结构类似DETR,从CNN和共享编码器中提取上下文。之后两组位置embeddings(实例query和交互query)输入到两个并行的解码器。解码器将query转换为用于对象检测的representations。之后使用前馈网络,得到Human Pointer, an Object Pointer, and interaction type。
paper reading(2)-HOTR: End-to-End Human-Object Interaction Detection with Transformers_第2张图片
交互representation通过使用HO Pointers指向相关的instance representation定位人和对象区域,而不是直接返回边界框。
当一个对象参与多个交互时,直接返回边界框会存在定位不同的问题,本文通过独立的instance和interaction表示,并使用HO指针将它们关联起来来解决这个问题。

HO Pointers

HO指针(即人指针和对象指针)包含交互中人和对象的对应实例表示的索引。
在解码器转换K个interaction queries为K个interaction representations后,其中的representation zi会分别输入到两个前馈网络FFNh和FFNo,得到两个向量,vih和vio。Human/Object Pointers,可按如下公式获得:
paper reading(2)-HOTR: End-to-End Human-Object Interaction Detection with Transformers_第3张图片
在这里插入图片描述

Recomposition for HOI Set Prediction

通过先前的步骤,现在已经有如下内容:
i)N个instance representations µ
ii)K个interaction representations z和HO Pointers
重组的过程就是利用前馈网络进行bounding box的回归和动作的分类。
paper reading(2)-HOTR: End-to-End Human-Object Interaction Detection with Transformers_第4张图片

Complexity & Inference time

K个交互与N个实例关联,时间复杂度O(KN)。

3.3. Training HOTR

Hungarian Matching for HOI Detection

HOTR每一个预测都捕获一个具有一个或多个交互的独特的人、对象对。
设Y 代表ground truth,Yhat = yi表示预测集合。寻找代价最小排列:
在这里插入图片描述
由于ground truth与prediction的形式不同,需要调整cost function。
设Φ是idx → box的映射函数,则Φ-1可得box → idx
设M是标准化instance表示,由μ = μ/||μ||组成
在这里插入图片描述

在这里插入图片描述

Final Set Prediction Loss for HOTR

the loss for the HOI triplets has the localization loss and the action
classification loss as
在这里插入图片描述
paper reading(2)-HOTR: End-to-End Human-Object Interaction Detection with Transformers_第5张图片

Defining No-Interaction with HOTR

你可能感兴趣的:(笔记)