[HOI Transfomer] End-to-End Human Object Interaction Detection with HOI Transformer(CVPR. 2021)

image-20210315203456710

1. Motivation

目前现有的HOI(任务交互)领域的方法是one-stage或者two-stage的。

Current approaches either decouple HOI task into separated stages of object detection and interaction classification or introduce surrogate interaction problem.

本文将transformer以端到端的形式应用于human object interaction(HOI)检测工作中。

2. Relation Work

2.1 HOI’s Goal

The goal of HOI detection aims at localizing human and object, as well as recognizing the interaction between them. 如图1所示,分别是之前的one-stage,two-stage方法以及本文提出的end-to-end方法的比较。

2.2 Two-Stage HOI Detection

如Two-stage的方法是将HOI detection分解为了目标检测以及交互分类,确切来说,人和物的目标检测是通过预训练的目标检测器得到的,然后交互分类是通过成对结合的人-物的proposals计算。这会导致子优化问题。因为产生的human-object proposals对于交互分类来说可能是低质量的,同时成对的proposals需要被处理,会造成冗余的计算开销。

The independent optimization on two sub-problems may lead to sub-optimal solution.

2.3 One-Stage HOI Detection

One-stage的方法,也就是一种surrogate interaction(替代交互检测方法),来直接优化HOI,首先交互的proposal是通过人的先验知识来pre-defined的。例如UnionDet中的porposals使用人和物体的Union bbox确定;PPDM使用类似center-net的思想,在人和物之间找到一个center-point作为interaction-point。接着,人,物以及交互的proposals都会并行的被检测。最终,在后处理中基于预定义的匹配策略,每个交互的结果会被制定为每一对(人和物 )。然而作者认为这种定义交互proposals的方法不是总有效的。

2. Contribution

本文提出了HOI Transformer,方法由2部分组成,encoder-decoder的transformer架构以及一个quintuple五元组 HOI matching loss 。

3. Method

3.1 Network Architecture

HOI 网络架构如图2所示,其中CNN 用于提取图片的特征,接着进行在通道上进行降维,在空间上进行flatten,并且结合位置编码,将这系列操作得到的features作为Q,K,V送入transformer encoder中,接着在transformer的decoder中,类似于DETR的方法,将了N个可学习的posional embedding(也就是HOI queries)转换为N个output embedding。最终, MLP结构用于预测5元组HOI实例。

整个结构基本和DETR类似,不展开描述。

  • Backbone
  • Encoder
  • Decoder: Cross-Attention 指的是encoder的输出作为Value 和Key,和decoder进行的HOI的queries作为Q 进行attention的操作。
  • MLP for HOI Prediction

3.2 HOI Instance Matching

​ 对于human-object-action的预测概率,可以由条件概率拆解为公式1,可以将human,object看成是独立事件,因此近似拆解为human的概率,object的概率以及在h,o的条件下的interaction的概率。

image-20210315211139240

Matching cost由公式2表示。

L m a t c h L_{match} Lmatch由公式3表示,分为了对h,o,r的cls cost 以及对于h,o的bbox cost。

对于cls cost/loss,采用交叉熵损失,对于bbox cost/loss,采用L1和GIOU loss。

image-20210315211127103

本文使用匈牙利算法进行二分图匹配,找到一个最优匹配。

image-20210315211134026

4. Experiments

4.1 Datasets

关于HICO-DET以及V-COCO里面的数据集组成到底有什么,作为一个知识的扩充。

​ We conduct experiments on HICO-DET [5] and V-COCO [11] benchmark to evaluate the proposed methods. HICO-DET consists of 47,776 images with more than 150K human-object pairs (38,118 images in training set and 9,658 in test set). It has 600 HOI categories over 117 interactions and 80 objects. Further, 600 HOI categories has been split into 138 Rare and 462 Non-Rare based on the number of training instances. V-COCO is a subset of MS- COCO [21], consists of 5,400 images in the trainval dataset and 4946 images in test set. Each human is annotated with binary labels for 29 different action categories (five of them do not involve associated objects).

4.2 Comparsions with SOTA

  • HICO-DET DATASETS
[HOI Transfomer] End-to-End Human Object Interaction Detection with HOI Transformer(CVPR. 2021)_第1张图片
  • V-COCO DATASETS

4.3 Ablation Study

image-20210315211419174

4.5 Discussion

泛化性

[HOI Transfomer] End-to-End Human Object Interaction Detection with HOI Transformer(CVPR. 2021)_第2张图片

4.4 Qualitative Analysis

你可能感兴趣的:([HOI Transfomer] End-to-End Human Object Interaction Detection with HOI Transformer(CVPR. 2021))