HOI任务:PPDM论文阅读[精度]

摘要

作者提出单阶段的HOI检测方法,表现SOTA。这是第一个实时的HOI检测方法。传统的的HOI检测方法由两个阶段组成,但是它的有效性和效率受到顺序和独立架构的限制。文中作者提出PPDM的HOI检测框架。在PPDM中,HOI被定义为一个point triplet,其中human point和object point是检测框的中心,interaction point是human point和object point的中点。

PPDM包含了两个并行分支,也就是点检测分支点匹配分支。其中点检测分支预测是三个点,点匹配分支预测从interaction point到对应的human point和 object point的偏移。如果human point和object point是来自同一个interaction point,则认为它们是匹配的。

在作者新颖的并行框架中,interaction point 隐式地为人和物的检测提供了上下文和正则化。抑制孤立的检测boxes,因为它不可能形成有意义的HOI triplets(个人理解:人-物候选区单独产生,没有考虑到他们之间的联系,这种情况不利于检测,所以要抑制),这增加了HOI的检测精度。更何况人和物检测的boxes只是应用在数量有限并过滤过的候选interation point,节省了大量计算消耗。此外,作者了建立了一个新的数据集HOI—A。

1.Introduce

传统的HOI方法由两个阶段组成。第一个阶段是人-物候选区检测。这阶段可以得到很多大量的人-物对候选区(M×N)。第二阶段是预测每个人-物候选区的交互。这种两个阶段方法的有效性和效率受到顺序性和独立性的限制。候选区的产生阶段完全基于对象检测的置信度。每个人/物候选去单独产生。组合两个候选区形成有意义的HOItriplet的可能性在第二阶段并没有考虑(个人理解:就是摘要中所说到的受到到独立架构的限制)。所以,产生的人-物候选区可能质量较低,并且在第二阶段,所有人-物候选区需要线性扫描,开销很大。所以作者认为需要非顺序性的和高耦合度的框架。

PPDM的第一个分支估计中心点(interation,human和object point),对应大小,和两个局部偏移(human和object point)的点检测。因为interaction point可以认为给人和物的检测提供上下文信息,也就是说,对interation point的估计可以隐式地增强人和物的检测(个人理解:交互点的估计需要增加感受野,因为需要人和物的信息,所以感受野的增大也有利用为人和物的检测)。第二个分支是点匹配,估计interation point到human point和object point的偏移。

作者贡献有三:(1)把HOI检测任务视为点检测和点匹配问题,并提出单阶段的PPDM。(2)PPDM是第一个在HOCI—DET和HOI—A benchmark中达到实时并表现SOTA的的HOI检测方法。(3)HOI-A

2. Related Work

略略略....

3. Parallel point dection and matching

3.1 Overview

图3.作者首先应用keg-point heatmap预测网络来提取提取特征,如Hourglass-104 or DLA-34。a) Point Detection Branch:基于提取的视觉特征,作者利用三个卷积模块来预测heatmap中的交互点,人中心点和物中心点,此外,回归的2-D size和人和物的局部偏移来产生最后的box。b) Point Matching Branch:此分支的第一步是分别回归从交互点到人中心点到物中心点的偏移。基于预测的点和位移,第二步是每一个交互点匹配人中心点和物中心点来产生一系列的tirplets。

3.2 Point Detection

图3中输入图像是​,经过特征提取器产生的特征​。人中心表示为​,其对应的大小为​,局部偏移量为​,弥补输出步幅引起的离散化误差。GT人中心点对应的低分辨率点(heatmap产生)为​的向下取正。

Point location loss. 直接检测点比较困难,所以作者使用关键点估计方法将点映射到高斯核热图中。所以点检测转换为heatmap估计任务。三个GT低分辨率的点分别映射到三个高斯heatmap,包括人中心点heatmap ​,物中心点heatmap ​,交互点heatmap ​,其中 ​和​是多通道的。在特征映射​上,分别添加三个卷积网络来产生三个heatmap。loss 函数为:

Size and offset loss.四个卷积模块添加到特征映射​来分别产生人和物的产生2-D size和局部偏移。​为

3.3 Point Matching

偏移分支有两个卷积模块组成。

Diaplacement loss:

Triplet matching: 判断人中心点和物中心点是否匹配看两个方面,一是交互点加上偏移后,靠不靠近大概的人/物的中心点,二是有高的置信度。

3.4 Loss and Inference

最后的loss为:

在推理阶段,作者首先在预测的人、物和交互点的heatmap上用一个3x3 max-pooing操作,然后通过对应的置信度选择top K个人中心点,物中心点和交互点,最后triplets匹配。对于每个匹配的人中心点,最后得到的box为:

4 个人总结

1.文章解决什么问题:

解决传统的两阶段HOI检测问题。

2.用自己的话阐述文章思路

作者提出并行的单阶段的HOI检测网络,PPDM。PPDM首先用key-point heatmap预测网络来提取特征,然后有两个并行分支,分别是点检测分支和点匹配分支。在点检测分支中,预测三点(人中心点、物中心点、交互点)基于对应大小,以及局部偏移。在点匹配分支中,预测交互点到人中心点和物中心点的偏移,根据置信度选取TOP K个人中心点、物中心点和交互点,最后匹配triplets。

3.关键因素

  • 直接预测点比较困难,所以将点映射到高斯核热图中,将点检测转换为 heatmap估计任务。
  • 传统的HOI检测是顺序性的两个阶段,先候选区检测再是预测交互,而PPDM则是并行分支。一个分支预测人-物box及其交互点,另一个分支则预测交互点和人-物中心点的偏移。
  • 传统的HOI检测人-物检测是单独,没有考虑到他们之间的联系,而PPDM则是人中心点-交互点-物中心点一起估计,为了更好地检测交互点,增加感受野,感受野中带有人-物的上下文信息,这考虑到了它们之间的联系。

4.为我所用

  • 通过key-point heatmap网络,将直接点预测转换为在heatmap上预测。
  • PPDM的并行分支分别负责不同的任务。

你可能感兴趣的:(深度学习,神经网络,图像识别,机器学习,算法)