Deep Contextual Attention for Human-Object Interaction Detection阅读笔记

前言

论文地址
Deep Contextual Attention for Human-Object Interaction Detection阅读笔记_第1张图片

笔记

  1. 这篇文章写的非常清楚,我们直奔主题就好,作者提出了一个基于上下文注意力机制的网络,这个网络可以通过学习contextually-aware appearance特征来利用上下文信息识别HOI的模型。并且这个提出的注意力机制模型还能自适应的选取相关的以实例为中心的上下文信息去增强可能包含HOI的图像区域。
  2. 直接来看整个框架
    Deep Contextual Attention for Human-Object Interaction Detection阅读笔记_第2张图片
    比较新的东西就是红色矩形标出的context-Aware Appearance和Contextual Attention。其他部分都是之前提到过的,特别是上边的pairwise Stream和之前论文中使用的方法完全一致这里不再过多赘述。
    Deep Contextual Attention for Human-Object Interaction Detection阅读笔记_第3张图片
    网络的输入输出这里写的非常清楚,输入就是目标检测器FPN检测出来的bounding-box,输出就是一个三元对,人,动作,目标。
  3. 重点理解下边的human stream和object stream,两个其实都是一回事,只是输入不同。以human stream为例,使用目标检测器检测出来的bounding box去crop Res5层的特征得到feature map送入Context-Aware Appearance,
    Context-Aware Appearance得到的特征再送入Contextual。下图是这两个东西的具体结构图。
    Deep Contextual Attention for Human-Object Interaction Detection阅读笔记_第4张图片
    这个从特征图上crop下来的特征,送入CAA之后可以得到appearance特征和context信息的混合encoding。然后这个混合的encoding送入CA模块去抑制这个背景噪声从而导致一个调制特征的表示。为了进一步丰富这个调制特征,使用了一个attention refinement block去处理,以获取更精细的调制特征。最终,上下文外表特征和精细的调制特征被合并去从human stream中获取动作预测。
  4. 关于这个CAA模块,里边有两个东西,一个是Context Aggregation,另一个是Local Encoding。前者是为了在保留空间信息的情况下捕获一个较大的视野去整合周围信息。其实就是使用了一个大的卷积核做卷积,这里的大的卷积核不是trivial k × k convolution而是factorized large kernel,为何要用大的卷积核?这里我查阅了相关资料:现在的模型设计倾向于使用小的卷积核来堆叠替代大的卷积核以减少参数的数量,虽然堆叠多个小的卷积核和一个大的卷积核在理论上具有相同的感受野,但是如果调大输入图像的尺寸,则感受野可能就不能覆盖全部物体了。并且虽然有多个卷积核叠,但是边缘区域进行计算的次数会小于中心区域,所以随着 Conv 的不断堆叠,实际上会导致边缘感受野的衰减,即有效感受野会远小于理论感受野。 所以说这个Context Aggregation出去的还是一个feature map只不过通道数改变了(信息被聚合了),接下来是local encoding,这里其实就是一个池化操作,但和一般的目标检测模型中使用ROI pooling不同,这里作者用的是一种位置敏感的RoI池化操作,作者的灵感应该是来自于R-FCN,只是做了一些小的改进,总之这个pooling过后就会把输入的不同size的特征图pooling到固定的尺寸,再打平通过一个FC就得到了固定维度的上下文外观特征fapp。然后这个东西就要送进下边的CA模块。
  5. CA模块包含一个自底向上的注意力机制和注意力细化成分。自底向上的注意力机制基于这篇文章,从图上来看,就是上边产生的fapp和使用11卷积核对Res5 feature map做卷积产生512通道的A做点积,得到一个attention map,然后这个attention map再去调制A,最终输出的在这里插入图片描述
    然后Fm再送进一个attention refinement block进一步增强辨识能力。
    Deep Contextual Attention for Human-Object Interaction Detection阅读笔记_第5张图片
    这个图上边的Spatial Refinement是使用一个1
    1的卷积核对Fm做卷积生成一个单通道的heatmap H,然后对H做基于normalization的softmax操作,再乘上Fm得到Satt。下边的Channel Refinement基于SENet的灵感,先对Fm做一个全局池化然后再squeeze到a channel descriptor z。然后使用两个FC层一个激活函数RELU一个激活函数是sigmoid得到:
    在这里插入图片描述
    然后把Catt和上边的Satt相乘得到细化的调制特征表示
    在这里插入图片描述
    最后再对Fr做一次GAP得到fr,然后concatenate fr和fapp得到最终的特征x。然后x再通过两层FC layers去从human stream中估计行为预测。
  6. 后边就是实验相关的内容不再赘述,最后的总结提出了一个针对HOI的深度上下文注意力网络,不仅学习了人和物体的上下文外观特征,还抑制了背景噪声,并且注意力模型可以自适应的选择对捕捉HOI重要的那些以实例为中心的上下文信息。

你可能感兴趣的:(HOI,深度学习,计算机视觉,人工智能)