QPIC阅读笔记

QPIC思路:
它认为 基于卷积的HOI有一定的局限性,在那种它容易受目标框的影响,从而丢失一些重要的特征。且论文也举了例子,那些一阶段的方法,倾向于捕获人物对的交互区域信息。然后他放出了几个图说明上述都是有偏颇的。
QPIC阅读笔记_第1张图片如放放风筝,在风筝和人中间也存在着人,这样会造成动作的主体误判,而且人物遮挡严重和重叠严重的时候,也会污染到提取到的特征。而transformer的编码器可以很好的提取到全局的语义特征,再鼓吹了一波tansformer。但是,现阶段,在cnn的实际操作中,也会有一些随机裁剪的操作,来减少cnn提取到误差的情况。
QPIC阅读笔记_第2张图片所谓的基于查询和图片的上下文信息的人物交互
思路如下:
1、采用CNN提取特征,然后进行1x1卷积,来降低它的通道数。
QPIC阅读笔记_第3张图片
2、用提取降维后的特征,加上一串固定位置编码p,然后输入到编码器,做自注意力操作。

3、论文里说,解码器是把一个可以学习的Query序列 Q 转换成一个嵌入 D,D中包含着图片的全局语义信息。其中解码器的每一个Query序列都被设计成一个可以捕获一对任务对和交互动作。D是由 编码器的输入Ze作为Value,前一个步骤的固定位置编码p作为Key,可以学习的一串向量作为Query。

4、最后将D输入到4个前馈神经网络,分别预测人框,物框,物体类别和动作交互类别。

你可能感兴趣的:(HOI,深度学习,人工智能)