下一代视觉Transformer:CNN+Transformer=Better

2024深度学习发论文&模型涨点之——CNN+Transformer

CNN擅长提取图像的局部特征,而Transformer则以其自注意力机制在捕捉全局信息和长距离依赖方面表现出色。近年来,研究者们开始探索将这两种模型结合起来,以期在视觉任务中取得更好的性能。

在实际应用中,CNN+Transformer的混合模型已经在图像分类、目标检测、语义分割等多个计算机视觉任务中取得了显著成果。例如,在图像分类任务中,混合模型能够通过结合CNN的局部特征提取能力和Transformer的全局信息建模能力,在ImageNet等基准数据集上取得了更高的分类准确率。

小编整理了一些CNN+Transformer论文合集,需要的同学在公众号【AI创新工场】领取。

论文精选

论文1:

Pairwise CNN-Transformer Features for Human–Object Interaction Detection

用于人体-物体交互检测的成对CNN-Transformer特征

方法

  • 成对CNN-Transformer(PCT)模型:提出了一种新的两阶段方法,该方法结合了对象检测器和丰富的上下文信息。

  • 特征融合:通过融合CNN和Transformer特征来增强成对表示,提高了特征表达能力。

  • 全局特征利用:使用Transformer的全局特征为模型提供有价值的上下文线索。

  • 交互头设计:引入全局特征到交互头中,通过交叉注意力机

你可能感兴趣的:(transformer,cnn,深度学习)