谷歌Hinton等提出Pix2seq:用于目标检测的语言建模框架

Pix2Seq:一个简单而通用的目标检测新框架, 其将目标检测转换为语言建模任务,大大简化了pipeline,性能可比肩Faster R-CNN和DETR!还可扩展到其他任务。

注1:有点像去年看到DETR的感觉,都是没有对标sota,而是跟milestone比较。所以这一两年都要把CV看成NLP来搞么,或者说大统一

注2:文末附【Transformer】和【目标检测】交流群

Pix2seq

Pix2seq: A Language Modeling Framework for Object Detection
在这里插入图片描述
单位:谷歌大脑(Geoffrey Hinton等)

论文下载链接:https://arxiv.org/abs/2109.10852

本文介绍了 Pix2Seq,这是一个用于目标检测的简单通用框架。
在这里插入图片描述

与显式集成有关任务的先验知识的现有方法不同,我们简单地将目标检测转换为以观察到的像素输入为条件的语言建模任务。
在这里插入图片描述
Object descriptions(例如,边界框和类标签)表示为离散标记序列,我们训练神经网络来感知图像并生成所需的序列。
在这里插入图片描述
在这里插入图片描述

我们的方法主要基于这样一种直觉,即如果神经网络知道物体的位置和内容,我们只需要教它如何读取它们。

除了使用特定于任务的数据增强之外,我们的方法对任务做出了最少的假设,但与高度专业化和优化良好的检测算法相比,它在具有挑战性的 COCO 数据集上取得了有竞争力的结果。

主要内容:
在这里插入图片描述

实验结果

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

CVer-目标检测交流群

已建立CVer-目标检测微信交流群!想要进目标检测学习交流群的同学,可以直接加微信号:CVer9999。加的时候备注一下:目标检测+学校/公司+昵称,即可。然后就可以拉你进群了。

CVer-Transformer交流群

建了CVer-Transformer交流群!想要进Transformer学习交流群的同学,可以直接加微信号:CVer9999。加的时候备注一下:Transformer+学校/公司+昵称,即可。然后就可以拉你进群了。

强烈推荐大家关注CVer知乎账号和CVer微信公众号,可以快速了解到最新优质的CV论文。

在这里插入图片描述

你可能感兴趣的:(计算机视觉论文速递,Transformer,目标检测,深度学习,神经网络,计算机视觉,目标检测)