Pix2seq: A Language Modeling Framework for Object Detection

Pix2Seq:一个简单而通用的目标检测新框架, 其将目标检测转换为语言建模任务,大大简化了pipeline,性能可比肩Faster R-CNN和DETR!还可扩展到其他任务。

注1:有点像去年看到DETR的感觉,都是没有对标sota,而是跟milestone比较。所以这一两年都要把CV看成NLP来搞么,或者说大统一

注2:文末附【Transformer】和【目标检测】交流群

Pix2seq

Pix2seq: A Language Modeling Framework for Object Detection
Pix2seq: A Language Modeling Framework for Object Detection_第1张图片
单位:谷歌大脑(Geoffrey Hinton等)

论文下载链接:https://arxiv.org/abs/2109.10852

本文介绍了 Pix2Seq,这是一个用于目标检测的简单通用框架。
Pix2seq: A Language Modeling Framework for Object Detection_第2张图片

与显式集成有关任务的先验知识的现有方法不同,我们简单地将目标检测转换为以观察到的像素输入为条件的语言建模任务。
Pix2seq: A Language Modeling Framework for Object Detection_第3张图片
Object descriptions(例如,边界框和类标签)表示为离散标记序列,我们训练神经网络来感知图像并生成所需的序列。
Pix2seq: A Language Modeling Framework for Object Detection_第4张图片
Pix2seq: A Language Modeling Framework for Object Detection_第5张图片

我们的方法主要基于这样一种直觉,即如果神经网络知道物体的位置和内容,我们只需要教它如何读取它们。

除了使用特定于任务的数据增强之外,我们的方法对任务做出了最少的假设,但与高度专业化和优化良好的检测算法相比,它在具有挑战性的 COCO 数据集上取得了有竞争力的结果。

主要内容:
Pix2seq: A Language Modeling Framework for Object Detection_第6张图片

实验结果

Pix2seq: A Language Modeling Framework for Object Detection_第7张图片
Pix2seq: A Language Modeling Framework for Object Detection_第8张图片
Pix2seq: A Language Modeling Framework for Object Detection_第9张图片

CVer-目标检测交流群

已建立CVer-目标检测微信交流群!想要进目标检测学习交流群的同学,可以直接加微信号:CVer9999。加的时候备注一下:目标检测+学校/公司+昵称,即可。然后就可以拉你进群了。

CVer-Transformer交流群

建了CVer-Transformer交流群!想要进Transformer学习交流群的同学,可以直接加微信号:CVer9999。加的时候备注一下:Transformer+学校/公司+昵称,即可。然后就可以拉你进群了。

强烈推荐大家关注CVer知乎账号和CVer微信公众号,可以快速了解到最新优质的CV论文。

Pix2seq: A Language Modeling Framework for Object Detection_第10张图片

你可能感兴趣的:(Transformer,计算机视觉论文速递,目标检测,深度学习,自然语言处理,神经网络,计算机视觉)