语言模型“不务正业”做起目标检测,性能还比DETR、Faster R-CNN更好 | Hinton团队研究...
博雯发自凹非寺量子位报道|公众号QbitAI长期以来,CNN都是解决目标检测任务的经典方法。就算是引入了Transformer的DETR,也是结合CNN来预测最终的检测结果的。但现在,GeoffreyHinton带领谷歌大脑团队提出的新框架Pix2Seq,可以完全用语言建模的方法来完成目标检测。团队由图像像素得到一种对目标对象的“描述”,并将其作为语言建模任务的输入。然后让模型去学习并掌握这种“语