DETR 学习笔记

11年it研发经验,从一个会计转行为算法工程师,学过C#,c++,java,android,php,go,js,python,CNN神经网络,四千多篇博文,三千多篇原创,只为与你分享,共同成长,一起进步,关注我,给你分享更多干货知识!

DETR简介

Detection with Transformers

Facebook AI 的研究者推出了 Transformer 的视觉版本——Detection Transformer(DETR,用于目标检测和全景分割。与之前的目标检测系统相比,DETR 的架构进行了根本上的改变。这是第一个将 Transformer 成功整合为检测 pipeline 中心构建块的目标检测框架

 

显存占用非常大,每块V100(32G显存)只能放下四张图片的batch,64个batch是用了16块V100实现的。在 V100/A100/相同量级的显卡 普及之前,或者这类模型被简化之前,这个工作注定是普通炼丹群众无法follow的。

 

DETR 将目标检测任务视为一种图像到集合(image-to-set)的问题。给定一张图像,模型必须预测所有目标的无序集合(或列表),每个目标基于类别表示,并且周围各有一个紧密的边界框。这种表示方法特别适合

你可能感兴趣的:(深度学习宝典)