Grounding DINO:开放集目标检测,将基于Transformer的检测器DINO与真值预训练相结合
文章目录背景知识补充CLIP(ContrastiveLanguage-ImagePre-training):打破文字和图像之间的壁垒DINO(Data-INterpolatingNeuralNetwork):视觉Transformer的自监督学习StableDiffusion:从文本描述中生成详细的图像Open-setDetector开集检测器一、GroundingDINO的创新点二、Ground