目标检测系列论文:DiffusionDet(一):论文概述

解决什么问题

  • 解决的是目标检测的任务
  • 目标检测任务往往需要借口任务来进行帮助,但是作者说他不需要,他这个思路比较直接(我觉得这里就是作者强找的一个创新,但是我也不是研究目标检测的实在是没看懂)
  • 主要的创新点应该还是diffusion用在目标检测的第一篇

怎么生成

谈到diffusion怎么生成,其实主要还是两个方面:

  • 1.怎么控制
  • 2.从什么出发

怎么控制?

这里是目标检测,自然需要图像信息控制,图像信息提取有很多成熟的手段自然可以直接使用,例如作者提到的swim—transformer。

从什么出发?(本文重点)

我认为这是本文重点:
作者是从一堆随机框出发的:

  • 1.这里我们注意一个细节,作者并不是真正的和原始的diffusion一样把这个照片整个扩散成噪声。而是把这个图片当中一个或是真实的框扩散成一堆随机的框,之后做训练。反过来,做预测的时候则是随机的在这个图片上撒上去一堆随机的框再通过网络恢复成真实的框。
  • 2.diffusion是从随机的噪声里面得到一个真实的内容,那么自然是想要找什么就从什么里面找,找随机框就从随机框堆里面(一堆,可以不固定)找真整的框组(一个或是几个)
  • 3.目标空间指的是一个有四个维度的空间:目标框中心坐标(2)、目标框长宽(2);

结果具有什么优势

  • 1.这个东西训练时候的生成的噪声框和训练时候输入的噪声框的数量分布可以不同,因此有很好的自由性(diffusion都有这个效果,基于的是噪声和噪声之间是相同的认知);
  • 2.可以通过改变diffusion从真值到噪声的轮数,来平衡需求当中开销限制和精确度要求(这个其实所有的diffusion都有类似功效)

启示

主要的启示是作者提出的从一堆随机框子生成真正的框子的事情,就是diffusion并不是都应该来自于噪声图片,而是你必须想清楚你的目标结果是什么空间。你的目标是图片自然是从噪声图片出发,还是得考虑清楚生产什么东西。

你可能感兴趣的:(生成网络,目标检测,深度学习,计算机视觉)