目标检测算法回顾之思考与总结

目标检测算法回顾之思考与总结

  • 总结
  • 思考
  • 作业

说明:本文仅供学习

目标检测算法回顾之思考与总结_第1张图片

总结

目标检测算法回顾之思考与总结_第2张图片
从前面对目标检测算法的回顾来看,我们可以看出目标检测算法实际上从繁到简(如anchor,nms,iou等是一个有设置到adaptive再到free的一个过程,又如multi-stage到one-stage),从粗到细(如iou和nms考虑更多的细节,比如密集程度,更多的定位信息)而发展的。

  • 从部件和训练技巧上来看
    • 模型在候选区域的选择由anchor-based到anchor-free,实现了由bounding box学习到bounding box调整,再到把bbox转化为基于point/pixel的学习。
    • 模型在后处理的方式由传统nms发展到nms-free的时代。
    • 评价标准的iou也是在一步一步的涵盖更多有关两框之间的相对位置的学习,从一个数据计算过的过程转化网络自适应学习的过程,再到现在iou-free的时代。
  • 从训练阶段来看
    • 模型由最初传统的复杂流程到以为r-cnn为首的two-stage时代再到one-stage时代,是一个从简的过程,由非端到端再到端到端实现了模型的自主学习,模型速度由慢到快的进化。
  • 从模型与特征来看
    • 模型的发展可以概括为传统算法到cnn-based再到transformer-based,特征也是由原来的设计到抽象再到有关注的特征上。

思考

目标检测算法回顾之思考与总结_第3张图片

  • 虽然目标检测算法现在发展已经相对比较成熟,但是没有最好只有更好(哈哈).
  • 对于CV任务,虽然CNN还是比较重要有效的,但是transformer-based的方法现在非常的火,也是一个比较好发paper的方向。
  • 有关transformer在医学图像的可能性?
    • 由于我自己之前毕设是做医学图像检测的,而且上一组同学也讲了一些transformer在医学图像上分割的方法,那么transformer在医学图像这种小数据集上有没有一些好的发展挖掘?前面同学都讲到transformer很依赖预训练,尤其是ViT这种改进的检测模型(这点我自己在跑实验的时候也有发现涨点很高,收敛也会大大加快),而且ImgaeNet预训练的模型也可以对医学图像的预训练有所提升。(虽然我自己也感觉两者之间的分布差异是比较大的)。
    • 在上上周,同学也提到了cross-attention这个机制,目前这个研究方向的确也挺火的,但corss-attention应该怎么加,怎么设计,怎么更有效?是否更加合适小数据集?(前面看的论文对corss-attention也有一定相关的讨论),这里因为有关这方面看的论文还不是那么多,所以就先不发表观点了吧。但基于cross-attention的改进也可以考虑一下。
    • 前段时间,一些基于小数据处理的transformer,尤其是ViT的研究也开始处于一个比较火的状态。而前面我们讲到了以ViT作为backbone的预训练模型它是很容易迁移到其他基本的模型上去的。那前面这些基于small dataset的ViT方法也可以进行一定的魔改并加以应用到我们自己的模型上。通过阅读可以发现基本上基于small dataset的ViT方法大多是通过自监督、多示例的训练方式来使ViT适应与小数据集。所以,个人人为transformer在医学图像上还是由比较多的发展可能性!感兴趣的同学可以看看上面的文章,这里我就不再一一展开介绍了。

作业

下面是本次专题汇报的class project
目标检测算法回顾之思考与总结_第4张图片
本次汇报到此结束,欢迎大家一起交流与讨论。

你可能感兴趣的:(研一学习资料,深度学习与计算机视觉,#,目标检测学习笔记,目标检测,算法,计算机视觉)