作者:计算机视觉研究院
编辑:3D视觉开发者社区
今天分享的研究者提出了一种基于最先进的YOLO框架的高效、低复杂度和无锚的目标检测器,该检测器可以在边缘计算平台上实时实现。
代码地址:https://github.com/LSH9832/edgeyolo
研究者开发了一种增强的数据增强方法来有效抑制训练过程中的过拟合,并设计了一种混合随机损失函数来提高小目标的检测精度。受FCOS的启发,提出了一种更轻、更高效的解耦头,可以在不损失精度的情况下提高推理速度。提出的基线模型在MS COCO2017数据集中可以达到50.6%的AP50:95和69.8%的AP50准确度,在VisDrone2019 DET数据集可以达到26.4%的AP50:95和44.8%的AP50准确度,并且它满足边缘计算设备Nvidia Jetson AGX Xavier的实时性要求(FPS≥30)。
在常见的目标检测数据集(如MS COCO2017)上,使用两阶段策略的模型比使用一阶段策略的要好一点。尽管如此,由于两阶段框架的内部限制,它远远不能满足传统计算设备的实时性要求,并且在大多数高性能计算平台上可能面临同样的情况。相比之下,单级目标检测器可以在实时指标和性能之间保持平衡。因此,他们更受研究人员的关注,YOLO系列算法以高速迭代更新。从YOLOv1到YOLOv3的更新主要是对底层框架结构的改进,YOLO的大多数后期主流版本都专注于提高精度和推理速度。
此外,他们的优化测试平台主要是具有高性能GPU的大型工作站。然而,他们最先进的模型在这些边缘计算设备上通常以令人不满意的低FPS运行。为此,一些研究人员提出了参数较少、结构较轻的网络结构,如MobileNet和ShuffleNet,以取代原有的骨干网络,从而在移动设备和边缘设备上实现更好的实时性能,但要牺牲一定的精度。在今天分享中,研究者的目标是设计一种具有良好精度并可以在边缘设备上实时运行的物体检测器。
如下图所示,研究者还为计算能力较低的边缘计算设备设计了更轻、参数更少的模型,这些设备也显示出更好的性能。
随机数据扩充不可避免地会导致一些标签无效,例如(a)中第二张图的右下角和第三张图的左下角。虽然有方框,但它们不能提供有效的目标信息。标签数量过少会对训练产生明显的负面影响,可以通过增加(b)中的有效方框数量来避免这种影响。
常用的数据增强策略如下(a)和(b)所示,但是(a)和(b)由于数据变换,容易包含不含有效目标的图像,此外这种情况的概率随着每个原始图像中标签数量的减少而逐渐增加。
作者因此提出的方法©:
首先,对多组图像使用Mosaic方法(可以根据数据集中单个图片中标签的平均数量的丰富程度来设置组数)
然后,通过Mixup方法将最后一个简单处理的图像与Mosaic处理的图像混合(最后一幅图像的原始图像边界在变换后的最终输出图像的边界内)
解耦头首先在FCOS中提出,然后用于其他Anchor-Free目标检测器,如YOLOX。在最后几个网络层使用解耦结构可以加速网络收敛并提高回归性能。但是由于解耦头采用了导致额外推理成本的分支结构,因此YOLOv6提出了具有更快推理速度的高效解耦头,这将中间3×3卷积层的数量减少到仅一层,同时保持与输入特征图相同的更大数量的通道。
但是这种额外的推理成本随着通道和输入大小的增加也变得更加明显。因此引入重参化的技术增强学习能力的同时加快推理。
版权声明:本文为奥比中光3D视觉开发者社区特约作者授权原创发布,未经授权不得转载,本文仅做学术分享,版权归原作者所有,若涉及侵权内容请联系删文。
3D视觉开发者社区是由奥比中光给所有开发者打造的分享与交流平台,旨在将3D视觉技术开放给开发者。平台为开发者提供3D视觉领域免费课程、奥比中光独家资源与专业技术支持。
加入【3D视觉开发者社区】学习行业前沿知识,赋能开发者技能提升!
加入【3D视觉AI开放平台】体验AI算法能力,助力开发者视觉算法落地!
1、奥比中光&英伟达第三届3D视觉创新应用竞赛圆满落幕!
2、 速来!2023第三届3D视觉创新应用竞赛决赛即将开启!
3、开发者社区「运营官」招募启动啦!_奥比中光3D视觉开发者社区的博客-CSDN博客
4、为什么你的手机后置摄像头越来越丑?ECCV2022这篇论文告诉你_奥比中光3D视觉开发者社区的博客-CSDN博客