大尺寸图像识别框架YOLT — 基于YOLO的遥感影像识别解决方案!

本文分享一个基于YOLO v2 改进的卫星图像目标检测框架 — YOLT,针对许多朋友在近期亚马逊云科技【AI For Good - 2022】挑战赛中遇到的大尺寸卫星图像识别困难的问题提供一个不错的思路。目前 YOLT 框架已更新至v4,并在 GitHub 上进行开源。

  • 开源地址:

    https://github.com/avanetten/yolt

大尺寸图像识别框架YOLT — 基于YOLO的遥感影像识别解决方案!_第1张图片

 点击阅读原文报名亚马逊云科技 【AI For Good - 2022】挑战赛


      01      

介绍

卫星遥感影像目标检测是目前CV技术的重点应用方向,卫星图像检测与一般的图像检测的主要差别在于其图像尺寸巨大(如10000 x 10000),其中目标尺寸极小(如10 x 10),且通常聚集在一起,造成通用目标检测算法识别困难。

针对这些问题,YOLT在YOLO v2的基础上进行修改,提出了一个适用于卫星图像检测的可行思路。

      02      

YOLT核心思路

在相关论文 「You Only Look Twice: Rapid Multi-Scale Object Detection In Satellite Imagery」中,YOLT 开发者列举了卫星图像识别的常见难点及解决思路(如下图)

大尺寸图像识别框架YOLT — 基于YOLO的遥感影像识别解决方案!_第2张图片

▲左侧为常见问题,右侧为对应思路

针对物体尺寸不规则、方向多样的问题,YOLT对卫星图像数据进行尺寸变换与旋转等数据增强的处理。

针对目标尺寸过小并聚集的问题,YOLT框架主要采用3种方式进行处理:

  1. 修改图像网络结构,将YOLO v2框架中的stride由32改为16,有利于检测出大小在32 x 32以下的目标

  2. 对图像进行上采样,完成图片的“解压缩”操作,即把原先的图片放大,以便检测小而密集的物体

  3. 将不同尺寸的检测模型进行融合,即Ensemble操作,由于不同目标的尺寸差异可能较大,如海港与船只、机场与飞机,Ensemble操作能够提升大尺寸差异下的识别精度。

针对卫星图像尺寸过大的问题,YOLT采用切块的方式,将原始图像切割成小块后输入模型进行训练,并结合2-(3)进行模型融合。

大尺寸图像识别框架YOLT — 基于YOLO的遥感影像识别解决方案!_第3张图片

▲ YOLT的网络结构,输出特征尺寸多为26 x 26,可以提升检测精度

      03     

  迭代及检测实例

YOLT最早版本于2018年开源,现已更新至YOLT v4,相比最初的YOLT框架具有更高的识别精度及更快的识别速度。

  • 开源地址:https://github.com/avanetten/yoltv4

从下面的检测实例中,我们可以看到YOLT是如何工作的:

大尺寸图像识别框架YOLT — 基于YOLO的遥感影像识别解决方案!_第4张图片

首先,开发团队将一张卫星图片调整至416 x 416大小(如上左),发现无法检测出车辆目标;而从原图中切割出416 x 416的区域(称其为Chips)则可以实现部分车辆目标的检测。

大尺寸图像识别框架YOLT — 基于YOLO的遥感影像识别解决方案!_第5张图片

顺着这个思路,开发团队采用划窗方式将原始图像切割为许多chips,并使相邻chips之间有一定重合(如上图),以确保图像检测的完整性,再利用NMS算法将重复检测过滤,最后将各块的检测结果进行融合,即可得出最后的结果。

大尺寸图像识别框架YOLT — 基于YOLO的遥感影像识别解决方案!_第6张图片

▲ 检测实例:采用YOLT v4识别机场中的飞机

      04      

总结

YOLT框架是对经典CV框架YOLO的改进应用,主要针对卫星遥感图像尺寸大、目标小的问题提出了切块、上采样、模型融合的几个可行Tricks。YOLT也是目前唯一开源的卫星图像识别算法框架,其精度与速度与大型遥感影像识别软件仍有一定差距,但通过处理原始数据以降低CNN模型处理难度的思路,仍可为大尺寸图像处理带来启发。

这一思路也可以运用在正在进行的亚马逊云科技【AI For Good - 2022】挑战赛中,如果你对遥感影像识别感兴趣,或者希望实践YOLT框架应用,可以扫描下方二维码或点击阅读原文进行报名。

大尺寸图像识别框架YOLT — 基于YOLO的遥感影像识别解决方案!_第7张图片

本次挑战赛不仅为优秀团队发放高额奖金及相关权益,还将邀请Top 10 团队参加亚马逊云科技2022 Summit大会进行现场路演,与CV领域专家进行面对面技术交流。另外,优胜作品将获得亚马逊官方媒体渠道内容推广,帮助CV人破解技术难题,清除职路障碍。

你可能感兴趣的:(图像识别,算法,计算机视觉,机器学习,深度学习)