论文阅读<GDIP: Gated Differentiable Image Processing for Object-Detection in Adverse Conditions>

        这篇文章是在2022年AAAI上发表的一篇文章IA-YOLO上进行改进的,基本思想是一致的,利用的相机ISP的pipeline进行图像增强,和YOLOv3进行联合训练。

论文链接:[2209.14922] GDIP: Gated Differentiable Image Processing for Object-Detection in Adverse Conditions (arxiv.org)

代码链接:GitHub - Gatedip/GDIP-Yolo: Gated Differentiable Image Processing (GDIP) for Object Detection in Adverse Conditions | Accepted at ICRA 2023

Abstract 

        在恶劣天气和光照条件下检测物体对于自动驾驶汽车的安全和持续运行至关重要,并且仍然是一个尚未解决的问题。我们提出了一个门控可微图像处理( GDIP )模块,一个域无关的网络结构,它可以插入现有的目标检测网络,并使用恶劣条件下的图像进行端到端的训练,例如在雾和低光照下捕获的图像。我们提出的GDIP块直接通过下游的目标检测损失来学习增强图像。这是通过学习多个同时操作的图像预处理( IP )技术的参数来实现的,它们的输出结合使用通过一种新颖的门控机制学习的权重。我们通过多级引导过程对GDIP进行了进一步的改进,以实现渐进的图像增强。最后,在权衡精度和速度的基础上,我们提出了一种GDIP的变体,可以用作训练Yolo的正则化器,从而消除了在推理过程中对基于GDIP的图像增强的需求,从而获得更高的吞吐量和更合理的实际部署。通过在Pascal VOC等合成数据集以及真实雾( RTTS )和低照度( Ex Dark )数据集上的定量和定性研究,我们展示了比几种最先进的方法显著提高的检测性能。

Method

        提出了GDIP block,用于增强输入图像,以便在不利的环境下进行目标检测,GDIP包括以下几个图像处理模块(Image Processing, IP):tone correction (T ), contrast balance (C), sharpening (S), defogging (DF ), gamma correction (G), white balancing (W B), and the identity operation (I).这几个IP模块和IA-YOLO的保持一致,不同的是IA-YOLO是顺序执行模块,GDIP是使用门控机制对其进行加权。

A Gated Differentiable Image Processing(GDIP) block

        GDIP由多个具有门控机制的的IP模块Gb_{IP}组成,每个Gb模块包括一个线性层,一个可微分图像处理模块和一个门控机制(使用tanh归一化到0-1之间)。线性层(图中紫色线条块)计算两个实体:可微IP块所需的参数和作为其对应门的输入的标量值。每个Gb模块的各个线性层通过一个公共的特征嵌入作为输入,从一个共享的视觉编码器获得(对应下图中的蓝色模块Vision Encoder)。IP操作(利用预测的参数)的输出乘以门的标量输出。流程可用公式1建模,x是低光图像,z是增强图像,f是IP操作,w是门控值,N是min-max normalization operation。

论文阅读<GDIP: Gated Differentiable Image Processing for Object-Detection in Adverse Conditions>_第1张图片

Vision Encoder

        Vision encoder用于提取图像潜在特征去计算IP参数和门控值。包括5个kernel size 为3,stride 为1的卷积层,通道从64到1024,每个卷积层后连接一个average pooling,最后一层使用global average pooling,输出大小为1*1*1024,然后使用全连接层映射到1*1*256。GDIP块从视觉编码器连同不利的输入图像取这256维嵌入,并在计算必要的参数后执行图像增强。

GDIP-YOLO

        为了将GDIP与Yolo进行集成,我们使用带有GDIP的视觉编码器进行图像增强(如图所示),并将增强后的图像作为Yolo的输入。以这种方式将GDIP与Yolo集成,确保了我们的架构不需要任何额外的损失公式,并使用Yolo的标准目标检测损失        (简称Lobj)对网络进行端到端的目标检测训练。

B Multi-Level GDIP(MGDIP)

        由于只使用了视觉编码器的最后一层,限制了GDIP可用于图像处理模块学习参数的信息范围。提出了多渐进式图像增强,把GDIP模块和vision encoder的每一层集成实现,命名为MGDIP-Yolo。如图3所示,MGDIP通过将一个GDIP块的输出作为输入反馈到下一个GDIP块来逐步增强图像,其中每个GDIP块由从视觉编码器的不同层提取的特征引导。最终的增强结果用于YOLO的目标检测。MGDIP获得了获得了利用局部/全局特征属性去进行图像处理。

论文阅读<GDIP: Gated Differentiable Image Processing for Object-Detection in Adverse Conditions>_第2张图片

C GDIP block as a regularizer

        原始GDIP块使用视觉编码器来获得特征嵌入。或者,多个GDIP块可以连接到Yolo的中间层,绕过视觉编码器的需要,直接使用Yolo的嵌入来构造增强的输出,如图4所示。值得注意的是,这种增强的输出不是Yolo的输入,而是我们用于训练正则化的副产品。将该输出与输入图像的清晰版本之间的重建损失(方程2 )计算为L1范数和均方误差损失LMSE的组合。使用的总体损失函数如式( 1 )所示。3,其中α是重构损失的权重,经验设置为1 × 10 - 4。

论文阅读<GDIP: Gated Differentiable Image Processing for Object-Detection in Adverse Conditions>_第3张图片

Experiment

        使用PASCAL VOC进行训练,验证的结果如下表所示,hybrid机制是指在训练的时候以一定的概率把图像变暗。        

论文阅读<GDIP: Gated Differentiable Image Processing for Object-Detection in Adverse Conditions>_第4张图片

Conclusion

        我们提出了GDIP和MGDIP作为不利天气条件下目标检测的域无关网络架构,它可以与现有的目标检测网络一起使用,并在不同的不利条件下进行训练,正如我们在雾天和低光照条件下证明的那样。我们还提出了GDIP的训练正则化变体,在保持其原始吞吐量的同时,提高了基准Yolo在不利条件下的性能。我们的所有GDIP变体在雾天和低光照条件下的挑战性真实世界数据集上都取得了新的最先进的结果,而仅在合成的不良条件数据上进行了训练,因此表现出显著的泛化能力。未来,该工作可以扩展到其他不利工况类型(例如,雾霾、雨、雪等。)al

你可能感兴趣的:(论文阅读,深度学习)