FuseSeg-基于RGB和Thermal数据融合的城市场景语义分割

Overview

Title:FuseSeg: Semantic Segmentation of Urban Scenes Based on RGB and Thermal Data Fusion 基于rgb和热数据融合的城市场景语义分割

Time:2020

Journal:IEEE TRANSACTIONS ON AUTOMATION SCIENCE AND ENGINEERING

Majors:Semantic Segmentation

Link:


Summary

  • 当前语义分割网络大多使用单模态传感器数据,通常是可见光相机产生的RGB图像。然而当不满足照明条件时,这些网络的性能急剧下降。而热图像能克服照明条件差的情况。
  • 本文提出FuseSeg(一种RGB+Thermal的融合新网络),以实现城市场景中语义分割的卓越性能。
  • 激光雷达也可以在不理想的照明条件下工作。使用热像仪的优势在于:
    • 首先,热像仪比可见相机昂贵,但仍比激光雷达便宜得多。
    • 其次,热图像本质上是灰度图像。计算机视觉的技术可以直接用于热成像。如,成功的cnn可以直接用于热图像以提取特征,而无需进行任何修改。
    • 第三,热成像相机可以提供实时密集的图像,例如可见光相机。但是,Lidar点云比热图像稀疏得多,并且帧速率很慢。对于语义理解任务,稀疏测量(64线)可能会忽略对象的细节或远距离的小对象,而缓慢的帧率可能会引入伪影或运动扭曲,这可能会阻碍感知。
    • 最后,激光雷达在机械上很复杂,电机和齿轮等机械零件会受到摩擦和磨损,使激光雷达在长期运行中不那么耐用。而热成像摄像机只是电子设备,可以放置在车辆内部,如可视摄像机。他们可以长期工作而不需要额外的维护。

Contributions

  • 开发了一种新颖的RGB热数据融合网络,用于城市场景中的语义分割。当不满足照明条件 (例如昏暗的光线,完全黑暗或即将来临的大灯) 时,该网络可用于获得准确的结果,这比单模态网络具有优势。
  • 使用Monte Carlo (MC)dropout技术构建贝叶斯FuseSeg,以分析语义分割结果的不确定性。比较了不同dropout的表现。
  • 证明了FuseSeg的优势和对rgb-d数据的泛化能力。

Model

FuseSeg-基于RGB和Thermal数据融合的城市场景语义分割_第1张图片

  • FuseSeg :由两个用于从输入图像中提取特征的编码器和一个用于恢复分辨率的解码器组成。两个编码器分别将三通道 RGB 和单通道热图像作为输入。
  • 采用 DenseNet作为编码器的主干。我们在我们的网络中创新地提出了 TSF 策略。如图 2 所示,在第一阶段,我们通过 RGB 编码器中的元素求和来分层融合相应的热特征图和RGB特征图。除了底部的融合特征图,然后在第二阶段通过张量连接将其与解码器中的相应特征图再次融合。最下面的是直接复制到解码器而不是串联。通过我们的 TSF 策略,可以恢复由于密集下采样而丢失的空间信息。
  • 白色矩形代表从RGB编码器复制的融合后的feature map。紫色箭头和绿色箭头分别表示解码器中的特征提取器和上采样。s表示RGB图像和热图像的输入分辨率,相同level的feature map分辨率相同。表示不同层feature map的通道数。

Evaluation

Acc ⁡ i = ∑ k = 1 K θ i i k ∑ k = 1 K θ i i k + ∑ k = 1 K ∑ j = 1 , j ≠ i N θ i j k \operatorname{Acc}_{i}=\frac{\sum_{k=1}^{K} \theta_{i i}^{k}}{\sum_{k=1}^{K} \theta_{i i}^{k}+\sum_{k=1}^{K} \sum_{j=1, j \neq i}^{N} \theta_{i j}^{k}} Acci=k=1Kθiik+k=1Kj=1,j=iNθijkk=1Kθiik

IoU ⁡ i = ∑ k = 1 K θ i i k ∑ k = 1 K θ i i k + ∑ k = 1 K ∑ j = 1 , j ≠ i N θ j i k + ∑ k = 1 K ∑ j = 1 , j ≠ i N θ i j k \operatorname{IoU}_{i}=\frac{\sum_{k=1}^{K} \theta_{i i}^{k}}{\sum_{k=1}^{K} \theta_{i i}^{k}+\sum_{k=1}^{K} \sum_{j=1, j \neq i}^{N} \theta_{j i}^{k}+\sum_{k=1}^{K} \sum_{j=1, j \neq i}^{N} \theta_{i j}^{k}} IoUi=k=1Kθiik+k=1Kj=1,j=iNθjik+k=1Kj=1,j=iNθijkk=1Kθiik


Experiments

A. Ablation for Encoders
在这里插入图片描述

  • 使用 DenseNet161 获得了最佳性能。
    FuseSeg-基于RGB和Thermal数据融合的城市场景语义分割_第2张图片
  • 所有使用DenseNet161的网络都比其他网络获得更高的精度。
  • 比较NTE和NRE,我们发现所有的NRE结果都比NTE好。这表明热信息在我们的网络中起着重要的作用。

B. Ablation for Fusion Strategy
FuseSeg-基于RGB和Thermal数据融合的城市场景语义分割_第3张图片
C. Ablation for Decoder
FuseSeg-基于RGB和Thermal数据融合的城市场景语义分割_第4张图片
D. COMPARATIVE STUDY

  • Overall Results
    FuseSeg-基于RGB和Thermal数据融合的城市场景语义分割_第5张图片
  • Daytime and Nighttime Results
    FuseSeg-基于RGB和Thermal数据融合的城市场景语义分割_第6张图片
  • Inference Speed
    FuseSeg-基于RGB和Thermal数据融合的城市场景语义分割_第7张图片

Conclusions


Notes


References

你可能感兴趣的:(RGBT,计算机视觉,人工智能,深度学习)