技术分享 | 半监督学习介绍

/ 背景 /

遥感图像的语义分割在城市规划、变化检测和地理信息系统建设中具有重要意义。在过去的几年中,一些研究者利用SIFT信息、纹理信息等特征对超像素进行分类。在多尺度上选取合适的超像素对遥感图像进行分割。在超像素方法的基础上,许多方法可以对遥感图像的不同区域进行分割。然而,由于超像素区域具有相同的标签,很难获得满意的分割结果。

近年来,相关的深度学习方法在语义图像分割方面取得了很大的进展,如FCN、UNet、DeepLab等。在深度学习的基础上,许多遥感图像分割方法也得到了发展。它们可以得到更精确的分割结果。

技术分享 | 半监督学习介绍_第1张图片

不幸的是,标记大量的样本是非常昂贵和耗时的,特别是在密集的预测问题,如语义分割。因为我们需要标记每个像素,标记成本是图像级标注难度的60倍以上。最近的研究表明,使用大量未标记数据和少量标记数据的半监督学习(SSL)对分类非常有益。这些方法可以分为一致性方法,伪标签方法,表征学习。一些工作试图将SSL应用于语义分割。naive-student使用一个大模型来生成带有未标记视频序列的伪标签,并应用迭代训练来进一步改进。它们只考虑具有原始输入images的伪标签,没有扰动。最近在CCT中的一项工作考虑对图像添加扰动以进行语义分割,但它们在不同的子解码器中转发具有不同扰动的图像,并加强子解码器与主解码器之间的一致性。因此,这种方法不可避免地会增加内存消耗,难以应用于高分辨率数据。也有一些作品关注生成方法。AdvSemiSeg和S4Gan中的工作都采用了一般对抗网络,并训练了对未标记数据有鉴别损失和对标记数据有监督损失的模型。

/ 我们怎么做 /

我们首先探索了基于self training的半监督语义分割方法。最近,语义分割取得了重大进展。然而,监督语义分割的成功通常依赖于大量的标记数据,这是耗时且成本高昂的。受图像分类的半监督学习方法的成功启发,我们提出了一种简单而有效的语义分割半监督学习框架。我们证明了问题出在细节上:一组简单的设计和训练技术可以显著提高半监督语义分割的性能。先前的工作未能在伪标签学习中有效地使用强增强,因为强增强导致的分布不均等损害了批归一化统计。我们设计了一种新的批处理规范化,即特定于分布的批处理标准化(DSBN)来解决这个问题,并表明了强增强对语义分割的重要性。此外,我们设计了自校正损耗,这在抗噪声方面是有效的。我们进行了一系列消融研究,以显示每个组件的有效性。我们的方法在Cityscapes和Pascal VOC数据集的半监督设置中实现了最先进的结果。

技术分享 | 半监督学习介绍_第2张图片

我们继续探索基于一致性的半监督算法。当前最先进的半监督语义分割方法探索了一致性规则化的潜力。在训练期间约束教师和学生网络之间的相似性。图像上的数据增强通常在训练期间应用于学生网络,并使用具有不同初始化的多个网络。典型的网络扰动方法CPS将同一图像送到两个不同的初始化网络中,并使用从一个分支生成的伪标签来监督另一个分支。注意,这两个分支在训练过程中使用反向传播而不使用移动平均进行优化。因此,模型“忘记”了重要的历史信息。为了进一步提高半监督语义分割模型的性能,我们提出了一种新的互知识提取框架。基于具有不同初始化参数的两个共同训练分支,我们进一步使用两个辅助均值教师模型来记录训练过程中的信息,并提供额外的监督。从一个教师网络生成的伪标签监督另一个学生,反之亦然。弱增强被应用于教师的输入图像,以增加对预测的信心。此外,学生的输入图像也得到了增强,以使样本多样化。受先前应用于图像分类的隐式语义数据挖掘的启发,我们进一步增强了学生的特征以进行分割。来自教师网络的伪标签往往更可靠,而学生网络可以在更多样和更具挑战性的样本上进行训练。

技术分享 | 半监督学习介绍_第3张图片

/ 未来展望 /

现在的半监督学习在使用时,对于无标签数据的选择上是有先验条件的,我们期望在今后的研究中突破这些先验条件,做一个更加统一的架构。

参考文献:

  1. Yuan J, Liu Y, Shen C, et al. A Simple Baseline for Semi-supervised Semantic Segmentation with Strong Data Augmentation[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 8229-8238

  2. Yuan J, Ge J, Qian Q, et al. Semi-supervised Semantic Segmentation with Mutual Knowledge Distillation[J]. arXiv preprint arXiv:2208.11499, 2022.

作者信息:袁建龙,阿里巴巴达摩院 Al Earth 团队技术专家,主要研究方向包含 dense prediction , Imperfect data research , label / data efficient learning 等,曾在计算机视觉领域深耕数年,发表过多篇计算机视觉顶级会议期刊。

你可能感兴趣的:(深度学习,cnn,神经网络,云计算,阿里云)