语义分割是什么?

语义分割作为计算机视觉领域的关键任务,是实现完整场景理解的必经之路。为了让机器拥有视觉,要经过图像分类、物体检测再到图像分割的过程。其中,图像分割的技术难度最高。 越来越多的应用得益于图像分类分割技术,全场景理解在计算机视觉领域也至关重要。其中一些应用包括自动驾驶车辆、人机交互、AR-VR等。随着近年来深度学习的普及,很多语义分割问题都在使用深度架构来解决,其中最常见的是CNN(卷积神经网),它的精度和效率都大大超过了其他方法。

语义分割是什么?_第1张图片

语义分割是什么?

语义分割是从粗到细推理的一个自然步骤:原点可以定位在分类,它包括对整个输入进行预测.下一步是本地化/检测,它不仅提供了类,而且还提供了关于这些类的空间位置的附加信息。最后,语义分割通过为每个像素进行密集的预测推断标签来实现细粒度推理,因此每个像素都被标记为其包围对象矿石区域的类。 更具体地说,语义图像分割的目标是给图像中的每个像素都贴上对应的一类所代表的内容的标签。因为我们要对图像中的每个像素进行预测,所以这个任务通常被称为密集预测。这里要注意的事,语义分割是为给定图像中的每个像素分配一个类的任务而并非为整个图像分配一个单一的类,语义分割是将图像中的每个像素都归入其中的一个类。

语义分割的应用

自动驾驶:需要为汽车配备必要的感知能力,让汽车可以“观察”路况和周遭环境,从而使自动驾驶汽车能够安全地在道路上行驶。

 医学影像诊断:机器可以增强放射科医生的分析能力,大大减少诊断测试所需的时间。

语义分割任务搭建步骤

  • 代表任务

将 RGB彩色图像(高度×宽度×3)或灰度图像(高度×宽度×1),并输出一个分割图,其中每个像素都包含一个用整数(高度×宽度×1)表示的类标签。

  • 构建一个架构

对于构建这个任务的神经网络架构,一个天真的方法是简单地堆叠一些卷积层(用相同的填充来保存尺寸),然后输出一个最终的分割图。这样通过特征映射的连续变换,直接学习从输入图像到其对应分割的映射;但是,要在整个网络中保留完整的分辨率,计算成本相当高。

  • 增加取样的方法

使用几种不同的方法来对特征图的分辨率进行上采样。池化操作是通过用一个单一的值(即平均或最大池化)对局部区域进行汇总,从而对分辨率进行下采样,而 “解池 “操作则是通过将一个单一的值分配到更高的分辨率中,从而对分辨率进行上采样。

  • 完全卷积网络

2014年底,Long等人提出了使用 “全卷积 “网络进行端到端、像素到像素的训练来完成图像分割任务的方法。

  • 添加跳板连接

通过缓慢地对编码表示进行上采样(分阶段),添加来自早期层的 “跳过连接”,并对这两个特征图进行求和来解决。

  • 高级U-Net变体

标准的U-Net模型由架构中每个 “块 “的一系列卷积操作组成。扩张卷曲

  • 界定损失函数

你可能感兴趣的:(计算机视觉,数据标注,训练数据,人工智能,机器学习,computer,vision)