RyanC3

Image Segmentation Using Deep Learning: A Survery

图像分割综述–论文翻译

论文地址：https://arxiv.org/pdf/2001.05566.pdf

图像分割综述论文

图像分割综述--论文翻译
- 摘要
- 介绍
- 深度神经网络的介绍
- - Convolutional Neural Networks (CNNs)
  - Recurrent Neural Networks(RNNs) and the LSTM
  - Encoder-Decoder and Auto-Encoder Models
  - Generative Adversarial Networks(GANs)
- 基于深度学习的图像分割模型
- - Fully Convolutional Networks
  - Convolutional Models With Graphical Models
  - Encoder-Decoder Based Models
  - - Encoder-Decoder Models for General Segmentation
    - Encoder-Decoder Models for Medical and Biomedical Image Segmentation
  - Multi-Scale and Pyramid Network Based Models
  - R-CNN Based Models (for Instance Segmentation)
  - Dilated Convolutional Models and DeepLab Family
  - Recurrent Neural Network Based Models
  - Attention-Based Models
  - Generative Models and Adversarial Training
  - CNN Models With Active Contour Models
  - Other Models
- 图像分割数据集
- - 2D数据集
  - 2.5D数据集
  - 3D数据集
- 图像分割性能评估
- - 模型评价指标
  - 深度学习模型量化指标
- 挑战和机遇
- - 更多挑战性数据集
  - 可解释模型
  - 弱监督和无监督学习
  - 实时检测模型
  - 高效内存模型
  - 三维点云分割
  - 应用场景
- 总结
- 参考文献

摘要

图像分割是图像处理以及计算机视频的关键内容，其应用场景非常广泛，如场景理解、医学图像分析、机器人感知、视频监控、增强显示和图像压缩等。目前关于图像分割的算法论文数量非常多。最近，由于深度学习模型在计算机视频任务中的出色表现，大量的图像分割研究工作都在开发深度学习模型在图像分割中的应用。在本次调查综述中，我们提供全面的图像分割的文献综述，涵盖了语义分割和实例分割的广泛开创性工作，其中包括全卷机像素标签网络、编码器-解码器的结构、基于多尺度和金字塔的方法、循环神经网络、视觉注意力机制模型和生成对抗网络。在本文研究这些图像分割深度学习模型的相似性，各自优缺点，并测试最广泛使用的测试集并展示各自的性能和讨论图像分割领域的未来发展方向

介绍

图像分割是许多计算机视觉理解系统的重要组成部分，主要将图像或者视频帧分割成多个分割对象。图像分割在很多应用场景中扮演着重要的角色，包括医学图像分析（如肿瘤边界提取以及人体组织的体积测量）、自动驾驶（如地面的导航和行人检测）、视频监控和显示增强技术。许多图像分割算法已经发表了，如阈值法[3]，基于直方图的方法[5]，K聚类方法[5]，分水岭算法[6]。对于更先进的算法，如主动轮廓[7]，图切割[8]，条件和马尔科夫随机场[8]以及基于稀疏特征学习的算法[10]-[11]。在过去的几年，深度学习模型已经应用于新一代的图像分割任务中，它具有显著的性能提升：在流行的基准测试上达到较高的准确率，导致对图像分割领域思考方式发生重大变化(paradigm shift)。如下图所示的由DeeplabV3生产的语义分割结果：

图像分割可以表示为带有语义标签的像素的分类问题（语义分割)或单个对象的分割(实例分割）。语义分割对所有图像像素使用一组对象类别（如人类、汽车、树、天空）进行像素级标记，因此这通常是比图像分类更难的任务，图像分类预测整个图像的单个标签。实例分割通过检测和描述图像中每个感兴趣的对象（例如，个体的分割），进一步扩展了语义分割的范围。

我们的调查涵盖了图像分割的最新文献，并讨论了直到2019年提出的100多种基于深度学习的分割方法。我们对不同的图提供了一个全面的回顾和见解。这些方法的各个方面，包括训练数据、网络架构的选择、损失函数、训练策略及其关键贡献。我们比较总结了这些方法的性能，并讨论了基于深度学习的图像分割模型的几个挑战和潜在的未来方向。

我们对基于深度学习模型的算法进行分类：

Fully convolutional networks
Convolutional models with graphical models
Encoder-decoder based models
Multi-scale and pyramid network based models
R-CNN based models (for instance segmentation)
Dilated convolutional models and DeepLab family
Recurrent neural network based models
Attention-based models
Generative models and adversarial training
Convolutional models with active contour models
Other models

本文主要贡献如下：

本调查涵盖了当代有关图像分割问题的文献，并概述了截至2019年提出的100多种分割算法，并将其分为10类。
我们对使用深度学习的分割算法的不同方面进行了全面的回顾和深刻的分析，包括训练数据、网络架构的选择、损失函数、训练策略和它们的关键贡献。
我们提供了大约20个流行的图像分割数据集的概述，分为2D、2.5D(RGBD)和3D图像。
我们提供了大约20个流行的图像分割数据集的概述，分为2D、2.5D(RGBD)和3D图像。
在流行的基准测试上，我们提供了所回顾的分割方法的属性和性能的比较总结。
在流行的基准测试上，我们提供了所回顾的分割方法的属性和性能的比较总结。

深度神经网络的介绍

本节概述了计算机视觉社区使用的一些最突出的深度学习架构，包括卷积神经网络(CNNs)[13]、循环神经网络(RNNs)和长期短期记忆(LSTM)[14]、编码器-解码器[15]和生成对抗网络(GANs)[16]。近年来，随着深度学习的普及，其他一些深度神经结构已经被提出，如注意力机制、胶囊网络、门控循环单元、空间注意力机制网络等，在这篇综述中就不再做详细的介绍了。

值得一提的是，在某些情况下，深度学习模型可以从头开始对新的应用程序/数据集进行训练（假设有足够数量的标记训练数据），但在许多情况下，没有足够的标记数据可以从头开始训练一个模型，可以使用迁移学习来解决这个问题。在迁移学习中，在一个任务上训练的模型被重新用在另一个（相关的）任务上，通常是通过对新任务的某个适应过程。例如，可以想象将ImageNet上训练的图像分类模型适应不同的任务，如纹理分类或人脸识别。在图像分割的情况下，许多人使用在ImageNet上训练的模型（比大多数图像分割数据集更大的数据集），如网络的编码器部分，可以从这些初始权重重新训练他们的模型。因为这些预先训练过的模型应该能够捕获分割所需的图像的语义信息，从而使它们能够用标记较少的样本来训练模型。

Convolutional Neural Networks (CNNs)

CNNs(卷积神经网络)是深度学习社区中最成功和最广泛使用的体系结构之一，特别是在计算机视觉任务方面。CNNs最初是由Fukushima在他关于“Neocognitron”[17]的开创性论文中提出的，是基于Hubel和Wiesel提出的视觉皮层的层次接受场模型。随后，Waibel等人[18]引入了在时间接受域之间共享权重的cnn和音素识别的反向传播训练，LeCun等人[13]开发了一个用于文档识别的CNN架构如下图所示。

CNNs主要由三种类型的层组成：
i)卷积层，其中权重的核（或滤波器）被卷积以提取特征；
ii)非线性层，对特征映射（通常是元素）应用激活函数，以实现网络对非线性函数的建模；
iii)池化层，用一些统计信息（平均值、最大值等）替换特征映射的一个小邻域。
关于邻域，降低了空间分辨率。层中的单元是局部连接的；也就是说，每个单元接收来自前一层单元的一个小邻域，即接受域，的加权输入。通过堆叠层形成多分辨率的金字塔，更高层次的层从越来越宽的接受域学习特征。cnn的主要计算优势是，一层中的所有接受域都共享权重，导致的参数数量明显少于完全连接的神经网络。一些最著名的CNN架构包括：AlexNet[19]、VGGNet[20]、ResNet[21]、谷歌LeNet[22]、MobileNet[23]和DenseNet[24]

Recurrent Neural Networks(RNNs) and the LSTM

RNNs（循环神经网络）擅长处理时序数据，比如语音、文本、视频和时间序列，其中任何给定时间/位置的数据都取决于先验数据。在每个时间戳中，收集模型当前时间 $X_i$ 的输入和上一个步骤 $h_{i-1}$ 的隐含状态，以及输出目标值和一个新的隐含状态。

RNNs在长序列处理存在弱点，因为他们不能在许多现实世界的应用程序中获取长期的依赖关系（尽管在这点上仍然没有理论证据）以及经常遇到梯度消失或者梯度爆炸的问题。然而一种被称为长短期记忆(LSTM)的循环神经网络被设计出避免出现这些问题。LSTM架构包括三个门（输入门、输出门、忘记门），它们调节进出内存单元的信息流，并在任意时间间隔内存储值。

Encoder-Decoder and Auto-Encoder Models

编码器-解码器是通过两阶段的网络，从输入域的数据点映射到输出域上的点这一系列的模型：由编码函数 $z = f (x)$ 表示的编码器，将输入压缩成潜在的压缩空间；由 $y = g (x)$ 表示的解码器旨在预测潜在空间的表示[15]，[26]等。这里的潜在空间表示指的是一个特征（向量）表示，它能够捕获到输入的底层语义信息，对预测输出很有用。这些模型在图像到图像翻译问题以及NLP的序列到序列模型中都非常流行。这些模型通常通过最小化重建损失函数 $\hat y )$ ，该损失函数评估ground-true输出 $y$ 和推理预测重建的 $\hat y$ 之间的距离。输出可以是原图的增强版本（如图像去模糊或图像超分辨率），或者分割映射。自动编码器（Auto-encoders）是一种特殊的编码器-解码器，它的输入输出都是相同的。

Generative Adversarial Networks(GANs)

GANs是一种较新的深度学习模型类型。它们由两个网络组成，一个是生成器（Generator）另一个是判别器（Discriminator）。传统的GAN中的生成器网络 $G=z\rightarrow y$ 学习噪声 $z$ （具有先验分布）到目标分布 $y$ 的损失函数，类似于真实样本。判别器网络 $D$ 视图将生成的样本（“伪造的”）与“真实的”样本区分开来。 $G A N$ 损失函数为 $L_{GAN}=\mathbb{E}_{x \sim p_{data}}[logD(x)] + \mathbb{E}_{x \sim p_{data}}[log(1-D(G(z))]$ ，我们可以把GAN看作是G和D之间的极大极小博弈，其中D试图在区分假样本和真实样本时尽量减少其分类误差，从而最大化损失函数。G试图最大化判别器的误差，从而最小化损失函数。GAN训练后生成的器的模型为 $G^{*}=arg \space min_G \space max_D$ 。在真实训练中， $L_{GAN}$ 可能不能提供足够的梯度来进行有效地训练G，特别是初始训练（当 $D$ 很容易区分假样本和真实样本时）。与其最小化 $\mathbb{E}_{x \sim p_{data}}[log(1-D(G(z))]$ ，一种可能是最大化 $\mathbb{E}_{x \sim p_{data}}[logD(x)]$

自GANs的发明以来，研究人员一直在努力通过几种方式来改进/修改GANs。例如，雷德福等人。[27]提出了一种卷积GAN模型，该模型在用于图像生成时比全连接网络工作得更好。Mirza[28]提出了一个条件GAN模型，该模型可以基于类标签生成图像，使人们能够生成具有指定标签的样本。Arjovsky等人。[29]提出了一种新的基于Wasserstein (a.k.a. earth mover’s distance)更好地估计真实样本和生成样本分布不重叠的距离（因此KL散度不是一个很好的距离测量）。有关其他作品，我们请读者参考[30]。

基于深度学习的图像分割模型

这一节详细回顾从2019年以来提出的100多种基于深度学习的图像分割方法，（基于各自的模型架构）分为十个类别。值得一提的是，这些方法中有常见公共部分，如编码器和解码器部分，skip-connection，多尺度分析以及扩充卷积。基于此，很难去区分每个算法的独特贡献，但是可以通过各自的基础架构贡献进行分组。除了图像分割算法模型的架构分类外，还可以根据分割目标分为：语义分割、实例分割、泛视和深度分割类别。

Fully Convolutional Networks

Long等人[31]提出了第一个深度学习工作，使用全卷积网络(FCN)。FCN只包括卷积层，这使它能够拍摄任意大小的图像，并生成相同大小的分割图。作者修改了现有的CNN体系结构，如VGG16和GoogLeNet，通过用全卷积的层替换所有全连接，来管理非固定大小的输入和输出。因此，该模型输出一个空间分割图，而不是分类分数。

通过使用跳跃连接，将来自模型的最后一层的特征图进行上采样，并与早期层的特征图融合，该模型结合了语义信息(来自深层、粗层)和外观信息(来自浅层、细层），以产生准确和详细的分割。该模型在pascalVOC、NYUDv2和SIFT流上进行了测试，并取得了最先进的分割性能。

这项工作被认为是图像分割的一个里程碑，证明了深度网络可以在可变图像上以端到端的方式进行语义分割。然而，尽管传统的FCN模型很受欢迎和有效，但它也有一些局限性——对于实时推理不够快，它没有以有效的方式考虑全局上下文信息，也不容易转移到3D图像上。

Liu等人[32]提出了一个名为ParseNet的模型，以解决FCN的一个问题——忽略了全局上下文信息。ParseNet通过使用一个层的平均特征来增强每个位置的特征，将全局上下文添加到fcn中。某一层的特征映射被汇集在整个图像上，从而产生一个上下文向量。这个上下文向量被归一化和未合并，以生成与初始向量相同大小的新特征图。然后连接这些特征映射。简而言之，ParseNet是一个FCN，其中所描述的模块取代了卷积层。

FCNs已被应用于各种分割问题，如脑肿瘤分割[33]、即时感知语义分割[34]、皮肤损伤分割[35]和虹膜分割[36]。

Convolutional Models With Graphical Models

如前所述，FCN忽略了潜在有用的场景级语义上下文。为了集成更多的上下文，一些方法将概率图形模型，如条件随机场(CRFs)和马尔可夫随机场(MRFs)合并到DL架构中。

Chen等人[37]提出了一种基于cnn和全连接CRFs组合的语义分割算法。他们表明，来自最后一层深度CNNs的反应没有足够的定位，无法进行精确的对象分割(由于不变性使CNNs适合于高级任务，如分类)。为了克服深度CNN的差定位特性，他们将最终CNN层的响应与一个全连接的CRF结合起来。他们表明，他们的模型能够以比以前的方法更高的精度来定位段边界。

Schwing和Urtasun[38]提出了一种全连接的深度结构化图像分割网络。他们提出了一种联合训练cnn和完全连接的CRFs进行语义图像分割的方法，并在具有挑战性的pascalVOC2012数据集上取得了令人鼓舞的结果。在[39]，Zheng等人提出了一种集成CRF与CNN的类似语义分割方法。

在另一项相关工作中，林等人[40]提出了一种基于上下文深度crf的有效语义分割算法。他们探索了“patch-patch”的背景。（在图像区域之间）和“patch-background”上下文，通过使用上下文信息来改进语义分割。Liu等人[41]提出了一种语义分割算法，将丰富的信息纳入MRFs，包括高阶关系和标签上下文的混合。与之前使用迭代算法优化mrf的工作不同，他们提出了一个CNN模型，即解析网络，它能够在单次前传中实现确定性的端到端计算。

Encoder-Decoder Based Models

另一个流行的图像分割深度模型方法是基于卷积编码器-解码器体系结构。大多数基于深度学习的分割工作使用某种编码器-解码器模型。我们将这些工作分为两类，用于一般分割的编码器-解码器模型，以及用于医学图像分割（以更好地区分应用程序）。

Encoder-Decoder Models for General Segmentation

Noh等人[42]发表了一篇关于基于反卷积的语义分割的早期论文(转置卷积)。他们的模型由两部分组成，一个编码器使用来自VGG16层网络的卷积层的编码器，另一个解卷积网络，以特征向量作为输入并生成像素类概率图。该反褶积网络由反褶积层和非池化层组成，它们可以识别像素级的类标签和预测分割掩码。

该网络在pascalVOC2012数据集上取得了良好的性能，并在当时没有外部数据训练的方法中获得了最好的准确率（72.5%）。

在另一项的工作，如SegNet中， Badri-narayanan等人[15]提出了一种用于图像分割的卷积编码器解码器架构。与反卷积网络类似，SegNet的核心可训练分割引擎由一个编码器网络组成，该网络拓扑与VGG16网络中的13个卷积层相同，以及一个相应的解码器网络，然后是一个像素分类层。SegNet的主要新颖之处在于解码器对其低分辨率的输入特征图进行上采样；具体来说，它使用在相应编码器的最大池化步骤中计算的池化索引来执行非线性上采样。这就消除了学习上样本的需要。然后，将（稀疏的）上采样的映射与可训练的过滤器来生成密集的特征图。SegNet在可训练参数方面的数量上也明显小于其他竞争架构。同一作者还提出了一个贝叶斯seg版本的net来建模场景分割[43]的卷积编码器-解码器网络固有的不确定性。

另一个流行的模型分割网络，高分辨率网络(HRNet)[44]。除了像DeConvNet、SegNet、U-Net和V-Net中那样恢复高分辨率表示外，HRNet通过并行连接高到低分辨率的卷积流，并跨分辨率反复交换信息，通过编码过程维护高分辨率表示。许多最近关于语义分割的工作都利用HRNet作为主干，通过利用上下文模型，如自我注意及其扩展。

其他一些工作采用转置卷积，或编码器-解码器用于图像分割，如堆叠解卷积网络(SDN)[45]、Linknet[46]、W-Net[47]和局部敏感反褶积网络用于RGBD分割[48]。基于编码器-解码器的模型的一个局限性是，由于编码过程中导致的高分辨率表示的丢失，图像的细粒度信息的丢失。然而，这个问题在一些最近的架构中得到了解决，如HR-Net。

Encoder-Decoder Models for Medical and Biomedical Image Segmentation

最初开发了几个针对医学/生物医学图像分割的模型，它们受到fcn和编码器-解码器模型的启发。U-Net[49]和V-Net[50]是两种著名的体系结构，现在也在医疗领域之外使用。

Ronneberger等人[49]提出了用于分割生物显微镜图像的U-Net。他们的网络和训练策略依赖于使用数据增强来有效地从极少数带注释的图像中学习。U-Net架构包括两部分，一个是捕获上下文的收缩路径和一个能够实现精确定位的对称扩展路径。降采样或收缩部分具有一个类似FCN的体系结构，它可以用3×3卷积提取特征。上采样或展开部分使用上卷积（或反卷积），减少特征映射的数量，同时增加它们的维度。将网络下采样部分的特征映射复制到上采样部分，以避免丢失模式信息。最后，一个1×1卷积处理特征映射，以生成一个分割映射，对输入图像的像素进行映射分类。U-Net对30张透射光镜图像进行了训练，并以巨大优势赢得了2015年的ISBI细胞跟踪挑战。

U-Net的各种扩展已经被开发为不同类型的图像。例如，Cicek[51]提出了一种用于三维图像的U-Net架构。周等人[52]开发了一个嵌套的U-Net体系结构。U-Net也被应用于其他各种问题。例如，Zhang等人[53]开发了一种基于U-Net的道路分割/提取算法。

V-Net是另一个著名的、基于FCN的模型，由Milletari等人提出[50]用于三维医学图像分割。在模型训练中，他们引入了一种基于骰子系数的新目标函数，使模型能够处理前景和背景中体素数量存在强烈不平衡的情况。对网络进行MRI前列腺体积的端到端训练，并学会同时预测整个体积的分割。其他一些关于医学图像分割的相关工作包括渐进密集V-net(PDV-Net)等。用于从胸部CT图像中快速、自动分割肺叶，而3D-CNN编码器用于病变分割[54]。

Multi-Scale and Pyramid Network Based Models

多尺度分析是图像处理中一个相当古老的想法，已经被部署在各种神经网络架构中。这类最突出的模型之一是Lin等人提出的特征金字塔网络(FPN)[55]，主要用于目标检测开发，但也应用于分割。利用深度cnn固有的多尺度锥体层次来构建金字塔特征图。为了合并低分辨率和高分辨率的特征，FPN由一个自下而上的路径、一个自上而下的路径和横向连接组成。然后通过3×3卷积处理，以产生每个阶段的输出。最后，自上而下路径的每个阶段都生成一个预测来检测一个对象。对于图像分割，作者使用两个多层感知器(MLPs)来生成掩膜。

赵等人[56]开发了金字塔场景解析网络(PSPN)，这是一个多尺度网络，以更好地学习场景的全局上下文表示（图15）。使用残余网络(ResNet)作为特征提取器，从输入图像中提取不同的模式。然后，这些特征映射被输入到一个金字塔池化模块中，以区分不同尺度的模式。它们以四个不同的尺度汇集，每个尺度对应一个金字塔层，并由一个1×1的卷积层处理，以减少它们的尺寸。金字塔层的输出被上采样，并与初始特征映射连接起来，以捕获本地和全局上下文信息。最后，利用卷积层生成像素级预测。

Ghiasi和Fowlkes[57]开发了一种基于拉普拉斯金字塔的多分辨率重建体系结构，该架构使用从高分辨率特征地图的跳过连接和乘法门控来连续细化从低分辨率地图重建的段边界。结果表明，虽然卷积特征图的表观空间分辨率较低，但高维特征表示包含了显著的亚像素定位信息。

还有其他使用多尺度分析进行分割的模型，如DM-Net（动态多尺度滤波器网络）[58]、上下文对比网络和门控多尺度聚合(CCN)[59]、自适应金字塔上下文网络(APC-Net)[60]、多尺度上下文交织(MSCI)[61]以及显著对象分割[62]。

R-CNN Based Models (for Instance Segmentation)

区域卷积网络(R-CNN)及其扩展(Fast R-CNN、Faster R-CNN、Maksed-RCNN)在目标检测应用中已被证明是成功的。特别是，为对象检测开发的更快的R-CNN[63]体系结构使用一个区域建议网络(RPN)来提出边界框候选方案。RPN提取感兴趣区域(RoI)，RoIPool层从这些建议中计算特征，以推断边界框坐标和对象的类。R-CNN的一些扩展已被广泛用于解决实例分割问题；即，同时执行对象检测和语义分割的任务。

在这个模型的一个扩展中，He等人[64]提出了一种用于对象实例分割的Mask R-CNN，它在许多COCO挑战上击败了之前的基准测试。该模型可以有效地检测图像中的对象，同时为每个实例生成高质量的分割掩码。掩码R-CNN本质上是一个具有3个输出分支的更快的RCNN——第一个计算边界框坐标，第二个计算相关的类，第三个计算二进制掩码来分割对象。MaskR-CNN损失函数结合了边界框坐标、预测类和分割掩模的损失，并联合训练。

Liu等人提出基于MaskR-CNN和FPN的路径聚合网络(PANet)[65]。网络的特征提取器使用FPN架构，具有新的增强自下而上路径，改善了底层特征的传播。这第三个路径的每个阶段都以前一个阶段的特征图作为输入，并使用一个3×3的卷积层来处理它们。使用横向连接将输出添加到自上而下路径的同一阶段特征图中，这些特征图将提供下一个阶段。与MaskRCNN一样，自适应特征池层的输出提供三个分支。前两个层使用一个完全连接的层来生成边界框坐标和相关的对象类的预测。第三个是使用FCN处理RoI来预测对象掩码。

Dai等人[66]开发了一个用于实例感知语义分割的多任务网络，该网络由三个网络组成，分别区分实例、估计掩码和分类对象。这些网络形成了一个级联结构，并被设计为共享它们的卷积特征。Hu等人[67]提出了一种新的部分监督训练范式，以及一种新的权重传递函数，可以在大量类别上训练实例分割模型，所有这些类别都有框注释，但只有一小部分有掩码注释。

Chen等人[68]开发了一个实例分割模型MaskLab，通过基于更快的语义和方向特征来细化对象检测。该模型产生盒子检测、语义分割和方向预测三个输出。在FasterRCNN对象检测器上，预测的盒子提供了对象实例的精确定位。在每个感兴趣的区域内，MaskLab通过结合语义和方向预测来进行前景/背景分割。

另一个有趣的模型是由Chen等人提出的张量掩模[69]，它是基于密集的滑动窗口实例分割。他们将密集实例分割视为四维张量上的预测任务，并提出了一个通用框架，使四维张量上有新的算符。他们证明，张量视图导致超过基线的大增益，并产生与掩码R-CNN相当的结果。张量掩模在密集目标分割上取得了很有很好的效果。

基于R-CNN还开发了许多其他实例分割模型，比如那些为掩模推荐开发的模型，包括R-FCN[70]、DeepMask[71]、偏振掩模[72]、边界感知实例分割[73]和中心掩模[74]。值得注意的是，还有另一个有前途的研究方向试图通过学习自下而上分割的分组线索来解决实例分割问题，如深度流域转换[75]、实时实例分割[76]和通过深度度量学习[77]进行语义实例分割。

Dilated Convolutional Models and DeepLab Family

膨胀卷积(空洞卷积)引入了另一个参数到卷积层，膨胀速率。信号 $x (i)$ 的膨胀卷积定义为 $yi=\sum^{K}_{k=1}x[i+rk]w[k]$ ，其中r是定义核 $w$ 权值之间的间距。例如，一个扩张率为2的3×3核与5×5核具有相同大小的接受域，而只使用9个参数大小的接受域，从而在不增加计算成本的情况下增加接受域。膨胀卷积在实时分割领域已经很流行，最近的许多出版物报道了这种技术的使用。其中最重要的包括DeepLab系列[78]、dense upsampling convolution[79]、 hybrid dilatedconvolution(DUC-HDC)[80]、densely connected Atrous Spatial Pyramid Pooling(DenseASPP)[81]和efficient neural network(ENet)[82]。

DeepLabv1[37]和DeepLabv2[78]是由Chen等人开发的一些最流行的图像分割方法之一。后者有三个关键特征。首先是使用扩展卷积来解决网络中分辨率的下降问题（这是由最大池化和大步处理造成的）。其次是空间空间金字塔池(ASPP)，它在多个采样速率用滤波器探测传入的卷积特征层，从而在多个尺度上捕获对象和图像上下文，从而在多个尺度上稳健地分割对象。第三，通过结合深度cnn和概率图形模型的方法，改进了对象边界的定位。最好的DeepLab(使用resnet-101作为骨干)在2012年PascalVOC挑战中达到79.7%，Pascal Context挑战中mIoU得分为45.7%，在Cityscapes挑战中mIoU得分为70.4%。下图说明了Deeplab模型，类似于[37]，主要区别是使用扩张卷积和ASPP。

随后，Chen等人[12]提出了DeepLabv3，它结合了扩展卷积的级联和并行模块。并行卷积模块在ASPP中被分组。在ASPP中添加了一个1×1的卷积和批处理归一化。所有的输出都被连接并由另一个1×1卷积处理，以为每个像素创建带有分数的最终输出。2018年，Chen等人[83]发布了Deeplabv3+，它使用了编码器-解码器架构，包括深度可分离卷积，由深度卷积(输入的每个通道的空间卷积)和点卷积(以深度卷积作为输入的1×1卷积）组成。他们使用DeepLabv3框架作为编码器。最相关的模型有一个改进的Xception主干，具有更多的层，扩展了深度可分离卷积，而不是最大池和批归一化。

Recurrent Neural Network Based Models

虽然cnn很自然地适合计算机视觉问题，但它们并不是唯一的可能性。rnn在建模像素之间的短期/长期依赖关系方面很有用，以（潜在地）改进分割图的估计。使用rnn，像素可以连接在一起并按顺序处理，以建模全局上下文和改进语义分割。然而，其中一个挑战是图像的自然二维结构

Visin等人[84]提出了一种基于RNN的语义分割模型，称为ReSeg。该模型主要是9基于另一个工作，ReNet[85]，它是为图像分类而开发的。每个ReNet层由四个rnn组成，它们在两个方向上水平和垂直地扫描图像，编码补丁/激活，并提供相关的全局信息。为了使用ReSeg模型进行图像分割（图24），ReNet层被堆叠在预先训练的VGG-16卷积层上，这些层提取一般的局部特征。然后在ReNet层之后是上采样层，以恢复最终预测中的原始图像分辨率。使用门控递归单元(gru)是因为它们在内存使用和计算能力之间提供了很好的平衡。

在另一项工作中，Byeon等人[86]开发了一种使用长期短期记忆(LSTM)网络对场景图像的像素级分割和分类。他们研究了自然场景图像的二维(2D)LSTM网络，考虑到了标签复杂的空间依赖性。在这项工作中，分类、分割和上下文集成都是由二维LSTM网络进行的，允许在单个模型中学习纹理和空间模型参数。

Attention-Based Models

Liang等人[87]提出了一种基于图长短期记忆(GraphLSTM)网络的语义分割模型，这是一种将LSTM从序列数据或多维数据推广到一般图结构数据的方法。它们不是将图像在现有的多维LSTM结构中(如行、网格和对角线lstm)均匀地将图像均匀划分为像素或斑点，而是将每个任意形状的超像素作为语义一致的节点，并为图像自适应地构造了一个无向图，其中超像素的空间关系自然被用作边。图25显示了传统的像素级RNN模型和graph-LSTM模型的可视化比较。为了将GraphLSTM模型适应于语义分割（图26），构建在超像素映射上的LSTM层被附加在卷积层上，以增强全局结构上下文增强视觉特征。卷积特征通过1个×1个卷积滤波器来生成所有标签的初始置信度图。后续图LSTM层的节点更新序列由基于初始置信图的置信驱动方案确定，然后图LSTM层可以依次更新所有超像素节点的隐藏状态。

Hu等人[89]开发了一种基于自然语言表达式的语义分割算法，使用CNN的组合对图像和LSTM进行编码它的自然语言描述。这不同于传统的预定义语义分割，例如，“两个人坐在右边的长凳上”只需要把两个人分割在正确的长凳上，没有人站或坐在另一个长凳上。为了为语言表达的像素分割，他们提出了一个端到端可训练的循环和卷积模型，该模型共同学习处理视觉和语言信息（图27）。在所考虑的模型中，使用循环LSTM网络将引用表达式编码为向量表示，并使用FCN从图像中提取空间特征图，并输出目标对象的空间响应图。图28显示了该模型的一个分割结果的示例（对于查询“蓝色外套的人”）所示。

基于RNN的模型的一个局限性是，由于这些模型的顺序性质，它们将比CNN对应的模型要慢，因为这种顺序计算不容易并行化。陈等人[90]提出了一种注意机制，在每个像素位置的多尺度特征加轻微权重。他们采用了一个强大的语义分割模型，并与多尺度图像和注意力模型共同进行训练（图29）。注意机制优于平均和最大池，它使模型能够评估特征在不同位置和尺度上的重要性。

与其他训练卷积类符来学习标记对象的代表性语义特征的工作相比，Huang等人[91]提出了一种利用反向注意机制的语义分割方法。他们的反向注意网络(RAN)架构（图30）也训练模型以捕获相反的概念（即与目标类没有关联的特性）。RAN是一个三分支网络，同时执行直接和反向注意力学习过程。

Li等人[92]开发了一个用于语义分割的金字塔注意网络。该模型利用了全局上下文信息在语义分割中的影响。他们将注意机制和空间金字塔相结合，提取精确的密集特征进行像素标记，而不是复杂的扩张卷积和人工设计的解码器网络。最近，Fu等人[93]提出了一种场景分割的双注意网络，它可以基于自我注意机制捕获丰富的上下文依赖性。具体来说，他们在一个扩展的FCN上附加了两种类型的注意模块，它们分别建模了空间维度和通道维度上的语义相互依赖关系。位置注意模块通过所有位置的特征的加权和选择性地聚集每个位置的特征。

其他各种工作探索语义分割的注意机制，如OCNet[94]提出了一个受自注意机制启发的对象上下文池，期望最大化注意(EMANet)[95]、交叉注意网络(CCNet)[96]、循环注意[97]的端到端实例分割，用于场景解析[98]的点态空间注意网络和判别特征网络(DFN)[99]，它包括两个子网络：一个平滑网络（它包含一个信道注意块和全局平均池来选择更明显的特征)和一个边界网络(使边界的双边特征可区分）。

Generative Models and Adversarial Training

自引入以来，GANs已被广泛应用于计算机视觉领域的任务，并已被用于图像分割。
Luc等人[100]提出了一种语义分割训练方法。他们训练了一个卷积语义分割网络（图31），以及一个对抗性网络，它可以区分Ground-True分割地图和那些由分割网络生成的分割地图。他们表明，对抗性训练方法可以提高在 Stanford Background和Pascal-VOC2012数据集上的准确性.

Souly等人[101]提出了利用gan进行的半弱监督语义分割。它由一个生成器网络组成，为多类分类器提供额外的训练示例，在GAN框架中作为鉴别器，从K个可能的类中分配一个标签y，或将其标记为一个假样本（额外的类）。在另一项工作中，Hung等人[102]开发了一个使用对抗性网络的半监督语义分割框架。他们设计了一个FCN鉴别器来区分预测的概率图和Ground-True分割分布，考虑到空间分辨率。该模型所考虑的损失函数包含三项：分割Ground-True值上的交叉熵损失、鉴别器网络的对抗性损失和基于置信图的半监督损失；即鉴别器的输出。

Xue等人[103]提出了一种具有多尺度L1损失的医学图像分割对抗性网络。他们使用FCN作为分割器来生成分割标签地图，并提出了一种具有多尺度L1损失函数的新型对抗性critic 网络，以迫使critic 网络和分割器学习全局和局部特征，以捕捉像素之间的长期和短期空间关系。其他各种论文也报道了基于对抗性训练的分割模型，如使用GANs[104]的细胞图像分割，以及目标[105]的不可见部分的分割和生成。

CNN Models With Active Contour Models

FCNs与主动轮廓模型(ACMs)[7]之间的协同作用的探索最近引起了研究的兴趣。一种方法是制定受ACM原理启发的新的损失函数。例如，受[106]的全球能量公式的启发，Chen等人[107]提出了一个监督损失层，该层在FCN训练过程中包含了预测掩模的面积和大小信息，并解决了心脏MRI中的心室分割问题。

另一种方法最初试图仅仅将ACM作为FCN输出的后处理器，并且一些努力尝试通过预训练FCN来进行适度的共同学习。自然图像语义分割的一个例子是Le等人的工作[108]，其中级别集的acm被实现为rnn。鲁普雷希特等人的深度活动轮廓[109]。对于医学图像分割，哈塔米扎德等人[110]提出了一个集成的深度活动损伤分割(DALS)模型，该模型训练FCN主干来预测一种新的、局部参数化的水平集能量函数的参数函数。在另一项相关的努力中，马科斯等人[111]提出了深度结构化活动轮廓(DSAC)，它将acm和预先训练过的FCNs结合在一个结构化预测框架中，用于在空中图像中构建实例分割（尽管是手动初始化）。对于同样的应用程序，Cheng等人[112]提出了深度主动射线网络(DarNet)，它与DSAC相似，但基于极坐标的显式ACM公式不同，以防止轮廓自交。Hatamizadeh等人最近引入了一种真正的端到端反向传播、可训练的、完全集成的FCN-ACM组合，被称为深度卷积活动轮廓(DCAC)[113]。

Other Models

除了上述模型之外，还有其他几种流行的DL分割架构，例如如下：上下文编码网络(EncNet)，它使用基本特征提取器并将特征映射输入上下文编码模块[114]。RefineNet[115]是一个多路径细化网络，它显式地利用下采样过程中所有可用的信息，以使用长程残差连接实现高分辨率预测。种子网[116]引入了一种具有深度强化学习的自动种子生成技术，学习解决交互式分割问题。“对象-上下文表示”(OCR)[44]，它在地面真相的监督下学习对象区域，并计算对象区域表示以及每个像素与每个对象区域之间的关系，并使用对象上下文表示来增强表示像素。additional models include BoxSup[117]，Graph convolutional networks[118]，Wide ResNet[119]，Exfuse(enhancing low-level and high-level features fusion)[120]，Feedforward-Net[121]，saliency-aware models for geodesic video segmentation[122]，dual image segmentation(DIS)[123]，FoveaNet(Perspective-aware scene parsing)[124]，Ladder DenseNet[125]，Bilateral segmentation network(BiSeNet)[126]，Semantic Prediction Guidance for Scene Parsing(SPGNet)[127]，Gated shape CNNs[128]，Adaptive context network(AC-Net)[129]，Dynamicstructured semantic propagation network(DSSPN)[130]，symbolic graph reasoning(SGR)[131]，CascadeNet[132]，Scale-adaptive convolutions(SAC)[133]，Unified perceptual parsing(UperNet)[134]，segmentation by re-training and selftraining[135]，densely connected neural architecture search[136]，hierarchical multi-scale attention[137]。

全光分割[138]也是另一个有趣的分割问题，已经有一些有趣的工作，包括全光特征金字塔网络[139]，全光分割[140]，无缝场景分割[141]，全光分割[142]，统一的全光分割网络[143]，高效的全光分割[144]。

图像分割数据集

在本节中，我们将总结一些最广泛使用的图像分割数据集。我们将这些数据集分为3类——2D图像、2.5DRGB-D（彩色+深度）图像和3D图像——并提供关于每个数据集特征的详细信息。列出的数据集具有像素级标签，可用于评估模型性能。

值得一提的是，其中一些工作，使用数据增强来增加标记样本的数量，特别是那些处理小数据集的样本（如在医疗领域）。图像增强通过对图像（即输入图像和分割地图)应用一组转换(在数据空间或特征空间中，有时两者都应用）来增加训练样本的数量。一些典型的图像增强的方式包括平移、反射、旋转、扭曲、缩放、颜色空间移动、裁剪和对主成分的投影。图像增强已被证明可以提高模型的性能，特别是在从有限的数据集学习时，如医学图像分析。它还可以有利于产生更快的收敛，减少过拟合的机会，并增强泛化。对于一些小的数据集，数据增强已被证明可以提高模型性能超过20%。

2D数据集

PASCAL Visual Object Classes (VOC)[145]是计算机视觉中最受欢迎的数据集之一，其注释图像可用于5个任务——分类、分割、检测、动作识别和人员布局。文献中报道的几乎所有流行的分割算法都在这个数据集上进行了评估。在分割任务中，有21类对象标签——车辆、家庭、动物、飞机、飞机、自行车、船、公共汽车、汽车、摩托车、火车、瓶子、椅子、餐桌、盆栽、植物、沙发、电视/显示器、鸟、猫、牛、狗、马、羊和人（如果它们不属于这些类别，像素被标记为背景）。该数据集分为训练和验证两组，分别有1464张和1449张图像。有一个针对实际挑战的私人测试集。图33显示了一个示例图像及其像素级标签。

PASCAL Context[147]是PASCAL VOC 2010检测挑战的扩展，它包含了所有训练图像的像素级标签。它包含超过400个类(包括最初的20个类加上来自pascalVOC分割的背景)，分为三个类别（对象、东西和混合种）。这个数据集的许多对象类别太稀疏；因此，通常选择59个频繁类的子集进行使用。

Microsoft Common Objects in Context MS COCO是另一个大规模的对象检测、分割和t图像描述数据集。COCO包括复杂的日常场景的图像，它们在自然上下文中包含共同的物体。这个数据集包含91种对象类型的照片，在32.8万张图像中总共有250万个标记实例。下图显示了给定样本图像的MS-COCO标签与之前的数据集之间的差异。检测挑战包括80多个类，提供超过82k图像用于训练，40.5k图像用于验证，超过80k图像用于其测试集。

Cityscapes是一个专注于城市街道场景语义理解的大型数据库。它包含了一组在50个城市的街景中记录的不同的立体视频序列，具有高质量的5k帧像素级注释，以及一组20k弱注释帧。它包括30个类的语义和密集的像素注释，分为8类——平面、人、车辆、建筑、物体、自然、天空和空洞。

ADE20K /MIT Scene Parsing SceneParse150为场景解析算法提供了一个标准的训练和评估平台。这个基准测试的数据来自ADE20K数据集[132]，它包含超过20K的场景中心图像，详尽地注释了对象和对象部分。基准测试被分成20K张图像进行训练，2K张图像用于验证，另一批图像用于测试。在这个数据集中有150个语义类别。

SiftFlow包括来自LabelMe数据库的一个子集的2,688个注释图像。这256张×256像素的图像是基于8种不同的户外场景，其中包括街道、山脉、田野、海滩和建筑。所有的图像都属于33个语义类之一。

Stanford background包含来自现有数据集的户外场景图像，如LabelMe、MSRC和pascalVOC。它包含715个带有至少有一个前景对象的图像。该数据集是按像素级注释的，可用于语义场景理解。该数据集的语义和几何标签是使用亚马逊的土耳其机械技术(AMT)获得的。

Berkeley Segmentation Dataset BSD包含来自30个人类受试者的1,000个Corel数据集图像的12,000个手工标记的分割。旨在为图像分割和边界检测的研究提供经验依据。一半的分割来自呈现受试者的彩色图像，另一半来自呈现灰度图像。

Youtube-Objects包含从YouTube收集的视频，其中包括来自10个pascal VOC类别（飞机、鸟、船、汽车、猫、牛、狗、马、摩托车和火车）的物体。原始数据集不包含像素级注释（因为它最初是为对象检测而开发的，注释较弱）。然而，耆那教等人。[154]手动注释了126个序列的子集，然后提取一个帧的子集来进一步生成语义标签。在这个数据集中，总共有大约10,167个带注释的480x360像素的帧。
KITTI它是最流行的移动机器人和自动驾驶数据集之一。它包含数小时的交通场景视频，用各种传感器模式(包括高分辨率RGB、灰度立体声相机和3D激光扫描仪)录制。原始数据集不包含用于语义分割的基本真实信息，但研究人员已经手动注释了部分数据集，用于研究目的。例如，阿尔瓦雷斯等人。[156]为道路探测挑战的323张图像生成了Ground-True，包括道路、垂直和天空。

其他数据集也可用于图像分割的目的，如Semantic Boundaries Dataset (SBD)[157]，PASCAL Part [158]， SYNTHIA [159], 和Adobe’sPortrait Segmentation [160]。

2.5D数据集

NYU-DV2[161]由来自各种室内场景的视频序列组成，由微软Ginect的RGB和深度摄像机记录。它包括1449对密集标记的对齐RGB对和来自3个城市的450多个场景的深度图像。每个对象都标记有一个类和一个实例号（例如，杯1、杯2、杯3等）。它还包含407,024个未标记的帧。与其他现有数据集相比，该数据集相对较小。

SUN-3D[162]是一个大规模的RGB-D视频数据集，包含41个不同建筑中的254个不同空间捕获的415个序列；8个序列被注释，未来将有更多的注释。每个带注释的帧都带有场景中对象的语义分割，以及关于相机姿势的信息。

SUNRGB-D[163]提供了一个RGB-D基准测试，以推进所有主要场景理解任务中最先进的水平。它由四个不同的传感器捕获，并包含10,000张RGB-D图像，其规模类似于Pascal VOC。整个数据集被密集注释，包括146617个2D多边形和58657个精确对象方向的三维边界框，以及场景的3D房间类别和布局。

UWRGB-D对象数据集[164]包含300个使用Kinect风格的3D相机记录的常见家庭对象。这些对象被分为51类，使用WordNet超下关系关系(类似于ImageNet)排列。该数据集是使用Kinect风格的3D相机记录的，该相机记录了同步和对齐的640×480像素RGB和30Hz的深度图像。该数据集还包括8个带注释的自然场景视频序列，其中包含来自数据集(UWRGB-D场景数据集)的对象。

ScanNet[165]是一个RGB-D视频数据集，包含超过1500次扫描中的250万次视图，注释了3D相机姿态、表面重建和实例提升语义分割。为了收集这些数据，我们设计了一个易于使用和可扩展的RGB-D捕获系统，其中包括自动表面重建，语义注释是众包的。使用这些数据有助于在一些三维场景理解任务上实现最先进的性能，包括3D对象分类、语义体素标记和CAD模型检索。

3D数据集

Stanford 2D-3D：该数据集提供了来自2D、2.5D和3D域的各种相互注册的模式，具有实例级语义和几何注释[166]，并在6个室内区域收集。它包含超过70,000张RGB图像，以及相应的深度、表面法线、语义注释、全局XYZ图像以及相机信息。

ShapeNet Core是完整的ShapeNet数据集[167]的一个子集，带有单个干净的3D模型和手动验证的类别和对齐注释[168]。它涵盖了55个常见的对象类别，大约51,300个独特的3D模型。

Sydney Urban Objects Dataset：该数据集包含各种常见的城市道路对象，收集在澳大利亚悉尼的中央商务区。有631个单独扫描对象的车辆，行人，标志和树木[169]。

图像分割性能评估

模型评价指标

理想情况下，模型应该在多个方面进行评估，如定量精度、速度（推理时间）和存储需求（内存占用）。然而，到目前为止，大多数研究工作都集中在评估模型准确性的指标上。下面我们总结了评估分割算法的准确性的最受欢迎的指标。虽然定量指标用于比较基准上的不同模型，但模型输出的视觉质量在决定哪个模型最好时也很重要（因为人类是许多为计算机视觉应用程序开发的模型的最终消费者）
Pixel accuracy简单地定义为正确分类的像素的比值，除以像素的总数。对于K个+1类（K个前景类和背景），像素精度公式如下：

其中 $p_{ij}$ 是 $i$ 类预测为属于 $j$ 类的像素数。

平均像素精度 Mean Pixel Accuracy，MPA是像素精确度的扩展版本，其中正确像素的比率以每个类的方式计算，然后占类总数的平均值：

联合交叉点(IoU)或Jaccard索引是语义分割中最常用的指标之一。定义为预测分割图与地面真相的相交面积，除以预测分割图与Ground-True的结合面积：

其中， $A$ 和 $B$ 分别表示Ground-True和预测的分割图。其范围在0到1之间。

Mean-IoU是另一个流行的度量，它被定义为所有类的平均交并比。它被广泛应用于评价图像分割算法的性能。

Precision / Recall / F1 score

Dice coefficient是另一种流行的图像分割度量（更常用于医学图像分析），它可以定义为预测和Ground-True重叠面积的两倍，除以两幅图像中的像素总数。Dice coefficient与IoU非常相似：

深度学习模型量化指标

本节将列出前面讨论的几个算法在流行的分割基准测试上的性能。值得一提的是，尽管大多数模型在标准数据集上报告它们的性能并使用标准指标，但其中一些模型没有做到这一点，这使得全面比较变得困难。此外，只有一小部分论文以一种可复现的方式提供了额外的信息，如执行时间和内存占用，这对分割模型（如无人机、自动驾驶汽车、机器人等）的工业应用非常重要。这可能快速、轻量模型运行在计算能力和存储有限的嵌入式设备上至关重要。

下表总结了几种突出的基于深度学习的分割模型在不同数据集上的性能。表1主要关注Pascal尔VOC测试集。显然，自从引入第一个基于dl的图像分割模型FCN以来，这些模型的准确性有了很大的提高。表2集中于城市景观测试数据集。最新模型的相对FCN模型的增益约为23%。表3重点介绍了MSCOCO材料测试集。这个数据集比Pascal尔VOC更具挑战性，而且城市逃逸，因为最高的mIoU约为40%。表4集中于ADE20k验证集。这个数据集也比PascalVOC和城市逃逸数据集更具挑战性。

挑战和机遇

毫无疑问，图像分割从深度学习中获益良多，但未来面临着几个挑战。接下来，我们将介绍一些有前途的研究方向，我们相信这将有助于进一步推进图像分割算法。

可解释模型

虽然基于深度学习的模型在具有挑战性的基准测试上取得了良好的性能，但关于这些模型仍然存在悬而未决的问题。例如，深度模型的学习到底是什么？我们应该如何解释这些模型所学到的特征？什么是能够在给定的数据集上实现一定的分割精度的最小神经结构？虽然有一些技术可用来可视化这些模型的学习卷积内核，但缺乏对这些模型的潜在行为/动力学的具体研究。更好地理解这些模型的理论方面，可以开发针对各种分割场景的更好的模型。

弱监督和无监督学习

弱监督的[182]和无监督学习[183]正成为非常活跃的研究领域。这些技术对于图像分割具有特别的价值，因为收集标记样本在许多应用领域是有问题的，特别是在医学图像分析中。迁移学习方法是在大量标记样本（可能来自公共基准）上训练一个通用的图像分割模型，然后在来自某些特定目标应用程序的少数样本上对该模型进行微调。自监督学习是另一个在各个领域吸引很有吸引力的方向。在自监督学习的帮助下，图像中有许多细节可以用更少的训练样本来训练分割模型。基于强化学习的模型也可能是另一个潜在的未来方向，因为它们在图像分割中很少得到人们的关注。例如，morel[184]引入了一种深度强化学习方法来在视频中移动对象分割。

实时检测模型

在许多应用中，准确性是最重要的因素；然而，在一些应用中，分割模型能够接近实时运行，或者至少接近常见的相机帧率（至少25帧每秒也至关重要）。这对于计算机视觉系统很有用，例如，部署在自动驾驶汽车上。目前的大多数模型都远非这个帧率；例如，FCN-8处理大约需要100ms的低分辨率图像。基于扩展卷积的模型在一定程度上有助于提高分割模型的速度，但仍有很大的改进空间。

高效内存模型

许多现代分割模型甚至在推理阶段也需要大量的内存。到目前为止，人们已经在努力提高这些模型的准确性，但为了使它们适应特定的设备，如手机，网络必须简化。这可以通过使用更简单的模型来实现，也可以通过使用模型压缩技术，甚至训练一个复杂的模型，然后使用知识蒸馏技术将其压缩成一个更小、内存效率高的网络来模拟复杂的模型。

三维点云分割

许多工作已经集中在二维图像分割，但很少有工作已经解决三维点云分割。然而，人们对点云分割在三维建模、自动驾驶汽车、机器人技术、建筑建模等领域有着越来越广泛的应用，这使人们越来越感兴趣。处理三维无序和非结构化数据，如点云提出了几个挑战。例如，在点云上应用其他经典cnn和其他深度学习架构的最佳方法尚不清楚。基于图的深度模型可以成为点云分割的一个潜在探索领域，使这些数据的额外工业应用成为可能。

应用场景

在本节中，我们将简要研究最近基于深度学习的分割方法的一些应用场景，以及未来的一些挑战。最值得注意的是，这些方法已成功地应用于遥感[185]领域的卫星图像分割，包括城市规划[186]或精确农业[187]技术。机载平台[188]和无人机[189]收集的遥感图像也使用基于深度学习的技术进行了图像分割，为解决重要的环境问题，如涉及气候变化提供了机会。分割这类图像的主要挑战与数据的非常大的维数（通常由具有数百甚至数千个光谱波段的成像光谱仪收集）和有限的Ground-True信息来评估分割算法获得的结果的准确性有关。基于Dl分割的另一个非常重要的应用领域是医学成像[190]。在这里，一个机会是设计标准化的图像数据库，可用于评估快速传播的新疾病和大流行病。

总结

我们调查了100多种基于深度学习模型的图像分割算法，这些算法在各种图像分割任务和基准中取得了令人印象深刻的性能，分为十类：CNN和FCN、RNN、R-CNN、扩展CNN、基于注意力的模型、生成和对抗模型等。我们总结了在一些流行的基准测试上对这些模型的定量性能分析，如pascalVOC、MSCOCO、城市景观和ADE20k数据集。最后，我们讨论了未来几年图像分割可能面临的一些开放挑战和潜在的研究方向。

参考文献

[1] R. Szeliski, Computer vision: algorithms and applications. Springer Science & Business Media, 2010.
[2] D. Forsyth and J. Ponce, Computer vision: a modern approach. Prentice Hall Professional Technical Reference, 2002.
[3] N. Otsu, “A threshold selection method from gray-level histograms,” IEEE transactions on systems, man, and cybernetics, vol. 9, no. 1, pp. 62–66, 1979.
[4] R. Nock and F. Nielsen, “Statistical region merging,” IEEE Transactions on pattern analysis and machine intelligence, vol. 26, no. 11, pp. 1452–1458, 2004.
[5] N. Dhanachandra, K. Manglem, and Y. J. Chanu, “Image segmentation using k-means clustering algorithm and subtractive clustering algorithm,” Procedia Computer Science, vol. 54, pp. 764–771, 2015.
[6] L. Najman and M. Schmitt, “Watershed of a continuous function,” Signal Processing, vol. 38, no. 1, pp. 99–112, 1994.
[7] M. Kass, A. Witkin, and D. Terzopoulos, “Snakes: Active contour models,” International journal of computer vision, vol. 1, no. 4, pp. 321–331, 1988.
[8] Y. Boykov, O. Veksler, and R. Zabih, “Fast approximate energy minimization via graph cuts,” IEEE Transactions on pattern analysis and machine intelligence, vol. 23, no. 11, pp. 1222–1239, 2001.
[9] N. Plath, M. Toussaint, and S. Nakajima, “Multi-class image segmentation using conditional random fields and global classifi- cation,” in Proceedings of the 26th Annual International Conference on Machine Learning. ACM, 2009, pp. 817–824.
[10] J.-L. Starck, M. Elad, and D. L. Donoho, “Image decomposition via the combination of sparse representations and a variational approach,” IEEE transactions on image processing, vol. 14, no. 10, pp. 1570–1582, 2005.
[11] S. Minaee and Y. Wang, “An admm approach to masked signal decomposition using subspace representation,” IEEE Transactions on Image Processing, vol. 28, no. 7, pp. 3192–3204, 2019.
[12] L.-C. Chen, G. Papandreou, F. Schroff, and H. Adam, “Rethinking atrous convolution for semantic image segmentation,” arXiv preprint arXiv:1706.05587, 2017.
[13] Y. LeCun, L. Bottou, Y. Bengio, P. Haffner et al., “Gradient-based learning applied to document recognition,” Proceedings of the IEEE, vol. 86, no. 11, pp. 2278–2324, 1998.
[14] S. Hochreiter and J. Schmidhuber, “Long short-term memory,” Neural computation, vol. 9, no. 8, pp. 1735–1780, 1997.
[15] V. Badrinarayanan, A. Kendall, and R. Cipolla, “Segnet: A deep convolutional encoder-decoder architecture for image segmentation,” IEEE transactions on pattern analysis and machine intelligence, vol. 39, no. 12, pp. 2481–2495, 2017.
[16] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y. Bengio, “Generative adversarial nets,” in Advances in neural information processing systems, 2014, pp. 2672–2680.
[17] K. Fukushima, “Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position,” Biological cybernetics, vol. 36, no. 4, pp. 193–202, 1980.
[18] A. Waibel, T. Hanazawa, G. Hinton, K. Shikano, and K. J. Lang, “Phoneme recognition using time-delay neural networks,” IEEE transactions on acoustics, speech, and signal processing, vol. 37, no. 3, pp. 328–339, 1989.
[19] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “Imagenet classifi- cation with deep convolutional neural networks,” in Advances in neural information processing systems, 2012, pp. 1097–1105.
[20] K. Simonyan and A. Zisserman, “Very deep convolutional networks for large-scale image recognition,” arXiv preprint arXiv:1409.1556, 2014.
[21] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 770–778.
[22] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich, “Going deeper with convolutions,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2015, pp. 1–9.
[23] A. G. Howard, M. Zhu, B. Chen, D. Kalenichenko, W. Wang, T. Weyand, M. Andreetto, and H. Adam, “Mobilenets: Efficient convolutional neural networks for mobile vision applications,” arXiv preprint arXiv:1704.04861, 2017. 18
[24] G. Huang, Z. Liu, L. Van Der Maaten, and K. Q. Weinberger, “Densely connected convolutional networks,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, pp. 4700–4708.
[25] D. E. Rumelhart, G. E. Hinton, R. J. Williams et al., “Learning representations by back-propagating errors,” Cognitive modeling, vol. 5, no. 3, p. 1, 1988.
[26] I. Goodfellow, Y. Bengio, and A. Courville, Deep learning. MIT press, 2016.
[27] A. Radford, L. Metz, and S. Chintala, “Unsupervised representation learning with deep convolutional generative adversarial networks,” arXiv preprint arXiv:1511.06434, 2015.
[28] M. Mirza and S. Osindero, “Conditional generative adversarial nets,” arXiv preprint arXiv:1411.1784, 2014.
[29] M. Arjovsky, S. Chintala, and L. Bottou, “Wasserstein gan,” arXiv preprint arXiv:1701.07875, 2017.
[30] https://github.com/hindupuravinash/the-gan-zoo.
[31] J. Long, E. Shelhamer, and T. Darrell, “Fully convolutional networks for semantic segmentation,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2015, pp. 3431– 3440.
[32] W. Liu, A. Rabinovich, and A. C. Berg, “Parsenet: Looking wider to see better,” arXiv preprint arXiv:1506.04579, 2015.
[33] G. Wang, W. Li, S. Ourselin, and T. Vercauteren, “Automatic brain tumor segmentation using cascaded anisotropic convolutional neural networks,” in International MICCAI Brainlesion Workshop. Springer, 2017, pp. 178–190.
[34] Y. Li, H. Qi, J. Dai, X. Ji, and Y. Wei, “Fully convolutional instanceaware semantic segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 2359–2367.
[35] Y. Yuan, M. Chao, and Y.-C. Lo, “Automatic skin lesion segmentation using deep fully convolutional networks with jaccard distance,” IEEE transactions on medical imaging, vol. 36, no. 9, pp. 1876–1886, 2017.
[36] N. Liu, H. Li, M. Zhang, J. Liu, Z. Sun, and T. Tan, “Accurate iris segmentation in non-cooperative environments using fully convolutional networks,” in 2016 International Conference on Biometrics (ICB). IEEE, 2016, pp. 1–8.
[37] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille, “Semantic image segmentation with deep convolutional nets and fully connected crfs,” arXiv preprint arXiv:1412.7062, 2014.
[38] A. G. Schwing and R. Urtasun, “Fully connected deep structured networks,” arXiv preprint arXiv:1503.02351, 2015.
[39] S. Zheng, S. Jayasumana, B. Romera-Paredes, V. Vineet, Z. Su, D. Du, C. Huang, and P. H. Torr, “Conditional random fields as recurrent neural networks,” in Proceedings of the IEEE international conference on computer vision, 2015, pp. 1529–1537.
[40] G. Lin, C. Shen, A. Van Den Hengel, and I. Reid, “Efficient piecewise training of deep structured models for semantic segmentation,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 3194–3203.
[41] Z. Liu, X. Li, P. Luo, C.-C. Loy, and X. Tang, “Semantic image segmentation via deep parsing network,” in Proceedings of the IEEE international conference on computer vision, 2015, pp. 1377–1385.
[42] H. Noh, S. Hong, and B. Han, “Learning deconvolution network for semantic segmentation,” in Proceedings of the IEEE international conference on computer vision, 2015, pp. 1520–1528.
[43] A. Kendall, V. Badrinarayanan, and R. Cipolla, “Bayesian segnet: Model uncertainty in deep convolutional encoder-decoder architectures for scene understanding,” arXiv preprint arXiv:1511.02680, 2015.
[44] Y. Yuan, X. Chen, and J. Wang, “Object-contextual representations for semantic segmentation,” arXiv preprint arXiv:1909.11065, 2019.
[45] J. Fu, J. Liu, Y. Wang, J. Zhou, C. Wang, and H. Lu, “Stacked deconvolutional network for semantic segmentation,” IEEE Transactions on Image Processing, 2019.
[46] A. Chaurasia and E. Culurciello, “Linknet: Exploiting encoder representations for efficient semantic segmentation,” in 2017 IEEE Visual Communications and Image Processing (VCIP). IEEE, 2017, pp. 1–4.
[47] X. Xia and B. Kulis, “W-net: A deep model for fully unsupervised image segmentation,” arXiv preprint arXiv:1711.08506, 2017.
[48] Y. Cheng, R. Cai, Z. Li, X. Zhao, and K. Huang, “Locality-sensitive deconvolution networks with gated fusion for rgb-d indoor semantic segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 3029–3037.
[49] O. Ronneberger, P. Fischer, and T. Brox, “U-net: Convolutional networks for biomedical image segmentation,” in International Conference on Medical image computing and computer-assisted intervention. Springer, 2015, pp. 234–241.
[50] F. Milletari, N. Navab, and S.-A. Ahmadi, “V-net: Fully convolutional neural networks for volumetric medical image segmentation,” in 2016 Fourth International Conference on 3D Vision (3DV). IEEE, 2016, pp. 565–571.
[51] ¨O. C¸ ic¸ek, A. Abdulkadir, S. S. Lienkamp, T. Brox, and O. Ronneberger, “3d u-net: learning dense volumetric segmentation from sparse annotation,” in International conference on medical image computing and computer-assisted intervention. Springer, 2016, pp. 424–432.
[52] Z. Zhou, M. M. R. Siddiquee, N. Tajbakhsh, and J. Liang, “Unet++: A nested u-net architecture for medical image segmentation,” in Deep Learning in Medical Image Analysis and Multimodal Learning for Clinical Decision Support. Springer, 2018, pp. 3–11.
[53] Z. Zhang, Q. Liu, and Y. Wang, “Road extraction by deep residual u-net,” IEEE Geoscience and Remote Sensing Letters, vol. 15, no. 5, pp. 749–753, 2018.
[54] T. Brosch, L. Y. Tang, Y. Yoo, D. K. Li, A. Traboulsee, and R. Tam, “Deep 3d convolutional encoder networks with shortcuts for multiscale feature integration applied to multiple sclerosis lesion segmentation,” IEEE transactions on medical imaging, vol. 35, no. 5, pp. 1229–1239, 2016.
[55] T.-Y. Lin, P. Doll´ar, R. Girshick, K. He, B. Hariharan, and S. Belongie, “Feature pyramid networks for object detection,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, pp. 2117–2125.
[56] H. Zhao, J. Shi, X. Qi, X. Wang, and J. Jia, “Pyramid scene parsing network,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, pp. 2881–2890.
[57] G. Ghiasi and C. C. Fowlkes, “Laplacian pyramid reconstruction and refinement for semantic segmentation,” in European Conference on Computer Vision. Springer, 2016, pp. 519–534.
[58] J. He, Z. Deng, and Y. Qiao, “Dynamic multi-scale filters for semantic segmentation,” in Proceedings of the IEEE International Conference on Computer Vision, 2019, pp. 3562–3572.
[59] H. Ding, X. Jiang, B. Shuai, A. Qun Liu, and G. Wang, “Context contrasted feature and gated multi-scale aggregation for scene segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 2393–2402.
[60] J. He, Z. Deng, L. Zhou, Y. Wang, and Y. Qiao, “Adaptive pyramid context network for semantic segmentation,” in Conference on Computer Vision and Pattern Recognition, 2019, pp. 7519–7528.
[61] D. Lin, Y. Ji, D. Lischinski, D. Cohen-Or, and H. Huang, “Multiscale context intertwining for semantic segmentation,” in Proceedings of the European Conference on Computer Vision (ECCV), 2018, pp. 603–619.
[62] G. Li, Y. Xie, L. Lin, and Y. Yu, “Instance-level salient object segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 2386–2395.
[63] S. Ren, K. He, R. Girshick, and J. Sun, “Faster r-cnn: Towards realtime object detection with region proposal networks,” in Advances in neural information processing systems, 2015, pp. 91–99.
[64] K. He, G. Gkioxari, P. Doll´ar, and R. Girshick, “Mask r-cnn,” in Proceedings of the IEEE international conference on computer vision, 2017, pp. 2961–2969.
[65] S. Liu, L. Qi, H. Qin, J. Shi, and J. Jia, “Path aggregation network for instance segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 8759–8768.
[66] J. Dai, K. He, and J. Sun, “Instance-aware semantic segmentation via multi-task network cascades,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 3150–3158.
[67] R. Hu, P. Doll´ar, K. He, T. Darrell, and R. Girshick, “Learning to segment every thing,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 4233–4241.
[68] L.-C. Chen, A. Hermans, G. Papandreou, F. Schroff, P. Wang, and H. Adam, “Masklab: Instance segmentation by refining object detection with semantic and direction features,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 4013–4022.
[69] X. Chen, R. Girshick, K. He, and P. Doll´ar, “Tensormask: A foundation for dense object segmentation,” arXiv preprint arXiv:1903.12174, 2019. 19
[70] J. Dai, Y. Li, K. He, and J. Sun, “R-fcn: Object detection via region-based fully convolutional networks,” in Advances in neural information processing systems, 2016, pp. 379–387.
[71] P. O. Pinheiro, R. Collobert, and P. Doll´ar, “Learning to segment object candidates,” in Advances in Neural Information Processing Systems, 2015, pp. 1990–1998.
[72] E. Xie, P. Sun, X. Song, W. Wang, X. Liu, D. Liang, C. Shen, and P. Luo, “Polarmask: Single shot instance segmentation with polar representation,” arXiv preprint arXiv:1909.13226, 2019.
[73] Z. Hayder, X. He, and M. Salzmann, “Boundary-aware instance segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 5696–5704.
[74] Y. Lee and J. Park, “Centermask: Real-time anchor-free instance segmentation,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 13 906–13 915.
[75] M. Bai and R. Urtasun, “Deep watershed transform for instance segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 5221–5229.
[76] D. Bolya, C. Zhou, F. Xiao, and Y. J. Lee, “Yolact: Real-time instance segmentation,” in Proceedings of the IEEE international conference on computer vision, 2019, pp. 9157–9166.
[77] A. Fathi, Z. Wojna, V. Rathod, P. Wang, H. O. Song, S. Guadarrama, and K. P. Murphy, “Semantic instance segmentation via deep metric learning,” arXiv preprint arXiv:1703.10277, 2017.
[78] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille, “Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs,” IEEE transactions on pattern analysis and machine intelligence, vol. 40, no. 4,
pp. 834–848, 2017.
[79] F. Yu and V. Koltun, “Multi-scale context aggregation by dilated convolutions,” arXiv preprint arXiv:1511.07122, 2015.
[80] P. Wang, P. Chen, Y. Yuan, D. Liu, Z. Huang, X. Hou, and G. Cottrell, “Understanding convolution for semantic segmentation,” in winter conference on applications of computer vision. IEEE, 2018, pp. 1451–1460.
[81] M. Yang, K. Yu, C. Zhang, Z. Li, and K. Yang, “Denseaspp for semantic segmentation in street scenes,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 3684–3692.
[82] A. Paszke, A. Chaurasia, S. Kim, and E. Culurciello, “Enet: A deep neural network architecture for real-time semantic segmentation,” arXiv preprint arXiv:1606.02147, 2016.
[83] L.-C. Chen, Y. Zhu, G. Papandreou, F. Schroff, and H. Adam, “Encoder-decoder with atrous separable convolution for semantic image segmentation,” in Proceedings of the European conference on computer vision (ECCV), 2018, pp. 801–818.
[84] F. Visin, M. Ciccone, A. Romero, K. Kastner, K. Cho, Y. Bengio, M. Matteucci, and A. Courville, “Reseg: A recurrent neural network based model for semantic segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2016, pp. 41–48.
[85] F. Visin, K. Kastner, K. Cho, M. Matteucci, A. Courville, and Y. Bengio, “Renet: A recurrent neural network based alternative to convolutional networks,” arXiv preprint arXiv:1505.00393, 2015.
[86] W. Byeon, T. M. Breuel, F. Raue, and M. Liwicki, “Scene labeling with lstm recurrent neural networks,” in IEEE Conference on Computer Vision and Pattern Recognition, 2015, pp. 3547–3555.
[87] X. Liang, X. Shen, J. Feng, L. Lin, and S. Yan, “Semantic object parsing with graph lstm,” in European Conference on Computer Vision. Springer, 2016, pp. 125–143.
[88] Y. Xiang and D. Fox, “Da-rnn: Semantic mapping with data associated recurrent neural networks,” arXiv:1703.03098, 2017.
[89] R. Hu, M. Rohrbach, and T. Darrell, “Segmentation from natural language expressions,” in European Conference on Computer Vision. Springer, 2016, pp. 108–124.
[90] L.-C. Chen, Y. Yang, J. Wang, W. Xu, and A. L. Yuille, “Attention to scale: Scale-aware semantic image segmentation,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 3640–3649.
[91] Q. Huang, C. Xia, C. Wu, S. Li, Y. Wang, Y. Song, and C.-C. J. Kuo, “Semantic segmentation with reverse attention,” arXiv preprint arXiv:1707.06426, 2017.
[92] H. Li, P. Xiong, J. An, and L. Wang, “Pyramid attention network for semantic segmentation,” arXiv preprint arXiv:1805.10180, 2018.
[93] J. Fu, J. Liu, H. Tian, Y. Li, Y. Bao, Z. Fang, and H. Lu, “Dual attention network for scene segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 3146–3154.
[94] Y. Yuan and J. Wang, “Ocnet: Object context network for scene parsing,” arXiv preprint arXiv:1809.00916, 2018.
[95] X. Li, Z. Zhong, J. Wu, Y. Yang, Z. Lin, and H. Liu, “Expectation maximization attention networks for semantic segmentation,” in Proceedings of the IEEE International Conference on Computer Vision, 2019, pp. 9167–9176.
[96] Z. Huang, X. Wang, L. Huang, C. Huang, Y. Wei, and W. Liu, “Ccnet: Criss-cross attention for semantic segmentation,” in Proceedings of the IEEE International Conference on Computer Vision, 2019, pp. 603–612.
[97] M. Ren and R. S. Zemel, “End-to-end instance segmentation with recurrent attention,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 6656–6664.
[98] H. Zhao, Y. Zhang, S. Liu, J. Shi, C. Change Loy, D. Lin, and J. Jia, “Psanet: Point-wise spatial attention network for scene parsing,” in Proceedings of the European Conference on Computer Vision (ECCV), 2018, pp. 267–283.
[99] C. Yu, J. Wang, C. Peng, C. Gao, G. Yu, and N. Sang, “Learning a discriminative feature network for semantic segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 1857–1866.
[100] P. Luc, C. Couprie, S. Chintala, and J. Verbeek, “Semantic segmentation using adversarial networks,” arXiv preprint arXiv:1611.08408, 2016.
[101] N. Souly, C. Spampinato, and M. Shah, “Semi supervised semantic segmentation using generative adversarial network,” in Proceedings of the IEEE International Conference on Computer Vision, 2017, pp. 5688–5696.
[102] W.-C. Hung, Y.-H. Tsai, Y.-T. Liou, Y.-Y. Lin, and M.-H. Yang, “Adversarial learning for semi-supervised semantic segmentation,” arXiv preprint arXiv:1802.07934, 2018.
[103] Y. Xue, T. Xu, H. Zhang, L. R. Long, and X. Huang, “Segan: Adversarial network with multi-scale l 1 loss for medical image segmentation,” Neuroinformatics, vol. 16, no. 3-4, pp. 383–392, 2018.
[104] M. Majurski, P. Manescu, S. Padi, N. Schaub, N. Hotaling, C. Simon Jr, and P. Bajcsy, “Cell image segmentation using generative adversarial networks, transfer learning, and augmentations,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2019, pp. 0–0.
[105] K. Ehsani, R. Mottaghi, and A. Farhadi, “Segan: Segmenting and generating the invisible,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 6144–6153.
[106] T. F. Chan and L. A. Vese, “Active contours without edges,” IEEE Transactions on Image Processing, vol. 10, no. 2, pp. 266–277, 2001.
[107] X. Chen, B. M. Williams, S. R. Vallabhaneni, G. Czanner, R. Williams, and Y. Zheng, “Learning active contour models for medical image segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 11 632–11 640.
[108] T. H. N. Le, K. G. Quach, K. Luu, C. N. Duong, and M. Savvides, “Reformulating level sets as deep recurrent neural network approach to semantic segmentation,” IEEE Transactions on Image Processing, vol. 27, no. 5, pp. 2393–2407, 2018.
[109] C. Rupprecht, E. Huaroc, M. Baust, and N. Navab, “Deep active contours,” arXiv preprint arXiv:1607.05074, 2016.
[110] A. Hatamizadeh, A. Hoogi, D. Sengupta, W. Lu, B. Wilcox, D. Rubin, and D. Terzopoulos, “Deep active lesion segmentation,” in Proc. International Workshop on Machine Learning in Medical Imaging, ser. Lecture Notes in Computer Science, vol. 11861.
Springer, 2019, pp. 98–105.
[111] D. Marcos, D. Tuia, B. Kellenberger, L. Zhang, M. Bai, R. Liao, and R. Urtasun, “Learning deep structured active contours end to end,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018, pp. 8877–8885.
[112] D. Cheng, R. Liao, S. Fidler, and R. Urtasun, “Darnet: Deep active ray network for building segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 7431–7439.
[113] A. Hatamizadeh, D. Sengupta, and D. Terzopoulos, “End-to-end deep convolutional active contours for image segmentation,” arXiv preprint arXiv:1909.13359, 2019.
[114] H. Zhang, K. Dana, J. Shi, Z. Zhang, X. Wang, A. Tyagi, and A. Agrawal, “Context encoding for semantic segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 7151–7160. 20
[115] G. Lin, A. Milan, C. Shen, and I. Reid, “Refinenet: Multi-path refinement networks for high-resolution semantic segmentation,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, pp. 1925–1934.
[116] G. Song, H. Myeong, and K. Mu Lee, “Seednet: Automatic seed generation with deep reinforcement learning for robust interactive segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 1760–1768.
[117] J. Dai, K. He, and J. Sun, “Boxsup: Exploiting bounding boxes to supervise convolutional networks for semantic segmentation,” in Proceedings of the IEEE International Conference on Computer Vision, 2015, pp. 1635–1643.
[118] C. Peng, X. Zhang, G. Yu, G. Luo, and J. Sun, “Large kernel matters–improve semantic segmentation by global convolutional network,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, pp. 4353–4361.
[119] Z. Wu, C. Shen, and A. Van Den Hengel, “Wider or deeper: Revisiting the resnet model for visual recognition,” Pattern Recognition, vol. 90, pp. 119–133, 2019.
[120] Z. Zhang, X. Zhang, C. Peng, X. Xue, and J. Sun, “Exfuse: Enhancing feature fusion for semantic segmentation,” in Proceedings of the European Conference on Computer Vision (ECCV), 2018, pp. 269–284.
[121] M. Mostajabi, P. Yadollahpour, and G. Shakhnarovich, “Feedforward semantic segmentation with zoom-out features,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2015, pp. 3376–3385.
[122] W. Wang, J. Shen, and F. Porikli, “Saliency-aware geodesic video object segmentation,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2015, pp. 3395–3402.
[123] P. Luo, G. Wang, L. Lin, and X. Wang, “Deep dual learning for semantic image segmentation,” in Proceedings of the IEEE International Conference on Computer Vision, 2017, pp. 2718–2726.
[124] X. Li, Z. Jie, W. Wang, C. Liu, J. Yang, X. Shen, Z. Lin, Q. Chen, S. Yan, and J. Feng, “Foveanet: Perspective-aware urban scene parsing,” in Proceedings of the IEEE International Conference on Computer Vision, 2017, pp. 784–792.
[125] I. Kreso, S. Segvic, and J. Krapac, “Ladder-style densenets for semantic segmentation of large natural images,” in IEEE International Conference on Computer Vision, 2017, pp. 238–245.
[126] C. Yu, J. Wang, C. Peng, C. Gao, G. Yu, and N. Sang, “Bisenet: Bilateral segmentation network for real-time semantic segmentation,” in European Conference on Computer Vision, 2018, pp. 325–341.
[127] B. Cheng, L.-C. Chen, Y. Wei, Y. Zhu, Z. Huang, J. Xiong, T. S. Huang, W.-M. Hwu, and H. Shi, “Spgnet: Semantic prediction guidance for scene parsing,” in Proceedings of the IEEE International Conference on Computer Vision, 2019, pp. 5218–5228.
[128] T. Takikawa, D. Acuna, V. Jampani, and S. Fidler, “Gated-scnn: Gated shape cnns for semantic segmentation,” in IEEE International Conference on Computer Vision, 2019, pp. 5229–5238.
[129] J. Fu, J. Liu, Y. Wang, Y. Li, Y. Bao, J. Tang, and H. Lu, “Adaptive context network for scene parsing,” in Proceedings of the IEEE international conference on computer vision, 2019, pp. 6748–6757.
[130] X. Liang, H. Zhou, and E. Xing, “Dynamic-structured semantic propagation network,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 752–761.
[131] X. Liang, Z. Hu, H. Zhang, L. Lin, and E. P. Xing, “Symbolic graph reasoning meets convolutions,” in Advances in Neural Information Processing Systems, 2018, pp. 1853–1863.
[132] B. Zhou, H. Zhao, X. Puig, S. Fidler, A. Barriuso, and A. Torralba, “Scene parsing through ade20k dataset,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017.
[133] R. Zhang, S. Tang, Y. Zhang, J. Li, and S. Yan, “Scale-adaptive convolutions for scene parsing,” in Proceedings of the IEEE International Conference on Computer Vision, 2017, pp. 2031–2039.
[134] T. Xiao, Y. Liu, B. Zhou, Y. Jiang, and J. Sun, “Unified perceptual parsing for scene understanding,” in Proceedings of the European
Conference on Computer Vision (ECCV), 2018, pp. 418–434.
[135] B. Zoph, G. Ghiasi, T.-Y. Lin, Y. Cui, H. Liu, E. D. Cubuk, and Q. V. Le, “Rethinking pre-training and self-training,” arXiv preprint arXiv:2006.06882, 2020.
[136] X. Zhang, H. Xu, H. Mo, J. Tan, C. Yang, and W. Ren, “Dcnas: Densely connected neural architecture search for semantic image segmentation,” arXiv preprint arXiv:2003.11883, 2020.
[137] A. Tao, K. Sapra, and B. Catanzaro, “Hierarchical multi-scale attention for semantic segmentation,” arXiv preprint arXiv:2005.10821, 2020.
[138] A. Kirillov, K. He, R. Girshick, C. Rother, and P. Doll´ar, “Panoptic segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 9404–9413.
[139] A. Kirillov, R. Girshick, K. He, and P. Dollar, “Panoptic feature pyramid networks,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 6399–6408.
[140] Y. Li, X. Chen, Z. Zhu, L. Xie, G. Huang, D. Du, and X. Wang, “Attention-guided unified network for panoptic segmentation,” in IEEE Conference on Computer Vision and Pattern Recognition, 2019.
[141] L. Porzi, S. R. Bulo, A. Colovic, and P. Kontschieder, “Seamless scene segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 8277–8286.
[142] B. Cheng, M. D. Collins, Y. Zhu, T. Liu, T. S. Huang, H. Adam, and L.-C. Chen, “Panoptic-deeplab,” arXiv preprint arXiv:1910.04751, 2019.
[143] Y. Xiong, R. Liao, H. Zhao, R. Hu, M. Bai, E. Yumer, and R. Urtasun, “Upsnet: A unified panoptic segmentation network,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 8818–8826.
[144] R. Mohan and A. Valada, “Efficientps: Efficient panoptic segmentation,” arXiv preprint arXiv:2004.02307, 2020.
[145] M. Everingham, L. Van Gool, C. K. Williams, J. Winn, and A. Zisserman, “The pascal visual object classes (voc) challenge,” International journal of computer vision, vol. 88, pp. 303–338, 2010.
[146] http://host.robots.ox.ac.uk/pascal/VOC/voc2012/.
[147] R. Mottaghi, X. Chen, X. Liu, N.-G. Cho, S.-W. Lee, S. Fidler, R. Urtasun, and A. Yuille, “The role of context for object detection and semantic segmentation in the wild,” in IEEE Conference on Computer Vision and Pattern Recognition, 2014, pp. 891–898.
[148] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Doll´ar, and C. L. Zitnick, “Microsoft coco: Common objects in context,” in European conference on computer vision. Springer, 2014.
[149] M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler, R. Benenson, U. Franke, S. Roth, and B. Schiele, “The cityscapes dataset for semantic urban scene understanding,” in IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 3213–3223.
[150] C. Liu, J. Yuen, and A. Torralba, “Nonparametric scene parsing: Label transfer via dense scene alignment,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2009.
[151] S. Gould, R. Fulton, and D. Koller, “Decomposing a scene into geometric and semantically consistent regions,” in 2009 IEEE 12th international conference on computer vision. IEEE, 2009, pp. 1–8.
[152] D. Martin, C. Fowlkes, D. Tal, and J. Malik, “A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics,” in Proc. 8th Int’l Conf. Computer Vision, vol. 2, July 2001, pp. 416–423.
[153] A. Prest, C. Leistner, J. Civera, C. Schmid, and V. Ferrari, “Learning object class detectors from weakly annotated video,” in 2012 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2012, pp. 3282–3289.
[154] S. D. Jain and K. Grauman, “Supervoxel-consistent foreground propagation in video,” in European conference on computer vision. Springer, 2014, pp. 656–671.
[155] A. Geiger, P. Lenz, C. Stiller, and R. Urtasun, “Vision meets robotics: The kitti dataset,” The International Journal of Robotics Research, vol. 32, no. 11, pp. 1231–1237, 2013.
[156] J. M. Alvarez, T. Gevers, Y. LeCun, and A. M. Lopez, “Road scene segmentation from a single image,” in European Conference on Computer Vision. Springer, 2012, pp. 376–389.
[157] B. Hariharan, P. Arbel´aez, L. Bourdev, S. Maji, and J. Malik, “Semantic contours from inverse detectors,” in 2011 International Conference on Computer Vision. IEEE, 2011, pp. 991–998.
[158] X. Chen, R. Mottaghi, X. Liu, S. Fidler, R. Urtasun, and A. Yuille, “Detect what you can: Detecting and representing objects using holistic models and body parts,” in IEEE Conference on Computer Vision and Pattern Recognition, 2014, pp. 1971–1978.
[159] G. Ros, L. Sellart, J. Materzynska, D. Vazquez, and A. M. Lopez, “The synthia dataset: A large collection of synthetic images for semantic segmentation of urban scenes,” in IEEE conference on computer vision and pattern recognition, 2016, pp. 3234–3243.
[160] X. Shen, A. Hertzmann, J. Jia, S. Paris, B. Price, E. Shechtman, and I. Sachs, “Automatic portrait segmentation for image stylization,” in Computer Graphics Forum, vol. 35, no. 2. Wiley Online Library, 2016, pp. 93–102.
[161] N. Silberman, D. Hoiem, P. Kohli, and R. Fergus, “Indoor segmentation and support inference from rgbd images,” in European Conference on Computer Vision. Springer, 2012, pp. 746–760. 21
[162] J. Xiao, A. Owens, and A. Torralba, “Sun3d: A database of big spaces reconstructed using sfm and object labels,” in IEEE International Conference on Computer Vision, 2013, pp. 1625–1632.
[163] S. Song, S. P. Lichtenberg, and J. Xiao, “Sun rgb-d: A rgb-d scene understanding benchmark suite,” in IEEE conference on computer vision and pattern recognition, 2015, pp. 567–576.
[164] K. Lai, L. Bo, X. Ren, and D. Fox, “A large-scale hierarchical multiview rgb-d object dataset,” in 2011 IEEE international conference on robotics and automation. IEEE, 2011, pp. 1817–1824.
[165] A. Dai, A. X. Chang, M. Savva, M. Halber, T. Funkhouser, and M. Nießner, “Scannet: Richly-annotated 3d reconstructions of indoor scenes,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 5828–5839.
[166] I. Armeni, A. Sax, A. R. Zamir, and S. Savarese, “Joint 2D-3DSemantic Data for Indoor Scene Understanding,” ArXiv e-prints, Feb. 2017.
[167] A. X. Chang, T. Funkhouser, L. Guibas, P. Hanrahan, Q. Huang, Z. Li, S. Savarese, M. Savva, S. Song, H. Su et al., “Shapenet: An information-rich 3d model repository,” arXiv preprint arXiv:1512.03012, 2015.
[168] L. Yi, L. Shao, M. Savva, H. Huang, Y. Zhou, Q. Wang, B. Graham, M. Engelcke, R. Klokov, V. Lempitsky et al., “Large-scale 3d shape reconstruction and segmentation from shapenet core55,” arXiv preprint arXiv:1710.06104, 2017.
[169] M. De Deuge, A. Quadros, C. Hung, and B. Douillard, “Unsupervised feature learning for classification of outdoor 3d scans,” in Australasian Conference on Robitics and Automation, vol. 2, 2013, p. 1.
[170] C.-Y. Fu, M. Shvets, and A. C. Berg, “Retinamask: Learning to predict masks improves state-of-the-art single-shot detection for free,” arXiv preprint arXiv:1901.03353, 2019.
[171] P. O. Pinheiro, T.-Y. Lin, R. Collobert, and P. Doll´ar, “Learning to refine object segments,” in European Conference on Computer Vision. Springer, 2016, pp. 75–91.
[172] H. Liu, C. Peng, C. Yu, J. Wang, X. Liu, G. Yu, and W. Jiang, “An end-to-end network for panoptic segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 6172–6181.
[173] K. Sofiiuk, O. Barinova, and A. Konushin, “Adaptis: Adaptive instance selection network,” in Proceedings of the IEEE International Conference on Computer Vision, 2019, pp. 7355–7363.
[174] J. Lazarow, K. Lee, K. Shi, and Z. Tu, “Learning instance occlusion for panoptic segmentation,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 10 720–10 729.
[175] Z. Deng, S. Todorovic, and L. Jan Latecki, “Semantic segmentation of rgbd images with mutex constraints,” in Proceedings of the IEEE international conference on computer vision, 2015, pp. 1733–1741.
[176] D. Eigen and R. Fergus, “Predicting depth, surface normals and semantic labels with a common multi-scale convolutional architecture,” in IEEE international conference on computer vision, 2015, pp. 2650–2658.
[177] A. Mousavian, H. Pirsiavash, and J. Kosecka, “Joint semantic segmentation and depth estimation with deep convolutional networks,” in International Conference on 3D Vision. IEEE, 2016.
[178] X. Qi, R. Liao, J. Jia, S. Fidler, and R. Urtasun, “3d graph neural networks for rgbd semantic segmentation,” in IEEE International Conference on Computer Vision, 2017, pp. 5199–5208.
[179] W. Wang and U. Neumann, “Depth-aware cnn for rgb-d segmentation,” in Proceedings of the European Conference on Computer Vision (ECCV), 2018, pp. 135–150.
[180] S.-J. Park, K.-S. Hong, and S. Lee, “Rdfnet: Rgb-d multi-level residual feature fusion for indoor semantic segmentation,” in IEEE International Conference on Computer Vision, 2017, pp. 4980–4989.
[181] J. Jiao, Y. Wei, Z. Jie, H. Shi, R. W. Lau, and T. S. Huang, “Geometryaware distillation for indoor semantic segmentation,” in IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 2869–2878.
[182] Z.-H. Zhou, “A brief introduction to weakly supervised learning,” National Science Review, vol. 5, no. 1, pp. 44–53, 2018.
[183] L. Jing and Y. Tian, “Self-supervised visual feature learning with deep neural networks: A survey,” IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020.
[184] V. Goel, J. Weng, and P. Poupart, “Unsupervised video object segmentation for deep reinforcement learning,” in Advances in Neural Information Processing Systems, 2018, pp. 5683–5694.
[185] L. Ma, Y. Liu, X. Zhang, Y. Ye, G. Yin, and B. A. Johnson, “Deep learning in remote sensing applications: A meta-analysis and review,” ISPRS Journal of Photogrammetry and Remote Sensing, vol. 152, pp. 166 – 177, 2019.
[186] L. Gao, Y. Zhang, F. Zou, J. Shao, and J. Lai, “Unsupervised urban scene segmentation via domain adaptation,” Neurocomputing, vol. 406, pp. 295 – 301, 2020.
[187] M. Paoletti, J. Haut, J. Plaza, and A. Plaza, “Deep learning classifiers for hyperspectral imaging: A review,” ISPRS Journal of Photogrammetry and Remote Sensing, vol. 158, pp. 279 – 317, 2019.
[188] J. F. Abrams, A. Vashishtha, S. T. Wong, A. Nguyen, A. Mohamed, S. Wieser, A. Kuijper, A. Wilting, and A. Mukhopadhyay, “Habitat-net: Segmentation of habitat images using deep learning,” Ecological Informatics, vol. 51, pp. 121 – 128, 2019.
[189] M. Kerkech, A. Hafiane, and R. Canals, “Vine disease detection in uav multispectral images using optimized image registration and deep learning segmentation approach,” Computers and Electronics in Agriculture, vol. 174, p. 105446, 2020.
[190] N. Tajbakhsh, L. Jeyaseelan, Q. Li, J. N. Chiang, Z. Wu, and X. Ding, “Embracing imperfect datasets: A review of deep learning solutions for medical image segmentation,” Medical Image Analysis, vol. 63, p. 101693, 2020.
[191] A. Amyar, R. Modzelewski, H. Li, and S. Ruan, “Multi-task deep learning based ct imaging analysis for covid-19 pneumonia: Classification and segmentation,” Computers in Biology and Medicine, vol. 126, p. 104037, 2020.
[192] Y. Song, Z. Huang, C. Shen, H. Shi, and D. A. Lange, “Deep learning-based automated image segmentation for concrete petrographic analysis,” Cement and Concrete Research, vol. 135, p. 106118, 2020.

你可能感兴趣的:(#,图像分割,深度学习)

【机器学习&深度学习】反向传播机制
目录一、一句话定义二、类比理解三、为什重要？四、用生活例子解释：神经网络=烹饪机器人4.1第一步：尝一口（前向传播）4.2第二步：倒着推原因（反向传播）五、换成人工智能流程说一遍六、图示类比：找山顶（最优参数）七、总结一句人话八、PyTorch代码示例：亲眼看到每一层的梯度九、梯度=损失函数对参数的偏导数十、类比总结反向传播（Backpropagation）是神经网络中训练过程的核心机制，它就像“
人脸识别算法赋能园区无人超市安防升级智驱力人工智能算法人工智能边缘计算人脸识别智慧园区智慧工地智慧煤矿
人脸识别算法赋能园区无人超市安防升级正文在园区无人超市的运营管理中，传统安防手段依赖人工巡检或基础监控设备，存在响应滞后、误报率高、环境适应性差等问题。本文从技术背景、实现路径、功能优势及应用场景四个维度，阐述如何通过人脸识别检测、人员入侵算法及疲劳检测算法的协同应用，构建高效、精准的智能安防体系。一、技术背景：视觉分析算法的核心支撑人脸识别算法基于深度学习的卷积神经网络（CNN）模型，通过提取面
【Python深度学习】零基础掌握Pytorch Pooling layers nn.MaxPool方法 Mr数据杨 Python 深度学习 python 深度学习 pytorch
在深度学习的世界中，MaxPooling是一种关键的操作，用于降低数据的维度并保留重要特征。这就像是从一堆照片中挑选出最能代表某个场景的那张。PyTorch提供了多种MaxPooling层，包括nn.MaxPool1d、nn.MaxPool2d和nn.MaxPool3d，它们分别适用于不同维度的数据处理。如果处理的是声音信号（一维数据），就会用到nn.MaxPool1d。而处理图像（二维数据）时，
阅读笔记(2) 单层网络:回归 a2507283885 笔记
阅读笔记(2)单层网络:回归该笔记是DataWhale组队学习计划（共度AI新圣经：深度学习基础与概念）的Task02以下内容为个人理解，可能存在不准确或疏漏之处，请以教材为主。1.从泛函视角来看线性回归还记得线性代数里学过的“基”这个概念吗？一组基向量是一组线性无关的向量，它们通过线性组合可以张成一个向量空间。也就是说，这个空间里的任意一个向量，都可以表示成这组基的线性组合。函数其实也可以看作是
【深度学习解惑】如果用RNN实现情感分析或文本分类，你会如何设计数据输入？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 分类人工智能机器学习神经网络
以下是用RNN实现情感分析/文本分类时数据输入设计的完整技术方案：1.引言与背景介绍情感分析/文本分类是NLP的核心任务，目标是将文本映射到预定义类别（如正面/负面情感）。RNN因其处理序列数据的天然优势成为主流方案。核心挑战在于如何将非结构化的文本数据转换为适合RNN处理的数值化序列输入。2.原理解释文本到向量的转换流程：原始文本分词建立词汇表词索引映射词嵌入层序列向量关键数学表示：词嵌入表示：
10个基于Python的计算机视觉实战项目云博士的AI课堂基于Python计算机视觉 python 计算机视觉机器视觉人工智能
10个基于Python的计算机视觉实战项目，涵盖多个领域和应用场景，每个项目均附有GitHub地址、概述、解决的问题及应用场景：1.PCV图像处理与计算机视觉库GitHub地址:jesolem/PCV概述:提供计算机视觉基础算法的Python实现，包括图像分割、直方图均衡化、图像增强等。解决的问题:简化图像处理流程，支持快速实现算法原型。应用场景:学术研究、教学实验、图像预处理任务。2.基于朴素贝
Pytorch模型安卓部署 python&java pytorch 人工智能 python
Pytorch是一种流行的深度学习框架，用于算法开发，而Android是一种广泛应用的操作系统，多应用于移动设备当中。目前多数的研究都是在于算法上，个人觉得把算法落地是一件很有意思的事情，因此本人准备分享一些模型落地的文章(后续可能分享微信小程序部署，PyQt部署以及exe打包，ncnn部署，tensorRT部署，MNN部署)。本篇文章主要分享Pytorch的Android端部署。看这篇文章的读者
人工智能-基础篇-5-建模方式（判别式模型和生成式模型）
机器学习包括了多种建模方式，其中判别式建模（DiscriminativeModel）和生成式建模是最常见的两种。这两种建模方式都可以通过深度学习技术来实现，并用于创建不同类型的模型。简单来说：想要创建一个模型，依赖需求需要合适的建模方式来创建这个模型。通常建模方式主要分为两大类。一类是判别式模型，针对输入数据给出特定的输出。如：判断一张图片是猫还是狗，直接学习“猫”和“狗”的特征差异（如耳朵形状、
PyTorch教程：LSTM语言模型的动态量化技术解析怀灏其Prudent
PyTorch教程：LSTM语言模型的动态量化技术解析tutorialsPyTorchtutorials.项目地址:https://gitcode.com/gh_mirrors/tuto/tutorials前言在深度学习模型部署过程中，模型大小和推理速度是两个至关重要的考量因素。PyTorch提供的动态量化技术能够在不显著影响模型准确率的前提下，有效减小模型体积并提升推理速度。本文将深入解析如何对
【机器学习】数学基础——张量（傻瓜篇）一叶千舟深度学习【理论】机器学习人工智能
目录前言一、张量的定义1.标量（0维张量）2.向量（1维张量）3.矩阵（2维张量）4.高阶张量（≥3维张量）二、张量的数学表示2.1张量表示法示例三、张量的运算3.1常见张量运算四、张量在深度学习中的应用4.1PyTorch示例：张量在神经网络中的运用五、总结：张量的多维世界延伸阅读前言在机器学习、深度学习以及物理学中，张量是一个至关重要的概念。无论是在人工智能领域的神经网络中，还是在高等数学、物
后端开发实习生简历迭代的5个版本，希望能帮你找到实习今天不coding 简历实习后端 Java 大厂暑期实习
后端开发实习生简历迭代的5个版本，希望能帮你找到实习1.0研究生开学时写的第一份简历，主要是对本科做的项目的一些总结。本科主要是以深度学习的项目为主+比赛，开发的技术学的比较少，后端的项目也没有做过。但是凭此找到了一份算法的实习。当时研一还是想走算法工程师的。后面觉得自己不适合，就放弃了。2.0经历过几个月的算法实习和论文折磨之后，决定走后端开发岗了，选择Java为主语言，在B站大学做了一个项目，
【机器学习实战】Datawhale夏令营2：深度学习回顾城主_全栈开发机器学习机器学习深度学习人工智能
#DataWhale夏令营#ai夏令营文章目录1.深度学习的定义1.1深度学习＆图神经网络1.2机器学习和深度学习的关系2.深度学习的训练流程2.1数学基础2.1.1梯度下降法基本原理数学表达步骤学习率α梯度下降的变体2.1.2神经网络与矩阵网络结构表示前向传播激活函数反向传播批处理卷积操作参数更新优化算法正则化初始化2.2激活函数Sigmoid函数:Tanh函数:ReLU函数(Rectified
深度学习详解：通过案例了解机器学习基础 beist 深度学习机器学习人工智能
引言机器学习（MachineLearning，ML）和深度学习（DeepLearning，DL）是现代人工智能领域中的两个重要概念。通过让机器具备学习的能力，机器可以从数据中自动找到函数，并应用于各种任务，如语音识别、图像识别和游戏对战等。在这篇笔记中，我们将通过一个简单的案例，逐步了解机器学习的基础知识。1.1机器学习案例学习1.1.1回归问题与分类问题在机器学习中，根据所要解决的问题类型，任务
大模型量化需要重新演唱大模型量化
大模型量化是一种优化技术，旨在减少深度学习模型的内存占用和提高推理速度，同时尽量保持模型的精度。量化通过将模型中的浮点数权重和激活值转换为较低精度的表示形式来实现这一目标。以下是关于大模型量化的详细知识：目录1.量化基础1.1量化定义1.2量化优势1.3量化挑战2.量化方法2.1量化类型2.2量化粒度2.3量化算法3.量化实践3.1量化流程3.2量化工具4.量化案例4.1BERT量化4.2GPT-
pytorch 要点之雅可比向量积 AI大模型教程 pytorch 人工智能 python facebook 深度学习机器学习 webpack
自动微分是PyTorch深度学习框架的核心。既然是核心，就需要敲黑板、划重点学习。同时，带来另外一个重要的数学概念：雅可比向量积。PyTorch中的自动微分与雅可比向量积自动微分（AutomaticDifferentiation，AD）是深度学习框架中的关键技术之一，它使得模型训练变得更加简单和高效。且已知：PyTorch是一个广泛使用的深度学习框架，它内置了强大的自动微分功能。在本文中，我们将深
昇腾AI生态组件全解析：与英伟达生态的深度对比
随着人工智能技术的快速发展，国产AI芯片的崛起正在改变全球计算产业的格局。华为昇腾（Ascend）系列AI处理器凭借自主创新的达芬奇架构，构建了完整的软硬件生态体系。本文将从核心组件对比、显卡性能对标两个维度，深入剖析昇腾与英伟达（NVIDIA）生态的技术差异与适用场景。一、昇腾核心组件与英伟达对标分析1.推理引擎：MindIEvsTensorRT昇腾MindIE1.0.0基于昇腾芯片的深度学习推
智能汽车图像及视频处理方案，支持视频智能包装创作能力美摄科技汽车
在这个日新月异的智能时代，每一帧画面都承载着超越想象的力量。随着自动驾驶技术的飞速发展，智能汽车不仅成为了未来出行的代名词，更是技术与艺术完美融合的典范。在这场变革的浪潮中，美摄科技以创新为翼，推出了领先的智能汽车图像及视频处理方案，为智能汽车行业带来了前所未有的视觉盛宴，重新定义了智能出行的视觉体验。一、智能重塑，视觉新境界美摄科技的智能汽车图像及视频处理方案，是基于深度学习、人工智能及大数据处
深度学习计算机视觉开源系统OpenMMLab（mmsegmentation、mmdetection、mmpose）环境配置【详细、可运行】 nomoremorphine 深度学习计算机视觉开源
OpenMMLab（mmsegmentation、mmdetection、mmpose）环境配置OpenMMLab简介优势：一、Windows/Linux下环境配置（以mmsegmentationv1.2.2（最新版）为例）0.确认安装版本信息1）确认电脑显卡版本2）确认mmcv对应版本3）确认版本1.安装CUDA和cuDNN2.创建conda环境，下载pytorch3.安装mmcv4.安装MMS
编译OpenCV支持CUDA视频解码 AI标书 python openvc cuda nvidia docker build
如何在Ubuntu上编译OpenCV并启用CUDA视频解码支持（cudacodec）在深度学习、视频处理等高性能计算领域，OpenCV的GPU加速功能非常重要。特别是它的cudacodec模块，能直接利用NVIDIA硬件实现高效的视频解码，极大提升性能。本文将基于Ubuntu环境，详细介绍从环境准备到编译安装OpenCV，并开启cudacodec模块的全过程。完整的shell脚本以及本次编译所用到
深度学习：梯度下降法数字化与智能化人工智能深度学习深度学习梯度下降法
一、梯度的概念（1）什么是梯度梯度的本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）。对于一个多元函数f(x1,x2,...,xn)，其梯度是一个由函数偏导数组成的向量，其梯度表示为：Gradient=(∂f/∂x1,∂f/∂x2,...,∂f/∂xn)其中，∂f/∂xi表示函数f对第i个自变量
C# vs Python：谁更适合初学者？用5个关键点教你掌握深度学习中的线性代数墨瑾轩一起学学C#【四】c#python 深度学习
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣嘿，小伙伴们！今天我们要一起探索如何使用C#来入门深度学习的世界，特别关注其中的线性代数部分。你可能会好奇：“为什么是C#而不是Python？”别急，我们会在接下来的内容中详细解释这个问题，并通过对比两种语言的特点，让你明白选择C#进行深度学习并不是一个坏主意
合规视角下银行智能客服风险防控 AI 智能服务智能客服人工智能 AIGC 数据库 chatgpt
1.AI驱动金融变革的政策与技术背景政策导向：我国《新一代人工智能发展规划》明确提出发展智能金融，要求：构建金融大数据平台，提升多媒体数据处理能力；创新智能金融产品与服务形态；推广智能客服、监控等技术应用；建立智能风控预警体系。技术支撑：云计算、大数据技术成熟为AI发展奠定了基础。深度学习算法的突破则引爆了本轮AI浪潮，显著提升了复杂任务处理精度，进而推动了计算机视觉、机器学习、自然语言处理（NL
GRU与Transformer结合：新一代序列模型 AI大模型应用工坊 gru transformer 深度学习 ai
GRU与Transformer结合：新一代序列模型关键词：GRU、Transformer、序列模型、结合、深度学习摘要：本文深入探讨了GRU与Transformer结合所形成的新一代序列模型。先介绍了GRU和Transformer各自的核心概念及工作原理，然后阐述了二者结合的原因、方式和优势。通过代码实际案例展示了如何搭建结合的模型，还探讨了其在自然语言处理、语音识别等领域的实际应用场景。最后对未
AI人工智能领域中OpenCV的深度学习融合 AI大模型应用实战人工智能 opencv 深度学习 ai
AI人工智能领域中OpenCV的深度学习融合关键词：AI人工智能、OpenCV、深度学习融合、计算机视觉、图像识别摘要：本文深入探讨了在AI人工智能领域中OpenCV与深度学习的融合。我们将先介绍OpenCV和深度学习的基本概念，再讲解它们融合的原理和方式，通过实际代码案例展示融合的具体操作，探讨其在不同场景的应用，推荐相关工具和资源，分析未来发展趋势与挑战。希望能让大家对这一融合有全面且深入的了
《AI办公类工具PPT系列之七——智谱清言》再见孙悟空_ 【2025 AI工具合集】人工智能 iSlide AI AI智能PPT powerpoint AI PPT PPT
一.简介官网地址为chatglm.cn智谱清言（也被称为ChatGLM）是一款基于大模型技术的人工智能产品，旨在通过其强大的自然语言处理能力，为用户提供高效、智能的交互体验。该产品不仅具备广泛的应用场景，还能够在多个领域内实现深度学习和自我优化。二.功能介绍内容创作：创意写作：帮助用户进行故事、诗歌等文学作品的创作。媒体写作：辅助撰写新闻稿、社交媒体帖子等内容。写作辅助：提供写作建议、结构安排和编
【深度学习解惑】训练RNN时如何解决梯度消失或梯度爆炸？
训练RNN时如何解决梯度消失或梯度爆炸？1.引言与背景介绍循环神经网络（RNN）是处理序列数据的核心模型，但在训练过程中面临两大挑战：梯度消失（GradientVanishing）和梯度爆炸（GradientExplosion）。梯度消失导致长距离依赖难以学习（如文本中相距50个词的关联），而梯度爆炸会造成参数剧烈震荡甚至数值溢出（NaN值）。本文系统分析问题根源并提供工程级解决方案。2.原理解释
找组织——机器学习社区、团体洞察小哥伯涵机器学习人工智能
在Github上，有一些中文社区可以看一看：prompt“如果我是个AI小白，想参加到一个组织，接收最新的AI有趣源项目、一些定期的刊物等。我应该加入哪些组织？”AI社区——深度学习社区Reddit上的MachineLearningsubreddit:https://www.reddit.com/r/MachineLearning/是一个拥有超过400,000名成员的活跃社区。在这里，您可以找到有
计算机视觉实战：OpenCV 与深度学习结合 QuantumWalker 计算机视觉 opencv 深度学习 python
```html计算机视觉实战：OpenCV与深度学习结合计算机视觉实战：OpenCV与深度学习结合在当今数字化时代，计算机视觉技术已经渗透到我们生活的方方面面。从智能手机的面部识别解锁，到自动驾驶汽车的环境感知，计算机视觉正在改变我们的世界。而在这个领域中，OpenCV和深度学习的结合，更是推动了计算机视觉技术的发展。什么是OpenCV？OpenCV（OpenSourceComputerVisio
AI 在自动驾驶路径规划中的深度强化学习优化 QuantumWalker 人工智能自动驾驶机器学习
```htmlAI在自动驾驶路径规划中的深度强化学习优化在当今快速发展的科技领域中，人工智能（AI）的应用正在不断拓展其边界。特别是在自动驾驶技术中，AI的应用已经从简单的感知和识别发展到了复杂的决策和控制阶段。其中，深度强化学习作为AI的一个重要分支，在自动驾驶路径规划中发挥着越来越重要的作用。一、深度强化学习简介深度强化学习是一种结合了深度学习和强化学习的机器学习方法。它通过让智能体在环境中进
深入理解AI人工智能深度学习的原理架构 AI学长带你学AI 人工智能深度学习 ai
深入理解AI人工智能深度学习的原理架构关键词：人工智能、深度学习、原理架构、神经网络、数学模型摘要：本文旨在深入剖析AI人工智能深度学习的原理架构。首先介绍了深度学习的背景，包括其目的、预期读者、文档结构和相关术语。接着阐述了深度学习的核心概念，如神经网络、激活函数等，并通过示意图和流程图进行直观展示。详细讲解了核心算法原理，如反向传播算法，并给出Python代码示例。同时，介绍了深度学习中的数学
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =