john_bh

[图像分割综述] Image Segmentation Using Deep Learning: A Survey

转载请注明作者和出处： http://blog.csdn.net/john_bh/

论文链接：Image Segmentation Using Deep Learning:A Survey

会议及时间： Arxiv 2020.01

图像分割是图像处理和计算机视觉中的关键主题，其应用包括场景理解，医学图像分析，机器人感知，视频监视，增强现实和图像压缩等。最近，由于深度学习模型在各种视觉应用中的成功，已经有大量的工作旨在使用深度学习模型开发图像分割方法。作者在本次调查中，涵盖了语义和实例级分割的广泛开创性工作，包括全卷积像素标记网络，编码器-解码器体系结构，多尺度以及基于金字塔的方法，递归网络，视觉注意模型和对抗环境中的生成模型。研究了这些深度学习模型的相似性，优势和挑战，研究了使用最广泛的数据集，报告了性能，并讨论了该领域有希望的未来研究方向。

文章目录

- 1. Introduction
- 2. Overiew of deep neural networks
- - 2.1 CNNs
  - 2.2 RNNs & LSTM
  - 2.3 Encoder-Decoder and Auto-Encoder Models
  - 2.4 GANs
  - 2.5 Transfer Learning
- 3. DL-based Image Segmentation Models
- - 3.1 Fully Convolutional Networks
  - 3.2 Convolutional Models With Graphical Models
  - 3.3 Encoder-Decoder Based Models
  - 3.4 Multi-Scale and Pyramid Network Based Models
  - 3.5 R-CNN Based Models (for Instance Segmentation)
  - 3.6 Dilated Convolutional Models and DeepLab Family
  - 3.7 Recurrent Neural Network Based Models
  - 3.8 Attention-Based Models
  - 3.9 Generative Models and Adversarial Training
  - 3.10 CNN Models With Active Contour Models
  - 3.11 Other Models
- 4. Image Segmentation Datasets
- - 4.1 2D Datasets
  - 4.2 2.5D Datasets
  - 4.3 3D Datasets
- 5. Performance Review
- - 5.1 Metrics For Segmentation Models
  - 5.2 Quantitative Performance of DL-Based Models
- 6. Challenges & Opportunities
- - 6.1 More Challenging Datasets
  - 6.2 Interpretable Deep Models
  - 6.3 Weakly-Supervised and Unsupervised Learning
  - 6.4 Real-time Models for Various Applications
  - 6.5 Memory Efficient Models
  - 6.6 3D Point-Cloud Segmentation

1. Introduction

图像分割是许多视觉理解系统中必不可少的组成部分。它涉及将图像（或视频帧）划分为多个片段或对象。分割在广泛的应用中起着核心作用，包括医学图像分析（例如，肿瘤边界提取和组织体积测量），自动驾驶车辆（例如，可导航的地面和行人检测），视频监控以及增强现实技术来计算很少。文献中已经开发了许多图像分割算法，从最早的方法（例如阈值化，基于直方图的捆绑，区域增长，k均值聚类，watersheds）到更高级的算法（例如活动轮廓，图割，有条件和马尔可夫随机场和基于稀疏性的方法）。然而，在过去的几年中，深度学习（DL）网络产生了新一代的图像分割模型，其性能得到了显着提高-通常在流行的基准上达到最高的准确率，导致许多人将其视为该领域的范式转变。例如，图1展示了杰出的深度学习模型DeepLabv3的样本图像分割输出。

可以将图像分割表述为具有语义标签的像素分类问题（语义分割）或单个对象的划分（实例分割）。语义分割对所有图像像素使用一组对象类别（例如，人，汽车，树木，天空）执行像素级标记，因此通常比图像分类要困难得多，后者要为整个图像预测一个标签。实例分割通过检测和描绘图像中的每个感兴趣的对象（例如，分割个人）进一步扩展了语义分割的范围。

这篇综述调查涵盖了图像分割方面的最新文献，并讨论了直到2019年提出的一百多种基于深度学习的分割方法，对这些方法的不同方面提供了全面的回顾和见解，包括训练数据，网络架构的选择，损失功能，训练策略及其主要作用。

根据深度学习的主要技术贡献将其分为以下几类：

Fully convolutional networks

Convolutional models with graphical models

Encoder-decoder based models

Multi-scale and pyramid network based models

R-CNN based models (for instance segmentation)

Dilated convolutional models and DeepLab family

Recurrent neural network based models

Attention-based models

Generative models and adversarial training

Convolutional models with active contour models

Other models

这篇综述的一些关键贡献可以总结如下：

这项调查涵盖了有关分割问题的当代文献，并概述了截至2019年提出的100多种分割算法，分为10类。
使用深度学习对分割算法的不同方面进行全面的回顾和深入的分析，包括训练数据，网络架构的选择，损失函数，训练策略及其主要贡献。
概述了约20种流行的图像分割数据集，分为2D，2.5D（RGBD）和3D图像。
提供了针对大众化基准进行细分的方法的性能和性能的比较摘要。
为基于深度学习的图像分割提供了一些挑战和潜在的未来方向。

2. Overiew of deep neural networks

2.1 CNNs

CNN是深度学习社区中最成功且使用最广泛的架构之一，尤其是对于计算机视觉任务而言。 CNN最初是由福岛（Fukushima）在他的关于“ Neocognitron”的开创性论文中提出的，其基础是Hubel和Wiesel提出的视觉皮层的分层感受野模型。随后，Waibel等人介绍了在时间感受野和反向传播训练之间共享权重的CNN，用于音素识别，LeCun等人开发了CNN架构用于文件识别（图2）。

CNN主要由三种类型的层组成：i）卷积层，其中卷积权重的核（或滤波器）以提取特征； ii）非线性层，它们在特征图上（通常是逐元素地）应用激活函数，以便能够通过网络对非线性函数进行建模； iii）合并层，这些合并层用一些统计数据替换了特征图的一小部分邻域
有关邻域的信息（平均值，最大值等），并降低空间分辨率。层中的单元是本地连接的；也就是说，每个单元都从前一层中较小的邻域（称为接收场）接收加权输入。通过堆叠图层以形成多分辨率金字塔，高层可以从越来越宽的接收场中学习特征。 CNN的主要计算优势在于，一层中的所有接收场均具有权重，因此与完全连接的神经网络相比，参数数量明显减少。一些最著名的CNN架构包括：AlexNet，VGGNet，ResNet，GoogLeNet，MobileNet和DenseNet。

2.2 RNNs & LSTM

RNN被广泛用于处理顺序数据，例如语音，文本，视频和时间序列，其中任何给定时间/位置的数据都取决于先前遇到的数据。在每个时间戳上，模型都会收集当前时间 $X_i$ 的输入和上一步 $h_{i-1}$ 的隐藏状态，并输出目标值和新的隐藏状态（图3）。

RNN通常在长序列方面存在问题，因为它们无法捕获许多实际应用中的长期依赖关系（尽管它们在这方面没有任何理论上的限制），并且经常遭受梯度消失或爆炸问题的困扰。然而，一种称为长短期记忆（LSTM的RNN旨在避免这些问题。 LSTM体系结构（图4）包括三个门（输入门，输出门，遗忘门），它们调节信息进出存储单元的信息流，该存储单元在任意时间间隔内存储值。

输入、隐藏状态和不同门之间的关系:

2.3 Encoder-Decoder and Auto-Encoder Models

编码器-解码器模型是一组模型，可以学习通过两级网络将数据点从输入域映射到输出域：由编码函数 $z = f (x)$ 表示的编码器将输入压缩为潜在空间表示；解码器 $y = g (z)$ 旨在预测潜在空间表示的输出。这里的潜在表示本质上是指特征（矢量）表示，它能够捕获底层的
输入的语义信息，可用于预测输出。这些模型在图像到图像的翻译问题以及NLP中的序列模型中非常流行。图5示出了简单的编码器-解码器模型的框图。通常通过最小化重建损失 $\hat y）$ 来训练这些模型，重建损失 $L(y,\hat y)$ 测量ground-truth $y$ 和后续重建 $\hat y$ 之间的差异。此处的输出可以是图像的增强版本（例如，在图像去模糊或超分辨率中）或分段图。

自动编码器是编码器-解码器模型的特例，其中输入和输出相同。最受欢迎的一种是堆叠式降噪自动编码器（SDAE），它可以堆叠多个自动编码器并将其用于图像降噪。另一个流行的变体是变体自动编码器（VAE），它在潜在表示上施加了先验分布。 VAE能够根据给定的数据分布生成实际样本。对抗性自动编码器是另一种变体，它在潜在表示上引入对抗性损失，以鼓励它们近似先验分布。

2.4 GANs

GAN是较新的深度学习模型系列。它们由两个网络组成：一个生成器和一个鉴别器（图6）。

自从GANs发明以来，研究人员已努力通过多种方式来改进/修改GANs。例如，Radford等人提出了卷积GAN模型，当用于图像生成时，该模型比完全连接的网络工作得更好。 Mirza提出了一种条件GAN模型，该模型可以生成以类标签为条件的图像，从而可以生成具有指定标签的样本。 Arjovsky等人提出了一种基于Wasserstein的新损失函数（又称推土机距离），以更好地估计真实样本和生成样本的分布不重叠的情况下的距离（因此，KullbackLeiber散度并不是衡量该样本的好方法距离）。

2.5 Transfer Learning

在某些情况下，可以在新的应用程序/数据集上从头开始训练DL模型（假设有足够数量的标记训练数据），但是在许多情况下，没有足够的标记数据来从头开始训练模型，并且可以使用迁移学习解决这个问题。在迁移学习中，通常通过对新任务的适应过程，将在一个任务上训练的模型重新用于另一（相关）任务。例如，可以想象使在ImageNet上训练的图像分类模型适应不同的任务，例如纹理分类或面部识别。在图像分割的情况下，许多人使用在ImageNet上训练的模型（比大多数图像分割数据集更大的数据集）作为网络的编码器部分，并从这些初始权重中重新训练他们的模型。预训练的模型应该能够捕获分割所需图像的语义信息，并因此使他们能够用较少标签的样本来训练模型。

3. DL-based Image Segmentation Models

3.1 Fully Convolutional Networks

Long等人提出了使用全卷积网络（FCN）进行语义图像分割的首批深度学习作品之一。 FCN（图7）仅包含卷积层，这使它能够拍摄任意大小的图像并生成相同大小的分段图。作者修改了现有的CNN架构，例如VGG16和GoogLeNet，以通过将所有完全连接的层替换为完全卷积的层来管理大小不固定的输入和输出。结果，模型输出空间分割图而不是分类得分。

通过使用跳过连接，其中对模型最后层的特征图进行了上采样并与早期层的特征图（图8）融合，该模型将语义信息（来自较深，较粗糙的层）和外观信息（从浅层，细层开始）以生成准确且详细的细分。该模型在PASCAL VOC，NYUDv2和SIFT Flow上进行了测试，并实现了最新的分割性能。

这项工作被认为是图像分割的一个里程碑，表明可以对端到端的可变图像进行语义分割的深度网络训练。但是，尽管传统的FCN模型广受欢迎和有效，但它还是有一些局限性-它不够快，无法进行实时推断，它没有以有效的方式考虑全局上下文信息，并且不容易转换为3D 图像。

例如，Liu等人提出了一个名为ParseNet的模型，以解决FCN的一个问题-忽略全局上下文信息。 ParseNet通过使用一层的平均要素来扩展每个位置的要素，从而为FCN添加全局上下文。图层的特征图将在整个图像上合并，从而产生上下文向量。对该上下文向量进行规范化和解池化，以生成与初始大小相同的新特征图。然后将这些特征图连接起来。简而言之，ParseNet是一个FCN，其中所描述的模块代替了卷积层（图9）。

FCNs已经应用于多种分割问题，如脑瘤的分割，instance-aware语义分割，皮肤病变的分割，虹膜分割。

3.2 Convolutional Models With Graphical Models

如所讨论的，FCN忽略了可能有用的场景级语义上下文。为了集成更多上下文，几种方法将概率图形模型（例如条件随机场（CRF）和马尔可夫随机场（MRF））纳入DL体系结构。

Chen等人提出了一种基于CNN和完全连接的CRF的语义分割算法（图10）。他们表明，来自深层CNN的最后一层的响应未充分定位以进行精确的对象分割（由于不变性使CNN能够很好地完成高级任务，例如分类）。为了克服深层CNN的局限性，他们将最终CNN层的响应与完全连接的CRF相结合。他们表明，与以前的方法相比，他们的模型能够以更高的准确率定位路段边界。

Schwing和Urtasun 提出了一种完全连接的深度结构化网络，用于图像分割。他们提出了一种联合训练CNN和完全连接的CRF进行语义图像分割的方法，并在具有挑战性的PASCAL VOC 2012数据集上取得了令人鼓舞的结果。Zheng等提出了类似的建议，CRF与CNN集成的语义分割方法。

在另一项相关工作中，Lin等人提出了一种基于上下文深度CRF的高效语义分割算法。他们探索了“patch-patch”上下文（在图像区域之间）和“patch-background”上下文，以通过使用上下文信息来改善语义分割。

Liu等人提出了一种语义分割算法，该算法将丰富的信息合并到MRF中，包括高阶关系和标签上下文的混合。与以前使用迭代算法优化MRF的工作不同，他们提出了CNN模型，即解析网络，该模型可以在单个前向通过中进行确定性的端到端计算。

3.3 Encoder-Decoder Based Models

另一个流行的用于图像分割的深度模型系列基于卷积编码器-解码器体系结构。 大多数基于DL的分割工作都使用某种编码器/解码器模型，我们将这些工作分为两类：用于一般分割的编码器-解码器模型和用于医学图像分割的编码器/解码器模型（以更好地区分应用）。

Encoder-Decoder Models for General Segmentation
Noh等人发表了有关基于反卷积（也称为转置卷积）的语义分割的早期论文。他们的模型（图11）由两部分组成，一个是使用从VGG 16层网络采用的卷积层的编码器，另一个是将特征向量作为输入并生成像素级类概率图的反卷积网络。解卷积网络由解卷积层和解池层组成，这些层识别逐个像素的类标签并预测分段掩码。该网络在PASCAL VOC 2012数据集上取得了可喜的性能，并且在当时没有外部数据训练的方法中获得了最高的准确性（72.5％）。

在另一个被称为SegNet的有前途的工作中，Badrinarayanan等人提出了一种用于图像分割的卷积编码器-解码器架构（图12）。与反卷积网络类似，SegNet的核心可训练分割引擎由一个编码器网络组成，其拓扑结构与13层 VGG16网络中的卷积层，以及相应的解码器网络，然后是逐像素分类层。 SegNet的主要新颖之处在于解码器对其较低分辨率的输入特征图进行升采样。具体来说，它使用在相应编码器的最大池化步骤中计算出的合并索引来执行非线性上采样，从而消除了学习上采样的需求，然后将（稀疏）上采样图与可训练的滤波器卷积为生成密集的特征图。与其他竞争性体系结构相比，SegNet的可训练参数数量也明显更少。同一作者还提出了贝叶斯SegNet版本，以对卷积编码器-解码器网络用于场景分割的固有不确定性建模。

其他一些工作采用转置卷积或编码器/解码器进行图像分割，例如堆叠反卷积网络（SDN），Linknet ，W-Net 和用于RGBD分割的局部敏感反卷积网络。
Encoder-Decoder Models for Medical and Biomedical Image Segmentation
最初开发了几种用于医学/生物医学图像分割的模型，这些模型受FCN和编码器-解码器模型的启发。 U-Net和V-Net是两个众所周知的此类体系结构，现在也已在医疗领域之外使用。

Ronneberger等人建议使用U-Net分割生物显微镜图像。他们的网络和培训策略依靠数据增强来更有效地从可用的带注释的图像中学习。 U-Net体系结构（图13）包括两个部分，一个用于捕获上下文的收缩路径，一个用于精确定位的对称扩展路径。下采样或压缩部分具有类似于FCN的体系结构，可提取 $3 * 3$ 卷积的特征。上采样或扩展部分使用上卷积（或去卷积），在减少特征图数量的同时增加其尺寸。将网络下采样部分的特征图复制到上采样部分，以避免丢失模式信息。最终， $1 * 1$ 卷积处理特征图以生成对输入图像的每个像素进行分类的分割图。 U-Net接受了30幅透射光显微镜图像的训练，并且在2015年ISBI细胞追踪挑战赛中大获全胜。

已针对不同种类的图像开发了U-Net的各种扩展。例如，Cicek提出了用于3D图像的U-Net体系结构。 Zhou等人开发了一个嵌套的U-Net架构。 U-Net也已应用于其他各种问题。例如，Zhang等人开发了基于U-Net的道路分割/提取算法。

V-Net（图14）是另一个著名的基于FCN的模型，由Milletari等人提出用于3D医学图像分割。对于模型训练，他们引入了基于Dice系数的新目标函数，使模型能够处理前景和背景中的体素数量之间存在强烈不平衡的情况。该网络经过端到端的MRI描绘前列腺体积的培训，并学会了一次预测整个体积的分割。

其他有关医学图像分割的相关工作包括渐进密集V-net（PDV-Net）等人，用于从胸部CT图像快速自动分割肺叶，以及用于病变分割的3D-CNN编码器。

3.4 Multi-Scale and Pyramid Network Based Models

多尺度分析是图像处理中一个比较古老的想法，已被部署在各种神经网络体系结构中。Lin等人提出的特征金字塔网络（FPN）是此类中最著名的模型之一，该模型主要是为目标检测，但随后也应用于分割。深度CNN固有的多尺度金字塔层次结构被用来构建具有少量额外成本的特征金字塔。为了合并低分辨率和高分辨率功能，FPN由自下而上的路径，自上而下的路径和横向连接组成。然后通过 $3 * 3$ 卷积处理级联的特征图，以生成每个阶段的输出。最后，自顶向下路径的每个阶段都会生成预测以检测物体。 对于图像分割，作者使用两个多层感知器（MLP）生成masks.。图15显示了如何通过添加来合并横向连接和自上而下的路径。

Zhao等人开发了金字塔场景解析网络（PSPN），这是一个多尺度网络，可以更好地学习场景的全局上下文表示（图16），并使用残差网络（ResNet）作为输入从图像中提取不同的模式。特征提取器，具有扩展的网络。然后将这些特征图输入金字塔池模块中，以区分不同比例的图案。它们以四个不同的比例合并，每个比例对应于一个金字塔等级，并由 $1 * 1$ 卷积层处理以减小其尺寸。金字塔等级的输出被上采样并与初始特征图连接，以捕获局部和全局上下文信息。最后，使用卷积层生成逐像素预测。

Ghiasi和Fowlkes开发了一种基于拉普拉斯金字塔的多分辨率重建体系结构，该体系结构使用高分辨率特征图的跳跃连接和乘性门控来依次细化从低分辨率图重建的分段边界，这表明卷积的明显空间分辨率特征图较低，高维特征表示包含重要的子像素定位信息。

还有其他使用多尺度分析进行细分的模型，例如DM-Net（动态多尺度过滤器网络），上下文对比网络和门控多尺度聚合（CCN），自适应金字塔上下文网络（APC-Net），多尺度上下文缠绕（MSCI）和显着对象分割。

3.5 R-CNN Based Models (for Instance Segmentation)

区域卷积网络（R-CNN）及其扩展（Fast R-CNN，Faster R-CNN，Maksed-RCNN）在对象检测应用中被证明是成功的。 R-CNN的某些扩展已被广泛用于解决实例分割问题。即同时执行对象检测和语义分割的任务。特别是，为对象检测而开发的Faster R-CNN体系结构（图17）使用区域提议网络（RPN: region proposal network）提议边界框候选。 RPN提取感兴趣区域（RoI:Region of Interest），RoIPool层从这些建议中计算要素，以推断出边界框坐标和对象的类别。

在该模型的一个扩展中，He等人提出了一种用于对象实例分割的Mask R-CNN，在许多COCO挑战中都击败了以前的所有基准。该模型有效地检测了图像中的对象，同时为每个实例生成了高质量的分割掩码。 Mask R-CNN本质上是具有3个输出分支的Faster RCNN（图18）-第一个计算边界框坐标，第二个计算关联的类，第三个计算二进制Mask 以分割对象。 Mask R-CNN损失函数将边界框坐标，预测类和分割蒙版的损失合并在一起，并共同训练它们。图19显示了一些样本图像上的Mask-RCNN结果。

Liu等人提出的路径聚合网络（PANet）基于Mask R-CNN和FPN模型（图20）。网络的特征提取器使用具有新的自底向上的增强路径的FPN架构，可改善低层特征的传播。第三条路径的每个阶段都将前一阶段的特征图作为输入，并使用 $3 * 3$ 卷积层对其进行处理。使用横向连接将输出添加到自顶向下路径的同一阶段特征图，这些特征图将馈入下一个阶段。与Mask RCNN中一样，自适应特征池化层的输出将馈入三个分支。前两个使用完全连接的层来生成边界框坐标和关联对象类别的预测。第三部分使用FCN处理RoI以预测对象mask.。

Dai等人开发了一个用于实例感知语义分割的多任务网络，该网络由三个网络组成，分别区分实例，估计掩码和对对象进行分类。这些网络形成一个级联结构，旨在共享它们的卷积特征。Hu等人提出了一种新的部分监督的训练范例，以及一个新颖的权重传递函数，该模型使训练实例分割模型可以在大量类别上进行分类，所有类别都具有框注，但只有一小部分具有蒙版注解。Chen等人通过基于Faster R-CNN的语义和方向特征完善对象检测，从而开发了实例分割模型MaskLab（图21）。该模型产生三个输出，即框检测，语义分割和方向预测。在Faster-RCNN对象检测器的基础上，预测框提供了对象实例的精确定位。在每个感兴趣的区域内，MaskLab通过组合语义和方向预测来执行前景/背景分割。

另一个有趣的模型是由Chen等人提出的 Tensormask。这是基于密集的滑动窗口实例分割。他们将密集实例分割视为4D张量上的预测任务，并提出了一个通用框架，该框架使4D张量上的新颖运算符成为可能。他们证明张量视图可以带来比基线大的收益，并且产生的结果与Mask R-CNN相当。 TensorMask在密集对象分割方面取得了可喜的结果（图22）。

已经基于R-CNN开发了许多其他实例分割模型，例如为 mask proposals开发的模型，包括R-FCN，DeepMask，SharpMask，PolarMask和边界感知实例分割。值得注意的是，还有另一个很有前途的研究方向，它试图通过学习用于自下而上的分割的分组提示来解决实例分割问题，例如深度分水岭变换和通过深度度量学习的语义实例分割。

3.6 Dilated Convolutional Models and DeepLab Family

扩张卷积（又称“atrous””卷积）为卷积层引入了另一个参数，即扩张率。信号 $x (i)$ 的扩张卷积（图23）定义为 $y_i=\sum_{k=1}^K x[i+rk]w[k]$ ，其中 $r$ 是定义的扩张率。内核权重之间的间隔 $w$ 。例如，膨胀率为 $2$ 的 $3 * 3$ 内核将具有与 $5 * 5$ 内核相同的大小接收场，同时仅使用 $9$ 个参数，从而在不增加计算成本的情况下扩大了接收场。 膨胀卷积在实时分割领域中很流行，并且许多最近的出版物报道了这种技术的使用。最重要的一些特性包括DeepLab系列，多尺度上下文聚合，密集上采样卷积和混合扩张卷积（DUC-HDC），密集连接的Atrous空间金字塔池（DenseASPP）以及高效神经网络（ENet）。

DeepLabv1 和DeepLabv2 是Chen等人开发的一些最受欢迎的图像分割方法。后者具有三个关键特征。首先是使用扩张卷积来解决网络中分辨率下降的问题（这是由最大池和步幅引起的）。其次是Atrous空间金字塔池化（ASPP），它使用多个采样率的过滤器探测传入的卷积特征层，从而以多个比例捕获对象和图像上下文，从而以多个比例稳健地分割对象。第三是通过结合深层CNN和概率图形模型的方法来改进对象边界的定位。最好的DeepLab（使用ResNet-101作为骨干）在2012年PASCAL VOC挑战赛中达到79.7％的mIoU分数，在PASCAL-Context挑战赛中达到45.7％的mIoU分数，在Cityscapes挑战赛中达到70.4％的mIoU分数。图24说明了Deeplab模型，该模型类似于[38]，主要区别在于使用了扩展卷积和ASPP。

随后，Chen等人提出了DeepLabv3，它结合了扩展卷积的级联和并行模块。并行卷积模块在ASPP中分组。在ASPP中添加了 $1 * 1$ 卷积和批处理规范化。所有输出通过另一个 $1 * 1$ 卷积进行级联和处理，以创建最终输出，每个像素的对数均对数。

Chen等人在2018年发布了Deeplabv3 +，它使用了编码器-解码器体系结构（图25），其中包括粗糙的可分离卷积，包括深度卷积（输入每个通道的空间卷积）和点向卷积（ $1 * 1$ 卷积,深度卷积作为输入）。他们使用DeepLabv3框架作为编码器。最相关的模型具有经过修改的Xception骨架，具有更多层，扩展的深度可分离卷积，而不是最大合并和批量归一化。在COCO和JFT数据集上预训练的最佳DeepLabv3+在2012年PASCAL VOC挑战中获得了89.0％的mIoU分数。

3.7 Recurrent Neural Network Based Models

尽管CNN很自然地适合解决计算机视觉问题，但它们并不是唯一的可能性。 RNN在建模像素之间的短期/长期依赖性方面很有用，以（可能）改善分割图的估计。使用RNN，可以将像素链接在一起并进行顺序处理以建模全局上下文并改善语义分割。但是，挑战之一是图像的自然2D结构。

Visin等人提出了一种基于RNN的语义分割模型ReSeg。该模型主要基于为图像分类开发的另一项作品ReNet。每个ReNet层（图26）由四个RNN组成，它们在两个方向上水平和垂直扫描图像，对补丁/激活进行编码，并提供相关的全局信息。为了使用ReSeg模型进行图像分割（图27），ReNet层堆叠在提取通用局部特征的预训练VGG-16卷积层之上。然后，在ReNet层之后是上采样层，以在最终预测中恢复原始图像分辨率。使用门控循环单元（GRU）是因为它们在内存使用和计算能力之间提供了良好的平衡。

在另一项工作中，Byeon等人使用长短期记忆（LSTM）网络开发了场景图像的像素级分割和分类。他们研究了自然场景图像的二维（2D）LSTM网络，同时考虑了标签的复杂空间依赖性。在这项工作中，分类，分割和上下文集成都由2D LSTM网络执行，从而允许在单个模型中学习纹理和空间模型参数。所提出的用于图像分割的2D LSTM网络的框图如图28所示。

Liang等人提出了一种基于图长短期记忆（Graph LSTM）网络的语义分割模型，该模型将LSTM从顺序数据或多维数据扩展为一般的图结构化数据，而不是将图像均匀划分为像素或小块在现有的多维LSTM结构（例如行，网格和对角线LSTM）中，它们将每个任意形状的超像素作为语义上一致的节点，并自适应地为图像构造无向图，其中超像素的空间关系自然用作边缘。

图29展示了传统的像素级RNN模型和图形LSTM模型的视觉比较。为了使Graph LSTM模型适应语义分割（图30），将在超像素图上构建的LSTM层附加到卷积层上，以增强具有全局结构上下文的视觉特征。卷积特征通过 $1 * 1$ 卷积过滤器生成所有标签的初始置信度图。通过基于初始置信度图的置信度驱动方案确定后续Graph LSTM层的节点更新顺序，然后Graph LSTM层可以顺序更新所有超像素节点的隐藏状态。

Xiang和Fox建议将数据关联的递归神经网络（DA-RNN）用于联合3D场景映射和语义标记。 DA-RNN使用新的递归神经网络架构（图31）对RGB-D视频进行语义标记。网络的输出与诸如Kinect-Fusion之类的映射技术集成在一起，以便将语义信息注入到重建的3D场景中。

Hu等人开发了一种基于自然语言表达的语义分割算法，结合使用CNN编码图像和LSTM编码其自然语言描述。这与在预定义的语义类集合上的传统语义分段不同，例如，短语“两个人坐在正确的长凳上”仅需要对在正确的长凳上的两个人进行分段，而没有人站立或坐在另一个长凳上。为了产生用于语言表达的按像素细分，他们提出了一种端到端可训练的递归和卷积模型，该模型共同学习处理视觉和语言信息（图32）。在考虑的模型中，使用递归LSTM网络将参考表达式编码为矢量表示，并使用FCN从图像中提取空间特征图并输出目标对象的空间响应图。此模型的分割结果示例（针对查询“穿着蓝色外套的人”）如图33所示。

3.8 Attention-Based Models

Chen等人提出了一种注意力机制，该机制可以学习在每个像素位置轻柔地加权多尺度特征。他们采用了强大的语义分割模型，并结合多尺度图像和注意力模型对其进行了训练（图34）。注意机制的性能优于平均池和最大池，它使模型能够评估不同位置和比例下要素的重要性。

与其他训练卷积分类器以学习标记对象的代表性语义特征的工作相反，Huang等人提出了一种使用反向注意机制的语义分割方法。他们的逆向注意力网络（RAN）架构（图35）也训练模型以捕获相反的概念（即与目标类别不相关的功能）。 RAN是一个三分支网络，可同时执行直接和反向注意学习过程。

Li等人开发了用于语义分割的金字塔注意网络。该模型利用了全局上下文信息在语义分割中的影响，将注意力机制和空间金字塔相结合，以提取精确的密集特征进行像素标记，而不是使用复杂的卷积和人工设计的解码器网络。

最近，Fu等人提出了一种用于场景分割的双关注网络，该网络可以基于自关注机制捕获丰富的上下文依赖关系，具体而言，他们在扩张的FCN之上附加了两种类型的关注模块，该模块对FDI中的语义相互依赖关系进行建模。位置注意模块通过所有位置的特征的加权总和选择性地聚合每个位置的特征。双关注网络的体系结构如图36所示。

其他各种著作也探索了语义分割的注意力机制，例如OCNet，它提出了一种基于自我注意力机制的对象上下文池，期望最大化注意力（EMANet），交叉注意力网络（CCNet），端到端实例分割带有经常性注意力，用于场景解析的逐点空间注意力网络[98]和区分特征网络（DFN），该特征网络包括两个子网络：平滑网络（包含通道注意力块和全局平均池，以选择更多辨别特征）和边界网络（使边界的双边特征可区分）。

3.9 Generative Models and Adversarial Training

Luc等人提出了一种针对语义分割的对抗训练方法。他们训练了一个卷积语义分割网络（图37），以及一个对抗网络，该网络将地面真实分割图与由分割网络生成的地图区分开来。他们表明，对抗训练方法可以提高Stanford Background和PASCAL VOC 2012数据集的准确性。

图38显示了对来自斯坦福背景数据集的一幅示例图像进行对抗训练所带来的改进。

Souly等人提出了使用GAN的半弱监督语义分割。它由一个生成器网络组成，该生成器网络为GAN框架中的区分器提供了针对多类分类器的额外训练示例，该分类器从K个可能的类中为样本分配标签y或将其标记为假样本（额外类）。

在另一项工作中，Hung等人开发了一个使用对抗网络进行半监督语义分割的框架。他们设计了FCN鉴别器，以考虑空间分辨率，将预测的概率图与地面真实分割分布区分开。 该模型考虑的损失函数包含三个术语：基于分割地面事实的交叉熵损失，鉴别器网络的对抗损失和基于置信度图的半监督损失；以及即鉴别器的输出。 Hung及其同事的模型架构如图39所示。

Xue等人提出了一种具有多尺度L1损失的对抗网络，用于医学图像分割。他们使用FCN作为分割器来生成分割标签图，并提出了一种具有多尺度L1损失函数的新型对抗性评论者网络，以迫使评论者和细分者学习捕获了两者之间长距离和短距离空间关系的全局和局部特征像素。分割器和注释器网络的框图如图40所示。

其他各种出版物也报道了基于对抗训练的分割模型，例如使用GAN进行细胞图像分割，以及分割和生成对象的不可见部分。

3.10 CNN Models With Active Contour Models

FCN和活动轮廓模型（ACM：Active Contour Models）之间的协同作用探索最近引起了研究兴趣。一种方法是根据ACM原理制定新的损失函数。例如，受[106]的全球能量公式的启发，Chen等人提出了一种监督性损失层，该层在FCN训练期间结合了预测面罩的面积和大小信息，并解决了心脏MRI中的心室分割问题。同样，Gur等人提出了一种基于无边缘形态活动轮廓的无监督损失函数，用于微血管图像分割。

最初，一种不同的方法试图将ACM仅仅用作FCN输出的后处理器，并且通过预训练FCN进行了一些努力，试图进行适度的共同学习。 Le等人的工作（用于将自然图像进行语义分割的任务）的ACM后处理器的一个示例是其中将水平集ACM实现为RNN。 Rupprecht等人的“深度活动轮廓”是另一个示例。对于医学图像分割，Hatamizadeh等人提出了一种集成的深度活动病变分割（DALS）模型，该模型训练FCN主干来预测新颖的局部参数化水平集能量函数的参数函数。在另一项相关工作中，Marcos等人提出了“深层结构主动轮廓（DSAC）”，它在结构化预测框架中结合了ACM和预训练的FCN，用于在航空影像中进行实例分割（尽管有手动初始化）。对于相同的应用，Cheng等人提出了深动态射线网络（DarNet），它与DSAC相似，但是基于极坐标具有不同的显式ACM公式，以防止轮廓自相交。Hatamizadeh等人最近提出了一种真正的端到端反向传播可训练的，完全集成的FCN-ACM组合，称为“深度卷积主动轮廓（DCAC）”。

3.11 Other Models

除上述模型外，还有其他几种用于分割的流行DL架构，例如：上下文编码网络（EncNet），它使用基本的特征提取器并将特征映射馈送到上下文编码模块中。 RefineNet是一个多路径优化网络，可明确利用降采样过程中的所有可用信息，以使用远程残差连接实现高分辨率预测。 “对象上下文表示”（OCR），它在地面真理的监督下学习对象区域，并计算对象区域表示以及每个像素与每个对象区域之间的关系，并使用对象上下文表示来增强表示像素。 Seednet引入了具有深度增强学习功能的自动种子生成技术，该技术学会了解决交互式分割问题。Feedforward-Net将图像超像素映射到从一系列嵌套区域中提取的丰富特征表示，这些嵌套区域的范围不断扩大，并利用统计结构图像和标签空间中，而无需设置明确的结构化预测机制。

其他模型包括BoxSup，图卷积网络，Wide ResNet，Exfuse（增强低级和高级特征融合），双图像分割（DIS），FoveaNet（可感知场景的场景解析），梯形DenseNet，双边分割网络（ BiSeNet），场景解析的语义预测指南（SPGNet），门控形状的CNN，自适应上下文网络（AC-Net），动态结构化语义传播网络（DSSPN），符号图推理（SGR），CascadeNet，可缩放比例的卷积（ SAC），统一感知解析（UperNet）。

全景分割也是另一个有趣（且较新）的分割问题，并且越来越受欢迎，并且在这一方向上已经有一些有趣的工作，包括全景特征金字塔网络，用于全景分割的注意力指导网络和无缝场景分割。

图41说明了基于DL的流行作品进行语义分割的时间轴，以及自2014年以来的实例分割。鉴于过去几年开发的大量作品，我们仅显示一些最具代表性的作品。

4. Image Segmentation Datasets

4.1 2D Datasets

PASCAL Visual Object Classes (VOC)：
是计算机视觉中最受欢迎的数据集之一，带注释的图像可用于5个任务-分类，细分，检测，动作识别和人员布局。文献中报道的几乎所有流行的分割算法都已在该数据集上进行了评估。对于细分任务，有21类对象标签-车辆，家庭，动物，飞机，自行车，船，公共汽车，汽车，摩托车，火车，瓶，椅子，餐桌，盆栽，沙发，电视/显示器，鸟，猫，牛，狗，马，绵羊和人（如果像素不属于这些类别中的任何一个，则将其标记为背景）。此数据集分为两组，分别是训练和验证，分别包含1,464和1,449张图像。有一个针对实际挑战的私人测试仪。图42显示了示例图像及其按像素标记。
PASCAL Context
是PASCAL VOC 2010检测挑战的扩展，它包含所有训练图像的逐像素标签。它包含400多个类（包括原始的20个类以及PASCAL VOC分割的背景），分为三类（对象，填充和混合）。该数据集的许多对象类别太稀疏了；因此，通常会选择59个常见类别的子集来使用。图43显示了此数据集的三个样本图像的分割图。
Microsoft Common Objects in Context (MS COCO)
是另一种大规模的对象检测，分割和字幕数据集。 COCO包含日常复杂场景的图像，其中包含自然环境中的常见对象。该数据集包含91种对象类型的照片，并以328k图像的形式总共标记了250万个实例。
它主要用于分割单个对象实例。图44显示了给定样本图像的MS COCO标签与先前数据集之间的差异。检测挑战包括80多个类别，提供超过82k图像进行训练，提供40.5k图像进行验证以及超过80k图像进行测试。
Cityscapes
是一个大型数据库，专注于对城市街道场景的语义理解 。它包含来自50个城市的街道场景中记录的各种立体声视频序列集，5k帧的高质量像素级注释以及一组20k的弱注释帧，包括30类的语义和密集像素注释，分为8类-平面，人，车辆，建筑物，物体，自然，天空和空隙。图45显示了来自该数据集的四个样本分割图。
ADE20K /MIT Scene Parsing (SceneParse150)： 提供用于场景解析算法的标准培训和评估平台。该基准的数据来自ADE20K数据集[134]，其中包含超过20K的以场景为中心的图像，并用对象和对象部件进行了详尽注释。基准分为用于训练的20K图像，用于验证的2K图像和用于测试的另一批图像。该数据集中有150个语义类别。
SiftFlow： 包括来自LabelMe数据库子集的2688个带注释的图像。 256 * 256像素的图像基于8个不同的室外场景，其中包括街道，山脉，田野，海滩和建筑物。所有图像都属于33个语义类别之一。
Stanford background： 包含来自现有数据集（例如LabelMe，MSRC和PASCAL VOC）的场景的室外图像。它包含715张具有至少一个前景对象的图像。数据集按像素进行注释，可用于语义场景理解。使用Amazon的Mechanical Turk（AMT）获得了该数据集的语义和几何标签。
Berkeley Segmentation Dataset (BSD)： 包含来自30个人类受试者的1,000个Corel数据集图像的12,000个手工标记的分割。目的是为图像分割和边界检测研究提供经验基础。一半的分割是通过向对象呈现彩色图像获得的，另一半是通过呈现灰度图像获得的。基于此数据的公共基准包括300张图像的所有灰度和颜色细分。图像分为200个图像的训练集和100个图像的测试集。
Youtube-Objects： 包含从YouTube收集的视频，其中包括十个PASCAL VOC类的对象（飞机，鸟，船，汽车，猫，牛，狗，马，摩托车和火车）。原始数据集不包含逐像素注释（因为它最初是为检测对象而开发的，具有弱注释）。然而，Jain等人手动注释了126个序列的子集，然后提取了帧的子集以进一步生成语义标签。此数据集中总共有大约10,167个带注释的480x360像素帧。
KITTI： 是最流行的移动机器人和自动驾驶数据集之一。 它包含数小时的交通场景视频，并以各种传感器模式（包括高分辨率RGB，灰度立体摄像头和3D激光扫描仪）进行记录。原始数据集不包含用于语义分割的基本事实，但是研究人员出于研究目的手动注释了数据集的各个部分。例如，阿尔瓦雷斯（Alvarez）等人从道路检测挑战中生成了323个图像的地面真相，分为道路，vertical和天空3类。
Other Datasets：Semantic Boundaries Dataset (SBD),PASCAL Part,SYNTHIA,Adobes Portrait Segmentation

4.2 2.5D Datasets

NYU-D V2： 由Microsoft Kinect的RGB和深度相机记录的各种室内场景的视频序列组成。它包括来自3个城市的450多个场景中的1,449张密集标记的RGB和深度图像对。每个对象都标有一个类别和一个实例编号（例如cup1，cup2，cup3等）。它还包含407,024个未标记的帧。与其他现有数据集相比，该数据集相对较小。图46显示了样本图像及其分割图。
SUN-3D： 是一个大型RGB-D视频数据集，包含为41个不同建筑物中的254个不同空间捕获的415个序列；注释了8个序列，将来还会有更多注释。每个带注释的帧都带有场景中对象的语义分割，以及有关摄像头姿势的信息。
SUN RGB-D ： 提供RGB-D基准，以达到在所有主要场景理解任务中提高最新技术水平的目标。它由四个不同的传感器捕获，并包含10,000张RGB-D图像，其比例类似于PASCAL VOC。整个数据集都进行了密集注释，其中包括146,617个2D多边形和58,657个3D边界框，它们具有精确的对象方向以及3D房间类别和场景布局。图47显示了两个示例图像（带有标注）。
UW RGB-D Object Dataset： 包含使用Kinect样式3D相机记录的300个常见家庭对象。这些对象被分为51类，使用WordNet上位词-同义词关系（类似于ImageNet）进行排列。使用Kinect样式3D相机记录此数据集，该相机以30 Hz的频率记录并对齐并对齐的640 * 480像素RGB和深度图像。该数据集还包括8个带批注的自然场景视频序列，其中包含来自数据集的对象（UW RGB-D场景数据集）。
ScanNet： 是一个RGB-D视频数据集，在1,500多次扫描中包含250万个视图，并以3D相机姿态，表面重建和实例级语义分割进行注释。为了收集这些数据，设计了一个易于使用且可扩展的RGB-D捕获系统，该系统包括自动表面重建，并且语义标注是众包的。使用这些数据有助于在一些3D场景理解任务上实现最先进的性能，包括3D对象分类，语义体素标注和CAD模型检索。

4.3 3D Datasets

Stanford 2D-3D： 该数据集提供了来自2D，2.5D和3D域的各种相互注册的模态，带有实例级的语义和几何注释，并被收集在6个室内区域中。它包含70,000多个RGB图像，以及相应的深度，表面法线，语义注释，全局XYZ图像以及相机信息。
ShapeNet Core： ShapeNetCore是整个ShapeNet数据集的子集，其中包含单个干净的3D模型以及手动验证的类别和路线注释。它涵盖55个常见对象类别以及大约51,300个唯一3D模型。
Sydney Urban Objects Dataset： 该数据集包含在澳大利亚悉尼中央商务区收集的各种常见的城市道路对象。车辆，行人，标志和树木等类别的物体分别进行631次扫描。

5. Performance Review

5.1 Metrics For Segmentation Models

Pixel accuracy： 只是找到正确分类的像素比率除以像素总数。对于 $K + 1$ 类（K个前景类和背景），像素精度定义为等式2：

其中 $p_{ij}$ 是类别 $i$ 的像素被预测为属于类别 $j$ 的像素数。
Mean Pixel Accuracy (MPA)： 是PA的扩展版本，其中以每个类的方式计算正确像素的比率，然后在类的总数上求平均值，如等式3:
Intersection over Union (IoU) or the Jaccard Index： 是语义细分中最常用的指标之一。它定义为预测的分割图和 ground truth 之间的交集面积，除以预测的分割图和地面实况之间的并集面积：

其中A和B分别表示 ground truth 和预测的分割图。取值范围是0到1。
Mean-IoU： 是另一种流行的指标，定义为所有类别的平均IoU。它被广泛用于报告现代分割算法的性能。
Precision / Recall / F1 score： 是报告许多经典图像分割模型准确性的常用指标。可以为每个类别以及总体级别定义精度和召回率，如下所示：

其中TP表示真阳性分数，FP表示假阳性分数，FN表示假阴性分数。通常，我们会对精度和召回率的组合版本感兴趣。这种流行的度量称为F1分数，其定义为精确度和查全率的 harmonic mean：
Dice coefficient： 是另一种用于图像分割的流行指标，可以将其定义为预测图和真实图的重叠区域的两倍，再除以两个图像中像素的总数。 Dice系数与IoU非常相似：

当将Dice系数应用于布尔数据（例如二进制分割图）并将前景称为正类时，其Dice系数与F1分数基本相同，定义为等式8：

Dice系数与IoU呈正相关。

5.2 Quantitative Performance of DL-Based Models

6. Challenges & Opportunities

6.1 More Challenging Datasets

已经创建了几个大型图像数据集用于语义分割和实例分割。 但是，仍然需要更具挑战性的数据集以及不同类型图像的数据集。对于静止图像，具有大量对象和重叠对象的数据集将非常有价值。这可以使训练模型更适合处理密集的对象场景，以及对象之间的较大重叠，这在
真实场景。

随着3D图像分割的日益普及，尤其是在医学图像分析中，也非常需要大型3D图像数据集。这些数据集比维数较低的数据集更难创建。现有的可用3D图像分割数据集通常不够大，有些是合成的，因此更大，更具挑战性的3D图像数据集可能非常有价值。

6.2 Interpretable Deep Models

尽管基于DL的模型在具有挑战性的基准上取得了可喜的性能，但有关这些模型的问题仍然存在。例如，深度模型究竟要学习什么？我们应该如何解释这些模型学到的特征？能在给定的数据集上达到一定分割精度的最小神经架构是什么？ 尽管可以使用一些技术来可视化这些模型的学习卷积核，但是仍缺乏对这些模型的基本行为/动力学的具体研究。更好地理解这些模型的理论方面，可以开发出针对各种细分方案而设计的更好的模型。

6.3 Weakly-Supervised and Unsupervised Learning

弱监督（也就是很少有镜头学习）和无监督学习正在成为非常活跃的研究领域。这些技术有望对图像分割特别有价值，因为在许多应用领域，尤其是在医学图像分析中，采集用于分割问题的标记样本是有问题的 。转移学习方法是在大量带标签的样本（可能来自公共基准）上训练通用图像分割模型，然后在某些特定目标应用程序的几个样本上对该模型进行微调。自我监督学习是另一个有希望的方向，在各个领域都吸引了很多吸引力。借助自我监督学习，可以捕获图像中的许多细节，从而以更少的训练样本来训练分割模型。基于强化学习的模型也可能是另一个潜在的未来方向，因为它们很少受到图像分割的关注。

6.4 Real-time Models for Various Applications

在许多应用程序中，准确性是最重要的因素；但是，在某些应用程序中，具有可以接近实时或至少接近普通相机帧速率（每秒至少25帧）运行的分割模型也很关键）。这对于例如部署在自动驾驶汽车中的计算机视觉系统很有用。当前的大多数模型都远非这个帧速率。例如，FCN-8大约需要100毫秒来处理低分辨率图像。基于膨胀卷积的模型有助于在某种程度上提高分割模型的速度，但仍有很大的改进空间。

6.5 Memory Efficient Models

即使在推理阶段，许多现代分割模型也需要大量内存。到目前为止，已经进行了很多努力来提高这种模型的准确性，但是为了使它们适合特定的设备（例如移动电话），必须简化网络。这可以通过使用更简单的模型，或者通过使用模型压缩技术，甚至训练复杂的模型，然后使用知识提炼技术将其压缩为模仿复杂模型的较小的，内存有效的网络来完成。

6.6 3D Point-Cloud Segmentation

许多工作集中在2D图像分割上，但 处理3D点云分割的工作却很少 。然而，对点云分割的兴趣与日俱增，在3D建模，自动驾驶汽车，机器人技术中具有广泛的应用，建筑模型等。处理3D无序和非结构化数据（例如点云）带来了一些挑战。例如，尚不清楚在点云上应用CNN和其他经典深度学习架构的最佳方法。基于图的深度模型可能是探索点云分割的潜在领域，从而实现了这些数据的其他工业应用。

你可能感兴趣的:(分割,图像分割,segmentation,语义分割,实例分割,深度学习)

LeetCode 148. 排序链表：归并排序的细节解析进击的小白菜 2025 Top100 详解 leetcode 链表算法
文章目录题目描述一、方法思路：归并排序的核心步骤二、关键实现细节：快慢指针分割链表1.快慢指针的初始化问题2.为什么选择`fast=head.next`？示例1：链表长度为偶数（`1->2->3->4`）三、完整代码实现四、复杂度分析五、总结题目描述LeetCode148题要求对链表进行排序，时间复杂度需为O(nlogn)，且空间复杂度为O(logn)。由于链表的特殊结构（无法随机访问），归并排序
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
7. TCP 和 UDP 的区别 yqcoder 前端面试-服务协议网络网络协议 http
总结TCP面向连接，需要三次握手建立连接，UDP无连接，不需要握手，直接发送数据。UDP有较好的实时性，效率比TCP高。TCP面向字节流，实际上是TCP把数据看成一连串无结构的字节流，UDP是面向报文的，一次交付一个完整的报文，报文不可分割，报文是UDP数据报处理的最小单位。每一条TCP连接时一对一的，UDP可以一对多，多对一，多对多。UDP分组首部开销小，八个字节，TCP首部开销大约20字节。U
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
比亚迪创新脉冲自加热技术深度解析百态老人算法数据库
一、技术原理与核心创新比亚迪脉冲自加热技术通过电池包内部能量闭环利用实现低温环境下的高效自加热，其核心原理可分解为以下三级机制：内阻产热机制将电池包物理分割为两组（A/B），通过高频充放电（频率达数百Hz）使电流流经高内阻电芯产生焦耳热。在-30℃环境下，电池内阻可升高至常温的3-4倍，此时焦耳热功率密度可达：P=I2⋅Rint（其中I为脉冲电流，Rint为低温内阻）P=I^2\cdotR_{in
电梯开关状态人员进出检测数据集VOC+YOLO格式2220张4类别 fl176831 数据集 YOLO 深度学习机器学习
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：2220标注数量(xml文件个数)：2220标注数量(txt文件个数)：2220标注类别数：4标注类别名称:["CloseElevator","People-in-elevator","The-elevator-was-
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
前端开发常见问题
技术文章大纲性能优化问题页面加载速度慢的常见原因及解决方案渲染阻塞资源的处理方法图片与媒体文件优化策略懒加载与代码分割的实现方式浏览器兼容性问题不同浏览器对CSS特性的支持差异JavaScriptAPI的兼容性处理方案Polyfill的使用场景与实现方法自动化测试工具在兼容性测试中的应用响应式设计挑战移动端与桌面端布局适配问题媒体查询的最佳实践方案视口单位与相对单位的正确使用高DPI屏幕的图像处理
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
第八周 tensorflow实现猫狗识别降花绘 365天深度学习 tensorflow系列 tensorflow 深度学习人工智能
本文为365天深度学习训练营内部限免文章（版权归K同学啊所有）**参考文章地址：[TensorFlow入门实战｜365天深度学习训练营-第8周：猫狗识别（训练营内部成员可读）]**作者：K同学啊文章目录一、本周学习内容:1、自己搭建VGG16网络2、了解model.train_on_batch（）3、了解tqdm，并使用tqdm实现可视化进度条二、前言三、电脑环境四、前期准备1、导入相关依赖项2、
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路一、医疗领域：AI驱动的精准诊疗与效率提升1.医学影像诊断AI算法通过深度学习技术，已实现对X光、CT、MRI等影像的快速分析，辅助医生检测癌症、骨折等疾病。例如，GoogleDeepMind的AI系统在乳腺癌筛查中，误检率比人类专家低9.4%；中国的推想医疗AI系统可在20秒内完成肺部CT扫描分析，为急诊救治争取黄金时间。2.药物研发传统药
目前主流图像分类模型的详细对比分析 @comefly 闲聊 linux 运维服务器
以下是目前主流图像分类模型的详细对比分析，结合性能、架构特点及应用场景进行整理：一、主流模型架构分类与定量对比模型名称架构类型核心特点ImageNetTop-1准确率参数量（百万）计算效率典型应用场景ResNetCNN残差连接解决梯度消失，支持超深网络（如ResNet-152）76.1%25.6中等通用分类、目标检测ViTTransformer将图像分割为patches，用标准Transforme
专题：2025云计算与AI技术研究趋势报告|附200+份报告PDF、原数据表汇总下载
原文链接：https://tecdat.cn/?p=42935关键词：2025,云计算，AI技术，市场趋势，深度学习，公有云，研究报告云计算和AI技术正以肉眼可见的速度重塑商业世界。过去十年，全球云服务收入激增8倍，中国云计算市场规模突破6000亿元，而深度学习算法的应用量更是暴涨400倍。这些数字背后，是企业从“自建机房”到“云原生开发”的转型，是AI从“实验室”走向“产业级应用”的跨越。本报告
【深度学习解惑】在实践中如何发现和修正RNN训练过程中的数值不稳定？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 人工智能 tensorflow pytorch 神经网络机器学习
在实践中发现和修正RNN训练过程中的数值不稳定目录引言与背景介绍原理解释代码说明与实现应用场景与案例分析实验设计与结果分析性能分析与技术对比常见问题与解决方案创新性与差异性说明局限性与挑战未来建议和进一步研究扩展阅读与资源推荐图示与交互性内容语言风格与通俗化表达互动交流1.引言与背景介绍循环神经网络(RNN)在处理序列数据时表现出色，但训练过程中常面临梯度消失和梯度爆炸问题，导致数值不稳定。当网络
【深度学习实战】当前三个最佳图像分类模型的代码详解云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习人工智能分类模型机器学习 Transformer EfficientNet ConvNeXt
下面给出三个在当前图像分类任务中精度表现突出的模型示例，分别基于SwinTransformer、EfficientNet与ConvNeXt。每个模型均包含：训练代码（使用PyTorch）从预训练权重开始微调（也可注释掉预训练选项，从头训练）数据集目录结构：└──dataset_root├──buy#第一类图像└──nobuy#第二类图像随机拆分：80%训练，20%验证每个Epoch输出一次loss
第35周—————糖尿病预测模型优化探索
目录目录前言1.检查GPU2.查看数据编辑3.划分数据集4.创建模型与编译训练5.编译及训练模型6.结果可视化7.总结前言本文为365天深度学习训练营中的学习记录博客原作者：K同学啊1.检查GPUimporttorch.nnasnnimporttorch.nn.functionalasFimporttorchvision,torch#设置硬件设备，如果有GPU则使用，没有则使用cpudevice=
PCL | 体素滤波器pcl::VoxelGrid＜＞ Nines～ ROS 算法 ROS SLAM PCL C++
文章目录概述一、定义介绍二、功能作用三、使用示例源码：解释：概述本节详细介绍pcl::VoxelGrid是PointCloudLibrary(PCL)中的一个常用滤波器，用于对点云数据进行体素栅格化（VoxelGridFiltering）。它将点云分割成一个个体素（voxel），并使用这些体素中的点计算出一个代表性的点，从而减少点云的数量，实现降采样的效果。二、功能作用降采样:在处理大规模点云
二、基础-python基础编程[基础语法、控制语句、数据类型] HongXu_CaiYi python相关 python 开发语言
目录体系划分基础语法注释&帮助变量&数据类型&类型转换变量数据类型类型转换运算符输入&输出控制台输入输出控制【分支if、循环while|for、pass】分支控制if循环控制while循环控制forpass语句数据类型操作数值类型表现形式进制转换常用操作布尔类型字符串类型使用与分类常用操作连接切片查找计算类转换类填充压缩分割拼接判定列表类型概念&定义常用操作迭代器补充元组概念与定义常用操作字典概念
2025秋招优秀项目推荐微凉的衣柜人工智能深度学习算法 gpt
01.多个优异的数据结构与算法项目推荐良心推荐hello-algo包含多个通用的代码框架，一个框架完成多道题目，更详细请查阅labuladong02.大模型岗位面试总结：共24家，9个offer大模型岗位面试总结：共24家，9个offer03.视觉检测分割一切源码及在线DemoGrounded-Segment-Anything项目源码
深度学习预备知识 AmazingMQ 深度学习人工智能
1.Tensor张量定义：张量（tensor）表示一个由数值组成的数组，这个数组可能有多个维度（轴）。具有一个轴的张量对应数学上的向量，具有两个轴的张量对应数学上的矩阵，具有两个以上轴的张量目前没有特定的数学名称。importtorch#arange创建一个行向量x，这个行向量包含以0开始的前12个整数。x=torch.arange(12)print("x=",x)#x=tensor([0,1,2
根茎式装配体（RA）作为下一代协同智能范式的理论、架构与应用由数入道人工智能思维框架软件工程智能体
一、引言——范式危机与新大陆的召唤1.1表征主义的黄昏：当前AI协同范式的认知天花板自艾伦·图灵在《计算机器与智能》中播下思想的种子以来，人工智能的漫长征途始终被一个强大而内隐的哲学范式所笼罩——我们称之为“表征主义”（Representationism）。这一范式，无论其外在形态如何演变，从早期的符号逻辑、专家系统，到如今风靡全球的深度学习神经网络，其核心信念从未动摇：智能的核心，在于构建一个关
Manus AI与多语言手写识别
ManusAI与多语言手写识别背景与概述手写识别技术的发展现状与挑战ManusAI的核心技术与应用场景多语言手写识别的市场需求与难点ManusAI的技术架构深度学习在手写识别中的应用多语言支持的模型设计数据预处理与特征提取方法多语言手写识别的关键挑战不同语言字符的多样性处理上下文语义与书写风格适应性低资源语言的训练数据获取解决方案与优化策略迁移学习在多语言任务中的应用端到端模型的优化与轻量化用户反
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1