会意

【语义分割】Smoothed Dilated Convolutions for Improved Dense Prediction阅读笔记

论文地址：https://arxiv.org/abs/1808.08931
或：https://www.kdd.org/kdd2018/accepted-papers/view/smoothed-dilated-convolutions-for-improved-dense-prediction
代码：https://github.com/divelab/dilated
作者：Zhengyang Wang (Washington State University); Shuiwang Ji (Washington State University)
作者博客：http://people.tamu.edu/~zhengyang.wang/

参考资料：
https://zhuanlan.zhihu.com/p/46382257

摘要
1.介绍
2.背景和相关工作
- 2.1扩张卷积
- 2.2扩张卷积中的Gridding
3.平滑扩张卷积
- 3.1扩张卷积的分解视图
- 3.2使用组交互层平滑扩张卷积
- 3.3使用可分离和共享的卷积平滑扩张卷积
- 3.4 两种方法之间的联系
4.实验分析
- 4.1基础步骤
- 4.2 PASCAL VOC2012
- 4.3 Cityscapes
- 4.4 有效感受野分析
5.结论

摘要

扩张卷积(dilated convolutions)，又名空（孔）洞卷积( atrous convolutions)，已经被广泛应用于深度神经网络(DCNNs)的多个任务中，如语义图像分割、目标检测、音频生成、视频建模和机器翻译。然而，扩张卷积会受网格伪影(gridding artifacts)的影响，这阻碍了使用扩张卷积的DCNN的性能。在本文，我们通过研究扩张卷积的分解提出两个简单但有效的degridding方法。与通过关注级联扩张卷积层来研究解决方案的现有模型不同，我们的方法是通过平滑扩张卷积本身来解决网格伪影(gridding artifacts)。通过在原始操作和分解视图中分析它们，我们进一步发现这两种degridding方法是内在相关的，并且我们定义了可分离和共享（separable and shared, SS）操作，这推广了我们所提出的方法。我们在两个数据集上评估我们的方法，并通过有效的感受野分析可视化平滑效果。实验结果表明，我们的方法对使用扩张卷积的DCNN的性能产生了显著和一致的改进，同时增加了可忽略不计的额外训练参数。

1.介绍

扩张卷积(dilated convolutions)，又名空（孔）洞卷积( atrous convolutions)，已经被广泛应用于深度神经网络(DCNNs)的多个任务中，如语义图像分割 [2, 3, 9–11, 18, 28–31]，目标检测 [6, 15, 25, 26]，音频生成[24]、视频建模[17]，和机器翻译[16]。扩张滤波器的概念是在[14]中用于有效小波分解的算法中开发的，并且已经用于图像像素预测任务以允许有效计算 [10, 18, 25, 26]。通过在权重之间插入零后采样来扩张卷积滤波器，如图1所示。它扩大了感受野或视野[2,3,11]，但不需要在DCNN中训练额外的参数。扩张卷积可以级联使用以构建多层网络[16,17,24]。扩张卷积的另一个优点是它们不会降低响应的空间分辨率。这是与下采样层的关键差异，例如池化层或步幅大于1的卷积，虽然他们也扩大了后续层的感受野，但也降低了空间分辨率。这样就允许通过移除下采样层，在后续层中应用扩张卷积的方式将在ImageNet[7,13]上训练的分类模型迁移到语义图像分割任务上[2,3,11,21,28-31]。与标准卷积相似，由具有激活函数的扩张卷积组成的层称为扩张卷积层。

dilation rate（为了方便，也叫作rate），表示0的填充多少。零的填充数量=dilation rate - 1

虽然具有扩张卷积的DCNN在各种深度学习任务中取得了成功，但已经观察到扩张导致所谓的“网格伪影”(gridding artifacts)[11,28,30]。对于扩张率大于1的扩张卷积，输出中的相邻单元由输入中完全独立的单元组计算得到。它导致局部信息不一致并妨碍了使用扩张卷积的DCNN的性能。由于扩张卷积层通常在DCNN中级联堆叠在一起，现有模型专注于平滑这种级联的扩张卷积层的gridding artifacts。在[11,30]中，通过在扩张卷积块之后添加具有数百万额外训练参数的更多层来减轻gridding问题。在[28]中提出了混合扩张卷积（HDC），其在连续扩张卷积层中应用不同的扩张率而不是一个相同的扩张率。

在这项工作中，我们通过平滑扩张卷积本身而不是堆叠扩张卷积层来解决网格伪影(gridding artifacts)。我们的方法享有独特的优势，即能够替换现有网络中的任何单个扩张卷积层，因为它们不依赖于其他层来解决网格化(gridding)问题。更重要的是，我们的方法为模型添加了最少量的额外参数，而其他一些降级方法则显着增加了模型参数[11,30]。我们的方法基于扩张卷积运算[1,2,27]的一个有趣观点，它可以从操作的分解中获益。基于这种对扩张卷积的新颖解释，我们提出了两种简单而有效的方法来平滑网格伪影(gridding artifacts)。通过在原始操作和分解视图中分析这两种方法，我们进一步注意到它们本质上是相关的，并且定义了可分离和共享（SS）操作，这些操作推广了所提出的方法。实验结果表明，我们的方法显著和一致地改善了当前使用扩张卷积的DCNN，而只增加了几百个额外的参数。我们还利用有效感受野（ERF）分析[22]来可视化使用我们扩张卷积的DCNN的平滑效果。

2.背景和相关工作

在本节中，我们描述扩张卷积与DCNN的背景和相关工作。然后，我们将详细讨论gridding问题和当前解决方案。

2.1扩张卷积

在一维情况下，给定1-D输入 $f$ ，扩张卷积的输出 $o$ 上位置 $i$ 处的值与大小为 $S$ 的flter $w$ 被定义为： $o[i]=\sum_{s=1}^S f[i+r*s]*w[i] \tag{1}$
其中 $r$ 被称为扩张率。更高维度的情况可以很容易地推广。当 $r = 1$ 时，扩张的卷积对应于标准卷积。理解扩张卷积的直观且直接的方法是在标准卷积滤波器中的每两个相邻权重之间插入r-1个零。扩张卷积也被称为孔洞卷积，其中“trous”意味着法语中的漏洞。图1包含二维情况下的扩张卷积的图示。

如第1节所述，在大多数情况下，DCNN使用级联的扩张卷积，这意味着几个扩张卷积层堆叠在一起。使用这种级联模式的原因在不同的任务中都不相同。在语义图像分割[2,3,11,21,28-31]的任务中，为了在保持感受野大小的同时具有更大尺寸的输出特征图，在删除下采样层之后使用扩张的卷积来代替层中的标准卷积。例如，如果我们将标准卷积视为扩张率为 $r = 1$ 的扩张卷积，则当移除子采样率为2的下采样层时，所有后续卷积层的扩张率应乘以2。这就是扩张卷积层扩张率为 $r = 2, 4, 8$ 等的原因。在其他任务中，例如音频生成[24]，视频建模[17]和机器翻译[16]，扩张卷积的使用旨在扩大输出的感受野。如[17,24,29]所指出的那样，级联的扩张卷积层在DCNN中的层数中以指数方式而不是线性地扩大了感受野。在这些研究中， the dilation rate is doubled for every forward layer, starting from 1 up to a limit before the pattern is repeated.（翻译不通，不翻了(╯‵□′)╯︵┻━┻）

请注意，在级联中使用扩张卷积时，网格伪影(gridding artifacts)会更显著地影响模型。这是因为连续堆叠层的扩张率在所有这些使用级联的扩张卷积层的DCNN中具有共同的因子2，如[28]和第2.2节中所讨论的。在[2,3]中，探索了并行形成输出层的扩张卷积。

2.2扩张卷积中的Gridding

扩张率大于1的扩张卷积将产生所谓的网格伪影(gridding artifacts); 也就是说，输出中的相邻单位是从输入中完全独立的单位集计算出来的，因此具有完全不同的实际感受野。为了清楚地查看gridding问题，我们首先研究单个扩张卷积。以图1中的第二种情况为例，内核尺寸为3×3且扩张率为r = 2的二维扩张卷积具有5×5的感受野。然而，实际参与计算的像素数量仅为25个中的9个，这意味着实际的感受野仍然是3×3，但是稀疏地分布。如果我们进一步考虑输出中的相邻单元，则可以从图2中看到网格问题。假设我们有两个连续的扩张卷积层，两个扩张的卷积的核大小为3×3，扩张率为r = 2。对于由层 $i$ 中的不同颜色指示的四个相邻单元，我们使用相同的颜色在层 $i - 1$ 和 $i - 2$ 中显示它们的实际感受域。我们可以看到，层 $i - 1$ 中的四个完全独立的单元组计算得到层 $i$ 中的四个单元。此外，由于两层的扩张率均为2，其公因子为2，因此网格问题也存在于层 $i - 2$ 中。实际上，只要级联中的扩张卷积层的扩张率具有共同因子关系，例如2,2,2或2,4,8，gridding问题就会传播到所有层，如[28]中所指出的那样。对于有这样层的块，块的相邻输出是从完全不同的输入集计算的。这导致局部信息的不一致并且妨碍具有扩张卷积的DCNN的性能。

准确的说是除了kernel中间的unit之外

在几个最近的语义图像分割研究中观察并解决了网格伪影(gridding artifacts)[11,28,30]。如第2.1节所述，扩张的卷积主要在DCNN中级联使用。因此，这些研究集中于根据堆叠的扩张卷积层来解决网格问题。具体而言，在[28]中提出了混合扩张卷积（HDC），其将几个扩张卷积层组合并应用没有共同因子关系的扩张率。例如，对于扩张率为 $r = 2$ 的扩张卷积块，每三个连续层被分组在一起，并且相应的扩张率变为1,2,3而不是2,2,2。对于具有扩张率 $r = 4$ 的类似块，应用相同的分组原理并且扩张率变为3,4,5，而不是4,4,4。当与他们提出的密集上采样卷积（DUC）一起使用时，该方法改进了用于语义图像分割的DCNN。这种策略在最近的工作[3]中也被采用为“多重网格”方法。在[28]之前，主要通过在膨胀卷积层块之后添加更多层来进行degridding[11,30]。在[30]中提出增加两个没有残差连接的标准卷积层，而[11]提出增加一个有扩张卷积层的块，并降低该块中扩张率。这种方法的主要缺点是需要学习大量额外参数。

3.平滑扩张卷积

在本节中，我们将讨论扩张卷积的分解视图。然后，我们提出了两种平滑网格伪影(gridding artifacts)的方法。我们还分析了所提出的两种方法之间的关系，并定义了可分离和共享（SS）操作来概括它们。

3.1扩张卷积的分解视图

有两种方法可以理解扩张的卷积。正如2.1节所介绍的那样，第一种更直观的方法是通过在扩张率为 $r$ 的扩张卷积filters上插入零（孔）来将其视为标准的上采样卷积filters[25]。查看扩张卷积的另一种方法是基于操作的分解[27]。扩张率为 $r$ 的扩张卷积可以分解为三个步骤。首先，输入特征图通过因子 $r$ 周期性地进行下采样。结果，输入被解交织到 $r^{d}$ 组降低分辨率的特征图，其中 $d$ 是输入的空间维度。其次，这些中间特征图组被送入标准卷积。在去除所有插入的零之后，该卷积具有与原始扩张卷积相同的权重。更重要的是，它被所有组共享，这意味着每组降低分辨率的特征图都经历相同的标准卷积。第三步是将 $r^{d}$ 组特征映射重新连接到原始分辨率，并产生扩张卷积的输出。

图3给出了2-D情况下的分解示例。为简化讨论，我们假设输入通道和输出通道的数量均为1。给定10×10特征映射，内核大小为3×3且扩张率为 $r = 2$ 的扩张卷积没有任何padding将输出6×6特征映射。在该扩张卷积的分解中，输入特征图被周期性地采样为 $2^{2} = 4$ 组，分辨率降低为5×5的特征图。然后，将共享的标准卷积应用于这4组特征映射，其具有与没有填充的扩张卷积相同的权重，并获得4组3×3特征映射。最后，它们被重新交换到原始分辨率并产生与原始扩张卷积完全相同的6×6输出特征图。这种分解将扩张卷积减少为标准卷积，并允许更有效的实现[1,2,10,26]。

我们注意到分解视图提供了网格伪像的清晰解释;也就是说，在共享标准卷积之前或之后， $r^{d}$ 中间特征映射组彼此之间没有依赖性，因此采集到可能不一致的局部信息。基于这种观点，我们通过在分解的不同步骤中添加 $r^{d}$ 组之间的依赖性来克服网格化(gridding)。我们在接下来的两节中提出了两种有效的方法。

3.2使用组交互层平滑扩张卷积

我们的第一个degridding方法试图在分解的第三步中建立不同组之间的依赖关系。我们提出在将中间特征映射重新处理为原始分辨率之前添加组交互层(Group Interaction Layers)。对于在d维输入特征图上进行扩张率为 $r$ 的扩张卷积，分解的第二步产生 $r^{d}$ 组的降低分辨率的特征图，在共享卷积之后表示为 ${f_i\} _{i=1} ^{r^{d}}$ 。请注意，每个 $f_i$ 表示一组特征映射，而不是单个特征映射。我们用权重矩阵 $W∈\mathbb{R}^{r^{d}×r^{d}}$ 来定义组交互层：
$\left[\begin{matrix} w_{11} & w_{12} & w_{13} &\cdots&w_{1,r^d}\\ w_{21} & w_{22} & w_{23} &\cdots&w_{2,r^d}\\ \vdots & \vdots & \vdots & \ddots & \vdots \\ w_{r^d,1} & w_{r^d,2} & w_{r^d,3} &\cdots&w_{r^d,r^d} \end{matrix}\right] \tag{2}$
该层的输出仍然是 $r^d$ 组的特征映射，表示为 $\{\hat{f}_i\} _{i=1} ^{r^{d}}$ ，由以下计算得到：
$\hat{f}_i=\sum_{j=1}^{r^d}w_{ij}\cdot f_j\tag{3}$
其中 $i=1,2,\dots,r^d$ 。请注意，该层的连接位于组之间，而不是特征映射之间。事实上，每个 $\hat{f}_i$ 都是 ${f_i\} _{i=1} ^{r^{d}}$ 的线性组合，由权重矩阵W加权。通过这一层，每个 $\hat{f}_i$ 收集来自所有 $r^d$ 特征映射组的局部信息，这增加了不同组之间的依赖关系。在组交互层之后， $r^d$ 组被重新交织到原始分辨率并形成扩张卷积的最终输出。这种平滑的扩张卷积中的额外训练参数的数量是 $r^{2d}$ ，与输入和输出通道的数量无关。具有扩张卷积的DCNN通常用于一维或二维情况，这意味着 $d = 1, 2$ 。实践中， $r$ 的选择通常为2,4,8。所提出的组交互层仅需要在最坏情况下学习数千个额外参数，而原始扩张卷积通常具有数百万个训练参数。

我们在图4中使用3.1节中的相同示例来说明想法。给定分解中第二步的输出，4组中间特征映射通过组交互层建立彼此之间的依赖关系，其权重数量仅为 $2^{2·2} = 16$ ，由16个连接表示。我们使用灰色来表示degridding后的特征图。

3.3使用可分离和共享的卷积平滑扩张卷积

我们进一步探索了在分解的第一步中建立不同组之间依赖关系的方法;也就是说，在对输入特征映射进行逐行扫描之前。考虑到在 $d$ 维输入特征映射上进行扩张率为r的扩张卷积时，会在逐行周期性下采样期间将输入中大小为 $r^d$ 的局部区域的每个单元分配到单独的组。因此，对于特定组中的单元，它所有原本相邻的单元处于其他独立的 $r^d-1$ 组中，从而导致局部不一致。如果可以在周期采样之前合并局部信息，则可以减轻网格伪影(gridding artifacts)。为了实现这一点，我们提出了基于可分离卷积[4,23]的可分离和共享（SS）卷积。给定 $C$ 通道的输入和 $C$ 通道的相应输出，可分离卷积与标准卷积相同，除了可分离卷积分别处理每个通道。标准卷积将输入中的所有 $C$ 通道连接到输出中的所有 $C$ 通道，从而导致 $C^2$ 个不同的flters。相反，可分离卷积仅将第 $i$ 个输出通道连接到第 $i$ 个输入通道，仅产生 $C$ 个flters。在所提出的SS卷积中，“共享”意味着，基于可分离卷积， $C$ 个滤波器是相同的并且由所有输入和输出通道对共享。对于 $C$ 通道的输入和输出，SS卷积仅有一个flter扫描所有空间位置并在所有通道上共享该滤波器。在平滑扩张卷积方面，我们应用SS卷积以在输入特征图中合并每个单元的相邻信息。具体地，在逐行扫描之前插入内核大小为 $2r-1)^d$ 的SS卷积，从而将彼此之间的依赖性添加到由周期性下采样产生的 $r^d$ 组特征映射中。

文章中给出的SS卷积的kernel size的计算公式为kernel size= $2r-1)^d$ ，观察figure 1 中第三个卷积的中心点就很好理解

图5中的示例说明了插入SS卷积的方法。这里插入的SS卷积的内核大小是 $(2\cdot 2-1)^2 = 3\times3$ 。请注意，因为输入只有一个通道，所以SS卷积，可分离卷积和标准卷积在本例中是等效的。但是，如果输入具有 $C > 1$ 通道，则它们变得不同。重要的是，对于具有多个通道的输入，与其他两种卷积相反，SS卷积的训练参数的数量不会改变。这意味着所提出的degridding方法具有 $2r-1)^d$ 个参数，与通道数无关，在实践中最多只对应数十个额外参数。

3.4 两种方法之间的联系

所提出的两种方法都源自扩张卷积的分解视图。现在我们结合所有步骤并根据原始操作进行分析。对于3.3节中的第二种方法，它是直截了当的，因为在分解的第一步之前插入了可分离和共享（SS）卷积，实际上并没有影响原始的扩张卷积。因此，它相当于在扩张卷积之前添加SS卷积，如图7所示。但是，3.2节中的第一种方法通过在分解的第二步和第三步之间加入分组全连接层进行degridding。要了解如何执行组合，我们参考图4中的示例。在最后一步之前，我们有四组特征图，每组只有一个特征图。考虑四个特征映射左上角的单元，如果没有组交互层，这四个单元在重新隔行后形成输出特征映射的左上2×2块。如果我们插入分组全连接层，则左上角的四个新单元将成为前四个单元的线性组合，而且形成输出特征图的左上角2×2块。结果，输出特征图上新的左上2×2块是在前一个上的全连接操作来计算的。通过stride=2扫描输出特征映射来检查其他单元，我们发现每个非重叠的2×2块共享全连接的操作。图6提供了一个说明。通过推广这个例子，我们可以看到degridding方法等效于扩张卷积进行以下操作：使用大小为 $r^d$ 的窗口用步幅 $r$ 扫描输出特征图并获得非重叠块;对于每个块，执行相同的全连接操作，输出相同空间大小的块。请注意，如果输出具有多个通道，则操作将在各个通道之间共享。此操作类似于SS卷积，因为它们都使用在所有通道上共享的单个内核扫描空间位置。因此，我们将其命名为SS 块式(block-wise)全连接层。基于它以及SS卷积，我们进一步定义在所有通道上使用共享的单个flter扫描输入的空间位置的操作为SS操作。

对于相同颜色的unit，融合采用的权重是一样的，不同颜色的 unit融合采用的权重是不一样的。这一点回想一下前面figure4就很容易理解了。

第二种方法是在input 上采用separate and shared convolution，并且通道间的kernel是共享的，相当于是对相邻的九个unit之间进行了融合

由于DCNN通常采用级联的扩张卷积层，因此我们也在这种情况下研究我们提出的方法。如上所述，第一种降级方法相当于在扩张卷积之后添加SS块式全连接层，而第二种降级对应于在扩张卷积之前插入SS卷积。然而，对于具有相同扩张率的级联扩张卷积层，扩张卷积和SS操作之间的顺序仅影响第一层和最后层。因此，两种提出的degridding方法可以概括为将适当的SS操作与扩张的卷积相结合。

设想这两种方式进行串联。那么在串联的中间部分，都是dilated - ss conv - dilated - ss conv交叉出现，不同之处只在首尾。第一种方法是后做dilated conv，第二种方法是先做dilated conv所以这两种方式可以一般化并且与dilated convolution结合起来使用。

4.实验分析

在本节中，我们在PASCAL VOC 2012 [8]和Cityscapes [5]数据集上评估我们的方法。我们提出的方法导致具有扩张卷积的DCNN的显著且一致的改进。我们还进行了有效的感受野（ERF）分析[22]来可视化平滑效果。

4.1基础步骤

为了进行我们的实验，我们选择了语义图像分割的任务，因为网格伪影(gridding artifacts)主要是在这项任务的研究中观察到的[11,28,30]。局部信息的一致性对于图像上的这种像素预测任务是重要的。此外，平滑效果易于在二维数据上可视化。

我们实验中的baseline模型是带有ResNet-101[13]的DeepLabv2 [2] 。从三个方面评估我们的平滑扩张卷积是一个公平的benchmark。首先，它使用扩张卷积来调整在ImageNet上预训练的ResNet [7]; 即从图像分类到语义图像分割。大多数语义图像分割模型采用了这种迁移学习策略[2,3,10,11,18,21,28-31]，ResNet是用于图像分类的最准确的DCNN之一，并且具有可用的预训练模型。其次，最近在分割任务中实现最先进技术的模型[3,28,31]是由DeepLab v2开发的。在[31]中，输出层被金字塔池化模块替换。[28]也改变了输出层，并另外建议改变扩张率，如2.2节所述。目前最好的模型[3]遵循[28]的建议，同时使用更多的扩张卷积块探索更深层。最后，我们打算将我们的degridding方法与现有方法进行比较[11,28,30]。虽然[11,30]通过添加更多层来大大增加训练参数的数量来处理网格伪影(gridding artifacts)，但我们的方法只需要学习数百个额外的参数。因此，我们与[28]中提出的基于DeepLabv2的方法进行了比较。

DeepLabv2由两部分组成：编码器和输出层。编码器是经过预先训练的采用扩张卷积修改的ResNet-101模型，它从原始图像中提取特征图。如2.1节所述，ResNet-101中的最后两个下采样层被移除，随后的标准卷积层被扩张卷积层取代，扩张率分别为r = 2,4。具体而言，在修改之后，最后两个块是23个堆叠的扩张卷积层的块，其具有r = 2的扩张率，接着是具有r = 4的扩张率的3个级联扩张卷积的块。输出层通过聚合来自编码器的输出特征映射的信息来进行逐像素分类。

我们在Tensorﬂow中复现了DeepLabv2，并根据我们的实施进行实验研究。我们的代码是公开的。我们通过解决编码器最后两个块中的网格伪影(gridding artifacts)来改善baseline。为了使对比独立于输出层，我们使用不同的输出层进行实验。为了消除不同数据集的偏差，我们在两个数据集上评估我们的方法。通过联合像素交叉（IoU）评估所有模型，其定义为：
$\frac{true\_positive}{true\_positive+false\_positive+false\_negative} \tag{4}$

4.2 PASCAL VOC2012

PASCAL VOC 2012语义图像分割数据集[8]提供按像素标注的自然图像。它已被分为训练集，验证集和测试集，分别为1464，1449和1456个图像。标注包括21个类，它们是20个前景对象类和1个背景类。带有额外标注的增强版[12]将训练集的大小增加到10,582。在我们的实验中，我们使用增强的训练集训练所有模型，并在验证集上进行评估。在重现baseline DeepLabv2时，由于我们有限的GPU内存，我们没有在多尺度输入上使用最大融合进行测试。我们不执行任何后处理，如条件随机场（CRF）[2]，这与我们的目标无关。与DeepLabv2一样，我们使用随机裁剪大小为321×321，batch size为10的批数据训练模型。通过随机缩放训练输入来应用数据增强。我们将初始学习率设置为0.00025并采用“poly”学习率策略[20]：
$current\_lr=(1-\frac{iter}{max\_iter})^{power}\cdot initial\_lr \tag{5}$
其中 $p o w e r = 0.9$ ， $i t e r$ 表示当前迭代次数， $l r$ 表示学习率，与[2,3,28]相同。该模型训练为 $max\_iter = 20,000$ 次迭代，动量为0.9，权重衰减为0.0005。

我们通过在每个扩张卷积之前或之后插入适当的可分离和共享（SS）操作来实现我们提出的方法，如图6和7所示。一个重要的步骤是改变每个实验中详细的初始学习率。为了使对比稳定，我们还使用不同的初始学习率训练baseline，并观察到0.00025的原始设置产生最佳性能。SS操作的初始化是将它们设置为identity操作。具体地，对于扩张率为r = 2的组交互层，初始滤波器为：
$\left[\begin{matrix} 1 & 0 & 0 &0\\ 0 & 1 & 0 &0\\ 0 & 0 & 1 &0\\ 0 & 0 & 0 &1 \end{matrix}\right] \tag{6}$
而对于扩张率为r = 2的SS卷积，则为：
$\left[\begin{matrix} 0 & 0 & 0 \\ 0 & 1 & 0\\ 0 & 0 & 0 \end{matrix}\right] \tag{7}$
最初的DeepLabv2在MS-COCO上使用了预训练[19]，从而获得更多的训练数据和更高的性能。我们的实验是在两种设置下进行的; 即有和没有MS-COCO预训练。结果分别在表1和2中给出。在表中，“G Interact”表示具有组交互层的degridding方法，即在扩张卷积之后添加SS块状全连接层，“SS Conv”表示在扩张卷积之前插入SS卷积的层。在使用MS-COCO预训练的这些实验中，“G Interact”和“SS Conv”的初始学习率均为0.001。或者，它们分别设置为0.001和0.00075。显然，两种方法都提高了大多数类的IoU以及两种设置下baseline的平均IoU（mIoU）。值得注意的是，“G Interact”仅需要训练1,136(= 16×23 + 256×3)额外参数，“SS Conv”需要354(= 9×23 + 49×3)个额外参数，这些参数与模型中的参数总数进行比较可忽略不计。

我们还将我们的方法与[28]中提出并在[3]中使用的现有的“multigrid” degridding方法进行了比较。如2.2节所述，该想法是将几个扩张卷积层分组并改变扩张因子。据我们所知，对于具有扩张卷积的改进的ResNet-101，最后两个块是23个堆叠的扩张卷积层的块，其中扩张率为r = 2，随后是3个级联扩张卷积的块，扩张率为r = 4。对于第一个块，我们将每3个层组合在一起并将膨胀率从r = 2,2,2替换为r = 1,2,3。对于剩余2层，我们保持r = 2,2。对于第二个块，3个扩张因子r = 4,4,4变为r = 3,4,5。我们进行修改并在与baseline相同的设置下训练模型。表示为“Multigrid”的结果显示在表1和2的第二行中。令人惊讶的是，我们的实现表明该方法不会提高性能。对结果的解释是该方法应该与其他修改一起应用，因为[28]和[3]都与DeepLabv2上的其他变化一起进行实验，例如密集上采样卷积（dense upsamling convolution,DUC）和更深层编码器。
当我们解决编码器的最后两个块中的网格伪影(gridding artifacts)时，我们还使用不同的输出层进行实验，以使比较结果独立于输出层。我们用大视野（LargeFOV）层替换DeepLabv2的原始空间金字塔池（ASPP）输出层，这在[2]中已经应用过。我们使用上述相同的设置训练模型，使用和不使用MS-COCO预训练，并分别在表3和表4中显示结果。同样，所提出的degridding方法导致一致的显著改进。

4.3 Cityscapes

我们进一步在Cityscapes[5]数据集上比较了我们提出的方法。Cityscapes从50个不同的城市收集了5,000张2048×1024的街景图像，并提供了19个类别的高质量像素注释。将5,000幅图像分别分为2975，500和1,552个图像，分别为train，test和val。同样，我们在训练集上训练模型并对验证集进行评估。 batch size为3，其中每批包含随机裁剪的大小为571×571的patches。所有模型的初始学习率均设为0.0005。所有其他设置与4.2节中的设置相同。

仍然在两种设置下进行实验，即使用和不使用MS-COCO预训练，结果分别在表5和6中给出。我们可以看到，所提出的两种方法都增加了baseline上的mIoU，这表明这些改进与数据集无关。

4.4 有效感受野分析

由于我们在解决网格伪影(gridding artifacts)，我们进行有效的感受野（ERF）分析[11,22]来可视化我们方法的平滑效果。这些实验进一步验证了所提出的方法的改进来自degridding。给定DCNN中的块，ERF分析是一种方法用于表征块输入中的每个单元在数学上对块的特定输出单元的影响程度[22]，而不是理论上的。

按照[11,22]中的步骤，我们分析了PASCAL VOC 2012上使用ASPP输出层和MS-COCO预训练的模型。我们计算所选baseline中的块和所提出方法的ERF。具体地，假设块的输入和输出特征映射分别是 $x$ 和 $y$ 。特征图的空间位置由 $(i, j)$ 索引，其中（0,0）表示中心。ERF由偏导数 $y_{0,0}/∂x_{i,j}$ 测量。为了在没有显式损失函数的情况下计算它，我们将误差梯度相对于 $y_{0,0}$ 设置为1，而对于 $y_{i,j}$ ， $i\neq0$ 或 $j\neq0$ ，我们将其设置为0。然后误差梯度可以反向传播到 $x$ ，并且相对于 $x_{i,j}$ 的误差梯度等于 $y_{0,0}/∂x_{i,j}$ [22]。但是，结果取决于输入。因此，对验证集中的所有图像计算 $y_{0,0}/∂x_{i,j}$ ，并对它们的绝对值求平均值。最后，我们将 $x$ 的所有通道上的值相加，以获得ERF的可视化。

在我们的实验中，我们选择两块DCNN来可视化平滑效果，并将可视化的空间大小放大十倍以进行显示。第一个块是编码器的最后一层，它是一个扩张卷积，内核大小为3×3，扩张率为r = 4。ERF分析结果如图8所示。baseline中原始扩张卷积的ERF是显而易见的。它对应于3×3滤波器，在非零权重之间插入零。这种过滤器导致gridding问题。对于我们提出的degridding方法，我们可以看到它们使ERF平滑从而达到degridding。此外，由于SS操作，两种方法都扩展了ERF的矩形大小。第二个选择的块是由扩张卷积层组成的整个块，其包括编码器的最后两个块。图9显示了ERF可视化。在两种提出的方法中，网格伪影(gridding artifacts)都得到了清晰的平滑。实际上，只有baseline的最左侧可视化具有表示零权重的黑色像素。特别是，我们注意到“SS FC”仍然具有类似网格的可视化。这样的一个原因是block-wise 操作可能导致块的grides更大。然而，它减轻了逐像素局部信息的不一致性，并且改善了有扩张卷积的DCNN。

Figure 8是对网络的最后一个block 进行ERF，Figure 9 是对网络的最后两个block进行ERF。白色部分越大说明效果越好。

5.结论

在这项工作中，我们提出了两种基于扩张卷积分解的简单而有效的degridding方法。所提出的方法在两个方面不同于现有的degridding方法。首先，我们根据单个扩张卷积运算而不是级联中的多个层来解决网格伪影(gridding artifacts)。其次，我们的方法只需要学习可忽略不计的额外参数。实验结果表明，它们显着且一致地改善了扩张卷积的DCNNs。平滑效应也在有效感受野（ERF）分析中可视化了。通过进一步分析，我们将两种提出的方法联系在一起，并定义为可分离和共享操作。新定义的可分离和共享卷积操作是通用的神经网络操作，因此可能成为通用的degridding策略。我们将在未来的工作中探索这个方向。目前的研究主要集中在二维情况下的degridding，但这些方法是通用的，可以应用于其他设置。我们将在文本分析的背景下探索他们在一维案例中的应用。

优点是增加的参数数量较少，没有加重计算负担，并且结构新颖、简单，与数据集和output layer无关，可以广泛应用。缺点是效果提升不是特别高。文中对于效果提升不高的原因也没有详细解释

你可能感兴趣的:(语义分割)

不搞花里胡哨！CMU最新开源：极简风格的LiDAR全景分割+跟踪！ 3Ｄ视觉工坊 3D视觉从入门到精通 3D视觉
来源：3D视觉工坊在公众号「3D视觉工坊」后台，回复「原论文」可获取论文pdf、代码链接添加微信：dddvisiona，备注：三维点云，拉你入群。文末附行业细分群1.笔者个人体会激光雷达全景分割（LPS）一般遵循自下而上的以分割为中心的范式，利用聚类获得对象实例来建立语义分割网络。但是最近CMU&Meta等大佬们重新思考了这种方法，并提出了一个简单而有效的检测中心网络，用于LPS和跟踪。这项工作也
u-net系列算法㡽闧㔯人工智能算法
语义分割M整体结构：M概述就是编码解码过程简单但是很实用，应用广起初是做医学方向，现在也是U-net主要网络结构：还引入了特征拼接操作M以前我们都是加法，现在全都要这么简单的结构就能把分割任务做好U-net++整体网络结构：特征融合，拼接更全面其实跟densenet思想一致把能拼能凑的特征全用上就是升级版了U-net++DeepSupervision：也是很常见的事，多输出损失由多个位置计算，再更
DeepLabv3+改进18:在主干网络中添加REP_BLOCK AICurator 深度学习 python 机器学习 deeplabv3+语义分割
【DeepLabv3+改进专栏！探索语义分割新高度】你是否在为图像分割的精度与效率发愁？本专栏重磅推出：✅独家改进策略：融合注意力机制、轻量化设计与多尺度优化✅即插即用模块：ASPP+升级、解码器PS:订阅专栏提供完整代码论文简介我们提出了一种通用的卷积神经网络（ConvNet）构建模块，可在不增加推理时间成本的情况下提升性能。该模块名为多样化分支块（DBB），通过结合不同尺度和复杂度的多样化分支
3DMAX点云算法：实现毫米级BIM模型偏差检测（附完整代码）夏末之花人工智能
摘要本文基于激光雷达点云数据与BIM模型的高精度对齐技术，提出一种融合动态体素化与多模态特征匹配的偏差检测方法。通过点云预处理、语义分割、模型配准及差异分析，最终实现建筑构件毫米级偏差的可视化检测。文中提供关键代码实现，涵盖点云处理、特征提取与深度学习模型搭建。一、核心算法流程点云预处理与特征增强去噪与下采样：采用统计滤波与体素网格下采样，去除离群点并降低数据量。语义分割：基于PointNet++
【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割 985小水博一枚呀论文解读深度学习 transformer 人工智能网络 cnn
【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割文章目录【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割2.Re
3D-AFFORDANCELLM: HARNESSING LARGE LANGUAGE MODELS FOR OPEN-VOCABULARY AFFORDANCE DETECTION UnknownBody LLM Daily 3d 语言模型人工智能
摘要3D可及性检测是一个具有挑战性的问题，在各种机器人任务中有着广泛的应用。现有方法通常将检测范式制定为基于标签的语义分割任务。这种范式依赖于预定义的标签，缺乏理解复杂自然语言的能力，导致在开放世界场景中的泛化能力有限。为了解决这些限制，我们将传统的可及性检测范式重新定义为指令推理可及性分割（IRAS）任务。该任务旨在根据查询推理文本输出可及性掩码区域，避免了输入标签的固定类别。相应地，我们提出了
A survey on instance segmentation: state of the art——论文笔记栀子清茶 1024程序员节论文阅读计算机视觉人工智能笔记学习
摘要这篇论文综述了实例分割的研究进展，定义其为同时解决对象检测和语义分割的问题。论文讨论了实例分割的背景、面临的挑战、技术演变、常用数据集，并总结了相关领域的最新成果和未来研究方向。实例分割的发展从粗略的对象分类逐步演变为更精细的像素级别推理，广泛应用于自动驾驶、机器人等领域。论文为研究人员提供了对实例分割领域的全面了解和有价值的参考。一、简介第一部分“简介”主要介绍了实例分割的背景、定义和挑战。
MobileNet家族：从v1到v4的架构演进与发展历程彩旗工作室人工智能架构人工智能机器学习 cnn 卷积神经网络
MobileNet是一个专为移动设备和嵌入式系统设计的轻量化卷积神经网络（CNN）家族，旨在在资源受限的环境中实现高效的图像分类、对象检测和语义分割等任务。自2017年首次推出以来，MobileNet经历了从v1到v4的多次迭代，每一代都在计算效率、模型大小和准确性上取得了显著进步。本文将详细探讨MobileNetv1、v2、v3和v4的原理、架构设计及其发展历程，并分析其关键创新和性能表现。Mo
整理：4篇论文介绍实时语义分割的未来，Transformer架构下的性能与效率平衡 mslion transformer 深度学习人工智能语义分割
在Transformer架构推动下，计算机视觉领域致力于打造一个极为强大且通用的大规模模型，它能处理物体检测、图像分割等多种任务。不少基于Transformer架构的研究成果显著，其通用模型在特定应用中表现出色，在图像和视频分割方面，通用设计的研究成果也超越了以往定制模型。其中，分割一切模型（SAM）在交互式分割中表现突出，能统一应对点、边界框、掩码和文本输入等交互方式。然而，多数此类研究存在弊端
【Scannet V2 三维数据集下载】萧伯纳. python 深度学习学习
ScannetV2三维数据下载ScannetV2数据介绍：“ScanNet是一个RGB-D视频数据集，包含2多次扫描中的5万次观看，并带有1500D摄像机姿势、表面重建和实例级语义分割进行注释。为了收集这些数据，我们设计了一个易于使用且可扩展的RGB-D捕获系统，其中包括自动表面重建和众包语义注释。我们表明，使用这些数据有助于在多个3D场景理解任务上实现最先进的性能，包括3D对象分类、语义体素标记
点云语义分割：PointNet++在S3DIS数据集上的训练完美代码 3d neo4j 点云
点云语义分割：PointNet++在S3DIS数据集上的训练点云语义分割是计算机视觉领域的一个重要任务，旨在将点云数据中的每个点分配给其对应的语义类别。PointNet++是一种流行的深度学习方法，可用于处理点云数据，并在各种任务中取得了良好的性能。在本文中，我们将探讨如何使用PointNet++模型在S3DIS数据集上进行训练，并提供相应的源代码。数据集介绍S3DIS数据集是一个常用的用于室内场
深度学习篇---Opencv中的机器学习和深度学习 Ronin-Lotus 深度学习篇图像处理篇深度学习 opencv 机器学习 python
文章目录前言一、OpenCV中的机器学习1.概述2.使用步骤步骤1：准备数据步骤2：创建模型步骤3：训练模型步骤4：预测3.优点简单易用轻量级实时性4.缺点特征依赖性能有限二、OpenCV中的深度学习1.概述图像分类（如ResNet、MobileNet）目标检测（如YOLO、SSD）语义分割（如DeepLab）人脸检测（如OpenFace）2.使用步骤步骤1：加载模型步骤2：准备输入数据步骤3：推
【YOLOv12改进trick】StarBlock引入YOLOv12，创新涨点优化，含创新点Python代码，方便发论文 zy_destiny YOLOv12及改进优化创新人工智能深度学习机器学习 YOLO 神经网络开发语言 python
改进模块：StarBlock解决问题：采用StarBlock将输入数据映射到一个极高维的非线性特征空间,生成丰富的特征表示，使得模型在处理复杂数据时更加有效。改进优势：简单粗暴的星型乘法涨点却很明显适用场景：目标检测、语义分割、自然语言处理等多种场景高效紧凑的模型，不适用于大模型思路来源：CVPR2024《RewritetheStars》目录1.设计动机2.启发来源3.将StarBlock引入YO
深度学习代码分析——自用肆—— 深度学习人工智能笔记
代码来自：https://github.com/ChuHan89/WSSS-Tissue?tab=readme-ov-file借助了一些人工智能1_train_stage1.py代码功能总览该代码是弱监督语义分割（WSSS）流程的Stage1训练与测试脚本，核心任务是通过多标签分类模型生成图像级标签，为后续生成伪掩码（Pseudo-Masks）提供基础。代码分为train_phase和test_p
DenseUNet 改进：添加ASPP模块听风吹等浪起 AI 改进系列深度学习人工智能计算机视觉神经网络网络
目录1.ASPP模块2.DenseUNet改进3.完整代码Tips：融入模块后的网络经过测试，可以直接使用，设置好输入和输出的图片维度即可1.ASPP模块ASPP（AtrousSpatialPyramidPooling，空洞空间金字塔池化）是语义分割模型（如DeepLab系列）中的核心模块，旨在捕捉多尺度上下文信息，提升模型对不同尺寸物体的分割效果。1.背景与动机问题：图像中的物体尺寸差异大（如汽
计算机视觉｜ConvNeXt：CNN 的复兴，Transformer 的新对手紫雾凌寒 AI 炼金厂 #计算机视觉 #深度学习机器学习计算机视觉人工智能 transformer ConvNeXt 动态网络神经网络
一、引言在计算机视觉领域，卷积神经网络（ConvolutionalNeuralNetworks，简称CNN）长期以来一直是核心技术，自诞生以来，它在图像分类、目标检测、语义分割等诸多任务中都取得了令人瞩目的成果。然而，随着VisionTransformer（ViT）的出现，计算机视觉领域的格局发生了重大变化。ViT通过自注意力机制，打破了传统卷积神经网络的局部感知局限，能够捕捉长距离依赖关系，在图
VSLAM新方案之《在复杂环境中实现高精度与超强鲁棒性》 OAK中国_官方 SLAM 人工智能 rpab-map
OAKChina&苏州泛科特机器人联合推出OAK-DSeries&因子空间感知（FactorPerceptionKit）VSLAM解决方案01FactorPerceptionKit简介FactorPerceptionKit是一种真正基于深度学习技术的VSLAM方案，不同于许多厂商仅通过添加目标检测或语义分割模型来实现额外功能，我们直接在SLAM底层使用HF-Net模型，该模型同时进行局部特征点检测
文章精读篇——用于遥感小样本语义分割的可学习Prompt LiXiang like coding吗学习 prompt 人工智能
题目：LearnablePromptforFew-ShotSemanticSegmentationinRemoteSensingDomain会议：CVPR2024Workshop论文：10.48550/arXiv.2404.10307相关竞赛：https://codalab.lisn.upsaclay.fr/competitions/17568年份：2024任务背景小样本语义分割（Few-shot
计算机视觉实战｜Mask2Former实战：轻松掌握全景分割、实例分割与语义分割紫雾凌寒 AI 炼金厂 #计算机视觉计算机视觉 python 深度学习 mask2former transformer pytorch
一、引言上一篇文章《计算机视觉｜Mask2Former：开启实例分割新范式》,我们学习了Mask2Former的框架原理、优缺点以及应用领域。今天要带大家一起探索一个强大的图像分割工具——Mask2Former。作为一名技术博主，我的目标是让复杂的概念变得简单易懂，即使你是刚入门的小白，也能通过这篇文章学会使用Mask2Former进行全景分割、实例分割和语义分割。我会用通俗的语言一步步讲解，还会
动态视觉SLAM的亿点点思考（含20项最新开源代码链接）[上篇] 3Ｄ视觉工坊 3D视觉从入门到精通人工智能
作者：泡椒味的口香糖|来源：3D视觉工坊添加微信：dddvisiona，备注：SLAM，拉你入群。文末附行业细分群。0.笔者个人体会动态环境下的视觉SLAM一直都是研究的重点和难点，但最近动态SLAM的paper越来越少，感觉主要原因是动态SLAM的框架已经固化，很难做出大的创新。现有的模板基本就是使用目标检测或者语义分割网络剔除动态特征点，然后用几何一致性做进一步的验证。笔者最近也在思考突破口，
人工智能训练师如何做图像数据标注，从情感分析和实体分析两个个场景分析小宝哥Code 人工智能训练师人工智能
在人工智能训练中，图像情感分析和图像实体分析是两个重要的应用场景。高质量的图像数据标注对于训练情感识别模型和目标检测/语义分割模型至关重要。本指南将详细介绍：情感分析标注（EmotionAnalysis）实体分析标注（EntityRecognition）自动化标注工具Python代码示例数据格式与存储标注数据质量评估1.情感分析（EmotionAnalysis）标注1.1情感分析简介图像情感分析（
景联文科技数据处理平台：支持高质量图像标注服务景联文科技人工智能科技计算机视觉
图像标注是计算机视觉领域中不可或缺的一环，它通过为图像添加标签来帮助机器学习算法理解图像内容。这一过程对于创建高质量的训练数据集至关重要，使得AI模型能够准确地识别和分类现实世界中的物体。常见的图像标注类型：边界框标注：这是最常用的标注方式之一，通常用于物体检测任务。通过绘制矩形框来确定图像中目标物体的位置，可以是二维或三维形式。分割标注：包括语义分割（同一类别的所有实例被视为整体）和实例分割（每
Python实战：解析labelme标注数据——如何将数据转换为COCO格式程序员杨弋 Python全栈工程师学习指南 python 开发语言
在计算机视觉中，标注数据是非常重要的，而Labelme是一个简单易用的自由标注工具，被广泛应用于图像语义分割、目标检测、实例分割等领域，然而标注数据并不总是以我们需要的格式存在，因此需要进行适当的转换，本文将详细介绍如何将Labelme标注数据转换为COCO格式。首先需要安装相关的Python库，包括labelme、numpy、matplotlib、pillow等，在安装完成后设置数据路径，并读取
计算机视觉四大任务模型汇总 Zero_one_ws 《神经网络与深度学习》理论计算机视觉人工智能深度学习图像分类图像目标检测目标分割关键点检测
计算机视觉中有四大核心任务：1-分类任务、2-目标检测任务、3-目标分割任务和4-关键点检测任务文章1：一文读懂计算机视觉4大任务文章2：图像的目标分割任务：语义分割和实例分割不同任务之间相关但不完全相同，因此不同的任务最好选择相应的模型，话不多说，看表：（注：表中github链接并不一定是模型的正式版本，只是本文用于展示模型的网络结构和应用）1-分类任务模型序号模型ipynb模型的github链
【语义分割专题文章】 BoostingIsm Segmentation python
本栏聚焦在语义分割的相关算法，专栏内文章的代码均已实现。一、数据篇【遥感】【道路】篇：【语义分割】【专题系列】一、MassachusettsRoadsDataset马萨诸塞州道路数据集获取二、CNN篇Unet(2015)：【语义分割】【专题系列】二、Unet语义分割代码实战PSPNet(2017)：【语义分割】【专题系列】三、PSPNet语义分割代码实战Linknet(2017)FPN(Featu
深度学习语义分割实战：ResNet 与 ViT 结合的模型解析高山仰星深度学习
1.引言语义分割是计算机视觉中的重要任务，其目标是将输入图像中的每个像素分类到特定的类别。本项目结合了ResNet（ResidualNetwork）和ViT（VisionTransformer），构建了高性能的语义分割模型。本文将详细解析该模型的架构、训练流程及其应用。2.语义分割模型解析本项目采用ResNet和ViT结合的方式进行语义分割，并使用CBAM注意力机制增强特征提取能力。涉及的核心文件
python工具方法 19 语义分割结果转labelme标注（可用于大图裁剪）万里鹏程转瞬至 python工具方法 labelme 语义分割 opencv png转labelme标注
将语义分割结果进行转换为labelme标注后，可用再次进行调整，然后重新生成标注数据。此外，对于一些实例分割的coco数据，也可以将img和mask裁剪成小图后，重新利用这份代码重新生成标签绘图，然后再转coco数据。语义分割结果转labelme标注，本质上是利用opencv的多边形拟合功能，在进行拟合时发现对于中空图形的孔洞区域会拟合出背景区域的多边形，因此需要对背景区域进行计算区分，此代码生成
使用U-Net处理Postdam数据集进行语义分割任务如何从准备数据到训练和评估一个基于U-Net的模型。训练使用遥感影像分析研究语义分割数据集计算机C9硕士_算法工程师语义分割 unet
使用U-Net处理Postdam数据集进行语义分割任务如何从准备数据到训练和评估一个基于U-Net的模型。训练使用遥感影像分析研究数据集文章目录1.安装依赖2.数据准备创建自定义的数据加载器3.模型定义4.训练模型5.可视化预测结果Postdam数据集遥感影像-语义分割数据集：Postdam数据集像素大小512＊512训练图片为.tif标签图片为.tif数据集(train3678张val920张)
MobileNetV2: Inverted Residuals and Linear Bottlenecks TAICHIFEI Paper 人工智能计算机视觉
Link：https://arxiv.org/abs/1801.04381这篇文章是一篇关于MobileNetV2的学术论文，主要介绍了MobileNetV2的架构设计及其在图像分类、目标检测和语义分割任务中的应用。以下是对这些核心内容的简要概述：MobileNetV2架构设计：提出了一种新的神经网络模块——倒残差结构（InvertedResiduals），其中的快捷连接位于瓶颈层之间。使用轻量级
基于深度学习的物体分割技术：从理论到实践人工智能_SYBH 深度学习人工智能神经网络机器学习 lstm
1.引言物体分割（ObjectSegmentation）是计算机视觉中的一项核心任务，其目标是将图像中的不同物体或区域分离出来，通常分为语义分割和实例分割两种类型。随着深度学习的迅猛发展，尤其是卷积神经网络（CNN）的应用，物体分割技术已取得了显著的进展。它被广泛应用于医学影像分析、自动驾驶、视频监控、机器人感知等领域。在本篇博客中，我们将深入探讨基于深度学习的物体分割技术，介绍其发展历程、核心原
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class