女王の专属领地

AI_综述----图像分割综述

综述调研ppt：

http://syzhang.me/post/surveysegmentation/

CNN图像语义分割基本上是这个套路：

下采样+上采样：Convlution + Deconvlution／Resize
多尺度特征融合：特征逐点相加／特征channel维度拼接
获得像素级别的segement map：对每一个像素点进行判断类别

即使是更复杂的DeepLab v3+依然也是这个基本套路。

图13 DeepLab v3+

Image Segmentation（图像分割）网络结构比较

网络	父辈	生辰	增加的结构	丢弃的结构	优势	劣势
VGG16	FCN的灵感来源
FCN	VGG16	2014	一个Deconv层(从无到有)	所有fc层	简单	粗糙
DeconvNet	FCN	2015	Unpooling层（从无到有）、多个Deconv层（层数增加）、fc层（从无到有）
SegNet	DeconvNet	2016	每个max_pooling的max索引	所有fc层
DeepLab	FCN
PSPNet
Mask-RCNN		2017			真正做到像素级

Image Segmentation（图像分割）族谱

FCN

DeepLab
DeconvNet
- SegNet
PSPNet
Mask-RCNN

按分割目的划分

普通分割

将不同分属不同物体的像素区域分开。
如前景与后景分割开，狗的区域与猫的区域与背景分割开。
语义分割

在普通分割的基础上，分类出每一块区域的语义（即这块区域是什么物体）。
如把画面中的所有物体都指出它们各自的类别。
实例分割

在语义分割的基础上，给每个物体编号。
如这个是该画面中的狗A，那个是画面中的狗B。

论文推荐：

图像的语义分割（Semantic Segmentation）是计算机视觉中非常重要的任务。它的目标是为图像中的每个像素分类。如果能够快速准去地做图像分割，很多问题将会迎刃而解。因此，它的应用领域就包括但不限于：自动驾驶、图像美化、三维重建等等。

语义分割是一个非常困难的问题，尤其是在深度学习之前。深度学习使得图像分割的准确率提高了很多，下面我们就总结一下近年来最具有代表性的方法和论文。

Fully Convolutional Networks (FCN)

我们介绍的第一篇论文是Fully Convolutional Networks for Semantic Segmentation，简称FCN。这篇论文是第一篇成功使用深度学习做图像语义分割的论文。论文的主要贡献有两点：

提出了全卷积网络。将全连接网络替换成了卷积网络，使得网络可以接受任意大小的图片，并输出和原图一样大小的分割图。只有这样，才能为每个像素做分类。
使用了反卷积层（Deconvolution）。分类神经网络的特征图一般只有原图的几分之一大小。想要映射回原图大小必须对特征图进行上采样，这就是反卷积层的作用。虽然名字叫反卷积层，但其实它并不是卷积的逆操作，更合适的名字叫做转置卷积（Transposed Convolution），作用是从小的特征图卷出大的特征图。

这是神经网络做语义分割的开山之作，需彻底理解。

DeepLab

DeepLab有v1 v2 v3，第一篇名字叫做DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs。这一系列论文引入了以下几点比较重要的方法：

第一个是带洞卷积，英文名叫做Dilated Convolution，或者Atrous Convolution。带洞卷积实际上就是普通的卷积核中间插入了几个洞，如下图。

它的运算量跟普通卷积保持一样，好处是它的“视野更大了”，比如普通3x3卷积的结果的视野是3x3，插入一个洞之后的视野是5x5。视野变大的作用是，在特征图缩小到同样倍数的情况下可以掌握更多图像的全局信息，这在语义分割中很重要。

Pyramid Scene Parsing Network

Pyramid Scene Parsing Network的核心贡献是Global Pyramid Pooling，翻译成中文叫做全局金字塔池化。它将特征图缩放到几个不同的尺寸，使得特征具有更好地全局和多尺度信息，这一点在准确率提升上上非常有用。

其实不光是语义分割，金字塔多尺度特征对于各类视觉问题都是挺有用的。

Mask R-CNN

Mask R-CNN是大神何凯明的力作，将Object Detection与Semantic Segmentation合在了一起做。它的贡献主要是以下几点。

第一，神经网络有了多个分支输出。Mask R-CNN使用类似Faster R-CNN的框架，Faster R-CNN的输出是物体的bounding box和类别，而Mask R-CNN则多了一个分支，用来预测物体的语义分割图。也就是说神经网络同时学习两项任务，可以互相促进。

第二，在语义分割中使用Binary Mask。原来的语义分割预测类别需要使用0 1 2 3 4等数字代表各个类别。在Mask R-CNN中，检测分支会预测类别。这时候分割只需要用0 1预测这个物体的形状面具就行了。

第三，Mask R-CNN提出了RoiAlign用来替换Faster R-CNN中的RoiPooling。RoiPooling的思想是将输入图像中任意一块区域对应到神经网络特征图中的对应区域。RoiPooling使用了化整的近似来寻找对应区域，导致对应关系与实际情况有偏移。这个偏移在分类任务中可以容忍，但对于精细度更高的分割则影响较大。

为了解决这个问题，RoiAlign不再使用化整操作，而是使用线性插值来寻找更精准的对应区域。效果就是可以得到更好地对应。实验也证明了效果不错。下面展示了与之前方法的对比，下面的图是Mask R-CNN，可以看出精细了很多。

U-Net

U-Net原作者官网

U-Net是原作者参加ISBI Challenge提出的一种分割网络，能够适应很小的训练集（大约30张图）。U-Net与FCN都是很小的分割网络，既没有使用空洞卷积，也没有后接CRF，结构简单。

图9 U-Net网络结构图

整个U-Net网络结构如图9，类似于一个大大的U字母：首先进行Conv+Pooling下采样；然后Deconv反卷积进行上采样，crop之前的低层feature map，进行融合；然后再次上采样。重复这个过程，直到获得输出388x388x2的feature map，最后经过softmax获得output segment map。总体来说与FCN思路非常类似。

为何要提起U-Net？是因为U-Net采用了与FCN完全不同的特征融合方式：拼接！

图10 U-Net concat特征融合方式

与FCN逐点相加不同，U-Net采用将特征在channel维度拼接在一起，形成更“厚”的特征。所以：

语义分割网络在特征融合时也有2种办法：

FCN式的逐点相加，对应caffe的EltwiseLayer层，对应tensorflow的tf.add()
U-Net式的channel维度拼接融合，对应caffe的ConcatLayer层，对应tensorflow的tf.concat()

综述介绍

图像语义分割，简单而言就是给定一张图片，对图片上的每一个像素点分类

从图像上来看，就是我们需要将实际的场景图分割成下面的分割图：

不同颜色代表不同类别。经过阅读“大量”论文和查看PASCAL VOC Challenge performance evaluation server，发现图像语义分割从深度学习引入这个任务（FCN）到现在而言，一个通用的框架已经大概确定了。即：

FCN-全卷积网络
CRF-条件随机场
MRF-马尔科夫随机场

前端使用FCN进行特征粗提取，后端使用CRF/MRF优化前端的输出，最后得到分割图。

前端

为什么需要FCN？

我们分类使用的网络通常会在最后连接几层全连接层，它会将原来二维的矩阵（图片）压扁成一维的，从而丢失了空间信息，最后训练输出一个标量，这就是我们的分类标签。

而图像语义分割的输出需要是个分割图，且不论尺寸大小，但是至少是二维的。所以，我们需要丢弃全连接层，换上全卷积层，而这就是全卷积网络了。具体定义请参看论文：Fully Convolutional Networks for Semantic Segmentation

前端结构

FCN

此处的FCN特指Fully Convolutional Networks for Semantic Segmentation论文中提出的结构，而非广义的全卷积网络。

作者的FCN主要使用了三种技术：

卷积化（Convolutional）
上采样（Upsample）
跳跃结构（Skip Layer）

卷积化

卷积化即是将普通的分类网络，比如VGG16，ResNet50/101等网络丢弃全连接层，换上对应的卷积层即可。

上采样

此处的上采样即是反卷积（Deconvolution）。当然关于这个名字不同框架不同，Caffe和Kera里叫Deconvolution，而tensorflow里叫conv_transpose。CS231n这门课中说，叫conv_transpose更为合适。

众所诸知，普通的池化（为什么这儿是普通的池化请看后文）会缩小图片的尺寸，比如VGG16 五次池化后图片被缩小了32倍。为了得到和原图等大的分割图，我们需要上采样/反卷积。

反卷积和卷积类似，都是相乘相加的运算。只不过后者是多对一，前者是一对多。而反卷积的前向和后向传播，只用颠倒卷积的前后向传播即可。所以无论优化还是后向传播算法都是没有问题。图解如下：

但是，虽然文中说是可学习的反卷积，但是作者实际代码并没有让它学习，可能正是因为这个一对多的逻辑关系。代码如下：

layer {
  name: "upscore"
  type: "Deconvolution"
  bottom: "score_fr"
  top: "upscore"
  param {
    lr_mult: 0
  }
  convolution_param {
    num_output: 21
    bias_term: false
    kernel_size: 64
    stride: 32
  }
}

可以看到lr_mult被设置为了0.

跳跃结构

（这个奇怪的名字是我翻译的，好像一般叫忽略连接结构）这个结构的作用就在于优化结果，因为如果将全卷积之后的结果直接上采样得到的结果是很粗糙的，所以作者将不同池化层的结果进行上采样之后来优化输出。具体结构如下：

而不同上采样结构得到的结果对比如下：

当然，你也可以将pool1， pool2的输出再上采样输出。不过，作者说了这样得到的结果提升并不大。

这是第一种结构，也是深度学习应用于图像语义分割的开山之作，所以得了CVPR2015的最佳论文。但是，还是有一些处理比较粗糙的地方，具体和后面对比就知道了。

SegNet/DeconvNet

这样的结构总结在这儿，只是我觉得结构上比较优雅，它得到的结果不一定比上一种好。

SegNet

DeconvNet

这样的对称结构有种自编码器的感觉在里面，先编码再解码。这样的结构主要使用了反卷积和上池化。即：

反卷积如上。而上池化的实现主要在于池化时记住输出值的位置，在上池化时再将这个值填回原来的位置，其他位置填0即OK。

DeepLab

接下来介绍一个很成熟优雅的结构，以至于现在的很多改进是基于这个网络结构的进行的。

首先这里我们将指出一个第一个结构FCN的粗糙之处：为了保证之后输出的尺寸不至于太小，FCN的作者在第一层直接对原图加了100的padding，可想而知，这会引入噪声。

而怎样才能保证输出的尺寸不会太小而又不会产生加100 padding这样的做法呢？可能有人会说减少池化层不就行了，这样理论上是可以的，但是这样直接就改变了原先可用的结构了，而且最重要的一点是就不能用以前的结构参数进行fine-tune了。所以，Deeplab这里使用了一个非常优雅的做法：将pooling的stride改为1，再加上 1 padding。这样池化后的图片尺寸并未减小，并且依然保留了池化整合特征的特性。

但是，事情还没完。因为池化层变了，后面的卷积的感受野也对应的改变了，这样也不能进行fine-tune了。所以，Deeplab提出了一种新的卷积，带孔的卷积：Atrous Convolution.即：

而具体的感受野变化如下：

a为普通的池化的结果，b为“优雅”池化的结果。我们设想在a上进行卷积核尺寸为3的普通卷积，则对应的感受野大小为7.而在b上进行同样的操作，对应的感受野变为了5.感受野减小了。但是如果使用hole为1的Atrous Convolution则感受野依然为7.

所以，Atrous Convolution能够保证这样的池化后的感受野不变，从而可以fine tune，同时也能保证输出的结果更加精细。即：

总结

这里介绍了三种结构：FCN, SegNet/DeconvNet，DeepLab。当然还有一些其他的结构方法，比如有用RNN来做的，还有更有实际意义的weakly-supervised方法等等。

后端

终于到后端了，后端这里会讲几个场，涉及到一些数学的东西。我的理解也不是特别深刻，所以欢迎吐槽。

全连接条件随机场(DenseCRF)

对于每个像素具有类别标签还有对应的观测值，这样每个像素点作为节点，像素与像素间的关系作为边，即构成了一个条件随机场。而且我们通过观测变量来推测像素对应的类别标签。条件随机场如下：

条件随机场符合吉布斯分布：(此处的即上面说的观测值)

其中的是能量函数，为了简便，以下省略全局观测：

其中的一元势函数即来自于前端FCN的输出。而二元势函数如下：

二元势函数就是描述像素点与像素点之间的关系，鼓励相似像素分配相同的标签，而相差较大的像素分配不同标签，而这个“距离”的定义与颜色值和实际相对距离有关。所以这样CRF能够使图片尽量在边界处分割。

而全连接条件随机场的不同就在于，二元势函数描述的是每一个像素与其他所有像素的关系，所以叫“全连接”。

关于这一堆公式大家随意理解一下吧... ...而直接计算这些公式是比较麻烦的（我想也麻烦），所以一般会使用平均场近似方法进行计算。而平均场近似又是一堆公式，这里我就不给出了（我想大家也不太愿意看），愿意了解的同学直接看论文吧。

CRFasRNN

最开始使用DenseCRF是直接加在FCN的输出后面，可想这样是比较粗糙的。而且在深度学习中，我们都追求end-to-end的系统，所以CRFasRNN这篇文章将DenseCRF真正结合进了FCN中。

这篇文章也使用了平均场近似的方法，因为分解的每一步都是一些相乘相加的计算，和普通的加减（具体公式还是看论文吧），所以可以方便的把每一步描述成一层类似卷积的计算。这样即可结合进神经网络中，并且前后向传播也不存在问题。

当然，这里作者还将它进行了迭代，不同次数的迭代得到的结果优化程度也不同（一般取10以内的迭代次数），所以文章才说是as RNN。优化结果如下：

马尔科夫随机场(MRF)

在Deep Parsing Network中使用的是MRF，它的公式具体的定义和CRF类似，只不过作者对二元势函数进行了修改：

其中，作者加入的为label context，因为只是定义了两个像素同时出现的频率，而可以对一些情况进行惩罚，比如，人可能在桌子旁边，但是在桌子下面的可能性就更小一些。所以这个量可以学习不同情况出现的概率。而原来的距离只定义了两个像素间的关系，作者在这儿加入了个triple penalty，即还引入了附近的，这样描述三方关系便于得到更充足的局部上下文。具体结构如下：

这个结构的优点在于：

将平均场构造成了CNN
联合训练并且可以one-pass inference，而不用迭代

高斯条件随机场(G-CRF)

这个结构使用CNN分别来学习一元势函数和二元势函数。这样的结构是我们更喜欢的：

而此中的能量函数又不同于之前：

而当是对称正定时，求的最小值等于求解：

而G-CRF的优点在于：

二次能量有明确全局
解线性简便很多

感悟

FCN更像一种技巧。随着基本网络（如VGG， ResNet）性能的提升而不断进步。
深度学习+概率图模型（PGM）是一种趋势。其实DL说白了就是进行特征提取，而PGM能够从数学理论很好的解释事物本质间的联系。
概率图模型的网络化。因为PGM通常不太方便加入DL的模型中，将PGM网络化后能够是PGM参数自学习，同时构成end-to-end的系统。

完结撒花

引用

[1]Fully Convolutional Networks for Semantic Segmentation

[2]Learning Deconvolution Network for Semantic Segmentation

[3]Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials

[4]Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs

[5]Conditional Random Fields as Recurrent Neural Networks

[6]DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs

[7]Semantic Image Segmentation via Deep Parsing Network

[8]Fast, Exact and Multi-Scale Inference for Semantic Image Segmentation with Deep Gaussian CRFs

[9]SegNet

图像分割（Image Segmentation) 重大资源：

入门学习

A 2017 Guide to Semantic Segmentation with Deep Learning 概述——用深度学习做语义分割
- [http://blog.qure.ai/notes/semantic-segmentation-deep-learning-review]
- 中文翻译：[http://simonduan.site/2017/07/23/notes-semantic-segmentation-deep-learning-review/]
从全卷积网络到大型卷积核：深度学习的语义分割全指南
- [https://www.jiqizhixin.com/articles/2017-07-14-10]
Fully Convolutional Networks
- [http://simtalk.cn/2016/11/01/Fully-Convolutional-Networks/]
语义分割中的深度学习方法全解：从FCN、SegNet到各代DeepLab
- [https://zhuanlan.zhihu.com/p/27794982]
图像语义分割之FCN和CRF
- [https://zhuanlan.zhihu.com/p/22308032]
从特斯拉到计算机视觉之「图像语义分割」
- [http://www.52cs.org/?p=1089]
计算机视觉之语义分割
- [http://blog.geohey.com/ji-suan-ji-shi-jue-zhi-yu-yi-fen-ge/]
Segmentation Results: VOC2012 PASCAL语义分割比赛排名
- [http://host.robots.ox.ac.uk:8080/leaderboard/displaylb.php?challengeid=11&compid=6]

进阶论文

U-Net [https://arxiv.org/pdf/1505.04597.pdf]
SegNet [https://arxiv.org/pdf/1511.00561.pdf]
DeepLab [https://arxiv.org/pdf/1606.00915.pdf]
FCN [https://arxiv.org/pdf/1605.06211.pdf]
ENet [https://arxiv.org/pdf/1606.02147.pdf]
LinkNet [https://arxiv.org/pdf/1707.03718.pdf]
DenseNet [https://arxiv.org/pdf/1608.06993.pdf]
Tiramisu [https://arxiv.org/pdf/1611.09326.pdf]
DilatedNet [https://arxiv.org/pdf/1511.07122.pdf]
PixelNet [https://arxiv.org/pdf/1609.06694.pdf]
ICNet [https://arxiv.org/pdf/1704.08545.pdf]
ERFNet [http://www.robesafe.uah.es/personal/eduardo.romera/pdfs/Romera17iv.pdf]
RefineNet [https://arxiv.org/pdf/1611.06612.pdf]
PSPNet [https://arxiv.org/pdf/1612.01105.pdf]
CRFasRNN [http://www.robots.ox.ac.uk/%7Eszheng/papers/CRFasRNN.pdf]
Dilated convolution [https://arxiv.org/pdf/1511.07122.pdf]
DeconvNet [https://arxiv.org/pdf/1505.04366.pdf]
FRRN [https://arxiv.org/pdf/1611.08323.pdf]
GCN [https://arxiv.org/pdf/1703.02719.pdf]
DUC, HDC [https://arxiv.org/pdf/1702.08502.pdf]
Segaware [https://arxiv.org/pdf/1708.04607.pdf]
Semantic Segmentation using Adversarial Networks [https://arxiv.org/pdf/1611.08408.pdf]

综述

A Review on Deep Learning Techniques Applied to Semantic Segmentation Alberto Garcia-Garcia, Sergio Orts-Escolano, Sergiu Oprea, Victor Villena-Martinez, Jose Garcia-Rodriguez 2017
- [https://arxiv.org/abs/1704.06857]
Computer Vision for Autonomous Vehicles: Problems, Datasets and State-of-the-Art
- [https://arxiv.org/abs/1704.05519]
基于内容的图像分割方法综述姜枫顾庆郝慧珍李娜郭延文陈道蓄 2017
- [http://www.jos.org.cn/ch/reader/create_pdf.aspx?file_no=5136&journal_id=jos\]

Tutorial

Semantic Image Segmentation with Deep Learning
- [http://www.robots.ox.ac.uk/~sadeep/files/crfasrnn_presentation.pdf\]
A 2017 Guide to Semantic Segmentation with Deep Learning
- [http://blog.qure.ai/notes/semantic-segmentation-deep-learning-review]
Image Segmentation with Tensorflow using CNNs and Conditional Random Fields
- [http://warmspringwinds.github.io/tensorflow/tf-slim/2016/12/18/image-segmentation-with-tensorflow-using-cnns-and-conditional-random-fields/]

视频教程

CS231n: Convolutional Neural Networks for Visual Recognition Lecture 11 Detection and Segmentation
- [http://cs231n.stanford.edu/syllabus.html]
Machine Learning for Semantic Segmentation - Basics of Modern Image Analysis
- [https://www.youtube.com/watch?v=psLChcm8aiU]

代码

Semantic segmentation

U-Net (https://arxiv.org/pdf/1505.04597.pdf)
- https://lmb.informatik.uni-freiburg.de/people/ronneber/u-net/ (Caffe - Matlab)
- https://github.com/jocicmarko/ultrasound-nerve-segmentation (Keras)
- https://github.com/EdwardTyantov/ultrasound-nerve-segmentation(Keras)
- https://github.com/ZFTurbo/ZF_UNET_224_Pretrained_Model (Keras)
- https://github.com/yihui-he/u-net (Keras)
- https://github.com/jakeret/tf_unet (Tensorflow)
- https://github.com/DLTK/DLTK/blob/master/examples/Toy_segmentation/simple_dltk_unet.ipynb (Tensorflow)
- https://github.com/divamgupta/image-segmentation-keras (Keras)
- https://github.com/ZijunDeng/pytorch-semantic-segmentation (PyTorch)
- https://github.com/akirasosa/mobile-semantic-segmentation (Keras)
- https://github.com/orobix/retina-unet (Keras)
SegNet (https://arxiv.org/pdf/1511.00561.pdf)
- https://github.com/alexgkendall/caffe-segnet (Caffe)
- https://github.com/developmentseed/caffe/tree/segnet-multi-gpu (Caffe)
- https://github.com/preddy5/segnet (Keras)
- https://github.com/imlab-uiip/keras-segnet (Keras)
- https://github.com/andreaazzini/segnet (Tensorflow)
- https://github.com/fedor-chervinskii/segnet-torch (Torch)
- https://github.com/0bserver07/Keras-SegNet-Basic (Keras)
- https://github.com/tkuanlun350/Tensorflow-SegNet (Tensorflow)
- https://github.com/divamgupta/image-segmentation-keras (Keras)
- https://github.com/ZijunDeng/pytorch-semantic-segmentation (PyTorch)
- https://github.com/chainer/chainercv/tree/master/examples/segnet(Chainer)
- https://github.com/ykamikawa/keras-SegNet (Keras)
DeepLab (https://arxiv.org/pdf/1606.00915.pdf)
- https://bitbucket.org/deeplab/deeplab-public/ (Caffe)
- https://github.com/cdmh/deeplab-public (Caffe)
- https://bitbucket.org/aquariusjay/deeplab-public-ver2 (Caffe)
- https://github.com/TheLegendAli/DeepLab-Context (Caffe)
- https://github.com/msracver/Deformable-ConvNets/tree/master/deeplab(MXNet)
- https://github.com/DrSleep/tensorflow-deeplab-resnet (Tensorflow)
- https://github.com/muyang0320/tensorflow-deeplab-resnet-crf(TensorFlow)
- https://github.com/isht7/pytorch-deeplab-resnet (PyTorch)
- https://github.com/bermanmaxim/jaccardSegment (PyTorch)
- https://github.com/martinkersner/train-DeepLab (Caffe)
- https://github.com/chenxi116/TF-deeplab (Tensorflow)
FCN (https://arxiv.org/pdf/1605.06211.pdf)
- https://github.com/vlfeat/matconvnet-fcn (MatConvNet)
- https://github.com/shelhamer/fcn.berkeleyvision.org (Caffe)
- https://github.com/MarvinTeichmann/tensorflow-fcn (Tensorflow)
- https://github.com/aurora95/Keras-FCN (Keras)
- https://github.com/mzaradzki/neuralnets/tree/master/vgg_segmentation_keras (Keras)
- https://github.com/k3nt0w/FCN_via_keras (Keras)
- https://github.com/shekkizh/FCN.tensorflow (Tensorflow)
- https://github.com/seewalker/tf-pixelwise (Tensorflow)
- https://github.com/divamgupta/image-segmentation-keras (Keras)
- https://github.com/ZijunDeng/pytorch-semantic-segmentation (PyTorch)
- https://github.com/wkentaro/pytorch-fcn (PyTorch)
- https://github.com/wkentaro/fcn (Chainer)
- https://github.com/apache/incubator-mxnet/tree/master/example/fcn-xs(MxNet)
- https://github.com/muyang0320/tf-fcn (Tensorflow)
- https://github.com/ycszen/pytorch-seg (PyTorch)
- https://github.com/Kaixhin/FCN-semantic-segmentation (PyTorch)
ENet (https://arxiv.org/pdf/1606.02147.pdf)
- https://github.com/TimoSaemann/ENet (Caffe)
- https://github.com/e-lab/ENet-training (Torch)
- https://github.com/PavlosMelissinos/enet-keras (Keras)
LinkNet (https://arxiv.org/pdf/1707.03718.pdf)
- https://github.com/e-lab/LinkNet (Torch)
DenseNet (https://arxiv.org/pdf/1608.06993.pdf)
- https://github.com/flyyufelix/DenseNet-Keras (Keras)
Tiramisu (https://arxiv.org/pdf/1611.09326.pdf)
- https://github.com/0bserver07/One-Hundred-Layers-Tiramisu (Keras)
- https://github.com/SimJeg/FC-DenseNet (Lasagne)
DilatedNet (https://arxiv.org/pdf/1511.07122.pdf)
- https://github.com/nicolov/segmentation_keras (Keras)
PixelNet (https://arxiv.org/pdf/1609.06694.pdf)
- https://github.com/aayushbansal/PixelNet (Caffe)
ICNet (https://arxiv.org/pdf/1704.08545.pdf)
- https://github.com/hszhao/ICNet (Caffe)
ERFNet (http://www.robesafe.uah.es/personal/eduardo.romera/pdfs/Romera17iv.pdf)
- https://github.com/Eromera/erfnet (Torch)
RefineNet (https://arxiv.org/pdf/1611.06612.pdf)
- https://github.com/guosheng/refinenet (MatConvNet)
PSPNet (https://arxiv.org/pdf/1612.01105.pdf)
- https://github.com/hszhao/PSPNet (Caffe)
- https://github.com/ZijunDeng/pytorch-semantic-segmentation (PyTorch)
- https://github.com/mitmul/chainer-pspnet (Chainer)
- https://github.com/Vladkryvoruchko/PSPNet-Keras-tensorflow(Keras/Tensorflow)
- https://github.com/pudae/tensorflow-pspnet (Tensorflow)
CRFasRNN (http://www.robots.ox.ac.uk/%7Eszheng/papers/CRFasRNN.pdf)
- https://github.com/torrvision/crfasrnn (Caffe)
- https://github.com/sadeepj/crfasrnn_keras (Keras)
Dilated convolution (https://arxiv.org/pdf/1511.07122.pdf)
- https://github.com/fyu/dilation (Caffe)
- https://github.com/fyu/drn#semantic-image-segmentataion (PyTorch)
- https://github.com/hangzhaomit/semantic-segmentation-pytorch (PyTorch)
DeconvNet (https://arxiv.org/pdf/1505.04366.pdf)
- http://cvlab.postech.ac.kr/research/deconvnet/ (Caffe)
- https://github.com/HyeonwooNoh/DeconvNet (Caffe)
- https://github.com/fabianbormann/Tensorflow-DeconvNet-Segmentation(Tensorflow)
FRRN (https://arxiv.org/pdf/1611.08323.pdf)
- https://github.com/TobyPDE/FRRN (Lasagne)
GCN (https://arxiv.org/pdf/1703.02719.pdf)
- https://github.com/ZijunDeng/pytorch-semantic-segmentation (PyTorch)
- https://github.com/ycszen/pytorch-seg (PyTorch)
DUC, HDC (https://arxiv.org/pdf/1702.08502.pdf)
- https://github.com/ZijunDeng/pytorch-semantic-segmentation (PyTorch)
- https://github.com/ycszen/pytorch-seg (PyTorch)
Segaware (https://arxiv.org/pdf/1708.04607.pdf)
- https://github.com/aharley/segaware (Caffe)
Semantic Segmentation using Adversarial Networks (https://arxiv.org/pdf/1611.08408.pdf)
- https://github.com/oyam/Semantic-Segmentation-using-Adversarial-Networks (Chainer)

Instance aware segmentation

FCIS [https://arxiv.org/pdf/1611.07709.pdf]
- https://github.com/msracver/FCIS [MxNet]
MNC [https://arxiv.org/pdf/1512.04412.pdf]
- https://github.com/daijifeng001/MNC [Caffe]
DeepMask [https://arxiv.org/pdf/1506.06204.pdf]
- https://github.com/facebookresearch/deepmask [Torch]
SharpMask [https://arxiv.org/pdf/1603.08695.pdf]
- https://github.com/facebookresearch/deepmask [Torch]
Mask-RCNN [https://arxiv.org/pdf/1703.06870.pdf]
- https://github.com/CharlesShang/FastMaskRCNN [Tensorflow]
  1. https://github.com/jasjeetIM/Mask-RCNN [Caffe]
- https://github.com/TuSimple/mx-maskrcnn [MxNet]
- https://github.com/matterport/Mask_RCNN [Keras]
RIS [https://arxiv.org/pdf/1511.08250.pdf]
- https://github.com/bernard24/RIS [Torch]
FastMask [https://arxiv.org/pdf/1612.08843.pdf]
- https://github.com/voidrank/FastMask [Caffe]

Satellite images segmentation

https://github.com/mshivaprakash/sat-seg-thesis
https://github.com/KGPML/Hyperspectral
https://github.com/lopuhin/kaggle-dstl
https://github.com/mitmul/ssai
https://github.com/mitmul/ssai-cnn
https://github.com/azavea/raster-vision
https://github.com/nshaud/DeepNetsForEO
https://github.com/trailbehind/DeepOSM

Video segmentation

https://github.com/shelhamer/clockwork-fcn
https://github.com/JingchunCheng/Seg-with-SPN

Autonomous driving

https://github.com/MarvinTeichmann/MultiNet
https://github.com/MarvinTeichmann/KittiSeg
https://github.com/vxy10/p5_VehicleDetection_Unet [Keras]
https://github.com/ndrplz/self-driving-car
https://github.com/mvirgo/MLND-Capstone

Annotation Tools:

https://github.com/AKSHAYUBHAT/ImageSegmentation
https://github.com/kyamagu/js-segment-annotator
https://github.com/CSAILVision/LabelMeAnnotationTool
https://github.com/seanbell/opensurfaces-segmentation-ui
https://github.com/lzx1413/labelImgPlus
https://github.com/wkentaro/labelme

Datasets

Stanford Background Dataset[http://dags.stanford.edu/projects/scenedataset.html]
1. Sift Flow Dataset[http://people.csail.mit.edu/celiu/SIFTflow/]
2. Barcelona Dataset[http://www.cs.unc.edu/~jtighe/Papers/ECCV10/]
3. Microsoft COCO dataset[http://mscoco.org/]
4. MSRC Dataset[http://research.microsoft.com/en-us/projects/objectclassrecognition/]
5. LITS Liver Tumor Segmentation Dataset[https://competitions.codalab.org/competitions/15595]
6. KITTI[http://www.cvlibs.net/datasets/kitti/eval_road.php]
7. Stanford background dataset[http://dags.stanford.edu/projects/scenedataset.html]
8. Data from Games dataset[https://download.visinf.tu-darmstadt.de/data/from_games/]
9. Human parsing dataset[https://github.com/lemondan/HumanParsing-Dataset]
10. Silenko person database[https://github.com/Maxfashko/CamVid]
11. Mapillary Vistas Dataset[https://www.mapillary.com/dataset/vistas]
12. Microsoft AirSim[https://github.com/Microsoft/AirSim]
13. MIT Scene Parsing Benchmark[http://sceneparsing.csail.mit.edu/]
14. COCO 2017 Stuff Segmentation Challenge[http://cocodataset.org/#stuff-challenge2017]
15. ADE20K Dataset[http://groups.csail.mit.edu/vision/datasets/ADE20K/]
16. INRIA Annotations for Graz-02[http://lear.inrialpes.fr/people/marszalek/data/ig02/]

比赛

MSRC-21 [http://rodrigob.github.io/are_we_there_yet/build/semantic_labeling_datasets_results.html]
Cityscapes [https://www.cityscapes-dataset.com/benchmarks/]
VOC2012 [http://host.robots.ox.ac.uk:8080/leaderboard/displaylb.php?challengeid=11&compid=6]

领域专家

Jonathan Long
- [http://people.eecs.berkeley.edu/~jonlong/\]
Liang-Chieh Chen
- [http://liangchiehchen.com/]
Hyeonwoo Noh
- [http://cvlab.postech.ac.kr/~hyeonwoonoh/\]
Bharath Hariharan
- [http://home.bharathh.info/]
Fisher Yu
- [http://www.yf.io/]
Vijay Badrinarayanan
- [https://sites.google.com/site/vijaybacademichomepage/home/papers]
Guosheng Lin
- [https://sites.google.com/site/guoshenglin/]

你可能感兴趣的:(计算机视觉与图像处理,深度学习,计算机视觉和数字图像处理)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
深度学习-13-小语言模型之SmolLM的使用皮皮冰燃深度学习深度学习
文章附录1SmolLM概述1.1SmolLM简介1.2下载模型2运行2.1在CPU/GPU/多GPU上运行模型2.2使用torch.bfloat162.3通过位和字节的量化版本3应用示例4问题及解决4.1attention_mask和pad_token_id报错4.2max_new_tokens=205参考附录1SmolLM概述1.1SmolLM简介SmolLM是一系列尖端小型语言模型，提供三种规
基于深度学习的农作物病害检测 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的农作物病害检测利用卷积神经网络（CNN）、生成对抗网络（GAN）、Transformer等深度学习技术，自动识别和分类农作物的病害，帮助农业工作者提高作物管理效率、减少损失。1.农作物病害检测的挑战病害种类繁多：农作物病害的类型多样，不同病害在同一作物上的表现差异很大，同时同一种病害在不同生长阶段的症状也可能不同。环境影响：天气、光照、湿度等外部环境因素会影响农作物的表现，使得病害检
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
深度学习--对抗生成网络（GAN, Generative Adversarial Network） Ambition_LAO 深度学习生成对抗网络
对抗生成网络（GAN,GenerativeAdversarialNetwork）是一种深度学习模型，由IanGoodfellow等人在2014年提出。GAN主要用于生成数据，通过两个神经网络相互对抗，来生成以假乱真的新数据。以下是对GAN的详细阐述，包括其概念、作用、核心要点、实现过程、代码实现和适用场景。1.概念GAN由两个神经网络组成：生成器（Generator）和判别器（Discrimina
深度学习：怎么看pth文件的参数奥利给少年深度学习人工智能
.pth文件是PyTorch模型的权重文件，它通常包含了训练好的模型的参数。要查看或使用这个文件，你可以按照以下步骤操作：1.确保你有模型的定义你需要有创建这个.pth文件时所用的模型的代码。这意味着你需要有模型的类定义和架构。2.加载模型权重使用PyTorch的load_state_dict方法来加载权重。这里是如何操作的：importtorchimporttorch.nnasnn#定义模型结构
chatgpt赋能python：如何在Python中安装Keras库？ turensu ChatGpt python chatgpt keras 计算机
如何在Python中安装Keras库？Keras是一个简单易用的神经网络库，由FrançoisChollet编写。它在Python编程语言中实现了深度学习的功能，可以使您更轻松地构建和试验不同类型的神经网络。如果您是一名Python开发人员，肯定会想知道如何在您的Python项目中安装Keras库。在本文中，我们将向您展示如何安装和配置Keras库。步骤1：安装Python要使用Keras库，您需
如何理解深度学习的训练过程奋斗的草莓熊深度学习人工智能 python scikit-learn virtualenv numpy pandas
文章目录1.训练是干什么？2.预训练模型进行训练，主要更改的是预训练模型的什么东西？1.训练是干什么？以yolov5为例子，训练的目的是把一组输入猫狗图像放到神经网络中，得到一个输出模型，这个模型下次可以直接用来识别哪个是猫，哪个是狗2.预训练模型进行训练，主要更改的是预训练模型的什么东西？超参数（Hyperparameters）：这是模型结构中定义的参数，比如：卷积核大小（kernel_size
Keras深度学习框架入门及实战指南司莹嫣Maude
Keras深度学习框架入门及实战指南keraskeras-team/keras:是一个基于Python的深度学习库，它没有使用数据库。适合用于深度学习任务的开发和实现，特别是对于需要使用Python深度学习库的场景。特点是深度学习库、Python、无数据库。项目地址:https://gitcode.com/gh_mirrors/ke/keras一、项目介绍Keras简介Keras是一款高级神经网络
深度学习驱动的车牌识别：技术演进与未来挑战逼子歌深度学习车牌识别神经网络字符识别 YOLO 卷积神经网络
一、引言1.1研究背景在当今社会，智能交通系统的发展日益重要，而车牌识别作为其关键组成部分，发挥着至关重要的作用。车牌识别技术广泛应用于交通管理、停车场管理、安防监控等领域。在交通管理中，它可以用于车辆识别、交通违法监控和车流统计等，提高交通管理的效率和准确性。在停车场管理中，实现车辆的自动识别和收费，提升管理和服务水平。在安防监控领域，可用于追踪嫌疑人及犯罪行为。深度学习的出现为车牌识别带来了重
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
什么是AIGC？有哪些免费工具？ chent_某位 AIGC
AIGC（AIGeneratedContent），即“人工智能生成内容”，是指通过人工智能技术自动生成各种类型的数字内容。AIGC让机器能够根据输入的信息或数据生成符合人类需求的文本、图像、音频、视频等内容，极大提高了内容创作的效率。AIGC的背景与起源随着深度学习和自然语言处理技术的快速发展，人工智能已经不再局限于简单的任务，如分类、预测和数据分析，而是具备了生成内容的能力。生成式AI模型，如O
transformer架构(Transformer Architecture)原理与代码实战案例讲解 AI架构设计之禅大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
transformer架构(TransformerArchitecture)原理与代码实战案例讲解关键词：Transformer,自注意力机制,编码器-解码器,预训练,微调,NLP,机器翻译作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来自然语言处理（NLP）领域的发展经历了从规则驱动到统计驱动再到深度学习驱动的三个阶段。
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程牙牙要健康深度学习 onnx onnxruntime 深度学习 python 人工智能
【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程提示:博主取舍了很多大佬的博文并亲测有效,分享笔记邀大家共同学习讨论文章目录【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程前言模型转换--pytorch转onnxWindows平台搭建依赖环境onnxruntime调用onnx模型ONNXRuntime推理核
基于深度学习的多模态信息检索 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的多模态信息检索（MultimodalInformationRetrieval,MMIR）是指利用深度学习技术，从包含多种模态（如文本、图像、视频、音频等）的数据集中检索出满足用户查询意图的相关信息。这种方法不仅可以处理单一模态的数据，还可以在多种模态之间建立关联，从而更准确地满足用户需求。1.多模态信息检索的挑战异构数据表示：多模态数据通常具有不同的特征和表示形式（如文本的词嵌入与图
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，

AI_综述----图像分割综述

综述调研ppt：

CNN图像语义分割基本上是这个套路：

Image Segmentation（图像分割）网络结构比较

Image Segmentation（图像分割）族谱

FCN

按分割目的划分

普通分割

语义分割

实例分割

论文推荐：

Fully Convolutional Networks (FCN)

DeepLab

Pyramid Scene Parsing Network

Mask R-CNN

U-Net

前端

为什么需要FCN？

前端结构

FCN

SegNet/DeconvNet

DeepLab

后端

感悟

引用

图像分割 （Image Segmentation) 重大资源：

入门学习

进阶论文

综述

Tutorial

视频教程

代码

Datasets

比赛

领域专家

你可能感兴趣的:(计算机视觉与图像处理,深度学习,计算机视觉和数字图像处理)

图像分割（Image Segmentation) 重大资源：