zxfhahaha

【论文阅读笔记】Multi-scale context aggregation by dilated convolutions

论文地址：https://arxiv.org/abs/1511.07122
代码地址：https://github.com/ndrplz/dilation-tensorflow
https://github.com/fyu/dilation 作者用caffe写的

introduction

motivation 动机

CNN的池化操作影响语义分割的精度

This prompts new questions motivated by the structural differences between image classiﬁcation and dense prediction. Which aspects of the repurposed networks are truly necessary and which reduce accuracy when operated densely? Can dedicated modules designed specifically for dense prediction improve accuracy further?
虽然FCN通过改进CNN使原本用于图像分类的CNN在语义分割任务上有了很好的表现，但是由于图像分类和密集预测还是有区别的。

Modern image classiﬁcation networks integrate multi-scale contextual information via successive pooling and subsampling layers that reduce resolution until a global prediction is obtained.
In contrast, dense prediction calls for multiscale contextual reasoning in combination with full-resolution output.
CNN的池化操作会减少resolution从而失去位置信息，这和语义分割的目标是冲突的。因为dense prediction 要求结合full-resolution全分辨率进行多尺度上下文推理。

前人针对池化操作影响精度这个问题提出的解决办法

通过反卷积操作恢复丢失的分辨率信息

针对这个问题，本文之前也提出了两种方法解决。
One approach involves repeated up-convolutions that aim to recover lost resolution while carrying over the global perspective from downsampled layers (Noh et al., 2015; Fischer et al., 2015).
主要思想就是为了恢复失去的分辨率加了up-convolutions。
《Learning deconvolution network for semantic segmentation.》和
《Learning optical ﬂow with convolutional neural net- works.》都用了这种思想。

《Learning deconvolution network for semantic segmentation.》

https://cloud.tencent.com/developer/article/1008415 具体学习到时候看这篇笔记

This leaves open the question of whether severe intermediate downsampling was truly necessary。
这就引出一个疑问，中间下采样的操作是否是真的有必要的。

《Learning optical ﬂow with convolutional neural net- works.》

提供多尺寸的输入图片，并将这些图片的预测结果进行组合。

Another approach involves providing multiple rescaled versions of the image as input to the network and combining the predictions obtained for these multiple inputs。
主要思想是提供多尺寸的输入图片，并将这些图片的预测结果进行组合。
《 Learning hierarchical features for scene labeling.》、《Efﬁcient piecewise training of deep structured models for semantic segmentation.》和《Scale-aware semantic image segmentation.》都用到了这种思想。
Again, it is not clear whether separate analysis of rescaled input images is truly necessary.
同样，这里存在一个问题，对不同尺寸输入的图片，是否需要对他们的结果单独进行分析。
所以我们就想用专门用于dense prediction的dedicated modules进一步改善语义分割的精度。

contribution 贡献

In this work, we develop a convolutional network module that aggregates multi-scale contextual information without losing resolution or analyzing rescaled images. The module can be plugged into existing architectures at any resolution. Unlike pyramid-shaped architectures carried over from image classiﬁcation, the presented context module is designed speciﬁcally for dense prediction. It is a rectangular prism of convolutional layers, with no pooling or subsampling. The module is based on dilated convolutions, which support exponential expansion of the receptive ﬁeld without loss of resolution or coverage.
我们提出了一个卷积网络模块，能够在不损失分辨率的情况下混合多尺度的上下文信息。然后这个模块能够以任意的分辨率被嵌入到现有的结构中（能够任意嵌入的原因就是他的输入和输出都是C个feature maps，即输入输出时相同的形式）。与从图像分类中延续的金字塔形结构不同，所呈现的上下文模块专门用于密集预测。它没有池化和下采样操作。我们的网络是它主要基于空洞卷积，其支持指数级扩展感受野而不损失分辨率或覆盖范围。【也就是不需要下采样只用空洞卷积就可以获得较大感受野】

空洞卷积 DILATED CONVOLUTIONS

related work

In recent work on convolutional networks for semantic segmentation,

Long et al. (2015) analyzed ﬁlter dilation but chose not to use it. 《Fully convolutional networks for semantic segmenta- tion.》
Long分析了dilation核但没有用
Chen et al. (2015a) used dilation to simplify the architecture of Long et al. (2015).
《Semantic image segmentation with deep convolutional nets and fully connected CRFs.》
chen用了dilation简化了Long的网络结构。
In contrast, we develop a new convolutional network architecture that systematically uses dilated convolutions for multi-scale context aggregation.
我们研发了一个新的用空洞卷积的用于多尺寸信息融合的卷积网络。

预备知识（此部分不是论文的内容）

感受野

什么是感受野

感受野用来表示网络内部的不同位置的神经元对原图像的感受范围的大小，也就是能看到的输入图像的区域。神经元感受野的值越大表示其能接触到的原始图像范围就越大，也意味着他可能蕴含更为全局、语义层次更高的特征；而值越小则表示其所包含的特征越趋向于局部和细节。因此感受野的值可以大致用来判断每一层的抽象层次。

可以看到在Conv1中的每一个单元所能看到的原始图像范围是3*3，而由于Conv2的每个单元都是由2x2范围的Conv1构成，因此回溯到原始图像，其实是能够看到5x5的原始图像范围的。因此我们说Conv1的感受野是3，Conv2的感受野是5. 输入图像的每个单元的感受野被定义为1，这应该很好理解，因为每个像素只能看到自己。

感受野的计算方式

$RF_{l+1} = RF_l+(kernel\_size_{l+1}-1)*feature\_stride_l$

RF表示特征感受野大小， $RF_0$ =1
l表示层数，l=0表示输入层
$feature_stride_l=\prod_{i=1}^lstride_i$ ， $feature_stride_0$ =1

使用传统卷积的话，感受野的增长是很慢的，需要多层卷积的堆叠。所以传统图像分类网络还引入了池化层，可以直接将感受野倍数扩大。但池化层的使用在增加感受野的同时还进行了下采样，丢失了很多细节信息。

空洞卷积

一句话概括空洞卷积：调整感受野（多尺度信息）的同时控制分辨率的神器。

什么是空洞卷积

空洞卷积其实就是有dilated ﬁlter的卷积，相比原来的标准卷积，空洞卷积（dilated convolution）多了一个hyper-parameter（超参数）称之为dilation rate（扩张率），指的是kernel各点之前的间隔数量。这样在和原来有相同参数和计算量下拥有了更大的感受野。
下图所示为扩张率为2的3x3卷积核进行空洞卷积的动态过程，他和普通的3*3卷积核一样有9个参数，但感受野和5x5的卷积核相同。

空洞卷积的作用

扩大感受野：在deep net中为了增加感受野且降低计算量，总要进行降采样(pooling或s2/conv)，这样虽然可以增加感受野，但空间分辨率降低了。为了能不丢失分辨率，且仍然扩大感受野，可以使用空洞卷积。这在检测，分割任务中十分有用。一方面感受野大了可以检测分割大目标，另一方面分辨率高了可以精确定位目标。
捕获多尺度上下文信息：空洞卷积有一个参数可以设置dilation rate，具体含义就是在卷积核中填充dilation rate-1个0，因此，当设置不同dilation rate时，感受野就会不一样，也即获取了多尺度信息。多尺度信息在视觉任务中相当重要啊。

dilated convolutions

$F_{i+1}=F_{i}*_{2^i}k_i$ for $i = 0, 1, . . ., n - 2$
公式就是说每个特征图都是由前一个feature map 通过空洞因子为 $2^i$ 的3x3卷积核 $k_i$ 得来的。
计算感受野的两种方式：
①可以算出每一个在 $F_{i+1}$ 的元素的感受野的大小是： $(2^{i+2}-1)\times(2^{i+2}-1)$
②卷积核大小kxk，dilation factor:n-推出感受野大小为：（k+1）x n - 1

下图是查的别人对此图的解析

(a)图对应3x3的空洞率为1的卷积，和普通的卷积操作一样，计算量是9个点。对于(a)这个feature map F1而言，F1是由1-dilated convolution 卷积F0得来的，如果不考虑之前层的感受野，那这个卷积核的感受野大小是3x3，也就是F1的每个元素的感受野都是3x3。
(b)图对应3x3的空洞率为2的卷积，实际的计算量还是9个点。对于(b)这个feature map而言，(b)是对(a)空洞卷积而来的，卷积核覆盖的区域大小为5x5（图中蓝框），但是这个时候感受野大小并不是5x5，因为a中的元素的感受野就已经为3x3了，覆盖的5x5区域要往外多加（3-1）/2=1个像素，如(b)中红框所示。即1-dilated和2-dilated堆叠起来就能达到7x7的感受野，而普通卷积需要三层3x3的卷积层堆叠才能达到7x7的感受野。
（c）图对应3x3的空洞率为4的卷积，实际的计算量还是9个点。同理，对于©而言，卷积核覆盖的(b)区域大小为9x9（图中蓝框），但是由于(b)中的元素的感受野大小为7x7，因此，在这个9x9的区域大小之外还要扩张出（7-1）/2=3个像素，如©中红框所示。即1-dilated、2-dilated、4-dilated堆叠起来就能达到15x15的感受野。

MULTI-SCALE CONTEXT AGGREGATION多尺寸语义信息融合

本节介绍了用来进行多尺寸信息融合的context Network architecture模型。模型有C通道的输入feature maps输入模型后，输出C通道的feature maps。就是因为输入和输出的通道数一样，我们的模型才能被任意嵌入到已经存在的dense prediction 结构中。

本文介绍了context Network architecture 的basic形式和large形式，large形式就是一个训练了一个更大的context Network，在更深的网络中更多数量的feature maps。

basic context Network architecture

网络结构

The basic context module has 7 layers that apply 3×3 convolutions with different dilation factors. The dilations are 1, 1, 2, 4, 8, 16, and 1. Each convolution operates on all layers: strictly speaking, these are 3×3×C convolutions with dilation in the ﬁrst two dimensions. Each of these convolutions is followed by a pointwise truncation max(·, 0). A ﬁnal layer performs 1×1×C convolutions and produces the output of the module.
下图为context Network architecture的基本结构，包含7层网络，其中使用了不同dilation factor的3x3的卷积。dilations分别为1，1，2，4，8，16，1，每层上都有卷积操作，也就是说在前两个维度都做3×3×C 空洞卷积。
每层卷积后都接着一个像素级的截断处理，max(,0)。最后一层为1x1xC的卷积，并产生输出。
因为实验的输入为64x64的图片，在第六层的时候感受野已经是 $65\times65$ 了，所以在第六层之后就把dilation因子设为1，因为不需要再增加感受野了。
因为空洞卷积会扩大图像尺寸，所以在前7层进行了边缘剪裁。同时dilation 从小到大，也就是从小区域的感知来获得局部特征到大卷积将特征分配到更多的区域中。

初始化

随机采样分布初始化方式对我们不适用

Our initial attempts to train the context module failed to yield an improvement in prediction accuracy. Experiments revealed that standard initialization procedures do not readily support the training of the module. Convolutional networks are commonly initialized using samples from random distributions.
我们最开始尝试训练我们的context module的时候失败了，我们的实验表明标准的初始化方法不适用我们的空洞卷积。卷积网络一般用samples from random distributions随机采样分布初始化。

本文的初始化方式identity initialization

下式为本文basic模型采用的初始化方式identity initialization
$k^b(t,a)=1_{[t=0]}1_{[a=b]}$
其中a是输入feature map的index，b是输出feature map 的index
This initialization sets all ﬁlters such that each layer simply passes the input directly to the next.A natural concern is that this initialization could put the network in a mode where backpropagation cannot signiﬁcantly improve the default behavior of simply passing information through. However, experiments indicate that this is not the case. Backpropagation reliably harvests the contextual information provided by the network to increase the accuracy of the processed maps.
这种identity初始化设置所有滤波器的值，这样每一层都能将前一层的信息直接传递到下一层。直觉上感到不利于反向传播信息的传递。但实验证明这种担心是多余的。
basic 的context module只有64 $C^2$ 个参数，参数的数量非常少，但实验结果已经表现的非常好了

large context Network architecture

large context 有了更多的feature maps 具体数量如下图

We generalize the initialization scheme to account for the difference in the number of feature maps in different layers.
我们下面这个初始化方案去解决不同层的feature maps数量不同的问题。

其中 $c_i$ 和 $c_{i+1}$ 是分别是两个相邻层的feature maps的数量
Here $ε ∼ N(0, σ_2)$ and $. The use of random noise breaks ties among feature maps with a common predecessor. 随机噪声的使用打破了具有常见前身feature maps之间的联系。$

front end 前端

front-end module的结构

我们训练了一个front-end prediction module。

输入：3通道的彩色图片
输出：21通道的 $64\times64$ feature map
网络结构：基于VGG-16网络的改进，具体做法如下：

去除池化层
去掉VGG-16的最后两个池化层和striding layers(卷积网络中池化和子采样是分别实现的，一般所说的池化层其实就包含了这两个操作，因为pooling中一般stride=2)。
对于每一个移除的池化层后接的卷积层用dilation factor为2的空洞卷积。在final layers的卷积跟着所有移除的池化层，所以是被dilation factor为4的卷积。
通过空洞卷积可以利用原始分类网络的参数初始化，同时产生更高分辨率的输出。
用reﬂection padding
the buffer zone is ﬁlled by reﬂecting the image about each edge.
去除中间feature map的padding
因为中间feature map的padding被用在原始分类网络，在dense prediction 中没必要也不合理。

数据集
Pascal VOC 2012 training set
训练参数
基于SGD优化方法，mini-batch 大小是14，学习率是0.001，momentum是0.9。网络训练迭代了60000次。

front-end module和其他网络比较的结果

FCN-8s、DeepLab和我们的front-end都是基于VGG-16进行改进的，我们就把这三种在VOC-2012上的表现进行比较。
下表为在每一类上的精度。

实验

front-end

训练被分为两个阶段：

first stage
把VOC-2012和Microsoft COCO的图片放在一起训练。训练基于SGD优化，mini-batch为14，Momentum为0.9。以 $10^{-3}$ 的学习率执行100K迭代，以 $10^{-4}$ 的学习率执行40K后续迭代。
second stage
只用VOC-2012的图片对网络进行fine-tuning。fine-tuning用 $10^{-5}$ 的学习率迭代50K次。VOC-2012的验证集没有用来进行训练。

只用了front-end 没有加context module精度就已经有了明显提升，这都归功于我们把原始网络中不适用于dense prediction的部分去掉了。

Controlled evaluation of context aggregation.

我们把basic和large context module 分别嵌入到front-end module中。具体就是在context module训练的时候把front-end的feature map作为输入。（因为context module的感受野为 $67\times67$ ，所以我们把输入的feature map进行了buffer宽为33的pad，其中zero padding和reflection padding对实验结果没影响）
Joint training of the context module and the front-end module did not yield a signiﬁcant improvement in our experiments.
context module和front-end的训练结合在一起对实验结果不会有明显改善。也就是把front-end的训练结果给context module就好了，不用一起训练。

下表为把context module加入到三种不同的语义分割结构的结果，实验结果表明不管front-end后面加不加structured prediction，context module都对精度有明显的改善。

Evaluation on the test set.

下表为我们的模型在VOC-2012测试集进行评估的结果。其中Context指的是把larger context module嵌入到front-end后的模型。

conclusion

本文主要做了两个工作

利用空洞卷积设计了一个context module
我们的工作表明空洞卷积操作是适用于语义分割任务的，因为它能在不失去分辨率的情况下扩大感受野。
我们用空洞卷积设计的context module，然后将其嵌入到现有网络。
去除语义分割网络中用于图像分类的成分 front-end
作为这项工作的一部分，我们还表明，通过去除用于图像分类的多余成分，可以提高现有的用于语义分割的卷积网络的精度。
本文的front-end就是这样得到的。

一句话来讲本文的工作就是，通过去除现有网络的用于图像分类的部分得到front-end，然后利用空洞卷积设计了个context-module，把context-module嵌入到front-end中就是我们的网络结构（具体嵌入方式就是把front-end的feature map作为context module的输出）。

我们认为，本文的工作是朝着不受图像分类前人工作影响的密集预测专用体系结构迈出的一步。随着新的数据源的出现，未来的体系结构可能会得到密集的端到端训练，不再需要对图像分类数据集进行预训练。这可能使分割架构得到简化和统一。

问题

因为空洞卷积使得卷积核不连续，损失了连续性信息
虽然空洞（膨胀）卷积可以获取更大的视野，但是不利于小物体的分割

个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
景联文科技：专业数据标注公司，推动AI技术革新景联文科技人工智能
数据标注作为AI技术发展的重要支撑，对于训练高质量的机器学习模型以及推动应用领域的创新具有不可替代的作用。景联文科技作为专业的数据标注公司，致力于提供专业的数据标注服务，帮助客户解决AI链条中的数据处理难题，共同推动人工智能技术的进步与发展。一站式数据标注服务景联文科技提供一站式的数据标注服务，涵盖从图像、视频、音频到文本等多种数据类型。•图像标注：对象检测、语义分割、关键点标注、多边形标注等。•
Python(PyTorch和TensorFlow)图像分割卷积网络导图(生物医学) 亚图跨际交叉知识 Python 生物医学脑肿瘤图像皮肤病变多模态医学图像多尺度特征生物医学腹部胰腺图像病灶边界气胸图像
要点语义分割图像三层分割椭圆图像脑肿瘤图像分割动物图像分割皮肤病变分割多模态医学图像多尺度特征生物医学肖像多类和医学分割通用图像分割模板腹部胰腺图像分割分类注意力网络病灶边界分割气胸图像分割Python生物医学图像卷积网络该网络由收缩路径和扩展路径组成，收缩路径是一种典型的卷积网络，由重复应用卷积组成，每个卷积后跟一个整流线性单元(ReLU)和一个最大池化操作。在收缩过程中，空间信息减少，而特征信
学习记录——语义分割和实例分割的标签结构落叶击球学习笔记学习人工智能
语义分割：一张样本，生成一张掩码图像标签。灰度图像，背景亮度为0，每个目标根据分类赋予不同亮度——1，2，3......实现像素级的类别区分，但无法区分个体。实例分割：原理：一张样本，生成一个多通道的Mat矩阵，也就是多张掩码图像叠在一起。每张掩码图负责存储一个类别的目标，亮度只有0和1，通过通道号区分每个类别。同时，每张掩码图内，每个目标拥有ID号（通过增加一个维度实现），负责区分一个类别中的每
语义分割训练精度计算南太湖小蚂蚁人工智能深度学习人工智能
语义分割训练的output结果一般是[batch_size,num_classes,width,height]这样的形式，而label的结果一般是[batch_size,width,height]，类似如下形状，outputs：[4,6,480,320]，而真值label：[4,480,320]。由于维度不同，无法直接比较，所以这两者要比较就要采取一点方法。output里面每个类型都有一个值，要取
语义分割笔记 Wils0nEdwards 笔记深度学习计算机视觉
在语义分割任务中，提升自制数据集上baselinemodel的平均交并比（mIoU）和平均精度（mAcc）的难度取决于多个因素。以下是一些关键因素及其对难度的影响：数据集质量：标注质量：高质量的标注对于训练有效的模型至关重要。如果标注存在错误或不一致，模型的性能会受到影响。样本数量：较大的数据集通常可以提升模型的泛化能力，但收集和标注大量样本是一个费时费力的过程。数据多样性：如果数据集包含多样化的
遥感影像-语义分割数据集：GID数据集详细介绍及训练样本处理流程 GIS潮流计算机视觉人工智能机器学习
GID数据集：大规模高分卫星土地覆盖数据集原始数据集详情简介：GID是基于我国Gaofen-2卫星数据而构建的大规模高分辨率遥感图像土地覆盖数据集。GID数据集分为大规模分类集（GID-5）和精细土地覆盖集（GID-15）两个部分。大规模分类集（GID-5）包含建筑、农田、森林、草地和水域等5个土地覆盖类别，共计150景像素级标注的Gaofen-2卫星遥感图像。其中，训练集为120景图像，验证集为
遥感影像-语义分割数据集：Vaihingen数据集详细介绍及训练样本处理流程 GIS潮流计算机视觉
原始数据集详情Vaihingen是一个相对较小的村庄，有许多独立的建筑和小的多层建筑。KeyValue卫星类型未知覆盖区域一个相对较小的村庄，有许多独立的建筑和小的多层建筑-Vaihingen场景城市分辨率5cm数量38张单张尺寸6000*6000原始影像位深8位标签图片位深8位原始影像通道数三通道标签图片通道数三通道官网https://www.isprs.org/education/benchm
Atrous Spatial Pyramid Pooling（ASPP）空洞空间卷积池化金字塔 m0_55576290 深度学习人工智能
文章目录概要整体架构流程演化过程与代码实现概要ASPP主要用于解决语义分割任务中的尺度问题。在语义分割任务中，需要将图像中的每个像素分类到不同的类别中，而不同物体和结构在图像中可能有不同的尺度。传统的卷积神经网络在提取语义信息时，只能通过固定尺度的卷积核进行操作，因此无法很好地捕捉到不同尺度下的上下文信息。ASPP通过在网络中引入多个并行的分支，每个分支使用不同尺度的空洞卷积和池化操作，来捕获不同
深度学习，创新点，模型改进揽星河@ 计算机视觉机器学习深度学习 python 人工智能
深度学习添加创新点①在现有模型上添加自己的创新点②或者混合多个模型等等③提供创新点添加各种注意力机制，各种模型block。机器学习，目标检测，目标识别，语义分割，GAN，CNN等(只要是深度学习均可)编程语言限于Python，pytorch欢迎大家咨询~
【深度学习】COCO API源码解读 CS_Zero 深度学习人工智能
COCOAPI从C、cython，到PythonAPI：实现语义分割标注mask的解析，从具体实现cocoapi/common/maskApi.hcocoapi/common/maskApi.c到Cython封装实现pycocotools._maskcocoapi/PythonAPI/pycocotools/_mask.pyx#distutils:language=c#distutils:sour
2020-04-04 奋斗中的小强
SAN:Scale-AwareNetworkforSemanticSegmentationofHigh-ResolutionAerialImages高分辨率航空图像具有广泛的应用，如军事探索和城市规划。语义分割是高分辨率航空图像分析中广泛使用的一种基本方法。然而，高分辨率航空影像地物具有尺度不一致的特征，这一特征往往会导致预测结果的不确定性。为了解决这个问题，我们提出了一个新的尺度感知模块(SAM
计算机设计大赛深度学习人体语义分割在弹幕防遮挡上的实现 - python iuerfee python
文章目录1前言1课题背景2技术原理和方法2.1基本原理2.2技术选型和方法3实例分割4实现效果5最后1前言优质竞赛项目系列，今天要分享的是深度学习人体语义分割在弹幕防遮挡上的应用该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：3分创新点：3分更多资料,项目分享：https://gitee.com/dancheng-senior/p
[机器学习]详解transformer---小白篇是安澜啊深度学习神经网络
1.背景：Transformer是2017年的一篇论文《AttentionisAllYouNeed》提出的一种模型架构，这篇论文里只针对机器翻译这一种场景做了实验，并且由于encoder端是并行计算的，训练的时间被大大缩短了。全面击败了当时的SOTA，现阶段，Transformer在cv领域也是全面开花，基于transformer的目标识别，语义分割等算法也是经常屠榜。论文:[1706.03762
【深度学习每日小知识】全景分割 jcfszxc 深度学习术语表专栏深度学习人工智能
全景分割全景分割是一项计算机视觉任务，涉及将图像或视频分割成不同的对象及其各自的部分，并用相应的类别标记每个像素。与传统的语义分割相比，它是一种更全面的图像分割方法，传统的语义分割仅将图像划分为类别，而不考虑对象的部分。全景分割算法将语义分割和实例分割相结合，可以区分对象的一般类及其组成部分或实例。它们可以处理各种对象类，例如物体（例如天空、草地和道路）和事物（例如车辆、人和建筑物），并精确地分割
语义分割技术的简单总结孤独患者_d589
几天前在公众号计算机视觉life上投稿了一篇文章，今天特此在这里mark一下，文章链接如下。https://mp.weixin.qq.com/s?__biz=MzIxOTczOTM4NA==&mid=2247488089&idx=1&sn=a7b18c154a84864521f2eb116585aee9&chksm=97d7f7cea0a07ed8da2a881efffc9a690c695b265
前向传播网络实现（类与函数）——TensorFlow2.4 SatVision炼金士网络深度学习 keras
文章目录前言一、基于类的前向传播二、基于函数的前向传播总结前言最近开始着手语义分割方面的内容，由于刚开始入门深度学习，看了一下deeplab的源码，里面所有网络结构基本上都是由类进行定义的（目的是为了方便复用），而大部分博主的复现代码基本上都是基于函数实现，作为小白的我一时有点蒙圈。为了更好地理解前向传播吧以及类与函数定义的网络结构，本文分别用类核函数实现了简单的前向传播函数提示：以下是本篇文章正
半监督语义分割论文学习记录西瓜真的很皮啊半监督语义分割深度学习机器学习人工智能
Semi-SupervisedSemanticSegmentationwithCross-ConsistencyTraining1.1motivation一致性训练的目的是在应用于输入的小扰动上增强模型预测的不变性。因此，学习的模型将对这样的小变化具有鲁棒性。一致性训练的有效性在很大程度上取决于数据分布的行为，即集群假设，其中类必须由低密度区域分隔。在语义分割中，在输入中，我们没有观察到低密度区域
2023最新半监督语义分割综述 | 技术总结与展望！自动驾驶之心计算机视觉人工智能深度学习 python 机器学习
作者|派派星编辑|CVHub点击下方卡片，关注“自动驾驶之心”公众号ADAS巨卷干货，即可获取点击进入→自动驾驶之心【语义分割】技术交流群后台回复【分割综述】获取语义分割、实例分割、全景分割、弱监督分割等超全学习资料！Title:ASurveyonSemi-SupervisedSemanticSegmentationPaper:https://arxiv.org/pdf/2302.09899.pd
语义分割任务的准确率计算：基于PyTorch实现高斯小哥 PyTorch pytorch 人工智能 python pycharm 深度学习机器学习
语义分割任务的准确率计算：基于PyTorch实现文章目录引言语义分割任务概述准确率的定义与计算方法实践应用与优化策略准确率的局限性分析结尾引言随着深度学习技术的飞速发展，语义分割任务作为计算机视觉领域的一个重要分支，逐渐受到了广大研究者和开发者的关注。语义分割旨在将图像中的每个像素点划分到其所属的物体类别中，从而为图像赋予更为丰富的语义信息。准确率作为衡量语义分割模型性能的重要指标之一，其计算方式
【深度学习】: 脑部MRI图像分割 X.AI666 深度学习深度学习人工智能
清华大学驭风计划课程链接学堂在线-精品在线课程学习平台(xuetangx.com)代码和报告均为本人自己实现（实验满分），只展示主要任务实验结果，如果需要详细的实验报告或者代码可以私聊博主，接实验技术指导1对1有任何疑问或者问题，也欢迎私信博主，大家可以相互讨论交流哟~~案例4：脑部MRI图像分割相关知识点：语义分割、医学图像处理（skimage,medpy）、可视化（matplotlib）1任务
kaggle实战语义分割-Car segmentation（附源码）橘柚jvyou python 人工智能计算机视觉深度学习 pytorch
目录前言项目介绍数据集处理数据集加载定义网络训练网络验证网络前言本篇文章会讲解使用pytorch完成另外一个计算机视觉的基本任务-语义分割。语义分割是将图片中每个部分根据其语义分割出来，其相比于图像分类的不同点是，图像分类是对一张图片进行分类，而语义分割是对图像中的每个像素点进行分类。我们这里使用的语义分割数据集是kaggle上的一个数据集。数据集来源：https://www.kaggle.com
【大厂AI课学习笔记】【1.5 AI技术领域】（7）图像分割 giszz 学习笔记人工智能学习笔记
今天学习到了图像分割。这是我学习笔记的脑图。图像分割，ImageSegmentation，就是将数字图像分割为若干个图像子区域（像素的集合，也被称为超像素），改变图像的表达方式，以更容易理解和分析。图像分割，十分重要，也十分困难，是计算机视觉中的关键步骤。图像分割分为三类：语义分割。预测出输入熟悉的每个像素点属于哪一类的标签实例分割。在语义分割的基础上，还要区分出同一类的不同个体全景分割。在实例分
SAM大模型遥感领域测评未来GIS实验室计算机视觉深度学习人工智能
１.引言随着OpenAI公司ChatGPT的火爆，国内外科技公司都陆续发布自然语言通用领域大模型。而图像领域AI，一时间没了热度。转机出现在上个月，Meta发布了分割万物的视觉通大模型SegmentAnythingModel（SAM）。关注图像或者遥感语义分割的同事可能知道，语义分割作为计算机视觉的核心任务，应用广泛，但最大的限制就是需要大量的标注数据，并且针对不同的任务需要重新训练或微调，试想，
实例分割模型解析：solo模型交换喜悲 mdetection系列人工智能目标检测计算机视觉深度学习
论文链接：https://arxiv.org/abs/1912.04488代码：https://github.com/WXinlong/SOLO1.摘要我们提出了一种新的、极其简单的实例分割方法。与许多其他密集预测任务（例如语义分割）相比，任意数量的实例使得实例分割更具挑战性。为了预测每个实例的掩码，主流方法要么遵循“检测然后分段”策略（例如，MaskR-CNN），要么首先预测嵌入向量，然后使用聚
语义分割系列之FCN、DeeplabV1、V2、V3、V3Plus论文学习 Diros1g 学习深度学习计算机视觉
FCNFullyConvolutionalNetworks论文：FullyConvolutionalNetworksforSemanticSegmentation地址:https://openaccess.thecvf.com/content_cvpr_2015/papers/Long_Fully_Convolutional_Networks_2015_CVPR_paper.pdf特点：用全卷积替
周报（20240204）来自宇宙的曹先生研究生阶段周报周报
日期：2024.1.29-2024.2.4本周工作：1.阅读论文本周主要对这篇文献进行了阅读：《用可学习的跳跃连接缩小U-Net中的语义差距：以医学图像分割为例》背景医学图像分割和随后对目标对象的定量评估为疾病诊断和治疗规划提供了有价值的信息。最近的语义分割方法通常依赖于类UNet的编码器-解码器架构，其中编码器产生高级语义特征，解码器逐渐对这些隐藏特征进行上采样，以产生具有每像素概率的分割图。大
InstantID: Zero-shot Identity-Preserving Generation in Seconds 猛码Memmat rob-agent /aigc 图像生成深度学习计算机视觉
文章目录IntroductionMainReference记录由国内首创的一个好玩的小项目，图像生成领域的新进展。但我希望现阶段计算机视觉领域的研究能更聚焦在语义分割和三维视觉上，这样能更方便与机器人等产品和工业实体结合。IntroductionInstantID是一个基于扩散模型的图像生成解决方案，能实现从单一参考图像到多样化风格化写真的快速生成。用户只需上传一张自拍，20秒就能得到定制版AI写
基于YOLOv8的船舶目标检测系统（Python源码+Pyqt6界面+数据集） AI小怪兽深度学习实战应用案列108篇人工智能深度学习机器学习 YOLO 计算机视觉开发语言
博主简介AI小怪兽，YOLO骨灰级玩家，1）YOLOv5、v7、v8优化创新，轻松涨点和模型轻量化；2）目标检测、语义分割、OCR、分类等技术孵化，赋能智能制造，工业项目落地经验丰富；原创自研系列，2024年计算机视觉顶会创新点《YOLOv8原创自研》《YOLOv5原创自研》《YOLOv7原创自研》23年最火系列，内涵80+优化改进篇，涨点小能手，助力科研，好评率极高《YOLOv8魔术师》《YOL
CACDU-Net: A Novel DoubleU-Net BasedSemantic Segmentation Model for SkinLesions Detection in Image 我在努力学习分割（禁止说我水平差）人工智能
CACDU-Net:一种新的基于双u-net的图像皮肤损伤语义分割模型摘要皮肤病变分割是皮肤病学领域的一项重要任务，它有助于早期发现和诊断皮肤病。深度学习技术在实现准确的病灶分割方面显示出巨大的潜力。在这些技术的帮助下，病灶分割过程可以自动化，从而减少了人工操作和主观判断的影响。这有助于节省医疗专业人员的时间和减少他们的工作量，从而提高他们的工作效率，并使医疗资源得到更好的分配。为了更好地进行皮肤
java解析APK 3213213333332132 java apk linux 解析APK
解析apk有两种方法 1、结合安卓提供apktool工具，用java执行cmd解析命令获取apk信息 2、利用相关jar包里的集成方法解析apk 这里只给出第二种方法，因为第一种方法在linux服务器下会出现不在控制范围之内的结果。 public class ApkUtil { /** * 日志对象 */ private static Logger
nginx自定义ip访问N种方法 ronin47 nginx 禁止ip访问
　　　因业务需要，禁止一部分内网访问接口，　由于前端架了F5，直接用deny或allow是不行的，这是因为直接获取的前端Ｆ５的地址。　　　所以开始思考有哪些主案可以实现这样的需求，目前可实施的是三种：　　　一：把ip段放在redis里，写一段lua 二：利用geo传递变量，写一段
mysql timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性 dcj3sjt126com mysql
timestamp有两个属性，分别是CURRENT_TIMESTAMP 和ON UPDATE CURRENT_TIMESTAMP两种，使用情况分别如下： 1. CURRENT_TIMESTAMP 当要向数据库执行insert操作时，如果有个timestamp字段属性设为 CURRENT_TIMESTAMP，则无论这
struts2+spring+hibernate分页显示 171815164 Hibernate
分页显示一直是web开发中一大烦琐的难题，传统的网页设计只在一个JSP或者ASP页面中书写所有关于数据库操作的代码，那样做分页可能简单一点，但当把网站分层开发后，分页就比较困难了，下面是我做Spring+Hibernate+Struts2项目时设计的分页代码，与大家分享交流。　　1、DAO层接口的设计，在MemberDao接口中定义了如下两个方法： public in
构建自己的Wrapper应用 g21121 rap
我们已经了解Wrapper的目录结构，下面可是正式利用Wrapper来包装我们自己的应用，这里假设Wrapper的安装目录为:/usr/local/wrapper。首先，创建项目应用 &nb
[简单]工作记录_多线程相关 53873039oycg 多线程
最近遇到多线程的问题,原来使用异步请求多个接口(n*3次请求) 方案一使用多线程一次返回数据,最开始是使用5个线程,一个线程顺序请求3个接口,超时终止返回缺点测试发现必须3个接
调试jdk中的源码，查看jdk局部变量程序员是怎么炼成的 jdk 源码
转自：http://www.douban.com/note/211369821/ 学习jdk源码时使用-- 学习java最好的办法就是看jdk源代码，面对浩瀚的jdk（光源码就有40M多，比一个大型网站的源码都多）从何入手呢，要是能单步调试跟进到jdk源码里并且能查看其中的局部变量最好了。可惜的是sun提供的jdk并不能查看运行中的局部变量
Oracle RAC Failover 详解 aijuans oracle
Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言，是感觉不到这种切换。 Oracle 10g RAC 的Failover 可以分为3种： 1. Client-Si
form表单提交数据编码方式及tomcat的接受编码方式 antonyup_2006 JavaScript tomcat 浏览器互联网 servlet
原帖地址：http://www.iteye.com/topic/266705 form有2中方法把数据提交给服务器，get和post,分别说下吧。（一）get提交 1.首先说下客户端（浏览器）的form表单用get方法是如何将数据编码后提交给服务器端的吧。对于get方法来说，都是把数据串联在请求的url后面作为参数，如：http://localhost:
JS初学者必知的基础百合不是茶 js函数 js入门基础
JavaScript是网页的交互语言,实现网页的各种效果, JavaScript 是世界上最流行的脚本语言。 JavaScript 是属于 web 的语言，它适用于 PC、笔记本电脑、平板电脑和移动电话。 JavaScript 被设计为向 HTML 页面增加交互性。许多 HTML 开发者都不是程序员，但是 JavaScript 却拥有非常简单的语法。几乎每个人都有能力将小的
iBatis的分页分析与详解 bijian1013 java ibatis
分页是操作数据库型系统常遇到的问题。分页实现方法很多，但效率的差异就很大了。iBatis是通过什么方式来实现这个分页的了。查看它的实现部分，发现返回的PaginatedList实际上是个接口，实现这个接口的是PaginatedDataList类的对象，查看PaginatedDataList类发现，每次翻页的时候最
精通Oracle10编程SQL(15)使用对象类型 bijian1013 oracle 数据库 plsql
/* *使用对象类型 */ --建立和使用简单对象类型 --对象类型包括对象类型规范和对象类型体两部分。 --建立和使用不包含任何方法的对象类型 CREATE OR REPLACE TYPE person_typ1 as OBJECT( name varchar2(10),gender varchar2(4),birthdate date ); drop type p
【Linux命令二】文本处理命令awk bit1129 linux命令
awk是Linux用来进行文本处理的命令，在日常工作中，广泛应用于日志分析。awk是一门解释型编程语言，包含变量，数组，循环控制结构，条件控制结构等。它的语法采用类C语言的语法。 awk命令用来做什么？ 1.awk适用于具有一定结构的文本行，对其中的列进行提取信息 2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理，然后把直接结构返回给awk 3.awk实际工
JAVA(ssh2框架)+Flex实现权限控制方案分析白糖_ java
目前项目使用的是Struts2+Hibernate+Spring的架构模式，目前已经有一套针对SSH2的权限系统，运行良好。但是项目有了新需求：在目前系统的基础上使用Flex逐步取代JSP，在取代JSP过程中可能存在Flex与JSP并存的情况，所以权限系统需要进行修改。【SSH2权限系统的实现机制】权限控制分为页面和后台两块：不同类型用户的帐号分配的访问权限是不同的，用户使
angular.forEach boyitech AngularJS AngularJS API angular.forEach
angular.forEach 描述: 循环对obj对象的每个元素调用iterator, obj对象可以是一个Object或一个Array. Iterator函数调用方法: iterator(value, key, obj), 其中obj是被迭代对象，key是obj的property key或者是数组的index，value就是相应的值啦. (此函数不能够迭代继承的属性.)
java-谷歌面试题-给定一个排序数组，如何构造一个二叉排序树 bylijinnan 二叉排序树
import java.util.LinkedList; public class CreateBSTfromSortedArray { /** * 题目:给定一个排序数组，如何构造一个二叉排序树 * 递归 */ public static void main(String[] args) { int[] data = { 1, 2, 3, 4,
action执行2次 Chen.H JavaScript jsp XHTML css Webwork
xwork 写道 <action name="userTypeAction" class="com.ekangcount.website.system.view.action.UserTypeAction"> <result name="ssss" type="dispatcher">
[时空与能量]逆转时空需要消耗大量能源 comsci 能源
无论如何,人类始终都想摆脱时间和空间的限制....但是受到质量与能量关系的限制,我们人类在目前和今后很长一段时间内,都无法获得大量廉价的能源来进行时空跨越..... 在进行时空穿梭的实验中,消耗超大规模的能源是必然
oracle的正则表达式(regular expression)详细介绍 daizj oracle 正则表达式
正则表达式是很多编程语言中都有的。可惜oracle8i、oracle9i中一直迟迟不肯加入，好在oracle10g中终于增加了期盼已久的正则表达式功能。你可以在oracle10g中使用正则表达式肆意地匹配你想匹配的任何字符串了。正则表达式中常用到的元数据(metacharacter)如下： ^ 匹配字符串的开头位置。 $ 匹配支付传的结尾位置。 *
报表工具与报表性能的关系 datamachine 报表工具 birt 报表性能润乾报表
在选择报表工具时，性能一直是用户关心的指标，但是，报表工具的性能和整个报表系统的性能有多大关系呢？要回答这个问题，首先要分析一下报表的处理过程包含哪些环节，哪些环节容易出现性能瓶颈，如何优化这些环节。一、报表处理的一般过程分析 1、用户选择报表输入参数后，报表引擎会根据报表模板和输入参数来解析报表，并将数据计算和读取请求以SQL的方式发送给数据库。 2、
初一上学期难记忆单词背诵第一课 dcj3sjt126com word english
what 什么 your 你 name 名字 my 我的 am 是 one 一 two 二 three 三 four 四 five 五 class 班级，课 six 六 seven 七 eight 八 nince 九 ten 十 zero 零 how 怎样 old 老的 eleven 十一 twelve 十二 thirteen
我学过和准备学的各种技术 dcj3sjt126com 技术
语言VB https://msdn.microsoft.com/zh-cn/library/2x7h1hfk.aspxJava http://docs.oracle.com/javase/8/C# https://msdn.microsoft.com/library/vstudioPHP http://php.net/manual/en/Html
struts2中token防止重复提交表单蕃薯耀重复提交表单 struts2中token
struts2中token防止重复提交表单 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月12日 11:52:32 星期日 ht
线性查找二维数组 hao3100590 二维数组
1.算法描述有序（行有序，列有序，且每行从左至右递增，列从上至下递增）二维数组查找，要求复杂度O(n) 2.使用到的相关知识：结构体定义和使用，二维数组传递（http://blog.csdn.net/yzhhmhm/article/details/2045816） 3.使用数组名传递这个的不便之处很明显，一旦确定就是不能设置列值 //使
spring security 3中推荐使用BCrypt算法加密密码 jackyrong Spring Security
spring security 3中推荐使用BCrypt算法加密密码了，以前使用的是md5， Md5PasswordEncoder 和 ShaPasswordEncoder，现在不推荐了，推荐用bcrpt Bcrpt中的salt可以是随机的，比如： int i = 0; while (i < 10) { String password = "1234
学习编程并不难,做到以下几点即可! lampcy java html 编程语言
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
架构师之mysql----------------用group+inner join,left join ,right join 查重复数据（替代in) nannan408 right join
1.前言。如题。 2.代码 (1)单表查重复数据,根据a分组 SELECT m.a,m.b, INNER JOIN （select a,b,COUNT(*) AS rank FROM test.`A` A GROUP BY a HAVING rank>1 )k ON m.a=k.a （2）多表查询，使用改为le
jQuery选择器小结 VS 节点查找（附css的一些东西） Everyday都不同 jquery css name选择器追加元素查找节点
最近做前端页面，频繁用到一些jQuery的选择器，所以特意来总结一下：测试页面： <html> <head> <script src="jquery-1.7.2.min.js"></script> <script> /*$(function() { $(documen
关于EXT tntxia ext
ExtJS是一个很不错的Ajax框架，可以用来开发带有华丽外观的富客户端应用，使得我们的b/s应用更加具有活力及生命力。ExtJS是一个用 javascript编写，与后台技术无关的前端ajax框架。因此，可以把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。 ExtJs最开始基于YUI技术，由开发人员Jack
一个MIT计算机博士对数学的思考 xjnine Math
在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界？作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对appe