DFann

语义分割--Understand Convolution for Semantic Segmentation

Understanding Convolution for Semantic Segmentation

收录：IEEE Winter Conference on Applications of Computer Vision (WACV 2018)

原文地址：HDC

代码:

官方-MXNet

Abstract

本文介绍了两种操控卷积相关运算(convolution-related operations)方法用于提高语义分割效果:

设计**密集上采样卷积(dense upsampling convolution,DUC)**生成预测结果，这可以捕获在双线性上采样过程中丢失的细节信息。
设计混合空洞卷积框架(hybrid dilated convolution,HDC)，用于减轻扩张卷积产生的"gidding issue"影响，扩大接收野聚合全局信息。

论文在CityScapes上达到了80.1%mIoU,同样在KITTI和VOC12上也达到了state-of-the-art 结果.

Introduction

大部分应用在语义分割任务上的CNN系统可分为三类：

全卷积神经网络。例如FCN. 使用卷积层代替FC层，提高训练和推断效率，并可接收任意大小输入；
使用CRF. 结构预测用于捕获图片内的本地和长距离依赖，用于细化分割结果；
使用空洞卷积。增加中间featue map的分辨率，可在保持相同计算成本的同时提高预测精度。

大部分提高预测准确率的系统可分为两类：

使用更优秀的特征提取模型。即使用VGG16、ResNet等预训练架构。这些更深的模型可对更复杂的信息建模，学习更有区分力的feature并可更好的区分类别。
使用CRF作为后端处理，集成CRF到模型内构成end2end训练，并将额外的信息例如边缘合并到CRF内。

本文以另一个角度来提升性能，考虑到现在大多数模型分为encoding和decoding两部分：

对于decoding：大多数模型在最终预测图的基础上，采用双线性插值上采样直接获得与输入同分辨率的输出，双线性插值没有学习能力并且会丢失细节。本文提出了密集上采样卷积(dense upsampling convolution,DUC)，取代了简单的双线性插值，学习一组上采样滤波器用于放大低分辨率的feature。DUC支持end2end，便于融入FCN网络架构中。
对于encoding：使用扩张卷积可以扩大感受野，减少使用下采样(下采样丢失细节比较严重)。本文指出空洞卷积存在"girdding"问题，即空洞卷积在卷积核两个采样像素之间插入0值，如果扩张率过大，卷积会过于稀疏，捕获信息能力差。本文提出了混合扩展卷积架构(hybrid dilation convolution,HDC): 使用一组扩展率卷积串接一下构成block，可扩大感受野的同时减轻"gridding"弊端。

论文以DUC和HDC为基础卷积操作，构建更适合语义分割任务的深度神经网络系统.

Related Work

**特征表示解码(Decoding of Feature Representation)?*因为池化操作不可避免的会下采样。现在多种方案针对低分辨率feature解码出准确信息，常见的双线性上采样节省存储空间并且快；解卷积：使用池化的位置信息帮助解码阶段，也有使用堆叠的解卷积层来恢复信息，等等
扩张卷积(Dilated Convolution): 在卷积采样中插入0值，用以扩张采样分辨率。例如DeepLab设计的ASPP聚合多个尺度信息。等等

Approach

Dense Upsampling Convolution

为什么要使用DUC？

考虑到模型输入图片大小 $(H, W, C)$ ,整个模型在预测前的输出feature map大小为 $F_{out}=(h,w,c)$ ，其中 $H / d = h, W / d = w$ ， $d$ 称为下采样因子(downsampling factor)。

双线性插值存在的问题：如果模型的 $d = 16$ ，即输入到输出下采样了16倍。如果一个目标物的长或宽长度小于16个pixel，训练label map需要下采样到与模型输出维度相同，即下采样16倍时已经丢失了许多细节, 对应的模型预测结果双线性插值上采样是无法恢复这个信息。

DUC的方案：

针对这一问题，DUC将 $F_{out}$ 的尺寸 $(h, w, c)$ 通道转为到 $h,w,d^2×L)$ , $L$ 是分割类别数目。再reshape到label map大小 $(H, W, L)$ 。 reshape操作代替了解卷积上采样，可直接对接label map。

这里比较难理解的是reshape操作，开源的代码如下：

   # Base Network
    res = get_resnet_hdc(bn_use_global_stats=bn_use_global_stats)

    # ASPP
    aspp_list = list()
    for i in range(aspp_num):
        pad = ((i + 1) * aspp_stride, (i + 1) * aspp_stride)
        dilate = pad
        conv_aspp=mx.symbol.Convolution(data=res, num_filter=cell_cap * label_num, kernel=(3, 3), pad=pad,
                                        dilate=dilate, name=('fc1_%s_c%d' % (exp, i)), workspace=8192)
        aspp_list.append(conv_aspp)
    
    # 这是是ASPP模块输出作像素和
    summ = mx.symbol.ElementWiseSum(*aspp_list, name=('fc1_%s' % exp))

    # Reshape操作
    cls_score_reshape = mx.symbol.Reshape(data=summ, shape=(0, label_num, -1), name='cls_score_reshape')
    
    # Reshape完后直接送到Softmax
    cls = mx.symbol.SoftmaxOutput(data=cls_score_reshape, multi_output=True,
                                  normalization='valid', use_ignore=True, ignore_label=ignore_label, name='seg_loss')
    return cls

可以看到reshape操作传入的是shape= $0, label\_num, -1)$ MXNet中0代表保持不变，-1表示推断~.
ASPP出来的数据形式为(N,channel,h,w)经过reshape甩成了(N,label_num,-1)，即把每类的分类结果拍成向量形式。

下图是本文一作关于DUC卷积的回答：

下图更好的阐述了DUC思想：

该图来自：Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network

从另一个角度想：DUC将整个label map $(H, W, L)$ 分为为 $d^2$ 个等大小的子图(subparts)，每个子图和大小和 $F_{out}$ 输出的feature map大小相同。也就是说将label map切分为 $h,w,d^2×L)$ 。

模型的整体结构如下，DUC应用在输出部分：

DUC以原始分辨率像素级解码，并且能够自然的集成到FCN框架中，使得整个编码和解码能以end2end方式训练。

Hybrid Dilated Convolution

对于二维信号，卷积核大小 $k \times k$ ，经过扩张卷积的结果为 $k_d×k_d$ ,其中 $k_d=k+(k-1)(r-1)$ .例如：

对于左边： $r = 2, k = 3$ . $k_d=3+(3-1)(2-1)=5$ ，接收野为 $5 \times 5$
对于右边： $r = 3, k = 3$ . $k_d=3+(3-1)(3-1)=7$ ，接收野为 $7 \times 7$

扩张卷积可增加features map的分辨率，故可替换FCN架构中的池化层。但是，扩张卷积存在一个理论上的问题，称之为"gridding"：对于扩张卷积的一个像素点p，对其有贡献的是上一层以p为中心的 $k_d×k_d$ 的邻近区域，因为扩张卷积引入0值，在 $k_d×k_d$ 的区域只计算 $k \times k$ 个像素点，非0像素点之间间隔为 $r - 1$ .

例如 $k = 3, r = 2$ 的扩张卷积，从 $C o n v 2 - - > C o n v 3$ ，25个像素只有9个像素做了贡献：

可以看到top feature map使用扩张卷积只能以棋盘的形式查看信息，这会丢失大量信息.

当high layer中 $r$ 变的越来越大，这会使得从输入中采样的数据越来越稀疏，不利于卷积学习，因为
- 局部的信息完全丢失
- 信息之间太远不相关
$r \times r$ 的区域从完全不同的“网格”集合内接收信息，这会损害本地信息的一致性。

论文提出了HDC用于缓解"gridding"产生的影响：考虑到一个 $N$ 个的size为 $K \times K$ 的扩张卷积，对应的扩张率为 $r_1,…,r_i,..,r_n]$ ，HDC的目标是让最后的接收野全覆盖整个区域（没有任何空洞或丢失边缘），我们定义两个非零点之间最大距离为： $M_i=\max[M_{i+1}-2r_i,M_{i+1}-2(M_{i+1}-r_i),r_i]$
其中 $M_n=r_n$ ,设计的目标是让 $M_2≤K$ .

这是公式是怎么来的，我邮件咨询了一作PanQu Wang：

HDC实例：

对于常见的扩张卷积核大小 $K = 3$ ，如果 $r = [1, 2, 5]$ 则 $M_2=\max[M_3-2r_2,-M_3+2r_2,r_2]=\max[1,-1,2]=2$ 此时 $M_2=2≤K=3$ ,满足设计要求.设计的示意图如下：
如果 $r = [1, 2, 9]$ 则 $M_2=\max[M_3-2r_2,-M_3+2r_2,r_2]=\max[5,-5,2]=5$ 此时 $M_2=5＞K=3$ ,不满足设计要求.

论文给出使用不同扩张率的扩张卷积策略是锯齿波(sawtooth wave-like)变化形式:即取几层为一组，每个组的扩张率从低向高增加，每个组类似，即扩张率变换类似锯齿波。锯齿波能同时满足小物体大物体的分割要求(小rate提取本地信息，大rate提取长距离信息)。

例如：对于r=2的层，将3个层组成一组，对应的扩张率分别为1,2,3。这样顶层可以获取更宽阔的区域信息，这能在保持接收野大小不变的情况下提高信息利用率。

需要注意的是，一个组内的卷积不应该有一个固定的变换因子，即不要用大于1的公约数(例如2,4,8的公约数为2>1)，否则依旧无法减小"girdding"效应。

HDC的另一个好处是可以使用任意的扩张率，很自然的扩大了接收野且不需要添加额外的模块，这对识别大型相关目标很关键。

Experiment

论文一共在三个数据集上做了测试：CityScapes，KITTI dataset for road estimation, PASCAL VOC2012. 以预训练的ResNet101和ResNet152为特征提取层。

CityScapes

CityScapes的数据尺寸固定为 $1024 \times 2048$ ，本文的策略是将图片分成重叠的12个 $800 \times 800$ 的patches，整个训练集大小为 $2975 * 12 = 35700$ .这样的数据增强可保证图片的每个区域都被访问到，比随机的cropping要跟细腻。

Baseline-model:

设置项	设置
优化器	使用mini-batch SGD
patch size	$544 \times 544$ (randomly cropped from the 800x800 patch)
batch_size	12
学习率策略	poly，power=0.9,初始的学习率为 $2.5×10^{-4}$ .
权重衰减	$5×10^{-4}$ ,momentum为0.9

DUC

DUC做的事情就是改变原本top layer输出的shape.

例如：Baseline-model的输出为 $68 \times 68 \times 19$ (19是cityscapes的类别)。DUC将输出变化为 $68×68×(d^2×19)$ ， $d$ 是下采样因子，这里 $r = 8$ . 再reshape为 $544 \times 544 \times 19$ 即预测的map. DUC只在ResNet的top端引入了新参数，与Baseline相比，提高了2%mIoU，可视化结果如下：

由图可以清晰的看见DUC主要提高了小目标物的识别率，验证了DUC可以恢复双线性插值上采样损失的信息。

Abation Studies：主要做以下方面的实验.

网络的下采样扩张率，用于控制内部的feature map的分辨率
是否使用ASPP模块，以及使用并行路径的数量
是否做数据增强，即将数据切分为12个子patches
一个预测像素投影的邻近区域大小 $(c e l l, c e l l)$ .像素级的DUC应该使用 $c e l l = 1$ ，但因为Gound Truth无法达到像素级，在实验中尝试 $c e l l = 2$

降低下采样率会降低准确率。ASPP模块通常有助于改善性能。数据增强有助于提高准确率，使用cell=2有轻微的提升，同时有助于降低计算消耗。

Bigger Patch Size：因为 $c e l l = 2$ 会大幅度减少计算量消耗，故讨论patch size对性能的影响。将patch size提高到 $880 \times 880$ ，将原本的12倍cropping换成7倍的cropping，性能提升了1%；
Compared with Deconvolution：使用上采样效率略低于DUC model；
Conditional Random Fields(CRF)：使用CRF提高了1%的性能。

HDC

以最佳的101 layer的ResNet-DUC为基础，添加HDC，实验探究了几种变体：

无扩张卷积(no dilation)：对于所有包含扩张卷积，设置 $r = 1$
扩张卷积(dilation Conv )：对于所有包含扩张卷积，将2个block和为一组，设置第一个block的 $r = 2$ ，第二个block的 $r = 1$
Dilation-RF：对于 $r e s 4 b$ 包含了23个blocks，使用的 $r = 2$ ，设置3个block一组， $r = 1, 2, 3$ .对于最后两个block，设置 $r = 2$ ；对于 $r e s 5 b$ ，包含3个block,使用 $r = 4$ ，设置为 $r = 3, 4, 5$ .
Dilation-Bigger：对于 $r e s 4 b$ 模块，设置4个block为一组，设置 $r = 1, 2, 5, 9$ .最后3个block设置为 $1, 2, 5$ ；对于 $r e s 5 b$ 模块，设置 $r = 5, 9, 17$

可以看到增加接收野大小会获得较高的精度。如下图所示：

ResNet-DUC-HDC在较大的目标物上表现较好。下图是局部放大：

可以看到HDC有效的消除"gridding"产生的影响。

Deeper Networks：同样尝试了将ResNet-101切换为ResNet-152，使用ResNet152先跑了10个epoch学习了BN层参数，再固定BN层，跑了20个epochs.结果如下：

ResNet152为基础层的有1%的提升。

Test Set Results：论文将ResNet101开始的 $7 \times 7$ 卷积拆分为3个 $3 \times 3$ 的卷积，再不带CRF的情况下达到了80.1%mIoU.与其他先进模型相比如下：

模型同时在coarse labels跑了一圈，与同样以deliated convolution为主的DeepLabv2相比，提升了9.7%.

KITTI Road Segmentaiton

KITTI有289的训练图片和290个测试图片。示例如下：

因为数据集有限，为了避免过拟合。论文以100的步长在数据集中裁剪 $320 \times 320$ 的patch. 使用预训练模型，结果如下：

结果达到了state-of-the-art水平.

PASCAL VOC2012 dataset

先用VOC2012训练集和MS-COCO数据集对ResNet-DUC做预训练。再使用VOC2012做fine-tune。使用的图片大小为 $512 \times 512$ 。达到了state-of-the-art水平：

可视化结果如下：

Conclusion

论文提出了简单有效的卷积操作改进语义分割系统。使用DUC恢复上采样丢失的信息，使用HDC在解决"gridding"的影响的同时扩大感受野。实验证明我们的框架对各种语义分割任务的有效性。

目标检测YOLO实战应用案例100讲-基于深度学习的无人机目标检测算法轻量化研究（中）林聪木目标检测 YOLO 深度学习
目录基于改进YOLOv5的无人机图像实时目标检测4.1引言4.2基于改进YOLOv5的目标检测模型结构4.3消融实验及结果分析4.4算法迁移验证实验基于Jetson-Xavier的模型优化部署5.1引言5.2基于人在回路的目标检测模型裁剪5.3嵌入式实时目标检测交互软件基于深度学习的无人机目标检测算法轻量化研究知识拓展基于YOLOv8/YOLOv7/YOLOv6/YOLOv5的无人机目标检测1.数
YOLOv8 改进：添加 AKConv（任意采样形状和任意数目参数的卷积）鱼弦人工智能时代 YOLO
YOLOv8改进：添加AKConv（任意采样形状和任意数目参数的卷积）引言在目标检测领域中，YOLO（YouOnlyLookOnce）系列因其速度和效率而受到广泛关注。为了进一步优化模型性能，可以引入创新的卷积操作，例如AKConv，即“任意采样形状和任意数目参数的卷积”。这种卷积能够灵活地调整采样策略，以更好地适应输入特征。技术背景传统卷积运算在采样位置和参数数量上具有固定性，这限制了其对复杂几
目标检测领域总结：从传统方法到 Transformer 时代的革新 DoYangTan 目标检测系列目标检测 transformer 人工智能
目标检测领域总结：从传统方法到Transformer时代的革新目标检测是计算机视觉领域的一个核心任务，它的目标是从输入图像中识别并定位出目标物体。随着深度学习的兴起，目标检测方法已经取得了显著的进展。从最早的传统方法到现如今基于Transformer的先进算法，目标检测的发展经历了多个重要的阶段。本文将详细总结目标检测领域的演进，涵盖传统方法、两阶段检测方法、单阶段检测方法和基于Transform
YOLOV8多模态(可见光+红外光，基于Ultralytics官方代码实现） @M_J_Y@ 目标检测 YOLO 计算机视觉目标检测 python
YOLOV8多模态(可见光+红外光，基于Ultralytics官方代码实现）各位读者麻烦给个star或者fork，求求了。YOLOV8双分支模型架构图YOLOV8多模态目标检测前言：环境配置要求1.数据集DroneVehicle数据集(可见光+热红外)2.数据集文件格式(labeles:YOLO格式)3.权重文件下载4.配置模型yaml文件和数据集yaml文件5.训练6.测试7.打印模型信息8.o
神经网络中层与层之间的关联 iisugar 神经网络深度学习计算机视觉
目录1.层与层之间的核心关联：数据流动与参数传递1.1数据流动（ForwardPropagation）1.2参数传递（BackwardPropagation）2.常见层与层之间的关联模式2.1典型全连接网络（如手写数字分类）2.2卷积神经网络（CNN，如图像分类）2.3循环神经网络（RNN/LSTM，如文本生成）2.4Transformer（如机器翻译）3.层间关联的核心原则3.1数据传递的“管道
机器学习——分类、回归、聚类、LASSO回归、Ridge回归（自用）代码的建筑师模型学习模型训练机器学习机器学习分类回归正则化项 LASSO Ridge 朴素
纠正自己的误区：机器学习是一个大范围，并不是一个小的方向，比如：线性回归预测、卷积神经网络和强化学都是机器学习算法在不同场景的应用。机器学习最为关键的是要有数据，也就是数据集名词解释：数据集中的一行叫一条样本或者实例，列名称为特征或者属性。样本的数量称为数据量，特征的数量称为特征维度机器学习常用库：Numpy和sklearn朴素的意思是特征的各条件都是相互独立的机器学习（模型、策略、算法）损失函数
【论文阅读】实时全能分割模型万里守约论文阅读论文阅读图像分割图像处理计算机视觉
文章目录导言1、论文简介2、论文主要方法3、论文针对的问题4、论文创新点总结导言在最近的计算机视觉领域，针对实时多任务分割的需求日益增长，特别是在交互式分割、全景分割和视频实例分割等多种应用场景中。为了解决这些挑战，本文介绍了一种新方法——RMP-SAM（Real-TimeMulti-PurposeSegmentAnything），旨在实现实时的多功能分割。RMP-SAM结合了动态卷积与高效的模型
卷积神经网络 - 理解卷积核的尺寸 k×k×Cin 谦亨有终 AI学习笔记 cnn 人工智能神经网络深度学习机器学习
卷积神经网络中，每个卷积核的尺寸为k×k×Cin，这一设计的核心原因在于多通道输入的数据结构和跨通道特征整合的需求。以下是详细解释：1.输入数据的结构输入形状：假设输入数据为三维张量，形状为H×W×Cin，其中：H：高度（Height）W：宽度（Width）Cin：通道数（Channelsin）多通道的物理意义：对于RGB图像，Cin=3（红、绿、蓝三通道）。对于中间层的特征图，Cin可能为64、
Transposed convolution（2016 IEEE）刘若里论文阅读人工智能计算机视觉学习网络笔记
论文标题FullyConvolutionalNetworksforSemanticSegmentation论文作者EvanShelhamer,JonathanLong,TrevorDarrell发表日期2016年05月01日GB引用>ShelhamerEvan,LongJonathan,DarrellTrevor.FullyConvolutionalNetworksforSemanticSegme
从注册到落地：Temu中亚首站瞄准乌兹别克斯坦消费潜力香菜9527 人工智能业界资讯经验分享
从注册到落地：Temu中亚首站瞄准乌兹别克斯坦消费潜力近年来，全球跨境电商市场格局加速演变，中国跨境电商平台正积极拓展海外市场。继在北美、欧洲、澳大利亚等地区取得显著成绩后，拼多多旗下跨境电商平台Temu正式开启中亚市场布局。乌兹别克斯坦成为Temu在中亚的首个重点市场，标志着其全球扩张战略进入新的阶段。乌兹别克斯坦市场潜力与政策环境乌兹别克斯坦作为中亚人口最多的国家（约3500万人），近年来消费
【区块链】跨链技术详解还没入门的大菜狗区块链
跨链技术详解：打通区块链孤岛一、跨链技术概述1.定义与必要性跨链技术是指实现不同区块链网络之间价值和信息互操作的解决方案。随着区块链生态系统的扩张，解决"区块链孤岛"问题变得至关重要。跨链技术解决的核心问题：不同区块链间的资产流动跨链数据和状态共享多链智能合约调用统一的用户体验2.跨链技术的基本挑战一致性保障：确保跨链交易的原子性验证复杂性：如何在一条链上验证另一条链的状态安全保证：防止双花攻击和
关于forward函数 oioz 深度学习
定义forward函数是模型的核心前向传播逻辑，定义了输入数据如何在模型中传递和计算。它将输入数据通过模型的各层（如卷积层、全连接层等），计算出模型的输出。作用负责模型的主要计算逻辑。在训练和验证过程中都会被调用。特点必须实现：在PyTorch中，forward函数是模型的核心部分，必须显式定义。灵活性高：可以根据模型需要，自由定义forward函数的内容，包括各种计算操作。示例（PyTorch）
opencv对图像处理 syfirst1111 图像处理 opencv 计算机视觉
形态学转换：基于图像形状的操作，通常在二进制图像上执行。腐蚀、膨胀：腐蚀：求局部最小值，原图高亮部分被蚕食膨胀：求局部最大值，原图高亮部分部分扩张img=cv.imread(path)kenel=np.ones((5,5),np.uint8)#创建核结构img2=cv.erode(img,kenel)#腐蚀去噪img1=cv.dilate(img,kenel)#膨胀目标增大，填充孔洞图像平滑（去噪
卷积神经网络Batch Normalization的作用 arron8899 cnn batch 人工智能
BatchNormalization的作用（通俗版）1.像“稳定器”一样校准每层输入想象你在烤多层蛋糕，每层蛋糕的烘烤温度不同（相当于神经网络的每一层数据分布不同）。没有BN时，烤箱温度忽高忽低，导致有的层烤焦（梯度爆炸），有的层不熟（梯度消失）。BN的作用相当于给每一层装了一个自动温度调节器，实时将输入数据调整到标准温度（均值为0，方差为1），保证每层都能均匀受热，训练更稳定。2.让模型训练“少
CBNet--一种新的目标检测的复合骨干网体系结构 weixin_45963617 深度学习系列
一、Introduction一般来说，在一个典型的基于CNN的目标检测器中，使用主干网络来提取检测对象的基本特征，该网络通常是为图像分类任务而设计的，并在ImageNet上预训练。毫无疑问，更强大的主干网可以带来更好的检测性能。尽管最先进的基于深度的大骨干网络的探测器取得了很好的结果，但仍有很大改进空间。此外，通过设计一个新的更强大的主干网络并在ImageNet上预训练来获取好的检测性能是十分昂贵
CBNetV2: A Composite Backbone Network Architecture for Object Detection论文阅读 Laughing-q 论文阅读深度学习人工智能目标检测实例分割 transformer
CBNetV2:ACompositeBackboneNetworkArchitectureforObjectDetection论文阅读介绍方法CBNetV2融合方式对Assistant的监督实验与SOTA的比较在主流backbone架构上的通用性与更宽更深的网络比较与可变形卷积的兼容在主流检测器上的模型适用性在SwinTransformer上的模型适用性消融实验paper：https://arxi
如何使用YOLOv8在AI-TOD数据集上进行遥感目标检测，从安装依赖项、准备数据集、配置YOLOv8、训练和评估模型以及构建GUI应用程序展示检测计算机C9硕士_算法工程师人工智能 YOLO 目标检测遥感
如何使用YOLOv8在AI-TOD数据集上进行遥感目标检测，从安装依赖项、准备数据集、配置YOLOv8、训练和评估模型以及构建GUI应用程序展示检测文章目录1.安装依赖2.数据准备3.配置YOLOv83.1加载预训练模型或自定义模型4.训练模型5.评估模型6.构建GUI应用程序（可选）以下文字及代码仅供参考。遥感目标检测，AI-TOD数据集aitod，训练集11214张，测试集集14018，验证集
Yolo系列之Yolo的基本理解是十一月末 YOLO python 开发语言 yolo
YOLO的基本理解目录YOLO的基本理解1YOLO1.1概念1.2算法2单、多阶段对比2.1FLOPs和FPS2.2one-stage单阶段2.3two-stage两阶段1YOLO1.1概念YOLO(YouOnlyLookOnce)是一种基于深度学习的目标检测算法，由JosephRedmon等人于2016年提出。它的核心思想是将目标检测问题转化为一个回归问题，通过一个神经网络直接预测目标的类别和位
深度学习与目标检测系列(六) 本文约(4.5万字) | 全面解读复现ResNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch 人工智能 ResNet 残差连接残差网络
文章目录解读Abstract—摘要翻译精读主要内容Introduction—介绍翻译精读背景RelatedWork—相关工作ResidualRepresentations—残差表达翻译精读主要内容ShortcutConnections—短路连接翻译精读主要内容DeepResidualLearning—深度残差学习ResidualLearning—残差学习翻译精读ResNet目的以前方法本文改进本质
深度学习与目标检测系列(三) 本文约(4万字) | 全面解读复现AlexNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch AlexNet 人工智能
文章目录解读Abstract-摘要翻译精读主要内容1.Introduction—前言翻译精读主要内容：本文主要贡献：2.TheDataset-数据集翻译精读主要内容：ImageNet简介：图像处理方法：3.TheArchitecture—网络结构3.1ReLUNonlinearity—非线性激活函数ReLU翻译精读传统方法及不足本文改进方法本文的改进结果3.2TrainingonMultipleG
Pytorch使用手册-DCGAN 指南（专题十四） AI专题精讲 Pytorch入门到精通 pytorch 人工智能 python
1.Introduction本教程将通过一个示例介绍DCGANs（深度卷积生成对抗网络）。我们将训练一个生成对抗网络（GAN），在给它展示大量真实名人照片后，它能够生成新的“名人”图片。这里的大部分代码来源于PyTorch官方示例中的DCGAN实现，而本文档将对该实现进行详细解释，并阐明这种模型的运行机制及其背后的原因。无需担心，你不需要事先了解GAN的知识，但初次接触的读者可能需要花一些时间来理
不搞花里胡哨！CMU最新开源：极简风格的LiDAR全景分割+跟踪！ 3Ｄ视觉工坊 3D视觉从入门到精通 3D视觉
来源：3D视觉工坊在公众号「3D视觉工坊」后台，回复「原论文」可获取论文pdf、代码链接添加微信：dddvisiona，备注：三维点云，拉你入群。文末附行业细分群1.笔者个人体会激光雷达全景分割（LPS）一般遵循自下而上的以分割为中心的范式，利用聚类获得对象实例来建立语义分割网络。但是最近CMU&Meta等大佬们重新思考了这种方法，并提出了一个简单而有效的检测中心网络，用于LPS和跟踪。这项工作也
【论文解读】DSVP：通过动态扩展实现快速探索的双阶段视点规划器 Travis.X 论文解读自动驾驶动态规划人工智能
标题：DSVP:Dual-StageViewpointPlannerforRapidExplorationbyDynamicExpansion作者：HongbiaoZhu,ChaoCao,YukunXia,SebastianScherer,JiZhang,andWeidongWang来源：https://frc.ri.cmu.edu/~zhangji/publications/IROS_2021.
强化学习中的深度卷积神经网络设计与应用实例数字扫地僧计算机视觉 cnn 人工智能神经网络
I.引言强化学习（ReinforcementLearning，RL）是机器学习的一个重要分支，通过与环境的交互来学习最优策略。深度学习，特别是深度卷积神经网络（DeepConvolutionalNeuralNetworks，DCNNs）的引入，为强化学习在处理高维度数据方面提供了强大工具。本文将探讨强化学习中深度卷积神经网络的设计原则及其在不同应用场景中的实例。II.深度卷积神经网络在强化学习中的
10.2 如何解决从复杂 PDF 文件中提取数据的问题？墨染辉大语言模型 pdf
10.2如何解决从复杂PDF文件中提取数据的问题？解决方案：嵌入式表格检索解释：嵌入式表格检索是一种专门针对从复杂PDF文件中的表格提取数据的技术。它结合了表格识别、解析和语义理解，使得从复杂结构的表格中检索信息成为可能。具体步骤：表格检测和识别：目标：在PDF页面中准确地定位和识别表格区域。方法：使用计算机视觉和深度学习技术，如卷积神经网络（CNN）或其他先进的图像处理算法。效果：能够检测出页面
论文解读 | 《忍冬桑黄发酵产黄酮类化合物的研究》桑黄研究员健康医疗人工智能
出版日期：2022年发表刊物：《中南林业科技大学》论文作者：朱姝枚桑黄（Sanghuangporus）是一种传统的药用真菌，具有显著的免疫增强和抗肿瘤功效。黄酮类化合物作为桑黄中的高含量次生代谢物，主要存在于其菌丝和子实体中，对人体健康具有重要作用。近年来，随着人们对健康的日益关注，利用食用菌作为原料提取黄酮类化合物的研究逐渐成为营养学领域的重要课题。忍冬桑黄（Sanghuangporusloni
机器学习是怎么一步一步由神经网络发展到今天的Transformer架构的？ yuanpan 机器学习神经网络 transformer
机器学习和神经网络的发展经历了一系列重要的架构和技术阶段。以下是更全面的总结，涵盖了从早期神经网络到卷积神经网络之前的架构演变：1.早期神经网络：感知机（Perceptron）时间：1950年代末至1960年代。背景：感知机由FrankRosenblatt提出，是第一个具有学习能力的神经网络模型。它由单层神经元组成，可以用于简单的二分类任务。特点：输入层和输出层之间直接连接，没有隐藏层。使用简单的
C++ STL常用库的使用方法（一）小崔的技术博客算法 c++算法开发语言
文章目录（0）C++STL介绍（0）C++STL组件(一)Vector容器1）创建vector2）尾部元素扩张3）访问Vector元素4)元素的删除5)元素的排序6)向量的大小(二)String基本字符系列容器1）创建String对象2)给String赋值(三)set集合容器1）创建set集合对象2)元素的插入与中序遍历3)元素的反向遍历4)元素的删除5)元素的检索(四)map映射容器1）map创
常见经典目标检测算法 109702008 人工智能 #深度学习目标检测人工智能
ChatGPT目标检测（ObjectDetection）是计算机视觉领域的一个重要分支，其目的是识别数字图像中的不同对象，并给出它们的位置和类别。近年来，许多经典的目标检测算法被提出并广泛应用。以下是一些常见的经典目标检测算法：1.R-CNN（RegionswithCNNfeatures）:R-CNN通过使用区域提议方法（如选择性搜索）首先生成潜在的边界框，然后使用卷积神经网络(CNN)提取特征，
目标检测中归一化的目的？林语微光 kaggle 目标检测目标跟踪人工智能
在目标检测任务中，归一化坐标和尺寸时需要除以图像的宽度和高度，主要有以下几个原因：1.统一尺度不同图像可能具有不同的宽度和高度。通过将坐标和尺寸除以图像的宽度和高度，可以将所有图像的标注信息统一到相同的尺度范围（[0,1]）。这使得模型在训练和推理时能够处理任意尺寸的图像，而不需要关心图像的具体像素尺寸。2.位置和尺寸的相对性归一化后的坐标和尺寸是相对于图像尺寸的，而不是绝对像素值。这种相对性使得
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">