喜欢数学一辈子

gcn语义分割_语义分割江湖的那些事儿——从旷视说起

点击我爱计算机视觉标星，更快获取CVML新技术

本文来自知乎Face++ Detection组专栏，52CV获作者ycszen授权转载。

https://zhuanlan.zhihu.com/p/55263898

今天的主题是 Face++ Detection 组近两年持续在做的 Semantic Segmentation相关工作，代表性成果主要有 1)GCN (CVPR2017)、2)DFN (CVPR2018)、3)BiSeNet (ECCV2018)。

我们先来看一段演示 Demo：

回顾

介绍算法之前，我们先简单回顾一下语义分割(semantic segmentation)的历史。众所周知，计算机视觉有三大核心任务——分类、检测、分割，三者号称是深度学习炼丹师的“三大浪漫”。分类针对整张图片，检测针对图片的局部，语义分割则如图1所示，旨在给输入图片上的每个像素赋予一个正确的语义标签。

图 1：PASCAL VOC 2012 图片示例

传统的分割算法我们先按下不表。时间拨回到 2015 年，语义分割江湖之中，FCN 横空出世，自此 DL/NN 方法席卷了整个语义分割领域。短短几年，各个 Benchmark 的 state-of-the-art 不断刷新，成果喜人。

FCN 前期阶段，研究重点主要是解决“网络逐渐衰减的特征尺寸和需要原图尺寸的预测之间的矛盾”，换言之，就是如何解决网络不断 downsample 造成的信息损失；期间百家争鸣，百花齐放，涌现了希望保存或者恢复信息的 unpool、deconv 等方法，也出现了进行结构预测的各种花式 CRF 方法。

“大道之争”之中，碰撞出了两个最重要的设计：U-shape Structure 和 Dilation Conv，据此形成当下语义分割领域网络设计最常见的两大派系：1)U-shape 联盟以 RefineNet、GCN、DFN 等算法为代表；2)Dilation 联盟以 PSPNet、Deeplab 系列方法为代表；随着 Base Model 性能不断提升，语义分割任务的主要矛盾也逐渐渐演变为“如何更有效地利用 context”；这中间又是一番腥风血雨，我们今天介绍的 3 位主角也在其中贡献了一份力量。

介绍

语义分割任务同时需要 Spatial Context 和 Spatial Detail 。今天我们介绍的三种算法都将从这两方面分别提出各自对应的解决方案。整体对比如下：

Global Convolutional Network

第一位主角是 CVPR2017 算法 Global Convolutional Network(GCN)，江湖人送外号“Large Kernel”。论文 Arxiv 链接请见：arxiv.org/abs/1703.0271。

——Motivation——

GCN 主要将 Semantic Segmentation分解为：Classification 和 Localization两个问题。但是，这两个任务本质对特征的需求是矛盾的，Classification需要特征对多种Transformation具有不变性，而 Localization需要对 Transformation比较敏感。但是，普通的 Segmentation Model大多针对 Localization Issue设计，正如图2(b)所示，而这不利于 Classification。

图2

所以，为了兼顾这两个 Task，本文提出了两个 Principle：

从 Localization 来看，我们需要全卷积网络，而且不能有全连接或者全局池化等操作丢失位置信息。
从 Classification 来看，我们需要让 Per-pixel Classifier 或者 Feature Map 上每个点的连接更稠密一些，也就需要更大的 Kernel Size，如图 2(c) 所示。

——网络结构——

根据这两条 Principle，本文提出了Global Convolutional Network(GCN)。如图3所示，这个方法整体结构正是背景介绍中提到的U-shape结构，其核心模块主要包括：GCN 和 BR。

图3 网络结构

此处主要介绍GCN设计。正如图3(b)所示，它采用了较大 Kernel Size的卷积核，来同时解决上述的两个 Issue；然后根据矩阵分解，利用1 x k + k x 1 和k x 1 + 1 x k 的卷积来替代原来的k x k 大核卷积。相对于原本的大核卷积，该设计能明显降低参数量和计算量。图4可视化了 Large Kernel Conv 和普通 Conv网络有效感受野的对比。

图4

可以看到，Large Kernel Conv 的有效感受野显著增大。

——实验——

文中为了验证 Large Kernel Conv的有效性，对比了不同 Size的 Kernel，可以看到Kernel Size=15时比 Base Network整整高了 5.5% mean IoU.

此外，文中还对 Large Kernel Conv 进行了一系列讨论。

GCN 的有效是否得益于更多的参数？
在GCN中，随着 Kernel Size的增加，网络参数也随之增长，那么网络性能的提升是否得益于使用了更多的参数？为了证明提升来自于设计的有效性而不是增加了复杂度，文中设计了不同 Kernel Size的GCN和普通Conv的对比实验。

通过实验结果可知，随着 Kernel Size的增加，普通 Conv的参数量远大于GCN，但是GCN的性能却持续地优于普通 Conv。

GCN使用 Large Kernel Size增大了感受野，是否可以通过堆叠多个 Small Kernel Size的 Conv来替代？
文章为此设计了实验对比两者的结果。

可以看到 GCN 依然优于普通 Conv 的堆叠，尤其是在较大 Kernel Size 的情况下。笔者认为这是一个很有价值的实验，可以启发我们去思考关于网络感受野的问题。我们以往认为，通过堆叠多个小核 Conv 可以达到和大核 Conv 一样的感受野，同时计算量还更少。最常见的应用比如 VGG-Net。但是，实际上并非如此。

随着网络深度的提升，理论上网络的感受野大多可以直接覆盖全图，但是实际有效感受野却远小于此。笔者的理解是对同一个 Feature Map 进行卷积，边缘区域进行计算的次数会小于中心区域，所以随着 Conv 的不断堆叠，实际上会导致边缘感受野的衰减，即有效感受野会远小于理论感受野。

最后文中给出了在 PASCAL VOC 2012 和 Cityscapes 上完整的 Training Strategy，这在当时还是很良心的，之前的一些 Paper 对此都语焉不详。具体详细的 Training 过程请参考原文。

最终 GCN 在 PASCAL VOC 2012 和 Cityscapes 上都取得了不错的结果。

——PASCAL VOC 2012——

——Cityscapes——

Discriminative Feature Network

接下来出场的是 CVPR2018 算法 Discriminative Feature Network(DFN)。论文Arxiv链接请见：arxiv.org/abs/1804.0933。详细解读请见：CVPR 2018 | 旷视科技Face++提出用于语义分割的判别特征网络DFN(https://zhuanlan.zhihu.com/p/36540674)。

——Motivation——

本文总结了现有语义分割方法仍然有待解决的两类 Challenge(如图 5 所示)：

Intra-class Inconsistency(具有相同的语义标签，不同的表观特征的区域)
Inter-class Indistinction(具有不同的语义标签，相似的表观特征的区域)

图5

所以，本文从宏观角度出发重新思考语义分割任务，提出应该将同一类的 Pixel考虑成一个整体，也就需要增强类内一致性，增大类间区分性。总结而言，我们需要更具有判别力的特征。

——网络结构——

本文提出的DFN主要包括两部分：Smooth Network 和 Border Network，如图6所示。

图6

Smooth Network 主要解决类内不一致性问题。文中认为类内不一致性问题主要来自Context 的缺乏。进而，我们需要引入 Multi-scale Context 和 Global Context；但是，不同 Stage 的特征虽然带来了 Multi-scale Context，与此同时也带来了不同的判别能力；因此，我们需要对这些具有不同判别力的特征进行筛选，这就诞生了其中核心的设计——Channel Attention Block(CAB)。

CAB 利用相邻 Stage 的特征计算 Channel Attention 然后对 Low-stage 的特征进行筛选，如图 7 所示。因为文中认为，High-stage 的特征语义信息更强，更具有判别力。

图7

此外，本文首次在 U-shape 结构中采用 Global Average Pooling，这个设计非常有效。ParseNet 首次在语义分割中使用 Global Average Pooling 提取 Global Context，而之后的 PSPNet，Deeplab V3 将其在 Dilation 阵营发扬光大。而本文将其应用 U-shape 的High-stage，并命名为“V-shape”。我们尝试将其迁移到 Detection 中的 FPN 结构，结果证明同样有效。

Border Network 主要解决类间低区分性的问题。文中认为具有相似表观特征的不同区域很容易被网络混淆，尤其是相邻之时。所以，需要增大特征之间的区分性。为此文章显式地引入了 Semantic Boundary 来引导特征学习。因为 Low-stage 主要关注一些细节边缘区域，而随着语义的增强，High-stage 的特征才是更多关注语义边界，所以 Border Network 采用了“反 U-shape”结构。

——实验——

文中进行了丰富的消融实验和可视化分析。

首先是对 Smooth Network 各部分的消融实验分析。可以看到Smooth Network非常有效，在PASCAL VOC 2012 Validation Set上可以达到 Single Scale 79.54% mean IoU。

而通过可视化输出，可以看到Smooth Network确实可以将类内区域变得更加一致，如图8所示。

图8

同时，文中还对 Smooth Network 和 Border Network 进行了消融实验分析。

通过可视化Border Network的输出，可以看到Border Network确实可以很好地关注到Semantic Boundary区域，如图9所示。

图9

最终，DFN在PASCAL VOC 2012和 Cityscapes上性能都达到了当时的state-of-the-art。

BiSeNet

最后出场的主角是 ECCV 2018 算法 Bilateral Segmentation Network(BiSeNet)。前面两个算法主要关注 Accuracy，探索 mean IoU 的极限；而 BiSeNet 关注于做出一个既快又好的实时语义分割算法。最终该算法在 Cityscapes 上能取得 68.4% mean IoU 105 FPS (NVIDIA Titan XP)的好成绩。当然，我们希望这篇工作能抛砖引玉，尝试探讨到底什么架构才更适合 Segmentation 任务，什么框架才能很好地同时获得充足的 Context 和丰富的空间信息？论文 Arxiv 链接请见：arxiv.org/abs/1808.0089。

详细解读请见：ECCV 2018 | 旷视科技提出双向网络BiSeNet：实现实时语义分割(https://zhuanlan.zhihu.com/p/41475332)。

——Motivation——

本文对之前的实时性语义分割算法进行了总结，发现当前主要有三种加速方法：1) 通过 Crop 或者 Resize 限制输入图片进而减少计算量；2) 减少网络通道数，尤其是 Early Stage；3) 还有像 ENet 类似的方法直接丢掉最后一个 Stage，如图10(a)所示。

这些提速的方法会丢失很多 Spatial Details 或者牺牲 Spatial Capacity，从而导致精度大幅下降。为了弥补空间信息的丢失，有些算法会采用 U-shape 的方式恢复空间信息。但是，U-shape 会降低速度，同时很多丢失的信息并不能简单地通过融合浅层特征来恢复，如图 10(b) 所示。

图10

总结而言，实时性语义分割算法中，加速的同时也需要重视空间信息。基于这些观察，本文提出了一种新的解决方案Bilateral Segmentation Network(BiSeNet)。

——网络结构——

BiSeNet区别于 U-shape 和 Dilation 结构，尝试一种新的方法同时保持 Spatial Context 和 Spatial Detail 。所以，我们设计了Spatial Path和Context Path两部分。顾名思义，Spatial Path使用较多的 Channel、较浅的网络来保留丰富的空间信息生成高分辨率特征；Context Path使用较少的 Channel、较深的网络快速 downsample来获取充足的 Context。基于这两路网络的输出，文中还设计了一个Feature Fusion Module(FFM)来融合两种特征，如图11所示。

图11

Spatial Path 只包含三个stride = 2 的 Conv+BN+Relu，输出特征图的尺寸为原图的1/8。为了访存比考虑，此处并没有设计 Residual结构。

Context Path 可以替换成任意的轻量网络，比如 Xception，ShuffleNet 系列，MobileNet 系列。本文主要采用 Xception39 和 ResNet-18 进行实验。可以看到，为了准确率考虑，Context Path 这边使用了类似 U-shape 结构的设计。不过，不同于普通的 U-shape，此处只结合了最后两个 Stage，这样设计的原因主要是考虑速度。此外，和 DFN 类似，Context Path 依然在最后使用了 Global Average Pooling 来直接获取Global Context。

最后，文章中提到因为两路网络关注的信息不同，属于 Different Level 的特征，所以文中设计了一个 FFM 结构来有效融合两路特征。

——实验——

本文从精度和速度两个维度，进行了丰富的分析实验。

首先文中分析了 Context Path 这边使用不同变体的 U-shape 结构的速度和精度的对比。

此处，U-shape-8s 就是文中所展示的结构，U-shape-4s 则是普通的 U-shape 设计，即融合了更多 stage 特征。可以看到，U-shape-4s 的速度会明显慢于 U-shape-8s.

文中还对 BiSeNet 的各个部分进行了消融分析实验。

文中还给出了 BiSeNet 的 GFLOPS、参数量等信息，以及在不同硬件平台不同分辨率下的速度对比。

文中给出了 BiSeNet 分别与实时性算法和非实时性算法比较的结果。

与实时性算法比较：

虽然 BiSeNet 是实时性算法，但是它的精度甚至比一些非实时性算法还高。

与非实时性算法比较：

可以看到，BiSeNet 是一种很有效的设计。当替换上大模型之后，精度甚至高于 PSPNet 等算法。另外，需要注意的是，为了和非实时性算法进行比较，在关注精度这部分实验 BiSeNet 使用的不同于关注速度部分的 Setting，具体细节详见论文。

BiSeNet 算法对实时性语义分割算法提出了新的思考，在提升速度的同时也需要关注空间信息。同时，该设计也是一次对 Segmentation Backbone 的思考，希望设计一个对 Segmentation 任务友好的框架，当然现在还存在许多需要改进的地方。此外，该方法不仅仅可应用于实时性语义分割算法，也可应用于其他领域，尤其是在对 Spatial Detail 和 Context 同时有需求的情况下。据笔者了解，已有研究将其应用于 Potrait Segmentation.

重要的事情

我们的 DFN 和 BiSeNet 均已开源，后续将有更多的语义分割算法复现开源出来，欢迎大家 Star 和 Contribute：
https://github.com/ycszen/TorchSeg
欢迎各位同学加入旷视科技 Face++ Detection Team，简历可以投递给 Detection 组负责人俞刚 ([email protected])

Reference

[1] Peng, C., Zhang, X., Yu, G., Luo, G., & Sun, J. (2017). Large kernel matters—improve semantic segmentation by global convolutional network. In Computer Vision and Pattern Recognition (CVPR), 2017 IEEE Conference on(pp. 1743-1751). IEEE.

[2] Yu, C., Wang, J., Peng, C., Gao, C., Yu, G., & Sang, N. (2018). Learning a Discriminative Feature Network for Semantic Segmentation.arXiv preprint arXiv:1804.09337.

[3] Yu, C., Wang, J., Peng, C., Gao, C., Yu, G., & Sang, N. (2018, September). Bisenet: Bilateral segmentation network for real-time semantic segmentation. InEuropean Conference on Computer Vision(pp. 334-349). Springer, Cham.

[4] Long, J., Shelhamer, E., & Darrell, T. (2015). Fully convolutional networks for semantic segmentation. InProceedings of the IEEE conference on computer vision and pattern recognition(pp. 3431-3440).

[5] Ronneberger, O., Fischer, P., & Brox, T. (2015, October). U-net: Convolutional networks for biomedical image segmentation. InInternational Conference on Medical image computing and computer-assisted intervention(pp. 234-241). Springer, Cham.

---------解读者介绍-------

余昌黔，华中科技大学自动化系在读博士，旷视科技研究院算法实习生，语义分割算法DFN、BiSeNet 第一作者，研究方向涵盖语义分割、全景分割、快速分割、视频分割等，并在上述方向有着长期深入的研究；2018 年，参加计算机视觉顶会 ECCV 挑战赛 COCO+Mapillary，分获全景分割(Panoptic Segmentation)两项冠军，并受邀作现场口头报告。

个人网页：

http://changqianyu.me/

加入语义分割专业群

加入52CV-语义分割专业讨论群，扫码添加52CV君(your-word)拉你入群：

(请务必注明:语义分割)

喜欢在QQ交流的童鞋，可以加52CV官方QQ群：928997753。

(不会时时在线，如果没能及时通过验证还请见谅)

更多技术干货，详见：

"我爱计算机视觉"干货集锦分类汇总(2019年1月20日)

长按关注我爱计算机视觉

给我一个好看吧！

ResNet（Residual Network）不想秃头的程序神经网络语音识别人工智能深度学习网络残差网络神经网络
ResNet（ResidualNetwork）是深度学习中一种经典的卷积神经网络（CNN）架构，由微软研究院的KaimingHe等人在2015年提出。它通过引入残差连接（SkipConnection）解决了深度神经网络中的梯度消失问题，使得网络可以训练极深的模型（如上百层），并在图像分类、目标检测、语义分割等任务中取得了突破性成果。以下是ResNet的详细介绍：一、核心思想ResNet的核心创新是
【深度学习加速探秘】Winograd 卷积算法：让计算效率 “飞” 起来 heimeiyingwang 算法深度学习算法人工智能
一、为什么需要Winograd卷积算法？从“卷积计算瓶颈”说起在深度学习领域，卷积神经网络（CNN）被广泛应用于图像识别、目标检测、语义分割等任务。然而，卷积操作作为CNN的核心计算单元，其计算量巨大，消耗大量的时间和计算资源。随着模型规模不断增大，传统卷积算法的计算效率成为限制深度学习发展的一大瓶颈。Winograd卷积算法的出现，犹如一把利刃，直击传统卷积计算的痛点。它通过巧妙的数学变换，大幅
基于深度学习的智能图像语义分割系统：技术与实践 Blossom.118 机器学习与人工智能深度学习人工智能 python 分类音视频机器学习 sklearn
前言图像语义分割是计算机视觉领域中的一个重要任务，其目标是将图像中的每个像素分配到预定义的语义类别中。这一技术在自动驾驶、医学影像分析、机器人视觉等多个领域有着广泛的应用。近年来，深度学习技术，尤其是卷积神经网络（CNN）及其变体，为图像语义分割带来了显著的改进。本文将详细介绍基于深度学习的智能图像语义分割系统的原理、实现方法以及实际应用案例。一、图像语义分割的基本概念1.1什么是图像语义分割？图
linux 下 jenkins 构建 uniapp node-sass 报错无名前端小白 uni-app sass 前端
背景:jenkins中构建uniapp应用配置:1.将windowsHbuilderX插件目录下的uniapp-cli文件夹复制到服务器/var/jenkins_home/uniapp-cli2.jenkins构建步骤增加执行shell,内容如下echo">>构建中..."#打包前端exportLANG=en_US.UTF-8npminstall-gcnpm--registry=https://r
[论文阅读]PIDNet: A Real-time Semantic Segmentation Network Inspired by PID Controllers 颜笑晏晏论文阅读
1.摘要双分支网络结构已显示出其对实时语义分割任务的效率性和有效性。然而，低级细节和高级语义的直接融合将导致细节特征容易被周围上下文信息淹没，即本文中的超调(overshoot)，这限制了现有两个分支模型的准确性的提高。在本文中，我们在卷积神经网络（CNN）和比例积分微分（PID）控制器之间架起了桥梁，并揭示了双分支网络只是一个比例积分（PI）控制器，当然也会存在类似的超调问题。为了解决这个问题，
【GitHub开源项目实战】DINOv2 自监督视觉模型深度解构：多任务零微调性能与多分辨率表征架构解析观熵 GitHub开源项目实战 github 开源架构人工智能
DINOv2自监督视觉模型深度解构：多任务零微调性能与多分辨率表征架构解析关键词DINOv2、自监督视觉模型、ViT、多分辨率表示、语义分割、深度估计、Zero-shot、图像表示学习、OpenCLIP替代、MetaAI摘要DINOv2是由MetaAIResearch推出的下一代自监督视觉基础模型，在保持不依赖人工标签的前提下，显著提升了多任务性能，尤其在语义分割、图像分类、深度估计等下游任务中超
python批量修改xml文件爱上答复 xml
计算机视觉领域是当下比教热门的一个研究领域，包括目标检测，实例分割，语义分割等，不可避免会涉及到xml文件的修改，如果一两个文件的话，修改起来还算简答，但是实际情况中，远不止一个文件，且一个文件中也会包含多组属性。所以直接上代码，我习惯用pycharm编辑器来实现。importxml.dom.minidomforiinrange(0,100,5):path1="xxx"+str(i)+".xml"
鸿蒙开发实战之Image Kit重构美颜相机图像处理管线 harmonyos-next
一、核心能力突破通过ImageKit实现三大技术革新：硬件加速处理4K图像处理延迟降至16ms（NPU+GPU协同）支持10bitHDR管线（BT.2020色域）AI增强算法实时皮肤质感分析（98%毛孔保留率）智能背景重构（语义分割精度±1像素）跨平台一致性相同算法在麒麟/骁龙平台输出差异{updatePreview(result);});//超分辨率重建image.superResolution
如果使用npm 命令安装了‘crypto-js’ 但是npm list显示没有的话 Cannot find module ‘crypto-js’——python调用crypto-js报错情况下阿~苏 javascript 开发语言 ecmascript
如果使用npm命令安装了crypto-js但是npmlist显示没有的话，可使用命令行代码如下：npminstall-gcnpm--registry=https://registry.npm.taobao.org这是下载命令cnpminstallcrypto-js同时如果python无法调用crypto-js时，把下载下来的crypto-js文件夹复制到node_modules目录下全局和本地都得
18 - GCNet Leo Chaw 深度学习算法实现深度学习计算机视觉人工智能 pytorch
论文《GCNet:Non-localNetworksMeetSqueeze-ExcitationNetworksandBeyond》1、作用GCNet通过聚合每个查询位置的全局上下文信息来捕获长距离依赖关系，从而改善了图像/视频分类、对象检测和分割等一系列识别任务的性能。非局部网络（NLNet）首次提出了通过聚合查询特定的全局上下文到每个查询位置来捕获长距离依赖的方法。GCNet在此基础上进行了改
图注意力卷积神经网络GAT在无线通信网络拓扑推理中的应用 zzc921 无线通信网络拓扑推理 cnn 人工智能神经网络无线通信网络拓扑推理 WCNA GCN GAT
如果已经编写好了GCN的程序，改写GAT的程序是很方便的，torch_geometric.nn下既有一般图神经网络GCNConv包,也有图注意力神经网络GATConv包程序：#作者：zhouzhichao#创建时间：25年6月10日#内容：比较GAT和GCN在无线通信网络拓扑推理中的效果importwarningswarnings.simplefilter(action='ignore',cate
图卷积网络：从理论到实践 Morpheon 人工智能深度学习机器学习网络
图卷积网络（GraphConvolutionalNetworks,GCNs）彻底改变了基于图的机器学习领域，使得深度学习能够应用于非欧几里得结构，如社交网络、引文网络和分子结构。本文将解释GCN的直观理解、数学原理，并提供代码片段帮助您理解和实现基础的GCN。图表示法基础定义图G=(V,E)，其中：VVV：节点集合EEE：边集合A∈RN×NA\in\mathbb{R}^{N\timesN}A∈RN
dll找不到dll electron_记录 electron-vue 通过node ffi调用dll文件踩的坑苏承心 dll找不到dll electron
记录踩的坑,防止以后忘记一些注意点1.需要用window电脑2.npm容易出错,建议使用cnpmnpminstall-gcnpm--registry=https://registry.npm.taobao.org3.如果dll是32位的nodejs和electron都要使用对应的版本才可以使用,4.nodejs版本建议9版本以下复制代码拉取electron及依赖安装//首先安装node-gyp1.
【语义分割专栏】3：Segnet原理篇 fouen 语义分割人工智能计算机视觉深度学习神经网络 pytorch
文章目录前言背景介绍Segnet核心剖析池化索引(poolingIndices)其他细节编码器解码器的对称结构Segnet模型代码结语参考资料前言本篇文章收录于语义分割专栏，如果对语义分割领域感兴趣的，可以去看看专栏，会对经典的模型以及代码进行详细的讲解哦！其中会包含可复现的代码！带大家深入语义分割的领域，将从原理，代码深入讲解，希望大家能从中有所收获，其中很多内容都包含着自己的一些想法以及理解，
COCO-Stuff数据集：基于YOLOv5的多类别目标检测与分割实现 YOLO实战营深度学习YOLO实战项目 YOLO 目标检测人工智能无人机计算机视觉数据挖掘 ui
一、引言随着计算机视觉领域的不断发展，目标检测和语义分割已经成为深度学习中的两个关键任务。COCO-Stuff是一个包含多达172个类别的大型数据集，用于训练和评估计算机视觉算法。与传统的COCO数据集不同，COCO-Stuff不仅包含常见的物体检测任务，还增加了诸如“天空”、“树木”和“路面”等场景理解任务。通过对这个数据集的处理与利用，我们可以构建一个更加丰富的目标检测与语义分割系统。本博客将
深度学习之路——CNN卷积神经网络详解 DeepLinkDeepLink Ai 深度学习 cnn 人工智能
深度学习之路——CNN卷积神经网络详解前言卷积神经网络（ConvolutionalNeuralNetwork,CNN）作为深度学习领域的基础模型，推动了人工智能在图像、视频等方向的爆炸式发展。无论是图像分类、目标检测，还是语义分割、自动驾驶，CNN几乎无处不在。本文将带你系统了解CNN的基本原理、结构组成、常用网络、应用场景及简单代码实现。1.什么是CNN？CNN是一类专门处理类似网格结构数据（如
【仿生系统】qwen的仿生机器人解决方案 DFminer 机器人
收到完整需求后，我将从系统架构设计、算法实现路径、训练方法三个维度为您构建完整的仿生机器人解决方案。以下是分阶段实施方案：一、核心系统架构设计（模块化可进化架构）1.多模态感知引擎-视觉子系统：YOLOv8+SAM组合实现实时物体检测+场景语义分割-听觉子系统：Whisper+SpeakerEmbedding+情感识别三重处理-语言理解：基于LLaMA3的增量式语义解析（IncrementalPa
相机--RGB相机猿饵块数码相机
教程RGB--深度相机--激光雷达RGB相机原理：仅捕获红（R）、绿（G）、蓝（B）三通道的彩色图像，输出2D像素矩阵，无深度信息。核心作用：2D视觉任务：目标检测、图像分类、语义分割（如YOLO、ResNet）。优点：成本低：单传感器，硬件简单（如普通手机摄像头）。缺点：无深度信息：需额外算法或传感器获取3D数据。RGB相机和单目相机定义区别名称定义角度典型输出是否包含深度信息RGB相机数据格式
自动驾驶可行驶区域划分综述吃旺旺雪饼的小男孩自动驾驶自动驾驶人工智能机器学习
可行使区域划分1.数据采集与融合的深度解析1.1传感器类型与数据特性1.2多传感器融合方法2.环境感知与特征提取的细节2.1车道线检测技术2.2道路边界识别2.3障碍物检测与区域划分3.可行驶区域划分的实现3.1语义分割与几何建模3.2动态场景处理4.路径规划与决策的细节4.1局部路径规划4.2全局路径规划5.关键技术挑战的深入分析5.1复杂场景处理5.2实时性与计算优化5.3安全与冗余设计6.典
[特殊字符] 基于深度强化学习的机器人路径规划优化方案：从理论到实战 2506_92092175 python
摘要本文提出一种融合深度确定性策略梯度（DDPG）与图卷积网络（GCN）的混合架构，针对高动态环境下移动机器人路径规划问题展开研究。通过自研仿真平台验证，该方案在动态障碍物规避、路径平滑度等维度较传统A*算法提升显著，同时兼顾实时性要求。完整代码与训练日志已开源至GitHub，诚邀技术同仁共同探讨。一、核心痛点分析1.1传统算法局限性算法类型优势劣势Dijkstra理论最优性计算复杂度O(V²)，
深度学习在建筑物提取中的应用综述一瞬祈望数据集深度学习人工智能
深度学习在建筑物提取中的应用综述目录深度学习在建筑物提取中的应用综述@[toc](目录)深度学习在建筑物提取中的应用综述一、建筑物提取简介二、深度学习方法分类1.语义分割（SemanticSegmentation）2.实例分割（InstanceSegmentation）3.边界感知分割（Boundary-awareSegmentation）4.多模态融合方法三、主流建筑物提取公开数据集及分析四、数
使用paddleX进行目标检测详解狸不凡机器学习深度学习神经网络
前言使用百度开源的paddleX工具，我们可以很容易快速训练出使用我们自己标注的数据的目标检测，图像分类，实例分割，语义分割的深度网络模型，本文，主要记录如何全流程使用pddleX来训练一个简单用于检测猫狗ppyolo_tiny模型。（一）数据准备这里的图片，我们直接在百度图片上搜索“猫狗”，随机下载10张图片，存到“JPEGImages文件夹”里。（二）使用labelme标注工具进行标注（1）l
高精地图与SLAM：依赖停车场高精地图提供结构信息，结合SLAM（同步定位与地图构建）技术实现实时定位与导航百态老人人工智能机器学习算法
基于现有资料，截至2025年3月1日，高精地图与SLAM技术在停车场场景中的结合应用主要体现在以下几个方面：1.SLAM的实时定位与增量地图构建SLAM技术通过激光雷达、摄像头、IMU等传感器实时采集环境特征（如停车场内的柱子、停车线、减速带等），并利用算法（如GraphSLAM、EKF、视觉语义分割）进行匹配定位，同时构建增量式地图。这种能力使得车辆即使初次进入未知停车场，也能在无GNSS信号的
java 实现仿word2007字数统计功能 e网情深e java
近期做一个阅读app,需要统计字符，为了与word保持一致，在网上找了一番，最终找到一个可以使用的，贡献给大家。/***类似word统计字符数**@paramcontext*@return*/publicstaticintgetMSWordsCount(Stringcontext){intwords_count=0;//中文单词Stringcn_words=context.replaceAll("
PaddleX 使用案例非小号 AI scikit-learn pytorch 人工智能 python 机器学习
以下是PaddleX的典型使用案例，涵盖图像分类、目标检测和语义分割三大场景，展示其从数据准备到模型部署的全流程：案例1：图像分类-垃圾分类识别场景：识别可回收垃圾、有害垃圾、厨余垃圾和其他垃圾四类图片。步骤1：数据准备与标注#1.创建项目目录mkdirgarbage_classification&&cdgarbage_classification#2.下载示例数据集（约2000张图片，4分类）w
飞桨（PaddlePaddle）在机器学习全流程（数据采集、处理、标注、建模、分析、优化）非小号 AI paddlepaddle 机器学习人工智能
以下是飞桨（PaddlePaddle）在机器学习全流程（数据采集、处理、标注、建模、分析、优化）中常用的模型、函数及工具链，结合其生态特点分类说明：一、数据采集与标注1.数据采集工具PaddleX（图像/视频场景）功能：支持图像分类、目标检测、语义分割任务的数据标注，集成标注工具（如矩形框、多边形标注）。官网工具：PaddleX数据标注工具用法：通过图形化界面或命令行启动标注工具，输出标准VOC/
基于RGB与多光谱图像的农田语义分割技术研究及应用中达瑞和-高光谱·多光谱相机
随着智慧农业的发展，精准监测农田环境与作物生长状态成为关键需求。传统遥感技术受限于光谱分辨率与成像条件，难以满足精细化管理要求。本文以无人机搭载中达瑞和S810多光谱相机为技术载体，结合深度学习算法，提出单模态与多模态融合的农田语义分割方法。通过构建专用数据集与创新网络架构，显著提升了复杂场景下的分割精度与环境适应性，为精准农业提供了高效解决方案。一、研究背景与技术挑战农业生产的数字化监测依赖高精
动态神经网络(Dynamic NN)在边缘设备的算力分配策略：MoE架构实战分析学术猿之吻神经网络架构人工智能算法量子计算深度学习机器学习
一、边缘计算场景的算力困境在NVIDIAJetsonOrinNX（64TOPSINT8）平台上部署视频分析任务时，开发者面临三重挑战：动态负载波动视频流分辨率从480p到4K实时变化，帧率波动范围20-60FPS能效约束设备功耗需控制在15W以内（被动散热）多任务耦合典型场景需同步处理：目标检测（YOLOv8s）行为识别（SlowFast）语义分割（DeepLabv3）二、MoE架构的核心技术解析
【时空图神经网络 & 交通】相关模型2：STSGCN | 时空同步图卷积网络 | 空间相关性，时间相关性，空间-时间异质性追光者♂ 百题千解计划(项目实战案例）STSGCN 空间-时间同步图卷积模块 STSGCM 深度学习人工智能 Traffic 空间-时间异质性
注：仅学习使用~前情提要：【时空图神经网络&交通】相关模型1：STGCN|完全卷积结构，高效的图卷积近似，瓶颈策略|时间门控卷积层：GLU（GatedLinearUnit），一种特殊的非线性门控单元目录STSGCN-2020年1.1背景1.2模型1.2.1问题背景：现有模型存在的问题1.2.2模型1.3问答Q1：STSGCM补充：构造局部时空图的方式（LocalizedSpatial-Tempor
助力移动机器人下游任务！Mobile-Seed：联合语义分割和边缘检测 3Ｄ视觉工坊 3D视觉从入门到精通计算机视觉
点击下方卡片，关注「3D视觉工坊」公众号选择星标，干货第一时间送达来源：3D视觉工坊添加小助理：dddvision，备注：语义分割，拉你入群。文末附行业细分群0.写在前面移动机器人经常需要定位语义目标和目标边缘，但大多数研究只集中在语义分割的部署上。今天笔者为大家推荐一篇开源工作，实现了语义分割和边缘检测的联合学习。下面一起来阅读一下这项工作~1.论文信息标题：Mobile-Seed:JointS
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http

gcn语义分割_语义分割江湖的那些事儿——从旷视说起

回顾

介绍

重要的事情

你可能感兴趣的:(gcn语义分割)