OpenMMLab

超详细！带你轻松掌握 MMSegmentation 整体构建流程

1.语义分割介绍

2.语义分割的应用

自动驾驶

遥感图像分析

医学图像分析

3.MMSegmentation 算法库框架介绍

3.1 MMSegmentation 目录结构

3.2 MMSegmentation 模型实现

4 总结

大家好呀，今天我们将开启新的解读文章，带领大家了解 MMSegmentation 算法库的整体框架。MMSegmentation 是 OpenMMLab 开源的基于 PyTorch 实现的功能强大的语义分割工具箱，2020 年 7月开源至今， Google citation 已有上百引用 (截止到 2022 年 5 月)，很多有影响力的研究工作，例如 Swin Transformer、ConvNeXt 都有用到 MMSegmentation。

MMSegmentation 的主要特性如下：

丰富的语义分割模型：已支持 11 种主干网络和 34 种算法，例如常用模型 FCN， PSPNet 和 DeepLabV3；Transformer 模型，Swin Transformer、Segmenter 和 SegFormer； Real-Time 实时分割模型， ICNet、BiSeNet 和 STDC 等；以及最近流行的网络 ConvNeXt 和 MAE。
大量开箱即用的模型权重：在 16 个常用的语义分割数据集上提供了 590 个训练好的模型。
统一的性能评估框架：优化和统一了训练和测试的流程，方便公平比较各个模型在特定任务上的表现。

https://github.com/open-mmlab/mmsegmentationgithub.com/open-mmlab/mmsegmentation

1.语义分割介绍

在开始介绍 MMSegmentation 整体架构前，我们先简单了解下分割任务和语义分割任务。分割任务的本质是对图像中的每个像素 pixel 做分类，可以细分为语义分割、实例分割和全景分割，它们之间的不同如下图所示：

来源: ( Panoptic Segmentation https://arxiv.org/pdf/1801.00868.pdf)

从上图可以看出：

语义分割是给图像中的每个像素分配一个类别，得到特定类别的 mask；
实例分割是对特定的物体进行分类，与目标检测输出物体的边界框和类别不同，实例分割输出的是特定物体的 mask 和类别；
全景分割是语义分割和实例分割的结合，对于可数的对象实例 things 如行人、汽车去做实例分割，对于不可数的语义区域 stuff 如天空、地面做语义分割。

目前，MMSegmentation 支持的分割任务为语义分割，MMDetection 中支持了实例分割和全景分割。

2.语义分割的应用

语义分割作为计算机视觉的一项基础任务，在自动驾驶、医学、遥感、视频等各个领域都有着广泛的应用，特定的任务也有常用的数据集和算法模型。虽然具体的任务场景不同，但是它们都属于语义分割任务，因此 MMSegmentation 提供的所有语义分割算法都可以拿来使用。

自动驾驶

图像是自动驾驶中非常重要的数据来源，因为摄像头的成本低于激光雷达，而且相较于点云数据，直观的图像更符合人眼的视觉感受。通过语义分割模型，识别出图像中的特定类别，例如：车道线、车辆和行人，可以辅助自动驾驶系统理解场景，做出决策。目前 MMSegmentation 支持的城市街景数据集 Cityscapes，车道线检测模型 ERFNet，实时语义分割模型 BiSeNet 等都和此相关。

源：Cityscapes 官网示例 https://www.cityscapes-dataset.com/examples/

遥感图像分析

遥感图像主要来源于航空飞行器或卫星的航拍。通过对特定前景进行语义分割，可以获得地面的相关信息如：地表植被的变化情况，停车场车辆或机场飞机的数量变化等。已经在智慧城市和智慧地图中得到了广泛的应用。目前 MMSegmentation 支持了常用的遥感图像分割 RGB 数据集 Potsdam、Vaihingen、和 iSAID。

来源：iSAID官网 https://captain-whu.github.io/iSAID/

医学图像分析

语义分割是医学图像分析中常用的计算机视觉任务，通过分割出相关前景（如器官、肿瘤）可以辅助医生进行诊断，例如评估肿瘤长径的变化来判断放疗或化疗的效果，通过眼底视网膜血管的形态变化来筛查和诊断相关疾病。目前 MMSegmentation 支持了眼底视网膜血管分割数据集 DRIVE、 STARE、CHASE DB1 和 HRF，以及常用于医学图像分割任务的 UNet 算法。

来源：DRIVE 官网 https://drive.grand-challenge.org/

我们希望开源能够让学术界的工作更扎实，让工业界的痛点得到解决。目前 MMSegmentation 在维护的同时，还会不断为一些细分方向如遥感图像、人体解析和医学图像提供更多的支持。欢迎大家加入我们，不管是提建议、需求，还是参与代码贡献，我们都会第一时间响应。

https://github.com/open-mmlab/mmsegmentationgithub.com/open-mmlab/mmsegmentation正在上传…重新上传取消

3.MMSegmentation 算法库框架介绍

现在我们就带大家一起了解下 MMSegmentation 的整体架构，进一步降低大家使用和扩展框架的难度，力争将 MMSegmentation 打造为易懂易上手的主流语义分割框架。

本文解读的是 MMSegmentation v0.24.1 的整体架构，如果后续版本有比较大的改动，我们也会适时更新进行新的解读。
预告一下：在下一篇文章里我们会进一步讲解数据集相关的内容，包括语义分割任务常用的数据集和如何处理自己的数据集，方便大家快速上手 MMSegmentation 进行实验。敬请期待哦！

下面我们对每个模块进行详细解读~

3.1 MMSegmentation 目录结构

按照代码目录下的文件夹，MMSegmentation 代码库主要可以包含四个部分：

（1）./tools 包括了调用 MMSegmentation 作为训练和测试入口的 ./tools/train.py 和 ./tools/test.py，预训练模型和数据集准备的转换脚本，以及部署和可视化相关的脚本。

详细介绍可见 Github 里的文档。

（2） ./configs 包括了各个算法的配置文件、存放常用的数据集配置、基础模型以及训练策略的基配置文件 ./configs/_base_。

（3）./mmseg 里面是 MMSegmentation 的算法库，包括核心组件、数据集处理、分割模型代码和面向用户的 API 接口。

（4）./data 指的是存放数据集的路径，在原本的代码库中没有这个文件夹。用户只需指定正确的文件夹路径即可使用数据。

下面是详细的 MMSegmentation 的算法库目录结构：

# MMSegmentation 算法库目录结构的主要部分 
mmsegmentation 
   | 
   |- configs                        # 配置文件 
   |     |- _base_                   ## 基配置文件 
   |     |     |- datasets             ### 数据集相关配置文件 
   |     |     |- models               ### 模型相关配置文件 
   |     |     |- schedules            ### 训练日程如优化器，学习率等相关配置文件 
   |     |     |- default_runtime.py   ### 运行相关的默认的设置 
   |     |- swin                     ## 各个分割模型的配置文件，会引用 _base_ 的配置并做修改  
   |     |- ...                         
   |- data                           # 原始及转换后的数据集文件 
   |- mmseg  
   |     |- core                     ## 核心组件 
   |     |     |- evaluation           ### 评估模型性能代码 
   |     |- datasets                 ## 数据集相关代码 
   |     |     |- pipelines            ### 数据预处理 
   |     |     |- samplers             ### 数据集采样代码 
   |     |     |- ade.py               ### 各个数据集准备需要的代码 
   |     |     |- ... 
   |     |- models                    ## 分割模型具体实现代码 
   |     |     |- backbones             ### 主干网络 
   |     |     |- decode_heads          ### 解码头 
   |     |     |- losses                ### 损失函数 
   |     |     |- necks                 ### 颈 
   |     |     |- segmentors            ### 构建完整分割网络的代码 
   |     |     |- utils                 ### 构建模型时的辅助工具 
   |     |- apis                      ## high level 用户接口，在这里调用 ./mmseg/ 内各个组件 
   |     |     |- train.py              ### 训练接口 
   |     |     |- test.py               ### 测试接口 
   |     |     |- ... 
   |     |- ops                       ## cuda 算子（即将迁移到 mmcv 中） 
   |     |- utils                     ## 辅助工具 
   |- tools 
   |     |- model_converters          ## 各个主干网络预训练模型转 key 脚本 
   |     |- convert_datasets          ## 各个数据集准备转换脚本 
   |     |- train.py                  ## 训练脚本 
   |     |- test.py                   ## 测试脚本 
   |     |- ...                       
   |- ...

MMSegmentation 的算法库有 3 个关键组件：

1../mmseg/apis/，用于训练和测试的接口

2../mmseg/models/，用于分割网络模型的具体实现

3../mmseg/datasets/，用于数据集处理

本文我们主要介绍算法模型相关的代码，因此涉及内容主要在 ./mmseg/models 里面。

3.2 MMSegmentation 模型实现

Segmentor

MMSegmentation 中将语义分割模型定义为 segmentor，一般包括 backbone、neck、head、loss 4 个核心组件，每个模块的功能如下：

预处理后的数据输入到 backbone（如 ResNet 和 Swin Transformer ）中进行编码并提取特征。
输出的单尺度或者多尺度特征图输入到 neck 模块中进行特征融合或者增强，典型的 neck 是特征金字塔 (Feature Pyramid Networks， FPN)。
上述多尺度特征最终输入到 head 部分，一般包括 decoder head，auxiliary head 以及 cascade decoder head，用以预测分割结果（它们的区别我们会在下文具体介绍）。
最后一步是计算 pixel 分类的 loss，进行训练。

需要说明的是，上述 4 个组件不是每个算法都需要的，比如很多模型里没有 neck 和 auxiliary head 组件。分割器 segmentor 的具体代码见文件 ./mmseg/models/segmentors/。

MMSegmentation 里面的分割器框架可以分为 “Encoder Decoder” 结构和 “Cascade Encoder Decoder” 结构。现有的大多数模型为 “Encoder Decoder” 结构，即利用 encoder 提取图像特征，再用 decoder 去解码上述特征。 “Cascade Encoder Decoder” 的解码部分不是单独的解码头，而是级联式的 2 个或多个解码头，前一个解码头的输出作为后一个解码头的输入。

关于分割器 segmentor 的训练和测试的基本逻辑，以语义分割经典的 “Encoder Decoder” 结构为例：

class EncoderDecoder(BaseSegmentor): 
   def __init__(...): 
        # 构建 backbone、neck 和 head 
        self.backbone = build_backbone(backbone) 
        if neck is not None: 
            self.neck = build_neck(neck) 
        self._init_decode_head(decode_head) 
        self._init_auxiliary_head(auxiliary_head) 
  def forward_train(...):  
        # 利用 backbone+neck 进行特征提取 
        x = self.extract_feat(img) 
        losses = dict() 
        # decode head 输出预测特征图并计算出 loss 
        loss_decode = self._decode_head_forward_train(x, img_metas, 
                                                      gt_semantic_seg) 
        losses.update(loss_decode) 
        # auxiliary heads 输出预测特征图并计算出 loss 
        if self.with_auxiliary_head: 
            loss_aux = self._auxiliary_head_forward_train( 
                x, img_metas, gt_semantic_seg) 
            losses.update(loss_aux) 
        return losses 
 
  def simple_test(...): 
        # 调用 inference 函数，对输入图片做全图或者滑动窗口的推理，得到 logits 值 
        seg_logit = self.inference(img, img_meta, rescale) 
        # 做 argmax 得到预测的 prediction mask 
        seg_pred = seg_logit.argmax(dim=1) 
 
   def aug_test(...): 
        ...

EncoderDecoder 里面分别定义了训练和测试的接口，训练时调用 forward_train() 返回一个 dict，包含各种 loss ，测试时则会调用 simple_test() 或者测试时数据增广的 aug_test()，只返回预测的分割结果。

训练时预测结果并计算 loss 的主要逻辑是在 _decode_head_forward_train 中实现：

def _decode_head_forward_train(...): 
    # 调用每个 head 自身的 forward_train 方法, 并计算出 loss 
 losses = dict() 
    loss_decode = self.decode_head.forward_train(x, img_metas, 
                                                 gt_semantic_seg, 
                                                 self.train_cfg) 
 
    losses.update(add_prefix(loss_decode, 'decode')) 
    # 返回 
    return losses

对于不同的 head，都可以抽象为：seg_logits = self.forward(inputs) ，即：网络前传得到预测的 logtis 值，然后再计算各个 head 的对应 loss：

def forward_train(...): 
 seg_logits = self.forward(inputs) 
    losses = self.losses(seg_logits, gt_semantic_seg) 
    return losses 
 
def losses(self, seg_logit, seg_label): 
 loss = dict() 
    seg_logit = resize( # 将预测得到的 logits 值 resize 成原图大小 
        input=seg_logit, 
        size=seg_label.shape[2:], 
        mode='bilinear', 
        align_corners=self.align_corners) 
    .... 
    for loss_decode in losses_decode: # 分别计算这个 decode head 中的各个 loss 
        if loss_decode.loss_name not in loss: 
            loss[loss_decode.loss_name] = loss_decode( 
                seg_logit, 
                seg_label, 
                weight=seg_weight, 
                ignore_index=self.ignore_index) 
        else: 
            loss[loss_decode.loss_name] += loss_decode( 
                seg_logit, 
                seg_label, 
                weight=seg_weight, 
                ignore_index=self.ignore_index) 
    .... 
    return loss

接下来，我们详细介绍分割器 segmentor 里4 个核心组件：backbone， neck，head，和 loss。

Backbone

目前 MMSegmengtation 中已经集成了大部分主干网络，具体见文件 ./mmseg/models/backbones/，v0.24.1 已经实现的骨架如下：

通常定义的“主干网络” 是指从上游任务（如 ImageNet ）预训练，然后用于多个下游任务（如目标检测、实例分割、语义分割、姿态估计）中的网络，而在 ./mmseg/models/backbones 里主干网络的定义有所不同，会把一些分割算法的网络结构也作为“主干网络”，如 UNet、 FastSCNN、CGNet、ICNet、BiSeNetV1/V2、ERFNet、STDC。

其中最常用的是 ResNet v1c 系列和 Vision Transformer 系列。如果你需要对骨架进行扩展，可以继承上述网络，然后通过注册器机制注册使用。一个典型用法为 ./configs/_base_/models/segmenter_vit-b16_mask.py 里面的：

checkpoint = 'https://download.openmmlab.com/mmsegmentation/v0.5/pretrain/segmenter/vit_base_p16_384_20220308-96dfe169.pth'  # noqa 
# model settings 
model = dict( 
    type='EncoderDecoder', 
    pretrained=checkpoint, # 加载的预训练模型，这里为 Google Research提供的由 JAX 训练框架得到的 Vision Transformer 
    backbone=dict( 
        type='VisionTransformer', # 骨架类名，后面的参数都是该类的初始化参数 
        img_size=(512, 512), 
        patch_size=16, 
        in_channels=3, 
        embed_dims=768, 
        num_layers=12, 
        num_heads=12, 
        drop_path_rate=0.1, 
        attn_drop_rate=0.0, 
        drop_rate=0.0, 
        final_norm=True, 
        norm_cfg= dict(type='LN', eps=1e-6, requires_grad=True), 
        with_cls_token=True, 
        interpolate_mode='bicubic', 
    ),

同 OpenMMLab 其他算法库一样，我们使用了 MMCV 中的模块注册机制，通过修改配置文件的 type ，可以使用在 MMSegmentation 已经实现的 backbone 模型。此外，还可以使用 MMClassification 里面的更多主干网络，如 ShuffleNet、EfficientNet 等，可根据 ./configs/convnext 里面 ConvNeXt 的实现方式，详细的方式可以参考： MMDet居然能用MMCls的Backbone？论配置文件的打开方式。

Neck

neck 可以认为是 backbone 和 head 的连接层，主要负责对 backbone 的特征进行高效融合和增强，能够对输入的单尺度或者多尺度特征进行融合、增强输出等。具体见文件 ./mmseg/models/necks/，v0.24.1 已经实现的 neck 如下：

最常用的应该是 FPN，一个典型用法是 ./configs/_base_/models/pointrend_r50.py 里面：

 neck=dict( 
    type='FPN', 
    in_channels=[256, 512, 1024, 2048], # 骨架多尺度特征图输出通道 
    out_channels=256, # 增强后通道输出 
    num_outs=4), # 输出num_outs个多尺度特征图

Head

MMSegmentation 的 head 是用来处理 backbone 或 neck 的特征图，对图像里的每个像素 pixel 做分类然后得到分类的结果。具体见文件 ./mmseg/models/decode_heads/，v0.24.1 已经实现的 head 如下：

虽然它们都是用来解码特征图中的信息，但在使用上，可以将它们分为 decoder head，auxiliary head 以及 cascade decoder head：

decoder head 是直接在训练和推理中作为图像预测输出的 head。

auxiliary head 是只在训练过程中输出图像预测用来辅助损失函数计算的 head。

cascade decoder head 是指级联式的2个或多个解码头，前一个解码头的输出作为后一个解码头的输入， OCRNet 和 PointRend 两种算法就使用了 cascade decoder head。

在 MMSegmentation 里每个 head 自己单独计算损失，所以把这个公共的行为抽象成了一个基类： BaseDecodeHead，每个算法的 head 都继承自这个基类，类里面包括了计算 loss 的函数，用于计算 head 输出的 logits 值和 label 的损失。

Loss

MMSegmentation 里的 loss 计算的是每个像素上的 logits 和分割标签之间的差别，使用最多的是 cross entropy loss 和 dice loss，v0.24.1 已经实现的 loss 如下：

除了 ./mmseg/models/losses/ 里的这些 loss 外，计算 loss 时还可以用到一些策略和方法，比如：在线难样本挖掘策略 (OHEM， Online Hard Example Mining) 。

4 总结

本文主要带大家一起解读了 MMSegmentation 中的代码结构以及模型组件，希望大家有所收获。在实际使用中，可以将封装的各个组件自主搭配，或者设计新的某一个组件，实现语义分割网络高效地训练和测试。

下一篇文章我们会介绍目前学术界主流的语义分割数据集在 MMSegmentation中的实现，以及如何用 MMSegmentation 跑自己的数据集，方便大家快速上手使用 MMSegmentation 代码库进行实验。敬请期待哦！

欢迎大家来 MMSegmentation 体验，如果对你有帮助的话，欢迎给我们点个 star~

https://github.com/open-mmlab/mmsegmentationgithub.com/open-mmlab/mmsegmentation

未来运维，绝绝AI 必备 AI_运维_攻城狮 ai 运维人工智能
在当今数字化时代，运维工作对于企业的稳定运行至关重要。随着科技的不断进步，人工智能（AI）和自动化技术正逐渐改变着运维行业的面貌。本文将分析运维行业的未来发展方向，探讨人工智能在运维中的应用前景、自动化运维的发展趋势，并对未来的运维工作模式和技能需求进行预测和分析，以帮助读者更好地规划自己的职业发展。一、运维行业现状目前，运维工作主要包括服务器管理、网络管理、数据库管理、应用程序监控等方面。运维工
AttnRNN：参数更少，却断档碾压LSTM/GRU的新RNN wq舞s 人工智能 python 深度学习 deep learning ai 科技 pytorch
研究者与发布者为:CSDNwq舞s，知乎wqwsgithubwqws突破性进展！新型注意力RNN（AttnRNN）在长序列任务中全面超越传统RNN模型在深度学习领域，循环神经网络（RNN）及其变体GRU和LSTM长期以来一直是处理序列数据的首选架构。然而，它们在长序列任务中始终存在信息遗忘和梯度消失等问题。今天，我很高兴地宣布一种全新的RNN架构——AttnRNN，它在多个长序列基准测试中全面超越
AI人工智能领域：Bard的崛起之路 AIGC应用创新大全人工智能 bard ai
AI人工智能领域：Bard的崛起之路关键词：Bard、GoogleAI、大语言模型、对话式AI、自然语言处理、生成式AI、AI竞争摘要：本文深入探讨GoogleBard的发展历程、技术架构及其在AI领域的地位。我们将从Bard的诞生背景开始，分析其核心技术原理，比较与其他大语言模型的异同，并通过实际案例展示其应用场景。最后展望Bard的未来发展方向及面临的挑战。背景介绍目的和范围本文旨在全面解析G
AI人工智能领域深度学习的跨模态检索技术 AI学长带你学AI AI人工智能与大数据应用开发 AI应用开发高级指南人工智能深度学习 ai
AI人工智能领域深度学习的跨模态检索技术关键词：跨模态检索、深度学习、多模态学习、特征提取、相似度计算、注意力机制、Transformer摘要：本文深入探讨了AI领域中基于深度学习的跨模态检索技术。我们将从基础概念出发，详细分析跨模态检索的核心算法原理、数学模型和实际应用。文章包含完整的Python实现示例，展示如何构建一个跨模态检索系统，并讨论当前的技术挑战和未来发展方向。通过本文，读者将全面理
工业缺陷检测深度学习方法综述 2301_80355452 深度学习人工智能
其被广泛地应用于无人质检、智能巡检、质量控制等各种生产与运维场景中.一.工业缺陷检测的背景与特点工业缺陷检测面临着诸多难点:缺陷样本匮乏、缺陷的可视性低、形状不规则、类型未知等,直接使用异常检测方法难以满足工业缺陷检测的任务需求.二.介绍工业缺陷检测问题的定义,分析研究难点与挑战异常：点异常、上下文异常和集群异常。点异常：又称为离群值(outliers)[9],描述数值上偏离正常样本的独立数据。与
机器视觉：ransac算法详解无水先生数字图形和图像处理算法计算机视觉
目录一、说明：二、算法步骤三、算法代码四、其它补充一、说明：RANSAC是一种常用的参数估计方法，全称为RandomSampleConsensus（随机抽样一致性）。它通过随机选择数据中的一部分，然后根据这些数据拟合模型，统计模型与其他数据的偏差，最终筛选出符合一定阈值的数据，用于估计参数。RANSAC可以应用于很多领域，如计算机视觉、机器人和地理信息系统等。其优点在于对噪声数据和异常值有很强的鲁
Python程序设计第6章：函数和函数式编程若北辰 Python程序设计 python 开发语言
Python程序设计Python是全球范围内最受欢迎的编程语言之一，学好Python将对个人职业生涯产生很大的助力，Python在机器学习、深度学习、数据挖掘等领域应用极为广泛。在数据科学家/数据分析师、人工智能工程师、网络安全工程师、软件工程师/全栈工程师、自动化测试工程师等岗位，年入50万，很普遍，学好Python，高薪就业不是问题，因此推出Python程序设计系列文章：Python程序设计第
什么是神经网络和机器学习？【云驻共创】一键难忘人工智能机器学习深度学习神经网络网络
什么是神经网络和机器学习？一.背景在当今数字化浪潮中，神经网络和机器学习已成为科技领域的中流砥柱。它们作为人工智能的支柱，推动了自动化、智能化和数据驱动决策的进步。然而，对于初学者和专业人士来说，理解神经网络和机器学习的本质是至关重要的。在本文中，我们将深入探讨这两个概念的内涵、工作原理以及彼此之间的联系。二.神经网络和机器学习简介神经网络和机器学习都是人工智能领域中的重要概念，它们通常用于解决各
AI人工智能与OpenCV：实现智能图像编辑功能 AI智能探索者 AI Agent 智能体开发实战人工智能 opencv 计算机视觉 ai
AI人工智能与OpenCV：实现智能图像编辑功能关键词：人工智能、OpenCV、图像处理、计算机视觉、深度学习、智能编辑、图像增强摘要：本文深入探讨如何结合人工智能(AI)和OpenCV实现智能图像编辑功能。我们将从基础概念出发，详细介绍核心算法原理，展示实际代码实现，并分析典型应用场景。文章将涵盖从传统图像处理技术到深度学习方法的演进，重点讲解如何利用OpenCV和AI模型实现自动化的图像增强、
Orangepi Zero2 全志H616开发学习会学嵌入式 ARM Linux全志平台开发学习 linux 开发语言服务器
一.简介1.1为什么学学习目标依然是Linux系统，平台是ARM架构·蜂巢快递柜，配送机器人，这些应用场景用C51,STM32单片机无法实现·第三方介入库的局限性，比如刷脸支付和公交车收费设备需要集成支付宝SDK，提供的libalipay.so是Linux的库，设备必须跑Linux系统·图像识别，音频，视频等领域的技术支撑也无法脱离Linux系统·人工智能型设备通常需要更好的系统和更高的算力，所以
人工智能-基础篇-2-什么是机器学习？（ML，监督学习，半监督学习，零监督学习，强化学习，深度学习，机器学习步骤等） weisian151 人工智能人工智能机器学习学习
1、什么是机器学习？机器学习（MachineLearning,ML）是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析等数学理论。其核心目标是让计算机通过分析数据，自动学习规律并构建模型，从而对未知数据进行预测或决策，而无需依赖显式的程序指令。基本思想：通过数据驱动的方式，使系统能够从经验（数据）中改进性能，形成对数据模式的抽象化表达。基本概念：模型：模型是对现实世界现
2025年AI十大趋势：从多模态大模型到自主智能体 zhuzhi 人工智能大数据
2025年AI十大趋势：从多模态大模型到自主智能体人工智能技术正以前所未有的速度重塑着我们的世界。2025年，AI领域将迎来一系列突破性进展，从多模态大模型的全面进化到自主智能体的广泛应用，这些技术变革正在重新定义人机交互的边界。本文将系统梳理2025年AI发展的十大核心趋势，为读者揭示人工智能技术的最新发展方向及其对社会各领域的深远影响。趋势一：多模态大模型成为基础设施2025年，多模态大模型已
贝叶斯网络与深度学习的结合：图像识别和分类 AI天才研究院 AI人工智能与大数据计算 AI大模型企业级应用开发实战自然语言处理人工智能语言模型编程实践开发语言架构设计
本文我将为您撰写一篇关于"贝叶斯网络与深度学习的结合：图像识别和分类"的技术博客文章。这篇文章将深入探讨贝叶斯网络和深度学习在图像识别和分类领域的结合应用。我会遵循您提供的要求和结构模板,确保文章内容全面、深入且易于理解。让我们开始吧。贝叶斯网络与深度学习的结合：图像识别和分类关键词：贝叶斯网络、深度学习、图像识别、图像分类、概率推理、卷积神经网络、不确定性建模文章目录贝叶斯网络与深度学习的结合：
前端计算机视觉：使用 OpenCV.js 在浏览器中实现图像处理亿只小灿灿前端 OpenCV 前端计算机视觉 opencv
一、OpenCV.js简介与环境搭建OpenCV（OpenSourceComputerVisionLibrary）是一个强大的计算机视觉库，广泛应用于图像和视频处理领域。传统上，OpenCV主要在后端使用Python或C++等语言。但随着WebAssembly(Wasm)技术的发展，OpenCV也有了JavaScript版本——OpenCV.js，它可以直接在浏览器中高效运行，为前端开发者提供了前
对话式AI助手的巅峰对决：ChatGPT与文心一言的实用价值探讨酷钉 chatgpt 人工智能
随着人工智能技术的发展，对话式AI助手逐渐成为了人们生活中的一部分。其中，ChatGPT和文心一言更是备受关注的两款对话式AI助手。本文将探讨这两款AI助手的实用价值，并通过案例和数据的方式进行分析。一、ChatGPT的实用价值跨语言交流ChatGPT是一款能够进行跨语言交流的对话式AI助手。据统计，ChatGPT支持的语言数量超过100种，用户可以通过它轻松地与不同国家和地区的人进行交流。例如，
微信小程序｜流浪动物救助小程序的设计与实现 qq_469603589 微信小程序小程序微信小程序
作者主页：编程指南针作者简介：Java领域优质创作者、CSDN博客专家、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO特邀作者、多年架构师设计经验、腾讯课堂常驻讲师主要内容：Java项目、Python项目、前端项目、人工智能与大数据、简历模板、学习资料、面试题库、技术互助收藏点赞不迷路关注作者有好处文末获取源码项目编号：L-BS-XZBS-30一，环境介绍语言环境：Java:jdk1
Halcon 初步了解科学的发展-只不过是读大自然写的代码图形编程 c#视觉处理 Halcon
1.Halcon概述Halcon是德国MVTec公司开发的一套完善的机器视觉算法包，也是一款功能强大的视觉处理软件，为工业自动化领域提供了全面的解决方案。它拥有应用广泛的机器视觉集成开发环境，提供了一套丰富的图像处理和机器视觉算法，可以在各种工业应用中进行图像分析、目标检测、测量、定位、识别等任务。Halcon的核心功能包括图像处理、特征提取与匹配、3D视觉、深度学习、条码识别、OCR识别以及视觉
如何在pytorch中使用tqdm：优雅实现训练进度监控 Ven% 简单入门pytorch pytorch 人工智能 python
文章目录为什么需要进度条？tqdm简介基础用法示例深度学习中的实战应用1.数据加载进度监控2.训练循环增强版3.验证阶段集成高级技巧与最佳实践1.自定义进度条样式2.嵌套进度条（多任务）3.分布式训练支持4.与日志系统集成性能优化建议完整训练流程示例常见问题解决方案总结掌握训练进度监控是深度学习工程师的基本功。本文将带你从零开始，深入探索如何用tqdm为深度学习训练添加专业级进度条。为什么需要进度
【Python】Hydra 用法详解行码棋 #Python python 开发语言
Hydra官方文档Hydra（Python配置管理工具）1.引言在机器学习、深度学习和软件开发中，管理复杂的配置是一个常见的挑战。Hydra是一个强大的Python库，允许开发者轻松地管理和组织配置文件，支持动态参数覆盖、多层次配置和可组合配置等特性。2.安装HydraHydra可以通过pip直接安装：pipinstallhydra-core安装完成后，你可以使用hydra进行配置管理。3.基础用
onnx模型部署 python_深度学习模型转换与部署那些事(含ONNX格式详细分析) weixin_39759270 onnx模型部署 python
背景深度学习模型在训练完成之后，部署并应用在生产环境的这一步至关重要，毕竟训练出来的模型不能只接受一些公开数据集和榜单的检验，还需要在真正的业务场景下创造价值，不能只是为了PR而躺在实验机器上在现有条件下，一般涉及到模型的部署就要涉及到模型的转换，而转换的过程也是随着对应平台的不同而不同，一般工程师接触到的平台分为GPU云平台、手机和其他嵌入式设备对于GPU云平台来说，在上面部署本应该是最轻松的事
如何禁止GPTBot等爬虫爬取网站内容：保护数据安全的实用指南淮橘√ 人工智能
引言随着人工智能技术的快速发展，网络爬虫（如OpenAI的GPTBot、GoogleBot、Anthropic的ClaudeBot等）被广泛用于抓取网站数据以训练AI模型或索引内容。然而，部分网站管理员可能不希望自己的内容被爬虫抓取，原因包括保护原创内容、降低服务器负载或防止数据被滥用。一、为什么需要禁止爬虫？网络爬虫可能带来以下问题：内容盗用风险：原创内容可能被AI模型或其他服务未经授权使用。服
Java 与 AI 携手，掀起多领域智能变革浪潮 WangRK_ 人工智能 java 开发语言
在数字化转型的时代浪潮下，技术更新迭代速度超乎想象。当Java这门历经二十余年沉淀的编程语言，遇上风头正劲的人工智能（AI），一场席卷多领域的智能变革正悄然发生。尤其是在金融与零售两大行业，这场技术融合带来的改变，正重塑着整个行业的生态。一、Java在金融与零售行业的“前世今生”（一）曾经的行业基石在金融领域，Java堪称“代码钢铁侠”，是金融基础设施的坚实支柱。全球顶级交易所依靠Java强大的性
从零开始理解Transformer模型：架构与应用淮橘√ transformer 深度学习人工智能
引言近年来，Transformer模型席卷了自然语言处理（NLP）领域，成为了深度学习中的明星架构。从Google提出的《AttentionisAllYouNeed》论文到ChatGPT、BERT等模型的广泛应用，Transformer以其强大的性能和灵活性改变了我们对序列建模的认知。本文将从零开始，深入浅出地解析Transformer的架构原理、核心组件以及实际应用场景，并提供一个简单的代码示例
筑牢医疗AI安全防线：四重防护体系全解析 Allen_Lyb 数智化教程（第二期）人工智能安全
一、引言：医疗AI发展中的安全困境在数字化浪潮席卷下，医疗领域正经历着一场由人工智能（AI）驱动的深刻变革。医疗AI凭借其强大的数据分析与处理能力，在疾病诊断、药物研发、健康管理等诸多环节展现出巨大潜力，成为推动医疗行业进步的关键力量。而这一切的背后，医疗数据作为AI发展的“燃料”，以及AI算力作为运行的“引擎”，起着不可或缺的核心作用。医疗数据涵盖了患者从基本信息、病史、症状描述到各种检查检验报
Python 爬虫实战：从图片网站抓取图片并进行特征提取（2025 最新版） Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 github chrome 数据库
一、引言在当今的数字时代，图像数据在各个领域中扮演着至关重要的角色。无论是计算机视觉、机器学习，还是数据分析，图像数据的获取和处理都是基础。然而，获取大量高质量的图像数据并非易事。幸运的是，互联网上充斥着丰富的图像资源，只需借助合适的工具和技术，我们就能高效地从中获取所需的图像数据。本文将详细介绍如何使用Python构建一个完整的爬虫系统，从图片网站抓取图像，并对其进行特征提取。我们将涵盖从网页分
Open AI在AI人工智能领域的技术安全防护体系 AI智能探索者 AI Agent 智能体开发实战人工智能安全网络 ai
OpenAI在AI人工智能领域的技术安全防护体系关键词：OpenAI、AI安全、技术防护、伦理框架、模型对齐、数据隐私、对抗攻击摘要：本文将深入探讨OpenAI在人工智能领域构建的多层次技术安全防护体系。我们将从基础概念出发，逐步解析OpenAI如何通过技术创新和系统设计来确保AI系统的安全性、可靠性和可控性。文章将涵盖从数据安全到模型对齐，从伦理框架到实际防护技术的全方位内容，帮助读者全面理解现
揭秘自然语言处理在AI人工智能领域的奥秘 AI智能探索者 AI Agent 智能体开发实战人工智能自然语言处理 easyui ai
揭秘自然语言处理在AI人工智能领域的奥秘关键词：自然语言处理、AI人工智能、语言理解、语言生成、语义分析摘要：本文深入探讨了自然语言处理（NLP）在AI人工智能领域的奥秘。首先介绍了自然语言处理的背景，包括目的、预期读者、文档结构和相关术语。接着阐述了自然语言处理的核心概念与联系，通过文本示意图和Mermaid流程图进行展示。详细讲解了核心算法原理和具体操作步骤，并用Python源代码进行阐述。分
【LangChain编程：从入门到实践】AI 大模型检索增强生成 RAG 实践 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LangChain编程：从入门到实践-AI大模型检索增强生成RAG实践关键词：LangChain,RAG,大语言模型,检索增强生成,向量数据库,嵌入模型,提示工程1.背景介绍在人工智能和自然语言处理领域,大语言模型(LargeLanguageModels,LLMs)的出现无疑是一个重大突破。像GPT-3、GPT-4这样的模型展现出了惊人的语言理解和生成能力,为各种应用场景带来了无限可能。然而,这些
基于深度学习的线上问诊系统设计与实现（Python+Django+MySQL）神经网络15044 深度学习算法神经网络 python 深度学习 django 机器学习人工智能算法目标检测
基于深度学习的线上问诊系统设计与实现（Python+Django+MySQL）一、系统概述本系统结合YOLOv8目标检测和ResNet50图像分类算法，构建了一个智能线上问诊平台。系统支持用户上传医学影像（皮肤照片/X光片），自动分析并生成诊断报告，同时提供医生审核功能。二、技术栈后端框架：Django4.2数据库：MySQL8.0深度学习：YOLOv8：皮肤病变区域检测ResNet50：肺炎X光
深度学习中常见激活函数总结向左转,　向右走ˉ 深度学习人工智能 pytorch python
以下是一份深度学习激活函数的系统总结，涵盖定义、类型、作用、应用及选择影响，便于你快速掌握核心知识：一、激活函数的定义在神经网络中，激活函数（ActivationFunction）是神经元计算输出的非线性变换函数，作用于加权输入和偏置之和：输出=f(加权和+偏置)核心价值：引入非线性，使神经网络能够拟合任意复杂函数（无激活函数的深度网络等价于单层线性模型）。二、常见激活函数类型1.线性函数（Lin
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l

超详细！带你轻松掌握 MMSegmentation 整体构建流程

1.语义分割介绍

2.语义分割的应用

自动驾驶

遥感图像分析

医学图像分析

3.MMSegmentation 算法库框架介绍

3.1 MMSegmentation 目录结构

3.2 MMSegmentation 模型实现

4 总结

你可能感兴趣的:(技术干货,深度学习,人工智能,计算机视觉,语义分割)