Howie_tzh

【mmdetection】

mmdetection使用文档

1. 安装[^1]
- 1.1 准备环境
- 1.2 安装MMDetection
- 1.3 安装验证
2. 整体构建流程（一）[^2]
- 2.1 摘要
- 2.2 目标检测算法抽象流程
- 2.3 MMDetection整体构建流程和思想
- - 2.3.1 训练核心组件
  - - 2.3.1.1Backbone
    - 2.3.1.2 Neck
    - 2.3.1.3 Head
    - 2.3.1.4 Enhance
    - 2.3.1.5 BBox Assigner
    - 2.3.1.6 BBox Sampler
    - 2.3.1.7 BBox Encoder
    - 2.3.1.8 Loss
    - 2.3.1.9 Training Tricks
  - 2.3.2 测试核心组件
  - - 2.3.2.1 BBox Decoder
    - 2.3.2.2BBox Postprocess
    - 2.3.2.3Testing Tricks
  - 2.3.3 训练测试算法流程
  - - 2.3.3.1 bbox_head.forward_train
    - 2.3.3.2 bbox_head.get_bboxes
- 2.4 总结
3. 整体构建流程（二）[^3]
- 3.1 摘要
- 3.2 第一层整体抽象
- 3.3 第二层模块抽象
- - 3.3.1 Pipeline
  - 3.3.2 DataParalell和Model
  - 3.3.3 Runner和Hooks
- 3.4 第三层代码抽象
- - 3.4.1 训练和测试整体代码抽象流程
  - 3.4.2 Runner训练和验证代码抽象
  - 3.4.3 Model训练和测试代码抽象
  - - 3.4.3.1 train 或者 val 流程
    - 3.4.3.2 test流程
- 3.5 总结

1. 安装[^1]

1.1 准备环境

创建一个conda虚拟环境并激活它。

conda create -n openmmlab python=3.7 -y
conda activate openmmlab

安装PyTorch和torchvision。

conda install pytorch torchvision -c pytorch

1.2 安装MMDetection

pip install openmim
mim install mmdet

1.3 安装验证

from mmdet.apis import init_detector, inference_detector

config_file = 'configs/faster_rcnn/faster_rcnn_r50_fpn_1x_coco.py'
# download the checkpoint from model zoo and put it in `checkpoints/`
# url: https://download.openmmlab.com/mmdetection/v2.0/faster_rcnn/faster_rcnn_r50_fpn_1x_coco/faster_rcnn_r50_fpn_1x_coco_20200130-047c8118.pth
checkpoint_file = 'checkpoints/faster_rcnn_r50_fpn_1x_coco_20200130-047c8118.pth'
device = 'cuda:0'
# init a detector
model = init_detector(config_file, checkpoint_file, device=device)
# inference the demo image
inference_detector(model, 'demo/demo.jpg')

2. 整体构建流程（一）[^2]

2.1 摘要

本章讲解主要内容：

MMDetection整体构建流程和思想
目标检测算法核心组件划分
目标检测核心组件功能

2.2 目标检测算法抽象流程

简单来说目标检测算法可以按照3个维度划分：

按照stage个数划分，常规是one-stage和two-stage，但实际界限不是特别清晰，例如带refine阶段的RepPoints，实际可以认为是1.5 stage算法，而Cascade R-CNN 可以认为是多阶段算法。
按照是否需要预定义anchor划分，常规是anchor-based和anchor-free，当然也有些算法是两者混合的。
按照是否采用了transformer划分，目前基于transformer结构的目标检测算法发展迅速，也引起了极大的关注，所以这里特意增加了这个分类。

不管哪种划分方式，其实都可以分成若干模块，然后通过模块堆叠来构建整个检测算法体系。

2.3 MMDetection整体构建流程和思想

基于目前代码实现，所有目标检测算法都按照以下流程进行划分：

上述流程对应MMDetection代码构建流程，理解每个组件的作用不仅仅对阅读算法源码有帮助，而且还能快速理解新提出算法对应的改进部分。下面对每个模块进行详细解读。

2.3.1 训练核心组件

训练部分一般包括9个核心组件，总体流程是：

任何一个batch的图片先输入到backbone中进行特征提取，典型的骨干网络是ResNet。
输出的单尺度或多尺度特征图输入到neck模块中进行特征融合或增强，典型的neck是FPN。
上述多尺度特征最终输入到head部分，一般都会包括分类和回归分支输出。
在整个网络构建阶段都可以引入一些即插即用的增强算子来增加提取特征的能力，典型如SPP、DCN等等。
目标检测head输出一般是特征图，对于分类任务存在严重的正负样本不平衡，可以通过正负样本属性分配和采样控制。
为了方便收敛和平衡多分支，一般都会对gt bbox进行编码。
最后一步是计算分类和回归loss，进行训练。
在训练过程中也包括非常多的trick，例如优化器选择、参数调节等内容。

注意上述9个组件不是每个算法都需要的下面详细分析。

2.3.1.1Backbone

Backbone的作用主要是特征提取。目前MMDetection已经集成了大部分骨架网络，具体见文件：mmdet/models/backbones，已经实现的骨架如下：

__all__ = [
    'RegNet', 'ResNet', 'ResNetV1d', 'ResNeXt', 'SSDVGG', 'HRNet',
    'MobileNetV2', 'Res2Net', 'HourglassNet', 'DetectoRS_ResNet',
    'DetectoRS_ResNeXt', 'Darknet', 'ResNeSt', 'TridentResNet', 'CSPDarknet'
]

如果你需要对骨架进行扩展，可以继承上述网络，然后通过注册器机制注册使用。一个典型的用法为：

# 骨架的预训练权重路径
pretrained='torchvision://resnet50',
backbone=dict(
    type='ResNet', # 骨架类名，后面的参数都是该类的初始化参数
    depth=50,
    num_stages=4,
    out_indices=(0, 1, 2, 3),
    frozen_stages=1,
    norm_cfg=dict(type='BN', requires_grad=True), 
    norm_eval=True,
    style='pytorch'),

通过MMCV中的注册器机制，你可以通过dict的形式来配置实例化任何已经注册的类，非常方便和灵活。

2.3.1.2 Neck

neck可以认为是backbone和head的连接层，主要负责对backbone的特征进行高校融合和增强，能够对输入的单尺度或者多尺度特征进行融合、增强输出等。具体见文件：mmdet/models/necks，已经实现的neck如下：

__all__ = [
    'FPN', 'BFP', 'ChannelMapper', 'HRFPN', 'NASFPN', 'FPN_CARAFE', 'PAFPN',
    'NASFCOS_FPN', 'RFP', 'YOLOV3Neck', 'FPG', 'DilatedEncoder',
    'CTResNetNeck', 'SSDNeck', 'YOLOXPAFPN'
]

最常用的FPN的一个典型用法是：

neck=dict(
    type='FPN',
    in_channels=[256, 512, 1024, 2048], # 骨架多尺度特征图输出通道
    out_channels=256, # 增强后通道输出
    num_outs=5), # 输出num_outs个多尺度特征图

2.3.1.3 Head

目标检测算法输出一般包括分类和框坐标回归两个分支，不同算法Head模块的复杂程度不同，灵活度比较高。在网络构建方面，理解目标检测算法主要是理解Head模块。
MMDetection中Head模块又划分为two-stage所需的RoIHead和one-stage所需的DenseHead，也就是说所有的one-stage算法的head模块都在mmdet/models/dense_heads中，而two-stage算法还包括额外的mmdet/models/roi_heads。
目前已经实现的dense_heads包括：

__all__ = [
    'AnchorFreeHead', 'AnchorHead', 'GuidedAnchorHead', 'FeatureAdaption',
    'RPNHead', 'GARPNHead', 'RetinaHead', 'RetinaSepBNHead', 'GARetinaHead',
    'SSDHead', 'FCOSHead', 'RepPointsHead', 'FoveaHead',
    'FreeAnchorRetinaHead', 'ATSSHead', 'FSAFHead', 'NASFCOSHead',
    'PISARetinaHead', 'PISASSDHead', 'GFLHead', 'CornerHead', 'YOLACTHead',
    'YOLACTSegmHead', 'YOLACTProtonet', 'YOLOV3Head', 'PAAHead',
    'SABLRetinaHead', 'CentripetalHead', 'VFNetHead', 'StageCascadeRPNHead',
    'CascadeRPNHead', 'EmbeddingRPNHead', 'LDHead', 'CascadeRPNHead',
    'AutoAssignHead', 'DETRHead', 'YOLOFHead', 'DeformableDETRHead',
    'CenterNetHead', 'YOLOXHead'
]

几乎每个算法都包含一个独立的Head，而roi_heads比较杂，就不列出了。
需要注意的是：two-stage或者multi-stage算法，会额外包括一个区域提取器roi extractor，用于将不同大小的RoI特征图统一成相同大小。
虽然head部分的网络构建比较简单，但是由于正负样本属性定义、正负样本采样和bbox编解码都在head模块中进行组合调用，故MMDetection中最复杂的模块就是head。在最后的整体流程部分会对该模块进行详细分析。

2.3.1.4 Enhance

enchance是即插即用、能够对特征图进行增强的模块，其具体代码可以通过dict形式注册到backbone、neck和head中，非常方便。常用的enhance模块是SPP、ASPP、Dropblock、DCN和各种注意力模块SeNet、Non_Local、CBA等。目前MMDetection中部分模块支持Enhance的接入，例如ResNet骨架中的plugins，这个部分的解读放在具体算法中讲解。

2.3.1.5 BBox Assigner

正负样本属性分配模块的作用是进行正负样本定义或者正负样本分配（也可能包括忽略样本定义），正样本就是常说的前景样本（可以是任意类别），负样本就是背景样本。因为目标检测是一个同时进行分类和回归的问题，对于分类场景必然需要确定正负样本，否则无法训练。该模块至关重要，不同的正负样本分配策略会带来显著的性能差异，目前大部分目标检测算法都会对这个部分进行改进。一些典型的分配策略如下：

对应的代码在mmdet/core/bbox/assigners中，主要包括：

__all__ = [
    'BaseAssigner', 'MaxIoUAssigner', 'ApproxMaxIoUAssigner', 'AssignResult',
    'PointAssigner', 'ATSSAssigner', 'CenterRegionAssigner', 'GridAssigner',
    'HungarianAssigner', 'RegionAssigner', 'UniformAssigner', 'SimOTAAssigner'
]

2.3.1.6 BBox Sampler

在确定每个样本的正负属性后，可能还需要进行样本采样平衡操作。本模块作用是对前面定义的正负样本不平衡进行采样，力争克服该问题。一般在目标检测中gt bbox都是非常少的，所以正负样本比是远远小于1的。而基于机器学习的观点：在数据极度不平衡情况下进行分类会出现预测倾向于样本多的类别，出现过拟合，为了克服该问题，适当的正负样本采样策略是非常必要的，一些典型采样策略如下：

对应的代码在mmdet/core/bbox/samplers中，主要包括：

__all__ = [
    'BaseSampler', 'PseudoSampler', 'RandomSampler',
    'InstanceBalancedPosSampler', 'IoUBalancedNegSampler', 'CombinedSampler',
    'OHEMSampler', 'SamplingResult', 'ScoreHLRSampler'
]

2.3.1.7 BBox Encoder

为了更好的收敛和平衡多个loss，具体解决办法非常多，而bbox编解码策略也算其中一个，bbox编码阶段对应的是对正样本的gt bbox采用某种编码变换（反操作就是bbox解码），最简单的编码是对gt bbox除以图片宽高进行归一化以平衡分类和回归分支，一些典型的编解码策略如下：

对应的代码在mmdet/core/bbox/coder中，主要包括：

__all__ = [
    'BaseBBoxCoder', 'PseudoBBoxCoder', 'DeltaXYWHBBoxCoder',
    'LegacyDeltaXYWHBBoxCoder', 'TBLRBBoxCoder', 'YOLOBBoxCoder',
    'BucketingBBoxCoder'
]

2.3.1.8 Loss

Loss通常都分为分类和回归loss，其对为网络head输出的预测值和bbox encoder得到的targets进行梯度下降迭代训练。
loss的设计也是各大算法重点改进的对象，常用的loss如下：

对应的代码在mmdet/models/losses中，主要包括：

__all__ = [
    'accuracy', 'Accuracy', 'cross_entropy', 'binary_cross_entropy',
    'mask_cross_entropy', 'CrossEntropyLoss', 'sigmoid_focal_loss',
    'FocalLoss', 'smooth_l1_loss', 'SmoothL1Loss', 'balanced_l1_loss',
    'BalancedL1Loss', 'mse_loss', 'MSELoss', 'iou_loss', 'bounded_iou_loss',
    'IoULoss', 'BoundedIoULoss', 'GIoULoss', 'DIoULoss', 'CIoULoss', 'GHMC',
    'GHMR', 'reduce_loss', 'weight_reduce_loss', 'weighted_loss', 'L1Loss',
    'l1_loss', 'isr_p', 'carl_loss', 'AssociativeEmbeddingLoss',
    'GaussianFocalLoss', 'QualityFocalLoss', 'DistributionFocalLoss',
    'VarifocalLoss', 'KnowledgeDistillationKLDivLoss', 'SeesawLoss'
]

2.3.1.9 Training Tricks

训练技巧非常多，常说的调参很大一部分工作都是在设置这部分超参。这部分内容比较杂乱，很难做到完全统一，目前主流的tricks如下所示：

2.3.2 测试核心组件

测试核心组件和训练非常类似，但是简单很多，除了必备的网络构建部分外（backbone、neck、head和enchance），不需要正负样本定义、正负样本采样和loss计算三个最难的部分，但是其额外需要一个bbox后处理模块和测试trick。

2.3.2.1 BBox Decoder

训练时候进行了编码，那么测试的时候就需要进行解码。根据编码的不同，解码也是不同的。举个简单的例子：假设训练的时候对bbox的宽高直接除以图片的宽高进行归一化，那么解码过程就需要乘以图片的宽高回复bbox的实际尺度。其代码和bbox encoder放在一起，在mmdet/core/bbox/coder中。

2.3.2.2BBox Postprocess

在得到原图尺度bbox后，由于可能会出现重叠bbox现象，故一般都需要进行后处理，最常用的后处理就是非极大值抑制以及其变种。
其对应的文件在mmdet/core/post_processing中，主要包括：

__all__ = [
    'multiclass_nms', 'merge_aug_proposals', 'merge_aug_bboxes',
    'merge_aug_scores', 'merge_aug_masks', 'fast_nms'
]

2.3.2.3Testing Tricks

为了提高检测性能，测试阶段也会采用trick。这个阶段的tricks也非常多，难以完全统一，最典型的是多尺度测试以及各种模型集成手段，典型配置如下：

dict(
    type='MultiScaleFlipAug',
    img_scale=(1333, 800),
    flip=True,
    transforms=[
        dict(type='Resize', keep_ratio=True),
        dict(type='RandomFlip'),
        dict(type='Normalize', **img_norm_cfg),
        dict(type='Pad', size_divisor=32),
        dict(type='ImageToTensor', keys=['img']),
        dict(type='Collect', keys=['img']),
    ])

2.3.3 训练测试算法流程

在分析完每个训练流程的各个核心组件后，为了方便大家理解整个算法构建，下面分析MMDetection是如何组合各个组件进行训练的，这里以one-stage检测器为例，two-stage也比较类似。

class SingleStageDetector(---):

   def __init__(...):
        # 构建骨架、neck和head
        self.backbone = build_backbone(backbone)
        if neck is not None:
            self.neck = build_neck(neck)
        self.bbox_head = build_head(bbox_head)

  def forward_train(---): 
        # 先运行backbone+neck进行特征提取
        x = self.extract_feat(img)
        # 对head进行forward train，输出loss
        losses = self.bbox_head.forward_train(x, img_metas, gt_bboxes,
                                              gt_labels, gt_bboxes_ignore)
        return losses

  def simple_test(---):
        # 先运行backbone+neck进行特征提取
        x = self.extract_feat(img)
        # head输出预测特征图
        outs = self.bbox_head(x)
        # bbox解码和还原
        bbox_list = self.bbox_head.get_bboxes(
            *outs, img_metas, rescale=rescale)
        # 重组结果返回
        bbox_results = [
            bbox2result(det_bboxes, det_labels, self.bbox_head.num_classes)
            for det_bboxes, det_labels in bbox_list
        ]
        return bbox_results

以上就是整个检测器算法训练和测试最简逻辑，可以发现训练部分最核心的就是bbox_head.forward_train，测试部分最核心的是bbox_head.get_bboxes，下面单独简要分析。

2.3.3.1 bbox_head.forward_train

forward_train是通用函数，如下所示：

def forward_train(...):
    # 调用每个head自身的forward方法
    outs = self(x)
    if gt_labels is None:
        loss_inputs = outs + (gt_bboxes, img_metas)
    else:
        loss_inputs = outs + (gt_bboxes, gt_labels, img_metas)
    # 计算每个head自身的loss方法
    losses = self.loss(*loss_inputs, gt_bboxes_ignore=gt_bboxes_ignore)
    # 返回
    return losses

对于不同的head，虽然forward的内容不同，但依然可以抽象为outs = self(x)

def forward(self, feats):
   # 多尺度特征图，一个一个迭代进行forward_single
   return multi_apply(self.forward_single, feats)

def forward_single(self, x):
   # 运行各个head独特的head forward方法，得到预测图
   ....
   return cls_score, bbox_pred...

而对于不同的head，其loss计算部分也比较复杂，可以简单抽象为：losses = self.loss(…)

def loss(...):
    # 1 生成anchor-base需要的anchor或者anchor-free需要的points
    # 2 利用gt bbox对特征图或者anchor计算其正负和忽略样本属性
    # 3 进行正负样本采样
    # 4 对gt bbox进行bbox编码
    # 5 loss计算，并返回
    return dict(loss_cls=losses_cls, loss_bbox=losses_bbox,...)

2.3.3.2 bbox_head.get_bboxes

def get_bboxes(...):
   # 1 生成anchor-base需要的anchor或者anchor-free需要的points
   # 2 遍历每个输出层，遍历batch内部的每张图片，对每张图片先提取指定个数的预测结果，缓解后面后处理压力；对保留的位置进行bbox解码和还原到原图尺度
   # 3 统一nms后处理
   return det_bboxes, det_labels...

2.4 总结

本章重点分析了一个目标检测器是如何通过多个核心组件堆叠而成，不涉及具体代码，大家只需总体把握即可，其中最应该了解的是：任何一个目标检测算法都可以分成n个核心组件，组件和组件之间是隔离的，方便复用和设计。 当面对一个新算法时候我们可以先分析其主要改进了哪几个组件，然后就可以高效的掌握该算法。
另外还有一些重要的模块没有分析，特别是dataset、dataloader和分布式训练相关的检测代码。最后附上总图：

3. 整体构建流程（二）[^3]

3.1 摘要

本章核心内容是按照抽象到具体方式，从多个层次进行训练和测试流程深入分析，从最抽象层讲起，到最后核心代码实现，希望帮助大家更容易理解MMDetection开源框架整体构建细节。

3.2 第一层整体抽象

上图为MMDetection框架整体训练和测试抽象流程图。按照数据流过程，训练流程可以简单总结为：

给定任何一个数据集，首先需要构建DataSet类，用于迭代输出数据。
在迭代输出数据的时候需要通过数据pipeline对数据进行各种处理，最典型的处理流是训练中的数据增强操作，测试中的数据预处理等等。
通过Sampler采样器可以Dataset输出的数据顺序，最常用的是随机采样器RandomSampler。由于Dataset中输出的图片大小不一样，为了尽可能减少后续组成batch时pad的像素个数，MMDetection引入了分组采样器GroupSampler和DistributedGroupSampler，相当于在RandomSampler基础上额外新增了根据图像宽高比进行group的功能。
将Sampler和Dataset都输入给DataLoader，然后通过DataLoader输出已组成batch的数据，作为Model的输入。
对于任何一个Model，为了方便处理数据流以及分布式需求，MMDetection引入了两个Model的上层封装：单机版本MMDataParallel、分布式（单机多卡或多机多卡）版本MMDistibutedDataParallel。
Model运行后会输出Loss以及其他一些信息，会通过logger进行保存或者可视化。
为了更好地解耦，方便地获取各个组件之间依赖和灵活扩展，MMDetection引入了Runner类进行生命周期管理，并通过Hook方便地获取、修改和拦截任何生命周期数据流，扩展非常便捷。

而测试流程就比较简单了，直接对DataLoader输出的数据进行前向推理即可，还原到最终原图尺度过程也是在Model中完成。

以上就是MMDetection框架整体训练流程，上图不仅仅反映了训练和测试数据流，而且还包括了模块和模块之间的调用关系。对于训练而言，最核心的部分应该是Runner，理解了Runner的运行流程，也就理解了整个MMDtection数据流。

3.3 第二层模块抽象

在总体把握了整个MMDetection框架训练和测试流程后，下个层次是每个模块内部抽象流程，主要包括Pipeline、DataParalell、Model、Runner和Hooks。

3.3.1 Pipeline

Pipeline实际上由一系列按照插入顺序运行的数据处理模块组成，每个模块完成某个特定功能，例如Resize，因为其流式顺序运行的特性，故叫做Pipeline。

上图是一个非常典型的训练流程Pipeline，每个类都接收字典输入，输出也是字典，顺序执行，其中绿色表示该类运行后新增字段，橙色表示可能会进行修改。如果进一步细分的话，不同算法的pipeline都可以划分为如下四部分：

图片和标签加载，LoadImageFromFile和LoadAnnotations
数据前处理，例如统一Resiuze
数据增强，如各种图片几何变换，这部分是训练流程特有，测试阶段一般不采用（多尺度测试采用其他实现方式）
数据收集，例如Collect

在MMDetection框架中图片和标签加载和数据后处理流程一般是固定的，用户主要可能修改的是数据增强步骤，目前已经接入了第三方增强库Albumentations，可以按照示例轻松构建属于你自己的数据增强Pipeline。

在构建自己的Pipeline时一定要仔细检查修改或新增的字典key和value，因为一旦错误地覆盖或修改原先字典的内容，代码可能不会报错，如果出现bug则很难排查。

3.3.2 DataParalell和Model

在MMDetection中DataLoader输出的内容不是PyTorch能处理的标准格式，还包括了DataContainer对象，该对象的作用是包装不同类型的对象使之能按需组成batch。在目标检测中，每张图片 gt bbox 个数是不一样的，如果想组成 batch tensor，要么你设置最大长度，要么你自己想办法组成 batch。而考虑到内存和效率，MMDetection 通过引入 DataContainer 模块来解决上述问题，但是随之带来的问题是 pytorch 无法解析 DataContainer 对象，故需要在 MMDetection 中自行处理。

解决办法其实非常多，MMDetection 选择了一种比较优雅的实现方式：MMDataParallel 和 MMDistributedDataParallel。具体来说，这两个类相比 PyTorch 自带的 DataParallel 和 DistributedDataParallel 区别是：

可以处理 DataContainer 对象
额外实现了 train_step() 和 val_step() 两个函数，可以被 Runner 调用

关于这两个类的具体实现后面会描述。

而 Model 部分内容就是第一篇解读文章所讲的，具体如下：

3.3.3 Runner和Hooks

对于任何一个目标检测算法，都需要包括优化器、学习率设置、权重保存等等组件才能构成完整训练流程，而这些组件是通用的。为了方便 OpenMMLab 体系下的所有框架复用，在 MMCV 框架中引入了 Runner 类来统一管理训练和验证流程，并且通过 Hooks 机制以一种非常灵活、解耦的方式来实现丰富扩展功能。

关于 Runner 和 Hooks 详细解读会发布在 MMCV 系列解读文章中，简单来说 Runner 封装了 OpenMMLab 体系下各个框架的训练和验证详细流程，其负责管理训练和验证过程中的整个生命周期，通过预定义回调函数，用户可以插入定制化 Hook ，从而实现各种各样的需求。下面列出了在 MMDetection 几个非常重要的 hook 以及其作用的生命周期：

例如 CheckpointHook 在每个训练 epoch 完成后会被调用，从而实现保存权重功能。用户也可以将自己定制实现的 Hook 采用上述方式绘制，对理解整个流程或许有帮助。

3.4 第三层代码抽象

前面两层抽象分析流程，基本上把整个 MMDetection 的训练和测试流程分析完了，下面从具体代码层面进行抽象分析。

3.4.1 训练和测试整体代码抽象流程

上图为训练和验证的和具体代码相关的整体抽象流程，对应到代码上，其核心代码如下：

#=================== tools/train.py ==================
# 1.初始化配置
cfg = Config.fromfile(args.config)

# 2.判断是否为分布式训练模式

# 3.初始化 logger
logger = get_root_logger(log_file=log_file, log_level=cfg.log_level)

# 4.收集运行环境并且打印，方便排查硬件和软件相关问题
env_info_dict = collect_env()

# 5.初始化 model
model = build_detector(cfg.model, ...)

# 6.初始化 datasets

#=================== mmdet/apis/train.py ==================
# 1.初始化 data_loaders ，内部会初始化 GroupSampler
data_loader = DataLoader(dataset,...)

# 2.基于是否使用分布式训练，初始化对应的 DataParallel
if distributed:
  model = MMDistributedDataParallel(...)
else:
  model = MMDataParallel(...)

# 3.初始化 runner
runner = EpochBasedRunner(...)

# 4.注册必备 hook
runner.register_training_hooks(cfg.lr_config, optimizer_config,
                               cfg.checkpoint_config, cfg.log_config,
                               cfg.get('momentum_config', None))

# 5.如果需要 val，则还需要注册 EvalHook           
runner.register_hook(eval_hook(val_dataloader, **eval_cfg))

# 6.注册用户自定义 hook
runner.register_hook(hook, priority=priority)

# 7.权重恢复和加载
if cfg.resume_from:
    runner.resume(cfg.resume_from)
elif cfg.load_from:
    runner.load_checkpoint(cfg.load_from)

# 8.运行，开始训练
runner.run(data_loaders, cfg.workflow, cfg.total_epochs)

上面的流程比较简单，一般大家比较难以理解的是 runner.run 内部逻辑，下小节进行详细分析，而对于测试逻辑由于比较简单，就不详细描述了，简单来说测试流程下不需要 runner，直接加载训练好的权重，然后进行 model 推理即可。

3.4.2 Runner训练和验证代码抽象

runner 对象内部的 run 方式是一个通用方法，可以运行任何 workflow，目前常用的主要是 train 和 val。

当配置为：workflow = [(‘train’, 1)]，表示仅仅进行 train workflow，也就是迭代训练
当配置为：workflow = [(‘train’, n),(‘val’, 1)]，表示先进行 n 个 epoch 的训练，然后再进行1个 epoch 的验证，然后循环往复,如果写成 [(‘val’, 1),(‘train’, n)] 表示先进行验证，然后才开始训练

当进入对应的 workflow，则会调用 runner 里面的 train() 或者 val()，表示进行一次 epoch 迭代。其代码也非常简单，如下所示：

def train(self, data_loader, **kwargs):
    self.model.train()
    self.mode = 'train'
    self.data_loader = data_loader
    self.call_hook('before_train_epoch')
    for i, data_batch in enumerate(self.data_loader):
        self.call_hook('before_train_iter')
        self.run_iter(data_batch, train_mode=True)
        self.call_hook('after_train_iter')

    self.call_hook('after_train_epoch')


def val(self, data_loader, **kwargs):
    self.model.eval()
    self.mode = 'val'
    self.data_loader = data_loader
    self.call_hook('before_val_epoch')
    for i, data_batch in enumerate(self.data_loader):
        self.call_hook('before_val_iter')
        with torch.no_grad():
            self.run_iter(data_batch, train_mode=False)
        self.call_hook('after_val_iter')
    self.call_hook('after_val_epoch')

核心函数实际上是 self.run_iter()，如下：

def run_iter(self, data_batch, train_mode, **kwargs):
    if train_mode:
        # 对于每次迭代，最终是调用如下函数
        outputs = self.model.train_step(data_batch,...)
    else:
        # 对于每次迭代，最终是调用如下函数
        outputs = self.model.val_step(data_batch,...)

    if 'log_vars' in outputs:
        self.log_buffer.update(outputs['log_vars'],...)
    self.outputs = outputs

上述 self.call_hook() 表示在不同生命周期调用所有已经注册进去的 hook，而字符串参数表示对应的生命周期。以 OptimizerHook 为例，其执行反向传播、梯度裁剪和参数更新等核心训练功能：

@HOOKS.register_module()
class OptimizerHook(Hook):

    def __init__(self, grad_clip=None):
        self.grad_clip = grad_clip

    def after_train_iter(self, runner):
        runner.optimizer.zero_grad()
        runner.outputs['loss'].backward()
        if self.grad_clip is not None:
            grad_norm = self.clip_grads(runner.model.parameters())
        runner.optimizer.step()

3.4.3 Model训练和测试代码抽象

前面说到，训练和验证的时候实际上调用了 model 内部的 train_step 和 val_step 函数，理解了两个函数调用流程就理解了 MMDetection 训练和测试流程。

注意，由于 model 对象会被 DataParallel 类包裹，故实际上上此时的 model，是指的 MMDataParallel 或者 MMDistributedDataParallel。以非分布式 train_step 流程为例，其内部完成调用流程图示如下：

3.4.3.1 train 或者 val 流程

（1）调用runner中的train_step或者val_step，代码如下：

#=================== mmcv/runner/epoch_based_runner.py ==================
if train_mode:
    outputs = self.model.train_step(data_batch,...)
else:
    outputs = self.model.val_step(data_batch,...)

实际上，首先会调用 DataParallel 中的 train_step 或者 val_step ，其具体调用流程为：

# 非分布式训练
#=================== mmcv/parallel/data_parallel.py/MMDataParallel ==================
def train_step(self, *inputs, **kwargs):
    if not self.device_ids:
        inputs, kwargs = self.scatter(inputs, kwargs, [-1])
        # 此时才是调用 model 本身的 train_step
        return self.module.train_step(*inputs, **kwargs)
    # 单 gpu 模式
    inputs, kwargs = self.scatter(inputs, kwargs, self.device_ids)
    # 此时才是调用 model 本身的 train_step
    return self.module.train_step(*inputs[0], **kwargs[0])

# val_step 也是的一样逻辑
def val_step(self, *inputs, **kwargs):
    inputs, kwargs = self.scatter(inputs, kwargs, self.device_ids)
    # 此时才是调用 model 本身的 val_step
    return self.module.val_step(*inputs[0], **kwargs[0])

可以发现，在调用 model 本身的 train_step 前，需要额外调用 scatter 函数，前面说过该函数的作用是处理 DataContainer 格式数据，使其能够组成 batch，否则程序会报错。

如果是分布式训练，则调用的实际上是 mmcv/parallel/distributed.py/MMDistributedDataParallel，最终调用的依然是 model 本身的 train_step 或者 val_step。
（2）调用 model 中的 train_step 或者 val_step，其核心代码如下：

#=================== mmdet/models/detectors/base.py/BaseDetector ==================
def train_step(self, data, optimizer):
    # 调用本类自身的 forward 方法
    losses = self(**data)
    # 解析 loss
    loss, log_vars = self._parse_losses(losses)
    # 返回字典对象
    outputs = dict(
        loss=loss, log_vars=log_vars, num_samples=len(data['img_metas']))
    return outputs

def forward(self, img, img_metas, return_loss=True, **kwargs):
    if return_loss:
        # 训练模式
        return self.forward_train(img, img_metas, **kwargs)
    else:
        # 测试模式
        return self.forward_test(img, img_metas, **kwargs)

forward_train 和 forward_test 需要在不同的算法子类中实现，输出是 Loss 或者预测结果。
（3）调用子类中的 forward_train 方法
目前提供了两个具体子类，TwoStageDetector 和 SingleStageDetector ，用于实现 two-stage 和 single-stage 算法。
对于TwoStageDetector 而言，其核心逻辑是：

#============= mmdet/models/detectors/two_stage.py/TwoStageDetector ============
def forward_train(...):
    # 先进行 backbone+neck 的特征提取
    x = self.extract_feat(img)
    losses = dict()
    # RPN forward and loss
    if self.with_rpn:
        # 训练 RPN
        proposal_cfg = self.train_cfg.get('rpn_proposal',
                                          self.test_cfg.rpn)
        # 主要是调用 rpn_head 内部的 forward_train 方法
        rpn_losses, proposal_list = self.rpn_head.forward_train(x,...)
        losses.update(rpn_losses)
    else:
        proposal_list = proposals
    # 第二阶段，主要是调用 roi_head 内部的 forward_train 方法
    roi_losses = self.roi_head.forward_train(x, ...)
    losses.update(roi_losses)
    return losses

对于 SingleStageDetector 而言，其核心逻辑是：

#============= mmdet/models/detectors/single_stage.py/SingleStageDetector ============
def forward_train(...):
    super(SingleStageDetector, self).forward_train(img, img_metas)
    # 先进行 backbone+neck 的特征提取
    x = self.extract_feat(img)
    # 主要是调用 bbox_head 内部的 forward_train 方法
    losses = self.bbox_head.forward_train(x, ...)
    return losses

如果再往里分析，那就到各个 Head 模块的训练环节了，这部分内容请读者自行分析，应该不难。

3.4.3.2 test流程

由于没有 runner 对象，测试流程简单很多，下面简要概述：

调用 MMDataParallel 或 MMDistributedDataParallel 中的 forward 方法
调用 base.py 中的 forward 方法
调用 base.py 中的 self.forward_test 方法
如果是单尺度测试，则会调用 TwoStageDetector 或 SingleStageDetector 中的 simple_test 方法，如果是多尺度测试，则调用 aug_test 方法

3.5 总结

本章详细地从三个层面全面解读了 MMDetection 框架，希望读者读完本章，能够对 MMDetection 框架设计思想、组件间关系和整体代码实现流程了然于心。

[1]: MMDetection Doc
[2]: 轻松掌握MMDetection整体构建流程（一）
[3]: 轻松掌握 MMDetection 整体构建流程(二)

你可能感兴趣的:(目标检测,深度学习,计算机视觉)

微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
目标检测中的NMS算法详解
好的，我们来详细解释一下目标检测中非极大值抑制（Non-MaximumSuppression,NMS）的相关概念和计算过程。1.为什么需要NMS？问题：目标检测模型（如FasterR-CNN,YOLO,SSD等）在推理时，对于同一个目标物体，通常会预测出多个重叠的、不同置信度（confidencescore）的候选边界框（BoundingBoxes）。直接输出所有这些框会导致：结果冗余：同一个物体
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
YOLOv11 技术详解：架构优化与性能提升代码老y YOLO 架构目标跟踪
YOLOv11是目标检测领域中一个备受瞩目的新版本，它在保持实时性的同时，显著提升了检测的准确性和效率。本文将深入探讨YOLOv11的架构改进、性能优化以及它在不同应用场景中的表现。一、架构改进（一）C3K2块YOLOv11引入了C3K2块，这是对之前版本中CSP（CrossStagePartial）块的增强。C3K2块使用不同的核大小（例如3x3或5x5）和通道分离策略来优化更复杂特征的提取。这
OpenCV图片操作100例：从入门到精通指南（1）总有刁民想爱朕ha opencv 计算机视觉人工智能
OpenCV图片操作100例：从入门到精通指南本文整理了100个OpenCV实用技巧，涵盖图像处理各个领域，助你轻松掌握计算机视觉核心技能！一、入门必备：基础操作1.图像读写与显示importcv2#读取图像（BGR格式）img=cv2.imread('image.jpg')#显示图像cv2.imshow('示例图片',img)cv2.waitKey(0)#按任意键退出cv2.destroyAll
OpenCV图片操作100例：从入门到精通指南（3）总有刁民想爱朕ha opencv 人工智能计算机视觉
高效学习路径：1️⃣分阶段学习：入门：1-20例（基础操作）进阶：21-50例（图像处理）高级：51-100例（计算机视觉）2️⃣项目驱动学习：证件照背景替换（1-15例）停车场车位检测（30-45例）视频运动追踪（70-85例）3️⃣性能优化技巧：#使用UMat加速图像处理umat_img=cv2.UMat(img)processed=cv2.GaussianBlur(umat_img,(5,5
YOLO11 目标检测从安装到实战
前言YOLO（YouOnlyLookOnce）系列是目标检测领域的经典算法，凭借速度快、精度高的特点被广泛应用。最新的YOLO11在模型结构和性能上进一步优化，本文将从环境搭建到实战应用，详细讲解YOLO11的使用方法，适合新手快速上手。一、环境准备1.系统要求操作系统：Windows10/11、Ubuntu20.04+、欧拉系统等硬件：CPU可运行，GPU（NVIDIA）可加速（推荐，需支持CU
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
OpenCV入门到精通：AI视觉处理的完整指南 AI云原生与云计算技术学院人工智能 opencv 计算机视觉 ai
OpenCV入门到精通：AI视觉处理的完整指南关键词：OpenCV、计算机视觉、图像预处理、目标检测、AI视觉应用摘要：本文是一份面向AI视觉爱好者的OpenCV完整学习指南。从OpenCV的核心概念讲起，结合生活案例、代码示例和项目实战，逐步拆解图像读取/显示、灰度化、边缘检测、目标检测等关键技术。无论你是想入门计算机视觉的新手，还是希望用OpenCV解决实际问题的开发者，都能通过本文掌握从理论
CNN 猫狗识别：从理论到实战的深度解析爱熬夜的小古 cnn 深度学习人工智能
在计算机视觉领域，卷积神经网络（ConvolutionalNeuralNetwork，CNN）凭借其强大的特征提取和模式识别能力，成为图像分类任务的主流技术。猫狗识别作为经典的图像分类问题，不仅能帮助我们理解CNN的工作原理，还能为实际应用提供技术支持。本文将深入探讨CNN在猫狗识别中的应用，从理论基础到实战代码，带你全面掌握这项技术。一、CNN基础理论概述（一）CNN的核心组件卷积层：是CNN的
OpenCV入门到精通：从基础到实战的全面指南
摘要：本文旨在为初学者和有一定经验的开发者提供OpenCV从入门到精通的全面指南。文章首先介绍了OpenCV的基本概念和安装方法，然后深入讲解了图像处理基础、特征检测与匹配、视频处理与分析等核心内容，最后通过实战案例展示了OpenCV在计算机视觉任务中的应用。关键词：OpenCV；图像处理；特征检测；视频分析；实战案例引言OpenCV（OpenSourceComputerVisionLibrary
第八周 tensorflow实现猫狗识别降花绘 365天深度学习 tensorflow系列 tensorflow 深度学习人工智能
本文为365天深度学习训练营内部限免文章（版权归K同学啊所有）**参考文章地址：[TensorFlow入门实战｜365天深度学习训练营-第8周：猫狗识别（训练营内部成员可读）]**作者：K同学啊文章目录一、本周学习内容:1、自己搭建VGG16网络2、了解model.train_on_batch（）3、了解tqdm，并使用tqdm实现可视化进度条二、前言三、电脑环境四、前期准备1、导入相关依赖项2、
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路一、医疗领域：AI驱动的精准诊疗与效率提升1.医学影像诊断AI算法通过深度学习技术，已实现对X光、CT、MRI等影像的快速分析，辅助医生检测癌症、骨折等疾病。例如，GoogleDeepMind的AI系统在乳腺癌筛查中，误检率比人类专家低9.4%；中国的推想医疗AI系统可在20秒内完成肺部CT扫描分析，为急诊救治争取黄金时间。2.药物研发传统药
目前主流图像分类模型的详细对比分析 @comefly 闲聊 linux 运维服务器
以下是目前主流图像分类模型的详细对比分析，结合性能、架构特点及应用场景进行整理：一、主流模型架构分类与定量对比模型名称架构类型核心特点ImageNetTop-1准确率参数量（百万）计算效率典型应用场景ResNetCNN残差连接解决梯度消失，支持超深网络（如ResNet-152）76.1%25.6中等通用分类、目标检测ViTTransformer将图像分割为patches，用标准Transforme
专题：2025云计算与AI技术研究趋势报告|附200+份报告PDF、原数据表汇总下载
原文链接：https://tecdat.cn/?p=42935关键词：2025,云计算，AI技术，市场趋势，深度学习，公有云，研究报告云计算和AI技术正以肉眼可见的速度重塑商业世界。过去十年，全球云服务收入激增8倍，中国云计算市场规模突破6000亿元，而深度学习算法的应用量更是暴涨400倍。这些数字背后，是企业从“自建机房”到“云原生开发”的转型，是AI从“实验室”走向“产业级应用”的跨越。本报告
【深度学习解惑】在实践中如何发现和修正RNN训练过程中的数值不稳定？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 人工智能 tensorflow pytorch 神经网络机器学习
在实践中发现和修正RNN训练过程中的数值不稳定目录引言与背景介绍原理解释代码说明与实现应用场景与案例分析实验设计与结果分析性能分析与技术对比常见问题与解决方案创新性与差异性说明局限性与挑战未来建议和进一步研究扩展阅读与资源推荐图示与交互性内容语言风格与通俗化表达互动交流1.引言与背景介绍循环神经网络(RNN)在处理序列数据时表现出色，但训练过程中常面临梯度消失和梯度爆炸问题，导致数值不稳定。当网络
【深度学习实战】当前三个最佳图像分类模型的代码详解云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习人工智能分类模型机器学习 Transformer EfficientNet ConvNeXt
下面给出三个在当前图像分类任务中精度表现突出的模型示例，分别基于SwinTransformer、EfficientNet与ConvNeXt。每个模型均包含：训练代码（使用PyTorch）从预训练权重开始微调（也可注释掉预训练选项，从头训练）数据集目录结构：└──dataset_root├──buy#第一类图像└──nobuy#第二类图像随机拆分：80%训练，20%验证每个Epoch输出一次loss
第35周—————糖尿病预测模型优化探索
目录目录前言1.检查GPU2.查看数据编辑3.划分数据集4.创建模型与编译训练5.编译及训练模型6.结果可视化7.总结前言本文为365天深度学习训练营中的学习记录博客原作者：K同学啊1.检查GPUimporttorch.nnasnnimporttorch.nn.functionalasFimporttorchvision,torch#设置硬件设备，如果有GPU则使用，没有则使用cpudevice=
目标检测之数据增强
数据翻转，需要把bbox相应的坐标值也进行交换代码：importrandomfromtorchvision.transformsimportfunctionalasFclassCompose(object):"""组合多个transform函数"""def__init__(self,transforms):self.transforms=transformsdef__call__(self,ima
深度学习预备知识 AmazingMQ 深度学习人工智能
1.Tensor张量定义：张量（tensor）表示一个由数值组成的数组，这个数组可能有多个维度（轴）。具有一个轴的张量对应数学上的向量，具有两个轴的张量对应数学上的矩阵，具有两个以上轴的张量目前没有特定的数学名称。importtorch#arange创建一个行向量x，这个行向量包含以0开始的前12个整数。x=torch.arange(12)print("x=",x)#x=tensor([0,1,2
模型实战（21）之 C++ - tensorRT部署yolov8-det 目标检测明月醉窗台 #深度学习实战例程人工智能 c++YOLO 目标检测计算机视觉人工智能
C++-tensorRT部署yolov8-det目标检测python环境下如何直接调用推理模型转换并导出：pt->onnx->.engineC++tensorrt部署检测模型不写废话了，直接上具体实现过程+all代码1.Python环境下推理直接命令行推理，巨简单yolodetectpredictmodel=yolov8n.ptsource='https
根茎式装配体（RA）作为下一代协同智能范式的理论、架构与应用由数入道人工智能思维框架软件工程智能体
一、引言——范式危机与新大陆的召唤1.1表征主义的黄昏：当前AI协同范式的认知天花板自艾伦·图灵在《计算机器与智能》中播下思想的种子以来，人工智能的漫长征途始终被一个强大而内隐的哲学范式所笼罩——我们称之为“表征主义”（Representationism）。这一范式，无论其外在形态如何演变，从早期的符号逻辑、专家系统，到如今风靡全球的深度学习神经网络，其核心信念从未动摇：智能的核心，在于构建一个关
【零基础学AI】第31讲：目标检测 - YOLO算法 1989 0基础学AI 人工智能目标检测 YOLO rnn lstm tensorflow
本节课你将学到YOLO算法的核心思想和工作原理如何使用YOLO进行物体检测构建一个简单的物体检测系统开始之前环境要求Python3.8+需要安装的包：opencv-python,numpy,matplotlib硬件要求：推荐使用GPU（非必须）前置知识基本Python编程能力了解卷积神经网络（CNN）的基本概念（第24讲内容）核心概念什么是目标检测？目标检测就像教计算机"看"图片中的物体。它不仅要
Manus AI与多语言手写识别
ManusAI与多语言手写识别背景与概述手写识别技术的发展现状与挑战ManusAI的核心技术与应用场景多语言手写识别的市场需求与难点ManusAI的技术架构深度学习在手写识别中的应用多语言支持的模型设计数据预处理与特征提取方法多语言手写识别的关键挑战不同语言字符的多样性处理上下文语义与书写风格适应性低资源语言的训练数据获取解决方案与优化策略迁移学习在多语言任务中的应用端到端模型的优化与轻量化用户反
基于LIDC-IDRI肺结节肺癌数据集的人工智能深度学习分类良性和恶性肺癌（Python 全代码）全流程解析（二）
基于LIDC-IDRI肺结节肺癌数据集的人工智能深度学习分类良性和恶性肺癌（Python全代码）全流程解析（二）1环境配置和数据集预处理1.1环境配置1.1数据集预处理2深度学习模型训练和评估2.1深度学习模型训练2.1深度学习模型评估笑话一则开心一下喽完整代码如下：模型文件如下深度学习模型讲解---待续第一部分内容的传送门第三部分传送门1环境配置和数据集预处理1.1环境配置环境配置建议使用ana
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f