OpenMMLab

ResNet 高精度预训练模型在 MMDetection 中的最佳实践

1 前言

2 rsb 和 tnr 在 ResNet50 上训练策略对比

2.1 汇总表

2.2 ResNet baseline 训练技巧详情

2.3 TIMM 训练技巧详情

2.4 TorchVison 训练技巧详情

3 高性能预训练模型在目标检测任务上的表现

3.1 仅替换预训练权重下表现

3.2 ResNet baseline 预训练模型参数调优实验

3.3 mmcls rsb 预训练模型参数调优实验

3.4 TIMM rsb 预训练模型参数调优实验

3.5 TorchVision tnr 预训练模型参数调优实验

4 总结

1 前言

作为最常见的骨干网络，ResNet 在目标检测算法中起到了至关重要的作用。许多目标检测经典算法，如 RetinaNet 、Faster R-CNN 和 Mask R-CNN 等都是以 ResNet 为骨干网络，并在此基础上进行调优。同时，大部分后续改进算法都会以 RetinaNet 、Faster R-CNN 和 Mask R-CNN 为 baseline 进行公平对比。

近期，TIMM 和 TorchVision 都公布了最新的提升 ResNet 性能的训练技巧方案。在 TIMM 中将该方案称为 ResNet Strikes Back (rsb)，在 ImageNet 1k 数据集上将 ResNet50 的 top1 准确率从 76.1 提升到 80.4，而 TorchVision 中将其称为 TorchVision New Recipes (tnr)，将 top1 准确率提升到了 80.86，两者都提升比较大。

有了如此强的预先训练好的 ResNet 骨干网络，将其应用于下游目标检测任务上是否会带来巨大提升？这是一个非常值得思考的问题。为此，MMDetection 团队通过大量的实验和参数调优给这个问题提供了不错的答案。以 Faster R-CNN 为例，在 COCO Val 数据集上性能表如下所示：

序号 1 是 Faster R-CNN baseline，可以看出基于高精度预训练的 ResNet 模型 r50-mmcls，经过优化器、学习率和权重衰减系数的调优，Faster R-CNN 上 mAP 性能最高能提升 3.4 (r50-mmcls 是指采用 rsb 策略在 MMClassification 上训练出的预训练模型)。同时我们为每一个 backbone 都搜索了一套最优参数，方便用户参考。

2 rsb 和 tnr 在 ResNet50 上训练策略对比

本文将先仔细分析说明 rsb 和 tnr 的训练策略，然后再描述如何在下游目标检测任务中微调从而大幅提升经典检测模型的性能。

2.1 汇总表

首先为了方便查看和对比，我们梳理了如下对比表格：

ResNet50-base 是指 ResNet50 baseline 结果
ResNet50-rsb 是指 TIMM 提出的 ResNet Strikes Back 策略训练结果，具体是 A1 策略
ResNet50-tnr 是指 TorchVision 提出的 New Recipe 策略训练结果
ResNet50-Deit-S 是指 TIMM 中所采用的基于 Deit-S 算法策略来训练 ResNet 的结果，本实验是为了公平对比 DeiT-S 和 ResNet Strikes Back

2.2 ResNet baseline 训练技巧详情

ResNet baseline 即上表的 ResNet50-base 一列。注意 ResNet 由于历史原因有两个版本：ResNet-PyTorch 和 ResNet-Caffe，其差别在于 Bottleneck 模块，Bottleneck 是 1x1-3x3-1x1 堆叠结构，在 caffe 模式模式下 stride=2 参数放置在第一个 1x1 卷积处，而 pyorch 模式下 stride=2 放在第二个 3x 卷积处。一个简单示例如下：

if self.style == 'pytorch': 
      self.conv1_stride = 1 
      self.conv2_stride = stride 
else: 
      self.conv1_stride = stride 
      self.conv2_stride = 1

而此处的 baseline 则是指的 ResNet-PyTorch 。ResNet50是在 ImageNet 1K 训练数据集上从头训练，并在 ImageNet 1K 验证集上计算 top-1 accuracy。其训练技巧如下所示：

batch size: 32*8, 8卡，每张卡 32 bs
优化器: SGD 且 Momentum 为 0.9
学习率：初始学习率为 0.1, 每 30 个epoch 学习速率衰减为原来的 0.1
Epoch 总数：90
权重正则： weight decay 为 1e-4
训练数据增强
- 随机缩放裁剪（RandomResizedCrop）
- 随机水平翻转（RandomHorizontalFlip）
- 随机颜色抖动 (ColorJitter)
图片输入大小：训练和测试时图像大小均为 224

基于上述配置，ResNet50 在 ImageNet 1k 验证数据集上 top-1 accuracy 是 76.1。

2.3 TIMM 训练技巧详情

TIMM 总结了目前最新的训练技巧，并将其应用到 ResNet 中，提出了 ResNet-rsb 版本。其有三个变种，分别对应 epochs 600, 300 和 100，称为 A1、A2 和 A3 版本，如下所示：

A1 是为了提供 ResNet50 上最佳性能模型
A2 是为了和 DeiT 进行相似对比(不是完全公平对比，因为 bs/训练 trick 不一样)
A3 是为了和原始 ResNet50 进行公平对比

作者在三个数据集上进行评估，具体为：

Val 表示在 ImageNet 1k 验证数据集
v2 表示 ImageNet 1k v2 版本数据集

以 A1 为例，其训练技巧如下所示：

batch size: 512x4=2048, 4卡，每张卡 512 bs
优化器: LAMB
学习率：初始学习率为 5x10^-3, 学习率调度策略采用 consine
Epoch 总数：600
权重正则： weight decay 为 0.01
Wramup：总共 5 epoch
训练数据增强
- 随机缩放裁剪（RandomResizedCrop）
- 随机水平翻转（RandomHorizontalFlip）
- 随机增强 Rand Augment 7/0.5
- Repeated Aug
- Mixup Aug，参数 alpha 0.2
- Cutmix Aug，参数 alpha 1.0
Loss 不再是采用 CE，而是替换为 BCE
训练模型扰动
- Label smoothing，参数 0.1
- Stochastic-Depth，参数 0.05
图片输入大小：
- 训练输入网络的图片大小为 224x224
- 基于 FixRes 策略，将图片 Resize 为 236, 然后 crop 成 224

可以看出，相比 ResNet-base 版本，由于训练 epoch 变长，训练中引入了很多新的数据增强和模型扰动策略。基于上述策略重新训练 ResNet50，在 ImageNet 1k 验证数据集上 top-1 accuracy 是 80.4。除了以上结果，作者还通过实验还得到了其他发现：

加入如此多且强的数据增强和模型扰动，虽然可以提升模型性能，但是在网络训练早期收敛速度会很慢
如果训练总 batch 为 512 时候，SGD 和 AdamW 都可以收敛，但是当训练的总 batch 为 2048，如果采用 SGD 和 BCE Loss，很难收敛

作者提供的非常详细的对比表如下所示：

同时，作者还验证 A1、A2 和 A3 这套设置在不同架构下的泛化能力。

其中加号表示 TorchVision 结果，而 ∗ 来自 DeiT 结果。

作者还对 ResNet-50 和 Deit-S 两者进行了对比，性能如下：

2.4 TorchVison 训练技巧详情

TorchVision 也推出了自己的训练技巧，其官方推文中有详细说明，其余相关讨论见 https://github.com/pytorch/vision/issues/3911，最终结果如下所示：

作者还贴心地绘制了每个 trick 所带来的提升，如下所示：

训练技巧汇总：

batch size: 128x8=1024, 8卡，每张卡128 bs
优化器: SGD 且 Momentum 为 0.9
学习率：初始学习率为 0.5, 学习率调度策略采用 consine
Epoch 总数：600
权重正则： weight decay 为 2e-05，且 norm 不进行 decay
Wramup：总共 5 epoch，采用线性 warmup，lr_warmup_decay 为 0.01
训练数据增强
- 随机缩放裁剪（RandomResizedCrop）
- 随机水平翻转（RandomHorizontalFlip）
- TrivialAugment
- Mixup，参数 alpha 为 0.2
- Cutmix，参数 alpha 为 1.0
- 随机擦除 (Random Erase)，概率参数为 0.1
训练模型扰动
- Label smoothing，参数 0.1
- EMA，decay 参数为 0.99998，每隔 32 次迭代更新一次
图片输入大小：
- 训练输入网络的图片大小为 176x176
- 基于 FixRes 策略，对图片 Resize 为 232, 然后 crop 成 224

可以看出，rsb 和 torchvision 所提策略的重点都在于引入强的 aug、更多的模型扰动已经更长的训练 epoch。除此之外，作者还通过实验还得到了其他发现：

使用一些更复杂的优化器，例如 Adam、RMSProp 和 SGD with Nesterov momentum，发现效果不会更好，但是作者没有实验 LAMB
作者尝试了不同的 LR 调度器方案，例如 StepLR 和 Exponential。尽管后者倾向于与 EMA 一起更好地工作，但它通常需要额外的超参数，例如定义最小 LR 才能正常工作，所以作者最终还是采用了对超参不那么敏感的 cosine
作者尝试了不同的增强策略，例如 AutoAugment 和 RandAugment，但是这些都没有优于更简单的无参数 TrivialAugment
使用双三次或最近邻插值并没有提供比双线性更好的结果
使用 Sync Batch Norm 并没有比使用常规 Batch Norm 产生明显更好的结果
Mixup 和 Cutmix 两者配合使用时可以采用等概率的随机选择一种的方式，单独采用 Mixup 可以提升0.118，配合 Cutmix 可以额外提升 0.278
FixRes 中作者发现，训练时采用 176 图片尺寸，测试采用 272 尺寸效果最好，不过作者还是采用 224 ，目的是为了 baseline 保持一致，而如果训练时候采用 224 尺寸，测试采用 256 效果最好

3 高性能预训练模型在目标检测任务上的表现

本节探讨高性能预训练模型在目标检测任务上的表现。本实验主要使用 COCO 2017 数据集在 Faster R-CNN FPN 1x 上进行。具体设置请参考 MMDetection 配置文件。

# https://github.com/open-mmlab/mmdetection/blob/master/configs/faster_rcnn/faster_rcnn_r50_fpn_1x_coco.py 
_base_ = [ 
    '../_base_/models/faster_rcnn_r50_fpn.py', 
    '../_base_/datasets/coco_detection.py', 
    '../_base_/schedules/schedule_1x.py', '../_base_/default_runtime.py' 
]

几个核心配置为：

8 卡训练，总 batch size 为 16
1x 训练时长即 12 epoch

optimizer = dict(type='SGD', lr=0.02, momentum=0.9, weight_decay=0.0001)

优化器相关配置是： SGD+ 0.9 momentum，lr 为 0.02，weight_decay 为 0.0001

如果想理解 Faster R-CNN 代码及其配置参数等细节信息可以参考轻松掌握 MMDetection 中常用算法(二)：Faster R-CNN|Mask R-CNN 一文。

3.1 仅替换预训练权重下表现

为了快速评估不同性能的预训练权重在 Faster R-CNN FPN baseline 配置下的性能，我们直接替换预训练权重，验证在 Faster R-CNN 上的性能，结果如下所示：

模型下载链接：
https://download.pytorch.org/models/resnet50-19c8e357.pth
https://download.openmmlab.com/mmclassification/v0/resnet/resnet50_8xb256-rsb-a1-600e_in1k_20211228-20e21305.pth
https://github.com/rwightman/pytorch-image-models/releases/download/v0.1-rsb-weights/resnet50_a1_0-14fe96d1.pth
https://download.pytorch.org/models/resnet50-11ad3fa6.pth

需要说明的是，为了保证实验的公平性，我们在实验中设置了随机种子 (Seed=0)，全部实验均在 8 x V100上进行，batch size = 16(8×2)。

从上表可以看出：替换成高精度的预训练权重的 ResNet 后，Faster R-CNN 没有显著提升甚至有些性能下降非常严重，这说明高精度预训练的 ResNet 可能不再适合用同一套超参，故而非常有必要对其进行参数调优。主要可能因为预训练模型的训练策略调整使 SGD 优化器不能很好适应预训练模型。因此我们计划通过调整优化器、学习率和权重正则来对检测器进行微调。

3.2 ResNet baseline 预训练模型参数调优实验

由于 ResNet Strikes Back 中使用 AdamW 优化器来训练，我们尝试在目标检测下游任务中使用 AdamW 作为优化器，希望能够达到和使用 SGD 优化器相同的测试精度。

具体细节可见下表：

可以看到，在使用 AdamW 优化器，学习率为 0.0001 时，整体精度均可以超过 SGD 优化器，而在权重正则为 0.1 时，性能最优。

3.3 mmcls rsb 预训练模型参数调优实验

通过修改配置文件中预训练模型，我们可以将 ResNet 的预训练模型替换为 MMClassification 通过 rsb 训练出的预训练模型。在此基础上，我们分别通过 AdamW 与 SGD 来训练 Faster R-CNN ，从而获得 MMClassification 通过 rsb 训练出的预训练模型在检测任务上的效果。MMDetection 中配置文件写法为：

_base_ = [ 
    '../_base_/models/faster_rcnn_r50_fpn.py', 
    '../_base_/datasets/coco_detection.py', 
    '../_base_/schedules/schedule_1x.py', '../_base_/default_runtime.py' 
] 
 
checkpoint = 'https://download.openmmlab.com/mmclassification/v0/resnet/resnet50_8xb256-rsb-a1-600e_in1k_20211228-20e21305.pth'   # noqa 
model = dict( 
    backbone=dict( 
        init_cfg=dict( 
            type='Pretrained', prefix='backbone.', checkpoint=checkpoint))) 
 
# 此处配置参数是最佳性能参数 
optimizer = dict( 
    _delete_=True, 
    type='AdamW', 
    lr=0.0002, 
    weight_decay=0.05, 
    paramwise_cfg=dict(norm_decay_mult=0., bypass_duplicate=True))

基于上一小节的先验，我们首先使用 AdanW 为优化器，学习设置为 0.0001。

具体数值见下表：

为了验证学习率对精度的影响，我们做了学习率验证实验。

具体数值见下表：

基于上述实验，我们发现在学习率为 0.0002 时，检测精度明显提高，因此我们设置了学习率为 0.0002 的对照实验：

具体数值见下表：

能够看到，在 lr=0.0002, weight decay=0.05 时，精度最高。同时也可以发现，weight decay 在某一个区间范围内对精度的影响不会很大，一旦超过这个区间，精度会下降明显。

3.4 TIMM rsb 预训练模型参数调优实验

接下来，我们将 ResNet 的预训练模型替换为 PyTorch Image Models (TIMM) 的模型。在此基础上，我们通过 AdamW 来训练 Faster R-CNN ，从而获得 TIMM 预训练模型在检测任务上的效果。MMDetection 中的配置写法如下所示：

_base_ = [ 
    '../_base_/models/faster_rcnn_r50_fpn.py', 
    '../_base_/datasets/coco_detection.py', 
    '../_base_/schedules/schedule_1x.py', '../_base_/default_runtime.py' 
] 
 
checkpoint = 'https://github.com/rwightman/pytorch-image-models/releases/download/v0.1-rsb-weights/resnet50_a1_0-14fe96d1.pth'   # noqa 
model = dict( 
    backbone=dict( 
        init_cfg=dict( 
            type='Pretrained', checkpoint=checkpoint))) 
 
# 此处配置参数是最佳性能参数 
optimizer = dict( 
    _delete_=True, 
    type='AdamW', 
    lr=0.0002, 
    weight_decay=0.03, 
    paramwise_cfg=dict(norm_decay_mult=0., bypass_duplicate=True))

基于上述微调先验信息，我们首先分别固定学习率为 0.0001 和 0.0002 ，调整 weight decay。实验结果如下：

具体数值见下表：

可以看到，尽管相比于基础的 Bbox mAP=37.4，有了一定的提高，最高能够达到 39.8。但是相比于使用 mmcls 的预训练模型得到的最高 Bbox mAP = 40.8 还是有一定的差距。之后我们还调整学习率来观察结果：

具体数值见下表：

综合前面结果，能够看到，AdamW 在学习率为 0.0001 和 0.0002 时精度差距不大，超过 0.0003 后，精度会明显下降。

3.5 TorchVision tnr 预训练模型参数调优实验

最后，我们还将 ResNet 的预训练模型替换为 TorchVision 通过新技巧训练出来的高精度模型，并分别通过 SGD 与 AdamW 来训练 Faster R-CNN，从而获得 TorchVision 通过新技巧训练出来的高精度模型在检测任务上的效果。MMDetection 中配置文件写法如下所示：

_base_ = [ 
    '../_base_/models/faster_rcnn_r50_fpn.py', 
    '../_base_/datasets/coco_detection.py', 
    '../_base_/schedules/schedule_1x.py', '../_base_/default_runtime.py' 
] 
 
checkpoint = 'https://download.pytorch.org/models/resnet50-11ad3fa6.pth' 
model = dict( 
 backbone=dict( 
 init_cfg=dict( 
 type='Pretrained', checkpoint=checkpoint))) 
 
# 此处配置参数是最佳性能参数             
optimizer = dict( 
    _delete_=True, 
    type='AdamW', 
    lr=0.0001, 
    weight_decay=0.1, 
    paramwise_cfg=dict(norm_decay_mult=0., bypass_duplicate=True))

我们首先使用 SGD 算法来优化 Faster R-CNN，并尝试搜索最优的学习率与 weight decay:

SGD 算法下固定 weight decay 搜索最优 learning rate 实验

具体数值见下表：

SGD 算法下固定 learning rate 搜索最优 weight decay 实验

具体数值见下表：

根据实验结果可以看到，当保持训练参数一致，仅将预训练模型换为 TorchVision 的高精度预训练模型可以使精度上涨 2.2(37.4 -> 39.6) 个点。当学习率为 0.04，weight decay 为 0.00001 时，使用 r50-tnr 作为预训练模型，在 SGD 算法下优化的 Faster R-CNN 可以达到最高的 39.8% mAP 的结果。

接下来，我们尝试使用 AdamW 算法优化模型：

AdamW 算法下固定 weight decay 搜索最优 learning rate 实验

具体数值见下表：

AdamW 算法下固定 learning rate 搜索最优 weight decay 实验

具体数值见下表：

通过实验可以得出，在使用 AdamW 优化器时，学习率为 0.0001 的效果要比 0.0002 好上很多。而 weight decay 在 0.1 左右达到最高，其变化对最终的结果影响不大。当学习率使用 0.0001，weight decay 为 0.1 时，加载 r50-tnr 的 Faster R-CNN 达到最大精度的 40.2% mAP，相比于 SGD 上升了 0.4 (39.8 -> 40.2)。

4 总结

通过之前的实验，我们可以看出使用高精度的预训练模型可以极大地提高目标检测的效果，所有预训练模型最高的结果与相应的参数设置如下表所示：

从表格中可以看出，使用任意高性能预训练模型都可以让目标检测任务的性能提高 2 个点左右。其中使用 MMClassification 训练出来地高精度模型使 Faster R-CNN 增长了 3.4 个点，达到了最高的 40.8% mAP，这证明使用高性能预训练模型对目标检测任务有极大地帮助。

如果你想复现或者进一步实验，可以参考相关的配置文件和 PR

TorchVision 高精度模型配置和 PR：https://github.com/open-mmlab/mmdetection/blob/master/configs/faster_rcnn/README.md#torchvision-new-receipe-tnr
TIMM 高精度模型配置：https://github.com/open-mmlab/mmdetection/blob/master/configs/resnet_strikes_back/README.md

欢迎大家来 MMDetection 体验，感谢 MMClassification 团队对本文内容的仔细校对！

如果我们的分享给你带来一定的帮助，欢迎点赞收藏关注，比心~

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
.NET 程序的强名称签名与安全防护技术干货深盾科技安全
在.NET开发领域，保障程序的安全性和完整性至关重要。强名称签名和有效的安全防护措施是实现这一目标的关键手段。下面将详细介绍.NET程序的强名称签名以及相关的安全防护方法。一、什么是强名称签名强名称签名是.NET框架提供的一种安全机制，其主要作用是唯一标识程序集、验证程序集的完整性以及解决版本冲突问题。它本质上是通过加密技术为程序集创建数字签名，确保程序集在分发和运行过程中的安全性。二、签名文件要
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
正义的算法迷宫—人工智能重构司法体系的技术悖论与文明试炼
一、法庭的数字化迁徙当美国威斯康星州法院采纳COMPAS算法评估被告再犯风险，当中国"智慧法院"系统年处理1.2亿件案件，司法体系正经历从石柱法典到代码裁判的范式革命。这场转型的核心驱动力是司法效率与公正的永恒张力：美国重罪案件平均审理周期达18个月，中国基层法官年人均结案357件（是德国同行的6倍），而算法能在0.3秒内完成百万份文书比对。人工智能渗透司法引发三重裂变：证据分析从经验推断转向数据
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
MCP协议：AI时代的“万能插座”如何重构IT生态与未来
MCP协议：AI时代的“万能插座”如何重构IT生态与未来在人工智能技术爆炸式发展的浪潮中，一个名为ModelContextProtocol（MCP）的技术协议正以惊人的速度重塑IT行业的底层逻辑。2024年11月由Anthropic首次发布，MCP在短短半年内获得OpenAI、谷歌、亚马逊、阿里、腾讯等全球科技巨头的支持，被业内誉为AI时代的HTTP协议或USB-C接口，正在成为连接大模型与现实世
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
《算法备案全攻略：规范与流程引领数字时代新秩序》算法及大模型备案顾问刘老师算法备案深度学习 AIGC 语言模型算法人工智能
一、算法备案：开启合规新征程（一）备案规定的起源与发展2022年国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合发布《互联网信息服务算法推荐管理规定》，自2022年3月1日起施行。此后，相关规定不断完善和演进。如国家网信办于2022年8月、10月及2023年1月先后三次公布了《境内互联网信息服务算法备案清单》。同时，2022年发布的最高人民法院《关于规范和加强人工智能司法应用
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python 实战人工智能数学基础：推荐系统应用 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术文章目录1.背景介绍2.核心概念与联系2.1用户画像2.2相似性计算2.2.1基于物品的相似度2.2.2基于用户的相似度2.3协同过滤算法2.3.1基于用户的协同过滤算法2.3.2基于物品的协同过滤算法2.3.3基于上下文的协同过滤算法3.核心算法原理和具体操作步骤以及数学模型公式详细讲解3.1基于用户的协同过滤算法3.2基于物品的协同过滤算法3.3混合协同过滤算法3.
Python桌面应用开发的未来——智能化工具与大模型赋能 IronwoodStag78
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！标题：Python桌面应用开发的未来——智能化工具与大模型赋能随着人工智能技术的飞速发展，传统软件开发模式正在被重新定义。Python作为一门功能强大且灵活的语言，在桌面应用开发领域一直占据重要地位。然而，面对日益复杂的用户需求和快速变化的技术环境，如何提升开发效率、降低开发门槛，成为开发者亟需解决的问题
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
分布式事务解决方案总结：本地消息异步确认、可靠消息最终一致性、最大努力通知码到三十五面试攻关分布式 spring cloud spring boot
❃博主首页：「码到三十五」，同名公众号:「码到三十五」☠博主专栏：♝博主的话：搬的每块砖，皆为峰峦之基；公众号搜索「码到三十五」关注这个爱发技术干货的coder，一起筑基分布式系统中事务是一个重要挑战，先从从实现原理、技术细节、适用场景三个维度，对三种主流分布式事务解决方案进行简单总结。一、本地消息异步确认方案实现原理该方案通过「本地事务+消息表」机制实现最终一致性，核心思想是将业务操作与消息发送
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，

ResNet 高精度预训练模型在 MMDetection 中的最佳实践

1 前言

2 rsb 和 tnr 在 ResNet50 上训练策略对比

2.1 汇总表

2.2 ResNet baseline 训练技巧详情

2.3 TIMM 训练技巧详情

2.4 TorchVison 训练技巧详情

3 高性能预训练模型在目标检测任务上的表现

3.1 仅替换预训练权重下表现

3.2 ResNet baseline 预训练模型参数调优实验

3.3 mmcls rsb 预训练模型参数调优实验

3.4 TIMM rsb 预训练模型参数调优实验

3.5 TorchVision tnr 预训练模型参数调优实验

4 总结

你可能感兴趣的:(技术干货,人工智能,深度学习)