清欢守护者

mmaction2 行为识别模型相关源码

文章目录

0. 前言
1. 模型创建过程详解
2. 基本模型详解

2.1. `BaseRecognizer` 源码详解
2.2. `Recognizer2D` 源码详解
2.3. `Recognizer3D` 源码详解

3. TSN与TSM的实现

3.1. TSN 的实现
3.2. TSM 的实现

4. I3D/R(2+1)D/Slow/SlowFast 的实现

4.1. I3D的实现
4.2. R(2+1)D的实现
4.3. SlowFast的实现
4.4. Slow 的实现

0. 前言

mmaction2 目前支持行为识别模型以及时序行为检测模型。
- 行为识别模型包括TSN/TSM/I3D/R(2+1)D/Slow/SlowFast。
  - 本文将详细描述。
- 时序行为检测模型包括BMN/BSN。
  - 本文不涉及。
从宏观角度描述下 mmaction2 模型相关源码
- 模型相关源码结构：
  - 对于每一类模型（行为识别模型、时序行为检测模型）都有若干基本模型（如行为识别模型中的2D模型与3D模型）。
  - 基本模型定义了模型的基本组成部分（称为组件）以及数据的基本流向。
    - 3D行为识别模型 Recognizer3D 的基本组件就包括了 backbone 与 head。
    - 3D行为识别模型 Recognizer3D 的数据基本流向就是，原始图片通过backbone提取特征，提取到的结果作为head的输入，最终得到分类结果。
    - 换句话说，在定义了基本模型后，我们要做的工作就是定义各个组件的具体类型。
  - 所有具体模型（如I3D/SlowFast）就是在基本模型的基础上，指定了所有组件的具体类型以及相关参数。
    - 如I3D模型，就是指定了backbone为 ResNet3d，head为I3DHead。
  - 源码剩下的阅读任务就是研究各个组件的具体实现过程。
- train/val/test时构建模型的过程：
  - 简单说就是搭积木。
  - 仔细点说就是在配置文件中定义好基本模型与组件的类型与参数，然后在入口函数中根据配置文件创建具体模型。
  - PS：源码看过了就没花头，mmdetection/detectron2/slowfast/mmaction都是一个套路。
本文剩余部分分为两类：
- 第一章：基本模型以及模型创建，分析基本模型的细节以及模型创建的细节
- 第二章：具体模型实现，分析I3D/R(2+1)D/Slow/SlowFast/TSN/TSM的具体实现细节。

1. 模型创建过程详解

根据前面的介绍，模型创建总体过程就是：根据配置文件中的内容搭积木，通过基本模型+具体组件，最终组成具体模型。
使用了Registry机制
- 看过 mmdetection/detectron2/slowfast/mmaction 源码的应该都非常熟悉这种机制了。
- 对于每类积木（如行为识别基本类型、backbone、head）都对应一个 Registry 对象。
- 每个Registry对象主要实现两个功能：
  - 功能一：维护一个字典，key为字符串形式的类型名称，value为类。
    - 例如，backbone的Registry对象，key就是字符串如 "ResNet3d"，value就是同名class对象（可通过dict[key](...)创建一个ResNet3d类的对象）
  - 功能二：可通过注解新增 key-value 对。
- 对于所有相关类，都通过注解进行注册。
- 对于行为识别模型，相关的Registry对象包括 BACKBONES, HEADS, RECOGNIZERS。
入口函数：mmaction.models.builder.py 中的 build_model。
具体创建过程：
- 第一步：根据配置文件中的 cfg.model.type 字符串，在 RECOGNIZERS 中选择对应的 基本类型。
- 第二步：将 cfg.model 中除 type 外的参数以及 cfg.train_cfg/cfg.test_cfg 中的参数作为 基本类型 的初始化参数传入。
- 第三步：在基本类型的初始化过程中，就会通过传入的参数构建具体组件。
  - 构建具体组件的过程其实也就是通过相关参数选择对应Registry对象，然后构建，没什么好多说的了。

2. 基本模型详解

行为识别模型的基本类型包括两类 Recognizer2D 与 Recognizer3D，都继承了 BaseRecognizer。

2.1. `BaseRecognizer` 源码详解

所有行为识别模型都应该继承该类。
在继承该类时，应重写 forward_train 和 forward_test 方法，分别表示训练/预测过程。
- 两者的输入都是 imgs，shape应该是 B, T, C, H, W 或 B, C, T, H, W 等，看数据预处理怎么定义的。
- 前者的输出是losses，后者的输出是分类结果。
定义了 train_step 与 val_step，前者定义了获取losses的过程，后者定义了获取预测结果的过程。
- 封装了 forward 方法。
- 虽然输入参数中包括了 optimizer，但方法中只获取了损失函数，并没有进一步进行梯度下降。
损失函数结果预处理，即 _parse_losses 方法
- 将结果构造为一个字典。
- 新增总损失函数 loss。
- 处理分布式训练时的问题，集合所有loss的值。
平均所有clip的结果，即 average_clip 方法
- 看源码，相关参数在 test_cfg 中，是测试时专用的吗？
- 可能是取了多个crop然后平均一下结果？
- 不确定，等以后用到相关功能的时候再说吧。

2.2. `Recognizer2D` 源码详解

TSN/TSM 继承了该类。
看了下数据相关源码，在TSN/TSM中使用的输入数据format都是 NCHW.
在train/test中都对数据进行了reshape
- 主要目标就是将 BATCH_SIZE, N, C, H, W 的数据转换为 BATCH_SIZExN, C, H, W。
- 毕竟，对于2D网络来说，对每张图片都要用2D CNN来提取特征。
- 换句话说，2D网络需要输入数据是4维的。
另外，不同于3D网络，在train/test过程中都获取了 num_segs 参数作为 head 的输入。
有一个用于计算FLOPs的forward_dummy函数，后续看FLOPs相关源码时再说。

2.3. `Recognizer3D` 源码详解

I3D/R(2+1)D/Slow/SlowFast 继承了该类。
看了下数据相关源码，输入数据主要用的都是 NCTHW 形式。
在train/test过程中都对数据进行了reshape
- 主要目标是将 BATCH_SIZE, M', C, T, H, W 形式的数据转换为 BATCH_SIZExM', C, T, H, W
- 对于3D网络来说，需要的数据输入形式就是5维的。
与2D网络不通，这里并不需要 num_segs
- 感觉这个参数就类似于 T 维，3D网络中直接处理了。
有一个用于计算FLOPs的forward_dummy函数，后续看FLOPs相关源码时再说。

3. TSN与TSM的实现

3.1. TSN 的实现

使用了 Recognizer2D 作为基础类型，backbone选择了 ResNet，head 选择了 TSNHead。
backbone没啥要说了，普通ResNet。
对于TSNHead稍微多说几句:
- 其实了解TSN的应该知道要做啥。
- 输入的特征图尺寸其实是 N * num_segs，即包括了 batch size 以及一个clip中的T帧图片。
- TSN 做的工作就是对每个clip的 num_segs 帧结果取平均，得到最终结果。
- 做的工作就是 N * num_segs, in_channels, h, w 经过reshape与avg pool得到 N, inchannels 的特征，然后通过一个全连接层进行分类得到最终结果。如果有必要的话，再加上一个dropout。

3.2. TSM 的实现

使用了 Recognizer2D 作为基础类型，backbone选择了 ResNetTSM，head 选择了 TSMHead。
对于Backbone，与普通ResNet的区别就在于，对所有block的的conv1添加了 shift 操作。
Shift操作的具体实现
- 在TSM作者提供的源码中，Shift操作主要通过slice赋值操作实现，如 out[:, :-1, :fold] = x[:, 1:, :fold]。这些操作在onnx/TVM转换的时候存在问题。
- mmaction2的作者使用了分别获取每一块，然后concat得到最终结果（而不是slice赋值），这样可能onnx等转换的时候方便一点。
  - 这个原因是我猜的，暂时还没进行onnx转换啥的。
  - 之前转换原版TSM源码时候，经常出现的错误是 fold = c // shift_div 这里出错，mmaction2中还是保留有这个，不知道转换起来有没有什么问题。
- 另外，mmaction的实现中没有使用 torch.zeros(), torch.zeros_like() 操作，好像是caffe inference 的问题，不过我没碰到过。
TSMHead 的实现细节
- TSN是直接先将结果转换为 N, in_channels 再进行fc。
- TSM中则是在 N * num_segs, in_channels 中就计算fc，得到结果再进行avg。
temporal pool 功能
- 在看原版代码的时候，temporal pool 执行的操作就是在ResNet的layer2钱增加了一个 T 纬度上的 3,1,1/2,1,1 的max pooling操作。
- 即，backbone 中 stage2/3/4 的 num_segments 数值减半。
- TSMHead 也需要注意 num_classes 的取值。
- mmaction2 的实现好像有问题，明天试一下。

4. I3D/R(2+1)D/Slow/SlowFast 的实现

4.1. I3D的实现

使用了 Recognizer3D 作为基础类型，backbone选择了 ResNet3d，head 选择了 I3DHead。
backbone 的整体结构与 ResNet 完全相同
- 包括stage数量，block结构与数量，conv/bn/relu的数量。
backbone 中 ResNet 与 ResNet3d 的不同之处在于：
- 所有2D BN和2D CNN都转换为3D BN和3D CNN。
- CNN多了一维temporal的，那就多了对应的kenrel size与stride。
backbone 的具体变化，即3D卷积的kernel size与stride
- STEM中的变化
  - 卷积从原先的7x7/stride(2,2)改为5x7x7/stride(2,2,2)
  - max pooling从原先的3x3/stride(2,2)改为1x3x3/stride(2,2,2)
- stage总体变化：
  - 原本四个stage的stride（都是空间）是(1,2,2,2)，现在分为时间、空间两个维度，时间上stride为(1,1,1,1)，空间上维度与之前相同，为(1,2,2,2)。
  - inflate相关
    - 本质就是 temporal 维度上kernel size的变化，stride都是1。
    - 所谓的 inflate 翻译应该就是膨胀的意思，好像是通过2D卷积实现类似3D卷积的功能（但看源码好像不是这个意思，具体看下面的实现）。
    - 换句话说，在inflate模式下，一次3x3x3的卷积需要转换为3x1x1+1x3x3两个卷积实现。
    - 参数包括inflate_freq与inflate_stype，前者是每个block都有对应的参数（判断当前block是否需要进行inflate操作），后者表示inflate类型。
- inflate的具体实现：
  - 对于BasicBlock有两种模式：inflate模式与非inflate模式
    - inflate模式下第两个卷积都使用3x3x3的卷积核。
    - 非inflate模式下，两个卷积都使用1x3x3的卷积核。
  - 对于Bottleneck有三种模式：非inflate模式，inflate 3x1x1模式，inflate 3x3x3 模式
    - 非inflate模式：1x1x1+1x3x3+1x1x1
    - inflate 3x1x1模式（最常用）：3x1x1+1x3x3+1x1x1
    - inflate 3x3x3模式：1x1x1+3x3x3+1x1x1
I3DHead 实现的功能非常简单
- 先将输入的 N, in_channels, T, H, W 通过 avg pool 转换为 N, in_channels
- 然后经过dropout+fc，得到分类结果。

4.2. R(2+1)D的实现

使用了 Recognizer3D 作为基础类型，backbone选择了 ResNet2Plus1d，head 选择了 I3DHead。
趁这个位置，说说 mmaction2 中模型构建相关代码中不太一样的地方。
- 比如要定义一个普通2D卷积操作，mmaction2中不使用 torch.nn.Conv2d 这样的默认API，而是会使用 mmcv.cnn.ConvModule。
- mmcv.cnn.ConvModule 会根据输入的 conv_cfg和norm_cfg 构建对应的卷积操作。
- 能够创建的操作包括 Conv1D/Conv2D/Conv3D。
为了实现R(2+1)D，mmaction2 定义了一个新的 conv_cfg 参数，即 Conv2plus1d.
- 该参数的具体实现位于 mmaction.models.common.conv2plus1d.py 中的 Conv2plus1d。
ResNet3d(I3D)与ResNet2Plus1d(R(2+1)D)之间的异同
- 将I3D中的所有 Conv3d 转换为 Conv2plus1d + 忽略 I3D 中的 pool2，这样的结果就是 R(2+1)D。

4.3. SlowFast的实现

使用了 Recognizer3D 作为基础类型，backbone选择了 ResNet3dSlowFast，head 选择了 SlowFastHead。
SlowFast 的配置与其他的略有不同
- 需要配置两个 ResNet3dSlowFast 对象，分别表示 Slow 分支和 Fast 分支。
- ResNet3dSlowFast 对象继承自 ResNet3d，后续会单独介绍。
- Slow分支还包含了lateral分支，即特征融合分支。特征融合相关后面会单独介绍。
ResNet3dSlowFast 简介
- 该对象继承了 ResNet3d。
- 主要区别在于增加了 lateral 相关内容，即SlowFast融合相关源码。
- Slow分支
  - 采样率由输入数据与self.resample_rate决定。
  - 包含 lateral 相关内容。
  - STEM的时间维度相关的kernel size与conv/pool stride都是1。
  - 4 stages中spatial stride都分别是(1,2,2,2)，每个stage中不同block对应的inflate参数都相同，四个stage的 inflate freq为(0,0,1,1)，都是3x1x1形式的。
  - 总体channels数量也与普通I3D相同。
- Fast分支
  - 采样率由输入数据与self.resample_rate//self.speed_ratio决定，后者一般为1。
  - 不包含 lateral 相关内容。
  - STEM的时间维度相关的conv kernel size为5，pool/pool stride都是1。
  - 4 stages中spatial stride都分别是(1,2,2,2)，每个stage中不同block对应的inflate参数都相同，四个stage的 inflate freq为(1,1,1,1)，都是3x1x1形式的。
lateral 详解
- 作用：融合slow与fast分支。
- 前提：slow与fast除了channel数量外，其他结构基本都是相同的
- 基本做法就是将fast分支中某个位置的特征经过3D卷积转换，然后与同一层的slow分支进行concat操作，concat后结果作为slow分支的输出。
- 3D卷积的实现细节：kernel size为 (5,1,1)， stride为 (alpha,1,1)，padding为(2,0,0)，channel数量x2。
SlowFastHead 的实现
- 其实就是先分别将 slow 与 fast 分支的结果在T, H, W纬度进行 avg pool。
- 对avg pool结果concat后执行 dropout+fc。

4.4. Slow 的实现

使用了 Recognizer3D 作为基础类型，backbone选择了 ResNet3dSlowOnly，head 选择了 I3DHead。
其实我没看出来与I3D有什么区别……没一行一行对着看，感觉没啥区别……
好像是参数 with_pool2 不起作用了？
没证没啥大的不同

Python训练 + Go优化 + C#部署：端到端AI模型的跨语言实践威哥说编程人工智能学习资料库 python golang c#
在现代AI应用中，如何高效地训练、优化、并最终部署AI模型是一项复杂且具有挑战性的任务。在这一过程中，选择合适的编程语言和工具可以显著提高效率和系统的性能。Python作为AI领域的主流语言，具有丰富的深度学习框架（如PyTorch和TensorFlow），在模型训练方面处于领先地位。然而，针对计算密集型任务（如数据预处理、加密等），Go语言因其高效的并发处理和出色的性能，成为优化计算的理想选择。
深度强化学习 | 图文详细推导深度确定性策略梯度DDPG算法 Mr.Winter` 机器人人工智能数据挖掘深度学习神经网络强化学习具身智能
目录0专栏介绍1演员-评论家架构1.1Critic网络优化1.2Actor网络优化2深度确定性策略梯度算法0专栏介绍本专栏以贝尔曼最优方程等数学原理为根基，结合PyTorch框架逐层拆解DRL的核心算法(如DQN、PPO、SAC)逻辑。针对机器人运动规划场景，深入探讨如何将DRL与路径规划、动态避障等任务结合，包含仿真环境搭建、状态空间设计、奖励函数工程化调优等技术细节，旨在帮助读者掌握深度强化学
边缘计算与量子模型优化驱动医疗诊断新突破
内容概要在医疗人工智能领域，边缘计算与量子模型优化的协同演进正重构诊断系统的技术范式。通过将计算节点前置至医疗设备端，边缘架构有效解决了传统云端模型面临的实时性瓶颈，配合量子优化算法对复杂特征空间的快速寻优能力，使得CT、MRI等高维影像数据的解析效率提升显著。值得关注的是，框架选型直接影响着模型部署的可行性——TensorFlow在移动端推理优化方面的工具链完备性，与PyTorch动态图机制对迭
pytorch图像分类全流程（二）前人栽树,后人乘凉 datawhale pytorch pytorch 分类 python
本次使用的是ImageNet1000类别信息，resnet18预训练模型。记录一些一坑和知识点。在传入图片或视频之前我们都会对其进行预处理，归纳下来为四个字母RCTN：缩放、裁剪、转Tensor、归一化，可以使用transforms.Compose()函数打包对应四个函数进行预处理，当然这里有个小坑，transforms.Compose()只接受pillow格式的图像，不能拿opencv传入图片。
PyTorch图像分类系列——流程概览 VAMOT PyTorch图像分类系列 pytorch 深度学习分类计算机视觉
一、加载数据1.使用torchvision.datasets的方法加载经典数据集在此网址查看支持哪些经典数据集：Datasets—Torchvision0.18documentation(pytorch.org)data_train=torchvision.datasets.CIFAR10(root="CIFAR10",train=True,transform=ToTensor(),target_
tensorflow sigmoid_cross_entropy_with_logits 函数解释及公式推导 CrazyWolf_081c
tensorflowsigmoid_cross_entropy_with_logits函数解释及公式推导tensorflow官方文档解释参考pytorch--BCELosspytorch--BCELoss解释参考定义在tensorflow/python/ops/nn_impl.py.功能：计算在给定logits和label之间的sigmoidcrossentropy。测量离散分类任务中的概率误差，
Pytorch图像二分类代码 AlexNet 望舒向晚 Pytorch pytorch 深度学习机器学习
importtorchimporttorch.nnasnnimporttorch.optimasoptimimporttorch.utils.dataimporttorch.nn.functionalasFimporttorchvisionfromtorchvisionimporttransformsfromPILimportImagedefcheck_image(path):try:im=Ima
基于逻辑回归的图像二分类算法实现（Pytorch版）哎呦哥哥、图像分类 pytorch 逻辑回归分类
基于逻辑回归的图像二分类算法实现（Pytorch版）数据集模型代码数据集链接：FastFoodClassificationDataset我们只使用Burger和Pizza这两类。模型代码importtorchimporttorch.nnasnnfromtorchvision.models.utilsimportload_state_dict_from_urlmodel_urls={'resnet5
深度学习系列-----＞环境搭建（Ubuntu）二师兄用飘柔深度学习历程深度学习 ubuntu 人工智能 pytorch python
1、前言电脑基础系统硬件情况：系统：ubuntu18.04、显卡：GTX1050Ti；后续的环境搭建都在此基础上进行。此次学习选择Pytorch作为深度学习的框架，选择的原因主要由于PyTorch在研究领域特别受欢迎，较多的论文框架也是基于其开发。2、anaconda+python3安装测试在学习深度学习的过程中会涉及到使用不同版本python包的问题，而anaconda可以便捷获取包且对包能够进
深度学习-常用环境配置瑶山 AI linux 人工智能 windows CUDA PyTorch
目录Miniconda安装安装NVIDIA显卡驱动安装CUDA和cnDNNCUDAcuDNNPyTorch安装手动下载测试Miniconda安装最新版Miniconda搭建Python环境_miniconda创建python虚拟环境-CSDN博客安装NVIDIA显卡驱动直接进NVIDIA官网：NVIDIAGeForce驱动程序-N卡驱动|NVIDIA在这里有GeForce驱动程序，立即下载，这是下
2018 MacBook Pro 安装cuda+cuDNN+pytorch
2018MacBookPro安装cuda+cuDNN+pytorch根据CSDN上的两篇文章和知乎上的一篇文章，前前后后折腾了好几天，在一个小姐姐的帮助下终于装上了。我的环境系统版本：macOS10.13.6(17G10021)GPUDriverVersion:387.10.10.10.40.133CUDADriverVersion:410.130CUDA：cuda_10.0.130cuDNN：c
推荐项目： Few-Shot-Adversarial-Learning-for-face-swap 邱晋力
推荐项目：Few-Shot-Adversarial-Learning-for-face-swap去发现同类优质开源项目:https://gitcode.com/1、项目介绍Few-Shot-Adversarial-Learning-for-face-swap是一个基于PyTorch的开源实现，重演了三星AI实验室的一项前沿研究——“Few-ShotAdversarialLearningofReal
解读一个大学专业——信号与图像处理
专业定义与核心内容维度内容定义研究如何采集、处理、分析和理解一维信号（语音、雷达、脑电）和二维/三维图像（医学、遥感、工业视觉）。关键词数字信号处理（DSP）、图像处理、计算机视觉、模式识别、压缩感知、深度学习、GPU加速、嵌入式系统。技术栈MATLAB/Python+OpenCV/PyTorch+DSP/FPGA+GPU（CUDA）第五届先进算法与信号、图像处理国际学术会议（AASIP2025）
PyTorch生成式人工智能（18）——循环神经网络详解与实现盼小辉丶 pytorch rnn 自然语言处理
PyTorch生成式人工智能（18）——循环神经网络详解与实现0.前言1.文本生成的挑战2.循环神经网络2.1文本数据2.2循环神经网络原理3.长短期记忆网络3.自然语言处理基础3.1分词3.2词嵌入3.3词嵌入在自然语言处理中的应用小结系列链接0.前言我们已经学习了如何生成数字和图像等内容。从本节开始，我们将主要聚焦于文本生成。人类语言极其复杂且充满细微差别，不仅仅涉及语法和词汇的理解，还包括上
为什么用Pytorch帮客户训练好了模型还要提供模型结构？ yuanpan pytorch 人工智能机器学习
如果我在训练模型后生成好了一个模型文件：mnist_model.pth我想把这个模型文件给第三方使用，而不告诉他模型定义的结构等信息，那么第三方是不是就用不起来这个模型？答案：是的。如果只提供.pth文件而不告知模型结构，第三方确实无法直接使用该模型。原因和解决方案如下：1.为什么无法直接使用？.pth文件仅保存参数：torch.save(model.state_dict(),'mnist_mod
autodl云计算平台使用ollama 部署lightrag 加入streamlit界面 42fourtytoo 云计算深度学习 pytorch 学习
1到autodl的算力市场里开一台机器镜像选择：PyTorch2.3.0、Python3.12(ubuntu22.04)、Cuda12.1我本来选择的Cuda12.4，但版本过高疑似会使ollama不使用GPU而只用CPU，后来换个镜像就好了2下载lightrag从lightrag的GitHub界面下载zip开机，上传zip，解压到autodl-tmp/lightrag下安装依赖，在文件夹下：pi
opencv、torch、torchvision、tensorflow的区别
一、框架定位与核心差异PyTorch动态计算图：实时构建计算图支持Python原生控制流（如循环/条件），调试便捷。学术主导：2025年工业部署份额24%，适合快速原型开发（如无人机自动驾驶、情绪识别）。TensorFlow静态计算图优化：预编译图结构提升部署效率支持动态图（Eager模式）兼顾灵活性。工业部署首选：市场份额38%，擅长边缘计算（YOLO部署）和大规模项目（工业自动化）-59）。O
PyTorch笔记6----------神经网络案例 HuashuiMu花水木 PyTorch笔记 pytorch 笔记
1.回归网络波士顿房价预测模型搭建波士顿房价数据集下载链接：百度网盘请输入提取码提取码:5279导入所需包importtorchimportnumpyasnpimportre读取数据ff=open('housing.data').readlines()data=[]foriteminff:out=re.sub(r"\s{2,}","",item).strip()#通过正则表达式去除所有空格data
【AI 赋能：Python 人工智能应用实战】5. 梯度下降家族：SGD/Adam优化器对比实验与选择策略 AI_DL_CODE 人工智能 python 梯度下降优化器 SGD Adam PyTorch
摘要：本文系统解析梯度下降优化器的核心原理与演进脉络，构建从理论到实战的完整知识体系。理论部分梳理优化器发展里程碑，从1951年的SGD到2018年的AdamW，揭示技术迭代逻辑；通过数学公式对比SGD、Momentum、Adam等核心算法的更新机制，解析动量加速、自适应学习率的创新点。结合损失曲面分析，阐释Momentum如何逃离鞍点、Adam如何处理悬崖梯度。实战模块基于PyTorch在MNI
使用UV管理PyTorch项目
PyTorch是深度学习研究和开发的流行选择。可以使用uv管理PyTorch项目，包括不同Python版本依赖、管理环境、甚至加速器选择等。安装Pytorch从打包角度来看，PyTorch有几个不常见的特点：许多PyTorchwheel托管在专门的索引上，而非Python包索引（PyPI）。因此，安装PyTorch通常需要配置项目使用PyTorch专属索引。PyTorch为每种加速器生成不同的构建
模型移植实战：从PyTorch到ONNX完整指南慕婉0307 神经网络 pytorch 人工智能 python
一、认识ONNXONNX（OpenNeuralNetworkExchange）是一种开放的模型表示格式，由微软和Facebook（现Meta）在2017年共同推出，旨在解决深度学习模型在不同框架之间的互操作性问题。ONNX的主要优势包括：跨框架兼容性：支持主流深度学习框架间的模型转换，包括PyTorch、TensorFlow、MXNet、CNTK等例如，可以将PyTorch训练的ResNet模型导
PyTorch的基础概念和复杂模型的基本使用香蕉可乐荷包蛋 AI大模型项目中的使用 pytorch 人工智能 python
文章目录一、PyTorch基础概念二、复杂模型的学习使用一、PyTorch基础概念张量（Tensor）操作：张量是PyTorch中的基本数据结构，类似于NumPy的数组，但支持GPU加速常见操作包括创建张量、张量运算、索引、切片等importtorch#创建张量x=torch.randn(3,4)y=torch.zeros(3,4)#张量运算z=x+y自动求导（Autograd）：PyTorch的
python3.9安装tensorflow-gpu 2.6.0和torch-gpu版本各依赖包的版本对应关系
首先使用的cuDNN（8.1）、CUDA（11.2）、tensorflow-gpu（2.6.0）、python（3.9）之间对应版本Window环境下安装pytorch下载地址tensorflow官网CUDA下载官网cuDNN下载官网注意：cuDNN需要注册absl-py0.15.0astunparse1.6.3cachetools5.3.2certifi2023.7.22charset-norm
深度学习方法生成抓取位姿与6D姿态估计的完整实现 ZPC8210 ROS 深度学习人工智能
如何将GraspNet等深度学习模型与6D姿态估计集成到ROS2和MoveIt中，实现高精度的机器人抓取系统。1.系统架构text[RGB-D传感器]→[物体检测与6D姿态估计]→[GraspNet抓取位姿生成]→[MoveIt运动规划]→[执行抓取]2.环境配置2.1安装依赖bash#安装PyTorch(根据CUDA版本选择)pip3installtorchtorchvisiontorchaud
Unet源码实现（pytorch） wyn20001128 pytorch 人工智能 python
U-Net是一种用于生物医学图像分割的卷积神经网络架构。它通过引入一种新颖的网络结构和训练策略解决了传统方法在数据量不足时面临的挑战。U-Net的主要思想是利用数据增强技术来高效利用有限的标注样本，并通过独特的网络设计来提高分割精度。主要贡献U-Net的主要贡献包括：1、数据增强策略：使用随机弹性变形和其他形式的数据增强来增加训练数据的多样性，从而在有限的数据集上训练出更强大的模型。2、U形网络结
pytorch的学习笔记 wyn20001128 算法
一cuda 2006年，NVIDIA公司发布了CUDA(ComputeUnifiedDeviceArchitecture)，是一种新的操作GPU计算的硬件和软件架构，是建立在NVIDIA的GPUs上的一个通用并行计算平台和编程模型，它提供了GPU编程的简易接口，基于CUDA编程可以构建基于GPU计算的应用程序。 CPU是用于负责逻辑性比较强的计算，GPU专注于执行高度线程化的并行处理任务。所以
神经网络项目--基于FPGA的AI简易项目（1-9图片数字识别）霖12 深度学习 pytorch 神经网络 fpga开发人工智能机器学习
1.训练MNIST模型importtorch#导入pytorch核心库importtorch.nnasnn#神经网络模块，如卷积层importtorch.optimasoptim#优化器fromtorchvisionimportdatasets,transforms#数据集与图像预处理工具#定义CNN模型classSimpleCNN(nn.Module):#PyTorch库中所有神经网络的“基础模
神经网络常见激活函数 13-Softplus函数亲持红叶神经网络常见激活函数神经网络人工智能深度学习
文章目录Softplus函数+导函数函数和导函数图像优缺点PyTorch中的Softplus函数TensorFlow中的Softplus函数Softplus函数+导函数Softplus函数Softplus⁡(x)=ln⁡(1+e x)\begin{aligned}\operatorname{Softplus}(x)&=\ln\bigl(1+e^{\,x}\bigr)\end{aligned}Sof
Anaconda 、Pytorch下载教程（保姆级）湲绘 pytorch opencv 人工智能 conda python 深度学习
#因为每次都自己去搜教程太麻烦，索性写个博客记录一下#一、Anaconda的下载与安装进入Anaconda官网官网：Anaconda|TheWorld’sMostPopularDataSciencePlatform下载地址：FreeDownload|Anaconda直接点击Download即可版本对应表如下，选择自己想要的python版本下载就好[环境配置]anaconda3的base环境与pyt
基于AutoCut实现在文档中按照片段剪辑视频 Mr数据杨 Python 音频技术音视频
本项目致力于通过构建一个具备深度学习支持的多功能视频处理环境，为用户提供高效、智能的视频编辑和字幕生成工具。依托Anaconda环境管理工具和PyTorch的GPU加速能力，用户能够迅速搭建一个符合项目需求的Python环境。结合FunClip的源代码以及相关插件的安装和配置，用户可充分利用项目所支持的图像、音频识别功能，并以极少的配置便获得理想的视频裁剪效果。项目的核心在于简化深度学习项目的环境
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running][email protected]:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发

mmaction2 行为识别模型相关源码

文章目录

0. 前言

1. 模型创建过程详解

2. 基本模型详解

2.1. BaseRecognizer 源码详解

2.2. Recognizer2D 源码详解

2.3. Recognizer3D 源码详解

3. TSN与TSM的实现

3.1. TSN 的实现

3.2. TSM 的实现

4. I3D/R(2+1)D/Slow/SlowFast 的实现

4.1. I3D的实现

4.2. R(2+1)D的实现

4.3. SlowFast的实现

4.4. Slow 的实现

你可能感兴趣的:(PyTorch)

2.1. `BaseRecognizer` 源码详解

2.2. `Recognizer2D` 源码详解

2.3. `Recognizer3D` 源码详解