小吴同学真棒

PyTorch 1.7 Video 初体验（Video Datasets，Video IO，Video Classification Models，Video Transform）

Environment 环境

Win 10
Anaconda Navigator
PyCharm
cuda 10.1
torch 1.7.1
torchvision 0.8.2
Python 3.8

Reference 参考链接

Anaconda Navigator 版本的升级：https://www.cnblogs.com/developerchen/p/8879516.html

打开 Anaconda Prompt，输入以下命令：

conda install -c continuumcrew anaconda-navigator=1.5.1

conda update --all

torch 1.7.1 的安装：https://pytorch.org/get-started/locally/

打开 Anaconda Prompt，切换到相应环境，输入以下命令：

pip install torch==1.7.1+cu101 torchvision==0.8.2+cu101 torchaudio===0.7.2 -f https://download.pytorch.org/whl/torch_stable.html

Pytorch 1.7.1 官方文档：https://pytorch.org/docs/stable/index.html

Video Datasets 视频数据集 & 加载

UCF101：https://pytorch.org/docs/stable/torchvision/datasets.html#ucf101
HMDB51：https://pytorch.org/docs/stable/torchvision/datasets.html#hmdb51
Kinetics400：https://pytorch.org/docs/stable/torchvision/datasets.html#kinetics-400
......

加载 UCF101 数据集

import torchvision.datasets as datasets

data = datasets.UCF101(
    root='path/UCF-101',
    annotation_path='path/UCF101TrainTestSplits-RecognitionTask/ucfTrainTestlist',
    frames_per_clip=16,
    num_workers=0
)

print(data)

返回值：

video (Tensor[T, H, W, C]): the `T` video frames

audio(Tensor[K, L]): the audio frames, where `K` is the number of channels and `L` is the number of points

label (int): class of the video clip

注意：

win 10 系统下运行该代码一定要加上 num_workers=0，不然会报出如下错误

还需要安装 PyAV 这个库，安装命令：pip install av

在导入 UCF101 数据时，由于 windows 路径用的是“\”，所以在加载数据集时会报出如下错误：

原因 & 解决方案：https://stackoverflow.com/questions/61522539/i-cant-import-the-ucf-101-dataset-torchvision-list-index-out-of-range-error

原因：trainlist01/02/03.txt 和 testlist01/02/03.txt 中的 video path 长这样：ApplyEyeMakeup/v_ApplyEyeMakeup_g01_c01.avi 和 windows 系统路径要求的斜杠（ \ ）不一样

我用的是其中的第一种解决方案：把 trainlist01/02/03.txt 和 testlist01/02/03.txt 中的 / 全部替换为 \

加载 HMDB51 数据集

参数：

root (string) – Root directory of the HMDB51 Dataset.

annotation_path (str) – Path to the folder containing the split files.

frames_per_clip (int) – Number of frames in a clip.

step_between_clips (int) – Number of frames between each clip.

fold (int, optional) – Which fold to use. Should be between 1 and 3.

train (bool, optional) – If True, creates a dataset from the train split, otherwise from the test split.

transform (callable, optional) – A function/transform that takes in a TxHxWxC video and returns a transformed version.

返回值：

video (Tensor[T, H, W, C]): the `T` video frames

audio(Tensor[K, L]): the audio frames, where `K` is the number of channels and `L` is the number of points

label (int): class of the video clip

加载 Kinetics 400 数据集

参数：

root (string) – Root directory of the Kinetics-400 Dataset.

frames_per_clip (int) – number of frames in a clip

step_between_clips (int) – number of frames between each clip

transform (callable, optional) – A function/transform that takes in a TxHxWxC video and returns a transformed version.

返回值：

video (Tensor[T, H, W, C]): the `T` video frames

audio(Tensor[K, L]): the audio frames, where `K` is the number of channels and `L` is the number of points

label (int): class of the video clip

Video I/O 视频 I/O 操作

官方文档：

https://pytorch.org/docs/stable/torchvision/io.html?highlight=video
https://pytorch.org/docs/stable/torchvision/io.html#fine-grained-video-api

torchvision.io.read_video()

源码：https://pytorch.org/docs/stable/_modules/torchvision/io/video.html#read_video

Parameters

filename (str) – path to the video file

start_pts (int if pts_unit = 'pts', optional) – float / Fraction if pts_unit = ‘sec’, optional the start presentation time of the video

end_pts (int if pts_unit = 'pts', optional) – float / Fraction if pts_unit = ‘sec’, optional the end presentation time

pts_unit (str, optional) – unit in which start_pts and end_pts values will be interpreted, either ‘pts’ or ‘sec’. Defaults to ‘pts’.

Returns

vframes (Tensor[T, H, W, C]) – the T video frames

aframes (Tensor[K, L]) – the audio frames, where K is the number of channels and L is the number of points

info (Dict) – metadata for the video and audio. Can contain the fields video_fps (float) and audio_fps (int)

补充知识：什么是时间戳？什么是 pts？

https://blog.csdn.net/tanningzhong/article/details/105564589

时间戳单位

前面我们提到采样率，感觉到采样率是个很大的单位，一般标准的音频AAC采样率达到了44kHz,视频采样率也规定在90000Hz.所以我们衡量时间的单位不能再是秒，毫秒这种真实的时间单位，我们的单位应该转换为采样率，也就是一个采样的时间为音视频的时间单位，这就是时间戳的真实值。当我们要播放和控制时，我们再将时间戳根据采样率转换为真实的时间即可。

一句话，时间戳不是真实的时间是采样次数。比如时间戳是160，我们不能认为是160秒或者160毫秒，应该是160个采样。要换算真实时间，我们必须知道采样率，比如8000，那么说明1秒被划分成8000分之一，如果你要明确160个采样占用的时间，则160*(1/8000)即可，即20毫秒。

时间戳增量

就是一帧图像和另外一帧图像之间的时间戳差值，或者一帧音频和一帧音频的时间戳差值。同理时间戳增量也是采样个数的差值不是真实时间差值，还是要根据采样率才能换算成真实时间。

所以对于视频和音频的时间戳计算要一定明确帧率是多少，采样率是多少。

比如视频而言，帧率25，那么对于90000的采样率来说，一帧占用的采样数就是90000/25也就是3600，说明每帧图像的时间戳增量应该是3600，换算成实际时间就是3600*（1/90000）=0.04秒=40毫秒，这也和1/25=0.04秒=40毫秒一致。

对于AAC音频，一帧1024个采样，采样频率是44kHz,所以一帧的播放时间应该是1024*（1/44100）=0.0232秒=23.22毫秒。

用个 Example 更直观的理解这两个概念：

import torchvision.io as io


vframes, aframes, info = io.read_video(
    filename='path/v_ApplyEyeMakeup_g01_c01.avi',
    pts_unit='pts',
    end_pts=3
)

print(vframes.shape)
print(info)


# output:
# torch.Size([3, 240, 320, 3])
# {'video_fps': 25.0, 'audio_fps': 44100}


# --------------------------------------------------------------------


import torchvision.io as io


vframes, aframes, info = io.read_video(
    filename='path/v_ApplyEyeMakeup_g01_c01.avi',
    pts_unit='sec',
    end_pts=3
)

print(vframes.shape)
print(info)


# output:
# torch.Size([75, 240, 320, 3])
# {'video_fps': 25.0, 'audio_fps': 44100}

torchvision.io.read_video_timestamps()

源码：https://pytorch.org/docs/stable/_modules/torchvision/io/video.html#read_video_timestamps

Parameters

filename (str) – path to the video file

pts_unit (str, optional) – unit in which timestamp values will be returned either ‘pts’ or ‘sec’. Defaults to ‘pts’.

Returns

pts (List[int] if pts_unit = ‘pts’) – List[Fraction] if pts_unit = ‘sec’ presentation timestamps for each one of the frames in the video.

video_fps (float, optional) – the frame rate for the video

Example：

import torchvision.io as io

v_pts, v_fps = io.read_video_timestamps(
    filename='path/v_ApplyEyeMakeup_g01_c01.avi',
    pts_unit='pts'
)

print(v_pts)
print(v_fps)


# output
# [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129, 130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149, 150, 151, 152, 153, 154, 155, 156, 157, 158, 159, 160, 161, 162, 163, 164]
# 25.0



# ---------------------------------------------------------------------------




import torchvision.io as io

v_pts, v_fps = io.read_video_timestamps(
    filename='path/v_ApplyEyeMakeup_g01_c01.avi',
    pts_unit='sec'
)

print(v_pts)
print(v_fps)


# output
# [Fraction(1, 25), Fraction(2, 25), Fraction(3, 25), Fraction(4, 25), Fraction(1, 5), Fraction(6, 25), Fraction(7, 25), Fraction(8, 25), Fraction(9, 25), Fraction(2, 5), Fraction(11, 25), Fraction(12, 25), Fraction(13, 25), Fraction(14, 25), Fraction(3, 5), Fraction(16, 25), Fraction(17, 25), Fraction(18, 25), Fraction(19, 25), Fraction(4, 5), Fraction(21, 25), Fraction(22, 25), Fraction(23, 25), Fraction(24, 25), Fraction(1, 1), Fraction(26, 25), Fraction(27, 25), Fraction(28, 25), Fraction(29, 25), Fraction(6, 5), Fraction(31, 25), Fraction(32, 25), Fraction(33, 25), Fraction(34, 25), Fraction(7, 5), Fraction(36, 25), Fraction(37, 25), Fraction(38, 25), Fraction(39, 25), Fraction(8, 5), Fraction(41, 25), Fraction(42, 25), Fraction(43, 25), Fraction(44, 25), Fraction(9, 5), Fraction(46, 25), Fraction(47, 25), Fraction(48, 25), Fraction(49, 25), Fraction(2, 1), Fraction(51, 25), Fraction(52, 25), Fraction(53, 25), Fraction(54, 25), Fraction(11, 5), Fraction(56, 25), Fraction(57, 25), Fraction(58, 25), Fraction(59, 25), Fraction(12, 5), Fraction(61, 25), Fraction(62, 25), Fraction(63, 25), Fraction(64, 25), Fraction(13, 5), Fraction(66, 25), Fraction(67, 25), Fraction(68, 25), Fraction(69, 25), Fraction(14, 5), Fraction(71, 25), Fraction(72, 25), Fraction(73, 25), Fraction(74, 25), Fraction(3, 1), Fraction(76, 25), Fraction(77, 25), Fraction(78, 25), Fraction(79, 25), Fraction(16, 5), Fraction(81, 25), Fraction(82, 25), Fraction(83, 25), Fraction(84, 25), Fraction(17, 5), Fraction(86, 25), Fraction(87, 25), Fraction(88, 25), Fraction(89, 25), Fraction(18, 5), Fraction(91, 25), Fraction(92, 25), Fraction(93, 25), Fraction(94, 25), Fraction(19, 5), Fraction(96, 25), Fraction(97, 25), Fraction(98, 25), Fraction(99, 25), Fraction(4, 1), Fraction(101, 25), Fraction(102, 25), Fraction(103, 25), Fraction(104, 25), Fraction(21, 5), Fraction(106, 25), Fraction(107, 25), Fraction(108, 25), Fraction(109, 25), Fraction(22, 5), Fraction(111, 25), Fraction(112, 25), Fraction(113, 25), Fraction(114, 25), Fraction(23, 5), Fraction(116, 25), Fraction(117, 25), Fraction(118, 25), Fraction(119, 25), Fraction(24, 5), Fraction(121, 25), Fraction(122, 25), Fraction(123, 25), Fraction(124, 25), Fraction(5, 1), Fraction(126, 25), Fraction(127, 25), Fraction(128, 25), Fraction(129, 25), Fraction(26, 5), Fraction(131, 25), Fraction(132, 25), Fraction(133, 25), Fraction(134, 25), Fraction(27, 5), Fraction(136, 25), Fraction(137, 25), Fraction(138, 25), Fraction(139, 25), Fraction(28, 5), Fraction(141, 25), Fraction(142, 25), Fraction(143, 25), Fraction(144, 25), Fraction(29, 5), Fraction(146, 25), Fraction(147, 25), Fraction(148, 25), Fraction(149, 25), Fraction(6, 1), Fraction(151, 25), Fraction(152, 25), Fraction(153, 25), Fraction(154, 25), Fraction(31, 5), Fraction(156, 25), Fraction(157, 25), Fraction(158, 25), Fraction(159, 25), Fraction(32, 5), Fraction(161, 25), Fraction(162, 25), Fraction(163, 25), Fraction(164, 25)]
# 25.0

torchvision.io.write_video()

源码：https://pytorch.org/docs/stable/_modules/torchvision/io/video.html#write_video

Parameters

filename (str) – path where the video will be saved

video_array (Tensor[T, H, W, C]) – tensor containing the individual frames, as a uint8 tensor in [T, H, W, C] format

fps (Number) – frames per second

class torchvision.io.VideoReader(path, stream='video')

官方文档：https://pytorch.org/docs/stable/torchvision/io.html#fine-grained-video-api

Fine-grained video-reading API. Supports frame-by-frame reading of various streams from a single video container.

Parameters

path (string) – Path to the video file in supported format

stream (string, optional) – descriptor of the required stream, followed by the stream id, in the format {stream_type}:{stream_id}. Defaults to "video:0". Currently available options include ['video', 'audio']

注意：我使用的时候报出了如下错误。原因是 VideoReader 还在测试【Beta】中，网上有人说安装 ffmpeg 后就可以了，但是我试了不管是在系统还是在 conda 下安装都没有用，还是等正式推出之后再说吧。。。

参考：

"RuntimeError: Not compiled with video_reader support" raises when I use the new fine-grained VideoReader API. https://github.com/pytorch/vision/issues/2934#issuecomment-718834813
官方解释报错链接（还在测试【Beta】中）：https://github.com/pytorch/vision/releases/tag/v0.8.0
ffmpeg 的 conda 下载与安装：conda install ffmpeg
ffmpeg 的 windows 下载与安装：https://www.zhihu.com/question/288655694/answer/1605692761

常用函数：

__next__() ：Decodes and returns the next frame of the current stream

Returns：

a dictionary with fields data and pts containing decoded frame and corresponding timestamp

get_metadata()：Returns video metadata

Returns：

dictionary containing duration and frame rate for every stream

seek(time_s: float)：Seek within current stream.

Parameters

time_s (float) – seek time in seconds

Video Transform 视频变换操作

官方源码：

https://github.com/pytorch/vision/blob/master/torchvision/transforms/_functional_video.py（比下一个链接更底层一点）
https://github.com/pytorch/vision/blob/master/torchvision/transforms/_transforms_video.py（上一个链接包装了一下）

我暂时没有找到官方文档，不过从源码里的注释里也能明白。

第二个链接里官方给出的 video 相关的 Transform 函数如下：

RandomCropVideo
RandomResizedCropVideo
CenterCropVideo
NormalizeVideo
ToTensorVideo
RandomHorizontalFlipVideo

ToTensorVideo()

Convert tensor data type from uint8 to float, divide value by 255.0 and permute the dimensions of clip tensor.

和图片的 ToTensor() 操作类似，但要注意维度的顺序！

Args:
clip (torch.tensor, dtype=torch.uint8): Size is (T, H, W, C)

Return:
clip (torch.tensor, dtype=torch.float): Size is (C, T, H, W)

NormalizeVideo()

Normalize the video clip by mean subtraction and division by standard deviation.

和图片的 Normalize() 函数是一致的。不过图片通常使用 ImageNet 的 mean 和 std，视频用的是 Kinetics-400 的 mean = [0.43216, 0.394666, 0.37645] and std = [0.22803, 0.22145, 0.216989]（来源：https://pytorch.org/docs/stable/torchvision/models.html#video-classification）。

Args:
mean (3-tuple): pixel RGB mean
std (3-tuple): pixel RGB standard deviation
inplace (boolean): whether do in-place normalization

RandomHorizontalFlipVideo()

Flip the video clip along the horizonal direction with a given probability.

没有 Video Vertically Flip 也能理解吧

Args:
p (float): probability of the clip being flipped. Default value is 0.5

CenterCropVideo()

Args:
clip (torch.tensor): Video clip to be cropped. Size is (C, T, H, W)

crop_size: int / tuple

Returns:
torch.tensor: central cropping of video clip. Size is (C, T, crop_size, crop_size)

RandomCropVideo()

Args:
clip (torch.tensor): Video clip to be cropped. Size is (C, T, H, W)

size: int / tuple

Returns:
torch.tensor: randomly cropped/resized video clip.

RandomResizedCropVideo()

Args:
clip (torch.tensor): Video clip to be cropped. Size is (C, T, H, W)

  scale:【Default】(0.08, 1.0)

  ratio:【Default】(3.0 / 4.0, 4.0 / 3.0)

  interpolation_mode:【Default】"bilinear"

Returns:
torch.tensor: randomly cropped/resized video clip.

Example

import torchvision.transforms as transform
import torchvision.transforms._transforms_video as v_transform
import torchvision.io as io


vframes, aframes, info = io.read_video(
    filename='path/v_ApplyEyeMakeup_g01_c01.avi',
    pts_unit='pts',
)

trans = transform.Compose([
    v_transform.ToTensorVideo(),
    v_transform.RandomHorizontalFlipVideo(),
    v_transform.RandomResizedCropVideo(112),
])

print(vframes.shape)
print(trans(vframes))
print(trans(vframes).shape)




# output:
# 原来的 video clip tensor's shape：torch.Size([164, 240, 320, 3])
# Transform 后的 video clip tensor's shape：torch.Size([3, 164, 112, 112])

Video Classification Model 视频动作分类模型

官方文档：https://pytorch.org/docs/stable/torchvision/models.html#video-classification

源码：https://pytorch.org/docs/stable/_modules/torchvision/models/video/resnet.html

模型：

ResNet 3D 18
ResNet MC 18
ResNet (2+1)D

这些模型我没太详细接触过，文档里已经非常贴心的给出了相应的论文：https://arxiv.org/abs/1711.11248。

Parameters

pretrained (bool) – If True, returns a model pre-trained on Kinetics-400

progress (bool) – If True, displays a progress bar of the download to stderr

Returns

Network

Example

import torchvision.models.video as v_model

model = v_model.r3d_18(pretrained=True)

print(model)

ros学习之路径规划许卿768503 学习
一、全局路径规划中的地图1、栅格地图（GridMap）2、概率图（CostMap）3、特征地图（FeatureMap4、拓扑地图（TopologicalMap）二、全局路径规划算法1、Dijkstra算法2、最佳路径优先搜索算法（BFS）3、A*搜索算法双向A*搜索算法重复A*搜索算法AnytimeRepairingA*(ARA*)搜索算法实时学习A*搜索（LRTA*）算法实时适应性A*搜索（RT
学而思编程周赛语言普及奠基组 | 2025年春第15周T1 新二进制热爱编程的通信人算法 c++
欢迎大家订阅我的专栏：算法题解：C++与Python实现！本专栏旨在帮助大家从基础到进阶，逐步提升编程能力，助力信息学竞赛备战！专栏特色1.经典算法练习：根据信息学竞赛大纲，精心挑选经典算法题目，提供清晰的代码实现与详细指导，帮助您夯实算法基础。2.系统化学习路径：按照算法类别和难度分级，从基础到进阶，循序渐进，帮助您全面提升编程能力与算法思维。适合人群：准备参加蓝桥杯、GESP、CSP-J、CS
学而思编程周赛语言普及奠基组 | 2025年春第15周T2 散步热爱编程的通信人算法 c++
欢迎大家订阅我的专栏：算法题解：C++与Python实现！本专栏旨在帮助大家从基础到进阶，逐步提升编程能力，助力信息学竞赛备战！专栏特色1.经典算法练习：根据信息学竞赛大纲，精心挑选经典算法题目，提供清晰的代码实现与详细指导，帮助您夯实算法基础。2.系统化学习路径：按照算法类别和难度分级，从基础到进阶，循序渐进，帮助您全面提升编程能力与算法思维。适合人群：准备参加蓝桥杯、GESP、CSP-J、CS
Elasticsearch（ES）聚合思静鱼 #elasticsearch elasticsearch jenkins 大数据
Elasticsearch（ES）的聚合（Aggregation）功能类似于SQL中的GROUPBY+聚合函数（如COUNT、AVG、SUM），是进行统计分析的核心机制。聚合（Aggregation）概述Elasticsearch的聚合分为三大类：类别说明Metric聚合计算数值（如：count、avg、sum、max、min）Bucket聚合类似于SQL的GROUPBY，把文档分类Pipelin
React系统学习之路莲华君 react.js 学习前端
React系统学习之路学习目录第1章：React入门介绍React的基本概念和应用场景安装Node.js和npm创建第一个React应用React的JSX语法组件的基本结构和生命周期第2章：组件与状态管理函数组件与类组件的区别状态（State）和属性（Props）的使用受控组件与非受控组件高阶组件（HOC）的概念和实现使用ContextAPI进行跨层级状态传递第3章：ReactHooksuseSt
AI人工智能领域知识图谱在深度学习中的应用拓展
AI人工智能领域知识图谱在深度学习中的应用拓展关键词：知识图谱、深度学习、神经网络、图嵌入、知识表示学习、推理机制、应用场景摘要：本文深入探讨了知识图谱与深度学习的融合应用，系统性地分析了知识图谱在深度学习中的关键技术路径和应用场景。文章首先介绍了知识图谱的基本概念和表示方法，然后详细阐述了知识图谱与深度学习结合的多种技术路线，包括图神经网络、知识嵌入和推理机制等。接着通过具体案例展示了知识图谱增
Python商务数据分析——Matplotlib 数据可视化学习笔记爱吃代码的小皇冠 python numpy matplotlib pandas 学习笔记数据分析
一、Matplotlib基础认知1.1库功能与定位核心作用：将数据可视化展示，提升数据直观性与说服力应用场景：绘制折线图、饼图、柱状图等2D/3D图表双接口模式：MATLAB风格：通过pyplot函数快速绘图（自动管理图形对象）面向对象：显式创建Figure和Axes对象（适合复杂绘图）1.2核心对象架构容器类：图(Figure)、坐标系(Axes)、坐标轴(Axis)、刻度(Tick)基础类：线
深入浅出Node.js后端开发 jghhh01 node.js
让我们来理解Node.js的核心——事件循环和异步编程模型。在Node.js中，所有的I/O操作都是非阻塞的，这意味着当一个请求开始等待I/O操作完成时（如读取文件或数据库操作），Node.js不会阻塞后续操作，而是继续执行其他任务。这种机制大大提高了应用的性能和吞吐量。constfs=require('fs');fs.readFile('file.txt','utf8',(err,data)=>
PCIe学习笔记（26） IC纯小白学习笔记网络
ErrorForwarding（错误转发）错误转发(也称为数据中毒)，通过设置EP位表示。下面是一些使用错误转发的例子:•例#1:从主存读取遇到不可纠正的错误•例#2:PCI写到主存的奇偶校验错误•例#3:内部数据缓冲区或缓存上的数据完整性错误错误转发使用模型•错误转发仅用于读取完成数据，AtomicOp完成数据，AtomicOp请求数据或写数据，从不用于错误在“头”(请求阶段，地址/命令等)的情
SapphireRapids NVMe Aggregate Performance with灵活IO测试--学习笔记（二）向阳生活学习笔记网络
4.主机系统配置由于NVMe控制器使用队列和数据缓冲区，这些队列和数据缓冲区可以托管在主机系统内存空间的任何位置，因此假设主机系统具有足够的内存容量和内存带宽来同时处理多个NVMe访问，以避免受到内存带宽限制。主机系统是Sapphire-Rapid2S系统，每个插槽上配置了8个DDR564GB,1DPC,运行在每个插槽上的速度为4800MTS（例如，共1TB内存容量）。4.1根端口的硬盘数量Sap
equine在神经网络中建立量化不确定性 struggle2025 神经网络人工智能深度学习
一、软件介绍文末提供程序和源码下载众所周知，用于监督标记问题的深度神经网络（DNN）可以在各种学习任务中产生准确的结果。但是，当准确性是唯一目标时，DNN经常会做出过于自信的预测，并且无论测试数据是否属于任何已知标签，它们也总是进行标签预测。EQUINEwascreatedtosimplifytwokindsofuncertaintyquantificationforsupervisedlabel
CARLsim开源程序是一个高效、易用、GPU 加速的软件框架，用于模拟具有高度生物细节的大规模脉冲神经网络（SNN）模型。 struggle2025 神经网络人工智能深度学习
一、软件介绍文末提供程序和源码下载CARLsim是一个高效、易用的GPU加速库，用于模拟具有高度生物学细节的大规模脉冲神经网络（SNN）模型。CARLsim允许在通用x86CPU和标准现成GPU上以逼真的突触动力学执行Izhikevich脉冲神经元网络。该模拟器在C/C++中提供了一个类似PyNN的编程接口，允许在突触、神经元和网络级别指定详细信息和参数。二、CARLsim6的新功能包括：CUDA
OneMessage：打造高效跨平台消息框架蒋闯中Errol
OneMessage：打造高效跨平台消息框架OneMessage一个基于发布-订阅模型的多线程消息框架，用于嵌入式平台，纯C实现，性能和灵活性极高项目地址:https://gitcode.com/gh_mirrors/on/OneMessage项目介绍OneMessage是一个基于发布-订阅模型的跨平台消息框架，使用纯C语言编写，以其卓越的性能和高度灵活性而著称。它集成了红黑树、链表、队列、CRC
PMP备考神器:免费刷题小程序推荐才聚PMP 人工智能职场和发展
【PMP考试通】是一款专门为备考PMP的免费刷题小程序。【PMP考试通】涵盖了考试中的所有考点，能帮你顺利通过PMP考试。还有最新的考试咨讯提供给大家，随时了解考试的动态，考试更安心。有两种练习模式，可以实现不同的练习需求。1、考试模式:完全模拟考试，做完之后计算得分，并可以查看相应解析2、练习模式:练习与学习，遇到不能解答的题目时，可以直接查看解析，学习当前知识点3、做题类型:章节练习、每日一练
Linux学习笔记：PCIe内核篇（1）：初始化与枚举流程 ZH_2025 嵌入式协议篇 PCIE
根据system.map查看内核中PCIe加载流程：root@zh-vm:~#cat/boot/System.map-5.15.0-130-generic|greppci|grepinitcallffffffff8350ff68d__initcall__kmod_pci__453_6907_pci_realloc_setup_params0ffffffff83510098d__initcall__
UBOOT学习笔记（六）：UBOOT启动--CPU架构及板级初始化阶段 ZH_2025 uboot &linux启动篇 linux arm
3.1、_mainENTRY(_main)#ifdefined(CONFIG_TPL_BUILD)&&defined(CONFIG_TPL_NEEDS_SEPARATE_STACK)ldrr0,=(CONFIG_TPL_STACK)/*TPL（三级引导）使用独立栈*/#elifdefined(CONFIG_SPL_BUILD)&&defined(CONFIG_SPL_STACK)ldrr0,=(C
nnv开源神经网络验证软件工具
一、软件介绍文末提供程序和源码下载用于神经网络验证的Matlab工具箱，该工具箱实现了可访问性方法，用于分析自主信息物理系统（CPS）领域中带有神经网络控制器的神经网络和控制系统。二、相关工具和软件该工具箱利用神经网络模型转换工具（nnmt）和闭环系统分析、混合系统模型转换和转换工具（HyST）以及CONTINUOUSReachabilityAnalyzer（CORA）三、无需安装即可执行NNV可
继 Evo 2 之后，Arc Institute 发布首个虚拟细胞模型 STATE，训练数据涉及 70 种不同细胞系 hyperai
众所周知，人体由不同类型的细胞组成——免疫细胞在感染发生时可引发炎症反应以抵御病原体；干细胞具有分化潜能，可生成多种组织类型；而癌细胞则通过逃避生长调控信号，实现异常增殖。尽管这些细胞在功能和形态上差异巨大，但它们几乎都拥有相同的基因组。细胞的独特性并非来自DNA序列本身的差异，而是源于它们如何调控和使用相同的基因信息。换言之，细胞的特性源于基因表达的差异，而一个细胞的基因表达模式不仅决定了它属于
[pytorch] pytorch_model.bin 和 training_args.bin 的区别心心喵 pytorch 深度学习 pytorch 神经网络
pytorch_model.bin和training_args.bin是与PyTorch框架和训练过程相关的两个文件。pytorch_model.bin:这是保存了PyTorch模型的二进制文件。在使用PyTorch进行深度学习训练时，经过训练的模型会被保存为这个文件，其中包含了模型的权重参数。这个文件可以被加载到PyTorch中，以便进行推理、评估或继续训练。training_args.bin:
鸿蒙HarmonyOS实战开发：实现表情聊天场景案例你我皆是牛马星人 HarmonyOS 鸿蒙开发 OpenHarmony harmonyos 华为 android 鸿蒙 ui 前端
鸿蒙NEXT开发实战往期必看文章：一分钟了解”纯血版！鸿蒙HarmonyOSNext应用开发！“非常详细的”鸿蒙HarmonyOSNext应用开发学习路线！（从零基础入门到精通）HarmonyOSNEXT应用开发案例实践总结合（持续更新......）HarmonyOSNEXT应用开发性能优化实践总结（持续更新......）介绍本示例主要介绍如何在聊天信息中加入表情图片。通过变量控制表情键盘的显示与
鸿蒙应用AR开发：增强现实技术实现方案操作系统内核探秘操作系统内核揭秘 OS harmonyos ar 华为 ai
鸿蒙应用AR开发：增强现实技术实现方案关键词：鸿蒙系统、AR开发、增强现实、ARKit、ARCore、3D渲染、计算机视觉摘要：本文将深入探讨如何在鸿蒙操作系统上开发增强现实(AR)应用。我们将从AR技术的基本原理讲起，逐步深入到鸿蒙AR开发框架的具体实现，包括3D模型渲染、空间定位、手势识别等核心技术。文章将提供完整的代码示例和实战项目，帮助开发者快速掌握鸿蒙AR应用开发的核心技能。背景介绍目的
【2025最新】AI大模型项目实战教程大揭秘！超详细攻略，手把手带你飞，记得收藏！大模型教程人工智能产品经理大模型大模型教程大数据大模型学习程序员
一、大模型开发整理流程1.1、什么是大模型开发我们将开发以大语言模型为功能核心、通过大语言模型的强大理解能力和生成能力、结合特殊的数据或业务逻辑来提供独特功能的应用称为大模型开发。开发大模型相关应用，其技术核心点虽然在大语言模型上，但一般通过调用API或开源模型来实现核心的理解与生成，通过PromptEnginnering来实现大语言模型的控制，因此，虽然大模型是深度学习领域的集大成之作，大模型开
.NET多线程任务实现的几种方法及线程等待全面分析百锦再@新空间包罗万象 .net android task Thread 线程并发线程池
文章目录1.引言2..NET多线程编程基础2.1线程概念回顾2.2.NET线程模型概述3.多线程任务实现方法3.1Thread类实现3.2ThreadPool实现3.3TaskParallelLibrary(TPL)3.4Parallel类3.5BackgroundWorker组件3.6Async/Await模式3.7各种方法的比较与选择4.线程等待机制详解4.1基本等待方法4.2同步原语4.3异
遥感影像数据处理-大图滑窗切分为小图 GIS潮流遥感语义分割
功能需求据所周知，遥感影像的尺寸有大有小，大的达到几万x几万像素，而图像分割算法模型在训练中尺寸适中，比如256x256，512x512，1024x1024等等，如果直接将遥感影像的原图输入模型中进行训练，大概率会提示内存和显存不足，因此针对遥感影像的模型训练，一般都需要将影像裁剪为小图。裁剪后的效果图如下：解决思路基于上面的需求，写了一套裁剪算法流程。主要考虑的是在裁剪过程中，从左往右、从上到下
Linux运维需要学多久？学习方式有哪些？老男孩IT教育 linux 运维
Linux运维工程师是一个融合多学科的综合性技术岗位，除了掌握相关技术之外，还需要具备沟通、销售、管理等非技术能力，因此也给运维工程师提供了非常广阔的发展空间。那么Linux运维工程师要学多久?以下是详细的内容介绍。Linux运维工程师要学多久?Linux运维工程师学习周期需结合学习方式来决定，不同的学习方式，周期是不同的。现在学习Linux运维技术分为两种情况。一种是自学，如果选择自学的话，学习
linux学习第五周运维小杨 linux 学习运维
目录1、总结rocky系统的启动流程，grub工作流程1.1系统启动整体流程（基于BIOS/UEFI）1.2硬件初始化阶段1.2.1BIOS（传统模式）1.2.2UEFI（新模式）1.3引导加载程序（GRUB2）阶段1.4内核加载与初始化阶段1.5用户空间初始化（systemd阶段）2、总结内核设计流派及特点。3、总结systemd服务配置文件4、总结DNS域名三级结构，DNS服务工作原理，涉及递
第二十五节：Linux 运维职业规划与学习路径指南厚衣服_3 Linux基本操作详解运维 linux 学习
第二十五节：Linux运维职业规划与学习路径指南随着云计算、容器化、自动化运维的快速发展，Linux运维工程师已经成为技术岗位中的重要角色之一。要想在运维领域长期发展，不仅要掌握扎实的基础技能，更要有清晰的职业规划和学习路径。一、Linux运维职业方向概览职业方向技术关键词基础运维工程师Linux、Shell、网络、服务部署、安全配置自动化运维/DevOpsAnsible、Docker、Jenki
Linux运维学习路线沉默的八哥 Linux 运维 linux 学习
以下是一个Linux运维详细学习路线：一、Linux基础入门（第1-2个月）操作系统安装与基本概念学习Linux系统的安装，包括常见发行版（如Ubuntu、CentOS、Debian等）的选择。了解安装过程中的分区设置（如根分区、交换分区）、文件系统类型（如ext4、xfs）的选择及其对系统性能的影响。熟悉Linux的基本概念，如内核、shell、文件系统层次结构（FHS）标准。掌握文件系统的目录
深入理解AI技术与实践：如何贡献代码 Wurenyu957 人工智能
在现代AI技术的开发过程中，贡献代码是推动项目发展、提升技术能力的重要方式。在这篇文章中，我们将结合AI技术实践，深入探讨如何有效地为开源项目贡献代码，尤其是那些使用AI模型的项目。技术背景介绍AI技术的迅猛发展得益于开源社区的共享和协作。诸如TensorFlow、PyTorch等开源框架，极大地降低了AI模型开发的门槛。与此同时，越来越多的项目通过GitHub等平台开放源码，接受来自全球开发者的
职星学院企业培训系统：打造高效、个性化的在线学习平台 JAVA_staredu 学习
在当今快节奏的商业环境中，企业竞争日益激烈，员工培训成为提升企业核心竞争力的关键因素之一。为了满足企业对员工培训的需求，职星学院企业培训系统应运而生。该系统旨在为企业提供一个高效、便捷、个性化的在线学习平台，帮助员工不断提升专业技能和综合素质，从而推动企业的持续发展。系统概述职星学院企业培训系统是一款集知识库管理、培训计划制定、在线考试与测评、学习进度跟踪等功能于一体的综合性在线培训平台。系统采用
遍历dom 并且存储（将每一层的DOM元素存在数组中）换个号韩国红果果 JavaScript html
数组从0开始！！ var a=[],i=0; for(var j=0;j<30;j++){ a[j]=[];//数组里套数组，且第i层存储在第a[i]中 } function walkDOM(n){ do{ if(n.nodeType!==3)//筛选去除#text类型 a[i].push(n); //con
Android+Jquery Mobile学习系列(9)-总结和代码分享白糖_ JQuery Mobile
目录导航经过一个多月的边学习边练手，学会了Android基于Web开发的毛皮，其实开发过程中用Android原生API不是很多，更多的是HTML/Javascript/Css。个人觉得基于WebView的Jquery Mobile开发有以下优点： 1、对于刚从Java Web转型过来的同学非常适合，只要懂得HTML开发就可以上手做事。 2、jquerym
impala参考资料 dayutianfei impala
记录一些有用的Impala资料 1. 入门资料 >>官网翻译： http://my.oschina.net/weiqingbin/blog?catalog=423691 2. 实用进阶 >>代码&架构分析： Impala/Hive现状分析与前景展望：http
JAVA 静态变量与非静态变量初始化顺序之新解周凡杨 java 静态非静态顺序
今天和同事争论一问题，关于静态变量与非静态变量的初始化顺序，谁先谁后，最终想整理出来！测试代码： import java.util.Map; public class T { public static T t = new T(); private Map map = new HashMap(); public T(){ System.out.println(&quo
跳出iframe返回外层页面 g21121 iframe
在web开发过程中难免要用到iframe，但当连接超时或跳转到公共页面时就会出现超时页面显示在iframe中，这时我们就需要跳出这个iframe到达一个公共页面去。首先跳转到一个中间页，这个页面用于判断是否在iframe中，在页面加载的过程中调用如下代码： <script type="text/javascript"> //<!-- function
JAVA多线程监听JMS、MQ队列 510888780 java多线程
背景：消息队列中有非常多的消息需要处理，并且监听器onMessage（）方法中的业务逻辑也相对比较复杂，为了加快队列消息的读取、处理速度。可以通过加快读取速度和加快处理速度来考虑。因此从这两个方面都使用多线程来处理。对于消息处理的业务处理逻辑用线程池来做。对于加快消息监听读取速度可以使用1.使用多个监听器监听一个队列；2.使用一个监听器开启多线程监听。对于上面提到的方法2使用一个监听器开启多线
第一个SpringMvc例子布衣凌宇 spring mvc
第一步：导入需要的包；第二步：配置web.xml文件 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee" xmlns:xsi=
我的spring学习笔记15-容器扩展点之PropertyOverrideConfigurer aijuans Spring3
PropertyOverrideConfigurer类似于PropertyPlaceholderConfigurer，但是与后者相比，前者对于bean属性可以有缺省值或者根本没有值。也就是说如果properties文件中没有某个bean属性的内容，那么将使用上下文（配置的xml文件）中相应定义的值。如果properties文件中有bean属性的内容，那么就用properties文件中的值来代替上下
通过XSD验证XML antlove xml schema xsd validation SchemaFactory
1. XmlValidation.java package xml.validation; import java.io.InputStream; import javax.xml.XMLConstants; import javax.xml.transform.stream.StreamSource; import javax.xml.validation.Schem
文本流与字符集百合不是茶 PrintWrite()的使用字符集名字别名获取
文本数据的输入输出; 输入;数据流,缓冲流输出;介绍向文本打印格式化的输出PrintWrite(); package 文本流; import java.io.FileNotFound
ibatis模糊查询sqlmap-mapping-**.xml配置 bijian1013 ibatis
正常我们写ibatis的sqlmap-mapping-*.xml文件时，传入的参数都用##标识，如下所示： <resultMap id="personInfo" class="com.bijian.study.dto.PersonDTO"> <res
java jvm常用命令工具——jdb命令(The Java Debugger) bijian1013 java jvm jdb
用来对core文件和正在运行的Java进程进行实时地调试，里面包含了丰富的命令帮助您进行调试，它的功能和Sun studio里面所带的dbx非常相似，但 jdb是专门用来针对Java应用程序的。现在应该说日常的开发中很少用到JDB了，因为现在的IDE已经帮我们封装好了，如使用ECLI
【Spring框架二】Spring常用注解之Component、Repository、Service和Controller注解 bit1129 controller
在Spring常用注解第一步部分【Spring框架一】Spring常用注解之Autowired和Resource注解（http://bit1129.iteye.com/blog/2114084）中介绍了Autowired和Resource两个注解的功能，它们用于将依赖根据名称或者类型进行自动的注入，这简化了在XML中，依赖注入部分的XML的编写，但是UserDao和UserService两个bea
cxf wsdl2java生成代码super出错,构造函数不匹配 bitray super
由于过去对于soap协议的cxf接触的不是很多,所以遇到了也是迷糊了一会.后来经过查找资料才得以解决. 初始原因一般是由于jaxws2.2规范和jdk6及以上不兼容导致的.所以要强制降为jaxws2.1进行编译生成.我们需要少量的修改: 我们原来的代码 wsdl2java com.test.xxx -client http://..... 修改后的代
动态页面正文部分中文乱码排障一例 ronin47
公司网站一部分动态页面，早先使用apache+resin的架构运行，考虑到高并发访问下的响应性能问题，在前不久逐步开始用nginx替换掉了apache。不过随后发现了一个问题，随意进入某一有分页的网页，第一页是正常的（因为静态化过了）；点“下一页”，出来的页面两边正常，中间部分的标题、关键字等也正常，唯独每个标题下的正文无法正常显示。因为有做过系统调整，所以第一反应就是新上
java-54- 调整数组顺序使奇数位于偶数前面 bylijinnan java
import java.util.Arrays; import java.util.Random; import ljn.help.Helper; public class OddBeforeEven { /** * Q 54 调整数组顺序使奇数位于偶数前面 * 输入一个整数数组，调整数组中数字的顺序，使得所有奇数位于数组的前半部分，所有偶数位于数组的后半
从100PV到1亿级PV网站架构演变 cfyme 网站架构
一个网站就像一个人，存在一个从小到大的过程。养一个网站和养一个人一样，不同时期需要不同的方法，不同的方法下有共同的原则。本文结合我自已14年网站人的经历记录一些架构演变中的体会。 1：积累是必不可少的架构师不是一天练成的。 1999年，我作了一个个人主页，在学校内的虚拟空间，参加了一次主页大赛，几个DREAMWEAVER的页面，几个TABLE作布局，一个DB连接，几行PHP的代码嵌入在HTM
[宇宙时代]宇宙时代的GIS是什么？ comsci Gis
我们都知道一个事实，在行星内部的时候，因为地理信息的坐标都是相对固定的，所以我们获取一组GIS数据之后，就可以存储到硬盘中，长久使用。。。但是，请注意，这种经验在宇宙时代是不能够被继续使用的宇宙是一个高维时空
详解create database命令 czmmiao database
完整命令 CREATE DATABASE mynewdb USER SYS IDENTIFIED BY sys_password USER SYSTEM IDENTIFIED BY system_password LOGFILE GROUP 1 ('/u01/logs/my/redo01a.log','/u02/logs/m
几句不中听却不得不认可的话 datageek
1、人丑就该多读书。 2、你不快乐是因为：你可以像猪一样懒，却无法像只猪一样懒得心安理得。 3、如果你太在意别人的看法，那么你的生活将变成一件裤衩，别人放什么屁，你都得接着。 4、你的问题主要在于：读书不多而买书太多，读书太少又特爱思考，还他妈话痨。 5、与禽兽搏斗的三种结局：(1)、赢了，比禽兽还禽兽。(2)、输了，禽兽不如。(3)、平了，跟禽兽没两样。结论：选择正确的对手很重要。 6
1 14:00 PHP中的“syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM”错误 dcj3sjt126com PHP
原文地址：http://www.kafka0102.com/2010/08/281.html 因为需要，今天晚些在本机使用PHP做些测试，PHP脚本依赖了一堆我也不清楚做什么用的库。结果一跑起来，就报出类似下面的错误：“Parse error: syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM in /home/kafka/test/
xcode6 Auto layout and size classes dcj3sjt126com ios
官方GUI https://developer.apple.com/library/ios/documentation/UserExperience/Conceptual/AutolayoutPG/Introduction/Introduction.html iOS中使用自动布局（一） http://www.cocoachina.com/ind
通过PreparedStatement批量执行sql语句【sql语句相同，值不同】梦见x光 sql 事务批量执行
比如说：我有一个List需要添加到数据库中，那么我该如何通过PreparedStatement来操作呢？ public void addCustomerByCommit(Connection conn , List<Customer> customerList) { String sql = "inseret into customer(id
程序员必知必会----linux常用命令之十【系统相关】 hanqunfeng Linux常用命令
一.linux快捷键 Ctrl+C : 终止当前命令 Ctrl+S : 暂停屏幕输出 Ctrl+Q : 恢复屏幕输出 Ctrl+U : 删除当前行光标前的所有字符 Ctrl+Z : 挂起当前正在执行的进程 Ctrl+L : 清除终端屏幕，相当于clear 二.终端命令 clear : 清除终端屏幕 reset : 重置视窗，当屏幕编码混乱时使用 time com
NGINX IXHONG nginx
pcre 编译安装 nginx conf/vhost/test.conf upstream admin { server 127.0.0.1:8080; } server { listen 80; &
设计模式--工厂模式 kerryg 设计模式
工厂方式模式分为三种： 1、普通工厂模式：建立一个工厂类，对实现了同一个接口的一些类进行实例的创建。 2、多个工厂方法的模式：就是对普通工厂方法模式的改进，在普通工厂方法模式中，如果传递的字符串出错，则不能正确创建对象，而多个工厂方法模式就是提供多个工厂方法，分别创建对象。 3、静态工厂方法模式：就是将上面的多个工厂方法模式里的方法置为静态，
Spring InitializingBean/init-method和DisposableBean/destroy-method mx_xiehd java spring bean xml
1.initializingBean/init-method 实现org.springframework.beans.factory.InitializingBean接口允许一个bean在它的所有必须属性被BeanFactory设置后，来执行初始化的工作，InitialzingBean仅仅指定了一个方法。通常InitializingBean接口的使用是能够被避免的，（不鼓励使用，因为没有必要
解决Centos下vim粘贴内容格式混乱问题 qindongliang1922 centos vim
有时候，我们在向vim打开的一个xml，或者任意文件中，拷贝粘贴的代码时，格式莫名其毛的就混乱了，然后自己一个个再重新，把格式排列好，非常耗时，而且很不爽，那么有没有办法避免呢？答案是肯定的，设置下缩进格式就可以了，非常简单：在用户的根目录下直接vi ~/.vimrc文件然后将set pastetoggle=<F9> 写入这个文件中，保存退出，重新登录，
netty大并发请求问题 tianzhihehe netty
多线程并发使用同一个channel java.nio.BufferOverflowException: null at java.nio.HeapByteBuffer.put(HeapByteBuffer.java:183) ~[na:1.7.0_60-ea] at java.nio.ByteBuffer.put(ByteBuffer.java:832) ~[na:1.7.0_60-ea]
Hadoop NameNode单点问题解决方案之一 AvatarNode wyz2009107220 NameNode
我们遇到的情况 Hadoop NameNode存在单点问题。这个问题会影响分布式平台24*7运行。先说说我们的情况吧。我们的团队负责管理一个1200节点的集群(总大小12PB)，目前是运行版本为Hadoop 0.20，transaction logs写入一个共享的NFS filer(注：NetApp NFS Filer)。经常遇到需要中断服务的问题是给hadoop打补丁。 DataNod

PyTorch 1.7 Video 初体验（Video Datasets，Video IO，Video Classification Models，Video Transform）

目录

Environment 环境

Reference 参考链接

Video Datasets 视频数据集 & 加载

加载 UCF101 数据集

加载 HMDB51 数据集

加载 Kinetics 400 数据集

Video I/O 视频 I/O 操作

torchvision.io.read_video()

torchvision.io.read_video_timestamps()

torchvision.io.write_video()

class torchvision.io.VideoReader(path, stream='video')

Video Transform 视频变换操作

ToTensorVideo()

NormalizeVideo()

RandomHorizontalFlipVideo()

CenterCropVideo()

RandomCropVideo()

RandomResizedCropVideo()

Example

Video Classification Model 视频动作分类模型

Example

你可能感兴趣的:(学习,人工智能,PyTorch,pytorch,video,video,datasets,video,transform,视频动作分类模型)