LaPetiteNancy

PyTorch中RNN相关学习笔记

前言
Torch.nn.RNN
- 官方API文档
- - 描述
  - 参数
  - 输入输出
  - 输入输出形状及变量
  - 小结
- Coding Examples
- - 简单RNN
  - 双向RNN
Torch.nn.GRU 和 Torch.nn.LSTM
- GRU官方文档
- - 描述
  - 参数、输入输出及形状
  - 变量
- LSTM官方文档
- - 描述
  - 输入输出
  - 变量
- Coding Examples
拜拜语

前言

一周多前打算从Tensorflow转PyTorch，感觉神经网络中RNN相关的一系列概念算是最复杂的了，需要沉下心来好好学学！

Torch.nn.RNN

官方API文档

描述

实现以 $t a n h$ 或 $R e L U$ 为激活函数的多层RNN，PyTorch里 $h_t$ 为所谓的隐藏状态（hidden state），其实是我认知中的 $\mathbf{a^{}}$ , activation value。则上式即
$\mathbf{a^{}}=g(\mathbf{W_a[a^{}, x^{}]+b_a})$

参数

input_size：输入x的维度（即特征features空间对应的维度）
hidden_size：隐藏状态的维度
num_layers：堆叠层数，默认为一层。
nonlinearity：非线性激活函数，默认tanh，可选relu。
bias：若为False则无bias
batch_first：若为True，则输入输出Shape为（batch_size，time_step, input_size）,默认为False，就是说我们的输入输出要尽量保持为(time_step, batch_size, input_size)，然而常用的Shape其实是batch_size在前，这就需要我们在输入RNN前做permute
dropout：随机失活概率，若有值则给除了最后一层的所有层加上dropout层；默认为0。
bidirectional：若为True，则为双向RNN。使用双向RNN时，隐藏状态的维数应该需要变化。

输入输出

输入：
input：Shape为（time_step, batch_size, input_size），其中input_size即features，指的是每个时间步上的特征维度。
h_0：Shape为（num_layers * num_directions, batch_size, hidden_size）,每个batch的初始状态（ $\mathbf{a^{<0>}}$ ）,默认初始状态为0。num_directions只有1和2，2为双向RNN的情况。
输出：
output：Shape为（time_step, batch_size, num_directions * hidden_size）。这里的output是RNN最后一层（不是最后一个时间步）计算的隐藏状态 $h^{[l]}$ (即 $\mathbf{a^{[l]}}$ )，也就是说输出 $y$ 需要
$\mathbf{y}=g(\mathbf{W_{ya}a^{[l]}+b_y})=g(\mathbf{W*output+b_y})$
使用双向RNN时，可以output.view(time_step, batch_size, num_directions, hidden_size)来把forward（[0]）和backward([1])分开。
h_n：Shape为（num_layers * num_directions, batch_size, hidden_size），最后一个时间步的隐藏状态 $\mathbf{a^{}}$ , 同样可以由h_n.view(num_layers, num_directions, batch_size, hidden_size) 将双向RNN的前向和后向分开。

输入输出形状及变量

输入输出形状需要注意的是Input2（h_0, initial hidden state）的最后一个维度hidden size决定了输出的最后一个维度,即最后一层隐藏状态output1的最后一个维度为num_directions * hidden size, 最后一个时间步隐藏状态output2（h_n）的最后一个维度就是输入的初始状态h_0的最后一个维度hidden size。
生成变量：

RNN.weight_ih_l[k] - $W_{ih}^{[k]}$ , $x^{}$ 前的矩阵(我的习惯是把相乘的元素放在下标后边，PyTorch里 $i$ 指 $i n p u t, h$ 是我习惯的 $a$ ： $W_{ax}^{[l]}$ )
RNN.weight_hh_l[k] - $W_{hh}^{[k]}$ , $h^{[k]}$ 前的矩阵( $W_{aa}^{[l]}$ )
RNN.bias_ih_l[k] - $b_{ih}^{[k]}$ , 与 $x^{}$ 有关的bias部分( $b_{ax}^{[l]}$ )
RNN.bias_hh_l[k] - $b_{hh}^{[k]}$ , 与 $h^{[k]}$ 有关的bias部分( $b_{aa}^{[l]}$ )
注意：初始权重和偏置均为如上的均匀分布

小结

PyTorch中的input, h_0, output, h_n如下示意图所示，另外PyTorch中第一层是 $l_0$ 。由图中可看出output[-1] 应该是要等于h_n[-1]的（在没有双向RNN的情况下），这将在代码部分验证

Coding Examples

上代码是比较重要的，嗯…不然就只是官方文档的翻译了…阅读文档只是为了辅助科研中的使用，毕竟RNN里边儿乱七八糟的东西太多了感觉。

import torch
import torch.nn.functional as F

简单RNN

验证形状是否正确

# input_size=hidden_size=1, layers=1
rnn = torch.nn.RNN(1, 1, nonlinearity='relu')
# time_step=16, batch_size=20, features=1
inputs = torch.ones([16, 20, 1])
# num_layers * num_directions = 1 * 1 = 1
h_0 = torch.zeros([1, 20, 1])

output, h_n = rnn(inputs, h_0)
# output shape: (time_step=16, batch_size=20, 1 * hidden_size = 1 * 1 = 1)
# h_n shape: (num_layer * num_directions = 1, batch_size = 20, hidden_size = 1)
# Validation:
print('output.shape: \t', output.shape)
print('h_n.shape: \t', h_n.shape)

输出结果：

与推测相符~
接下来检验内部运算，为避免偶然，将输入改为高斯分布：

# time_step=16, batch_size=20, features=1
inputs = torch.randn([16, 20, 1])
# num_layers * num_directions = 1 * 1 = 1
h_0 = torch.randn([1, 20, 1])

验证下式:
$h_t = ReLU(W_{ih} x_t + b_{ih} + W_{hh} h_{(t-1)} + b_{hh})$
对于output[0]，它是第一个时间步上所有batch_size的最后一层隐藏状态（ $h^{[l]}$ ），这里我们只有一层，所以只进行一次计算:

w_ih = rnn.weight_ih_l0
w_hh = rnn.weight_hh_l0
b_ih = rnn.bias_ih_l0
b_hh = rnn.bias_hh_l0
print('rnn.weight_ih_l0: \t', w_ih)
print('rnn.weight_hh_l0: \t', w_hh)
print('rnn.bias_ih_l0: \t', b_ih)
print('rnn.bias_hh_l0: \t', b_hh)

h_1 = F.relu(w_ih * inputs[0] + b_ih + w_hh * h_0[0] + b_hh)
print('h_1: \n', h_1)
assert all(h_1[i] == output[0][i] for i in range(20))

接下来验证output[-1] 是否等于h_n[-1]，注意这里的20和上面的20都是batch_size：

assert all(output[-1][i] == h_n[-1][i] for i in range(20))

双向RNN

INPUT_SIZE = 10
HIDDEN_SIZE = 20
NUM_LAYERS = 4
BATCH_SIZE = 5
TIME_STEP = 16

bi_rnn = torch.nn.RNN(INPUT_SIZE, HIDDEN_SIZE, NUM_LAYERS, nonlinearity='relu', bidirectional=True, bias=False)
inputs = torch.randn(TIME_STEP, BATCH_SIZE, INPUT_SIZE)
# Here num_directions = 2 since we are using bidirectional RNN:
h_0 = torch.randn(2 * NUM_LAYERS, BATCH_SIZE, HIDDEN_SIZE)

output, h_n = bi_rnn(inputs, h_0)
# Output should be in shape of (TIME_STEP, BATCH_SIZE, 2 * HIDDEN_SIZE)
# H_n should be in shape of (2 * NUM_LAYERS, BATCH_SIZE, HIDDEN_SIZE)

验证形状

# Validation:
assert output.shape[0] == TIME_STEP
assert output.shape[1] == BATCH_SIZE
assert output.shape[2] == 2 * HIDDEN_SIZE
assert h_n.shape[0] == 2 * NUM_LAYERS
assert h_n.shape[1] == BATCH_SIZE
assert h_n.shape[2] == HIDDEN_SIZE

实际上，在经典RNN中，最终输出 $\mathbf{y^{}}=g(\mathbf{W_{ya}a^{}+b_y})$ , 因此我们还需要对rnn的输出做一次矩阵相乘并通过一个激活函数。且由于当前RNN为双向，我们还需要把forward和backward提取出来，并拼接在一起进而得到最终输出：
$\mathbf{y^{}}=g(W_{ya}[\mathbf{\overrightarrow{a}^{},\overleftarrow{a}^{}]+b_y})$
这里单个方向上的隐藏状态形状原本为([16, 5, 20]),拼接后将变为([16, 5, 40])：

# Separate the directions
output_reshape = output.view(TIME_STEP, BATCH_SIZE, -1, HIDDEN_SIZE)
# concatenate the both directions
output_cat = torch.cat([output_reshape[:, :, 0, :], output_reshape[:, :, 1, :]], dim=-1)

我们想要的输出 $y$ 的形状应该是([16, 5, 20]),于是这里创建形状为([20, 40])的权重和形状为([20])的偏置，与拼接后的隐藏状态相乘后通过一个 $t a n h$ 函数，得到最终输出y：

# weight_yh (hidden_size, 2 * hidden_size)
# bias_y (hidden_size)
w_yh = torch.randn([HIDDEN_SIZE, output.shape[2]])
b_y = torch.randn(HIDDEN_SIZE)
# (time_step, batch_size, 2 * hidden_size) * (2 * hidden_size, hidden_size)
y = torch.tanh(torch.matmul(output_cat, w_yh.T) + b_y)

y的形状是正确的：

接下来检查output的最后一个时间步是否等于h_n的最后一层。由于这里是双向RNN，把h_n按方向分开之后，对于forward的部分，应该有output[-1] == h_n[-1]，而对于backward部分，output应该是反过来的，即output[0] == h_n[-1],因为backward output的第一个时间步就是相对于整个RNN来说的最后一个时间步。

# check the last time step of forward direction and the first time step of backward direction
h_n_reshape = h_n.view(NUM_LAYERS, -1, BATCH_SIZE, HIDDEN_SIZE)
assert (h_n_reshape[-1, 0, :, :] == output_reshape[-1, :, 0, :]).all()
assert (h_n_reshape[-1, 1, :, :] == output_reshape[0, :, 1, :]).all()

至此，最简单的RNN和双向RNN应该熟悉一些了~

Torch.nn.GRU 和 Torch.nn.LSTM

写着写着发现GRU和RNN的API真的很相似，所以把LSTM放到和GRU一起说，LSTM 加入的变化会多一些

GRU官方文档

描述

$r_t$ 为重置门（ $\Gamma_r^{}$ )， $z_t$ 为更新门（ $\Gamma_u^{}$ ）, $n_t$ 这里叫做new gate，其实就是我理解的candidate cell （ $\tilde{h}^{}$ or $\tilde{c}^{}$ ）。需要注意的是 $n_t$ 的计算中重置门 $r_t$ 与前一个隐藏状态 $h_{(t-1)}$ 部分的乘积是Hadamard积，即entity-wise的对应元素相乘。其他的表示和前面的RNN相似。

参数、输入输出及形状

参数：
和RNN的一样，只是没有提供nonlinearity来选择激活函数，好！
看了一下输入输出和形状都和RNN一样，这里也就不截图了前面的RNN熟悉之后后面的轻松很多~

变量

这里的weight_ih指与输入x相乘的权重，因为涉及到两个门（reset gate, $\Gamma_r^{}$ and update gate, $\Gamma_u^{}$ ）和一个candidate cell（ $\tilde{h}^{}$ or $\tilde{c}^{}$ ）,所以其形状涉及到hidden_size 的要乘以3；与hidden state相乘的weight_hh、以及两个偏置bias_ih和bias_hh也是如此。
权重和偏置同样也是以均匀分布进行初始化。

LSTM官方文档

描述

第一眼看这个的时候…什么乱七八糟的，好好起名字会死吗…不管文档里怎么定义了，我只要我觉得…
全部按我的来替换掉：
$i_t$ (update gate, $\Gamma_u^{}$ ) , $f_t$ (forget gate, $\Gamma_f^{}$ ), $g_t$ (candidate cell, $\tilde{c}^{}$ ),
$o_t$ (output gate, $\Gamma_o^{}$ ), $c_t$ (memory cell), $h_t$ (hidden state, or activation value)
那和三个门相关的更新公式就是：
$c_t=\Gamma_f^{}\odot c_{t-1} + \Gamma_u^{}\odot \tilde{c}^{}$
$h_t=\Gamma_o^{}\odot tanh(c_t)$

输入输出

参数和GRU的一样就不提了，看输入输出：
好家伙，多了个c_0和c_n，所有和 $c$ 有关的都是memory cell记忆单元相关部分。事实上 $c$ 和 $h$ 因为保持着对应的关系（entity-wise product）所以有相同的形状，把这点牢记在心对LSTM的运用应该也不难把握了。
candidate cell( $\tilde{c}^{}$ )是接口内部运算才会涉及到的变量，不考虑它的话，其实也就只有 $c^{}$ 和 $h^{}$ 需要我们斟酌了。然而 $h^{}$ 是输出门 $\Gamma_o^{}$ 和经过 $t a n h$ 之后的 $c^{}$ 通过对应元素相乘得到的，它们自然也应该有相同的shape~
另外小细节就是这里的输入h_0和c_0要以一个元组cell输入，即(h_0, c_0)，输出也是以元组的形式输出的：(h_n, c_n)；如果没注意到等报错了TypeError: forward() takes from 2 to 3 positional arguments but 4 were given就会注意到了…

变量

PyTorch里把candidate cell也叫做一个门：cell gate（单元门？？），这样的话一个LSTM类里其实有四个门，那对应的权重和偏置相应的形状要乘以4。权重的初始化也和GRU一样。
当然啦我还是不习惯把candidate cell看作一个gate，因为它显然起的不是一个门的作用，而是新的记忆单元memory cell的候选项。

Coding Examples

GRU 和 LSTM 其实和前面的RNN在接口的使用上没有什么太大不同，不过是LSTM会多了一个memory cell而已，那我就只放一个LSTM的简单使用好了~
参数和之前的一样：

INPUT_SIZE = 10
HIDDEN_SIZE = 20
NUM_LAYERS = 4
BATCH_SIZE = 5
TIME_STEP = 16

简单的实现：

lstm = torch.nn.LSTM(INPUT_SIZE, HIDDEN_SIZE, NUM_LAYERS, bias=False)
inputs = torch.randn(TIME_STEP, BATCH_SIZE, INPUT_SIZE)
h_0 = torch.randn(NUM_LAYERS, BATCH_SIZE, HIDDEN_SIZE)
c_0 = torch.randn(NUM_LAYERS, BATCH_SIZE, HIDDEN_SIZE)

outputs, (h_n, c_n) = lstm(inputs, (h_0, c_0))

还有一个更简单的：

outputs, (h_n, c_n) = lstm(inputs)

如果接受 $h$ 和 $c$ 的初始值都是0的话完全可以不输入h_0和c_0~

拜拜语

有前言要有结语，到这里为止其实还只是开始。
祝大家学业有成，新年快乐~
（看论文去了…)

基于深度学习的目标检测：从基础到实践 Blossom.118 机器学习与人工智能深度学习目标检测人工智能音视频语音识别计算机视觉机器学习
前言目标检测（ObjectDetection）是计算机视觉领域中的一个核心任务，其目标是在图像中定位和识别多个对象的类别和位置。近年来，深度学习技术，尤其是卷积神经网络（CNN），在目标检测任务中取得了显著进展。本文将详细介绍如何使用深度学习技术构建目标检测模型，从理论基础到代码实现，带你一步步掌握目标检测的完整流程。一、目标检测的基本概念（一）目标检测的定义目标检测是指在图像中识别和定位多个对象
【机器学习】探索未来科技的前沿：人工智能、机器学习与大模型 AIGC零基础入门小白 AI大模型大模型教程人工智能机器学习科技 AI大模型 AIGC AI教程大模型教程
文章目录引言一、人工智能：从概念到现实1.1人工智能的定义1.2人工智能的发展历史1.3人工智能的分类1.4人工智能的应用二、机器学习：人工智能的核心技术2.1机器学习的定义2.2机器学习的分类2.3机器学习的实现原理2.4机器学习的应用2.5机器学习的示例代码2.6解释代码三、大模型：推动AI前沿发展的关键技术3.1大模型的定义3.2大模型的发展历程3.3深度学习与神经网络3.4大模型的优势与挑
基于YOLOv8的火灾智能检测系统设计与实现斟的是酒中桃深度学习人工智能 pyqt yolo
在各类安全事故中，火灾因其突发性强、破坏力大，一直是威胁人们生命财产安全的重大隐患。传统的火灾检测方式多依赖烟雾传感器、温度传感器等，存在响应滞后、易受环境干扰等问题。随着深度学习技术的飞速发展，基于计算机视觉的火灾检测方法凭借其实时性强、检测范围广等优势，逐渐成为研究热点。本文将简单介绍一款基于深度学习的火灾智能检测系统的设计与实现过程。一、系统整体设计本火灾智能检测系统旨在通过深度学习技术实现
人工智能入门指南：从基础概念到实际应用
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。https://www.captainbed.cn/north文章目录1.**人工智能的基本概念**1.1什么是人工智能？1.2人工智能的分类2.**人工智能的核心技术**2.1机器学习（MachineLearning）2.1.1机器学习的类型2.1.2机器学习流程2.2深度学习（DeepLearni
Datawhale X 魔塔 Ai夏令营 --深度学习基础
一、局部极小值与全局极小值全局极小值：在损失函数的整个定义域内，损失值最小的点。这是我们在训练深度学习模型时希望找到的点，因为它代表着模型的最佳性能。局部极小值：在损失函数的一个局部区域内，损失值达到最小，但在整个函数定义域内可能不是最小的。当优化算法陷入局部极小值时，它可能会误以为已经找到了全局最优解，从而停止搜索。局部极小值的检测两种直观的方法来检测局部极小值：可视化方法：对于低维问题，我们可
Unet源码实现（pytorch） wyn20001128 pytorch 人工智能 python
U-Net是一种用于生物医学图像分割的卷积神经网络架构。它通过引入一种新颖的网络结构和训练策略解决了传统方法在数据量不足时面临的挑战。U-Net的主要思想是利用数据增强技术来高效利用有限的标注样本，并通过独特的网络设计来提高分割精度。主要贡献U-Net的主要贡献包括：1、数据增强策略：使用随机弹性变形和其他形式的数据增强来增加训练数据的多样性，从而在有限的数据集上训练出更强大的模型。2、U形网络结
pytorch的学习笔记 wyn20001128 算法
一cuda 2006年，NVIDIA公司发布了CUDA(ComputeUnifiedDeviceArchitecture)，是一种新的操作GPU计算的硬件和软件架构，是建立在NVIDIA的GPUs上的一个通用并行计算平台和编程模型，它提供了GPU编程的简易接口，基于CUDA编程可以构建基于GPU计算的应用程序。 CPU是用于负责逻辑性比较强的计算，GPU专注于执行高度线程化的并行处理任务。所以
深度学习模块实践手册（第十二期）加油吧zkf 目标检测目标检测模块解析与实践深度学习人工智能计算机视觉目标检测 python
56、Ghost模块论文《GhostNet:MoreFeaturesfromCheapOperations》1、作用：Ghost模块是一种轻量级的特征提取模块，旨在通过廉价操作生成更多特征图，减少计算量的同时保持模型性能。传统卷积神经网络在生成特征图时存在大量冗余计算，Ghost模块通过将特征图生成过程分解为两个步骤，有效减少了计算复杂度，特别适合移动端和嵌入式设备部署。2、机制Ghost模块的机
DETR革命：目标检测的Transformer时代加油吧zkf 目标检测 YOLO python 开发语言人工智能图像处理
《DETR从0到1：目标检测Transformer的崛起》为什么会有DETR？在深度学习目标检测发展史上，2014~2019年几乎被基于卷积神经网络（CNN）的检测器统治：两阶段：FasterR-CNN、MaskR-CNN单阶段：YOLO、SSD、RetinaNet这些检测器虽然效果强大，但背后依赖：✅Anchor（先验框）✅NMS（非极大值抑制）✅特征金字塔、手工设计问题：结构复杂、调参困难、不
深度学习模块实践手册（第十一期）加油吧zkf 目标检测目标检测模块解析与实践深度学习人工智能计算机视觉目标检测 python
46、缩放点积注意力模块论文《AttentionIsAllYouNeed》1、作用：缩放点积注意力（ScaledDot-ProductAttention）是Transformer模型的核心组件，旨在解决序列建模中长距离依赖关系捕捉的问题。传统的循环神经网络（RNN）在处理长序列时存在梯度消失或爆炸的问题，且并行性较差。该模块通过计算查询（Query）、键（Key）和值（Value）之间的相似度，实
神经网络项目--基于FPGA的AI简易项目（1-9图片数字识别）霖12 深度学习 pytorch 神经网络 fpga开发人工智能机器学习
1.训练MNIST模型importtorch#导入pytorch核心库importtorch.nnasnn#神经网络模块，如卷积层importtorch.optimasoptim#优化器fromtorchvisionimportdatasets,transforms#数据集与图像预处理工具#定义CNN模型classSimpleCNN(nn.Module):#PyTorch库中所有神经网络的“基础模
基于NanoDet的健身姿势纠正系统开发 YOLO实战营人工智能 NanoDet 深度学习计算机视觉 ui
1.引言在现代健身行业中，正确的运动姿势至关重要，不仅能提升训练效果，还能预防运动损伤。尤其是在进行一些高强度的力量训练时，如深蹲、俯卧撑等，错误的姿势可能导致肌肉不平衡或关节损伤。传统的健身姿势纠正方式依赖教练的人工指导，但随着人工智能技术的发展，使用计算机视觉和深度学习技术来进行姿势纠正，逐渐成为一种高效且可扩展的解决方案。本文将详细介绍如何基于NanoDet（一个轻量化目标检测模型）开发一个
大模型算法工程师技术路线全解析：从基础到资深的能力跃迁 Mr.小海大模型算法数据挖掘人工智能机器学习深度学习机器翻译 web3
文章目录大模型算法工程师技术路线全解析：从基础到资深的能力跃迁一、基础阶段（0-2年经验）：构建核心知识体系与工程入门数学与机器学习基础编程与深度学习框架NLP与Transformer入门二、进阶阶段（2-4年经验）：深化模型技术与工程落地能力大模型预训练与微调技术预训练原理：数据与任务的协同设计微调工具：参数高效适配与工程优化对齐实践：价值观优化与实证效果分布式训练与框架工具并行策略：多维度协同
神经网络常见激活函数 13-Softplus函数亲持红叶神经网络常见激活函数神经网络人工智能深度学习
文章目录Softplus函数+导函数函数和导函数图像优缺点PyTorch中的Softplus函数TensorFlow中的Softplus函数Softplus函数+导函数Softplus函数Softplus⁡(x)=ln⁡(1+e x)\begin{aligned}\operatorname{Softplus}(x)&=\ln\bigl(1+e^{\,x}\bigr)\end{aligned}Sof
【深度学习-Day 36】CNN的开山鼻祖：从LeNet-5到AlexNet的架构演进之路吴师兄大模型深度学习入门到精通 python pytorch 开发语言人工智能 CNN 深度学习大模型
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
人脸识别实战：使用Python OpenCV 和深度学习进行人脸识别(2)
先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！因此收集整理了一份《2024年最新Python全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课
TensorFlow深度学习实战——DCGAN详解与实现盼小辉丶深度学习 tensorflow 生成对抗网络
TensorFlow深度学习实战——DCGAN详解与实现0.前言1.DCGAN架构2.构建DCGAN生成手写数字图像2.1生成器与判别器架构2.2构建DCGAN相关链接0.前言深度卷积生成对抗网络(DeepConvolutionalGenerativeAdversarialNetwork,DCGAN)是一种基于生成对抗网络(GenerativeAdversarialNetwork,GAN)的深度学
基于cnn和resnet和mobilenet对比实现驾驶员分心检测深度学习乐园 cnn 人工智能神经网络
演示效果及获取项目源码点击文末名片本项目旨在通过深度学习技术，结合卷积神经网络（CNN）模型、ResNet模型和MobileNet模型，实现对驾驶员分心行为的自动检测。我们通过训练这些模型来识别不同的驾驶员分心行为，包括如发短信、通话、喝水等行为。使用的数据集包含驾驶员行为的图片，并且针对每个行为标注了相应的标签（例如"正常驾驶"、"右手发短信"等）。MobileNetV2是Google于2018
opencv 4.12.0版本发布详解：核心优化与新特性全解析 Risehuxyc #opencv opencv 人工智能计算机视觉
OpenCV4.12.0夏季更新带来核心模块优化、图像处理增强、深度学习支持扩展及新兴硬件适配，全面提升计算机视觉开发效率与性能。引言OpenCV（开源计算机视觉库）作为计算机视觉领域最受欢迎的开源库之一，在2025年7月发布了4.12.0版本。这个夏季更新带来了大量性能优化、新功能和错误修复，覆盖了核心模块、图像处理、3D校准、深度学习等多个领域。本文将详细介绍OpenCV4.12.0的主要更新
如何用深度学习实现图像风格迁移
最近研学过程中发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击链接跳转到网站人工智能及编程语言学习教程。读者们可以通过里面的文章详细了解一下人工智能及其编程等教程和学习方法。下面开始对正文内容的介绍。前言图像风格迁移是人工智能领域中一个非常有趣且富有创意的应用。它能够让一张普通的照片瞬间变成梵高笔下的《星月夜》风格，或者像莫奈的《睡莲》一样充满艺术感。这种技术不仅在
AI人工智能领域TensorFlow的模型训练策略 AIGC应用创新大全人工智能 tensorflow python ai
AI人工智能领域TensorFlow的模型训练策略关键词：TensorFlow、模型训练、深度学习、神经网络、优化策略、分布式训练、迁移学习摘要：本文将深入探讨TensorFlow框架下的模型训练策略，从基础概念到高级技巧，全面解析如何高效训练深度学习模型。我们将从数据准备、模型构建、训练优化到部署应用，一步步揭示TensorFlow模型训练的核心技术，并通过实际代码示例展示最佳实践。背景介绍目的
ROS2 通过相机确定物品坐标位置
要实现通过相机确定物品坐标位置，通常需要相机标定、物体检测和坐标转换几个步骤。下面我将提供一个完整的解决方案，包括相机标定、物体检测和3D坐标估计。1.系统架构相机标定-获取相机内参和畸变系数物体检测-使用OpenCV或深度学习模型检测物品坐标转换-将2D图像坐标转换为3D世界坐标ROS2集成-将上述功能集成到ROS2节点中2.实现步骤2.1创建功能包bashros2pkgcreateobject
Anaconda 、Pytorch下载教程（保姆级）湲绘 pytorch opencv 人工智能 conda python 深度学习
#因为每次都自己去搜教程太麻烦，索性写个博客记录一下#一、Anaconda的下载与安装进入Anaconda官网官网：Anaconda|TheWorld’sMostPopularDataSciencePlatform下载地址：FreeDownload|Anaconda直接点击Download即可版本对应表如下，选择自己想要的python版本下载就好[环境配置]anaconda3的base环境与pyt
【机器学习&深度学习】什么是量化？一叶千舟深度学习【理论】机器学习深度学习人工智能
目录前言一、量化的基本概念1.1量化对比示例1.2量化是如何实现的？二、为什么要进行量化？2.1解决模型体积过大问题2.2降低对算力的依赖2.3加速模型训练和推理2.4优化训练过程2.5降低部署成本小结：量化的应用场景三、量化的类型与实现3.1权重量化（WeightQuantization）3.2激活量化（ActivationQuantization）3.3梯度量化（GradientQuantiz
基于AutoCut实现在文档中按照片段剪辑视频 Mr数据杨 Python 音频技术音视频
本项目致力于通过构建一个具备深度学习支持的多功能视频处理环境，为用户提供高效、智能的视频编辑和字幕生成工具。依托Anaconda环境管理工具和PyTorch的GPU加速能力，用户能够迅速搭建一个符合项目需求的Python环境。结合FunClip的源代码以及相关插件的安装和配置，用户可充分利用项目所支持的图像、音频识别功能，并以极少的配置便获得理想的视频裁剪效果。项目的核心在于简化深度学习项目的环境
基于深度学习的和平精英（吃鸡）内置锁头训练摆烂仙君深度学习人工智能
前言本教程以和平精英为例，主要讲解如何构建深度学习模型对游戏中角色进行头部标注，并控制鼠标对其进行锁定射击，同时围绕其游戏防作弊系统进行算法攻防讲解，该方案对于csgo,cf等游戏也同样适用。请注意，该教程仅供娱乐教学，若本教程评论超过100，将会开源相关代码并对实际的代码部署进行进一步分析。一、和平精英伤害机制分析在《刺激战场》（现为《和平精英》）中，击中头部的伤害远高于身体其他部位，这是由游戏
迁移学习让深度学习更容易城市中迷途小书童
摘要：一文读懂迁移学习及其对深度学习发展的影响！深度学习在一些传统方法难以处理的领域有了很大的进展。这种成功是由于改变了传统机器学习的几个出发点，使其在应用于非结构化数据时性能很好。如今深度学习模型可以玩游戏，检测癌症，和人类交谈，自动驾驶。深度学习变得强大的同时也需要很大的代价。进行深度学习需要大量的数据、昂贵的硬件、甚至更昂贵的精英工程人才。在ClouderaFastForward实验室，我们
股票基金量化开源平台对比 Mr.小海开源开源金融
股票基金量化开源平台对比分析报告引言研究背景与意义在金融科技快速发展的背景下，量化交易已成为现代金融市场中投资者追求高效与精准交易的核心工具。通过程序化方式，投资者能够迅速处理海量市场数据，制定并执行复杂交易策略，其高效性、低情绪干扰及策略多样性等优势显著[1]。特别是随着人工智能技术的深化，2025年基于深度学习与机器学习的开源量化工具持续涌现，推动行业向数据驱动转型——量化交易将决策逻辑从经验
开源基金/股票量化平台调研报告 Mr.小海金融
开源基金/股票量化平台调研报告引言调研背景与目的近年来，随着人工智能技术的持续深化，量化交易领域迎来了深刻变革。2025年，基于深度学习和机器学习的开源工具不断涌现，不仅在技术层面实现突破，更在实际应用中展现出强大竞争优势，推动行业创新与升级[1].作为融合数学、统计与计算机技术的科技驱动型金融策略，量化交易通过自动化与数据驱动方法提升投资决策效率与准确性，已成为金融机构与投资者追求超额收益的重要
Python Gradio：快速搭建人脸识别应用 Python编程之道 Python人工智能与大数据 Python编程之道 python 开发语言 ai
PythonGradio：快速搭建人脸识别应用关键词：Python,Gradio,人脸识别,深度学习,计算机视觉,交互式应用,模型部署摘要：本文详细介绍了如何使用Python的Gradio库快速搭建一个交互式的人脸识别应用。我们将从基础概念出发，逐步讲解人脸识别的核心算法原理、Gradio的界面设计方法，并通过完整的项目实战演示如何将深度学习模型部署为可交互的Web应用。文章包含详细的代码实现、数
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {

PyTorch中RNN相关学习笔记