BrightLampCsdn

门控循环单元GRUCell详解及反向传播的梯度求导

摘要

本文给出门控循环单元GRUCell的定义公式, 并求解其在反向传播中的梯度.

给出的相关公式是完整的, 编程导向的, 可以直接用于代码实现, 已通过 Python 验证.

相关

配套代码, 请参考文章 :

纯 Python 和 PyTorch 对比实现门控循环单元 GRU 及反向传播

Affine 变换的定义和梯度, 请参考文章 :

affine/linear(仿射/线性)变换函数详解及全连接层反向传播的梯度求导

系列文章索引 :

https://blog.csdn.net/oBrightLamp/article/details/85067981

正文

1. GRUCell 定义

1.1 一次迭代

n考虑输入一个 3 阶张量 $X_{lmn}$ , 该张量可以表示为 $l$ 个尺寸为 $\times n$ 的矩阵 $X_{mn}$ , 同时表明循环单元的输入尺寸为 $n$ .

设第一个输入矩阵为 $X_{mn}^{(1)}$ , 对应的 3 个变换矩阵分别为 $W_r,W_u,W_c$ , 偏置向量为 $a_r,a_u,a_c$ .

设初始隐含层矩阵为 $H_{mr}^{(0)}$ , 对应的 2 个变换矩阵分别为 $V_r,V_u,V_c$ , 偏置向量为 $b_r,b_u,b_c$ .

则一次 GRUCell 循环变换为 :
$A_r =X^{(1)}{W_{r}}^T + a_{r} + H^{(0)}V_{r}^T + b_{r}\\ A_u =X^{(1)}{W_{u}}^T + a_{u} + H^{(0)}V_{u}^T + b_{u}\\ g_r =sigmoid(A_r)\\ g_u =sigmoid(A_u)\\ \;\\ A_c =X^{(1)}{W_{c}}^T + a_{c} + g_r \odot (H^{(0)}V_{c}^T + b_{c})\\ g_c =tanh(A_c)\\ H^{(1)} =(1 - g_u)\odot g_c + g_u \odot H^{(0)}$
上式中的 $\odot$ 表示 element-wise 元素积, 将以上过程记为 :
$H^{(1)} = GRUCell(X^{(1)},H^{(0)})$
循环到下一次时, 将 $H^{(1)},C^{(1)}$ 代入 $H^{(0)},C^{(0)}$ 的位置, 与下一个 $X^{(2)}$ 重新进行运算.

1.2 循环迭代

下面使用迭代记法表示 GRUCell 运算.

使用 $H^{(0)}$ 表示初始隐含层矩阵, 对于 :
$X_{lmn} = X_{mn}^{(1)},X_{mn}^{(2)},X_{mn}^{(3)},\cdots,X_{mn}^{(l)}$
则 :
$H^{(1)} = GRUCell(X^{(1)},H^{(0)})\\ \;\\ H^{(2)} = GRUCell(X^{(2)},H^{(1)})\\ \;\\ H^{(3)} = GRUCell(X^{(3)},H^{(2)})\\ \vdots\\ H^{(l)} = GRUCell(X^{(l)},H^{(l-1)})\\$

展开最后一层作为示例 :
$A_r =X^{(l)}{W_{r}}^T + a_{r} + H^{(l-1)}V_{r}^T + b_{r}\\ A_u =X^{(l)}{W_{u}}^T + a_{u} + H^{(l-1)}V_{u}^T + b_{u}\\ g_r =sigmoid(A_r)\\ g_u =sigmoid(A_u)\\ \;\\ A_c =X^{(l)}{W_{c}}^T + a_{c} + g_r \odot (H^{(l-1)}V_{c}^T + b_{c})\\ g_c =tanh(A_c)\\ H^{(l)} =(1 - g_u)\odot g_c + g_u \odot H^{(l-1)}$
在迭代的过程中 $\; V , \; a, \; b$ 是共享的, 不变的.

1.3 张量公式

使用 3 阶张量表示 :
$H_{lmr} = GRUCell^{(l)}(X_{lmn},H_{mr}^{(0)})$
GRUCell 的上标 $(l)$ 表示经过 $l$ 次循环迭代计算, 输入尺寸为 $\times m \times n$ 的张量 $X_{lmn}$ 将输出尺寸为 $\times m \times r$ 的张量 $H_{lmr}$ .

2. 反向传播

考虑输入一个 3 阶张量 $X_{lmn}$ , 经过 GRUCell 运算后, 输出 3 阶张量 $H_{lmr}$ , 往前 forward 传播得到误差值 error ( 标量 e ), e 对 $H_{lmr}$ 的梯度 $\nabla e_{(H_{lmr})}$ 已由上游给出, 求 e 对 $X_{lmn}$ 的梯度.
$H_{ijn},C_{ijn} = RNNCell^{(i)}(X_{ijk},H_{jn}^{(0)},C_{jn}^{(0)})\\ \;\\ e = forward(H_{ijn})$

2.1 相关函数的梯度

从 GRUCell 运算的定义可以看出, 每一次循环迭代都是由 Affine 计算和激活函数计算组合而成.

Affine 计算的定义及梯度求导公式已在上面的 <相关> 中给出.

关于 Affine 的梯度 :
$XW^T + b\\ \;\\ \frac {d e}{d X} =\nabla e_{(A)}W\\ \;\\ \frac {d e}{d W} =\nabla e_{(A)}^TX\\ \;\\ \frac {de}{db}=sum(\nabla e_{(A)},\; axis=0)$
关于 tanh 的梯度 :
$tanh(x)=\frac{e^x-e^{-x}}{e^x+e^{-x}} \\ \;\\ \frac{dy}{dx}= 1-y^2$
关于 sigmoid 的梯度 :
$sigmoid(x)=\frac{1}{1+e^{-x}} \\ \;\\ \frac{dy}{dx}= y(1-y)$

2.2 关于 $g_u$ 的梯度

GRUCell 的运算是循环迭代的, 每一次梯度不仅受到上游 forward 运算的影响, 还受到自身上一步运算的影响.

为了避免符号混乱, 将上游 forward 运算传递到 H 的梯度 $\nabla e_{(H_{lmr})}$ 记为 $\nabla e_{(F_{lmr})}$ , $\nabla e_{(H_{lmr})}$ 用于迭代过程中的内部计算.

从最后一步开始算起 :
$\frac{de}{dg_u^{(l)}}=\frac{de}{dF^{(l)}}\odot(-g_c^{(l)}+H^{(l-1)})\\$
在这一步, 同样可以得到 $de / dH^{(l-1)}$ , 这个结果不依赖于 $de / dg_u^{(l)}$ , 是独立的. $de / dH^{(l-1)}$ 的计算过程比较长, 放到下文, 这里先拿来使用.

按顺序往下迭代 :
$\frac{de}{dg_u^{(l)}}=\frac{de}{dF^{(l)}}\odot(-g_c^{(l)}+H^{(l-1)})\\ \frac{de}{dg_u^{(l-1)}}=(\frac{de}{dF^{(l-1)}}+\frac{de}{dH^{(l-1)}})\odot(-g_c^{(l-1)}+H^{(l-2)})\\ \frac{de}{dg_u^{(l-2)}}=(\frac{de}{dF^{(l-2)}}+\frac{de}{dH^{(l-2)}})\odot(-g_c^{(l-2)}+H^{(l-3)})\\ \vdots\\ \frac{de}{dg_u^{(1)}}=(\frac{de}{dF^{(1)}}+\frac{de}{dH^{(1)}})\odot(-g_c^{(1)}+H^{(0)})$

2.2 关于 $g_c$ 的梯度

$\frac{de}{dg_c^{(l)}}=\frac{de}{dF^{(l)}}\odot(1-g_u^{(l)})\\ \frac{de}{dg_c^{(l-1)}}=(\frac{de}{dF^{(l-1)}}+\frac{de}{dH^{(l-1)}})\odot(1-g_u^{(l-1)})\\ \frac{de}{dg_c^{(l-2)}}=(\frac{de}{dF^{(l-2)}}+\frac{de}{dH^{(l-2)}})\odot(1-g_u^{(l-2)})\\ \vdots\\ \frac{de}{dg_c^{(1)}}=(\frac{de}{dF^{(1)}}+\frac{de}{dH^{(1)}})\odot(1-g_u^{(1)})$

2.3 关于 $A_u, A_c$ 的梯度 :

$\frac{de}{dA_u}=\frac{de}{dg_u}\odot g_u\odot(1-g_u)\\ \;\\ \frac{de}{dA_c}=\frac{de}{dg_c}\odot (1-g_c^2)\\$

这里不涉及迭代, 分步计算即可.

2.4 关于 $g_r, A_r$ 的梯度

$\frac{de}{dg_r}=\frac{de}{dA_c}\odot (H^{(l-1)}V_c^T + b_c)\\ \;\\ \frac{de}{dA_r}=\frac{de}{dg_r}\odot g_r (1-g_r)\\$

这里不涉及迭代, 分步计算即可.

2.5 关于 H 的梯度

这里涉及迭代, 按顺序计算 :
$\frac{de}{dH^{(l-1)}}=\frac{de}{dF^{(l)}}\odot g_u^{(l)}+\frac{de}{dA_r^{(l)}}V_r+\frac{de}{dA_u^{(l)}}V_u+(\frac{de}{dA_c^{(l)}}\odot g_r^{(l)}) V_c\\ \frac{de}{dH^{(l-2)}}=(\frac{de}{dF^{(l-1)}}+\frac{de}{dH^{(l-1)}})\odot g_u^{(l-1)}+\frac{de}{dA_r^{(l-1)}}V_r+\frac{de}{dA_u^{(l-1)}}V_u+(\frac{de}{dA_c^{(l-1)}}\odot g_r^{(l-1)}) V_c\\ \frac{de}{dH^{(l-3)}}=(\frac{de}{dF^{(l-2)}}+\frac{de}{dH^{(l-2)}})\odot g_u^{(l-2)}+\frac{de}{dA_r^{(l-2)}}V_r+\frac{de}{dA_u^{(l-2)}}V_u+(\frac{de}{dA_c^{(l-2)}}\odot g_r^{(l-2)}) V_c\\ \vdots\\ \frac{de}{dH^{(0)}}=(\frac{de}{dF^{(1)}}+\frac{de}{dH^{(1)}})\odot g_u^{(1)}+\frac{de}{dA_r^{(1)}}V_r+\frac{de}{dA_u^{(1)}}V_u+(\frac{de}{dA_c^{(1)}}\odot g_r^{(1)}) V_c\\$

2.6 关于 X 的梯度

$\frac{de}{dX}=\frac{de}{dA_r}W_r+\frac{de}{dA_u}W_u+(\frac{de}{dA_c}\odot g_r) W_c$

这里不涉及迭代, 分步计算即可.

2.7 关于 W 的梯度

$\frac{de}{dW_r}=(\frac{de}{dA_r})^T X\\ \;\\ \frac{de}{dW_u}=(\frac{de}{dA_u})^T X\\ \;\\ \frac{de}{dW_c}=(\frac{de}{dA_c})^T X$

这里不涉及迭代, 分步计算即可.

2.8 关于 V 的梯度

$\frac{de}{dW_r}=(\frac{de}{dA_r})^T H^{(l-1)}\\ \;\\ \frac{de}{dW_u}=(\frac{de}{dA_u})^T H^{(l-1)}\\ \;\\ \frac{de}{dW_c}=(\frac{de}{dA_c}\odot g_r)^T H^{(l-1)}$

这里不涉及迭代, 分步计算即可.

2.9 关于 a,b 的梯度

$\frac{de}{da_r}=sum(\nabla (\frac{de}{dA_r})^T,\; axis=0)\\ \;\\ \frac{de}{da_u}=sum(\nabla (\frac{de}{dA_u})^T,\; axis=0)\\ \;\\ \frac{de}{da_c}=sum(\nabla (\frac{de}{dA_c})^T,\; axis=0)$

这里不涉及迭代, 分步计算即可. 同样的 :
$\frac{de}{da}=\frac{de}{db}$

你可能感兴趣的:(深度学习基础)

深度学习基础之循环神经网络 Ctrl+CV九段手机器学习和深度学习 rnn 深度学习神经网络人工智能机器学习学习
目录基本概念与特点定义与工作原理结构组成应用领域自然语言处理语音识别时间序列分析优缺点优点缺点改进方法总结循环神经网络在自然语言处理中的最新应用和研究进展是什么？长短期记忆网络（LSTM）与门控循环单元（GRU）在解决梯度消失和爆炸问题上的具体差异和优势是什么？LSTM的结构与优势GRU的结构与优势具体差异门的数量：计算复杂度：性能对比：总结双向循环神经网络如何增强模型的上下文捕捉能力，与单向RN
【学习笔记】第三章深度学习基础——Datawhale X李宏毅苹果书 AI夏令营 MoyiTech 人工智能学习笔记
局部极小值与鞍点梯度为0的点我们统称为临界点，包括局部极小值、鞍点等局部极小值和鞍点的梯度都为0，那如何判断呢？先请出我们损失函数：L(θ)，θ是模型中的参数的取值，是一个向量。由于网络的复杂性，我们无法直接写出损失函数，不过我们可以写出损失函数的近似取值。根据宋浩老师所讲的大学一年级高等数学的知识，我们可以通过三阶泰勒展开对损失函数在θ附近的取值进行近似：其中，θ是模型中的参数的取值，θ’是在θ
基于matlab的深度学习案例及基础知识专栏前言逼子歌 matlab 深度学习信号处理神经网络矩阵运算 CNN
专栏简介内容涵盖深度学习基础知识、深度学习典型案例、深度学习工程文件、信号处理等相关内容，博客由基于matlab的深度学习案例、matlab基础知识、matlab图像基础知识和matlab信号处理基础知识四部分组成。一、基于matlab的深度学习案例1.1、matlab:基于模板匹配的车牌识别_阐述基于模板匹配的车牌识别的字符识别-CSDN博客1.2、基于卷积神经网络(CNN)的车牌自动识别系统(
pytorch深度学习基础 7（简单的的线性训练，SGD与Adam优化器）不是浮云笙 pytorch实战深度学习 pytorch 人工智能
接下来小编来讲一下一些优化器在线性问题中的简单使用使用，torch模块中有一个叫optim的子模块，我们可以在其中找到实现不同优化算法的类SGD随机梯度下降基本概念定义：随机梯度下降（SGD）是一种梯度下降形式，对于每次前向传递，都会从总的数据集中随机选择一批数据，即批次大小1。参数更新过程：这个参数的更新过程可以描述为随机梯度下降法，随机梯度下降（SGD）是一种简单但非常有效的方法，多用于支持向
Datawhale AI夏令营第四期魔搭- AIGC文生图方向 task03笔记汪贤阳人工智能 AIGC 笔记
如何学习八图ai模型kolors1,Kolors是由快手公司开源的第三代文本到图像生成模型，基于StableDiffusion框架开发。它支持中英文输入，特别在中文内容的理解和生成上表现出色。2,深度学习基础：熟悉神经网络、卷积神经网络（CNN）、Transformer等深度学习模型的基本原理。自然语言处理（NLP）：了解文本编码、语言模型等NLP技术，因为Kolors在生成图像时需要理解并处理输
1.深度学习基础-模型评估指标 alstonlou 深度学习指南深度学习人工智能机器学习算法 python
模型评估指标针对不同类型的任务，需要通过不同的模型评价指标进行评价，在实际应用中，可能需要结合具体任务和需求选择合适的评估方法。有监督学习回归任务回归任务模型的评估主要通过误差和拟合优度来进行，常用的指标包括平均绝对误差（MAE）、均方误差（MSE）、均方根误差（RMSE）和决定系数（R²）。在回归任务中，我们主要关注模型预测值与实际值之间的差异大小以及模型对数据整体变化的解释能力。以下是具体介绍
深度学习基础——卷积神经网络（一）牛哥带你学代码 Python数据分析 python数学建模算法深度学习 cnn 人工智能
卷积操作与自定义算子开发卷积是卷积神经网络中的基本操作，对于图像的特征提取有着关键的作用，本文首先介绍卷积的基本原理与作用，然后通过编写程序实现卷积操作，并展示了均值、高斯与sobel等几种经典卷积核的卷积效果，接着调用MindSpore中的卷积算子Conv2d来实现卷积操作，最后介绍了MindSpore中pyfunc和TBE两种自定义算子实现方法。卷积基本原理1.1卷积的概念卷积操作发展于信号处
大语言模型学习路线：从入门到实战 Tim_Van 人工智能语言模型自然语言处理大语言模型大模型
大语言模型学习路线：从入门到实战在人工智能领域，大语言模型（LargeLanguageModels,LLMs）正迅速成为一个热点话题。本学习路线旨在为有基本Python编程和深度学习基础的学习者提供一个清晰、系统的大模型学习指南，帮助你在这一领域快速成长。本学习路线更新至2024年02月，后期部分内容或工具可能需要更新。适应人群已掌握Python基础具备基本的深度学习知识学习步骤本路线将通过四个核
深度学习基础叁：反向传播算法白拾Official #深度学习神经网络算法网络深度学习人工智能
注：封面画师：新雨林-触站说明本页面无手机端适配，强制缩放阅读。使用纯html格式，保存教学用ppt，添加了部分个人笔记。目录工作正常，可以跳转。反向传播这里对反向传播的讲解比较奇怪，可能比较适合初学者理解。想要通过严谨的数学推导理解反向传播的同学，可以搜索一下。反向传播算法反向传播算法什么是正向传播网络什么是反向传播反向传播算法为什么需要反向传播图解反向传播反向传播计算链式求导法则案例1：通过反
深度学习基础之《TensorFlow框架（2）—图》 csj50 机器学习深度学习
一、什么是图结构1、图包含了一组tf.Operation代表的计算单元对象和tf.Tensor代表的计算单元之间流动的数据图结构：数据(Tensor)+操作(Operation)二、图相关操作1、默认图通常TensorFlow会默认帮我们创建一张图查看默认图的两种方法：（1）通过调用tf.compat.v1.get_default_graph()访问，要将操作添加到默认图形中，直接创建OP即可（2
深度学习基础之《TensorFlow框架（4）—Operation》 csj50 机器学习深度学习
一、常见的OP1、举例类型实例标量运算add，sub，mul，div，exp，log，greater，less，equal向量运算concat，slice，splot，canstant，rank，shape，shuffle矩阵运算matmul，matrixinverse，matrixdateminant带状态的运算variable，assgin，assginadd神经网络组件softmax，sig
大致聊聊ChatGPT的底层原理，实现方法黑马程序员官方 chatgpt 人工智能机器学习
文目录深度学习基础ChatGPT的本质ChatGPT原理详解一、深度学习基础—深度学习是什么？如何理解神经网络结构？关于生物神经网络结构如下：神经网络介绍人工神经网络（ArtificialNeuralNetwork,简写为ANN）也简称为神经网络(NN),是一种模仿生物神经网络结构和功能的计算模型。当电信号通过树突进入到核细胞时，会逐渐聚集电荷。达到一定的电位后，细胞会被激活，通过轴突发出信号。从
深度学习基础 EEPI 深度学习人工智能
深度学习基础highvariance/datamismatchwhatisdatamismatchhowtosolvedatamismatchdatasynthesis数据合成迁移学习与预训练/微调什么时候用迁移学习highvariance/datamismatchwhatisdatamismatch如果训练集和验证集的loss不一样，且验证集的loss高很多，有2种原因：1.方差太大。模型没见过
深度学习基础--反向传播掰不开桃子的男人
Modelimage.png前向传播image.png反向传播求误差image.png求对J的影响image.pngimage.png求对J的影响image.pngimage.png误差反传image.pngimage.pngimage.png参考：深度学习—反向传播(BP)理论推导-Backpropagation算法的推导与直观图解-文之-博客园
深度学习基础之-3.3线性二分类的神经网络实现 SusanLovesTech 深度学习二分类神经网络线性实现 python
线性二分类的神经网络实现提出问题回忆历史，公元前206年，楚汉相争，当时刘邦项羽麾下的城池地理位置如下：0.红色圆点，项羽的城池1.绿色叉子，刘邦的城池其中，在边界处有一些红色和绿色重合的城池，表示双方激烈争夺的拉锯战。样本序号123…119经度相对值0.0254.109…7.767纬度相对值3.4088.012…1.8721=汉,0=楚110…1问题：经纬度相对值为(5,1)时，属于楚还是汉？经
深度学习入门资料整理 AI视觉网奇应该看的算法深度学习基础深度学习入门
深度学习基础总结，无一句废话（附完整思维导图）深度学习如何入门？-知乎深度学习入门基础讲义_shuzfan的博客-CSDN博客_深度学习入门神经网络15分钟入门！足够通俗易懂了吧-知乎深度学习基础知识点梳理-知乎
新书速览|PyTorch 2.0深度学习从零开始学全栈开发圈深度学习 pytorch 人工智能
实战中文情感分类、拼音汉字转化、中文文本分类、拼音汉字翻译、强化学习、语音唤醒、人脸识别01本书简介本书以通俗易懂的方式介绍PyTorch深度学习基础理论，并以项目实战的形式详细介绍PyTorch框架的使用。为读者揭示PyTorch2.0进行深度学习项目实战的核心技术，实战案例丰富而富有启发。02本书内容本书共分15章，内容包括PyTorch概述、开发环境搭建、基于PyTorch的MNIST分类实
基于Python的深度学习基础程序媛了了 python 开发语言
Python基础Python是一种开源的、简单易记、可以自由使用编程语言。深度学习将使用NumPy和Matplotlib这两种外部库Python有“解释器”和“脚本文件”两种运行模式Python能够将一系列处理集成为函数或类等模块NumPy中有很多用于操作多维数组的便捷方法类与对象变量是挂在对象身上的标签classMan:#定义了一个新类Man，类Man生成了实例（对象）m#类Man的构造函数（初
深度学习知识学习笔记 wyn20001128 图像处理深度学习算法
一相关的深度学习基础知识（1）线性回归设房屋的⾯积为x1x_1x1，房龄为x2x_2x2，售出价格为yyy。我们需要建⽴基于输⼊x1x_1x1和x2x_2x2来计算输出的表达式，yyy也就是模型（model）。顾名思义，线性回归假设输出与各个输⼊之间是线性关系：y=w1x1+w2x2+by=w_1x_1+w_2x_2+by=w1x1+w2x2+b 在模型训练中，我们需要衡量价格预测值与真实值
【深度学习基础】什么是卷积？为什么要用卷积？ BIT可达鸭 ▶深度学习-计算机视觉神经网络卷积计算机视觉深度学习 python
什么是卷积？为什么要用卷积？（一）卷积的原理：1.卷积核：2.卷积层参数：2.1卷积核数：2.2卷积核的大小：2.3步长：2.4填充：3.池化层：3.1最大池化层（maxpooling）：3.2均值池化层（averagepooling）：（二）卷积的作用：1.减少参数量：
Coursera吴恩达《深度学习》课程总结（全）双木的木吴恩达深度学习笔记 AI 笔记深度学习神经网络人工智能 python
这里有Coursera吴恩达《深度学习》课程的完整学习笔记，一共5门课：《神经网络和深度学习》、《改善深层神经网络》、《结构化机器学习项目》、《卷积神经网络》和《序列模型》，最后附上人工智能领域大师访谈，干货满满。第一门课：神经网络和深度学习基础，介绍一些基本概念。（四周）第二门课：深度学习方面的实践，严密的构建神经网络，如何真正让它表现良好。超参数调整，正则化诊断偏差和方差，高级优化算法，如Mo
深度学习简介与应用 jcfszxc 测试专栏深度学习
深度学习简介与应用深度学习是人工智能领域中备受关注的一项技术，通过模拟人脑神经网络的结构，实现了在大规模数据上进行复杂任务的能力。本文将简要介绍深度学习的基本概念，并探讨其在不同领域的应用。深度学习基础深度学习的核心是神经网络，它由多个层次组成，每一层都包含多个神经元。通过训练这些神经网络，系统能够自动学习数据中的模式和特征，从而实现分类、预测等任务。人工神经网络结构输入层：接收数据的第一层，每个
深度学习基础知识湘溶溶深度学习分割深度学习人工智能
卷积神经网络——图像卷积特征提取卷积核（算子）用来做图像处理时的矩阵，与原图像做运算的参数。卷积层基本参数（卷积核大小，步长【pytorch默认为1】，padding边缘填充）输出尺寸=（输入尺寸-卷积核尺寸+2*padding）/stride+1卷积神经网络的基本结构层输入层：批次通道图像大小卷积层激活函数：加入非线性因素，提高神经网络对模型的表达能力，解决线性模型所不能解决的问题，CNN较为常
大模型的学习路线图推荐—多维度深度分析【云驻共创】一见已难忘 IT分享/测评/交流学习大模型语言模型多维度深度分析
本文背景近年来，随着深度学习技术的迅猛发展，大模型已经成为学术界和工业界的热门话题。大模型具有数亿到数十亿的参数，这使得它们在处理复杂任务时表现得更为出色，但同时也对计算资源和数据量提出了更高的要求。学习大模型的路线图通常需要一系列的基础知识、进阶技能以及实际应用经验。以下是一些相关的背景信息：1.深度学习基础：学习大模型之前，对深度学习的基本概念、神经网络的原理、激活函数、损失函数等基础知识有一
深度学习基础之数据操作丘小羽 pytorch 深度学习人工智能
深度学习中最常用的数据是张量，对张量进行操作是进行深度学习的基础。以下是对张量进行的一些操作：首先我们需要先导入相关的张量库torch。元素构造（初始化）使用arange创造一个行向量，也就是0轴（0维）。默认是按顺序创建，从0开始，元素类型默认是整数，当然也可以指定为浮点数。比如:可以使用张量shape属性来访问张量（沿每个轴的长度）的形状（shape）。当然指的是形状，也可能不只是一个维度。我
Pytorch第2周：深度学习基础 - Day 8-9: 神经网络基础 M.D 深度学习神经网络人工智能 pytorch python tensorflow2
Pytorch第2周：深度学习基础-Day8-9:神经网络基础学习目标：理解神经网络的基础概念。学习如何使用PyTorch的nn模块构建神经网络。学习内容：神经网络基础概念：神经元：构成神经网络的基本单元，模拟生物神经元的功能。层：神经网络的构建块，包括输入层、隐藏层和输出层。激活函数：引入非线性因素，使网络能够学习复杂的模式，如ReLU、Sigmoid、Tanh等。使用PyTorch的nn模块：
吴恩达倾情推荐！28张图全解深度学习知识！深度学习算法与自然语言处理 NLP与大模型机器学习深度学习人工智能自然语言处理机器学习
本文约7500字，建议阅读15分钟本文将从深度学习基础（01-13）、卷积网络（14-22）和循环网络（23-28）三个方面介绍该笔记。吴恩达在推特上展示了一份由TessFerrandez完成的深度学习专项课程图，这套信息图优美地记录了深度学习课程的知识与亮点。因此它不仅仅适合初学者了解深度学习，还适合机器学习从业者和研究者复习基本概念。这不仅仅是一份课程笔记，同时还是一套信息图与备忘录。需要原版
【深度学习入门】深度学习基础概念与原理代码骑士 #深度学习人工智能
*（本篇文章旨在帮助新手了解深度学习的基础概念和原理，不深入讨论算法及核心公式）目录一、深度学习概述1、什么是深度学习？2、深度学习与传统机器学习的区别3、深度学习的应用领域二、深度学习基本原理1、神经网络的基本结构（1）什么是神经网络？（2）神经网络基本结构2、激活函数的作用和选择（1）什么是激活函数？（2）激活函数的作用与选择3、损失函数的定义和选择（1）什么是损失函数（2）损失函数的选择4、
深度学习基础数据结构之张量：从一维到多维 m0_61254808 深度学习 python 深度学习机器学习人工智能
张量在深度学习框架中广泛应用于模型的输入、输出以及中间计算过程。通过支持高维度矩阵运算、记录梯度信息等功能，张量成为实现深度学习算法的关键。张量是一个多维数据容器，可以用来表示各种数据类型，如数值、图像、音频、文本等。本文将介绍一维、二维、三维和四维张量的形象展示、应用以及对学习理解的作用。01一维张量一维张量通常被称为向量，如一维数组[1,4,3,2,5]，在数学和线性代数中，向量是指具有大小和
深度学习基础知识整理 Do1phln ML 深度学习人工智能
自动编码器Auto-encoders是一种人工神经网络，用于学习未标记数据的有效编码。它由两个部分组成：编码器和解码器。编码器将输入数据转换为一种更紧凑的表示形式，而解码器则将该表示形式转换回原始数据。这种方法可以用于降维，去噪，特征提取和生成模型。自编码器的训练过程是无监督的，因为它不需要标记数据。它的目标是最小化重构误差，即输入数据与解码器输出之间的差异。这可以通过反向传播算法和梯度下降等优化
ztree设置禁用节点 3213213333332132 JavaScript ztree json setDisabledNode Ajax
ztree设置禁用节点的时候注意，当使用ajax后台请求数据,必须要设置为同步获取数据，否者会获取不到节点对象，导致设置禁用没有效果。 $(function(){ showTree(); setDisabledNode(); });
JVM patch by Taobao bookjovi java HotSpot
在网上无意中看到淘宝提交的hotspot patch，共四个，有意思，记录一下。 7050685：jsdbproc64.sh has a typo in the package name 7058036：FieldsAllocationStyle=2 does not work in 32-bit VM 7060619：C1 should respect inline and
将session存储到数据库中 dcj3sjt126com sql PHP session
CREATE TABLE sessions ( id CHAR(32) NOT NULL, data TEXT, last_accessed TIMESTAMP NOT NULL, PRIMARY KEY (id) ); <?php /** * Created by PhpStorm. * User: michaeldu * Date
Vector 171815164 vector
public Vector<CartProduct> delCart(Vector<CartProduct> cart, String id) { for (int i = 0; i < cart.size(); i++) { if (cart.get(i).getId().equals(id)) { cart.remove(i);
各连接池配置参数比较 g21121 连接池
排版真心费劲，大家凑合看下吧，见谅~ Druid DBCP C3P0 Proxool 数据库用户名称 Username Username User 数据库密码 Password Password Password 驱动名
[简单]mybatis insert语句添加动态字段 53873039oycg mybatis
mysql数据库,id自增,配置如下： <insert id="saveTestTb" useGeneratedKeys="true" keyProperty="id" parameterType=&
struts2拦截器配置云端月影 struts2拦截器
struts2拦截器interceptor的三种配置方法方法1. 普通配置法 <struts> <package name="struts2" extends="struts-default"> &
IE中页面不居中，火狐谷歌等正常 aijuans IE中页面不居中
问题是首页在火狐、谷歌、所有IE中正常显示，列表页的页面在火狐谷歌中正常，在IE6、7、8中都不中，觉得可能那个地方设置的让IE系列都不认识，仔细查看后发现，列表页中没写HTML模板部分没有添加DTD定义，就是<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3
String,int,Integer,char 几个类型常见转换 antonyup_2006 html sql .net
如何将字串 String 转换成整数 int? int i = Integer.valueOf(my_str).intValue(); int i=Integer.parseInt(str); 如何将字串 String 转换成Integer ? Integer integer=Integer.valueOf(str); 如何将整数 int 转换成字串 String ? 1.
PL/SQL的游标类型百合不是茶显示游标(静态游标)隐式游标游标的更新和删除 %rowtype ref游标(动态游标)
游标是oracle中的一个结果集,用于存放查询的结果; PL/SQL中游标的声明; 1,声明游标 2,打开游标(默认是关闭的); 3,提取数据 4,关闭游标注意的要点:游标必须声明在declare中,使用open打开游标,fetch取游标中的数据,close关闭游标隐式游标:主要是对DML数据的操作隐
JUnit4中@AfterClass @BeforeClass @after @before的区别对比 bijian1013 JUnit4 单元测试
一.基础知识 JUnit4使用Java5中的注解（annotation），以下是JUnit4常用的几个annotation： @Before：初始化方法对于每一个测试方法都要执行一次（注意与BeforeClass区别，后者是对于所有方法执行一次）@After：释放资源对于每一个测试方法都要执行一次（注意与AfterClass区别，后者是对于所有方法执行一次
精通Oracle10编程SQL(12)开发包 bijian1013 oracle 数据库 plsql
/* *开发包 *包用于逻辑组合相关的PL/SQL类型（例如TABLE类型和RECORD类型）、PL/SQL项（例如游标和游标变量）和PL/SQL子程序（例如过程和函数） */ --包用于逻辑组合相关的PL/SQL类型、项和子程序，它由包规范和包体两部分组成 --建立包规范：包规范实际是包与应用程序之间的接口，它用于定义包的公用组件，包括常量、变量、游标、过程和函数等 --在包规
【EhCache二】ehcache.xml配置详解 bit1129 ehcache.xml
在ehcache官网上找了多次，终于找到ehcache.xml配置元素和属性的含义说明文档了，这个文档包含在ehcache.xml的注释中！ ehcache.xml ： http://ehcache.org/ehcache.xml ehcache.xsd ： http://ehcache.org/ehcache.xsd ehcache配置文件的根元素是ehcahe ehcac
java.lang.ClassNotFoundException: org.springframework.web.context.ContextLoaderL 白糖_ java eclipse spring tomcat Web
今天学习spring+cxf的时候遇到一个问题：在web.xml中配置了spring的上下文监听器： <listener> <listener-class>org.springframework.web.context.ContextLoaderListener</listener-class> </listener> 随后启动
angular.element boyitech AngularJS AngularJS API angular.element
angular.element 描述: 包裹着一部分DOM element或者是HTML字符串，把它作为一个jQuery元素来处理。（类似于jQuery的选择器啦）如果jQuery被引入了，则angular.element就可以看作是jQuery选择器，选择的对象可以使用jQuery的函数；如果jQuery不可用，angular.e
java-给定两个已排序序列，找出共同的元素。 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class CommonItemInTwoSortedArray { /** * 题目：给定两个已排序序列，找出共同的元素。 * 1.定义两个指针分别指向序列的开始。 * 如果指向的两个元素
sftp 异常，有遇到的吗？求解 Chen.H java jcraft auth jsch jschexception
com.jcraft.jsch.JSchException: Auth cancel at com.jcraft.jsch.Session.connect(Session.java:460) at com.jcraft.jsch.Session.connect(Session.java:154) at cn.vivame.util.ftp.SftpServerAccess.connec
[生物智能与人工智能]神经元中的电化学结构代表什么? comsci 人工智能
我这里做一个大胆的猜想,生物神经网络中的神经元中包含着一些化学和类似电路的结构,这些结构通常用来扮演类似我们在拓扑分析系统中的节点嵌入方程一样,使得我们的神经网络产生智能判断的能力,而这些嵌入到节点中的方程同时也扮演着"经验"的角色.... 我们可以尝试一下...在某些神经
通过LAC和CID获取经纬度信息 dai_lm lac cid
方法1：用浏览器打开http://www.minigps.net/cellsearch.html，然后输入lac和cid信息(mcc和mnc可以填0)，如果数据正确就可以获得相应的经纬度方法2：发送HTTP请求到http://www.open-electronics.org/celltrack/cell.php?hex=0&lac=<lac>&cid=&
JAVA的困难分析 datamachine java
前段时间转了一篇SQL的文章（http://datamachine.iteye.com/blog/1971896），文章不复杂，但思想深刻，就顺便思考了一下java的不足，当砖头丢出来，希望引点和田玉。 -----------------------------------------------------------------------------------------
小学5年级英语单词背诵第二课 dcj3sjt126com english word
money 钱 paper 纸 speak 讲，说 tell 告诉 remember 记得，想起 knock 敲，击，打 question 问题 number 数字，号码 learn 学会，学习 street 街道 carry 搬运，携带 send 发送，邮寄，发射 must 必须 light 灯，光线，轻的 front
linux下面没有tree命令 dcj3sjt126com linux
centos p安装 yum -y install tree mac os安装 brew install tree 首先来看tree的用法 tree 中文解释：tree 功能说明：以树状图列出目录的内容。语　　法：tree [-aACdDfFgilnNpqstux][-I <范本样式>][-P <范本样式
Map迭代方式，Map迭代，Map循环蕃薯耀 Map循环 Map迭代 Map迭代方式
Map迭代方式，Map迭代，Map循环 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年
Spring Cache注解+Redis hanqunfeng spring
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redis</artifactId>
Guava中针对集合的 filter和过滤功能 jackyrong filter
在guava库中，自带了过滤器(filter)的功能，可以用来对collection 进行过滤，先看例子： @Test public void whenFilterWithIterables_thenFiltered() { List<String> names = Lists.newArrayList("John"
学习编程那点事 lampcy 编程 android PHP html5
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
架构师之流处理---------bytebuffer的mark,limit和flip nannan408 ByteBuffer
1.前言。如题，limit其实就是可以读取的字节长度的意思，flip是清空的意思，mark是标记的意思。 2.例子. 例子代码: String str = "helloWorld"; ByteBuffer buff = ByteBuffer.wrap(str.getBytes()); Sy
org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1, column 1 Everyday都不同 $转义 el表达式
最近在做Highcharts的过程中，在写js时，出现了以下异常：严重: Servlet.service() for servlet jsp threw exception org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1,
用Java实现发送邮件到163 tntxia java实现
/* 在java版经常看到有人问如何用javamail发送邮件？如何接收邮件？如何访问多个文件夹等。问题零散，而历史的回复早已经淹没在问题的海洋之中。本人之前所做过一个java项目，其中包含有WebMail功能，当初为用java实现而对javamail摸索了一段时间，总算有点收获。看到论坛中的经常有此方面的问题，因此把我的一些经验帖出来，希望对大家有些帮助。此篇仅介绍用
探索实体类存在的真正意义 java小叶檀 POJO
一. 实体类简述实体类其实就是俗称的POJO,这种类一般不实现特殊框架下的接口，在程序中仅作为数据容器用来持久化存储数据用的 POJO（Plain Old Java Objects）简单的Java对象它的一般格式就是 public class A{ private String id; public Str

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他