一蓑烟雨紫洛

【NLP5-RNN模型、LSTM模型和GRU模型】

RNN模型、LSTM模型和GRU模型

1、什么是RNN模型

RNN（Recurrent Neural Network)中文称为循环神经网络，它一般以序列数据为输入，通过网络内部的结构设计有效捕捉序列之间的关系特征，一般也是以序列形式进行输出

RNN的循环机制使模型隐层上一时间步产生的结果，能够作为当下时间步输入的一部分（当下时间步的输入除了正常的输入外还包括上一步的隐层输出）对当下时间步的输出产生影响

2、RNN模型的作用

因为RNN结构能够很好利用序列之间的关系，因此针对自然界具有连续性的输入序列，如人类的语言，语音等进行很好的处理，广泛应用于NLP领域的各项任务，如文本分类，情感分析、意图识别、及其翻译等。

以一个用户意图识别的例子对RNN运行过程进行简单的分析

第一步：用户输入了"what time is it?"我们首先需要对它进行基本的分词，因为RNN是按照顺序工作的，每次只接受一个单词进行处理。

第二步：首先将单词"what"输送给RNN，它将产生一个输出01.

第三步：继续将单词"time"输送给RNN，但此时RNN不仅仅利用"time"来产生输出02，还会使用来自上一层隐藏输出01作为输入信息。

第四步：重复这样的步骤，直到处理完所有单词。

第五步：最后，将最终的隐层输出05进行处理来解析用户意图。

3、RNN模型分类

我们将从两个角度对RNN模型进行分类，第一个角度是输入层和输出的结构，第二个角度是RNN的内部构造

按照输入和输出的结构进行分类

N vs N -RNN N vs 1 -RNN 1 vs N -RNN N vs M -RNN

按照RNN的内部构造进行分类

传统RNN LSTM BI-LSTM GRU BI-GRU

3.1、N vs N -RNN

它是RNN最基础的结构形式，最大的特点就是输入和输出序列是等长的。由于这个限制的存在，使其使用范围比较小，可用于生成等长度的合辙诗句

3.2、N vs 1 -RNN

有时候我们要处理的问题输入是一个序列，而要求输出的是一个单独的值而不是序列，应该怎么建模呢？我们只要在最后一个隐层输出h上进行线性变换就可以了，大部分情况下，为了更好的明确结果，还要使用sigmoid或者softmax进行处理。这种结构经常被应用在文本分类问题上。

3.3、1 vs N-RNN

如果输入不是序列而输出为序列的情况怎么处理呢？我们常采用的一种方式就是使该输入作用于每次的输出之上。这种结构可用于将图片生成文字任务等。

3.4、N vs M-RNN

这是一种不限输入输出长度的RNN结构，它由编码器和解码器两部分组成，两者的内部结构都是某类RNN，它也被称为seq2seq架构，输入数据首先通过编码器，最终输出一个隐含变量c，之后最常用的做法使使用这个隐含变量c作用在解码器进行解码的每一步上，以保证输入信息被有效利用。

seq2seq架构最早被提出应用于机器翻译，因为其输入输出不受限制，如今也是应用最广的RNN模型结构。在机器翻译、阅读理解、文本摘要等众多领域都进行了非常多的应用实践。

4、传统RNN模型

4.1、传统RNN内部结构图

结构图解释图

内部结构分析：

我们把目光集中在中间的方块部分，它的输入有两部分，分别是h(t-1)以及x(t),代表上一时间步的隐层输出，以及此时间步的输入，它们进入RNN结构体后，会"融合"到一起,这种融合我们根据结构解释可知，是将二者进行拼接，形成新的张量[x(t),h(t-1)],之后这个新的张量将通过一个全连接层（线性层），该层使用tanh作为激活函数，最终得到该时间步的输出h(t)，它将作为下一个时间步的输入和x(t+1)一起进入结构体，以此类推。

4.2、内部结构过程演示

根据结构分析得出内部计算公式

$ h_t =tanh(W_t[X_t,h_{t-1}]+b_t)$

4.3、激活函数tanh的作用

用于帮助调节流经网络的值，tanh函数将值压缩在-1 和1 之间。

4.4、Pytorch中传统RNN工具的使用：

位置：在torch.nn工具包中，通过torch.nn.RNN可调节

4.5、nn.RNN类初始化主要参数解释

input_size:输入张量x中特征维度的大小

hidden_size:隐层张量h中特征维度的大小

num_layers:隐含层的数量

nonlinearity：激活函数的选择，默认是tanh

import torch
import torch.nn as nn
rnn = nn.RNN(5,6,1)
input = torch.randn(1,3,5)
h0 = torch.randn(1,3,6)
output,hn = rnn(input,h0)

4.6、nn.RNN类实例化对象主要参数解释

input:输入张量x

h0：初始化的隐层张量h

4.7、传统RNN的优势

由于内部结构简单，对计算资源要求低，相比之后我们要学习的RNN变体，LSTM和GRU模型，参数总量少了很多，在短序列任务上性能和效果都表现优异。

4.8、传统RNN的缺点

传统RNN在解决长序列之间的关联时，通过实践，证明经典RNN表现很差，原因是在进行反向传播的时候，过长的序列导致梯度的计算异常，发生梯度消失或爆炸。

4.9、什么是梯度消失或爆炸呢

根据反向传播算法和链式法则，梯度的计算可以简化为以下公式

$D_n = \sigma^,(z_1)w_1*\sigma^,(z_2)w_2*......\sigma^,(z_n)w_n$

其中sigmoid的导数值域是固定的，在[0,0.25]之间，而一旦公式中的w也小于1，那么通过这样的公式连乘后，最终梯度就会变得非常小，这种现象叫梯度消失，反之，如果我们认为的增大w的值，使其大于1，那么连乘够就可能造成梯度过大，称为梯度爆炸。

4.10、梯度消失或爆炸的危害：

如果在训练过程中发生了梯度消失，权重无法被更新，最终导致训练失败；梯度爆炸所带来的梯度过大，大幅度更新网络参数，在极端情况下，结果会溢出（NAN值）

5、LSTM模型

LSTM（Long Short-Term Memory)也称长短时记忆结构，它是传统的RNN的变体，与经典RNN相比能够有效捕捉长序列之间的语义关联，缓解梯度消失或爆炸现象。同事LSTM的结构更复杂，它的核心结构可以分为4个部分去解析：

遗忘门输入门细胞状态输出门

5.1、LSTM的内部结构图

5.2、遗忘门部分结构图与计算公式

5.3、遗忘门结构分析

与传统RNN的内部结构计算非常相似。首先将当前时间步输入x(t)与上一个时间步隐含状态h(t-1)拼接，得到[x(t),h(t-1)],然后通过一个全连接层做变换，最后通过sigmoid函数进行激活得到f(t),我们可以将f(t)看作门值，好比一扇门开合的大小程度，门值都将作用再通过该扇门的张量，遗忘门门值将作用的上一层的细胞状态，代表遗忘过去多少信息，又因为遗忘门门值是由x(t),h(t-1)计算得来的，因此整个公司意味着根据当前时间步输入和上一个时间步隐含状态h(t-1)来决定以往多少上一层的细胞状态所携带的过往信息。

5.4、遗忘门内部结构过程演示

5.5、激活函数sigmoid作用：

用于帮助调节流经网络的值，sigmoid函数将值压缩再0和1之间

5.6、输入门部门结构图与计算公式

输入门结构分析

我们看到输入门的计算公式有两个，第一个就是产生输入门门值的公式。它和遗忘门公式几乎相同，区别在于他们之后要作用的目标上。这个公司意味着输入信息有多少需要进行过滤，输入门的第二个公式是与传统的RNN的内部结构计算相同，对于LSTM来讲，它得到的是当前的细胞状态，而不是像经典RNN一样得到的是隐含状态

5.7、输入门结构过程演示

5.8、细胞状态更新图与计算公式

5.9、细胞状态更新分布

细胞更新的结构与计算公式非常容易理解，这里没有全连接层，知识将刚刚得到的遗忘门门值与上一个时间步得到的C(t-1)相乘，再加上输入门门值与当前时间步得到的未更新C(t)作为下一个时间步输入的一部分，整个细胞状态更新过程就是对遗忘门和输入门的应用。

5.10、输出门部分结构图与计算公式

5.11、输出门结构分析：

输出门部分的公式也是两个，一个是计算输出门的门值，它和遗忘门，输入门计算方式相同。第二个即使使用整个门值产生隐含状态h(t),他将作用在更新后的细胞状态C(t)上，并做tanh激活，最终得到h(t)作为下一个时间步输入的一部分。整个输出门的过程，就是为了产生隐含状态h(t)

5.12、输出门内部结构过程展示

6、BI-LSTM

BI-LSTM即双向LSTM，它没有改变LSTM本身任何的内部结构，知识将LSTM应用两次切方向不同，再将两次得到的LSTM结果进行拼接作为最终输出

6.1、BI-LSTM结构分析

我们看到图中对"我爱中国"这句话或者叫这个输入序列，进行了从左到右和从右到左两次LSTM处理，将得到的结果张量进行拼接作为最终输出。这种结构能够捕捉语法中一些特定的前置或后置特征。增强语义失联，但是模型参数和计算复杂度也随之增加了一倍，一般需要对语料和计算资源进行评估后决定是否使用该结构

6.2、pytorch中LSTM工具的使用

在torch.nn工具包中，通过torch.nn.LSTM调用

6.3、nn.LSTM类初始化主要参数解释

input_size:输入张量x中特征维度的大小

hidden_size:隐层张量h中特征维度大小

num_layers:隐含层的数量

nonlinearity:激活函数的选择，默认是tanh

bidirectional:是否选择使用双向LSTM,如果为TRUE，则使用。默认不适用

6.4、nn.LSTM类实例化对象主要参数解释

input:输入张量

h0:初始化的隐层张量h

c0:初始化的细胞状态张量c

7、GRU模型

GRU（Gated Recurrent Unit)也称门控循环单元结构，他也是传统RNN的变体，同LSTM一样能够有效捕捉长序列之间的语义关联，缓解梯度消失或爆炸现象。同时它的结构和计算要比LSTM更简单，它的核心结构可以分为两个部分去解析

更新门重置门

7.1、GRU的内部结构图和计算公式

7.2、GRU的更新门和重置门结构图

7.3、内部结构分析

和之前分析过的LSTM中的门控一样，首先计算更新门和重置门的门值，分别时z(t)和r(t)，计算方法就时使用x(t)与h(t-1)拼接进行线性变换，再讲过sigmoid激活。之后更新门门值作用在了h(t-1)上，代表控制上一世纪步传来的信息有多少可以被利用。接着就是使用这个更新后的h(t-1)进行基本的RNN计算，即与x(t)拼接进行线性变化，经过tanh激活，得到新的h(t).最后重置门的门值会作用再新的h(t)，而1-门值会作用在h(t-1)上，随后将两者的结果相加，得到最终的隐含状态输出h(t)，这个过程意味着重置门有能力重置之前所有的计算，当门值趋于1时，输出就是新的h(t),而当门值趋于0时，输出就是上一时间步的h(t-1).

7.4、pytorch中GRU工具的使用

位置：在torch.nn工具包中，通过torch.nn.GRU可调用

7.5、nn.GRU类初始化主要参数解释

input_size:输入张量x中特征维度的大小

hidden_size:隐层张量h中特征维度的大小

num_layers:隐含层的数量

nonlinearity:激活函数的选择，默认时tanh

bidierctional:是否选择使用双向LSTM,如果为true 则使用。默认不使用

7.6、nn.GRU类实例化对象主要参数解释

input:输入张量x

h0:初始化的隐层张量h

import torch
import torch.nn as nn
rnn = nn.GRU(5,6,2)
input = torch.randn(1,3,5)
h0 = torch.randn(2,3,6)
output,hn = rnn(input,h0)

7.7、GRU的优势

GRU和LSTM作用相同，在捕捉长序列语义关联时，能有效抑制梯度消失或爆炸，效果都优于传统RNN且计算复杂度相比LSTM要小。

7.8、GRU的缺点

GRU仍然不能完全解决梯度消失问题，同时其作用RNN变体，有着RNN结构本身的一大弊端，即不可并行计算，这在数据量和模型体量逐步增大的未来，是RNN发展的关键瓶颈

8、注意力机制

我们观察事物时，之所以能够快速判断一种事物（当然允许判断是错误的），是因为我们大脑能够很快把注意力放在事物最具辨识度的部分从而作出判断。而非是从头到尾的观察一遍事物后，才能有判断结果。正是基于这样的理论，就产生了注意力机制。

8.1、什么是注意力计算规则

他需要三个指定约输入Q（query)、K(key)、V(value)，然后通过计算公式得到注意力的结果，这个结果代表query在key和value作用下的注意力表示，当输入的Q=K=V时，称作自注意力计算规则。

当注意力权重矩阵和V都是三维张量且第一维代表为batch条数时，则作bmm运算。bmm时一种特殊的张量乘法运算

import torch

input =torch.randn(10,3,4)
mat2 = torch.randn(10,4,5)
res = torch.bmm(input,mat2)
res.size()

8.2、什么是注意力机制

注意力机制是注意力计算规则能够应用的深度学习网络的载体，同时包括一些必要的全连接层以及相关张量处理，使其与应用网络融为一体。使注意力计算规则的注意力机制称为自注意力机制

说明：

NLP领域中，当前的注意力机制大多数应用于seq2seq架构，即编码器和解码器模型

8.3、注意力机制的作用

在解码器端的注意力机制：能够根据模型目标有效的聚焦编码器的输出结果，当其作为解码器的输入时提升效果。改善以往编码器输出时但一定长张量，无法存储过多的情况

在编码端的注意力机制：主要解决表征问题，相当于特征提提取的过程，得到注意力表示，一般使用自注意力（self-attention)

8.4、注意力机制实现步骤

1、根据注意力计算规则，对Q,K,V进行相应的计算

2、根据第一步采用的计算方法，如果时拼接方法，则需要将Q与第二部的计算结果再进行拼接。如果是转置点积，一般是自注意力，Q与V相同。则不需要进行与Q的拼接。

3、最后为了使整个attention机制按照指定尺寸输出，使用线性层作用在第二步的结果上做一个线性变换，得到最终对Q的注意力表示。

【零基础学AI】第10讲：线性回归 1989 0基础学AI 人工智能线性回归算法 python 回归 numpy 开源
本节课你将学到理解线性回归的原理和应用场景掌握最小二乘法的基本思想使用Python构建房价预测模型学会评估回归模型的性能指标开始之前环境要求Python3.8+JupyterNotebook或任何PythonIDE需要安装的包pipinstallscikit-learnpandasmatplotlibseabornnumpy前置知识第9讲：机器学习概述基本的Python和数据处理能力核心概念什么是
自然语言处理(NLP)中的文本生成控制技术 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据自然语言处理 easyui 人工智能 ai
自然语言处理(NLP)中的文本生成控制技术关键词：文本生成、可控生成、语言模型、Prompt工程、解码策略、条件控制、评估指标摘要：本文深入探讨自然语言处理中文本生成控制技术的最新进展。我们将从基础概念出发，系统分析各种控制方法的原理和实现，包括Prompt设计、解码策略优化、条件控制机制等核心内容。文章将结合数学模型、算法实现和实际案例，全面展示如何实现高质量、可控的文本生成，并探讨该领域面临的
NLP随机插入 Humbunklung 机器学习自然语言处理人工智能 python nlp
文章目录随机插入示例Python代码示例随机插入随机插入是一种文本数据增强方法，其核心思想是在原句中随机选择若干位置，插入与上下文相关的词语，从而生成新的训练样本。这种方法能够增加句子的多样性，提高模型对不同词序和表达方式的鲁棒性。示例原句：机器学习可以提升数据分析的效率。随机插入后（插入“显著”）：机器学习可以显著提升数据分析的效率。Python代码示例下面是一个简单的随机插入实现，假设我们有一
CNN-GRU混合模型学习笔记 weixin_54372988 cnn gru 学习
GRU学习笔记CNN：卷积神经网络GRU（GateRecurrentUnit），门控循环单元CNN：卷积神经网络3个组成部分：1.卷积层——提取图像局部特征2.池化层——降维（防止过拟合）3.全连接层——输出结果一个卷积核扫完整张图片，得到每个小区域的特征值具体应用中通常有多个卷积核CNN可能有多层结构，如LeNet-5：卷积层–池化层–卷积层–池化层–卷积层–全连接层处理时间序列（1D序列）：（
TVFEMD-CPO-TCN-BiLSTM多输入单输出模型微光-沫年 matlab 回归机器学习
47-TVFEMD-CPO-TCN-BiLSTM多输入单输出模型适合单变量，多变量时间序列预测模型（可改进，加入各种优化算法）时变滤波的经验模态分解TVFEMD时域卷积TCN双向长短期记忆网络BiLSTM时间序列预测模型另外以及有TCN-BILSTMTCN-LSTMTCN-BiLSTM-ATTENTION等！（此不包含在内，另算的！）Matlab代码！
CPO-CNN-GRU-Attention、CNN-GRU-Attention、CPO-CNN-GRU、CNN-GRU四模型多变量时序预测对比 Matlab科研辅导帮 cnn gru 人工智能
✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。个人主页：Matlab科研工作室个人信条：格物致知，求助可私信。内容介绍多变量时序预测在诸多领域扮演着至关重要的角色，例如金融、气象和工业控制等。近年来，深度学习方法在时序预测任务中取得了显著的进展。本文旨在系统地比较四种基于卷积神经网络（CNN）和循环神经网络（GRU）的不同架构，包
DeepSeek：AI驱动的效率革命与实战案例解 weixin_45788582 人工智能 ai DeepSeek
在人工智能技术的浪潮中，DeepSeek作为一款专注实现AGI（通用人工智能）的先锋工具，正通过其强大的自然语言处理（NLP）与分布式计算能力，重新定义高效办公的边界。以下通过技术解析与实战案例，展现DeepSeek如何赋能个人与企业，开启职场效率革命。一、技术革新：DeepSeek的核心竞争力深度学习赋能DeepSeek的技术架构基于BERT、Transformer等先进深度学习模型，通过构建复
AI 技术&AI开发框架 34号树洞人工智能深度学习人工智能机器学习 NLP GAI
目录一、AI技术及其开发框架1.AI技术分类与代表方向2.主流AI开发框架3.AI应用开发流程简述4.补充：基础依赖与生态二、AI技术方向1.机器学习（MachineLearning,ML）✦核心概念：✦关键方法：✦应用案例：2.深度学习（DeepLearning,DL）✦核心概念：✦网络结构举例：✦技术趋势：3.自然语言处理（NLP）✦核心任务：✦代表模型：4.计算机视觉（ComputerVis
rnn-人名案例实现 Ai玩家hly rnn python 深度学习
模型训练实现:coding:utf-8导入torch工具importjsonimporttorch导入nn准备构建模型importtorch.nnasnnimporttorch.nn.functionalasFimporttorch.optimasoptim导入torch的数据源数据迭代器工具包fromtorch.utils.dataimportDataset,DataLoader用于获得常见字母
人名分类器（RNN案例） Turbo_O. rnn 深度学习人工智能
案例介绍：人名分类案例是多分类问题，根据人名预测属于哪个国家人名->x,国家->y监督学习，历史数据中已知y案例步骤：1.数据预处理获取常用字符以及国家类别#导入torch工具fromcProfileimportlabelimporttorch#导入nn准备构建模型importtorch.nnasnnimporttorch.optimasoptimfromjax.experimental.rnni
RNN人名分类器案例
RNN人名分类器案例1任务目的：目的:给定一个人名，来判定这个人名属于哪个国家典型的文本分类任务:18分类---多分类任务2数据格式注意：两列数据，第一列是人名，第二列是国家类别，中间用制表符号"\t"隔开AngChineseAuYongChineseYuasaJapaneseYuharaJapaneseYunokawaJapanese3任务实现流程1.获取数据:案例中是直接给定的2.数据预处理:
nlp遇到的问题
1.AttributeError:'CodeGenTokenizer'objecthasnoattribute'encoder'pipinstalltransformers==4.33.22.ImportError:Using`low_cpu_mem_usage=True`ora`device_map`requiresAccelerate:`pipinstallaccelerate`pipinst
CNN-LSTM神经网络多输入单输出回归预测【MATLAB】沅_Yuan 炼丹师神经网络 cnn lstm
1CNN（卷积神经网络）部分作用：特征提取：CNN主要用于从输入数据中提取空间特征。它能够处理图像、视频帧或其他形式的空间数据。组成部分：卷积层：使用卷积核对输入数据进行卷积操作，生成特征图。激活函数：通常使用ReLU（线性整流单元）激活函数，增加非线性。池化层：通过最大池化（MaxPooling）或平均池化（AveragePooling），减少特征图的尺寸，保留最重要的特征，减少计算复杂度。流程
RNN循环神经网络原理解读 zhishidi ai笔记 rnn 人工智能深度学习
我们把循环神经网络想象成一个有记忆的助手，特别擅长处理按顺序出现的信息，比如句子、语音、股票价格、音乐旋律等。核心思想：记住过去的信息，帮助理解现在。普通神经网络的局限（没有记忆）想象一个普通的神经网络（比如用于识别图片的）：输入：你给它一张图片。处理：它分析这张图片的像素。输出：告诉你图片里是“猫”还是“狗”。问题：它每次只看一个独立的输入（一张图片），输入之间没有联系。给它看一个视频（连续很多
【大模型】Transformer架构完全解读：从“盲人摸象“到“通晓万物“的AI进化论全栈追梦人大模型 #提示工程 transformer 架构深度学习
Transformer架构完全解读：从"盲人摸象"到"通晓万物"的AI进化论——一位大模型探索者的技术日记☕第一章：为什么说Transformer是AI界的"蒸汽机革命"？1.1从RNN到Transformer：一场效率革命场景：咖啡厅里两位开发者的对话实习生小雨：“学长，为什么现在都用Transformer？RNN不是也能处理文本吗？”资深工程师老张：（掏出纸巾画图）“想象RNN是个严格的图书管
从 “啃书焦虑” 到 “项目通关”：NLP 学习的破局之道木旭林晖自然语言处理学习人工智能
嘿，你好。在CSDN上潜水这么久，我总能看到很多像你我当年一样，怀揣着NLP大厂梦的同学。我猜，你的收藏夹里一定塞满了“NLP必读清单”，书架上可能还放着那本厚得像砖头一样的《统计学习方法》或者“龙书”。每天深夜，你可能都在跟一个又一个复杂的数学公式死磕。什么最大熵模型、什么CRF（条件随机场）的推导……你觉得自己离“精通”越来越近，但心里却越来越慌。为什么慌？因为你打开招聘软件，看到JD（职位描
Promptify：简化NLP任务的高效工具箱金斐茉
Promptify：简化NLP任务的高效工具箱PromptifyPromptEngineering|PromptVersioning|UseGPTorotherpromptbasedmodelstogetstructuredoutput.JoinourdiscordforPrompt-Engineering,LLMsandotherlatestresearch项目地址:https://gitcod
Promptify与ReActAgent frostmelody 人工智能
一、Promptify定位：NLP任务的「自动化流水线」1.解决什么问题？传统LLM应用开发痛点：反复调试：需手工编写/调整prompt格式（如调整分隔符、示例数量）兼容性差：不同模型需重写适配代码输出不稳定：非结构化文本需额外解析Promptify用标准化流水线解决上述问题，将复杂prompt工程简化为三行代码：model=OpenAI(api_key)#选择模型prompter=Prompte
在C#中属性（Properties）get 和 set 周杰伦fans ai学习参考学习C#的笔记 c#服务器
在C#中，属性（Properties）是一种特殊的方法，用于封装类、结构或接口中的字段。属性允许你控制对字段的访问，并可以在设置或获取值时执行额外的逻辑。属性通常由两个访问器组成：get和set。基本属性定义publicclassPerson{privatestringname;publicstringName{get{returnname;}set{name=value;}}}在这个例子中，Na
理解不同层的表示（layer representations）科学禅道高维表示人工智能深度学习
在机器学习和深度学习领域，特别是在处理音频和自然语言处理（NLP）任务时，"层的表示"（layerrepresentations）通常是指神经网络不同层在处理输入数据时生成的特征或嵌入。这些表示捕获了输入数据的不同层次的信息。1.层的表示（layerrepresentations）为了更好地理解这一概念，我们可以从以下几个方面进行解释：1.深度神经网络结构深度神经网络（DNN）通常由多个层组成，每
react快速开始项目模板飞鸟malred 前端 react.js 前端前端框架
代码仓库gitee创建项目首先保证安装了node,然后使用vite创建项目vitenpmcreatevitereact-learncdreact-learnnpmi目录结构一个完整的前端项目需要:状态管理在全局维护共有的状态(数据),让页面组件之间共享数据,我们使用pinia路由路由让页面之间可以进行跳转,我们使用vue-router样式样式让页面更美观,我们使用tailwindcss网络请求前端
【微信小程序】关于授权拒绝后处理
一般情况下，微信授权拒绝之后无法再次调用起授权弹框，所以可以通过调用设置权限按钮来打开权限信息下面代码以微信位置权限代码为例：//位置授权exportconstopenPosition=()=>{returnnewPromise((resolve,reject)=>{//获取位置信息scope.userLocation为位置授权属性，如需其他属性可直接替换wx.getSetting({succes
Densenet模型花卉图像分类深度学习乐园分类数据挖掘人工智能
项目源码获取方式见文章末尾！600多个深度学习项目资料，快来加入社群一起学习吧。《------往期经典推荐------》项目名称1.【基于CNN-RNN的影像报告生成】2.【卫星图像道路检测DeepLabV3Plus模型】3.【GAN模型实现二次元头像生成】4.【CNN模型实现mnist手写数字识别】5.【fasterRCNN模型实现飞机类目标检测】6.【CNN-LSTM住宅用电量预测】7.【VG
js递归性能优化啃火龙果的兔子开发DEMO javascript 开发语言 ecmascript
JavaScript递归性能优化递归是编程中强大的技术，但在JavaScript中如果不注意优化可能会导致性能问题甚至栈溢出。以下是几种优化递归性能的方法：1.尾调用优化(TailCallOptimization,TCO)ES6引入了尾调用优化，但只在严格模式下有效：'usestrict';//普通递归functionfactorial(n){if(n===1)return1;returnn*fa
P25：LSTM实现糖尿病探索与预测 ?Agony lstm 人工智能 rnn
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊一、相关技术1.LSTM基本概念LSTM（长短期记忆网络）是RNN（循环神经网络）的一种变体，它通过引入特殊的结构来解决传统RNN中的梯度消失和梯度爆炸问题，特别适合处理序列数据。结构组成：遗忘门：决定丢弃哪些信息，通过sigmoid函数输出0-1之间的值，表示保留或遗忘的程度。输入门：决定更新哪些信息，同样通过sigmoid函数控制更新
memstr 从内存找字符串
#includechar*memstr(char*full_data,intfull_data_len,char*substr){if(full_data==NULL||full_data_len=sublen);if(memcmp(cur,substr,sublen)==0){//foundreturncur;}}cur++;}returnNULL;}intmain(){chara[26]={'
基于Python Anaconda环境，使用CNN-LSTM模型预测碳交易价格的完整技术方案神经网络15044 仿真模型算法机器学习 python cnn lstm
以下是一个基于PythonAnaconda环境，使用CNN-LSTM模型预测碳交易价格的完整技术方案。内容涵盖数据预处理、模型构建、训练优化、预测可视化和结果分析等核心环节，代码与文字说明共计超过6000字。基于CNN-LSTM的碳交易价格预测系统设计与实现一、项目背景与目标1.1碳交易市场概述碳交易作为应对气候变化的重要市场机制，其价格波动直接影响企业减排决策。准确预测碳价（CarbonEmis
【深度学习解惑】如果用RNN实现情感分析或文本分类，你会如何设计数据输入？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 分类人工智能机器学习神经网络
以下是用RNN实现情感分析/文本分类时数据输入设计的完整技术方案：1.引言与背景介绍情感分析/文本分类是NLP的核心任务，目标是将文本映射到预定义类别（如正面/负面情感）。RNN因其处理序列数据的天然优势成为主流方案。核心挑战在于如何将非结构化的文本数据转换为适合RNN处理的数值化序列输入。2.原理解释文本到向量的转换流程：原始文本分词建立词汇表词索引映射词嵌入层序列向量关键数学表示：词嵌入表示：
PyTorch教程：LSTM语言模型的动态量化技术解析怀灏其Prudent
PyTorch教程：LSTM语言模型的动态量化技术解析tutorialsPyTorchtutorials.项目地址:https://gitcode.com/gh_mirrors/tuto/tutorials前言在深度学习模型部署过程中，模型大小和推理速度是两个至关重要的考量因素。PyTorch提供的动态量化技术能够在不显著影响模型准确率的前提下，有效减小模型体积并提升推理速度。本文将深入解析如何对
大语言模型(LLM)量化基础知识(一) -派神- RAG NLP ChatGPT 语言模型人工智能自然语言处理
承接各类AI相关应用开发项目(包括但不限于大模型微调、RAG、AI智能体、NLP、机器学习算法、运筹优化算法、数据分析EDA等)!!!有意愿请私信!!!随着大型语言模型(LLM)的参数数量的增长,与其支持硬件（加速器内存）增长速度之间的差距越来越大，如下图所示：上图显示，从2017年到2022年，语言模型的大小显著增加：2017年：Transformer模型（0.05B参数）2018年：GPT（0
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round

【NLP5-RNN模型、LSTM模型和GRU模型】

RNN模型、LSTM模型和GRU模型

1、什么是RNN模型

2、RNN模型的作用

3、RNN模型分类

3.1、N vs N -RNN

3.2、N vs 1 -RNN

3.3、1 vs N-RNN

3.4、N vs M-RNN

4、传统RNN模型

4.1、传统RNN内部结构图

4.2、内部结构过程演示

4.3、激活函数tanh的作用

4.4、Pytorch中传统RNN工具的使用：

4.5、nn.RNN类初始化主要参数解释

4.6、nn.RNN类实例化对象主要参数解释

4.7、传统RNN的优势

4.8、传统RNN的缺点

4.9、什么是梯度消失或爆炸呢

4.10、梯度消失或爆炸的危害：

5、LSTM模型

5.1、LSTM的内部结构图

5.2、遗忘门部分结构图与计算公式

5.3、遗忘门结构分析

5.4、遗忘门内部结构过程演示

5.5、激活函数sigmoid作用：

5.6、输入门部门结构图与计算公式

5.7、输入门结构过程演示

5.8、细胞状态更新图与计算公式

5.9、细胞状态更新分布

5.10、输出门部分结构图与计算公式

5.11、输出门结构分析：

5.12、输出门内部结构过程展示

6、BI-LSTM

6.1、BI-LSTM结构分析

6.2、pytorch中LSTM工具的使用

6.3、nn.LSTM类初始化主要参数解释

6.4、nn.LSTM类实例化对象主要参数解释

7、GRU模型

7.1、GRU的内部结构图和计算公式

7.2、GRU的更新门和重置门结构图

7.3、内部结构分析

7.4、pytorch中GRU工具的使用

7.5、nn.GRU类初始化主要参数解释

7.6、nn.GRU类实例化对象主要参数解释

7.7、GRU的优势

7.8、GRU的缺点

8、注意力机制

8.1、什么是注意力计算规则

8.2、什么是注意力机制

8.3、注意力机制的作用

8.4、注意力机制实现步骤

你可能感兴趣的:(nlp,rnn,lstm,gru,nlp)