tt丫

RNN循环神经网络

入门小菜鸟，希望像做笔记记录自己学的东西，也希望能帮助到同样入门的人，更希望大佬们帮忙纠错啦~侵权立删。

✨完整代码在我的github上，有需要的朋友可以康康✨

https://github.com/tt-s-t/Deep-Learning.git

一、RNN出现的意义

二、引入 —— 语言模型

1、语言模型是什么

2、语言模型的计算

3、n元语法

三、RNN原理

1、RNN模型结构和前向传播

2、反向传播

3、反向传播的问题所在

4、裁剪梯度

5、注意点

四、RNN的应用以及不足

1、RNN应用领域

2、不足

五、RNN代码实现

1、初始化参数

2、前向传播

3、反向传播

4、预测

5、定义数据处理类

6、完整调用

7、结果

一、RNN出现的意义

我们所熟悉的CNN，它的输出都是只考虑前一个输入的影响而不考虑其它时刻输入的影响（即只能单独去处理一个又一个的输入）

但是, 对于一些与时间先后有关的, 一序列的信息（即前后输入是有关系的），比如进行文档前后文内容的预测等等, 这时候CNN的效果就不太好了。

而我们人的认知是基于过往的经验和记忆的，以此观点和对上述CNN不足的弥补，设计了不仅考虑前一时刻的输入,还能记忆网络前面的内容的循环神经网络——RNN。

二、引入 —— 语言模型

1、语言模型是什么

我们把一段自然语言文本看作是一段离散的时间序列。

假设一段长度为T的文本，其中的词依次为： $w_{1}, ... ,w_{T}$ 。其中 $w_{t}$ 是时间步 t 的输出/标签。

那么语言模型将计算该序列的概率： $P(w_{1},...,w_{T})$ ；以概率最大的序列作为语言模型的输出。

2、语言模型的计算

$P(w_{1},...,w_{T}) = \prod_{t=1}^{T}P(w_{t}|w_{1},...,w_{t-1})$

这些概率则由该词 $w_{t}$ 在训练集中的相对词频计算出来。

3、n元语法

当序列长度增加时，需要计算和存储的概率的复杂度会呈指数级增加。

为了解决这个问题，n元语法应运而生。

n元语法是基于n-1阶马尔可夫链的概率语言模型，这是指一个词的出现只与前面n-1个词相关。

$P(w_{1},...,w_{T}) \approx \prod_{t=1}^{T}P(w_{t}|w_{t-(n-1)},...,w_{t-1})$

存在问题：

当n较小的时候，n元语法不准确；较大时，n元语法需要计算和存储大量相关概率。

三、RNN原理

1、RNN模型结构和前向传播

RNN由输入层，隐藏层和输出层组成。

其中x，s，o都是向量，分别是输入层的值，隐藏层的值和输出层的值。

U是输入层到隐藏层的权重矩阵，V是隐藏层到输出层的权重矩阵，W是隐藏层上一次的值作为这一次的输入的权重矩阵。

公式如下（这里展示的是不含偏置的，含偏置的类似于全连接层那样加上去就好了）：

$\begin{array}{l} O_{t}=g\left(V \cdot S_{t}\right) \\ S_{t}=f\left(U \cdot X_{t}+W \cdot S_{t-1}\right) \end{array}$

其中f和g是激活函数，f可以是tanh,relu,sigmoid等激活函数，而g通常是softmax。

在这里U，V，W是不变的（到反向传播再变，这里只为了强调变量是后面那3个），变的是Xt，St-1和St，这里的W*St-1就是上一时刻的值的影响（正所谓过去的记忆）加入。

简单来说：（加了偏置）

原本我们的全连接层的公式如下：（这里含一个隐藏层）

隐藏层输出结果： $H = \phi (X_{t}W_{xh}+b_{h})$

输出层结果： $O = HW_{hq}+b_{q}$

现在加入隐藏状态（即前一时刻的“影响”）:

隐藏层输出结果： $H_{t} = \phi (X_{t}W_{xh}+H_{t-1}W_{hh}+b_{h})$

输出层结果： $O_{t} = H_{t}W_{hq}+b_{q}$

$H_{t-1}$ 即前一时刻的隐藏状态。

具体来说如下图所示按时间来展开

2、反向传播

每一次的输出值Ot都会产生一个误差值Et

而损失函数既可以使用交叉熵损失函数也可以使用平方误差损失函数

首先让我们看一下公式：

总的误差（有时为了让这个误差值小一些，常常再除以T）

$E=\sum_{t} e_{t}$

参数梯度求法

$\nabla U=\frac{\partial E}{\partial U}=\sum_{t} \frac{\partial e_{t}}{\partial U}$

$\nabla V=\frac{\partial E}{\partial V}=\sum_{t} \frac{\partial e_{t}}{\partial V}$

$\nabla W=\frac{\partial E}{\partial W}=\sum_{t} \frac{\partial e_{t}}{\partial W}$

由上面的公式我们可以得出他的含义：每个时刻的偏差的偏导数之和（U，V，W都是这样）

我们就以W为参照：

首先将公式用链式法则展开

$\frac{\partial E_{t}}{\partial W}=\frac{\partial E_{t}}{\partial o_{t}} \frac{\partial o_{t}}{\partial s_{t}} \frac{\partial s_{t}}{\partial W}$

然后由刚刚的式子 $s_{t}=f\left(U x_{t}+W s_{t-1}\right)$ 代入，并且发现st与前面的所有时刻的s都有直接或间接的关系，可以得到下面的公式：

$\frac{\partial E_{t}}{\partial W}=\sum_{k=0}^{t} \frac{\partial E_{t}}{\partial o_{t}} \frac{\partial o_{t}}{\partial s_{t}} \frac{\partial s_{t}}{\partial s_{k}} \frac{\partial s_{k}^{+}}{\partial W}$

求 $\frac{\partial E}{\partial s_{t}}$

（1）当t=T时，只有一条支路：

$\frac{\partial E}{\partial s_{T}}=\frac{\partial E}{\partial O_{T}}*\frac{\partial O_{T}}{\partial s_{T}} = V^{T}\frac{\partial E}{\partial O_{T}}$

（2）当t
$\frac{\partial E}{\partial s_{t}}=\frac{\partial E}{\partial s_{t+1}}*\frac{\partial s_{t+1}}{\partial s_{t}}+\frac{\partial E}{\partial O_{t}}*\frac{\partial O_{t}}{\partial s_{t}} = W^{T}\frac{\partial E}{\partial s_{t+1}}+V^{T}\frac{\partial E}{\partial O_{t}}$

总结： $\frac{\partial E}{\partial s_{t}}=\sum_{i=t}^{T} (W^{T})^{T-i}V^{T}\frac{\partial E}{\partial O_{T+t-i}}$

因此总体式子可化为：

$\frac{\partial E}{\partial W}=\sum_{t=1}^{T} \frac{\partial E}{\partial s_{t}} \frac{\partial s_{t}}{\partial W}=\sum_{t=1}^{T} \frac{\partial E}{\partial s_{t}}s_{t-1}^{T}$

V和U的公式如下

$\frac{\partial E}{\partial V}=\sum_{t=1}^{T}\frac{\partial E}{\partial O_{t}} * \frac{\partial O_{t}}{\partial V} = \sum_{t=1}^{T}\frac{\partial E}{\partial O_{t}} s_{t}^{T}$

$\frac{\partial E}{\partial U}=\sum_{t=1}^{T} \frac{\partial E}{\partial s_{t}} \frac{\partial s_{t}}{\partial U}=\sum_{t=1}^{T} \frac{\partial E}{\partial s_{t}}x_{t}^{T}$

3、反向传播的问题所在

当T较大或者t较小时，从指数项可得出，容易出现梯度爆炸或消失的问题。

为了应对梯度爆炸，我们可以采取裁剪梯度的方法。

4、裁剪梯度

方法一：

假设我们把所有模型参数梯度的元素拼接成一个向量g，并设裁剪阈值为 $\theta$ ，裁剪后的梯度为：

$min(\frac{\theta}{||g||}, 1 )g$

裁剪后的梯度的L2范数不超过 $\theta$ 。

方法二：

将梯度限制在一定范围内。

5、注意点

我们可以从公式中看到，许多梯度值在后续还会再次被使用，因此往往我们会存储这些梯度值，从而避免重复计算。

并且有一些值是通过正向传播计算来的，也进行存储，避免重复计算。

四、RNN的应用以及不足

1、RNN应用领域

自然语言处理(NLP): 主要有视频处理, 文本生成, 语言模型, 图像处理

机器翻译，文本相似度计算，图像描述生成

语音识别

2、不足

容易出现梯度消失或者梯度爆炸的问题。

原因：长时间依赖造成过拟合导致梯度爆炸以及时间过长而造成记忆值较小从而造成梯度消失。

五、RNN代码实现

这里只展示我用numpy搭建的RNN网络，并且实现对“abcdefg abcdefg abcdefg”序列数据的预测。详细地可以在我的github上看，包括用pytorch实现的rnn实现文本生成，以及这个numpy搭建的rnn实现对序列数据预测的完整版本。

https://github.com/tt-s-t/Deep-Learning.git

首先我们写一个类来实现前向传播，反向传播和最后预测。

1、初始化参数

import numpy as np
import torch.nn as nn

class RNN(object):
    def __init__(self,input_size,hidden_size):
        self.input_size = input_size
        self.hidden_size = hidden_size

        self.W_xh = np.random.randn(input_size, hidden_size)*0.01
        self.W_hh = np.random.randn(hidden_size, hidden_size)*0.01
        self.b_h = np.zeros((1, hidden_size))
        self.W_hq = np.random.randn(hidden_size, input_size)*0.01
        self.b_q = np.zeros((1, input_size))

2、前向传播

    def forward(self, inputs, h_prev): #targets是目标词的索引值(这样占的内存才会少)
        self.input = inputs
        #一次序列跑完后再更新参数
        self.hs, self.ps = {}, {} #字典形式存储
        self.hs[-1] = np.copy(h_prev) #隐藏变量赋予
        
        for t in range(len(inputs)):  
            self.hs[t] = np.tanh(np.matmul(inputs[t], self.W_xh) + np.matmul(self.hs[t-1], self.W_hh) + self.b_h) #隐藏状态 Ht. 
            ys = np.matmul(self.hs[t], self.W_hq) + self.b_q #输出
            self.ps[t] = np.exp(ys) / np.sum(np.exp(ys)) #实际输出（概率）——softmax
        return self.ps

3、反向传播

    def backward(self, targets,lr):
        
        self.loss = 0 
        dWxh, dWhh, dWhq = np.zeros_like(self.W_xh), np.zeros_like(self.W_hh), np.zeros_like(self.W_hq)
        dbh, dbq = np.zeros_like(self.b_h), np.zeros_like(self.b_q)
        dh = np.zeros_like(self.hs[0])

        T = len(self.input) - 1
        for t in reversed(range(T)): #反过来开始，因为像隐藏状态求偏导那样，越往前面分支越多
            #loss计算
            label_onehot = np.zeros_like(self.ps[t])
            label_onehot[0, targets[t]] = 1.0#第几个样本最终属于哪一类(概率为1，其他为0)
            self.loss += -np.sum(np.log(self.ps[t]) * label_onehot)

            #梯度计算
            dy = (self.ps[t] - label_onehot)
            dWhq += np.matmul(self.hs[t].T,dy)
            dbq += dy 
            dh = np.matmul(np.matmul(np.linalg.matrix_power(self.W_hh.T,T-t),self.W_hq),dy.T).T + dh 
            dh_tanh = (1 - self.hs[t] * self.hs[t]) * dh # backprop through tanh nonlinearity #tanh'(x) = 1-tanh^2(x)
            dbh += dh_tanh
            dWxh += np.matmul(self.input[t].T.reshape(-1,1), dh_tanh)
            dWhh += np.matmul(dh_tanh, self.hs[t-1].T)

        #梯度裁剪(这里的限制范围需要自己根据需求调整，否则梯度太大会很难很难训练，loss会降不下去的)
        for dparam in [dWxh, dWhh, dWhq, dbh, dbq]: 
            np.clip(dparam, -0.5, 0.5, out=dparam)#限制在[-0.5,0.5]之间

        #参数更新
        self.W_xh += -lr * dWxh
        self.W_hh += -lr * dWhh
        self.W_hq += -lr * dWhq
        self.b_h += -lr * dbh
        self.b_q += -lr * dbq
        
        return self.loss

4、预测

    def pre(self,input_onehot,h_prev,next_len,vocab): #input_onehot为输入的一个词的onehot编码，next_len为需要生成的单词长度，vocab是"索引-词"的词典
        xs, hs = {}, {} #字典形式存储
        hs[-1] = np.copy(h_prev) #隐藏变量赋予
        xs[0] = input_onehot
        pre_vocab = []
        for t in range(next_len):
            hs[t] = np.tanh(np.matmul(xs[t], self.W_xh) + np.matmul(hs[t-1], self.W_hh) + self.b_h) #隐藏状态 Ht. 
            ys = np.matmul(hs[t], self.W_hq) + self.b_q #输出
            ps = np.exp(ys) / np.sum(np.exp(ys))
            pre_vocab.append(vocab[np.argmax(ps)])
            xs[t+1] = np.zeros((1, self.input_size)) # init
            xs[t+1][0,np.argmax(ps)] = 1
        return pre_vocab

5、定义数据处理类

from rnn_model import RNN
import numpy as np
import math

class Dataset(object):
    def __init__(self,txt_data, sequence_length):
        self.txt_len = len(txt_data) #文本长度
        vocab = list(set(txt_data)) #所有字符合集
        self.n_vocab = len(vocab) #字典长度
        self.sequence_length = sequence_length
        self.vocab_to_index = dict((c, i) for i, c in enumerate(vocab)) #词-索引字典
        self.index_to_vocab = dict((i, c) for i, c in enumerate(vocab)) #索引-词字典
        self.txt_index = [self.vocab_to_index[i] for i in txt_data] #输入文本的索引表示

    def one_hot(self,input):
        onehot_encoded = []
        for i in input:
            letter = [0 for _ in range(self.n_vocab)] 
            letter[i] = 1
            onehot_encoded.append(letter)
        onehot_encoded = np.array(onehot_encoded)
        return onehot_encoded
    
    def __getitem__(self, index):
        return (
            self.txt_index[index:index+self.sequence_length],
            self.txt_index[index+1:index+self.sequence_length+1]
        )

6、完整调用

#输入的有规律的序列数据
txt_data = "abcdefg abcdefg abcdefg abcdefg abcdefg abcdefg abcdefg abcdefg abcdefg abcdefg abcdefg abcdefg"

#config
max_epoch = 500
sequence_length = 10
dataset = Dataset(txt_data,sequence_length)
batch_size = math.ceil(dataset.txt_len /sequence_length) #向上取整
hidden_size = 100  
lr = 0.01

model = RNN(dataset.n_vocab,hidden_size)

#训练
for epoch in range(max_epoch):
    h_prev = np.zeros((1, hidden_size))
    loss = 0
    for b in range(batch_size):
        (x,y) = dataset[b]
        input = dataset.one_hot(x)
        ps = model.forward(input,h_prev) #注意：每个batch的h都是从0初始化开始，batch与batch间的隐藏状态没有关系
        loss += model.backward(y,lr)
    print(loss/batch_size)

#预测
input_txt = 'a'
input_onehot = dataset.one_hot([dataset.vocab_to_index[input_txt]])
next_len = 50 #预测后几个word
h_prev = np.zeros((1, hidden_size))
pre_vocab = ['a']
pre_vocab1 = model.pre(input_onehot,h_prev,next_len,dataset.index_to_vocab)
pre_vocab = pre_vocab + pre_vocab1
print(''.join(pre_vocab))

7、结果

emmm预测得还不错

欢迎大家在评论区批评指正，谢谢~

【深度学习|变化检测孪生网络】基于共享权重的双流 U-Net 变化检测网络架构，附代码（一）努力学习的大大深度学习基础深度学习网络架构人工智能 python
【深度学习|变化检测孪生网络】基于共享权重的双流U-Net变化检测网络架构，附代码（一）【深度学习|变化检测孪生网络】基于共享权重的双流U-Net变化检测网络架构，附代码（一）文章目录【深度学习|变化检测孪生网络】基于共享权重的双流U-Net变化检测网络架构，附代码（一）基于共享权重的双流U-Net变化检测网络架构1.双流网络（SiameseNetwork）概述2.双流网络的应用——变化检测3.U
【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向努力学习的大大学术会议推荐人工智能大数据深度学习神经网络
【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向文章目录【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向2025
【深度学习|迁移学习】Wasserstein距离度量和跨域原型一致性损失（CPC Loss）如何计算？以及Wasserstein距离和CPC Loss结合的对抗训练示例，附代码（二）努力学习的大大深度学习基础深度学习迁移学习人工智能 python
【深度学习|迁移学习】Wasserstein距离度量和跨域原型一致性损失（CPCLoss）如何计算？以及Wasserstein距离和CPCLoss结合的对抗训练示例，附代码（二）【深度学习|迁移学习】Wasserstein距离度量和跨域原型一致性损失（CPCLoss）如何计算？以及Wasserstein距离和CPCLoss结合的对抗训练示例，附代码（二）文章目录【深度学习|迁移学习】Wassers
2025年新出炉的MySQL面试题长风清留扬 150道MySQL高频面试题 mysql 数据库面试 sql
作者简介：CSDN\阿里云\腾讯云\华为云开发社区优质创作者，专注分享大数据、Python、数据库、人工智能等领域的优质内容个人主页：长风清留杨的博客形式准则：无论成就大小，都保持一颗谦逊的心，尊重他人，虚心学习。✨推荐专栏：Python入门到入魔，Mysql入门到入魔，Python入门基础大全，Flink入门到实战若缘分至此，无法再续相逢，愿你朝朝暮暮，皆有安好，晨曦微露道早安，日中炽热说午安，
精选了几道MySQL的大厂面试题，被提问的几率很高！长风清留扬 150道MySQL高频面试题 mysql android 数据库面试学习 MySQL面试
作者简介：CSDN\阿里云\腾讯云\华为云开发社区优质创作者，专注分享大数据、Python、数据库、人工智能等领域的优质内容个人主页：长风清留杨的博客形式准则：无论成就大小，都保持一颗谦逊的心，尊重他人，虚心学习。✨推荐专栏：Python入门到入魔，Mysql入门到入魔，Python入门基础大全，Flink入门到实战若缘分至此，无法再续相逢，愿你朝朝暮暮，皆有安好，晨曦微露道早安，日中炽热说午安，
2025数学建模美赛B题完整建模思路——管理可持续旅游业鹿鹿数模数学建模
2025MCM问题B：管理可持续旅游业以下是我们对该题目的赛题分析，由于完整内容过长，因此在此处放出部分内容，欢迎从文末小卡片处加群获取。赛题分析以下内容包括三个主要部分：(1)题目的中文翻译(2)对题目的整体分析与思路综述(3)对题目要求的逐项详细分析与求解思路。本文的撰写将综合运用多元的数学模型、算法以及机器学习/深度学习的方法，并在必要时给出题外假设与可行的创新性思路，以期为参赛者提供较为系
使用YOLOv8训练一个无人机（UAV）检测模型，深度学习目标检测中_并开发一个完整的系统 yolov8来训练无人机数据集并检测无人机 QQ_767172261 无人及视角 YOLO 无人机深度学习
使用YOLOv8训练一个无人机（UAV）检测模型，深度学习目标检测中_并开发一个完整的系统yolov8来训练无人机数据集并检测无人机无人机数据集，yolo格式种类为uav，一共近5w张图片，如何用yolov8代码训练无人机检测数据集文章目录以下文章及内容仅供参考。1.环境部署2.数据预处理数据集准备划分数据集3.模型定义4.训练模型5.评估模型6.结果分析与可视化7.集成与部署PyQt6GUI(`
智能运维分析决策系统：赋能数字化转型的智慧引擎我的运维人生运维运维开发技术共享
智能运维分析决策系统：赋能数字化转型的智慧引擎在数字化转型的大潮中，企业运维管理正经历着从传统手动运维向智能化、自动化运维的深刻转变。智能运维分析决策系统（AIOps，ArtificialIntelligenceforITOperations）作为这一转变的核心驱动力，通过融合大数据、机器学习、人工智能等先进技术，实现了对运维数据的深度洞察与智能决策，极大地提升了运维效率与质量，为企业数字业务的连
ChatGPT是强人工智能吗? 呵呵爱吃菜 chatgpt 人工智能
ChatGPT是强人工智能吗?本文从人工智能发展的三个阶段的角度,分析当前强大的AI大模型所处的阶段,并通过对比各阶段的定义,明确各阶段的特点和未来发展方向;NarrowAI（弱人工智能）、AGI（人工通用智能）和ASI（人工超级智能）代表了人工智能发展的三个不同阶段，它们在智能水平、任务范围和应用场景上存在显著差异。以下是它们的总结与对比：1.定义与特点类型NarrowAI（弱人工智能）AGI（
AlphaFold2的思路总结（十五） xiaofengzihhh 蛋白质结构预测深度学习人工智能神经网络
2021SC@SDUSC这学期的代码分析工作接近尾声了，我想简单总结一下AlphaFold2的总体思路具体来看，AlphaFold2主要利用多序列比对（MSA），把蛋白质的结构和生物信息整合到了深度学习算法中。它主要包括两个部分：神经网络EvoFormer和结构模块（Structuremodule）。一、EvoFormer 在EvoFormer中，主要是将图网络（Graphnetworks）
python机器学习方安乐 python python 机器学习人工智能
Python机器学习是当前最为热门的机器学习领域之一，其简洁、易用、高效的特点，让越来越多的开发者开始探索其应用。本文将从以下几个方面介绍Python机器学习的基础知识和实践案例，帮助读者更好地理解和应用机器学习技术。前提Python机器学习的应用领域A.图像识别和计算机视觉B.自然语言处理和文本分析C.数据挖掘和推荐系统深度学习A.神经网络的基本原理B.常用的深度学习框架和算法C.深度学习在图像
情感分析常见算法与模型及实现步骤计算机软件程序设计知识科普算法情感分析机器学习
【1】常见算法与模型情感分析（SentimentAnalysis）是一种自然语言处理（NLP）技术，用于识别和提取文本中的主观信息，如情绪、态度和意见。常见的算法和模型包括以下几种：传统机器学习方法朴素贝叶斯（NaiveBayes）基于贝叶斯定理，假设特征之间相互独立。计算简单，适用于大规模数据集。常用于文本分类任务。支持向量机（SVM）通过寻找最优超平面来划分不同的类别。在高维空间中表现良好，适
基于深度学习的舆论分析与检测系统应用与研究计算机软件程序设计机器学习深度学习人工智能舆论检测
【1】系统介绍研究背景随着互联网技术的迅猛发展和社会媒体平台的普及，信息传播的速度和范围达到了前所未有的水平。这一变化不仅极大地丰富了人们的社交生活，也为社会科学研究提供了新的视角和工具。舆论分析作为社会科学研究的一个重要分支，其目的是通过收集和分析网络上的公众意见和情感倾向，来了解人们对特定事件或话题的看法和态度。近年来，基于深度学习的自然语言处理技术取得了显著进步，这为提高舆论分析的准确性和效
自然语言处理（NLP）-总览图学习汤姆和佩琦 NLP 自然语言处理学习人工智能
文章目录自然语言处理（NLP）-总览图学习1.一张总览图的学习1.语音学（Phonology）2.形态学（Morphology）3.句法学（Syntax）4.语义学（Semantics）5.推理（Reasoning）小结自然语言处理（NLP）-总览图学习转自《Python自然语言处理第二版》1.一张总览图的学习这张图片展示了一个自然语言处理的流程模型，涵盖了从语音分析到应用推理和执行的多个阶段，每
深度学习利用数据加载、预处理和增强数据提高模型的性能 weixin_30777913 人工智能深度学习
深度学习数据预处理是一个关键步骤，旨在提高模型的性能和准确性。通过数据加载、预处理和增强，可以显著提高深度学习模型的性能和准确性。在实际应用中，需要根据具体的数据和任务来选择合适的预处理和增强技术。以下将详细论述并举例说明如何加载、预处理和增强数据。一、数据加载在深度学习中，数据加载是第一步。这通常涉及到从各种数据源（如CSV文件、数据库、图像文件夹等）中读取数据。以DeepLearning4J（
【深度学习】搭建PyTorch神经网络进行气温预测睡不着还睡不醒深度学习深度学习 pytorch 神经网络
第一步数据加载与观察①导包importnumpyasnpimportpandasaspdimportmatplotlib.pyplotaspltimporttorchimporttorch.optimasoptimimportwarningswarnings.filterwarnings("ignore")%matplotlibinline②加载数据features=pd.read_csv("te
GPT-4、GPT-4O 和 GPT-4O-mini 的区别与联系 surfirst LLM ai 语言模型 chatgpt
简介近年来，人工智能技术飞速发展，特别是在自然语言处理领域。GPT-4是OpenAI推出的新一代大模型，而GPT-4O和GPT-4O-mini是其优化版本，专门为不同应用场景和计算资源需求进行调整。在这篇文章中，我们将详细比较GPT-4、GPT-4O和GPT-4O-mini的区别与联系，帮助开发者更好地选择适合的模型。GPT-4是OpenAI发布的第四代通用预训练模型，具备强大的生成和理解能力，适
讯飞绘镜（ai生成视频）技术浅析（一）爱研究的小牛 AIGC—视频 AIGC—技术综述人工智能 AIGC 深度学习
讯飞绘镜（也称为星火绘镜）是科大讯飞推出的一款基于人工智能技术的短视频创作平台，旨在通过先进的AI技术简化视频创作流程，让用户能够轻松将创意转化为高质量的视频内容。以下是对讯飞绘镜相关技术、工作原理及具体实现的详细介绍：一、核心技术讯飞绘镜的核心技术主要依托于科大讯飞的星火大模型，并结合了多种先进的AI技术，包括：1.大模型技术：基于讯飞星火大模型，为脚本生成、分镜生成等提供基础能力支持。该模型能
第72期 | GPTSecurity周报云起无垠 GPTSecurity 人工智能安全
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.从孤立指令到互动鼓
开发基于WebRTC和OpenAI实时API的AI语音助手框架：技术解析与最佳实践花生糖@ AIGC学习资料库 webrtc 人工智能
随着人工智能（AI）和实时通信技术的发展，构建一个能够提供即时响应、多语言支持以及个性化用户体验的AI语音助手变得越来越重要。本文将深入探讨如何使用现代Web技术和先进的AI工具开发这样一个语音助手框架，具体来说，我们将基于Next.js、WebRTC和OpenAIAPI创建一个高效且用户友好的解决方案。技术架构主框架-Next.js选择Next.js作为主框架不仅因为它提供的服务端渲染（SSR）
深度学习-97-大语言模型LLM之基于langchain的实体记忆和知识图谱记忆皮皮冰燃深度学习深度学习语言模型 langchain
文章目录1内存记忆Memory1.1记忆系统支持的操作1.2记忆的存储1.3记忆的查询2记忆的应用2.1设置环境变量2.2ConversationEntityMemory实体记忆2.3ConversationKGMemory知识图谱记忆2.3.1创建ConversationKGMemory2.3.2创建ConversationChain2.4ConversationBufferWindowMemo
国外各领域专家学者的一些谏言：如何使AI代理架构变得成功强哥之神人工智能语言模型 AI代理智能体大模型 Agent
最近在研究AI代理架构为什么比较难落地，看到有一篇文章是关于各领域专家学者对AI代理架构的一些看法，值得关注。我将其整理成了中文，大家可一起细品各家观点，全文如下。代理型人工智能被寄予厚望，其潜力在于能够独立完成复杂任务。然而，目前该领域的炒作热潮远超实际成功案例，背后原因复杂多样。“2024年，AI代理已成为众多供应商的营销热词。但对于用户组织而言，代理技术还处于早期探索阶段，充满好奇心与实验性
PyTorch 实战教程：从模型搭建到训练的每一步 AI_小站 pytorch 人工智能 python transformer 深度学习大模型 LLM
用深度学习搞事情，模型搭建和训练是绕不开的两步。而PyTorch，作为一个“又灵活又好用”的深度学习框架，简直就是写代码的快乐源泉。今天我们就从0到1，实战PyTorch的模型搭建和训练流程。说白了，看完你就能自己搭个神经网络，喂点数据进去，再让它干点活。安装PyTorch要用PyTorch，得先装上它。PyTorch的安装稍微有点讲究，主要是要根据你的硬件选择CPU版本还是GPU版本。基本安装命
计算机视觉：卷积核每天五分钟玩转人工智能计算机视觉计算机视觉深度学习人工智能机器学习卷积神经网络
本文重点卷积神经网络（ConvolutionalNeuralNetwork，CNN）是一种深度学习模型，广泛应用于图像识别、自然语言处理、语音识别等领域。在卷积神经网络中，卷积核是网络的核心组件之一。通过不断堆叠卷积层和池化层，可以逐渐提取出更高级别的特征，从而实现更复杂的任务。卷积神经网络中的卷积核可以通过反向传播算法进行训练和优化，使其能够自适应地学习输入数据中的特征。因此，卷积神经网络在图像
浅谈人群扩展（lookalike）模型 eso1983 算法
Lookalike主要用于广告或者推荐系统中，找到与种子用户相似的人群。常用的算法应该包括协同过滤、基于标签的相似度计算，还有一些机器学习模型，比如逻辑回归、随机森林，以及深度学习的模型，比如DNN或者Embedding方法。这里简单介绍一下Lookalike人群扩展（相似人群扩展）中常用算法模型的解析，涵盖原理、数学公式、实现步骤、优缺点及适用场景。1.基于标签的相似度匹配原理通过用户标签（兴趣
【深度学习】常见模型-生成对抗网络（Generative Adversarial Network, GAN） IT古董人工智能深度学习机器学习深度学习生成对抗网络人工智能
生成对抗网络（GenerativeAdversarialNetwork,GAN）是一种深度学习模型框架，由IanGoodfellow等人在2014年提出。GAN由生成器（Generator）和判别器（Discriminator）两个对抗网络组成，通过彼此博弈的方式训练，从而生成与真实数据分布极为相似的高质量数据。GAN在图像生成、文本生成、数据增强等领域中有广泛应用。核心思想GAN的核心是两个神经
InceptionV1实现猴痘病识别案例小叮当爱咖啡计算机视觉人工智能神经网络深度学习
本文为为365天深度学习训练营内部文章原作者：K同学啊InceptionModule是InceptionV1的核心组成单元，提出了卷积层的并行结构，实现了在同一层就可以提取不同的特征为了改善计算量大的问题，使用了1*1的卷积核实现降维操作，以此来减小网络的参数量与计算量1*1卷积核的作用：降低输入特征图的通道数，减小网络的参数量与计算量最后InceptionModule基本由1*1卷积，3*3卷积
【人工智能时代】- 开源向量数据库比较：Chroma, Milvus, Faiss,Weaviate xiaoli8748_软件开发人工智能时代人工智能开源数据库
语义搜索和检索增强生成(RAG)正在彻底改变我们的在线交互方式。实现这些突破性进展的支柱就是向量数据库。选择正确的向量数据库能是一项艰巨的任务。本文为你提供四个重要的开源向量数据库之间的全面比较，希望你能够选择出最符合自己特定需求的数据库。什么是向量数据库?向量数据库是一种将数据存储为高维向量的数据库，高维向量是特征或属性的数学表示。每个向量都有一定数量的维度，根据数据的复杂性和粒度，可以从数十到
Python 深度学习实战：生成对抗网络 AI天才研究院深度学习实战 AI实战 AI大模型企业级应用开发实战大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍生成对抗网络（GenerativeAdversarialNetwork，GAN）是近年来较火热的深度学习模型之一，其在图像合成、视频生成、文本数据生成等领域均取得了不俗的效果。与传统的机器学习模型不同，GAN可以生成真实有效的数据，无需人工标注数据。它由两部分组成：生成器（Generator）和判别器（Discriminator）。生成器通过学习，根据噪声或随机变量（latentvar
【深度学习】常见模型-卷积神经网络（Convolutional Neural Networks, CNN） IT古董人工智能深度学习机器学习深度学习 cnn 人工智能
卷积神经网络（CNN）概念简介卷积神经网络（ConvolutionalNeuralNetworks,CNN）是一种专门用于处理数据具有网格状拓扑结构（如图像、语音）的深度学习模型。它通过卷积操作从输入数据中提取局部特征，并逐层构建更复杂的特征表示，广泛应用于图像分类、目标检测、语音识别等领域。关键组成部分卷积层（ConvolutionalLayer）使用卷积核（滤波器）在输入上滑动，提取局部特征。
redis学习笔记——不仅仅是存取数据 Everyday都不同 returnSource expire/del incr/lpush 数据库分区 redis
最近项目中用到比较多redis，感觉之前对它一直局限于get/set数据的层面。其实作为一个强大的NoSql数据库产品，如果好好利用它，会带来很多意想不到的效果。（因为我搞java，所以就从jedis的角度来补充一点东西吧。PS：不一定全，只是个人理解，不喜勿喷） 1、关于JedisPool.returnSource(Jedis jeids) 这个方法是从red
SQL性能优化-持续更新中。。。。。。 atongyeye oracle sql
1 通过ROWID访问表--索引你可以采用基于ROWID的访问方式情况,提高访问表的效率, , ROWID包含了表中记录的物理位置信息..ORACLE采用索引(INDEX)实现了数据和存放数据的物理位置(ROWID)之间的联系. 通常索引提供了快速访问ROWID的方法,因此那些基于索引列的查询就可以得到性能上的提高. 2 共享SQL语句--相同的sql放入缓存 3 选择最有效率的表
[JAVA语言]JAVA虚拟机对底层硬件的操控还不完善 comsci JAVA虚拟机
如果我们用汇编语言编写一个直接读写CPU寄存器的代码段，然后利用这个代码段去控制被操作系统屏蔽的硬件资源，这对于JVM虚拟机显然是不合法的，对操作系统来讲，这样也是不合法的，但是如果是一个工程项目的确需要这样做，合同已经签了，我们又不能够这样做，怎么办呢？那么一个精通汇编语言的那种X客，是否在这个时候就会发生某种至关重要的作用呢？ &n
lvs- real 男人50 LVS
#!/bin/bash # # Script to start LVS DR real server. # description: LVS DR real server # #. /etc/rc.d/init.d/functions VIP=10.10.6.252 host='/bin/hostname' case "$1" in sta
生成公钥和私钥 oloz DSA 安全加密
package com.msserver.core.util; import java.security.KeyPair; import java.security.PrivateKey; import java.security.PublicKey; import java.security.SecureRandom; public class SecurityUtil {
UIView 中加入的cocos2d，背景透明 374016526 cocos2d glClearColor
要点是首先pixelFormat:kEAGLColorFormatRGBA8，必须有alpha层才能透明。然后view设置为透明glView.opaque = NO;[director setOpenGLView:glView];[self.viewController.view setBackgroundColor:[UIColor clearColor]];[self.viewControll
mysql常用命令香水浓 mysql
连接数据库 mysql -u troy -ptroy 备份表 mysqldump -u troy -ptroy mm_database mm_user_tbl > user.sql 恢复表（与恢复数据库命令相同） mysql -u troy -ptroy mm_database < user.sql 备份数据库 mysqldump -u troy -ptroy
我的架构经验系列文章 - 后端架构 - 系统层面 agevs JavaScript jquery css html5
系统层面：高可用性所谓高可用性也就是通过避免单独故障加上快速故障转移实现一旦某台物理服务器出现故障能实现故障快速恢复。一般来说，可以采用两种方式，如果可以做业务可以做负载均衡则通过负载均衡实现集群，然后针对每一台服务器进行监控，一旦发生故障则从集群中移除；如果业务只能有单点入口那么可以通过实现Standby机加上虚拟IP机制，实现Active机在出现故障之后虚拟IP转移到Standby的快速
利用ant进行远程tomcat部署 aijuans tomcat
在javaEE项目中，需要将工程部署到远程服务器上，如果部署的频率比较高，手动部署的方式就比较麻烦，可以利用Ant工具实现快捷的部署。这篇博文详细介绍了ant配置的步骤（http://www.cnblogs.com/GloriousOnion/archive/2012/12/18/2822817.html），但是在tomcat7以上不适用，需要修改配置，具体如下： 1.配置tomcat的用户角色
获取复利总收入 baalwolf 获取
public static void main(String args[]){ int money=200; int year=1; double rate=0.1; &
eclipse.ini解释 BigBird2012 eclipse
大多数java开发者使用的都是eclipse，今天感兴趣去eclipse官网搜了一下eclipse.ini的配置，供大家参考，我会把关键的部分给大家用中文解释一下。还是推荐有问题不会直接搜谷歌，看官方文档，这样我们会知道问题的真面目是什么，对问题也有一个全面清晰的认识。 Overview 1、Eclipse.ini的作用 Eclipse startup is controlled by th
AngularJS实现分页功能 bijian1013 JavaScript AngularJS 分页
对于大多数web应用来说显示项目列表是一种很常见的任务。通常情况下，我们的数据会比较多，无法很好地显示在单个页面中。在这种情况下，我们需要把数据以页的方式来展示，同时带有转到上一页和下一页的功能。既然在整个应用中这是一种很常见的需求，那么把这一功能抽象成一个通用的、可复用的分页（Paginator）服务是很有意义的。 &nbs
[Maven学习笔记三]Maven archetype bit1129 ArcheType
archetype的英文意思是原型，Maven archetype表示创建Maven模块的模版，比如创建web项目，创建Spring项目等等. mvn archetype提供了一种命令行交互式创建Maven项目或者模块的方式， mvn archetype 1.在LearnMaven-ch03目录下，执行命令mvn archetype:gener
【Java命令三】jps bit1129 Java命令
jps很简单，用于显示当前运行的Java进程，也可以连接到远程服务器去查看 [hadoop@hadoop bin]$ jps -help usage: jps [-help] jps [-q] [-mlvV] [<hostid>] Definitions: <hostid>: <hostname>[:
ZABBIX2.2 2.4 等各版本之间的兼容性 ronin47
zabbix更新很快，从2009年到现在已经更新多个版本，为了使用更多zabbix的新特性，随之而来的便是升级版本，zabbix版本兼容性是必须优先考虑的一点客户端AGENT兼容 zabbix1.x到zabbix2.x的所有agent都兼容zabbix server2.4：如果你升级zabbix server，客户端是可以不做任何改变，除非你想使用agent的一些新特性。 Zabbix代理（p
unity 3d还是cocos2dx哪个适合游戏？ brotherlamp unity自学 unity教程 unity视频 unity资料 unity
unity 3d还是cocos2dx哪个适合游戏？问：unity 3d还是cocos2dx哪个适合游戏？答：首先目前来看unity视频教程因为是3d引擎，目前对2d支持并不完善，unity 3d 目前做2d普遍两种思路，一种是正交相机，3d画面2d视角，另一种是通过一些插件，动态创建mesh来绘制图形单元目前用的较多的是2d toolkit，ex2d，smooth moves，sm2，
百度笔试题：一个已经排序好的很大的数组，现在给它划分成m段，每段长度不定，段长最长为k，然后段内打乱顺序，请设计一个算法对其进行重新排序 bylijinnan java 算法面试百度招聘
import java.util.Arrays; /** * 最早是在陈利人老师的微博看到这道题： * #面试题#An array with n elements which is K most sorted，就是每个element的初始位置和它最终的排序后的位置的距离不超过常数K * 设计一个排序算法。It should be faster than O(n*lgn)。
获取checkbox复选框的值 chiangfai checkbox
<title>CheckBox</title> <script type = "text/javascript"> doGetVal: function doGetVal() { //var fruitName = document.getElementById("apple").value;//根据
MySQLdb用户指南 chenchao051 mysqldb
原网页被墙，放这里备用。 MySQLdb User's Guide Contents Introduction Installation _mysql MySQL C API translation MySQL C API function mapping Some _mysql examples MySQLdb
HIVE 窗口及分析函数 daizj hive 窗口函数分析函数
窗口函数应用场景：（1）用于分区排序（2）动态Group By （3）Top N （4）累计计算（5）层次查询一、分析函数用于等级、百分点、n分片等。函数说明 RANK() &nbs
PHP ZipArchive 实现压缩解压Zip文件 dcj3sjt126com PHP zip
PHP ZipArchive 是PHP自带的扩展类，可以轻松实现ZIP文件的压缩和解压，使用前首先要确保PHP ZIP 扩展已经开启，具体开启方法就不说了，不同的平台开启PHP扩增的方法网上都有，如有疑问欢迎交流。这里整理一下常用的示例供参考。一、解压缩zip文件 01 02 03 04 05 06 07 08 09 10 11
精彩英语贺词 dcj3sjt126com 英语
I'm always here 我会一直在这里支持你 &nb
基于Java注解的Spring的IoC功能 e200702084 java spring bean IOC Office
java模拟post请求 geeksun java
一般API接收客户端（比如网页、APP或其他应用服务）的请求，但在测试时需要模拟来自外界的请求，经探索，使用HttpComponentshttpClient可模拟Post提交请求。此处用HttpComponents的httpclient来完成使命。 import org.apache.http.HttpEntity ; import org.apache.http.HttpRespon
Swift语法之 ---- ?和!区别 hongtoushizi ?swift !
转载自： http://blog.sina.com.cn/s/blog_71715bf80102ux3v.html Swift语言使用var定义变量，但和别的语言不同，Swift里不会自动给变量赋初始值，也就是说变量不会有默认值，所以要求使用变量之前必须要对其初始化。如果在使用变量之前不进行初始化就会报错： var stringValue : String //
centos7安装jdk1.7 jisonami jdk centos
安装JDK1.7 步骤1、解压tar包在当前目录 [root@localhost usr]#tar -xzvf jdk-7u75-linux-x64.tar.gz 步骤2：配置环境变量在etc/profile文件下添加 export JAVA_HOME=/usr/java/jdk1.7.0_75 export CLASSPATH=/usr/java/jdk1.7.0_75/lib
数据源架构模式之数据映射器 home198979 PHP 架构数据映射器 datamapper
前面分别介绍了数据源架构模式之表数据入口、数据源架构模式之行和数据入口数据源架构模式之活动记录，相较于这三种数据源架构模式，数据映射器显得更加“高大上”。一、概念数据映射器（Data Mapper）：在保持对象和数据库（以及映射器本身）彼此独立的情况下，在二者之间移动数据的一个映射器层。概念永远都是抽象的，简单的说，数据映射器就是一个负责将数据映射到对象的类数据。 &nb
在Python中使用MYSQL pda158 mysql python
缘由　　近期在折腾一个小东西须要抓取网上的页面。然后进行解析。将结果放到数据库中。　　了解到 Python在这方面有优势，便选用之。　　由于我有台 server上面安装有 mysql，自然使用之。在进行数据库的这个操作过程中遇到了不少问题，这里记录一下，大家共勉。　　 python中mysql的调用　　百度之后能够通过MySQLdb进行数据库操作。
单例模式 hxl1988_0311 java 单例设计模式单件
package com.sosop.designpattern.singleton; /* * 单件模式：保证一个类必须只有一个实例，并提供全局的访问点 * * 所以单例模式必须有私有的构造器，没有私有构造器根本不用谈单件 * * 必须考虑到并发情况下创建了多个实例对象 * */ /** * 虽然有锁，但是只在第一次创建对象的时候加锁，并发时不会存在效率
27种迹象显示你应该辞掉程序员的工作 vipshichg 工作
1、你仍然在等待老板在2010年答应的要提拔你的暗示。 2、你的上级近10年没有开发过任何代码。 3、老板假装懂你说的这些技术，但实际上他完全不知道你在说什么。 4、你干完的项目6个月后才部署到现场服务器上。 5、时不时的，老板在检查你刚刚完成的工作时，要求按新想法重新开发。 6、而最终这个软件只有12个用户。 7、时间全浪费在办公室政治中，而不是用在开发好的软件上。 8、部署前5分钟才开始测试。

RNN循环神经网络

一、RNN出现的意义

二、引入 —— 语言模型

1、语言模型是什么

2、语言模型的计算

3、n元语法

三、RNN原理

1、RNN模型结构和前向传播

2、反向传播

3、反向传播的问题所在

4、裁剪梯度

5、注意点

四、RNN的应用以及不足

1、RNN应用领域

2、不足

五、RNN代码实现

1、初始化参数

2、前向传播

3、反向传播

4、预测

5、定义数据处理类

6、完整调用

7、结果

你可能感兴趣的:(深度学习,rnn,人工智能,深度学习,nlp)