时光轻浅，半夏挽歌

深度学习入门7-RNN、LSTM和GRU的一个案例代码实现

文章目录

一、案例介绍
二、代码实现
- 1.引入库并将字符转化为张量
- 2.构建RNN、LSTM和GRU类
- 3.模型训练
- 4.模型评估
- 5.模型预测
总结

一、案例介绍

以一个人名分类器的案例，实例化RNN、LSTM和GRU。
数据就是torch官网的人名分类的数据。

二、代码实现

1.引入库并将字符转化为张量

from io import open
import glob
import os
import string
import unicodedata
import random
import time
import math
import torch
import torch.nn as nn
#import matplotlib.pyplot as plt

all_letters=string.ascii_letters+".,;"
n_letters=len(all_letters)
#print("n_letters:",n_letters)

#函数的作用是去掉一些语言的重音标记
def unicodeToAscii(s):
    return ''.join(c for c in unicodedata.normalize('NFD',s) if unicodedata.category(c)!='Mn' and c in all_letters)

data_path="./data/names/"

def readLines(filename):
    #打开指定的文件并读取所有内容，使用strip（）去掉两侧的空白符，然后以‘\n’为换行符进行切分
    lines=open(filename,encoding='utf-8').read().strip().split('\n')
    return [unicodeToAscii(line) for line in lines]

#构建一个人名类别与具体人名对应关系的字典
category_lines={}

#构建所有类别的列表
all_categories=[]

#遍历所有的文件，使用glob.glob可以利用正则表达式的遍历
for filename in glob.glob(data_path+"*.txt"):
    #获取每个文件的文件名，得到名字的类别
    category=os.path.splitext(os.path.basename(filename))[0]
    #逐一将其装入所有类别的列表中
    all_categories.append(category)
    #然后读取美俄文件的内容，形成名字的列表
    lines=readLines(filename)
    #按照对应的类别，将名字列表写入到category_lines字典中
    category_lines[category]=lines

n_categories=len(all_categories)

def lineToTensor(line):
    #首先初始化一个全零的张量，这个张良的形状是(len(line),1,n_letters)
    #代表人名中的每一个字母都用一个(1*n_letters)张量来表示
    tensor=torch.zeros(len(line),1,n_letters)
    #遍历每个人名中的每个字符，并搜索其对应的索引，将该索引位置置1
    for li,letter in enumerate(line):
        tensor[li][0][all_letters.find(letter)]=1

    return tensor
line="bai"
line_tensor=lineToTensor(line)
print(line_tensor)

这里print的结果为

tensor([[[0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
          0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
          0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
          0., 0., 0., 0.]],

        [[1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
          0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
          0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
          0., 0., 0., 0.]],

        [[0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.,
          0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
          0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
          0., 0., 0., 0.]]])

实现了将字符转化为张量的目的。

2.构建RNN、LSTM和GRU类

class RNN(nn.Module):
    def __init__(self,input_size,hidden_size,output_size,num_layers=1):
        #input_size:代表RNN输入的最后一个维度，hidden_size:代表RNN隐藏层的最后一个维度，output_size:代表RNN网络最后线性层的输出维度，num_layers:代表RNN网络的层数
        super(RNN,self).__init__()
        self.input_size=input_size
        self.hidden_size=hidden_size
        self.output_size=output_size
        self.num_layers=num_layers

        #实例化预定义的RNN，三个参数分别是input_size,hidden_size,num_layers
        self.rnn=nn.RNN(input_size,hidden_size,num_layers)
        #实例化全连接线性层，作用是将RNN的输出维度转换成指定的输出维度
        self.linear=nn.Linear(hidden_size,output_size)
        #实例化nn中预定义的softmax层，用于从输出层中获得类别的结果
        self.softmax=nn.LogSoftmax(dim=-1)

    def forward(self,input1,hidden):
        #input1代表人名 分类器中的输入张量，形状是1*n_letters，hidden：代表RNN的隐藏层张量，形状是self.num_layers*1*self.hidden_size
        #注意一点输入到RNN中的张量要求是三维张量，所以需要用unsqueeze（）函数扩充维度
        input1=input1.unsqueeze(0)
        #将input1和hidden输入到RNN的实例化对象中，如果num_layers=1,rr恒等于hn
        rr,hn=self.rnn(input1,hidden)
        #将从RNN中获得的结果通过线性层的变换和softmax层的处理，最终返回结果
        return self.softmax(self.linear(rr)),hn

    def initHidden(self):
        #本函数的作用是用来初始化一个全零的隐藏层张量，维度是3
        return torch.zeros(self.num_layers,1,self.hidden_size)

class LSTM(nn.Module):
    def __init__(self,input_size,hidden_size,output_size,num_layers=1):
        #input_size:代表输入张量x中最后一个维度，hidden_size:代表隐藏层张量的最后一个维度，output_size:代表线性层最后的输出维度，num_layers:代表LSTM网络的层数
        super(LSTM,self).__init__()
        self.input_size=input_size
        self.hidden_size=hidden_size
        self.output_size=output_size
        self.num_layers=num_layers

        #实例化预定义的LSTM，三个参数分别是input_size,hidden_size,num_layers
        self.lstm=nn.LSTM(input_size,hidden_size,num_layers)
        #实例化全连接线性层，作用是将RNN的输出维度转换成指定的输出维度
        self.linear=nn.Linear(hidden_size,output_size)
        #实例化nn中预定义的softmax层，用于从输出层中获得类别的结果
        self.softmax=nn.LogSoftmax(dim=-1)

    def forward(self,input1,hidden,c):
        #注意LLSTM网络的输入有3个张量，尤其不要忘记细胞状态c
        input1=input1.unsqueeze(0)
        #将3个参数输入到LSTM对象中
        rr,(hn,cn)=self.lstm(input1,(hidden,c))
        #最后将3个张量结果全部返回，同时rr要经过线性层和softmax的处理
        return self.softmax(self.linear(rr)),hn,cn

    def initHiddenAndC(self):
        #对于LSTM来说，初始化的时候同时要初始化hidden和细胞状态c
        #hidden和c的形状保持一致
        c=hidden=torch.zeros(self.num_layers,1,self.hidden_size)
        return hidden,c

class GRU(nn.Module):
    def __init__(self,input_size,hidden_size,output_size,num_layers=1):
        #input_size:代表输入张量x的最后一个维度，hidden_size:代表隐藏层的最后一个维度，output_size:代表指定线性层的输出维度，num_layers:代表RNN网络的层数
        super(GRU,self).__init__()
        self.input_size=input_size
        self.hidden_size=hidden_size
        self.output_size=output_size
        self.num_layers=num_layers

        #实例化预定义的GRU，三个参数分别是input_size,hidden_size,num_layers
        self.gru=nn.GRU(input_size,hidden_size,num_layers)
        #实例化全连接线性层，作用是将GRU的输出维度转换成指定的输出维度
        self.linear=nn.Linear(hidden_size,output_size)
        #实例化nn中预定义的softmax层，用于从输出层中获得类别的结果
        self.softmax=nn.LogSoftmax(dim=-1)

    def forward(self,input1,hidden):
        #input1代表人名 分类器中的输入张量，形状是1*n_letters，hidden：代表GRU的隐藏层张量，形状是self.num_layers*1*self.hidden_size
        #注意一点输入到GRU中的张量要求是三维张量，所以需要用unsqueeze（）函数扩充维度
        input1=input1.unsqueeze(0)
        #将input1和hidden输入到GRU的实例化对象中，如果num_layers=1,rr恒等于hn
        rr,hn=self.gru(input1,hidden)
        #将从GRU中获得的结果通过线性层的变换和softmax层的处理，最终返回结果
        return self.softmax(self.linear(rr)),hn

    def initHidden(self):
        #本函数的作用是用来初始化一个全零的隐藏层张量，维度是3
        return torch.zeros(self.num_layers,1,self.hidden_size)

#参数
input_size=n_letters
n_hidden=128
output_size=n_categories
input1=lineToTensor('B').squeeze(0)
print(input1)
hidden=c=torch.zeros(1,1,n_hidden)

rnn=RNN(input_size,n_hidden,output_size)
lstm=LSTM(input_size,n_hidden,output_size)
gru=GRU(input_size,n_hidden,output_size)

rnn_output,next_hidden=rnn(input1,hidden)
print('rnn:',rnn_output)
print('rnn_shape:',rnn_output.shape)

lstm_output,next_hidden1,c=lstm(input1,hidden,c)
print('lstm',lstm_output)
print('lstm_shape:',lstm_output.shape)

gru_output,next_hidden2=gru(input1,hidden)
print('gru:',gru_output)
print('gru_shape',gru_output.shape)

这里输入和实例化的输出打印出来如下

#input1
tensor([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
         0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.,
         0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
         0.]])
#output
rnn: tensor([[[-2.8971, -2.8890, -2.9014, -2.7889, -2.9610, -2.9203, -2.8560,
          -2.8833, -2.9238, -2.9166, -2.8929, -2.9164, -2.9246, -2.9550,
          -2.8811, -2.8356, -2.8890, -2.8122]]], grad_fn=<LogSoftmaxBackward>)

#output_shape
rnn_shape: torch.Size([1, 1, 18])

这里以RNN的输出为例，LSTM和GRU类似。

3.模型训练

def categoryFromOutput(output):
    #output:从输出结果中得到指定的类别
    #需要调用topk()函数，得到最大的值和索引，作为我们的类别信息
    top_n,top_i=output.topk(1)
    #从top_i中取出索引的值
    category_i=top_i[0].item()
    #从前面已经构造好的all_categories中得到对应语言的类别，返回类别和索引
    return all_categories[category_i],category_i

category,category_i=categoryFromOutput(gru_output)
#print('category:',category)
#print('category_i:',category_i)

def randomTrainingExample():
    #该函数的作用是用于随机产生训练函数
    #第一步使用random.choice()方法从all_categories中随机选择一个类别
    category=random.choice(all_categories)
    #第二步通过category_lines字典取出category类别对应的名字列表
    line=random.choice(category_lines[category])
    #第三步将类别封装成tensor
    category_tensor=torch.tensor([all_categories.index(category)],dtype=torch.long)
    #将随机取到的名字通过lineToTensor()转换成一个onehot张量
    line_tensor=lineToTensor(line)
    return category,line,category_tensor,line_tensor
for i in range(10):
    category,line,category_tensor,line_tensor=randomTrainingExample()
    #print('category=',category,'/ line=',line,'/ category_tensor=',category_tensor)
#print('line_tensor=',line_tensor)

#定义损失函数，nn.NLLLoss()函数，因为和RNN最后一层的nn.LogSoftmax()逻辑匹配
criterion=nn.NLLLoss()

#设置学习率为0.005
learning_rate=0.005

def trainRNN(category_tensor,line_tensor):
    #category_tensor:代表训练数据的标签
    #line_tensor:代表训练数据的特征
    #第一步初始化一个RNN隐藏层的张量
    hidden=rnn.intHidden()

    #关键的一步：将模型结构中的梯度归零
    rnn.zero_grad()

    #循环遍历训练数据中line_tensor中的每一个字符，传入RNN中，并且迭代更新hidden
    for i in range(line_tensor.size()[0]):
        output,hidden=rnn(line_tensor[i],hidden)
    #因为rnn的输出是三维张量，为了满足category_tensor,需要进行降维操作
    loss=criterion(output.squeeze(0),category_tensor)

    #进行反向传播
    loss.backward()

    #显示的更新模型中的所有参数
    for p in rnn.parameters():
        #要将参数的张量表示与参数的梯度进行乘法运算并乘以学习率，结果加到参数上，并进行覆盖更新
        p.data.add_(-learning_rate,p.grad.data)

    #返回RNN最终的输出结果output,和模型的损失loss
    return output,loss.item()

def trainLSTM(category_tensor,line_tensor):
    #初始化隐藏层张量，以及初始化细胞状态
    hidden,c=lstm.initHiddenAndC()
    #先要将LSTM网络的梯度归零
    lstm.zero_grad()
    #遍历所有的输入时间步的xi
    for i in range(line_tensor.size()[0]):
        #注意LSTM每次输入包含三个张量
        output,hidden,c=lstm(line_tensor[i],hidden,c)
    #将预测张量，和目标标签张良输入损失函数中
    loss=criterion(output.squeeze(0),category_tensor)
    #进行反向传播
    loss.backward()
    #进行参数的显示更新
    for p in lstm.parameters():
        p.data.add_(-learning_rate,p.grad.data)
    return output,loss.item()

def trainGRU(category_tensor,line_tensor):
    #注意GRU网络初始化的时候只需要初始化一个隐藏层的张量
    hidden=gru.initHidden()
    #首先将GRU网络的梯度进行清零
    gru.zero_grad()
    #遍历所有的输入时间步xi
    for i in range(line_tensor.size()[0]):
        output,hidden=gru(line_tensor[i],hidden)
    
    #将预测的张量值和真实的张量标签传入损失函数中
    loss=criterion(output.squeeze(0),category_tensor)
    #进行反向传播
    loss.backward()

    for p in gru.parameters():
        p.data.add_(-learning_rate,p.grad.data)
    return output,loss.item()

def timeSince(since):
    #本函数的作用是打印每次训练的耗时，since是训练开始的时间
    #第一步获取当前的时间
    now=time.time()
    #第二步得到时间差
    s=now-since
    #第三步计算得到分钟数
    m=math.floor(s/60)
    #第四步得到秒数
    s-=m*60
    #返回指定格式的耗时
    return '%dm %ds'% (m,s)

#设置训练的迭代次数
n_iters=1000
#设置结果的打印间隔
print_every=50
#设置绘制损失曲线上的制图间隔
plot_every=10

def train(train_type_fn):
    #train_type_fn代表选择哪种模型来训练函数，比如选择trainRNN
    #初始化储存每个制图间隔损失的列表
    all_losses=[]
    #获取训练开始的时间
    start=time.time()
    #设置初始间隔的损失值等于0
    current_loss=0
    #迭代训练
    for iter in range(1,n_iters+1):
        #通过randonTrainExample()函数随机获取一组训练数据和标签
        category,line,category_tensor,line_tensor=randomTrainingExample()
        #将训练特征和标签张量传入训练函数中，进行模型的训练
        output,loss=train_type_fn(category_tensor,line_tensor)
        #累加损失值
        current_loss+=loss

        #如果到了迭代次数的打印间隔
        if iter %print_every==0:
            #取该迭代步的output通过函数categoryFromOutput()获取对应的类别和索引
            guess,guess_i=categoryFromOutput(output)
            #判断和真实的类别标签进行比较，如果相同则为True，如果不同则为False
            correct='True' if guess==category else 'Falese(%s)'%category
            #打印若干信息
            print('%d %d%% (s%) %.4f %s / %s %s' % (iter,iter/n_iters*100,timeSince(start),loss,line,guess,correct))

        #如果到了迭代次数的制图间隔
        if iter%plot_every==0:
            #将过去若干轮的平均损失值添加到all_losses列表中
            all_losses.append(current_loss/plot_every)
            #将间隔损失值重置为0
            current_loss=0
    
    #返回训练的总损失列表，并返回训练的耗时
    return all_losses,int(time.time()-start)

# #调用train函数，分别传入RNN，LSTM，GRU的训练函数
# #返回的损失列表，以及训练时间
all_losses1,period1=train(trainRNN)
all_losses2,period2=train(trainLSTM)
all_losses3,period3=train(trainGRU)

# #绘制损失对比曲线
plt.figure(0)
plt.plot(all_losses1,label="RNN")
plt.plot(all_losses2,color="red",label="LSTM")
plt.plot(all_losses3,color="orange",label="GRU")
plt.legend(loc="upper left")
# #绘制训练耗时的柱状图
plt.figure(1)
x_data=["RNN","LSTM","GRU"]
y_data=[period1,period2,period3]
plt.bar(range(len(x_data)),y_data,tick_label=x_data)

4.模型评估

def evaluateRNN(line_tensor):
    #评估函数仅有一个参数，line_tensor代表名字的张量标识
    #初始化一个隐藏层的张量
    hidden=rnn.initHidden()
    #将评估数据line_tensor中的每一个字符之歌传入RNN中
    for i in range(line_tensor.size()[0]):
        output,hidden=rnn(line_tensor[i],hidden)
    #返回整个RNN的输出output
    return output.squeeze(0)

def evaluateLSTM(line_tensor):
    hidden,c=lstm.initHiddenAndC()
    for i in range(line_tensor.size()[0]):
        output,hidden,c=lstm(line_tensor[i],hidden,c)
    return output.squeeze(0)

def evaluateGRU(line_tensor):
    hidden=gru.initHidden()
    for i in range(line_tensor.size()[0]):
        output,hidden=gru(line_tensor[i],hidden)
    return output.squeeze(0)

line="Bai"
line_tensor=lineToTensor(line)

rnn_output=evaluateRNN(line_tensor)
lstm_output=evaluateLSTM(line_tensor)
gru_output=evaluateGRU(line_tensor)
print('rnn_output:',rnn_output)
print('lstm_outpt:',lstm_output)
print('gru_output:',gru_output)

5.模型预测

def predict(input_line,evaluate_fn,n_predictions=3):
    #input_line:代表输入字符串名字，evaluate_fn:代表评估的模型函数，RNN，LSTM，GRU，n_predictions:代表需要取得最有可能的n_predictions个结果
    #首先将输入的名字打印出来
    print('\n>%s'%input_line)

    #注意：所有的预测函数都不能改变模型的参数
    with torch.no_grad():
        #使用输入的人名转换成张量，然后调用评估函数得到预测的结果
        output=evaluate_fn(line_tensor(input_line))

        #从预测的结果中取出top3个最大值及其索引
        topv,topi=output.topk(n_predictions,1,True)
        #初始化结果的列表
        predictions=[]
        #遍历3个最可能的结果
        for i in range(n_predictions):
            #首先从topv中取出概率值
            value=topv[0][i].item()
            #然后从topi中取出索引值
            category_index=topi[0][i].item()
            #打印概率值及其对应的真实国家名称
            print('(%.2f)%s'%(value,all_categories[category_index]))
            #将结果封装成列表格式，添加到最终的结果列表中
            predictions.append([value,all_categories[category_index]])
        return predictions

for evaluate_fn in [evaluateRNN,evaluateLSTM,evaluateGRU]:
    print('-'*20)
    predict('Dovesky',evaluate_fn)
    predict('Jackson',evaluate_fn)
    predict('Satoshi',evaluate_fn)

总结

通过案例学会pytorch中的RNN、LSTM和GRU的代码的写法，实现人名分类任务，巩固了分类模型的训练、评估和预测。重点是将字符转为张量后通过RNN、LSTM和GRU中的参数的理解。同时，需要注意的是张量中的数据类型是float不是long。

AI人工智能代理工作流 AI Agent WorkFlow：在音乐创作中的应用 AGI大模型与大数据研究院大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能代理工作流AIAgentWorkFlow：在音乐创作中的应用1.背景介绍1.1问题的由来在音乐创作领域，艺术家们一直在寻找创新的方式来提升作品的独特性、丰富性以及创作效率。随着人工智能技术的快速发展，特别是深度学习和生成模型的广泛应用，音乐创作过程正逐渐被赋予新的生命力。AI代理工作流的概念应运而生，旨在通过自动化的流程和智能辅助手段，帮助音乐人探索新的音乐风格、创作灵感，甚至生成完整
在量子计算与AI结合的未来，是否能够实现更高效、更复杂的模式识别和数据处理？ concisedistinct 编程开发技术栈人工智能
随着量子计算和人工智能（AI）的发展，二者的结合正在成为前沿科技领域的一个重要研究方向。量子计算通过利用量子叠加和纠缠等特性，能够在某些问题上提供比经典计算机更强大的计算能力。人工智能，特别是深度学习，已经在许多领域取得了突破性的进展。本文将探讨量子计算与AI结合的创新机会，重点分析其在模式识别和数据处理中的优势与挑战。通过量子计算的并行处理能力和AI模型的智能学习能力，未来有望实现比传统计算更高
python必读书单 Vin0sen python 开发语言
文章目录{编程入门}{编程进阶}{算法基础}{Web开发}{网络编程}{爬虫}{安全}{数据分析}{数据科学}{数据挖掘}{机器学习}{深度学习}{其他方向}{编程入门}父与子的编程之旅：与小卡特一起学Python[HOT]Python2.7和孩子一起玩编程Python2.7零压力学PythonPython3.0，但也指出了如何修改示例，以支持Python2.0Python编程：从入门到实践[HO
心法利器[127] | 24年算法思考-特征工程和经典深度学习机智的叉烧算法深度学习人工智能
心法利器本栏目主要和大家一起讨论近期自己学习的心得和体会。具体介绍：仓颉专项：飞机大炮我都会，利器心法我还有。2023年新的文章合集已经发布，获取方式看这里：又添十万字-CS的陋室2023年文章合集来袭，更有历史文章合集，欢迎下载。往期回顾心法利器[122]|效果提升的根本来源讨论心法利器[123]|算法面试的八股和非八股讨论心法利器[124]|24年算法思考-大模型的应用与训练篇心法利器[125
Pytorch深度学习实战2-1：详细推导Xavier参数初始化(附Python实现) 2401_84140080 程序员深度学习 python pytorch
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
TensorFlow 示例项目实战与源码解析.zip ELSON麦香包
本文还有配套的精品资源，点击获取简介：TensorFlow是谷歌大脑团队开发的开源机器学习库，广泛应用于深度学习、人工智能等领域。该压缩包提供了一个TensorFlow示例项目的源代码，涵盖了从基础操作到复杂模型的各种主题。文章将详细介绍TensorFlow的核心概念，如张量、图计算、会话、变量、梯度下降与优化器、损失函数、数据集、模型评估、模型保存与恢复以及KerasAPI。读者可通过实践这些示
大模型带你学pytorch课程立杰说 Python deep-learning Pytorch pytorch 人工智能 python
时间有限，大家有想看的部分，可以私信或者评论区联系，我及时补充。或者大家有想帮忙补充的也可以联系。注：大部分内容均为大模型生成，若有疏漏，欢迎指出。看起来你想要开始学习PyTorch，这是一个非常棒的选择！PyTorch是一个强大的开源机器学习框架，由Facebook的人工智能研究实验室开发，被广泛用于深度学习模型的构建和训练。让我们开始你的PyTorch旅程吧！1.预备课程大纲1.1引入Pyth
【2024年国内一些知名的免费AI对话工具的对比】龙少9543 后端人工智能
2024年国内一些知名的免费AI对话工具的对比免费体验以下是2024年国内一些知名的免费AI对话工具的对比以及它们的体验地址。这些工具基于各自公司的深度学习和自然语言处理技术，为用户提供智能对话服务。百度文心一言特点:基于ERNIE模型，拥有知识增强、检索增强和对话增强的技术特色，支持跨模态生成。体验地址:https://yiyan.baidu.com/讯飞星火认知大模型特点:支持多风格长文本生成
用于深度学习的硬件配置列表 Mr.Q 项目记录环境搭建工具深度学习
自己2021年配制的一台深度学习机子，体验是水冷没必要（主要是安装费劲）。注意电源功率一定要够，不然带不动显卡，最好是1000w左右。1处理器：英特尔（Intel）i9-10900K10核20线程盒装CPU处理器【英特尔i9-10900K】英特尔（Intel）10代酷睿i9-10900KCPU处理器10核20线程睿频至高可达5Ghz【行情报价价格评测】-京东35992主板：玩家国度（ROG）ROG
计算范式的变革：从图灵机到神经网络 AI架构设计之禅 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
图灵机，神经网络，计算范式，深度学习，机器学习，人工智能，算法，模型1.背景介绍自20世纪中叶以来，计算机科学经历了飞速发展，计算范式也经历了深刻的变革。从最初的图灵机模型到如今的深度学习，我们不断探索更强大、更灵活的计算方式。图灵机作为计算机科学的基石，奠定了通用计算的理论基础。它以有限的符号和规则，模拟了人类的逻辑思维过程，为现代计算机的诞生提供了理论支撑。然而，图灵机的计算能力受限于其固定的
【Python】已解决：Python读取字典查询键报错“KeyError: ‘d‘” 屿小夏 python 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
GRU是门控循环单元是什么？无限进步呀万能科普 gru 深度学习人工智能机器学习数据挖掘学习方法
GRU是门控循环单元（GatedRecurrentUnit）的简称，它是循环神经网络（RNN）的一种变体。GRU旨在解决传统RNN中存在的长期依赖问题和反向传播中的梯度消失或梯度爆炸问题。与另一种流行的RNN变体LSTM（长短期记忆网络）相比，GRU具有更简单的结构，但同样能够有效地捕捉序列数据中的长期依赖关系。GRU的主要特点包括：门控机制：GRU通过引入门控机制来控制信息的流动。具体来说，它包
lstm部分代码解释1.0 yuyuyue249 lstm 人工智能 rnn
这段代码是使用Python中的Pandas和NumPy库对数据进行读取和处理的操作。以下是对每一行代码的详细解释：第一行代码Python复制df=pd.read_csv("output.csv")功能：使用Pandas的read_csv函数读取一个名为output.csv的文件，并将其内容存储到变量df中。说明：pd是Pandas库的常用别名。read_csv是Pandas提供的一个函数，用于读取
DeepSeek R1重塑行业标准：BIM智能审查效率提升300%的实战解密 Coderabo DeepSeek R1模型企业级应用人工智能
DeepSeekR1驱动的BIM模型智能审查技术深度解析与实践指南第一章BIM智能审查技术概述建筑信息模型（BIM）的智能化审查是建筑行业数字化转型的核心环节。传统人工审查方式存在效率低、标准不统一、易遗漏等问题，DeepSeekR1框架支持的智能审查系统通过以下技术突破实现革新：多源异构数据融合：支持IFC/RVT/DWG等格式的自动转换语义特征解析引擎：基于深度学习的构件特征识别准确率达98.
DeepSeek R1赋能智能建造：施工安全风险预判系统全栈开发实战与创新解析 Coderabo DeepSeek R1模型企业级应用安全
基于DeepSeekR1的智能施工安全风险预判系统构建与实战一、施工安全风险预判技术概述在建筑工程领域，安全风险预判是保障施工人员和财产安全的关键环节。传统的人工巡检方式存在效率低、覆盖面窄、响应滞后等问题。DeepSeekR1智能分析系统通过融合计算机视觉、物联网传感技术和深度学习算法，构建了多维度的风险预警体系。本系统具备以下核心功能：实时视频监控分析（安全装备检测、危险区域入侵识别）设备状态
基于深度学习的政策效果仿真推演：实现智能化决策支持 Coderabo DeepSeek R1模型企业级应用深度学习人工智能
政策效果仿真推演：基于DeepSeekR1的人工智能驱动决策支持系统引言政策效果仿真推演是现代社会治理中不可或缺的重要环节。通过模拟不同政策在实际执行过程中可能产生的各种影响，政府和相关机构可以更科学地制定和调整政策，从而提高治理效率和效果。然而，传统的政策仿真方法往往依赖于大量的历史数据、复杂的数学模型以及人工经验判断，存在耗时长、成本高、结果不够精准等问题。近年来，随着人工智能技术的快速发展，
深度学习｜表示学习｜卷积神经网络｜输出维度公式｜15 漂亮_大男孩表示学习深度学习学习 cnn
如是我闻：在卷积和池化操作中，计算输出维度的公式是关键，它们分别可以帮助我们计算卷积操作和池化操作后的输出大小。下面分别总结公式，并结合解释它们的意义：1.卷积操作的输出维度公式当我们对输入图像进行卷积时，输出的宽度和高度可以通过以下公式计算：输出大小=输入大小−卷积核大小+2⋅填充大小步长+1\text{输出大小}=\frac{\text{输入大小}-\text{卷积核大小}+2\cdot\te
深度学习｜表示学习｜卷积神经网络｜输出维度公式如何理解？｜16 漂亮_大男孩表示学习深度学习学习 cnn
如是我闻：当我们对输入图像进行卷积时，输出的宽度和高度可以通过以下公式计算：输出大小=输入大小−卷积核大小+2⋅填充大小步长+1\text{输出大小}=\frac{\text{输入大小}-\text{卷积核大小}+2\cdot\text{填充大小}}{\text{步长}}+1输出大小=步长输入大小−卷积核大小+2⋅填充大小+1池化（Pooling）的输出大小公式类似卷积，但更加简单：输出大小=输入
深度学习-98-大语言模型LLM之基于langchain的代理create_react_agent工具皮皮冰燃深度学习深度学习语言模型 langchain
文章目录1Agent代理1.1代理的分类1.2ReAct和Structuredchat2代理应用ReAct2.1创建工具2.1.1嵌入模型2.1.2创建检索器2.1.3测试检索结果2.1.4创建工具列表2.2初始化大模型2.3创建Agent2.4运行Agent3参考附录1Agent代理Agent代理的核心思想是使用语言模型来选择要采取的一系列动作。(1)在链中，动作序列是硬编码的。(2)在代理中，
基于 FPGA 的 CNN 卷积神经网络整体实现鱼弦人工智能时代 fpga开发 cnn 人工智能
基于FPGA的CNN卷积神经网络整体实现介绍卷积神经网络（CNN）是一种强大的深度学习架构，广泛用于图像识别、物体检测和自然语言处理等领域。FPGA以其并行处理能力、低延迟和灵活性，是加速CNN推理的理想硬件平台。通过在FPGA上实现CNN，可以显著提高实时应用中的推理效率。应用使用场景实时图像识别：如智能手机摄像头中的面部识别。自动驾驶：环境感知和障碍物检测。医疗影像分析：快速处理MRI或X-R
【大模型应用开发动手做AI Agent】第二轮思考：模型决定计算 AGI大模型与大数据研究院大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第二轮思考：模型决定计算关键词：大模型，AIAgent，模型决定计算，模型优化，计算优化，硬件加速，效率提升1.背景介绍随着深度学习技术的飞速发展，大模型在自然语言处理、计算机视觉等领域取得了突破性进展。这些模型通过学习海量数据，能够完成复杂的任务，如机器翻译、图像识别、问答系统等。然而，大模型在应用开发中面临着计算资源、能耗和效率等方面的挑战。本文将从“模型
AI Agent: AI的下一个风口具身机器人的发展趋势 AGI大模型与大数据研究院大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AIAgent:AI的下一个风口——具身机器人的发展趋势1.背景介绍1.1问题的由来随着人工智能技术的快速发展，特别是深度学习的突破性进展，我们正目睹着从“智慧大脑”向“具身智能”的转变。具身智能，即赋予机器以身体形式的能力，使之能够在物理环境中行动和互动，是人工智能领域的一个新兴且极具潜力的方向。具身机器人的发展标志着从对静态数据的处理转向对动态环境的适应与交互，这不仅是技术上的飞跃，也是人类对
2025年最新最全的大模型学习路线规划，对于零基础入门到精通的学习者来说，可以遵循以下阶段进行程序员辣条学习大模型学习 AI产品经理人工智能 LLama 大模型大模型教程
2025年最新最全的大模型学习路线规划，对于零基础入门到精通的学习者来说，可以遵循以下阶段进行：一、基础准备阶段数学基础：学习线性代数、微积分、概率论与数理统计等基础知识。这些数学基础对于理解大模型的原理和算法至关重要。编程语言：熟练掌握Python编程，这是大模型开发的首选语言。同时，了解常用的深度学习框架，如TensorFlow和PyTorch。深度学习基础：学习深度学习的基本原理和常用算法，
门控循环单元（GRU）彬彬侠自然语言处理 GRU 门控循环单元 RNN 循环神经网络 PyTorch NLP 自然语言处理
门控循环单元（GRU）门控循环单元（GRU）是一种循环神经网络（RNN）的变体，旨在解决传统RNN在处理长序列时的梯度消失问题，并且相比于长短期记忆（LSTM），它具有更简洁的结构。GRU由Choetal.于2014年提出，是一种改进型的循环神经网络结构，它通过引入门控机制来控制信息的流动，从而使得网络能够捕获长期依赖关系。GRU在许多任务中具有与LSTM相似的表现，但在计算和存储方面更加高效。1
什么是大模型？大模型从入门到精通（超详细）看这一篇就够了！！！ AI产品经理 java 人工智能开发语言金融运维
随着人工智能技术的发展，大模型成为了近年来的热门话题之一。本文旨在为初学者提供关于大模型的基础知识介绍，并探讨其对企业的影响、应用领域的就业前景以及如何系统地学习大模型。前排提示，文末有大模型AGI-CSDN独家资料包哦！1.什么是大模型？大模型（LargeModels），通常指的是拥有大量参数的深度学习模型。这些模型由于其规模庞大，能够捕捉到数据中的复杂模式，因此在自然语言处理（NLP）、计算机
超级好用、超准文字识别框架----飞浆PaddlePaddleOCR（文件检测+识别）实战篇数虫深度学习人工智能 ocr 飞桨
目录简介项目介绍安装难点问题解决办法参数介绍模型推理调用简介飞桨（PaddlePaddle）OCR（OpticalCharacterRecognition）是一个开源的深度学习框架，用于文字识别任务。它提供了一系列强大的工具和模型，可以用于实现各种文本识别应用。飞桨OCR主要包括以下几个方面的功能和特点：文字检测（TextDetection）：通过检测图像中的文本区域，确定文本的位置和边界框。文字
基于Python实现机器视觉与深度学习相结合的项目 max500600 python 算法开发工具 python 深度学习开发语言
以下是一个基于Python实现机器视觉与深度学习相结合的项目，用于对茶汤照片进行背景处理、提取RGB值的详细步骤及代码示例。整体思路图像读取与预处理：从采集装置传输到电脑的照片，使用OpenCV库读取图像，并进行灰度转换、高斯模糊等预处理操作。背景处理：通过图像分割算法（如基于颜色空间的分割或阈值分割）去除背景，只保留茶汤区域。识别颜色最均匀的区域：使用图像的纹理分析方法（如局部二值模式LBP）来
毕设开源深度学习图像搜索算法-图像搜索引擎(源码分享) knooor 毕业设计毕设大数据
文章目录0简介1前言2图像检索介绍(1)无监督图像检索(2)有监督图像检索3图像检索步骤4应用实例最后0简介今天学长向大家分享一个毕业设计项目毕业设计深度学习图像搜索算法-图像搜索引擎(源码分享)项目运行效果：毕业设计深度学习图像搜索算法-图像搜索引擎项目分享:见文末!1前言图像检索：是从一堆图片中找到与待匹配的图像相似的图片，就是以图找图。网络时代，随着各种社交网络的兴起，网络中图片，视频数据每
全场景深度学习开源框架（MindSpore） deepdata_cn 人工智能深度学习开源人工智能
MindSpore是华为推出的一款全场景深度学习开源框架。旨在实现不同计算平台（如云端、边缘端、端侧）和不同硬件（如CPU、GPU、Ascend等）之间的高效协同。无论是在数据中心的大规模计算，还是在手机、物联网设备等资源受限的终端上，MindSpore都能灵活适配，充分发挥各硬件平台的性能优势，实现模型的高效训练和推理。该框架引入了自动并行技术，能够根据模型结构和硬件资源自动进行并行策略的搜索和
torch.nn.RNN: PyTorch 中的循环神经网络（RNN）模块彬彬侠自然语言处理 RNN PyTorch Python 循环神经网络 NLP 自然语言处理
torch.nn.RNN:PyTorch中的循环神经网络（RNN）模块1.概述在PyTorch中，torch.nn.RNN是一个用于构建循环神经网络（RNN）的模块。它提供了一个可以进行训练的RNN层，广泛应用于序列数据的建模，如自然语言处理、时间序列分析等。这个模块可以处理各种类型的序列数据，并支持多种功能和配置。2.主要功能torch.nn.RNN可以：处理序列数据，捕捉时间上的依赖关系。支持
矩阵求逆（JAVA）初等行变换 qiuwanchi 矩阵求逆（JAVA）
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(初等行变换) * @author 邱万迟 *
JDK timer antlove java jdk schedule code timer
1.java.util.Timer.schedule(TimerTask task, long delay)：多长时间（毫秒）后执行任务 2.java.util.Timer.schedule(TimerTask task, Date time)：设定某个时间执行任务 3.java.util.Timer.schedule(TimerTask task, long delay,longperiod
JVM调优总结 -Xms -Xmx -Xmn -Xss coder_xpf jvm 应用服务器
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx
JDBC连接数据库 Array_06 jdbc
package Util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JDBCUtil { //完
Unsupported major.minor version 51.0（jdk版本错误） oloz java
java.lang.UnsupportedClassVersionError: cn/support/cache/CacheType : Unsupported major.minor version 51.0 (unable to load class cn.support.cache.CacheType) at org.apache.catalina.loader.WebappClassL
用多个线程处理1个List集合 362217990 多线程 thread list 集合
昨天发了一个提问，启动5个线程将一个List中的内容，然后将5个线程的内容拼接起来，由于时间比较急迫，自己就写了一个Demo，希望对菜鸟有参考意义。。 import java.util.ArrayList; import java.util.List; import java.util.concurrent.CountDownLatch; public c
JSP简单访问数据库香水浓 sql mysql jsp
学习使用javaBean，代码很烂，仅为留个脚印 public class DBHelper { private String driverName; private String url; private String user; private String password; private Connection connection; privat
Flex4中使用组件添加柱状图、饼状图等图表 AdyZhang Flex
1.添加一个最简单的柱状图 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 <?xml version= "1.0"&n
Android 5.0 - ProgressBar 进度条无法展示到按钮的前面 aijuans android
在低于SDK < 21 的版本中，ProgressBar 可以展示到按钮前面，并且为之在按钮的中间，但是切换到android 5.0后进度条ProgressBar 展示顺序变化了，按钮再前面，ProgressBar 在后面了我的xml配置文件如下： [html] view plain copy <RelativeLa
查询汇总的sql baalwolf sql
select list.listname, list.createtime,listcount from dream_list as list , (select listid,count(listid) as listcount from dream_list_user group by listid order by count(
Linux du命令和df命令区别 BigBird2012 linux
1，两者区别 du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。
AngularJS中的$apply，用还是不用？ bijian1013 JavaScript AngularJS $apply
在AngularJS开发中，何时应该调用$scope.$apply()，何时不应该调用。下面我们透彻地解释这个问题。但是首先，让我们把$apply转换成一种简化的形式。 scope.$apply就像一个懒惰的工人。它需要按照命
[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化 bit1129 zookeeper
ClientCnxn是Zookeeper客户端和Zookeeper服务器端进行通信和事件通知处理的主要类，它内部包含两个类，1. SendThread 2. EventThread， SendThread负责客户端和服务器端的数据通信，也包括事件信息的传输，EventThread主要在客户端回调注册的Watchers进行通知处理 ClientCnxn构造方法 &
【Java命令一】jmap bit1129 Java命令
jmap命令的用法： [hadoop@hadoop sbin]$ jmap Usage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <core> (to connect to a
Apache 服务器安全防护及实战 ronin47
此文转自IBM. Apache 服务简介 Web 服务器也称为 WWW 服务器或 HTTP 服务器 (HTTP Server)，它是 Internet 上最常见也是使用最频繁的服务器之一，Web 服务器能够为用户提供网页浏览、论坛访问等等服务。由于用户在通过 Web 浏览器访问信息资源的过程中，无须再关心一些技术性的细节，而且界面非常友好，因而 Web 在 Internet 上一推出就得到
unity 3d实例化位置出现布置？ brotherlamp unity教程 unity unity资料 unity视频 unity自学
问：unity 3d实例化位置出现布置？答：实例化的同时就可以指定被实例化的物体的位置,即 position Instantiate (original : Object, position : Vector3, rotation : Quaternion) : Object 这样你不需要再用Transform.Position了, 如果你省略了第二个参数(
《重构，改善现有代码的设计》第八章 Duplicate Observed Data bylijinnan java 重构
import java.awt.Color; import java.awt.Container; import java.awt.FlowLayout; import java.awt.Label; import java.awt.TextField; import java.awt.event.FocusAdapter; import java.awt.event.FocusE
struts2更改struts.xml配置目录 chiangfai struts.xml
struts2默认是读取classes目录下的配置文件，要更改配置文件目录，比如放在WEB-INF下，路径应该写成../struts.xml(非/WEB-INF/struts.xml) web.xml文件修改如下： <filter> <filter-name>struts2</filter-name> <filter-class&g
redis做缓存时的一点优化 chenchao051 redis hadoop pipeline
最近集群上有个job，其中需要短时间内频繁访问缓存，大概7亿多次。我这边的缓存是使用redis来做的，问题就来了。首先，redis中存的是普通kv，没有考虑使用hash等解结构，那么以为着这个job需要访问7亿多次redis，导致效率低，且出现很多redi
mysql导出数据不输出标题行 daizj mysql 数据导出去掉第一行去掉标题
当想使用数据库中的某些数据，想将其导入到文件中，而想去掉第一行的标题是可以加上-N参数如通过下面命令导出数据： mysql -uuserName -ppasswd -hhost -Pport -Ddatabase -e " select * from tableName" > exportResult.txt 结果为： studentid
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
先下载PHPEXCEL类文件，放在class目录下面，然后新建一个index.php文件，内容如下 <?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('
爱情格言 dcj3sjt126com 格言
1) I love you not because of who you are, but because of who I am when I am with you. 　　我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。 　　2) No man or woman is worth your tears, and the one who is, won‘t
转 Activity 详解——Activity文档翻译 e200702084 android UI sqlite 配置管理网络应用
activity 展现在用户面前的经常是全屏窗口，你也可以将 activity 作为浮动窗口来使用（使用设置了 windowIsFloating 的主题），或者嵌入到其他的 activity （使用 ActivityGroup ）中。当用户离开 activity 时你可以在 onPause() 进行相应的操作。更重要的是，用户做的任何改变都应该在该点上提交 ( 经常提交到 ContentPro
win7安装MongoDB服务 geeksun mongodb
1. 下载MongoDB的windows版本：mongodb-win32-x86_64-2008plus-ssl-3.0.4.zip，Linux版本也在这里下载，下载地址： http://www.mongodb.org/downloads 2. 解压MongoDB在D:\server\mongodb, 在D:\server\mongodb下创建d
Javascript魔法方法:__defineGetter__,__defineSetter__ hongtoushizi js
转载自： http://www.blackglory.me/javascript-magic-method-definegetter-definesetter/ 在javascript的类中,可以用defineGetter和defineSetter_控制成员变量的Get和Set行为例如,在一个图书类中,我们自动为Book加上书名符号: function Book(name){
错误的日期格式可能导致走nginx proxy cache时不能进行304响应 jinnianshilongnian cache
昨天在整合某些系统的nginx配置时，出现了当使用nginx cache时无法返回304响应的情况，出问题的响应头： Content-Type:text/html; charset=gb2312 Date:Mon, 05 Jan 2015 01:58:05 GMT Expires:Mon , 05 Jan 15 02:03:00 GMT Last-Modified:Mon, 05
数据源架构模式之行数据入口 home198979 PHP 架构行数据入口
注：看不懂的请勿踩，此文章非针对java，java爱好者可直接略过。一、概念行数据入口（Row Data Gateway）：充当数据源中单条记录入口的对象，每行一个实例。二、简单实现行数据入口为了方便理解，还是先简单实现： <?php /** * 行数据入口类 */ class OrderGateway { /*定义元数
Linux各个目录的作用及内容 pda158 linux 脚本
1）根目录“/” 　　根目录位于目录结构的最顶层，用斜线（/）表示，类似于 Windows 操作系统的“C:\“，包含Fedora操作系统中所有的目录和文件。　　2）/bin 　　/bin 　　目录又称为二进制目录，包含了那些供系统管理员和普通用户使用的重要 linux命令的二进制映像。该目录存放的内容包括各种可执行文件，还有某些可执行文件的符号连接。常用的命令有：cp、d
ubuntu12.04上编译openjdk7 ol_beta HotSpot jvm jdk OpenJDK
获取源码从openjdk代码仓库获取(比较慢) 安装mercurial Mercurial是一个版本管理工具。 sudo apt-get install mercurial 将以下内容添加到$HOME/.hgrc文件中，如果没有则自己创建一个： [extensions] forest=/home/lichengwu/hgforest-crew/forest.py fe
将数据库字段转换成设计文档所需的字段 vipbooks 设计模式工作正则表达式
哈哈，出差这么久终于回来了，回家的感觉真好！ PowerDesigner的物理数据库一出来，设计文档中要改的字段就多得不计其数，如果要把PowerDesigner中的字段一个个Copy到设计文档中，那将会是一件非常痛苦的事情。