QomolangmaH

【深度学习实验】循环神经网络（四）：基于 LSTM 的语言模型训练

一、实验介绍

二、实验环境

1. 配置虚拟环境

2. 库版本介绍

三、实验内容

0. 导入必要的工具包

1. RNN与梯度裁剪

2. LSTM模型

3. 训练函数

a. train_epoch

b. train

4. 文本预测

5. GPU判断函数

6. 训练与测试

7. 代码整合

经验是智慧之父，记忆是智慧之母。

——谚语

一、实验介绍

基于 LSTM 的语言模型训练

二、实验环境

本系列实验使用了PyTorch深度学习框架，相关操作如下：

1. 配置虚拟环境

conda create -n DL python=3.7

conda activate DL

pip install torch==1.8.1+cu102 torchvision==0.9.1+cu102 torchaudio==0.8.1 -f https://download.pytorch.org/whl/torch_stable.html

conda install matplotlib

 conda install scikit-learn

2. 库版本介绍

软件包	本实验版本	目前最新版
matplotlib	3.5.3	3.8.0
numpy	1.21.6	1.26.0
python	3.7.16
scikit-learn	0.22.1	1.3.0
torch	1.8.1+cu102	2.0.1
torchaudio	0.8.1	2.0.2
torchvision	0.9.1+cu102	0.15.2

三、实验内容

0. 导入必要的工具包

import torch
from torch import nn
from d2l import torch as d2l

1. RNN与梯度裁剪

【深度学习实验】循环神经网络（一）：循环神经网络（RNN）模型的实现与梯度裁剪_QomolangmaH的博客-CSDN博客https://blog.csdn.net/m0_63834988/article/details/133742433?spm=1001.2014.3001.5501

2. LSTM模型

【深度学习实验】循环神经网络（三）：门控制——自定义循环神经网络LSTM（长短期记忆网络）模型-CSDN博客https://blog.csdn.net/m0_63834988/article/details/133864731?spm=1001.2014.3001.5501

3. 训练函数

a. train_epoch

def train_epoch(net, train_iter, loss, updater, device, use_random_iter):
    state, timer = None, d2l.Timer()
    metric = d2l.Accumulator(2)  # 训练损失之和,词元数量
    for X, Y in train_iter:
        if state is None or use_random_iter:
            # 在第一次迭代或使用随机抽样时初始化state
            state = net.begin_state(batch_size=X.shape[0], device=device)
        if isinstance(net, nn.Module) and not isinstance(state, tuple):
            # state对于nn.GRU是个张量
            state.detach_()
        else:
            # state对于nn.LSTM或对于我们从零开始实现的模型是个张量
            for s in state:
                s.detach_()
        y = Y.T.reshape(-1)
        X, y = X.to(device), y.to(device)
        y_hat, state = net(X, state)
        l = loss(y_hat, y.long()).mean()
        if isinstance(updater, torch.optim.Optimizer):
            updater.zero_grad()
            l.backward()
            grad_clipping(net, 1)
            updater.step()
        else:
            l.backward()
            grad_clipping(net, 1)
            # 因为已经调用了mean函数
            updater(batch_size=1)
        metric.add(l * d2l.size(y), d2l.size(y))
    return math.exp(metric[0] / metric[1]), metric[1] / timer.stop()

参数：
- net：神经网络模型
- train_iter：训练数据迭代器
- loss：损失函数
- updater：更新模型参数的方法（如优化器）
- device：计算设备（如CPU或GPU）
- use_random_iter：是否使用随机抽样
函数内部定义了一些辅助变量：
- state：模型的隐藏状态变量
- timer：计时器，用于记录训练时间
- metric：累加器，用于计算训练损失之和和词元数量
函数通过迭代train_iter中的数据进行训练。每次迭代中，执行以下步骤：
- 如果是第一次迭代或者使用随机抽样，则初始化隐藏状态state
- 如果net是nn.Module的实例并且state不是元组类型，则将state的梯度信息清零（detach_()函数用于断开与计算图的连接，并清除梯度信息）
- 对于其他类型的模型（如nn.LSTM或自定义模型），遍历state中的每个元素，将其梯度信息清零
- 将输入数据X和标签Y转移到指定的计算设备上
- 使用神经网络模型net和当前的隐藏状态state进行前向传播，得到预测值y_hat和更新后的隐藏状态state
- 计算损失函数loss对于预测值y_hat和标签y的损失，并取均值
- 如果updater是torch.optim.Optimizer的实例，则执行优化器的相关操作（梯度清零、梯度裁剪、参数更新）
- 否则，仅执行梯度裁剪和模型参数的更新（适用于自定义的更新方法）
- 将当前的损失值乘以当前批次样本的词元数量，累加到metric中
训练完成后，函数返回以下结果：
- 对数似然损失的指数平均值（通过计算math.exp(metric[0] / metric[1])得到）
- 平均每秒处理的词元数量（通过计算metric[1] / timer.stop()得到）

b. train

def train(net, train_iter, vocab, lr, num_epochs, device, use_random_iter=False):
    loss = nn.CrossEntropyLoss()
    animator = d2l.Animator(xlabel='epoch', ylabel='perplexity',
                            legend=['train'], xlim=[10, num_epochs])

    if isinstance(net, nn.Module):
        updater = torch.optim.SGD(net.parameters(), lr)
    else:
        updater = lambda batch_size: d2l.sgd(net.params, lr, batch_size)

    for epoch in range(num_epochs):
        ppl, speed = train_epoch(
            net, train_iter, loss, updater, device, use_random_iter)
        if (epoch + 1) % 10 == 0:
            animator.add(epoch + 1, [ppl])
    print('Train Done!')
    torch.save(net.state_dict(), 'chapter6.pth')
    print(f'困惑度 {ppl:.1f}, {speed:.1f} 词元/秒 {str(device)}')

参数
- net（神经网络模型）
- train_iter（训练数据迭代器）
- vocab（词汇表）
- lr（学习率）
- num_epochs（训练的轮数）
- device（计算设备）
- use_random_iter（是否使用随机抽样）。
在函数内部，它使用交叉熵损失函数（nn.CrossEntropyLoss()）计算损失，创建了一个动画器（d2l.Animator）用于可视化训练过程中的困惑度（perplexity）指标。
根据net的类型选择相应的更新器（updater）
- 如果net是nn.Module的实例，则使用torch.optim.SGD作为更新器；
- 否则，使用自定义的更新器（d2l.sgd）。
通过迭代训练数据迭代器train_iter来进行训练。在每个训练周期（epoch）中
- 调用train_epoch函数来执行训练，并得到每个周期的困惑度和处理速度。
- 每隔10个周期，将困惑度添加到动画器中进行可视化。
训练完成后，打印出训练完成的提示信息，并将训练好的模型参数保存到文件中（'chapter6.pth'）。
打印出困惑度和处理速度的信息。

4. 文本预测

定义了给定前缀序列,生成后续序列的predict函数。

def predict(prefix, num_preds, net, vocab, device):
    state = net.begin_state(batch_size=1, device=device)
    outputs = [vocab[prefix[0]]]
    get_input = lambda: torch.reshape(torch.tensor(
        [outputs[-1]], device=device), (1, 1))
    for y in prefix[1:]:  # 预热期
        _, state = net(get_input(), state)
        outputs.append(vocab[y])
    for _ in range(num_preds):  # 预测num_preds步
        y, state = net(get_input(), state)
        outputs.append(int(y.argmax(dim=1).reshape(1)))
    return ''.join([vocab.idx_to_token[i] for i in outputs])

使用指定的device和批大小为1调用net.begin_state()，初始化state变量。
使用vocab[prefix[0]]将第一个标记在prefix中对应的索引添加到outputs列表中。
定义了一个get_input函数，该函数返回最后一个输出标记经过reshape后的张量，作为神经网络的输入。
对于prefix中除第一个标记外的每个标记，通过调用net(get_input(), state)进行前向传播。忽略输出的预测结果，并将对应的标记索引添加到outputs列表中。

5. GPU判断函数

def try_gpu(i=0):
    """如果存在，则返回gpu(i)，否则返回cpu()"""
    if torch.cuda.device_count() >= i + 1:
        return torch.device(f'cuda:{i}')
    return torch.device('cpu')

6. 训练与测试

batch_size, num_steps = 32, 35
train_iter, vocab = d2l.load_data_time_machine(batch_size, num_steps)
vocab_size, num_hiddens, num_epochs, lr= 28, 256, 200, 1
device = try_gpu()
lstm_layer = nn.LSTM(vocab_size, num_hiddens)
model_lstm = RNNModel(lstm_layer, vocab_size)
train(model_lstm, train_iter, vocab, lr, num_epochs, device)

训练中每个小批次（batch）的大小和每个序列的时间步数（time step）的值分别为32，25
加载的训练数据迭代器和词汇表

vocab_size 是词汇表的大小，num_hiddens 是 LSTM 隐藏层中的隐藏单元数量，num_epochs 是训练的迭代次数，lr 是学习率。
选择可用的 GPU 设备进行训练，如果没有可用的 GPU，则会使用 CPU。
训练模型

7. 代码整合

# 导入必要的库
import torch
from torch import nn
import torch.nn.functional as F
from d2l import torch as d2l
import math


class LSTM(nn.Module):
    def __init__(self, input_size, hidden_size):
        super(LSTM, self).__init__()
        self.input_size = input_size
        self.hidden_size = hidden_size
        # 初始化模型，即各个门的计算参数
        self.W_i = nn.Parameter(torch.randn(input_size, hidden_size))
        self.W_f = nn.Parameter(torch.randn(input_size, hidden_size))
        self.W_o = nn.Parameter(torch.randn(input_size, hidden_size))
        self.W_a = nn.Parameter(torch.randn(input_size, hidden_size))
        self.U_i = nn.Parameter(torch.randn(hidden_size, hidden_size))
        self.U_f = nn.Parameter(torch.randn(hidden_size, hidden_size))
        self.U_o = nn.Parameter(torch.randn(hidden_size, hidden_size))
        self.U_a = nn.Parameter(torch.randn(hidden_size, hidden_size))
        self.b_i = nn.Parameter(torch.randn(1, hidden_size))
        self.b_f = nn.Parameter(torch.randn(1, hidden_size))
        self.b_o = nn.Parameter(torch.randn(1, hidden_size))
        self.b_a = nn.Parameter(torch.randn(1, hidden_size))
        self.W_h = nn.Parameter(torch.randn(hidden_size, hidden_size))
        self.b_h = nn.Parameter(torch.randn(1, hidden_size))

    # 初始化隐藏状态
    def init_state(self, batch_size):
        hidden_state = torch.zeros(batch_size, self.hidden_size)
        cell_state = torch.zeros(batch_size, self.hidden_size)
        return hidden_state, cell_state

    def forward(self, inputs, states=None):
        batch_size, seq_len, input_size = inputs.shape
        if states is None:
            states = self.init_state(batch_size)
        hidden_state, cell_state = states
        outputs = []
        for step in range(seq_len):
            inputs_step = inputs[:, step, :]
            i_gate = torch.sigmoid(torch.mm(inputs_step, self.W_i) + torch.mm(hidden_state, self.U_i) + self.b_i)
            f_gate = torch.sigmoid(torch.mm(inputs_step, self.W_f) + torch.mm(hidden_state, self.U_f) + self.b_f)
            o_gate = torch.sigmoid(torch.mm(inputs_step, self.W_o) + torch.mm(hidden_state, self.U_o) + self.b_o)
            c_tilde = torch.tanh(torch.mm(inputs_step, self.W_a) + torch.mm(hidden_state, self.U_a) + self.b_a)
            cell_state = f_gate * cell_state + i_gate * c_tilde
            hidden_state = o_gate * torch.tanh(cell_state)
            y = torch.mm(hidden_state, self.W_h) + self.b_h
            outputs.append(y)
        return torch.cat(outputs, dim=0), (hidden_state, cell_state)

class RNNModel(nn.Module):

    def __init__(self, rnn_layer, vocab_size, **kwargs):
        super(RNNModel, self).__init__(**kwargs)
        self.rnn = rnn_layer
        self.vocab_size = vocab_size
        self.num_hiddens = self.rnn.hidden_size
        self.num_directions = 1
        self.linear = nn.Linear(self.num_hiddens, self.vocab_size)

    def forward(self, inputs, state):
        X = F.one_hot(inputs.T.long(), self.vocab_size)
        X = X.to(torch.float32)
        Y, state = self.rnn(X, state)
        # 全连接层首先将Y的形状改为(时间步数*批量大小,隐藏单元数)
        # 它的输出形状是(时间步数*批量大小,词表大小)。
        output = self.linear(Y.reshape((-1, Y.shape[-1])))
        return output, state

# 在第一个时间步，需要初始化一个隐藏状态，由此函数实现
    def begin_state(self, device, batch_size=1):
        if not isinstance(self.rnn, nn.LSTM):
            # nn.GRU以张量作为隐状态
            return  torch.zeros((self.num_directions * self.rnn.num_layers,
                                 batch_size, self.num_hiddens),
                                device=device)
        else:
            # nn.LSTM以元组作为隐状态
            return (torch.zeros((
                self.num_directions * self.rnn.num_layers,
                batch_size, self.num_hiddens), device=device),
                    torch.zeros((
                        self.num_directions * self.rnn.num_layers,
                        batch_size, self.num_hiddens), device=device))


def train(net, train_iter, vocab, lr, num_epochs, device, use_random_iter=False):
    loss = nn.CrossEntropyLoss()
    animator = d2l.Animator(xlabel='epoch', ylabel='perplexity',
                            legend=['train'], xlim=[10, num_epochs])

    if isinstance(net, nn.Module):
        updater = torch.optim.SGD(net.parameters(), lr)
    else:
        updater = lambda batch_size: d2l.sgd(net.params, lr, batch_size)

    for epoch in range(num_epochs):
        ppl, speed = train_epoch(
            net, train_iter, loss, updater, device, use_random_iter)
        if (epoch + 1) % 10 == 0:
            animator.add(epoch + 1, [ppl])
    print('Train Done!')
    torch.save(net.state_dict(), 'chapter6.pth')
    print(f'困惑度 {ppl:.1f}, {speed:.1f} 词元/秒 {str(device)}')



def train_epoch(net, train_iter, loss, updater, device, use_random_iter):
    state, timer = None, d2l.Timer()
    metric = d2l.Accumulator(2)  # 训练损失之和,词元数量
    for X, Y in train_iter:
        if state is None or use_random_iter:
            # 在第一次迭代或使用随机抽样时初始化state
            state = net.begin_state(batch_size=X.shape[0], device=device)
        if isinstance(net, nn.Module) and not isinstance(state, tuple):
            # state对于nn.GRU是个张量
            state.detach_()
        else:
            # state对于nn.LSTM或对于我们从零开始实现的模型是个张量
            for s in state:
                s.detach_()
        y = Y.T.reshape(-1)
        X, y = X.to(device), y.to(device)
        y_hat, state = net(X, state)
        l = loss(y_hat, y.long()).mean()
        if isinstance(updater, torch.optim.Optimizer):
            updater.zero_grad()
            l.backward()
            grad_clipping(net, 1)
            updater.step()
        else:
            l.backward()
            grad_clipping(net, 1)
            # 因为已经调用了mean函数
            updater(batch_size=1)
        metric.add(l * d2l.size(y), d2l.size(y))
    return math.exp(metric[0] / metric[1]), metric[1] / timer.stop()


def predict(prefix, num_preds, net, vocab, device):
    state = net.begin_state(batch_size=1, device=device)
    outputs = [vocab[prefix[0]]]
    get_input = lambda: torch.reshape(torch.tensor(
        [outputs[-1]], device=device), (1, 1))
    for y in prefix[1:]:  # 预热期
        _, state = net(get_input(), state)
        outputs.append(vocab[y])
    for _ in range(num_preds):  # 预测num_preds步
        y, state = net(get_input(), state)
        outputs.append(int(y.argmax(dim=1).reshape(1)))
    return ''.join([vocab.idx_to_token[i] for i in outputs])


def grad_clipping(net, theta):
    if isinstance(net, nn.Module):
        params = [p for p in net.parameters() if p.requires_grad]
    else:
        params = net.params
    norm = torch.sqrt(sum(torch.sum((p.grad ** 2)) for p in params))
    if norm > theta:
        for param in params:
            param.grad[:] *= theta / norm

def try_gpu(i=0):
    """如果存在，则返回gpu(i)，否则返回cpu()"""
    # if torch.cuda.device_count() >= i + 1:
    #     return torch.device(f'cuda:{i}')
    return torch.device('cpu')

batch_size, num_steps = 32, 35
train_iter, vocab = d2l.load_data_time_machine(batch_size, num_steps)
vocab_size, num_hiddens, num_epochs, lr= 28, 256, 200, 1
device = try_gpu()
lstm_layer = nn.LSTM(vocab_size, num_hiddens)
model_lstm = RNNModel(lstm_layer, vocab_size)
train(model_lstm, train_iter, vocab, lr, num_epochs, device)

详解三种常用标准化：Batch Norm、Layer Norm和RMSNorm yyytucj batch 开发语言
在深度学习中，标准化技术是提升模型训练速度、稳定性和性能的重要手段。本文将详细介绍三种常用的标准化方法：BatchNormalization（批量标准化）、LayerNormalization（层标准化）和RMSNormalization（RMS标准化），并对其原理、实现和应用场景进行深入分析。一、BatchNormalization1.1BatchNormalization的原理BatchNor
企业数字化转型AI能力中台（总体架构、系统功能）建设方案公众号：优享智库数字化转型数据治理主数据数据仓库人工智能架构
**企业数字化转型AI能力中台建设方案**一、建设背景与目标随着大数据、云计算、人工智能等技术的快速发展，企业正面临着数字化转型的重要机遇。为了提升企业的智能化水平，加快业务创新，建设AI能力中台成为企业的迫切需求。本方案旨在为企业打造一套功能完善的AI能力中台，实现数据采集与整合、算法模型管理、智能分析与可视化等核心功能，推动企业在各个业务领域实现智能化升级和创新。二、总体架构设计AI能力中台采
MATLAB设计控制系统仿真实验,基于MATLAB的自动控制原理实验仿真系统的设计 stellagugu
一、引言《自动控制原理》是自动化专业的基础课程,是控制科学与工程学科的一门方法论课程,主要培养学生掌握控制系统的分析和设计方法,其内容之多,理论性之强,决定了课程学习的难度。而实验课作为课堂教学的辅助内容,是培养学生自主性和创新性的重要环节。目前实验室的实验教学采用模拟电路实验台,将集成电路模块进行连线,形成典型系统,通过示波器观察响应曲线。传统性实验训练了学生对以传递函数为核心的控制系统与模拟电
单片机与人工智能：融合创新的未来之路嵌入式大圣单片机人工智能嵌入式硬件
摘要：本文深入探讨了单片机与人工智能的融合，阐述了单片机在人工智能应用中的角色、挑战与机遇。通过对相关技术的分析、实际案例的展示以及未来发展趋势的展望，揭示了这一融合在推动科技创新和产业发展中的巨大潜力。目录一、引言二、单片机与人工智能的基础概念三、单片机与人工智能的融合技术四、单片机与人工智能融合的应用场景五、单片机与人工智能融合面临的挑战六、单片机与人工智能融合的发展趋势七、结论一、引言随着科
实验八数据的增删改操作无尽罚坐的人生 #数据库原理数据库
实验八数据的增删改操作一、实验目的1．掌握ManagementStudio的使用。2．掌握SQL中INSERT、UPDATE、DELETE命令的使用。二、实验内容及要求用SQL语句完成下列功能。使用数据库为SCHOOL数据库。1、新开设一门课程，名叫网络安全与防火墙，学时40，编号为“0118”，主要介绍网络的安全与主要的防火墙软件。insertcourse(course_id,course_na
实验七带函数查询和综合查询（2）无尽罚坐的人生 #数据库原理 sql 数据库 mybatis
1检索至少选修课程“数据结构”和“C语言”的学生学号方法一：selectStu_idfromStudentGrade,CoursewhereCourse.Course_id=StudentGrade.Course_idandCourse_name=‘数据结构’andStu_idin(selectStu_idfromStudentGrade,CoursewhereCourse.Course_id=S
构建高效AI中台：解析人工智能中台架构的五大核心层脱泥不tony 人工智能架构大语言模型大模型 AI大模型 LLM AI
在人工智能技术蓬勃发展的今天，企业迫切需要一种高效、灵活的方式来整合、管理和应用AI技术。人工智能中台（AIMiddlePlatform）应运而生，它为企业提供了一个统一的技术平台，能够有效支撑多样化的业务需求，实现数字化转型。在本文中，我们将详细解析人工智能中台的整体架构，逐层深入，帮助大家理解如何从底层硬件到上层应用，实现全方位的AI能力构建。一、基础设施层（IaaS）：奠定坚实基础任何一个高
Baklib揭示内容中台与人工智能技术的创新协同效应清风徐徐de来其他
内容概要在当今信息爆炸的时代，内容的高效生产与分发已成为各行业竞争的关键。内容中台与人工智能技术的结合，为企业提供了一种新颖的解决方案，使得内容创造的流程更加智能化和高效化。内容中台作为信息流动的核心，能够集中管理和分发多元化的内容资源，为各类用户需求提供服务。同时，人工智能技术则在数据分析、用户行为预测、个性化推荐等方面展现出强大的能力。两者相辅相成，推动了在内容生产过程中的创新与发展。以下表格
智安护航：基于人工智能与物联网的智能车祸报警系统设计与实现 IT源码大师人工智能物联网科技 opencv 计算机视觉
详细描述：1.引言：智能车祸报警器的背景与意义交通事故是全球范围内导致伤亡和财产损失的主要原因之一。在车祸发生后，及时的报警和救援可以显著降低伤亡率和损失程度。然而，传统的车祸报警方式依赖于目击者或驾驶员的主动报警，存在延迟性和不可靠性。特别是在驾驶员受伤或昏迷的情况下，报警可能无法及时发出，导致救援延误。“智安护航”是一款基于人工智能（AI）与物联网（IoT）技术的智能车祸报警器，旨在通过实时监
Anasys Workbanch第一阶段笔记(12)静力学分析基本参数垂杨有暮鸦⊙_⊙ 有限元分析学习笔记有限元分析
目录0序言1重力的添加2静力学分析的材料参数3材料参数对计算结果的影响4实验结果与仿真结果对比分析0序言本章续前一章笔记(11)(求梁中点挠度问题)，补充静力学分析基本参数、重力对计算结果的影响、实验与仿真结果对比时重力的添加情况。1重力的添加在实际的工程应用问题中，经常会考虑要不要添加重力载荷的问题。在之前装配体问题中，在不能确定可不可以简化问题的时候，选择不简化装配体。因为在工程问题中，在没有
机器人介绍 max500600 机器人机器人
以下是关于机器人的介绍：定义机器人是一种能够自动执行任务的机器系统，它集成了机电、机构学、材料学及仿生学等多个学科技术，可以接受人类指挥，运行预先编排的程序，或根据人工智能技术制定的原则纲领行动，具备感知、决策、执行等基本特征，可辅助甚至替代人类完成各种任务。发展历程萌芽期：1954年第一台可编程的机器人在美国诞生，1959年世界上第一台工业机器人研制成功，随着机构理论和伺服理论的发展，机器人进入
利用 PyTorch 动态计算图和自动求导机制实现自适应神经网络 drebander AI 编程 pytorch 神经网络人工智能
在深度学习任务中，不同任务的复杂度千差万别。为了解决复杂任务对模型容量的需求，同时避免简单任务因过度拟合导致的性能下降，我们可以构建一个能够根据任务自动调整网络结构的神经网络。在PyTorch中，动态计算图和自动求导机制为实现这一目标提供了强大的工具。动态网络结构设计PyTorch的动态计算图允许我们根据运行时的输入数据或任务复杂度，动态创建和修改网络结构。动态添加/移除层：可以在训练过程中根据需
通义千问 Qwen2-VL-2B：技术架构、核心原理、微调操作与场景应用详解 zhangjiaofa 大模型通义千问大模型多模态模型微调
通义千问Qwen2-VL-2B：技术架构、核心原理、微调操作与场景应用详解引言近年来，多模态大模型在人工智能领域取得了显著进展，尤其是在视觉语言理解（Vision-LanguageUnderstanding,VL）方面。阿里云通义千问团队推出的Qwen2-VL-2B模型，作为Qwen2-VL系列中的轻量级版本，凭借其高效的计算性能和强大的多模态处理能力，成为开源社区和工业界关注的焦点。本文将深入解
可解释性：走向透明与可信的人工智能一位小说男主人工智能入门深度学习机器学习人工智能神经网络
随着深度学习和机器学习技术的迅速发展，越来越多的行业和领域开始应用这些技术。然而，这些技术的“黑盒”特性也带来了不容忽视的挑战。在许多任务中，尽管这些模型表现出色，取得了相当高的精度，但其决策过程不透明，这对于依赖于机器决策的应用（如金融、医疗、法律等）来说，可能是无法接受的。因此，如何提高模型的可解释性、实现透明和可信的人工智能，成为了当下人工智能领域的重要课题。❤️本文将深入探讨机器学习中的可
**LLM Gateway：您的智能对话门户** 芮奕滢Kirby
LLMGateway：您的智能对话门户llm-gatewayGatewayforsecure&reliablecommunicationswithOpenAIandotherLLMproviders项目地址:https://gitcode.com/gh_mirrors/ll/llm-gateway在人工智能和自然语言处理的浪潮中，LLMGateway以其卓越的设计与功能脱颖而出，为开发者和用户提供
单目测距（yolo-目标检测+标定+深度学习目标检测_测距）计算机C9硕士_算法工程师 YOLO 目标检测深度学习
YOLOv5模型介绍YOLOv5是目前最先进的目标检测算法之一，在多个数据集上取得了优秀的表现。相较于YOLOv4，YOLOv5采用了更深的Backbone网络和更高的分辨率输入图像，以提高检测精度和速度。单目测距实现方法在目标检测的基础上，我们可以通过计算物体在图像中的像素大小来估计其距离。具体方法是，首先确定某个物体的实际尺寸，然后根据该物体在图像中的像素大小计算其距离。这个方法可以应用于各种
ESP32-CAM导入ino项目编译和烧录 Android小码家 Linux ESP32
文章目录ESP32Cam模式接线图导入ino项目选择INO打开目录结构手动转换成C++源代码编译效果图搞猛一点其他实验ESP32Cam模式接线图导入ino项目选择INO打开目录结构platformio.ini;PlatformIOProjectConfigurationFile;;Buildoptions:buildflags,sourcefilter;Uploadoptions:customup
Depth Anything V2：单目深度估计的更强基线武朵欢Nerissa
DepthAnythingV2：单目深度估计的更强基线项目地址:https://gitcode.com/gh_mirrors/de/Depth-Anything-V2项目介绍DepthAnythingV2是由HKU与TikTok团队合作开发的单目深度估计算法的升级版本。这个框架显著提升了细节处理能力和鲁棒性，相比于基于深度学习的方法，它提供了更快的推理速度、更少的参数量以及更高的深度预测精度。本项
AI如何帮助解决生活中的琐碎难题？ HUIBUR科技人工智能
引言：AI已经融入我们的日常生活你有没有遇到过这样的情况——早上匆忙出门却忘了带钥匙，到了公司才想起昨天的会议资料没有打印，或者下班回家还在纠结晚饭吃什么？这些看似微不足道的小事，往往让人疲惫不堪。而如今，人工智能（AI）的出现，正在悄然改变这一切。从语音助手到智能家居，从健康管理到购物推荐，AI正在帮助人们处理生活中的琐碎事务，让每一天变得更高效、更轻松。只需要动动嘴或者点一点手机，就能完成过去
DeepSeek是由杭州深度求索人工智能基础技术研究有限公司（简称“深度求索”）发布的一系列人工智能模型大霸王龙人工智能
DeepSeek是由杭州深度求索人工智能基础技术研究有限公司（简称“深度求索”）发布的一系列人工智能模型，其在知识类任务上展现出了卓越的性能。以下是对DeepSeek的详细介绍，内容虽无法达到10000字，但会尽可能全面且深入地解析其各个方面。一、公司背景与核心理念DeepSeek的母公司深度求索由幻方量化在2023年4月创立。幻方量化是国内量化私募领域的巨头之一，管理规模庞大。DeepSeek的
数据挖掘的常用算法北柠陌寒0207 笔记
在大数据时代,数据挖掘是最关键的工作。大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程,也是一种决策支持过程。其主要基于人工智能,机器学习,模式学习,统计学等。通过对大数据高度自动化地分析,做出归纳性的推理,从中挖掘出潜在的模式,可以帮助企业、商家、用户调整市场政策、减少风险、理性面对市场,并做出正确的决策。目前,在很多领域尤其
Linux 王某人996 Linux
一、概述1.1Linux的历史操作系统，英语OperatingSystem简称为OS。说道操作系统就需要先讲一讲Unix，UNIX操作系统，是一个强大的多用户、多任务操作系统，支持多种处理器架构，按照操作系统的分类，属于分时操作系统，最早由KenThompson、DennisRitchie和DouglasMcIlroy于1969年在AT&T的贝尔实验室开发。而linux就是一款类Unix系统。通常
OpenAI的编程语言和框架，给程序员带来了帮助有哪些 API技术大佬Anzexi58 OpenAI 人工智能人工智能深度学习
OpenAI是一个人工智能开发公司，成立于2015年，总部位于美国旧金山。这家公司致力于研究和开发先进的人工智能技术，旨在将这些技术应用到解决全球一些最棘手的问题上。OpenAI以其卓越的技术和实验室出品的groundbreakingAIpapers而闻名。OpenAI的研究涉及深度学习、自然语言处理、视觉感知、强化学习等多个领域，并已在各种应用中取得了令人瞩目的成果。例如，在机器人领域，Open
LangGraph系列-1：用LangGraph构建简单聊天机器人梦想画家机器学习 LangGraph LangChain
在快速发展的人工智能和大型语言模型（llm）世界中，开发人员不断寻求创建更灵活、更强大、更直观的人工智能代理的方法。虽然LangChain已经改变了这个领域的游戏规则，允许创建复杂的链和代理，但对代理运行时的更复杂控制的需求也在不断增长。LangGraph是建立在LangChain之上的重要模块，它将彻底改变我们设计和实施人工智能工作流的方式。在这篇博客中，我们提供了一个关于构建聊天机器人和彻底改
ESP32-CAM实验集(WebServer) Android小码家 Linux ESP32
WebServer效果图已连接web端platformio.ini;PlatformIOProjectConfigurationFile;;Buildoptions:buildflags,sourcefilter;Uploadoptions:customuploadport,speedandextraflags;Libraryoptions:dependencies,extralibrarysto
探索OpenAI Python SDK: 智能编程新里程周澄诗Flourishing
探索OpenAIPythonSDK:智能编程新里程openai-pythonTheofficialPythonlibraryfortheOpenAIAPI项目地址:https://gitcode.com/gh_mirrors/op/openai-python如果你对人工智能和自然语言处理有浓厚的兴趣，那么这个项目将为你开启新的探索之门——。这是一个由OpenAI开发的Python库，用于与他们的A
探索未来游戏引擎：Fling Engine 任澄翊
探索未来游戏引擎：FlingEngineFlingEngineAVulkangameenginewithafocusondataorienteddesign项目地址:https://gitcode.com/gh_mirrors/fl/FlingEngineFlingEngine是一款跨平台的高性能游戏引擎，基于Vulkan图形API打造，旨在实验低级别引擎系统、多线程架构以及实时渲染技术。其设计思
Upgini: 智能数据搜索与丰富化引擎 - 提升机器学习和人工智能模型准确性的利器 2401_87189860 人工智能机器学习
Upgini:智能数据搜索与丰富化引擎在当今数据驱动的世界中,机器学习和人工智能模型的准确性至关重要。然而,提高模型准确性往往是一项艰巨的任务,需要大量的特征工程和数据处理工作。幸运的是,Upgini这一创新的Python库为数据科学家和机器学习工程师提供了一个强大的解决方案。Upgini的核心功能Upgini是一个智能数据搜索和丰富化引擎,专为机器学习和AI设计。它的主要功能包括:自动特征发现与
FragPipe: 一个强大的蛋白质组学数据分析平台 2401_87189860 数据分析数据挖掘
FragPipe简介FragPipe是一个由Nesvizhskii实验室开发的综合性蛋白质组学数据分析平台。它以MSFragger搜索引擎为核心,集成了多种功能强大的分析工具,为研究人员提供了从原始数据处理到生物学解释的一站式解决方案。FragPipe具有用户友好的Java图形用户界面(GUI),同时也支持命令行模式,可以在Windows、Linux或云环境中运行。FragPipe的主要特点快速高
CopilotForXcode: 为Xcode带来AI辅助编程的强大扩展 2401_87189860 xcode 人工智能 macos
CopilotForXcode:为Xcode带来AI辅助编程的强大扩展在人工智能快速发展的今天，AI辅助编程工具正在成为开发者提升效率的重要助手。对于使用Xcode进行iOS、macOS等Apple平台开发的Swift程序员来说，一款名为CopilotForXcode的扩展正在受到越来越多的关注。本文将详细介绍CopilotForXcode的主要功能、安装配置过程以及使用技巧，帮助开发者充分利用这
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开

【深度学习实验】循环神经网络（四）：基于 LSTM 的语言模型训练

一、实验介绍

二、实验环境

1. 配置虚拟环境

2. 库版本介绍

三、实验内容

0. 导入必要的工具包

1. RNN与梯度裁剪

2. LSTM模型

3. 训练函数

a. train_epoch

b. train

4. 文本预测

5. GPU判断函数

6. 训练与测试

7. 代码整合

你可能感兴趣的:(深度学习实验,深度学习,rnn,人工智能)