uhauha2929

PyTorch使用seq2seq+attention实现时间格式转换

pytorch实现seq2seq+attention转换日期

使用keras实现加入注意力机制的seq2seq比较麻烦，所以这里我尝试使用机器翻译的seq2seq+attention模型实现人造日期对标准日期格式的转换。

所copy的代码来自practical-pytorch教程，以及pytorch-seq2seq教程

所用的数据来自注意力机制keras实现。
python3
pytorch版本 0.4.0
可能需要GPU

import json
from matplotlib import ticker
from collections import Counter
import matplotlib.pyplot as plt
import torch
from torch import nn
import torch.nn.functional as F
import torch.optim as optim
import numpy as np

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
device

device(type='cuda')

预处理

这里先生成字符和数字相互转换的字典，如果是句子也可以按照词为单位。我在字典的开头添加了4种表示。

def build_vocab(texts, n=None):
    counter = Counter(''.join(texts))  # char level
    char2index = {w: i for i, (w, c) in enumerate(counter.most_common(n), start=4)}
    char2index['~'] = 0  # pad  不足长度的文本在后边填充0
    char2index['^'] = 1  # sos  表示句子的开头
    char2index['$'] = 2  # eos  表示句子的结尾
    char2index['#'] = 3  # unk  表示句子中出现的字典中没有的未知词
    index2char = {i: w for w, i in char2index.items()}
    return char2index, index2char

先看一下数据的格式。

pairs = json.load(open('Time Dataset.json', 'rt', encoding='utf-8'))
print(pairs[:1])

[['six hours and fifty five am', '06:55']]

我们将目标文本和原文本分开，求出两边句子的最大长度，然后建立两边各自的字典。

data = array(pairs)
src_texts = data[:, 0]
trg_texts = data[:, 1]
src_c2ix, src_ix2c = build_vocab(src_texts)
trg_c2ix, trg_ix2c = build_vocab(trg_texts)

这里按批量跟新，定义一个随机批量生成的函数，它能够将文本转换成字典中的数字表示，并同时返回batch_size个样本和它们的长度，这些样本按照长度降序排序。pad的长度以batch中最长的为准。这主要是为了适应pack_padded_sequence这个函数，因为输入RNN的序列不需要将pad标志也输入RNN中计算，RNN只需要循环计算到其真实长度即可。

def indexes_from_text(text, char2index):
    return [1] + [char2index[c] for c in text] + [2]  # 手动添加开始结束标志
def pad_seq(seq, max_length):
    seq += [0 for _ in range(max_length - len(seq))]
    return seq

max_src_len = max(list(map(len, src_texts))) + 2
max_trg_len = max(list(map(len, trg_texts))) + 2
max_src_len, max_trg_len

(43, 7)

def random_batch(batch_size, pairs, src_c2ix, trg_c2ix):
    input_seqs, target_seqs = [], []

    for i in random.choice(len(pairs), batch_size):
        input_seqs.append(indexes_from_text(pairs[i][0], src_c2ix))
        target_seqs.append(indexes_from_text(pairs[i][1], trg_c2ix))

    seq_pairs = sorted(zip(input_seqs, target_seqs), key=lambda p: len(p[0]), reverse=True)
    input_seqs, target_seqs = zip(*seq_pairs)
    input_lengths = [len(s) for s in input_seqs]
    input_padded = [pad_seq(s, max(input_lengths)) for s in input_seqs]
    target_lengths = [len(s) for s in target_seqs]
    target_padded = [pad_seq(s, max(target_lengths)) for s in target_seqs]

    input_var = torch.LongTensor(input_padded).transpose(0, 1)  
    # seq_len x batch_size
    target_var = torch.LongTensor(target_padded).transpose(0, 1)
    input_var = input_var.to(device)
    target_var = target_var.to(device)

    return input_var, input_lengths, target_var, target_lengths

可以先打印一下，batch_size=3时的返回结果。注意这里batch经过了转置。

random_batch(3, data, src_c2ix, trg_c2ix)

(tensor([[  1,   1,   1],
         [ 12,  23,   6],
         [  7,   9,  18],
         [ 27,  26,  21],
         [ 10,  23,  23],
         [  4,   4,  25],
         [ 16,  17,   2],
         [  7,   9,   0],
         [ 27,  11,   0],
         [ 10,   9,   0],
         [ 19,   2,   0],
         [  4,   0,   0],
         [ 13,   0,   0],
         [  8,   0,   0],
         [ 32,   0,   0],
         [  4,   0,   0],
         [  6,   0,   0],
         [ 31,   0,   0],
         [  5,   0,   0],
         [  8,   0,   0],
         [  6,   0,   0],
         [ 20,   0,   0],
         [  4,   0,   0],
         [ 12,   0,   0],
         [ 14,   0,   0],
         [ 28,   0,   0],
         [  5,   0,   0],
         [  4,   0,   0],
         [ 13,   0,   0],
         [ 12,   0,   0],
         [  6,   0,   0],
         [  5,   0,   0],
         [ 10,   0,   0],
         [  4,   0,   0],
         [  8,   0,   0],
         [  7,   0,   0],
         [  7,   0,   0],
         [  8,   0,   0],
         [  2,   0,   0]], device='cuda:0'),
 [39, 11, 7],
 tensor([[  1,   1,   1],
         [  6,   6,   5],
         [ 13,   9,   7],
         [  4,   4,   4],
         [  7,   5,   8],
         [  9,   8,  10],
         [  2,   2,   2]], device='cuda:0'),
 [7, 7, 7])

模型定义

模型分为encoder和decoder两个部分，decoder部分比较简单，就是一层Embedding层加上两层GRU。之前处理的batch的格式主要是为了使用pack_padded_sequence和pad_packed_sequence这两个类对GRU输入输出批量处理。一定要注意各个变量的shape。

class Encoder(nn.Module):
    def __init__(self, input_dim, embedding_dim, hidden_dim, num_layers=2, dropout=0.2):
        super().__init__()

        self.input_dim = input_dim
        self.embedding_dim = embedding_dim
        self.hidden_dim = hidden_dim
        self.num_layers = num_layers
        self.dropout = dropout
        # input_dim = vocab_size + 1
        self.embedding = nn.Embedding(input_dim, embedding_dim)

        self.rnn = nn.GRU(embedding_dim, hidden_dim,
                          num_layers=num_layers, dropout=dropout)

        self.dropout = nn.Dropout(dropout)

    def forward(self, input_seqs, input_lengths, hidden=None):
        # src = [sent len, batch size]
        embedded = self.dropout(self.embedding(input_seqs))
        # embedded = [sent len, batch size, emb dim]
        packed = torch.nn.utils.rnn.pack_padded_sequence(embedded, input_lengths)
        outputs, hidden = self.rnn(packed, hidden)
        outputs, output_lengths = torch.nn.utils.rnn.pad_packed_sequence(outputs)
        # outputs, hidden = self.rnn(embedded, hidden)
        # outputs = [sent len, batch size, hid dim * n directions]
        # hidden = [n layers, batch size, hid dim]
        # outputs are always from the last layer
        return outputs, hidden

首先定义一下Attention层，这里主要是对encoder的输出进行attention操作，也可以直接对embedding层的输出进行attention。
论文Neural Machine Translation by Jointly Learning to Align and Translate中定义了attention的计算公式。

decoder的输出取决于decoder先前的输出和 x , 这里 x 包括当前GRU输出的hidden state（这部分已经考虑了先前的输出）以及attention（上下文向量，由encoder的输出求得）。计算公式如下：函数 g 非线性激活的全连接层，输入是 yi−1 , si , and ci 三者的拼接。

p (y i ∣ {y 1, . . ., y i - 1}, x) = g (y i - 1, s i, c i)

所谓的上下文向量就是对encoder的所有输出进行加权求和， aij 表示输出的第 i 个词对encoder第 j 个输出 hj 的权重。

c i = \sum j = 1 T x a i j h j

每个 aij 通过对所有 eij 进行softmax，而每个 eij 是decoder的上一个hidden state si−1 和指定的encoder的输出 hj 经过某些线性操作 a 计算得分。

a i j = e x p ( e i j ) \sum T k = 1 e x p ( e i k ) e i j = a (s i - 1, h j)

此外，论文Effective Approaches to Attention-based Neural Machine Translation中提出了计算分值的不同方式。这里用到的是第三种。

s c o r e (h t, h ¯ s) = ⎧ ⎩ ⎨ ⎪ ⎪ h ⊤ t h ¯ s h ⊤ t W a h ¯ s v ⊤ a W a [h t; h ¯ s] d o t g e n e r a l c o n c a t

class Attention(nn.Module):
    def __init__(self, hidden_dim):
        super(Attention, self).__init__()
        self.hidden_dim = hidden_dim
        self.attn = nn.Linear(self.hidden_dim * 2, hidden_dim)
        self.v = nn.Parameter(torch.rand(hidden_dim))
        self.v.data.normal_(mean=0, std=1. / np.sqrt(self.v.size(0)))

    def forward(self, hidden, encoder_outputs):
        #  encoder_outputs:(seq_len, batch_size, hidden_size)
        #  hidden:(num_layers * num_directions, batch_size, hidden_size)
        max_len = encoder_outputs.size(0)
        h = hidden[-1].repeat(max_len, 1, 1)
        # (seq_len, batch_size, hidden_size)
        attn_energies = self.score(h, encoder_outputs)  # compute attention score
        return F.softmax(attn_energies, dim=1)  # normalize with softmax

    def score(self, hidden, encoder_outputs):
        # (seq_len, batch_size, 2*hidden_size)-> (seq_len, batch_size, hidden_size)
        energy = F.tanh(self.attn(torch.cat([hidden, encoder_outputs], 2)))
        energy = energy.permute(1, 2, 0)  # (batch_size, hidden_size, seq_len)
        v = self.v.repeat(encoder_outputs.size(1), 1).unsqueeze(1)  # (batch_size, 1, hidden_size)
        energy = torch.bmm(v, energy)  # (batch_size, 1, seq_len)
        return energy.squeeze(1)  # (batch_size, seq_len)

下面是加了attention层的decoder，GRU的输出进过全连接层后，又进行了log_softmax操作计算输出词的概率，主要是为了方便NLLLoss损失函数，如果用CrossEntropyLoss损失函数，可以不加log_softmax操作。

class Decoder(nn.Module):
    def __init__(self, output_dim, embedding_dim, hidden_dim, num_layers=2, dropout=0.2):
        super().__init__()

        self.embedding_dim = embedding_dim
        self.hid_dim = hidden_dim
        self.output_dim = output_dim
        self.num_layers = num_layers
        self.dropout = dropout

        self.embedding = nn.Embedding(output_dim, embedding_dim)
        self.attention = Attention(hidden_dim)
        self.rnn = nn.GRU(embedding_dim + hidden_dim, hidden_dim,
                          num_layers=num_layers, dropout=dropout)
        self.out = nn.Linear(embedding_dim + hidden_dim * 2, output_dim)
        self.dropout = nn.Dropout(dropout)

    def forward(self, input, hidden, encoder_outputs):
        # input = [bsz]
        # hidden = [n layers * n directions, batch size, hid dim]
        # encoder_outputs = [sent len, batch size, hid dim * n directions]
        input = input.unsqueeze(0)
        # input = [1, bsz]
        embedded = self.dropout(self.embedding(input))
        # embedded = [1, bsz, emb dim]
        attn_weight = self.attention(hidden, encoder_outputs)
        # (batch_size, seq_len)
        context = attn_weight.unsqueeze(1).bmm(encoder_outputs.transpose(0, 1)).transpose(0, 1)
        # (batch_size, 1, hidden_dim * n_directions)
        # (1, batch_size, hidden_dim * n_directions)
        emb_con = torch.cat((embedded, context), dim=2)
        # emb_con = [1, bsz, emb dim + hid dim]
        _, hidden = self.rnn(emb_con, hidden)
        # outputs = [sent len, batch size, hid dim * n directions]
        # hidden = [n layers * n directions, batch size, hid dim]
        output = torch.cat((embedded.squeeze(0), hidden[-1], context.squeeze(0)), dim=1)
        output = F.log_softmax(self.out(output), 1)
        # outputs = [sent len, batch size, vocab_size]
        return output, hidden, attn_weight

我们再定义一个Seq2seq类，将encoder和decoder结合起来，通过一个循环，模型对每一个batch从前往后依次生成序列，训练的时候可以使用teacher_forcing随机使用真实词或是模型输出的词作为target，测试的时候就不需要了。

class Seq2Seq(nn.Module):
    def __init__(self, encoder, decoder, device, teacher_forcing_ratio=0.5):
        super().__init__()

        self.encoder = encoder
        self.decoder = decoder
        self.device = device
        self.teacher_forcing_ratio = teacher_forcing_ratio

    def forward(self, src_seqs, src_lengths, trg_seqs):
        # src_seqs = [sent len, batch size]
        # trg_seqs = [sent len, batch size]
        batch_size = src_seqs.shape[1]
        max_len = trg_seqs.shape[0]
        trg_vocab_size = self.decoder.output_dim
        # tensor to store decoder outputs
        outputs = torch.zeros(max_len, batch_size, trg_vocab_size).to(self.device)
        # hidden used as the initial hidden state of the decoder
        # encoder_outputs used to compute context
        encoder_outputs, hidden = self.encoder(src_seqs, src_lengths)
        # first input to the decoder is the  tokens
        output = trg_seqs[0, :]

        for t in range(1, max_len): # skip sos
            output, hidden, _ = self.decoder(output, hidden, encoder_outputs)
            outputs[t] = output
            teacher_force = random.random() < self.teacher_forcing_ratio
            output = (trg_seqs[t] if teacher_force else output.max(1)[1])
        return outputs

    def predict(self, src_seqs, src_lengths, max_trg_len=20, start_ix=1):
        max_src_len = src_seqs.shape[0]
        batch_size = src_seqs.shape[1]
        trg_vocab_size = self.decoder.output_dim
        outputs = torch.zeros(max_trg_len, batch_size, trg_vocab_size).to(self.device)
        encoder_outputs, hidden = self.encoder(src_seqs, src_lengths)
        output = torch.LongTensor([start_ix] * batch_size).to(self.device)
        attn_weights = torch.zeros((max_trg_len, batch_size, max_src_len))
        for t in range(1, max_trg_len):
            output, hidden, attn_weight = self.decoder(output, hidden, encoder_outputs)
            outputs[t] = output
            output = output.max(1)[1]
            attn_weights[t] = attn_weight
        return outputs, attn_weights

模型训练

这里直接取1000个batch进行更新。

embedding_dim = 100
hidden_dim = 100
batch_size = 256
clip = 5

encoder = Encoder(len(src_c2ix) + 1, embedding_dim, hidden_dim)
decoder = Decoder(len(trg_c2ix) + 1, embedding_dim, hidden_dim)
model = Seq2Seq(encoder, decoder, device).to(device)

optimizer = optim.Adam(model.parameters())
criterion = nn.NLLLoss(ignore_index=0).to(device)

model.train()
for batch_id in range(1, 1001):
    src_seqs, src_lengths, trg_seqs, _ = random_batch(batch_size, pairs, src_c2ix, trg_c2ix)

    optimizer.zero_grad()
    output = model(src_seqs, src_lengths, trg_seqs)
    loss = criterion(output.view(-1, output.shape[2]), trg_seqs.view(-1))
    loss.backward()
    torch.nn.utils.clip_grad_norm_(model.parameters(), clip)
    optimizer.step()

    if batch_id % 100 == 0:
        print('current loss: {:.4f}'.format(loss))

current loss: 0.8295
current loss: 0.3438
current loss: 0.1844
current loss: 0.0970
current loss: 0.0738
current loss: 0.0460
current loss: 0.0272
current loss: 0.0170
current loss: 0.0124
current loss: 0.0094

模型测试

在进行测试时，生成的句子不超过最大目标句子的长度，同时要保存生成的每个词对原端每个词的attention权重，以便可视化。

def show_attention(input_words, output_words, attentions):
    # Set up figure with colorbar
    fig = plt.figure()
    ax = fig.add_subplot(111)
    cax = ax.matshow(attentions, cmap='bone')
    fig.colorbar(cax)

    # Set up axes
    ax.set_xticklabels([''] + input_words)
    ax.set_yticklabels([''] + output_words)

    # Show label at every tick
    ax.xaxis.set_major_locator(ticker.MultipleLocator())
    ax.yaxis.set_major_locator(ticker.MultipleLocator())

    plt.show()
    plt.close()

def evaluate(model, text, src_c2ix, trg_ix2c):
    model.eval()
    with torch.no_grad():
        seq = torch.LongTensor(indexes_from_text(text, src_c2ix)).view(-1, 1).to(device)
        outputs, attn_weights = model.predict(seq, [seq.size(0)], max_trg_len)
        outputs = outputs.squeeze(1).cpu().numpy()
        attn_weights = attn_weights.squeeze(1).cpu().numpy()
        output_words = [trg_ix2c[np.argmax(word_prob)] for word_prob in outputs]
        show_attention(list('^' + text + '$'), output_words, attn_weights)

下面是我随便写的一个日期，可以看出attention的效果还是有的。完整代码在这里。

text = 'thirsty 1 before 3 clock afternon'
evaluate(model, text, src_c2ix, trg_ix2c)

python，squeeze的详细解释，代码并进行解释资源存储库笔记算法 python 开发语言
目录python，squeeze的详细解释，代码并进行解释Python中的squeeze操作主要作用：PyTorch中的squeeze示例1：去除所有单维度示例2：指定去除维度NumPy中的squeeze示例1：去除所有单维度示例2：指定去除维度何时使用squeeze？总结python，squeeze的详细解释，代码并进行解释Python中的squeeze操作Squeeze是一个用于去除张量或数组
PyTorch 深度学习实战（12）：Actor-Critic 算法与策略优化进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们介绍了强化学习的基本概念，并使用深度Q网络（DQN）解决了CartPole问题。本文将深入探讨Actor-Critic算法，这是一种结合了策略梯度（PolicyGradient）和值函数（ValueFunction）的强化学习方法。我们将使用PyTorch实现Actor-Critic算法，并应用于经典的CartPole问题。一、Actor-Critic算法基础Actor-Cri
PyTorch 深度学习实战（17）：Asynchronous Advantage Actor-Critic (A3C) 算法与并行训练进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们深入探讨了SoftActor-Critic(SAC)算法及其在平衡探索与利用方面的优势。本文将介绍强化学习领域的重要里程碑——AsynchronousAdvantageActor-Critic(A3C)算法，并展示如何利用PyTorch实现并行化训练来加速学习过程。一、A3C算法原理A3C算法由DeepMind于2016年提出，通过异步并行的多个智能体（Worker）与环境交互
【pytorch(cuda)】基于DQN算法的无人机三维城市空间航线规划（Python代码实现） wlz249 python pytorch 算法
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录⛳️赠与读者1概述一、研究背景与意义二、DQN算法概述三、基于DQN的无人机三维航线规划方法1.环境建模2.状态与动作定义3.奖励函数设计4.深度神经网络训练5.航线规划四、研究挑战与展望2运行结果3参考文献4Python代码实现⛳️赠与读者‍做科研，涉及到一个深在的
llama-factory微调 AI Echoes 深度学习人工智能机器学习 deepseek
大模型微调实操--llama-factoryllama-factory环境安装前置准备英伟达显卡驱动更新地址下载NVIDIA官方驱动|NVIDIAcuda下载安装地址CUDAToolkit12.2Downloads|NVIDIADeveloperpytorch下载安装地址PreviousPyTorchVersions|PyTorchllama-factory项目和文档地址https://githu
TorchServe详解和应用易之阴阳机器学习人工智能深度学习 python Torchserver
TorchServer是PyTorch的一个组件，它是一个轻量级的服务框架，用于部署和管理PyTorch模型，以便在生产环境中提供高效、可扩展的推理服务。TorchServer提供了RESTfulAPI，可以方便地与其他系统集成，支持模型热加载和热更新，确保模型的快速部署和更新。以下是TorchServer的一些关键特性：模型注册和管理：用户可以通过API注册模型，指定模型的路径、输入输出规范和所
PyTorch 生态概览：为什么选择动态计算图框架？小诸葛IT课堂 pytorch 人工智能 python
一、PyTorch的核心价值PyTorch作为深度学习框架的后起之秀，通过动态计算图技术革新了传统的静态图模式。其核心优势体现在：动态灵活性：代码即模型，支持即时调试Python原生支持：无缝衔接Python生态高效的GPU加速：通过CUDA实现透明的硬件加速活跃的社区生态：GitHub贡献者超1.8万人，日均更新100+次二、动态计算图VS静态计算图对比#动态计算图示例（PyTorch）impo
学习pytorch 阿什么名字不会重复呢学习 pytorch 人工智能
学习PyTorch是一个很好的选择，尤其是如果你对深度学习和机器学习感兴趣。以下是一个详细的学习计划，可以帮助你系统地掌握PyTorch的基本概念和应用。学习计划概览学习周期：8周（每周约4-5小时）目标：掌握PyTorch基础，能够实现简单的深度学习模型。第1周：基础知识目标：了解深度学习的基础知识，掌握Python和NumPy基础。任务：学习Python基础（数据类型、控制流、函数、类）。资源
Pytorch 小记第八回：GoogleNet卷积神经网络模型代码 Start_Present pytorch cnn 神经网络分类 python 深度学习
本次小记，提供了一份基于pytorch的GoogleNet卷积神经网络模型的代码。除此之外，对代码中不容易理解的部分进行了讲解。本代码的平台是PyCharm2024.1.3，python版本3.11numpy版本是1.26.4，pytorch版本2.0.0+cu118，d2l的版本是1.0.3importnumpyasnpimporttorchfromtorchimportnnfromtorchv
pytorch的使用：卷积神经网络模块樱花的浪漫 pytorch cnn pytorch 深度学习计算机视觉
1.读取数据分别构建训练集和测试集（验证集）DataLoader来迭代取数据使用transforms将数据转换为tensor格式#定义超参数input_size=28#图像的总尺寸28*28num_classes=10#标签的种类数num_epochs=3#训练的总循环周期batch_size=64#一个撮（批次）的大小，64张图片#训练集train_dataset=datasets.MNIST(
PyTorch 模型剪枝实例教程一、非结构化剪枝小风_ 模型压缩与加速 pytorch pytorch 深度学习人工智能
目录1.导包&定义一个简单的网络2.获取网络需要剪枝的模块3.模块剪枝（核心）4.总结目前大部分最先进的（SOTA）深度学习技术虽然效果好，但由于其模型参数量和计算量过高，难以用于实际部署。而众所周知，生物神经网络使用高效的稀疏连接（生物大脑神经网络balabala啥的都是稀疏连接的），考虑到这一点，为了减少内存、容量和硬件消耗，同时又不牺牲模型预测的精度，在设备上部署轻量级模型，并通过私有的设备
YOLOv8n-seg.pt的使用（实例分割，训练自己制作的数据集）再坚持一下！！！ YOLO
Ubuntu+python3一、YOLOV8源码下载参考：GitHub-ultralytics/ultralytics:NEW-YOLOv8inPyTorch>ONNX>OpenVINO>CoreML>TFLite二、数据集制作1.labelme下载：pip3installlabelme2.终端输入labelme,打开labelme。界面“打开目录”，打开图片目录images，进行多边形标注（右键
优化深度学习模型：PyTorch中的模型剪枝技术详解代码之光_1980 深度学习 pytorch 剪枝
标题：优化深度学习模型：PyTorch中的模型剪枝技术详解在深度学习领域，模型剪枝是一种提高模型效率和性能的技术。通过剪枝，我们可以去除模型中的冗余权重，从而减少模型的复杂度和提高运算速度，同时保持或甚至提升模型的准确率。本文将详细介绍如何在PyTorch框架中实现模型剪枝，并提供相应的代码示例。1.模型剪枝的基本概念模型剪枝主要分为两种类型：结构化剪枝和非结构化剪枝。结构化剪枝通常指的是剪除整个
模型保存与加载：PyTorch中的实践指南冰蓝蓝自然语言处理 pytorch 人工智能 python
在深度学习项目中，模型的保存和加载是一个至关重要的步骤。它不仅有助于在训练过程中保存进度，还可以在训练完成后部署模型。PyTorch提供了灵活的方式来保存和加载模型，本文将详细介绍这些方法。模型保存在PyTorch中，有两种主要的模型保存方法：保存整个模型和仅保存模型参数。保存整个模型保存整个模型意味着保存模型的结构和参数。这种方法简单直接，但文件体积较大，且依赖于模型的具体实现。importto
torch.unsqueeze：灵活调整张量维度的利器冰蓝蓝 transformer transformer 深度学习
在深度学习框架PyTorch中，张量（Tensor）是最基本的数据结构，它类似于NumPy中的数组，但可以在GPU上运行。在日常的深度学习编程中，我们经常需要调整张量的维度以适应不同的操作和层。torch.unsqueeze函数就是PyTorch提供的一个非常有用的工具，用于在指定位置增加张量的维度。本文将详细介绍torch.unsqueeze的用法和一些实际应用场景。什么是torch.unsqu
pytorch中的DataLoader 朋也透william pytorch 人工智能 python
在PyTorch中，DataLoader是一个工具类，用于高效地加载数据并准备数据输入到模型中。它支持数据的批量加载、随机打乱、并行加载和迭代操作，是训练深度学习模型的关键组件之一。1.基本功能DataLoader的主要职责是从数据集中提取样本，并根据设置返回一个批次的数据。它与Dataset类结合使用：Dataset：定义数据集的来源、结构以及如何获取单个数据样本。DataLoader：负责从D
pytorch 天花板级别的知识点你可以不会用但是不能不知道小赖同学啊人工智能 pytorch 人工智能 python
PyTorch的高级知识涵盖了从模型优化到分布式训练的广泛内容，适合已经掌握基础知识的开发者进一步提升技能。以下是PyTorch的高级知识点，详细且全面：1.模型优化与加速1.1混合精度训练定义：使用半精度（FP16）和单精度（FP32）混合训练，减少内存占用并加速计算。实现：使用torch.cuda.amp模块。示例：fromtorch.cuda.ampimportautocast,GradSc
Pytorch Dataloader入门 gy-7 pytorch 深度学习机器学习
PytorchDataloadercode：torch/utils/data/dataloader.py#L71PytorchDatasettutorial:tutorials/beginner/basics/data_tutorial.html理论：在训练模型时，我们通常希望：以“mini-batch”方式传递样本，能够加速训练。每个epoch都shuffle数据，能够减少模型过拟合。使用Pyt
PyTorch中，将`DataLoader`加载的数据高效传输到GPU 大霸王龙 pytorch 人工智能 python
一、数据加载到GPU的核心步骤数据预处理与张量转换若原始数据为NumPy数组或Python列表，需先转换为PyTorch张量：X_tensor=torch.from_numpy(X).float()#转换为浮点张量y_tensor=torch.from_numpy(y).long()#分类任务常用长整型显式指定设备：通过.to(device)将数据移至GPU（需提前定义device对象）：devi
PyTorch中tensor赋值运算符华zyh 强化学习 pytorch
t=torch.ones((3,3))t0=tt1=t.dataprint(id(t),id(t0),id(t1),id(t.data))运行结果：2132926456040213292645604021332763196402132924110392t0与t完全相同。t1与t.data地址不一样（但是，t1.data与t.data地址相同）
ChatGPT智能聊天机器人实现云端源想 chatgpt 机器人
以下是一个从零实现类ChatGPT智能聊天机器人的完整开发指南，包含技术选型、核心代码逻辑和推荐学习资源：—云端平台整理一、技术架构与工具核心模型基座模型：HuggingFaceTransformers库（如GPT-2/GPT-3.5TurboAPI/LLaMA2）轻量化方案：微软DeepSpeed或MetaFairScale（降低显存占用）训练框架PyTorchLightning+Acceler
【动手学深度学习】#1PyTorch基础操作 -一杯为品- 机器学习深度学习人工智能
主要参考学习资料：《动手学深度学习》阿斯顿·张等著【动手学深度学习PyTorch版】哔哩哔哩@跟李牧学AI目录1.1数据操作1.1.1入门1.1.2运算符1.1.3广播机制1.1.4索引和切片1.1.5节省内存1.1.6转换为其他Python对象1.2数据预处理1.2.1读取数据集1.2.2处理缺失值1.2.3转换为张量格式1.3线性代数1.3.1标量1.3.2向量1.3.3矩阵1.3.4张量1.
从零开始大模型开发与微调：PyCharm的下载与安装 AI天才研究院 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
从零开始大模型开发与微调：PyCharm的下载与安装1.背景介绍随着人工智能和深度学习技术的不断发展,大型语言模型(LargeLanguageModels,LLMs)已经成为当前最引人注目的研究热点之一。LLMs能够在各种自然语言处理任务上展现出惊人的性能,例如机器翻译、文本生成、问答系统等。PyTorch和TensorFlow等深度学习框架为训练和微调大型语言模型提供了强大的支持。PyCharm
PyTorch从入门到精通：探索深度学习新境界 lmtealily 深度学习 pytorch 人工智能
引言PyTorch作为当前最受欢迎的深度学习框架之一，凭借其动态计算图的独特设计和与Python生态的无缝集成，正重塑着人工智能开发的新范式1。从NVIDIA的研究实践到Meta的产业应用，PyTorch的价值已渗透至学术研究、工业部署的每个角落。本文将带领您从张量操作基础开始，逐步探索GPU加速、动态图机制、框架生态集成等高级主题，最终实现理论与实战的双重突破。一、PyTorch核心基础构建1.
如何测试模型的推理速度想要躺平的一枚 AI图像算法计算机视觉
前言模型的推理速度测试有两种方式：一种是使用python的时间戳time函数来记录，另一种是使用Pytorch里的Event。同时，在进行GPU测试时，为减少冷启动的状态影响，可以先进行预热。代码如下（示例）：if__name__=="__main__":model=BiSeNet(backbone='STDCNet813',n_classes=2,export=True)model.cuda()
Vision Transformer (ViT) 详细描述及 PyTorch 代码全解析 AIGC_ZY CV transformer pytorch 深度学习
VisionTransformer(ViT)是一种将Transformer架构应用于图像分类任务的模型。它摒弃了传统卷积神经网络(CNN)的卷积操作，而是将图像分割成patches，并将这些patches视为序列输入到Transformer编码器中。ViT的处理流程输入图像被分割成多个固定大小的patch，每个patch经过线性投影变成嵌入向量，然后加上位置编码。接着，这些嵌入向量会和类别标签（c
PyTorch 环境搭建全攻略：CUDA/cuDNN 配置与多版本管理技巧小诸葛IT课堂 pytorch 人工智能 python
一、环境搭建前的准备工作1.硬件兼容性检测#检查NVIDIAGPU型号nvidia-smi#验证CUDA支持的ComputeCapabilitylspci|grep-invidia#查看CUDA版本兼容性矩阵https://developer.nvidia.com/cuda-gpus2.系统环境要求组件推荐配置最低要求操作系统Ubuntu20.04LTSWindows10/11显卡驱动NVIDIA
PyTorch 实现 Conditional DCGAN（条件深度卷积生成对抗网络）进行图像到图像转换的示例代码 max500600 算法 python YOLO 深度学习人工智能
以下是一个使用PyTorch实现ConditionalDCGAN（条件深度卷积生成对抗网络）进行图像到图像转换的示例代码。该代码包含训练和可视化部分，假设输入为图片和4个工艺参数，根据这些输入生成相应的图片。1.导入必要的库importtorchimporttorch.nnasnnimporttorch.optimasoptimimporttorchvisionimporttorchvision.
【模块化编程】数据标签转独热编码十二月的猫 pytorch 人工智能科研与代码
个人主页：十二月的猫-CSDN博客系列专栏：《PyTorch科研加速指南：即插即用式模块开发》-CSDN博客十二月的寒冬阻挡不了春天的脚步，十二点的黑夜遮蔽不住黎明的曙光目录1.前言2.标签转独热编码函数2.1完整函数2.2函数功能解释3.实战示例4.总结1.前言《Python/PyTorch极简课》专栏持续更新中，未来最少文章数量为100篇。由于专栏刚刚建立，目前免费，后续将慢慢恢复原价至99.
vscode--工作区和相对路径一头大学牲程序--编程记录 vscode ide 编辑器
vscode的相对路径使用vscode编辑python项目时发现，它的相对路径是相对于当前工作根目录来定位的，也就是从工作文件夹的最顶级目录开始查找，而非是从当前执行文件开始查找。例子：根目录：F:\deep-learning-for-image-processing执行文件路径：F:\deep-learning-for-image-processing\pytorch_classificatio
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多

PyTorch使用seq2seq+attention实现时间格式转换

pytorch实现seq2seq+attention转换日期

预处理

模型定义

模型训练

模型测试

你可能感兴趣的:(pytorch)