光英的记忆

pytorch LSTM从头开始训练一个语言模型代码及其注释

利用lstm 和gru 训练一个语言模型

这个语言模型就是输入一个词预测下一个词是什么

**********************************************************************************************************
emb: torch.Size([32, 32, 650])
hidden ([2,32,650],[2,32,650])
这里的Hidden 是包括 hidden 和cell (hidden,cell)

output torch.Size([32, 32, 650]) 是 [seq_len,batch_Size, embed_size]
RNN 的输出是前面的Hidden 和当前的Input 预测出来的 prey shape 自认和输入的shape 一样 [seq_len,batch_size,embed_szie]
抛开批维度来看输入就是 [seq_lenth,embed_Size]>>>>output 输出 [seq_len,embed_Size]
hidden 则是最后的隐藏状态维度 [1,hidden_Size] 这里我们一般 hidden_size==embed_size
因为每次一个序列输出之后我们都只是拿到最后的隐藏状态中间状态我们都没有拿和cell状态

如果加上批处理维度在加上2层 [layers,batch_size,hidden_size] cell 的维度一样 GRu 没有这cell 只有一个状态

如果是双层的化 hidden 的是 size ==[layers*2,batch_Size,hidden_size]

一般我们会进行一个双向的合并 hidden[-1]+hidden[-2] 进行相加

模型的本质就是上一个隐藏状态 [1,1,hidden_Size]+[1,1,embed_size]>>>>output[1,1,embed_Size]

根据 LsTM的推导公式是可以看出我么计算当前 Hidden的时候只用到上个Hidden 没有用到cell cell是根据 ft it ct算出来的
************************************************************************************************************

"""
https://github.com/pytorch/text

学习语言模型，以及如何训练一个语言模型
学习torchtext的基本使用方法
构建 vocabulary
word to inde 和 index to word
学习torch.nn的一些基本模型
Linear
RNN
LSTM
GRU
RNN的训练技巧
Gradient Clipping
如何保存和读取模型
我们会使用 torchtext 来创建vocabulary, 然后把数据读成batch的格式。请大家自行阅读README来学习torchtext。

"""


import torchtext
from torchtext.vocab import Vectors
import torch
import numpy as np
import random

USE_CUDA=torch.cuda.is_available()
device=torch.device('cuda' if USE_CUDA else 'cpu')

#为了保证实验结果可以复现  我们经常会吧各种random seed 固定在某一个值
random.seed(53113)
np.random.seed(53113)
torch.manual_seed(53113)

if USE_CUDA:
    torch.cuda.manual_seed(53113)
    
BATCH_SIZE=32
EMBEDDING_SIZE=650
MAX_VOCAB_SIZE=50000

"""
我们会继续使用上次的text8作为我们的训练，验证和测试数据
TorchText的一个重要概念是Field，它决定了你的数据会如何被处理。我们使用TEXT这个field来处理文本数据。
我们的TEXT field有lower=True这个参数，所以所有的单词都会被lowercase。
torchtext提供了LanguageModelingDataset这个class来帮助我们处理语言模型数据集。
build_vocab可以根据我们提供的训练数据集来创建最高频单词的单词表，max_size帮助我们限定单词总量。
BPTTIterator可以连续地得到连贯的句子，BPTT的全程是back propagation through time。
"""
TEXT=torchtext.data.Field(lower=True)
train,val,test=torchtext.datasets.LanguageModelingDataset.splits(path='.',
                                                                train='/root/torch/data/text8/text8.train.txt',
                                                                validation='/root/torch/data/text8/text8.dev.txt',
                                                                test='/root/torch/data/text8/text8.test.txt',text_field=TEXT)

TEXT.build_vocab(train,max_size=MAX_VOCAB_SIZE)
print('vocabulary size:{}'.format(len(TEXT.vocab)))
#vocabulary size:50002

VOCAB_SIZE=len(TEXT.vocab)

train_iter,val_iter,test_iter=torchtext.data.BPTTIterator.splits(
    (train,val,test),batch_size=BATCH_SIZE,device=device,bptt_len=32,repeat=False,shuffle=True)

"""
为什么我们的单词表有50002个单词而不是50000呢？因为TorchText给我们增加了两个特殊的token，表示未知的单词，表示padding。
模型的输入是一串文字，模型的输出也是一串文字，他们之间相差一个位置，因为语言模型的目标是根据之前的单词预测下一个单词。
"""
"""
torch.text size ===[bptt_len,batch_size]
第一维是输入句子的长度  第二维度是批次 

batch=[torchtext.data.batch.Batch of size 32]
	[.text]:[torch.LongTensor of size 32x32]
	[.target]:[torch.LongTensor of size 32x32]
    
    取出一批中第一个样本
    print(" ".join([TEXT.vocab.itos[i] for i in batch.text[:,1].data]))
    print(" ".join([TEXT.vocab.itos[i] for i in batch.target[:,1].data]))
    combine in pairs and then group into trios of pairs which are the smallest visible units of matter this parallels with the 
    structure of modern atomic theory in which pairs or triplets of supposedly fundamental quarks combine to create most 
    typical forms of matter they had also suggested the possibility of splitting an atom which as we know today is

    in pairs and then group into trios of pairs which are the smallest visible units of matter this parallels with the structure
    of modern atomic theory in which pairs or triplets of supposedly fundamental quarks combine to create most typical
    forms of matter they had also suggested the possibility of splitting an atom which as we know today is the
"""
it=iter(train_iter)
batch=next(it)

"""
定义模型
继承nn.Module
初始化函数
forward函数
其余可以根据模型需要定义相关的函数
"""

import torch
import torch.nn as nn

class RNNModel(nn.Module):
    """
    rnn_type  gru  or  lstm>>>"LSTM"
    ntoken   词典维度 >>>50002
    ninp  input 词嵌入维度 embed_size>>>>650
    nlayers   多少层>>>>>>>2
    nhide   隐藏层>>>>>>>>650
    ('LSTM',VOCAB_SIZE=50002,EMBEDDING_SIZE=650,EMBEDDING_SIZE=650,nlayer=2,dropout=0.5)
    
    """
    def __init__(self,rnn_type,ntoken,ninp,nhid,nlayers,dropout=0.5):
        super(RNNModel,self).__init__()
        """
        dropout 层 用来做正则化
        词嵌入层
        循环网络层
        一个线性层  用来从hidden_state 到词典表的映射输出
        
        """
        self.dropout=nn.Dropout(dropout)
        #ntoken  词典维度  ninp 词嵌入维度
        #词嵌入层[bpttlen,ntoken]>>[bpttlen,ninp]
        #[32,50002]>>>>>[32,650]
        self.encoder=nn.Embedding(ntoken,ninp)
        if rnn_type in ['LSTM','GRU']:
            #根据属性获取 相关网络层 
            # ninp embed_size   nhide 隐藏层维度  nlayers 多少层  
            #ninp=650  nhid=650  nlayers=2
            self.rnn=getattr(nn,rnn_type)(ninp,nhid,nlayers,dropout=dropout)
        else:
            try:
                nonlinearity={'RNN_TANH':'tanh','RNN_RELU':'relu'}[rnn_type]
            except KeyError:
                raise ValueError(""" an invalid option foe  '--model' was supplied
                                options are ['LSTM','GRU','RNN_THAN' or 'RNN_RELU']""")
            self.rnn=nn.RNN(ninp,nhid,nlayers,nonlinearity=nonlinearity,dropout=dropout)
        
        self.decoder=nn.Linear(nhid,ntoken)
        
        self.init_weights()
        self.rnn_type=rnn_type
        self.nhid=nhid
        self.nlayers=nlayers
        
    def init_weights(self):
        initrange=0.1
        self.encoder.weight.data.uniform_(-initrange,initrange)
        
        self.decoder.bias.data.zero_()
        self.decoder.weight.data.uniform_(-initrange,initrange)
        
    """
   input= data  torch.text size ===[bptt_len,batch_size] >>[32,32]
    """
    def  forward(self,input,hidden):
        """
        forward pass
        --word embedding
        ---输入循环神经网络
        --一个线性层 从Hidden state 转换为输出单词 词典 
        emb==[bptt-len,batch_Size,embed_size]
        emb: torch.Size([32, 32, 650])
        """
        #emb: torch.Size([32, 32, 650])
        emb=self.dropout(self.encoder(input))
        #print("emb:",emb.size())
        """
        **********************************************************************************************************
        emb: torch.Size([32, 32, 650])
        hidden ([2,32,650],[2,32,650])
        这里的Hidden 是包括  hidden  和cell  (hidden,cell)
        
        output torch.Size([32, 32, 650]) 是 [seq_len,batch_Size, embed_size]  
        RNN 的输出 是前面的Hidden  和当前的Input 预测出来的 prey  shape  自认和输入的shape 一样  [seq_len,batch_size,embed_szie]
        抛开批维度 来看 输入就是  [seq_lenth,embed_Size]>>>>output 输出 [seq_len,embed_Size]  
        hidden  则是最后的隐藏状态 维度 [1,hidden_Size] 这里我们一般 hidden_size==embed_size
        因为每次一个序列输出之后  我们都只是拿到最后的隐藏状态    中间状态我们都没有拿  和cell状态 
        
        如果加上批处理维度  在加上2层  [layers,batch_size,hidden_size]  cell 的维度一样  GRu 没有这cell 只有一个状态 
        
        如果是双层的化  hidden 的是 size ==[layers*2,batch_Size,hidden_size] 
        
        一般我们会进行一个双向的合并   hidden[-1]+hidden[-2]  进行相加  
        
        模型的本质就是上一个隐藏状态 [1,1,hidden_Size]+[1,1,embed_size]>>>>output[1,1,embed_Size]
        
        根据 LsTM的推导公式是可以看出 我么计算当前  Hidden的时候 只用到上个Hidden 没有用到cell  cell是根据 ft  it  ct算出来的 
        ************************************************************************************************************
        """
        output,hidden=self.rnn(emb,hidden)
        output=self.dropout(output)
        #output: torch.Size([32, 32, 650])
        #print("output:",output.size())
        #[32*32,650]>>>[1024,50002]
        decoded=self.decoder(output.view(-1,output.size(2)))
        #decoded: torch.Size([1024, 50002])
        #print("decoded:",decoded.size())
        """
        返回形状  [32,32,50002]
        hidden    ==([2,32,650],[2,32,650])
        """
        return decoded.view(output.size(0),output.size(1),decoded.size(1)),hidden
    
    def init_hidden(self,bsz,requires_grad=True):
        weight=next(self.parameters())
        #LSTM  2个中间状态
        if self.rnn_type=='LSTM':
            """
            ([nlayers,batch_size,nhid])
            ([2,32,650],[2,32,650])
            """
            return (weight.new_zeros((self.nlayers,bsz,self.nhid),requires_grad=requires_grad),
                   weight.new_zeros((self.nlayers,bsz,self.nhid),requires_grad=requires_grad))
        else:
            """
            [2,32,650]
            """
            return weight.new_zeros((self.nlayers,bsz,self.nhid),requires_grad=requires_grad)
        
        
"""
初始化模型
('LSTM',VOCAB_SIZE=50002,EMBEDDING_SIZE=650,EMBEDDING_SIZE=650,nlayer=2,dropout=0.5)
"""
model =RNNModel('LSTM',VOCAB_SIZE,EMBEDDING_SIZE,EMBEDDING_SIZE,2,dropout=0.5)
if USE_CUDA:
    model=model.cuda()
    
    
"""
我们首先定义评估模型的代码。
模型的评估和模型的训练逻辑基本相同，唯一的区别是我们只需要forward pass，不需要backward pass
"""
def evaluate(model, data):
    model.eval()
    total_loss = 0.
    it = iter(data)
    total_count = 0.
    with torch.no_grad():
        hidden = model.init_hidden(BATCH_SIZE, requires_grad=False)
        for i, batch in enumerate(it):
            data, target = batch.text, batch.target
            if USE_CUDA:
                data, target = data.cuda(), target.cuda()
            hidden = repackage_hidden(hidden)
            with torch.no_grad():
                output, hidden = model(data, hidden)
            loss = loss_fn(output.view(-1, VOCAB_SIZE), target.view(-1))
            total_count += np.multiply(*data.size())
            total_loss += loss.item()*np.multiply(*data.size())
            
    loss = total_loss / total_count
    model.train()
    return loss


"""
我们需要定义下面的一个function，帮助我们把一个hidden state和计算图之前的历史分离。
"""
# Remove this part
#hidden ([2,32,650],[2,32,650]))
def repackage_hidden(h):
    """Wraps hidden states in new Tensors, to detach them from their history."""
    """
    #hidden ([2,32,650],[2,32,650]))
    """
    if isinstance(h, torch.Tensor):
        return h.detach()
    else:
        return tuple(repackage_hidden(v) for v in h)
    
    
"""
定义Loss_fn 和optimizer
"""
loss_fn=nn.CrossEntropyLoss()
learning_rate=1e-3
optimizer=torch.optim.Adam(model.parameters(),lr=learning_rate)
scheduler=torch.optim.lr_scheduler.ExponentialLR(optimizer,0.5)


"""
训练模型：

模型一般需要训练若干个epoch
每个epoch我们都把所有的数据分成若干个batch
把每个batch的输入和输出都包装成cuda tensor
forward pass，通过输入的句子预测每个单词的下一个单词
用模型的预测和正确的下一个单词计算cross entropy loss
清空模型当前gradient
backward pass
gradient clipping，防止梯度爆炸
更新模型参数
每隔一定的iteration输出模型在当前iteration的loss，以及在验证集上做模型的评估
"""
GRAD_CLIP = 1.
NUM_EPOCHS = 2

val_losses = []
for epoch in range(NUM_EPOCHS):
    model.train()
    it = iter(train_iter)
    """
    
    """
    hidden = model.init_hidden(BATCH_SIZE)
    for i, batch in enumerate(it):
        """
       data  torch.text size ===[bptt_len,batch_size] >>[32,32]
        target        size ===[bptt_len,batch_size] >>[32,32]
        第一维是输入句子的长度  第二维度是批次 
        print("data:",data.size(),"target:",target.size())
        data: torch.Size([32, 32]) target: torch.Size([32, 32])
        """
        data, target = batch.text, batch.target
        if USE_CUDA:
            data, target = data.cuda(), target.cuda()
            
        #hidden ([2,32,650],[2,32,650]))
        hidden = repackage_hidden(hidden)
        
        model.zero_grad()
        """
        output==[32,32,50002]  ..[bptt_len,batch_size,vocab_size]
        hidden ([2,32,650],[2,32,650]))
        """
        output, hidden = model(data, hidden)
        """
        #[1024,50002]    target.view(-1) ===[1024,]
        target 的编码维度也是50002维度 onehot编码
        然后开始求预测的这2个分布的交叉熵   越小分布越相似
        """
        
        loss = loss_fn(output.view(-1, VOCAB_SIZE), target.view(-1))
        #print("target.view(-1):",target.view(-1).size())
        loss.backward()
        torch.nn.utils.clip_grad_norm_(model.parameters(), GRAD_CLIP)
        optimizer.step()
        if i % 1000 == 0:
            print("epoch", epoch, "iter", i, "loss", loss.item())
    
        if i % 10000 == 0:
            val_loss = evaluate(model, val_iter)
            
            if len(val_losses) == 0 or val_loss < min(val_losses):
                print("best model, val loss: ", val_loss)
                torch.save(model.state_dict(), "lm-best.th")
            else:
                scheduler.step()
                optimizer = torch.optim.Adam(model.parameters(), lr=learning_rate)
            val_losses.append(val_loss)
            
            
"""

加载模型  在验证集合 和测试集合上各跑一遍
先初始化一个模型 
"""
best_model=RNNModel('LSTM',VOCAB_SIZE,EMBEDDING_SIZE,EMBEDDING_SIZE,2,dropout=0.5)
if USE_CUDA:
    best_model=best_model.cuda()
"""
加载模型参数 这是torch的推荐保存方式 
"""
best_model.load_state_dict(torch.load("lm-best.th"))
"""
在验证集合  测试集合  上泡一下数据
"""
val_loss=evaluate(best_model,val_iter)
print('perplexity:',np.exp(val_loss))

test_loss=evaluate(best_model,test_iter)

"""
""numpy.exp()：返回e的幂次方，e是一个常数为2.71828
"""
print("perplexity:test_loss:",np.exp(test_loss))

"""
使用训练好的模型生成一些句子。
"""
"""
([2,1,650],[2,1,650])这个产生一个隐藏状态   
1 是batch_size
初始化个批次的数据 
"""
hidden=best_model.init_hidden(1)
device=torch.device('cuda' if USE_CUDA else 'cpu')
"""
产生一个（1,1）的数字 作为输入  正常输入 【32,32】]1
1代表 bpttlen  1 代表批次
"""
input=torch.randint(VOCAB_SIZE,(1,1),dtype=torch.long).to(device)
words=[]
# 产生100个单词 
for i in range(100):
    """
    input[1,1]  hidden([2,1,650],[2,1,650])
    output[1,1,50002] hidden ([2,1,650],[2,1,650])
    输入一个单词 预测一个单词 循环100次 
    """
    output,hidden=best_model(input,hidden)
    #word_weights=[50002]  取最后一维度
    word_weights=output.squeeze().exp().cpu()
    # 按照权重 产生 50002维度 那个可能的值得索引  下标  也就是产生一个单词的索引
    # 拿到单词的idx 可以拿到单词  
    # 按照权重产生单词 这样每次拿到的单词是不同的额     增加的多变性   
    word_idx=torch.multinomial(word_weights,1)[0]
    #作为下一次的输入  
    input.fil_(word_idx)
    word=TEXT.vocab.itos[word_idx]
    words.append(word)
    
    
print("".join(words))

NeRF-Pytorch：NeRF神经辐射场复现——Pytorch版全流程分析与测试【Ubuntu20.04】【2025最新版！！！】那就举个栗子！三维重建计算机视觉人工智能
一、引言在计算机视觉和计算机图形学的交叉领域中，视图合成（ViewSynthesis）一直是一个充满挑战的研究方向。传统的三维重建方法往往需要复杂的几何建模和纹理映射过程，而且在处理复杂光照和材质时效果有限。2020年，来自UCBerkeley的研究团队提出了NeuralRadianceFields（NeRF），这一革命性的方法彻底改变了我们对三维场景表示和渲染的理解。NeRF的核心思想是将三维场
【Python】科研代码学习：十三 Accelerate 溢流眼泪【科研代码】python 学习开发语言
【Python】科研代码学习：十三AccelerateAccelerate统一的加速接口修改训练代码(torch.nn)更简单的使用Accelerate【HF官网-Doc-Accelerate：API】HFAccelerate是一个库，能够让PyTorch代码添加几行代码之后，就能在分布式配置中运行（比如多Gpus卡）前言：建议Python3.8+pipinstallaccelerate统一的加速
深度学习使用Pytorch训练模型步骤 vvvdg 深度学习 pytorch 人工智能
训练模型是机器学习和深度学习中的核心过程，旨在通过大量数据学习模型参数，以便模型能够对新的、未见过的数据做出准确的预测。训练模型通常包括以下几个步骤：1.数据准备：收集和处理数据，包括清洗、标准化和归一化。将数据分为训练集、验证集和测试集。2.定义模型：选择模型架构，例如决策树、神经网络等。初始化模型参数（权重和偏置）。3.选择损失函数：根据任务类型（如分类、回归）选择合适的损失函数。4.选择优化
【PyTorch】2024保姆级安装教程-Python-（CPU+GPU详细完整版）金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 python pytorch 人工智能
【PyTorch】2024保姆级安装教程（CPU+GPU详细完整版）PyTorch是当前最受欢迎的深度学习框架之一。本文将详细讲解在Python环境中安装PyTorch，包括CPU和GPU版本的全方位指南。一、前置环境首先确保已安装Python环境，推荐使用Python3.8或以上版本。验证Python安装：python--versionpip--version推荐使用虚拟环境（如conda或ve
基于OpenCV图像分割与PyTorch的增强图像分类方案从零开始学习人工智能 opencv pytorch 分类
在图像分类任务中，背景噪声和复杂场景常常会对分类准确率产生负面影响。为了应对这一挑战，本文介绍了一种结合OpenCV图像分割与PyTorch深度学习框架的增强图像分类方案。通过先对图像进行分割提取感兴趣区域（RegionofInterest，ROI），再进行分类，可以有效减少背景干扰，突出关键特征，从而提高分类准确率。该方案在多种复杂场景下表现出色，尤其适用于图像背景复杂或包含多个对象的情况。一、
Windows系统部署YOLOv5 v6.1版本的训练与推理环境保姆级教程 lujx_1024 windows YOLO
文章目录一·概述二·依赖环境(`prerequisites`)2.1硬件环境2.2软件环境三·环境安装3.1创建并激活虚拟环境3.2安装`Pytorch`与`torchvision`3.3校验`Pytorch`安装3.4下载`YOLOv5``v6.1`源码3.5安装`YOLOv5`依赖3.6下载预训练模型3.7安装其他依赖3.8测试环境安装3.9测试训练流程四·参考链接一·概述本文档主要记录使用工
Python pdfminer.six库【PDF解析库】全面使用指南老胖闲聊 Python库大全 python pdf 开发语言
想全面了解DeepSeek的看过来【包邮】DeepSeek全攻略人人需要的AI通识课零基础掌握DeepSeek的实用操作手册指南【限量作者亲笔签名版售完即止】玩转DeepSeek这本就够了【自营包邮】DeepSeek实战指南deepseek从入门到精通实用操作指南现代科技科普读物AI普及知识读物人工智能使用教程中小学读物京东超级618Python初学者的入门教程动手学深度学习PyTorch版李沐和
Day33打卡 @浙大疏锦行 ayuan0119 python打卡shu python
知识点回顾：PyTorch和cuda的安装查看显卡信息的命令行命令（cmd中使用）cuda的检查简单神经网络的流程数据预处理（归一化、转换成张量）#仍然用4特征，3分类的鸢尾花数据集作为我们今天的数据集fromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitimportnumpyasnp
DAY 43 复习日 yizhimie37 python训练营打卡笔记深度学习
@浙大疏锦行https://blog.csdn.net/weixin_45655710第一步：寻找并准备图像数据集在Kaggle等平台上，你可以找到大量用于图像分类任务的数据集，例如英特尔图像分类数据集(IntelImageClassification)或手写数字识别数据集(DigitRecognizer)。对于初学者，一个更便捷的选择是使用像TensorFlow或PyTorch这样深度学习框架内
CIANNA由天体物理学家提供/为天体物理学家提供的卷积交互式人工神经网络 struggle2025 神经网络
一、软件介绍文末提供程序和源码下载CIANNA是一个通用的深度学习框架，主要用于天文数据分析。根据天体物理问题解决的相关性添加功能和优化。CIANNA可用于为各种任务构建和训练大型神经网络模型，并提供高级Python接口（类似于keras、pytorch等）。CIANNA的特点之一是它定制实施了受YOLO启发的对象探测器，用于2D或3D射电天文数据产品中的星系探测。该框架通过低级CUDA编程完全实
PyTorch study notes[4]
文章目录thesystemofequationsreferencesthesystemofequationsthedefinitionofmatrixwithmathematicalform.thefollowingsamplecodeexpressesthemaxtrixandsquarematrix.importtorch#从Python列表创建矩阵matrix=torch.tensor([[
【PyTorch】分布式训练报错记录-ERROR:torch.distributed.elastic.multiprocessing.api:failed (exitcode: 1) XuecWu3 pytorch 分布式人工智能深度学习
最近，我在服务器上起基于PyTorch分布式框架的预训练实验，起初实验都在顺利进行，但是当我们把模型的深度与宽度调大之后，模型在训练几代之后便会出现如下的报错：WARNING:torch.distributed.elastic.multiprocessing.api:Sendingprocess41495closingsignalSIGTERMWARNING:torch.distributed.e
day39 心落薄荷糖 Python训练营 python
#先继续之前的代码importtorchimporttorch.nnasnnimporttorch.optimasoptimfromtorch.utils.dataimportDataLoader,Dataset#DataLoader是PyTorch中用于加载数据的工具fromtorchvisionimportdatasets,transforms#torchvision是一个用于计算机视觉的库，
Python机器学习元学习库higher 音程机器学习人工智能 python 机器学习
higher是一个用于元学习（Meta-Learning）和高阶导数（Higher-ordergradients）的Python库，专为PyTorch设计。它扩展了PyTorch的自动微分机制，使得在训练过程中可以动态地计算参数的梯度更新，并把这些更新过程纳入到更高阶的梯度计算中。一、主要用途higher主要用于以下场景：元学习（Meta-Learning）比如MAML（Model-Agnosti
强化学习 16G实践以下是基于CQL（Conservative Q-Learning）与QLoRA（Quantized Low-Rank Adaptation）结合的方案相关开源项目及资源，【ai技】行云流水AI笔记开源人工智能
根据你提供的CUDA版本（11.5）和NVIDIA驱动错误信息，以下是PyTorch、TensorFlow的兼容版本建议及环境修复方案：1.版本兼容性表框架兼容CUDA版本推荐安装命令（CUDA11.5）PyTorch11.3/11.6pipinstalltorchtorchvisiontorchaudio--extra-index-urlhttps://download.pytorch.org/
【机器学习&深度学习】反向传播机制
目录一、一句话定义二、类比理解三、为什重要？四、用生活例子解释：神经网络=烹饪机器人4.1第一步：尝一口（前向传播）4.2第二步：倒着推原因（反向传播）五、换成人工智能流程说一遍六、图示类比：找山顶（最优参数）七、总结一句人话八、PyTorch代码示例：亲眼看到每一层的梯度九、梯度=损失函数对参数的偏导数十、类比总结反向传播（Backpropagation）是神经网络中训练过程的核心机制，它就像“
Transformer底层原理解析及基于pytorch的代码实现 LiRuiJie 人工智能 transformer pytorch 深度学习
1.Transformer底层原理解析1.1核心架构突破Transformer是自然语言处理领域的革命性架构，其核心设计思想完全摒弃了循环结构，通过自注意力机制实现全局依赖建模。整体架构图如下：以下是其核心组件：1）自注意力机制（Self-Attention）-输入序列的每个位置都能直接关注所有位置-数学公式（缩放点积注意力）：-Q：查询矩阵（当前关注点）-K：键矩阵（被比较项）-V：值矩阵（实际
pytorch-数学运算码啥码深度学习之pytorch pytorch 深度学习 python
四则运算加减乘除add+sub-mul*div/a=torch.rand(3,4)b=torch.rand(4)a,b'''(tensor([[0.2384,0.5022,0.7100,0.0400],[0.1716,0.0894,0.0795,0.1456],[0.7635,0.9423,0.7649,0.3379]]),tensor([0.8526,0.8296,0.1845,0.7922])
【Python深度学习】零基础掌握Pytorch Pooling layers nn.MaxPool方法 Mr数据杨 Python 深度学习 python 深度学习 pytorch
在深度学习的世界中，MaxPooling是一种关键的操作，用于降低数据的维度并保留重要特征。这就像是从一堆照片中挑选出最能代表某个场景的那张。PyTorch提供了多种MaxPooling层，包括nn.MaxPool1d、nn.MaxPool2d和nn.MaxPool3d，它们分别适用于不同维度的数据处理。如果处理的是声音信号（一维数据），就会用到nn.MaxPool1d。而处理图像（二维数据）时，
Pytorch模型安卓部署 python&java pytorch 人工智能 python
Pytorch是一种流行的深度学习框架，用于算法开发，而Android是一种广泛应用的操作系统，多应用于移动设备当中。目前多数的研究都是在于算法上，个人觉得把算法落地是一件很有意思的事情，因此本人准备分享一些模型落地的文章(后续可能分享微信小程序部署，PyQt部署以及exe打包，ncnn部署，tensorRT部署，MNN部署)。本篇文章主要分享Pytorch的Android端部署。看这篇文章的读者
【PyTorch】保存和加载模型 Jackilina_Stone #Deep Learning pytorch python 人工智能深度学习模型
目录■state_dict■用于推理的保存和加载模型保存/加载state_dict保存/加载整个模型以TorchScript格式导出/加载模型■保存和加载用于推断和/或恢复训练的一般检查点(Checkpoint)■将多个模型保存在一个文件中■使用来自不同模型的参数进行暖启动(Warmstarting)模型■跨设备保存和加载模型保存在GPU,加载到CPU保存在GPU,加载到GPU保存在CPU,加载到
PyTorch教程：LSTM语言模型的动态量化技术解析怀灏其Prudent
PyTorch教程：LSTM语言模型的动态量化技术解析tutorialsPyTorchtutorials.项目地址:https://gitcode.com/gh_mirrors/tuto/tutorials前言在深度学习模型部署过程中，模型大小和推理速度是两个至关重要的考量因素。PyTorch提供的动态量化技术能够在不显著影响模型准确率的前提下，有效减小模型体积并提升推理速度。本文将深入解析如何对
【机器学习】数学基础——张量（傻瓜篇）一叶千舟深度学习【理论】机器学习人工智能
目录前言一、张量的定义1.标量（0维张量）2.向量（1维张量）3.矩阵（2维张量）4.高阶张量（≥3维张量）二、张量的数学表示2.1张量表示法示例三、张量的运算3.1常见张量运算四、张量在深度学习中的应用4.1PyTorch示例：张量在神经网络中的运用五、总结：张量的多维世界延伸阅读前言在机器学习、深度学习以及物理学中，张量是一个至关重要的概念。无论是在人工智能领域的神经网络中，还是在高等数学、物
【大模型学习 | 量化】pytorch量化基础知识（1）九年义务漏网鲨鱼算法学习 pytorch 人工智能
pytorch量化[!note]官方定义：performingcomputationsandstoringtensorsatlowerbitwidthsthanfloatingpointprecision.支持INT8量化，可以降低4倍的模型大小以及显存需求，加速2-4倍的推理速度通俗理解：降低权重和激活值的精度（FP32→INT8），从而提高模型大小以及显存需求。一、前置知识1.1算子融合将多个
pytorch 要点之雅可比向量积 AI大模型教程 pytorch 人工智能 python facebook 深度学习机器学习 webpack
自动微分是PyTorch深度学习框架的核心。既然是核心，就需要敲黑板、划重点学习。同时，带来另外一个重要的数学概念：雅可比向量积。PyTorch中的自动微分与雅可比向量积自动微分（AutomaticDifferentiation，AD）是深度学习框架中的关键技术之一，它使得模型训练变得更加简单和高效。且已知：PyTorch是一个广泛使用的深度学习框架，它内置了强大的自动微分功能。在本文中，我们将深
深度学习计算机视觉开源系统OpenMMLab（mmsegmentation、mmdetection、mmpose）环境配置【详细、可运行】 nomoremorphine 深度学习计算机视觉开源
OpenMMLab（mmsegmentation、mmdetection、mmpose）环境配置OpenMMLab简介优势：一、Windows/Linux下环境配置（以mmsegmentationv1.2.2（最新版）为例）0.确认安装版本信息1）确认电脑显卡版本2）确认mmcv对应版本3）确认版本1.安装CUDA和cuDNN2.创建conda环境，下载pytorch3.安装mmcv4.安装MMS
Python Robot Framework【自动化测试框架】简介老胖闲聊 Python库大全 python 开发语言
想全面了解DeepSeek的看过来【包邮】DeepSeek全攻略人人需要的AI通识课零基础掌握DeepSeek的实用操作手册指南【限量作者亲笔签名版售完即止】玩转DeepSeek这本就够了【自营包邮】DeepSeek实战指南deepseek从入门到精通实用操作指南现代科技科普读物AI普及知识读物人工智能使用教程中小学读物京东超级618Python初学者的入门教程动手学深度学习PyTorch版李沐和
PyTorch版本匹配终极指南：手把手教你避开99%的安装坑
被版本支配的恐惧（真实故事）上周我的学弟兴冲冲跑来：“师兄！我照着CSDN教程装PyTorch，结果训练时直接报错cudaruntimeerror！”我一看他的环境——Python3.12强行装PyTorch1.8，搭配CUDA11.6…（此时应有乌鸦飞过）这就像用Win11系统装XP时代的显卡驱动，能不翻车吗？！一、版本对应表（2024最新版）（掏出小本本记重点！！！）这是我整理的最新版本对应关
anaconda创建python3.7环境_anaconda使用以及创建python3.7+pytorch1.0虚拟环境以及Jupyter notebook初级使用... weixin_39837124
查看所有已安装的软件包$condalist#packagesinenvironmentatS:\Users\jiangshan\Anaconda3:##NameVersionBuildChannel_ipyw_jlab_nb_ext_conf0.1.0py37_0defaultsalabaster0.7.12py37_0defaultsanaconda2018.12py37_0defaults..
Anaconda 创建python3.9+pytorch1.10.1+cuda11.3环境 canny_kevin DeepLearning Python python conda
1.打开AnacondaPowershellPrompt2.创建conda环境condacreate--nameRordAIpython=3.9conda一些命令condainfo--envs：输出中带有【*】号的的就是当前所处的环境condalist:看这个环境下安装的包和版本condainstallnumpyscikit-learn:安装numpysklearn包condaenvremove-
ASM系列五利用TreeApi 解析生成Class lijingyao8206 ASM 字节码动态生成 ClassNode TreeAPI
前面CoreApi的介绍部分基本涵盖了ASMCore包下面的主要API及功能，其中还有一部分关于MetaData的解析和生成就不再赘述。这篇开始介绍ASM另一部分主要的Api。TreeApi。这一部分源码是关联的asm-tree-5.0.4的版本。在介绍前，先要知道一点， Tree工程的接口基本可以完
链表树——复合数据结构应用实例 bardo 数据结构树型结构表结构设计链表菜单排序
我们清楚：数据库设计中，表结构设计的好坏，直接影响程序的复杂度。所以，本文就无限级分类（目录）树与链表的复合在表设计中的应用进行探讨。当然，什么是树，什么是链表，这里不作介绍。有兴趣可以去看相关的教材。需求简介：经常遇到这样的需求，我们希望能将保存在数据库中的树结构能够按确定的顺序读出来。比如，多级菜单、组织结构、商品分类。更具体的，我们希望某个二级菜单在这一级别中就是第一个。虽然它是最后
为啥要用位运算代替取模呢 chenchao051 位运算哈希汇编
在hash中查找key的时候，经常会发现用&取代%，先看两段代码吧， JDK6中的HashMap中的indexFor方法： /** * Returns index for hash code h. */ static int indexFor(int h, int length) {
最近的情况麦田的设计者生活感悟计划软考想
今天是2015年4月27号整理一下最近的思绪以及要完成的任务 1、最近在驾校科目二练车，每周四天，练三周。其实做什么都要用心，追求合理的途径解决。为
PHP去掉字符串中最后一个字符的方法 IT独行者 PHP 字符串
今天在PHP项目开发中遇到一个需求，去掉字符串中的最后一个字符原字符串1,2,3,4,5,6, 去掉最后一个字符","，最终结果为1,2,3,4,5,6 代码如下： $str = "1,2,3,4,5,6,"; $newstr = substr($str,0,strlen($str)-1); echo $newstr;
hadoop在linux上单机安装过程 _wy_ linux hadoop
1、安装JDK jdk版本最好是1.6以上，可以使用执行命令java -version查看当前JAVA版本号，如果报命令不存在或版本比较低，则需要安装一个高版本的JDK，并在/etc/profile的文件末尾，根据本机JDK实际的安装位置加上以下几行： export JAVA_HOME=/usr/java/jdk1.7.0_25
JAVA进阶----分布式事务的一种简单处理方法无量多系统交互分布式事务
每个方法都是原子操作：提供第三方服务的系统，要同时提供执行方法和对应的回滚方法 A系统调用B,C,D系统完成分布式事务 =========执行开始======== A.aa(); try { B.bb(); } catch(Exception e) { A.rollbackAa(); } try { C.cc(); } catch(Excep
安墨移动广告：移动DSP厚积薄发引领未来广告业发展命脉矮蛋蛋 hadoop 互联网
　　“谁掌握了强大的DSP技术，谁将引领未来的广告行业发展命脉。”2014年，移动广告行业的热点非移动DSP莫属。各个圈子都在纷纷谈论，认为移动DSP是行业突破点，一时间许多移动广告联盟风起云涌，竞相推出专属移动DSP产品。　　到底什么是移动DSP呢? 　　DSP(Demand-SidePlatform)，就是需求方平台，为解决广告主投放的各种需求，真正实现人群定位的精准广
myelipse设置 alafqq IP
在一个项目的完整的生命周期中，其维护费用，往往是其开发费用的数倍。因此项目的可维护性、可复用性是衡量一个项目好坏的关键。而注释则是可维护性中必不可少的一环。注释模板导入步骤安装方法：打开eclipse/myeclipse 选择 window-->Preferences-->JAVA-->Code-->Code
java数组百合不是茶 java数组
java数组的声明创建初始化； java支持C语言数组中的每个数都有唯一的一个下标一维数组的定义声明： int[] a = new int[3];声明数组中有三个数int[3] int[] a 中有三个数，下标从0开始，可以同过for来遍历数组中的数
javascript读取表单数据 bijian1013 JavaScript
利用javascript读取表单数据，可以利用以下三种方法获取： 1、通过表单ID属性：var a = document.getElementByIdx_x_x("id"); 2、通过表单名称属性：var b = document.getElementsByName("name"); 3、直接通过表单名字获取：var c = form.content.
探索JUnit4扩展：使用Theory bijian1013 java JUnit Theory
理论机制（Theory）一.为什么要引用理论机制（Theory）当今软件开发中，测试驱动开发（TDD — Test-driven development）越发流行。为什么 TDD 会如此流行呢？因为它确实拥有很多优点，它允许开发人员通过简单的例子来指定和表明他们代码的行为意图。 TDD 的优点： &nb
[Spring Data Mongo一]Spring Mongo Template操作MongoDB bit1129 template
什么是Spring Data Mongo Spring Data MongoDB项目对访问MongoDB的Java客户端API进行了封装，这种封装类似于Spring封装Hibernate和JDBC而提供的HibernateTemplate和JDBCTemplate，主要能力包括 1. 封装客户端跟MongoDB的链接管理 2. 文档-对象映射，通过注解:@Document(collectio
【Kafka八】Zookeeper上关于Kafka的配置信息 bit1129 zookeeper
问题： 1. Kafka的哪些信息记录在Zookeeper中 2. Consumer Group消费的每个Partition的Offset信息存放在什么位置 3. Topic的每个Partition存放在哪个Broker上的信息存放在哪里 4. Producer跟Zookeeper究竟有没有关系？没有关系！！！ //consumers、config、brokers、cont
java OOM内存异常的四种类型及异常与解决方案 ronin47 java OOM 内存异常
　OOM异常的四种类型：　　　　　一：　StackOverflowError ：通常因为递归函数引起（死递归，递归太深）。-Xss 128k 一般够用。　二：　out Of memory: PermGen Space：通常是动态类大多，比如web 服务器自动更新部署时引起。-Xmx
java-实现链表反转-递归和非递归实现 bylijinnan java
20120422更新：对链表中部分节点进行反转操作，这些节点相隔k个： 0->1->2->3->4->5->6->7->8->9 k=2 8->1->6->3->4->5->2->7->0->9 注意1 3 5 7 9 位置是不变的。解法：将链表拆成两部分： a.0-&
Netty源码学习-DelimiterBasedFrameDecoder bylijinnan java netty
看DelimiterBasedFrameDecoder的API，有举例：接收到的ChannelBuffer如下： +--------------+ | ABC\nDEF\r\n | +--------------+ 经过DelimiterBasedFrameDecoder(Delimiters.lineDelimiter())之后，得到： +-----+----
linux的一些命令 -查看cc攻击-网口ip统计等 hotsunshine linux
Linux判断CC攻击命令详解 2011年12月23日 ⁄ 安全 ⁄ 暂无评论查看所有80端口的连接数 netstat -nat|grep -i '80'|wc -l 对连接的IP按连接数量进行排序 netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n 查看TCP连接状态 n
Spring获取SessionFactory ctrain sessionFactory
String sql = "select sysdate from dual"; WebApplicationContext wac = ContextLoader.getCurrentWebApplicationContext(); String[] names = wac.getBeanDefinitionNames(); for(int i=0; i&
Hive几种导出数据方式 daizj hive 数据导出
Hive几种导出数据方式 1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据，会报错 --只能使用
编程之美 dcj3sjt126com 编程 PHP 重构
我个人的 PHP 编程经验中，递归调用常常与静态变量使用。静态变量的含义可以参考 PHP 手册。希望下面的代码，会更有利于对递归以及静态变量的理解 header("Content-type: text/plain"); function static_function () { static $i = 0; if ($i++ < 1
Android保存用户名和密码 dcj3sjt126com android
转自：http://www.2cto.com/kf/201401/272336.html 我们不管在开发一个项目或者使用别人的项目，都有用户登录功能，为了让用户的体验效果更好，我们通常会做一个功能，叫做保存用户，这样做的目地就是为了让用户下一次再使用该程序不会重新输入用户名和密码，这里我使用3种方式来存储用户名和密码 1、通过普通的txt文本存储 2、通过properties属性文件进行存
Oracle 复习笔记之同义词 eksliang Oracle 同义词 Oracle synonym
转载请出自出处：http://eksliang.iteye.com/blog/2098861 1.什么是同义词同义词是现有模式对象的一个别名。概念性的东西，什么是模式呢？创建一个用户，就相应的创建了一个模式。模式是指数据库对象，是对用户所创建的数据对象的总称。模式对象包括表、视图、索引、同义词、序列、过
Ajax案例 gongmeitao Ajax jsp
数据库采用Sql Server2005 项目名称为:Ajax_Demo 1.com.demo.conn包 package com.demo.conn; import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException; //获取数据库连接的类public class DBConnec
ASP.NET中Request.RawUrl、Request.Url的区别 hvt .net Web C#asp.net hovertree
如果访问的地址是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree%3C&n=myslider#zonemenu那么Request.Url.ToString() 的值是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree<&
SVG 教程（七）SVG 实例，SVG 参考手册天梯梦 svg
SVG 实例在线实例下面的例子是把SVG代码直接嵌入到HTML代码中。谷歌Chrome，火狐，Internet Explorer9，和Safari都支持。注意：下面的例子将不会在Opera运行，即使Opera支持SVG - 它也不支持SVG在HTML代码中直接使用。 SVG 实例 SVG基本形状一个圆矩形不透明矩形一个矩形不透明2 一个带圆角矩
事务管理 luyulong java spring 编程事务
事物管理 spring事物的好处为不同的事物API提供了一致的编程模型支持声明式事务管理提供比大多数事务API更简单更易于使用的编程式事务管理API 整合spring的各种数据访问抽象 TransactionDefinition 定义了事务策略 int getIsolationLevel()得到当前事务的隔离级别 READ_COMMITTED
基础数据结构和算法十一：Red-black binary search tree sunwinner Algorithm Red-black
The insertion algorithm for 2-3 trees just described is not difficult to understand; now, we will see that it is also not difficult to implement. We will consider a simple representation known
centos同步时间 stunizhengjia linux 集群同步时间
做了集群，时间的同步就显得非常必要了。以下是查到的如何做时间同步。在CentOS 5不再区分客户端和服务器，只要配置了NTP，它就会提供NTP服务。 1)确认已经ntp程序包： # yum install ntp 2)配置时间源（默认就行，不需要修改） # vi /etc/ntp.conf server pool.ntp.o
ITeye 9月技术图书有奖试读获奖名单公布 ITeye管理员 ITeye
ITeye携手博文视点举办的9月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 9月试读活动回顾：http://webmaster.iteye.com/blog/2118112本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《NFC：Arduino、Andro

pytorch LSTM从头开始训练一个语言模型代码及其注释

你可能感兴趣的:(pytorch官方教程)