the animal

transformer代码注解

其中代码均来自李沐老师的动手学pytorch中。

class PositionWiseFFN(nn.Module):
    '''
    ffn_num_inputs 4
    ffn_num_hiddens 4
    ffn_num_outputs 8
    '''
    def __init__(self,ffn_num_inputs,ffn_num_hiddens,ffn_num_outputs):
        super(PositionWiseFFN,self).__init__()
        self.dense1 = nn.Linear(ffn_num_inputs,ffn_num_hiddens)#4*4
        self.relu = nn.ReLU()
        self.dense2 = nn.Linear(ffn_num_hiddens,ffn_num_outputs)#4*8
    def forward(self,X):
        return self.dense2(self.relu(self.dense1(X)))
positionWiseFFN = PositionWiseFFN(4,4,8)
positionWiseFFN.eval()
positionWiseFFN(torch.ones(size=(2,3,4)))[0]

上面的代码为前馈神经网络结构，其实也就是一个全连接层。

class AddNorm(nn.Module):
    def __init__(self,normalized_shape,dropout):
        super(AddNorm, self).__init__()
        self.dropout=nn.Dropout(dropout)
        self.layer_norm=nn.LayerNorm(normalized_shape=normalized_shape)
    def forward(self,x,y):
        return self.layer_norm(self.dropout(y)+x)
#比如[3, 4]或torch.Size([3, 4])，则会对网络最后的两维进行归一化，且要求输入数据的最后两维尺寸也是[3, 4]
add_norm = AddNorm(normalized_shape=[3,4],dropout=0.5)
add_norm.eval()
add_norm(torch.ones(size=(2,3,4)),torch.ones(size=(2,3,4)))

这里实现的是残差化和规范化。nn.LayerNorm(normalized_shape=normalized_shape)为layer规范化，其中normalized_shape为[3, 4]，对网络最后的两维进行归一化。

class MultiHeadAttention(nn.Module):
    def __init__(self,query_size,key_size,value_size,num_hiddens,num_heads,dropout,bias=False):
        super(MultiHeadAttention, self).__init__()
        self.num_heads=num_heads
        #用独立学习得到的 ℎ 组不同的线性投影（linear projections）来变换查询、键和值
        self.attention=d2l.torch.DotProductAttention(dropout)
        self.W_q=nn.Linear(query_size,num_hiddens,bias=bias)
        self.W_k=nn.Linear(key_size,num_hiddens,bias=bias)
        self.W_v = nn.Linear(value_size, num_hiddens, bias=bias)
        self.W_o = nn.Linear(num_hiddens, num_hiddens, bias=bias)
#总之就是：我们的Q，K，V的embedding，怎么拆分成k个头的数据，然后放到一个大头中，一遍算出multi_head的值
#这里是一组QKV乘一组W 直接生成特征大小的结果，在切分成8份，放到batch里等价于并行计算
    def forward(self,queries,keys,values,valid_lens):
        # print('----')
        # print(queries)
        queries = transpose_qkv(self.W_q(queries),self.num_heads)
        # print(queries)
        # print('----')
        keys = transpose_qkv(self.W_k(keys),self.num_heads)
        values = transpose_qkv(self.W_v(values),self.num_heads)
        if valid_lens is not None:
            # 在轴0，将第一项（标量或者矢量）复制num_heads次，
            # 然后如此复制第二项，然后诸如此类。
            valid_lens = torch.repeat_interleave(valid_lens,repeats=self.num_heads,dim=0)
        #valid_lens tensor([3, 3, 3, 3, 3, 2, 2, 2, 2, 2])
        # output的形状:(batch_size*num_heads，查询的个数，
        # num_hiddens/num_heads)
        # print(queries.shape)
        # print(keys.shape)
        '''
        queries-->torch.Size([10, 4, 20])
        keys----->torch.Size([10, 6, 20])
        两个批次，每次五个多头注意力，就一共会有十个注意力需要做。得出的矩阵为10*4*6，表示为10次注意力
        每个注意力query和key的矩阵为4*6
              keys  keys  keys  keys  keys  keys
        Query
        Query
        Query
        Query
        在经过mask时 需要将10*4*6的矩阵，转为二维矩阵，就是40*6。
        valid_lens首先会在上面的代码中，扩展至num_heads，然后会在masked_softmax中扩至40大小。
        
        '''
        output = self.attention(queries,keys,values,valid_lens)
        # print('-----')
        # print(output)
        # print('-----')
        # output_concat的形状:(batch_size，查询的个数，num_hiddens)
        output_concat = transpose_output(output,self.num_heads)
       # print(output_concat.shape)torch.Size([2, 4, 100])
        return self.W_o(output_concat)
def transpose_qkv(X,num_heads):
    # 2,6,100 2,4,100
    X = X.reshape(X.shape[0],X.shape[1],num_heads,-1)
    # 2,5,6,20  2,5,4,20
    # 输出X的形状: (batch_size，num_heads，查询或者“键－值”对的个数, num_hiddens/num_heads)
    X = X.permute(0, 2, 1, 3)
    #最终输出的形状: (batch_size * num_heads,查询或者“键－值”对的个数,num_hiddens/num_heads)
    #10,6,20  10,6,20
    return X.reshape(-1, X.shape[2], X.shape[3])
def transpose_output(X,num_heads):
    """逆转transpose_qkv函数的操作"""
    X = X.reshape(-1,num_heads,X.shape[1],X.shape[2])
    X = X.permute(0,2,1,3)
    return X.reshape(X.shape[0],X.shape[1],-1)
#在这里，我们设置head为5，也就是一共有5次self-attention。
num_hiddens,num_heads = 100,5
multiHeadAttention = MultiHeadAttention(num_hiddens,num_hiddens,num_hiddens,num_hiddens,5,0.5)
multiHeadAttention.eval()

batch_size,num_queries = 2,4
num_kvpairs,valid_lens = 6,torch.tensor([3,2])
#2,6,100 批次 句子长度 embedsize
Y = torch.ones(size=(batch_size,num_kvpairs,num_hiddens))
#2,4,100
X = torch.ones(size=(batch_size,num_queries,num_hiddens))
print(multiHeadAttention(X,Y,Y,valid_lens).shape)

首先我们设置head为5。num_hiddens可以理解为query或者key的大小，num_kvpairs表示每次注意力中key的数量，num_queries表示每次注意力中query的数量。value的数量与key的数量一样。另外一种理解就是，将X理解为批次*句子长度(单词的数量)*embedding size。每个单词对应一次查询。随后就是__init__，创建几个全连接层，对query、key、value进行变换，不同注意力的query、key和value，均不一样。

主要是实现图中红色部分。然后会调用forward函数，transpose_qkv函数进行切分，假定原本的输入为2 * 6 * 100，因为大小为两个批次，每个批次需要做五个注意力机制，每个注意力机制的key的数量为6，所以将输入为2 * 6 * 100，转换为10 * 6 * 20。意思就是10次注意力，每个注意力中的key为6个，每个key由20维度的向量表示。query同理。因为我们要并行计算，这样使用torch.bmm可以直接进行计算，计算得出Query和key矩阵。在上面的例子中，计算得出的为10 * 4 * 6大小的矩阵。
在训练时刻的mask中，首先会将结果转变为二维矩阵40 * 6，其中的每一行代表了query与不同key计算的结果，有时候query只能和部分key进行计算，比如：第二个词的query只能计算第一个词与第二个词的key，而之后key需要进行mask。我们会给定一个valid_lens 代表需要保留的计算结果。其中mask部分会调用以下代码：

 mask = torch.arange((maxlen), dtype=torch.float32,device=X.device)[None, :] < valid_len[:, None]
 X[~mask] = value#value为极小值。

torch.arange((maxlen)会生成从0到5的矩阵，valid_len在之前会经过扩展为140大小的矩阵，然后转换为40 * 1的矩阵。最终的mask会变成40 * 6大小矩阵就像以下形式：
[True,True,True,False,False]
而最后两个False是需要进行mask的，X[~mask] = value将最后两个Fasle，变为负极小值，再经过softmax之后，结果将趋近于0，从而将其mask。然后与value相乘，得出结果为10 * 4 20矩阵大小的结果，在经过变换，变为2 * 4* 100矩阵，最后再经过最后一次全连接层，然后输出结果。

class PositionalEncoding(nn.Module):
    """位置编码"""
    def __init__(self,num_hiddens,dropout,max_len=1000):
        super(PositionalEncoding,self).__init__()
        self.dropout = nn.Dropout(dropout)
        # 创建一个足够长的P
        self.P = torch.zeros(size=(1,max_len,num_hiddens))
        X = torch.arange(max_len,dtype=torch.float32).reshape(-1,1)/torch.pow(1000,torch.arange(0,num_hiddens,2,dtype=torch.float32)/num_hiddens)
        self.P[:,:,0::2] = torch.sin(X)
        self.P[:,:,1::2] = torch.cos(X)
    def forward(self,X):
        X = X+self.P[:,:X.shape[1],:].to(X.device)
        return self.dropout(X)

主要实现位置编码，将基于正弦函数和余弦函数的固定位置编码公式进行实现，X就是将公式进行实现，P的大小为批次 * 输入模型单词可能最多的数量 * 每个单词的embedding size。我们可以假设P的大小为1 * 1000 * 32的矩阵，其中1000代表网络一次最多输入1000个词，每个词使用32维度向量表示。生成的X，是一个1000 * 16大小的矩阵，其中每一行的数值均不相同。P中每一行的偶数位置数据是由torch.sin(X)来生成的，奇数位置数据由torch.cos(X)生成。这样位置编码已经提前生成好了，在需要进行位置编码的时候，直接拿取前多少行，就行了。

class EncoderBlock(nn.Module):
    """transformer编码器块"""
#EncoderBlock(query_size=24, key_size=24, value_size=24, num_hiddens=24, normalized_shape=[100, 24],ffn_num_inputs=24, ffn_num_hiddens=48, num_heads=8, dropout=0.5, use_bias=False)
    def __init__(self,query_size,key_size,value_size,num_hiddens,normalized_shape,ffn_num_inputs,ffn_num_hiddens,num_heads,dropout,use_bias=False):
        super(EncoderBlock,self).__init__()
        self.multihead_attention = MultiHeadAttention(key_size,query_size,value_size,num_hiddens,num_heads,dropout,use_bias)
        self.addnorm1 = AddNorm(normalized_shape,dropout)
        self.ffn = PositionWiseFFN(ffn_num_inputs,ffn_num_hiddens,num_hiddens)
        self.addnorm2 = AddNorm(normalized_shape,dropout)
    def forward(self,X,valid_lens):
        Y = self.addnorm1(X,self.multihead_attention(X,X,X,valid_lens))
        return self.addnorm2(Y,self.ffn(Y))

EncoderBlock对一个encoderBlock进行实现。先后经过，多头注意力机制，残差和规范化，前馈神经网络，残差和规范化，最后将结果输出。

class TransformerEncoder(d2l.torch.Encoder):
    """transformer编码器"""
    def __init__(self,vocab_size,query_size,key_size,value_size,num_hiddens,normalized_shape,ffn_num_inputs,ffn_num_hiddens,num_heads,num_layers,dropout,use_bias=False):
        super(TransformerEncoder,self).__init__()
        self.num_hiddens = num_hiddens
        self.embedding = nn.Embedding(vocab_size,num_hiddens)
        self.positionalEncoding = d2l.torch.PositionalEncoding(num_hiddens,dropout)
        self.encoder_blocks = nn.Sequential()
        for i in range(num_layers):
            self.encoder_blocks.add_module(f'encoder_block{i}',
            EncoderBlock(query_size,key_size,value_size,num_hiddens,normalized_shape,ffn_num_inputs,ffn_num_hiddens,num_heads,dropout,use_bias=use_bias))
    def forward(self, X,valid_lens, *args):。
        X = self.positionalEncoding(self.embedding(X)*math.sqrt(self.num_hiddens))
        self.attention_weights = [None]*len(self.encoder_blocks)
        for i,encoder_block in enumerate(self.encoder_blocks):
            X = encoder_block(X,valid_lens)
            self.attention_weights[i] = encoder_block.multihead_attention.attention.attention_weights
        return X

transformer编码器，对encoder进行堆叠，self.embedding(X)*math.sqrt(self.num_hiddens 主要因为embedding的值相对于位置编码比较小，乘以math.sqrt(self.num_hiddens，使得值与位置编码的值，差不多大小。

class DecoderBlock(nn.Module):
    """解码器中第i个块"""
    #decoder_block = DecoderBlock(24,24,24,24,[100,24],24,48,8,0.5,0,use_bias=False)
    def __init__(self, query_size, key_size, value_size, num_hiddens, normalized_shape, ffn_num_inputs, ffn_num_hiddens,
                 num_heads, dropout, i, use_bias=False):
        super(DecoderBlock, self).__init__()
        self.i = i  # i表示这是第i个DecoderBlock块
        self.mask_multihead_attention1 = MultiHeadAttention(key_size, query_size, value_size, num_hiddens,
                                                                      num_heads, dropout, bias=use_bias)
        self.addnorm1 = AddNorm(normalized_shape, dropout)
        self.mutilhead_attention2 = MultiHeadAttention(key_size, query_size, value_size, num_hiddens,
                                                                 num_heads, dropout, bias=use_bias)
        self.addnorm2 = AddNorm(normalized_shape, dropout)
        self.ffn = PositionWiseFFN(ffn_num_inputs, ffn_num_hiddens, num_hiddens)
        self.addnorm3 = AddNorm(normalized_shape, dropout)

    def forward(self, X, state):
        enc_outputs, enc_valid_lens = state[0], state[1]
        # 训练阶段，输出序列的所有词元都在同一时间处理，
        # 因此state[2][self.i]初始化为None。
        # 预测阶段，输出序列是通过词元一个接着一个解码的，
        # 因此state[2][self.i]包含着直到当前时间步第i个块解码的输出表示
        # 训练时，由于每次都需要调用init_state函数，因此重新训练一个batch时，state[2]始终是一个None列表，
        # 当测试时，由于每次根据当前时间步的词元预测下一个词元时都不会重新调用init_state()函数，
        # 不会重新初始化state，因此state[2]里面保存的是之前时间步预测出来的词元信息（存的是decoder每层第一个掩码多头注意力state信息）
        if state[2][self.i] is None:
            keys_values = X
        else:
            keys_values = torch.cat([state[2][self.i], X], dim=1)
        state[2][self.i] = keys_values
        if self.training:
            #[2, 100, 24]
            batch_size, num_step, _ = X.shape
            # 训练时执行当前时间步的query时只看它前面的keys,values，不看它后面的keys,values。
            # 因为预测时是从左往右预测的，右边还没有预测出来，因此右侧的keys是没有的，看不到右侧的keys；
            # 训练时预测当前时间步词元能看到后面的目标词元，因此需要dec_valid_lens
            # dec_valid_lens的开头:(batch_size,num_steps),
            # 其中每一行是[1,2,...,num_steps]
            dec_valid_lens = torch.arange(1, num_step + 1, device=X.device).repeat(batch_size, 1)
            print(dec_valid_lens)
        else:
            # 测试时预测当前时间步的词元只能看到之前预测出来的词元，后面还没预测的词元还看不到，因此dec_valid_lens可以不需要
            dec_valid_lens = None
        # 自注意力
        X2 = self.mask_multihead_attention1(X, keys_values, keys_values, dec_valid_lens)
        Y = self.addnorm1(X, X2)
        # 编码器－解码器注意力。
        # enc_outputs的开头:(batch_size,num_steps,num_hiddens)
        Y2 = self.mutilhead_attention2(Y, enc_outputs, enc_outputs, enc_valid_lens)
        Z = self.addnorm2(Y, Y2)
        return self.addnorm3(Z, self.ffn(Z)), state

区分主要在两点，就是训练的时候，会执行if state[2][self.i] is None:，所以第一次多头注意力，输入的key和value，均为本身。而在预测阶段，第一次多头注意力输入的为之前生成

【PyTorch】PyTorch中torch.nn模块的卷积层
PyTorch深度学习总结第七章PyTorch中torch.nn模块的卷积层文章目录PyTorch深度学习总结前言一、torch.nn模块1.模块的基本组成部分1.1层（Layers）1.2损失函数（LossFunctions）1.3激活函数（ActivationFunctions）2.自定义神经网络模型3.模块的优势二、torch.nn模块的卷积层1.卷积的定义2.常见的卷积层3.卷积层的重要参
【PyTorch】PyTorch中torch.nn模块的循环层
PyTorch深度学习总结第九章PyTorch中torch.nn模块的循环层文章目录PyTorch深度学习总结前言一、循环层1.简单循环层（RNN）2.长短期记忆网络（LSTM）3.门控循环单元（GRU）4.双向循环层二、循环层参数1.输入维度相关参数2.隐藏层相关参数3.其他参数三、函数总结前言上文介绍了PyTorch中介绍了池化和torch.nn模块中的池化层函数，本文将进一步介绍torch.
【PyTorch】PyTorch中torch.nn模块的池化层咸鱼鲸 PyTorch pytorch 人工智能 python
PyTorch深度学习总结第八章PyTorch中torch.nn模块的池化层文章目录PyTorch深度学习总结前言一、池化1.定义2.目的3.常见类型4.实际效果二、池化层1.常用的池化层2.池化层的参数2.1最大池化层（MaxPooling）和平均池化层（AveragePooling）2.2自适应最大池化层（AdaptiveMaxPooling）和自适应平均池化层（AdaptiveAverage
鸟类识别与分类相关数据集 Bryan Ding 分类数据挖掘人工智能
随着深度学习技术的快速发展，其在图像识别、语音识别等领域取得了显著的成果。鸟类识别作为生态学研究的重要内容，对于物种多样性保护、生态环境监测等领域具有深远的影响。将深度学习技术应用于鸟类识别，有望提高识别的准确性和效率，为鸟类学研究提供有力支持。本文综述了近年来深度学习在鸟类识别中的应用进展，包括基于图像和声音的鸟类识别系统，分析了其技术框架、实现方法以及在实际应用中的效果。通过对相关文献的梳理，
Python机器学习入门必看！从原理到实战，手把手教你线性回归模型小张在编程 python 机器学习线性回归
引言在人工智能浪潮席卷全球的今天，机器学习（MachineLearning）早已不再是实验室的“黑科技”——打开购物APP的“猜你喜欢”、输入搜索词后的“相关推荐”、甚至天气预报中的温度预测，背后都有机器学习模型的身影。而在线性回归（LinearRegression）作为机器学习中最基础、最经典的监督学习模型，堪称机器学习的“敲门砖”。本文将从原理到实战，带你彻底掌握这一核心算法。一、机器学习的“
Python 上下文管理器和 else 块(上下文管理器和with块) 钢铁男儿流程Python python java 前端
上下文管理器和with块上下文管理器对象存在的目的是管理with语句，就像迭代器的存在是为了管理for语句一样。with语句的目的是简化try/finally模式。这种模式用于保证一段代码运行完毕后执行某项操作，即便那段代码由于异常、return语句或sys.exit()调用而中止，也会执行指定的操作。finally子句中的代码通常用于释放重要的资源，或者还原临时变更的状态。上下文管理器协议包含_
Python魔法：用@contextmanager简化上下文管理器
告别样板代码，用生成器优雅管理资源在Python开发中，上下文管理器是管理资源（如文件、数据库连接）的利器。传统的实现方法需要创建一个类并定义__enter__和__exit__两个方法，但Python的contextlib模块提供了更简洁的解决方案——@contextmanager装饰器。传统上下文管理器的实现痛点传统方式需要完整定义一个类，包含__enter__和__exit__方法：clas
mac上python安装pip_Python开发：在mac系统中安装pip weixin_39793638 mac上python安装pip
pip用来安装python项目的依赖库。大多数比较新的python版本都自带pip，所以先检查下pip是否有安装。终端输入：pip--version如果没有安装pip，那么就用接下来的方式安装pip。--前言安装pip的方式是运行一个python文件，因此请先确保电脑中已经安装有python。因此首先需要将该python文件下载到本地电脑中。方式一：在浏览器中访问https://bootstrap
未来已来：美颜SDK如何通过深度学习实现个性化美颜形象？美狐美颜SDK开放平台美颜sdk 直播美颜sdk 视频美颜sdk 深度学习人工智能直播美颜sdk 美颜sdk 美颜api 视频美颜sdk 直播美颜工具
你有没有这样的时刻：打开相机滤镜，调了半天，依旧找不到最适合自己的美颜效果？或是刷短视频时，惊艳于博主的“自然”颜值，却又发现自己的滤镜总显得太“假”？这背后，其实藏着一个越来越热门的技术关键词——个性化美颜，而它的核心驱动力，正是深度学习。从“千人一脸”到“千人千面”，美颜SDK走进了一个真正智能的时代。一、美颜SDK，从滤镜到AI的技术跃迁美颜SDK是一类集成在App中，用于图像实时处理和优化
2024最新动物识别数据集（12-02已更新) 数据猎手小k 机器学习自然语言处理人工智能
动物识别数据集是用于训练和评估动物识别模型的集合，这些数据集通常包含多种动物的图像或视频，以及对应的标签信息。它们在生物多样性监测、生态研究、农业和城市安全管理等领域发挥着重要作用。随着深度学习技术的发展，动物识别数据集的处理方式、算法逻辑和模型搭建与训练流程也在不断进步，以提高识别的准确性和效率。一、背景意义动物识别技术的发展对于生物多样性保护、生态学研究、农业和野生动物保护等多个领域具有重要意
Python学习笔记2-垃圾回收机制 Carrie_Lei Python python 学习笔记
Python的垃圾回收机制是自动管理内存的系统，用于回收不再使用的内存，以避免内存泄漏和优化内存使用。Python使用引用计数（ReferenceCounting）和垃圾回收（GarbageCollection）两种方式来管理内存。1.引用计数(ReferenceCounting)引用计数是Python内存管理的基础机制。每个对象都维护一个引用计数器，记录有多少个引用指向该对象。当一个新的引用指向
python的垃圾回收机制
python和Jave、C一样使用了垃圾回收机制，不一样的是python使用了引用计数机制为主，分代收集机制为辅intern机制intern机制是引用计数机制里面的一种，如果一个数据重复存储多次，python将不会在读开辟空间来存储这条数据，它会使用引用计数的方式，存入的数据江会被指定到已经有据的那篇空间一切皆对象python里面一切皆对象，PyObject是每一个对象都有的内容，引用计数就是一它
Python语言数据结构详解与应用
Python语言数据结构详解与应用——从生活场景到代码实战的知识旅程1.引入与连接：从“整理房间”到“管理数据”想象你有一间书房：书架上的书按顺序摆放（想找第3本？直接数到第3层！）→这像列表（List），有序且可调整。墙上的固定相框（一旦挂好，照片不能换）→这像元组（Tuple），不可变但安全。抽屉里的钥匙盒（每把钥匙对应一个抽屉）→这像字典（Dict），用“键”快速定位“值”。桌面的马克杯（没
Python 领域 vllm 优化模型推理速度的方法 Python编程之道 Python编程之道 python 开发语言 ai
Python领域vLLM优化模型推理速度的方法关键词：Python、vLLM、模型推理速度、优化方法、推理性能摘要：本文聚焦于Python领域中vLLM对模型推理速度的优化方法。首先介绍了相关背景知识，包括vLLM的概念和优化模型推理速度的重要性。接着阐述了vLLM的核心概念与架构，详细分析了其优化的原理。通过具体的Python代码展示了核心算法原理及操作步骤，同时给出了相应的数学模型和公式进行理
Python 用 NumPy 进行矩阵分解
Python用NumPy进行矩阵分解关键词：NumPy,矩阵分解,线性代数,奇异值分解,QR分解,LU分解,特征值分解摘要：本文将深入探讨使用NumPy进行矩阵分解的各种技术。我们将从基础的线性代数概念出发，详细讲解五种核心矩阵分解方法：LU分解、QR分解、奇异值分解(SVD)、特征值分解和Cholesky分解。每种方法都将配有数学原理说明、NumPy实现代码和实际应用案例。文章还将介绍矩阵分解在
Python 领域 pytest 的测试用例依赖管理
Python领域pytest的测试用例依赖管理关键词：pytest、测试依赖、fixture、依赖注入、测试管理、Python测试、测试框架摘要：本文深入探讨了Python测试框架pytest中的测试用例依赖管理机制。我们将从基础概念出发，详细分析pytest的fixture系统如何实现优雅的依赖管理，包括依赖注入、作用域控制、参数化等高级特性。通过实际代码示例和架构图解，展示如何构建可维护、可扩
python垃圾回收机制_python3 2401_84585372 程序员 python 开发语言
1、变量名与值内存地址的关联关系存放于栈区2、变量值存放于堆区，内存管理回收的则是堆区的内容，定义了两个变量x=10、y=20，详解如下图：![在这里插入图片描述](https://img-blog.csdnimg.cn/20200426200636471.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,t
Transformer模型架构深度讲解
Transformer是一种在自然语言处理（NLP）和深度学习中非常重要的模型架构。它首次由Vaswani等人于2017年提出，主要应用于序列到序列的任务（如机器翻译、文本生成、摘要生成等）。Transformer模型与传统的RNN（循环神经网络）和LSTM（长短时记忆网络）不同，它不依赖于时间步的顺序处理，而是完全基于“注意力机制”进行计算，这使得它在训练速度、并行化能力和长期依赖问题的处理上具
爆肝4万字！手把手带你入门Python rooney2024 python 开发语言
目录0.前言：为什么是Python？1.准备工作：安装与环境1.1安装Python1.2选择代码编辑器或IDE1.3第一个程序：Hello,World!2.基础语法与核心概念2.1变量与数据类型2.2基本运算符2.3字符串操作2.4列表(Lists)2.5元组(Tuples)2.6字典(Dictionaries)2.7集合(Sets)3.流程控制3.1条件语句(if,elif,else)3.2循环
【工具】Eclipse：一个用于对两个或多个非靶向液相色谱-质谱代谢组学数据集进行比对的 Python 软件包生信学习者1 学习笔记 python 数据分析数据挖掘
文章目录介绍代码参考介绍非靶向液相色谱-串联质谱（LC-MS）代谢组学数据集蕴含着大量信息，但在分析和处理过程中却面临诸多挑战。通常，需要对两个或多个独立处理的数据集进行整合以形成完整的数据集，但现有的软件并不能完全满足我们的需求。为此，我们创建了一个名为“Eclipse”的开源Python包。Eclipse采用一种新颖的基于图的方法来处理由n个（n>2）数据集引发的复杂匹配情况。Nontarge
Github 2024-05-07 开源项目日报 Tp10 老孙正经胡说 github 开源 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，今日(2024-05-07统计)共有10个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量TypeScript项目4JupyterNotebook项目2Python项目1Batchfile项目1非开发语言项目1Java项目1HTML项目1C#项目1从零开始构建你喜爱的技术创建周期：2156天Star数量：253338个Fork数量：240
Github 2024-07-07 开源项目日报 Top10 老孙正经胡说 github 开源 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，今日(2024-07-07统计)共有10个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Python项目4Rust项目2C项目2C++项目1JavaScript项目1HTML项目1JupyterNotebook项目1非开发语言项目1免费编程书籍和学习资源清单创建周期：3762天协议类型：CreativeCommonsAttributio
Python模块中__all__变量失效问题深度解析盛夏绽放 python 开发语言有问必答
文章目录Python模块中`__all__`变量失效问题深度解析一、`__all__`的正确作用场景二、`__all__`不起作用的常见原因1.未使用`from...import\*`导入2.`__all__`定义不完整或错误3.子模块未正确导出4.Python解释器缓存问题5.相对导入路径错误三、解决方案1.确保使用`from...import\*`测试2.检查`__init__.py`的导出逻
【Python】——使用python实现GUI图书管理系统：Tkinter+SQLite实战星星法术嗲人 python基础 sqlite 数据库
本文将通过一个完整的python项目——图书管理系统，演示如何利用Tkinter构建GUI界面，结合SQLite数据库实现增删改查功能。代码简洁易懂，适合python初学者学习和二次开发。一、项目功能概览图书管理：添加、查看、修改、删除图书信息数据存储：使用SQLite持久化存储图书数据可视化界面：表格展示数据，支持快速选择和编辑输入校验：关键字段非空校验与操作确认提示二、技术栈与依赖库impor
python中的函数：apply、map、reduce、lambda函数
一、apply函数定义：apply函数在Pandas库中函数，应用对象是DataFrame或Series的行或列上，并返回一个新的DataFrame或Series。主要有两方面的功能：一是直接对DataFrame或者Series应用函数，二是对pandas中的groupby之后的聚合对象apply函数DataFrame.apply(func,axis=0,broadcast=None,raw=Fa
Python 函数 -range() weixin_30550271 python
range()pythorange()函数可创建一个整数列表，一般用在for循环中。语法：range(start,stop[,step])start:计数从start开始。默认是从0开始。例如range（5）等价于range（0，5）;end:计数到end结束，但不包括end。例如：range（0，5）是[0,1,2,3,4]没有5step：步长，默认为1。例如：range（0，5）等价于rang
【Python系列】空值判断
博客目录初始代码分析优化点一：查询条件的整合优化点二：使用SQLAlchemy推荐语法优化点三：简化条件判断优化点四：错误消息的规范化更现代的SQLAlchemy2.0风格在软件开发中，数据库查询是最常见的操作之一，但如何编写高效、可读且健壮的查询代码却是一门艺术。初始代码分析原始代码片段如下：app=db.session.query(App).filter(App.id==workflow_pr
GNN--知识图谱（逐步贯通基础到项目实践）峙峙峙图神经网络知识图谱人工智能
原文仓库链接：知识图谱–贯通已有知识地图记录知识关系图谱和跨学科碰撞新启发知识图谱mermaid可能需要下载插件才能渲染线性代数神经网络深度学习框架硬件加速图论GNN框架交叉理解前向理解定义：前向理解：A–>B，A为B的基础铺垫知识，通过深入学习A对B有更好的理解01.LinearAlgebraforLinearLayerofNN从线性代数行列变换的角度看神经网络中的线性层线性代数矩阵乘法，可以理
python:arange()和range()区别锂享生活 python python 开发语言
arange和range都是用来生成一系列有序数值的函数，但它们分别属于不同的Python库，并且在功能和返回类型上有所区别：一、Python内置的range()函数：range()函数在Python标准库中，主要用于生成一个等差数列的整数序列。它不直接生成列表，而是返回一个可迭代对象。range()不占用额外的内存空间存放序列的所有元素，而是动态生成每个需要的值。参数通常是三个：range(st
ubuntu22.04从新系统到tensorflow GPU支持澍龑 tensorflow 人工智能
ubuntu22.04CUDA从驱动到tensorflow安装0系统常规设置和软件安装0.1挂载第二硬盘默认Home0.2软件安装0.3安装指定版本的python0.4python虚拟环境设置1直接安装1.1配置信息1.2驱动安装1.3集显显示，独显运算（其它debug用）1.4卸载驱动(备用，未试)日常使用ssh后台运行（断联不中断）0系统常规设置和软件安装0.1挂载第二硬盘默认Homesudo
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s

transformer代码注解

你可能感兴趣的:(transformer,python,深度学习)