吉米_王

复现Transformer架构主干网络过程中的心路历程和个人感悟

心路历程：复现Transformer架构主干网络过程中,感受颇多，以前只是使用相关衍生模型，但是，从来没有深入的研究过Transformer架构的细节处理工作，这几天真的是成长了。这两年第三次复现作者论文，内心感受颇多，最大的感受就是在专业领域真的应该多向比自己优秀的人学习，只有这样才能不被时代所淘汰！！！

论文下载地址：

个人百度网盘下载地址
链接：https://pan.baidu.com/s/1p9ZJpgeTTjEQVQmQDobbPA
提取码：l980

（此图出处为原作者论文，请知悉）
Transformer架构:整体来看可以分为四个大的部分：

输入部分；

输出部分；

编码器部分（N）；

解码器部分（N）;

输入部分主要分为：

文本嵌入层部分：无论是源文本嵌入还是目标文本嵌入，都是为了将文本中词汇的数字表示转变为向量表示, 希望在这样的高维空间捕捉词汇间的关系.

class Embedding(nn.Module):
    def __init__(self, d_model, vocab, dropout=0.1):
        """
        :param d_model: 词嵌入的维度
        :param vocab: 词表大小
        :param dropout: 随机失活置零比率
        """
        super(Embedding, self).__init__()
        # 初始化embedding层
        self.embedding = nn.Embedding(vocab, d_model)
        # 初始化d_model
        self.d_model = d_model
        self.dropout = nn.Dropout(dropout)

    def forward(self, x):
        # x: input输入
        return self.dropout(self.embedding(x)) * math.sqrt(self.d_model)

位置编码层部分：在Transformer的编码器结构中, 并没有针对词汇位置信息的处理，因此需要在Embedding层后加入位置编码器，将词汇位置不同可能会产生不同语义的信息加入到词嵌入张量中, 以弥补位置信息的缺失.

# 定义位置编码器类, 我们同样把它看做一个层, 因此会继承nn.Module    
class PositionalEncoding(nn.Module):
    def __init__(self, d_model, dropout, max_len=5000):
        """
        :param d_model: 词嵌入的维度
        :param max_length: 最大词汇量
        :param dropout: 随机置零比率
        """
        super(PositionalEncoding, self).__init__()

        # 实例化nn中预定义的Dropout层, 并将dropout传入其中, 获得对象self.dropout
        self.dropout = nn.Dropout(p=dropout)

        # 初始化一个位置编码矩阵, 它是一个0阵，矩阵的大小是max_len x d_model.
        pe = torch.zeros(max_len, d_model)

        # 初始化一个绝对位置矩阵, 在我们这里，词汇的绝对位置就是用它的索引去表示. 
        # 所以我们首先使用arange方法获得一个连续自然数向量，然后再使用unsqueeze方法拓展向量维度使其成为矩阵， 
        # 又因为参数传的是1，代表矩阵拓展的位置，会使向量变成一个max_len x 1 的矩阵， 
        position = torch.arange(0, max_len).unsqueeze(1)

        # 绝对位置矩阵初始化之后，接下来就是考虑如何将这些位置信息加入到位置编码矩阵中，
        # 最简单思路就是先将max_len x 1的绝对位置矩阵， 变换成max_len x d_model形状，然后覆盖原来的初始位置编码矩阵即可， 
        # 要做这种矩阵变换，就需要一个1xd_model形状的变换矩阵div_term，我们对这个变换矩阵的要求除了形状外，
        # 还希望它能够将自然数的绝对位置编码缩放成足够小的数字，有助于在之后的梯度下降过程中更快的收敛.  这样我们就可以开始初始化这个变换矩阵了.
        # 首先使用arange获得一个自然数矩阵， 但是细心的同学们会发现， 我们这里并没有按照预计的一样初始化一个1xd_model的矩阵， 
        # 而是有了一个跳跃，只初始化了一半即1xd_model/2 的矩阵。 为什么是一半呢，其实这里并不是真正意义上的初始化了一半的矩阵，
        # 我们可以把它看作是初始化了两次，而每次初始化的变换矩阵会做不同的处理，第一次初始化的变换矩阵分布在正弦波上， 第二次初始化的变换矩阵分布在余弦波上， 
        # 并把这两个矩阵分别填充在位置编码矩阵的偶数和奇数位置上，组成最终的位置编码矩阵.
        div_term = torch.exp(torch.arange(0, d_model, 2) *
                             -(math.log(10000.0) / d_model))
        pe[:, 0::2] = torch.sin(position * div_term)
        pe[:, 1::2] = torch.cos(position * div_term)

        # 这样我们就得到了位置编码矩阵pe, pe现在还只是一个二维矩阵，要想和embedding的输出（一个三维张量）相加，
        # 就必须拓展一个维度，所以这里使用unsqueeze拓展维度.
        pe = pe.unsqueeze(0)

        # 最后把pe位置编码矩阵注册成模型的buffer，什么是buffer呢，
        # 我们把它认为是对模型效果有帮助的，但是却不是模型结构中超参数或者参数，不需要随着优化步骤进行更新的增益对象. 
        # 注册之后我们就可以在模型保存后重加载时和模型结构与参数一同被加载.
        self.register_buffer('pe', pe)

    def forward(self, x):
        """forward函数的参数是x, 表示文本序列的词嵌入表示"""
        # 在相加之前我们对pe做一些适配工作， 将这个三维张量的第二维也就是句子最大长度的那一维将切片到与输入的x的第二维相同即x.size(1)，
        # 因为我们默认max_len为5000一般来讲实在太大了，很难有一条句子包含5000个词汇，所以要进行与输入张量的适配. 
        # 最后使用Variable进行封装，使其与x的样式相同，但是它是不需要进行梯度求解的，因此把requires_grad设置成false.
        x = x + Variable(self.pe[:, :x.size(1)], 
                         requires_grad=False)
        # 最后使用self.dropout对象进行'丢弃'操作, 并返回结果.
        return self.dropout(x)

编码器部分（此图出处为原作者论文，请知悉）

掩码张量

有一些生成的attention张量中的值计算有可能已知了未来信息而得到的，未来信息被看到是因为训练时会把整个输出结果都一次性进行Embedding，但是理论上解码器的的输出却不是一次就能产生最终结果的，而是一次次通过上一次结果综合得出的，因此，未来的信息可能被提前利用. 所以，我们会进行遮掩

def subsequent_mask(size):
    """
    :param size: 词嵌入维度
    :return: mask
    """
    # 在函数中, 首先定义掩码张量的形状
    attn_shape = (1, size, size)

    # 然后使用np.ones方法向这个形状中添加1元素,形成上三角阵, 最后为了节约空间, 
    # 再使其中的数据类型变为无符号8位整形unit8 
    subsequent_mask = np.triu(np.ones(attn_shape), k=1).astype('uint8')

    # 最后将numpy类型转化为torch中的tensor, 内部做一个1 - 的操作, 
    # 在这个其实是做了一个三角阵的反转, subsequent_mask中的每个元素都会被1减, 
    # 如果是0, subsequent_mask中的该位置由0变成1
    # 如果是1, subsequent_mask中的该位置由1变成0 
    return torch.from_numpy(1 - subsequent_mask)

注意力机制
论文注意力机制计算公式：

论文注意力机制模型结构图：（此图出处为原作者论文，请知悉）

个人对注意力机制的理解：

三个指定的输入Q(query), K(key), V(value);
这几个参数应该怎么理解呢？思来想去没有太合适的专业术语来表示，还是举个例子吧。
例如：我个人在拜读的这篇论文，我们就可以把它理解为Q(query)；而论文中的如下图的3.2.1 Scaled Dot-Product Attention，这些关键提示信息，我们可以理解为K(key)；那V(value)就可以理解为，我这边拜读完该论文中关键信息之后的学习感悟。

复现代码：

def attention(query, key, value, mask=None, dropout=None):
    """
    :param query: 全部样本信息
    :param key: 关键信息
    :param value: 联想信息
    :param mask: 掩码
    :param dropout: 随机是活层
    :return:query注意力及注意力张量
    """
    # 构建d_k，词嵌入维度通常和query的最后一个维度相同
    d_k = query.size(-1)
    # 构建attn点积部分
    scores = torch.matmul(query, key.transpose(-2, -1)) / math.sqrt(d_k)
    # 判断mask是否存在
    if mask is not None:
        scores = scores.masked_fill(mask == 0, 1e-9)
    # 判断drop是否存在
    if dropout is not None:
        scores = dropout(scores)
    # 完成softmax层操作
    p_attn = F.softmax(scores, dim=-1)
    # 返回最终乘机结果（注意力）及注意力张量表示
    return torch.matmul(p_attn, value), p_attn

多头注意力机制
论文中，多头注意力结构图信息（此图出处为原作者论文，请知悉）

论文描述原文：

这个多头注意力机制应该怎么理解呢？

以下仅为个人理解，非礼勿喷：

四个liner层，Q、K、V各一个，输出一个；

文中的多头其实只是在确定好head数量之后，对Q最后一维的词嵌入维度按照head的数量的平均分配，也就是说原词嵌入维度 = head数量 * 每个头分配的词嵌入维度，此处其实就是一个view方法扩维的过程，即：从三维到四维；

结构图中的concat合并部分其实是把我们刚分的多头及维度，再合并的过程，本质上如果代码复现的话，其实原路返回的逻辑就可以实现。

最后将Query注意力，送到最后一个linear层，这个多头注意力机制就结束了。
基本就是这样一个执行流程。

以下为个人关于多头注意力机制模块的复现代码：

# 定义克隆函数
def clones(model, n):
    """
    :param model: 模型网络
    :param n: copy的模型网络数量
    :return: model_list
    """
    return nn.ModuleList([copy.deepcopy(model) for _ in range(n)])


# 多头注意力机制
class MultiHeadedAttention(nn.Module):
    def __init__(self, head, embedding_dim, dropout=0.1):
        """
        :param head: 多头的数量
        :param embedding_dim: 词嵌入维度
        :param dropout: 随机置零比率
        """
        super(MultiHeadedAttention, self).__init__()
        self.embedding_dim = embedding_dim
        self.head = head
        # 初始化dropout层
        self.dropout = nn.Dropout(dropout)
        # assert 断言词向量维度是否被整除,不能整除会报错
        assert embedding_dim % head == 0
        # head可以被整除的前提下，获取每个头的维度
        self.d_k = self.embedding_dim // self.head
        # 初始化4个方形的变换矩阵，QKV各一个，最后输出一个
        self.layers = clones(nn.Linear(self.embedding_dim, self.embedding_dim), 4)
        # 初始化空的注意力张量
        self.attn = None

    def forward(self, query, key, value, mask=None):
        # 由于后期要进行思维计算，所以如果mask存在需要将三维的mask掩码升到思维
        if mask is not None:
            mask = mask.unsqueeze(0)
        # 从query的第0个维度提取词的batch_size
        batch_size = query.size(0)
        # 多头处理环节
        # 获取处理后的QKV,并交换中间两个维度的位置方便后期计算
        query, key, value = [model(x).view(batch_size, -1, self.head, self.d_k).transpose(1, 2) for model, x in
                             zip(self.layers, (query, key, value))]

        # 将QKV带入attention函数中接受返回的注意力结果
        x, p_attn = attention(query, key, value, mask=mask)
        # 多头concat合并
        x = x.transpose(1, 2).contiguous().view(batch_size, -1, self.head*self.d_k)
        # 返回最后一个liner层的输出结果
        return self.layers[-1](x)

前馈全连接层

这一层相对比较简单，其实就是两个线性层和一个siftmax层的结合操作，至于为什么要加这一机构，个人理解有可能是：

考虑注意力机制可能对复杂过程的拟合程度不够, 所以在每个编码器和解码器结构中都通过增加两层网络来增强模型的能力

复现代码比较简单：

class PositionwiseFeedForward(nn.Module):
    def __init__(self, d_model, d_ff, dropout=0.1):
        """
        前馈全连接层
        :param d_model: 词嵌入维度，输入维度
        :param d_ff: 第一维的输出维度
        """
        super(PositionwiseFeedForward, self).__init__()
        # 初始化线性层
        self.layer_1 = nn.Linear(d_model, d_ff)
        self.layer_2 = nn.Linear(d_ff, d_model)
        # 初始化dropout层
        self.dropout = nn.Dropout(dropout)

    def forward(self, x):
        # x: 上一层的输出作为本层的输入
        return self.layer_2(self.dropout(F.relu(self.layer_1(x))))

规范化层
规范化层，其实也没有什么新意，平时也是这么用的，基本上都是按照惯例进行减均值除方差或者标准差，我这边选择了除以标准差来实现。
那对数据进行规范化操作可以解决哪些问题呢？

因为随着网络层数的增加，通过多层的计算后参数可能开始出现过大或过小的情况，这样可能会导致学习过程出现异常，模型可能收敛非常的慢. 因此都会在一定层数后接规范化层进行数值的规范化，使其特征数值在合理范围内.

class LayerNorm(nn.Module):
    def __init__(self, d_model, eps=-1e9):
        """
        :param d_model: 词嵌入维度
        :param eps: 做除法操作时防止反目为零的常规操作
        """
        super(LayerNorm, self).__init__()
        # 初始化两个参数张量
        self.w_1 = nn.Parameter(torch.ones(d_model))
        self.w_2 = nn.Parameter(torch.zeros(d_model))
        # 初始化eps
        self.eps = eps

    def forward(self, x):
        mean = x.mean(-1, keepdim=True)
        std = x.std(-1, keepdim=True)
        return self.w_1 * ((1-mean)/(std + self.eps)) + self.w_2

编码器层的构造
编码器层的作用：

作为编码器的组成单元, 每个编码器层完成一次对输入的特征提取过程

编码器层结构图：（此图出处为原作者论文，请知悉）

复现代码：

# 构造编码器层结构
class EncoderLayer(nn.Module):
    def __init__(self, d_model, self_attn, feed_forward, dropout=0.1):
        """
        :param d_model: 词嵌入维度
        :param self_attn: 多头注意力机制实例化对象
        :param feed_forward: 前馈全连接类实例化对象
        :param dropout: 随机失活比率
        """
        super(EncoderLayer, self).__init__()
        # 初始化相关参数
        self.d_model = d_model
        self.self_attn = self_attn
        self.feed_forward = feed_forward
        # 克隆两个子层链接层对象
        self.sublayers = clones(SublayerConnection(self.d_model, dropout), 2)

    def forward(self, x, mask):
        """
        :param x: 上一层的输出，作为本层的输入
        :return: 编码器级联结构
        """
        # 构造第一个子层结构多头注意力机制 + 规范化层
        x = self.sublayers[0](x, lambda x: self.self_attn(x, x, x, mask))
        return self.sublayers[1](x, lambda x: self.feed_forward(x))

编码器构造
编码器的作用：

编码器用于对输入进行指定的特征提取过程, 也称为编码, 由N个编码器层堆叠而成

编码器结构图：（此图出处为原作者论文，请知悉）

复现代码：

# 构建编码器类
class Encoder(nn.Module):
    def __init__(self, sublayer, N):
        """
        :param sublayer: 要克隆的模型类结构
        :param N: 数量
        """
        super(Encoder, self).__init__()
        self.sublayers = clones(sublayer, N)
        # 初始化规范化层，收尾使用
        self.norm = LayerNorm(sublayer.d_model)

    def forward(self, x, mask):
        """
        :param x: 上一个编码器层的输出
        :param mask: 掩码
        :return: 数据规范化后的编码器对象
        """
        for sublayer in self.sublayers:
            x = sublayer(x, mask)
        return self.norm(x)

解码器层构造
解码器层作用：

解码器的组成单元, 每个解码器层根据给定的输入向目标方向进行特征提取操作，即解码过程.

解码器结构：（此图出处为原作者论文，请知悉）

复现代码：

# 构建解码器层
class DecoderLayer(nn.Module):
    def __init__(self, d_model, self_attn1, self_attn2, feed_forward, dropout=0.1):
        """
        :param d_model: 词嵌入维度
        :param self_attn1: 第一个注意力机制子层（output连接层）
        :param self_attn2: 第二个注意力机制子层（编码器链接）
        :param feed_forward: 前馈全连接层
        :param dropout: 随机失活比率
        """
        super(DecoderLayer, self).__init__()
        # 初始化相关参数
        self.d_model = d_model
        self.self_attn1 = self_attn1
        self.self_attn2 = self_attn2
        self.feed_forward = feed_forward
        self.norm = LayerNorm(self.d_model)
        # 初始化三个子层链接层对象，即残差快
        self.sublayers = clones(SublayerConnection(self.d_model, dropout), 3)

    def forward(self, x, memory, source_mask, target_mask):
        """
        :param x: 上一层的输出，作为本层的输入
        :param memory: 来自编码器的语义存储变量
        :param source_mask:源数据掩码张量
        :param target_mask:目标数据掩码张量
        :return:解码器级联对象
        """
        x = self.sublayers[0](x, lambda x: self.self_attn1(x, x, x, target_mask))
        x = self.sublayers[1](x, lambda x: self.self_attn2(x, memory, memory, source_mask))
        return self.sublayers[2](x, lambda x: self.feed_forward(x))

解码器构造
解码器作用：

根据编码器的结果以及上一次预测的结果, 对下一次可能出现的’值’进行特征表示.

解码器结构图：

复现代码：

# 解码器类对象
class Decoder(nn.Module):
    def __init__(self, layer, N):
        """
        :param layer: 要克隆的model对象
        :param N: 数量
        """
        super(Decoder, self).__init__()
        # clonesmodels对象
        self.layers = clones(layer, N)
        # 初始化规范化层
        self.norm = LayerNorm(layer.d_model)

    def forward(self, x, memory, source_mask, target_mask):
        """
        :param
        x: 上一层的输出，作为本层的输入
        :param
        memory: 来自编码器的语义存储变量
        :param
        source_mask: 源数据掩码张量
        :param
        target_mask: 目标数据掩码张量
        :return: 解码器层级联对象
        """
        for layer in self.layers:
            x = layer(x, memory, source_mask, target_mask)
        return self.norm(x)

输出部分构造
线性层作用：

通过对上一步的线性变化得到指定维度的输出, 也就是转换维度的作用

softmax层作用：

使最后一维的向量中的数字缩放到0-1的概率值域内, 并满足他们的和为1

复现代码：

# 构造输出层对象
class Generator(nn.Module):
    def __init__(self, d_model, vicab_size):
        """
        :param d_model: 词嵌入维度
        :param vicab_size: 词表长度
        """
        super(Generator, self).__init__()
        # 初始化线性层
        self.liner = nn.Linear(d_model, vicab_size)

    def forward(self, x):
        """
        :param x: 规范化后的解码器的输出对象
        :return: 经过log_softmax处理后的输出对象
        """
        return F.log_softmax(self.liner(x), dim=-1)

整合各个模块，复现Transformer架构主干网络

复现代码：

# 编码器解码器组合类
class EncoderDecoder(nn.Module):
    def __init__(self, encoder, decoder, input_embedded, target_embedded, generator):
        """
        :param encoder: 编码器对象
        :param decoder: 解码器对象
        :param input_embedded: 编码器部分对应的经过embedding层处理过的输入对象
        :param target_embedded: 解码器部分对应的经过embedding层处理过的输入对象
        :param generator: 输出部分对象
        """
        super(EncoderDecoder, self).__init__()
        # 实例属性的初始化和赋值
        self.encoder = encoder
        self.decoder = decoder
        self.input_embedded = input_embedded
        self.target_embedded = target_embedded
        self.generator = generator

    def forward(self, source, target, source_mask, target_mask):
        """
        :param source: 编码器端的初始出入对象
        :param target: 解码器端的初始输入对象
        :param source_mask: 编码器层掩码对象
        :param target_mask: 解码器层的掩码对象
        :return: 编码器端的输出对象
        """
        return self.generator(self.decode(self.encode(source, source_mask), target, source_mask, target_mask))

    def encode(self, source, source_mask):
        """
        :param source: 编码器部分的初始输入对象
        :param source_mask: 编码器层的掩码对象
        :return: 编码器对象
        """

        return self.encoder(self.input_embedded(source), source_mask)

    def decode(self, memory, target, source_mask, target_mask):
        """
        :param target: 解码器端的初始输入对象
        :param memory: 编码器端的输出对象
        :param source_mask: 编码器层的掩码对象
        :param target_mask: 解码器层的掩码对象
        :return: 解码器对象
        """
        return self.decoder(self.target_embedded(target), memory, source_mask, target_mask)


# Transformer核心网络构建方法
def make_model(source_vocab, target_vocab, N=6,
               d_model=512, d_ff=2048, head=8, dropout=0.1):
    """
    :param source_vocab: 编码器端词表长度
    :param target_vocab: 解码器端词表长度
    :param N: 编码器、解码器层数
    :param d_model: 词嵌入维度
    :param d_ff: 前馈全连接网络总的第一个线性层的输出维度
    :param head: 头的数量
    :param dropout: 随机置零比率
    :return: model对象
    """
    # 构建一个深拷贝对象
    c = copy.deepcopy
    # 初始多头注意力机制层对象
    attn = MultiHeadedAttention(head, d_model, dropout)
    # 初始前馈全连接层对象
    d_ff = PositionwiseFeedForward(d_model, d_ff, dropout)
    # 初始positional encoding对象
    position = PositionalEncoding(d_model, dropout)
    # 核心model构件
    model = EncoderDecoder(
        encoder=Encoder(EncoderLayer(d_model, c(attn), c(d_ff), dropout), N),
        decoder=Decoder(DecoderLayer(d_model, c(attn), c(attn), c(d_ff), dropout), N),
        input_embedded=nn.Sequential(Embedding(d_model, source_vocab, dropout), c(position)),
        target_embedded=nn.Sequential(Embedding(d_model, target_vocab, dropout), c(position)),
        generator=Generator(d_model, target_vocab)
    )
    # 模型数据初始化
    # 模型结构完成后，接下来就是初始化模型中的参数，比如线性层中的变换矩阵
    # 这里一但判断参数的维度大于1，则会将其初始化成一个服从均匀分布的矩阵，
    for p in model.parameters():
        if p.dim() > 1:
            nn.init.xavier_uniform_(p)
    return model

最终模型结构图，展示如下，终于结束了，历时三天…：

能看到这里的老铁都是有心人，非常欢迎你的点赞关注。

EncoderDecoder(
  (encoder): Encoder(
    (sublayers): ModuleList(
      (0): EncoderLayer(
        (self_attn): MultiHeadedAttention(
          (dropout): Dropout(p=0.1, inplace=False)
          (layers): ModuleList(
            (0): Linear(in_features=512, out_features=512, bias=True)
            (1): Linear(in_features=512, out_features=512, bias=True)
            (2): Linear(in_features=512, out_features=512, bias=True)
            (3): Linear(in_features=512, out_features=512, bias=True)
          )
        )
        (feed_forward): PositionwiseFeedForward(
          (layer_1): Linear(in_features=512, out_features=2048, bias=True)
          (layer_2): Linear(in_features=2048, out_features=512, bias=True)
          (dropout): Dropout(p=0.1, inplace=False)
        )
        (sublayers): ModuleList(
          (0): SublayerConnection(
            (norm): LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): SublayerConnection(
            (norm): LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (1): EncoderLayer(
        (self_attn): MultiHeadedAttention(
          (dropout): Dropout(p=0.1, inplace=False)
          (layers): ModuleList(
            (0): Linear(in_features=512, out_features=512, bias=True)
            (1): Linear(in_features=512, out_features=512, bias=True)
            (2): Linear(in_features=512, out_features=512, bias=True)
            (3): Linear(in_features=512, out_features=512, bias=True)
          )
        )
        (feed_forward): PositionwiseFeedForward(
          (layer_1): Linear(in_features=512, out_features=2048, bias=True)
          (layer_2): Linear(in_features=2048, out_features=512, bias=True)
          (dropout): Dropout(p=0.1, inplace=False)
        )
        (sublayers): ModuleList(
          (0): SublayerConnection(
            (norm): LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): SublayerConnection(
            (norm): LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (2): EncoderLayer(
        (self_attn): MultiHeadedAttention(
          (dropout): Dropout(p=0.1, inplace=False)
          (layers): ModuleList(
            (0): Linear(in_features=512, out_features=512, bias=True)
            (1): Linear(in_features=512, out_features=512, bias=True)
            (2): Linear(in_features=512, out_features=512, bias=True)
            (3): Linear(in_features=512, out_features=512, bias=True)
          )
        )
        (feed_forward): PositionwiseFeedForward(
          (layer_1): Linear(in_features=512, out_features=2048, bias=True)
          (layer_2): Linear(in_features=2048, out_features=512, bias=True)
          (dropout): Dropout(p=0.1, inplace=False)
        )
        (sublayers): ModuleList(
          (0): SublayerConnection(
            (norm): LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): SublayerConnection(
            (norm): LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (3): EncoderLayer(
        (self_attn): MultiHeadedAttention(
          (dropout): Dropout(p=0.1, inplace=False)
          (layers): ModuleList(
            (0): Linear(in_features=512, out_features=512, bias=True)
            (1): Linear(in_features=512, out_features=512, bias=True)
            (2): Linear(in_features=512, out_features=512, bias=True)
            (3): Linear(in_features=512, out_features=512, bias=True)
          )
        )
        (feed_forward): PositionwiseFeedForward(
          (layer_1): Linear(in_features=512, out_features=2048, bias=True)
          (layer_2): Linear(in_features=2048, out_features=512, bias=True)
          (dropout): Dropout(p=0.1, inplace=False)
        )
        (sublayers): ModuleList(
          (0): SublayerConnection(
            (norm): LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): SublayerConnection(
            (norm): LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (4): EncoderLayer(
        (self_attn): MultiHeadedAttention(
          (dropout): Dropout(p=0.1, inplace=False)
          (layers): ModuleList(
            (0): Linear(in_features=512, out_features=512, bias=True)
            (1): Linear(in_features=512, out_features=512, bias=True)
            (2): Linear(in_features=512, out_features=512, bias=True)
            (3): Linear(in_features=512, out_features=512, bias=True)
          )
        )
        (feed_forward): PositionwiseFeedForward(
          (layer_1): Linear(in_features=512, out_features=2048, bias=True)
          (layer_2): Linear(in_features=2048, out_features=512, bias=True)
          (dropout): Dropout(p=0.1, inplace=False)
        )
        (sublayers): ModuleList(
          (0): SublayerConnection(
            (norm): LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): SublayerConnection(
            (norm): LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (5): EncoderLayer(
        (self_attn): MultiHeadedAttention(
          (dropout): Dropout(p=0.1, inplace=False)
          (layers): ModuleList(
            (0): Linear(in_features=512, out_features=512, bias=True)
            (1): Linear(in_features=512, out_features=512, bias=True)
            (2): Linear(in_features=512, out_features=512, bias=True)
            (3): Linear(in_features=512, out_features=512, bias=True)
          )
        )
        (feed_forward): PositionwiseFeedForward(
          (layer_1): Linear(in_features=512, out_features=2048, bias=True)
          (layer_2): Linear(in_features=2048, out_features=512, bias=True)
          (dropout): Dropout(p=0.1, inplace=False)
        )
        (sublayers): ModuleList(
          (0): SublayerConnection(
            (norm): LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): SublayerConnection(
            (norm): LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
    )
    (norm): LayerNorm()
  )
  (decoder): Decoder(
    (layers): ModuleList(
      (0): DecoderLayer(
        (self_attn1): MultiHeadedAttention(
          (dropout): Dropout(p=0.1, inplace=False)
          (layers): ModuleList(
            (0): Linear(in_features=512, out_features=512, bias=True)
            (1): Linear(in_features=512, out_features=512, bias=True)
            (2): Linear(in_features=512, out_features=512, bias=True)
            (3): Linear(in_features=512, out_features=512, bias=True)
          )
        )
        (self_attn2): MultiHeadedAttention(
          (dropout): Dropout(p=0.1, inplace=False)
          (layers): ModuleList(
            (0): Linear(in_features=512, out_features=512, bias=True)
            (1): Linear(in_features=512, out_features=512, bias=True)
            (2): Linear(in_features=512, out_features=512, bias=True)
            (3): Linear(in_features=512, out_features=512, bias=True)
          )
        )
        (feed_forward): PositionwiseFeedForward(
          (layer_1): Linear(in_features=512, out_features=2048, bias=True)
          (layer_2): Linear(in_features=2048, out_features=512, bias=True)
          (dropout): Dropout(p=0.1, inplace=False)
        )
        (norm): LayerNorm()
        (sublayers): ModuleList(
          (0): SublayerConnection(
            (norm): LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): SublayerConnection(
            (norm): LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (2): SublayerConnection(
            (norm): LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (1): DecoderLayer(
        (self_attn1): MultiHeadedAttention(
          (dropout): Dropout(p=0.1, inplace=False)
          (layers): ModuleList(
            (0): Linear(in_features=512, out_features=512, bias=True)
            (1): Linear(in_features=512, out_features=512, bias=True)
            (2): Linear(in_features=512, out_features=512, bias=True)
            (3): Linear(in_features=512, out_features=512, bias=True)
          )
        )
        (self_attn2): MultiHeadedAttention(
          (dropout): Dropout(p=0.1, inplace=False)
          (layers): ModuleList(
            (0): Linear(in_features=512, out_features=512, bias=True)
            (1): Linear(in_features=512, out_features=512, bias=True)
            (2): Linear(in_features=512, out_features=512, bias=True)
            (3): Linear(in_features=512, out_features=512, bias=True)
          )
        )
        (feed_forward): PositionwiseFeedForward(
          (layer_1): Linear(in_features=512, out_features=2048, bias=True)
          (layer_2): Linear(in_features=2048, out_features=512, bias=True)
          (dropout): Dropout(p=0.1, inplace=False)
        )
        (norm): LayerNorm()
        (sublayers): ModuleList(
          (0): SublayerConnection(
            (norm): LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): SublayerConnection(
            (norm): LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (2): SublayerConnection(
            (norm): LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (2): DecoderLayer(
        (self_attn1): MultiHeadedAttention(
          (dropout): Dropout(p=0.1, inplace=False)
          (layers): ModuleList(
            (0): Linear(in_features=512, out_features=512, bias=True)
            (1): Linear(in_features=512, out_features=512, bias=True)
            (2): Linear(in_features=512, out_features=512, bias=True)
            (3): Linear(in_features=512, out_features=512, bias=True)
          )
        )
        (self_attn2): MultiHeadedAttention(
          (dropout): Dropout(p=0.1, inplace=False)
          (layers): ModuleList(
            (0): Linear(in_features=512, out_features=512, bias=True)
            (1): Linear(in_features=512, out_features=512, bias=True)
            (2): Linear(in_features=512, out_features=512, bias=True)
            (3): Linear(in_features=512, out_features=512, bias=True)
          )
        )
        (feed_forward): PositionwiseFeedForward(
          (layer_1): Linear(in_features=512, out_features=2048, bias=True)
          (layer_2): Linear(in_features=2048, out_features=512, bias=True)
          (dropout): Dropout(p=0.1, inplace=False)
        )
        (norm): LayerNorm()
        (sublayers): ModuleList(
          (0): SublayerConnection(
            (norm): LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): SublayerConnection(
            (norm): LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (2): SublayerConnection(
            (norm): LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (3): DecoderLayer(
        (self_attn1): MultiHeadedAttention(
          (dropout): Dropout(p=0.1, inplace=False)
          (layers): ModuleList(
            (0): Linear(in_features=512, out_features=512, bias=True)
            (1): Linear(in_features=512, out_features=512, bias=True)
            (2): Linear(in_features=512, out_features=512, bias=True)
            (3): Linear(in_features=512, out_features=512, bias=True)
          )
        )
        (self_attn2): MultiHeadedAttention(
          (dropout): Dropout(p=0.1, inplace=False)
          (layers): ModuleList(
            (0): Linear(in_features=512, out_features=512, bias=True)
            (1): Linear(in_features=512, out_features=512, bias=True)
            (2): Linear(in_features=512, out_features=512, bias=True)
            (3): Linear(in_features=512, out_features=512, bias=True)
          )
        )
        (feed_forward): PositionwiseFeedForward(
          (layer_1): Linear(in_features=512, out_features=2048, bias=True)
          (layer_2): Linear(in_features=2048, out_features=512, bias=True)
          (dropout): Dropout(p=0.1, inplace=False)
        )
        (norm): LayerNorm()
        (sublayers): ModuleList(
          (0): SublayerConnection(
            (norm): LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): SublayerConnection(
            (norm): LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (2): SublayerConnection(
            (norm): LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (4): DecoderLayer(
        (self_attn1): MultiHeadedAttention(
          (dropout): Dropout(p=0.1, inplace=False)
          (layers): ModuleList(
            (0): Linear(in_features=512, out_features=512, bias=True)
            (1): Linear(in_features=512, out_features=512, bias=True)
            (2): Linear(in_features=512, out_features=512, bias=True)
            (3): Linear(in_features=512, out_features=512, bias=True)
          )
        )
        (self_attn2): MultiHeadedAttention(
          (dropout): Dropout(p=0.1, inplace=False)
          (layers): ModuleList(
            (0): Linear(in_features=512, out_features=512, bias=True)
            (1): Linear(in_features=512, out_features=512, bias=True)
            (2): Linear(in_features=512, out_features=512, bias=True)
            (3): Linear(in_features=512, out_features=512, bias=True)
          )
        )
        (feed_forward): PositionwiseFeedForward(
          (layer_1): Linear(in_features=512, out_features=2048, bias=True)
          (layer_2): Linear(in_features=2048, out_features=512, bias=True)
          (dropout): Dropout(p=0.1, inplace=False)
        )
        (norm): LayerNorm()
        (sublayers): ModuleList(
          (0): SublayerConnection(
            (norm): LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): SublayerConnection(
            (norm): LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (2): SublayerConnection(
            (norm): LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (5): DecoderLayer(
        (self_attn1): MultiHeadedAttention(
          (dropout): Dropout(p=0.1, inplace=False)
          (layers): ModuleList(
            (0): Linear(in_features=512, out_features=512, bias=True)
            (1): Linear(in_features=512, out_features=512, bias=True)
            (2): Linear(in_features=512, out_features=512, bias=True)
            (3): Linear(in_features=512, out_features=512, bias=True)
          )
        )
        (self_attn2): MultiHeadedAttention(
          (dropout): Dropout(p=0.1, inplace=False)
          (layers): ModuleList(
            (0): Linear(in_features=512, out_features=512, bias=True)
            (1): Linear(in_features=512, out_features=512, bias=True)
            (2): Linear(in_features=512, out_features=512, bias=True)
            (3): Linear(in_features=512, out_features=512, bias=True)
          )
        )
        (feed_forward): PositionwiseFeedForward(
          (layer_1): Linear(in_features=512, out_features=2048, bias=True)
          (layer_2): Linear(in_features=2048, out_features=512, bias=True)
          (dropout): Dropout(p=0.1, inplace=False)
        )
        (norm): LayerNorm()
        (sublayers): ModuleList(
          (0): SublayerConnection(
            (norm): LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): SublayerConnection(
            (norm): LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (2): SublayerConnection(
            (norm): LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
    )
    (norm): LayerNorm()
  )
  (input_embedded): Sequential(
    (0): Embedding(
      (embedding): Embedding(11, 512)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (1): PositionalEncoding(
      (dropout): Dropout(p=0.1, inplace=False)
    )
  )
  (target_embedded): Sequential(
    (0): Embedding(
      (embedding): Embedding(11, 512)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (1): PositionalEncoding(
      (dropout): Dropout(p=0.1, inplace=False)
    )
  )
  (generator): Generator(
    (liner): Linear(in_features=512, out_features=11, bias=True)
  )
)

你可能感兴趣的:(Transformer复现,深度学习,人工智能,NLP)

虚拟与现实的桥梁：Facebook AI 如何变革社交互动模式 LokiSan Facebook facebook 智能合约人工智能隐私保护
在过去的十年里，社交平台的发展经历了巨大的变化，而其中最为引人注目的便是人工智能（AI）技术的引入。作为全球最大的社交平台之一，Facebook在人工智能的应用上不断创新，通过AI变革了社交互动的方式，为用户带来了更加智能和个性化的社交体验。人工智能如何融入社交平台人工智能并非突然出现在Facebook的社交模式中，而是通过不断的发展和技术积累，逐步渗透到平台的各个方面。首先，AI被应用于内容推荐
元宇宙如何改变社交平台的交互模式？Facebook的未来展望 Roc_z7 Facebook facebook 隐私保护社交媒体元宇宙
随着科技的进步，"元宇宙"这个概念逐渐从科幻走进现实，并开始改变我们对社交平台的认知。元宇宙是一个虚拟的沉浸式三维世界，结合了虚拟现实（VR）、增强现实（AR）和人工智能（AI）等技术。Facebook（现Meta）作为全球最大的社交平台之一，早已着手布局元宇宙，力求在未来的社交世界中占据一席之地。那么，元宇宙将如何改变社交平台的交互模式？Facebook如何借此机会发展？本文将一一探讨。什么是元
人工智能和云计算带来的技术变革：人工智能实现自动化营销的方式 AI天才研究院 AI实战 AI大模型企业级应用开发实战大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着人工智能（AI）和云计算技术的不断发展，我们正面临着一场技术革命。这场革命正在改变我们的生活方式、工作方式和商业模式。在这篇文章中，我们将探讨人工智能如何实现自动化营销的方式，并深入了解其背后的核心概念、算法原理、代码实例等。1.1人工智能简介人工智能是一种计算机科学的分支，旨在让计算机具有人类智能的能力，如学习、推理、感知、语言理解等。人工智能的目标是让计算机能够理解自然语言、解
RELLM: 利用正则表达式进行结构化生成的LLM库 safHTEAHE 正则表达式 python
在人工智能生成文本的应用中，确保输出符合特定格式是非常重要的。RELLM是一个库，它通过包装本地HuggingFace管道模型实现了结构化的生成。其核心功能在于逐步生成每一个词元，并在每一步中屏蔽不符合提供的部分正则表达式的词元。这使得输出能够严格遵循指定的格式。技术背景介绍人工智能语言模型（LLM）如GPT等，在生成文本时通常不限制输出格式。然而，在某些应用场景下，遵循特定的输出格式（如JSON
git——Bug分支（git stash命令的使用背景及作用）知北行 Git 其他 git
背景：当你接到一个修复一个代号101的bug的任务时，很自然地，你想创建一个分支issue-101来修复它，但是，当前正在dev上进行的工作还没有提交（进行了add）此时可以使用gitstash命令，把当前工作现场“储藏”起来，等以后恢复现场后继续工作gitstash当完成bug修复工作后，返回之前的工作分支dev，然后可以使用gitstashlist命令查看之前保存的工作现场gitstashli
自动驾驶中的虚实迁移学习:降低对真实世界数据的依赖 AI架构设计之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
自动驾驶,迁移学习,虚实环境,数据效率,深度学习,强化学习1.背景介绍自动驾驶技术作为人工智能领域的重要应用之一，其发展离不开海量真实世界驾驶数据。然而，收集和标注真实世界驾驶数据成本高昂，且存在安全隐患。因此，如何降低对真实世界数据的依赖，提高自动驾驶系统的训练效率和安全性，成为一个亟待解决的关键问题。虚实迁移学习(Virtual-to-RealTransferLearning)作为一种新兴的机
详细介绍 NVIDIA GeForce RTX 系列，各显卡配置参数（长期更新 - 2024.12） JiaWen技术圈人工智能深度学习机器学习 gpu算力 AIGC 人工智能图形渲染
NVIDIAGeForceRTX系列是NVIDIA面向消费级市场的高性能GPU产品线，注重提供高性能的图形处理能力和游戏特性。主要面向游戏玩家和普通用户，同时也被广泛用于深度学习推理和训练等计算密集型任务。主要GPU产品有：50Series、40Series、30Series、20Series、10Series。其主要参数如下：NVIDIAGeForceRTX50Series规格架构：Blackw
进入大模型时代，你真的准备好了吗？鹏哥聊AI 人工智能
前言-PREFACE近期OpenAIo1系列模型发布，在面对复杂问题和专业领域上，有了大幅长足进步，对于博士水平的物理问题，GPT-4o只能得不及格的59.5分，而o1直接干到92.8分，虽然主要是科学、编码和数学模型专业能力方面的提升，还没达到人工智能的通用人工智能AGI和超级人工智能水平，但带来冲击力和震撼还是挺强的，试想一下，拥有一个Openo1的模型，就相当于在数学、物理、编码等方面有博士
使用SolarChat实现中英韩翻译的实战指南 azzxcvhj python
在这篇文章中，我们将探索如何利用SolarChat这一强大的聊天模型来实现中英韩翻译功能。SolarChat是一个方便的语言模型接口，能够帮助我们将自然语言处理任务集成到项目中。本文将详细介绍这个模型的核心原理，并通过示例代码展示如何使用它进行翻译。技术背景介绍随着人工智能的发展，语言模型在各种自然语言处理任务中扮演了重要角色。特别是在翻译、对话生成等领域，先进的语言模型如SolarChat为我们
MasterSAM downloadService任意文件读取（CVE-2024-55457）（附脚本） iSee857 漏洞复现安全 web安全
免责申明：本文所描述的漏洞及其复现步骤仅供网络安全研究与教育目的使用。任何人不得将本文提供的信息用于非法目的或未经授权的系统测试。作者不对任何由于使用本文信息而导致的直接或间接损害承担责任。如涉及侵权，请及时与我们联系，我们将尽快处理并删除相关内容。0x01产品描述：MasterSAM是一款专注于身份管理和单点登录（SSO）的企业级软件，主要用于集中管理用户账户、权限和访问控制。它支持单点登录功能
7-Zip Mark-of-the-Web绕过漏洞复现(CVE-2025-0411) iSee857 漏洞复现安全 web安全
免责申明：本文所描述的漏洞及其复现步骤仅供网络安全研究与教育目的使用。任何人不得将本文提供的信息用于非法目的或未经授权的系统测试。作者不对任何由于使用本文信息而导致的直接或间接损害承担责任。如涉及侵权，请及时与我们联系，我们将尽快处理并删除相关内容。0x01产品描述：7-Zip是一款开源、免费的文件压缩和解压缩软件，以其高压缩比和广泛的格式支持而闻名。它使用LZMA和LZMA2压缩算法，提供极高的
自动检测和机器审核系统实现 ╰つ゛木槿 java easyui javascript python java 自然语言处理
目录一、自动检测和机器审核实现步骤1.文本预处理步骤细节：2.关键词检测步骤细节：3.情感分析与情境理解步骤细节：4.机器学习模型训练步骤细节：5.深度学习模型步骤细节：6.多模态审查步骤细节：7.用户行为分析与违规预测步骤细节：总结二、常用的分词工具1.jieba2.THULAC3.HanLP4.SnowNLP5.LAC（LexicalAnalysisofChinese）6.PyLDAvis（结
【分享】一个查看无线网络密钥的小方法（查看 WiFi密码，热点密码）| 区块链面试题：区块链技术中，如何保证交易的匿名性和隐私性？| 公钥加密，数字签名，零知识证明追光者♂ 工具技巧解决办法百题千解计划(项目实战案例）网络 wlan 热点密码 WiFi密码区块链面试 WiFi
“你不是我，你不会懂。”作者主页：追光者♂个人简介：[1]计算机专业硕士研究生[2]2023年城市之星领跑者TOP1(哈尔滨)[3]2022年度博客之星人工智能领域TOP4[4]阿里云社区特邀专家博主[5]CSDN-人工智能领域优质创作者无限进步，一起追光！！！感谢大家点赞收藏⭐留言！！！目录一、基础回顾步骤1、win+R:cmd，进入Dos命令窗口
使用 Tokenizers 分割文本：深入了解与实践 AWsggdrg python
在开发应用自然语言处理（NLP）模型时，一个常见的需求是将文本拆分为较小的块，通常称为“tokens”。现代语言模型对tokens的数量有限制，因此在处理长文本时，我们需要仔细计算tokens以避免超过限制。本文将介绍如何使用不同的tokenizer来分割文本，并提供实用代码示例。技术背景介绍自然语言处理中的tokenization是指将文本拆分为更小的、可管理的单元，称为tokens。使用tok
千万年薪招揽AI大牛！罗福莉加盟小米，将如何改变其大模型战略？前端
近年来，人工智能(AI)领域发展迅速，其中大模型技术的突破更是引领着新一轮科技浪潮。AI代码生成器作为AI技术的重要应用，也正逐渐改变着软件开发的模式。1月18日，一则重磅消息震惊业界：DeepSeek开源大模型DeepSeek-V2的关键开发者之一罗福莉将加入小米，并可能领导小米大模型团队，年薪高达千万级别。这一举动不仅体现了小米对AI大模型技术的重视，也预示着小米在大模型领域的战略布局将迎来新
vite-plugin-vconsole在windows不生效的原因排查 vitevue3
背景在Vite使用vConsole，方便移动端的本地开发。官方文档见这里：https://github.com/vadxq/vite...。场景复现windows客户端"vite-plugin-vconsole":"^1.1.0""vite":"^2.7.0","vconsole":"^3.9.5",nodev12.18.3yarn1.22.15vite.config.js配置如下：import{
Python数据分析与可视化研究阿尔法星球 python python 数据分析开发语言
Python数据分析与可视化研究摘要随着大数据和人工智能技术的飞速发展，Python数据分析与可视化技术已成为现代科学研究、企业决策等领域不可或缺的工具。本研究全面梳理了Python在数据分析与可视化领域的基本理论框架和关键技术，系统分析了Pandas、NumPy等核心数据分析库以及Matplotlib、Seaborn等可视化库的应用优势与特点。通过实际案例，本研究深入探讨了Python在数据清洗
【AIGC半月报】AIGC大模型启元：2024.07（上） LeeZhao@ AIGC 人工智能 AI Agent
AIGC大模型启元：2024.07（上）(1)AIGVBench-T2V（文生视频基准测评）(2)Gen-3Alpha（Runway）(3)Step-2、Step-1.5V、Step-1X（阶跃星辰开源大模型）(4)InternVL2.0“书生·万象”（上海人工智能实验室）(5)CodeGeeX4-ALL-9B（智谱AI）(6)TTT（全新LLM架构）(1)AIGVBench-T2V（文生视频基准
认知的形式化：数学是建立在明确的公设定理体系之上的高级语言形态 AI架构设计之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
认知形式化，数学语言，公设理体系，高级语言，人工智能，逻辑推理，算法设计1.背景介绍在当今数据爆炸和人工智能飞速发展的时代，如何有效地理解和处理信息成为了一个至关重要的课题。认知科学、人工智能和计算机科学等领域都在积极探索如何将人类的认知能力形式化，并将其转化为可计算的模型。数学作为一种高度抽象和形式化的语言，在认知科学和人工智能领域扮演着至关重要的角色。它为我们提供了描述和推理世界的逻辑框架，并
【cs.AI】25.1.11 arxiv更新速递 hinmer arxiv cs.AI每日更新 chatgpt gpt 人工智能自然语言处理自动驾驶深度学习 aigc
25.1.1012:00-25.1.1112:00共更新75篇—第1篇----=====MultilingualPerformanceofaMultimodalArtificialIntelligenceSystemonMultisubjectPhysicsConceptInventories关键词:多语言,多模态,人工智能,GPT-4,物理教育,物理概念清单链接1摘要:我们研究了一种基于大型语言
【LLM】25.1.11 Arxiv LLM论文速递 hinmer arxiv LLM每日更新 chatgpt gpt 人工智能自然语言处理 ai aigc 深度学习
25.1.1012:00-25.1.1112:00共更新36篇—第1篇----=====Supervisionpoliciescanshapelong-termriskmanagementingeneral-purposeAImodels关键词:通用型人工智能，风险管理，监督政策，模拟框架PDF链接摘要:通用型人工智能（GPAI）模型，包括大型语言模型（LLM）的快速普及和部署，给AI监管实体带来
AI需要的基础数学知识大囚长机器学习大模型人工智能
AI（人工智能）涉及多个数学领域，以下是主要的基础数学知识：1.线性代数矩阵与向量：用于表示数据和模型参数。矩阵乘法：用于神经网络的前向传播。特征值与特征向量：用于降维和主成分分析（PCA）。奇异值分解（SVD）：用于数据压缩和降维。2.微积分导数与偏导数：用于优化算法（如梯度下降）。链式法则：用于反向传播算法。积分：在概率和统计中有应用。3.概率与统计概率分布：如高斯分布、伯努利分布等。贝叶斯定
Transformer中query、key和value的状态为什么要是 contiguous？ AI老兵 transformer 深度学习人工智能知识图谱 agi AIGC
Transformer中query、key和value的状态为什么要是contiguousd值？在阅读Transformer模型的相关代码时，会发现query、key和value都会有contiguous()化操作，如下所示：...query_states=query_states.contiguous()key_states=key_states.contiguous()value_states
【包邮送书】你好！Python Mindtechnist 粉丝福利 python 网络开发语言机器学习
欢迎关注博主Mindtechnist或加入【智能科技社区】一起学习和分享Linux、C、C++、Python、Matlab，机器人运动控制、多机器人协作，智能优化算法，滤波估计、多传感器信息融合，机器学习，人工智能等相关领域的知识和技术。关注公粽号《机器和智能》回复关键词“python项目实战”即可获取美哆商城视频资源！博主介绍：CSDN博客专家，CSDN优质创作者，CSDN实力新星，CSDN内容
人工智能与人工计算的发展——孙凝晖院士一位安分的码农大语言模型人工智能
人工智能领域近年来正在迎来一场由生成式人工智能大模型引领的爆发式发展。2022年11月30日，OpenAI公司推出一款人工智能对话聊天机器人ChatGPT，其出色的自然语言生成能力引起了全世界范围的广泛关注，2个月突破1亿用户，国内外随即掀起了一场大模型浪潮，Gemini、文心一言、Copilot、LLaMA、SAM、SORA等各种大模型如雨后春笋般涌现，2022年也被誉为大模型元年。当前信息时代
Python 如何使用 Bert 进行中文情感分析程序员徐师兄 Python 入门专栏 python bert 开发语言情感分析
前言在自然语言处理（NLP）领域，情感分析是一个非常常见且重要的应用。情感分析通常用于识别文本中的情感，例如判断一条微博或评论是正面、负面还是中性。在过去的几年中，随着深度学习的发展，BERT（BidirectionalEncoderRepresentationsfromTransformers）模型迅速成为了处理自然语言的强大工具。BERT是一种基于Transformer架构的预训练模型，它能够
AI时代，需要怎样的架构师？腾讯云架构师峰会来了！架构
引言架构设计对应用有关键性的影响，不仅决定应用的整体品质，还直接影响开发、维护和扩展的难易度。卓越的架构设计不仅能够确保系统的稳定性、高效性和可扩展性，还能大幅提升研发效能，同时显著降低维护成本。在快速变化的技术环境中，架构师们面临业务需求快速迭代、数据量急剧膨胀以及系统复杂性不断提升等挑战。随着云计算、大数据、人工智能等前沿技术的蓬勃发展，一系列创新解决方案如微服务架构、AI大模型、自动化运维工
PyTorch深度学习实战（43）——手写文本识别盼小辉丶深度学习 pytorch 人工智能
PyTorch深度学习实战（43）——手写文本识别0.前言1.手写文本识别1.1基本概念1.2输入和输出格式1.3CTC损失值2.模型与数据集分析2.1数据集分析2.2模型分析3.实现手写文本识别模型小结系列链接0.前言手写文本识别，也称为手写文本的光学字符识别(OpticalCharacterRecognition,OCR)，是计算机视觉和自然语言处理中的一项具有挑战性的任务。与印刷文本不同，手
算法中的时间复杂度和空间复杂度 CM莫问人工智能算法常见概念算法人工智能 python 时间复杂度空间复杂度
一、背景随着人工智能的纵深发展，我们会发现现在做算法很多时候都是通过掉包来解决问题了。Torch或者Tensorflow之类的深度学习库大大减少了算法工程师的工作量，而且在张量运算、反向传播等环节，这些深度学习库的模块设计也尽最大可能地降低了计算的时间和空间复杂度，从而不需要我们额外进行过多的干预。如果不是科班读计算机相关专业的，相信不少朋友第一次听说时间复杂度和空间复杂度的概念是在找工作刷lee
Anthropic 正计划为其聊天机器人 Claude 推出“双向语音模式”和一个新的记忆功能新加坡内哥谈技术人工智能深度学习机器人科技
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/Anthropic正计划为其聊天机器人Claude推出“双向语音模式”和一个新的记忆功能
ios内付费 374016526 ios 内付费
近年来写了很多IOS的程序，内付费也用到不少，使用IOS的内付费实现起来比较麻烦，这里我写了一个简单的内付费包，希望对大家有帮助。具体使用如下: 这里的sender其实就是调用者，这里主要是为了回调使用。 [KuroStoreApi kuroStoreProductId:@"产品ID" storeSender:self storeFinishCallBa
20 款优秀的 Linux 终端仿真器 brotherlamp linux linux视频 linux资料 linux自学 linux教程
终端仿真器是一款用其它显示架构重现可视终端的计算机程序。换句话说就是终端仿真器能使哑终端看似像一台连接上了服务器的客户机。终端仿真器允许最终用户用文本用户界面和命令行来访问控制台和应用程序。（LCTT 译注：终端仿真器原意指对大型机-哑终端方式的模拟，不过在当今的 Linux 环境中，常指通过远程或本地方式连接的伪终端，俗称“终端”。）你能从开源世界中找到大量的终端仿真器，它们
Solr Deep Paging(solr 深分页) eksliang solr深分页 solr分页性能问题
转载请出自出处：http://eksliang.iteye.com/blog/2148370 作者：eksliang(ickes) blg:http://eksliang.iteye.com/ 概述长期以来，我们一直有一个深分页问题。如果直接跳到很靠后的页数，查询速度会比较慢。这是因为Solr的需要为查询从开始遍历所有数据。直到Solr的4.7这个问题一直没有一个很好的解决方案。直到solr
数据库面试题 18289753290 面试题数据库
1.union ,union all 网络搜索出的最佳答案： union和union all的区别是,union会自动压缩多个结果集合中的重复结果，而union all则将所有的结果全部显示出来，不管是不是重复。 Union：对两个结果集进行并集操作，不包括重复行，同时进行默认规则的排序； Union All：对两个结果集进行并集操作，包括重复行，不进行排序； 2.索引有哪些分类？作用是
Android TV屏幕适配酷的飞上天空 android
先说下现在市面上TV分辨率的大概情况两种分辨率为主 1.720标清，分辨率为1280x720. 屏幕尺寸以32寸为主，部分电视为42寸 2.1080p全高清，分辨率为1920x1080 屏幕尺寸以42寸为主，此分辨率电视屏幕从32寸到50寸都有适配遇到问题，已1080p尺寸为例：分辨率固定不变，屏幕尺寸变化较大。如：效果图尺寸为1920x1080，如果使用d
Timer定时器与ActionListener联合应用永夜-极光 java
功能:在控制台每秒输出一次代码: package Main; import javax.swing.Timer; import java.awt.event.*; public class T { private static int count = 0; public static void main(String[] args){
Ubuntu14.04系统Tab键不能自动补全问题解决随便小屋 Ubuntu 14.04
Unbuntu 14.4安装之后就在终端中使用Tab键不能自动补全，解决办法如下： 1、利用vi编辑器打开/etc/bash.bashrc文件（需要root权限） sudo vi /etc/bash.bashrc 接下来会提示输入密码 2、找到文件中的下列代码 #enable bash completion in interactive shells #if
学会人际关系三招轻松走职场 aijuans 职场
要想成功，仅有专业能力是不够的，处理好与老板、同事及下属的人际关系也是门大学问。如何才能在职场如鱼得水、游刃有余呢？在此，教您简单实用的三个窍门。　　第一，多汇报最近，管理学又提出了一个新名词“追随力”。它告诉我们，做下属最关键的就是要多请示汇报，让上司随时了解你的工作进度，有了新想法也要及时建议。不知不觉，你就有了“追随力”，上司会越来越了解和信任你。　　第二，勤沟通团队的力
《O2O：移动互联网时代的商业革命》读书笔记 aoyouzi 读书笔记
移动互联网的未来：碎片化内容+碎片化渠道=各式精准、互动的新型社会化营销。 O2O：Online to OffLine 线上线下活动 O2O就是在移动互联网时代，生活消费领域通过线上和线下互动的一种新型商业模式。手机二维码本质：O2O商务行为从线下现实世界到线上虚拟世界的入口。线上虚拟世界创造的本意是打破信息鸿沟，让不同地域、不同需求的人
js实现图片随鼠标滚动的效果百合不是茶 JavaScript 滚动属性的获取图片滚动属性获取页面加载
1,获取样式属性值 top 与顶部的距离 left 与左边的距离 right 与右边的距离 bottom 与下边的距离 zIndex 层叠层次例子:获取左边的宽度,当css写在body标签中时 <div id="adver" style="position:absolute;top:50px;left:1000p
ajax同步异步参数async bijian1013 jquery Ajax async
开发项目开发过程中，需要将ajax的返回值赋到全局变量中，然后在该页面其他地方引用，因为ajax异步的原因一直无法成功，需将async:false，使其变成同步的。格式： $.ajax({ type: 'POST', ur
Webx3框架（1） Bill_chen eclipse spring maven 框架 ibatis
Webx是淘宝开发的一套Web开发框架，Webx3是其第三个升级版本；采用Eclipse的开发环境，现在支持java开发；采用turbine原型的MVC框架，扩展了Spring容器，利用Maven进行项目的构建管理，灵活的ibatis持久层支持，总的来说，还是一套很不错的Web框架。 Webx3遵循turbine风格，velocity的模板被分为layout/screen/control三部
【MongoDB学习笔记五】MongoDB概述 bit1129 mongodb
MongoDB是面向文档的NoSQL数据库，尽量业界还对MongoDB存在一些质疑的声音，比如性能尤其是查询性能、数据一致性的支持没有想象的那么好，但是MongoDB用户群确实已经够多。MongoDB的亮点不在于它的性能，而是它处理非结构化数据的能力以及内置对分布式的支持(复制、分片达到的高可用、高可伸缩)，同时它提供的近似于SQL的查询能力，也是在做NoSQL技术选型时，考虑的一个重要因素。Mo
spring/hibernate/struts2常见异常总结白糖_ Hibernate
Spring ①ClassNotFoundException: org.aspectj.weaver.reflect.ReflectionWorld$ReflectionWorldException 缺少aspectjweaver.jar，该jar包常用于spring aop中 ②java.lang.ClassNotFoundException: org.sprin
jquery easyui表单重置(reset)扩展思路 bozch form jquery easyui reset
在jquery easyui表单中尚未提供表单重置的功能，这就需要自己对其进行扩展。扩展的时候要考虑的控件有： combo,combobox,combogrid,combotree,datebox,datetimebox 需要对其添加reset方法，reset方法就是把初始化的值赋值给当前的组件，这就需要在组件的初始化时将值保存下来。在所有的reset方法添加完毕之后，就需要对fo
编程之美-烙饼排序 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; /* *《编程之美》的思路是：搜索+剪枝。有点像是写下棋程序：当前情况下，把所有可能的下一步都做一遍；在这每一遍操作里面，计算出如果按这一步走的话，能不能赢（得出最优结果）。 *《编程之美》上代码有很多错误，且每个变量的含义令人费解。因此我按我的理解写了以下代码： */
Struts1.X 源码分析之ActionForm赋值原理 chenbowen00 struts
struts1在处理请求参数之前，首先会根据配置文件action节点的name属性创建对应的ActionForm。如果配置了name属性，却找不到对应的ActionForm类也不会报错，只是不会处理本次请求的请求参数。如果找到了对应的ActionForm类，则先判断是否已经存在ActionForm的实例，如果不存在则创建实例，并将其存放在对应的作用域中。作用域由配置文件action节点的s
[空天防御与经济]在获得充足的外部资源之前,太空投资需有限度 comsci 资源
这里有一个常识性的问题: 地球的资源,人类的资金是有限的,而太空是无限的..... 就算全人类联合起来,要在太空中修建大型空间站,也不一定能够成功,因为资源和资金,技术有客观的限制.... &
ORACLE临时表—ON COMMIT PRESERVE ROWS daizj oracle 临时表
ORACLE临时表转临时表：像普通表一样，有结构，但是对数据的管理上不一样，临时表存储事务或会话的中间结果集，临时表中保存的数据只对当前会话可见，所有会话都看不到其他会话的数据，即使其他会话提交了，也看不到。临时表不存在并发行为，因为他们对于当前会话都是独立的。创建临时表时，ORACLE只创建了表的结构（在数据字典中定义），并没有初始化内存空间，当某一会话使用临时表时，ORALCE会
基于Nginx XSendfile+SpringMVC进行文件下载 denger 应用服务器 Web nginx 网络应用 lighttpd
在平常我们实现文件下载通常是通过普通 read-write方式，如下代码所示。 @RequestMapping("/courseware/{id}") public void download(@PathVariable("id") String courseID, HttpServletResp
scanf接受char类型的字符 dcj3sjt126com c
/* 2013年3月11日22:35:54 目的：学习char只接受一个字符 */ # include <stdio.h> int main(void) { int i; char ch; scanf("%d", &i); printf("i = %d\n", i); scanf("%
学编程的价值 dcj3sjt126com 编程
发一个人会编程, 想想以后可以教儿女, 是多么美好的事啊, 不管儿女将来从事什么样的职业, 教一教, 对他思维的开拓大有帮助像这位朋友学习: http://blog.sina.com.cn/s/articlelist_2584320772_0_1.html VirtualGS教程 (By @林泰前): 几十年的老程序员，资深的
二维数组（矩阵）对角线输出飞天奔月二维数组
今天在BBS里面看到这样的面试题目, 1，二维数组（N*N），沿对角线方向，从右上角打印到左下角如N=4： 4*4二维数组 { 1 2 3 4 } { 5 6 7 8 } { 9 10 11 12 } {13 14 15 16 } 打印顺序 4 3 8 2 7 12 1 6 11 16 5 10 15 9 14 13 要
Ehcache（08）——可阻塞的Cache——BlockingCache 234390216 并发 ehcache BlockingCache 阻塞
可阻塞的Cache—BlockingCache 在上一节我们提到了显示使用Ehcache锁的问题，其实我们还可以隐式的来使用Ehcache的锁，那就是通过BlockingCache。BlockingCache是Ehcache的一个封装类，可以让我们对Ehcache进行并发操作。其内部的锁机制是使用的net.
mysqldiff对数据库间进行差异比较 jackyrong mysqld
mysqldiff该工具是官方mysql-utilities工具集的一个脚本，可以用来对比不同数据库之间的表结构，或者同个数据库间的表结构如果在windows下，直接下载mysql-utilities安装就可以了，然后运行后，会跑到命令行下： 1）基本用法 mysqldiff --server1=admin:12345
spring data jpa 方法中可用的关键字 lawrence.li java spring
spring data jpa 支持以方法名进行查询/删除/统计。查询的关键字为find 删除的关键字为delete/remove (>=1.7.x) 统计的关键字为count (>=1.7.x) 修改需要使用@Modifying注解 @Modifying @Query("update User u set u.firstna
Spring的ModelAndView类 nicegege spring
项目中controller的方法跳转的到ModelAndView类，一直很好奇spring怎么实现的？ /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version 2.0 (the "License"); * yo
搭建 CentOS 6 服务器(13) - rsync、Amanda rensanning centos
（一）rsync Server端 # yum install rsync # vi /etc/xinetd.d/rsync service rsync { disable = no flags = IPv6 socket_type = stream wait
Learn Nodejs 02 toknowme nodejs
（1）npm是什么 npm is the package manager for node 官方网站：https://www.npmjs.com/ npm上有很多优秀的nodejs包，来解决常见的一些问题，比如用node-mysql，就可以方便通过nodejs链接到mysql，进行数据库的操作在开发过程往往会需要用到其他的包，使用npm就可以下载这些包来供程序调用 &nb
Spring MVC 拦截器 xp9802 spring mvc
Controller层的拦截器继承于HandlerInterceptorAdapter HandlerInterceptorAdapter.java 1 public abstract class HandlerInterceptorAdapter implements HandlerIntercep