中杯可乐多加冰

深入浅出通俗白话理解Transformer及其pytorch源码（零基础理解为什么是Transformer？什么是Transformer？）

目录

一、为什么是Transformer？

二、什么是Transformer？

1、整体框架

2、Embedding

2.1、字向量：Word embedding

2.2、位置编码：Positional Encoding

3、Encoder

3.1、自注意力机制：Self-Attention

3.2、多头自注意力层：Multi-Head Self Attention

3.3、连接与归一化：Add & Norm

3.4、前向反馈网络层：Feed-Forward network

总览Encoder

4、Decoder

4.1、掩码多头注意力层：Mask-Multi-Head-Attention

4.2、编码-解码多头注意力层：Encoder-Decoder Multi-head Attention

4.3、输出层：Output

总览Decoder

三、十万个为什么？

1、Transformer为什么需要进行Multi-head Attention?

2、self-attention为什么要使用Q、K、V？

参考文献：

Transformer是谷歌在2017年发表的论文Attention Is All You Need中提出的一种seq2seq模型，首先是在自然语言处理方面应用，现在已经取得了更大范围的应用与拓展，如今已经成为非常火热的模型。
本篇博文将带着问题，边阅读文章和源码，阐述Transfomer的特点、框架、原理和相关理解。

一、为什么是Transformer？

传统的CNN、RNN(或者LSTM，GRU)计算是顺序的、迭代的、串行的，即只能从左向右依次计算或者从右向左依次计算，而这会导致两个问题：

计算依赖问题。必须要等到当前字处理完才能处理下一个字，限制了模型的并行处理能力；
顺序计算中的信息丢失。CNN、RNN在层次很深时，因为有max pooling，会逐渐丢失一些信息，尽管残差块、门机制等结构在一定程度上缓解了这个问题，但是对于特别长期的依赖现象，传统神经网络依旧无能为力。

而Transformer使用了位置嵌入 (Positional Encoding) 来理解语言的顺序，使用自注意力机制（Self Attention Mechanism）和全连接层进行计算，所有字都是同时训练，具有更好的并行性，不仅大大提高了计算效率，从长远来看更符合GPU的逻辑。

二、什么是Transformer？

1、整体框架

首先Transformer的整体主要分为Encoder和Decoder两大部分。输入的序列首先变成计算机便于处理的Embedding，然后Embedding传入Encoder进行编码，映射成隐藏层特征，经过Encoder后再结合上一次的output输入到Decoder中，最后用softmax计算序列下一个单词的概率。

2、Embedding

Embedding的作用是将输入（“我是一个学生”）初步整理成计算机能识别的特征信息。

Transformer将输入的序列首先转换为Word Embedding，由于 Transformer 模型没有循环神经网络的迭代操作，其还需要编码位置信息，即Positional Encoding。

2.1、字向量：Word embedding

可能你曾经学过one-hot编码，one-hot编码无法表示词与词之间的关系。Word Embedding解决了这个问题，随着训练，他能够使得意思相近的单词表达结果越来越近。

Word Embedding首先设计一个可学习的权重矩阵W，通过词向量与权重矩阵进行相乘，不断训练得到新的表示结果。如下例：

爱” 和 “喜欢” 这两个词经过 one-hot 后分别表示为 10000 和 00001,权重矩阵如下：
$W_{00}$ $W_{01}$ $W_{02}$
$W_{10}$ $W_{11}$ $W_{12}$
$W_{20}$ $W_{21}$ $W_{22}$
$W_{30}$ $W_{31}$ $W_{32}$
$W_{40}$ $W_{41}$ $W_{42}$
相乘后，“爱”被编码成[ $W_{00}$ $W_{01}$ $W_{02}$ ],"喜欢“被编码成[ $W_{40}$ $W_{41}$ $W_{42}$ ]，而这两个词的语法和意思比较相近，在学习过程中，权重矩阵的参数不断更新，从而使得[ $W_{00}$ $W_{01}$ $W_{02}$ ]和[ $W_{40}$ $W_{41}$ $W_{42}$ ]的值越来越近。这就是Word embedding的工作流程。

在pytorch中，我们使用torch自带的embedding功能，权重矩阵先进行随机初始化(当然也可以选择 Pre-trained 的结果)，但设为 Trainable。这样在 training 过程中不断地对 Embeddings 进行改进

class Embeddings(nn.Module):
    def __init__(self, d_model, vocab):
        super(Embeddings, self).__init__()
        self.lut = nn.Embedding(vocab, d_model)  #vocab表示词汇表的数量，d_model表示embedding的维度，即词向量的维度
        self.d_model = d_model  #表示embedding的维度
 
    def forward(self, x):
        return self.lut(x) * math.sqrt(self.d_model)

2.2、位置编码：Positional Encoding

Transformer 摈弃了 RNN 的结构，因此需要一个东西来标记各个字之间的时序 or 位置关系，而这个东西，就是位置嵌入。

以往我们根据单词之间的间隔比例算距离，如果设置整个句子长度为1，如：Attention is all you need ，其中is和you之间的距离为0.5。而：To follow along you will first need to install PyTorch较长文本中子里的0.5距离则会隔很多单词，这显然不合适。

所以总结一下理想的位置编码应该满足：

为每个字输出唯一的编码
不同长度的句子之间，任何两个字之间的差值应该保持一致
值应该是有界的

作者为此设计了一种Positional Encoding，首先，它不是一个数字，而是一个包含句子中特定位置信息的d维向量。其次，这种嵌入方式没有集成到模型中，相反，这个向量是用来给句子中的每个字提供位置信息的，换句话说，我们通过注入每个字位置信息的方式，增强了模型的输入（其实说白了就是将位置嵌入和字嵌入相加，然后作为输入）

其计算位置的公式为：
$\begin{aligned} P E_{(p o s, 2 i)} &=\sin \left(p o s / 10000^{2 i / d_{\text {model }}}\right) \end{aligned}$
$\begin{aligned}P E_{(\text {pos }, 2 i+1)} &=\cos \left(p o s / 10000^{2 i / d_{\text {model }}}\right) \end{aligned}$

符号解释：其中，pos代表是词在句子中的位置，d是词向量的维度（通常为512），2i代表d中的偶数维度，同理，i代表奇数维度。

公式解释：由公式可知，每一维 i 都对应不同周期的正余弦曲线： i=0 时是周期为 $\pi$ 的 sin 函数， i=1 时是周期为 $2\pi$ 的cos 函数…位置嵌入在 embedding_dimension维度上产生一种包含位置信息的纹理，对于不同的两个位置 pos1 和 pos2 ，若它们在某一维i上有相同的编码值，则说明这两个位置的差值等于该维所在曲线的周期，即 $|\operatorname{pos} 1-\operatorname{pos} 2|=T_{i}$ 。而对于另一个维度 $\neq i)$ ，由于 $T_{j} \neq T_{i}$ ，因此 $\operatorname{pos} 1$ 和 $p o s 2$ 在这个维度 j 上的编码值就不会相等，对于其它任意 k $\in\{0,1,2, \ldots, d-1\} ; k \neq i$ 也是如此。
综上可知，这种编码方式保证了不同位置在所有维度上不会被编码到完全一样的值，从而使每个位置都获得独一无二的编码。

在pytorch中，使用自带的Positional Embedding模块进行设计

在# Positional Encoding
class PositionalEncoding(nn.Module):
    "实现PE功能"
    def __init__(self, d_model, dropout, max_len=5000):  ##vocab表示词汇表的数量，d_model表示embedding的维度，即词向量的维度
        super(PositionalEncoding, self).__init__()
        self.dropout = nn.Dropout(p=dropout)
         
        pe = torch.zeros(max_len, d_model)   # max_len=5000表示句子最多有5000个词
        position = torch.arange(0., max_len).unsqueeze(1) 
        div_term = torch.exp(torch.arange(0., d_model, 2) *
                             -(math.log(10000.0) / d_model))  # 那个分数
         
        pe[:, 0::2] = torch.sin(position * div_term)    # 偶数列
        pe[:, 1::2] = torch.cos(position * div_term)    # 奇数列
        pe = pe.unsqueeze(0)           # [1, max_len, d_model]
        self.register_buffer('pe', pe)  # 将pe注册到模型的buffers()属性中，这代表该变量对应的是一个持久态，不会有梯度传播给它，但是能被模型的state_dict记录下来。
         
    def forward(self, x):
        x = x + Variable(self.pe[:, :x.size(1)], requires_grad=False)  #输入模型的整个Embedding是Word Embedding与Positional Encoding直接相加之后的结果。
        return self.dropout(x)

3、Encoder

Encoder的作用是将刚刚初步整理的Embedding，在Encoder中通过注意力机制等进行进一步的编码。

Encoder部分是由个层相同小Encoder Layer串联而成。小Encoder Layer可以简化为两个部分：（1）多头自注意力层:Multi-Head Self Attention (2) 前向反馈网络层:Feed-Forward network。前者用于捕捉特征之间的关系，后者是进一步编码学习

3.1、自注意力机制：Self-Attention

之前通过word embedding和positional encoding我们得到了字（单词）编码的向量表示: $x_t$ 。
接着，我们现在设计三个变换：key = linear_k(x)、query = linear_q(x)、value = linear_v(x) 将编码后的 $x_t$ 进行变换生成三个矩阵：查询矩阵 $W^Q$ （Query）、键矩阵 $W^K$ （Key）、值矩阵 $W^V$ （Value）

于是所有的字向量: $x_t$ 又衍生出三个新的向量: $Q$ 、 $K$ 、 $V$ ，将其代入公式： $\operatorname{Attention}(Q, K, V)=\operatorname{softmax}\left(\frac{Q K^{T}}{\sqrt{d_{k}}}\right) V$ ,其中的 $\sqrt{d_{k}}$ 是为了防止Q和K的点积值过大，避免在经过softmax后梯度太小，形象表示为：

至此我们得到了单个自注意力的输出，当然可以把上面的向量计算变成矩阵的形式（即将多个字向量摞成矩阵形式，矩阵第t行为第t个词的向量），从而一次计算出所有时刻的输出。

3.2、多头自注意力层：Multi-Head Self Attention

Multi-Head Self Attention 实际上是由h个Self Attention 层并行组成（原文为8），就是说线性变换的矩阵从一组（ $W^Q$ 、 $W^K$ 、 $W^V$ ）变成多组（ $W_0^Q$ 、 $W_0^K$ 、 $W_0^V$ ）、（ $W_1^Q$ 、 $W_1^K$ 、 $W_1^V$ ）、（ $W_2^Q$ 、 $W_2^K$ 、 $W_2^V$ ）…了，对于输入矩阵X，每一组Q、K、V都可以得到一个输出矩阵Z，最后将他们拼接起来就好了。

pytorch实现：

class MultiHeadedAttention(nn.Module):
    def __init__(self, h, d_model, dropout=0.1):
        "Take in model size and number of heads."
        super(MultiHeadedAttention, self).__init__()
        assert d_model % h == 0
        # 每个head中向量的维度，通常是512/8=64
        self.d_k = d_model // h
        # head的数量，通常为8
        self.h = h
        # 设置4个变换，其中3个用于生成Q、K、V   clones是一个方法，代表将结构相同的层实例化n次
        self.linears = clones(nn.Linear(d_model, d_model), 4)

        self.attn = None
        self.dropout = nn.Dropout(p=dropout)

    def forward(self, query, key, value, mask=None):
        """
        实现MultiHeadedAttention。
           输入的q，k，v是形状 [batch, L, d_model]。
           输出的x 的形状同上。
        """
        if mask is not None:
            # Same mask applied to all h heads.
            mask = mask.unsqueeze(1)
        nbatches = query.size(0)

        # 1)  矩阵点乘生成Q、K、V
        # 这一步qkv变化:[batch, L, d_model] ->[batch, h, L, d_model/h]
        query, key, value = \
            [l(x).view(nbatches, -1, self.h, self.d_k).transpose(1, 2)
             for l, x in zip(self.linears, (query, key, value))]

        # 2) 计算注意力attn 并加权到V，得到Z，维度与Q、K、V类似。
        # qkv :[batch, h, L, d_model/h] -->x:[b, h, L, d_model/h], attn[b, h, L, L]
        x, self.attn = attention(query, key, value, mask=mask, dropout=self.dropout)
        # 3) 维度复原
        # 上一步的结果合并在一起还原成原始输入序列的形状
        x = x.transpose(1, 2).contiguous().view(nbatches, -1, self.h * self.d_k)
        # 最后将Z输入最后一个全连接层
        return self.linears[-1](x)

3.3、连接与归一化：Add & Norm

连接Add

Add操作和原理很简单，就是把上一步得到的Self-attention（Q、K、V）（如果是多头自注意力，就是对应拼接后的矩阵）与经过了Positional Encoding的embedding连接。
$X_{e m b e d d i n g}+\operatorname{Self-Attention}(Q, K, V)$

归一化
采用的是Layer Normalization，Layer Normalization的作用是把神经网络中隐藏层归一为标准正态分布，以起到加快训练速度，加速收敛。
1.首先以列为单位计算均值和方差：
$\mu_{j}=\frac{1}{m} \sum_{i=1}^{m} x_{i j}$
$\sigma_{j}^{2}=\frac{1}{m} \sum_{i=1}^{m}\left(x_{i j}-\mu_{j}\right)^{2}$
2.然后用每列的每个元素减去这列的均值，再除以这列的标准差，最后得到这列的标准差。
$\operatorname{Layer} \operatorname{Norm}(x)=\frac{x_{i j}-\mu_{j}}{\sqrt{\sigma_{j}^{2}+\epsilon}}$

Add&Norm的pytorch实现如下：

class LayerNorm(nn.Module):
    """构造一个layernorm模块"""
    def __init__(self, features, eps=1e-6):
        super(LayerNorm, self).__init__()
        self.a_2 = nn.Parameter(torch.ones(features))
        self.b_2 = nn.Parameter(torch.zeros(features))
        self.eps = eps
 
    def forward(self, x):
        "Norm"
        mean = x.mean(-1, keepdim=True)
        std = x.std(-1, keepdim=True)
        return self.a_2 * (x - mean) / (std + self.eps) + self.b_2
 
 
class SublayerConnection(nn.Module):
    """Add+Norm"""
    def __init__(self, size, dropout):
        super(SublayerConnection, self).__init__()
        self.norm = LayerNorm(size)
        self.dropout = nn.Dropout(dropout)
 
    def forward(self, x, sublayer):
        "add norm"
        return x + self.dropout(sublayer(self.norm(x)))

3.4、前向反馈网络层：Feed-Forward network

这部分实质上是两个全连接层映射，第一层是一个线性激活函数，第二层是激活函数是ReLU。
$X_{hidden}=Linear(ReLU(Linear(X_{hidden})))$
实现很简单：

# Position-wise Feed-Forward Networks
class PositionwiseFeedForward(nn.Module):
    "实现FFN函数"
    def __init__(self, d_model, d_ff, dropout=0.1):
        super(PositionwiseFeedForward, self).__init__()
        self.w_1 = nn.Linear(d_model, d_ff)
        self.w_2 = nn.Linear(d_ff, d_model)
        self.dropout = nn.Dropout(dropout)
 
    def forward(self, x):
        return self.w_2(self.dropout(F.relu(self.w_1(x))))

总览Encoder

通过上面的步骤，我们大致已经基本了解了Encoder的全部原理和主要构成，那么在此回顾整理一下：

根据图上的,将步骤总结如下：

字向量
$\begin{array}{c}X=Embedding（X）\end{array}$
位置编码
$\begin{array}{c}X=X+Positional-Encoding（X）\end{array}$
注意力层
$\begin{array}{c} Q=\operatorname{Linear}_{q}(X)=X W_{Q} \\ K=\operatorname{Linear}_{k}(X)=X W_{K} \\ V=\operatorname{Linear}_{v}(X)=X W_{V} \\ X_{a t t e n t i o n}=\operatorname{Self-Attention}(Q, K, V) \end{array}$
残差连接（Add）与归一化（Norm）
$\begin{array}{c} X_{attention} =X+X_{attention} \end{array}$
$\begin{array}{c} X_{attention} =LayerNorm(X_{attention}) \end{array}$
前向反馈网络层(FFN)
$\begin{array}{c} X_{hidden} =Linear(ReLU(Linear(X_{attention}))) \end{array}$
再一次的残差连接（Add）与归一化（Norm）
$\begin{array}{c} X_{hidden} =X_{attention}+ X_{hidden}\end{array}$

4、Decoder

因为输入（“我是一个学生”）在Encoder中进行了编码，这里我们具体讨论Decoder的操作，也就是如何得到输出（“I am a student”）的过程。

Encoder与Decoder的关系可以用下图描述（以机器翻译为例）:

Decoder的大框架如下：

可以看到Decoder主要由Masked Multi-Head Self-Attention、Multi-Head Encoder-Decoder Attention、FeedForward Network组成，和 Encoder 一样，上面三个部分的每一个部分，都有一个残差连接，后接一个 Layer Normalization。

4.1、掩码多头注意力层：Mask-Multi-Head-Attention

传统 Seq2Seq 中 Decoder 使用的是 RNN 模型，因此在训练过程中输入t时刻的词，模型无论如何也看不到未来时刻的词，因为循环神经网络是时间驱动的，但是Transformer 抛弃了RNN改为Self-Attention，会发生一个问题：整个ground truth都暴露在Decoder中，这显然不对。

所以这一层目的是忽略某些位置，不计算与其相关的注意力权重。为的是防止为了模型看到要预测的数据，防止泄露。

我们要对 Scaled Scores 进行 Mask，举个例子现在的ground truth 为 " I am fine"，当我们输入 “I” 时，模型目前仅知道包括 “I” 在内之前所有字的信息，即 “” 和 “I” 的信息，不应该让其知道 “I” 之后词的信息。道理很简单，我们做预测的时候是按照顺序一个字一个字的预测，怎么能这个字都没预测完，就已经知道后面字的信息了呢？Mask 非常简单，首先生成一个下三角全 0，上三角全为负无穷的矩阵，然后将其与 Scaled Scores 相加即可：

之后为了数据更方便处理，做一次softmax，就能将负无穷变换为0，得到各个字之间的权重。而Multi无非就是并行的对上述步骤多做几次，不再赘述。
这一部分的pytorch实现为：

def subsequent_mask(size):
    """
    mask后续的位置，返回[size, size]尺寸下三角Tensor
    对角线及其左下角全是1，右上角全是0
    """
    attn_shape = (1, size, size)
    subsequent_mask = np.triu(np.ones(attn_shape), k=1).astype('uint8')
    return torch.from_numpy(subsequent_mask) == 0

4.2、编码-解码多头注意力层：Encoder-Decoder Multi-head Attention

这一部分就是之前讲过的多头自注意力层，只不过输入不同，这部分的K,V为之前Encoder的输出，Q为Decoder中Masked Multi-head Attention 的输出。

这一部分的pytorch实现为：

class DecoderLayer(nn.Module):
    "Decoder is made of self-attn, src-attn, and feed forward (defined below)"
    def __init__(self, size, self_attn, src_attn, feed_forward, dropout):
        super(DecoderLayer, self).__init__()
        self.size = size
        self.self_attn = self_attn
        self.src_attn = src_attn
        self.feed_forward = feed_forward
        self.sublayer = clones(SublayerConnection(size, dropout), 3)
  
    def forward(self, x, memory, src_mask, tgt_mask):
        "将decoder的三个Sublayer串联起来"
        m = memory
        x = self.sublayer[0](x, lambda x: self.self_attn(x, x, x, tgt_mask))
        x = self.sublayer[1](x, lambda x: self.src_attn(x, m, m, src_mask))
        return self.sublayer[2](x, self.feed_forward)

4.3、输出层：Output

当decoder层全部执行完毕后，怎么把得到的向量映射为我们需要的词呢，只需要在结尾再添加一个全连接层和softmax层，假如我们的词典是1w个词，那最终softmax会输入1w个词的概率，概率值最大的对应的词就是我们最终的结果。

总览Decoder

对应上图，回顾整个Decoder的全部流程如下
Time Step 1
初始输入：起始符 + Positional Encoding（位置编码）
中间输入：（我是一个学生）Encoder Embedding（Encoder编码后的文本特征）
最终输出：产生预测“I”
Time Step 2
初始输入：起始符 + “I”+ Positonal Encoding
中间输入：（我是一个学生）Encoder Embedding
最终输出：产生预测“I am”
…
…
Time Step n
初始输入：起始符 + “I”+ “am”+ Positonal Encoding
中间输入：（我是一个学生）Encoder Embedding
最终输出：产生预测“I am a student”

三、十万个为什么？

下面从各类网站、博客、论文结合个人理解摘录和整理了部分重要问题（持续更新），看完后会对Transformer有个更好的理解。

1、Transformer为什么需要进行Multi-head Attention?

self-attention，是一种通过自身和自身相关联的attention机制，从而得到一个更好的 representation 来表达自身，引入Self Attention后会更容易捕获句子中长距离的相互依赖的特征，Multi-head Attention是多层次的self-attention，多头的注意力有助于网络捕捉到更丰富的特征/信息(类比 CNN 中同时使用多个卷积核)。

在self-attention中，Q=K=V，序列中的每个单词(token)和该序列中其余单词(token)进行attention计算。self-attention的特点在于无视词(token)之间的距离直接计算依赖关系，从而能够学习到序列的内部结构，实现起来也比较简单

2、self-attention为什么要使用Q、K、V？

Query，Key，Value的概念取自于信息检索系统，Q表示的就是与我这个单词相匹配的单词的属性，K就表示我这个单词的本身的属性，V表示的是我这个单词的包含的信息本身。
实验发现self-attention使用Q、K、V，这样三个参数独立，模型的表达能力和灵活性很好。

觉得本文不错请点赞或收藏，虽然不会给作者带来经济收益，但是可以让本文获得更多曝光机会。

有其他疑问推荐在评论区留言，你提出的问题将对其他人也提供帮助。

参考文献：

Transformer 详解：https://wmathor.com/index.php/archives/1438/

【NLP】Transformer：
http://mantchs.com/2019/09/26/NLP/Transformer/

Transformer 中的 Positional Encoding：https://wmathor.com/index.php/archives/1453/

Transformer 修炼之道：https://www.jianshu.com/p/e6b5b463cf7b

协议层攻防战：群联AI云防护为何比传统方案更精准？群联云防护小杜安全问题汇总人工智能 tcp/ip 网络协议网络安全
一、四层/七层攻击防御的核心挑战协议层攻击类型传统方案缺陷四层SYNFlood、UDP反射依赖硬件清洗，误封合法流量七层HTTPCC、SQL注入规则静态，无法适应新型攻击二、群联的协议层定制防御技术1.四层协议防护：智能动态指纹技术原理：基于AI分析TCP/UDP流量特征，动态生成协议指纹库，识别伪造源IP的畸形包。文档引用：“防护模块灵活，支持定制版防护模块，适用于非网站业务”。配置示例：#动态
无再暴露源站！群联AI云防护IP隐匿方案+防绕过实战群联云防护小杜安全问题汇总人工智能 tcp/ip 网络协议网络安全 http 服务器
一、IP隐藏的核心原理群联AI云防护通过三层架构实现源站IP深度隐藏：流量入口层：用户访问域名解析至高防CNAME节点（如ai-protect.example.com）智能调度层：基于AI模型动态分配清洗节点，实时更新节点IP池回源层：防护节点通过加密隧道与源站通信，源站仅接受来自群联节点的流量二、IP隐藏配置全流程1.DNS配置（域名指向群联CNAME）#域名DNS记录示例@CNAMEai-pr
多级缓存设计实践 MClink 架构缓存
缓存是什么？缓存技术是一种用于加速数据访问的优化策略。它通过将频繁访问的数据存储在高速存储介质（如内存）中，减少对慢速存储设备（如硬盘或远程服务器）的访问次数，从而提升系统的响应速度和性能。缓存的基本原理是：当某个数据被请求时，系统首先检查缓存中是否已存储该数据。如果缓存中存在，则直接返回缓存中的数据，称为“缓存命中”；如果缓存中没有该数据，则从源数据存储（如数据库或远程服务器）中获取数据，并将其
探索Google AI聊天模型的集成和使用 qahaj 人工智能 python
随着人工智能的飞速发展，GoogleAI的聊天模型提供了强大的自然语言处理能力，可以应用于多种场景中。本文将为你介绍如何通过GoogleAI和LangChain库来使用这些聊天模型。技术背景介绍GoogleAI提供了一系列强大的聊天模型，这些模型具备不同的功能和参数设置。它们不仅可以通过GoogleAI服务访问，还可以通过GoogleCloudVertexAI以企业级功能使用。在本文中，我们将重点
python实现绘制爱心函数（绘制过程） halo0416 python 开发语言
首先，确保已经安装了matplotlib库和numpy库。如果没有安装，可以通过pip来安装：pipinstallmatplotlibpipinstallnumpy了解心形函数公式：x(t)=y(t)=13cos⁡(t)−5cos⁡(2t)−2cos⁡(3t)−cos⁡(4t)定义函数：defheart_shape(t):x=16*np.sin(t)**3y=13*np.cos(t)-5*np.c
Java高频面试之SE-23 牛马baby java 面试 windows
hello啊，各位观众姥爷们！！！本baby今天又来了！哈哈哈哈哈嗝Java中的Stream是Java8引入的一种全新的数据处理方式，它基于函数式编程思想，提供了一种高效、简洁且灵活的方式来操作集合数据。Stream的核心思想是声明式编程（告诉程序“做什么”，而不是“怎么做”）。1.Stream的核心特点无存储：Stream不存储数据，只是对数据源的视图（如集合、数组、I/O通道等）。函数式操作：
CCNP之IGP学习笔记（2022）码龄4年审核中笔记 OSPF RIP EIGRP IGP CCNP
evecommunityedition2.0.3-92_v1.4.1.ovaOVF（OpenVirtualizationFormat：开放虚拟化格式）和OVA（OpenVirtualizationAppliance：开放虚拟化设备）appliance器具collaborative合作的；协力完成的translation翻译；译文；译本；转化CollaborativeTranslationFrame
高效快速教你DeepSeek如何进行本地部署并且可视化对话大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
科技文章：高效快速教你DeepSeek如何进行本地部署并且可视化对话摘要：随着自然语言处理（NLP）技术的进步，DeepSeek作为一款基于深度学习的语义搜索技术，广泛应用于文本理解、对话系统及信息检索等多个领域。本文将探讨如何高效快速地在本地部署DeepSeek，并结合可视化工具实现对话过程的监控与分析。通过详尽的步骤、案例分析与代码示例，帮助开发者更好地理解和应用DeepSeek技术。同时，本
区块链环境配置自用 Xmas190 其它区块链
FabricLab1.Fabric环境搭建与基本操作2.Fabric链码基础3.Fabric项目架构Fabric实践一：环境搭建与基本操作一、Fabric环境搭建本文用于指导Fabric在基于Ubuntu的Linux系统中的安装与配置，如有未安装过的同学可以参考本指南自行配置。相关组件版本号：名称版本Ubuntu16.04Fabric1.4Docker20.10.5Docker-compose1.
《AI医疗系统开发实战录》第6期——智能导诊系统实战骆驼_代码狂魔程序员的法宝人工智能 django python neo4j 知识图谱
关注我，后期文章全部免费开放，一起推进AI医疗的发展核心主题：如何构建95%准确率的智能导诊系统？技术突破：结合BERT+知识图谱的混合模型设计一、智能导诊架构设计python基于BERT的意图识别模型（PyTorch）fromtransformersimportBertTokenizer,BertForSequenceClassificationimporttorchclassTriageMod
CentOS 7 64位安装Docker 咯拉咯啦 Docker docker
以下是在已有的CentOS764位虚拟机上安装Docker并配置华为镜像源的详细步骤：1.备份原有Yum源（可选，建议操作）#备份原有仓库文件sudomv/etc/yum.repos.d/CentOS-Base.repo/etc/yum.repos.d/CentOS-Base.repo.backup2.更换CentOS7Yum源为华为源#下载华为云CentOS7的仓库文件sudocurl-o/et
RK平台下Buildroot驱动编译环境入门 ItJavawfc RK系统-驱动驱动学习 Kernel Ubuntu Buildroot
提示：低配置电脑下驱动编译环境搭建，驱动学习环境准备文章目录目的需求环境Ubuntu18Desk桌面开发环境Buildroot编译环境基本要求个人环境VM环境配置+Buildroot编译环境配置Buildroot编译总结目的搭建驱动开发编译环境硬件环境要求不达标如何进行配置规避，使编译环境编译OK为后续自己开发工作中，学习环境做一个简单的指导需求这里我需要搭建的环境是Ubuntu上面用Linux源
一、Python入门基础 MeyrlNotFound python 开发语言
1.Python简介与环境搭建•了解Python的历史、特点和应用领域Python的历史Python是一种高级编程语言，由GuidovanRossum于1989年发明。Python语言的设计目标是让代码易读、易写、易维护，从而提高开发效率和代码质量。自其诞生以来，Python已从一个简单的系统管理工具发展成为一种广泛应用于多个领域的编程语言。Python的特点1.简单易学：Python的语法简洁明
sqlmap笔记君如尘网络安全-渗透笔记笔记
1.运行环境sqlmap是用Python编写的，因此首先需要确保你的系统上安装了Python。sqlmap支持Python2.6、2.7和Python3.4及以上版本。2.常用命令通用格式：bythonsqlmap.py-r注入点地址--参数-rpost请求-uget请求--level=测试等级--risk=测试风险-v显示详细信息级别-p针对某个注入点注入-threads更改线程数，加速--ba
笔记：代码随想录算法训练营day60：并查集理论基础、寻找存在的路径 jingjingjing1111 笔记
本文为学习并查集理论基础|代码随想录、代码随想录过程中的思考find是找的顶头上司，而不是当前上司，最后怎么也得找到一个顶头上司的上司是自己，要不然这个结构也不成立使用issame替换会使被操作者为当前节点，而非根节点。join(u,v)的功能为将v的根节点挂到u的根节点下模拟过程可以看出，join中的find中的路径压缩要在长度大于2（路径大于1）的时候才会体现出来107.寻找存在的路径卡码网题
计算机基础：编码04，认识反码和补码水饺编程 MFC学习笔记 Win32学习笔记 windows c++mfc c语言
专栏导航本节文章分别属于《Win32学习笔记》和《MFC学习笔记》两个专栏，故划分为两个专栏导航。读者可以自行选择前往哪个专栏。（一）WIn32专栏导航上一篇：计算机基础：编码03，根据十进制数，求其原码回到目录下一篇：无（二）MFC专栏导航上一篇：计算机基础：编码03，根据十进制数，求其原码回到目录下一篇：无本节前言在前两节，我讲解了关于原码的知识。本节，我来讲解反码和补码。在学习本节之前，你需
Android Jetpack 应用架构指南小李子学编程 Android 开发文档指南 android android jetpack 学习
AndroidJetpack应用架构指南本指南涵盖Android应用开发的最佳实践和推荐架构，助力开发者构建健壮高效的应用程序。。前置要求本文假设您已具备Android框架基础知识。若需系统学习Android开发，建议先完成《Android基础知识》目录新架构设计背景移动应用交互特性核心架构原则分离关注点数据模型驱动界面单一数据源单向数据流分层架构设计界面层数据层领域层依赖管理方案工程实践指南参考
Python爬虫笔记一（来自MOOC） Requests库入门小灰不停前进 #Python python pycharm 爬虫
Python爬虫笔记一通用代码框架：importrequestsdefgetHTMLText(url):try:r=requests.get(url,timeput=30)r.raise_for_status()#如果状态不是200，引发HTTPError异常r.encoding=r.apparemt_encodingreturnr.textexcept:return"产生异常"if__name_
Python基于深度学习的动物图片识别技术的研究与实现 Java老徐 Python 毕业设计 python 深度学习开发语言深度学习的动物图片识别技术 Python动物图片识别技术
博主介绍：✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌文末获取源码联系精彩专栏推荐订阅不然下次找不到哟2022-2024年最全的计算机软件毕业设计选题大全：1000个热门选题推荐✅Java项目精品实战案例《100套》Java微信小程序项目实战《100套》感兴趣的可以先收藏起来，还有大家
【深度学习与大模型基础】第7章-特征分解与奇异值分解 lynn-66 深度学习与大模型基础算法机器学习人工智能
一、特征分解特征分解（EigenDecomposition）是线性代数中的一种重要方法，广泛应用于计算机行业的多个领域，如机器学习、图像处理和数据分析等。特征分解将一个方阵分解为特征值和特征向量的形式，帮助我们理解矩阵的结构和性质。1.特征分解的定义对于一个n×n的方阵A，如果存在一个非零向量v和一个标量λ，使得：则称λ为矩阵A的特征值，v为对应的特征向量。特征分解将矩阵A分解为：其中：Q是由特征
论文阅读笔记——MAGICDRIVE: STREET VIEW GENERATION WITH DIVERSE 3D GEOMETRY CONTROL 寻丶幽风论文阅读笔记论文阅读笔记 3d 人工智能自动驾驶
MagicDrive论文MagicDrive通过对3D数据和文本数据的多模态条件融合和隐式视角转换，实现了高质量、多视角一致的3D场景生成。几何条件编码Cross-attention：针对顺序数据，适合处理文本标记和边界框等可变长度输入。Additiveencoderbranch：对于地图等网络状规则数据，能够有效保留空间结构。对于文本按照模版构建：“Adrivingsceneat{locatio
【笔记】扩散模型（五）：Classifier-Free Guidance 理论推导与代码实现 LittleNyima Diffusion Models 笔记机器学习深度学习
论文链接：Classifier-FreeDiffusionGuidance上一篇文章我们学习了ClassifierGuidance，这种方法通过引入一个额外的分类器，使用梯度引导的方式成功地实现了条件生成。虽然ClassifierGuidance可以直接复用训练好的diffusionmodels，不过这种方法的问题是很明显的，首先需要额外训练一个分类器，而且这个分类器不仅仅分类一般的图像，还需要分
震惊！ “深度学习”都在学习什么扉间798 深度学习学习人工智能
常见的机器学习分类算法俗话说三个臭皮匠胜过诸葛亮这里面集成学习就是将单一的算法弱弱结合算法融合用投票给特征值加权重AdaBoost集成学习算法通过迭代训练一系列弱分类器，给予分类错误样本更高权重，使得后续弱分类器更关注这些样本，然后将这些弱分类器线性组合成强分类器，提高整体分类性能。（一）投票机制投票是一种直观且常用的算法融合策略。在多分类问题中，假设有多个分类器对同一数据进行分类判断。每个分类器
NLP高频面试题（十）——目前常见的几种大模型架构是啥样的 Chaos_Wang_ NLP常见面试题自然语言处理架构人工智能
深入浅出：目前常见的几种大模型架构解析随着Transformer模型的提出与发展，语言大模型迅速崛起，已经成为人工智能领域最为关注的热点之一。本文将为大家详细解析几种目前常见的大模型架构，帮助读者理解其核心差异及适用场景。1.什么是LLM（大语言模型）？LLM通常指参数量巨大、能够捕捉丰富语义信息的Transformer模型，它们通过海量的文本数据训练而成，能够实现高度逼真的文本生成、复杂的语言理
深度学习 | pytorch + torchvision + python 版本对应及环境安装 zfgfdgbhs 深度学习 python pytorch
目录一、版本对应二、安装命令（pip）1.版本（1）v2.5.1~v2.0.0（2）v1.13.1~v1.11.0（3）v1.10.1~v1.7.02.安装全过程（1）选择版本（2）安装结果参考文章一、版本对应下表来自pytorch的github官方文档：pytorch/vision:Datasets,TransformsandModelsspecifictoComputerVisionpytor
《面向模式的软件体系结构3-资源管理模式》读书笔记（7）--- Coordinator模式 weixin_33699914 人工智能
3.3Coordinator模式Coordinator（协调者）模式描述了如何通过协调涉及多个参与者（每个参与者都包含资源、资源使用者和资源提供者）的任务的完成来维护系统的一致性。这个模式提出了一个解决方案，使得在涉及多个参与者的任务中，或者所有参与者的任务都完成，或者一项任务都没有完成。这确保了系统总是处于一致的状态。1.问题很多系统都会执行涉及不止一个参与者的任务。一个参与者是一个主动实体，既
常见的编码方式及特征菜根Sec 服务器网络 linux web安全网络安全
一、BASE编码1、Base64Base64是网络上最常见的用于传输8Bit字节码的编码方式之一，Base64就是一种基于64个可打印字符来表示二进制数据的方法。Base64，就是包括小写字母a-z、大写字母A-Z、数字0-9、符号"+“、”/"一共64个字符的字符集。（1）编码规则①把3个字节变成4个字节。②每76个字符加一个换行符。③最后的结束符也要处理（2）举例说明转前：s13先转成asci
PyTorch核心基础知识点 niuTaylor 编程区 pytorch 人工智能 python
PyTorch核心基础知识点，结合最新特性与工业级实践，按优先级和逻辑关系分层解析：▍核心基石：张量编程（TensorProgramming）1.张量创建（8种生产级初始化）#设备自动选择（2024最佳实践）device="cuda"iftorch.cuda.is_available()else"mps"iftorch.backends.mps.is_available()else"cpu"#关键
一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
nvm管理多版本node,nvm 配置国内镜像，npm配置国内镜像奇纳尼 npm 前端 node.js
目录前言nvm是什么？安装nvm配置nvm国内镜像nvm常用命令npm配置国内镜像：淘宝镜像nrm源管理命令：可以不用实际项目中会遇到的问题前言公司多个项目需要配置不同版本的node,按照传统方式一直切换下载安装不同版本的node太麻烦了，发现nvm可以管理多版本nodenvm是什么？nvm（node.jsversionmanagement），是一个nodejs的版本管理工具。nvm和n都是nod
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1

深入浅出 通俗白话理解Transformer及其pytorch源码（零基础理解为什么是Transformer？什么是Transformer？）

目录