秃头小苏

CV攻城狮入门VIT(vision transformer)之旅——近年超火的Transformer你再不了解就晚了！

作者简介：秃头小苏，致力于用最通俗的语言描述问题

专栏推荐：深度学习网络原理与实战

近期目标：写好专栏的每一篇文章

支持小苏：点赞、收藏⭐、留言

文章目录

CV攻城狮入门VIT(vision transformer)之旅——近年超火的Transformer你再不了解就晚了！
- 写在前面
- 整体框架
- self Attention✨✨✨
- - 执行步骤
  - - step1：获取 $q^i、k^i、v^i$
    - step2：计算attention score
    - step3：通过softmax层
    - step4：得到输出 $b^i$
  - 代码演示
  - - step1：准备输入
    - step2：初始化权重矩阵
    - step3：生成 $Q 、 K 、 V$
    - step4：计算attention score
    - step5：attn_score矩阵通过softmax层
    - step6：将attn_scores_softmax与矩阵V相乘
    - 特别注意
  - 小结
- Multi-Head Attention✨✨✨
- - step1：获取 $q^i、k^i、v^i$
  - step2：分裂产生多个 $q^{i,j}、k^{i,j}、v^{i,j}$
  - step3：对所有head使用self Attention
  - step4：拼接所有head输出的结果
  - step5：Concat后的结果乘上 $W^o$ 矩阵
  - 小结
- encoder
- decoder
- - 训练阶段
  - 测试阶段
- 总结
- 论文下载地址
- 参考连接
- 附录
- - input输入解析
  - - Input Embedding
    - Positional Encoding（位置编码）
    - 小结

CV攻城狮入门VIT(vision transformer)之旅——近年超火的Transformer你再不了解就晚了！

写在前面

近年来，VIT模型真是屠戮各项榜单啊，就像是15年的resnet，不管是物体分类，目标检测还是语义分割的榜单前几名基本都是用VIT实现的！！！朋友，相信你点进来了也是了解了VIT的强大，想一睹VIT的风采。正如我的标题所说，作为一名CV程序员，没有接触过NLP（自然语言处理）的内容，这给理解VIT带来了一定的难度，但是为了紧跟时代潮流，我们还是得硬着头皮往transformer的浪潮里冲一冲。那么这里我准备做一个VIT的入门系列，打算一共分为三篇来讲述，计划如下：

第一篇：介绍NLP领域的transformer，这是我们入门VIT的必经之路，我认为这也是最艰难的一步。当然我会尽可能从一个CV程序员的角度来帮助大家理解，也会秉持我写文章的宗旨——通俗易懂，相信你耐心看完会有所收获。
第二篇：介绍VIT，即transformer模型在视觉领域的应用，当你对第一篇transformer了解透彻后，这部分难度不大，所谓先苦
后甜，所以大家还是要多花些功夫在第一篇文章理解上。
第三篇：梳理VIT的代码，让大家对VIT有一个更加清晰的认识。大家遇到代码也不要有畏难情绪，对于不明白的地方我们大可以
调试看看输出的变化或者查阅文档，总之方法总比困难多！

那么下面我们就要开始了，给大家详细的唠唠transformer！！！准备发车

整体框架

在介绍transformer的整体框架之前，我先来简单说说我们为什么采用transformer结构，即transformer结构有什么优势呢？在NLP中，在transformer出现之前，主流的框架是RNN和LSTM，但这些框架都有一个共同的缺陷，就是程序难以并行化。举个例子，我们期望用RNN来进行语言的翻译任务，即输入I Love China，输出我爱中国。对于RNN来说，要是现在我们要输出中国，就必须先输出我和爱，这个过程是难以并行的，即我们必须先得到一些东西才能进行下一步。【注：这里不知大家能否听懂哈，但只要知道传统架构有难以并行化的缺陷即可】

这样的话，就可以顺理成章的提出transformer了，其最主要就是解决了类似RNN框架难以并行的特点。后文我也会详细介绍transformer是如何进行并行处理数据的。

现在就让我们来看看transformer的整体框架，如下图所示：【注：下图图片公式皆为论文中所截，这里整理到了一起】

看了上图，不用想太多，你就是不理解，我想任谁第一眼看到这堆玩意都是懵逼的，但是没关系，后面我会慢慢的解析这个图。

这一部分我想大致介绍一下这篇文章的行文安排，这样大家应该就不会有很乱的感觉。首先我会介绍self Attention模块和Multi-Head Attention模块。这两部分是transformer的核心，可以这么说，搞懂了这两个部分transformer你基本就掌握大部分了。接着我会讲解encoder和decoderr模块，明白的Multi-Head Attention后，其实encoder和decoder模块就非常简单了。最后，我会做一个总结，提出我的一些思考和看法。

self Attention✨✨✨

在写这部分之前呢，我觉得有必要提醒一下大家，对于我下面讲述的内容你可能会很难理解self Attention为什么会这么做，我给的意见是大家先不用过多的在意，而是先了解self Attention的过程，这个过程理解后，你可能就会对self Attention产生自己独特的认识，当然这部分介绍完后我也会给出自己的理解供大家参考。此外，这部分我会先给出self Attention的执行步骤，然后会结合代码帮大家更深入的理解这个过程，大家务必耐心看完！！！

【注：执行步骤部分的图都为自己所画，一方面希望能用自己的思路表述清楚这部分，另一方面也想在锻炼一下自己的作图水平，作图不易，恳请大家点赞支持，转载请附链接。代码演示部分参考这篇文章】

执行步骤

step1：获取 $q^i、k^i、v^i$

下面我就来介绍self Attention的步骤了。首先，需要有一系列的输入，以三个输入 $a_1$ 、 $a_2$ 、 $a_3$ 为例，我们分别将 $a_1$ 、 $a_2$ 、 $a_3$ 乘以 $W_q$ 、 $W_k$ 、 $W_v$ 矩阵得到对应的 $q$ 、 $k$ 、 $v$ ，如下图所示：

需要注意的是这里的 $W_q$ 、 $W_k$ 、 $W_v$ 是共享的。【注：或许你还不明白 $a_1$ 、 $a_2$ 、 $a_3$ 怎么通过乘一个矩阵变成 $q$ 、 $k$ 、 $v$ 的，不用担心，在执行步骤介绍完后，我会举一些特例结合代码帮大家理解这些过程，所以还是像我先前说到那样对不理解的点先不用着急，耐心的看完你可能会有所收获！！！】

在每给出一个执行步骤后，我都会列出这部分执行的图解公式，其实这些都是一些矩阵运算，如下图所示：

step2：计算attention score

得到这些 $q$ 、 $k$ 、 $v$ 后，我们会分别用q去乘每一个 $k^T$ 得到一个数值 $a_{ij}$ ，即用 $q_1分别乘k_1^T、k_2^T、k_3^T$ ； $q_2分别乘k_1^T、k_2^T、k_3^T$ ； $q_3分别乘k_1^T、k_2^T、k_3^T$ ，如下图所示：【注：为方便表示，先使用 $q_1分别乘k_1^T、k_2^T、k_3^T$ 得到 $a_{1,1}、a_{1,2}、a_{1,3}$ 】

$a_{1,1}、a_{1,2}、a_{1,3}$ 是一个数值，我们称为attention score，其表示的是每个输入的重要程度。这部分的图解公式如下：

step3：通过softmax层

这步就比较简单了，即把上步得到的 $a_{1,1}、a_{1,2}、a_{1,3}$ 经过一个softmax层得到输出 $a_{1,1}^{'}、a_{1,2}^{'}、a_{1,3}^{'}$ ，如下图所示：

这里有一点我需要说明，如果你看attention的论文或者一些文章解读，在经过softmax层前会除了一个 $\sqrt {{{\rm{d}}_k}}$ ，起到了一个归一化的作用，我这里没有除，因为后面代码举例时不除这个 $\sqrt {{{\rm{d}}_k}}$ 会更方便大家理解，至于这里除不除 $\sqrt {{{\rm{d}}_k}}$ 对大家理解是没有任何影响的，而且不除 $\sqrt {{{\rm{d}}_k}}$ 其实也是一种方法。

这里在给出此步骤的图解公式：

step4：得到输出 $b^i$

得到 $a_{1,1}^{'}、a_{1,2}^{'}、a_{1，3}^{'}$ 后，会让其分别乘 $v_1、v_2、v_3$ 再相加得到 $b^1$ ，过程如下：

这部分的图解公式如下：

上文通过 $q_1分别乘k_1^T、k_2^T、k_3^T$ 最终得到 $b^1$ ，同理我们可以通过 $q_2分别乘k_1^T、k_2^T、k_3^T$ 和 $q_3分别乘k_1^T、k_2^T、k_3^T$ 得到 $b^2和b^3$ 。如下图所示：

在上述step2、step3和step4中，由于没有介绍 $b^2和b^3$ 的生成过程，因此只给出了有关 $b^1$ 的图解公式。这里再补充上完整的图解公式，如下：

step2:

step3:

step4:

最后，为让大家理解此过程是并行的，我将步骤1到步骤4的过程整合在一起，其中 $I$ 表示输入的向量，通过下图可以很明显的看出这些矩阵运算是可以并行的，即我们把所有的输入 $a_{i}$ 拼在一起成为 $I$ ，将I输入网络进行一系列的矩阵运算。

代码演示

这部分会根据上述的理论过程结合代码加深各位的理解。此外，这部分我也会分步骤介绍，但会细化理论部分的步骤，这样大家理解起来会更舒服，但整体的步骤是没有变的。

step1：准备输入

我们定义的输入有三个，它们的维度都是1×4的，将它们放在一起构成一个3×4的输入张量，代码如下：

import torch

x = [
  [1, 0, 1, 0], # Input 1
  [0, 2, 0, 2], # Input 2
  [1, 1, 1, 1]  # Input 3
 ]
x = torch.tensor(x, dtype=torch.float32)

我们来看看输入x的结果:

## 输出结果
tensor([[1., 0., 1., 0.],
        [0., 2., 0., 2.],
        [1., 1., 1., 1.]])

step2：初始化权重矩阵

我们知道要拿输入x和权重矩阵 $W_q$ 、 $W_k$ 、 $W_v$ 分别相乘得到 $q$ 、 $k$ 、 $v$ ，而x的维度是3×4，为保证矩阵可乘，可设 $W_q$ 、 $W_k$ 、 $W_v$ 的维度都为4×3，这样得到的 $q$ 、 $k$ 、 $v$ 都为3×3维。

w_query = [
  [1, 0, 1],
  [1, 0, 0],
  [0, 0, 1],
  [0, 1, 1]
]

w_key = [
  [0, 0, 1],
  [1, 1, 0],
  [0, 1, 0],
  [1, 1, 0]
]

w_value = [
  [0, 2, 0],
  [0, 3, 0],
  [1, 0, 3],
  [1, 1, 0]
]

##将w_query、w_key、w_value变成张量形式
w_query = torch.tensor(w_query, dtype=torch.float32)
w_key = torch.tensor(w_key, dtype=torch.float32)
w_value = torch.tensor(w_value, dtype=torch.float32)

step3：生成 $Q 、 K 、 V$

这步就是矩阵的乘法，注意@表示矩阵的乘法，*表示矩阵按位相乘。代码如下：

querys = x @ w_query
keys = x @ w_key
values = x @ w_value

同样的，我们可以看看此步得到的 $Q 、 K 、 V$ 结果：

## Q
tensor([[1., 0., 2.],
        [2., 2., 2.],
        [2., 1., 3.]])
        
## K
tensor([[0., 1., 1.],
        [4., 4., 0.],
        [2., 3., 1.]])
        
## V        
tensor([[1., 2., 3.],
        [2., 8., 0.],
        [2., 6., 3.]])

step4：计算attention score

计算attention score其实就是计算 $\cdot K^T$ ，代码如下：

attn_scores = querys @ keys.T

计算得到的attn_scores结果如下：

##attn_scores
tensor([[ 2.,  4.,  4.],
        [ 4., 16., 12.],
        [ 4., 12., 10.]])

注意，上图只画出了 $q_1 \cdot K^T$ 的计算结果，为 $[2 ., 4 ., 4 .]$ ，同理你可以得到 $q_2 \cdot K^T$ 和 $q_1 \cdot K^T$ 的结果，分别为 $[4 ., 16 ., 12 .]$ 和 $[4 ., 12 ., 10 .]$ ，将它们组合在一起即得到了attn_scores矩阵，其维度为3×3。

step5：attn_score矩阵通过softmax层

将上步得到的attn_scores输入softmax层，代码如下：

from torch.nn.functional import softmax

attn_scores_softmax = softmax(attn_scores, dim=-1)

我们可以来看看attn_scores_softmax的结果：

tensor([[6.3379e-02, 4.6831e-01, 4.6831e-01],
        [6.0337e-06, 9.8201e-01, 1.7986e-02],
        [2.9539e-04, 8.8054e-01, 1.1917e-01]])

上面的结果有效数字太多了，后文不好教学展示，因此我们对attn_scores_softmax的结果取小数点后一位，即attn_scores_softmax变成下列形式：

attn_scores_softmax = [
  [0.0, 0.5, 0.5],
  [0.0, 1.0, 0.0],
  [0.0, 0.9, 0.1]
]
##转换为tensor格式
attn_scores_softmax = torch.tensor(attn_scores_softmax)


##输出attn_scores_softmax结果
#tensor([[0.0000, 0.5000, 0.5000],
#        [0.0000, 1.0000, 0.0000],
#        [0.0000, 0.9000, 0.1000]])

step6：将attn_scores_softmax与矩阵V相乘

这部分代码如下：

outputs = attn_scores_softmax@values

这里可以看一下这部分的输出：

# outputs结果
tensor([[2.0000, 7.0000, 1.5000],
        [2.0000, 8.0000, 0.0000],
        [2.0000, 7.8000, 0.3000]])

注意：这部分不是按照参考链接所给代码写的，参考链接中把这步拆分成了两个部分，还涉及到了三维矩阵的乘法，我认为是不好理解的，感兴趣的可以自己去看看。

特别注意

代码演示这部分的代码和图是参考Illustrated: Self-Attention 这篇文章，我觉得写的非常好，图文并茂的展现了self Attention的过程。但是我认为这个例子似乎是有一些缺陷的，当然了，这里所说的缺陷并没有针对作者对self Ateention的解释，而是这个例子不能对应我们下文提出的encoder和decoder模块，我现在说encoder 和decoder 模块你肯定还不明白说的是什么，但是我这里先提出这个例子的缺陷，大家有个印象就好。

那到底是什么缺陷呢？我们可以直接来看上文step7中图片，可以发现我们输入的是3个4维向量，即维度为3×4；而输出为3个三维向量，即维度为3×3。这里的维度是不同的，这主要是由于我们在由输入生成 $Q 、 K 、 V$ 时所乘的权重矩阵 $W_q$ 、 $W_k$ 、 $W_v$ 维度导致的。那么输入输出的维度不一致为什么会在encoder 和 decoder 出现问题呢？其实啊，在Attention操作后都会接上一个残差模块，这就要求Attention 操作前后输入输出的维度一致。

讲到这里，我相信大家已经知道问题就出在输入输出的维度上的，那么后文我们就会默认经过Attention模块后输入输出的维度保持不变。

这部分我没有修改这部分代码及图片一方面是偷了个懒，另一方面是想让大家更加深刻的意识到这个输入输出维度的问题。还有一点需要注意，在下文介绍Multi-Head Attention时是最后通过乘一个 $W^o$ 矩阵实现的，在相关部分我也会介绍。

小结

最后我们来对照整体框架的第一张图来看看self Attention的过程，如下图：

对于上图其实有两点和我们上文讲述的有所差异，第一点是红色底框中的Mask是可选的（opt.），我们并没有采用，关于这个Mask我会在后文讲述decoder模块部分进行讲解；还有一点是上图采用的是Scaled Dot-Product Attention，而我们采用的是Dot-Product Attention，这两个有什么区别呢？其实区别我们在step3:通过softmax层有提到，即没有除以 $\sqrt {{{\rm{d}}_k}}$ 。

到这里，self Attention的内容就介绍完了。我自认为讲解得算是比较清楚的了，希望能对大家有所帮助。

Multi-Head Attention✨✨✨

Multi-Head Attention称为多头注意力机制，其实你理解了上文的自注意力机制（self Attention），再来看这部分其实就很简单了，下面就跟着我一起来学学吧！！！

step1：获取 $q^i、k^i、v^i$

首先第一步和self Attention一模一样，获取 $q^i、k^i、v^i$ ，如下图所示：

step2：分裂产生多个 $q^{i,j}、k^{i,j}、v^{i,j}$

以下以两个head为例进行阐述，即将 $q^1$ 分裂成两个 $q^{1,1}和q^{1,2}$ ，将 $q^2$ 分裂成两个 $q^{2,1}和q^{2,2}$ ，将 $q^3$ 分裂成两个 $q^{3,1}和q^{3,2}$ 如下图所示：

那么这个过程是怎么进行的呢，其实也很简单，只需要分别乘上两个矩阵 $W_1^Q$ 和 $W_2^Q$ 即可。【注意： $q_1、q_2、q_3乘$ $W_1^Q$ 会分别得到 $q^{1,1}、q^{2,1}、q^{3,1}$ ； $q_1、q_2、q_3乘$ $W_2^Q$ 会分别得到 $q^{1,2}、q^{2,2}、q^{3,2}$ 】

为了方便大家理解，结合特例作图如下：即我们只需有 $W_1^Q$ 和 $W_2^Q$ 矩阵即可将 $q$ 分成多个。

同理，我们可以将 $k 和 v$ 采用同样的方法，即都相应的乘以两个矩阵进行分裂，结果如下图所示：

step3：对所有head使用self Attention

我们可以将上述结果分成两个head进行处理，如下图所示：

你会发现head1和head2就是我们前面所说的self Attention里面的元素，这样会从head1和head2得到对应输出，如下图所示：

step4：拼接所有head输出的结果

这一步我们会将上一步不同head输出的结果进行Concat拼接，如下图所示：

step5：Concat后的结果乘上 $W^o$ 矩阵

这一步会乘上 $W^o$ 矩阵，其作用主要是融合之前多个head的结果，并使我们的输出和输入时维度保持一致，如下图所示：【注：这里是不是和我们介绍Self Attention模块时讲的特别注意部分很像呢，即Multi-Head Attention是通过 $W^o$ 矩阵控制输入输出维度一致的】

小结

同样的，这里我们也来对照整体框架中的图片来看看Multi-Head Attenton的过程，如下图所示：

你会发现这副图画的比较抽象，用虚影表示出多个head的情景，我想大家是能够理解的。需要注意的一点是上图中的Linear操作其实就是指我们对原数据乘一个矩阵进行变换。

那么到这里，Multi-Head Attention的内容就介绍完了，希望能对大家有所帮助。

encoder

encoder模块结构如下图黄色虚线框内所示：

首先我们要先介绍一下输入，即上图Input Embedding + Positional Encoding 部分，因为这部分我认为内容还是挺多的，因此放在了附录部分，大家可先点击查看。

了解了输入，其实就剩下了灰色框部分，其实这部分还蛮简单的，其主要由两个小部分组成，其一是Multi-Head Attention+Add&Norm，其二是Feed Forward+Add&Norm。

我们先来介绍第一小部分，假设输入是维度为(N，d)的矩阵，用 $I$ 来表示，首先会进入一个Multi-Head Attention模块，这部分我们上文已经详细介绍过了，这里不再阐述，通过Multi-Head Attention模块后得到输出 $B$ ，其维度同样是(N，d)。接着使用一个残差模块将 $I$ 和 $B$ 加到一起得到 ${{\rm{B}}^`} ，最后对{{\rm{B}}^`}$ 进行Layer Normalization操作得到输出 $O_1$ ，其维度同样是(N，d)。【关于Layer Normalization不了解的可以参考我的这篇文章：Batch_Normalization 、Layer_Normalization 、Group_Normalization你分的清楚吗 】

这部分操作的表达式如下：

$O_1=Layer \ Normalization(I + Multi\text{-}Head Attention(I))$

是不是发现这种表达式一下子就把上图的结构都展现出来了呢，所以数学真的很奇妙！！！

接下来来介绍第二小部分。这回的输入即为 $O_1$ ，维度为(N，d)。首先会进入一个Feed Forward网络，这是什么呢，其实很简单，就是两个全连接层，如下图所示：

经过Feed Forward层后，我们的输出为 $O_1^1$ ，前后尺寸保持不变。接着我们同样会进行Add和Layer Normalization操作，最后得到输出 $O_2$ ，此时 $O_2$ 的维度同样为(N，d)。

这部分操作的表达式如下：

$O_2=Layer \ Nomalization(O_1+Feed \ Forward \ Network(O_1))$

这样我们就算是把一个encoder网络介绍完了，细心的同学可能会发现encoder结构图傍边写了个 $N \times$ ，没错啦，和大家想的一样，我们会将这个结构重复N次。重复N次就不要我讲了叭，但需要强调一点，一个网络结构要能够重复堆叠，那么它的输入输出的维度应该是一致的，很显然我们上面介绍的结构满足这已条件。

这部分是不是发现还蛮简单滴，同样，希望大家都有所收获！！！

decoder

decoder的结构如下图黄色虚线框内所示：

decoder的结构相较于encoder就难多了，一共包含四个子结构(灰色框中三个)，分别为Masked Multi-head Attention+Add&Norm 、Multi-Head Attention+Add&Norm 、 Feed Forward+Add&Norm 和 Linear+Softmax。

我觉得这部分最难理解的就是训练和测试是不同的，下面我将分为训练阶段和测试阶段来为大家讲解这个decoder模块。

训练阶段

我们先来讲讲decoder的训练阶段是如何运行的。首先要明确我们的任务——将“我有一只猫”翻译成“I have a cat”。选用这个例子也是我看网上资料基本都是这个例子，图片都是于此相关的，这部分我实在是不想再画图了，这篇文章确实写的太久了，也太累了，所以也就偷个懒，就借用一下别人的图啦！！！【这里的参考链接我放在最后那部分，因为我看评论区博主说这些图片是一篇英文博客上的，不过我没找到原始博客】

接着我们来看看decoder的输入和输出是什么：

输入：encoder的输出和decoder自身的输出
输出：输出词的概率分布

对于这个输入输出你现在可能还不是很理解，接下来我会慢慢分析。

我觉得很有必要的一点是让大家清楚decoder结构主要做了什么？——decoder会根据之前的翻译，求得目前最有可能的翻译结果。例如输入“”预测出第一个单词为“I”，输入“ I”预测下一个单词为“have”。如下图所示：【注：这里的是开始的标志，是要加在我们的输入中的。】

这里不知道大家能否明白，我当时看这部分时还是有所困惑的，即我们的任务不是将“我有一只猫”翻译成“I have a cat”嘛，为什么这里输入和输出都是英文啊？这块我没看到相关的解释，可能时我们CV程序员对NLP的理解有所欠缺，我谈谈自己的看法——我认为大家和我进入了一个误区，即decoder的输入到底是什么？通过我上文的我们可以知道decoder输入为encoder的输出和decoder自身的输出。可以看到，decoder根本就没有把“我是一只猫”作为输入，它会先输入一个开始标志，这样会输出“I”；接着这个“I”又反过来加到后，形成“ I”，这时将“ I”作为输入，会得到输出“have”。这样描述大家是否能明白了呢？其实啊，“我是一只猫”这个输入只存在encoder的输入中，在decoder中可没有用到喔。

如果大家觉得自己明白了这一部分，先给自己点个赞！！！然后我再来问大家一个问题看看你是否是真的明白了呢——为什么我们输入输出的会是“I”,输入“ I”输出会是“have”？仔细想想喔，下自然段为大家解答。

傻瓜！！！这当然是我们训练的结果啦！！！不然这傻瓜机器怎么会这么智能。我简单的画个图为大家解释解释。

CV攻城狮入门VIT(vision transformer)之旅——近年超火的Transformer你再不了解就晚了！_第31张图片

上图展示了我们训练的大致过程，即我们输入经Decoder会得到输出，然后这个输出会和我们期望的真实值比较，接着就是更新各种参数使这个输出更加接近“I”。然后我们将输出放在后构成新的输入送入Decoder网络得到输出，此时再拿输出和期望的输出“have”比较，使两者相似。依此类推…

这回大家是不是对Decoder的理解更近一步了呢？如果是的话，我就再来问大家一个问题——我们输入得到输出，尽管我们期望这个输出与真实值“I”尽可能接近，但很可能我们训练的结果不那么准确，比如最后输出的不是“I”而是“L”，接着我们将“L”拼在后面形成“ L”，再将其作为输入，此时输入都有偏差，大概率会导致此时的输出离预期结果差距更大，这样下去，最后的结果就更加离谱了，这就像是一步错步步错。那么这应该用什么方法解决呢？不卖关子了，这里我们会每次都把正确的单词序列作为输入，即不管你一步输出的是“I”还是“L”，我们都会将真实结果“I”拼在后形成下一步输入，后面都是这样。这种方式被称为teacher-forcing，就像是一个老师在看着你，让你每次都强制输入正确的结果。【注：这部分只在训练部分使用，因为我们在测试阶段是没有真实值的】

到这里，我相信大家对decoder整体的训练已经有了一个较清晰的认识。下面我就来结合decoder的结构图来看看decoder里到底都有些什么。

首先是输入部分，这部分我在上文中讲述的已经够清楚了。在训练阶段我们会将“ I have a cat”这五个单词的词向量作为输入，需要注意的是这里同样加上了位置编码，但是加了位置编码后的维度还是一样的，后文就不再特别强调是否加入了位置编码。接下来会将输入送到Masked Multi-Head Attention中，是不是发现和前面讲的Multi-Head Attention有些不一样呢，多了一个Masked。那为什么要采用这个Masked呢，这是因为训练时我们输入的是所有的GT(Ground Truth)，即“ I have a cat”五个词向量，但是在测试时并不会这样做，而是一个一个的输入，因为此时的输入必须包含上一步的输出，而不全是GT。采用Masked会在训练时掩盖某个单词后面的词向量，即预测第 i 个输出时，就要将第 i+1 之后的单词掩盖住，这样就防止了训练时某个单词接触了未来的信息，导致和测试时不一致。下面我将一步步带大家看看Masked Multi-Head Attention的过程。【注：下面使用0 1 2 3 4分别代表“ I have a cat ”的前五个词，即不包括，是结束标志】

得到输入矩阵和Mask矩阵，两者维度一致。图中显示遮挡位置的值为0。可以发现单词0只能使用单词0的信息，单词1可以使用单词0和单词1的信息。
通过输入矩阵X计算得到 $Q 、 K 、 V$ 并计算 $\cdot K^T$
$\cdot K^T$ 与Mask矩阵按位相乘，得到 $\ \ Q \cdot K^T$
对 $\ \ Q \cdot K^T$ 进行Softmax操作，使 $\ \ Q \cdot K^T$ 矩阵的每一行相加都为1
$\ \ Q \cdot K^T$ 与矩阵V相乘，得到输出Z

上述过程只展示的是一个Head的情况，输出了Z，最后应该把所有Head的结果拼接，使最终的Z和输入X的维度一致。

Masked Multi-Head Attention结束后使一个Add&LayerNormalization层，这个我在encoder中已经讲述的很清楚了，这里不再赘述。经过Add&LayerNormalization层后的输出维度仍和输入X维度一致。

接着会进入第二个Multi-Head Attention层，注意此时的 $K 、 V$ 来自于encoder，而 $Q$ 来自decoder。这样做的好处是在decoder时，每一个词都可以利用encoder中所有单词的信息。接着同样是一个Add&LayerNormalization层。

然后会进入Feed Forward+Add&Norm层，接着会将整个结构重复N次。

最后会进入Linear+Softmax层，最终输出预测的单词，因为 Mask 的存在，使得单词 0 的输出 Z(0,) 只包含单词 0 的信息，如下：

Softmax 根据输出矩阵的每一行预测下一个单词，如下图所示：

这部分我推荐大家听听李宏毅老师的课程：台大李宏毅21年机器学习课程 self-attention和transformer

测试阶段

明白了上文训练阶段decoder是怎么工作的，那么测试阶段就很容易理解了。其实我在训练阶段也有提及，主要区别就是此时我们不是一次将“ I have a cat”一起作为输入，而是一个一个词的输入，并把输出加到下一次输入中，过程如下：

输入，decoder输出 I 。
输入前面已经解码的和 I，decoder输出have。
输入已经解码的“ I have a cat”，decoder输出解码结束标志位，每次解码都会利用前面已经解码输出的所有单词嵌入信息。

那么很明显测试阶段我们是无法做并行化处理的！！！

总结

终于算是把transformer的内容讲完了，这里我给出一张Transformer的整体结构图，我觉得画的非常好，如下图所示：【图片来源于此篇文章】

另外，作为CV程序员的我们，往往对CNN网络是更加熟悉的。那么CNN和Transformer中的self-Attention是否有什么联系呢？大家可以去网上找找资料，其实CNN可以看作是一种简化版的self-Attention，或者说self-Attention是一种复杂化的CNN，它们的大致关系如下：

我们知道越复杂的模型，往往就需要更多的参数来训练，因此在训练Transformer时就需要更多的数据，关于这一点在后面讲述的VIT模型中会有体现，敬请期待吧！！！

最后的最后，还是希望大家有所收获！！！另外，如果文章对你有所帮助，希望得到你小小的赞，这是对创作最大的支持

论文下载地址

Attention Is All You Need

参考连接

1、Transformer中Self-Attention以及Multi-Head Attention详解

2、台大李宏毅21年机器学习课程 self-attention和transformer

3、Transformer论文逐段精读【论文精读】

4、ViT论文逐段精读【论文精读】

5、shusheng wang 讲解 Transformer模型

6、Illustrated: Self-Attention

7、Vision Transformer 超详细解读 (原理分析+代码解读) (一)

8、Transformer Decoder详解

9、Transformer模型详解（图解最完整版）

附录

input输入解析

这部分来谈谈encoderr的输入部分，其结构示意图如下：

上图主要包含两个概念，一个是Input Embedding ，一个是Positional Encoding。下面就来逐一的进行介绍。

Input Embedding

我们先来看Input Embedding，何为Input Embedding呢？这里我先卖个关子，先不介绍这个概念，而是先从我们的输入一点点谈起。现假设我们要实现一个文本翻译任务，假设具体任务为将汉字“秃头小苏 ”翻译成拼音“tu tou xiao su”，这里我们只关注输入，此时的输入应该是“秃头小苏”四个汉字，但是作为程序猿的我们应该知道，这四个汉字计算机是不认识的，那么就需要将“秃头小苏”转化为计算机认识的语言，一种常见的做法是独热编码（one-hot编码），如下图所示：【对于独热编码不熟悉的自行百度，这里不再介绍】

CV攻城狮入门VIT(vision transformer)之旅——近年超火的Transformer你再不了解就晚了！_第41张图片

可以看出，上图可以用一串数字表示出“秃头小苏”这四个汉字，如用1 0 0 0表示“秃”，用0 1 0 0表示“头”…

但是这种表示方法是否存在缺陷呢？大家都可以思考思考，我给出两点如下：

这种编码方式对于我这个案例来说貌似是还蛮不错的，但是大家有没有想过，对于一个文本翻译任务来说，往往里面有大量大量的汉字，假设有10000个，那么一个单独的字，如“秃”就需要一个1×10000维的矩阵来表示，而且矩阵中有9999个0，这无疑是对空间的一种浪费。
这种编码方式无法表示两个相关单词的关系，如“秃”和“头”这两个单词明显是有某种内在的关系的，但是独热编码却无法表示这种关系。

那么我们采用什么方法来缓解这种问题呢？答案就是Embedding！！！那么何为Embedding呢，我的理解就是改变原来输入input的维度，。比如我们现在分别先用“1”，“2”，“ 3”，“ 4” 分别代表“秃”，“头”，“小”，“苏”这四个字，然后将“1”，“2”，“ 3”，“ 4”送入embedding层，代码如下：

import torch
import torch.nn as nn
embedding = nn.Embedding(5, 3)
input = torch.IntTensor([[1,2,3,4]])

上文代码（5，3）中的3就代表我们输出每个单词的维度，可以看一下输出结果，如下图所示：

输出矩阵的每一行都代表了一个词，如第一行[0.2095 -0.6338 0.5679]代表1，即代表“秃”。

我们可以修改一下Embedding的参数，将（5，3）换成（5，4），如下：

import torch
import torch.nn as nn
embedding = nn.Embedding(5, 4)
input = torch.IntTensor([[1,2,3,4]])

这时我们在来看看输出结果，此时每个词就是一个4维向量：

通过上面代码的演示，不知大家有没有体会到Embedding可以控制输入维度的作用呢。有关Embedding函数的使用请参照pytorch官网对此部分的解读，点击☞☞☞了解详情。

最后我们来大致看看通过Embedding后会达到怎样的效果：

CV攻城狮入门VIT(vision transformer)之旅——近年超火的Transformer你再不了解就晚了！_第42张图片

可以看出，“秃”和“头”在某个空间中离的比较近，说明这两个词的相关性较大。即Embedding不仅可以控制我们输入的维度，还可以从较高的维度去考虑一些词，那么会发现一些词之前存在某种关联。

Positional Encoding（位置编码）

首先谈谈我们为什么要采用位置编码，还记得我们前文所说的Attention操作嘛，其采用的是并行化的操作，即会将输入一同输入Attention，这种并行化就会导致在输入是没有是没有顺序的。同样拿输入“秃头小苏”为列，没有加入位置编码时，我们不管时输入“秃头小苏”、“小头苏秃”或其它等等，对我们的输出结果是没有任何影响的，这部分此篇文章还简单的做了个小实验，大家可以参考一下。

通过上文的介绍，我们知道没有位置编码会导致不管我们的输入顺序如何变换，对于最后的结果是没有影响的，这肯定不是我们期望看到的。那我们就给它整个位置编码呗！可是我们应该采用什么方式的位置编码呢？我想大家可以很自然的想到一个，那就是一个词标一个数字就得了呗，如下表所示：

词	编码
秃	0
头	1
小	2
苏	3

这种编码操作简单，但是编码长度是不可控的，即词的个数越多，后面编码词越大，这样的方式其实不是理想的。

那我们还可以使用什么编码方式呢？既然上述所述编码规则是编码长度不可控，那么就可以通过除以词的长度将其控制在0-1的范围内呀，如下表所示：

词	编码
秃	$\frac{0}{4}=0.00$
头	$\frac{1}{4}=0.25$
小	$\frac{2}{4}=0.50$
苏	$\frac{3}{4}=0.75$

你或许觉得这种编码方式还是蛮不错的，但是呢这种方式会导致结果的尺寸会随着词的长度变换而不断变换，即上例中我们每个词编码结果的间距是0.25，但是要是我们有100个词，有100个词时，这个间距又会变成多少呢？这种尺度的不统一，对模型的训练是不友好的。

“你一会介绍这个方法，这个方法不行；一会介绍那个方法，那个方法不行。那到底行不行！！！”，~~呜呜，大佬们别喷啊，我这是想让大家看看有哪些思路，况且论文中所给的编码方式也不一定是最好的，大家都可以多想想嘛。那么下面就给各位老大爷带来论文中关于此部分的位置编码方式，公式如下：
$PE_{pos,2i}=sin(pos/(10000^{2i/d_{model}}))$

$PE_{pos,2i+1}=cos(pos/(10000^{2i/d_{model}}))$

不知道大家看到这个公式做何感想呢？反正对我来说我是懵的。下面就为大家来介绍介绍。首先来解释一下公式中符号的含义：pos表示词的位置，同样拿“秃头小苏”为例，pos=0表示第一个词“秃”，pos=1表示第二个词“头”。2i和2i+1表示Positional Encoding（位置编码）的维度，这个怎么理解呢，我们知道2i是偶数位，2i+1是奇数位，假设我们现在对“秃”字进行位置编码，那么位置编码向量的第0个位置，即偶数位采用的是 $PE_{pos,2i}=sin(pos/(10000^{2i/d_{model}}))$ 这个公式，而位置编码向量的第1个位置，即奇数位采用的公式为 $PE_{pos,2i+1}=cos(pos/(10000^{2i/d_{model}}))$ 。 $d_{model}$ 表示输入的维度大小，即我们上小节所述的Input Embedding。【注id的取值范围为 $0,...,d_{mode/2}]$ 】

知道了这些符号含义，不知道大家是否有所感悟。如果感觉还差一点的话也没关系，我相信我再举两个例子大家就明白了。首先还是“秃头小苏”这个例子，我们先来看看第一个词“秃”的位置编码：【注：设 $d_{model}$ =512】

CV攻城狮入门VIT(vision transformer)之旅——近年超火的Transformer你再不了解就晚了！_第43张图片

再来看看“头”的编码，如下：

CV攻城狮入门VIT(vision transformer)之旅——近年超火的Transformer你再不了解就晚了！_第44张图片

我相信通过上面的例子你应该已经对这种方式的位置编码有所了解了，即你知道了如何用这种方式来对某个词进行编码。但是你可能会问，为什么用这个方式来进行位置编码呢？即这种位置编码的优势在哪里呢？这里我为大家呈现3点：

每个位置都有唯一的一个位置编码
能够适应比训练集里面所有句子更长的句子，假设训练集里面最长的句子是有 100 个单词，突然来了一个长度为101 的句子，则使用公式计算的方法可以计算出第101位的 Embedding。
可以让模型很容易的计算出相对位置。【这一点似乎比较难理解，我详细的为大家说说】

第3点说明:

第3点说可以让模型很容易的计算出相对位置，怎么理解呢，其实就是说任意位置的 $PE_{pos+k}$ 都可以被 $PE_{pos}$ 和 $PE_{k}$ 表示。这时候很多资料就给大家列出了一个谁都知道的三角公式，如下：

$sin(\alpha + \beta)=sin(\alpha)cos(\beta)+cos(\alpha)sin(\beta)$

$cos(\alpha + \beta)=cos(\alpha)cos(\beta)-sin(\alpha)sin(\beta)$

后面就没有解释了，这可能就是专家视角吧！！！认为谁都知道，可是我却不认为大家都能明白其中的含义，至少我当时就没明白。【大佬请忽略】下面我就为大家解释解释为什么通过这两个三角公式就会使任意位置的 $PE_{pos+k}$ 都可以被 $PE_{pos}$ 和 $PE_{k}$ 表示，如下图所示：【注：为方便公式书写，这里令 ${10000^{2i/{d_{model}}}} = M$ 】

通过上图可以看出，对于pos+k位置的位置编码可以表示位pos位置和k位置的线性组合。这样的线性组合意味着某个位置向量蕴含了其它位置向量的信息。

【注：可能很多人会问为什么这个M，即 ${10000^{2i/{d_{model}}}}$ 中的10000有什么讲究嘛，其实吧，也没必要选用这个10000，之前看过一篇英文文章，就对这个数进行过分析，但是我现在找不着链接了，总之大家不用特别纠结这个10000】

小结

最后，我们再来看看这张图：

可以看出我们最后的输入会将Input Embedding 和Positional Encoding进行相加，那么这就要求Input Embedding 和Positional Encoding的维度使一致的。这里大家会不会有这样的疑问呢，我们将Input Embedding 和Positional Encoding相加，不是会将原来表示位置信息的Positional Encoding混入到Input Embedding中了，这样不就感觉很难再找到Positional Encoding的信息了嘛？似乎采用concat(拼接)更加合适吧！！！这里给出一种解释，参考的是这篇文章：【Positional Encoding用 $e^i$ 表示，Input Embedding 用 $a^i$ 表示】

我们先给每一个位置的 $x^i \in R(1,d)$ append一个位置编码的向量 $p^i \in R(1,N)$ ，得到一个新的输入向量 $p^i \in R(1,d+N)$ ，这个向量作为新的输入，乘以一个transformation matrix $W=\left[ \begin{array}{cc} {W^I}\\ {{\rm{W}}^p} \end{array} \right] \in R(d+N,d)$ 。那么：

$x_p^i⋅ W =[x^ip^i]⋅\left[ \begin{array}{cc} {W^I}\\ {{\rm{W}}^p} \end{array} \right]=x^i⋅W^I+p^i⋅W^P=a^i+e^i$

所以， $e^i$ 与 $a^i$ 相加就等同于把原来的输入 $x^i$ concat一个表示位置的位置编码 $p^i$ ，再做transformation。

大家觉得这个解释怎么样呢？我当时看到就觉得这实在是太妙了。那么这部分就为大家呈现这么多了，同样希望大家都收获满满喔！！！

如若文章对你有所帮助，那就

你可能感兴趣的:(视觉,transformer,深度学习,人工智能)

《调色师手册：电影和视频调色专业技法（第2版）》——布置调色工作间
本节书摘来自异步社区《调色师手册：电影和视频调色专业技法（第2版）》一书中的第2章，布置调色工作间，作者【美】AlexisVanHurkman（阿列克谢·凡·赫克曼），译者高铭，陈华，更多章节内容可以访问云栖社区“异步社区”公众号查看。布置调色工作间观众观看节目所处的观影环境对于图像视觉效果的影响几乎与监视器质量带来的影响一样大。另一方面，你所使用的监视器种类也决定了你需要怎样布置房间。如果你在对
从文本到语音：使用 ElevenLabs 和 FFmpeg 实现语音合成与播放曦紫沐语音模型 ffmpeg ElevenLabs 语音合成
摘要在当今的人工智能时代，语音合成技术正变得越来越普及。ElevenLabs是一个强大的语音合成平台，能够生成高质量的语音音频。本文将详细介绍如何结合Python、ElevenLabsAPI和FFmpeg工具集，实现从文本到语音的转换，并通过ffplay播放生成的音频文件。同时，我们将解决常见的问题，如ffplay未找到或音频无法播放等。1.引言随着人工智能技术的发展，语音合成（Text-to-S
DK遇见未来：机器人祖爸
人工智能、AI、机械设计、BigData……这些听起来就很高端的专业究竟是什么？这些前沿学科相遇又会碰撞出什么？机器人，将这些前沿领域结合在一起越来越多的融入到我们的工作与生活中可问题来了机器人究竟是什么呢？又该如何给孩子讲机器人呢？这本《DK遇见未来：机器人》完美解决您的烦恼最新数据、系统知识、精美插图可以说这是一本儿童机器人大百科让孩子在这里遇见未来在讲读版视频中与您共同思考未来社会中机器人与
ORACLE 11g 使用ROWNUM完美解决ORA-00600 内部错误代码有点智慧
分享一下我老师大神的人工智能教程！零基础，通俗易懂！http://blog.csdn.net/jiangjunshow也欢迎大家转载本篇文章。分享知识，造福人民，实现我们中华民族伟大复兴！1，ORA-00600：内部错误代码Oracle从11.2.0.1升级到11.2.0.4，开发人员报告说一个job运行失败，调试有报错信息，ORA-00600:内部错误代码，参数：[rwoirw:checkret
Kimi-Audio：最佳音LLM, 如何免费使用 Kimi-Audio AI 模型？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 kimi
简介继DeepSeek之后，字节跳动（现名MoonShotAI，又名Kimi）也在生成式人工智能领域加速发展，并发布了自己的音频模型Kimi-Audio，据说是迄今为止最好的音频模型。推荐文章《NvidiaGPU入门教程之02ubuntu安装A100显卡驱动(含8步快速浓缩教程)》权重2，安装A100显卡驱动《本地大模型知识库OpenWebUI系列之如何解决知识库上传文件故障Extractedco
Python就业薪资好不好，学Python工作机会多吗？ Python小辰
Python就业薪资好不好？学Python工作机会多吗？人工智能时代的来临让Python崭露头角，各大企业纷纷加大对相关人才的招聘力度吸引了很多人入行学习Python。近年来Python开发发展迅猛，吸引了很多科技公司入驻，且看小编的分析。Python薪资好不好?数据是最有力的答案。职友集统计数据显示，全国Python工程师的平均月资达19160，其中20-30K的工程师数量超过了四成。来自智联招
Jetson平台编译Tengine space01 AIoT Jetson 人工智能深度学习计算机视觉
1.Tengine简介Tengine于2017年在GitHub（https://github.com/OAID/Tengine）开源，是OPENAILAB（开放智能）推出的自主知识产权的边缘AI计算框架，致力于解决AIoT产业链碎片化问题，加速AI产业化落地。Tengine兼容多种操作系统和深度学习算法框架，简化和加速面向场景的AI算法在嵌入式边缘设备上快速迁移，以及实际应用部署落地，可以十倍提升
机器人-组成结构-感知 - 决策 - 执行具身智能-查布嘎具身智能机器人人工智能
目录一、感知系统内部传感器：外部传感器：二、智能决策系统机器学习家族1.1机器学习2.1深度学习2.2深度学习模型(主要属于监督/强化学习范畴，但结构通用)：3.1监督学习3.2监督学习模型4.1半监督学习4.2无/半监督学习模型：5.1无监督学习5.2生成模型(可属于监督/无监督)：6.1强化学习7.1其他学习三、控制系统（运控）①对应小脑和脊柱一、感知系统①对应人体的五官。由具有不同功能的各种
深度学习篇---矩阵 Atticus-Orion 嵌入式知识篇上位机知识篇嵌入式硬件篇深度学习矩阵人工智能
在机械臂解算、深度学习网络等硬件和软件领域中，矩阵运算作为核心数学工具，承担着数据表示、变换、映射和优化的关键作用。以下从具体领域出发，详细总结涉及的矩阵运算及对应的核心知识：一、机械臂解算领域机械臂解算（运动学、动力学分析）的核心是描述“关节空间”与“操作空间”的映射关系，矩阵运算用于精准刻画坐标系转换、运动传递和力/力矩分析。1.运动学解算（正/逆运动学）核心目标：通过矩阵描述关节角度与末端执
AI驱动的电路仿真革命：从物理模型到智能学习的范式转移
AI驱动的电路仿真革命：从物理模型到智能学习的范式转移人工智能正颠覆传统电路仿真方法，本文将深入解析AI在电路建模、优化与故障诊断中的前沿应用，揭示智能仿真如何提升10倍效率并突破物理限制。一、AI电路仿真的数学基础1.1图神经网络建模电路拓扑电路可抽象为图结构G=(V,E)G=(V,E)G=(V,E)：VVV：节点（电子元件）EEE：边（连接关系）图卷积网络(GCN)更新公式：H(l+1)=σ(
MCP协议技术解析：AI时代的通信基础设施革命
MCP协议技术解析：AI时代的通信基础设施革命在AI从工具演变为协作伙伴的进程中，MCP协议正在成为连接智能体与现实世界的“数字神经系统”。当前人工智能技术正经历从孤立模型向生态系统协作的关键转型，而通信协议作为AI能力的“连接器”，其设计直接决定了智能系统的边界与效率。MCP协议（ModelContextProtocol）作为新一代AI通信基础设施，正在开发者社区引发一场静默革命。本文将从技术原
GENERALIST REWARD MODELS: FOUND INSIDE LARGELANGUAGE MODELS 樱花的浪漫大模型与智能体对抗生成网络与动作识别强化学习语言模型人工智能自然语言处理深度学习机器学习计算机视觉
GeneralistRewardModels:FoundInsideLargeLanguageModelshttps://arxiv.org/pdf/2506.232351.概述将大型语言模型（LLMs）与复杂的人类价值观（如乐于助人和诚实）对齐，仍然是人工智能发展中的一个核心挑战。这项任务的主要范式是来自人类反馈的强化学习（RLHF）[Christianoetal.,2017;Baietal.,
Python深度学习实践：LSTM与GRU在序列数据预测中的应用 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：LSTM与GRU在序列数据预测中的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来序列数据预测是机器学习领域的一个重要研究方向，涉及时间序列分析、自然语言处理、语音识别等多个领域。序列数据具有时间依赖性，即序列中每个元素都受到前面元素的影响。传统的机器学习算法难以捕捉这种时间依赖性，而深度学习
初探机器学习与力学研究的交叉领域 faderbic 机器学习人工智能深度学习
目录关于如何踏入机器学习领域机器学习与力学研究的交叉方向1.使用机器学习加速有限元求解2.结合有限元计算和机器学习预测复杂材料结构与力学性能的关系3.结构健康检测4.疲劳寿命预测总结关于如何踏入机器学习领域因为我本科的专业是力学，所以当我开始关注机器学习领域时，首先考虑的是机器学习和力学的交叉领域。对于很多对人工智能感兴趣的朋友，想加入人工智能的潮流却不知道从何学起，我提供一个思路，我认为将自己学
[NIPST AI]对抗性机器学习攻击和缓解的分类和术语 Anooyman 人工智能网络安全人工智能大语言模型网络安全安全
原文link：https://nvlpubs.nist.gov/nistpubs/ai/NIST.AI.100-2e2025.pdfIntroduction人工智能（AI）系统在过去几年中持续全球扩展。这些系统正在被众多国家开发并广泛部署于各自的经济体系中，人们在生活的许多领域都获得了更多使用AI系统的机会。本报告区分了两大类AI系统：预测型AI（PredictiveAI，PredAI）和生成型A
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现打架检测（C#代码，UI界面版）格林威工业相机机器视觉数码相机 YOLO 深度学习计算机视觉人工智能
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现打架检测（C#代码，UI界面版）工业相机使用YoloV8模型实现打架检测工业相机通过YoloV8模型实现打架检测的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实现
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人脸识别检测（C#代码，UI界面版）格林威机器视觉工业相机数码相机 YOLO 深度学习人工智能视觉检测 c#
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人脸识别检测（C#代码，UI界面版）工业相机使用YoloV8模型实现人脸的检测工业相机通过YoloV8模型实现人脸识别检测的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人物识别（C#代码，UI界面版）格林威工业相机机器视觉数码相机 YOLO c#人工智能计算机视觉开发语言
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人物识别（C#代码，UI界面版）工业相机使用YoloV8模型实现人物识别工业相机实现YoloV8模型实现人物识别的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实现
梨花熊怎么填写邀请码？梨花熊官方邀请码是多少？梨花狗app邀请码怎么填？如简导师
在互联网的广阔天地中，有一个独特而迷人的存在——梨花熊。那么，梨花熊究竟是什么呢？梨花熊是一个充满创意与活力的平台。它犹如一座奇幻的花园，绽放着无数绚丽多彩的想象之花。在这里，艺术与设计完美融合，为人们带来一场场视觉盛宴。从精美的插画到独特的手工艺品，梨花熊汇聚了众多才华横溢的创作者。他们用手中的画笔、工具，将内心的世界生动地展现出来。每一件作品都仿佛在诉说着一个故事，或温暖、或奇幻、或感人，触动
为何大厂 B 端系统登录页都长这样？深挖背后的设计底层逻辑
你有没有注意到，无论是阿里云、腾讯云、还是企业微信的后台系统登录页，它们看起来都“差不多”？统一的布局结构、相似的视觉风格、甚至背景图的选择都很雷同。这难道只是巧合吗？为什么这些大厂明明有顶尖的设计团队，却都不约而同地选择了“千篇一律”的设计风格？真的是没有创意？还是背后藏着某种看不见的规则和逻辑？这篇文章将带你深入剖析B端系统登录页背后的底层设计思维。你会发现，这些看似“无聊”的页面，其实每一处
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现动物分类（C#源码，UI界面版）格林威机器视觉工业相机数码相机 YOLO 深度学习计算机视觉人工智能视觉检测 c#
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现动物分类（C#源码，UI界面版））工业相机使用YoloV8模型实现动物分类工业相机实现YoloV8模型实现动物分类的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实
骗子太猖獗了，打着摩根士丹利何晓斌名义带股民进入虚假宝丰能源节能减排碳交易市场，大量股民被骗真相曝光墨守成法
为什么明明跟老师对过视频，确认是本人，怎么还会被骗了?你有没有想过一个名人大咖怎么会有时间给你们一对一视频，其次我来给大家揭露一下，这个套路AI换脸骗局是一种利用人工智能技术，通过替换视频中的人脸来伪造身份或进行诈骗的行为。你的账户“余额”是真的吗？为什么不能提现呢？其实都是骗子给你的一串数字而已！这些新平台打着“低风险”、“高收益”、“慈善公益投票”等噱头先让投资人尝到甜头再通过恶意操作将投资人
AI 大模型重塑软件开发流程万花丛中一抹绿人工智能
一、AI大模型的定义与发展历史AI大模型是基于海量数据训练的深度学习模型，具备强大的自然语言理解、逻辑推理和知识生成能力。在软件开发领域，以GPT-4、CodeLlama、GitHubCopilotX为代表的大模型，能理解代码语法、语义及业务逻辑，实现代码生成、漏洞检测等复杂任务。其发展可追溯至2017年，谷歌提出Transformer架构，为大模型奠定了核心基础。2018年，GPT-1问世，参数
有声配音平台是什么，有声配音是真的假的配音就业圈
在这个信息爆炸、多媒体融合的时代，有一种力量，它跨越了文字与视觉的界限，以声音为媒介，让故事生动再现，情感深刻传递。这便是——有声配音平台，一个将声音艺术与数字科技完美结合的全新舞台。配音兼职接单推荐公众号，配音新手圈，声优配音圈，新配音兼职圈，配音就业圈，鼎音副业，有声新手圈，每天更新各种的配音任务，新手小白也可以接单。1、配音新手圈这是一个公众号配音新手圈里面每天更新配音任务(只要有手机就可以
在 Conda 中删除环境及所有安装的库 Studying 开龙wu conda
注意事项1.删除环境前确保你没有在该环境中运行任何程序。2.删除操作是不可逆的，所有该环境中的包和配置都会被永久删除。3.如果你想保留环境的配置信息，可以在删除前使用condaenvexport>environment.yml导出环境配置。关于requirements.txt和environment.yaml文件使用介绍详情可参考以往文章，争对机器学习和深度学习里Python项目开发管理项目依赖的
智慧水库信息化系统建设产品需求文档V2.0 小赖同学啊 test Technology Precious 物联网
智慧水库信息化系统建设产品需求文档1.引言1.1文档目的本文档旨在明确智慧水库信息化系统的建设需求，为系统设计、开发和实施提供全面依据，确保系统功能满足水库管理业务需求，提升水库管理的智能化水平和决策效率。1.2背景介绍传统水库管理面临数据采集不及时、分析手段有限、决策依赖经验等问题，难以应对复杂多变的水文情势和日益增长的管理需求。随着物联网、大数据、人工智能等技术的发展，智慧水库建设成为必然趋势
黄仁勋链博会演讲实录：脱掉皮衣，穿上唐装，中文开场
黄仁勋一度尝试用中文开场，他说，“我在美国长大，学到了很多汉语。”他表示，像DeepSeek、阿里巴巴、MiniMax、百度，他们开发的产品都是世界级的，推动了全球人工智能的发展。中国的开源AI是全球进步的催化剂，以至于全世界各个行业都有机会加入到AI革命当中。7月16日，黄仁勋身着唐装出席了第三届链博会，在此之前，他身着标志性皮衣出席多个场合活动。在此之前，英伟达官宣获得H20芯片对华的出口许可
OpenCV学习（二）-二维、三维识别香蕉可乐荷包蛋 #OpenCV opencv 学习人工智能
OpenCV是一个功能强大的计算机视觉库，可以用于识别和处理二维图像和三维图像。以下是关于二维图像和三维图像识别的基础知识和示例代码。1.二维图像识别二维图像识别通常包括图像分类、对象检测、特征提取等任务。以下是一些常见的操作：1.1图像分类使用预训练模型对图像进行分类，例如使用深度学习模型（如ResNet、MobileNet等）。importcv2#加载预训练的深度学习模型net=cv2.dnn
【AI 赋能：Python 人工智能应用实战】5. 梯度下降家族：SGD/Adam优化器对比实验与选择策略 AI_DL_CODE 人工智能 python 梯度下降优化器 SGD Adam PyTorch
摘要：本文系统解析梯度下降优化器的核心原理与演进脉络，构建从理论到实战的完整知识体系。理论部分梳理优化器发展里程碑，从1951年的SGD到2018年的AdamW，揭示技术迭代逻辑；通过数学公式对比SGD、Momentum、Adam等核心算法的更新机制，解析动量加速、自适应学习率的创新点。结合损失曲面分析，阐释Momentum如何逃离鞍点、Adam如何处理悬崖梯度。实战模块基于PyTorch在MNI
【人工智能之深度学习】6. 卷积核工作原理：从边缘检测到特征抽象的逐层演进（附可视化工具与行业实战代码） AI_DL_CODE 人工智能深度学习卷积核特征提取卷积神经网络边缘检测特征可视化
摘要：卷积核是卷积神经网络（CNN）的核心组件，其通过局部感受野与参数共享机制实现高效特征提取。本文从数学本质出发，揭示卷积操作的空域-频域对偶性：空域卷积等价于频域乘积（F{f∗g}=F{f}⋅F{g}F\{f*g\}=F\{f\}⋅F\{g\}F{f∗g}=F{f}⋅F{g}），解释边缘检测核（Sobel、Laplacian）的频域响应特性。通过特征可视化实验表明，CNN特征呈现逐层抽象规律：
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: [email protected]
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情

CV攻城狮入门VIT(vision transformer)之旅——近年超火的Transformer你再不了解就晚了！

文章目录

CV攻城狮入门VIT(vision transformer)之旅——近年超火的Transformer你再不了解就晚了！

写在前面

整体框架

self Attention✨✨✨

执行步骤

step1：获取 q i 、 k i 、 v i q^i、k^i、v^i qi、ki、vi

step2：计算attention score

step3：通过softmax层

step4：得到输出 b i b^i bi

代码演示

step1：准备输入

step2：初始化权重矩阵

step3：生成 Q 、 K 、 V Q、K、V Q、K、V

step4：计算attention score

step5：attn_score矩阵通过softmax层

step6：将attn_scores_softmax与矩阵V相乘

特别注意

小结

Multi-Head Attention✨✨✨

step1：获取 q i 、 k i 、 v i q^i、k^i、v^i qi、ki、vi

step2：分裂产生多个 q i , j 、 k i , j 、 v i , j q^{i,j}、k^{i,j}、v^{i,j} qi,j、ki,j、vi,j

step3：对所有head使用self Attention

step4：拼接所有head输出的结果

step5：Concat后的结果乘上 W o W^o Wo矩阵

小结

encoder

decoder

训练阶段

测试阶段

总结

论文下载地址

参考连接

附录

input输入解析

Input Embedding

Positional Encoding（位置编码）

小结

你可能感兴趣的:(视觉,transformer,深度学习,人工智能)

step1：获取 $q^i、k^i、v^i$

step4：得到输出 $b^i$

step3：生成 $Q 、 K 、 V$

step1：获取 $q^i、k^i、v^i$

step2：分裂产生多个 $q^{i,j}、k^{i,j}、v^{i,j}$

step5：Concat后的结果乘上 $W^o$ 矩阵