LLC74

Attention +Transformer学习记录（二）

a.注意力机制和自注意力机制的区别

b.引入自注意力机制的原因

c.计算公式

d.代码实现

二、Multi-Head Attention

1.Multi-Head Attention的计算

2.位置编码

三、Transformer模型

1.Transformer整体结构

2.Transformer的input输入

2.1如何获得位置编码？

3.Transformer的Encoder

3.1Add＆Normalize

3.2ResNet残差神经网络

3.3Normalize

3.4全连接层

4.Transformer的Decoder

4.1Decoder的输入

a.训练时的输入

b.预测时的输入

4.2Masked Multi-Head Attention

a.Padding mask

b.sequence mask

4.3基于Encoder-Decoder的Multi-Head Attention

5.Transformer的输出

一、Self-Attention

参考论文：原创 | Attention is all you need 论文解析（附代码）

自注意力机制(Self-Attention)_Michael_Lzy的博客-CSDN博客

参考视频：self-Attention｜自注意力机制｜位置编码｜理论 + 代码_哔哩哔哩_bilibili

a.注意力机制和自注意力机制的区别

Attention机制中的权重的计算需要Target来参与。即在Encoder-Decoder 模型中，Attention权值的计算不仅需要Encoder中的隐状态而且还需要Decoder中的隐状态。

self-attention机制不是输入语句和输出语句之间的Attention机制，而是输入语句内部元素之间或者输出语句内部元素之间发生的Attention机制。例如在Transformer中在计算权重参数时，将文字向量转成对应的KQV，只需要在Source处进行对应的矩阵操作，用不到Target中的信息。

b.引入自注意力机制的原因

神经网络接受很多长短不一的向量，并且向量与向量之间存在关系，但实际常常因为不能充分发挥这些输入之间的关系从而导致训练效果变差。self-attention让机器注意到这些输入之间的相关性。

c.计算公式

q--查询的问题，k--商品标签，a--相似度， v--商品评价， b--商品总分

如何理解self ?

self-attention 中的self，表示 q , k , v 都来自于自己，每个token（a)都能提取出自己的q、k、v。

q、k:从每个token中提取出，反映对token的理解。若要获取a1与其他词的相似度，则用a1的q与其他词的k相乘；q是主动获取与其他token的相似度，k是被动。

v:表示当前token的重要程度（比如在本句中，'I'和'dog'的value较高）

举例：假设a1,a2,a3,a4均为embedding之后的向量

四个token共用一套w1,w2,w3

q、k的维度为2，v的维度为3，dk是k的长度，即为2

d.代码实现

class Self_Attention(nn,Moudle):
     def __init__(self,dim,dk,dv):
         super(self_Attention,self).__init__
         self.scale = dk ** -0.5
         self.q = nn.Linear(dim, dk)
         self.k = nn.Linear(dim, dk)//q,k的输出维度要保持一致
         self.v = nn.Linear(dim, dv)//三个全连接层，从输入中提取q,k,v
     

     def forward(self,x):
         q = self.q(x)//q = {Tensor:(1,4,2)}
         k = self.k(x)//k = {Tensor:(1,4,2)}
         v = self.v(x)//k = {Tensor:(1,4,3)}
         

         attn = (q @ k.transpose(-2，-1)) * self.scale
         attn = attn.softmax(dim=-1)
         

         x = attn @ v
         return x


att = self_Attention(dim=2,dk=2,dv=3)
x = torch.rand((1,4,2))//随机得出，1是batchsize,4是4个token,2是每个token的长度
output = att(x)

二、Multi-Head Attention

参考原文：详解Transformer中Self-Attention以及Multi-Head Attention-CSDN博客

1.Multi-Head Attention的计算

原论文提到：Multi-head attention allows the model to jointly attend to information from different representation subspaces at different positions.多头注意力机制可以联合来自不同head部分学习到的信息。

和Self-Attention一样，首先将ai通过Wq,Wk,Wv，得到对应的qi,ki,vi，然后根据head的数目h，将qi,ki,vi均分成h份。例如，以下是2个head的情况：

h=1时，q1被分为了q(1,1)和q(1,2),q(1,1)属于head1,q(1,2)属于head2.

用上述方法便可得到每个head对应的q,k,v，针对每个head的q,k,v和Self-Attention计算方法即可得到对应的结果。

接下来将每个head得到的结果进行concat拼接，head1得到的b1和head2得到的b1拼接在一起，head1得到的b2和head2得到的b2拼接在一起，最后将拼接的结果通过W（可学习的参数）融合在一起，得到最终的结果b1,b2。

代码实现：

class MultiHeadedAttention(nn.Module):
    def __init__(self, h, d_model, dropout=0.1):
        #在类的初始化时，会传入三个参数，h代表头数，d_model代表词嵌入的维度，dropout代表进行dropout操作时置0比率，默认是0.1
        super(MultiHeadedAttention, self).__init__()
        #在函数中，首先使用了一个测试中常用的assert语句，判断h是否能被d_model整除，这是因为我们之后要给每个头分配等量的词特征，也就是embedding_dim/head个
        assert d_model % h == 0
        #得到每个头获得的分割词向量维度d_k
        self.d_k = d_model // h
        #传入头数h
        self.h = h
        
        #创建linear层，通过nn的Linear实例化，它的内部变换矩阵是embedding_dim x embedding_dim，然后使用，为什么是四个呢，这是因为在多头注意力中，Q,K,V各需要一个，最后拼接的矩阵还需要一个，因此一共是四个
        self.linears = clones(nn.Linear(d_model, d_model), 4)
        #self.attn为None，它代表最后得到的注意力张量，现在还没有结果所以为None
        self.attn = None
        self.dropout = nn.Dropout(p=dropout)
        
    def forward(self, query, key, value, mask=None):
        #前向逻辑函数，它输入参数有四个，前三个就是注意力机制需要的Q,K,V，最后一个是注意力机制中可能需要的mask掩码张量，默认是None
        if mask is not None:
            # Same mask applied to all h heads.
            #使用unsqueeze扩展维度，代表多头中的第n头
            mask = mask.unsqueeze(1)
        #接着，我们获得一个batch_size的变量，他是query尺寸的第1个数字，代表有多少条样本
        nbatches = query.size(0)
        
        # 1) Do all the linear projections in batch from d_model => h x d_k 
        # 首先利用zip将输入QKV与三个线性层组到一起，然后利用for循环，将输入QKV分别传到线性层中，做完线性变换后，开始为每个头分割输入，这里使用view方法对线性变换的结构进行维度重塑，多加了一个维度h代表头，这样就意味着每个头可以获得一部分词特征组成的句子，其中的-1代表自适应维度，计算机会根据这种变换自动计算这里的值，然后对第二维和第三维进行转置操作，为了让代表句子长度维度和词向量维度能够相邻，这样注意力机制才能找到词义与句子位置的关系，从attention函数中可以看到，利用的是原始输入的倒数第一和第二维，这样我们就得到了每个头的输入
        query, key, value = \
            [l(x).view(nbatches, -1, self.h, self.d_k).transpose(1, 2)
             for l, x in zip(self.linears, (query, key, value))]
 
        # 2) Apply attention on all the projected vectors in batch. 
        # 得到每个头的输入后，接下来就是将他们传入到attention中，这里直接调用我们之前实现的attention函数，同时也将mask和dropout传入其中
        x, self.attn = attention(query, key, value, mask=mask, 
                                 dropout=self.dropout)
 
        # 3) "Concat" using a view and apply a final linear. 
        # 通过多头注意力计算后，我们就得到了每个头计算结果组成的4维张量，我们需要将其转换为输入的形状以方便后续的计算，因此这里开始进行第一步处理环节的逆操作，先对第二和第三维进行转置，然后使用contiguous方法。这个方法的作用就是能够让转置后的张量应用view方法，否则将无法直接使用，所以，下一步就是使用view重塑形状，变成和输入形状相同。  
        x = x.transpose(1, 2).contiguous() \
             .view(nbatches, -1, self.h * self.d_k)
        #最后使用线性层列表中的最后一个线性变换得到最终的多头注意力结构的输出
        return self.linears[-1](x)

2.位置编码

Self-Attention和Multi-Head Attention模块在计算中是没有考虑到位置信息的，在Self-Attenntion中，输入a1,a2,a3，得到b1,b2,b3。对于a1而言，a2,a3与a1之间的距离是一样近的，且没有先后顺序。如果将输入改成a1,a3,a2，对结果b1是没有影响的。

为了引入位置信息，原论文中引入了位置编码，

如图所示，位置编码直接加在输入a={a1,a2,...,an}中，即pe={pe1,pe2,...,pen}，它和a有相同的维度。关于位置编码，在原论文中有提出两种方案，一种是原论文中使用的固定编码，即论文中给出的sine and cosine functions方法，按照该方法可计算出位置编码；另一种是可训练的位置编码，作者说尝试了两种方法发现结果差不多。

代码实现：

class PositionalEncoding(nn.Module):
    def __init__(self, d_model, dropout, max_len=5000):
        """
        位置编码器类的初始化函数
        
        共有三个参数，分别是
        d_model：词嵌入维度
        dropout: dropout触发比率
        max_len：每个句子的最大长度
        """
        super(PositionalEncoding, self).__init__()
        self.dropout = nn.Dropout(p=dropout)
        
        # Compute the positional encodings
        # 注意下面代码的计算方式与公式中给出的是不同的，但是是等价的，你可以尝试简单推导证明一下。
        # 这样计算是为了避免中间的数值计算结果超出float的范围，
        pe = torch.zeros(max_len, d_model)
        position = torch.arange(0, max_len).unsqueeze(1)
        div_term = torch.exp(torch.arange(0, d_model, 2) *
                             -(math.log(10000.0) / d_model))
        pe[:, 0::2] = torch.sin(position * div_term)
        pe[:, 1::2] = torch.cos(position * div_term)
        pe = pe.unsqueeze(0)
        self.register_buffer('pe', pe)
        
    def forward(self, x):
        x = x + Variable(self.pe[:, :x.size(1)], requires_grad=False)
        return self.dropout(x)

三、Transformer模型

参考文章：史上最小白之Transformer详解_transformer最小白-CSDN博客

1.Transformer整体结构

Transformer是一个基于Encoder-Decoder框架的模型，主要分为以上四个模块，其中Encoder block 和Deconder block两部分比较重要。

2.Transformer的input输入

以"Tom chase Jerry"为例，input即输入该句分词后的词向量，可以是任意形式的词向量。

图中，输入input embedding后，又给每个word的词向量添加了位置编码：因为词的位置不同会导致语义发生极大的变化，我们的Transformer是完全基于Self-Attention之上的，而Self-Attention不含位置编码。

2.1如何获得位置编码？

可以通过数据训练学习得到positional encoding，类似于训练学习词向量，goole在之后的bert中的positional encoding便是由训练得到的。

3.Transformer的Encoder

一个enconder block由6个enconder构成，图中灰色部分是一个enconder结构，其中Nx=6。一个Enconder部分由一个Multi-Head Attention和一个全连接神经网络Feed Forward Network构成。通过Multi-Head Attention 得到矩阵Z之后并不是直接传入全连接神经网络FNN，而是进行了一步Add-Normalize。

3.1Add＆Normalize

Add:就是在矩阵Z上面加了一个残差块X（Transformer里加上的X就是Multi-Head Attention里输入的矩阵X），目的是防止深度神经网络在训练中发生退化问题。

退化：即深度神经网络通过增加网络层数，Loss逐渐减小，然后趋于饱和达到稳定，随着网络层数继续增加，Loss反而增大。

退化的原因：比如某个神经网络的最优层数是16层，但是我们在设计的时候不知道有多少层，我们假定设计32层，那么多出来16层，所以我们需要让多出来的16层进行恒等映射（即F(x)=x），才能让这多出来的16层不会对此神经网络产生影响。

多余的层数一多，影响就很明显了，所以提出了ResNet残差神经网络来解决此问题。

3.2ResNet残差神经网络

如图是一个残差块，x为残差块的输入，x经过一轮线性变化并激活输出得到F(x)，F(x)进行第二轮的线性变化，然后加上x，进行激活输出。此路径被称为shortcut连接。

此时，要完成恒等映射的函数就变成了H(x)=F(x)+x，要使得H(x)=x，则使F(x)=0，因为一般初始化神经网络的参数就是【0，1】的随机数，使F(x)=0比使F(x)=x简单地多。

3.3Normalize

在神经网络进行训练之前，都要对数据进行Normalize归一化，有两个目的：1.加快训练的速度2.提高训练的稳定性。

LN是在同一样本中不同位置的神经元进行归一化，BN是在不同样本中同一位置的神经元进行归一化，即将同一维度的神经元进行归一化。我们选择使用LN，是因为在NLP中，输入的都是词向量，单独分析它的每一维是没有意义的。

3.4全连接层

此为全连接层公式：

FFN(x)=max(0,xW1+b1)W2+b2

该全连接层是一个两层的神经网络，先进行线性变换，再进行ReLU非线性变换，最后进行线性变换。此时的x就是Multi-Head Attention的输出矩阵Z。这两层映射到更高维的空间中，再进行非线性ReLU筛选，筛选回原来的维度。最后进行Add-Normalize进入到Decoderc层。

4.Transformer的Decoder

一个Decoder block 由6个Decoder构成，其中Nx=6。一个Decoder由Masked Multi-Head Attention、Multi-Head Attention、全连接神经网络FNN构成。

4.1Decoder的输入

a.训练时的输入

例如：Encoder输入："Tom chase Jerry"，Decoder输入"汤姆追逐杰瑞"。

b.预测时的输入

从起始符开始，每一次的输入都是上一次Transformer的输出。

例如：输入起始符" "，输出"汤姆"，输入"汤姆"，输出"汤姆追逐"，直到输出"汤姆追逐杰瑞"为止。

4.2Masked Multi-Head Attention

Masked表示掩码，它对某些值进行掩盖，使其在参数更新时不产生效果。

Encoder中也需要mask,不过只需用到Padding mask。

a.Padding mask

由于输入序列的长度不一样，为了对齐，常常会在较短的序列后添加0，对于较长的序列，常常会删掉其左边多余的部分，因为这些填充的位置通常是无意义的，所以不该把attention放在他们身上。一般情况下，会在这些位置上加上一个无穷大的非负数值，经过softmax处理后，这些位置会接近0。

b.sequence mask

sequence mask使Decoder不能看见未来的信息，对一个序列，在step_time为t的时候，我们的解码输出只能依赖于t时刻前的输出，所以要将t时刻后的信息隐藏起来，这只在训练的时候有效，因为训练的时候我们会将Target数据完整地输入Decoder中。

那预测的时候怎么办呢？

只需要产生一个上三角的值全部为0的矩阵，作用在每一个序列上。

4.3基于Encoder-Decoder的Multi-Head Attention

Encoder中的Multi-Head Attention是基于self-Head Attention，Decoder中的Multi-Head Attention仅基于Attention，它的输入Q来自于Masked Multi-Head Attention的输出，K和V来自于Encoder最后一层的输出。

Masked Multi-Head Attention是为了得到之前已经预测出的信息，Multi-Head Attention是输入已经预测到的信息，继续预测得到下一刻的信息，即输出信息。

5.Transformer的输出

经过一次Linear，再进行softmax得到输出的概率分布，通过词典，概率最大所对应的单词则为下一次的输出。

思考：Transformer虽然速度快，效果好，但还存在一定的问题。词语位置信息间有存在丢失，即使加入了positional encoding，但还存在可优化的地方。

遗传算法与深度学习实战（32）——生成对抗网络详解与实现盼小辉丶遗传算法与深度学习实战深度学习生成对抗网络人工智能
遗传算法与深度学习实战（32）——生成对抗网络详解与实现0.前言1.生成对抗网络2.构建卷积生成对抗网络小结系列链接0.前言生成对抗网络(GenerativeAdversarialNetworks,GAN)是一种由两个相互竞争的神经网络组成的深度学习模型，它由一个生成网络和一个判别网络组成，通过彼此之间的博弈来提高生成网络的性能。生成对抗网络使用神经网络生成与原始图像集非常相似的新图像，它在图像生
留学生编程辅导Haskell/OCaml/Prolog/Rust/Python matlabgoodboy rust 开发语言后端
为留学生提供编程辅导涉及多种编程语言，包括Haskell、OCaml、Prolog、Rust和Python，这些语言各自具有独特的特性和应用场景。以下是对每种语言的简要介绍以及辅导建议：Haskell特性：纯函数式编程语言。强大的类型系统和惰性求值。适用于并发编程和数学计算。辅导建议：从基础语法开始，理解函数、变量和数据类型。学习Haskell的类型系统，特别是多态和类型类。通过解决简单的数学问题
【Python】已解决：ERROR: Could not find a version that satisfies the requirement cv2 (from versions: none) 屿小夏 python 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
磁力链接怎么是html,磁力链接的使用方法有哪些不爱说话的我
磁力下载链接是的一种下载方式，比较方便使用。不过有些网友就不知道怎么使用了，其实使用方法非常简单！下面是学习啦小编给大家整理的磁力链接的使用方法，希望能帮到大家!迅雷磁力链接的使用方法1、通过连接BT种子中记录的BTTracker服务器，获取下载者列表2、利用BT种子中记录的“数字指纹”通过DHT网络进行搜索，获取下载者列表你可以像下载普通任务一样，左键点击网页上“磁力链接”的下载按钮，或右键点击
你有没有想过可以轻松学习C语言？《嗨翻C语言》全新学习方式(好书分享更新中) 苹果酱0567 面试题汇总与解析大数据课程设计 spring boot vue.js java
嗨翻C语言作者:[美]DavidGriffiths/[美]DawnGriffiths出版社:人民邮电出版社原作名:HeadFirstC译者:程亦超内容简介······你能从这本书中学到什么？你有没有想过可以轻松学习C语言？《嗨翻C语言》将会带给你一次这样的全新学习体验。本书贯以有趣的故事情节、生动形象的图片，以及不拘一格、丰富多样的练习和测试，时刻激励、吸引、启发你在解决问题的同时获取新的知识。你
国家超算平台上线DeepSeek - R1系列模型：开启AI新征程 CodeJourney. 数据库人工智能算法人工智能
2025年初，科技圈发生了一件大事：国家超算平台上线了DeepSeek-R1系列模型。这事儿就像在科技池塘里扔了颗大石头，激起了好大的水花，对人工智能（AI）领域影响深远。一、DeepSeek-R1系列模型究竟啥来头DeepSeek-R1系列模型是DeepSeek这家公司研发的。它用了强化学习训练，推理的时候会反复思考验证，思维链能有好几万字长。在数学、代码编写和复杂逻辑推理这些方面，表现相当厉害
（Aliyun AI ACP 04）人工智能建模流程与基础知识：深度学习、增强学习与迁移学习关键技术综述 North_D 人工智能基础知识点人工智能深度学习学习自然语言处理迁移学习 python 神经网络
文章目录阿里云人工智能工程师ACP认证考试知识点辅助阅读（AliyunAIACP04）人工智能建模流程与基础知识：深度学习、增强学习与迁移学习关键技术综述I.深度学习算法1️⃣前馈神经网络(FFNs)详解2️⃣卷积神经网络(CNNs)探秘II.增强学习探索3️⃣增强学习基础与决策过程4️⃣常见增强学习算法剖析III.迁移学习实践5️⃣迁移学习基本原理与应用阿里云人工智能工程师ACP认证考试知识点辅
AI大模型探秘：核心能力与应用场景深度解析程序员辣条人工智能 java AI大模型大模型 spring
AI大模型是什么通过概念考察的方式，拆开来了解AI大模型。AI：包含很多术语，如：模式识别、自然语言处理、神经网络、机器学习、深度学习、强化学习、人类反馈强化学习等。类比：AI是电力–吴恩达。就像电力技术，是一种通用技术，对很多设备起作用，同样的AI可以赋能各种场景。大模型：把LM比作人的大脑。大参数大规模。参数就是脑细胞，脑细胞越多通常这个人越聪明，参数越多的LM通常越智能。分类语言大模型：Ch
揭秘AI的智能双翼：决策式AI与生成式AI 小马不会过河人工智能算法 embedding microsoft 知识图谱
在人在数字化浪潮的推动下，人工智能已成为推动社会进步的关键技术之一。特别是在决策式AI与生成式AI这两个领域，它们的发展不仅加速了技术创新的步伐，也在实际应用中展现出巨大的潜力和价值。01.智能双翼：决策式AI与生成式AI决策式AI（DiscriminativeAI）定义：决策式AI，也称为判别式AI，是一种通过学习数据中的条件概率分布，对新场景进行判断、分析和预测的人工智能技术。它的设计目标是模
《Java面试宝典：100道必做经典面试题解析》奔赴架构师的小白 java 面试开发语言
引言在软件开发领域，Java作为一门经典且广泛应用的编程语言，其面试题涵盖了从基础知识到高级概念的广泛内容。本文精心挑选并深入解析了100道Java面试题，旨在帮助求职者全面准备，提升面试成功率。无论你是初学者还是有经验的开发者，这份“Java面试宝典”都将是你不可多得的学习资源。目录Java基础篇Java数据类型与变量控制流程语句详解方法与类的深入理解面向对象编程原则常见异常处理机制集合框架篇L
node.js的require() 是小傲雨呀^_^ node.js
2009年，Node.js项目诞生，所有模块一律为CommonJS格式。时至今日，Node.js的模块仓库npmjs.com，已经存放了15万个模块，其中绝大部分都是CommonJS格式。这种格式的核心就是require语句，模块通过它加载。学习Node.js，必学如何使用require语句。本文通过源码分析，详细介绍require语句的内部运行机制，帮你理解Node.js的模块机制。一、requ
开源数据分析工具 RapidMiner kcarly 大数据治理与分析开源数据分析数据挖掘
RapidMiner是一款功能强大且广泛应用的数据分析工具，其核心功能和特点使其成为数据科学家、商业分析师和预测建模人员的首选工具。以下是对RapidMiner的深度介绍：1.概述RapidMiner是一款开源且全面的端到端数据科学平台，支持从数据准备、机器学习、预测分析到模型部署的整个工作流程。它基于Java开发，具有高度的模块化和可扩展性，能够与多种数据源无缝集成，包括MicrosoftExc
二值连接：深度神经网络的轻量级革命步子哥 dnn 人工智能神经网络
引言：深度学习的下一步是什么？深度神经网络（DeepNeuralNetworks,DNN）近年来在语音识别、图像分类和自然语言处理等领域取得了令人瞩目的成就。然而，这些突破背后的一个关键推手是计算能力的飞速提升，尤其是图形处理单元（GPU）的广泛应用。然而，随着模型规模和数据量的增长，深度学习的计算需求也在不断攀升。与此同时，移动设备和嵌入式系统的快速发展对低功耗、高效能的深度学习算法提出了更高的
0day 蓝凌EKP系统接口sysFormMainDataInsystemWebservice存在任意文件读取漏洞漏洞库-网络安全 ZeroDay漏洞库网络安全运维网络攻击模型安全架构网络安全系统安全
0x01阅读须知技术文章仅供参考，此文所提供的信息只为网络安全人员对自己所负责的网站、服务器等（包括但不限于）进行检测或维护参考，未经授权请勿利用文章中的技术资料对任何计算机系统进行入侵操作。利用此文所提供的信息而造成的直接或间接后果和损失，均由使用者本人负责。本文所提供的工具仅用于学习，禁止用于其他！！！0x02产品概述蓝凌EKP系统接口sysFormMainDataInsystemWebser
鸿蒙5.0开发【手机上下分屏开发实践】业务场景与解决方案蒸糕笑QAQ harmonyos5.0 harmonyos 华为鸿蒙系统鸿蒙
概述手机上下分屏用途广泛，主要应用于办公应用中工作学习和邮件的多任务处理、购物应用中浏览不同商品比较价格或查看评论、在浏览视频的同时通过社交媒体与朋友聊天等，在智能手机中日益成为提升多任务处理效率的重要工具。因此应用需要针对手机上下分屏等小窗口场景进行适配，提升用户体验。分屏功能允许用户将手机屏幕分为上下两个独立的操作区域，从而允许同时运行和操作两个应用程序的功能。同时，用户可以根据需求调整屏幕的
Go 学习笔记（61）— Go 高阶函数、函数作为一等公民（函数作为输入参数、返回值、变量）的写法 wohu007 Go golang 函数作为变量
函数在Go语言中属于“一等公民（First-ClassCitizen）”拥有“一等公民”待遇的语法元素可以如下使用可以存储在变量中；可以作为参数传递给函数；可以在函数内部创建并可以作为返回值从函数返回；1.函数可以存储在变量中var(myFprintf=func(wio.Writer,formatstring,a...interface
验证工具：Verdi简要教程 TrustZone_ IC验证之旅 IC
Verdi是Synopsys公司开发的一款广泛应用于芯片验证和调试的自动化工具，主要用于分析仿真波形、调试设计代码、追踪信号路径以及分析覆盖率等。作为芯片验证工程师，掌握Verdi是提升调试效率的关键技能之一。以下是针对零基础学习Verdi的入门指南：一、Verdi的核心功能波形查看与分析支持VCD/FSDB波形文件的加载和可视化。通过波形追踪信号变化，快速定位设计中的问题。原理图追踪（Schem
python各个模块以及学习文档链接 Perhaps# Python python 正则表达式爬虫
Python_base一、python模块二、其他链接一、python模块名称来源用途类别链接os标准库文件和路径操作基础类https://docs.python.org/zh-cn/3/library/os.html#sys标准库系统和环境基础类https://docs.python.org/3/library/sys.htmltime标准库有关时间操作基础类https://docs.pytho
半导体常用术语 TrustZone_ 数字IC IC fpga开发量产半导体
Perface最近的更新文章，你可能大概也猜测到我最近的一些工作开始接触到了芯片，关于芯片验证、芯片量产。【芯片测试：系统级测试（SLT）详解】【芯片测试：万字长文一起聊聊IC测试机-ATE】【芯片测试：WAT、CP、FT】【DFT学习：DFT概述和ATE概述】其实如果接触芯片量产，不但要接触一些测试相关，也是离不开半导体。一群大佬开会的时候满嘴的英文缩写生怕我听懂一样[自我调侃]，于是这里一起来
51单片机寄存器B访问c语言,51单片机C语言学习 6 公子大白0m0 51单片机寄存器B访问c语言
如果省略存储器类型，系统则会按编译模式SMALL,COMPACT或LARGE所规定的默认存储器类型去指定变量的存储区域。无论什么存储模式都可以声明变量在任何的8051存储区范围，然而把最常用的命令如循环计数器和队列索引放在内部数据区可以显著的提高系统性能。还有要指出的就是变量的存储种类与存储器类型是完全无关的。SMALL存储模式把所有函数变量和局部数据段放在8051系统的内部数据存储区这使访问数据
Mongodb学习笔记 --- python读取mongodb数据杨鑫newlfe Python 数据库大数据挖掘与大数据应用案例
#-*-coding:utf-8-*-importpymongo__author__='yangxin'classMongodbConn(object):
【Golang学习之旅】Go 语言基础语法概览程序员林北北 golang 学习开发语言
文章目录前言1.Go语言简介1.1Go语言是什么？1.2Go语言的应用场景2.Go语言开发环境2.1安装Go2.2配置Go环境2.3Hello,World!（第一个Go程序）3.Go语言基础语法3.1变量与常量3.2数据类型3.3条件判断与循环3.4数组与切片（slice）3.5Map（哈希表）4.Go语言函数5.Go语言并发编程（Goroutine&Channel）5.1Goroutine（轻量
python 库总结杜小伙伴 python 正则表达式后端
原文链接：https://blog.csdn.net/xufive/article/details/102676755在这个列表中，把模块分成11大类：基础类数据库接口类网络通讯类音像游戏类GUI类web框架类科学计算类2D/3D类数据处理类机器学习类工具类针对每一个模块给出了相应的推荐指数，从1颗星到5颗星。这是一个非常主观的判断，仅供参考。★☆☆☆☆：较少被用到★★☆☆☆：重要但较少被用到，★
ES-进阶-聚合 longasyan Elasticsearch elasticsearch
类似于DSL查询表达式，聚合也有可组合的语法：独立单元的功能可以被混合起来提供你需要的自定义行为。这意味着只需要学习很少的基本概念，就可以得到几乎无尽的组合。要掌握聚合，你只需要明白两个主要的概念：桶（Buckets）满足特定条件的文档的集合指标（Metrics）对桶内的文档进行统计计算这就是全部了！每个聚合都是一个或者多个桶和零个或者多个指标的组合。翻译成粗略的SQL语句来解释吧：桶在概念上类似
Go学习:Stringer .番茄炒蛋 Go学习 golang 学习开发语言
Stringer是go语言中一个常用的系统接口,Stringer有一个String函数,相当于java当中的toStringpackagestringsimport"fmt"typeUserCommonstruct{Namestring}func(uUserCommon)String()string{returnfmt.Sprintf("UserCommon:{Name=%s}",u.Name)}
lua学习 qq_26306321 Lua Lua
Lua数据类型Lua是动态类型语言，变量不要类型定义,只需要为变量赋值。值可以存储在变量中，作为参数传递或结果返回。Lua中有8个基本类型分别为：nil、boolean、number、string、userdata、function、thread和table。nil这个最简单，只有值nil属于该类，表示一个无效值（在条件表达式中相当于false）boolean包含两个值：false和true。Lu
MongoDB学习笔记-解析jsonCommand内容人生偌只如初见 MongoDB mongodb 笔记 java
如果需要屏蔽其他项目对MongoDB的直接访问操作，统一由一个入口访问操作MongoDB，可以考虑直接传入jsonCommand语句解析执行。相关依赖包org.springframework.bootspring-boot-starter-data-mongodb2.4.2部分代码@ResourceprotectedMongoPropertiesmongoProperties;publicList
OpenMV学习笔记----sensor、image 没有名字的鬼学习笔记 python 计算机视觉图像处理人工智能 Openmv
目录一、感光元件----sensorsensor.reset()sensor.set_pixformat()sensor.set_framesize()sensor.skip_frames(n=10)sensor.snapshot()sensor.set_auto_gain()sensor.set_auto_whitebal()sensor.set_auto_exposure(enable[\,e
QTableWidget设置代理使得选中行字体颜色保持不变并且失去焦点后（也就是QTableWidget失去焦点或子类TableWidget）底色不变 zxb@hny qt
这个问题困扰了我很久，一直不理解QT的MVC设计思路，后来经过一天学习才知道，所有个性化的设置都是通过代理类QStyledItemDelegate来进行改变，譬如选中效果，字体颜色大小等等，看起来比MFC当然要复杂多了，但是别忘了QT是跨平台的，能做到这样也是非常厉害了，不得不佩服QT作者的匠心独特上关键代码：MyTableWidget*childTable=newMyTableWidget;//
datapasta包学习-可复制网页、Excel表格等其他来源的数据至Rstudio中凑齐六个字吧科研工具数据挖掘
datapasta是一个R语言中用于优化数据复制和粘贴（copy-paste）的R包，旨在简化数据导入和转换过程，减少手动格式调整的需求，提高数据整理的效率。功能介绍将Excel/CSV/表格数据快速粘贴到R代码：可将剪贴板中的数据直接转换为data.frame、tibble、vector等格式，无需手动整理格式。从R数据转换为文本格式（适用于论文、报告）：支持将R变量（如data.frame、向
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

Attention +Transformer学习记录（二）

a.注意力机制和自注意力机制的区别

b.引入自注意力机制的原因

c.计算公式

d.代码实现

二、Multi-Head Attention

1.Multi-Head Attention的计算

2.位置编码

三、Transformer模型

1.Transformer整体结构

2.Transformer的input输入

2.1如何获得位置编码？

3.Transformer的Encoder

3.1Add＆Normalize

3.2ResNet残差神经网络

3.3Normalize

3.4全连接层

4.Transformer的Decoder

4.1Decoder的输入

a.训练时的输入

b.预测时的输入

4.2Masked Multi-Head Attention

a.Padding mask

b.sequence mask

4.3基于Encoder-Decoder的Multi-Head Attention

5.Transformer的输出

你可能感兴趣的:(transformer,学习,深度学习)