herry_drj

史上最详细Transformer讲解以及transformer实现中文版完形填空（掩蔽字训练MASK）内容详细易懂且附有全部代码

基于transformer实现中文版完形填空（掩蔽字训练MASK）

1 transformer 模型概述
- 1.1 起源与发展
- 1.2 Transformer的特点和创新点：
- 1.3 Transformer一些前置知识
2.a Transformer-Encoder 结构（模型左半部分）
- 2.1 输入部分 Embedding
- - 2.1.1 one-hot编码
  - 2.1.2 word2vec 编码
- 2.2 注意力机制 Self-attention
- 2.3 多头注意力机制 Multi-head Attention
- 2.4 残差连接 ResNet (Residual Network)
- 2.5 层标准化 LN（Layer Normalization）
- 2.6 前馈型神经网络 FFN （Feed Forward Network）
2.b Transformer-Decoder 结构（模型右半部分）
- 2.7 带Mask的多头注意力机制 Masked Multi-Head Self-Attention
- - 2.7.1 MASK 掩码
  - 2.7.2 Masked Self-Attention
- 2.8 线性 Linear 和 Softmax
3 tensorflow实现中文版完形填空（基于掩蔽字训练）
- 3.1 导包，读入数据，准备前置工作
- 3.2 读入数据
- 3.3 创建 Bert tokenizer 和初始化训练集和标签
- 3.4 创建和训练模型 Transformer核心实现代码
- - 1 位置编码 Positional Encoding
  - 2 缩放点积注意力
  - 3 前向传播注意传播前后保持维度不变
  - 4 多头注意力机制
  - 5 一层编码器函数 Encoderlayer
  - 6 整个Encoder编码部分
  - 6 根据需求定义自己的Transformer模型
- 3.5 开始进行训练
- - 1 自定义损失函数和学习率衰减函数
  - 2 正式开始训练
- 3.6 进行数据测试
4 参考文献

1 transformer 模型概述

（个人在学习过程中一些整理总结，有些的不清楚的错误的，请及时在评论区指出，谢谢！算法实现的完整代码见 github链接完整代码）

1.1 起源与发展

2017 年，Google 在论文 “Attention is All you need” 中提出了 Transformer 模型，其使用 Self-Attention 结构取代了在 NLP 任务中常用的 RNN 和LSTM网络结构。相比 RNN 网络结构，其最大的优点是可以并行计算。transformer基本模型图如下图所示。模型的左半边Encoder部分可以看作是一个编码器，右半边Decoder部分可以看作是一个解码器，其中编码器是双向的，解码器是单向的需要循环迭代输出。（这里不懂，没关系后文还有讲解）而著名的两个模型，Bert（Bidirectional Encoder Representations from Transformers 双向）是基于其Encoder部分的，ChatGpt（Generative Pre-trained Transformer 单向）所使用的Gpt模型是基于其Decoder部分。

下面这个图是每篇Transformer讲解文章中必会出现的图片。来源于Attention is All you need 这篇论文里面的。

1.2 Transformer的特点和创新点：

Transformer源自于AI自然语言处理任务NLP；在计算机视觉领域CV，近年来Transformer逐渐替代CNN成为一个热门的研究方向。此外，Transformer在文本、语音、视频等多模态领域也在崭露头角，可见Transformer模型的重要之处。

Transformer和LSTM的最大区别，就是LSTM的训练是迭代的、串行的，必须要等当前字处理完，才可以处理下一个字。而Transformer的训练时并行的，即所有字是同时训练的，这样就大大增加了计算效率。Transformer使用了位置嵌入(Positional Encoding)来理解语言的顺序，使用自注意力机制（Self Attention Mechanism）和前馈全连接层进行计算，这是transformer的创新点。

1.3 Transformer一些前置知识

有对自注意力机制和位置编码不熟悉的UU可以看下这边文章 Transformer前置知识

2.a Transformer-Encoder 结构（模型左半部分）

Encoder编码器主要由以下几个部分组成:

输入部分 Embedding
注意力机制 Self-attention
多头注意力机制 Multi-head Attention
残差连接 ResNet (Residual Network)
层标准化 LN（Layer Normalization）
前馈型神经网络 FFN （Feed Forward Network）

下面开始正式逐部分讲解Encoder的各部分。

2.1 输入部分 Embedding

大家时刻要记住，计算机在处理任何数据的基础，就是能够进行运算，为了能够把文本数据或音频数据输入进Transformer这个黑盒子里面处理，我们必须先通过Embedding将其转换成编码标识，使其成为计算机能够处理的数字。
在理解Embedding层之前，我们需要关注于文本数据的特点，举例：“我爱北京天安门”，我们在做文本数据处理得时候，传统的汉字是不能给计算机做运算的，为了解决汉字运算的问题，提出了将汉字进行编码（或叫文本张量表示）的思想。目前主流的编码方式有one-hot编码及word Embedding。下面就两种编码进行介绍，其中穿插关于word2vec的理解。

2.1.1 one-hot编码

该编码格式较为傻瓜式，就是将词库中所有的单词，从[0,max_len-1]的进行编号，使用哪个词对应的编号位置部分置1，其余部分置0。举例说明：如果整个词库为“我爱北京天安门”这七个字，依次对其进行编号，便会得到如下的表示：

我：1000 000 爱：0100 000 北：0010 000 京：0001 000 天：0000 100

安：0000 010 门：0000 001

2.1.2 word2vec 编码

word2vec从字面意思能够看出来，即word to vec文本推导张量，它存在两个模式，一个是CBOW，一个是skipgram，其中CBOW 类似于我们在英文考试中的完形填空，即根据上下文推导中间的单词。而skipgram与之相反，通过某个单词，推导上下文，其中Skip-gram的计算机复杂度是比CBOW的复杂度要大的，如下左图是CBOW的工作模式,右图是Skipgram的工作方式。（二者的详细比较可参考这篇文章cbow 与 skip-gram的比较）

下面再举个简单实际的例子:

Transformer的输入部分其实就是词向量 和 位置向量的叠加：比如下面一句话"我有一只猫"，经过分词之后的得到的token是我 有 一只 猫，那么我，是，一只，猫的 词向量 和 位置向量的叠加后的向量再放在一起组成的矩阵就是这句话的词嵌入。

相信到这里大家已经明白怎么处理输入了，那我接下来我们继续看Encoder的其他部分

2.2 注意力机制 Self-attention

在拿到一个Embedding的向量后，我们下一步要做的事就是利用Self-Attention机制去计算不同单词之间词向量的相似度，我们先从一个简单的例子入手开始分析。

计算 Self-Attention 的步骤如下：

第 1 步：对编码器的每个输入向量（在本例中，即每个词的词向量）创建三个向量：Query 向量、Key 向量和 Value 向量。它们是通过词向量分别和 3 个权重矩阵相乘得到的，这 3 个矩阵通过训练获得。

请注意，这些向量的维数小于词向量的维数。新向量的维数为 64，而 embedding 和编码器输入/输出向量的维数为 512。新向量不一定非要更小，这是为了使多头注意力计算保持一致的结构性选择。

第 2 步：计算注意力分数。假设我们正在计算这个例子中第一个词 “Thinking” 的自注意力。我们需要根据 “Thinking” 这个词，对句子中的每个词都计算一个分数。这些分数决定了我们在编码 “Thinking” 这个词时，需要对句子中其他位置的每个词放置多少的注意力，也就是最后的综合权重。

这些分数，是通过计算 “Thinking” 的 Query 向量和需要评分的词的 Key 向量的点积得到的。如果我们计算句子中第一个位置词的注意力分数，则第一个分数是q1和k1的点乘，第二个分数是q1和k2的点乘。
第 3 步：将每个分数除以 $\sqrt { d _ { k }}$ ， $d _ { k }$ 是 Key 向量的维度。目的是在反向传播时，求梯度更加稳定。类似于一个归一化处理，可以避免远距离传播导致的梯度爆炸和梯度消失问题，使梯度更加稳定。
第 4 步：将这些分数进行 Softmax 操作。Softmax 将分数进行归一化处理，使得它们都为正数并且和为 1。也就是计算各个词的权重大小。

这些Softmax分数决定了在编码当前位置的词时，对所有位置的词分别有多少的注意力。很明显，当前位置的词汇有最高的分数，有时注意一下与当前位置的词相关的词是很有用的。比如一句话Luck has her favorite food,her和Luck很明显是相关性较大的，那么在Self-Attention中体现的就是算出来的Score权重较大。
第 5 步：将每个 Softmax 分数分别与每个 Value 向量相乘。这种做法背后的直觉理解是：对于分数高的位置，相乘后的值就越大，我们把更多的注意力放在它们身上；对于分数低的位置，相乘后的值就越小，这些位置的词可能是相关性不大，我们就可以忽略这些位置的词。
第 6 步：将加权 Value 向量（即上一步求得的向量）对应求和（即几个向量相同位置上的数字对应求和）。这样就得到了Thinking，这一个单词的自注意力层在这个位置的输出。具体计算如下图所示，最终的 Sum= $V1 \times 0.88 + V _ { 2 } \times 0.12$ `

上述过程是计算两个单词中，一个单词的Self-Attention，但是显然一个我们输入到模型中进行计算的一般都是矩阵，是很多个句子中的单词同步进行计算的。在实际实现中，此计算是以矩阵形式进行，以便实现更快的处理速度。下面我们来看看如何使用矩阵计算。

主要分为三步：
1 : 将所有两个单词的词向量合成一个矩阵并且与随机初始化的Q1 K1 V1参数矩阵相乘得到Q K V矩阵（参数矩阵初始化是随机的，但是后续随着梯度下降会不断调整）
2：将Q矩阵和K矩阵的转置矩阵相乘(就是上方单独计算时 $q1 \times k _ { 1 }$ ， $q1 \times k _ { 2 }$ 的过程，换成了矩阵形式表示)
3：经过Softmax后再与原始的词向量矩阵相乘，得到最终的自注意力层输出。

用通俗的话来讲就是用Key,Query产生一个权重矩阵进而与Value相乘得到最终的输出，这也就是缩放点积注意力的过程（Scale Dot-Product Attention）,过程也可如图所示，与前面讲解的是相同的。

简单总结一下 ：对于 Self Attention 来讲，Q（Query），K（Key）和 V（Value）三个矩阵均来自同一输入，并按照以下步骤计算：

1.首先计算Q和K之间的点积，为了防止其结果过大，会除以 $\sqrt { d _ { k }}$ ，其中 $d _ { k }$ 为Key向量的维度。
⒉.然后利用Softmax操作将其结果归一化为概率分布，再乘以矩阵V就得到权重求和的表示。

最后给大家一个合并后简洁的公式来表示这个矩阵计算的全过程：

Attention(Q,K,V) = Softmax( $\frac { Q K ^ { T } } { \sqrt { d _ { k } } }$ ) V

2.3 多头注意力机制 Multi-head Attention

Transformer里用到的是多头注意力。多头的意思是，`有多组不同的 $\nu }$ 权重矩阵。把同一个句子利用多组不同的Q、K、V权重矩阵相乘，最后把得到的8个Z0~Z7对位相加（或者拼接起来再乘一个权重矩阵W^{0} 可以恢复到原来embedding_size的大小维度）得到最终的Z，这样可以捕捉到更多的特征信息。

具体计算过程如下图所示：

多头注意力，与CNN卷积神经网络中的多通道十分类似，每个头都可能提取到不同的特征，每个头的关注点，侧重点也有所不同。

现在让我们看一个多头Multi-Head的例子，看看在对示例句中的“it”进行编码时，不同的注意力头关注的位置分别关注什么内容，下图也是十分经典的一张图。

在上图中
当我们对“it”进行编码时，一个注意力头关注“The animal”，另一个注意力头关注“tired”。从某种意义上来说，模型对“it”的表示，融入了“animal”和“tired”的部分表达。

Multi-head Attention 的本质是，在参数总量保持不变的情况下，将同样的 Query，Key，Value 映射到原来的高维空间的不同子空间中进行 Attention 的计算，在最后一步再合并不同子空间中的 Attention 信息。这样降低了计算每个 head 的 Attention 时每个向量的维度，在某种意义上防止了过拟合；由于 Attention 在不同子空间中有不同的分布，Multi-head Attention 实际上是寻找了序列之间不同角度的关联关系，并在最后拼接这一步骤中，将不同子空间中捕获到的关联关系再综合起来。也可以类比CNN中同时使用多个卷积核的作用，直观上讲，多头的注意力有助于网络捕捉到更丰富的特征/信息。

2.4 残差连接 ResNet (Residual Network)

计算完Attention后，我们继续前向传播，下一步是将Self-Attention得到的向量和没进行处理的向量相加，即残差连接，具体过程如下图。

把得到的两个词的Attention值摞在一起后，将“加入位置编码后的词向量（原来的向量）”与“摞在一起的Attention值（计算出来的向量）” 相加。残差连接减小了梯度消失的影响。加入残差连接，就能保证层次很深的模型不会出现梯度消失的现象。残差块是深度学习必学的基础内容，这里写的较为简单，想深入了解得可以搜索ResNet相关知识点看看。

上面的操作也适用于解码器的子层。假设一个 Transformer 是由 2 层编码器和 2 层解码器组成，其如下图所示：

为了方便进行残差连接，编码器和解码器中的所有子层和嵌入层的输出维度需要保持一致，在 Transformer 论文中 $\text { model } }$ = 512,也就是在每层输出的第四个维度都是512.

2.5 层标准化 LN（Layer Normalization）

Layer Normalization的作用是把神经网络中隐藏层归一为标准正态分布，也就是i.j.d独立同分布，以起到加快训练速度，加速收敛的作用，也有利于模型更好的训练。

LN即层标准化，也是一种归一化方法，它带来的优势有：

Layer Normalization是每个样本内部做标准化，跟size没关系，不受其影响。
RNN中LN也不受影响，内部自己做标准化，所以LN的应用面更广。

在此在特意强调一下BN和LN的不同之处：

BN是批标准化，LN是层标准化，BN求标准化的均值和方差与该批次所有的向量有关（
比如计算第一个位置的均值和标准差，那么要用到该批次所有向量第一位置的值），LN求标准化的均值和方差只与自己的向量有关（用一个向量所有位置的值来求均值方差）。从图上也可知，BN是横向的，LN是纵向的。二者都是有利于模型的收敛，但是不同场景用的方法也不同。

那为什么Transformer用的是Layer Normalization??

NLP的文本本质上可以看成一个时间序列，而时间序列是不定长的，长度不同的序列原则上属于不同的统计对象，所以很难得到稳定的统计量，而得不到稳定的统计量，BN就无法成立了（因为BN依靠滑动平均来获得一组预测用的统计量）,也就是横向求解均值和方差的时候，有些向量上可能因为句长较短而导致后面的部分没有值可计算，因而效果不好。

2.6 前馈型神经网络 FFN （Feed Forward Network）

位置前馈网络就是一个全连接前馈网络，每个位置的词都单独经过这个完全相同的前馈神经网络。其由两个线性变换组成，即两个全连接层组成，第一个全连接层的激活函数为 ReLU 激活函数。可以表示为：

FFN(x) = max(0，xW1+b1) +b2

在每个编码器和解码器中，虽然这个全连接前馈网络结构相同，但是不共享参数。整个前馈网络的输入和输出维度都是 $\text { model } }$ = 512 第一个全连接层的输出和第二个全连接层的输入维度为 $d _ { f f }$ = 2048

2.b Transformer-Decoder 结构（模型右半部分）

在Decoder的解码器也有编码器中这两层结构，但是它们之间还有一个注意力层（即 Encoder-Decoder Attention），其用来帮忙解码器关注输入句子的相关部分（类似于 seq2seq 模型中的注意力）。通过上面的介绍，我们已经了解第一个编码器的输入是一个序列，最后一个编码器的输出是一组注意力向量 Key 和 Value。这些向量将在每个解码器的 Encoder-Decoder Attention 层被使用，这有助于解码器把注意力集中在输入序列的合适位置。

我们先从HighLevel的角度观察一下Decoder结构，从下到上依次是

Masked Multi-Head Self-Attention
Multi-Head Encoder-Decoder Attention
FeedForward Network

和Encoder一样，上面三个部分的每一个部分，都有一个残差连接，后接一个 Layer Normalization。Decoder的中间部件并不复杂，大部分在前面Encoder里我们已经介绍过了，但是Decoder由于其特殊的功能，它必须有多的一层即Masked Multi-Head Self-Attention 具体原因请看下节介绍。

2.7 带Mask的多头注意力机制 Masked Multi-Head Self-Attention

具体来说，传统Seq2Seq中Decoder使用的是RNN模型，因此在训练过程中输入t 时刻的词，模型无论如何也看不到未来时刻的词，因为循环神经网络是时间驱动的，只有当t时刻运算结束了，才能看到t + 1时刻的词。而Transformer Decoder抛弃了RNN，改为Self-Attention，由此就产生了一个问题，在训练过程中，整个ground truth都暴露在Decoder中，这显然是不对的，我们需要对Decoder的输入进行一些处理，该处理被称为Mask，这样以便于在输出的时候，输出序列是一个单向的序列，每个输出的单词依靠前面的输出而不是依靠后面的输出。

如何实现上述功能呢，我们要先了解一下什么是掩码MASK？

2.7.1 MASK 掩码

Mask 表示掩码，它对某些值进行掩盖，使其在参数更新时不产生效果。Transformer 模型里面涉及两种 mask，分别是 Padding Mask 和 Sequence Mask。其中，Padding Mask 在所有的 scaled dot-product attention 里面都需要用到，而 Sequence Mask 只有在 Decoder 的 Self-Attention 里面用到。

Padding Mask
什么是 Padding mask 呢？因为每个批次输入序列的长度是不一样的，所以我们要对输入序列进行对齐。具体来说，就是在较短的序列后面填充 0（但是如果输入的序列太长，则是截断，把多余的直接舍弃）。因为这些填充的位置，其实是没有什么意义的，所以我们的 Attention 机制不应该把注意力放在这些位置上，所以我们需要进行一些处理。
具体的做法：把这些位置的值加上一个非常大的负数（负无穷），这样的话，经过 Softmax 后，这些位置的概率就会接近 0。
Sequence Mask
Sequence Mask 是为了使得 Decoder 不能看见未来的信息。也就是对于一个序列，在 t时刻，我们的解码输出应该只能依赖于 t 时刻之前的输出，而不能依赖 t 之后的输出。因为我们需要想一个办法，把 t 之后的信息给隐藏起来。
具体的做法：产生一个上三角矩阵，上三角的值全为 -∞。把这个矩阵作用在每个序列上，就可以达到我们的目的。

总的来说：对于 Decoder 的 Self-Attention，里面使用到的 scaled dot-product attention，同时需要 Padding Mask 和 Sequence Mask，具体实现就是两个 Mask 相加。其他情况下（比如Encoder的情况），只需要用到Padding Mask即可。

2.7.2 Masked Self-Attention

我们再来看一下具体它是如何实现的呢？

举个栗子，Decoder的ground truth为" I am fine"，我们将这个句子输入到Decoder中，经过WordEmbedding和Positional Encoding之后，将得到的矩阵做三次线性变换得到 $W _ { k } W _ { v } W _ { Q }$ 然后进行self-attention操作，首先通过 $\frac { Q \times K ^ { T } } { \sqrt { d _ { k } } }$ 得到Scaled Scores，接下来非常关键，我们要对Scaled Scores进行Mask，举个例子，当我们输入"I"时，模型目前仅知道包括"I"在内之前所有字的信息，即""和"I"的信息，不应该让其知道"I"之后词的信息。道理很简单，我们做预测的时候是按照顺序一个字一个字的预测，怎么能这个字都没预测完，就已经知道后面字的信息了呢？Mask非常简单，首先生成一个下三角全0，上三角全为负无穷的矩阵，然后将其与Scaled Scores相加即可。

具体过程如下图所示：

Transformer 中Cross attetion 交叉注意力:
其实这一部分的计算流程和前面Masked Self-Attention很相似，结构也一摸一样，唯一不同的是这里的K ，V为Encoder的输出，Q为Decoder中Masked Self-Attention的输出,Q K V的来源有所不同。因此也叫Cross attetion 交叉注意力。

2.8 线性 Linear 和 Softmax

到上一步为止，解码器的输出仍然是每个字或者单词对应的向量，而这个向量的维度在Transformer里面是是512，但是如何把这个向量转化为对应的字或者单词呢？那就需要一个线性层Linear和Softmax层来决定。

线性层是一个简单的全连接神经网络，其将解码器栈的输出向量映射到一个更长的向量，这个向量被称为 logits 向量。现在假设我们的模型有 1080个英文单词（模型的输出词汇表）。因此 logits 向量有 1080 个数字，每个数表示一个单词的分数。

然后，Softmax 层会把这些分数转换为概率（把所有的分数转换为正数，并且加起来等于 1）。最后选择最高概率所对应的单词，作为这个时间步的输出。

过程如图：

3 tensorflow实现中文版完形填空（基于掩蔽字训练）

基础概念差不多理解之后，我们可以利用Transformer做一个小项目来检测一下自己的掌握情况，毕竟实践出真知，实践是检验真理的唯一标准嘛，题目具体要求如下。

通俗地来讲就是做一个完形填空，给出一句话，随机MASK一个字或者单词，用上下文之间的关系推断出来这个位置应该是什么，和BERT模型的训练方法很相似.

3.1 导包，读入数据，准备前置工作

import os
import tensorflow as tf
from transformers import BertTokenizerFast, TFBertForMaskedLM, BertConfig
import numpy as np

# 判断是否有GPU
from tensorflow.python.client import device_lib

gpus = tf.config.list_physical_devices('GPU')
if gpus:
    try:
        for gpu in gpus:
            tf.config.experimental.set_memory_growth(gpu, True)
        # 有GPU配置正常，输出合理
        print("GPU is available.")
    except RuntimeError as e:
        # 没有GPU配置错误
        print(e)
# 在有无GPU的不同情况下设置不同的batchsize,因为二者训练的速度差别很大
if 'GPU' in str(device_lib.list_local_devices()):
    batch_size = 256
    epochs = 2*2
else:
    batch_size = 8*1
    epochs = 2

print("Batch size:", batch_size)
print("Epochs:", epochs)

3.2 读入数据

本次采用的数据是人民日报2022年一年所有的新闻如下图所示，但是数据对于训练这个模型不算富裕，想要训练得到更好的模型，可以自行网络爬虫寻找语料。

with open("D:\S\summary.txt", encoding="gb2312", errors='ignore') as f:
    text_lines = f.read().splitlines()

此时的len(text_lines) = 513586 意味着有这么多行的句子，但是每行的大小不一，还需要进行后续处理

3.3 创建 Bert tokenizer 和初始化训练集和标签

这一part的作用就是将上部分读入的句子处理为能训练使用的训练集和对应的标签。

tokenizer = BertTokenizerFast.from_pretrained('my_tokenizer')
# 创建训练集inputs和训练集labels的标签

inputs, labels = [], []
new_tokens = ['[BEGIN]', '[END]', '8M']   
num_new_tokens = tokenizer.add_tokens(new_tokens)   # 加入的一些特殊的token
for line in text_lines:
    line = "[BEGIN]" + line + "[END]"
    tokens = tokenizer.tokenize(line, max_length=128, truncation=True, padding='max_length')
    token_ids = tokenizer.convert_tokens_to_ids(tokens)
	# 将每句话加上开头[BEGIN] 和 结尾[END] 
    # 采用随机掩蔽方法训练数据，masked的范围是原句子line的15% 
    if len(line) < len(token_ids):
    	# 随机采样函数见下文
        masked_indices = np.random.choice(range(1, len(line)+1), size=int(len(line) * 0.15), replace=False)
    else:
        masked_indices = np.random.choice(range(1, len(token_ids)), size=int(len(token_ids) * 0.15), replace=False)
    # print(f"masked_indices: {masked_indices}")

    labels_line = [-100] * len(token_ids)  # 先全部设置为一个默认值
    for idx in masked_indices:
        labels_line[idx] = token_ids[idx] # 将被抽到的位置的label换成这个位置的真实字对应的值
        token_ids[idx] = tokenizer.mask_token_id #将原来被抽到的位置的原来的字的token换为mask来进行预测。
    inputs.append(token_ids)
    labels.append(labels_line)
# 最后转换成为    
inputs = tf.constant(inputs)
labels = tf.constant(labels)

BertTokenizerFast 是一个基于Bert模型的预训练模型的分词器。可以下载完保存到本地，然后

tokenizer = BertTokenizerFast.from_pretrained(bert_path,
                                              add_special_tokens=False,
                                              do_lower_case=True)

用上述方法加载到tokenizer里面后续可以使用其进行分词操作。具体操作可看tokenizer的使用

numpy.random.choice()函数的使用方法如下：

choice(a, size=None, replace=True, p=None):
各参数结解释

a :待抽样的样本（一维数组或整数）

size: 输出大小，默认返回单个元素

replace : 抽样后的元素是否可重复，默认是

p: 每个样本点被抽样的概率，默认均匀抽样

更为详细的请看此链接numpy的抽样函数

tf.constant()函数介绍和示例

tf.constant(value, shape, dtype=None, name=None)

value:值

shape:数据形状

dtype:数据类型

name:名称

3.4 创建和训练模型 Transformer核心实现代码

1 位置编码 Positional Encoding

编码原理过程详情见 1.3.2 Positional Encoding

# 位置编码
def positional_encoding(position, d_model):
    # 用于计算角度的函数
    def get_angles(pos, i, d_model):
        angle_rates = 1 / np.power(10000, (2 * (i//2)) / np.float32(d_model))
        return pos * angle_rates

    # 每个元素pos_encoding[i, j]代表着词i的位置j的编码
    angle_rads = get_angles(np.arange(position)[:, np.newaxis],
                            np.arange(d_model)[np.newaxis, :],
                            d_model)
  
    # sin给偶数索引（indices）上的角度编码
    angle_rads[:, 0::2] = np.sin(angle_rads[:, 0::2])
  
    angle_rads[:, 1::2] = np.cos(angle_rads[:, 1::2])
    
    pos_encoding = angle_rads[np.newaxis, ...]
    
    return tf.cast(pos_encoding, dtype=tf.float32)

2 缩放点积注意力

注意这里transpose_b=True是因为Q是与K的转置矩阵相乘，所以最后两维要交换位置。 transpose_b=True的含义

def scaled_dot_product_attention(q, k, v, mask):
    # query key 矩阵相乘获取匹配关系 有个小细节transpose_b=True是因为Q是与K的转置矩阵相乘
    matmul_qk = tf.matmul(q, k, transpose_b=True)

    dk = tf.cast(tf.shape(k)[-1], tf.float32)
    scaled_attention_logits = matmul_qk / tf.math.sqrt(dk)

    if mask is not None:
        scaled_attention_logits += (mask * -1e9)  
    # 通过softmax获取attention权重
    attention_weights = tf.nn.softmax(scaled_attention_logits, axis=-1)

    output = tf.matmul(attention_weights, v)

    return output, attention_weights

3 前向传播注意传播前后保持维度不变

def point_wise_feed_forward_network(d_model, dff):
    return tf.keras.Sequential([
        tf.keras.layers.Dense(dff, activation='relu'),
        tf.keras.layers.Dense(d_model)
        # 保证传播后的维度与原来仍然一致
    ])

4 多头注意力机制

class MultiHeadAttention(tf.keras.layers.Layer):
	# 定义类，初始化参数，和函数
    def __init__(self, d_model, num_heads):
        super(MultiHeadAttention, self).__init__()
        self.num_heads = num_heads
        self.d_model = d_model

        assert d_model % self.num_heads == 0

        self.depth = d_model // self.num_heads

        self.wq = tf.keras.layers.Dense(d_model)
        self.wk = tf.keras.layers.Dense(d_model)
        self.wv = tf.keras.layers.Dense(d_model)

        self.dense = tf.keras.layers.Dense(d_model)

    def split_heads(self, x, batch_size):
        x = tf.reshape(x, (batch_size, -1, self.num_heads, self.depth))
        return tf.transpose(x, perm=[0, 2, 1, 3])

    def call(self, v, k, q, mask=None):
    # 前向传播的过程
        batch_size = tf.shape(q)[0]
        # 设置q, k, v的维度
        q = self.wq(q)
        k = self.wk(k)
        v = self.wv(v)
        # 分拆q, k, v的维度
        q = self.split_heads(q, batch_size)
        k = self.split_heads(k, batch_size)
        v = self.split_heads(v, batch_size)

        scaled_attention, attention_weights = scaled_dot_product_attention(
            q, k, v, mask)
        # 将多头维度的输出合并
        scaled_attention = tf.transpose(scaled_attention, perm=[0, 2, 1, 3])

        concat_attention = tf.reshape(scaled_attention, 
                                      (batch_size, -1, self.d_model))

        output = self.dense(concat_attention)

        return output, attention_weights

5 一层编码器函数 Encoderlayer

class TransformerEncoderLayer(tf.keras.layers.Layer):
    def __init__(self, d_model, num_heads, dff, rate=0.1):
        super(TransformerEncoderLayer, self).__init__()
		'''
		mha ： MultiHeadAttention 多头注意力机制
		ffn :  point_wise_feed_forward_network 前馈神经网络
		'''
        self.mha = MultiHeadAttention(d_model, num_heads)
        self.ffn = point_wise_feed_forward_network(d_model, dff)

        self.layernorm1 = tf.keras.layers.LayerNormalization(epsilon=1e-6)
        self.layernorm2 = tf.keras.layers.LayerNormalization(epsilon=1e-6)

        self.dropout1 = tf.keras.layers.Dropout(rate)
        self.dropout2 = tf.keras.layers.Dropout(rate)

    def call(self, x, training, mask): 
        # 用multi-head attention
        attn_output, _ = self.mha(x, x, x, mask)  
        # size (batch_size, input_seq_len, d_model)
        attn_output = self.dropout1(attn_output, training=training)
        out1 = self.layernorm1(x + attn_output)  
        # 残差连接  size (batch_size, input_seq_len, d_model)
       
        ffn_output = self.ffn(out1)  
        #前馈网络，用于处理上面的输出维度相同 size (batch_size, input_seq_len, d_model)
        ffn_output = self.dropout2(ffn_output, training=training)
        out2 = self.layernorm2(out1 + ffn_output)  
        # 同上残差连接 (batch_size, input_seq_len, d_model)
        return out2

6 整个Encoder编码部分

可以实现自由选的编码器的层数，来适用不同的需求。

class TransformerEncoder(tf.keras.layers.Layer):
    def __init__(self, num_layers, d_model, num_heads, dff, input_vocab_size, maximum_position_encoding, rate=0.1):
        super(TransformerEncoder, self).__init__()

        self.d_model = d_model
        self.num_layers = num_layers
        # 词嵌入层
        self.embedding = tf.keras.layers.Embedding(input_vocab_size, d_model)
        self.pos_encoding = positional_encoding(maximum_position_encoding, 
                                                self.d_model)

        self.enc_layers = [TransformerEncoderLayer(d_model, num_heads, dff, rate) 
                           for _ in range(num_layers)]

        self.dropout = tf.keras.layers.Dropout(rate)
        
    def call(self, x, training, mask):
        seq_len = tf.shape(x)[1]

        # 添加词嵌入和位置编码
        x = self.embedding(x)  # (batch_size, input_seq_len, d_model)
        x *= tf.math.sqrt(tf.cast(self.d_model, tf.float32))
        x += self.pos_encoding[:, :seq_len, :]

        x = self.dropout(x, training=training)
		# 有几层  迭代几次 确定编码器的cengshu
        for i in range(self.num_layers):
            x = self.enc_layers[i](x, training, mask)

        return x  # (batch_size, input_seq_len, d_model)

6 根据需求定义自己的Transformer模型

class MyTransformerModel(tf.keras.Model):
    def __init__(self, num_layers, d_model, num_heads, dff, vocab_size, maximum_position_encoding, rate=0.1):
        super(MyTransformerModel, self).__init__()
        # 用于编码输入序列
        self.encoder = TransformerEncoder(num_layers, d_model, num_heads, dff, vocab_size, maximum_position_encoding, rate)
        
        self.final_layer = tf.keras.layers.Dense(vocab_size)

    def call(self, x, training=False, mask=None):
        enc_output = self.encoder(x, training, mask)  # (batch_size, inp_seq_len, d_model)
    
        final_output = self.final_layer(enc_output)  # (batch_size, inp_seq_len, vocab_size)

        return final_output

3.5 开始进行训练

1 自定义损失函数和学习率衰减函数

模型的回调函数: 便于保存模型的权重参数，选择最好的参数
mlm_loss : 自定义损失函数
lr_scheduler : 自定义学习率衰减函数

# 路径设置
model_dir = './transformer_model'

# 定义损失函数
def mlm_loss(y_true, y_pred):
    y_true_masked = tf.boolean_mask(y_true, tf.not_equal(y_true, -100))
    y_pred_masked = tf.boolean_mask(y_pred, tf.not_equal(y_true, -100))
    return tf.nn.sparse_softmax_cross_entropy_with_logits(y_true_masked, y_pred_masked)

# 定义学习率衰减函数
def lr_scheduler(epoch, lr):
    if epoch < 3:
        return lr  # 前5个epochs保持原始学习率
    else:
        return lr * math.exp(-0.1)  # 后续epochs按指数衰减

checkpoint_dir = f'./{model_dir}/checkpoints'
os.makedirs(checkpoint_dir, exist_ok=True)

# 设置保存模型的回调函数
checkpoint_callback = SaveLastThreeModelCheckpoint(
    filepath=os.path.join(checkpoint_dir, 'weights.{epoch:02d}.hdf5'),
    monitor='loss',
    verbose=1,
    save_best_only=True,
    save_weights_only=True,
    mode='auto',
    save_freq='epoch',
    period=1
)
# 定义学习率调度器回调函数
lr_scheduler_callback = LearningRateScheduler(lr_scheduler)

2 正式开始训练

设置优化器和 compile

# 路径设置
model_dir = './transformer_model3'
# 不存在，或存在但为空
if not os.path.exists(model_dir) or not os.listdir(model_dir):
    # 如果路径不存在，则进行训练

    # 加载模型
    model = MyTransformerModel(num_layers=2, d_model=512, num_heads=8, dff=1024, vocab_size=len(tokenizer)
                        , maximum_position_encoding=1000)

    # 定义优化器
    optimizer = Adam(learning_rate=1e-3)

    model.compile(optimizer=optimizer, loss=mlm_loss)

    checkpoint_dir = f'/{model_dir}/checkpoints'
    os.makedirs(checkpoint_dir, exist_ok=True)
    
    # 训练模型
    history = model.fit(dataset, epochs=5, callbacks=[checkpoint_callback, lr_scheduler_callback])

    # 保存模型
    model.save(os.path.join(model_dir, 'transformer_model'))
    # 保存tokenizer
    tokenizer.save_pretrained(model_dir)

else:
    # 如果路径存在，则加载已有模型
    model = tf.keras.models.load_model(os.path.join(model_dir, 'transformer_model'), 
                                          custom_objects={'mlm_loss': mlm_loss})
    print("Load model from", model_dir)

训练过程大概如下：

3.6 进行数据测试

mask_token_indices = tf.where(input_ids[0] == tokenizer.mask_token_id)

predicted_sentence = tokenizer.decode(input_ids[0])
predicted_sentence = predicted_sentence.replace("[CLS] ", "").replace(" [SEP]", "").replace(" [PAD]", "")
predicted_sentence = predicted_sentence.replace(" ", "")
print(predicted_sentence)

for mask_token_index in mask_token_indices:
    print(f"mask_token_index={mask_token_index}")
    outputs = model.predict(input_ids)
    predicted_token_index = tf.argmax(outputs[0, mask_token_index[0]]).numpy()

    mask_token_index_2d = tf.reshape(mask_token_index, [1, 1]) # 转换成2d tensor以符合tf.tensor_scatter_nd_update的输入要求
    predicted_token_index_1d = tf.reshape(predicted_token_index, [1]) # 转换成1d tensor以符合tf.tensor_scatter_nd_update的输入要求
    predicted_token_index_1d = tf.cast(predicted_token_index_1d, dtype=tf.int32) # 将类型从int64转换为int32

    input_ids = tf.tensor_scatter_nd_update(input_ids[0], mask_token_index_2d, predicted_token_index_1d)
    input_ids = tf.expand_dims(input_ids, 0) # 重新扩展维度以符合模型的输入要求

predicted_sentence = tokenizer.decode(input_ids[0])
predicted_sentence = predicted_sentence.replace("[CLS] ", "").replace(" [SEP]", "").replace(" [PAD]", "")
predicted_sentence = predicted_sentence.replace(" ", "")
print(predicted_sentence)

训练了20余次，最终loss在2左右，测试结果如下图所示

~~作者写到这里已经很累了hhhh，等我后续再慢慢完善。~~

4 参考文献

1. Transformer详解
2. Transformer 模型详解
3. transformer 细节理解
4. 基于Tensorflow 2.x手动复现BERT
5. Transformer的Embedding解析
6. LN和BN的不同之处
7. numpy的抽样函数
8. bert的预训练模型
9. 张量类型转换

你可能感兴趣的:(transformer,深度学习,人工智能)

【YOLOv8改进 - 检测头】 RT-DETR检测头，解决传统目标检测器中非极大值抑制（NMS）所带来的速度和准确性之间的平衡问题 YOLO大师 YOLO 人工智能论文阅读目标检测 yolov8
YOLO目标检测创新改进与实战案例专栏专栏目录：YOLO有效改进系列及项目实战目录包含卷积，主干注意力，检测头等创新机制以及各种目标检测分割项目实战案例专栏链接:YOLO基础解析+创新改进+实战案例介绍摘要YOLO系列因其在速度和准确性之间的合理平衡，已成为实时目标检测中最受欢迎的框架。然而，我们观察到YOLO的速度和准确性受到非极大值抑制（NMS）的负面影响。最近，基于Transformer的端
IGModel——提高基于 GNN与Attention 机制的方法在药物发现中的实用性 Jackie_AI 计算机视觉 stable diffusion 自然语言处理语言模型 Imagen
IGModel——提高基于GNN与Attention机制的方法在药物发现中的实用性导言深度学习在药物发现（发现治疗药物）领域的应用以及传统方法面临的挑战。药物（尤其是我们将在本文中讨论的被称为抑制剂的药物）通过与在人体中发挥不良功能的蛋白质结合并改变这些蛋白质的功能来发挥治疗效果。因此，在设计药物时，必须优化这些结合的亲和力和药理特性，并准确预测蛋白质与药物之间的相互作用。近年来，人们尤其提倡使用
【机器学习】多模态AI——融合多种数据源的智能系统 2的n次方_ 人工智能
随着人工智能的快速发展，单一模态（如文本、图像或语音）已经不能满足复杂任务的需求。多模态AI（MultimodalAI）通过结合多种数据源（如文本、图像、音频等）来提升模型的智能和表现，适用于多样化的应用场景，如自动驾驶、医疗诊断、跨语言翻译等。一、多模态AI简介多模态AI是一种将不同形式的数据（如文本、图像、音频等）融合在一起的技术，旨在让模型从多个维度感知和理解信息。这种融合使得AI系统能够从
Python OpenAI 库开发指南：从入门到实战精通 senger_lcc python 开发语言
在人工智能（AI）领域，OpenAI无疑是全球最受瞩目的机构之一。它推出的GPT系列模型、DALL·E等创新技术，正在深刻改变各行各业。作为Python开发者，我们该如何快速上手并高效利用OpenAI的API，成为了提升个人竞争力的关键。本文将带你从零开始，深入解析Python语言中的openAI库，助你掌握AI开发的核心工具，成为AI领域的专家。一、什么是openAI库？它能为开发者带来什么？1
LLama 架构一览 Debroon llama
LLama架构一览预训练Transformer架构RMSNorm归一化：为什么大模型llama选RMSNorm，而不是其他？SwiGLU激活函数：为什么大模型llama选SwiGLU激活函数，而不是其他？RoPE旋转位置编码：为什么大模型llama选RoPE旋转位置编码，而不是其他？GQA分组查询注意力：为什么大模型llama选GQA分组查询注意力，而不是其他？KVCache推理加速llama、l
Python3.13来了！编程爱好者必看 Python之栈人工智能 python 开发语言
Python3.13于近期发布，其中包含大量重要更新。Python作为机器学习、数据科学和人工智能领域使用最广泛的编程语言，一直在不断发展，以满足这些领域日益增长的需求。最新发布的Python3.13提供了多项具有影响力的改进，旨在提高性能和生产力，对于从事ML和AI项目的开发人员来说是一个重要的里程碑。Python在ML和AI领域的主导地位主要归功于它的简单性、广泛的库支持和庞大的社区。然而，随
基于YOLOv5、YOLOv8和YOLOv10的机场安检行李检测：深度学习应用与实现 2025年数学建模美赛 YOLO 深度学习人工智能目标跟踪目标检测
引言随着全球航空运输业的持续增长，机场的安全性变得越来越重要。机场安检作为航空安全的重要组成部分，主要负责对乘客和行李进行检查，防止危险物品进入机场或飞行器。传统的安检方式多依赖人工检查，效率低下且容易出错。因此，基于深度学习的自动化行李检测系统应运而生，通过计算机视觉技术，自动识别和分类行李中的物品，大大提高了安检的效率与准确性。YOLO（YouOnlyLookOnce）系列算法，由于其高效的目
人工智能之数学基础：一个小例子帮你快速搞懂极大线性无关向量组每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能线性代数机器学习极大线性无关向量组深度学习神经网络
本文重点在上一节课程中，我们学习了线性相关和线性无关。当线性相关的时候，那么说明这组向量至少存在一个向量可以被其它向量给表示，可以被表示就说明这个向量就是可有可无的，可以被替代的，这里就涉及到极大线性无关向量组的概念了，本文对此进行学习。极大无关向量组的定义与性质定义在线性空间中，如果存在一个向量组，它满足以下两个条件：一是它本身是线性无关的；二是向量空间中的任何包含它的向量组，如果仍然保持线性无
个人职业发展与AI赋能的前端开发前端
在瞬息万变的科技浪潮中，个人职业发展显得尤为重要。对于前端开发者而言，如何提升自身竞争力，适应日新月异的技术革新，是持续关注的核心问题。而近年来，人工智能（AI）技术的飞速发展，特别是AI代码生成器的兴起，正深刻地改变着前端开发的格局，为开发者们提供了前所未有的机遇。本文将以ScriptEcho为例，探讨AI技术如何赋能前端开发，助力个人职业发展。市场趋势与个人技能提升当前市场对前端开发人才的需求
代码重构的革命：AI代码生成器如何改变游戏规则前端
在软件开发的世界里，代码重构是一项既重要又艰巨的任务。繁琐的重复性工作、低下的效率以及难以避免的错误，常常让开发者们疲惫不堪。然而，随着人工智能技术的飞速发展，智能化代码重构的时代已经到来，而AI代码生成器正成为这场革命的核心驱动力。代码重构的挑战：一个开发者的心声传统的代码重构过程充满了挑战。想象一下，你需要将一个庞大的、混乱的代码库改造成模块化、易于维护的结构。这需要你花费大量的时间去理解现有
Python 3.13性能大提升：免费多线程时代来临敖行客 Allthinker python java 开发语言爬虫
在编程的世界里，Python一直以其简洁、易读和强大的功能而备受青睐。随着技术的不断进步，Python的每一个新版本都带来了新的惊喜和改进。而Python3.13无疑是其中的一颗璀璨明星。在一个数据驱动的世界里，Python已经成为了一种无处不在的编程语言，它的性能和功能的提升始终是开发者们关注的热点。随着大数据、人工智能、云计算等技术的飞速发展，对编程语言性能的要求也在不断提高。在这样的背景下，
深入理解GPT底层原理--从n-gram到RNN到LSTM/GRU到Transformer/GPT的进化网络安全研发随想 rnn gpt lstm
从简单的RNN到复杂的LSTM/GRU,再到引入注意力机制,研究者们一直在努力解决序列建模的核心问题。每一步的进展都为下一步的突破奠定了基础,最终孕育出了革命性的Transformer架构和GPT大模型。1.从n-gram到循环神经网络(RNN)的诞生1.1N-gram模型在深度学习兴起之前,处理序列数据主要依靠统计方法,如n-gram模型。N-gram是一种基于统计的语言模型,它的核心思想是:一
Transformer入门（1）transformer及其编码器-解码器通信仿真实验室 Google BERT 构建和训练NLP模型 bert transformer 人工智能 NLP 自然语言处理
文章目录1.Transformer简介2.Transformer的编码器-解码器架构3.transformer的编码器1.Transformer简介Transformer模型是一种用于自然语言处理的机器学习模型，它在2017年由Google的研究者提出，并在论文《AttentionisAllYouNeed》中详细描述。Transformer模型的核心创新在于其采用了自注意力（self-attent
深度学习理论基础（七）Transformer编码器和解码器小仇学长深度学习深度学习 transformer 人工智能编码器解码器
学习目录：深度学习理论基础（一）Python及Torch基础篇深度学习理论基础（二）深度神经网络DNN深度学习理论基础（三）封装数据集及手写数字识别深度学习理论基础（四）Parser命令行参数模块深度学习理论基础（五）卷积神经网络CNN深度学习理论基础（六）Transformer多头自注意力机制深度学习理论基础（七）Transformer编码器和解码器本文目录学习目录：前述：Transformer
transformer模型代码地瓜不是呱学习笔记 transformer 深度学习 pytorch
importnumpyasnpimporttorchimporttorch.nnasnnimporttorch.optimasoptimimportmatplotlib.pyplotaspltimportmathdefmake_batch(sentences):input_batch=[[src_vocab[n]forninsentences[0].split()]]output_batch=[[
细嗦Transformer（三）：准备训练，讲解及代码实现优化器、学习率调整策略、正则化和KL散度损失 Ace_bb 算法 LLM transformer
文章目录关注我：细嗦大模型批处理对象/BatchesandMasking训练循环主函数/TrainingLoop优化器/Optimizer学习率调整策略/Learningrateadjustmentstrategy样例测试正则化/RegularizationLabelsmoothing标签平滑KL散度损失样例测试Github完整代码----求求了给个star和关注吧参考资料求求了，给个star和关
Transformer架构原理详解：编码器（Encoder）和解码器（Decoder） AI大模型应用之禅 AI大模型与大数据 java python javascript kotlin golang 架构人工智能
Transformer,编码器,解码器,自注意力机制,多头注意力,位置编码,序列到序列,自然语言处理1.背景介绍近年来，深度学习在自然语言处理（NLP）领域取得了显著进展，其中Transformer架构扮演着至关重要的角色。自2017年谷歌发布了基于Transformer的机器翻译模型BERT以来，Transformer及其变体在各种NLP任务上取得了突破性的成果，例如文本分类、问答系统、文本摘要
【人工智能 | 大数据】基于人工智能的大数据分析方法用心去追梦人工智能大数据数据分析
基于人工智能（AI）的大数据分析方法是指利用机器学习、深度学习和其他AI技术来分析和处理大规模数据集。这些方法能够自动识别模式、提取有用信息，并做出预测或决策，从而帮助企业和组织更好地理解市场趋势、客户行为以及其他关键因素。以下是几种主要的基于AI的大数据分析方法：机器学习模型：通过训练算法让计算机从历史数据中学习并做出预测或分类。常见的机器学习技术包括监督学习（如回归分析、支持向量机）、非监督学
深度学习中超参数 fengbingchun Deep Learning hyperparameter
深度学习中的超参数(hyperparameters)是决定网络结构的变量(例如隐藏层数量)和决定网络训练方式的变量(例如学习率)。超参数的选择会显著影响训练模型所需的时间，也会影响模型的性能。超参数是在训练开始之前设置的，而不是从数据中学习的参数。超参数是模型训练期间无法学习的参数，需要事先设置。在深度学习中，模型由模型参数(如神经网络的权重和偏置)定义或表示。然而，训练模型的过程涉及选择最佳超参
基于MATLAB机器学习、深度学习实践技术应用梦想的初衷~ 机器学习人工智能 matlab 机器学习深度学习
近年来，MATLAB在机器学习和深度学习领域的发展取得了显著成就。其强大的计算能力和灵活的编程环境使其成为科研人员和工程师的首选工具。在无人驾驶汽车、医学影像智能诊疗、ImageNet竞赛等热门领域，MATLAB提供了丰富的算法库和工具箱，极大地推动了人工智能技术的应用和创新。原文链接https://mp.weixin.qq.com/s?__biz=Mzg2NDYxNjMyNA==&mid=224
深度求索DeepSeek V2.5-1210发布：AI代码生成器迎来全新升级前端
深度学习技术日新月异，而强大的AI代码生成器也随之不断进化。今天，我们将聚焦于深度求索团队发布的DeepSeekV2.5-1210版本，这款标志着DeepSeekV2系列收官之作，为我们带来了令人惊喜的Post-Training能力提升和备受期待的联网搜索功能。这篇文章将深入探讨DeepSeekV2.5-1210的各项改进，以及其开源带来的深远影响。DeepSeekV2系列的研发历程与V2.5-1
ChatGPT搜索漏洞：AI代码生成器安全隐患及应对策略前端
近年来，随着人工智能技术的飞速发展，各种AI代码生成器层出不穷，为程序员带来了极大的便利。然而，技术进步的同时也伴随着安全风险的提升。最近，OpenAI的ChatGPT搜索工具曝出重大安全漏洞，引发了业界广泛关注。本文将深入探讨该漏洞的细节、影响以及应对措施，并展望未来AI工具安全发展趋势。ChatGPT作为一款强大的AI工具，其搜索功能本意是帮助用户快速获取信息。然而，英国卫报近期报道揭露了Ch
深度学习学习笔记（第30周） qq_51339898 深度学习人工智能
一、摘要本周报的目的在于汇报第30周的学习成果，本周主要聚焦于基于深度学习的图像分割领域的常用模型U-net。 U-net是最常用、最简单的一种分割模型，在2015年被提出。UNet网络是一种用于图像分割的卷积神经网络，其特点是采用了U型网络结构，因此称为UNet。UNet算法的关键创新是在解码器中引入了跳跃连接（SkipConnections），即将编码器中的特征图与解码器中对应的特征图进行连接
深入解析如何进行TensorFlow框架下的算子开发与适配插件开发：基于昇腾AI的完整流程快撑死的鱼华为昇腾 Ascend C的算子开发系统学习人工智能 tensorflow python
深入解析如何进行TensorFlow框架下的算子开发与适配插件开发：基于昇腾AI的完整流程在人工智能领域中，算子（Operator）作为深度学习模型的基础执行单元，决定了整个模型的计算性能和结果准确性。随着硬件平台的多样化，如何将第三方深度学习框架中的算子适配到特定的硬件平台变得至关重要。本文将深入探讨如何在TensorFlow框架下开发适配昇腾AI处理器的算子插件，通过解析算子属性映射、数据排布
深入解析框架适配开发：基于CANN平台的自定义算子开发与第三方框架适配全流程详解快撑死的鱼华为昇腾 Ascend C的算子开发系统学习人工智能
深入解析框架适配开发：基于CANN平台的自定义算子开发与第三方框架适配全流程详解随着深度学习的发展，不同的深度学习框架如TensorFlow、PyTorch、ONNX等在AI开发者社区中占据了重要地位。然而，针对某些硬件平台（如华为昇腾AI处理器），算子库中的算子并非都已经适配了所有主流框架。为了解决这一问题，框架适配开发应运而生，它允许开发者将已存在于算子库中的算子适配到其他未支持的第三方框架上
深入解析CANN算子开发：TBE与AI CPU算子类型及其开发方法全指南快撑死的鱼华为昇腾 Ascend C的算子开发系统学习人工智能
深入解析CANN算子开发：TBE与AICPU算子类型及其开发方法全指南在现代AI计算领域中，高效的算子开发对于优化深度学习模型的推理与训练至关重要。CANN（ComputeArchitectureforNeuralNetworks）作为华为AscendAI处理器的开发平台，提供了两种类型的算子开发支持：TBE算子和AICPU算子。每种算子类型针对不同的计算任务和硬件架构，开发者需要根据具体场景选择
深度学习-90-大型语言模型LLM之基于LM Studio本地化部署运行自己的大模型皮皮冰燃深度学习深度学习语言模型人工智能
文章目录1LMStudio1.1LMStudio的优点1.2LMStudio的安装1.3配置国内下载模型2LMStudio的应用2.1查找/下载模型2.2模型名称的含义2.3查看已经下载的模型2.4使用聊天3配置服务端3.1启动服务3.2支持的接口3.2.1列出当前加载的模型/v1/models3.2.2聊天补全/v1/chat/completions3.2.3文本补全/v1/completion
Transformer 架构对比：Dense、MoE 与 Hybrid-MoE 的优劣分析 m0_74823683 面试学习路线阿里巴巴 transformer 架构深度学习
1.LLM基础架构类型DenseTransformerMoE(MixtureofExperts)TransformerHybrid-MoETransformer2.Transformer按照编码方式分类单向自回归模型(如早期GPT系列)双向模型(如BERT)编码器-解码器模型(如BART,T5)DenseTransformerDenseTransformer的优势是什么DenseTransform
Python从0到100（八十三）：神经网络-使用残差网络RESNET识别手写数字是Dream呀 python 神经网络网络
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
解锁辅助驾驶新境界：基于昇腾 AI 异构计算架构 CANN 的应用探秘倔强的石头_ AIGC 人工智能架构
博客主页：倔强的石头的CSDN主页Gitee主页：倔强的石头的gitee主页⏩文章专栏：《AI大模型》期待您的关注目录一、引言二、CANN是什么1.异构计算与人工智能的关系2.CANN的定义和作用3.CANN的技术优势三、基于CANN的辅助驾驶AI应用原理1.目标检测算法2.智能检测流程3.算力平台支持四、基于CANN的辅助驾驶AI优势1.高效训练2.精准检测3.快速编程4.产业应用五、部署实操六
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。

史上最详细Transformer讲解以及transformer实现中文版完形填空（掩蔽字训练MASK） 内容详细易懂且附有全部代码