cutercorley

小白总结Transformer模型要点

文章目录

前言
一、模型架构
- 0.背景知识
- 1.整体架构
- 2.Embedding和位置编码
- 3.多头注意力机制
- 4.残差连接
- 5.LayerNorm
- 6.Decoder
二、疑问汇总
三、模型实现
- 1.实现思路
- 2.实现过程
四、延伸学习
总结

参考：
（1）Transformer代码(源码)从零解读(Pytorch版本）：https://www.bilibili.com/video/BV1dR4y1E7aL
（2）Transformer原理及其PyTorch源码讲解：https://www.bilibili.com/video/BV1o44y1Y7cp
（3）Transformer模型六大细节难点的逐行实现：
https://www.bilibili.com/video/BV1cP4y1V7GFhttps://www.bilibili.com/video/BV1Qg411N74v
（4）Transformer模型总结及其loss代码实现：https://www.bilibili.com/video/BV1dh411s7FW

前言

本文主要总结了Transformer模型的要点，包含模型架构各部分组成和原理、常见问题汇总、模型具体实现和相关拓展学习。

一、模型架构

0.背景知识

seq2seq模型：

由Encoder和Decoder共同组成，之间由Attention机制来建立关联性。

可以分为3类：

CNN
- 权重共享（平移不变性、可并行计算）
- 滑动窗口（局部关联性建模）
- 对相对位置敏感、对绝对位置不敏感
RNN（依次有序递归建模）
- 对顺序敏感（当前的输入依赖于上一层的输出）
- 串行计算耗时
- 长程建模能力弱
- 单步计算复杂度不变，计算复杂度与序列长度呈线性关系
- 对相对位置和绝对位置都敏感
TRM
- 无局部假设（可并行计算，对相对位置不敏感）
- 无有序假设
  
  需要增加位置编码来反映位置变化对特征的影响；
  
  对绝对位置不敏感。
- 任意两字符均可建模
  
  擅长长短程建模；
  
  自注意力机制需要序列长度的平方级别复杂度。

1.整体架构

6个Encoder的结构相同，但不是完全相同，只是结构相同、参数不同，在训练时不是训练一个Encoder、再复制到6份，而是6个Encoder都独立训练，这与预训练模型ALBERT共享Transformer中的某些层的参数达到减少BERT参数量的目的是有所区别的；

6个Decoder的结构也相同，参数不同，与Encoder类似。

输入和输出的说明如下：

可以看到，有3个输入，解码端的真实标签，与解码端的输出计算损失，同时解码端是不能并行的，只能顺序执行，因为这一层解码器（当前时刻）的输入取决于（依赖于）上一层（上一时刻）的输出，因此真实标签与解码端的输入是错了一位的；

同时，在实际应用中，为了加快训练时的收敛速度，此时会使用到Teacher Forcing，即将真实标签与解码端原来的输入一起输入，为了不影响训练（即在训练当前单词时不看到后面的单词），此时就需要将当前单词后面的单词全部mask住，以达到更好的预测效果。更多关于Teacher Forcing，可以参考https://blog.csdn.net/qq_30219017/article/details/89090690。

实际计算中是将多个句子作为一个Batch来处理的，可以使用矩阵来加快计算，但是句子的长度可能不一致，此时超过最大长度的就被舍弃，不够最大长度的就用Padding填充字符来填充，在注意力层中将其置为-∞，避免其对其他词产生影响：

2.Embedding和位置编码

Encoder包含3部分：

输入部分
注意力机制
前馈神经网络

输入部分包含Embedding和位置嵌入（位置编码）。

Embedding：

使用随机初始化和word2vec都可以，具体可以根据实际使用到的情况选择；

Embedding由稀琉的one-hot进入一个不带bias的FFN得到一个稠密的连续向量，用来表征单词。

从RNN到位置编码：

RNN的结构天然与时序关系很符合，可以实现先处理某些数据、再处理另外的数据的效果。

（1）RNN的参数共享

RNN的U输入参数、W隐层参数和输出V是一套参数，对于所有的time step都共享一套参数，例如对于NLP任务来说，所有的单词都共用了这一套参数。

（2）RNN的梯度消失

不是因为连乘效应造成了梯度衰减，这里的梯度是梯度的和，其梯度消失不是指梯度逐渐趋近于0，而是总梯度被近距离梯度主导、被远距离梯度忽略不计。

更详细的关于RNN梯度消失的原因可参考https://blog.csdn.net/qq_28753373/article/details/103297994。

在TRM中：

实现了并行化，可以一起处理多个单词、而不是逐个地处理，这样可以加快处理速度，但是会忽略掉单词之间的相对位置信息，这时候就需要位置编码。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wKGspfzc-1654266200425)(image/image_h8VM501H7C.png)]

之所以选择sin/cos来表征位置编码，是因为：

每个位置都是固定的
对于不同的句子，相同位置的距离一致
泛化能力较强，可以推广到更长的句子

通过使用sin/cos，可以使得pe(pos+k)可以写成pe(pos)和pe(k)的线性组合。

将位置编码和嵌入相加（维度相同）：

绝对位置向量包含着相对位置信息：

原版的Transformer中因为线性变换，相对位置信息会在注意力机制中消失，具体解释可参考https://github.com/DA-southampton/NLP_ability/blob/master/深度学习自然语言处理/Transformer/原版Transformer的位置编码究竟有没有包含相对位置信息.md和《Transformer面试题答案解析》。

同时，虽然在注意力机制中会消除相对位置信息，但是由于残差连接的存在，因此位置编码表征的位置信息可以向更高的层传递（流入深层），因此位置信息是一直存在的，不会消失。

这里之所以选择正弦和余弦函数，是因为正余弦函数可以拆解，从而将以后时刻的位置表示为前面位置的线性组合，因此可以增加泛化能力。

具体实现位置编码时，有2种方式：

（1）将得到的PE矩阵直接与Word Embedding相加

（2）将得到的PE来构造Embedding，并对词语序列进行Embedding编码，得到位置的Embedding，再与Word Embedding相加。

3.多头注意力机制

Q、K、V是相对矩阵，softmax得到了相似度，是一个向量，最后乘V得到加权和向量。

获取Q、K、V的方法：

在使用W参数时，每一个Head有一套W参数，所有的输入都是用这套参数，多个Head就有多套W参数，一般就是8套不同的W参数；多头使得建模能力更强，表征空间更丰富；多头可以类比于CNN中的多通道卷积，来探索不同空间中的信息。

之所以在Q*K时要除以dk的平方根，是为了防止Q*K很大时，softmax反向传播时梯度很小，容易造成梯度消失的情况，之所以除的值是dk的平方根，是为了保证方差为1。具体解释可参考https://www.zhihu.com/question/339723385/answer/782509914和《Transformer面试题答案解析》。

计算相似度有3种方式：

点乘

得到的是一个向量在另一个向量上的长度，是一个标量，反映两个向量之间的相似度，两个向量越相似，点乘的结果也越大
MLP（多层网络）
cosine相似性

实际操作中通过矩阵（多个单词的embedding）来实现并行：

同时，在编码器端，Q、K、V是相同的，都是输入经过Embedding和位置编码得到的输出，即都是在EncoderLayer的输入；会使用线性Linear模型做映射，得到参数矩阵Wq、Wk、Wv。

在实际计算Q*K时，是相当于计算了一个句子中各个词之间的关联度，如下：

实际上，Q和K是两个相同的矩阵，左边极为Q与K的转置相乘的结果，可以看到，在计算一个词与句子中其他词的关联度时，也将Pad考虑了进来，但是实际上在进行softmax时不应该考虑Pad，此时就可以将Pad位置置为1，其他正常位置为0，以后在计算时就可以排除值为1的位置，消除pad带来的影响，具体就是使用了masked_fill_(mask, value)方法来实现用value填充tensor中与mask中值为1的位置相对应的元素，具体是将mask中为1的位置全部置为负无穷小、消除softmax时对其他词的影响。

这样效果好的原因是相当于将原始信息达到了多个空间，保证了Transformer可以注意到不同子空间的信息，捕捉到更多的特征信息。同时，不同的Head使用不同的参数，但是输入（Q、K、V）都是Embedding和PE的和，最终每个Head单独计算得到一个Attention。

最后合并多个Head的输出（attention向量），并进入一个FNN得到最终的向量：

整个过程的维度变换可以参考http://t.zoukankan.com/lijianming180-p-12366528.html。

4.残差连接

残差示意图如下：

链式求导如下：

梯度消失的原因一般是连乘造成的，但是从图中可以看到，因为前面加了1，即使连乘的数量再多、变为趋近于0，确保了红框中的值≥1，从而保证了梯度不会变为0，缓解了梯度消失的出发生，这也是在NLP任务中用到残差的网络可以使得网络很深的原因。

再想到RNN，一般很少有多个RNN叠在一起，一般就是单层RNN，或者双向LSTM，再复杂的就是ELMO（双层双向LSTM），训练已经很慢了，如果单纯用RNN想把模型做深难度很大。GNMT（谷歌神经机器翻译）更深，用了很多技巧加速训练。此时就可以用到残差，因为其可以缓解梯度消失，可以将模型做得更深。

阿里的RE2文本匹配模型使用了N-block的循环，用到了残差网络，因为block越多、模型越深，残差可以缓解梯度消失、保证模型可以做得更深，避免出现模型难以训练的情况。

关于RE2的更多信息，可参考https://zhuanlan.zhihu.com/p/78197267。

5.LayerNorm

在NLP中很少使用BN，基本都使用LN，因为BN的效果很差；

后续也有很多对BN的改进，以支持NLP任务。

特征缩放是为了消除量纲的影响，让模型收敛得更快。

BN是对一个Batch中的多个样本的同一维度的数据进行归一化处理，可以看作一个Batch中的所有样本的同一个特征（例如人的身高、体重等多个维度分别进行BN）。

BN优点：

可以解决内部协变量偏移；
缓解了梯度饱和问题（如果使用sigmoid激活函数的话)，加快收敛。

BN的缺点：

batch_size较小的时候，效果差

BN的假设是使用一个Batch中样本的均值和方差来模拟全部数据的均值和方差，此时如果Batch的数量很少时，就会出现假设偏差较大的情况。
BN在RNN中效果比较差

这一点和第一点原因很类似。

因为RNN的输入是动态的，即数据的长度可能不一样，因此不能有效地得到整个Batch的均值和方差。

LN是对一个样本的所有特征进行缩放，例如对一个句子样本的所有单词做缩放。

为什么使用LN、不使用BN：

可以看到，相比于BN，LN在NLP任务中更有意义，例如我和今具有不同的语义信息，而LN是对一个句子进行缩放，一个句子的所有词存在于同一个语义信息中，这样可以得到更容易理解的语义。

前馈神经网络：

同时，FFN也是只考虑对单个位置进行建模，不同位置之间共享参数，类似于1*1的pointwise的CNN。

6.Decoder

之所以要进行Mask遮挡：

没有遮挡

可以看到，所有单词都会为You这个单词提供信息。

但是通过这样的方式训练出来的模型，在预测阶段会出现问题，比如预测阶段的当前单词为You，并不知道ground truth中You后面的信息（单词）什么（这也就是预测的出发点），看不见未来时刻的单词；因此如果在训练时不遮挡掉后面的单词，则模型在训练和测试时就会存在gap。

有遮挡

在训练和测试时都遮挡掉当前单词后面的单词，从而消除了训练和测试的gap，保证了一致性。

遮挡可以直观地理解为：在进行翻译时，遮挡掉后面的单词，让人来翻译得到后面位置的单词，也就是通过训练得到答案，而不是直接给出答案。

同时需要注意，在进行Mask时，有2个地方需要分别考虑：

（1）自注意力层Mask Multi-Head Attention，有2部分需要进行Mask，一部分是解码端输入的Padding的 Mask，另一部分是当前单词后面的单词进行Mask（上三角矩阵）:

图示如下：

矩阵中，为1的位置是应该遮挡起来、看不到的。

（2）交互注意力层，只对编码端输出的Padding部分进行Mask：

Encoder的输入是K，将K中的Pad符号传给模型后面，同时忽略Decoder的Q中的Pad。

Encoder和Decoder之间的交互：

一个Encoder的输出与每一个Decoder进行交互：

更细致的过程如下：

二、疑问汇总

翻译链接：https://www.yiyibooks.cn/yiyibooks/Attention_Is_All_You_Need/index.html

1.常见的attention计算方法

可以参考https://zhuanlan.zhihu.com/p/113120800。

2.为什么正弦曲线可以支持处理大于语料库中最长序列长度的序列？

3.序列转导模型是什么？

序列转导就是任何将输入序列转换为输出序列的任务，也就是常说的seq2seq，先行应用包括语音识别、文本转语音、机器翻译、蛋白质二级结构预测。更多可参考https://www.isi.edu/~tg/posts/2021/05/nmt-generalization-n-challenges/和https://www.cs.toronto.edu/~graves/seq_trans_slides.pdf。

4.3个评价指标的理解？

对Transformer的深入理解和优化可参考https://zhuanlan.zhihu.com/p/380489239。

三、模型实现

1.实现思路

由整体到局部
理解数据的流动形状

上一个部分的输出是下一个部分的输入，数据的大小、形状和维度。

2.实现过程

参考：
https://nlp.seas.harvard.edu/2018/04/03/attention.htmlhttps://jozeelin.github.io/2019/10/21/The-Annotated-Transformer-Harvard/

2.Generator：

代码如下：

class Generator(nn.Module):
    '''
    定义标准线性+softmax生成步骤
    '''

    def __init__(self, d_model, vocab):
        super().__init__()
        self.proj = nn.Linear(d_model, vocab)

    def forward(self, x):
        return F.log_softmax(self.proj(x), dim=-1)

log_softmax(self.proj(x), dim=-1)中，dim为-1与列表类似，表示最后一个维度，例如tensor的维度为torch.Size([2, 3, 4, 5])时，经过dim为-1时，输出的结果变为torch.Size([2, 3, 4])维度。

更多可参考https://blog.csdn.net/twelve13/article/details/109552544。

3.LayerNorm

代码如下：

class LayerNorm(nn.Module):
    '''构建一个LayerForm模块'''

    def __init__(self, features, eps=1e-6):
        super().__init__()
        self.a_2 = nn.Parameter(torch.ones(features))
        self.b_2 = nn.Parameter(torch.zeros(features))
        self.eps = eps

    def forward(self, x):
        mean = x.mean(-1, keepdim=True)
        std = x.std(-1, keepdim=True)
        return self.a_2 * (x - mean) / (std + self.eps) + self.b_2

x.mean(-1, keepdim=True)中，keepdim=True表示要计算的维度保留，只不过这个维度的长度变为1，这里就是最后一个维度保留且为1，如果为keepdim=False（默认值），则表示去掉该维度。具体可参考https://blog.csdn.net/qq_36810398/article/details/104845401。

n.train

在训练时会报错，如下：

  File "E:\Anaconda3\envs\pytorchbase\Lib\site-packages\torch\nn\modules\module.py", line 1102, in _call_impl
    return forward_call(*input, **kwargs)
  File "E:\Anaconda3\envs\pytorchbase\Lib\site-packages\torch\nn\modules\sparse.py", line 158, in forward
    return F.embedding(
  File "E:\Anaconda3\envs\pytorchbase\Lib\site-packages\torch\nn\functional.py", line 2044, in embedding
    return torch.embedding(weight, input, padding_idx, scale_grad_by_freq, sparse)
IndexError: index out of range in self

这是因为num_embeddings（词典的词个数）不够大，进行词嵌入的时候字典从1, …, n，映射所有的词（或者字）num_embeddings =n是够用的，但是会考虑pad，pad默认一般是0，所以我们会重新处理一下映射字典0, 1, 2, …, n一共n+1个值，此时num_embeddings=n+1才够映射。更具体的说明和示例可参考https://blog.csdn.net/weixin_42912710/article/details/114479862。

四、延伸学习

1.残差连接

https://zhuanlan.zhihu.com/p/42706477。

2.KL散度

KL散度，即相对熵或信息散度，是两个概率分布间差异的非对称性度量。在信息论中，相对熵等价于两个概率分布的信息熵的差值，若其中一个概率分布为真实分布，另一个为理论（拟合）分布，则此时相对熵等于交叉熵与真实分布的信息熵之差，表示使用理论分布拟合真实分布时产生的信息损耗。公式为 $D_{K L}(p \| q)=\sum_{i=1}^{N}\left[p\left(x_{i}\right) \log p\left(x_{i}\right)-p\left(x_{i}\right) \log q\left(x_{i}\right)\right]$ 。更多可参考https://blog.csdn.net/weixinhum/article/details/85064685。

3.contiguous

contiguous方法用来保证Tensor在内存中的保存是连续的，如果Tensor不是连续的，则会重新开辟一块内存空间保证数据是在内存中是连续的，如果Tensor是连续的，则contiguous无操作。更多可参考https://zhuanlan.zhihu.com/p/64551412。

总结

Transformer模型是Seq2Seq类模型中一个跨时代的模型，是NLP经典之作，使用自注意力的机制代替了以前的LSTM，从而实现了效果和效率上的提升，并为后来的Bert等众多预训练模型奠定了基础，同时后来也逐渐在CV等众多领域大展拳脚，地位十分重要。

你可能感兴趣的:(NLP理论与实战,transformer,深度学习,人工智能,Seq2Seq)

Java SE高频面试题 _fengling java面试题 java
JavaSE面试题编程题：写一个Singleton(单例模式)示例要点几种常见的形式如下代码的运行结果运行步骤小结类初始化和实例初始化等1.类初始化过程2.实例初始化过程3.方法的重写此代码的执行结果方法的参数传递机制考点图解结果递归与迭代成员变量和局部变量考点局部变量与成员变量的区别当局部变量与xx变量重名时，如何区分结果编程题：写一个Singleton(单例模式)示例Singleton：在Ja
深入解析如何进行TensorFlow框架下的算子开发与适配插件开发：基于昇腾AI的完整流程快撑死的鱼华为昇腾 Ascend C的算子开发系统学习人工智能 tensorflow python
深入解析如何进行TensorFlow框架下的算子开发与适配插件开发：基于昇腾AI的完整流程在人工智能领域中，算子（Operator）作为深度学习模型的基础执行单元，决定了整个模型的计算性能和结果准确性。随着硬件平台的多样化，如何将第三方深度学习框架中的算子适配到特定的硬件平台变得至关重要。本文将深入探讨如何在TensorFlow框架下开发适配昇腾AI处理器的算子插件，通过解析算子属性映射、数据排布
深入解析框架适配开发：基于CANN平台的自定义算子开发与第三方框架适配全流程详解快撑死的鱼华为昇腾 Ascend C的算子开发系统学习人工智能
深入解析框架适配开发：基于CANN平台的自定义算子开发与第三方框架适配全流程详解随着深度学习的发展，不同的深度学习框架如TensorFlow、PyTorch、ONNX等在AI开发者社区中占据了重要地位。然而，针对某些硬件平台（如华为昇腾AI处理器），算子库中的算子并非都已经适配了所有主流框架。为了解决这一问题，框架适配开发应运而生，它允许开发者将已存在于算子库中的算子适配到其他未支持的第三方框架上
深入解析CANN算子开发：TBE与AI CPU算子类型及其开发方法全指南快撑死的鱼华为昇腾 Ascend C的算子开发系统学习人工智能
深入解析CANN算子开发：TBE与AICPU算子类型及其开发方法全指南在现代AI计算领域中，高效的算子开发对于优化深度学习模型的推理与训练至关重要。CANN（ComputeArchitectureforNeuralNetworks）作为华为AscendAI处理器的开发平台，提供了两种类型的算子开发支持：TBE算子和AICPU算子。每种算子类型针对不同的计算任务和硬件架构，开发者需要根据具体场景选择
hive-04-Hive函数大全九师兄大数据-hive hive 函数
一、关系运算：1.等值比较:=语法：A=B操作类型：所有基本类型描述:如果表达式A与表达式B相等，则为TRUE；否则为FALSE举例：hive>select1fromlxw_dualwhere1=1;12.不等值比较:B
深度学习-90-大型语言模型LLM之基于LM Studio本地化部署运行自己的大模型皮皮冰燃深度学习深度学习语言模型人工智能
文章目录1LMStudio1.1LMStudio的优点1.2LMStudio的安装1.3配置国内下载模型2LMStudio的应用2.1查找/下载模型2.2模型名称的含义2.3查看已经下载的模型2.4使用聊天3配置服务端3.1启动服务3.2支持的接口3.2.1列出当前加载的模型/v1/models3.2.2聊天补全/v1/chat/completions3.2.3文本补全/v1/completion
Transformer 架构对比：Dense、MoE 与 Hybrid-MoE 的优劣分析 m0_74823683 面试学习路线阿里巴巴 transformer 架构深度学习
1.LLM基础架构类型DenseTransformerMoE(MixtureofExperts)TransformerHybrid-MoETransformer2.Transformer按照编码方式分类单向自回归模型(如早期GPT系列)双向模型(如BERT)编码器-解码器模型(如BART,T5)DenseTransformerDenseTransformer的优势是什么DenseTransform
Web前端学习重点笔记 HeHolly 前端学习笔记
第一章：Web前端开发技术综述第二章：HTML基础第三章：格式化文本与段落标记：标题字标记：大——小字体标记：水平线标记：段落缩进标记：默认5个字符位置拼音标记：何(he)原样显示标记：特殊符号：显示结果说明符号代码空格 >大于号>加粗倾斜删除线下划线上标下标加粗倾斜变小字号变大字号第四章：列表有序列表……type="1(默认)|A|a|i|I"无序列表……type="disc(默
Oracle 数据库中的内容加密与解密 dbms_crypto 软猫克鲁 SQL相关 SQL Oracle oracle 解密加密数据库
Oracle数据库中的内容加密与解密说起来Oracle中有很多涉及加密解密的东西，今天说的这个是dbms_crypto。有没有遇到过这样的应用场景，需要将一些敏感数据字段脱敏之后发送给下游。之后下游处理完其他数据之后会携带这个脱敏字段再发回给你，你再用这些敏感信息还原出原始的值匹配更新原来的数据。最近我就遇到了。找了一下，Oracle还真有类似的包：dbms_crypto，使用这个包需要管理员登录
深度挖掘：Oracle RAC数据库架构分析与实战攻略拟声的主扬专题数据库 oracle rac 性能优化网络备份
深度挖掘：OracleRAC数据库架构分析与实战攻略本书内容从集群概念入手，深入RAC原理和结构进行分析，结合存储和网络传输知识，全面讲解小机集群数据库RAC的安装示例，探讨RAC的管理和维护，详述备份恢复，并从故障诊断方法展开，细说性能优化的几个方面，再到Oracle最高可用架构的延伸。对其内容详细阅读
数据结构与算法再探（五）贪心-双指针-滑动窗口刀客123 数据结构与算法算法
贪心算法贪心算法是一种常用的算法设计策略，旨在通过局部最优选择来构建全局最优解。它的基本思想是：在每一步选择中，都选择当前看起来最优的选项，而不考虑后续的影响。贪心算法通常用于解决最优化问题，尤其是在某些特定条件下能够得到全局最优解的问题1、分发饼干455.分发饼干-力扣（LeetCode）假设你是一位很棒的家长，想要给你的孩子们一些小饼干。但是，每个孩子最多只能给一块饼干。对每个孩子i，都有一个
npm与Node.js不兼容导致显示npm does not support Node.js v20.12.0 ding_yan_wei_ node.js npm 前端
刚开始先下了npm，然后才下了Node.js,发现两者是需要配套的，然后npm，Node.js要删也各种费劲，就找到了nvminstall10.5.0（后面是node版本），后面输入npm-v和node-v显示的版本就配套了
C++面试知识点总结 Ivy_belief 面试必备 c++面试开发语言
目录1、面向对象（OO）编程的基本原则：SOLID原则2、面向对象四大基本特性3、重载与覆盖的区别4、谈一下虚函数；4.1为什么析构函数是虚函数？4.2而构造函数不能为虚函数？5、四种强制转换6、C++11新特性7、C++14新特性：在C++11基础上做了小改动8、C++17新特性：9、指针和引用：面向对象编程思想（OOP）1、面向对象（OO）编程的基本原则：SOLID原则（1）单一职责原则；S：
在 Sui 上释放物理数字化的潜力 Sui_Network Sui 科普文章人工智能大数据智能合约区块链物联网
物理数字融合（Phygital）代表着物理世界与数字体验的结合。它在现实世界中的有形物品与Web3的无限可能性之间架起了一座桥梁，提供了人们与产品、活动和品牌互动的新方式。无论是通过NFT解锁独家商品，还是通过实物引导到个性化的数字体验，Phygital的创新正在重塑我们与技术和彼此互动的方式。Sui的动态NFT可以根据预定的事件改变外观，这显著提升了Phygital体验。Sui上的NFT能够代表
Sui Bridge激励计划更新，一周后结束 Sui_Network Sui 重要公告 web3 大数据区块链网络云计算
SuiBridge的激励测试网阶段将于7月8日结束，这是最后一周参与的机会。在这一关键阶段，社区反馈和全面测试对于确保SuiBridge在主网上线时的顺利运行至关重要。为了确保你的操作符合奖励条件，请确保遵守以下要求：完成完整的桥接循环，从以太坊转移到Sui，再从Sui转回以太坊。仅通过官方的SuiBridge前端发起桥接交易。对于提供反馈的人，请确保你的Sui地址与Discord上的反馈相关联。
企业 CRM 选购指南：深度解析 Salesforce 和 HubSpot 功能优势数字化转型2025 CRM 人工智能
1.CRM系统概述1.1定义与作用客户关系管理（CRM）系统是一种集成化的软件解决方案，旨在帮助企业高效管理与客户的关系和互动。它通过收集、存储和分析客户数据，提供全面的客户视图，从而优化销售、营销和服务流程。CRM系统的主要作用包括：提升客户满意度：通过个性化的客户互动和服务，增强客户体验，进而提高客户忠诚度。优化销售流程：自动化销售线索管理、商机跟踪和报价生成等环节，提高销售效率和转化率。增强
三轴云台之跟随模式篇 SKYDROID云卓小助手算法网络人工智能计算机视觉深度学习
一、定义与原理定义：跟随模式是三轴云台的一种工作模式，在此模式下，云台能够跟随用户的操作或预设的路径进行平滑的移动和拍摄。原理：跟随模式的实现依赖于云台的传感器、电机控制系统和算法。云台通过内置的传感器感知用户的操作或预设路径，然后通过电机控制系统调整云台的角度和位置，以实现跟随效果。算法则用于优化云台的移动路径和速度，以确保拍摄的稳定性和流畅性。二、功能特点平滑跟随：在跟随模式下，云台能够平滑地
NumPy学习第十课：一文通俗了解NumPy中的数学函数 HappyAcmen Numpy基础知识学习 numpy 学习 python pycharm 开发语言
前言导读在前面NumPy的学习过程当中，我们知道NumPy库是一个特别擅长处理大型矩阵或者说存储大型数据的这么一个库，与Python自身相比较在处理数据的时候更加的高效，所以我们在数学中常见到的计算函数，NumPy库中基本上也都已经涵盖了。而且已经封装好了很多的函数，我们在实际的使用过程当中，只需要引入NumPy库，并调用相应的函数方法就可以了，非常的便捷。这一节我们就先来了解了解NumPy中的数
第四章：信息系统架构（4.1架构基础-4.2系统架构） HappyAcmen 系统集成项目管理工程师第三版系统架构架构
一、架构基础架构的本质是决策，是在权衡方向、结构、关系以及原则各方面因素后进行的决策。4.1.4总体架构框架为架构设计提供了一张路线图。信息系统体系架构总体参考框架由四个部分组成，即战略系统、业务系统、应用系统和信息基础设施。这四个部分相互关联，并构成与管理金字塔相一致的层次战略系统：由两部分构成：其一是以信息技术为基础的高层决策支持系统,其二是组织的战略规划体系应用系统：指信息系统中的应用软件部
关于sklearn.svm.SVC与.NuSVC的区别以及参数介绍 _Magic 机器学习实战 with python
0.区别SVC与NuSVC是类似的方法，但是接受稍微不同的参数集合并具有不同的数学公式，并且NuSVC可以使用参数来控制支持向量的个数,以下代码默认的是多分类1.SVC#coding:utf-8fromsklearnimportsvmfromnumpyimport*X=array([[0],[1],[2],[3]])y=array([0,1,2,3])clf=svm.SVC()clf.fit(X,
设计Xnorgate FPGA同或门 CodeWG fpga开发 matlab
设计XnorgateFPGA同或门同或门是一种基本的逻辑门电路，它的输出与输入相反当且仅当所有输入都相同。在这篇文章中，我们将会介绍如何使用FPGA实现Xnorgate同或门电路。首先，我们需要了解FPGA(FieldProgrammableGateArray)是一种可编程的数字逻辑芯片，它可以通过编程来实现各种数字逻辑电路。在本文中，我们将使用Altera公司的QuartusII软件来进行FPG
题解：洛谷 P1351 [NOIP2014 提高组] 联合权值网络骑士hrg. 算法深度优先 c++经验分享
题目https://www.luogu.com.cn/problem/P1351我们可以发现，若点对的距离为，则它们一定会经过一个中转点，因此我们考虑枚举中转点，然后枚举与有直接边连接的两个点，按照题意统计答案即可。#includeusingnamespacestd;#pragmaG++optimisze(3,"Ofast","inline")#defineintlonglongconstintm
2024年CSDN年度回顾：个人成长、创作历程与生活的融合与平衡 IT枫斗者 JAVA基础工作中实际总结编程学习生活 java
2024年CSDN年度回顾：个人成长、创作历程与生活的融合与平衡时光荏苒，转眼间2024年已悄然落幕。这一年，我在CSDN平台上度过了169天，创作了264篇原创文章，收获了9976位粉丝的喜爱与支持。回顾这一年，不仅是我在技术领域的成长与突破，更是我个人生活与博客事业深度融合的一年。在这篇总结中，我将从个人成长与突破、年度创作历程回顾、以及个人生活与博客事业的融合与平衡三个方面，盘点这一年的点滴
BerSoft公司收入增长分析从以前 python python
问题描述Petya是Berland公司BerSoft的公关经理，他需要制作一份关于公司自2001年以来收入增长的报告。在报告中，Petya想展示一个“完美”的线性增长模式，即每年收入比前一年增长1个亿。例如，2001年收入为1亿，2002年为2亿，以此类推。但由于真实收入数据与完美模式有所差异，Petya决定忽略一些数据，保留一个收入增长符合完美模式的最长子序列。具体要求如下：给定一个包含公司各年
Python 爱心代码实现动态爱心图案展示从以前 python python
引言在Python中，我们可以利用tkinter库来创建有趣的图形界面，本文将为大家分享一段使用tkinter库绘制动态爱心图案的代码，并详细介绍其实现逻辑与运行方法。一、代码功能概述这段Python代码借助tkinter库创建了一个窗口，在该窗口中能够绘制出一个动态的爱心图案，效果十分美观，接下来我们一起看看代码的具体内容。二、代码详解（一）导入必要的库和模块importrandomfromma
java面试合集之SE 牛马baby java
java中的自动包箱和拆箱是什么在Java中，“自动包箱”（Auto-boxing）和"自动拆箱"（Auto-unboxing）是与基本数据类型和其对应的包装类之间的转换相关的概念。让我们来详细解释一下这两个概念：自动包箱（Auto-boxing）自动包箱是Java编译器自动进行的操作，它将基本数据类型（如int、double等）自动转换为它们对应的包装类对象（如Integer、Double等）。
【C++项目实战】类和对象入门实践：日期类实现万字详解倔强的石头_ C++项目实战 c++
博客主页：倔强的石头的CSDN主页Gitee主页：倔强的石头的gitee主页⏩文章专栏：《C++项目实战》期待您的关注目录引言介绍一、类的设计二、成员函数的实现构造函数、析构函数、拷贝构造函数和赋值运算符重载友元函数：重载>>和#includeusingnamespacestd;classDate{public://友元函数声明friendostream&operator>(istream&in,
Spring AI提示词模板PromptTemplate的使用大龄码农有梦想 AI人工智能 spring 人工智能 PromptTemplate Prompt提示词提示词模板 Spring AI
本文重点介绍Prompt提示词和PromptTemplate提示词模板，在SpringAI框架里，Prompt类的设计旨在简化与LLM之间的交互过程，同时提供了足够的灵活性来满足不同类型的对话需求。通过合理利用Prompt及其内部的消息结构，开发者可以有效地引导LLM生成高质量的回答，提升用户体验。1、SpringBoot集成SpringAI框架如何基于Springboot集成SpringAI框架
Python从0到100（八十三）：神经网络-使用残差网络RESNET识别手写数字是Dream呀 python 神经网络网络
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
解锁辅助驾驶新境界：基于昇腾 AI 异构计算架构 CANN 的应用探秘倔强的石头_ AIGC 人工智能架构
博客主页：倔强的石头的CSDN主页Gitee主页：倔强的石头的gitee主页⏩文章专栏：《AI大模型》期待您的关注目录一、引言二、CANN是什么1.异构计算与人工智能的关系2.CANN的定义和作用3.CANN的技术优势三、基于CANN的辅助驾驶AI应用原理1.目标检测算法2.智能检测流程3.算力平台支持四、基于CANN的辅助驾驶AI优势1.高效训练2.精准检测3.快速编程4.产业应用五、部署实操六
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache