v_JULY_v

ChatGLM2-6B的通透解析：从FlashAttention、Multi-Query Attention到GLM2的微调、源码解读

前言

第一部分相比第一代的改进点：FlashAttention与Multi-Query Attention

第二部分 FlashAttention：减少内存访问提升计算速度——更长上下文的关键

2.1 FlashAttention相关的背景知识

2.1.1 Transformer计算复杂度：编辑——Self-Attention层与MLP层

2.1.1.1 Self-Attention层的计算复杂度：

2.1.1.2 MLP层的计算复杂度：

2.1.2 Transformer的空间复杂度：编辑——Self-Attention层与MLP层

2.1.2.1 Self-Attention块的中间激活：

2.1.2.2 MLP块的中间激活：

2.1.2.3 两个layer norm需要保存的中间激活：

2.1.3 分析GPU的内存分析图：计算的瓶颈是显存访问

2.1.4 safe softmax

2.2 前向传递：Standard Attention/Memory-efficient Attention/Flash Attention

2.2.1 Standard Attention

2.2.2 Memory-efficient Attention：把显存复杂度从平方降低到线性，但HBM访问次数仍是平方

2.2.3 Flash Attention：避免频繁地从HBM中读写数据

第三部分多查询注意力(Muti Query Attention)：各自Query矩阵，但共享Key 和 Value 矩阵

3.1 Multi-Head Attention、Grouped-Query Attention、Muti Query Attention的区别

3.2 MHA 和 MQA在代码实现上的差异

第四部分模型的使用/部署、微调

4.1 模型的使用/部署

4.2 基于 P-Tuning v2 的微调(官方

前言

本文最初和第一代ChatGLM-6B的内容汇总在一块，但为了阐述清楚FlashAttention、Multi-Query Attention等相关的原理，以及GLM2的微调、源码解读等内容，导致之前那篇文章越写越长，故特把ChatGLM2相关的内容独立抽取出来成本文

且本文会和本博客内其他大模型相关的文章一样，极其注重可读性，比如为了不断提高可读性，本文近期会不断反复修改，细抠标题的层级、措辞，甚至排版、标点符号，如果不通俗易懂，宁愿不写

第一部分相比第一代的改进点：FlashAttention与Multi-Query Attention

ChatGLM2-6B(GitHub项目地址、HuggingFace地址)是开源中英双语对话模型 ChatGLM-6B 的第二代版本，相比第一代，第二点引入了如下新特性：

数据集上
经过了 1.4T 中英标识符的预训练与人类偏好对齐训练
更长的上下文
基于 FlashAttention 技术，将基座模型的上下文长度(Context Length)由 ChatGLM-6B 的 2K 扩展到了 32K，并在对话阶段使用 8K 的上下文长度训练，允许更多轮次的对话
(当前版本的 ChatGLM2-6B 对单轮超长文档的理解能力有限，会在后续迭代升级中着重进行优化)
更高效的推理
基于 Multi-Query Attention 技术，ChatGLM2-6B 有更高效的推理速度和更低的显存占用：在官方的模型实现下，推理速度相比初代提升了 42%，INT4 量化下，6G 显存支持的对话长度由 1K 提升到了 8K
模型架构上变成了decoder only的架构
chatglm还是encoder架构，但是到了chatglm2 变成了decoder only的架构(这点很少有资料会提及到)，何以见得呢？
如七月黄老师所说，chatglm2仓库的modeling用了新版pytorch的这个函数：context_layer
context_layer 这个函数实现了attention机制的计算，入参 is_causal=True 表示遮后看前的mask(这种类型的注意力通常用在transformer的decoder部分，以确保当前位置只能关注到之前的位置，俗称“看不见未来”，从而使模型可以进行自回归预测 )
允许商业使用
准确性不足
尽管模型在训练的各个阶段都尽力确保数据的合规性和准确性，但由于 ChatGLM2-6B 模型规模较小，且模型受概率随机性因素影响，无法保证输出内容的准确性，且模型易被误导

第二部分 FlashAttention：减少内存访问提升计算速度——更长上下文的关键

FlashAttention是斯坦福联合纽约州立大学在22年6月份提出的一种具有 IO 感知，且兼具快速、内存高效的新型注意力算法「对应论文为：FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness，这是其GitHub地址，这是其解读之一，该解读也是本第二部分的重要参考之一」

它要解决一个什么样的问题呢？

首先，GPT3、LLaMA、ChatGLM、BLOOM等大语言模型输入输出的最大序列长度只有2048或4096，扩展到更长序列的难度在哪里呢？本质原因是，transformer模型的计算复杂度和空间复杂度都是的，其中为序列长度

2.1 FlashAttention相关的背景知识

2.1.1 Transformer计算复杂度： $l *\left(24 b N h^{2}+4 b N^{2} h\right)$ ——Self-Attention层与MLP层

当输入批次大小为，序列长度为时，
层transformer模型的计算量为 $l *\left(24 b N h^{2}+4 b N^{2} h\right)$ ，是隐藏层维度通常等于词向量维度，可能不少同学都会疑问这个计算量是怎么一步一步计算得来的，下面详细拆解下这个计算过程

首先，我们知道，transformer模型由个相同的层组成，每个层分为两部分：self-attention块和MLP块

2.1.1.1 Self-Attention层的计算复杂度：

self-attention层的模型参数有两部分，一部分是、、的权重矩阵、、和偏置，另一部分是输出权重矩阵和偏置，最终为

具体怎么计算得来的呢？

第一步是计算、、
即 $Q=x W_{Q}, K=x W_{K}, V=x W_{V}$
该矩阵乘法的输入和输出形状为 $[b, N, h] \times[h, h] \rightarrow[b, N, h]$
计算量为： $3 * 2 b N h^{2}=6 b N h^{2}$ 

计算
该部分的输入和输出形状为
$\left[b, h e a d \_n u m, l, p e r \_h e a d \_h i d d e n \_s i z e\right]$ $\times$ $\left[b, h e a d \_n u m, p e r \_h e a d \_h i d d e n \_s i z e\right. , N] \rightarrow\left[b, h e a d \_n u m, N, l\right]$
计算量为：

计算在上的加权 $score \cdot V$
该部分矩阵乘法的输入和输出形状为
$\left[b, h e a d \_n u m, l, l\right] \times\left[b, h e a d \_n u m, l, p e r \_h e a d \_h i d d e n \_s i z e\right]$ $\rightarrow\left[b, h e a d \_n u m, N, p e r \_h e a d \_h i d d e n \_s i z e\right]$
计算量为：

attention后的线性映射，矩阵乘法的输入和输出形状为 $[b, N, h] \times[h, h] \rightarrow[b, N, h]$
计算量为

最终自注意力层的输出结果为
$x_{o u t}=\operatorname{softmax}\left(\frac{Q K^{T}}{\sqrt{h}}\right) \cdot V \cdot W_{o}+x$

2.1.1.2 MLP层的计算复杂度：

MLP块由2个线性层组成，最终是

怎么计算得来的呢？

一般地，第一个线性层是，第二个线性层再将维度从映射到
$x=f_{\text {gelu }}\left(x_{\text {out }} W_{1}\right) W_{2}+x_{\text {out }}$

第一个线性层的权重矩阵的形状为，相当于先将维度从映射到，矩阵乘法的输入和输出形状为 $[b, N, h] \times[h, 4 h] \rightarrow[b, N, 4 h]$ ，计算量为 
第二个线性层的权重矩阵的形状为，相当于再将维度从映射到，矩阵乘法的输入和输出形状为 $[b, N, 4 h] \times[4 h, h] \rightarrow[b, N, h]$ ，计算量为 

将上述所有表粗所示的计算量相加，得到每个transformer层的计算量大约为
$24 b N h^{2}+4 b N^{2} h$

此外，另一个计算量的大头是logits的计算(毕竟词嵌入矩阵的参数量也较多)，将隐藏向量映射为词表大小，说白了，词向量维度通常等于隐藏层维度，词嵌入矩阵的参数量为，最后的输出层的权重矩阵通常与词嵌入矩阵是参数共享的「解释一下，如七月杜老师所说，这个是transformer中一个重要的点，参数共享可以减小参数量，词嵌入矩阵是[vocab_size，hidden_size]，输出层矩阵是 [hidden_size，vocab_size]，是可以共享的」
其矩阵乘法的输入和输出形状为 $[b, N, h] \times[h, V] \rightarrow[b, N, V]$ ，计算量为

因此，对于一个层的transformer模型，输入数据形状为的情况下，一次训练迭代的计算量为
$l *\left(24 b N h^{2}+4 b N^{2} h\right)+2 b N h V$

2.1.2 Transformer的空间复杂度： $l *\left(34 b N h+5 b N^{2} a\right)$ ——Self-Attention层与MLP层

中间激活的显存大小为 $l *\left(34 b N h+5 b N^{2} a\right)$ ，其中为注意力头数

大模型在训练过程中通常采用混合精度训练，中间激活值一般是float16或者bfloat16数据类型的。在分析中间激活的显存占用时，假设中间激活值是以float16或bfloat16数据格式来保存的，每个元素占了2个bytes。唯一例外的是，dropout操作的mask矩阵，每个元素只占1个bytes。在下面的分析中，单位是bytes，而不是元素个数。

每个transformer层包含了一个self-attention块和MLP块，并分别对应了一个layer normalization连接。

2.1.2.1 Self-Attention块的中间激活： $11 b N h+5 b N^{2} a$

self-attention块的计算公式如下：

$Q=x W_{Q}, K=x W_{K}, V=x W_{V}$
$x_{o u t}=\operatorname{softmax}\left(\frac{Q K^{T}}{\sqrt{h}}\right) \cdot V \cdot W_{o}+x$

最终，self-attention块的中间激活占用显存大小为： $11 b N h+5 b N^{2} a$

具体怎么计算得来的呢？

对于，需要保存它们共同的输入，这就是中间激活。输入的形状为，元素个数为，占用显存大小为

对于 $Q K^{T}$ 矩阵乘法，需要保存中间激活，两个张量的形状都是，占用显存大小合计为

对于 $\text { softmax () }$ 函数，需要保存函数的输入 $Q K^{T}$ ，占用显存大小为 $2 b N^{2} a$ ，这里的表示注意力头数
$\text { score }=\operatorname{softmax}\left(\frac{Q K^{T}}{\sqrt{d_{k}}}\right)$

其中
的形状为： $\left[b, h e a d \_n u m, N, p e r \_h e a d \_h i d d e n \_s i z e\right]$
$K^{T}$ 的形状为： $\left[b, h e a d \_n u m, p e r \_h e a d \_h i d d e n \_s i z e, N\right]$
$Q K^{T}$ 的形状为： $\left[b, h e a d \_n u m, N, N\right]$ ，元素个数为 $b N^{2} a$ ，占用显存大小为 $2 b N^{2} a$

计算完 $\text { softmax () }$ 函数后，会进行dropout操作。需要保存一个mask矩阵，mask矩阵的形状与 $Q K^{T}$ 相同，占用显存大小为 $b N^{2} a$

计算在上的attention，即 $\text { score } \cdot V$ ，需要保存 $\text { score }$ ，大小为 $2 b N^{2} a$ ；以及，大小为，二者占用显存大小合计为 $2 b N^{2} a+2 b N h$

计算输出映射以及一个dropout操作。输入映射需要保存其输入，大小为；dropout需要保存mask矩阵，大小为 $\text { bsh }$ ，二者占用显存大小合计为

因此，将上述中间激活相加得到，self-attention块的中间激活占用显存大小为 $11 b N h+5 b N^{2} a$

2.1.2.2 MLP块的中间激活：

MLP块的计算公式如下： $x=f_{\text {gelu }}\left(x_{\text {out }} W_{1}\right) W_{2}+x_{\text {out }}$ ，最终对于MLP块，需要保存的中间激活值为

具体怎么计算得来的呢？

第一个线性层需要保存其输入，占用显存大小为

激活函数需要保存其输入，占用显存大小为

第二个线性层需要保存其输入，占用显存大小为

最后有一个dropout操作，需要保存mask矩阵，占用显存大小为 $\text { bNh }$

2.1.2.3 两个layer norm需要保存的中间激活：

另外，self-attention块和MLP块分别对应了一个layer normalization。每个layer norm需要保存其输入，大小为，2个layer norm需要保存的中间激活为

综上，每个transformer层需要保存的中间激活占用显存大小为 $34 b N h+5 b N^{2} a$

对于层transformer模型，还有embedding层、最后的输出层。embedding层不需要中间激活。总的而言，当隐藏维度比较大，层数较深时，这部分的中间激活是很少的，可以忽略

因此，对于层transformer模型，中间激活占用的显存大小可以近似为 $\left(34 b N h+5 b N^{2} a\right) * l$ 「更多分析见此文《分析transformer模型的参数量、计算量、中间激活、KV cache》」

通过上面两小节的内容，可以看到，transformer模型的计算量和储存复杂度随着序列长度 呈二次方增长。这限制了大语言模型的最大序列长度的大小

其次，GPT4将最大序列长度扩大到了32K，Claude更是将最大序列长度扩大到了100K，这些工作一定采用了一些优化方法来降低原生transformer的复杂度，那具体怎么优化呢？
我们知道，每个transformer层分为两部分：self-attention块和MLP块，但上面计算量中的项和中间激活中的项都是self-attention块产生的，与MLP块无关

如此，FlashAttention提出了一种加速计算、节省显存和IO感知的精确注意力，可以有效地缓解上述问题

Meta推出的开源大模型LLaMA，阿联酋推出的开源大模型Falcon都使用了Flash Attention来加速计算和节省显存。目前，Flash Attention已经集成到了pytorch2.0中，另外triton、xformer等开源框架也进行了整合实现

2.1.3 分析GPU的内存分析图：计算的瓶颈是显存访问

通过上文可知，transformer的核心组件self-attention块的计算复杂度和空间复杂度是序列长度的二次方

对于self-attention块，除了大矩阵乘法是计算受限的，其他操作(计算softmax、dropout、mask）都是内存受限的。
尽管已经有许多近似注意力的方法尝试减少attention的计算和内存要求。例如，稀疏近似和低秩近似的方法，将计算复杂度降低到了序列长度的线性或亚线性
但这些近似注意力方法方法并没有得到广泛应用。因为这些方法过于关注FLOPs(浮点数计算次数)的减少，而忽略了IO读写的内存访问开销，导致这并没有效减少运行时间(wall-clock time)
总之，在现代GPU中，计算速度已经远超过了显存访问速度，transformer中的大部分计算操作的瓶颈是显存访问。对于显存受限的操作，IO感知是非常重要的，因为显存读写占用了大部分的运行时间
而Flash Attention则是IO感知的，通过减少内存访问，来计算精确注意力，从而减少运行时间，实现计算加速

GPU的内存由多个不同大小和不同读写速度的内存组成。内存越小，读写速度越快。对于A100-40GB来说，内存分级图如下所示

SRAM内存分布在108个流式多处理器上，每个处理器的大小为192K。合计为
高带宽内存HBM（High Bandwidth Memory），也就是我们常说的显存，大小为40GB。SRAM的读写速度为19TB/s，而HBM的读写速度只有1.5TB/s，不到SRAM的1/10

所以，上面讲到计算注意力的主要瓶颈是显存访问，因此减少对HBM的读写次数，有效利用更高速的SRAM来进行计算是非常重要的，而GPU有大量的线程来执行某个操作，称为kernel。GPU执行操作的典型方式分为三步：

每个kernel将输入数据从低速的HBM中加载到高速的SRAM中
在SRAM中，进行计算
计算完毕后，将计算结果从SRAM中写入到HBM中

而对于性能受限于内存带宽的操作，进行加速的常用方式就是kernel融合。kernel融合的基本思想是：避免反复执行“从HBM中读取输入数据，SRAM执行计算，最后将计算结果写入到HBM中”，将多个操作融合成一个操作，减少读写HBM的次数(需要注意的是，模型训练通常会影响到算子融合的效果，因为为了后向传递计算梯度，通常需要将某些中间结果写入到HBM中)

2.1.4 safe softmax

继续行文之前，先补充两个背景知识，一个是safe softmax，一个是Standard Attention

对于第一个背景知识：safe softmax而言

考虑到向量 $\left[x_{1}, x_{2}, \cdots, x_{d}\right]$ ，原生softmax的计算过程如下：
$\operatorname{softmax}\left(x_{i}\right)=\frac{e^{x_{i}}}{\sum_{j=1}^{d} e^{x_{j}}}$
在实际硬件中，浮点数表示的范围是有限的
对于float32和bfloat16来说，当 $x \geq 89$ 时，就会变成inf，发生数据上溢的问题
故为了避免发生数值溢出的问题，保证数值稳定性，计算时通常会“减去最大值”，称为“safe softmax”

即现在所有的深度学习框架中都采用了“safe softmax”这种计算方式
$m=\max _{i}\left(x_{i}\right) ; \quad \operatorname{softmax}\left(x_{i}\right)=\frac{e^{x_{i}-m}}{\sum_{j=1}^{d} e^{x_{j}-m}}$
在训练语言模型时，通常会采用交叉熵损失函数。交叉熵损失函数等价于先执行log_softmax函数，再计算负对数似然函数
且在计算log_softmax时，同样会执行“减去最大值”，这不仅可以避免数值溢出，提高数值稳定性，还可以加快计算速度
$\log \left(\operatorname{softmax}\left(x_{i}\right)\right)=\log \left(\frac{e^{x_{i}-m}}{\sum_{j=1}^{d} e^{x_{j}-m}}\right)=x_{i}-m-\log \left(\sum_{j=1}^{d} e^{x_{j}-m}\right)$

2.2 前向传递：Standard Attention/Memory-efficient Attention/Flash Attention

2.2.1 Standard Attention

首先，transformer中注意力机制的计算过程为：
$\operatorname{Attention}(Q, K, V)=\operatorname{softmax}\left(\frac{Q K^{\top}}{\sqrt{d}}\right) V$
其中， $Q, K, V \in R^{N \times d}$ ，其中是序列长度，是每个注意力头的维度，输出可以记为 $O \in R^{N \times d}$
上面的式子可以拆解为：
$S=Q K^{\top} \in R^{N \times N}, P=\operatorname{softmax}(S) \in R^{N \times N}, O=P V \in R^{N \times d}$
在标准注意力实现中， $S, P \in R^{N \times N}$ 都要写回到HBM中，占用了 $O\left(N^{2}\right)$ 的内存，通常 $N \gg d$
例如，对于GPT2，，；对于GPT3，，

总之，注意力矩阵需要的内存 $O\left(N^{2}\right)$ 远大于所需要的内存
相当于，self-attention中，大部分操作都是内存受限的逐点运算，例如，对的mask操作、的softmax操作、对的dropout操作，这些逐点操作的性能是受限于内存带宽的，会减慢运行时间
下图展示了标准注意力的实现过程

标准注意力实现存在两个问题：
1. 显存占用多，过程中由于实例化了完整的注意力矩阵 $P, S \in R^{N \times N}$ ，导致了 $O\left(N^{2}\right)$ 的内存要求
2. HBM读写次数多，减慢了运行时间(wall- clock time)

接下来的Memory-efficient Attention、Flash Attention，便是要分别解决上述这两个问题

2.2.2 Memory-efficient Attention：把显存复杂度从平方降低到线性，但HBM访问次数仍是平方

在注意力计算过程中，节省显存的主要挑战是softmax与的列是耦合的。其方法是单独计算softmax的归一化因子，来实现解耦

为了简化分析，忽略计算softmax时“减去最大值”的步骤
记的第列为 $q_{i} \in R^{d}$ ，的第列为 $K_{j} \in R^{d}$ ，有 $S_{i j}=q_{i}^{\top} k_{j} \in R$
定义softmax的归一化因子为：
$L_{i}=\sum_{j} e^{q_{i}^{\top} k_{j}} \in R$
记 $v_{j} \in R^{d}$ 为的第个列向量，则输出的第个列向量为：
$o_{i}=P_{i:} V=\sum_{j} P_{i j} v_{j}=\sum_{j} \frac{e^{q_{i}^{\top} k_{j}}}{L_{i}} v_{j}$
在计算得到归一化因子后，就可以通过反复累加 $\frac{e^{q_{i}^{\top} k_{j}}}{L_{i}} v_{j}$ 来得到

如此，节省内存(memory-efficient)的注意力机制，改变了计算顺序，相比于Standard Attention，节省显存的注意力机制将显存复杂度从降低到了

这种方法在《Online normalizer calculation for softmax》和《Self-attention Does Not Need $O\left(n^{2}\right)$ Memory》中已经使用过，称其为“lazy softmax”，这种方法避免了实例化完整的注意力矩阵，从而达到了节省显存的目的。然而HBM访问次数仍然是的，因此运行时间并没有减少

2.2.3 Flash Attention：避免频繁地从HBM中读写数据

// 待更..

第三部分多查询注意力(Muti Query Attention)：各自Query矩阵，但共享Key 和 Value 矩阵

多查询注意力(Muti Query Attention)是 19 年Google一研究者提出的一种新的 Attention 机制(对应论文为：Fast Transformer Decoding: One Write-Head is All You Need、这是其解读之一)，其能够在保证模型效果的同时加快 decoder 生成 token 的速度

3.1 Multi-Head Attention、Grouped-Query Attention、Muti Query Attention的区别

那其与17年 Google提出的transformer中多头注意力机制(简称MHA)有啥本质区别呢？有意思的是，区别在于：

我们知道MHA的每个头都各自有一份不同的Key、Query、Value矩阵
而MQA 让所有的头之间共享同一份 Key 和 Value 矩阵，每个头只单独保留了一份 Query 参数，从而大大减少 Key 和 Value 矩阵的参数量
总之，MQA 实际上是将 head 中的 key 和 value 矩阵抽出来单独存为一份共享参数，而 query 则是依旧保留在原来的 head 中，每个 head 有一份自己独有的 query 参数

下图对比了多头注意力(Multi-Head Attention)、LLaMA2中分组查询注意力(Grouped-Query Attention)、多查询注意力(Muti Query Attention)的差别

3.2 MHA 和 MQA在代码实现上的差异

总之，MHA 和 MQA 之间的区别只在于建立 Wqkv Layer 上

# Multi Head Attention
self.Wqkv = nn.Linear(                        # 【关键】Multi-Head Attention 的创建方法
    self.d_model, 
    3 * self.d_model,                         # 有 query, key, value 3 个矩阵, 所以是 3 * d_model
    device=device
)

query, key, value = qkv.chunk(                # 【关键】每个 tensor 都是 (1, 512, 768)
    3, 
    dim=2
)


# Multi Query Attention
self.Wqkv = nn.Linear(                                # 【关键】Multi-Query Attention 的创建方法
    d_model,
    d_model + 2 * self.head_dim,                      # 只创建 query 的 head 向量，所以只有 1 个 d_model
    device=device,                                    # 而 key 和 value 不再具备单独的头向量
)

query, key, value = qkv.split(                        # query -> (1, 512, 768)
    [self.d_model, self.head_dim, self.head_dim],     # key   -> (1, 512, 96)
    dim=2                                             # value -> (1, 512, 96)
)

对比上面的代码，你可以发现

在 MHA 中，query, key, value 每个向量均有 768 维度
而在 MQA 中，只有 query 是 768 维，而 key 和 value 均只剩下 96 维了，恰好是 1 个 head_dim 的维度

因此，可以确认：在 MQA 中，除了 query 向量还保存着 8 个头，key 和 value 向量都只剩 1 个「公共头」了，这也正好印证了论文中所说的「所有 head 之间共享一份 key 和 value 的参数」

剩下的问题就是如何将这 1 份参数同时让 8 个头都使用，代码里使用矩阵乘法 matmul 来广播，使得每个头都乘以这同一个 tensor，以此来实现参数共享：

def scaled_multihead_dot_product_attention(
        query,
        key,
        value,
        n_heads,
        multiquery=False,
    ):
    q = rearrange(query, 'b s (h d) -> b h s d', h=n_heads)         # (1, 512, 768) -> (1, 8, 512, 96)
    kv_n_heads = 1 if multiquery else n_heads
    k = rearrange(key, 'b s (h d) -> b h d s', h=kv_n_heads)        # (1, 512, 768) -> (1, 8, 96, 512) if not multiquery 
                                                                    # (1, 512, 96) -> (1, 1, 96, 512)  if multiquery
    v = rearrange(value, 'b s (h d) -> b h s d', h=kv_n_heads)      # (1, 512, 768) -> (1, 8, 512, 96) if not multiquery 
                                                                    # (1, 512, 96) -> (1, 1, 512, 96)  if multiquery
    
    attn_weight = q.matmul(k) * softmax_scale                       # (1, 8, 512, 512)
    attn_weight = torch.softmax(attn_weight, dim=-1)                # (1, 8, 512, 512)

    out = attn_weight.matmul(v)                                     # (1, 8, 512, 512) * (1, 1, 512, 96) = (1, 8, 512, 96)
    out = rearrange(out, 'b h s d -> b s (h d)')                    # (1, 512, 768)

    return out, attn_weight, past_key_value

第四部分模型的使用/部署、微调

4.1 模型的使用/部署

首先需要下载本仓库：

git clone https://github.com/THUDM/ChatGLM2-6B
cd ChatGLM2-6B

然后使用 pip 安装依赖：
```
pip install -r requirements.txt
```
其中 transformers 库版本推荐为 4.30.2，torch 推荐使用 2.0 及以上的版本，以获得最佳的推理性能
代码调用
可以通过如下代码调用 ChatGLM2-6B 模型来生成对话：
```
>>> from transformers import AutoTokenizer, AutoModel
>>> tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm2-6b", trust_remote_code=True)
>>> model = AutoModel.from_pretrained("THUDM/chatglm2-6b", trust_remote_code=True, device='cuda')
>>> model = model.eval()
>>> response, history = model.chat(tokenizer, "你好", history=[])
>>> print(response)
```
你好!我是人工智能助手 ChatGLM2-6B,很高兴见到你,欢迎问我任何问题。
```
>>> response, history = model.chat(tokenizer, "晚上睡不着应该怎么办", history=history)
>>> print(response)
```
晚上睡不着可能会让你感到焦虑或不舒服,但以下是一些可以帮助你入睡的方法:
1. 制定规律的睡眠时间表:保持规律的睡眠时间表可以帮助你建立健康的睡眠习惯,使你更容易入睡。尽量在每天的相同时间上床,并在同一时间起床。
2. 创造一个舒适的睡眠环境:确保睡眠环境舒适,安静,黑暗且温度适宜。可以使用舒适的床上用品,并保持房间通风。
3. 放松身心:在睡前做些放松的活动,例如泡个热水澡,听些轻柔的音乐,阅读一些有趣的书籍等,有助于缓解紧张和焦虑,使你更容易入睡。
4. 避免饮用含有咖啡因的饮料:咖啡因是一种刺激性物质,会影响你的睡眠质量。尽量避免在睡前饮用含有咖啡因的饮料,例如咖啡,茶和可乐。
5. 避免在床上做与睡眠无关的事情:在床上做些与睡眠无关的事情,例如看电影,玩游戏或工作等,可能会干扰你的睡眠。
6. 尝试呼吸技巧:深呼吸是一种放松技巧,可以帮助你缓解紧张和焦虑,使你更容易入睡。试着慢慢吸气,保持几秒钟,然后缓慢呼气。

如果这些方法无法帮助你入睡,你可以考虑咨询医生或睡眠专家,寻求进一步的建议

从本地加载模型

以上代码会由 transformers 自动下载模型实现和参数

完整的模型实现在 Hugging Face Hub。如果你的网络环境较差，下载模型参数可能会花费较长时间甚至失败。此时可以先将模型下载到本地，然后从本地加载。

从 Hugging Face Hub 下载模型需要先安装Git LFS，然后运行
git clone https://huggingface.co/THUDM/chatglm2-6b
如果你从 Hugging Face Hub 上下载 checkpoint 的速度较慢，可以只下载模型实现

GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/THUDM/chatglm2-6b

然后从这里手动下载模型参数文件，并将下载的文件替换到本地的 chatglm2-6b 目录下

将模型下载到本地之后，将以上代码中的 THUDM/chatglm2-6b 替换为你本地的 chatglm2-6b 文件夹的路径，即可从本地加载模型。

模型的实现仍然处在变动中。如果希望固定使用的模型实现以保证兼容性，可以在 from_pretrained 的调用中增加 revision="v1.0" 参数。v1.0 是当前最新的版本号，完整的版本列表参见 Change Log

最后，可以通过以下命令启动基于 Gradio 的网页版 demo：

python web_demo.py

4.2 基于 P-Tuning v2 的微调(官方)

P-Tuning v2 将需要微调的参数量减少到原来的 0.1%，再通过模型量化、Gradient Checkpoint 等方法，最低只需要 7GB 显存即可运行(当然，我司杜老师也会在七月类ChatGPT微调实战课上录一个ChatGLM2-6B的微调视频)

环境配置
在原chatglm-6b的环境中安装以下依赖
pip install rouge_chinese nltk jieba datasets

微调数据准备
ADGEN 数据集任务为根据输入（content）生成一段广告词（summary）

{ “content”: “类型#上衣版型#宽松版型#显瘦图案#线条衣样式#衬衫衣袖型#泡泡袖衣款式#抽绳”, “summary”:
“这件衬衫的款式非常的宽松，利落的线条可以很好的隐藏身材上的小缺点，穿在身上有着很好的显瘦效果。领口装饰了一个可爱的抽绳，漂亮的绳结展现出了十足的个性，配合时尚的泡泡袖型，尽显女性甜美可爱的气息。”
}

从 Google Drive 或者 Tsinghua Cloud 下载处理好的 ADGEN 数据集，将解压后的 AdvertiseGen 目录放到本 ptuning 目录下即可

微调
修改train.sh文件
去掉最后的 --quantization_bit 4（去掉后为FP16 精度加载）
修改模型路径，THUDM/chatglm-6b修改为/data/sim_chatgpt/chatglm2-6b
目前专业级GPU Tesla P100也不支持INT4或8量化

执行train.sh文件
```
bash train.sh
```
如遇报错：
wandb.errors.UsageError: api_key not configured (no-tty). call wandb.login(k…
解决方法：
在main.py文件中加入下面两行，禁用wandb即可
import os
os.environ["WANDB_DISABLED"] = "true"
其中，train.sh 中的 PRE_SEQ_LEN 和 LR 分别是 soft prompt 长度和训练的学习率，可以进行调节以取得最佳的效果。

微调过程显存使用情况如下：

微调完成后，在./output/adgen-chatglm2-6b-pt-128-2e-2 下回生成微调好的模型文件。

我们可以对比下微调前后的效果
以命令行 Demo为例，只需修改ptuning路径下web_demo.sh中的模型路径为/data/sim_chatgpt/chatglm2-6b，运行 web_demo.py即可：

bash web_demo.sh

Input:
类型#上衣材质#牛仔布颜色#白色风格#简约图案#刺绣衣样式#外套衣款式#破洞
Label:
简约而不简单的牛仔外套,白色的衣身十分百搭。衣身多处有做旧破洞设计,打破单调乏味,增加一丝造型看点。衣身后背处有趣味刺绣装饰,丰富层次感,彰显别样时尚。

Output[微调前]：

Output[微调后]：

// 待更

你可能感兴趣的:(论文,代码,实战,ChatGLM2-6B,FlashAttention,Multi-Query注意力)

PyQt6基础_pyqtgraph_横向柱状图程序猿与金融与科技 PyQt6基础 PyQt6 pyqtgraph
效果：效果图显示的是2025Q1申万行业1，各行业的总资产柱状图代码：#-*-coding:utf-8-*-importnumpyasnpfromPyQt6.QtGuiimport(QColor)fromPyQt6.QtWidgetsimport(QApplication)importpyqtgraphaspgclassGraphHorizonalBarWidget(pg.PlotWidget):
python排序算法之桶排序华强笔记 python数据结构和算法 python 算法
桶排序主要适用于全是数字的列表排序代码如下：defbuckrt_sort(li,n=100,max_num=10000):bucket=[[]for_inrange(n)]
使用C#对象将WinRiver项目文件进行复杂的XML序列化和反序列化实例详解中游鱼 C#序列化和反序列化 MMT c#xml 序列化和反序列化属性的序列化和反序列化完整序列化 ADCP和WinRiver
使用C#对象将WinRiver项目文件进行XML序列化和反序列化的实例详解一、序列化和反序列化的目的二、WinRiver的项目MMT文件架构示例三、以WinRiver为对象进行C#代码编程3.1声明WinRiver对象3.2声明Project对象3.3声明Site_Information对象3.4声明Site_Discharge对象3.5声明QA_QC、Collect_Data、DisplaySe
PyQt6基础_pyqtgraph_双Y轴不同周期数据叠加程序猿与金融与科技 PyQt6基础 PyQt6 pyqtgraph
效果：双Y轴，左轴对应曲线总市值；右轴对应柱状图总营收。市值数据为月数据，营收数据为季度数据，两者时间区间一致。代码：#-*-coding:utf-8-*-importpandasaspdimportnumpyasnpfromPyQt6.QtWidgetsimport(QApplication)importpyqtgraphaspgclassStrAxisItem(pg.AxisItem):def
程序是如何生成的-以c语言为例
一，序言从代码到能跑的程序，整个过程就像“把外文翻译成母语，再组装成能直接用的东西”，一步步来更清楚：源代码（程序员写的代码，如C语言文件）↓预处理（处理#开头的命令，如#include、#define）↓编译（把预处理后的代码转成汇编语言）↓汇编（把汇编语言转成二进制机器码，生成目标文件，如main.o）↓链接（合并多个目标文件和库文件，解决函数/变量地址问题）↓可执行文件（生成能直接运行的文件
【无标题】
PyQt5相关论文方向扩充及技术特性解析PyQt5的核心优势PyQt5作为基于Qt框架的Python绑定库，在科研与工程应用中具备显著优势。其跨平台兼容性极强，可在Windows、macOS、Linux等主流操作系统上稳定运行，且能保持界面风格的一致性，这对开发多场景应用系统至关重要。在界面设计方面，PyQt5提供了丰富的UI组件库，从基础的按钮、文本框到高级的图表、3D控件应有尽有，同时支持Qt
Matlab学习笔记：矩阵基础
MATLAB学习笔记：矩阵基础作为MATLAB的核心，矩阵是处理数据的基础工具。矩阵本质上是一个二维数组，由行和列组成，用于存储和操作数值数据。在本节中，我将详细讲解矩阵的所有知识点，包括创建、索引、运算、函数等，确保内容通俗易懂。我会在关键地方添加MATLAB代码示例，帮助你直观理解。最后，我会总结本课重点，并引出下一节“逻辑基础”的内容。一、什么是矩阵？在MATLAB中，矩阵是一个二维数组，元
ROS个人笔记
写在前面：由于个人原因距离上次学习ROS已经过去了2周时间，本以为时间不算长，但还是忘记了好多。因此写下这篇笔记，主要是记录学习过程中的概念性问题，程序代码可能会写，但是不是主要。1.ROS是什么：是一个生态系统，首先他是一个操作系统。统筹各种资源如通信，开发等。2.在以往开发时一旦工程庞大起来往往会对数据流通的耦合十分苦恼，因此ROS提供的通信方式为松耦合式的：节点Node。另外大工程时的另外一
Java 实现 TCP 多发多收通信程序小陈永不服输 java 开发语言 tcp/ip 网络网络协议
在网络通信中，TCP协议的可靠传输特性使其在需要持续交互的场景中被广泛应用。本文将围绕一段实现TCP多发多收功能的Java代码，详细解析其实现原理、运行流程及技术特点，帮助开发者深入理解TCP持续通信的实现方式。核心代码展示以下是实现TCP多发多收通信的完整代码，包含客户端与服务器端两个部分：客户端（Client）代码packagecom.practical.agreement.tcp.tcp_2
抽象文档模式 hello 早上好设计模式开发语言 java
抽象文档模式在软件开发中，我们经常需要处理半结构化数据（如JSON、XML、文档数据库中的文档）。这类数据的特点是结构灵活，可能存在嵌套关系，且字段可能动态变化。传统的面向对象设计可能需要为每种数据结构定义大量类，导致代码冗余和维护困难。这时候，抽象文档模式（AbstractDocumentPattern）就能派上用场。本文将通过一个完整的Java案例，详细讲解抽象文档模式的实现原理、设计思路和实
apache ignite系列（二）：配置 weixin_30521161
ignite有两种配置方式，一种是基于XML文件的配置，一种是基于JAVA代码的配置：这里将ignite常用的配置集中罗列出来了，一般建议使用xml配置。1，基于XML的配置-->org.cord.*-->java.lang.Longcom.palic.demo.data.domain.CommRate-->-->-->-->-->-->-->-->-->-->-->127.0.0.1:48500
YOLO目标检测模型优化技术全景解析
YOLO目标检测模型优化技术全景解析作为实时目标检测领域的标杆算法，YOLO系列模型通过持续的技术革新不断提升性能边界。本文将从模型架构设计、数据优化、注意力机制融合、后处理策略及训练方法等维度，系统剖析YOLO优化领域的关键技术与最新进展。一、模型架构优化：突破性能瓶颈的核心路径多尺度检测层增强针对小目标检测难题，主流方案通过增加浅层检测通道优化特征提取。例如在YOLOv5中引入160×160特
DL00478-涡轮叶片缺陷检测数据集yolo格式1300张左右
涡轮叶片缺陷检测数据集yolo格式1300张左右涡轮叶片缺陷检测数据集YOLO格式解析：提升研究与论文写作的关键要点在研究涡轮叶片缺陷检测的过程中，数据集的选择和格式处理是一个至关重要的环节。特别是当你打算通过卷积神经网络（CNN）等深度学习模型进行缺陷检测时，数据集的标注和格式化直接影响到模型的训练效果和论文的质量。本文将重点探讨涡轮叶片缺陷检测数据集的YOLO格式，并分析如何利用这一格式为研究
HTTP性能优化终极指南：从协议原理到企业级实践
前言：为什么性能优化是Web开发的生命线？根据Google研究数据，当页面加载时间从1秒增加到3秒时，跳出率提升32%；当达到5秒时，转化率下降90%。本文将通过七层优化体系，带您掌握HTTP性能优化的核心技术，包含：8大核心优化方向12个真实企业案例20+可立即落地的配置代码最新HTTP/3实践方案一、网络层优化：从DNS到HTTP/3的全栈加速1.1智能DNS解析体系//动态预解析用户可能访问
单片机C语言程序设计实训100例--Proteus仿真实战
本文还有配套的精品资源，点击获取简介：《单片机C语言程序设计实训100例--Proteus仿真实战》是一本面向初学者和进阶者的实践指南，通过100个实例帮助读者掌握8051单片机的C语言编程技能。涵盖了I/O端口控制、定时器/计数器、中断系统、串行通信等关键知识点，并结合Proteus仿真，使得学习过程更为直观和高效。本课程设计项目经过测试，旨在帮助学生掌握单片机C语言编程的实际应用，为进入更复杂
打造完美Web登录界面：HTML、CSS与Bootstrap实战 Suvo Sarkar
本文还有配套的精品资源，点击获取简介：登录界面是用户与Web应用程序互动的起点，其设计和实现对用户体验至关重要。本教程将指导开发者如何使用HTML、CSS和Bootstrap框架创建一个功能齐全且视觉吸引力强的登录界面。内容涵盖从基础的表单标签到使用Bootstrap的响应式设计，以及如何结合JavaScript和后端技术来增强界面的业务逻辑和用户验证功能。1.HTML表单标签基础HTML表单标签
java web登录代码_Java Web 登录页面的实现代码实例 KJ(Kan Jia) java web登录代码
代码如下~内有详细解释，最后有照片！functioninuser(){username_mess.style.visibility="visible";}functionoutuser(){//获取name为usesrname的文本u=f1.username.value;f1.username.style.border="1pxsolidaaaaaa";if(u==""){username_mes
【集群】MySQL的主从复制了解吗？会有延迟吗，原因是什么？雪碧聊技术 Java八股文 mysql 数据库 MySQL主从复制
欢迎来到我的Java八股文专栏！各位程序员小伙伴们好呀~我是雪碧聊技术，很高兴能在CSDN与大家相遇！✨专栏介绍这个专栏将专注于分享Java面试中的经典"八股文"知识点，内容涵盖：Java基础核心概念JVM原理与性能调优多线程与并发编程️设计模式实战️常用框架源码解析⚙️系统架构设计思想为什么选择这个专栏？精准定位：直击大厂Java面试高频考点系统全面：从基础到进阶，构建完整知识体系实战导向：理论
【锁】MySQL中有哪几种锁？雪碧聊技术 Java八股文 mysql 数据库锁
欢迎来到我的Java八股文专栏！各位程序员小伙伴们好呀~我是雪碧聊技术，很高兴能在CSDN与大家相遇！✨专栏介绍这个专栏将专注于分享Java面试中的经典"八股文"知识点，内容涵盖：Java基础核心概念JVM原理与性能调优多线程与并发编程️设计模式实战️常用框架源码解析⚙️系统架构设计思想为什么选择这个专栏？精准定位：直击大厂Java面试高频考点系统全面：从基础到进阶，构建完整知识体系实战导向：理论
MySQL的Binlog有几种格式? 雪碧聊技术 Java八股文 mysql 数据库
欢迎来到我的Java八股文专栏！各位程序员小伙伴们好呀~我是雪碧聊技术，很高兴能在CSDN与大家相遇！✨专栏介绍这个专栏将专注于分享Java面试中的经典"八股文"知识点，内容涵盖：Java基础核心概念JVM原理与性能调优多线程与并发编程️设计模式实战️常用框架源码解析⚙️系统架构设计思想为什么选择这个专栏？精准定位：直击大厂Java面试高频考点系统全面：从基础到进阶，构建完整知识体系实战导向：理论
C语言程序设计--第一章 C语言概述 ✎ ぅTrip、° c语言
计算机语言计算机语言种类有很多，根据其发展的过程和面向的对象，可分为三类：机器语言、汇编语言、高级语言。机器语言（第一代语言）由二进制代码0和1构成的指令序列，面向计算机CPU系统，是计算机可以直接识别并执行的计算机语言。例：加法指令10000000、减法指令10010000优点：机器语言能被计算机CPU直接理解和执行，不需要另外的翻译软件，占用空间少，执行速度快。缺点：机器语言缺点主要表现在难理
Unity引擎源码场景加载流程你一身傲骨怎能输游戏引擎场景加载流程
Unity场景加载（SceneLoading）是Unity引擎中非常核心的功能。虽然Unity的完整C++引擎源码不开源，但通过Unity官方文档、部分开源C#层代码、Unity反编译、以及官方演讲资料，我们可以较为清晰地梳理出Unity场景加载的整体流程。下面我将从高层调用、C#层、C++引擎层、资源管理、异步加载、生命周期回调等角度，详细讲解Unity场景加载的源码流程。1.高层调用入口Uni
web登录注册页面 m0_67391518 面试学习路线阿里巴巴前端 java html mysql 数据库
目录web登录注册页面效果图结构图Java代码User.javaUserMapper.javaIndexServlet.javaRegisterServlet.javaDButil.javaxml配置文件mybatis-config.xmldb.propertiesweb.xmlhtml与cssindex.jspindex.cssregister.htmlregister.css文章目录web登录
python排序算法之基数排序华强笔记 python数据结构和算法 python 算法
#代码如下：'''基数排序：1.把数据分为10个桶，以为数字有0-9这10个2.依次把数据的个位，十位，百位等等各个位数的数据进行分桶排序，放在这10个桶中3.最大的数有k位，则循环k次4.时间复杂度O(kn),空间复杂度O(k+n),其中k=log10(n)+1'''defradixs_sort(li):max_num=max(li)it=0while10**it<=max_num:bucket
简单WEB登录页面代码实现逆流的飞鱼简单代码 java
longin.html：登录页面，此处action引用**/**类型的地址，JSP可以用${pageContext.request.contextPath}/LS用户名:密码：LoginServlet.java用户和前台WEB页面数据进行交互packageit.tongyou.web.servlet;importjava.io.IOException;importjava.io.PrintWrit
Arraylist与LinkedList区别雪碧聊技术 Java八股文 ArrayList LinkedList
欢迎来到我的Java八股文专栏！各位程序员小伙伴们好呀~我是雪碧聊技术，很高兴能在CSDN与大家相遇！✨专栏介绍这个专栏将专注于分享Java面试中的经典"八股文"知识点，内容涵盖：Java基础核心概念JVM原理与性能调优多线程与并发编程️设计模式实战️常用框架源码解析⚙️系统架构设计思想为什么选择这个专栏？精准定位：直击大厂Java面试高频考点系统全面：从基础到进阶，构建完整知识体系实战导向：理论
具身智能的视觉-语言导航综述
24年2月来自曲阜师范、华东师大和哈工大的论文“Vision-LanguageNavigationwithEmbodiedIntelligence:ASurvey”。作为人工智能领域的长期愿景，具身智能的核心目标是提升智体与环境的感知、理解和交互能力。视觉-语言导航（VLN）作为实现具身智能的重要研究路径，致力于探索智体如何利用自然语言与人进行有效沟通，接收并理解指令，并最终依靠视觉信息实现精准导
python折半查找算法_python二分查找代码试用递归法编写python程序实现折半查找算法...
python二分查找算法函数bi_search(),该函数实现检回忆，很美却很伤；回忆只是回不到过去的记忆。输入格式:第一行为正整数n接下来若干行为待查找的数字，每行输入一个总是女人为了天长地久而烦恼，男人却可以洒脱地出乎意料。defprime(n):ifnend:return-1mid=(start+end)//2ifprimelist[mid]==prime:returnmidelifprim
BootstrapValidator表单验证效果无效，不验证蓝色天空的银码星技术问题表单验证网页前端
BootstrapValidator是一款非常好用的前端验证插件，但是因为很多问题，一直没有效果。果然不是代码问题，而是因为Bootstrap版本和BootstrapValidator的版本问题。下载地址：https://download.csdn.net/download/weixin_37674052/11175279首先贴出来我的引用的文件代码表单代码：要用BootstrapValidato
具身智能：从理论到实践的跨越
具身智能（EmbodiedAI）的概念起源与发展是一个跨越半个多世纪的学术探索历程，其核心思想在不同学科的交叉碰撞中逐渐成型。以下从理论源头、技术奠基、术语演进三个维度展开解析，揭示这一概念的学术脉络与产业价值：一、理论源头：从图灵的哲学构想到认知科学的具身化转向1.图灵的"感官机器"设想（1950年）在人工智能奠基性论文《计算机器与智能》中，图灵提出了两种智能发展路径：抽象计算路径：如国际象棋等
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo

ChatGLM2-6B的通透解析：从FlashAttention、Multi-Query Attention到GLM2的微调、源码解读

前言

第一部分 相比第一代的改进点：FlashAttention与Multi-Query Attention

第二部分 FlashAttention：减少内存访问提升计算速度——更长上下文的关键

2.1 FlashAttention相关的背景知识

2.1.1 Transformer计算复杂度：——Self-Attention层与MLP层

2.1.1.1 Self-Attention层的计算复杂度：

2.1.1.2 MLP层的计算复杂度：

2.1.2 Transformer的空间复杂度：——Self-Attention层与MLP层

2.1.2.1 Self-Attention块的中间激活：

2.1.2.2 MLP块的中间激活：

2.1.2.3 两个layer norm需要保存的中间激活：

2.1.3 分析GPU的内存分析图：计算的瓶颈是显存访问

2.1.4 safe softmax

2.2 前向传递：Standard Attention/Memory-efficient Attention/Flash Attention

2.2.1 Standard Attention

2.2.2 Memory-efficient Attention：把显存复杂度从平方降低到线性，但HBM访问次数仍是平方

2.2.3 Flash Attention：避免频繁地从HBM中读写数据

第三部分 多查询注意力(Muti Query Attention)：各自Query矩阵，但共享Key 和 Value 矩阵

3.1 Multi-Head Attention、Grouped-Query Attention、Muti Query Attention的区别

​3.2 MHA 和 MQA在代码实现上的差异

第四部分 模型的使用/部署、微调

4.1 模型的使用/部署

4.2 基于 P-Tuning v2 的微调(官方)

你可能感兴趣的:(论文,代码,实战,ChatGLM2-6B,FlashAttention,Multi-Query注意力)

第一部分相比第一代的改进点：FlashAttention与Multi-Query Attention

2.1.1 Transformer计算复杂度： $l *\left(24 b N h^{2}+4 b N^{2} h\right)$ ——Self-Attention层与MLP层

2.1.2 Transformer的空间复杂度： $l *\left(34 b N h+5 b N^{2} a\right)$ ——Self-Attention层与MLP层

2.1.2.1 Self-Attention块的中间激活： $11 b N h+5 b N^{2} a$

第三部分多查询注意力(Muti Query Attention)：各自Query矩阵，但共享Key 和 Value 矩阵

3.2 MHA 和 MQA在代码实现上的差异

第四部分模型的使用/部署、微调