钳子_0123

序列处理的深度学习框架——从RNN到Transformer

Chapter9 序列处理的深度学习框架
- 9.1 回顾语言模型 (Language Models Revisited)
- 9.2 循环神经网络 (Recurrent Neural Networks)
- - 9.2.1 RNN的推断 (Inference in RNNs)
  - 9.2.2 训练 (Training)
  - 9.2.3 循环神经网络与语言模型 (RNNs as Language Models)
  - 9.2.3 RNN 的其它应用 (Other Applications of RNNs)
  - 9.2.5 序列分类的RNN网络 (RNNs for Sequence Classification)
  - 9.2.6 堆叠RNN与双向RNN (Stacked and Bidirectional RNN)
- 9.3 在RNN中管理内容：LSTM 与 GRU (Managing Context in RNNs: LSTMs and GRUs)
- - 9.3.1 长短时记忆 (Long Shot-Term Memory)
  - 9.3.2 门控循环单元 (Gated Recurrent Units)
  - 9.3.3 门单元，层与网络 (Gated Units, Layers and Networks)
- 9.4 自注意力网络：Transformers (Self-Attention Networks: Transformers)
- - 9.4.1 Transformers作为自回归语言模型 (Transformers as Autoregressive Language Models)
  - 文本生成和摘要 (Contextual Generation and Summarization)
  - 9.4.2 Transformer 模型结构总结 (Summary of Transformer Model Architecture)
- 9.5 语言模型的潜在危害 (Potential Harms from Language Models)
- 9.6 总结

原书：《Speech and Language Processing (3rd)》-- 斯坦福大学
章节：Chapter9 - Deep Learning Architectures for Sequence Processing
出版时间：第三版暂未出版，本章于2020年底在网络上公开
原文链接：https://web.stanford.edu/~jurafsky/slp3/9.pdf

在翻译过程中，译者会选择性省略部分内容；会重述部分内容；也会补充部分原书中未出现的内容。如有疏漏，烦请提出，不胜感激！

本博客是根据原书进行翻译整理得出，如有侵权，请联系删除。如需转载，请私信本人或在文章下方评论。

Chapter9 序列处理的深度学习框架

9.1 回顾语言模型 (Language Models Revisited)

概率语言模型是根据一些列给定的文本去预测下一个单词。我们可以用链式法则将条件概率结合起来，那么一个句子的概率就是：

$P\left(w_{1: n}\right)=\prod_{i=1}^{n} P\left(w_{i} \mid w_{P(w1:n)=i=1∏nP(wi∣w<i)$

第三章中的N-gram方法和第七章中的有滑窗的前馈神经网络方法都有一个缺陷，即他们均假设下一个词的出现只与前面的N个词有关，在N个词之前的词对最终的输出无影响。本章会放宽这个假设，这会让我们使用更多的文本。

我们通过混乱度（perplexity）来评估模型的质量：

$P_{\theta}\left(w_{1: n}\right)=P\left(w_{1: n}\right)^{\frac{1}{n}}$

也有另一种根据熵的混乱度的度量方法，其来源于信息论：

$\begin{aligned} P P\left(w_{1: n}\right) &=2^{H\left(w_{1: n}\right)} \\ &=2^{-\frac{1}{n} \sum_{1}^{n} \log _{2} m\left(w_{n}\right)} \end{aligned}$

9.2 循环神经网络 (Recurrent Neural Networks)

简单循环神经网络的结构图如下。其相较于第七章的前馈神经网络最大的变动是它添加了一个新的权值矩阵， $U$ ，它连接了上一个时间步的隐藏层和下一个时间步的隐藏层。这个权值决定了网络如何利用过去的内容去计算当前输入所决定的输出。同样地，该矩阵也会使用反向传播进行训练。

9.2.1 RNN的推断 (Inference in RNNs)

如上图所示，在时间步 $t$ ，输入为 $x_t$ ，输出为 $y_t$ ，隐藏层为 $h_{t}$ ，从上一个隐藏层 $h_{t}$ 到这一个隐藏层 $h_{t}$ 的权重矩阵为 $\in \mathbb{R}^{d_{h} \times d_{h}}$ ，输入到隐藏层的权重矩阵为 $\in \mathbb{R}^{d_{h} \times d_{i n}}$ ，隐藏层到输出层的权重矩阵为 $\in \mathbb{R}^{d_{\text {out }} \times d_{h}}$ ，激活函数为 $g$ 和 $f$ 。计算公式如下：

$\begin{array}{l} h_{t}=g\left(U h_{t-1}+W x_{t}\right) \\ y_{t}=f\left(V h_{t}\right) \end{array}$

若将输出换为softmax函数，则公式为：

$y_{t}=\operatorname{softmax}\left(V h_{t}\right)$

9.2.2 训练 (Training)

下图说明了我们在前馈网络中不需要担心的两个问题。首先，为了计算 $t$ 时刻输出的损失函数，我们需要 $t - 1$ 时刻的隐含层。第二,隐层在时间t的影响在时间t的输出和隐层在时间 $t + 1$ (因此输出和损失在 $t + 1$ )。它遵循从这个评估误差积累 $h_t$ 我们需要知道它的影响当前输出以及后面的输出。

根据这种情况调整反向传播算法，可以使用一种双通道算法来训练RNN中的权值。在第一次过程中，我们进行正向推理，计算 $h_t$ , $y_t$ ，累积每一步的损失，保存每一步隐含层的值，供下一个时间步使用。在第二阶段，我们逆向处理序列，随着我们的前进计算所需的梯度，计算并保存误差项，以便在每一步中向后使用隐含层。这种一般的方法通常被称为时间反向传播。

9.2.3 循环神经网络与语言模型 (RNNs as Language Models)

循环语言模型的结构如下：

$\begin{array}{l} e_{t}=E^{T} x_{t} \\ h_{t}=g\left(U h_{t-1}+W e_{t}\right) \\ y_{t}=\operatorname{softmax}\left(V h_{t}\right) \end{array}$

其中， $E$ 是词嵌入矩阵。
给定了输出 $y$ 之后，第 $i$ 个词的概率为：

$P\left(w_{t+1}=i \mid w_{1: t}\right)=y_{t}^{i}$

由此，一系列词语组成的序列的概率为：

$\begin{aligned} P\left(w_{1: n}\right) &=\prod_{i=1}^{n} P\left(w_{i} \mid w_{1: i-1}\right) \\ &=\prod_{i=1}^{n} y_{w_{i}}^{i} \end{aligned}$

为了训练模型，我们使用文本语料库作为培训材料，并结合名为教师强迫（teacher forcing）的训练方案。使用交叉熵作为损失函数，其任务是最小化预测训练序列中下一个单词的误差。回想一下，交叉熵损失度量的是预测概率分布与正确分布之间的差异，

$L_{C E}=-\sum_{w \in V} y_{w}^{t} \log y_{w}^{\hat{t}}$

在该语言模型下，正确的分布 $y$ 来自于知道下一个单词。这表示为对应于词汇表的one-hot向量，其中实际下一个单词的条目为1，其他所有条目为0。因此，语言建模的交叉熵损失是由模型分配给正确的下一个单词的概率决定的。具体来说，在时刻 $t$ ，CE损失是分配给训练序列中下一个单词的负对数概率，

$L_{C E}\left(\hat{y}^{t}, y^{t}\right)=-\log \hat{y}_{w_{t+1}}^{t}$

E的行表示训练过程中学习到的词汇中每个词嵌入，目的是让意义和功能相似的单词具有相似的词嵌入。由于这些嵌入的长度对应于隐藏层 $d_h$ 的大小，因此嵌入矩阵形状 $E$ 为 $V|× d_h$ 。

具体结构如下图：

以RNN为基础的生成式语言模型

该模型的主要步骤如下：

首先，从softmax分布的输出中选取一个单词作为第一个输入，这是使用句子标记开头 $< s >$ ~~作为第一个输入的结果。~~

~~使用第一个单词的单词嵌入作为下一个时间步骤的网络输入，然后以同样的方式采样下一个单词。~~

~~继续生成，直到采样到句子标记~~ $< / s >$ 或达到固定长度限制为止。

这种技术被称为自回归生成，因为每一步生成的词都是以网络在前一步中选择的词为条件的。该模型的具体结构如下图：

虽然这是一个有趣的练习，但这种架构激发了应用程序的最先进方法，如机器翻译、摘要和问题回答。这些方法的关键是使用适当的上下文来启动生成组件。也就是说，我们可以提供更丰富的适合任务的上下文，而不是简单地使用 $< s >$ ~~来开始。~~

9.2.3 RNN 的其它应用 (Other Applications of RNNs)

序列标注 Sequence Labeling

在序列标记中，网络的任务是从一小组固定的标签中选择一个标签分配给序列的每个元素。序列标记的典型例子包括词性标记和命名实体识别，这些已经在第8章进行了详细讨论。在RNN序列标注方法中，输入是词嵌入，输出是由softmax层在给定标签集上生成的标签概率，详见下图：

在这个图中，每个时间步的输入都是预先训练的与输入标记对应的词嵌入。RNN块是一个抽象，它表示一个在每个时间步上由输入层、隐含层和输出层组成的展开的简单递归网络，以及组成网络的共享的 $U$ 、 $V$ 和 $W$ 权矩阵。网络在每个时间步长的输出表示由softmax层生成的POS标记集上的分布。

为了为给定的输入生成标签序列，我们在输入序列上运行向前推理，并在每一步从softmax中选择最有可能的标签。由于我们使用softmax层在每个时间步上生成输出标记集的概率分布，我们将在训练期间再次使用交叉熵损失。

9.2.5 序列分类的RNN网络 (RNNs for Sequence Classification)

为了在序列分类中应用RNN，待分类的文本每次通过RNN传递一个单词，在每个时间步长生成一个新的隐藏层。将文本最后一个元素 $h_n$ 的隐含层作为整个序列的压缩表示。在最简单的分类方法中， $h_n$ 作为后续前馈网络的输入，通过softmax在可能的类别中选择一个类别。具体结构见下图：

注意，在这种方法中，最后一个元素前面的序列中的单词没有中间输出。因此，没有与这些元素相关的损失项。相反，用于训练网络权重的损失函数完全基于最终的文本分类任务。具体来说，前馈分类器的softmax输出与交叉熵损失一起训练。分类的错误信号通过前馈分类器中的权值一直反向传播到其输入，然后再反向传播到前面9.2.2节中描述的RNN中的三组权值。这种简单递归网络与前馈分类器的组合是我们深度神经网络（deep neural network）的第一个例子。使用来自下游应用程序的损失在整个网络中调整权值的训练方案称为端到端训练(end-to-end training)。

9.2.6 堆叠RNN与双向RNN (Stacked and Bidirectional RNN)

堆叠RNNs

它已经在许多任务中得到了证明，堆叠RNN可以比单层网络的形式更好。这一成功的原因之一是其有能力在不同的抽象层上诱导表示。具体结构见下图：

堆叠的最优数量是根据每个应用和每个训练集而定的。但是，随着堆叠层数的增加，训练成本迅速上升。

双向RNNs

在一个简单的循环网络中，在给定时间 $t$ 的隐藏状态代表了网络在序列中那个点之前所知道的所有关于序列的信息。也就是说，时刻 $t$ 的隐藏状态是从启动到时刻 $t$ 的输入的函数的结果。我们可以把这看作是当前时刻左侧的网络环境。

$h_{t}^{f}=R N N_{\text {forward }}\left(x_{1}^{t}\right)$

其中， $h_{t}^{f}$ 对应于t时刻的正常隐藏状态，表示网络从序列到该点收集到的所有信息。

在许多应用中，我们可以一次访问整个输入序列。我们可能会问，利用当前输入右侧的上下文是否也有帮助。恢复这些信息的一种方法是用反向的输入序列训练RNN，使用的是我们讨论过的完全相同的网络类型。通过这种方法， $t$ 时刻的隐藏状态现在表示关于当前输入右侧序列的信息。

$h_{t}^{b}=R N N_{\text {backward }}\left(x_{t}^{n}\right)$

将正向网络和反向网络相结合，可以得到一个双向RNN。一个Bi-RNN由两个独立的rnn组成，一个从开始到结束处理输入，另一个从结束到开始处理输入。然后，我们将两个网络的输出组合成一个单独的表示形式，在每个时间点捕捉输入的左上下文和右上下文。

$h_{t}=h_{t}^{f} \oplus h_{t}^{b}$

连接是组合两个输出的常用方法，但也使用元素的求和、乘法或平均。

下面两个图是双向RNN对于刚才所述的文本生成和句子分类的应用。

如上是一个双向RNN。分别的模型在前进和后退方向进行训练，每个模型在每个时间点的输出连接起来，以表示该时间点的事件状态。围绕着向前和向后网络的盒子强调了这种架构的模块化本质。

如上是一种用于序列分类的双向RNN。从向前和向后传递的最终隐藏单位被组合起来代表整个序列。这个组合的表示可以作为后续分类器的输入。

9.3 在RNN中管理内容：LSTM 与 GRU (Managing Context in RNNs: LSTMs and GRUs)

在实践中，训练RNN来完成需要网络利用远离当前处理点的信息的任务是相当困难的。

RNN无法有效处理很久之前的重要信息的一个原因是隐藏层（及权重确定隐层中的值）同时被要求执行两个任务：为当前的决策提供有用的信息，更新和携带对未来决策有用的之前的信息。

训练RNN的第二个困难来自需要通过时间反向传播错误信号。回想一下9.2.2节，在 $t$ 时刻的隐含层对下一个时间步的损失有贡献，因为它参与了计算。因此，在向后的训练过程中，隐含层要根据序列的长度进行多次乘法运算。这个过程的一个常见结果是这个梯度会趋近于零——这就是所谓的梯度消失（vanishing gradients）问题。

9.3.1 长短时记忆 (Long Shot-Term Memory)

长-短期记忆网络（LSTM networks）将文本管理问题分为两个子问题:从文本中删除不再需要的信息和添加以后决策可能需要的信息。解决这两个问题的关键是学习如何管理文本，而不是将策略硬编码到架构中。LSTM做到这一点，首先添加一个显式文本层架构(通常循环隐藏层)，并通过使用专门的神经单元,利用门（gates）控制信息流入和流出包括网络层的单元。这些门是通过使用对输入、前一个隐藏层和前一个文本层进行顺序操作的额外权重来实现的。

LSTM的门具有相同的设计模式：每个都包括一个前馈层，接着是一个sigmoid激活函数，然后是一个元素相乘的被门控制的层。选择sigmoid函数作为激活函数是因为它倾向于输出0或1。将此方法与逐点乘法相结合，其效果类似于二进制掩码（binary mask）。由门控制的层中的值与掩盖层（mask）中的值接近1的值几乎没有变化；较低的值基本上被抹去。

首先是遗忘门（forget gate），其目的是从文本中删除不需要的信息。遗忘门计算一个之前的隐藏层与当前的输入的加权求和，然后传到一个sigmoid函数中。然后将此掩码与文本向量 $c$ 相乘，以从上下文中删除不再需要的信息：

$\begin{array}{l} f_{t}=\sigma\left(U_{f} h_{t-1}+W_{f} x_{t}\right) \\ k_{t}=c_{t-1} \odot f_{t} \end{array}$

下一个任务是计算我们需要从之前的隐藏状态和当前输入中提取的实际信息——这与我们在所有循环网络中使用的基本计算方法相同：

$g_{t}=\tanh \left(U_{g} h_{t-1}+W_{g} x_{t}\right)$

接下来，为添加门（add gate）生成掩码，以选择要添加到当前文本文的信息：

$\begin{array}{l} i_{t}=\sigma\left(U_{i} h_{t-1}+W_{i} x_{t}\right) \\ j_{t}=g_{t} \odot i_{t} \end{array}$

接下来，我们将它添加到修改后的文本向量中，以获得新的文本向量：

$c_{t}=j_{t}+k_{t}$

我们将使用的最后一个门是输出门，它用于决定当前隐藏状态需要什么信息(而不是为未来的决策需要保留什么信息)：

$\begin{array}{l} o_{t}=\sigma\left(U_{o} h_{t-1}+W_{o} x_{t}\right) \\ h_{t}=o_{t} \odot \tanh \left(c_{t}\right) \end{array}$

给定各种门的适当权值，LSTM接受上下文层、前一时间步的隐藏层以及当前输入向量作为输入。然后它生成更新的上下文和隐藏向量作为输出。隐藏层 $h_t$ 可以作为堆叠RNN中后续层的输入，也可以为网络的最后一层生成输出。

下图是LSTM的结构：

译者注：图中的 $s_{t-1}$ 和 $s_t$ 分别表示公式中的 $c_{t-1}$ 和 $c_t$ ，即文本向量。原文仍在编写中，所以图像可能尚未进行修改。后续会持续更新。

9.3.2 门控循环单元 (Gated Recurrent Units)

LSTM为我们的循环网络引入了相当多的附加参数。现在我们有8组权重需要学习(即每个单元中的4个门的 $U$ 和 $W$ )，而在简单的回归单元中我们只有2个。这些额外的参数增加了训练成本。门控循环单元(GRUs)通过免除使用单独的上下文向量，并通过将门的数量减少到2个(重置门 $r$ 和更新门 $z$ )来减轻这一负担。

$\begin{aligned} r_{t} &=\sigma\left(U_{r} h_{t-1}+W_{r} x_{t}\right) \\ z_{t} &=\sigma\left(U_{z} h_{t-1}+W_{z} x_{t}\right) \end{aligned}$

与LSTMs一样，在这些门的设计中使用sigmoid会产生一个类似二进制的掩码，该掩码要么屏蔽值接近于0的信息，要么允许值接近于1的信息不受影响地通过。重置门的目的是决定前一个隐藏状态的哪些方面与当前文本相关，哪些可以忽略。这是通过将 $r$ 与前一个隐藏状态的值相乘来实现的。然后，我们使用这个掩码值来计算时间 $t$ 时新的隐藏状态的中间表示。

$\tilde{h}_{t}=\tanh \left(U\left(r_{t} \odot h_{t-1}\right)+W x_{t}\right)$

更新门z的作用是确定这个新状态的哪些方面将直接用于新的隐藏状态，以及前一个状态的哪些方面需要保留以供将来使用。这是通过使用 $z$ 去计算在旧隐藏状态和新隐藏状态之间插值来完成的：

$h_{t}=\left(1-z_{t}\right) h_{t-1}+z_{t} \tilde{h}_{t}$

9.3.3 门单元，层与网络 (Gated Units, Layers and Networks)

上图展示了四个基本的神经单元结构。

(a) 是最基本的前馈单元，由一组权值和一个激活函数决定其输出，当被安排在一层时，层内各单元之间没有连接。

(b) 表示简单循环网络中的单位。现在有两个输入和一组额外的权重。然而，仍然有一个单独的激活函数和输出。

© LSTM 和 (d) GRU 单元被各自封装了起来。LSTM相较于(b)唯一的额外复杂性是它包括了文本向量的输入和输出。而GRU和(b)有相同的输入输出结构。

9.4 自注意力网络：Transformers (Self-Attention Networks: Transformers)

尽管LSTMs有能力减轻由于RNN的重复的链接而造成的远程信息丢失，但潜在的问题仍然存在。通过一系列重复的连接传递信息会导致相关信息的丢失和训练的困难。此外，循环网络固有的顺序性质抑制了并行计算资源的使用。这些考虑导致了Transformer的发展——一种序列处理的方法，它消除了重复的连接，并返回到类似于第七章前面描述的全连接网络的架构。

Transformer将输入向量序列 $x_1, …, x_n)$ 映射到相同长度的输出向量序列 $y_1, …, y_n)$ 。变压器由一系列的网络层组成，这些网络层由简单的线性层、前馈网络和它们周围的自定义连接组成。除了这些标准组件外，Transformer的关键创新是使用自注意力层（self-attention layers）。我们将从描述自注意力机制如何工作开始，然后回到它如何适应更大的Transformer块。自注意力允许网络直接从任意大的上下文中提取和使用信息，而不需要像在RNNs中那样通过中间反复的连接来传递信息。在这一章中，我们将重点关注自注意力在语言建模（language model）和自回归生成（autoregressive generation）的问题上的应用，这些问题在过去的讨论中使用了文本内容（即我们在LSTM中看到的 $c_t$ ）。我们将在后面的章节中回到自注意力机制和Transformer的更广泛的应用。

下图说明了单个自注意力层（或后向自注意力层）的信息流动。与整个Transformer一样，自注意层将输入序列 $x_1, …, x_n)$ 映射到相同长度的输出序列 $y_1, …, y_n)$ 。当处理输入中的每个项时，模型可以访问所有的输入，包括考虑中的输入，但是不能访问关于当前输入以外的信息。此外，为每个项目执行的计算是独立于所有其他计算的。第一点确保我们可以使用这种方法来创建语言模型，并将其用于自回归生成，第二点意味着我们可以轻松地并行化向前推理（forward inference）和对这些模型进行训练。

注意力方法的核心是将感兴趣的项与其他项的集合进行比较，从而揭示它们在当前文本中的相关性。在自注意力的情况下，比较集是给定序列中的其他元素的。然后，将这些比较的结果用于计算当前输入的输出。例如，上图中， $y_3$ 的计算是基于输入 $x_3$ 与之前的元素 $x_1$ 、 $x_2$ 以及 $x_3$ 本身的一组比较。自注意力层中元素之间比较的最简单形式是点积。为了考虑到其他可能的比较，让我们将这些比较的结果称为分数，

$\operatorname{score}\left(x_{i}, x_{j}\right)=x_{i} \cdot x_{j}$

然后，为了有效地利用这些分数，我们将使用softmax对它们进行标准化，以创建权重向量 $α_{ij}$ ，该向量表示每个输入与当前关注焦点的输入元素 $i$ 的比例相关性，

$\begin{aligned} \alpha_{i j} &=\operatorname{softmax}\left(\operatorname{score}\left(x_{i}, x_{j}\right)\right) \forall j \leq i \\ &=\frac{\exp \left(\operatorname{score}\left(x_{i}, x_{j}\right)\right)}{\sum_{k=1}^{i} \exp \left(\operatorname{score}\left(x_{i}, x_{k}\right)\right)} \forall j \leq i \end{aligned}$

给出了以 $\alpha$ 为单位的比例分数，然后我们将目前所看到的输入的总和，按各自的 $\alpha$ 值加权，生成一个输出值 $y_i$ ，

$y_{i}=\sum_{j \leq i} \alpha_{i j} x_{j}$

不幸的是，这个简单的机制没有提供学习的机会，一切都直接基于原始输入值 $x$ 。特别是，我们没有机会学习单词如何以不同的方式表示较长的输入。为了允许这种学习，Transformer以一组权重矩阵的形式包含了额外的参数，这些参数在输入的嵌入项上运行。为了激发这些新的参数，考虑每个输入嵌入在注意过程中扮演的不同角色。

Query：它是当前关注的焦点，其与前面的所有其他输入进行比较。我们将此角色称为查询，query。

Key：它作为之前的输入，其与当前关注的焦点（即query）相比较。我们将此角色称为键，key。

Value：它是一个值 value，其用于计算当前关注焦点的输出。

为了捕获输入嵌入在每个步骤中扮演的不同角色，transformer引入了三组权重，我们将其称为 $W^{Q}$ 、 $W^{K}$ 和 $W^{V}$ 。这些权重将用于计算每个输入 $x$ 的线性转换，其结果值将用于后续计算中各自的角色,

$q_{i}=W^{Q} x_{i} ; k_{i}=W^{K} x_{i} ; v_{i}=W^{V} x_{i}$

给定了输入嵌入的维度 $d_m$ ，这些矩阵的维度分别是 $d_{q} \times d_{m}$ ， $d_{k} \times d_{m}$ ，和 $d_{v} \times d_{m}$ 。在原始的Transformer论文中， $d_m$ 的维度是1024， $d_k$ ， $d_q$ 和 $d_v$ 的维度是64。

给定这些投影矩阵，当前关注焦点 $x_i$ 和之前文本中的元素 $x_j$ 之间的分数由其查询向量 $q_i$ 和前面元素键向量 $k_j$ 之间的点积组成。让我们更新之前的比较计算来反映这一点：

$\operatorname{score}\left(x_{i}, x_{j}\right)=q_{i} \cdot k_{j}$

随后产生 $\alpha$ 的softmax计算保持不变，但 $y_i$ 的输出计算现在基于值向量 $v$ 的加权和：

$y_{i}=\sum_{j \leq i} \alpha_{i j} v_{j}$

下图说明了计算 $y_3$ 的过程：

计算 $\alpha_{i j}$ 中出现的一个实际考虑来自于使用点积与softmax中的指数相结合进行比较。点积的结果可以是任意大的(正数或负数)值。对如此大的值取幂可能会导致数值问题，并在训练过程中有效地丢失梯度。为了避免这种情况，需要以合适的方式缩放点积。缩放的点积方法将点积的结果除以一个与嵌入尺寸相关的因子，然后将它们通过softmax。一种典型的方法是将点积除以查询的维度和键向量的平方根，从而导致我们再次更新评分函数。

$\operatorname{score}\left(x_{i}, x_{j}\right)=\frac{q_{i} \cdot k_{j}}{\sqrt{d_{k}}}$

这种对自注意力过程的描述是从计算特定时间点的单个输出的角度出发的。然而，由于每个输出， $y_i$ ，可以在整个过程中独立地被计算，因此我们可以通过高效的并行矩阵乘法的方式进行并行计算。具体方法是对输入嵌入打包到一个矩阵，然后乘以key，query和value矩阵去得到包含所有key，query 和 value 向量的矩阵：

$Q=W^{Q} X ; K=W^{K} X ; V=W^{V} X$

给定这些矩阵，我们可以通过在单个矩阵乘法中乘以 $K$ 和 $Q$ 来同时计算所有必需的 query-key 比较。更进一步，我们可以衡量这些分数，取softmax，然后将结果乘以 $V$ ，从而将整个序列的整个自注意力步骤减少到以下计算中：

$\text { SelfAttention }(Q, K, V)=\operatorname{softmax}\left(\frac{Q K^{T}}{\sqrt{d_{k}}}\right) V$

不幸的是，上述过程有点“过”了，因为 $QK^T$ 中的比较计算会为每个query对每个key (包括query后面的key) 产生一个分数。这在语言建模的设置中是不合适的，因为如果您已经知道下一个单词，猜测它是非常简单的。为了解决这个问题，比较矩阵的上三角部分中的元素被置零(设为−∞)，从而消除序列中单词的任何知识。

Transformer Blocks

自注意力计算位于所谓的Transformer块的核心，除了自注意力层之外，它还包括额外的前馈层、剩余连接和标准化层。下图显示了一个典型的Transformer块，它由一个关注层和一个全连接的前馈层组成，每个前馈层后面都有剩余连接和层归一化。然后可以像堆叠RNN那样堆叠这些块。

多头注意力 (Multihead Attention)

个句子中的不同单词可以同时以许多不同的方式联系在一起。例如，在一个句子中，动词和它们的受词之间可以存在不同的句法、语义和话语关系。对于单个Transformer组来说，学习捕获其输入之间所有不同类型的并行关系是很困难的。Transformer通过多头自注意层来解决这个问题。这些是一组自注意力层，称为“头”，它们位于模型中相同深度的平行层中，每个层都有自己的一组参数。给定这些不同的参数集，每个头都可以学习在同一抽象级别上存在的输入之间的关系的不同方面。

为了实现这个概念，自注意力层中的每个头 $i$ 都有自己的一组key、query和value矩阵： $W_i^{Q}$ 、 $W_i^{K}$ 和 $W_i^{V}$ 。它们用于将输入分别投射到每个头的 $x_i$ 层，而自注意力计算的其余部分保持不变。带有 $h$ 个头的多头层的输出由 $h$ 个相同长度的向量组成。为了在进一步的处理中利用这些向量，它们被组合起来，然后减少到原始的输入维数 $d_m$ 。这是通过连接每个头的输出，然后使用另一个线性投影来减少到原始的输出维数来完成的。

$\begin{aligned} \text { MultiHeadAttn }(Q, K, V) &=W^{O}\left(\text { head }_{1} \oplus \text { head }_{2} \ldots \oplus \text { head }_{h}\right) \\ \text { head }_{i} &=\text { SelfAttention }\left(W_{i}^{Q} X, W_{i}^{K} X, W_{i}^{V} X\right) \end{aligned}$

下图展示了4个自注意力头的情况。该多头层取代了由上图所示的Transformer组中的单个自注意力层，Transformer组的其余部分及其前馈层、剩余连接和归一化层保持不变。

位置编码 Positional Embeddings

译者注：原文使用 position embeddings 的用词，直译为位置嵌入，但是论文《Attention is All You Need》中使用的词为positional encoding。在这里，我们保留英文描述position embeddings，但中文翻译为位置编码。

在RNN网络中，有关输入顺序的信息被融入到模型的性质中。不幸的是，Transformer的情况并非如此；其并不允许使用输入序列元素的相对或绝对位置的信息。这可以从以下事实中看出来：如果你打乱前面提到的注意力计算的输入顺序，你会得到完全相同的答案。为了解决这个问题，Transformer的输入与特定于输入序列中每个位置的位置嵌入相结合。

我们从哪里得到这些位置编码呢？一个简单而有效的方法是随机初始化每一个词所对应的位置嵌入，直到文本末尾。例如，正如我们对单词fish进行了嵌入，我们也将对位置3进行嵌入（如果fish这个单词在第3个位置的话）。与单词嵌入一样，这些位置编码在训练过程中与其他参数一起学习。要生成捕获位置信息的输入嵌入，只需将每个输入的词嵌入添加到对应的位置编码中。这个新的嵌入作为进一步处理的输入。

这种方法的一个潜在问题是，在我们的输入中会有大量的初始位置的训练示例，而在外部长度限制时相应的较少。这些后一种编码可能训练不足，并且在测试期间可能不能很好地推广。位置编码的另一种方法是选择一个静态函数，以捕获位置之间的内在关系的方式将整数输入映射到实值向量。也就是说，它捕捉到这样一个事实，即输入中的位置4与位置5的关系比与位置17的关系更密切。在原Transformer的工作中，使用了不同频率的正弦和余弦函数的组合。

下面是译者添加：

本书原文中未展示出具体的位置编码的公式，下面将补充出来。

位置编码 $\mathbf{PE} \in \mathbb{R}^{L \times d}$ 拥有和输入向量相同的维度，因此它课直接加载输入之后。原始的Transformer考虑了正弦位置编码（Sinusoidal positional encoding），其定义如下：

$\begin{aligned} P E_{(p o s, 2 i)} &=\sin \left(\frac{pos}{10000^{2 i / d_{\text {model }}}}\right) \\ \\ P E_{(\text {pos }, 2 i+1)} &=\cos \left(\frac{pos}{10000^{2 i / d_{\text {model }}}}\right) \end{aligned}$

其中， $p o s = 1, . . ., L$ 是单词的位置， $i = 1, . . ., d$ 为维度，具体来说就是在一个 $d$ 维向量中的第 $i$ 个位置。在实际的代码实现中，我们会对其进行适当的形式变换，这里暂不详述。

译者添加结束。

9.4.1 Transformers作为自回归语言模型 (Transformers as Autoregressive Language Models)

现在我们已经了解了Transformer的所有主要组件，让我们看看如何通过半监督学习将它们部署为语言模型。为此，我们将像使用基于RNN的方法一样继续进行：给定纯文本的训练语料库，我们将训练一个模型，以使用教师强制（teacher forcing）来预测序列中的下一个单词。下图说明了一般的方法。在每一步中，给定所有前面的单词，最终的Transformer层在整个词汇表上产生一个输出分布。在训练过程中，分配给正确单词的概率用于计算序列中每个项目的交叉熵损失。与RNN一样，训练序列的损失是整个序列的平均交叉熵损失。

注意此图与前期基于RNN的版本的关键区别。在RNN中，每一步的输出和损失的计算本质上是串行的，因为在计算隐藏状态时是循环的。使用Transformer，可以并行处理每个训练项目，因为序列中每个元素的输出是分别计算的。一旦训练，我们可以计算得到的模型的混乱度（perplexity），或自回归生成新的文本，就像基于RNN的模型一样。

文本生成和摘要 (Contextual Generation and Summarization)

自回归生成的一个简单的变异是使用先前的文本来启动自回归生成过程，它是许多实际应用程序的基础。下图用文本补全任务说明了这一点。在这里，给一个标准语言模型一个文本的前缀，并要求它生成一个可能的实现。请注意，随着生成过程的进行，模型可以直接访问启动文本以及它自己随后生成的所有输出。这种在每个时间步骤中合并整个前期文本和生成输出的能力是这些模型强大的关键。

文本摘要是基于上下文的自回归生成方法的一个实际应用。这里的任务是获取一篇完整的文章，并对其进行有效的总结。为了训练一个基于Transformer的自回归模型来完成这项任务，我们从一个由全文文章及其相应摘要组成的语料库开始。

将Transformer应用于摘要的一个非常有效的方法是在语料库中的每一篇完整的文章后附加一个摘要，并使用一个惟一的标记将二者分开。更确切地说，将训练语料中的每对article-summary对 $x_1, …, x_m)$ ， $y_1, …, y_n)$ 转换为单个训练实例 $(x_1, …, x_m, \delta, y_1, …, y_n)$ ，总长度为 $n + m + 1$ 。这些训练实例被视为长句子，然后使用教师强迫来训练一个自回归语言模型，就像我们前面所做的那样。

一旦训练，以特殊标记结尾的完整文章作为上下文，以启动生成过程，生成如下图所示的摘要。请注意，与RNN不同的是，模型在整个过程中可以访问原始文章以及新生成的文本。

正如我们将在后面章节中看到的，这种简单方案的变体是成功的文本对文本应用的基础，包括机器翻译、摘要和问题回答。

9.4.2 Transformer 模型结构总结 (Summary of Transformer Model Architecture)

前文已经对Transformer模型及其应用进行了深入浅出的介绍，下面是对整个Transformer模型的总结。

Transformer是一个encoder-decoder模型（虽然本书忽略这样的定义，但仍然值得注意），其以自注意力机制（self-attention）为基础，通过引入参数矩阵 $W^{Q}$ 、 $W^{K}$ 和 $W^{V}$ ，并引入多头自注意力机制来构建模型。其中，在输入过程中，模型还引入了位置编码以弥补其本身不会学习到位置属性的劣势。Transformer由2017年的论文《Attention is All You Need》[1] 提出，原文给出了其Encoder-Decoder架构图，这里我们引用了博客[3]中的图示来解释：

我们看到最右侧是一个自注意力头，其结构正如前文所述一致。中间的部分为多头自注意力的结构。左侧是原文中给出的Encoder Decoder机制结构。首先我们输入一个与位置编码相加的嵌入，然后经过多个“多头自注意力机制+全连接+标准化层+前馈神经网络+前连接+标准化”层，之后，进入解码器。我们注意到，前文在应用中所述的“模型在整个过程中可以访问原始文章以及新生成的文本”，正好体现在这个图中，因为解码器的输入，包括了我们之前的输出以及前文的所有文本（从encoder中来）。

下图是对Transformer的动态图总结，通过如下两个图，我们可以清晰地看到Encoder和Decoder两个过程。同样地，第一个图展示了Decoder部分如何获得并处理之前的文本；第二个图展示了Decoder部分如何获取并处理输出。[2]

图1：

图2：

Transformer在提出之后，出现了许多变体，其中包括Longer Attention Span，Adaptive Attention Span，Localized Attention Span (Image Transformer) 及 Sparse Attention Matrix Factorization (Sparse Transformers) ，Locality-Sensitive Hashing (Reformer)，等。它们或多或少地对原始的Transformer进行了改进，如提高注意广度（前三个），其目标是使用于自我注意的语境更长、更有效和更灵活；和减少时间和内存的消耗（后两个）。[3]

译者注：本小节为译者自行添加，参考资料如下：
[1] https://arxiv.org/abs/1706.03762
[2] https://jalammar.github.io/illustrated-transformer/
[3] https://lilianweng.github.io/lil-log/2020/04/07/the-transformer-family.html

9.5 语言模型的潜在危害 (Potential Harms from Language Models)

大型神经语言模型展示了许多在第4章和第6章中讨论的潜在危害。当语言模型用于文本生成时，例如在辅助技术中，如web搜索查询补全或电子邮件的预测键入时，可能会出现问题。

举例来说，有些模型会生成有害语言或者歧视性的语言。语言模型也会生成误导信息，欺诈信息等，从而成为危害社会的活动的工具。同时，隐私泄露也是一个重要问题。

缓解这些危害成为一个在NLP领域中非常重要但尚未解决的一个问题。

9.6 总结

本章介绍了递归神经网络和Transformer的概念，以及如何将它们应用于语言问题。以下是我们总结的要点:

在简单的循环神经网络中，序列是作为一个元素自然处理的。

神经单元在特定时间点的输出基于当前输入和前一个时间步长的隐层值。

RNN可以通过对backpropagation算法的直接扩展进行训练，该算法被称为backpropagation through time (BPTT)。

基于公共语言的RNNs应用程序包括:

概率语言建模，其中模型分配一个概率给一个序列，或一个序列的下一个元素给定前面的单词。

使用训练过的语言模型进行自回归生成。

序列标号，序列中的每个元素都有一个标号，就像词性标注一样。

序列分类，其中整个文本作为符号到一个类别，作为在垃圾邮件检测，情感分析或主题分类。

简单的循环网络经常会失败，因为要成功地训练它们，让它们在一段时间内保持有用的梯度是极其困难的。

更复杂的门控架构，如LSTMs和GRUs，被设计来克服这些问题，通过显式管理任务，决定在其隐藏和上下文层中记住和忘记什么。

Transformer结构，通过自注意力机制的设计，从根本上解决了门控框架中仍然保存的远距离信息消失的问题。（本条为译者自行添加）

景联文科技入选中国信通院发布的“人工智能数据标注产业图谱” 景联文科技科技人工智能
近日，由中国信息通信研究院、中国人工智能产业发展联盟牵头，联合中国电信集团、沈阳市数据局、保定高新区等70多家单位编制完成并发布《人工智能数据标注产业图谱》。景联文科技作为人工智能产业关键环节的代表企业，入选图谱中技术服务板块。图谱按照国家数据局技术创新、行业赋能、生态培育、标准应用、人才就业、数据安全等六个方面任务展开，由上游资源提供方、中游数据标注核心服务方、下游配套支撑方三部分组成。其中上游
Deepseek-R1-Distill-Llama-8B + Unsloth 中文医疗数据微调实战 LuckyAnJo LLM相关 llama python 自然语言处理人工智能
内容参考至博客与Bin_Nong1.环境搭建主要依赖的库(我的版本)：torch==2.5.1unsloth==2025.2.15trl==0.15.2transformers==4.49.0datasets=3.3.1wandb==0.19.62.数据准备-medical_o1_sft_Chinese经过gpt-o1的包含cot(思考过程)的中文医疗问答数据，格式与内容如下:"Question"
搜广推校招面经五十四 Y1nhl 搜广推面经搜索算法 python 推荐算法机器学习人工智能
美团推荐算法一、手撕Transformer的位置编码1.1.位置编码的作用Transformer模型没有显式的序列信息（如RNN的循环结构），因此需要通过位置编码（PositionalEncoding）为输入序列中的每个位置添加位置信息。位置编码的作用是：提供序列位置信息：帮助模型理解输入序列中元素的顺序。保持唯一性和连续性：确保每个位置的位置编码是唯一的，且相邻位置的位置编码是连续的。1.2.位
【面经&八股】搜广推方向：面试记录（十三）秋冬无暖阳° 搜广推等—算法面经面试职场和发展
【面经&八股】搜广推方向：面试记录（十三）文章目录【面经&八股】搜广推方向：面试记录（十三）1.自我介绍2.实习经历问答3.八股之类的问题4.编程题5.反问6.可以1.自我介绍。。。。。。2.实习经历问答挑最熟的一个跟他讲就好了。一定要熟~3.八股之类的问题极大似然估计和贝叶斯估计，区别与联系建议参考这个链接transformer为什么要使用多头关键点在于集成，使语义更加完善圆上随机去三个点，三个
使用 Milvus 进行向量数据库管理与实践 qahaj milvus 数据库 python
技术背景介绍在当今的AI与机器学习应用中，处理和管理大量的嵌入向量是一个常见的需求。Milvus是一个开源向量数据库，专门用于存储、索引和管理深度神经网络以及其他机器学习模型生成的大规模嵌入向量。它的高性能和易用性使其成为处理向量数据的理想选择。核心原理解析Milvus的核心功能体现在其强大的向量索引和搜索能力。它支持多种索引算法，包括IVF、HNSW等，使其能够高效地进行大规模向量的相似性搜索操
物理学不存在了？诺贝尔物理学奖颁给了人工智能资讯新鲜事人工智能
2024年10月8日，瑞典皇家科学院宣布，将2024年诺贝尔物理学奖授予美国普林斯顿大学教授约翰·J·霍普菲尔德（JohnJ.Hopfield）和加拿大多伦多大学教授杰弗里·E·辛顿（GeoffreyE.Hinton），以表彰他们“在人工神经网络机器学习方面的基础性发现和发明”。辛顿在接受电话采访时表示：“完全没想到”。实话实说，在结果出来前，大家也都没想到。因为在外界预测里，今年的诺贝尔物理学奖
今日行情明日机会——20250321 人大博士的交易之路人工智能区块链数学建模数据挖掘分类涨停回马枪大数据
后续投资机会分析结合2025年3月21日盘面数据（涨停56家，跌停31家），市场呈现结构性分化行情，海洋经济成为绝对主线，机器人概念局部活跃，人工智能表现较弱。以下是具体方向与策略建议：1.海洋经济（核心主线，政策+事件驱动）核心逻辑：板块23家涨停，梯队完整（七板至一板），神开股份（七板）打开高度，叠加海洋资源开发、碳中和政策（如海上风电、深海装备）催化，资金深度介入。大连重工（三板，海洋工程装
人工智能革命：技术演进图谱与人类文明重构路径 A达峰绮人工智能重构经验分享图形绘制数据处理 AI
当GPT-4在2023年3月通过注册会计师考试时，其财务分析模块展现的推理能力已超越85%的人类考生。这个标志性事件背后，折射出人工智能正在突破认知型工作的最后防线。我们正在见证的，不仅是技术迭代，更是人类文明范式的根本性转变。一、算力奇点降临：AI基础设施的指数级进化量子计算与神经形态芯片的融合正在重塑算力边界。IBM最新数据显示，其量子体积（QuantumVolume）从2020年的64跃升至
一步到位！7大模型部署框架深度测评：从理论到DeepSeek R1:7B落地实战人肉推土机人工智能 python
本文在掘金同步发布：文章地址更多优质文章，请关注本人掘金账号：人肉推土机的掘金账号随着大语言模型（LLM）的广泛应用，如何高效部署和推理模型成为开发者关注的核心问题。本文深入解析主流模型部署框架（Transformers、ModelScope、vLLM、LMDeploy、Ollama、SGLang、DeepSpeed），结合其技术原理、优缺点及适用场景，并提供DeepSeekR1:7B的详细部署实
使用BLSTM自动评估句子级构音障碍的可理解性帅小柏声音的未来：语音识别文献解读深度学习人工智能分类
使用BLSTM自动评估句子级构音障碍的可理解性原文：AutomaticAssessmentofSentence-LevelDysarthriaIntelligibilityUsingBLSTM引言构音障碍简介构音障碍的定义与特征构音障碍是一种由神经原因引起的运动性言语障碍表现为肌肉无力、瘫痪或协调不良，导致言语清晰度下降可理解性的重要性可理解性是衡量言语障碍严重程度的重要指标自动评估可帮助语言病理
比较分析：Windsurf、Cody、Cline、Roo Cline、Copilot 和通义灵码张3蜂开源编程语言与开发技术选型与架构设计 copilot c#AI编程
随着人工智能技术的快速发展，开发者工具变得越来越智能化，特别是在代码生成、辅助编程等领域，市面上涌现了多种AI驱动的工具。本文将从开源性、集成能力、功能覆盖范围、支持的编程语言、生态兼容性、成本、学习曲线、响应速度、离线支持以及与.NETCore的适配性等十个维度对以下几种产品进行比较：Windsurf、Cody、Cline、RooCline、Copilot和通义灵码。1.开源性Windsurf:
使用Aim追踪LangChain执行 bavDHAUO langchain python
在现代人工智能应用中，调试和可视化自动化工作流变得越来越重要，Aim正是为此而生。通过Aim，你可以轻松地追踪LangChain中语言模型(LLM)和工具的输入输出，以及代理的动作，从而在执行过程中快速定位和解决问题。此外，Aim还支持并排比较多个执行流程，使之成为调试中的得力助手。Aim是一个完全开源的项目，你可以在GitHub上找到更多关于Aim的信息。在本文中，我们将展示如何启用和配置Aim
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析快撑死的鱼 Python算法精解 python 深度学习开发语言
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析在人工智能的众多应用领域中，手写数字识别是一项经典且具有重要实际应用价值的任务。随着深度学习技术的飞速发展，通过构建和训练神经网络模型，手写数字识别的精度已经可以达到99%以上。本文将以Python为主要编程语言，结合深度学习的核心技术，详细解析手写数字识别的实现过程，并探讨如何进一步优化模型以提高
强化学习中的深度卷积神经网络设计与应用实例数字扫地僧计算机视觉 cnn 人工智能神经网络
I.引言强化学习（ReinforcementLearning，RL）是机器学习的一个重要分支，通过与环境的交互来学习最优策略。深度学习，特别是深度卷积神经网络（DeepConvolutionalNeuralNetworks，DCNNs）的引入，为强化学习在处理高维度数据方面提供了强大工具。本文将探讨强化学习中深度卷积神经网络的设计原则及其在不同应用场景中的实例。II.深度卷积神经网络在强化学习中的
腾讯云大模型知识引擎与DeepSeek：打造懒人专属的谷歌浏览器翻译插件大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 腾讯云云计算
摘要：随着人工智能技术的飞速发展，越来越多的前沿技术和工具已走入日常生活。翻译工具作为跨语言沟通的桥梁，一直处于技术创新的风口浪尖。本文探讨了腾讯云大模型知识引擎与DeepSeek结合谷歌浏览器插件的可能性，旨在为用户提供一种便捷、高效的翻译体验。通过应用深度学习、自然语言处理和知识图谱技术，该插件不仅能实时翻译网页内容，还能根据上下文进行智能推荐，实现精准的语境转换。本文将详细阐述其设计思路、技
DeepSeek-R1大模型微调技术深度解析：架构、方法与应用全解析大势下的牛马搭建本地gpt 架构 deepseek 微调
1.DeepSeek-R1大模型架构设计与技术特性1.1架构设计DeepSeek-R1作为超大规模语言模型，其核心架构设计包含以下创新：专家混合架构（MoE）采用6710亿参数的混合专家架构（MoE），每个推理过程仅激活370亿参数，实现计算效率与资源利用率的突破性提升。Transformer框架增强基于改进型Transformer架构，结合多头注意力机制（MLA）与动态权重分配技术，优化了长程依
DeepSeek 模型未来怎么走？技术创新、行业落地全解析！网罗开发 AI 大模型人工智能人工智能职场和发展
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
分享12个国内AI对话聊天的免费网站（含DeepSeek大模型）码上飞扬人工智能语言模型 DeepSeek
在人工智能领域，基于对话的语言模型已成为当前研究的热点，其中以ChatGPT为代表的模型凭借其卓越的语言理解与交互能力备受瞩目。为帮助用户更好地选择和使用这类AI工具，本文将介绍12个国内可直接体验对话聊天功能的平台，为用户提供实用参考。1、腾讯元宝地址：https://hunyuan.tencent.com/bot/chat腾讯混元大模型是由腾讯全链路自研的通用大语言模型，拥有超千亿参数规模，预
《今日AI-人工智能-编程日报》-源自2025年3月21日小亦编辑部人工智能
一、AI编程领域最新动态AI编程工具崛起，程序员职业面临挑战Anthropic首席执行官DarioAmodei预言，未来一年内，90%的代码将由AI生成，传统程序员的工作可能被大幅替代。最新发布的AI编程模型（如Claude3.7、Sonnet3.7）在初级开发评估中表现优异，得分率超过60%，部分模型甚至在全球程序员排名中位列前0.1%。字节跳动的Trae海外版接入Claude3.7和GPT-4
《今日AI-人工智能-编程日报》-源自2025年3月19日小亦编辑部每日AI-人工智能-编程日报人工智能
1.豆包AI编程功能迎来三项重磅升级豆包平台今日宣布其AI编程功能迎来三项重要升级，包括：HTML实时预览：支持用户在编写HTML代码时实时查看网页效果，显著提升前端开发效率，尤其适用于小游戏和网页制作。Python代码直接运行与一键修复：用户可直接运行Python代码，并在出错时一键修复，极大降低了编程门槛，提升了开发效率。生成完整项目：新增生成完整项目的功能，帮助用户快速创建应用程序，缩短开发
普通人学习AI应该如何入手？2025年最新AI大模型学习路线+全套学习资料，适合新手小白！小城哇哇人工智能学习大数据语言模型 AI大模型 agi ai
引言随着人工智能（AI）技术的飞速发展，越来越多的人开始意识到掌握这项技能的重要性。然而，对于许多没有编程背景或数学基础的人来说，进入AI领域似乎是一个遥不可及的梦想。但实际上，通过合理的规划和适当的学习资源，任何人都可以逐步掌握AI的核心知识，并应用到实际工作中去。本文将为普通读者提供一份详细的2025年最新AI大模型学习路线图，并附带一套完整的自学资料，帮助您从零基础起步，顺利开启AI学习之旅
知识蒸馏：让大模型“瘦身“而不失智慧的魔术一休哥助手人工智能人工智能
引言：当AI模型需要"减肥"在人工智能领域，一个有趣的悖论正在上演：大模型的参数规模每年以10倍速度增长，而移动设备的算力却始终受限。GPT-4的1750亿参数需要价值500万美元的GPU集群运行，但现实中的智能设备可能只有指甲盖大小。这种矛盾催生了一项神奇的技术——知识蒸馏（KnowledgeDistillation），它就像给AI模型进行"脑外科手术"，将庞然大物的智慧浓缩到轻量模型中。第一章
10.2 如何解决从复杂 PDF 文件中提取数据的问题？墨染辉大语言模型 pdf
10.2如何解决从复杂PDF文件中提取数据的问题？解决方案：嵌入式表格检索解释：嵌入式表格检索是一种专门针对从复杂PDF文件中的表格提取数据的技术。它结合了表格识别、解析和语义理解，使得从复杂结构的表格中检索信息成为可能。具体步骤：表格检测和识别：目标：在PDF页面中准确地定位和识别表格区域。方法：使用计算机视觉和深度学习技术，如卷积神经网络（CNN）或其他先进的图像处理算法。效果：能够检测出页面
3090显卡Ktransformer本地部署deepseek R1:70B SIATdog ai
这里写自定义目录标题效果完成视频：配置参考依赖安装安装cuda配置环境下载deepseekR170B下载ktransoformer开始安装运行Web启动常见问题runtimeerrordon'tmatch更新cudaERROR:Failedtobuildinstallablewheelsforsomepyproject.tomlbasedprojects(ktransformers)效果完成视频：
TensorFlow深度学习实战项目：从入门到精通点我头像干啥 Ai 深度学习 tensorflow 人工智能
引言深度学习作为人工智能领域的一个重要分支，近年来取得了显著的进展。TensorFlow作为Google开源的深度学习框架，因其强大的功能和灵活的架构，成为了众多开发者和研究者的首选工具。本文将带领大家通过一个实战项目，深入理解TensorFlow的使用方法，并掌握深度学习的基本流程。1.TensorFlow简介1.1TensorFlow是什么？TensorFlow是一个开源的机器学习框架，由Go
使用大语言模型API在AI应用中的实现 qq_37836323 人工智能语言模型自然语言处理 python
随着人工智能技术的迅速发展，大语言模型（LLM）在自然语言处理（NLP）领域的应用越来越广泛。本文将介绍如何使用大语言模型API来实现一些基础的AI应用，并提供一个简单的demo代码，帮助大家更好地理解和使用这些技术。大语言模型API简介大语言模型（如GPT-4）能够理解和生成类似人类的文本。这些模型可以应用于各种任务，包括文本生成、语言翻译、情感分析、对话系统等。为了方便国内用户访问这些强大的模
【深度学习】 PyTorch一文详解 Nerous_ 深度学习深度学习 pytorch 人工智能机器学习 python
“PyTorchisadeeplearningframeworkthatprioritizessimplicityandflexibility,makingitthego-tochoiceforbothresearchersanddevelopers.”—Anonymous1.PyTorch简介1.1PyTorch的背景与发展PyTorch是由Facebook人工智能研究院（FAIR）开发的一个开
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术 Mark White dnn 人工智能神经网络
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术在深度学习的精密机械中，有些细微的调整机制往往被视为理所当然，却实际上蕴含着深刻的数学洞察和巧妙的工程智慧。今天，我们将探讨两个看似独立却本质相通的机制：生成模型中的温度参数与Transformer注意力机制中的缩放因子。这两个设计都围绕着同一个核心概念——softmax分布的平滑控制。Softmax函数：概率分布的催化剂在深入讨论之前，
存算一体与存算分离：架构设计的深度解析与实现方案克里斯蒂亚诺罗纳尔多阿维罗大数据数据库
随着数据量的不断增大和对计算能力的需求日益提高，存算一体作为一种新型架构设计理念，在大数据处理、云计算和人工智能等领域正逐步引起广泛关注。在深入探讨存算一体之前，我们需要先了解存储和计算的基本概念，以及存算分离和存算一体之间的区别。什么是存算一体？存算一体，顾名思义，是将数据存储与计算资源紧密结合，形成一个统一的架构。在这种架构下，存储和计算不仅在物理层面上结合，更在架构设计上深度融合。具体来说，
自动语音识别（ASR）：技术、应用与未来 ajie1117 语音识别人工智能
自动语音识别（ASR）：技术、应用与未来1.ASR简介自动语音识别（ASR，AutomaticSpeechRecognition）是一种将语音转换为文本的技术。它利用人工智能（AI）、深度学习和自然语言处理（NLP）技术来识别和理解人类的语言，使计算机能够与人类进行更自然的交互。2.ASR的工作原理ASR的核心流程通常包括以下几个步骤：语音信号采集：通过麦克风或其他设备获取音频数据。预处理：去除噪
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l

序列处理的深度学习框架——从RNN到Transformer

目录

Chapter9 序列处理的深度学习框架

9.1 回顾语言模型 (Language Models Revisited)

9.2 循环神经网络 (Recurrent Neural Networks)

9.2.1 RNN的推断 (Inference in RNNs)

9.2.2 训练 (Training)

9.2.3 循环神经网络与语言模型 (RNNs as Language Models)

9.2.3 RNN 的其它应用 (Other Applications of RNNs)

9.2.5 序列分类的RNN网络 (RNNs for Sequence Classification)

9.2.6 堆叠RNN与双向RNN (Stacked and Bidirectional RNN)

9.3 在RNN中管理内容：LSTM 与 GRU (Managing Context in RNNs: LSTMs and GRUs)

9.3.1 长短时记忆 (Long Shot-Term Memory)

9.3.2 门控循环单元 (Gated Recurrent Units)

9.3.3 门单元，层与网络 (Gated Units, Layers and Networks)

9.4 自注意力网络：Transformers (Self-Attention Networks: Transformers)

9.4.1 Transformers作为自回归语言模型 (Transformers as Autoregressive Language Models)

文本生成和摘要 (Contextual Generation and Summarization)

9.4.2 Transformer 模型结构总结 (Summary of Transformer Model Architecture)

9.5 语言模型的潜在危害 (Potential Harms from Language Models)

9.6 总结

你可能感兴趣的:(LSTM,Transformer,课程笔记,人工智能,神经网络)