袁乃青

第九章：序列处理与循环网络_Dan Jurafsky《自然语言处理综述》(第三版)读书笔记

9.0 前言
9.1 简单的循环神经网络
- 9.1.1 简易RNN中的推理
- 9.1.2 训练
- 9.1.3 将网络展开为计算图
9.2 循环神经网络的应用
- 9.2.1 循环神经语言模型
- - 神经语言模型用于生成
- 9.2.2 序列标注
- - 维特比和条件随机场(CRFs)
- 9.2.3 RNNs应用于序列分类
9.3 深度网络：堆叠与双向RNNs
- 9.3.1 堆叠 RNNs
- 9.3.2 双向 RNNs
9.4 RNN 中上下文的处理方法：LSTM 和 GRU
- 9.4.1 长短期记忆（Long Short-Term Memory）
- 9.4.2 Gated Recurrent Units (GRU)
- 9.4.3 门控单元，层，网络
9.5 词语、subwords、字符
总结
文献和历史说明

9.0 前言

语言是一种时间现象。当我们理解和产出口语时，我们是在处理一个不定长度的连续输入流。即使是处理书面文本，我们通常也是按顺序来处理，虽然我们原则上是可以同时对所有元素进行任意访问的。我们常用的一些隐喻反映了语言的时间本质：我们常说语流、新闻流、推特流，这些都表明语言是随着时间展开的序列。这些时间性质，也体现在语言处理所用的算法当中。当应用于词类标注时，维特比算法是逐词输入，并沿途收集信息。后面章节的句法分析算法也类似。
相反，情感分析以及其他分类任务使用的机器学习算法不具有这种时间特性。他们可以同时处理输入的每一部分。前馈神经网络也是这样，包括神经语言模型的构建。这种网络使用固定长度的输入向量，用权重来捕获一个输入样本的全部信息。但是这样就很难处理长度不定的序列，也无法捕获语言中时间方面的先后信息。
我们见过神经语言模型处理这些问题的方法。模型使用固定大小的窗口来接受输入信息；通过滑动窗口来处理后面的序列，并不断对后词做出预测；最终的结果是一个预测出的序列。问题是，通过一个窗口得到的结果对后续的预测没有任何影响；
使用滑窗的方法有一系列问题：第一，与马尔可夫方法具有同样的弊端，限制了提取信息的语境长度。在语境窗口之外的信息对预测结果没有影响。这是一个很严重的问题，因为某些语言任务所需要的信息，与正在处理的时间点的距离是任意的；第二，窗口的使用让网络难以学到一些系统化的结构，比如固定搭配等。比如在窗口为 3 的网络中，输入时 the ground 当前如果处在窗口第二、第三的位置上，上一个时间点它们就处在第一、第二的位置，这样就强制网络学习到两个独立的搭配，而实际上它俩是一个。？
本章的主题是循环神经网络（recurrent neural network），它是一种可以解决以上问题的网络，直接处理语言的时序方面，让我们可以处理不同长度的输入，而无需使用固定大小的窗口，为我们提供了捕获和探索语言时间特性的方法。

9.1 简单的循环神经网络

在网络的连接中存在循环的网络称为循环神经网络（RNN）。也就是，在网络中的一个单元，直接或间接地把之前的一些输出作为一个输入。虽然很强大，但是这类网络却难以解释和训练。不过，在循环网络这一大类里，有一些是受限制的结构，可以很有效地应用于口语和书面语的处理中。这一部分，我们介绍 Elman 网络（1990），或者称为简易循环网络。这类网络自身就很有用，并且可以作为更加复杂的网络的基础。后面当我们说 RNN 的时候，指的就是此类简单又受限制的网络。
下图是简易 RNN 的结构。与常规的前馈网络一样，使用一个向量表示输入 x_t，乘以一个权重矩阵，再通过一个激活函数计算得到隐藏层的一个单元值，最后再计算相应的输出 y_t 。与基于窗口的方法不同的是，序列的处理方式是网络在每个时间点处理一个元素。与前馈网络最本质的区别是图中虚线表示的循环链路。这个链路为隐藏层的计算增加了一个输入值，这个输入值来自于前一个时间点的隐藏层激活值。
前一个时间步的隐藏层提供了记忆或者语境，把前面的处理进行了编码，然后为后续时间点的决策提供信息。很重要的一点是，这个结构对上文的长度没有要求，前一时间步的隐藏层所包含的信息，是序列从开头之后的所有信息。
添加时间维度可能让 RNN 看起来比非循环的结构更加标新立异，但是实际上并不是完全不同。加入了前一时间步隐藏层传递过来的向量作为一个输入向量，我们做的仍然是标准的向前计算。下图展示了循环的本质，以及在隐藏层中的计算过程。最大的变化是有一个新的权重矩阵 $U$ ，这个矩阵连接了前一时间步的隐藏层和当前时间步的隐藏层。这个权重矩阵决定了网络如何使用过往的语境信息来计算当前时间步的输出。与网络中的其他权重一样，这个连接矩阵也是通过反向给传播训练得到。

9.1.1 简易RNN中的推理

RNN 中的前向推理（将一个输入序列投射为一个输出序列）与前馈网络中的一样。使用输入 x_t 计算输出 y_t，我们需要隐藏层 h_t 的激活值，为了计算 h_t，我们需要用 x_t 乘以权重矩阵 W，用前一时间步的 h_t-1乘以权重矩阵 U，然后把两个乘积相加，得到的和再传入一个合适的激活函数 g，这样就得到了隐藏层的激活值 h_t 。之后我们就可以用常规的计算来产生输出向量了。 $h_t = g(Uh_{t-1}+Wx_t)$ $y_t=f(Vh_t)$ 在常见的soft分类中，y_t 的计算涉及 softmax 计算，也就是在所有可能的输出上提供一个标准化了的概率分布。 $y_t=softmaxt(Vh_t)$ t 时刻的计算需要 t-1 时刻的隐藏层值，这就需要一个递进的推理算法，可以从头处理序列一直到最后。算法如下：

把循环网络展开，我们可以看到它具有的顺序特性。在下图中，每个时间步的各层和单元结构都一样，只是值不同，不过他们共享各个权重矩阵。

9.1.2 训练

与前馈网络一样，循环网络中我们也要用一个训练集，一个损失函数，使用反向传播的方式获得梯度然后对权重进行调整。如图 9.3 所示，我们有三个权重矩阵需要更新：W，它是输入层到隐藏层的权重；U，它是前一时间步的隐藏层到当前时间步的隐藏层的权重；V，它是隐藏层到输出层的权重。
在继续之前，我们首先复习几个第七章中的概念。假设有一个输入层为 x 、一个非线性激活函数为 g 的网络， $a^{[i]}$ 表示 $i$ 层的激活值，也就是把 $z^{[i]}$ 传入到 a 得到的结果， $z^{[i]}$ 是这一层输入的加权值。
上面那图展示了两件反向传播时需要考虑的事情，它们在前馈网络中无需关注。第一，计算 t 时刻的损失函数，我们需要 t-1 时刻隐藏层；第二，t 时刻的隐藏层会同时影响 t 时刻的输出，以及 t+1 时刻的隐藏层（也就影响 t+1 时刻的输出和损失）。由此得出，为了评估 $h_t$ 产生的误差，我们需要知道它对当前输出以及后续输出产生的影响。？
我们来观察下图中时间步2的输入/输出。我们要如何计算以更新 U，V，W ？我们先来看看如何更新 V，因为这里与前馈网络是一样的，我们需要计算损失函数 L 关于权重 V 的导数。但是由于损失不是直接用权重表示的，我们使用链式法则来间接地求得。
$\frac {\partial L}{\partial V}=\frac {\partial L}{\partial a}\frac {\partial a}{\partial z}\frac {\partial z}{\partial V}$
公式右侧的第一项是损失函数关于网络输出 a 的导数，第二项是网络输出关于…(这段后部分感觉有误，不过影响不大。)
我们把前两项用 $\delta$ 来表示，它是一个误差项，表示输出层每个单元的变化量对损失的影响大小： $\delta_{out}=\frac {\partial L}{\partial a}\frac {\partial a}{\partial z}$ $\delta_{out}=L'g'(z)$ 因此，用来更新权重矩阵 V 的最终梯度就是： $\frac {\partial L}{\partial V}=\delta_{out}h_t$
然后，我们需要计算权重矩阵 W 和 U 的相应梯度： $\frac {\partial L}{\partial W}$ 和 $\frac{\partial L}{\partial U}$ 。这里我们遇到了第一个与前馈网络实质上的不同。t 时刻的隐藏状态影响了 t 时刻的输出以及相应的误差，也影响了 t+1 时刻的输出和也相应误差。因此，隐藏层的误差项 $\delta_h$ ，必定是当前输出的误差项与下一时间步的误差之和。
$\delta_h = g'(z)V\delta_{out}+\delta_{next}$ 给定这个隐藏层的全部误差项，我们可以使用链式法则计算权重 U 和 W 的梯度了。

这些梯度为我们提供了更新矩阵 U 和 W 的所需信息。不过这还没完，我们仍然需要计算前一隐藏层 $h_{t-1}$ 的误差项，以进行后续处理。也就是基于权重矩阵 U 将误差从 $\delta_h$ 向后传到 $h_{t-1}$ 。 $\delta_{next}=g'(z)U\delta_h$ 到这里我们就得到了全部梯度来对三个权重矩阵进行更新了。注意，在这个简单的例子中，没有必要把误差通过 W 传递到输入 x ，因为输入的训练数据都是固定值。当然如果我们希望更新我们的输入词语或者是词嵌入，我们也可以将误差一直向后传递到它们。
总体来看，训练 RNN 中的权重是一个双线算法。第一条线，我们进行前向推理，计算 $h_t$ , $y_t$ ，把每一个时间步的损失都加起来，保存每一个时间步的隐藏值以用于下一时间步。第二条线，我们反向处理这个序列，计算误差项梯度，计算并保存误差项以用于后向每个时间步的隐藏层。这个方法被称为 Backpropagation Through Time (BPTT)。

9.1.3 将网络展开为计算图

我们用了上面的网络展开图来说明了 RNN 的时间特性。不过，利用现代化的计算框架和充足的计算资源，显式地把循环网络展开为深度前馈计算图，对于逐词进行句子级处理非常实用。在这种方法中，我们提供了一种范式，把网络的基本结构具体化出来，包括输入层、隐藏层、输出层等的参数，权重矩阵，还有激活函数、输出函数。然后，当传入真实的输入序列，我们可以为这个输入生成一个展开的前馈网络，然后使用这个图来进行前向推理或者通过反向传播进行训练。
对于那些需要处理很长输入序列的应用，比如语音识别、字符级句子处理、或者连续输入流，把整个输入序列展开可能就不太实际。在这种情况下，我们可以把输入展开为可操作的定长片段，把每个片段作为一个单独的训练项。

9.2 循环神经网络的应用

循环神经网络被证明是非常有效的方法，尤其是在建立语言模型、词类标注等序列标注任务，还有情感分析、主题分类等分类任务上。在后面的章节中我们也会看到，RNN 为摘要、机器翻译、问答系统等 sequence-to-sequence 方法打下了基础。

9.2.1 循环神经语言模型

我们已经见过两种建立概率语言模型的方法了：N 元模型、带滑窗的前馈网络，给定上文语境，都可以预测后面的词语。准确地说，是给定上文词语，它们可以计算出下一个词语的条件概率， $P(W_n|W^{n-1}_1)$ 。
在两种方法中，模型的质量大体上取决于上下文的长度以及模型对语境的有效利用。因此，两种模型都受到马尔可夫假设（也就是下面公式）的限制：
$P(W_n|W^{n-1}_1)≈P(W_n|W^{n-1}_{n-N+1})$ 也就是说，在 N 个上文词语以外的内容，对计算没有任何贡献。
循环神经语言模型处理序列时，每个时间步处理一个词语，使用当前词语和前面的隐藏状态作为输入，预测序列中的下一个词语。这样就避免了 N 元模型和前馈网络对上下文长度的限制，因为隐藏状态包含了前面所有词语的信息。
循环语言模型的前向推断与 9.1.1 中描述的一样。每个时间步，网络获取一个词语的嵌入，然后与前面时间步产生的隐藏状态加在一起计算新的隐藏状态。这个新的隐藏状态继续产生输出层，最后通过 softmax 层在全体词汇表上生成一个概率分布。 $P(W_n|W^{n-1}_1)=y_n=softmax(Vh_n)$ 最后，整个序列的概率就是序列中每一项的概率的积。
$P(w^n_1)=\prod_{k=1}^nP(w_k|w^{k-1}_1)=\prod_{k=1}^ny_k$
正如第7章中介绍的，训练这个模型我们需要具有代表性的语料库作为训练材料。任务是给定上文词语预测下一个词语，使用交叉熵作为损失函数。单个样本的交叉熵损失就是正确词语的负对数概率，也就是输出层使用 softmax 后的结果。 $L_{CE}(\hat y,y)=-log\hat y_i=-log\frac{e^{z_i}}{\sum^K_{j=1}e^{z_j}}$ 这里，正确词语 $i$ 是语料中真正的下一个词语， $y_i$ 是整个词语对应的概率，softmax 是作用在整个长度为 $K$ 的词典上。网络中的权重通过最小化交叉熵损失得到调整。

神经语言模型用于生成

在第三章中我们看过概率莎士比亚生成器，使用香农(1951)的方法随机生成句子。过程如下：

首先使用句子开头的标记 ~~从softmax得到的输出中选择一个词语作为第一个输入。~~

~~把第一个词的词嵌入输入到网络中，然后再从输出结果中得到下一个词语。~~

~~继续生成后续词语直到生成句子结尾标记~~，或者达到了句子的最大长度。
这种技术叫做自回归生成 (autoregressive generation) ，因为每个时间步所生成的词语取决于前一个时间步所生成的词语。如下图所示，RNN 的隐藏层和循环连接细节隐藏在蓝色块中。

这个结构为机器翻译、自动摘要、问答等应用启发出达到sota水平的方法。这些方法的关键是为生成组件提供合适的上下文。在第10章我们会讲编码-解码网络。
最后，我们可以正式地评估生成文本的质量，方法是使用困惑度，对比生成的输出与训练语料库中的样本。 $PP(W)=\sqrt[N]{\prod_{i=1}^N\frac1{P(w_i\vert w_{i-1})}}$ 困惑度越低，说明模型越好。

9.2.2 序列标注

在序列标记中，网络的任务是从一个固定的标签集合中选择标签，为序列中的每一个元素打上标签。一个标准的例子就是词性标注。使用 RNN 进行词性标注，输入的是词嵌入，输出的是在标签集上使用 softmax 后每个标签的概率，如下图所示。

上图中，每一个时间步的的输入是与输入词语相对应的预训练的词嵌入。其中一个展开的简单循环网络被抽象为 RNN 模块，里面包含每个时间步的输入层、隐藏层、输出层，也包括共享的 U、V、W 这些权重矩阵。网络在每一个时间步的输出为 softmax 层生成的概率在词性标签集上的分布。
为了生成一个给定输入的标签序列，我们可以在输入序列上运行前向推理，然后通过 softmax 选出每一步最有可能的标签。因为我们在输出概率分布式时使用的是 softmax，我们在训练的时候仍然使用交叉熵损失。
还有一个与序列标注紧密相关且极其有用的应用，就是在某些任务领域中发现并且标注出一段文本，命名实体识别（named entity recognition）就是其中一种，就是在文本中找到所有人名、地名、组织名称。（17章中会详解）
使用序列标注解决片段识别问题，我们将用到一个叫做 IOB编码的技术。简单来说就是，我们用 B 来标注片段开始的词语，I 表示片段内的词语，O 表示片段之外的词语。可以参考下面这个例子：

上图中，我们感兴趣的片段就是 United、Denver、San Francisco 。
如果我们希望得到更具体的实体类别（比如找到并区分人名、组织名、地点名），我们可以把 B 和 I 更加具体化，这时候标签集的会从3个标签增长为 2*N+1 个标签，这里的 N 是类别的数量。那么上面的例子就会被重新编码为：

通过这样的编码方式，我们把片段识别任务简化成了每个词语的标注任务，输入还是常用的词嵌入，每个点的输出还是经过 softmax 计算后的标签的概率分布。
序列标注还能解决的一个问题是结构预测（structure prediction），比如输入一个序列，产生一个结构化的输出，例如一棵分析树或者意义表示。
One way to model problems like this is to learn a sequence of actions, or operators, which when executed would produce the desired structure. Therefore, instead of predicting a label for each element of an input sequence, the network is trained to select a sequence of actions, which when executed in sequence produce the desired output. The clearest example of this approach is transition-based parsing which borrows the shift-reduce paradigm from compiler construction. 以上整段不理解，第13章依存分析会讲到这个。

维特比和条件随机场(CRFs)

当我们把逻辑回归应用于词性标注，独立地为序列中的每一个元素选择一个最有可能的标签，有时候效果并不好。在 IOB 标注的例子中，甚至不能保证结果在形式上的合理性。比如，上面的方法并不能避免标注结果出现一个 I 跟在在一个 O 后面（ OI 这种情况是不合理的）。同样地，进行多分类的时候，也避免不了 I-LOC 跟在 B-PER 后面。
解决这个问题的一个方法是把循环网络的输出序列与另一个输出层语言模型结合起来，比如第8章中的。然后我们可以使用一个维特比算法的变体来选择最有可能的标签序列。这种方法通常是在循环网络的最后一层增加一个 CRF 层。

9.2.3 RNNs应用于序列分类

RNNs 的另一个用法是把整个序列进行分类。我们在第4章中讨论过情感分析。其他的还包括文档级的主题分类、垃圾邮件识别、客服系统的消息发送、欺诈检测等。在这些应用中，文本中的序列会在一个小型类别目录中被分类。
这种应用的实现方式是：把需要分类的文本逐词传入 RNN 中，每个时间步生成一个新的隐藏层，文本的最后一个词语生成最后一个隐藏状态 $h_n$ ，它作为整个序列压缩后的表示，然后再把它作为输入传到一个前馈网络中，最后通过 softmax 选择出最可能的类别。

注意，在上面的方法中，在最后一个词语之前的所有词语，都没有任何的输出。因此，前面的词语没有相应的损失项。用来训练网络中权重的损失函数只与最后的文本分类任务相关。具体来说，前馈分类器的 softmax 输出加上交叉熵损失，共同驱动网络的训练。分类的误差信号反向通过前馈分类器传播到它的输入，再通过 RNN 传播到RNN的三组权重。这种把简单循环网络与前馈分类器结合的方法是我们第一个深度神经网络。这种使用使用下游应用程序的损失来调整整个网络的权重的方案，被称为端到端训练（end-to-end training）。

9.3 深度网络：堆叠与双向RNNs

从图 9.9 展示的序列分类结构可以看出，循环网络非常的灵活。把展开的计算图的前馈特性与向量化的输入输出结合起来，复杂的网络就可以看作是各类模块的创造性结合。这一部分介绍两种语言处理中更为常用的基于 RNN 的网络架构。

9.3.1 堆叠 RNNs

直到目前，我们看到的例子中 RNN 的输入是词语序列或者词嵌入，输出是一组向量，用来预测单词、标签、或者序列标注。然而，其实我们也可以把一个 RNN 的整个输出序列作为输入传到另一个 RNN 。堆叠RNNs 包含多个网络，一层的输出作为后续层的输入，如下图。

很多任务都证实堆叠 RNNs 要比单层网络效果好。一个原因是不同的网络层对表示有不同的抽象能力。正如人类的视觉系统，初期检测到边缘，然后用来发现更大的区域或形状。网络初始各层产生的表示，将作为后续层有用的抽象，而这是单层 RNN 很难做到的。
堆叠RNNs的最优数量根据具体应用和训练集不同。不过，堆叠得越多训练成本会增加相当之快。

9.3.2 双向 RNNs

在一个简单循环网络中，时刻 t 的隐藏状态表示网络截至 t 时刻对序列所知的一切。也可以说，时刻 t 的隐藏状态是截至 t 时刻的所有 input 的函数结果。我们可以把它看作是当前时刻网络左侧的语境: $h_t^f=RNN_{forward}(x_1^t)$ 这里 $h_t^f$ 对应 t 时刻的隐藏状态，表示目前收集到的关于序列的所有信息。
某些情况下，我们是可以同时得到整个输入序列的。我们可能会问：当前输入的右侧语境是否有用？一种获得此类信息的方法是使用反向序列作为输入训练 RNN ，使用的网络与我们之前讨论的一样。使用这种方法，时刻 t 的隐藏状态就变成了当前 input 右侧的全部序列信息： $h_t^b=RNN_{backward}(x_t^n)$ 这里 $h_1^n$ 表示从时刻 t 一直到序列结尾的信息。
将向前和向后两个网络结合起来就成了双向 RNN（bidirectional RNN）(Schuster,1997)。一个 Bi-RNN 包含两个独立的 RNN ：一个的 input 是从开头到结尾，一个的 input 是从结尾到开头。然后我们把两个网络的 output 结合为一个 representation，在任何一个时刻它就都捕获了当前 input 的左右全部语境。 $h_t=h_t^f ⊕h_t^b$
下图展示了一个双向网络，把向前和向后的 outputs 直接连接起来(concatenate)。当然将向前和向后的语境结合起来的方法包括逐个元素相加或者相乘等。每个时刻的 output 捕获到了当前 input 左右两边的信息。在序列标注应用中，这种连接 outputs 的方法可以作为局部标注的基础。

双向 RNN 也被证明是序列分类的有效方法。还记得在进行序列分类时，我们用最后的隐藏状态作为后续前馈分类器的输入，这样做的一个问题是最终隐藏状态一般会带有更多的语句后部的信息，语句前部信息较少。双向 RNN 就解决了整个问题，如下图，我们把向前网络和向后网络各自的最终状态结合起来，作为后续处理的 input 。这里直接连接（concatenation）还是常用的结合两个 outputs 的方法，不过向量内逐个元素相加、相乘或者取平均也经常用到。

9.4 RNN 中上下文的处理方法：LSTM 和 GRU

实践表明，很难训练出能充分利用与当前时刻较远的信息的 RNN。尽管可以访问整个前面的序列，隐藏状态内编码的信息往往具有局部性，也就是与最近的输入序列和状态相关。然而，很多情况下，很多语言应用中远距离信息非常关键。比如，在进行语言建模的时候有下面这个例子：
The flights the airline was cancelling were full.
在 airline 后面，模型将会给 was 一个较高的概率，因为 airline 为数的一致性提供了一个相当强的局部语境。但是，给 were 一个合理的概率就很困难了，不只因为复数 flights 非常远，而且还因为中间的语境包含单数成分。理想情况下，网络需要能够一直保留远端复数 flights 的信息直到被使用，还能够正确处理序列的中间部分。
RNN 不能有效传递关键信息的一个原因来源于隐藏层，进一步说是那些决定隐藏层值的权重，它们同时承担了两个任务：为当前决策提供有用的信息；为未来的决策传递、更新信息。
第二个训练RNN 的困难来自于通过时间来反向传递误差信号。t 时刻的隐藏层因为要参与下一时间步的计算，所以会对下一时间步的损失产生影响。 As a result, during the backward pass of training, the hidden layers are subject to repeated multiplications, as determined by the length of the sequence. 这个过程的结果是梯度会最终趋向于零，也就是所谓的梯度消失（vanishing gradients）。
为了解决这些问题，更加复杂的网络架构被设计出来，以实现随着时间保存相关上下文信息。具体来说，网络要学会忘记那些不需要的信息，记住那些能用于未来决策的信息。

9.4.1 长短期记忆（Long Short-Term Memory）

LSTM 网络（Hochreiter, 1997）把上下文管理问题分为两个子问题：移除不再需要的上下文信息、添加用于未来决策的信息。解决这两个问题的关键是学习到管理上下文的方法而不是对架构进行硬编码。LSTM 实现的方法是，首先在常规的循环隐层之外，增加一个显性的上下文层：使用特殊化的多个神经单元组成这一层，这些单元利用 “门” 来控制信息在单元内的流入和流出。这些门的实现是使用额外的权重，按顺序对 input、前一隐层、前一上下文层进行操作。
LSTM 中的门都是同样的设计：每一个都包含一个前馈层加 sigmoid 激活函数，然后与被门控的层进行点乘。选择 sigmoid 作为激活函数是希望它的输出处于0到1之间。Combining this with a pointwise multiplication has an effect similar to that of a binary mask. 被门控的层的值与近1相乘则值会没有什么变化地向后传递；值与近0相乘则会被抹掉。
第一个门被称为遗忘门（forget gate），目的是从上下文信息中删除不会用到的信息。遗忘门对前一隐藏状态和当前 input 进行加权求和，并传入 sigmoid 函数。然后结果作为掩膜（mask）与上下文向量相乘，以移除不再需要的上下文信息。 $f_t=\sigma(U_fh_{t-1}+W_fx_t)$ $k_t=c_{t-1}⊙f_t$ 接下来是从前一隐藏状态和当前 inputs 中提取出实际的信息——这与循环网络中基本的计算一样。 $g_t=tanh(U_gh_{t-1}+W_gx_t)$ 再接下来我们为增加门（adding gate）生成一个mask，选择出信息以增加到当前上下文。 $i_t=\sigma(U_ih_{t-1}+W_ix_t)$ $j_t=g_t⊙i_t$ 然后我们把它加到修正后的上下文中。 $c_t=j_t+k_t$ 最后的一个门是输出门（output gate），用来决定当前隐藏状态需要哪些信息（而不是为未来决策保留哪些信息）。 $o_t=\sigma(U_oh_{t-1}+W_ox_t)$ $h_t=o_t⊙tanh(c_t)$

图9.13展示了 LSTM 的一个单元的完整计算。给这些门合适的权重，LSTM 把前一时间步的上下文层、隐藏层以及当前 input 作为输入。然后它生成新的上下文向量和隐藏向量作为输出。隐藏层 $h_t$ 可在堆叠的 RNN 中作为后续层的 input ，或者为网络的最后一层生成 output 。

9.4.2 Gated Recurrent Units (GRU)

LSTM 为循环网络引入了大量的额外参数，使得我们现在需要学习 8 组权重（也就是每个单元中的 4 个门都需要学习 U 和 W），而在简单的循环单元中我们只需要学习 2 组。训练这些额外的参数会大大增加训练成本。GRU（Cho，2014）不再使用独立的上下文向量，把门的数量减少到 2 ，一个重置门 r，一个更新门 z。 $r_t=\sigma(U_rh_{t-1}+W_rx_t)$ $z_t=\sigma(U_zh_{t-1}+W_zx_t)$ 和 LSTM 中一样，在这些门的设计当中，sigmoid 的使用是得到一个二元掩膜（a binary-like mask），当值接近 0 的时候阻断信息，当值接近 1 的时候使信息流过。
重置门的目的是：决定前一隐藏状态中，哪一方面与当前语境相关，哪些可以被忽略。通过将 r 与前一隐藏状态进行元素相乘，得到一个 mask，然后用这个mask值计算 t 时刻隐藏状态的一个中间表示。 $\tilde h_t=tanh(U(r_t)⊙h_{t-1}+Wx_t)$ 更新门 z 的工作是：决定这个中间表示的哪一方面会被用到新的隐藏状态中，以及前一隐藏状态的哪一方面会被保留。它的实现方式是： $h_t=(1-z_t)h_{t-1}+z_t\tilde h_t$

9.4.3 门控单元，层，网络

在 LSTM 和 GRU 中所用的神经单元很明显比基础的前馈网络中的要明显复杂。幸运的是，这种复杂性被封装在基本处理单元中，是我们能够保持模块化，并能轻松地尝试不同的架构。要看到这一点，图 9.14 表示出了与每种单元相关的输入和输出。

最左边的（a）是一个基础的前馈单元，使用一组权重和一个激活函数来决定输出，层中的各单元间没有连接。（b）表示简单循环网络中的一个单元，有两个 input，还增加了一组权重，不过仍然是只有一个激活函数和一个输出。
LSTM（c）和 GRU（d）把增加的复杂性封装在了单元内。与（b）相比，LSTM 在外部提升的复杂度是增加了上下文语境向量作为 input 和 output。GRU 与简单循环网络有一样的 input 和 output 结构。
这种模块化是 LSTM 和 GRU 单元功能强大和广泛应用的关键。LSTM 和 GRU 单元可以替换 9.3 节中介绍的所有网络架构。而且，与单间的 RNN 一样，使用门控单元的多层网络可以展开为深度前馈网络，并通过常规方式使用反向传播进行训练。

9.5 词语、subwords、字符

一直到现在，我们一直假设网络的 input 是词嵌入。正如我们看到的，基于单词的嵌入非常适合捕捉单词之间的分布相似性（句法和语义）。然而，凡事就怕然而，只用基于词语的方法还是有缺陷的：

对于某些语言和应用，词典过大，把每一个可能的词语表示为嵌入不太实际。需要使用较小成分组成单词的方法。
不论词典多大，我们都会遇到未知词，因为会有新词、拼写错误、从其他语言借词。
单词级别以下的形态信息，是很多语言和应用的重要信息来源。基于单词的方法看不到这种规律。
过去几年，人们探索了多种替代基于单词的方法。下面是已经尝试过的主要方法。
完全忽略单词，仅使用字符序列作为 RNN 的 input。
使用诸如从字节对编码或语音分析中派生的 subword 作为 input。使用成熟的形态学分析 to derive a
linguistically motivated input sequence.
毫无疑问，没有一个最好的方法可以适用所有的语言和应用。
一个特别成功的方法是将词嵌入与构成单词的字符嵌入相结合。
9.15 展示了在词性标注中一个方法。图的上部是一个 RNN，接收一个序列作为 input，并通过 softmax 输出词性标签的分布。注意这里的 RNN 可以具有任意的复杂度，可以包含堆叠的或者双向的网络层。
这个网络的 input 包含常规的词嵌入再加上字符级的信息。特别地，每个 input 由常规的词嵌入和一个双向 RNN 产生的嵌入拼接而成，这个 RNN 接收每个单词的字符序列作为输入，如图下部所示。
input 中每个单词的字符序列通过双向RNN运行，该RNN由两个独立的RNN组成，一个RNN从左到右处理，另一个从右到左。在 9.3.2 中我们讨论过，两个方向的 RNN 的最后隐藏状态拼接起来，来得到每个单词的复合的字符级表示。尤为重要的是，这些字符嵌入是在整个任务的背景下进行训练的，词性标注的 softmax 层的损失会一直传播回字符嵌入。

总结

这一章介绍了循环神经网络的概念以及如何把它们应用到语言问题。以下是对本章的重点：
在简单循环神经网络中，序列的处理是一个时间步一个元素。
一个神经单元在某一时刻的输出取决于当前的 input 和前一时间步的隐藏层值。
RNN 可以使用反向传播算法的一个扩展来训练，这个算法被称为通过时间的反向传播（BPTT）。
RNN 基于语言的常见应用包括：
概率语言建模，其中模型将概率分配给序列，或者在给定前面单词的情况下为后面元素分配概率。
使用训练好的模型进行自动回归生成。
序列标注，为序列中的每个元素打上标签，就如词性标注。
序列分类，把整个文本打上类别标签，如垃圾邮件分类、情感分析、主题分类。
Simple recurrent networks often fail since it is extremely difficult to successfully train them do to problems maintaining useful gradients over time.
更复杂的门控架构如 LSTM 和 GRU 被设计出来克服这些问题，它们可以显式地控制任务来决定在隐层和上下文层中记住或者忘记哪些信息。

文献和历史说明

关于 RNN 的较有影响力的研究是1980年代圣地亚哥大学的并行分布处理小组进行的。大部分的研究针对的是人类认知模型的构建而不是NLP应用（Rumelhart，1986）。在前馈网络的隐藏层中使用循环是Elman1990年提出的。Jordan（1986）研究了类似的架构，在output层使用了循环。Mathis（1995）在隐藏层之前增加了一个循环的上下文层。Rumelhart（1986）讨论了把循环网络展开为一个等价的前馈网络的可能性。
在认知建模工作进行的同时，人们在信号处理、语音社区等连续信号领域进行了广泛的演技（Giles，1994）.Schuster（1997）引入了双向 RNN，并且描述了TIMIT因素转录任务的结果。
训练RNN和处理长距离上下文的困难阻碍了实际应用的进展。然后LSTM的出现改变了这一困境（Hochreiter，1997）。在信号处理和语言处理的跨领域任务上，包括音素识别（Graves，2005），手写识别（Graves，2007），语音识别（Graves，2013），性能得到了巨大的提升。
Collobert（2008）等人的工作激发了人们将神经网络应用于实际NLP问题的兴趣。这些工作使用了预训练词嵌入，卷积网络，端到端训练。他们在多个标准的开放任务上实现了接近sota的性能，包括词性标注，语块、命名实体识别，语义角色标注，而无需使用人工特征工程。
将LSTM与基于word2vec（Mikolv，2013）和GLOVE（Pennington，2014）集合的方法迅速主导了很多常规任务：词性标注（Ling，2015），syntactic chunking（Sogaard，2016），使用IOB标记的命名实体识别（Chiu，2016），意见挖掘（Irsoy，2014），语义角色标注（Zhou，2015），AMR parsing（Foland，2016）。与早期设计统计机器学习的进步一样，这些进展得益于CONLL， SemEval和其他共享任务提供的训练数据，还有Ontonotes（Pradhan，2007），PropBank（Palmer，2005）提供的共享资源。

你可能感兴趣的:(NLP)

一文说清楚什么是预训练（Pre-Training）、微调（Fine-Tuning），零基础小白建议收藏！！小城哇哇人工智能语言模型 AI大模型大模型微调预训练 agi LLM
前言预训练和微调是现代AI模型的核心技术，通过两者的结合，机器能够在处理复杂任务时表现得更为高效和精准。预训练为模型提供了广泛的语言能力，而微调则确保了模型能够根据特定任务进行细化和优化。近年来，人工智能（AI）在各个领域的突破性进展，尤其是在自然语言处理（NLP）方面，引起了广泛关注。两项重要的技术方法——预训练和微调，成为了AI模型发展的基石。预训练通常是指在大规模数据集上进行模型训练，以帮助
GitHub项目推荐--基于LLM的开源爬虫项目惟贤箬溪穷玩Ai github 爬虫
以下是一些基于大语言模型（LLM，LargeLanguageModel）的开源爬虫项目，它们结合了自然语言处理（NLP）技术与爬虫的功能，能在一定程度上提升爬取的智能化和精度。这些项目可以用于自动化抓取、内容提取、数据分析等任务。1.GPT-3WebScraper简介：这是一个基于OpenAIGPT-3模型的网页抓取工具，利用GPT-3的自然语言理解能力来生成有用的爬虫策略、处理网页内容并提取有价
使用大语言模型API在AI应用中的实现 qq_37836323 人工智能语言模型自然语言处理 python
随着人工智能技术的迅速发展，大语言模型（LLM）在自然语言处理（NLP）领域的应用越来越广泛。本文将介绍如何使用大语言模型API来实现一些基础的AI应用，并提供一个简单的demo代码，帮助大家更好地理解和使用这些技术。大语言模型API简介大语言模型（如GPT-4）能够理解和生成类似人类的文本。这些模型可以应用于各种任务，包括文本生成、语言翻译、情感分析、对话系统等。为了方便国内用户访问这些强大的模
【NLP】 API在大语言模型中的应用 Nerous_ 深度学习自然语言处理语言模型人工智能
大语言模型（LargeLanguageModels,LLMs）通过API（应用程序接口）为开发者提供了便捷的调用方式，使其能够快速集成自然语言处理能力到各类应用中。以下是API在LLM中的核心应用场景及技术实现细节：一、核心应用场景自然语言理解与生成应用示例：智能客服：解析用户问题并生成回复（如ChatGPTAPI）。内容创作：自动生成文章、广告文案或代码（如OpenAI的GPT-4）。技术实现：
自动语音识别（ASR）：技术、应用与未来 ajie1117 语音识别人工智能
自动语音识别（ASR）：技术、应用与未来1.ASR简介自动语音识别（ASR，AutomaticSpeechRecognition）是一种将语音转换为文本的技术。它利用人工智能（AI）、深度学习和自然语言处理（NLP）技术来识别和理解人类的语言，使计算机能够与人类进行更自然的交互。2.ASR的工作原理ASR的核心流程通常包括以下几个步骤：语音信号采集：通过麦克风或其他设备获取音频数据。预处理：去除噪
《深度剖析：BERT与GPT——自然语言处理架构的璀璨双星》人工智能深度学习
在自然语言处理（NLP）的广袤星空中，BERT（BidirectionalEncoderRepresentationsfromTransformers）与GPT（GenerativePretrainedTransformer）系列模型宛如两颗最为耀眼的星辰，引领着NLP技术不断迈向新的高度。它们基于独特的架构设计，以强大的语言理解与生成能力，彻底革新了NLP的研究与应用范式，成为学界和业界竞相探索
Hugging Face预训练GPT微调ChatGPT（微调入门！新手友好！） y江江江江机器学习大模型 gpt chatgpt
HuggingFace预训练GPT微调ChatGPT（微调入门！新手友好！）在实战中，⼤多数情况下都不需要从0开始训练模型，⽽是使⽤“⼤⼚”或者其他研究者开源的已经训练好的⼤模型。在各种⼤模型开源库中，最具代表性的就是HuggingFace。HuggingFace是⼀家专注于NLP领域的AI公司，开发了⼀个名为Transformers的开源库，该开源库拥有许多预训练后的深度学习模型，如BERT、G
详解如何通过Python的BeautifulSoup爬虫+NLP标签提取+Dijkstra规划路径和KMeans聚类分析帮助用户规划旅行路线 mosquito_lover1 python beautifulsoup 爬虫 kmeans 自然语言处理
系统模块：数据采集模块（爬虫）：负责从目标网站抓取地点数据（如名称、经纬度、描述等）数据预处理模块（标签算法）：对抓取到的地点数据进行清洗和分类。根据地点特征（如经纬度、描述文本）打上标签（如“适合家庭”、“适合冒险”）。地理数据处理模块（地图API）：使用地图API获取地点的详细信息（如地址、距离、路径等）。计算地点之间的距离或路径。路径规划模块：根据用户输入的起点和终点，规划最优路径。支持多种
大规模语言模型从理论到实践分布式训练的集群架构 AI智能涌现深度研究 DeepSeek R1 &大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大规模语言模型从理论到实践分布式训练的集群架构作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，大规模语言模型（LargeLanguageModels,LLMs）在自然语言处理（NaturalLanguageProcessing,NLP）领域取得了突破性进展。LLMs，如BERT、GPT-3等，通
实战LLM强化学习——使用GRPO（DeepSeek R1出圈算法）大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
引言近年来，深度强化学习（DRL）已经成为解决复杂决策问题的一个强有力工具，尤其是在自然语言处理（NLP）领域的广泛应用。通过不断优化决策策略，DRL能在大量数据中学习最佳行为，尤其是大型语言模型（LLM）在任务中展现出的巨大潜力。然而，随着模型规模的扩大和任务复杂性的增加，传统的强化学习算法开始暴露出训练效率低、收敛速度慢等问题。为了解决这些挑战，DeepSeek公司提出了一个新的强化学习算法—
混合整数非线性规划的松弛与分解方法 Waiyuet Fung 混合整数非线性规划松弛方法分解技术启发式算法全局优化
背景简介混合整数非线性规划（MINLPs）作为运筹学中的一个重要领域，涉及到优化问题的连续和离散变量混合，在工程设计、生产调度、资源分配等多个领域发挥着关键作用。本书由I.Nowak撰写，旨在深入探讨这一复杂的优化问题及其解决方案。MINLPs基础概念在本书的第一部分，Nowak介绍了MINLPs的基本概念。MINLPs的目标是寻找一组连续和整数变量的最优组合，以最小化或最大化某个非线性目标函数。
文本纠错（Text Correction） dundunmm 人工智能数据挖掘文本纠错人工智能数据挖掘文本纠错深度学习
文本纠错（TextCorrection）是自然语言处理（NLP）中的一个重要任务，旨在自动检测并修正文本中的错误，包括拼写、语法、语义等层面的错误。其核心目标是通过算法模型将错误文本转换为符合语言规范的表达。该任务在自动写作辅助、搜索引擎优化、智能客服、教育等多个领域具有广泛应用。输入：包含错误的原始文本（如“我明天要去北京，希望天汽好。”）输出：修正后的规范文本（如“我明天要去北京，希望天气好。
使用CharacterTextSplitter实现文本按字符拆分 bavDHAUO python
在文本处理任务中，按字符进行拆分是一种简单且有效的方法。本篇文章将介绍如何使用CharacterTextSplitter类对文本进行按字符拆分，并生成适用于下游任务的LangChainDocument对象。技术背景介绍文本拆分是自然语言处理（NLP）中的一个基础步骤，尤其在大文本分块处理、文本摘要等任务中。CharacterTextSplitter是langchain-text-splitters
【产品小白】什么是AI产品经理百事不可口y 产品经理的一步一步人工智能产品经理学习产品运营内容运营用户运营
一、AI产品经理的定义与角色定位AI产品经理是人工智能技术与商业应用之间的核心桥梁，负责将复杂的AI技术转化为满足市场需求的产品。需同时具备技术理解力、商业洞察力和用户思维，既要参与算法选型与数据建模，又要定义产品功能与市场策略，是贯穿产品全生命周期的关键角色。与传统互联网产品经理相比，AI产品经理的独特之处在于：技术深度参与：需理解机器学习、自然语言处理（NLP）、计算机视觉等技术原理，并参与数
人工智能（AI）系统化学习路线 xiaoyu❅ python 人工智能学习
一、为什么需要系统化学习AI？人工智能技术正在重塑各行各业，但许多初学者容易陷入误区：❌盲目跟风：直接学习TensorFlow/PyTorch，忽视数学与算法基础。❌纸上谈兵：只看理论不写代码，无法解决实际问题。❌方向模糊：对CV/NLP/RL等细分领域缺乏认知，难以针对性提升。正确的学习姿势：“金字塔式”分层学习（理论→算法→框架→应用→工程化），逐步构建完整的AI知识体系。二、人工智能学习路线
NLP高频面试题（三）——普通RNN的梯度消失和梯度爆炸问题 Chaos_Wang_ NLP常见面试题自然语言处理 rnn 人工智能
普通RNN（循环神经网络）的梯度消失和梯度爆炸问题是指在训练深层或长序列的RNN模型时出现的两种典型问题：一、梯度消失（VanishingGradient）梯度消失是指在反向传播过程中，梯度逐层传播时变得越来越小，最终趋于接近0，导致模型前层的参数难以更新。原因：在反向传播时，每一层的梯度是通过链式法则计算得到的。因为链式求导中不断乘以一个较小的数值（小于1），随着层数或时间步的增加，梯度将指数级
使用LangChain实现大规模语言模型自发现推理结构 VYSAHF langchain 语言模型人工智能 python
使用LangChain实现大规模语言模型自发现推理结构在现代自然语言处理(NLP)的研究中，大规模语言模型（LLMs）已经展示了强大的能力。然而，在应对复杂的推理问题时，传统的提示方法常常力不从心。这篇文章将带您了解SELF-DISCOVER，一种新兴的框架，如何通过LangChain来实现自动化、动态化的推理结构构建，以提高LLMs的性能。技术背景介绍大规模语言模型（如GPT-4和PaLM2）已
【论文精读】PatchTST-基于分块及通道独立机制的Transformer模型打酱油的葫芦娃时序预测算法时序预测 PatchTST Transformer 预训练微调表征学习
《ATIMESERIESISWORTH64WORDS:LONG-TERMFORECASTINGWITHTRANSFORMERS》的作者团队来自PrincetonUniversity和IBMResearch，发表在ICLR2023会议上。动机Transformer模型因其自注意力机制在处理序列数据方面的优势，在自然语言处理（NLP）、计算机视觉（CV）、语音等多个领域取得了巨大成功。这种机制使得模型
Dify知识库构建流程及示例 cqbelt ai 笔记 AI应用
总体流程1.数据预处理清洗：去除噪声、特殊字符、标准化格式。分词/标记化：拆分文本为单词或子词单元（如使用Tokenizer）。元数据关联：附加来源、时间戳等信息，支持多维度检索。2.文本分块固定长度分块：按字符或Token数切分，简单高效。语义分块：基于句子边界或主题分割（如NLP模型识别段落主旨）。重叠策略：相邻块间部分重叠，避免上下文断裂。3.向量化（Embedding）嵌入模型：调用预训练
NLP高频面试题（四）——BN和LN的区别与联系，为什么attention要用LN Chaos_Wang_ NLP常见面试题自然语言处理人工智能
在深度学习模型中，Normalization是一种极为重要的技巧，BatchNormalization（BN）和LayerNormalization（LN）是其中最为常用的两种方法。然而，二者在实际应用中有着明显的区别与联系，尤其在Transformer的Attention机制中，LN有着独特的优势。一、BN与LN的核心区别与联系1.BatchNormalization(BN)BN的思想源于一个叫
RAG 在多模态数据处理中的应用探索：结合图像与文本生成 hy098543 AIGC
目录引言多模态数据处理的挑战与需求数据异质性与融合难题多样化应用场景的需求RAG在图像与文本生成中的应用架构图像检索与文本生成协同跨模态特征融合与生成关键技术与实现细节图像特征提取与表示文本检索与语义理解跨模态生成模型训练应用案例分析智能设计辅助医疗影像报告生成结论引言随着信息技术的飞速发展，数据呈现出多模态的特性，即包含文本、图像、音频、视频等多种形式。在自然语言处理（NLP）和计算机视觉（CV
AI在项目中的应用酒江人工智能
AI大模型（如GPT-4、BERT、T5等）在各类项目中有广泛的应用，可以极大地提高项目效率、优化流程，并解决许多传统方法难以应对的问题。以下是AI大模型在不同类型项目中的一些具体应用：1.自然语言处理（NLP）文本生成和摘要：AI大模型可以生成高质量的文本内容，自动撰写文章、新闻报道、博客或技术文档，甚至可以进行文献摘要，帮助内容创作者提高效率。情感分析：在客户服务、社交媒体监控或市场研究项目中
AI API：快速集成智能化功能的开发利器桂花饼 AIGC AI API 人工智能 AIGC 语言模型 AI作画
AIAPI（ArtificialIntelligenceApplicationProgrammingInterface，人工智能应用程序接口）是应用程序接口的一种，专门用于提供人工智能相关功能的开发接口。它允许开发者利用现有的AI模型、工具或服务，将这些功能集成到自己的应用程序中，并为用户带来智能化的体验。AIAPI的核心功能主要与AI技术相关，比如自然语言处理（NLP）、计算机视觉、语音处理、机
大模型与自然语言理解（NLU）：差异与联系技术流 Gavin AIoT python 语言模型 ai
近年来，人工智能领域取得了显著进展，尤其是在自然语言处理（NLP）方面。大模型和自然语言理解（NLU）作为NLP的两个重要分支，常常被提及，但它们之间存在着本质区别。1.定义与目标大模型:通常指拥有庞大参数规模（数十亿甚至数千亿）的深度学习模型，例如GPT-3、LaMDA等。它们通过海量文本数据进行训练，旨在学习语言的统计规律，并能够生成流畅、连贯的文本。NLU:是NLP的一个子领域，专注于让机器
基于树莓派的轻量级AI数字人开发全流程指南 ——从硬件选型到语音视觉交互实战 zhz5214 AI ai 人工智能 AI写作 AI编程智能体
1.背景与目标AI数字人，像是虚拟助手、交互式角色，在当下数字化浪潮中扮演着越来越重要的角色。其核心在于整合语音识别、视觉感知、自然语言处理（NLP）和动态反馈四大关键功能。本文将以树莓派5开发板为核心，搭配AI加速硬件，结合开源框架，为大家详细阐述如何实现本地化轻量级数字人开发。这一方案特别适用于教育领域，帮助学生更直观地理解AI技术；在智能家居场景中，也能为用户带来更智能、便捷的交互体验。2.
RAG数据嵌入和重排序：如何选择合适的模型从零开始学习人工智能深度学习
RAG数据嵌入和重排序：如何选择合适的模型在自然语言处理（NLP）领域，Retrieval-AugmentedGeneration（RAG）模型已经成为一种强大的工具，用于结合检索和生成能力来处理复杂的语言任务。RAG模型的核心在于两个关键步骤：数据嵌入（Embedding）和重排序（Re-ranking）。这两个步骤的选择和优化对于模型的性能至关重要。本文将探讨如何选择合适的模型来实现高效的数据
自然语言处理领域CCF推荐的A类期刊冰蓝蓝自然语言处理人工智能
在自然语言处理（NLP）这一蓬勃发展的领域，研究人员和学者们致力于探索语言的深层含义和应用。中国计算机学会（CCF）推荐的A类期刊和会议是该领域内公认的高质量研究发表平台。这是我在学习时整理的一些顶刊并附上官网地址直达。1.ACL(AnnualMeetingoftheAssociationforComputationalLinguistics)ACL是自然语言处理领域的顶级会议之一，由Associ
机器学习中输入输出Tokens的概念详解爱吃土豆的程序员机器学习基础机器学习人工智能 Tokens
随着深度学习技术的快速发展，大语言模型（LargeLanguageModels,LLMs）已经成为自然语言处理（NLP）领域的一个热点研究方向。这些模型不仅能够生成高质量的文本，还能在多种任务中展现出卓越的表现，比如机器翻译、问答系统、文本摘要等。在大语言模型的工作流程中，Tokens的概念扮演着至关重要的角色。本文将详细介绍大语言模型如何使用Tokens，以及如何计算Tokens的数量。什么是T
输入：0.5元/百万tokens（缓存命中）或2元（未命中）输出：8元/百万tokens 杏花春雨江南缓存
这句话描述了一种定价模型，通常用于云计算、API服务或数据处理服务中，根据资源使用情况（如缓存命中与否）来收费。以下是对这句话的详细解释：1.关键术语解释Tokens：在自然语言处理（NLP）或数据处理领域，Token通常指文本的最小单位（如一个单词或一个字符）。在这里，Tokens是计费的单位。缓存命中（CacheHit）：当请求的数据已经在缓存中时，称为缓存命中。缓存命中通常意味着更快的响应速
Ollama 基本概念 Mr_One_Zhang 学习Ollama ai
Ollama是一个本地化的、支持多种自然语言处理（NLP）任务的机器学习框架，专注于模型加载、推理和生成任务。通过Ollama，用户能够方便地与本地部署的大型预训练模型进行交互。1.模型（Model）在Ollama中，模型是核心组成部分。它们是经过预训练的机器学习模型，能够执行不同的任务，例如文本生成、文本摘要、情感分析、对话生成等。Ollama支持多种流行的预训练模型，常见的模型有：deepse
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class