麦田里的守望者_zhg

全面解析RNN,LSTM,Seq2Seq,Attention注意力机制

原文

本文将会使用大量的图片和公式推导通俗易懂地讲解RNN,LSTM,Seq2Seq和attention注意力机制（结合colah’s blog 和CS583），希望帮助初学者更好掌握且入门，若有已经掌握RNN，LSTM的读者自行跳过阅读即可,更详细的讲解在Seq2Seq,Attention那。

1 RNN（递归神经网络）

我们知道人类并不是从零开始思考东西，就像你读这篇文章的时候，你对每个字的理解都是建立在前几个字上面。你读完每个字后并不是直接丢弃然后又从零开始读下一个字，因为你的思想是具有持续性的，很多东西你要通过上下文才能理解。

然而传统的神经网络并不能做到持续记忆理解这一点，这是传统神经网络的主要缺点。举个例子，你打算使用传统的神经网络去对电影里每个时间点发生的事情进行分类的时候，传统的神经网络先让不能使用前一个事件去推理下一个事件。

RNN（递归神经网络）可以解决这个问题。他们是带有循环的神经网络，允许信息在其中保留。

在上图中，A代表神经网络主体，[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IBnbXn3K-1641869995158)(https://www.zhihu.com/equation?tex=X_t)]表示网络的输入，[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mYAiWVQK-1641869995160)(https://www.zhihu.com/equation?tex=h_t)]表示网络的输出。循环结构允许信息从当前输出传递到下一次（下个时间点）的网络输入。

这些循环让递归神经网络看起来有点神秘，然而如果你再思考一下，RNN其实和传统的神经网络并没有太多的不同。RNN可以看作是一个网络的多次拷贝，其中每次网络的输出都是下一次的输入。我们可以思考一下我们如果展开这个循环结构会是什么样的：

这种像是链状的网络结构表明RNN和序列以及列表有着天然的联系，他们是处理这些序列数据的天然的神经网络。而且很明显我们可以看出，输入输出的序列是具有相同的时间长度的，其中的每一个权值都是共享的（不要被链式形状误导，本质上只有一个cell）。

在最近的几年，RNN在很多问题上都取得了成功：比如语音识别，语音模型，翻译，图片注释等等，但是RNN存在着梯度消息/爆炸以及对长期信息不敏感的问题，所以LSTM就被提出来了。现在很多问题的成功都必须归功于LSTM，它是递归神经网络的一种，它在许多的任务中表现都比普通的RNN更好，所以接下来我们来探索一下这个神奇的网络。

2 LSTM

2.1 长期依赖问题

人们希望RNN可以将一些之前的信息连接到当前的任务中来，比如使用之前的视频帧来帮助理解当前帧。如果RNN可以做到将会非常有用。那实际RNN能做到吗？这要视情况而定。

有时候，我们只需要当前的信息来完成当前的任务。举个例子，一个语音模型试图基于之前的单词去预测下一个单词。如果我们尝试预测“the clouds are in the sky”，我们不需要太多的上下文信息——很明显最后一个单词会是sky。在像这样不需要太多的相关信息的场合下，RNN可以学习到之前使用的信息。

但是我们要注意，也有很多场景需要使用更多的上下文。当我们试图去预测“I grew up in France… I speak fluent French”这句话的最后一个单词，最近的信息会表明这应该是一种语言的名字，但是如果我们需要知道具体是哪一种语语言，我们需要France这个在句子中比较靠前的上下文信息，相关信息和需要预测的点的间隔很大的情况是经常发生的。

不幸的是，随着间隔变大，RNN变得无法连接到太前的信息。

理论上RNN完全可以处理这种长期依赖（long-term dependencies）的问题。人们可以通过小心地选择参数来解决这个问题。令人悲伤的是，实践表明RNN并不能很好地解决这个问题，Hochreiter (1991) [German] and Bengio, et al. (1994)发现了RNN为什么在这些问题上学习很困难的原因。

而LSTM则没有这个问题。

2.2 LSTM网络

长期短期记忆网络-通常叫做LSTM-是一种特殊结构的RNN，它能够学习长期依赖。它在大量的问题有惊人的效果，现在已经被广泛使用。

LSTM被明确设计来避免长期依赖问题，记住长时间的信息对LSTM来说只是常规操作，不像RNN那样费力不讨好。

所有的RNN都有不断重复网络本身的链式形式。在标准的RNN中，这个重复复制的模块只有一个非常简单的结果。例如一个tanh层：

LSTM也有这样的链式结构，但是这个重复的模块和上面RNN重复的模块结构不同：LSTM并不是只是增加一个简单的神经网络层，而是四个，他们以一种特殊的形式进行交互：

读者不需要担心看不懂，接下来我们将会一步步理解这个LSTM图。首先我们先了解一下图中的符号：

在上图中，每条线表示一个向量，从一个输出节点到其他节点的输入节点。粉红色的圆圈表示逐点式操作，就像向量加法。黄色的盒子是学习好的神经网络层。线条合代表联结，线条分叉则表示内容被复制到不同的地方。

2.3 LSTM背后的核心思想

LSTM的核心之处就是它的cell state(神经元状态)，在下图中就是那条贯穿整个结果的水平线。这个cell state就像是一个传送带，他只有很小的线性作用，但却贯穿了整个链式结果。信息很容易就在这个传送带上流动但是状态却不会改变。cell state上的状态相当于长期记忆，而下面的[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mUDq4noq-1641869995170)(https://www.zhihu.com/equation?tex=h_t)]则代表短期记忆。

LSTM有能力删除或者增加cell state中的信息，这一个机制是由被称为门限的结构精心设计的。

门限是一种让信息选择性通过的方式，它们是由sigmoid神经网络层和逐点相乘器做成的。

sigmoid层输出0和1之间的数字来描述一个神经元有多少信息应该被通过。输出0表示这些信息全部不能通过，而输出1则表示让所有信息都通过。

一个LSTM有三个这样的门限，去保护和控制神经元的状态。

2.4 一步步推导LSTM

LSTM的第一步就是决定什么信息应该被神经元遗忘。这是一个被称为“遗忘门层”的sigmod层组成。他输入[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0XSLlGva-1641869995175)(https://www.zhihu.com/equation?tex=h_%7Bt-1%7D)]和[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LvCJGxVu-1641869995177)(https://www.zhihu.com/equation?tex=X_t)]（上一次的输出以及这轮的输入），然后在[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3mbo1TqR-1641869995179)(https://www.zhihu.com/equation?tex=C_%7Bt-1%7D)]的每个神经元状态输出0和1之间的数字。同理1表示完全保留这些信息，0表示完全遗忘这个信息。

让我们再次回到一开始举的例子：根据之前的词语去预测下一个单词的语言模型。在这个问题中，cell state或许包括当前主语中的性别信息，所以我们可以使用正确的代词。而当我们看到一个新的主语（输入），我们会去遗忘之前的性别信息。我们使用下图中的公式计算我们的“遗忘系数”[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fUta9fnp-1641869995180)(https://www.zhihu.com/equation?tex=f_t)]

下一步就是决定我们要在cell state中保留什么信息。这包括两个部分。首先，一个被称为“输入门层”的sigmoid层会决定我们要更新的数值。然后一个tanh层生成一个新的候选数值[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-B71VCV2N-1641869995183)(https://www.zhihu.com/equation?tex=C_t%5E%EF%BD%9E)]，它会被增加到cell state中。在下一步中，我们将会组合这两步去生成一个新的更新状态值。

在那个语言模型例子中，我们想给cell state增加主语的性别，来替换我们将要遗忘的旧的主语。

现在是时候去更新旧的神经元状态[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-T2rDQAxy-1641869995186)(https://www.zhihu.com/equation?tex=C_%7Bt-1%7D)]到新的神经元状态[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-t62eY9RV-1641869995187)(https://www.zhihu.com/equation?tex=C_t)]。之前我们已经决定了要做什么，下一步我们就去做。

我们给旧的状态乘一个遗忘系数[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-H75MqHo2-1641869995189)(https://www.zhihu.com/equation?tex=f_t)]，来遗忘掉我们之前决定要遗忘的信息，然后我们增加[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1Gn5m9Jc-1641869995190)(https://www.zhihu.com/equation?tex=i_t+%2A+C_t)]。这是新的候选值，由我们想多大程度更新每个状态的值决定。

在语言模型中，就像上面描述的，这是我们实际上要丢弃之前主语的性别信息，增加新的主语的性别信息的地方。

最后，我们需要决定我们要输出什么。这个输出是建立在我们的cell state的基础上，但是这里会有一个滤波器。首先，我们使用sigmoid层决定哪一部分的神经元状态需要被输出；然后我们让cell state经过tanh(让输出值变成-1到1之间)层并且乘上sigmod门限的输出，这样我们就只输出我们想要输出的。

对于那个语言模型的例子，当我们看到一个新的主语的时候，或许我们想输出相关动词的信息，因为动词是跟在主语后面的。例如，它或许要输出主语是单数还是复数的，然后我们就知道主语后动词的语态了。

2.5 LSTM的一些变体

上面讲的都是一些常规的LSTM，但并不是所有的LSTM都是上面这种形式。实际上现在很多包含LSTM的论文都有小的差异，但是它值得一提。

**Gers & Schmidhuber (2000)**引入了一个流行的LSTM变体，它增加了一个窥视孔连接。这意味着我们让门限层监视cell state的状态。

上图中给每一个门限都增加了窥视孔，但是有些论文只是给一部分的门限增加窥视孔，并不是全部都加上。

另外一个变体是使用组合遗忘和输入门，而不是分开决定哪些神经元需要遗忘信息，哪些需要增加新的信息，我们组合起来决定。我们只遗忘那些需要被放入新信息的状态，同样我们旨在旧信息被遗忘之后才输入新的信息。

一个更神奇的LSTM变体是门递归单元（也就是大家常说的GRU），它组合遗忘门和输入门为一个更新门，它合并了cell state和隐层状态，并且做了一些其他的改变。最终这个模型比标准的LSTM更简单，并且变得越来越流行。

这里只介绍了几个最有名的LSTM的变体，还有更多变体没有介绍，就像Yao, et al.(2015)深度门递归神经网络(Depth Gated RNNs)。这里也有一些处理长期依赖问题问题的完全不同的方法，就像Koutnik, et al(2014)提出的时钟机递归神经网络（Clockwork RNNs）。

2.6 结论

我们一开始提到人们使用RNN取得了卓越的成果，但其实本质上都是使用LSTM取得的，他们的确在多数任务上表现得更好。

写下来一系列等式以后，LSTM看起来挺吓人，但在文中一步步解释后它变得可以理解了。我们不禁想问：是否有比LSTM更好的模型？学者一致认为：那就是attention注意力机制。核心观点就是让RNN每一步都监视一个更大的信息集合并从中挑选信息。例如：如果你使用RNN去为一个图像生成注释，它会从图像中挑选一部分去预测输出的单词。接下来在讲解attention之前，我们会先聊聊Seq2Seq。

3 Seq2Seq

我将会结合一个机器翻译的例子来给大家形象地介绍Seq2Seq。

在这个例子中，我们试图将英语转换为德语，这里要注意这里是一个多对多的模型，而且输入和输出的长度都不固定。

3.1 准备数据

因为只是做一个例子，所以我们在http://www.manythings.org/anki/这个网站选一个小规模的数据来训练一个简单的Seq2Seq即可，我们可以看到左边是英语句子，右边则是翻译的德语句子。

我们先进行一下预处理，比如把大写字母变成小写，把标点符号去掉等等。

预处理完之后我们要做tokenization，即把一句话分成很多个单词或者字符，这里要注意做tokenization的时候要用两个tokenization，英语用一个，德语用一个；tokenization之后要建立两个字典，一个英语字典，一个德语字典，后面会解释我为什么要这么做。

tokenization可以是char-level，也可以是word-level，顾名思义前者就是会把一句话分为一个个字符，而后者则会把一句话分成一个个单词，为了简单方便，我们使用char-level来说明。

经过tokenization之后一句话变成了一个list，每个元素都是一个字符，但实际中一般都使用word-level，因为他们的数据集足够大，这在之后会解释。

我们前面说了tokenization要用两个不同的字典，这是因为不同的语言它的字母表不同，无法进行统一的映射，如上图所示。

如果你使用word-level，那就更有必要使用两个不同的字典，比如很多德语单词在英语字典中是找不到的，而且不同语言分词方便也是不一样的。

左边是英语字典，包括26个字母和一个空格符，德语字典删去了一些不常用字母后再加入空格符，另外可以发现德语字典多了一个起始符和一个终止符，这里用什么都行，只要别跟字典字符冲突就可以，后面大家就知道这两个符号的作用。

tokenization结束之后每句话就变成了一个字符字典，然后原字符经过字典映射后就变成了下面这个序列，对于德语也是一样。

接下来我们还可以把这些数字变成One-hot向量表示，黑色表示1，白色表示0。经过One-hot每个字符就变成了一个向量，每句话就变成了一个矩阵，这就是我们的输入，现在数组准备好了，我们来搭建我们的Seq2Seq模型。

3.2 搭建并训练Seq2Seq模型

Seq2Seq有一个编码器和一个解码器，编码器一般是LSTM或者其他模型用于提取特征，它的最后一个输出就是从这句话得出的最后的特征，而其他的隐层输出都被丢弃。

编码器提取特征之后就到了解码器，解码器靠编码器最后输出的特征也就是[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jX6zMnUX-1641869995225)(https://www.zhihu.com/equation?tex=%28h%2Cc%29)]来知道这句话是"go away"，这里要强调一下Decoder的初始状态就是Encoder的最后一个状态，现在Decoder开始输出德语字母，这里Decoder也是一个LSTM模型，他每次接受一个输入然后输出下一个字母的概率，第一个输入必须是起始符，这就是我们为什么要在德语字典中要加入起始符的原因。Decoder会输出一个概率分布p向量，起始符后面的第一个字母是m，我们将m做一个one-hot编码作为y标签，用标签y和预测p做一个CrossEntropy来作为我们的损失函数优化，梯度从Decoder传回Encoder。

然后输入是两个字符，起始符和m，下一个字母是a，我们将a做one-hot编码作为y标签，将它与我们输出的概率分布做一个CrossEntropy来作为损失函数，一直进行这个循环，应该就很好理解了。

最后一轮将整句德语作为输入，将停止符做标签y，再进行CrossEntropy，拿所有的英语和德语来训练我们的编码器和解码器，这就是我们的训练过程了。

总结一下，我们使用英语句子的one-hot矩阵作为encoder的输入，encoder网络由LSTM组成来提取特征，它的输出是最后一个状态[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IExacI1e-1641869995235)(https://www.zhihu.com/equation?tex=h)]和传送带[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-i5Z9ro9c-1641869995237)(https://www.zhihu.com/equation?tex=c)]，decoder网络的初始状态是[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cceoqH1X-1641869995239)(https://www.zhihu.com/equation?tex=%28h%2Cc%29)]，decoder网络的输入是德语句子，decoder输出当前状态[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Lt55vJI4-1641869995240)(https://www.zhihu.com/equation?tex=h%5E%60)]`,然后全连接层输出下一个字符的预测，这样我们的训练阶段就结束了。

3.3 预测阶段

同样，我们先把句子输入到我们的Encoder里面，Encoder会输入最后状态[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ALDUC551-1641869995244)(https://www.zhihu.com/equation?tex=%28h_0%2Cc_0%29)]，作为这句话的特征送给Decoder。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ysi4okqN-1641869995248)(https://www.zhihu.com/equation?tex=%28h_0%2Cc_0%29)]作为Decoder的初始状态，这样解码器就知道这句话是go away，首先把起始符输入，有了新的状态解码器就会把状态更新为[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Pm1JZDuP-1641869995249)(https://www.zhihu.com/equation?tex=%28h_1%2Cc_1%29)]并且预测下一个字符，decoder输出的是每个字符的概率值，我们可以根据这个概率值进行预测，比如我们可以选取概率值最大的字符，也可以对概率进行随机抽样，我可能会得到字符m，于是我把m记录下来。

现在状态是[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6AyxXyHI-1641869995256)(https://www.zhihu.com/equation?tex=%28h_1%2Cc_1%29)]，把新生成的字符m作为LSTM的输入，接下来再更新状态为[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6Pw96b8s-1641869995259)(https://www.zhihu.com/equation?tex=%28h_2%2Cc_2%29)],并且输出一个概率分布，根据概率分布抽样我们得到字符a，记录下字符a，并一直进行这个循环。

运行14轮了状态是[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TnkT1nmR-1641869995262)(https://www.zhihu.com/equation?tex=%28h_%7B14%7D%2Cc_%7B14%7D%29)]，再结合上一轮生成的字符e，根据decoder输出的概率分布抽样，我们抽到了终止符，一旦抽到了终止符，就终止文本生成，并返回记录下的字符串，德语也就被成功翻译了。

3.4 总结

Seq2Seq模型有一个encoder网络和一个Decoder网络，在我们的例子中encoder的输入是英语句子，每输入一个词RNN就会更新状态并记录下来，encoder最后一个状态就是这个句子的特征，并把之前的状态丢弃。把这个状态作为decoder的初始状态，初始化后decoder就知道这个句子了，首先把起始符作为decoder的输入，然后一步步更新，输出状态和概率分布预测下一个字符，再把预测的字符作为下一个输入，重复这个过程，最后直到预测终止符就返回输出的这个序列。

3.5 如何提升？

我们的encoder和decoder都是LSTM，encoder把所有句子的特征压缩到最后一个状态，理想情况下encoder最后一个状态包含完整的信息，假如句子很长，那么句子有些信息就会被遗忘，那么Decoder就没有完整的句子信息，那decoder输出的德语句子就不完整。

一种简单方法就是使用双向LSTM，双向LSTM简单来说就是用两条链，从左到右这条链可能会遗忘最左边的信息，而从右往左的这条链可能会遗忘右边的信息，这样结合起来就不容易遗忘句子信息，这里要注意只是encoder用双向LSTM，decoder是单向LSTM，他要生成正确顺序的序列。

这次我们用的是char-level比较方便，但是最好还是使用word-level，因为用单词代替字母，序列就会短大概4.5倍，就不容易遗忘，但是用word-level需要大的数据集，得到的单词大概就是一万，one-hot之后向量的维度也就是一万，太大了，需要embedding进行降维，因为embedding参数很多，所以如果数据集不够很容易过拟合。

另外一种方法改进就是multi-Task learning，我们还可以多加入几个任务，比如让英语句子让他自己翻译成英语句子，这样encoder只有一个但是数据多了一倍，这样encoder就能被训练的更好，当然你还可以添加其他语言的任务，通过借助其他语言更好训练encoder，这样虽然decoder没有变得更好，但是因为encoder提取的更好最后效果也会变好。

当然还有一个方法就是使用注意力机制，这个对机器翻译提高作用很大，我们接下来就讲解这个注意力机制。

4 注意力机制

我们知道Seq2Seq模型有一个缺点就是句子太长的话encoder会遗忘，那么decoder接受到的句子特征也就不完全，我们看一下下面这个图，纵轴BLUE是机器翻译的指标，横轴是句子的单词量，我们可以看出用了attention之后模型的性能大大提升。

用了注意力机制，Decoder每次更新状态的时候都会再看一遍encoder所有状态，还会告诉decoder要更关注哪部分，这也是attention名字的由来。但是缺点就是计算量很大。

4.1 attention原理

在encoder结束之后，attention和decoder同时工作，回忆一下，decoder的初始状态[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-irxph1y4-1641869995275)(https://www.zhihu.com/equation?tex=s_0)]是encoder最后一个状态，不同于常规的Seq2Seq，encoder所有状态都要保留，这里需要计算[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-UdEJ10Ln-1641869995277)(https://www.zhihu.com/equation?tex=s_0)]与每个状态的相关性，我使用[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-L2Uxy3CK-1641869995278)(https://www.zhihu.com/equation?tex=%5Calpha_i+%3D+aligh%28h_i%2Cs_0%29)]这个公式表示计算两者相关性，把结果即为[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KJwGFKba-1641869995280)(https://www.zhihu.com/equation?tex=%5Calpha_i)]，记做Weight，encoder有m个状态，所以一共有m个[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TENGrHi9-1641869995281)(https://www.zhihu.com/equation?tex=%5Calpha)]，这里所有的值都是介于0和1的实数，全部加起来为1。

下面看一下怎么计算这个相似性。第一种方法是把[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-S7ZLpN66-1641869995286)(https://www.zhihu.com/equation?tex=h_i)]和[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-peKHzf4E-1641869995287)(https://www.zhihu.com/equation?tex=S_o)]做concat得到更高的向量，然后求矩阵W与这个向量的乘积，得到一个向量，然后再将tanh作用于向量每一个元素，将他压到-1和1之间，最后计算向量V与刚才计算出来的向量的内积，这里的向量V和矩阵W都是参数，需要从训练数据里学习，算出m个[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-b5OgOKrW-1641869995289)(https://www.zhihu.com/equation?tex=%5Calpha)]后，需要对他们做一个softmax变换，把输出结果记做[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yzm7LRdz-1641869995291)(https://www.zhihu.com/equation?tex=%5Calpha_1)]到[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-oESygOTZ-1641869995292)(https://www.zhihu.com/equation?tex=%5Calpha_m)]，因为是softmax输出，所以他们都大于0相加为1，这是第一篇attention论文提出计算的方法，往后有很多其他计算的方法，我们来介绍一种更常用的方法。

输入还是[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kJpEk4Oo-1641869995295)(https://www.zhihu.com/equation?tex=h_i)]和[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qItWUJZ5-1641869995296)(https://www.zhihu.com/equation?tex=S_0)]，第一步是分别使用两个参数矩阵[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uVLT843D-1641869995298)(https://www.zhihu.com/equation?tex=W_k)]，[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yUeiMIM5-1641869995300)(https://www.zhihu.com/equation?tex=W_q)]做线性变换，得到[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FxbTsHen-1641869995301)(https://www.zhihu.com/equation?tex=k_i)]和[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ews4UWoH-1641869995303)(https://www.zhihu.com/equation?tex=q_0)]这两个向量，这两个参数矩阵要从训练数据中学习。第二步是计算[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vFyBC5o2-1641869995309)(https://www.zhihu.com/equation?tex=k_i)]与[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-iTF9J8G7-1641869995310)(https://www.zhihu.com/equation?tex=q_0)]的内积，由于有m个K向量，所以得到L个[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uTFtcShP-1641869995311)(https://www.zhihu.com/equation?tex=%5Calpha_i)]。第三步就是对这些值做一个softmax变换，[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3b6yrKuq-1641869995313)(https://www.zhihu.com/equation?tex=%5Calpha_1)]到[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pTrlYgfe-1641869995315)(https://www.zhihu.com/equation?tex=%5Calpha_m)]，因为是softmax输出，所以他们都大于0相加为1。这种计算方法被Transformer模型采用，Transformer模型是当前很多nlp问题采用的先进模型。

刚才讲了两种方法来计算[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-I7GF5zGZ-1641869995318)(https://www.zhihu.com/equation?tex=h_i)]和[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cWJfyEud-1641869995319)(https://www.zhihu.com/equation?tex=S_0)]的相关性，现在我们得到了m个相关性[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-czDyCga1-1641869995321)(https://www.zhihu.com/equation?tex=%5Calpha)]，每个[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IsZcMk0Y-1641869995323)(https://www.zhihu.com/equation?tex=%5Calpha)]对应每个状态[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2Z2aVWLQ-1641869995324)(https://www.zhihu.com/equation?tex=h_i)]，有了这些权重[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Hk5EaG7R-1641869995326)(https://www.zhihu.com/equation?tex=%5Calpha)]我们可以对m个状态计算加权平均，得到一个Context vector [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-t45FxLwZ-1641869995327)(https://www.zhihu.com/equation?tex=C_0)]。每一个Context vector都会对应一个decoder状态[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RWMIWyvv-1641869995329)(https://www.zhihu.com/equation?tex=s_i)]

接下来我们来看一下decoder是怎么计算新的状态的。我们来回顾一下，假如不用attention，我们是这样更新状态的，新的状态[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XQdq7Wqq-1641869995332)(https://www.zhihu.com/equation?tex=S_1)]是旧状态[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6hALjeWi-1641869995334)(https://www.zhihu.com/equation?tex=S_0)]与新输入[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Rsf18c6s-1641869995335)(https://www.zhihu.com/equation?tex=X_1%5E%60)]`的函数，看一下下图左边的公式，将两者做concat，然后乘上权重矩阵加上偏置b，最后通过tanh就是我们的新状态，也就是说状态的更新仅仅是根据上一个状态，并不会看encoder的状态。用attention的话更新状态还要用到我们计算出的Context vector [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7qFoLwfj-1641869995337)(https://www.zhihu.com/equation?tex=C_0)]，把三个参数一起做concat后更新。

回忆一下，[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Jf9RDBCH-1641869995341)(https://www.zhihu.com/equation?tex=C_0)]是所有encoder状态[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-j9RtlnN9-1641869995342)(https://www.zhihu.com/equation?tex=h_i)]的加权平均，所以[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jyyobC9I-1641869995343)(https://www.zhihu.com/equation?tex=C_0)]知道输入[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7uQRb7Qx-1641869995345)(https://www.zhihu.com/equation?tex=X_1)]到[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vLx7qczX-1641869995347)(https://www.zhihu.com/equation?tex=X_m)]的完整信息，decoder新的状态[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8ha4p34k-1641869995348)(https://www.zhihu.com/equation?tex=S_1)]依赖于[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hMnvHCIo-1641869995351)(https://www.zhihu.com/equation?tex=C_0)]，这样RNN遗忘的问题就解决了。下一步则是计算context vector [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SzsC0L2h-1641869995353)(https://www.zhihu.com/equation?tex=C_1)]，跟之前一样，先计算权重[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cZFgzUkD-1641869995354)(https://www.zhihu.com/equation?tex=%5Calpha_i)]，这里是计算[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Zydqw1Cd-1641869995356)(https://www.zhihu.com/equation?tex=S_1)]跟之前encoder所有状态的相关性，得到了m个[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-eALeg1EU-1641869995358)(https://www.zhihu.com/equation?tex=%5Calpha)]，注意一下这里的权重也是要更新的，上一轮算的是跟[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PujJRlBN-1641869995360)(https://www.zhihu.com/equation?tex=s_0)]的相关性现在算的是跟[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-O13A2esZ-1641869995361)(https://www.zhihu.com/equation?tex=S_1)]的相关性，这样就可以通过加权平均计算出新的[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-CCwIdp4E-1641869995364)(https://www.zhihu.com/equation?tex=C_1)]。

Decoder接受新的输入[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-n1x26wW1-1641869995368)(https://www.zhihu.com/equation?tex=X_2)]，还是用那个公式计算出新状态，然后一直循环下去直到结束。

我们知道在这个过程中我们会计算出很多权重[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-h1NsmNRr-1641869995371)(https://www.zhihu.com/equation?tex=%5Calpha_i)]，我们思考一下我们究竟计算了多少个[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-emthMK1A-1641869995373)(https://www.zhihu.com/equation?tex=%5Calpha)]?想要计算出一个context vector[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VxO27zLL-1641869995375)(https://www.zhihu.com/equation?tex=C_j)]，我们要计算出m个相似性权重[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qtLBYnNM-1641869995376)(https://www.zhihu.com/equation?tex=%5Calpha)]，所以每轮更新都需要计算m个权重，假如一共有t个state，那么一共就要计算m×t个权重，也就是encoder和decoder数量的乘积。attention为了不遗忘，代价就是高数量级的计算。

4.2 权重[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-M4mAQ4l3-1641869995379)(https://www.zhihu.com/equation?tex=%5Calpha)]的实际意义

这张图下面是encoder，上面是decoder，attention会把decoder所有状态与encoder所有状态计算相似性，也就是[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-c6TEwbOV-1641869995380)(https://www.zhihu.com/equation?tex=%5Calpha)].在这张图中每条线就对应一个[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lcztSDcv-1641869995382)(https://www.zhihu.com/equation?tex=%5Calpha)]，线越粗说明相关性越高。

比如下面，法语中的zone就是英语的Area，所以两者的线就很粗。

4.3 总结

这次仅仅是从机器翻译的角度介绍了attention的一个应用，attention在业界还是有很多应用的，比如self-attention,Transformer应用，希望以此为印子能够打开读者attention的大门。

5 参考

1.colah’s blog**http://colah.github.io/posts/2015-08-Understanding-LSTMs/**

2.CS583 https://github.com/wangshusen/DeepLearning

原文

https://zhuanlan.zhihu.com/p/135970560

写在最后

欢迎大家关注鄙人的公众号【麦田里的守望者zhg】，让我们一起成长，谢谢。

你可能感兴趣的:(机器学习,rnn,lstm,神经网络)

【机器学习笔记 Ⅱ】9 模型评估巴伦是只猫机器学习机器学习笔记人工智能
评估机器学习模型是确保其在实际应用中有效性和可靠性的关键步骤。以下是系统化的评估方法，涵盖分类、回归、聚类等任务的评估指标和技术：一、分类模型评估1.基础指标2.高级指标ROC-AUC：通过绘制真正例率（TPR）vs假正例率（FPR）曲线下面积评估模型整体性能。AUC=1：完美分类；AUC=0.5：随机猜测。适用于二分类及多分类（OvR或OvO策略）。混淆矩阵：可视化模型在各类别上的具体错误（如将
【机器学习笔记 Ⅱ】7 多类分类巴伦是只猫机器学习机器学习笔记分类
1.多类分类（Multi-classClassification）定义多类分类是指目标变量（标签）有超过两个类别的分类任务。例如：手写数字识别：10个类别（0~9）。图像分类：区分猫、狗、鸟等。新闻主题分类：政治、经济、体育等。特点互斥性：每个样本仅属于一个类别（区别于多标签分类）。输出要求：模型需输出每个类别的概率分布，且概率之和为1。实现方式One-vs-Rest(OvR)：训练K个二分类器（
2.线性神经网络--Softmax回归温柔济沧海深度学习神经网络回归人工智能
2.1从零实现Softmax回归#数据集导入importtorchimporttorchvisionfromtorchvisionimporttransformsimportmatplotlib.pyplotaspltfromtqdmimporttqdmfromtorch.utils.dataimportDataLoader#####################################
人工智能学习资源 Hemy08 人工智能学习
无机器学习基础：https://www.coursera.org/learn/machine-learning有机器学习基础：MachineYearning深度学习入门：https://www.coursera.org/learn/neural-networks-deep-learning
量子计算+AI芯片：光子计算如何重构神经网络硬件生态
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站量子计算+AI芯片：光子计算如何重构神经网络硬件生态——2025年超异构计算架构下的万亿参数模型训练革命产业拐点：英伟达BlackwellUltra发布光互连版GPU，IBM量子处理器突破512比特，光子计算商用成本降至$5/TOPS实测突破：Llama3-405B在光子-量子混合集群训练能耗下
【机器学习笔记 Ⅱ】4 神经网络中的推理
推理（Inference）是神经网络在训练完成后利用学到的参数对新数据进行预测的过程。与训练阶段不同，推理阶段不计算梯度也不更新权重，仅执行前向传播。以下是其实现原理和代码示例的完整解析：1.推理的核心步骤加载训练好的模型参数（权重和偏置）。前向传播：输入数据逐层计算，得到输出。后处理：根据任务类型解析输出（如分类取概率最大值，回归直接输出）。2.代码实现（Python+NumPy）(1)定义模型
开源语音分离工具大比拼：人声 VS 背景音乐 ⚔️ - 获取干净训练语音 (数据截至 2025年4月17日)！！！小丁学Java python 人工智能
开源语音分离工具大比拼：人声VS背景音乐⚔️-获取干净训练语音(数据截至2025年4月17日)在音频处理，特别是机器学习训练数据的准备中，获取纯净的人声（去除背景音乐或噪声）是一个常见的痛点。幸运的是，开源社区提供了许多强大的工具来帮助我们完成这项任务！本文将盘点一系列GitHub上的开源语音分离项目，重点关注那些能有效分离“人物语音”和“背景音乐”的工具，并根据GitHub星标⭐（反映社区关注度
【论文阅读】Dynamic Few-Shot Visual Learning without Forgetting Bosenya12 论文阅读
系统概述如下：(a)一个基于卷积神经网络（ConvNet）的识别模型，该模型包含特征提取器和分类器；(b)一个少样本分类权重生成器。这两个组件都是在一组基础类别上训练的，我们为这些类别准备了大量训练数据。在测试阶段，权重生成器会接收少量新类别的训练数据以及基础类别的分类权重向量（分类器框内的绿色矩形），并为新类别生成相应的分类权重向量（分类器框内的蓝色矩形）。这样，卷积神经网络就能同时识别基础类别
【零基础学AI】第27讲：注意力机制（Attention） - 机器翻译实战 1989 0基础学AI 人工智能机器翻译自然语言处理 python tensorflow 机器学习神经网络
本节课你将学到理解注意力机制的核心思想掌握注意力计算的数学原理实现基于注意力机制的Seq2Seq模型构建英语到法语的神经翻译系统开始之前环境要求Python3.8+需要安装的包：tensorflow==2.8.0numpy==1.21.0matplotlib==3.4.0pandas==1.3.0前置知识RNN/LSTM原理（第26讲）序列数据处理（第26讲）自然语言处理基础（第14讲）核心概念为
TensorFlow图神经网络(GNN)入门指南 AI天才研究院 AI人工智能与大数据 tensorflow 神经网络人工智能 ai
TensorFlow图神经网络(GNN)入门指南关键词：TensorFlow、图神经网络、GNN、深度学习、图数据、节点嵌入、图卷积网络摘要：本文全面介绍如何使用TensorFlow实现图神经网络(GNN)。我们将从图数据的基本概念开始，深入探讨GNN的核心原理，包括图卷积网络(GCN)、图注意力网络(GAT)等流行架构，并通过TensorFlow代码示例展示如何构建和训练GNN模型。文章还将涵盖
【机器学习笔记 Ⅲ】3 异常检测算法巴伦是只猫机器学习机器学习笔记算法
异常检测算法（AnomalyDetection）详解异常检测是识别数据中显著偏离正常模式的样本（离群点）的技术，广泛应用于欺诈检测、故障诊断、网络安全等领域。以下是系统化的解析：1.异常类型类型描述示例点异常单个样本明显异常信用卡交易中的天价消费上下文异常在特定上下文中异常（如时间序列）夏季气温突降至零下集体异常一组相关样本联合表现为异常网络流量中突然的DDOS攻击流量2.常用算法(1)基于统计的
【机器学习笔记 Ⅲ】4 特征选择巴伦是只猫机器学习机器学习笔记人工智能
特征选择（FeatureSelection）系统指南特征选择是机器学习中优化模型性能的关键步骤，通过筛选最相关、信息量最大的特征，提高模型精度、降低过拟合风险并加速训练。以下是完整的特征选择方法论：1.特征选择的核心目标提升模型性能：去除噪声和冗余特征，增强泛化能力。降低计算成本：减少训练和预测时间。增强可解释性：简化模型，便于业务理解。2.特征选择方法分类(1)过滤法（FilterMethods
机器学习笔记二-回归
回归是统计学和机器学习中的一种基本方法，用于建模变量之间的关系，特别是用一个或多个自变量（输入变量）来预测一个因变量（输出变量）的值。回归分析广泛应用于预测、趋势分析和关联研究中。根据目标和数据的性质，可以使用不同类型的回归方法。1.回归的基本概念：自变量（IndependentVariable）:也称为预测变量、解释变量，是模型中的输入变量，用于预测或解释因变量的变化。因变量（Dependent
PyTorch 详细安装教程及核心API使用指南慕婉0307 pytorch pytorch 人工智能 python
一、PyTorch简介PyTorch是由FacebookAIResearch(FAIR)于2016年开发的开源深度学习框架，现已成为学术界和工业界最受欢迎的深度学习工具之一。其核心优势在于采用了动态计算图（DynamicComputationGraph，又称"define-by-run"机制），这使得开发者能够像编写普通Python代码一样构建神经网络，并在运行时动态调整计算图结构，大大提高了研究
Apple A 系列芯片 Camera 架构解析：ISP + NPU 图像管线协同机制全景实战观熵影像技术全景图谱：架构调优与实战架构接口隔离原则影像 Camera
AppleA系列芯片Camera架构解析：ISP+NPU图像管线协同机制全景实战关键词：AppleA系列、图像信号处理器（ISP）、神经网络引擎（NPU）、SmartHDR、DeepFusion、图像协同计算、图像路径优化、拍照性能、图像延迟控制、AppleSilicon摘要：苹果在A系列芯片中持续深化ISP与NPU的协同架构，实现图像质量、算法速度与功耗的高度平衡。从A11到A17Pro，App
基于迁移学习的多视图卷积神经网络在乳腺超声自动分类中的应用 despacito, 论文精读-乳腺超声分类
BREASTCANCERCLASSIFICATIONINAUTOMATEDBREASTULTRASOUNDUSINGMULTIVIEWCONVOLUTIONALNEURALNETWORKWITHTRANSFERLEARNINGYIWANG,*,1EUNJUNGCHOI,y,1YOUNHEECHOI,*HAOZHANG,*GONGYONGJIN,yandSEOK-BUMKO*TAGGEDEND*De
如何创建唯一的 key 或者 ID L?z ^f my utils javascript 前端
javaScript中创建唯一的key/***生成一个永不重复的key*@param{Number}randomLength*/functiongetUuiKey(randomLength=5){returnNumber(Math.random().toString().substr(2,randomLength)+Date.now()).toString(36)}
【心灵鸡汤】深度学习技能形成树：从零基础到AI专家的成长路径全解析智算菩萨人工智能深度学习
引言：技能树的生长哲学在这个人工智能浪潮汹涌的时代，深度学习犹如一棵参天大树，其根系深深扎入数学与计算科学的沃土，主干挺拔地承载着机器学习的核心理念，而枝叶则繁茂地延伸至计算机视觉、自然语言处理、强化学习等各个应用领域。对于初入此领域的新手而言，理解这棵技能树的生长规律，掌握其形成过程中的关键节点和发展阶段，将直接决定其在人工智能道路上能够走多远、攀多高。技能树的概念源于游戏设计，但在学习深度学习
【计算机毕业设计】基于Springboot的办公用品管理系统+LW 枫叶学长(专业接毕设) Java毕业设计实战案例课程设计 spring boot 后端
博主介绍：✌全网粉丝3W+,csdn特邀作者、CSDN新星计划导师、Java领域优质创作者,掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。主要内容：
反向传播神经网络极简入门自信哥
单个神经元神经网络是多个“神经元”（感知机）的带权级联，神经网络算法可以提供非线性的复杂模型，它有两个参数：权值矩阵{Wl}和偏置向量{bl}，不同于感知机的单一向量形式，{Wl}是复数个矩阵，{bl}是复数个向量，其中的元素分别属于单个层，而每个层的组成单元，就是神经元。神经元神经网络是由多个“神经元”（感知机）组成的，每个神经元图示如下：这其实就是一个单层感知机，其输入是由和+1组成的向量，其
1.线性神经网络--线性回归温柔济沧海深度学习神经网络线性回归 python
1.1从零实现线性回归importrandomimporttorch#fromd2limporttorchasd2limportmatplotlib.pyplotaspltdeftrain_data_make(batch_size,X,y):num_examples=len(X)idx=list(range(num_examples))#生成0-999random.shuffle(idx)#样本需
超轻量级中文OCR项目使用教程甄墨疆
超轻量级中文OCR项目使用教程chineseocr_lite超轻量级中文ocr，支持竖排文字识别,支持ncnn、mnn、tnn推理(dbnet(1.8M)+crnn(2.5M)+anglenet(378KB))总模型仅4.7M项目地址:https://gitcode.com/gh_mirrors/ch/chineseocr_lite1.项目介绍本项目是一个超轻量级的中文OCR（OpticalCha
【TVM 教程】如何处理 TVM 报错
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/运行TVM时，可能会遇到如下报错：---------------------------------------------------------------AnerroroccurredduringtheexecutionofTVM.F
【PaddleOCR】OCR文本检测与文本识别数据集整理，持续更新......
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
跨平台ZeroMQ：在Rust中使用zmq库的完整指南涵树_fx 架构设计 Rust 实战 rust 开发语言后端
“消息就像神经元间的电信号，而ZeroMQ就是那个让系统思考的神经网络”——某个深夜调试zmq的程序员当你需要轻量级、高性能的进程间通信时，ZeroMQ就像代码世界里的瑞士军刀。今天我们一起探索如何在Rust生态中使用这把利器，感受它如何在不同操作系统间架起通信的桥梁。安装ZeroMQ：三大操作系统的通关秘籍Linux(Debian/Ubuntu)sudoaptupdatesudoaptinsta
ImportError: /nvidia/cusparse/lib/libcusparse.so.12: undefined symbol: __nvJitLinkComplete_12_4 爱编程的喵喵 Python基础课程 python ImportError torch nvJitLink 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了ImportError:/home/
【机器学习笔记 Ⅱ】11 决策树模型巴伦是只猫机器学习机器学习笔记决策树
决策树模型（DecisionTree）详解决策树是一种树形结构的监督学习模型，通过一系列规则对数据进行分类或回归。其核心思想是模仿人类决策过程，通过不断提问（基于特征划分）逐步逼近答案。1.核心概念节点类型：根节点：起始问题（最佳特征划分点）。内部节点：中间决策步骤（特征判断）。叶节点：最终预测结果（类别或数值）。分支：对应特征的取值或条件判断（如“年龄≥30？”）。2.构建决策树的关键步骤(1)
【机器学习笔记 Ⅱ】10 完整周期
机器学习的完整生命周期（End-to-EndPipeline）机器学习的完整周期涵盖从问题定义到模型部署的全过程，以下是系统化的步骤分解和关键要点：1.问题定义（ProblemDefinition）目标：明确业务需求与机器学习任务的匹配性。关键问题：这是分类、回归、聚类还是强化学习问题？成功的标准是什么？（如准确率>90%、降低10%成本）输出：项目目标文档（含评估指标）。2.数据收集（DataC
【机器学习笔记Ⅰ】13 正则化代价函数
正则化代价函数（RegularizedCostFunction）详解正则化代价函数是机器学习中用于防止模型过拟合的核心技术，通过在原始代价函数中添加惩罚项，约束模型参数的大小，从而提高泛化能力。以下是系统化的解析：1.为什么需要正则化？过拟合问题：当模型过于复杂（如高阶多项式回归、深度神经网络）时，可能完美拟合训练数据但泛化性能差。解决方案：在代价函数中增加对参数的惩罚，抑制不重要的特征权重。2.
【机器学习笔记Ⅰ】6 多类特征巴伦是只猫机器学习机器学习笔记人工智能
多类特征（Multi-classFeatures）详解多类特征是指一个特征（变量）可以取多个离散的类别值，且这些类别之间没有内在的顺序关系。这类特征是机器学习中常见的数据类型，尤其在分类和回归问题中需要特殊处理。1.核心概念(1)什么是多类特征？定义：特征是离散的、有限的类别，且类别之间无大小或顺序关系。示例：颜色：红、绿、蓝（无顺序）。城市：北京、上海、广州（无数学意义的大小关系）。动物类别：猫
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen