CoreJT

吴恩达深度学习 | (27) 序列模型专项第三周学习笔记

课程视频

第三周PPT汇总

吴恩达深度学习专项课程共分为五个部分，本篇博客将介绍第五部分序列模型专项的第三周课程：序列模型和注意力机制。

1. 多样的Seq2Seq结构

2. 选择最可能的句子

3. 集束搜索

4. 改进集束搜索

5. 集束搜索的误差分析

6. Bleu得分

7. 注意力模型直观理解

8. 语音识别

9. 触发字检测

1. 多样的Seq2Seq结构

在这一周，你将会学习 seq2seq(sequence to sequence)模型，从机器翻译到语音识别，它们都能起到很大的作用，从最基本的模型开始。之后你还会学习集束搜索(Beam search) 和注意力模型(Attention Model)，一直到最后的音频模型，比如语音。

现在就开始吧，比如你想通过输入一个法语句子，比如这句 “Jane visite I'Afrique en septembre.”，将它翻译成一个英语句子，“Jane is visiting Africa in September.”。和之前一样，我们用 <1> 一直到 <5> 来表示输入的句子的单词，然后我们用 <1> 到 <6> 来表示输出的句子的单词，那么，如何训练出一个新的网络来输入序列和输出序列呢?

首先，我们先建立一个网络，这个网络叫做编码网络(encoder network)(上图编号 1 所示)，它是一个 RNN 的结构， RNN 的单元可以是 GRU 也可以是 LSTM。每次只向该网络中输入一个法语单词，将输入序列接收完毕后，这个 RNN 网络会输出一个向量来代表这个输入序列。之后你可以建立一个解码网络，我把它画出来(上图编号 2 所示)，它以编码网络的输出作为输入，解码网络是右边的蓝色部分(上图编号1 所示)，之后它可以被训练为每次输出一个翻译后的单词，一直到它输出序列的结尾或者句子结尾标记（），这个解码网络的工作就结束了。和往常一样我们把每次生成的标记都传递到下一个单元中来进行预测，就像之前用语言模型合成文本时一样(预测阶段，解码器上一时间步骤的输出作为下一时间步骤的输入)。

深度学习在近期最卓越的成果之一就是这个模型确实有效，在给出足够的法语和英语文本的情况下，如果你训练这个模型，通过输入一个法语句子来输出对应的英语翻译，这个模型将会非常有效。这个模型简单地用一个编码网络来对输入的法语句子进行编码，然后用一个解码网络来生成对应的英语翻译。

还有一个与此类似的结构被用来做图像描述，给出一张图片，比如这张猫的图片(上图编号 1 所示)，它能自动地输出该图片的描述，一只猫坐在椅子上，那么你如何训练出这样的网络?通过输入图像来输出描述，像这个句子一样。

方法如下，在之前的卷积网络课程中，你已经知道了如何将图片输入到卷积神经网络中，比如一个预训练的 AlexNet 结构(上图编号 2 方框所示)，然后让其学习图片的编码，或者学习图片的一系列特征。现在幻灯片所展示的就是 AlexNet 结构，我们去掉最后的 softmax 单元(上图编号 3 所示)，这个预训练的 AlexNet 结构会给你一个 4096 维的特征向量，向量表示的就是这只猫的图片，所以这个预训练网络可以是图像的编码网络。现在你得到了一个 4096 维的向量来表示这张图片，接着你可以把这个向量输入到 RNN 中(上图编号 4 方框所示)，RNN 要做的就是生成图像的描述，每次生成一个单词，这和我们在之前将法语译为英语的机器翻译中看到的结构很像，现在你输入一个描述输入图像的特征向量，然后让网络生成一个输出序列，或者说一个一个地输出单词序列。

事实证明在图像描述领域，这种方法相当有效，特别是当你想生成的描述不是特别长时。据我所知，这种模型首先是由 Junhua Mao，Wei Xu，Yi Yang，Jiang Wang，Zhiheng Huang 和 Alan Yuille 提出的，尽管有几个团队都几乎在同一时间构造出了非常相似的模型，因为还有另外两个团队也在同一时间得出了相似的结论。我觉得有可能 Mao 的团队和 Oriol Vinyals， Alexander Toshev，Samy Bengio 和 Dumitru Erhan，还有 Andrej Karpathy 和 Fei-Fei Li 是同一个团队。

现在你知道了基本的 seq2seq 模型是怎样运作的，以及 image to sequence 模型或者说图像描述模型是怎样运作的。不过这两个模型运作方式有一些不同，主要体现在如何用语言模型合成新的文本，并生成对应序列的方面。一个主要的区别就是你大概不会想得到一个随机选取的翻译，你想要的是最准确的翻译，或者说你可能不想要一个随机选取的描述，你想要的是最好的最贴切的描述，我们将在下节视频中介绍如何生成这些序列。

2. 选择最可能的句子

在 seq2seq 机器翻译模型和我们在第一周课程所用的语言模型之间有很多相似的地方，但是它们之间也有许多重要的区别，让我们来一探究竟。

你可以把机器翻译想成是建立一个条件语言模型，在语言模型中上方是一个我们在第一周所建立的模型，这个模型可以让你能够估计句子的可能性，这就是语言模型所做的事情。你也可以将它用于生成一个新的句子，如果你在图上的该处(下图编号 1 所示)，有<1>和 <2>，那么在该例中<2> = <1>，但是<1>、<2>等在这里并不重要。为了让图片看起来更简洁，我把它们先抹去，可以理解为<1>是一个全为 0 的向量，然后<2>、<3>等都等于之前所生成的（上一时间步的）输出，这就是所说的语言模型。

而机器翻译模型是下面这样的，我这里用两种不同的颜色来表示，即绿色和紫色，用绿色(上图编号 2 所示)表示 encoder 网络，用紫色(上图编号 3 所示)表示 decoder 网络。你会发现 decoder 网络看起来和刚才所画的语言模型几乎一模一样，机器翻译模型其实和语言模型非常相似，不同在于语言模型总是以零向量(上图编号 4 所示)开始，而 encoder 网络会计算出一系列向量(上图编号 2 所示)来表示输入的句子。有了这个输入句子，decoder 网络就可以以这个句子开始，而不是以零向量开始，所以我把它叫做条件语言模型 (conditional language model)。相比语言模型，输出任意句子的概率，翻译模型会输出句子的英文翻译(上图编号 5 所示)，这取决于输入的法语句子(上图编号 6 所示)。换句话说，你将估计一个英文翻译的概率，比如估计这句英语翻译的概率，"Jane is visiting Africa in September."，这句翻译是取决于法语句子，"Jane visite I'Afrique en septembre."，这就是英语句子相对于输入的法语句子的可能性，所以它是一个条件语言模型。

现在，假如你想真正地通过模型将法语翻译成英文，通过输入的法语句子模型将会告诉你各种英文翻译所对应的可能性。在这里是法语句子"Jane visite l'Afrique en septembre."，而它将告诉你不同的英语翻译所对应的概率。显然你不想让它随机地进行输出，如果你从这个分布中进行取样得到(|)，可能取样一次就能得到很好的翻译，"Jane is visiting Africa in September."。但是你可能也会得到一个截然不同的翻译，"Jane is going to be visiting Africa in September."，这句话听起来有些笨拙，但它不是一个糟糕的翻译，只是不是最好的而已。有时你也会偶然地得到这样的翻译，"In September, Jane will visit Africa."，或者有时候你还会得到一个很糟糕的翻译，"Her African friend welcomed Jane in September."。所以当你使用这个模型来进行机器翻译时，你并不是从得到的分布中进行随机取样，而是你要找到一个英语句子(上图编号 1 所示)，使得条件概率最大化。所以在开发机器翻译系统时，你需要做的一件事就是想出一个算法，用来找出合适的值，使得该项最大化，而解决这种问题最通用的算法就是束搜索(Beam Search)，你将会在下节课见到它。

不过在了解束搜索之前，你可能会问一个问题，为什么不用贪心搜索(Greedy Search)呢?贪心搜索是一种来自计算机科学的算法，生成第一个词的分布以后，它将会根据你的条件语言模型挑选出最有可能的第一个词进入你的机器翻译模型中，在挑选出第一个词之后它将会继续挑选出最有可能的第二个词，然后继续挑选第三个最有可能的词，这种算法就叫做贪心搜索，但是你真正需要的是一次性挑选出整个单词序列，从<1>、<2>到< >来使得整体的概率最大化。所以这种贪心算法先挑出最好的第一个词，在这之后再挑最好的第二词，然后再挑第三个，这种方法其实并不管用，为了证明这个观点，我们来考虑下面两种翻译。（贪心算法每一步是最优的，但对于整体未必是最优的）。

第一串(上图编号 1 所示)翻译明显比第二个(上图编号 2 所示)好，所以我们希望机器翻译模型会说第一个句子的(|)比第二个句子要高，第一个句子对于法语原文来说更好更简洁，虽然第二个也不错，但是有些啰嗦，里面有很多不重要的词。但如果贪心算法挑选出了"Jane is"作为前两个词，因为在英语中 going 更加常见，于是对于法语句子来说"Jane is going"相比"Jane is visiting"会有更高的概率作为法语的翻译，所以很有可能如果你仅仅根据前两个词来估计第三个词的可能性，得到的就是 going，最终你会得到一个欠佳的句子，在 (|)模型中这不是一个最好的选择。

我知道这种说法可能比较粗略，但是它确实是一种广泛的现象，当你想得到单词序列 <1>、<2>一直到最后一个词总体的概率时，一次仅仅挑选一个词并不是最佳的选择。当然，在英语中各种词汇的组合数量还有很多很多，如果你的字典中有 10,000 个单词，并且你的翻译可能有 10 个词那么长，那么可能的组合就有 10,000 的 10 次方这么多，这仅仅是 10 个单词的句子，从这样大一个字典中来挑选单词，所以可能的句子数量非常巨大，不可能去计算每一种组合的可能性。所以这时最常用的办法就是用一个近似的搜索算法，这个近似的搜索算法做的就是它会尽力地，尽管不一定总会成功，但它将挑选出句子使得条件概率最大化，尽管它不能保证找到的值一定可以使概率最大化，但这已经足够了。

最后总结一下，在本视频中，你看到了机器翻译是如何用来解决条件语言模型问题的，这个模型和之前的语言模型一个主要的区别就是，相比之前的模型随机地生成句子，在该模型中你要找到最有可能的英语句子，最可能的英语翻译，但是可能的句子组合数量过于巨大，无法一一列举，所以我们需要一种合适的搜索算法，让我们在下节课中学习集束搜索。

3. 集束搜索

这节视频中你会学到集束搜索(beam search)算法，上节视频中我们讲了对于机器翻译来说，给定输入，比如法语句子，你不会想要输出一个随机的英语翻译结果，你想要一个最好的，最可能的英语翻译结果。对于语音识别也一样，给定一个输入的语音片段，你不会想要一个随机的文本翻译结果，你想要最好的，最接近原意的翻译结果，集束搜索就是解决这个最常用的算法。这节视频里，你会明白怎么把集束搜索算法应用到你自己的工作中，就用我们的法语句子的例子来试一下集束搜索吧。

“Jane visite l'Afrique en Septembre.”(法语句子)，我们希望翻译成英语，"Jane is visiting Africa in September".(英语句子)，集束搜索算法首先做的就是挑选要输出的英语翻译中的第一个单词。这里我列出了 10,000 个词的词汇表(下图编号 1 所示)，为了简化问题，我们忽略大小写，所有的单词都以小写列出来。在集束搜索的第一步中我用这个网络部分，绿色是编码部分(下图编号 2 所示)，紫色是解码部分(下图编号 3 所示)，来评估第一个单词的概率值，给定输入序列，即法语句子的编码结果作为输入，第一个输出的概率值是多少。

贪婪算法只会挑出最可能的那一个单词（从预测第一个词生成的分布中），然后继续。而集束搜索则会考虑多个选择，集束搜索算法会有一个参数 B，叫做集束宽(beam width)。在这个例子中我把这个集束宽设成 3，这样就意味着集束搜索不会只考虑一个可能结果，而是一次会考虑 3 个，比如对第一个单词有不同选择的可能性，最后找到 in、jane、september，是英语输出的第一个单词的最可能的三个选项，然后集束搜索算法会把结果存到计算机内存里以便后面尝试用这三个词。如果集束宽设的不一样，如果集束宽这个参数是 10 的话，那么我们跟踪的不仅仅 3 个，而是第一个单词的最可能的10个选择。所以要明白，为了执行集束搜索的第一步，你需要输入法语句子到编码网络，然后会解码这个网络，这个 softmax 层(上图编号 3 所示)会输出 10,000 个概率值，得到这 10,000 个输出的概率值（第一个词是词典中各个词的概率分布），取前三个存起来。

让我们看看集束搜索算法的第二步，已经选出了 in、jane、september 作为第一个单词三个最可能的选择，集束算法接下来会针对每个第一个单词考虑第二个单词是什么，单词 in 后面的第二个单词可能是词典中的任意一个单词，我就是从词汇表里把这些词列了出来(下图编号 1 所示)。

为了评估第二个词的概率值，我们用这个神经网络的部分，绿色是编码部分(上图编号 2 所示)，而对于解码部分，当决定单词 in 后面是什么，别忘了解码器的第一个输出<1>，我把<1>设为单词 in(上图编号 3 所示)，然后把它喂回来，作为下一时刻的输入，这里就是单词 in(上图编号 4 所示)，因为它的目的是努力找出第一个单词是 in 的情况下，第二个单词是什么。这个输出就是<2>(上图编号 5 所示)，有了这个连接(上图编号 6 所示)，就是这里的第一个单词 in(上图编号 4 所示)作为输入，这样这个网络就可以用来评估第二个单词的概率了，在给定法语句子和翻译结果的第一个单词 in 的情况下。

注意，在第二步里我们更关心的是要找到最可能的第一个和第二个单词对，所以不仅仅是第二个单词有最大的概率，而是第一个、第二个单词对有最大的概率(上图编号 7 所示)。按照条件概率的准则，这个可以表示成第一个单词的概率(上图编号 8 所示)乘以第二个单词的概率(上图编号 9 所示)，这个可以从这个网络部分里得到(上图编号 10 所示)，对于已经选择的 in、jane、september 这三个单词，你可以先保存这个概率值(上图编号 8 所示)，然后再乘以第二个概率值(上图编号 9 所示)就得到了第一个和第二个单词对的概率 (上图编号 7 所示)。

现在你已经知道在第一个单词是 in 的情况下如何评估第二个单词的概率，现在第一个单词是 jane，道理一样，句子可能是"jane a"、"jane aaron"，等等到"jane is"、"jane visits"等等(上图编号 1 所示)。你会用这个新的网络部分(上图编号 2 所示)，我在这里画一条线，代表从<1>，即 jane，作为下一时刻的输入(上图编号 3 所示)，那么这个网络部分就可以告诉你给定输入和第一个词是 jane 下，第二个单词的概率了(上图编号 4 所示)，和上面一样，你可以乘以(<1>|)得到(<1>, <2>|)。

对于第一个单词的三个选择in、jane、september，第二步分别都会有10000有可能的选择。所以对于集束搜索的第二步，由于我们一直用的集束宽为 3，并且词汇表里有 10,000 个单词，那么最终我们会有 3 乘以 10,000 也就是 30,000 个可能的结果，因为这里(上图编号 1 所示)是 10,000，这里(上图编号 2 所示)是 10,000，这里(上图编号 3 所示)是 10,000，就是集束宽乘以词汇表大小，你要做的就是评估这 30,000 个选择。按照第一个词和第二个词对的概率（P(y<1>,y<2>|x）=P(y<1>|x)P(y<2>|x,y<1>)，然后选出前三个，这样又减少了这 30,000 个可能性，又变成了 3 个可能的选择，减少到集束宽的大小。假如这 30,000 个选择里最可能的是“in September”(上图编号 4 所示)和“jane is”(上图编号 5 所示)，以及“jane visits”(上图编号 6 所示)，画的有点乱，但这就是这 30,000 个选择里最可能的三个结果，集束搜索算法会保存这些结果，然后用于下一次集束搜索。

注意一件事情，如果集束搜索找到了第一个和第二个单词对最可能的三个选择是“in September”或者“jane is”或者“jane visits”，这就意味着我们去掉了 september 作为英语翻译结果的第一个单词的选择，所以我们的第一个单词现在减少到了两个可能结果，但是我们的集束宽是 3，所以还是有<1>，<2>对的三个选择。

在我们进入集束搜索的第三步之前，我还想提醒一下因为我们的集束宽等于 3，每一步我们都复制 3 个，同样的这种网络来评估部分句子和最后的结果，由于集束宽等于 3，我们有三个网络副本(上图编号 7 所示)，每个网络的第一个单词不同，而这三个网络可以高效地评估第二个单词所有的 30,000 个选择。所以不需要初始化 30,000 个网络副本，只需要使用 3 个网络的副本就可以快速的评估 softmax 的输出，即<2>的 10,000 个结果。

让我们快速解释一下集束搜索的下一步，前面说过前两个单词最可能的选择是“in September”和“jane is”以及“jane visits”，对于每一对单词我们应该保存起来，给定输入，即法语句子作为的情况下，<1>和<2>的概率值和前面一样，现在我们考虑第三个单词是什么，可以是“in September a”，可以是“in September aaron”，一直到“in September zulu”。为了评估第三个单词可能的选择，我们用这个网络部分，第一单词是 in(上图编号 1 所示)，第二个单词是 september(上图编号 2 所示)，所以这个网络部分可以用来评估第三个单词的概率，在给定输入的法语句子和给定的英语输出的前两个单词“in September”情况下,得到第三个词的概率分布(上图编号 3 所示)。对于第二个片段来说也一样，就像这样一样(上图编号 4 所示)，对于 “jane visits”也一样，然后集束搜索还是会（在30000个选择中，3*10000）挑选出针对前三个词的三个最可能的选择（P(y<1>,y<2>,y<3>|x)=P(y<1>|x)P(y<2>|x,y<1>)P(y<3>|x,y<1>,y<2>),等号右边的前两个概率值在之前的步骤中已经算出来了，直接保存，再将这个概率值与第三步生成的概率分布分别相乘，在30000中可能选择中，选最大的3个），可能是 “in september jane”(上图编号 5 所示)，“Jane is visiting”也很有可能(上图编号 6 所示)，也很可能是“Jane visits Africa”(上图编号 7 所示)。

然后继续，接着进行集束搜索的第四步，再加一个单词继续，最终这个过程的输出一次增加一个单词，集束搜索最终会找到“Jane visits africa in september”这个句子，终止在句尾符号(上图编号 8 所示)，用这种符号的系统非常常见，它们会发现这是最有可能输出的一个英语句子。在本周的练习中，你会看到更多的执行细节，同时，你会运用到这个集束算法，在集束宽为 3 时，集束搜索一次只考虑 3 个可能结果。注意如果集束宽等于 1，只考虑 1 种可能结果，这实际上就变成了贪婪搜索算法，上个视频里我们已经讨论过了。但是如果同时考虑多个，可能的结果比如 3 个，10 个或者其他的个数，集束搜索通常会找到比贪婪搜索更好的输出结果。

4. 改进集束搜索

上个视频中, 你已经学到了基本的束搜索算法(the basic beam search algorithm)，这个视频里,我们会学到一些技巧, 能够使算法运行的更好。长度归一化(Lengthnormalization)就是对束搜索算法稍作调整的一种方式，帮助你得到更好的结果，下面介绍一下它。

前面讲到束搜索就是最大化这个概率，这个乘积就是(<1>...|)，可以表示成:(<1>|) (<2>|,<1>) (<3>|,<1>,<2>)...(|,<1>,<2>...).

这些符号看起来可能比实际上吓人，但这就是我们之前见到的乘积概率(the product probabilities)。如果计算这些，其实这些概率值都是小于 1 的，通常远小于 1。很多小于 1 的数乘起来，会得到很小很小的数字，会造成数值下溢(numerical underflow)。数值下溢就是数值太小了，导致电脑的浮点表示不能精确地储存，因此在实践中,我们不会最大化这个乘积，而是取值。如果在这加上一个，最大化这个求和的概率值，在选择最可能的句子时，你会得到同样的结果。所以通过取，我们会得到一个数值上更稳定的算法，不容易出现四舍五入的误差，数值的舍入误差(rounding errors)或者说数值下溢(numerical underflow)。因为函数它是严格单调递增的函数，所以(找到一个句子y)最大化(|)和最大化(|)结果一样。如果一个值能够使前者最大，就肯定能使后者也取最大。所以实际工作中，我们总是记录概率的对数和(the sum of logs of the probabilities)，而不是概率的乘积(the production of probabilities)。

对于目标函数(this objective function)，还可以做一些改变，可以使得机器翻译表现的更好。如果参照原来的目标函数(this original objective)，如果有一个很长的句子，那么这个句子的概率会很低，因为乘了很多项小于 1 的数字来估计句子的概率。所以如果乘起来很多小于 1 的数字，那么就会得到一个更小的概率值，所以这个目标函数有一个缺点，它可能不自然地倾向于简短的翻译结果，它更偏向短的输出，因为短句子的概率是由更少数量的小于 1 的数字乘积得到的，所以这个乘积不会那么小。顺便说一下，这里也有同样的问题，概率的值通常小于等于 1，实际上在的这个范围内（0-1之间，log值为负），所以加起来的项越多，得到的结果越负，所以对这个算法另一个改变也可以使它表现的更好，也就是我们不再最大化这个目标函数了，我们可以把它归一化，通过除以翻译结果的单词数量(normalize this by the number of words in your translation)。这样就是取每个单词的概率对数值的平均了，这样很明显地减少了对输出长的结果的惩罚(this significantly reduces the penalty for outputting longer translations.)。

在实践中，有个探索性的方法，相比于直接除y，也就是输出句子的单词总数，我们有时会用一个更柔和的方法(a softer approach)，在y上加上指数，可以等于 0.7。如果等于 1，就相当于完全用长度来归一化，如果等于 0，的 0 次幂就是 1，就相当于完全没有归一化，这就是在完全归一化和没有归一化之间。就是算法另一个超参数(hyper parameter)，需要调整大小来得到最好的结果。不得不承认，这样用实际上是试探性的，它并没有理论验证。但是大家都发现效果很好，大家都发现实践中效果不错，所以很多人都会这么做。你可以尝试不同的值，看看哪一个能够得到最好的结果。

总结一下如何运行束搜索算法。当你运行束搜索时，你会看到很多长度等于 1 的句子，很多长度等于 2 的句子，很多长度等于 3 的句子，等等。可能运行束搜索 30 步，考虑输出的句子可能达到，比如长度 30。因为束宽为 3，你会记录所有这些可能的句子长度，长度为 1、2、3、4 等等一直到 30 的三个最可能的选择。然后针对这些所有的可能的输出句子，用这个式子(上图编号 1 所示)给它们打分，取概率最大的几个句子，然后对这些束搜索得到的句子，计算这个目标函数。最后从经过评估的这些句子中，挑选出在归一化的概率目标函数上得分最高的一个(you pick the one that achieves the highest value on this normalized log probability objective.)，有时这个也叫作归一化的对数似然目标函数(a normalized log likelihood objective)。这就是最终输出的翻译结果，这就是如何实现束搜索。这周的练习中你会自己实现这个算法。

最后还有一些实现的细节，如何选择束宽 B。B 越大，你考虑的选择越多，你找到的句子可能越好，但是 B 越大，你的算法的计算代价越大，因为你要把很多的可能选择保存起来。最后我们总结一下关于如何选择束宽 B 的一些想法。接下来是针对或大或小的 B 各自的优缺点。如果束宽很大，你会考虑很多的可能，你会得到一个更好的结果，因为你要考虑很多的选择，但是算法会运行的慢一些，内存占用也会增大，计算起来会慢一点。而如果你用小的束宽，结果会没那么好，因为你在算法运行中，保存的选择更少，但是你的算法运行的更快，内存占用也小。在前面视频里，我们例子中用了束宽为 3，所以会保存 3 个可能选择，在实践中这个值有点偏小。在产品中，经常可以看到把束宽设到 10，我认为束宽为 100 对于产品系统来说有点大了，这也取决于不同应用。但是对科研而言，人们想压榨出全部性能，这样有个最好的结果用来发论文，也经常看到大家用束宽为 1000 或者 3000，这也是取决于特定的应用和特定的领域。在你实现你的应用时，尝试不同的束宽的值，当 B 很大的时候，性能提高会越来越少。对于很多应用来说，从束宽 1，也就是贪心算法，到束宽为 3、到 10，你会看到一个很大的改善。但是当束宽从 1000 增加到 3000 时，效果就没那么明显了。对于之前上过计算机科学课程的同学来说，如果你熟悉计算机科学里的搜索算法 (computer science search algorithms), 比如广度优先搜索(BFS, Breadth First Search algorithms)，或者深度优先搜索(DFS, Depth First Search)，你可以这样想束搜索，不像其他你在计算机科学算法课程中学到的算法一样。如果你没听说过这些算法也不要紧，但是如果你听说过广度优先搜索和深度优先搜索，不同于这些算法，这些都是精确的搜索算法 (exact search algorithms)，束搜索运行的更快，但是不能保证一定能找到 argmax 的准确的最大值。如果你没听说过广度优先搜索和深度优先搜索，也不用担心，这些对于我们的目标也不重要，如果你听说过，这就是束搜索和其他算法的关系。

好，这就是束搜索。这个算法广泛应用在多产品系统或者许多商业系统上，在深度学习系列课程中的第三门课中，我们讨论了很多关于误差分析(error analysis)的问题。事实上在束搜索上做误差分析是我发现的最有用的工具之一。有时你想知道是否应该增大束宽，我的束宽是否足够好，你可以计算一些简单的东西来指导你需要做什么，来改进你的搜索算法。

5. 集束搜索的误差分析

在这五门课中的第三门课里，你了解了误差分析是如何能够帮助你集中时间做你的项目中最有用的工作，束搜索算法是一种近似搜索算法(an approximate search algorithm)，也被称作启发式搜索算法(a heuristic search algorithm)，它不总是输出可能性最大的句子，它仅记录着 B 为前 3 或者 10 或是 100 种可能。那么如果束搜索算法出现错误会怎样呢?

本节视频中，你将会学习到误差分析和束搜索算法是如何相互起作用的，以及你怎样才能发现是束搜索算法出现了问题，需要花时间解决，还是你的 RNN 模型出了问题，要花时间解决。我们先来看看如何对束搜索算法进行误差分析。

我们来用这个例子说明: “Jane visite l'Afrique en septembre”。假如说，在你的机器翻译的 dev 集中，也就是开发集(development set)，人工是这样翻译的: Jane visits Africa in September,我会将这个标记为∗。这是一个十分不错的人工翻译结果，不过假如说，当你在已经完成学习的 RNN 模型，也就是已完成学习的翻译模型中运行束搜索算法时，它输出了这个翻译结果:Jane visited Africa last September，我们将它标记为\hat{y}。这是一个十分糟糕的翻译，它实际上改变了句子的原意，因此这不是个好翻译。

你的模型有两个主要部分，一个是神经网络模型，或说是序列到序列模型(sequence to sequencemodel)，我们将这个称作是RNN模型，它实际上是个编码器和解码器( anencoder and a decoder)。另一部分是束搜索算法，以某个集束宽度 B 运行。如果你能够找出造成这个错误，这个不太好的翻译的原因，是两个部分中的哪一个. RNN (循环神经网络)是更可能是出错的原因呢，还是束搜索算法更可能是出错的原因呢?你在第三门课中了解到了大家很容易想到去收集更多的训练数据，这总归没什么坏处。所以同样的，大家也会觉得不行就增大束宽，也是不会错的，或者说是很大可能是没有危害的。但是就像单纯获取更多训练数据，可能并不能得到预期的表现结果。相同的，单纯增大束宽也可能得不到你想要的结果，不过你怎样才能知道是不是值得花时间去改进搜索算法呢? 下面我们来分解这个问题弄清楚什么情况下该用什么解决办法。

RNN (循环神经网络)实际上是个编码器和解码器(the encoder and the decoder)，它会计算(|)。所以举个例子，对于这个句子:Jane visits Africa in September，你将 Jane visits Africa 填入这里(上图编号 1 所示)，同样，我现在忽略了字母的大小写，后面也是一样，然后这个就会计算。(|)结果表明，你此时能做的最有效的事就是用这个模型来计算 (* |)，同时也用你的 RNN 模型来计算(\hat{y} |)，然后比较一下这两个值哪个更大。有可能是左边大于右边，也有可能是(*|x )小于(\hat{}|x)，其实应该是小于或等于，对吧。取决于实际是哪种情况，你就能够更清楚地将这个特定的错误归咎于 RNN 或是束搜索算法，或说是哪个负有更大的责任。我们来探究一下其中的逻辑。

这是之前幻灯片里的两个句子。记住，我们是要计算(* |)和(\hat{}|)，然后比较这两个哪个更大，所以就会有两种情况。

第二种情况是(*|)小于或等于(^ |)对吧?这两者之中总有一个是真的。情况 1或是情况 2 总有一个为真。情况 2 你能够总结出什么呢? 在我们的例子中， *是比 ^更好的翻译结果，不过根据 RNN 模型的结果，(*|x ) 是小于(^|x)的，也就是说，相比于^，* 成为输出的可能更小。因此在这种情况下，看来是 RNN 模型出了问题。同时可能值得在 RNN 模型上花更多时间。这里我少讲了一些有关长度归一化(length normalizations)的细节。这里我略过了有关长度归一化的细节，如果你用了某种长度归一化，那么你要做的就不是比较这两种可能性大小，而是比较长度归一化后的最优化目标函数值。不过现在先忽略这种复杂的情况。第二种情况表明虽然∗是一个更好的翻译结果，RNN 模型却赋予它更低的可能性，是 RNN 模型出现了问题。

所以误差分析过程看起来就像下面这样。你先遍历开发集，然后在其中找出算法产生的错误，这个例子中，假如说(*|)的值为 2 x 10-10，而(^|)的值为 1 x10-10，根据上页幻灯片中的逻辑关系，这种情况下我们得知束搜索算法实际上选择了比* 可能性更低的^，因此我会说束搜索算法出错了。我将它缩写为 B。接着你继续遍历第二个错误，再来看这些可能性。也许对于第二个例子来说，你认为是 RNN 模型出现了问题，我会用缩写 R 来代表 RNN。再接着你遍历了更多的例子，有时是束搜索算法出现了问题，有时是模型出现了问题，等等。通过这个过程，你就能够执行误差分析，得出束搜索算法和 RNN 模型出错的比例是多少。有了这样的误差分析过程，你就可以对开发集中每一个错误例子，即算法输出了比人工翻译更差的结果的情况，尝试确定这些错误，是搜索算法出了问题，还是生成目标函数(束搜索算法使之最大化)的 RNN 模型出了问题。并且通过这个过程，你能够发现这两个部分中哪个是产生更多错误的原因，并且只有当你发现是束搜索算法造成了大部分错误时，才值得花费努力增大集束宽度。相反地，如果你发现是 RNN 模型出了更多错，那么你可以进行更深层次的分析，来决定是需要增加正则化还是获取更多的训练数据，抑或是尝试一个不同的网络结构，或是其他方案。你在第三门课中，了解到各种技巧都能够应用在这里。

这就是束搜索算法中的误差分析，我认为这个特定的误差分析过程是十分有用的，它可以用于分析近似最佳算法(如束搜索算法)，这些算法被用来优化学习算法(例如序列到序列模型/RNN)输出的目标函数。也就是我们这些课中一直讨论的。学会了这个方法，我希望你能够在你的应用里更有效地运用好这些类型的模型。

6. Bleu得分

机器翻译(machine translation)的一大难题是一个法语句子可以有多种英文翻译而且都同样好，所以当有多个同样好的答案时，怎样评估一个机器翻译系统呢?不像图像识别 (image recognition)，只有一个正确答案，就只要测量准确性就可以了。如果有多个不错的答案，要怎样衡量准确性呢? 常见的解决办法是，通过一个叫做BLEU得分(the BLEU score) 的东西来解决。所以，在这个选修视频中，我想与你分享，我想让你了解 BLEU 得分是怎样工作的。

假如给你一个法语句子:Le chat est sur le tapis，然后给你一个这个句子的人工翻译作参考:The cat is on the mat。不过有多种相当不错的翻译。所以一个不同的人，也许会将其翻译为:There is a cat on the mat，同时，实际上这两个都是很好的，都准确地翻译了这个法语句子。BLEU 得分做的就是，给定一个机器生成的翻译，它能够自动地计算一个分数来衡量机器翻译的好坏。直觉告诉我们，只要这个机器生成的翻译与任何一个人工翻译的结果足够接近，那么它就会得到一个高的 BLEU 分数。顺便提一下 BLEU 代表 bilingual evaluation understudy (双语评估替补)。在戏剧界，侯补演员(understudy)学习资深的演员的角色，这样在必要的时候，他们就能够接替这些资深演员。而 BLEU 的初衷是相对于请评估员(ask human evaluators)，人工评估机器翻译系统(the machine translation system)，BLEU 得分就相当于一个侯补者，它可以代替人类来评估机器翻译的每一个输出结果。BLEU 得分是由 Kishore Papineni, Salim Roukos，Todd Ward 和 Wei-Jing Zhu 发表的这篇论文十分有影响力并且实际上也是一篇很好读的文章。所以如果有时间的话，我推荐你读一下。BLEU 得分背后的理念是观察机器生成的翻译，然后看生成的词是否出现在至少一个人工翻译参考之中。因此这些人工翻译的参考会包含在开发集或是测试集中。

现在，我们来看一个极端的例子。我们假设机器翻译系统缩写为MT。机器翻译 (MT)的输出是:the the the the the the the。这显然是一个十分糟糕的翻译。衡量机器翻译输出质量的方法之一是观察输出结果的每一个词看其是否出现在参考中，这被称做是机器翻译的精确度(a precision of the machine translation output)。这个情况下，机器翻译输出了七个单词并且这七个词中的每一个都出现在了参考 1 或是参考 2。单词 the 在两个参考中都出现了，所以看上去每个词都是很合理的。因此这个输出的精确度就是 7/7，看起来是一个极好的精确度。这就是为什么把出现在参考中的词在 MT 输出的所有词中所占的比例作为精确度评估标准并不是很有用的原因。因为它似乎意味着，例子中 MT 输出的翻译有很高的精确度，因此取而代之的是我们要用的这个改良后的精确度评估方法，我们把每一个单词的记分上限定为它在参考句子中出现的最多次数。在参考 1 中，单词 the 出现了两次，在参考 2 中，单词 the 只出现了一次。而 2 比 1 大，所以我们会说，单词 the 的得分上限为 2。有了这个改良后的精确度，我们就说，这个输出句子的得分为 2/7，因为在 7 个词中，我们最多只能给它 2 分。所以这里分母就是 7 个词中单词 the 总共出现的次数，而分子就是单词 the 出现的计数。我们在达到上限时截断计数，这就是改良后的精确度评估(the modified precision measure)。

到目前为止，我们都只是关注单独的单词，在 BLEU 得分中，你不想仅仅考虑单个的单词，你也许也想考虑成对的单词，我们定义一下二元词组(bigrams)的 BLEU 得分。bigram 的意思就是相邻的两个单词。现在我们来看看怎样用二元词组来定义 BLEU 得分，并且这仅仅只是最终的 BLEU 得分的一部分。我们会考虑一元词组(unigrams)也就是单个单词以及二元词组(bigrams)，即成对的词，同时也许会有更长的单词序列，比如说三元词组(trigrams)。意思是三个挨在一起的词。我们继续刚才的例子，还是前面出现过的参考 1 和 2，不过现在我们假定机器翻译输出了稍微好一点的翻译:The cat the cat on the mat，仍然不是一个好的翻译，不过也许比上一个好一些。这里，可能的二元词组有the cat ，忽略大小写，接着是 cat the，这是另一个二元词组，然后又是 the cat。不过我已经有了，所以我们跳过它，然后下一个是 cat on，然后是 on the，再然后是 the mat。所以这些就是机器翻译中的二元词组。好，我们来数一数每个二元词组出现了多少次。the cat出现了两次，cat the出现了一次，剩下的都只出现了一次。最后，我们来定义一下截取计数(theclippedcount)。也就是 Count_clip。为了定义它，我们以这列的值为基础，但是给算法设置得分上限，上限值为二元词组出现在参考 1 或 2 中的最大次数。the cat 在两个参考中最多出现一次，所以我将截取它的计数为 1。cat the 它并没有出现在参考 1 和参考 2 中，所以我将它截取为 0。cat on ，好，它出现了一次，我们就记 1 分。on the 出现一次就记 1 分，the mat 出现了一次，所以这些就是截取完的计数(the clipped counts)。我们把所有的这些计数都截取了一遍，实际上就是将它们降低使之不大于二元词组出现在参考中的次数。最后，修改后的二元词组的精确度就是 count_clip 之和。因此那就是 4 除以二元词组的总个数，也就是 6。因此是 4/6 也就是 2/3 为二元词组改良后的精确度。

现在我们将它公式化。基于我们在一元词组中学到的内容，我们将改良后的一元词组精确度定义为，代表的是精确度。这里的下标 1 的意思是一元词组。不过它定义为一元词组之和，也就是分母对机器翻译结果中所有单词求和，分子是每个单词在参考中出现的最大次数之和（重复单词归在一起计算），比如之前得到的2/7。这里的 1 指代的是一元词组，意思是我们在考虑单独的词，你也可以定义 n为元词组精确度，用 n-gram 替代掉一元词组。所以这就是机器翻译输出中的元词组的countclip 之和除以元词组的出现次数之和。因此这些精确度或说是这些改良后的精确度得分评估的是一元词组或是二元词组。就是我们前页幻灯片中做的，或者是三元词组，也就是由三个词组成的，甚至是取更大数值的元词组。这个方法都能够让你衡量机器翻译输出中与参考相似重复的程度。另外，你能够确信如果机器翻译输出与参考 1 或是参考 2 完全一致的话，那么所有的这些1、2 等等的值，都会等于 1.0。为了得到改良后的 1.0 的精确度，只要你的输出与参考之一完全相同就能满足，不过有时即使输出结果并不完全与参考相同，这也是有可能实现的。你可以将它们以另一种方式组合，但愿仍能得到不错的翻译结果。

最后，我们将这些组合一下来构成最终的 BLEU 得分。n 就是元词组这一项的 BLEU 得分，也是计算出的元词组改良后的精确度，按照惯例，为了用一个值来表示你需要计算1，2， 3 ，4。然后将它们用这个公式组合在一起，就是取平均值。按照惯例 BLEU 得分被定义为：

对这个线性运算进行乘方运算，乘方是严格单调递增的运算，我们实际上会用额外的一个叫做BP 的惩罚因子(the BP penalty)来调整这项。BP的意思是“简短惩罚”( brevity penalty)。这些细节也许并不是十分重要，但是你可以大致了解一下。事实表明，如果你输出了一个非常短的翻译，那么它会更容易得到一个高精确度。因为输出的大部分词可能都出现在参考之中，不过我们并不想要特别短的翻译结果。因此简短惩罚(BP)就是一个调整因子，它能够惩罚输出了太短翻译结果的翻译系统。BP 的公式如上图所示。如果你的机器翻译系统实际上输出了比人工翻译结果更长的翻译，那么它就等于 1，其他情况下就是像这样的公式，惩罚所有更短的翻译，细节部分你能够在这篇论文中找到。

再说一句，在之前的视频中，你了解了拥有单一实数评估指标(a single real number evaluation metric)的重要性，因为它能够让你尝试两种想法，然后看一下哪个得分更高，尽量选择得分更高的那个，BLEU 得分对于机器翻译来说，具有革命性的原因是因为它有一个相当不错的虽然不是完美的但是非常好的单一实数评估指标，因此它加快了整个机器翻译领域的进程，我希望这节视频能够让你了解 BLEU 得分是如何操作的。实践中，很少人会从零实现一个 BLEU 得分(implement a BLEU score from scratch)，有很多开源的实现结果，你可以下载下来然后直接用来评估你的系统。不过今天，BLEU 得分被用来评估许多生成文本的系统(systems that generate text)，比如说机器翻译系统(machine translation systems)，也有我之前简单提到的图像描述系统(image captioning systems)。也就是说你会用神经网络来生成图像描述，然后使用 BLEU 得分来看一下，结果在多大程度上与参考描述或是多个人工完成的参考描述内容相符。BLEU 得分是一个有用的单一实数评估指标，用于评估生成文本的算法，判断输出的结果是否与人工写出的参考文本的含义相似。不过它并没有用于语音识别(speech recognition)。因为在语音识别当中，通常只有一个答案，你可以用其他的评估方法，来看一下你的语音识别结果，是否十分相近或是字字正确(pretty much, exactly word for word correct)。不过在图像描述应用中，对于同一图片的不同描述，可能是同样好的。或者对于机器翻译来说，有多个一样好的翻译结果，BLEU 得分就给了你一个能够自动评估的方法，帮助加快算法开发进程。说了这么多，希望你明白了 BLEU 得分是怎么运行的。

7. 注意力模型直观理解

在本周大部分时间中，你都在使用这个编码解码的构架(a Encoder-Decoder architecture) 来完成机器翻译。当你使用 RNN 读一个句子，于是另一个会输出一个句子。我们要对其做一些改变，称为注意力模型(the Attention Model)，并且这会使它工作得更好。注意力模型或者说注意力这种思想(The attention algorithm, the attention idea)已经是深度学习中最重要的思想之一，我们看看它是怎么运作的。

像这样给定一个很长的法语句子，在你的神经网络中，这个绿色的编码器要做的就是读整个句子，然后记忆整个句子，对输入句子编码(to read in the whole sentence and then memorize the whole sentences and store it in the activations conveyed her)。而对于这个紫色的神经网络，即解码网络(the decoder network)将生成英文翻译，Jane 去年九月去了非洲，非常享受非洲文化，遇到了很多奇妙的人，她回来就嚷嚷道，她经历了一个多棒的旅行，并邀请我也一起去。人工翻译并不会通过读整个法语句子，再记忆里面的东西，然后从零开始，机械式地翻译成一个英语句子。而人工翻译，首先会做的可能是先翻译出句子的一部分，再看下一部分，并翻译这一部分。看一部分，翻译一部分，一直这样下去。你会通过句子，一点一点地翻译，因为记忆整个的像这样的长句是非常困难的。你在下面这个编码解码结构中，会看到它对于短句子效果非常好，于是它会有一个相对高的 Bleu 分(Bleu score)，但是对于长句子而言，比如说大于 30 或者 40 词的句子，它的表现就会变差。Bleu 评分看起来就会像是上图这样，随着单词数量变化，长句子会难以翻译，因为很难得到所有词。因为在神经网络中，记忆非常长句子是非常困难的。在这个和下个视频中，你会见识到注意力模型，它翻译得很像人类，一次翻译句子的一部分。而且有了注意力模型，机器翻译系统的表现会像上图中的绿线一样，因为翻译只会翻译句子的一部分，你不会看到像蓝线那样（当句子变长时）有一个巨大的下倾(huge dip)，这个下倾实际上衡量了神经网络记忆一个长句子的能力，这是我们不希望神经网络去做的事情。在这个视频中，我想要给你们注意力机制运行的一些直观的东西。然后在下个视频中，完善细节。

首先对输入的句子通过一个双向RNN(LSTM、GRU)进行编码，对于编码器来说每个时间步的隐藏状态就是把前向RNN每个时间步的隐藏状态和后向RNN每个时间步的隐藏状态进行拼接；解码器是一个单向RNN，对于解码器的每一步，我们输出一个翻译单词，我们将解码器上一时间步的隐藏状态作为Query，与编码器各个时间步的隐藏状态（作为Key）进行运算(最简单的情况是直接做内积或者进行一些线性/非线性变换)，得到Tx(输入句子的长度，编码器的时间步数或编码器隐藏状态数)个分数，然后对Tx个分数进行softmax变换，得到Tx个权重(0-1)，每个权重对应编码器一个时间步的隐藏状态。然后用这Tx个权重与编码器各个时间步的隐藏状态进行加权求和，得到一个context vector，将这个context vector和解码器当前时刻的输入进行拼接，作为解码器当前时刻新的输入，并与解码器上一时刻的隐藏状态一起，计算出解码器当前时刻的隐藏状态，用来得到解码器当前时刻的输出以及计算解码器下一时刻的context vector以及下一时刻的隐藏状态。之后解码器每个时间步的计算都如上述过程一样。

这个算法的一个缺点就是它要花费三次方的时间，就是说这个算法的复杂是(3)的，如果你有x个输入单词和y 个输出单词，于是注意力参数的总数就会是x × y ，所以这个方法有着三次方的消耗。但是在机器翻译的应用上，输入和输出的句子一般不会太长，可能三次方的消耗是可以接受，但也有很多研究工作，尝试去减少这样的消耗。那么讲解注意想法在机器翻译中的应用，就到此为止了。虽然没有讲到太多的细节，但这个想法也被应用到了其他的很多问题中去了，比如图片加标题(image captioning)，图片加标题就是看一张图，写下这张图的标题/描述。当你在写图片标题的时候，一次只花注意力在一部分图片上面。

其他可以做的有意思的事情是可视化注意力权重(the visualizations of the attention weights)。这个一个机器翻译的例子，这里被画上了不同的颜色，不同注意力权重的大小，我不想在这上面花太多时间，但是你可以发现，对应的输入输出词，你会发现注意力权重，会变高（有一个对齐的效果），因此这显示了当它生成特定的输出词时通常会花更多注意力在输入的正确的词上面，模型会学习如何分配注意力(权重)，当输出一个翻译后的单词时，他会对输入句子中对应的部分(正确的部分)分配更多注意力。

8. 语音识别

现今，最令人振奋的发展之一，就是 seq2seq 模型(sequence-to-sequence models)在语音识别方面准确性有了很大的提升。这门课程已经接近尾声，现在我想通过剩下几节视频，来告诉你们，seq2seq 模型是如何应用于音频数据的(audio data)，比如语音(the speech)。

什么是语音识别问题呢?现在你有一个音频片段(an audio clip,x)，你的任务是自动地生成文本。现在有一个音频片段，画出来是这样，该图的横轴是时间。一个麦克风的作用是测量出微小的气压变化，现在你之所以能听到我的声音，是因为你的耳朵能够探测到这些微小的气压变化，它可能是由你的扬声器或者耳机产生的，也就是像图上这样的音频片段，气压随着时间而变化。假如这个我说的音频片段的内容是:"the quick brown fox"(敏捷的棕色狐狸)，这时我们希望一个语音识别算法(a speech recognition algorithm)，通过输入这段音频，然后输出音频的文本内容。考虑到人的耳朵并不会处理声音的原始波形，而是通过一种特殊的物理结构来测量这些，不同频率和强度的声波。音频数据的常见预处理步骤，就是运行这个原始的音频片段，然后生成一个声谱图(a spectrogram)，就像左下角这样。同样地，横轴是时间，纵轴是声音的频率(frequencies)，而图中不同的颜色，显示了声波能量的大小 (the amount of energy)，也就是在不同的时间和频率上这些声音有多大。通过这样的声谱图，或者你可能还听过人们谈到过伪空白输出(the false blank outputs)，也经常应用于预处理步骤，也就是在音频被输入到学习算法之前，而人耳所做的计算和这个预处理过程非常相似。语音识别方面，最令人振奋的趋势之一就是曾经有一段时间，语音识别系统是用音位 (phonemes)来构建的，也就是人工设计的基本单元(hand-engineered basic units of cells)，如果用音位来表示"the quick brown fox"，我这里稍微简化一些，"the"含有"th"和"e"的音，而"quick"有"k" "w" "i" "k"的音，语音学家过去把这些音作为声音的基本单元写下来，把这些语音分解成这些基本的声音单元，而"brown"不是一个很正式的音位，因为它的音写起来比较复杂，不过语音学家(linguists)们认为用这些基本的音位单元(basic units of sound called phonemes)来表示音频(audio)，是做语音识别最好的办法。不过在 end-to-end 模型中，我们发现这种音位表示法(phonemes representations)已经不再必要了，而是可以构建一个系统，通过向系统中输入音频片段(audio clip)，然后直接输出音频的文本(a transcript)，而不需要使用这种人工设计的表示方法。使这种方法成为可能的一件事就是用一个很大的数据集，所以语音识别的研究数据集可能长达 300 个小时，在学术界，甚至 3000 小时的文本音频数据集，都被认为是合理的大小。大量的研究，大量的论文所使用的数据集中，有几千种不同的声音，而且，最好的商业系统现在已经训练了超过 1 万个小时的数据，甚至 10 万个小时，并且它还会继续变得更大。在文本音频数据集中(Transcribe audio data sets)同时包含和，通过深度学习算法大大推进了语音识别的进程。那么，如何建立一个语音识别系统呢?

在上一节视频中，我们谈到了注意力模型，所以，一件你能做的事就是在横轴上，也就是在输入音频的不同时间帧上，你可以用一个注意力模型，来输出文本描述，如"the quick brown fox"，或者其他语音内容。

还有一种效果也不错的方法，就是用 CTC 损失函数(CTC cost)来做语音识别。CTC 就是 Connectionist Temporal Classification，它是由 Alex Graves、Santiago Fernandes, Faustino Gomez、和 Jürgen Schmidhuber 提出的。

算法思想如下:

假设语音片段内容是某人说:"the quick brown fox"，这时我们使用一个新的网络，结构像上面这个样子，这里输入和输出的数量都是一样的，因为我在这里画的，只是一个简单的单向 RNN 结构。然而在实际中，它有可能是双向的 LSTM 结构，或者双向的 GRU 结构，并且通常是很深的模型。但注意一下这里时间步的数量，它非常地大。在语音识别中，通常输入的时间步数量(the number of input time steps)要比输出的时间步的数量(the number of output time steps)多出很多。举个例子，比如你有一段 10 秒的音频，并且特征(features) 是 100 赫兹的，即每秒有 100 个样本，于是这段 10 秒的音频片段就会有 1000 个输入，就是简单地用 100 赫兹乘上 10 秒。所以有 1000 个输入，但可能你的输出就没有 1000 个字母了，或者说没有 1000 个字符。这时要怎么办呢?CTC 损失函数允许 RNN 生成这样的输出: ttt，下划线表示空白符，这句话开头的音可表示为 h_eee_ _ _，然后这里可能有个空格，我们用这个（上图中绿圈中的符号）来表示空格，之后是_ _ _qqq__，这样的输出也被看做是正确的输出。上面这段输出对应的是"the q"。CTC 损失函数的一个基本规则是将空白符之间的重复的字符折叠起来，再说清楚一些，我这里用下划线来表示这个特殊的空白符(a special blank character)，它和空格(the space character)是不一样的。所以 the 和 quick 之间有一个空格符，所以我要输出一个空格，通过把用空白符所分割的重复的字符折叠起来，然后我们就可以把这段序列折叠成"the q"。这样一来你的神经网络因为有很多这种重复的字符，和很多插入在其中的空白符(blank characters)，所以最后我们得到的文本会短上很多。于是这句"the quick brown fox"包括空格一共有 19 个字符，在这样的情况下，通过允许神经网络有重复的字符和插入空白符使得它能强制输出 1000 个字符，甚至你可以输出 1000 个值来表示这段 19 个字符长的输出。这篇论文来自于 Alex Grace 以及刚才提到的那些人。我所参与的深度语音识别系统项目就使用这种思想来构建有效的语音识别系统。

希望这能给你一个粗略的理解，理解语音识别模型是如何工作的:注意力模型是如何工作的，以及 CTC 模型是如何工作的，以及这两种不同的构建这些系统的方法。现今，在生产技术中，构建一个有效语音识别系统，是一项相当重要的工作，并且它需要很大的数据集，下节视频我想做的是告诉你如何构建一个触发字检测系统(a rigger word detection system)，其中的关键字检测系统(keyword detection system)将会更加简单，它可以通过一个更简洁的数量更合理的数据来完成。所以我们下节课再见。

语音识别系统一种使用类似于机器翻译的方法，即Seq2Seq+Attention（编码器可能是多层双向LSTM，解码器为多层单向LSTM），Transformer(这类模型可以直接处理输入输出不等长问题)；一种是使用CTC损失函数，这种模型通过在输出中添加重复字符和空白符，使输出和输入等长，来解决原本输入和输出不等长的问题，即encoder+CTC。

9. 触发字检测

现在你已经学习了很多关于深度学习和序列模型的内容，于是我们可以真正去简便地描绘出一个触发字系统(a trigger word system)，就像上节视频中你看到的那样。随着语音识别的发展，越来越多的设备可以通过你的声音来唤醒，这有时被叫做触发字检测系统(rigger word detection systems)。我们来看一看如何建立一个触发字系统。

触发字系统的例子包括 Amazon echo，它通过单词 Alexa 唤醒;还有百度 DuerOS 设备，通过"小度你好"来唤醒;苹果的 Siri 用 Hey Siri 来唤醒;Google Home 使用 Okay Google 来唤醒，这就是触发字检测系统。假如你在卧室中，有一台 Amazon echo，你可以在卧室中简单说一句:Alexa, 现在几点了?就能唤醒这个设备。它将会被单词"Alexa"唤醒，并回答你的询问。如果你能建立一个触发字检测系统，也许你就能让你的电脑通过你的声音来执行某些事，我有个朋友也在做一种用触发字来打开的特殊的灯，这是个很有趣的项目。但我想教会你的，是如何构建一个触发字检测系统。

有关于触发字检测系统的文献，还处于发展阶段。对于触发字检测，最好的算法是什么，目前还没有一个广泛的定论。我这里就简单向你介绍一个你能够使用的算法好了。现在有一个这样的 RNN 结构，我们要做的就是把一个音频片段(an audio clip)计算出它的声谱图特征(spectrogramfeatures)得到特征向量<1>, <2>, <3>...，然后把它放到RNN中，最后要做的，就是定义我们的目标标签。假如音频片段中的这一点是某人刚刚说完一个触发字，比如"Alexa"，或者"小度你好" 或者"Okay Google"，那么在这一点之前，你就可以在训练集中把目标标签都设为 0，然后在这个点之后把目标标签设为 1。假如在一段时间之后，触发字又被说了一次，比如是在这个点说的，那么就可以再次在这个点之后把目标标签设为 1。这样的标签方案对于 RNN 来说是可行的，并且确实运行得非常不错。不过该算法一个明显的缺点就是它构建了一个很不平衡的训练集(a very imbalanced training set)，0 的数量比 1 多太多了。

这里还有一个解决方法，虽然听起来有点简单粗暴，但确实能使其变得更容易训练。比起只在一个时间步上去输出 1，其实你可以在输出变回 0 之前，多次输出 1，或说在固定的一段时间内输出多个 1。这样的话，就稍微提高了 1 与 0 的比例，这确实有些简单粗暴。在音频片段中，触发字刚被说完之后，就把多个目标标签设为 1，这里触发字又被说了一次。说完以后，又让 RNN 去输出 1。在之后的编程练习中，你可以进行更多这样的操作，我想你应该会对自己学会了这么多东西而感到自豪。我们仅仅用了一张幻灯片来描述这种复杂的触发字检测系统。在这个基础上，希望你能够实现一个能有效地让你能够检测出触发字的算法，不过在编程练习中你可以看到更多的学习内容。这就是触发字检测，希望你能对自己感到自豪。因为你已经学了这么多深度学习的内容，现在你可以只用几分钟时间，就能用一张幻灯片来描述触发字能够实现它，并让它发挥作用。你甚至可能在你的家里用触发字系统做一些有趣的事情，比如打开或关闭电器，或者可以改造你的电脑，使得你或者其他人可以用触发字来操作它。

你可能感兴趣的:(吴恩达深度学习)

吴恩达深度学习课程实践项目集 Kiki-2189
本文还有配套的精品资源，点击获取简介：吴恩达深度学习编程作业包含了Coursera平台课程中的实践环节，为学员提供深度学习理论与编程技能的巩固。这些作业从基础神经网络到复杂架构，涵盖深度学习的各种关键概念和技术，使用TensorFlow进行模型构建和训练，适合作为入门深度学习的资源。1.深度学习基础与理论框架在当今的人工智能领域，深度学习以其强大的模式识别能力，已经成为了众多技术革新的核心。本章将
吴恩达深度学习作业之 PyTorch 实现多分类任务海盗儿深度学习 pytorch 分类
在这次作业中会学到：（参考https://zhuanlan.zhihu.com/p/536483424）PyTorch与NumPy的相互转换PyTorch的常见运算（矩阵乘法、激活函数、误差）PyTorch的初始化器PyTorch的优化器PyTorch维护梯度的方法数据集本项目中，我们要用到一个平面点数据集。在平面上，有三种颜色不同的点。我们希望用PyTorch编写的神经网络能够区分这三种点。im
吴恩达深度学习复盘(19)XGBoost简介|神经网络与决策树 wgc2k #深度学习深度学习神经网络决策树
XGBoost多年来，机器学习研究人员提出了许多构建决策树的方法，目前最常用的方法是对样本或决策树的实现收费。其中，XGBoost是一种非常快速且易于使用的开源实现，已成功用于赢得许多机器学习竞赛和商业应用。算法原理基本思想：在构建决策树时，不是每次都以等概率选择训练样本，而是对那些之前已训练的树集合仍判断错误的样本给予更高的选择概率。这类似于在训练和教育中的“刻意练习”，例如学钢琴时专注于弹奏不
吴恩达深度学习（17）独热编码|回归树简介 wgc2k #深度学习深度学习回归人工智能
独热编码（One-HotEncoding）简介在之前看到的示例中，每个特征只能取一个或两个可能的值，比如耳朵形状只有尖或，胡须只有有或无。但如果特征可以有两个以上的取值该需要特殊处理。以宠物收养中心应用程序的新训练集为例，除了耳朵形状特征外，其他数据都相同。此时耳朵形状不再只有尖和松软两种，还可以是椭圆形，即耳朵形状（ESHI）特征仍是分类值特征，但从有两个可能值变为有三个可能值。当基于这个特征进
【深度学习基础】第四十七课：BLEU得分 x-jeff 深度学习基础深度学习人工智能 nlp
【深度学习基础】系列博客为学习Coursera上吴恩达深度学习课程所做的课程笔记。1.BLEU得分机器翻译的一大难题是一个法语句子可以有多种英文翻译，并且翻译质量都同样好。那么我们该怎样评估一个机器翻译系统呢？常用的一个方法就是使用BLEU得分。BLEU原文：PapineniK,RoukosS,WardT,etal.Bleu:amethodforautomaticevaluationofmachi
吴恩达深度学习复盘（1）神经网络与深度学习的发展 wgc2k #深度学习深度学习人工智能
一、神经网络的起源与生物学动机灵感来源神经网络的最初动机源于对生物大脑的模仿。20世纪50年代，科学家试图通过软件模拟神经元的工作机制（如树突接收信号、轴突传递信号），构建类似人类大脑的信息处理系统。生物神经元的简化模型人工神经网络采用数学模型简化生物神经元的行为：每个神经元接收输入（数字信号），通过加权求和与激活函数处理后输出。尽管这一模型远不及真实大脑复杂，但早期研究认为其可能复现智能行为。二
【深度学习基础】第二十四课：softmax函数的导数 x-jeff 深度学习基础深度学习人工智能
【深度学习基础】系列博客为学习Coursera上吴恩达深度学习课程所做的课程笔记。1.softmax函数softmax函数详解。2.softmax函数的导数假设神经网络输出层的激活函数为softmax函数，用以解决多分类问题。在反向传播时，就需要计算softmax函数的导数，这也就是本文着重介绍的内容。我们只需关注输出层即可，其余层和之前介绍的二分类模型一样，不再赘述。我们先考虑只有一个样本的情况
吴恩达深度学习笔记（七）——机器学习策略子非鱼icon 深度学习自学笔记深度学习机器学习人工智能神经网络吴恩达
一、正交化通俗的理解就是：要能够诊断出系统性能瓶颈在哪里，以有策略刚好解决这个问题。一个“按钮”只负责解决一件事情。二、单一数字评估指标准确率（precision）：在分类器中标记为猫的例子中，有多少是真的猫召回率（recall）：对于所有的真猫图片，你的分类器正确识别了多少。但如果有两个评估指标，就很难去选择一个更好的分类器，如下图所示。所以有一个结合这两个指标的标准方法，也即F1分数，定义如下
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
吴恩达深度学习笔记(24)-为什么要使用深度神经网络？极客Array
为什么使用深层表示？（Whydeeprepresentations?）我们都知道深度神经网络能解决好多问题，其实并不需要很大的神经网络，但是得有深度，得有比较多的隐藏层，这是为什么呢？我们一起来看几个例子来帮助理解，为什么深度神经网络会很好用。首先，深度网络在计算什么？如果你在建一个人脸识别或是人脸检测系统，深度神经网络所做的事就是，当你输入一张脸部的照片，然后你可以把深度神经网络的第一层，当成一
吴恩达深度学习-L1 神经网络和深度学习总结向来痴_ 深度学习人工智能
作业地址：吴恩达《深度学习》作业线上版-知乎(zhihu.com)写的很好的笔记：吴恩达《深度学习》笔记汇总-知乎(zhihu.com)我的「吴恩达深度学习笔记」汇总帖（附18个代码实战项目）-知乎(zhihu.com)此处只记录需要注意的点，若想看原笔记请移步。1.1深度学习入门我们只需要管理神经网络的输入和输出，而不用指定中间的特征，也不用理解它们究竟有没有实际意义。1.2简单的神经网络——逻
神经网络与深度学习 Neural Networks and Deep Learning 课程笔记第一周林间得鹿吴恩达深度学习系列课程笔记深度学习神经网络笔记
神经网络与深度学习NeuralNetworksandDeepLearning课程笔记第一周文章目录神经网络与深度学习NeuralNetworksandDeepLearning课程笔记第一周深度学习简介什么是神经网络使用神经网络进行监督学习为什么神经网络会兴起本文是吴恩达深度学习系列课程的学习笔记。深度学习简介什么是神经网络深度学习一般是指训练神经网络。那么什么是神经网络？课程以房价预测的例子来说明
学习笔记1《吴恩达深度学习》Deep Learning 木懋懋深度学习
P11.1.1欢迎Welcome深度学习改变了传统互联网业务，例如网络搜索和广告，但是深度学习同时也使得许多新产品和企业以很多方式帮助人们，从获得更好的健康关注，深度学习做得非常好的一个方面就是读取X光图像，到生活中的个性化教育，到精准化农业，甚至到驾驶汽车以及其他一些方面。如果你想要学习深度学习的这些工具，并应用它们来做这些令人窒息的操作，就学习这门课程。在接下来的十年中，我认为我们所有人都有机
吴恩达深度学习-学习笔记p1-p6 丢了橘子的夏天深度学习学习笔记
哔哩哔哩网站视频-[双语字幕]吴恩达深度学习deeplearning.ai网站：up主：mHarvey，视频：[双语字幕]吴恩达深度学习deeplearning.ai一.p11.1欢迎二.p21.2什么是神经网络1.举例：根据面积预测房价假设有六个房子的房屋面积和价格，根据这个数据集，房屋面积预测房价的函数，这些是一个简单的神经网络神经元的功能就是输入面积完成线性运算，取不小于0的值，最后得到预测
吴恩达深度学习笔记(15）-浅层神经网络之神经网络概述极客Array
神经网络概述（NeuralNetworkOverview）从今天开始你将学习如何实现一个神经网络。这里只是一个概述，详细的在后面会讲解，看不懂也没关系，先有个概念，就是前向计算然后后向计算，理解了这个就可以了，有一些公式和表达在后面会详细的讲解。在我们深入学习具体技术之前，我希望快速的带你预览一下后续几天你将会学到的东西。现在我们开始快速浏览一下如何实现神经网络。之前我们讨论了逻辑回归，我们了解了
【吴恩达深度学习】— 参数、超参数、正则化 Sunflow007
32.jpg1.参数VS超参数1.1什么是超参数（Hyperparameters）？比如算法中的learningrate（学习率）、iterations(梯度下降法循环的数量)、L（隐藏层数目）、（隐藏层单元数目）、choiceofactivationfunction（激活函数的选择）都需要你来设置，这些数字实际上控制了最后的参数W和b的值，所以它们被称作超参数。实际上深度学习有很多不同的超参数，
交并比（Intersection over union）双木的木吴恩达深度学习笔记深度学习知识点储备笔记算法机器学习 python 深度学习计算机视觉
来源：Coursera吴恩达深度学习课程如何判断目标检测算法运作良好呢？接下来，你将了解到并交比（intersectionoverunion）函数，可以用来评价目标检测算法。交并比（loU）函数做的是计算两个边界框交集和并集之比。两个边界框的并集是这个区域，就是属于包含两个边界框区域（绿色阴影表示区域），而交集就是这个比较小的区域（橙色阴影表示区域），那么交并比就是交集的大小，这个橙色阴影面积，然
吴恩达深度学习笔记(82)-深度卷积神经网络的发展史极客Array
为什么要探索发展史(实例分析)？我们首先来看看一些卷积神经网络的实例分析，为什么要看这些实例分析呢？上周我们讲了基本构建，比如卷积层、池化层以及全连接层这些组件。事实上，过去几年计算机视觉研究中的大量研究都集中在如何把这些基本构件组合起来，形成有效的卷积神经网络。最直观的方式之一就是去看一些案例，就像很多人通过看别人的代码来学习编程一样，通过研究别人构建有效组件的案例是个不错的办法。实际上在计算机
吴恩达深度学习课程作业--C1W2 HELLOTREE1
1.3-Reshapingarraysv=v.reshape((v.shape[0]*v.shape[1],v.shape[2]))#v.shape[0]=a;v.shape[1]=b;v.shape[2]=c
吴恩达深度学习学习笔记-7建立神经网络猪猪2000 吴恩达深度学习学习笔记神经网络深度学习人工智能机器学习
1.训练神经网络训练神经网络时，需要做许多决策。例如，有多少层网络每层含有多少个隐藏单元学习率各层采用哪些激活函数…这些决策无法一次决定好，通常在项目启动时，我们会先有一个初步想法，然后编码，并尝试运行这些代码，再根据结果完善自己的想法，改变策略。2.train/dev/testsets通常把数据分为训练集，验证集，测试集。我们用训练集数据训练模型，用验证集做holdoutcrossvalidat
【吴恩达深度学习】Keras tutorial - the Happy House 深海里的鱼(・ω<)★ 人工智能机器学习深度学习 keras 深度学习 tensorflow
Kerastutorial-theHappyHouseWelcometothefirstassignmentofweek2.Inthisassignment,youwill:LearntouseKeras,ahigh-levelneuralnetworksAPI(programmingframework),writteninPythonandcapableofrunningontopofsever
吴恩达深度学习第二课-第一周笔记及课后编程题 Giraffeee_ 吴恩达深度学习深度学习人工智能机器学习
笔记训练_开发_测试集小数据时代训练集/测试集的分配比例大致遵循70%/30%或训练集/开发集（或crossvalidationset）/测试集的分配比例大致遵循60%/20%/20%大数据时代只要开发集能够确定哪一个算法/模型有更好的表现，测试集能够无偏评估模型的性能，就称赋予了开发集、测试集足够的数据量了；训练集将被赋予更大比重的数据量。如：训练集/开发集/测试集的比率为98%/2%/2%注：
吴恩达深度学习--神经网络的优化(1) Kangrant 吴恩达深度学习
1.训练集，验证集，测试集选择最佳的Train/Dev/Testsets非常重要。除此之外，构建神经网络时，需要设置的参数很多：神经网络层数，神经元个数，学习率的大小。激活函数的选择等等。实际上很难第一次就确定好这些参数，大致过程是：先确定初始参数，构建神经网络模型，然后通过代码实现该模型，之后进行试验确定模型的性能。根据性能再不断调整参数，重复上述过程，直到让神经网络模型最优。由上述可知，深度学
计划1 JLcucumber
1.吴恩达DL2021(强推|双字)2021版吴恩达深度学习课程Deeplearning.ai_哔哩哔哩_bilibiliPart1神经网络与深度学习（6+19+12+8）共45Part2训练、开发、测试集（14+10+11）共35Part3机器学习策略（13+11）共24Part4计算机视觉（11+14+14+(5+6)）共50Part5序列模型（12+10+15）共372.经典网络模型论文ht
吴恩达深度学习笔记(50)-超参数训练的实践极客Array
超参数训练的实践：PandasVSCaviar（Hyperparameterstuninginpractice:Pandasvs.Caviar）到现在为止，你已经听了许多关于如何搜索最优超参数的内容，在结束我们关于超参数搜索的讨论之前，我想最后和你分享一些建议和技巧，关于如何组织你的超参数搜索过程。如今的深度学习已经应用到许多不同的领域，某个应用领域的超参数设定，有可能通用于另一领域，不同的应用领
2019年上半年收集到的人工智能迁移学习干货文章城市中迷途小书童
2019年上半年收集到的人工智能迁移学习干货文章迁移学习全面指南：概念、项目实战、优势、挑战迁移学习：该做的和不该做的事深度学习不得不会的迁移学习TransferLearning谷歌最新的PlaNet对强化学习以及迁移学习的意义及启发迁移学习时间序列分类如何提高强化学习的可靠性？迁移学习之最大分类器差异的无监督域适应吴恩达深度学习笔记(67)-迁移学习（Transferlearning)深度学习不
吴恩达深度学习intuition Karen_Yu_ 机器学习
这里是看吴恩达课程的一些记录和联想（因为以前听过，因此不会很细致，只做个人记录）课程链接首先提到trainingset,validationset(devset)，testset的分割问题。老师提到，最常用的划分方法传统方法是三七分（也就是training70%，validation+test30%，一般而言validation20%test10%），同时，这也是应对数据集不太大的时候的方法。也可
吴恩达深度学习笔记（2）-什么是神经网络（Neural Network）极客Array
什么是神经网络？(WhatisaNeuralNetwork)我们常常用深度学习这个术语来指训练神经网络的过程。有时它指的是特别大规模的神经网络训练。那么神经网络究竟是什么呢？在这个视频中，会讲解一些直观的基础知识。首先，让我们从一个房价预测的例子开始讲起。假设你有一个数据集，它包含了六栋房子的信息。所以，你知道房屋的面积是多少平方英尺或者平方米，并且知道房屋价格。这时，你想要拟合一个根据房屋面积预
吴恩达深度学习笔记(28)-网络训练验证测试数据集的组成介绍极客Array
从今天开始我们进入新的一个大方向了，改善深层神经网络：超参数调试、正则化以及优化，首先进入深度学习的一个新层面，先认识下在深度学习中的数据集的分类。之前可能大家已经了解了神经网络的组成的几个部分，那么我们将继续学习如何有效运作神经网络，内容涉及超参数调优，如何构建数据，以及如何确保优化算法快速运行，从而使学习算法在合理时间内完成自我学习。训练，验证，测试集（Train/Dev/Testsets）在
吴恩达深度学习-序列模型 3.10触发字监测 + 课程总结 prophet__
今天学习的是触发字检测，这个说起来可能有点学术，但是简单来说就是。hey,siri!然后你的手机就会亮起来，这就是触发字检测。首先，关于触发字检测还处于发展阶段，并没有一个以绝对优势取胜的算法。如果我们想建立一个算法，那么我们首先要知道数据集如何进行标记，如果从简单的结果来想，我们可以在每次完成一次触发字之后的那个时间设置为1，其他时间设置为0。但这样做是有一些问题的，因为大部分时间是不会触发的，
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio