寒小阳

深度学习与自然语言处理(2)_斯坦福cs224d Lecture 2

原文作者：Rohit Mundra, Richard Socher
原文翻译：@熊杰([email protected]) && @王昱森
内容调整与校对：寒小阳 && 龙心尘
特别鸣谢：@面包包包包包同学的帮助
时间：2016年6月
出处：http://blog.csdn.net/han_xiaoyang/article/details/51648483
http://blog.csdn.net/longxinchen_ml/article/details/51648532
声明：版权所有，转载请联系作者并注明出处

说明：本文为斯坦福大学CS224d课程的中文版内容笔记，已得到斯坦福大学课程@Richard Socher教授的授权翻译与发表

课堂笔记：第2部分

——————————————————————————————————–

关键词：内部任务评价（Intrinsic Evaluation）和外部任务评价（extrinsic evaluations）。超参数影响下的类比评价任务。人类决策和词向量距离的相关性。结合上下文处理歧义。窗口分类。

这个课堂笔记我们将会对词向量（也就是词嵌入）的内部任务评价和外部任务评价方法进行讨论。主要的内容是单词类比(word analogies)技术,我们会把它当做内部任务评价的技术并展示其相关示例，它会在词向量的调谐（tune）中发挥重要作用。我们还会讨论如何训练模型的权重／参数，并关注用来进行外部任务评价的词向量。最后，我们会简单地提到人工神经网络，它在自然语言处理中表现极好。

1、词向量的评价

在前面的Lecture1中，我们讨论了Word2Vec和GloVe等词嵌入的方法。它们用来训练和发现词汇在语义空间中的向量表示。今天我们来探讨如何对词向量的效果进行评价。

1.1 内部任务评价

内部任务评价是对在特定子任务（如完成单词类比）中生成的词向量进行的评价，这些词向量可以由词嵌入技术（如Word2Vec和GloVe）生成。这些子任务往往很简单，计算速度很快，可以帮助我们理解生成这些词向量的系统。一个内部任务评价往往返回一个数值，来表示这些词向量在子任务上的表现。

图1：左侧子系统（红）训练消耗较大，通过替换为一个简单的内部任务评价子系统（绿）来优化。

内部任务评价的特点如下：

一般是在一个特定的子任务中进行评测
计算很快
有助于理解相关的系统
在实际的NLP任务中表现好坏，可能需要外部关联实际应用

咱们考虑一个例子，比如我们的目标是要建立一个以词向量为输入，能够回答问题的系统。一种方法是训练一个机器学习的模型，主要步骤如下:

输入词语
将词语转换成词向量
将词向量作为一个复杂的机器学习系统的输入
把系统的输出映射到自然语言词汇
生成词语组成答案

显然，为了训练这样一个问答系统，我们需要为下游机器学习系统（比如深度神经网络）建立一个最优的词向量表示。这在实际操作中，就需要我们调节Word2Vec 子系统中的许多超参数(如向量维度)。尽管最理想的方法是每次调整参数后重新训练整个系统，但这在工程上是不现实的。因为这里的机器学习系统(第3步)一般都是一个含有几百万参数的深度神经网络，需要极长时间去训练。等得花儿都谢了。所以，我们希望有一个简单的内部任务评价方法来评价词向量生成系统的好坏。显然，其中一个要求是内部任务评价结果和整个系统的最终精度是正相关的。

　1.2 外部任务评价

外部任务评价是对在实际任务中产生的词向量进行的评价。这些任务通常是很复杂的，且它们的计算过程比较缓慢。在我们前面使用的例子中，允许基于问题对答案进行评估的系统是一种外部任务评价系统。一般来讲，优化外部评价系统的时候我们无从知晓是哪个子系统除了问题，所以需要进一步进行内部任务评价。

外部任务评价的特点如下：

在一个实际任务中进行评测
需要花很长的时间来计算精度
不太清楚是否是某个子系统或者其他子系统，又或是几个子系统互相作用引起的问题
如果替换原有的子系统后获得精度提升，则说明替换很可能是有效的

1.3内部任务评价示例: 词向量类比

一个比较流行的内部任务评价是词向量类比的。在词向量类比中，我们先输入一组不完整的类比:

a : b : : c : ?

内部任务评价系统找出最大化余弦相似度的词向量

d = a r g m a x i ( x b - x a + x c ) T x i ∥ x b - x a + x c ∥

我们可以直观地解释这个衡量指标。理想情况下，我们想得到 xb−xa=xd−xc (例如，王后–国王 = 女演员 – 男演员)。于是 xb−xa+xc=xd , 所以我们只需要找出一个与 xb−xa+xc 的标准化内积（比如余弦相似度）取最大值的词向量就可以了。
使用内部任务评价的时候需要比较谨慎，要考虑到训练文集的各个方面。例如，如下形式的类比

城市1 : 城市 1所属州 : : 城市2 : 城市2所属州

表1：语义词向量类比(内部评价)会因为同名城市而产生问题

美国有许多同名村镇，所以很多州都符合正确答案。比如在美国至少有十个地方叫Phonix，所以Arizona不一定是唯一的正确答案。再看以下类比形式:

首都城市1 : 国家1 : : 首都城市2 : 国家2

表2: 这些是语义词向量类比(内部任务评价)，此类比存在的问题在于国家在不同时期会有不同的首都

上面这个例子中的城市只是近期的国家首都。比如，1997年之前Kazakhstan的首都是Almaty。如果我们用来训练的文集比较旧，就很容易出现问题。
之前的两个例子说明了如何使用词向量进行语义测试。我们还可以使用词向量类比进行语法测试。下面的内部任务评价能够评估词向量获取形容词最高级的能力。

表3：语法词向量类比(内部评价)在形容词最高级上的测试

类似的，下面的内部任务评价能够测试词向量捕捉过去式的能力

表 4: 这些是语法词向量类比(内部任务评价)，此类比可评估获取过去式的能力

1.4 内部任务评价调节示例: 类比评测

我们在内部任务评价任务中调整(tuning)一个词嵌入技术时，可能会考虑一些参数：

• 词向量的维度
• 资料库的大小
• 资料源/类型
• 上下文窗口的大小
• 上下文的对称性

大家还能想到其他在这个阶段可以调整的超参数吗?
我们现在探索一些词向量生成技术(如Word2Vec和GloVe)中可以用内部任务评价调节的参数。我们先看一下在超参数相同的情况下，词向量生成方法在类比评测中的表现。

表5:比较不同参数和数据集情况下各种模型的性能

我们从上表中主要可以看到3点：

精度和使用的模型高度相关:
这一点并不意外，因为这些生成词向量的方法所依据的特性是完全不同的(如同时出现的次数，奇异向量等。)
文集量越大，精度越高:
这是因为，例子越多，生成的系统学习到的经验就更丰富。比如在完成词汇类比的例子中，系统如果之前没有接触测试词，就可能会生成错误的结果。
如果维度特别低或特别高，精度就会比较低
低维度词向量无法捕捉文集中不同词语的不同意义。这可以视为我们模型复杂度过低而导致的高偏差。比如 “king”, “queen”, “man”, “woman” 这几个词，我们需要至少2个维度像”gender” 如 “leadership” 来把它们编译成 2-字节词向量。过低的维度将无法捕捉四个词之间的语义差别，而过高的维度将捕捉到一些对泛化能力没有用的噪音– 即高方差的问题。

tip3: GloVe 一般在使用中间词的两侧大小为8的窗口时表现较好

图2：图中能看出训练时间对训练精度的帮助

图3：我们可以看到随着文集增大精度的改善

图4：我们可以看到GloVe的精度随着向量维度及上下文窗口大小的改变而改变

1.5 内在评价的例子：相关性评价

另外一个评测词向量质量的简单方法是人为对两个词的相似度在一个固定区间内打分(比如说 0-10)，再跟对应向量的余弦相适度进行对比。这个方法曾在多个包含人为评价的数据集上实施过。

表6：这里我们看到不同生成方法产生的词向量的相似度，与人为评价的相关性。

1.6 延伸阅读：处理多义性

可能有些同学也想到了，有时候我们会遇到一些特殊的情况：在我们生活中，有时候同一个单词在它的不同上下文和语境下，有着不同的含义/用法，这时候我们希望我们希望用不同的词向量来捕捉到这个单词的不同用法。举个例子说，“跑（run）”既是一个名词又是一个动词，在不同语境中，它可能是不同的词性。Huang等人（2012）在论文《Improving Word Representations Via Global Context And Multiple Word Prototypes》中描述了如何在自然语言处理中解决上面提到的问题。他们提出的方法本质在于以下几点：

针对目标单词出现的所有位置，收集固定大小的语境窗口（例如，此单词之前的5个单词至此单词之后的5个单词）
用上下文中词向量的加权平均(用idf-weighting)来表示每段上下文(当前语境) 。
应用球面k均值算法对第二步中的结果进行聚类。
最后，每一次的单词出现都被重新标签成它所属的类，并且针对这个类，来训练相对应的词向量

2 对外在性任务进行训练

前面我们着重讨论了内在性任务，并且强调了它们在生成优质词嵌入技术(词向量)中的重要性。当然，最终目的是利用词向量解决外部的实际问题。这里我们讨论处理外部任务的一般方法。

2.1 问题描述

大多数的NLP外部任务都可以被描述成分类任务。比如说，我们可以对句子做情感分类，判断其指代的情况是褒义，贬义还是中性的。类似的，在命名实体识别(NER)中，我们需要找出上下文中的中心词所属的类别。例如输入为“Jim bought 300 shares of Acme Corp. in 2006”，我们期望分类完成后的输出是， “”[Jim]人名bought 300 shares of [Acme Corp.]机构名in [2006]时间.”

图5：针对词向量的分类问题，上图是一个二维词向量分类问题，用简单的线性分类器，比如逻辑回归和支持向量机完成分类

对于这样的问题，我们一般有以下形式的训练集：

{x (i), y (i)} N 1

其中 x(i) 是用某种方法生成的d纬词向量。 y(i) 是一个C维 one-hot 编码向量（译者注：one-hot，“独热”，意为只有一个元素为1，其余元素均为0），用来表示我们最终要预测的标签(感情色彩, 其他词, 专名, 买/卖决策, 等)。在一般的机器学习任务中，我们通常固定输入数据和目标标签，然后用最优化技术（诸如梯度下降法，L-BFGS法，牛顿法等）训练权重。在自然语言处理中，我们引入了重训练的想法，也就是针对外在性任务时，重新训练输入的词向量。接下来我们讨论何时需要进行这样的操作，以及为什么考虑这么做。

2.2 重训练词向量

应用贴士：在训练集比较大的时候，才需要进行词向量重训练，否则反而会影响精度。

我们一般先用一个简单的内部任务评价来初始化用于外部任务评价的词向量。在很多情况下，这些预训练的词向量的在外部任务中的表现已经非常好了。然而，一些情况下，这些词向量在外部任务中的表现仍然有提升空间。不过，重训练词向量是由风险的。

图6：我们看到”Telly”, “TV”, 和 “Television” 在重训练之前的分类是准确的。”Telly” 和 “TV” 在外部任务训练集中，而”Television”只出现在测试集中。

如果要在外部任务上重新训练词向量，我们需要保证训练集的大小足够覆盖词库中的大多数单词。因为Word2Vec或GloVe 生成的语义相关的词会在词空间中落在同一部分位置。如果我们用一个比较小的训练集去重训练，这些词在词空间中的位置就会发生变化，在最终任务上的精确度反而可能降低。我们看一个例子。图6中预训练的2维词向量在某个外部分类任务重被正确分类了。我们如果只重新训练其中两个词向量，因为训练集较小，从图7中我们可以看到，由于词向量的更新，分类边界的变化，其中一个单词被错误的分类了。

因此，如果训练集较小，则最好不好重训练词向量。如果训练集很大，重训练也许能够提升精度。

图7：我们看到”Telly”和”TV”在重训练之后的分类是准确的。而”Television”的分类错了，因为它只出现在测试集中，训练集中没见着。

2.3 Softmax分类与正则化

我们知道Softmax分类函数形式大概是下面这个样子：

p (y j = 1 | x) = e x p ( W j . x ) \sum C ( c = 1 ) e x p ( W c . x )

上面我们计算了词向量x属于类别j的概率。然后根据互熵损失函数，一个单词在模型中的损失如下：

- \sum j = 1 C y j l o g (p (y j = 1 | x)) = - \sum j = 1 C y j l o g (e x p ( W j . x ) \sum C ( c = 1 ) e x p ( W c . x ))

因为上式中的 yj 只有在x属于正确的类时才等于1，其他均为0。如果我们假设k是那个正确的类，那上式可以简化为：

- l o g (e x p ( W k . x ) \sum C ( c = 1 ) e x p ( W c . x ))

当然，我们数据集内不止这一个单词，假设我们的训练集是有N个数据点的数据集，那总损失应该有如下的形式：

- \sum i = 1 N l o g (e x p ( W k ( i ) . x ( i ) ) \sum C ( c = 1 ) e x p ( W c . x ( i ) ))

这个公式有一点点不同，注意到其实这里的 k(i) 现在是个函数，返回每个 x(i) 所对应的正确的类。

咱们来估一估，如果我们同时要训练模型中的权重参数(W)和词向量(x)，需要训练多少个参数呢? 一个以d-维词向量为输入，输出一个其在C 个类上的分布的简单的线性模型需要C·d个参数。如果我们训练时更新词库中每个单词的词向量，则需要更新|V|个词向量，而每一个都是d维。综合一下，我们知道，一个简单的线性分类模型需要更新 C⋅d+∣V∣⋅d 个参数。

▽ θ J (θ) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ▽ W \cdot 1 ⋮ ▽ W \cdot d ▽ x a a r d v a r k ⋮ ▽ x z e b r a ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

对于一个简单的线性模型来说，这个参数量就显得非常大了，带来的问题是模型很容易在数据集上过拟合。为了缓解过拟合，我们需要引入一个正则项，用贝耶斯的角度来讲，这个正则项其实就是一个给模型的参数加上了一个先验分布，从而希望他们的值更接近0。

- \sum i = 1 N l o g (e x p ( W k ( i ) . x ( i ) ) \sum C ( c = 1 ) e x p ( W c . x ( i ) ) + λ \sum k = 1 c \cdot d + ∣ V ∣ \cdot d θ 2 k

如果咱们找到合适的正则项权重λ，那最小化上面的损失函数得到的模型，不会出现某些权重特别大的情况，同时模型的泛化能力也很不错。需要多说一句的是，正则化这个操作，在我们接触到神经网络这种复杂的模型的时候，更加重要，咱们更应该约束一下，不让模型那么容易过拟合。

2.4 词窗分类

图8：我们这里看到的是一个中心词，和长度为2的左右窗口内的词。这种上下文可以帮助我们分辨Paris是一个地点，还是一个人名

我们前面提到的外部任务都是以单个单词为输入的。实际上，由于自然语言的特性，这种情况很少会出现。在自然语言中，有很多一词多义的情况，这时候我们一般会参考上下文来判断。比如说，如果你要给别人解释”真有你的”是什么意思。你马上就知道根据上下文的不同，”真有你的” 可以是称赞，也可以是生气。所以在大多数的情况下，我们给模型输入的是一个词序列。这个词序列由一个中心词向量和它上下文的词向量组成。上下文中词的数量又叫词窗大小，任务不同这个参数的取值也不同。一般来讲，小窗口在句法上的精度较高，大窗口在语义上的表现较好。如果我们要把词窗作为Softmax模型的输入，我们只要把 x(i) 换成以下形式的 x(i)window

x (i) w i n d o w = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ x (i - 2) x (i - 1) x (i) x (i + 1) x (i + 2) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

那相应的，我们计算损失函数梯度的时候，得到的就是如下形式的向量了：

δ w i n d o w = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ▽ x (i - 2) ▽ x (i - 1) ▽ x (i) ▽ x (i + 1) ▽ x (i + 2) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

多说一句的是，这个过程中的每一项其实都是独立的，因此在现在工业界的实际操作中，这一步是可以进行分布式计算的。

2.5 非线性分类器


图9	图10

最后我们简单提一下非线性的分类模型，如神经网络。在图9中我们可以看到很多点被错误的分类了。在图10中，如果使用非线性的决策边界，我们发现训练集中的样本就可以被分对了(因为分界线可以弯曲了嘛)。这是一个简化的例子，但是已经足以说明，为什么实际应用中很多时候需要非线性的决策边界。接下来的课程里，我们会逐步讲到神经网络，这个在深度学习中表现尤为出色的非线性模型。

TorchText宝典：解锁PyTorch下的NLP炼金术 2401_85702623 pytorch 自然语言处理人工智能
标题：TorchText宝典：解锁PyTorch下的NLP炼金术在深度学习与自然语言处理(NLP)的交叉领域中，PyTorch已经成为了一个强大的工具。而torchtext，作为PyTorch的扩展库，专注于简化文本数据的预处理流程，为NLP任务提供了极大的便利。本文将深入探讨torchtext的多种用途，并通过代码示例展示如何使用这一库来增强你的NLP项目。1.torchtext简介torcht
揭秘Sora：深度学习与自然语言处理驱动的智能视频生成与互动疾风终究没有归途深度学习自然语言处理人工智能
Sora-探索AI视频模型的无限可能随着人工智能技术的飞速发展，AI视频模型已成为科技领域的新热点。而在这个浪潮中，OpenAI推出的首个AI视频模型Sora，以其卓越的性能和前瞻性的技术，引领着AI视频领域的创新发展。让我们将一起探讨Sora的技术特点、应用场景以及对未来创作方式的深远影响。方向一：技术解析技术架构：Sora的技术架构主要包括视频处理模块和智能生成模块。视频处理模块负责视频内容的
深度学习与自然语言处理(8)_斯坦福cs224d RNN，MV-RNN与RNTN 龙心尘 DL+NLP 自然语言处理深度学习 RNN 斯坦福大学
原文作者：RichardSocher翻译：@胥可&&@熊杰&&@杨帆&&@陈沛&&@Molly校对调整：寒小阳&&龙心尘时间：2016年7月出处：http://blog.csdn.net/han_xiaoyang/article/details/52075160http://blog.csdn.net/longxinchen_ml/article/details/52075519说明：本文为斯坦福
计算机电子书 2017 BiliDrive 备份布客飞龙
下载方式根据你的操作系统下载不同的BiliDrive二进制。执行：bilidrivedownload链接文档链接斯坦福cs224d深度学习与自然语言处理讲义.epub(2.87MB)bdrive://2771ca27aa5f0eb73bcf9591ee127c2d51270617Matplotlib用户指南.epub(4.67MB)bdrive://0376e03bdbf46d1670cd8d95
深度学习与自然语言处理技术轻雨科技
近年来，深度学习在人工智能的多个子领域都取得一定程度的进展，在自然处理领域，深度学习也受到了越来越多的关注。自然语言处理的基础研究主要包括词法分析、句法分析、语义分析、词用语境与篇章分析等的研究。词向量的方法，可以将映射转换到一个独立的向量空间。自然语言处理技术中采用深度学习知识的原因主要有：（1）自然语言处理任务中首先要解决的问题是处理对象的表示形式，为了表示对象，通常必须抽取一些特征，如文本的
python搭建一个自然语言处理_基于 Python 的简单自然语言处理实践 weixin_39814088
本文是对于基于Python进行简单自然语言处理任务的介绍，本文的所有代码放置在这里。建议前置阅读Python语法速览与机器学习开发环境搭建，更多机器学习资料参考机器学习、深度学习与自然语言处理领域推荐的书籍列表以及面向程序猿的数据科学与机器学习知识体系及资料合集。TwentyNewsGroup语料集处理20Newsgroup数据集包含了约20000篇来自于不同的新闻组的文档，最早由KenLang搜
快速理解机器学习、深度学习与自然语言处理 _Lilly 机器学习深度学习自然语言处理
这篇文章对机器学习、深度学习、自然语言处理进行了简单的介绍，适合快速学习NLP与AI、ML和DL的关系。机器学习、深度学习、自然语言处理的关系机器学习、深度学习、自然语言处理的关系如图所示1机器学习（MachineLearning）机器学习是在没有明确指令的情况下，学习如何在示例（又叫做“trainingdata”，即训练集）上执行任务。这是通过创建训练数据的数字表示(即feature，特征值)并
深度学习与自然语言处理骑猪流浪江湖 NLP入门笔记 python 深度学习人工智能自然语言处理
写在前面本文是笔者学习《自然语言处理入门》（何晗著）的最后一篇学习笔记。在学习本书的过程中，我初步走进了NLP的世界，也尝试了不同的学习、笔记方法。最开始是采用手写笔记的形式，后来决定使用博客的方式做笔记。因此博客上的内容只涉及该书的后面几章。本文是该书读书笔记的最后一篇。一、传统方法的局限通过前面的学习，我学习到了隐马尔可夫模型、感知机、条件随机场、朴素贝叶斯模型、支持向量机模型等传统机器学习模
【学习记录】深度学习与自然语言处理入门 Baxkiller有只猫 ML\NLP 深度学习自然语言处理
前置知识自然语言处理《自然语言处理入门》（何晗著）这本书的知识可能最主要关注的就是与NLP的底层实现有关的内容，书中用了很大的篇幅来写底层实现，以及作者创建的HanLP的代码包的使用和实现（JAVA代码啥的真心没劲)。每一章倒是开头的几个小节都会有一些对介绍自然语言处理理论和算法的介绍，比如隐马尔可夫链啊啥的。总结来说，如果真想通过这本书来入门，那我觉得还差点意思。《基于深度学习的自然语言处理》（
深度学习与自然语言处理Lecture-1笔记 Jacky_QinXm 算法深度学习 NLP DL
最近开始学习斯坦福的课程“CS224d:DeepLearningforNatureLanguageProcessing”,课程老师是PhDRichardSocher。这里是边看边做一些简单的记录，以供后续的查阅。相关材料最开始是从网站“我爱自然语言处理”上得到的，课程材料的下载地址：http://cs224d.stanford.edu/syllabus.html。NLP简介NLP：NatureLa
深度学习与自然语言处理教程(7) - 问答系统（NLP通关指南·完结） ShowMeAI #深度学习与自然语言处理教程 ◉斯坦福CS224n最全笔记自然语言处理 cs224n 问答系统动态机器网络 QA
作者：韩信子@ShowMeAI教程地址：https://www.showmeai.tech/tutorials/36本文地址：https://www.showmeai.tech/article-detail/245声明：版权所有，转载请联系平台与作者并注明出处收藏ShowMeAI查看更多精彩内容本系列为斯坦福CS224n《自然语言处理与深度学习(NaturalLanguageProcessingw
深度学习与自然语言处理教程(8) - NLP中的卷积神经网络（NLP通关指南·完结） ShowMeAI #深度学习与自然语言处理教程 ◉斯坦福CS224n最全笔记自然语言处理 cnn cs224n 卷积神经网络神经网络
作者：韩信子@ShowMeAI教程地址：https://www.showmeai.tech/tutorials/36本文地址：https://www.showmeai.tech/article-detail/247声明：版权所有，转载请联系平台与作者并注明出处收藏ShowMeAI查看更多精彩内容本系列为斯坦福CS224n《自然语言处理与深度学习(NaturalLanguageProcessingw
深度学习与自然语言处理教程(2) - GloVe及词向量的训练与评估（NLP通关指南·完结） ShowMeAI #深度学习与自然语言处理教程 ◉斯坦福CS224n最全笔记自然语言处理 nlp 反向传播梯度下降 word2vec
作者：韩信子@ShowMeAI教程地址：https://www.showmeai.tech/tutorials/36本文地址：https://www.showmeai.tech/article-detail/232声明：版权所有，转载请联系平台与作者并注明出处收藏ShowMeAI查看更多精彩内容本系列为斯坦福CS224n《自然语言处理与深度学习(NaturalLanguageProcessingw
斯坦福大学深度学习与自然语言处理第二讲：词向量 Janvn NLP
斯坦福大学在三月份开设了一门“深度学习与自然语言处理”的课程：CS224d:DeepLearningforNaturalLanguageProcessing，授课老师是青年才俊RichardSocher，以下为相关的课程笔记。第二讲：简单的词向量表示：word2vec,Glove(SimpleWordVectorrepresentations:word2vec,GloVe)推荐阅读材料：Paper
文本情感分类（二）：深度学习模型 XB_please 情感分类情感分类深度学习模型
本文转载自：https://spaces.ac.cn/archives/3414目录1.深度学习与自然语言处理2.语言的表达3.Word2Vec：高维来了4.表达句子：句向量5.搭建LSTM模型6.总结7.搭建LSTM做文本情感分类在《文本情感分类（一）：传统模型》一文中，笔者简单介绍了进行文本情感分类的传统思路。传统的思路简单易懂，而且稳定性也比较强，然而存在着两个难以克服的局限性：一、精度问题
深度学习与自然语言处理教程(3) - 神经网络与反向传播（NLP通关指南·完结） ShowMeAI 自然语言处理教程自然语言处理神经网络深度学习反向传播计算图
作者：韩信子@ShowMeAI教程地址：http://www.showmeai.tech/tutorials/36本文地址：http://www.showmeai.tech/article-detail/234声明：版权所有，转载请联系平台与作者并注明出处收藏ShowMeAI查看更多精彩内容本系列为斯坦福CS224n《自然语言处理与深度学习(NaturalLanguageProcessingwit
深度学习与自然语言处理教程(6) - 神经机器翻译、seq2seq与注意力机制（NLP通关指南·完结） ShowMeAI 自然语言处理教程自然语言处理机器翻译 cs224n seq2seq 注意力机制
作者：韩信子@ShowMeAI教程地址：http://www.showmeai.tech/tutorials/36本文地址：http://www.showmeai.tech/article-detail/242声明：版权所有，转载请联系平台与作者并注明出处收藏ShowMeAI查看更多精彩内容本系列为斯坦福CS224n《自然语言处理与深度学习(NaturalLanguageProcessingwit
深度学习与自然语言处理第五次作业——段落分析模型荦荦大端荤荤深度学习自然语言处理人工智能
深度学习与自然语言处理第五次作业——段落分析模型基于Seq2seq模型来实现文本生成的模型，输入可以为一段已知的金庸小说段落，来生成新的段落并做分析。文章目录深度学习与自然语言处理第五次作业——段落分析模型一、实验原理1、Seq2seq模型简介2、LTSM模型介绍二、解题流程1、读取训练语料2、训练模型3、读取测试语料4、结果输出三、实验结果与分析1、实验结果2、实验总结代码1、语料预处理2、主函
深度学习与自然语言处理教程(5) - 语言模型、RNN、GRU与LSTM（NLP通关指南·完结） ShowMeAI 自然语言处理教程自然语言处理 cs224n rnn lstm gru
作者：韩信子@ShowMeAI教程地址：http://www.showmeai.tech/tutorials/36本文地址：http://www.showmeai.tech/article-detail/239声明：版权所有，转载请联系平台与作者并注明出处收藏ShowMeAI查看更多精彩内容本系列为斯坦福CS224n《自然语言处理与深度学习(NaturalLanguageProcessingwit
深度学习与自然语言处理 | 斯坦福CS224n · 课程带学与全套笔记解读（NLP通关指南·完结） ShowMeAI 自然语言处理教程自然语言处理 word2vec bert 注意力机制 seq2seq
作者：韩信子@ShowMeAI教程地址：http://www.showmeai.tech/tutorials/36本文地址：http://www.showmeai.tech/article-detail/230声明：版权所有，转载请联系平台与作者并注明出处收藏ShowMeAI查看更多精彩内容引言本系列ShowMeAI组织的斯坦福CS224n《深度学习与自然语言处理》学习笔记与内容再整理。CS224
斯坦福大学CS224N-深度学习与自然语言处理：课程1-笔记 Alex_996 #自然语言处理自然语言处理深度学习人工智能
课程1-笔记大纲：讨论课程语言和语意Word2Vec介绍Word2Vec目标函数梯度优化函数Word2Vec的作用关键：词义的结果可以用一个很大的实数向量很好地表示。课程学习目标：将深度学习应用于自然语言处理的基础并有效的方法；基础知识NLP中的关键方法：词向量、前向传播神经网络、递归神经网络、注意力机制、编码器-解码器模型、transformers等深入理解人类语言的复杂以及如何通过计算机处理理
【深度学习实战】【nlp-beginner】基于深度学习的文本分类喵木木 NLP 深度学习自然语言处理深度学习 pytorch 神经网络
任务说明：NLP-Beginner：自然语言处理入门练习任务二数据下载：SentimentAnalysisonMovieReviews参考资料：ConvolutionalNeuralNetworksforSentenceClassificatioPyTorch官方文档关于深度学习与自然语言处理的一些基础知识：【深度学习实战】从零开始深度学习（四）：RNN与自然语言处理TorchText文本数据集读
NLP随笔(四)
nlp技术包括基础技术和应用技术70年代以后随着互联网的高速发展，语料库越来越丰富以及硬件更新完善，自然语言处理思潮由理性主义向经验主义过渡，基于统计的方法逐渐代替了基于规则的方法。从2008年到现在，由于深度学习在图像识别、语音识别等领域不断取得突破，人们也逐渐开始引入深度学习来做自然语言处理研究，由最初的词向量到2013年word2vec，将深度学习与自然语言处理的结合推向了高潮，并且在机器翻
CS224d-深度学习与自然语言处理－Day 1: 梓翔 cs224d
原文地址：http://www.jianshu.com/p/6993edef96e4CS224d－Day1:要开始系统地学习NLP课程cs224d，今天先来一个课程概览。课程一共有16节，先对每一节中提到的模型，算法，工具有个总体的认识，知道都有什么，以及它们可以做些什么事情。简介：1.IntrotoNLPandDeepLearningNLP：NaturalLanguageProcessing(自
深度学习与自然语言处理：发刊词 tyler_download 算法机器学习人工智能编程语言深度学习
我时常会浏览大厂的招聘信息，其中会反应出当前技术的发展趋势以及市场对相应人才的需求量。通过了解大厂想要什么人，这类人待遇怎样，我们能推断出未来技术的发展方向，特别是市场需求，于是我们能快速调整自身方位以便在价值高地及时卡位，如此个人努力奋斗就有了明确的方向。无论是创业也好，找工作也好，我们都能提高获得良好回报的概率。我在Boss直聘上查看当前大厂的招人需求，我输入“算法”，选择月薪“50k”以上，
机器学习、深度学习与自然语言处理领域推荐的书籍列表爱学技术的小仙女酱
机器学习、深度学习与自然语言处理领域推荐的书籍列表是笔者AwesomeReference系列的一部分；对于其他的资料、文章、视频教程、工具实践请参考面向程序猿的数据科学与机器学习知识体系及资料合集。本文算是抛砖引玉，笔者最近有空就会在Pad上面随手翻阅这些书籍，希望能够了解其他优秀的书籍。数学基础2010-AllofStatistics:AConciseCourseinStatisticalInf
2019斯坦福CS224n深度学习自然语言处理笔记（2）——词向量与Glove 刘炫320 自然语言处理 #自然语言处理（计算语言学）概论 #
文章目录1.为什么不直接使用词共现矩阵获得词向量？1.1词共现矩阵方法（窗口统计和全局统计）1.2解决上述问题方法——SVD1.3基于统计和直接预测方法比较2.Glove3.词向量评估4.一词多义视频课程链接：《深度学习与自然语言处理（2）》继续上一节的内容。还是沿着之前的思路，首先想到为什么不直接使用词共现矩阵，然后提出SVD的解决方法。在比较了基于统计和直接预测两种方法后，提出Glove模型。
基于Python的中文分词词性标注词频统计的实现小亮 Play NLP NLP python 小项目
基于Python的中文分词词性标注词频统计的实现今天是2018年10月22号，小亮继续着自己深度学习与自然语言处理的打怪升级之路。今天给大家介绍一下最近接的小项目，基于Python的中文分词词性标注词频统计的实现，在这里与大家交流一下！笔者信息：Next_LegendQQ:1219154092机器学习自然语言处理计算机视觉深度学习小亮的博客：https://legendtianjin.github
【项目实战全解】基于深度学习与自然语言处理的AI文本生成（自动写作）周小夏(cv调包侠) 实战项目 NLP从入门到实战机器学习深度学习自然语言处理 pytorch 神经网络机器学习
文章目录一、项目演示：1：诗歌创作2：律诗与绝句3：小说篇4：自己的经济新闻篇二、原理解读Gpt-2简述何为语言模型与BERT的区别三、代码详解与训练教程训练数据半精度模型使用预训练步骤：四、生成文本文件结构注意五：实际落地项目与我的应用落地应用散文剧本演示：六:GPT-3简述与福利传送门你在网上看到的”水文“，近乎一半都是“机器人”编辑的！还在为写不出报告而苦恼吗？技术改变生活，从高中就听闻自动
我爱自然语言处理网文章汇总 wowdd1 nlp
斯坦福大学深度学习与自然语言处理第三讲：高级的词向量表示斯坦福大学深度学习与自然语言处理第二讲：词向量斯坦福大学深度学习与自然语言处理第一讲：引言用MeCab打造一套实用的中文分词系统(三)：MeCab-Chinese用MeCab打造一套实用的中文分词系统(二)中英文维基百科语料上的Word2Vec实验HMM相关文章索引PRML读书会第十四章CombiningModelsPRML读书会第十三章Se
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_

深度学习与自然语言处理(2)_斯坦福cs224d Lecture 2

1、词向量的评价

1.1 内部任务评价

1.2 外部任务评价

1.3内部任务评价示例: 词向量类比

1.4 内部任务评价调节示例: 类比评测

1.5 内在评价的例子：相关性评价

1.6 延伸阅读：处理多义性

2 对外在性任务进行训练

2.1 问题描述

2.2 重训练词向量

2.3 Softmax分类与正则化

2.4 词窗分类

2.5 非线性分类器

你可能感兴趣的:(深度学习与自然语言处理,深度学习与自然语言处理)

　1.2 外部任务评价