stanford nlp cs224n笔记 第一课

截图来自bilibili上的公开课

wordnet


根据一个词周围的词语意思可以推测出这个词的含义

word vectors

word vector

=word embeddings

=word representations

词嵌入就是 实现了 从高维到低维的表示 

(词的独热表示(one-hot representation),首先是高维的,且在高维向量中只有一个维度描述了词的语义)

(把文本分散嵌入到另一个空间,一般从是从高维空间嵌入到低维空间。)

如何在低维空间表达一个词呢?目前流行的是通过矩阵降维或神经网络降维将语义分散存储到向量的各个维度中,这两类方法得到的向量空间是低维的一般都可以称作分布式表示,又称为词嵌入(word embedding)或词向量)。

词向量基于语言模型的假设——“一个词的含义可以由它的上下文推断得出“,提出了词的Distributed Representation表示方法。相较于传统NLP的高维、稀疏的表示法(One-hot Representation),Word2Vec训练出的词向量是低维、稠密的。


Word2vec是一个开源工具 不是算法

Overview



objective function


softmax function


softmax function是什么:

对于多类分类问题即输出多个概率的问题,sigmoid函数就使不上劲了。这时候就需要运用softmax了。

softmax是如何由来的呢?

举个简单的例子(例子来自udacity的深度学习课程里的解释),要建立一个模型,对于我们看到的动物,我们要分别输出为鸭子,海狸和海豹的概率。基于种种特征输入,现在鸭子,海狸和海豹得到的分数分别为 2 , 1 和 0。计算概率的最简单的方法就是将它们各自的得分除以它们得分的总和。所以得到概率分别为 2/3 , 1/3 和 0。但是这种方法会有个弊端,当得分包含负数会出现这样的情况:1/(1+0+(-1)),这时候就没法计算概率了。

联想到指数函数(ex)会将输入的任何数转换为正数的特性,用它来转换得分再计算概率就会避免上述方法的弊端。基于 2, 1, 0 的得分,计算概率分别为 e2/e2+e1+e0=0.67, e1/e2+e1+e0=0.24, e0/e2+e1+e0=0.09,这样就完成了一个多类分类的问题。


contour lines 坡度 斜率变化率


convex function凸函数

contour lines 等高线

梯度下降

梯度
方向余弦


关于梯度下降法的一些介绍

https://blog.csdn.net/guomutian911/article/details/78448171

(个人理解:沿着梯度的反方向快速找到最小值)



你可能感兴趣的:(stanford nlp cs224n笔记 第一课)