cs224n学习笔记1

目录

word vector 词向量

word2vec 模型

Skip-gram 模型

Continuous Bag of Words 连续词袋模型

共现矩阵作为词向量

组合模型:Glove

词向量的评估


word vector 词向量

one-hot vector 独热码:仅依靠1的位置区分单词,词向量无法相互关联

于是考虑用点积结果表征单词相似性,也就有了word2vec模型

word2vec 模型

生成词向量算法:Skip-grams(SG),Continuous Bag of Words(CBOW)

训练方法:Hierarchical softmax,Negative sampling

Skip-gram 模型

对每个词汇,计算以其作为中心词时上下文出现其他词汇的概率分布

为了使上下文中出现的单词在词向量模型中计算出的概率尽可能高,有如下损失函数:

cs224n学习笔记1_第1张图片

其中,使用softmax方式表征单词o在中心词c的上下文出现的概率为:

cs224n学习笔记1_第2张图片

 每个单词有两个向量表示,上下文中使用u,中心词时使用v

 随后使用梯度下降计算参数J(θ),即各个单词的u向量和v向量

cs224n学习笔记1_第3张图片

Continuous Bag of Words 连续词袋模型

与SG模型类似,思路是根据上下文词汇预测中心词,即将上下文词向量相加与中心词向量内积计算中心词概率

共现矩阵作为词向量

维度高,维护成本高

解决方案:SVD method 奇异值分解

优点:训练快,高效使用统计数据

缺点:只能粗浅捕捉单词相似性,大数据集上乏力

组合模型:Glove

遍历所有共现矩阵中的单词对,得到损失函数:

cs224n学习笔记1_第4张图片

最终将u向量与v向量相加就能得到最能表征单词特征的向量

词向量的评估

内在评估:评估内在的向量表征效果,如单词相似性

外在评估:应用于具体任务中,如命名实体识别

p.s. 考研11408一战折戟,决定二战的同时记录下自己的学习历程,便有了这篇文章,共勉

你可能感兴趣的:(学习笔记,nlp,自然语言处理)