NLP 学习笔记

NLP 学习笔记

NLP入门:
自然语言处理入门——范永勇

Word2vec初探

构建 共现矩阵

词嵌入工具GloVe:
先贴一个GloVe项目链接
宏观理解GloVe就是在考虑上下文的角度,构建词于词之间的关系

类似于统计词A出现的情况下词B出现的次数,并且不是根据概率,而是根据概率比,来判断两个词之间的关联程度

非监督的方法,目标是构建共现矩阵

GloVe详解

Glove与LSA、word2vec的比较
LSA(Latent Semantic Analysis)是一种比较早的count-based的词向量表征工具,它也是基于co-occurance matrix的,只不过采用了基于奇异值分解(SVD)的矩阵分解技术对大矩阵进行降维,而我们知道SVD的复杂度是很高的,所以它的计算代价比较大。还有一点是它对所有单词的统计权重都是一致的。而这些缺点在GloVe中被一一克服了。而word2vec最大的缺点则是没有充分利用所有的语料,所以GloVe其实是把两者的优点结合了起来。从这篇论文给出的实验结果来看,GloVe的性能是远超LSA和word2vec的,但网上也有人说GloVe和word2vec实际表现其实差不多。

同时参考这几篇看
论文分享–>GloVe: Global Vectors for Word Representation

训练GloVe中文词向量

A GloVe implementation in Python

理解GloVe模型(+总结)

你可能感兴趣的:(学习笔记)