ElitesAI·动手学深度学习PyTorch版学习笔记-优化算法进阶;word2vec;词嵌入进阶

宅家中看到Datawhale的学习号召,在大牛云集的群上找到了一个很佛系的小组,战战兢兢地开始了小白的深度学习之旅。感谢Datawhale、伯禹教育、和鲸科技,感谢课程制作者、组织者、各位助教以及其他志愿者!

2 词嵌入基础
2.1 概念
之前的循环神经网络课程介绍了one-hot向量表示单词。one-hot构造容易,但无法使用常用的方式(如余弦相似度)准确表达不同词之间的相似度。
词嵌入是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。
词向量具有良好的语义特性,是表示词语特征的常用方式。词向量每一维的值代表一个具有一定的语义和语法上解释的特征。所以,可以将词向量的每一维称为一个词语特征。
Word2Vec 词嵌入工具能从语料中学到如何将离散的词映射为连续空间中的向量,并保留其语义上的相似关系。因为在语料库上已经经过预训练,这些向量能较好地表达不同词之间的相似和类比关系,所以能够表示一定的语义信息。
2.2 数据集
PTB (Penn Tree Bank) 是一个常用的小型语料库,它采样自《华尔街日报》的文章,包括训练集、验证集和测试集。在载入数据集后,首先建立索引,然后二次采样,即丢弃一些高频词(无实际有用语义)和超低频词,再提取中心词和背景词,至此,语料库预处理完毕。
2.3 Skip-Gram 跳字模型
在Skip-Gram 跳字模型中,每个词被表示成两个 d 维向量,用来计算条件概率。

你可能感兴趣的:(深度学习)