【NLP概念源和流】 04-过度到RNN(第 4/20 部分)

接上文

【NLP概念源和流】 03-基于计数的嵌入,GloVe(第 3/20 部分)

一、说明

        词嵌入使许多NLP任务有了显著的改进。它对单词原理图的理解以及将不同长度的文本表示为固定向量的能力使其在许多复杂的NLP任务中非常受欢迎。大多数机器学习算法可以直接应用于分类和回归任务的词嵌入,因为向量的长度是固定的。在这篇博客中,我们将尝试查看帮助我们使用 2 种名为 CBOW 和 Skip-Gram 的流行方法实现 Word2Vec 的软件包。此外,我们还将研究嵌入的一些属性和可视化。

二、训练CBOW和 Skip-Gram。

        我们可以把上面的一小段作为词嵌入的文本。我们将看到如何编写代码来表示密集空间中上述文本的单词。

【NLP概念源和流】 04-过度到RNN(第 4/20 部分)_第1张图片

代码可在此处获得

        正如前面的博客中所解释的,首先我们需要使用 NLTK 进行标记化,然后我们在 gensim 库中使用 Word2Vec。参数 “sg” 指定训练算法 CBOW (0)、Skip-Gram (1)。
她我们可以清

你可能感兴趣的:(NLP入门到精通,自然语言处理,人工智能)