用 word2vec 进行文档聚类

在前面几篇文章中我们学习了 word2vec 的两种模型 CBOW 和 Skip-Gram,了解了它们的基本原理,数学思想,还有代码实现。

word2vec 有很多优点,它的概念比较容易理解,训练速度快,既适用于小数据集也适用于大数据集,在捕获语义相似性方面做得很好,而且是一种非监督式学习方法,不需要人类标记数据。

当然也有一些不足,如虽然易于开发,但难以调试;如果一个单词有多种含义,嵌入向量只能反映出它们的平均值。

今天我们来进一步学习 word2vec 的应用。


word2vec 的应用

word2vec 有很多应用场景,因为它可以捕获语义相似性,因此当我们遇见涉及分布式语义的任务时,就可以用它来生成特征,输入到各种算法模型中。

  • 例如在依存解析任务中,使用 word2vec 可以生成单词之间更好更准确的依赖关系。
  • 命名实体识别任务中,因为 word2vec 非常擅长找出相似的实体,可以把相似的聚集在一起,获得更好的结果。
  • 情感分析中,使用 word2vec 来保持语义相似性,可以产生更好的情绪结果,因为语义相似性能够帮助我们了解人们一般会使用哪些短语或单词来表达自己什么样的观点。
  • 在文档分类任务中,也可以用 word2vec 省去人工标签。
  • 谷歌也使用 word2vec 来改进他们的机器翻译产品。
  • 此外在自动摘要、语音识别、自动问答、音乐视频推荐系统等很多任务中也有广泛的应用。

这里我们将学习如何将 word2vec 用于文档分类/聚类任务中。

文档分类

<

你可能感兴趣的:(自然语言处理面试基础)