Keras深度学习实战(24)——从零开始构建单词向量

Keras深度学习实战(24)——从零开始构建单词向量

    • 0. 前言
    • 1. 单词向量
      • 1.1 Word2Vec 原理
      • 1.2 构建单词向量
      • 1.3 神经网络架构
    • 2. 使用 Keras 从零开始构建单词向量
    • 3. 测量单词向量之间的相似度
    • 小结
    • 系列链接

0. 前言

在解决文本相关问题时,传统方法通常需要对单词进行独热编码。但是,如果数据集中具有数千个不同的单词,则生成的独热编码矢量将具有数千个维度,这会导致计算代价十分高昂。此外,在这种情况下,相似的单词并不具备相似的向量。因此,我们需要研究如何对文本数据进行编码,以使相似的数据具有相似的编码向量。

1. 单词向量

1.1 Word2Vec 原理

Word2Vec 是一种可以将相似单词编码为相似向量的方法。在了解 Word2Vec 原理之前,我们首先考虑以下问题,假设我们有以下输入句子:

 
 

你可能感兴趣的:(深度学习,keras,机器学习)