论文学习《A Neural Probabilistic Language Model》

论文地址:A Neural Probabilistic Language Model

本文为了解决one-hot表示可能带来的维数灾难问题,提出了分布式表示,这种方法允许每一个训练语句给模型提供关于语义相邻句子的指数级别数量的信息。
作者基于n-gram模型,通过使用语料对神经网络进行训练,最大化上文的n个词语对当前词语的预测。该模型同时学到了(1)每个单词的分布式表示和(2)单词序列的概率分布函数。
该模型学习到的词汇表示,与传统的one-hot表示不同,它可通过词嵌入之间的距离(欧几里得距离、余弦距离等),表示词汇间的相似程度。

本方法的思想可以被概括成以下3个步骤:

  • 1.为在词表中的每一个词分配一个分布式的词特征向量

  • 2.词序列中出现的词的特征向量表示的词序列的联合概率函数

  • 3.学习词特征向量和概率函数的参数

论文学习《A Neural Probabilistic Language Model》_第1张图片

网络分为2部分:
第一部分是利用词特征矩阵C获得词的分布式表示;
第二部分是将表示context的n个词的分布式表示拼接起来,通过一个隐藏层和一个输出层,最后通过softmax输出当前p(wt|context)。

推荐一篇博客,详细介绍此论文:
A Neural Probabilistic Language Model

你可能感兴趣的:(论文)