Sentence2Vec模型介绍

Sentence2Vec

  • Sentence2Vec
    • 前言
    • 算法介绍
    • 参考文献


前言

  本文是对论文A Simple but Tough-to-Beat Baseline for Sentence Embeddings中算法的简要描述,具体细节请参考代码实现。

算法介绍

  1. 对一个句子中所有词的词向量进行加权平均,每个词向量的权重可以表示为 aa+p(w) ,其中 a 为参数, p(w) 为词 w 的频率。
  2. 使用PCA/SVD对向量值进行修改

  算法具体描述如下:


Sentence2Vec模型介绍_第1张图片

  算法输入:
  1. 词向量 vw:wV w 表示词典中 W 中的一个词。该向量可以使用GloVe/Word2Vec/PSL等词向量。
  2. 句子集合 S
  3. 参数 a
  4. 词频 p(w):wV p(w) 表示词 w 出现的频率。

  算法输出:
  句子 s 的向量表示 vs:sS

  算法细节以及代码实现参考github。


参考文献

  1. A Simple but Tough-to-Beat Baseline for Sentence Embeddings

你可能感兴趣的:(论文阅读,自然语言处理,机器学习算法-模型,小组块)