【论文笔记】Document Embedding with Paragraph Vectors

Document Embedding with Paragraph Vectors

作者评估了大型维基百科和arXiv文档检索任务上的段落向量,并将结果与LDA,BoW和单词向量平均模型进行了比较。 段落向量的性能优于或匹配其他模型的性能。 作者展示了嵌入维数如何影响结果。 此外,作者发现,人们可以对段落矢量执行算术运算,并获得有意义的结果,并以可视化和文档示例的形式呈现定性分析。

数据集

通过构造三元组来评估准确性,其中三对是彼此接近的,而第三项是无关的(或关联性较低)。 余弦相似度用于评估语义紧密度。

Wikipedia (hand-built) PV: 93%
Wikipedia (hand-built) LDA: 82%
Wikipedia (distantly supervised) PV: 78.8%
Wikipedia (distantly supervised) LDA: 67.7%
arXiv PV: 85%
arXiv LDA: 85%

关键点

  • 联合训练PV和单词向量似乎可以提高性能。
  • 将Softsoft分层用作大词汇量的霍夫曼树
  • 仅使用PV-BoW模型,因为它效率更高。

问题/注释

  • 为什么arXiv和Wikipedia任务之间的性能差异? BoW在Wikipedia上的表现令人惊讶,但arXiv却不如。 LDA相反。

你可能感兴趣的:(【论文笔记】Document Embedding with Paragraph Vectors)