论文记录笔记NLP(九):Distributed Representations of Sentences and Documents

这篇笔记主要是结合,各种学习资源,整理而成的查找笔记,整理的不好,还望指出错误,主要是用于查找与记录。

论文记录笔记NLP(九):Distributed Representations of Sentences and Documents_第1张图片

                                         句子和文档的分布式表示 

论文记录笔记NLP(九):Distributed Representations of Sentences and Documents_第2张图片

 ###  摘要 

许多机器学习算法要求输入被表示为一个固定长度的特征向量. 当涉及到文本时,最常见的固定长度特征之一是单词包。 

尽管他们很受欢迎,但bag-of-words特征有两个主要缺点. 他们丢失了单词的顺序,并且忽略了单词的语义. 列如,“强大”

,“强大”和 “巴黎” 一样遥远.  在本文中,我们提出了一种无监督的段落向量算法,它可以从可变长度的文本片段(如句子,段落和文档)中学习固定长度的特征表示.  我们的算法通过一个密集的向量来表示每个文档. 这个向量经过训练来预测文档中的单词. 它的构造使我们的算法具有克服词袋模型缺点的潜力. 实证结果表明,段落向量在文本标识方面的表示优于词袋模型和其他技术. 最后,我们在几个文本分类和情感分析任务上取得了最新的研究成果.

论文记录笔记NLP(九):Distributed Representations of Sentences and Documents_第3张图片

##1. 介绍

文本分类和聚类在许多应用中起着重要的作用. 文件检索,网络搜索,垃圾邮件过滤. 这些应用程序的核心是机器学习算法. 如逻辑回归或K-means k均值.  这些算法通常要求文本输入表示为一个固定长度的向量.  文本中最常见的固定长度向量表示可能是单词袋形成n-g袋形,因为它的简单、高效和经常令人惊讶的准确性.

论文记录笔记NLP(九):Distributed Representations of Sentences and Documents_第4张图片

论文记录笔记NLP(九):Distributed Representations of Sentences and Documents_第5张图片

然而,单词包(Bow)有很多的缺点,词序丢失了.  因此,只要使用相同的单词,不同的句子可以有完全相同的表示.尽管n-g包在短上下文中支持语序.  但他也存在数据稀疏性和高维性的问题.  bag-of-words 和 bag-of-n-grams对单词的语义或单词之间的距离几乎没有什么概念.   这意味着,尽管从语义上讲,“power-ful” 应该更接近“strong” ,而不是“Paris”,但“powerful” ,“strong”和 “Paris”这三个词的距离是一样远的.

论文记录笔记NLP(九):Distributed Representations of Sentences and Documents_第6张图片

在本文中,我们提出了一种无监督的段落向量框架,它可以学习文本片段的连续分布向量表示.  文本可以是各种长度的,从句子到文档.  名称锻炼向量是为了强调这样一个事实,即该方法可以应用与长度可变的文本片段,从短语或句子到大型文档的任何内容.

论文记录笔记NLP(九):Distributed Representations of Sentences and Documents_第7张图片

在我们的模型中,向量表示被训练成在预测段落中的单词时有用,更准确的说,我们将段落向量与段落中的几个单词乡里连接起来,并在给定的上下文中预测以下单词.   单词向量和段落向量都是通过随机梯度下降和反向传播来寻来的.  虽然段落向量在段落中是惟一的,但是单词向量是共享的.  在预测时,通过固定单词向量并选了新的段落向量来推断段落向量,直到收敛.

 

-------------未完,待完善

 

你可能感兴趣的:(论文记录笔记NLP(九):Distributed Representations of Sentences and Documents)