From Word Embedding To Document Distances

1.摘要

论文作者首先提出了WMD(word mover's distance)这个概念,即:单词移动距离。一个新颖的,描述两篇文章的距离函数。 这个方法是建立在已经尽可能学习到语义距离的词嵌入模型基础上来实现的。WMD通过量化最小词嵌入向量空间的距离测度了两篇文档的相异性,并证明了该方法是EMD距离(搬土距离,基于运输问题的效率 提出的一种直方图相似度量。 它是归一化的从一个分布变为另一个分布的最小代价, 可以用来测量两个分布(multi-dimensional distributions)之间的距离)的一个实例。且此距离方法没有任何超参数,是一个简单而直接的算法实现,并且在该论文中以八个真实文档为例子证明了该方法相较于k近邻拥有更低分类错误率(classification error rates)

2. 介绍

由于时间紧迫,不细描述,只做重要细节摘要

    1. 两种最常见represent文档的方法:BOW(bag of bow)以及 tf-idf(term frequency and inverse document frequency)。由于高频或0频次的单词(frequent near-orthogonality)并不能正确表示文档的真实语义距离,这两种方法通常不适用于文档距离的度量。

    2. 所以本论文作者提出了一种全新的矩阵方法来表示两篇文章的编辑距离。并指出,针对该方法WMD实现的优化问题实际是EMD距离的一种具体实例化体现。且,WMD 是个无超参, 高可解释性的距离计算方法

    3. 词嵌入模型Word2Vec :13年提出,可以通过skip-gram 模型的方式来训练,具体公式为,懒得手打了。。


From Word Embedding To Document Distances_第1张图片

其中T为文档中所有单词的集合(数), nb(t) 为单词t的邻居单词,即所谓的上下文表示

或者所谓的语义窗口(因为word2vec的假设是 语义相近的单词,在出现位置上也是相近的)

值得注意的是:logp(wj|wt)做了一层层次化的softmax

该论文也指出,word2vec提出的比较早,存在一定的语义理解不到位的问题,建议大家可以试试别的词嵌入模型(elmo啊等等)。但是对于当前论文,word2vec来做基础数据,这已经够用了(因为训练得够快哈哈哈哈)

    4. WMD:

            首先提出nbow(normalized bag-of-words)的表示:简单来说,即统计单词i,  分别在文档d中的词频概率。生成一个向量空间d, 由于很多词都不会出现在其他文档里,所以d应该是一个非常稀疏的矩阵。nbow简单给出了一个词频在文档中的分布,他完全表示不了单词和单词间的语义关系。两篇语义距离很近的文章,会被nbow错误得计算。

           单词距离:论文作者提出了一个目标,想将纳入了语义距离词嵌入模型中的单词对来放入文档距离矩阵中。自然而然的,欧式距离被引进来去做单词对之间的cost计算

           文档距离:单词距离是建设文档距离的基础。论文做也此处提出一个处理方法为:假设文章中所有单词都可以转变为另一篇文章的所有单词,用一个n*n的矩阵来描述每个单词i的转变损耗(距离)。所以,整篇文章的距离,应该是最小化所有单词的损耗矩阵之和

           优化或运输问题:面对上述提出的优化问题,实际上正是EMD搬土距离的应用

From Word Embedding To Document Distances_第2张图片

5. WMD的简化距离计算

    5.1 快速距离计算(非WMD)

        质心距离:该距离计算应小于WMD

From Word Embedding To Document Distances_第3张图片

    RWMD(松弛的WMD): 移除了第二个约束条件。具体的优化实现是:递归舍弃了所有单词对应着最相似单词的概率权重,每一轮只优化T*


From Word Embedding To Document Distances_第4张图片

选取和快速修剪:通过质心距离WCD来预排序文档,然后精确计算头部k篇文章的WMD距离.随后,我们关注剩下的文章。对于剩下的每一篇,我们首先去检验和第k篇文章的RWMD的下界,如果是, 那就舍弃,如果不是,那就计算一次和第k篇文章的WMD.如果RWMD的估计值非常紧缩,那么上述处理可以裁剪掉95%及以上的文章。

6. 结果和证明:

该论文采取了7种不同的baseline( BOW, TFIDF, BM25 OKapi, LSI, LDA, mSDA, CCG)

 6.1 文档分类

文档相似度通过knn 决策方式对于分类而言是个非常好的标注手段

平均而言,WMD导致了仅有0.42的BOW错误率,胜过其他7种手段和方法。

6.2 词嵌入模型

论文考量了不同的词嵌入模型对WMD的性能影响

6.3 下界和优化剪枝

WMD提升了文档分类的准确性,但是他是拥有最慢的矩阵计算效率。。

7. 贡献和讨论

  WMD矩阵的确使得分类拥有最小的错误率,且越好的词嵌入模型,WMD性能越好。相较于lda, lsi这两种适用 latent 先验分布的方法,不缩放且未做优化的做法可能抵消了大量数据的优势。

WMD首个吸引人的特性是他的可解释性,他可以方便得可视化给人类研究者。另一个吸引点是可以将文档结构纳入了距离计算中。比如说加入正则惩罚项。

你可能感兴趣的:(From Word Embedding To Document Distances)