论文阅读:MIX: Multi-Channel Information Crossing for Text Matching(KDD2018)

今天同样读了一篇文本匹配相关的论文,提出了一个多通道信息融合的方法,文章提出这个模型的动机主要有以下几点:

1、在局部信息匹配过程中,为了考虑到单个词语匹配过程中存在的不准确性(比如文中提到的hard work\work hard以及all in\in all这两个词组,同样是颠倒了一下词序,前者语义相近,而后者语义完全不同,这说明匹配过程中不能仅以单个词语为单位),文中引入了unigram,bigram,trigram三种处理方式,这样对于同一个文本就得到了三个表达方式,分别计算相似度可以得到9个相似度矩阵,这就是局部匹配的9个通道。

2、引入全局信息。在有了局部匹配信息之后,为了引入全局的匹配信息,文章设计了3个attention机制,分别是用词的idf表示的词权重attention、Part-of-Speech(PoS)权重信息以及词语所在的位置权重。其中词的idf作为attention可以突出一个句子中的关键词在匹配过程中的作用,比如文中举得一个例子,勒布朗詹姆斯获得总决赛MVP和斯蒂芬库里获得总决赛MVP这两句话中,明显勒布朗詹姆斯和斯蒂芬库里这两个词对于匹配的影响更大,虽然其他词的相似度很高,但是由于这两个词不同使得整个句子的意思完全不同。第二个PoS权重信息的原理与上述例子类似,类型为人名、地名、机构名的词语在匹配过程中明显会提供更多的信息,将这些类型的词语匹配权重提高,同时降低一些虚词的权重(比如the、a)。最后文章考虑到处在同一个句子中不同位置的词语也应该具有不同的权重。将这些权重加到局部匹配结果上,总共可以得到27个匹配矩阵,即27个通道。

3、融合多通道,文章使用的是卷积神经网络来将多通道的结果融合,最终池化之后将得到的矩阵flatten放入多层感知机中训练即得到最终的匹配得分。模型总体结构如下图所示:

论文阅读:MIX: Multi-Channel Information Crossing for Text Matching(KDD2018)_第1张图片

你可能感兴趣的:(深度学习)