Text Matching as Image Recognition论文笔记

简单介绍一下这篇文章。

原文传送门:https://www.aaai.org/ocs/index.php/AAAI/AAAI16/paper/download/11895/12024

论文的核心思想:把两条文本的匹配问题转化成一个相似性矩阵,再用图像的思想去理解矩阵,也就是用卷积去过矩阵,最终提取出特征做分类模型。这也是我认为论文很有价值的一点:借用图像的思想去解决nlp的问题。

论文笔记:

摘要

核心做法:构建矩阵表示文本的相似性,使用卷积神经网络提取相似性矩阵的特征。

作者认为这样可以提取到更突出的特征,取得更好的匹配效果。

Introduction

文本匹配的应用面很广泛,机器翻译/QA/释义识别/文档检索等nlp领域都有应用。给定长度为m的文本T1 = (w1,w2,...,wm) 和长度为n的文本T2 = (v1,v2,...,vn),匹配得分的计算方法为:

wi和vj分别对应两条文本中的第i个词和第j个词。\varphi是将文本映射成一个向量的函数,可以理解为把文本转化成embedding的函数,F就是计算两个文本相似度的公式。

文中给了一个例子:

T1 : Down the ages noodles and dumplings were famous Chinese food.

T2 : Down the ages dumplings and noodles were popular in China.

这里作者解释了词/短语/句子三个层面所能提供的信息。词级别:完全相同的down-down,相似的famous-popular。短语级别:n-gram匹配的down the ages-down the ages,还有无序的n-term匹配noodles and dumplings-dumplings and noodles,还有语义的n-term匹配were famous Chinese food-were popular in China。它们进一步形成句子级别的匹配信号,对于确定两个文本之间的匹配程度十分重要。

那么,该如何去automatically find and utilize these hierarchical interaction patterns?

此处,作者引出了CNN,在图像领域如何如何成功,给了作者灵感。首先,作者建了一个词级别的相似度矩阵,去抓取词级别的匹配信号。那么作者是如何生成这个矩阵的呢?两种方法,对应生成两种矩阵。

1)如果文本1中的词i和文本2中的词j完全相同,那相似度矩阵的i,j位置就是1;否则是0。这样最终会生成一个二进制图像。

2)定义一种计算两个词相似度的方法,可以是cosine距离,也可以是两个word embedding的点积(个人理解点积也是可以表达出相似性的),那词i和词j对应位置存放的就是两个词的相似性。这样会生成一个灰度图。

Text Matching as Image Recognition论文笔记_第1张图片

现在我们有了矩阵(也就是所谓的图像),不就可以做卷积了吗?通过一层一层的卷积,不就可以提取不同level的特征了吗?所以后面接了一个卷积神经网络,作者给它起了个名字叫MatchPyramid。

作者认为,它的主要贡献体现在三点上:提出了一个新颖的idea,借用图像识别的思想解决文本匹配问题;基于匹配矩阵使用深度模型,可以抓取不同层级的pattern,包括词/短语/句子;在不同任务上进行的实验效果很好。

Motivation

此处作者分析了word/phrase/sentence三个level的matching signal,认为高层的signal是由低层signal组成的。这跟图像领域十分类似,像素提供一个图像最基本的单元,图像的边或者角可能就会包含一些可以肉眼看到的特征,这些再构成图案,再构成图像的一部分,最后构成了一个完成的物体。

Text Matching as Image Recognition论文笔记_第2张图片

 

你可能感兴趣的:(NLP)