《MIX: Multi-Channel Information Crossing for Text Matching》阅读笔记

论文地址:https://sites.ualberta.ca/~dniu/Homepage/Publications_files/hchen-kdd18.pdf

摘要

来自腾讯MIG移动浏览产品部和阿尔伯塔大学2018年KDD文章,论文中提到在QQ浏览器上CTR提升5.7个百分点
带注意力机制的多粒度CNNs融合模型,可分为3个步骤如下:

  • 多粒度表示文本片段,文中采用单字、双字、三字表示文本片段
  • 融合多通道匹配结果
  1. 文中融合两种通道,一种是单字、双字、三字等的语义匹配通道,
  2. 另一种是词权重、POS和位置信息等attention通道
  3. 语义匹配得到原始匹配矩阵,词权重、pos和position经过attention得到weight矩阵,原始矩阵和weight矩阵点积进行融合
  • 卷积提取抽象特征,最后加一个MLP输出结果

相关工作

文本匹配方法主要可以分为两类:基于表示和基于交互

  • 基于表示的匹配方法是获取文本的向量表示,然后计算向量之间的相似度,常用的方法有CNN、RNN、DSSM、CDSSM等方法,文本向量获取之前Query和Doc没有相互信息
  • 基于交互式的方法使Query和Doc提前交互,常用的方法有:ARC2、MatchPyramid、DRMM、KNRM等

MIX模型

你可能感兴趣的:(论文阅读笔记,MIX,文本匹配)