【paper总结】图神经网络+nlp(文本分类、匹配)

1.图表示解决长文本关系匹配问题:腾讯提出概念交互图算法

论文地址:https://arxiv.org/abs/1802.07459
相关数据资源:https://github.com/BangLiu/ArticlePairMatching

提出 Concept Interaction Graph 用于分解一篇或者一对文章。其主要思想是「化整为零,分而治之」。CIG 中的每个节点包含几个高度关联的关键字,以及和这些关键字高度相关的句子集。当进行文本对匹配时,每个节点包含来自两篇文章的两个句子集。这样,多个节点代表了两篇文章中的不同的子话题,并囊括了文章中的一部分句子并进行了对齐。节点之间的边代表不同子话题之间的联系紧密度。
基于 Concept Interaction Graph,论文进一步提出通过图神经网络(Graph Neural Networks)对文本对进行局部和全局匹配。具体而言,对每个节点上的文本对,利用编码器进行局部匹配,从而将长文本匹配转化为节点上的短文本匹配;再通过图神经网络来将文章结构信息嵌入到匹配结果中,综合所有的局部匹配结果,来得到全局匹配的结果。
个人认为这个建图方式在在长文本匹配里面是比较独特的。不过有点疑惑:具体构图过程规则较容易产生误差,最后是否会产生错误传递到后面节点内的短文本匹配上?
【paper总结】图神经网络+nlp(文本分类、匹配)_第1张图片

2. alberta doctor Liu Bang

一个博士生毕设发了十多篇顶会大佬, 上述论文的作者
个人主页: https://sites.ualberta.ca/~bang3/publication.html
机器之心简介: https://cloud.tencent.com/developer/article/1606119

3.HGAT

paper:Heterogeneous Graph Attention Networks for Semi-supervised Short Text Classification
代码:https://github.com/ytc272098215/HGAT
2019 EMNLP 石川、侯爷实验室出品
用异构图做半监督短文本分类,一个是可以利用少量标注样本进行预测,一个是建图方式比较特别,主题关键词的提取可以一定程度上缓解短文本信息量不足的问题,给到神经网络一个侧重点。
总的来说方法比较新,但是给的对比试验都是tfidf+svm,textGCN这种比较古早的方式,并没有bert/roberta这种文本分类SOTA选手,或许可用性不高。建议用bert/roberta作为word embedding加入这个模型,如果效果比单用bert/roberta好那就是真的好。
【paper总结】图神经网络+nlp(文本分类、匹配)_第2张图片
ACL2020还有几篇:https://zhuanlan.zhihu.com/p/137990351

不定期更新中
如果各位大佬看到近两年有其他文本分类和文本匹配方向上图神经网络+nlp或者建图方式比较新颖有效(除开句法依存树)的paper,烦请评论区回复安利paper,感谢

你可能感兴趣的:(图神经网络)