多模态ner 论文和代码 资源整理

1、论文地址:https://arxiv.org/pdf/2205.03521.pdf

代码地址: https://github.com/zjunlp/HVPNeT

多模态命名实体识别与关系提取(MNER和MRE)是信息提取中一个基础和关键的分支。然而,现有的MNER和MRE方法在将不相关的目标图像合并到文本中时往往存在误差敏感的问题。针对这些问题,我们提出了一种新的分层视觉前缀融合网络(HVPNeT),用于可视化增强的实体和关系提取,旨在实现更有效和更健壮的性能。具体而言,我们将视觉表示作为可插拔的视觉前缀来指导错误敏感预测决策的文本表示。我们进一步提出了一种动态门控聚合策略,以实现层次化的多尺度视觉特征作为融合的视觉前缀。在三个基准数据集上的大量实验证明了我们的方法的有效性,并达到了最先进的性能.

2、论文:Learning from different text-image pairs: A Relation-enhanced graph convolutional network for multimodal ner

论文地址:Learning from Different text-image Pairs: A Relation-enhanced Graph Convolutional Network for Multimodal NER | Proceedings of the 30th ACM International Conference on Multimedia

代码地址: https://github.com/1429904852/R-GCN

多模态命名实体识别(MNER)旨在定位和分类在(文本,图像)对中提到的命名实体。然而,显性工作独立地建模了一对图像和文本之间的内部匹配关系,忽略了数据集内部不同(文本、图像)对之间的外部匹配关系,尽管这种关系在MNER任务中对减轻图像噪声至关重要。本文主要探讨了两种不同(文本、图像)对之间的外部匹配关系,即模态间关系和模态内关系。在此基础上,我们提出了一种用于MNER任务的关系增强图卷积网络(R-GCN)。具体来说,我们首先构建一个多模态关系图和一个内模态关系图,分别从数据集中收集与当前文本和图像最相关的图像信息。然后利用多模态相互作用和融合预测NER标签序列。大量的实验结果表明,我们的模型在两个公共数据集上的表现始终优于最先进的工作.

3、论文名称:Improving Multimodal Named Entity Recognition via Entity Span Detection with Unified Multimodal Transformer

论文作者:Jianfei Yu, Jing Jiang, Li Yang, Rui Xia

论文地址:2020.acl-main.306 Improving Multimodal Named Entity Recognition via Entity Span Detection with Unified Multimodal Transformer - ACL Anthology

论文代码:UMT GitHub - jefferyYu/UMT: Preprocessed Datasets for our Multimodal NER paper

本文研究了社交媒体帖子的多模态命名实体识别(MNER)。现有的MNER方法主要存在两个缺陷:(1)虽然生成了单词感知的视觉表示,但它们的单词表示对视觉上下文不敏感;(2)大多数人忽略了视觉语境带来的偏见。为了解决第一个问题,我们提出了一个多模态交互模块来获得图像感知的单词表示和单词感知的视觉表示。为了缓解视觉偏差,我们进一步提出利用纯文本的实体跨度检测作为辅助模块,并设计了一个统一多模态转换器,以指导实体跨度预测的最终预测。实验表明,我们的统一方法在两个基准数据集上都达到了最先进的性能。

你可能感兴趣的:(NLP,1024程序员节)