读《Multi-modal Graph Fusion for Named Entity Recognition with Targeted Visual Guidance》
2021摘要主导的多模态命名实体识别(MNER)模型并没有充分利用不同模态语义单元之间的细粒度语义对应,这具有细化多模态表示学习的潜力。引言如何充分利用视觉信息是MNER的核心问题之一,它直接影响了模型的性能。尝试:(1)将整个图像编码为全局特征向量(图1(a)),可用于增强每个单词表示(月亮、内维斯和卡瓦略2018),或指导单词学习视觉感知表示(Lu等2018;张等2018);(就是节点级分类那