【论文阅读笔记】Attention-based multimodal fusion with contrast for robust clinical prediction in the face o

Liu J, Capurro D, Nguyen A, et al. Attention-based multimodal fusion with contrast for robust clinical prediction in the face of missing modalities[J]. Journal of Biomedical Informatics, 2023, 145: 104466.【开源】

该论文介绍了一种用于临床预测的多模态机器学习方法,特别关注在医疗保健数据中缺失模态的情况。

  • 目标: 解决整合来自各种医疗来源的结构化和非结构化数据的挑战,同时考虑数据的维度、容量和时间特性的差异。

  • 方法: 作者提出了一种基于Transformer的融合模型,名为“基于注意力的交叉模态融合与对比”(ARMOUR),使用特定于模态的代号和对比学习。

  • 评估: 使用两种输入模态(结构化测量和非结构化文本),跨六个临床预测任务进行ARMOUR评估,包括两种评估制度 - 包括和排除有缺失模态的患者。

  • 数据集:MIMIC-III

  • 模型和方法:本文模型方法都较简单,从结构图中就可以看出来

    【论文阅读笔记】Attention-based multimodal fusion with contrast for robust clinical prediction in the face o_第1张图片

    1. 模态特定Tokens(Modality-Specific Tokens):ARMOUR模型使用模态特定代号来代表和总结每个输入模态。这些特定代号被广泛应用于除文本之外的应用,例如视觉transformers和图神经网络。在ARMOUR模型中,这种策略也被证明对临床数据的多模态融合有效。对于每一组编码表示,首先在序列输入前添加一个特殊的特定于模态的令牌,标记为[MOD],这类似于BERT中采用的[CLS]令牌作为类型表示。
    2. 跨模态交互:模型被设计为能够处理具有缺失模态的输入,其主要思想是训练单个[MOD]代号来表示每个输入模态。当某个模态缺失时,这些[MOD]代号可以作为交叉模态交互和最终预测的代理。
    3. 对比学习:ARMOUR模型进一步通过模态间、样本间的对比学习来改善表示,从而提高预测性能。对比学习被证明是获得强大融合性能的有效技术。
    4. 简单且灵活的设置:ARMOUR遵循自注意力和交叉注意力的广泛采用的实现,并仅需要额外的对比损失来细化单模态表示。这种简单的设置应该允许ARMOUR轻松扩展到更多模态,只需添加更多成对的交叉注意力层和对比损失。

你可能感兴趣的:(多模态与缺失模态,深度学习,论文阅读,笔记)