多模态知识学习

  1. 问题背景

    • 海量多模态数据,人类认知事物也是多模态的
    • 深度学习为多模态联合学习奠定基础
    • 感知智能->认知智能
    • 多模态学习case:微软小冰、视频平台“只看TA”(服务特定明星粉丝等:优酷、爱奇艺等)
    • 需求:多模态数据从“能用”到“可用”,非结构化的多模态数据结构化,帮助细粒度的推理
    • 挑战:
      • 1、异构信息融合(文本、图像、语音等)
      • 2、从多模态数据转化成结构化的数据,非常难,且相较于非结构化文本,多模态信息表达实体关系的方式更加复杂且多样。
      • 3、即使获取到了多模态的结构化知识,如何将信息链接到对应知识仍有一定的难度;多模态信息中,对于同一事物的表达,形式比远比文本信息更为丰富,也容易受到模态间或外部信息的干扰。
  2. 如何解决?

    • 任务1:多模态实体表征

      • 基本思路:通过知识融合模块,使各个模态在语义空间层面实现统一;多模态对比学习,基于孪生网络,实现多模态的增强融合;跨模态的表达存在歧义情况,不加区分将舞蹈语义表征部分
    • 任务2:多模态关系学习,

      • 为什么需要多模态信息的结构化表达?采用图结构规范表达目标及其关联

      • 如何实现多模态信息的结构化表达?

        • 思路1:采用类似知识图谱关系补全的方法,补全完善目标间的关系;跨模态交叉注意力;三元协同注意力(TCA)模块,用于通过注意力赋权衡量信息重要性并弥合模态差距;设计对比语义采样器,应对知识中普遍存在的1对多关系干扰
        • 思路2:借助大模型,将目标关系识别任务转化成视频问答任务,构建问题-答案查询模版,输入大模型;采用对比学习,引导模型从上下文提炼正确的分类依据,并过滤低质量信息;
  3. 实体链接

    • 多模态的实体链接挑战:
      • 语义表达不统一;
      • 语义信息简略;
      • 隐式语义难以挖掘,部分语义需要推理获得:通过多个层次交互,弥补语义不足;门控机制;
    • 还有哪些信息有助于实现多模态信息的实体链接?
      • 辅助共现关系作为线索;
      • 关联能否转化成共现关系,往往取决于所在的特定场景,需要首先识别当前场景的共现概率;
  4. 总结展望

    大模型时代来临,多模态知识学习的作用或更凸显;不仅需要丰富的想象,也需要严谨的推理,这有赖于多模态知识与大模型的进一步结合;

你可能感兴趣的:(自然语言处理,自然语言处理,人工智能,多模态,大语言模型)