2024年1月17日Arxiv热门NLP大模型论文:Generative Multi-Modal Knowledge Retrieval with Large Language Models

清华&腾讯AAAI 2024联手突破!提出多模态知识检索新框架,性能大幅领先

引言:多模态知识检索的重要性与挑战

在当今信息爆炸的时代,多模态知识检索已成为支持知识密集型多模态应用的关键技术。例如,在视觉问答(VQA)、多模态实体链接和多模态对话等应用中,多模态上下文内的信息可能不足以满足需求,因此需要获取外部知识。然而,现有的方法在有效性和训练效率方面面临挑战,尤其是在训练和整合多个检索器以处理多模态查询时。传统的方法通常涉及使用单独的文本到文本和图像到文本检索器,这些方法往往难以捕捉跨模态交互,并且需要大量数据来训练管道中的每个模块。

近年来,生成式检索方法作为一种有前景的发展,旨在通过生成相关文档标识符来简化检索流程,而不是从大规模语料库中检索它们。然而,这些方法尚未应用于多模态知识检索,原因在于知识感知文档不能有效地由静态标识符(如数字ID和标题)表示,因为不同模态的查询关注文档的不同方面。此外,这些标识符需要额外的记忆步骤,在处理大规模语料库时效率低下,且在遇到未见过的知识时表现不佳,缺乏泛化能力。

为了应对这些挑战,我们提出了一个创新的端到端生成式框架用于多模态知识检索,简称为GeMKR。该框架利用大型语言模型(LLMs)作为其核心模型,基于LLMs即使在有限数据微调的情况下也能有效地充当虚拟知识库的前提。在GeMKR中,我们通过两步过程检索知识:1) 生成与查询相关的知识线索,2) 使用知识线索在数据库中搜索相关文档。值得注意的是,只有第一步需要神经计算,而第二步是一个明确且高效的数据库操作。通过在三个基准测试上进行的实验,我们证明了与强基线相比,在所有评估指标上都取得了3.0%到14.6%的显著改进。

声明:本期论文解读非人类撰写,全文由赛博马良「AI论文解读达人」 智能体自主完成,经人工审核后发布。

智能体传送门:赛博马良-AI论文解读达人

神奇口令: 小瑶读者 (前100位有效)

论文标题、机构、论文链接

论文标题:
Generative Multi-Modal Knowledge Retrieval with Large Language Models

机构:

  1. Department of Electronic Engineering, Tsinghua University, Beijing, China
  2. Pattern Recognition Center, WeChat AI, Tencent Inc, China

论文链接:
https://arxiv.org/pdf/2401.08206.pdf

GeMKR框架介绍:一个创新的多模态知识检索生成框架

多模态查询的知识检索问题

在支持知识密集型多模态应用中,多模态查询的知识检索扮演着关键角色。例如,在视觉问答(VQA)、多模态实体链接和多模态对话等应用中,多模态上下文内的信息可能不足,需要获取外部知识。然而,现有方法在有效性和训练效率方面面临挑战,特别是在训练和集成多个检索器以处理多模态查询时。现有方法通过使用单独的文本到文本和图像到文本检索器来处理多模态查询,这些方法难以捕捉跨模态交互,并且需要大量数据来训练管道中的每个模块。

GeMKR框架的总体架构

GeMKR是一个创新的端到端生成式多模态知识检索框架。该框架利用大型语言模型(LLMs)作为虚拟知识库,即使在有限数据训练的情况下也能有效工作。GeMKR通过两步过程检索知识:1)生成与查询相关的知识线索;2)使用知识线索在数据库中搜索相关文档。特别是,GeMKR首先引入了一个对象感知的前缀调整技术来指导多粒度的视觉学习。然后,将多粒度视觉特征与LLM的文本特征空间对齐,利用LLM捕获跨模态交互。随后,构建了统一格式的指令数据进行模型训练。最后,提出了知识引导的生成策略,在解码步骤中施加先验约束,从而促进独特知识线索的生成。通过在三个基准测试上进行的实验,我们的模型在所有评估指标上相比强基线实现了3.0%到14.6%的显著提升。

大型语言模型作为虚拟知识库的应用

利用大型语言模型(LLMs)的优势

大型语言模型(LLMs),如LLaMA,可以作为虚拟知识库(KB),即使在有限数据微调的情况下也能有效工作。在GeMKR中,我们放弃了计算查询和知识之间相似性的传统管道。相反,我们通过生成与查询相关的知识线索,然后使用知识线索在数据库中搜索相关文档的两步过程来检索知识。请注意,只有第一步需要神经计算,而第二步是一个明确且高效的数据库操作。这里,知识线索被定义为文档内任何只在特定文档中出现的子序列。与标识符和文档之间的一对一关系不同,GeMKR中的每个知识线索都唯一对应于知识库中的一个知识感知文档,而每个文档可以由多个知识线索映射。

生成知识线索的两步过程

在检索知识的过程中,首先是生成与查询相关的知识线索。这些知识线索是文档中的任何子序列,它们在特定文档中独有。与标识符和文档之间的一对一关系不同,GeMKR中的每个知识线索都唯一对应于知识库中的一个知识感知文档,而每个文档可以由多个知识线索映射。在推理过程中,模型采用了受限策略来引导解码器在每一步生成有限的令牌空间内的内容,确保每个知识线索Cj都可以明确地映射到文档Di。最后,我们根据自回归分数score(Ci, Q)对文档集{Di}进行排序,以获得最终的检索结果。

对象感知前缀调整技术

通过对象感知前缀调整优化视觉学习

对象感知前缀调整技术是为了优化视觉学习而提出的方法。这种方法通过将对象(即视觉实体)作为可学习的前缀,显式地引导视觉理解。在实现中,使用了CLIP模型作为视觉骨干网络,并通过前缀调整方法将两组特征输入到CLIP中。其中,一组是可学习的前缀提示,混合了细粒度的视觉对象信息;另一组则是由补丁嵌入层编码的每个视觉标记的嵌入。为了减轻视觉骨干的灾难性遗忘,冻结了视觉骨干的参数,仅使前缀提示可学习。

多粒度视觉特征与文本特征空间的对齐

为了有效地将视觉特征整合到预训练的大型语言模型(LLM)中,采用了简单的投影方案。使用[CLS]标记来代表图像的整体级别,并利用对象特征作为特征来整合对象级别的视觉信息。然后,应用一个简单的线性层将视觉表示映射到文本嵌入空间。在此基础上,使用LLaMA作为文本骨干,输入文本嵌入和视觉表示,LLM可以逐步预测下一个标记。

知识引导的约束解码策略

知识引导的生成策略

知识引导的生成策略旨在在解码步骤中施加先验约束,从而促进独特知识线索的生成。在训练期间,由于任务中没有明确提供知识线索,而是提供了与每个查询相关的一组文档,因此需要对文档进行处理以生成知识线索。通过计算查询和句子之间的关键词命中数来评估每个句子的相关性,并根据命中率选择最相关的句子。然后,根据归一化分布采样m个片段的起始位置,并从起始位置切出l个标记,以获得具有相同长度的m个知识线索。

FM-Index数据库的应用

在推理过程中,模型应用知识引导的约束解码策略,通过在每一步中搜索有限的标记空间,生成可以唯一映射到知识库中的一个文档的有效知识线索。为了实现高效的知识库搜索,引入了FM-Index数据库。FM-Index提供了三个接口:GetNext、ValidDistinct和LookupDoc,使得能夠在毫秒级别上从大规模语料库中高效查找。

在每个生成步骤中,模型使用先前生成的标记作为前缀条件来调用GetNext接口。接口搜索与此前缀匹配的字符串,获取下一个允许的标记。然后,模型构建一个掩码矩阵,其中集合中的标记被赋值为1,其他标记被设置为0,以此来修改预测分布,确保解码出的知识线索至少在知识库中出现一次。通过这些策略,大多数生成的线索可以对应到知识库中的唯一记录。

实验设置与基准测试

1. 多模态知识检索的三个基准测试

在本研究中,我们对多模态知识检索的任务进行了实验,选取了三个基准测试:OKVQA-GS112K、OKVQA-WK21M和ReMuQ。这些基准测试分别源自视觉问答(VQA)任务,利用图像和问题作为查询。OKVQA-GS112K包含112,724个知识记录,而OKVQA-WK21M则包含高达21,015,324个知识记录,ReMuQ的具体知识库大小未在参考资料中提及。这些数据集的统计信息可以在表2中找到。

2. 评价指标与基线方法

为了评估模型性能,我们采用了伪相关精度(Pseudo-relevance Precision@K,简称P@K)和伪相关召回率(Pseudo-relevance Recall@K,简称R@K)作为评价指标。具体来说,我们对所有数据集使用R@5和R@10,对于ReMuQ数据集,由于每个查询只有一个正确的文档,我们使用P@1;对于其他数据集,我们使用P@5。

在基线方法方面,我们采用了多种对比方法:包括经典的文档检索模型BM25和DPR,先进的生成式检索模型CorpusBrain和SEAL,典型的图像到文本检索器CLIP,以及为本任务设计的多模态检索器ReViz和ReViz+ICT。值得注意的是,对于文本基线方法,我们使用图像标题模型来获取图像的文本描述,并将文本特征用于增强多模态上下文的理解。

实验结果与分析

1. GeMKR与其他基线方法的比较

根据表1所示,我们的模型GeMKR在三个基准测试中均一致地超越了领先的最新基线方法。特别是在P@K指标上,我们的模型在ReMuQ和OKVQA-WK21M数据集上至少提高了13.1%,这表明我们的模型能够比其他基线方法检索到更精确的知识。

此外,ReViz-ICT作为一个使用单流查询编码器来捕获跨模态交互的检索器,在小型知识库检索中表现出色,但在大规模知识库中的提升不太明显。相比之下,我们的模型在从包含2100万条目的知识库检索信息时表现出色,至少超过ReViz-ICT 6.4%。这一结果表明,我们的模型能够很好地泛化到不同规模的知识源。

2. 模型尺寸对性能的影响

我们还研究了不同大小的大型语言模型(LLMs)对性能的影响。我们使用不同规模的LLMs(例如1.3B、2.7B、6.7B、7B和13B)进行了实验。结果表明,使用LLaMA-13B的模型与LLaMA-7B相比,性能提升有限。这可能是因为LLaMA-7B已经取得了很强的性能。尽管使用LLaMA-13B的模型能够取得更好的结果,但由于计算成本的考虑,我们没有进一步扩大模型规模。此外,LLaMA-7B在参数数量相当的情况下,表现优于OPT-6.7B,这展示了LLaMA的内在优势。使用更小规模的LLMs会导致性能下降,这表明在知识检索任务中,要么需要使用大规模的语言模型,要么需要使用更多数据来充分训练小型模型。

消融研究:验证GeMKR各组件的重要性

1. 对象感知前缀调整的影响

在GeMKR框架中,对象感知前缀调整(Object-aware Prefix Tuning)是为了高效地微调视觉背景模型而提出的方法。通过将可学习的前缀提示与细粒度的视觉对象信息混合,该方法显著提高了模型对多模态查询的理解能力。消融研究表明,当移除对象特征时,模型的性能在P@5和R@5指标上分别下降了2.2%和1.9%,这强调了对象特征在多模态知识检索中的重要性。此外,将双流注意力机制替换为标准注意力机制,性能下降了1.5%到2.1%。完全移除前缀调整模块后,所有指标至少下降了2%,进一步证明了对象感知前缀调整在整合多粒度视觉特征中的有效性。

2. LLMs的参数效率调整方法

在LLMs的参数效率调整方面,GeMKR采用了低秩适应(LoRA)方法,仅更新模型的一小部分参数,以减少计算成本。当冻结LLMs的所有参数(即移除LoRA适应)时,模型性能有所下降。同时移除对象感知前缀调整和LoRA适应(仅更新投影层的参数)时,性能急剧下降超过10%,低于基线模型的性能水平。这表明LLMs作为虚拟知识库在生成精确知识线索方面发挥着关键作用。最后,当移除视觉模块,仅使用文本查询和图像标题作为输入时,模型性能进一步下降,但仍优于最佳文本基线SEAL,显示了模型其他设计的有效性。

总结与未来展望

1. GeMKR在多模态知识检索任务中的贡献

GeMKR作为一个创新的端到端生成式框架,为多模态知识检索任务提供了显著的性能提升。通过生成与查询相关的知识线索,然后使用这些线索在数据库中搜索相关文档,GeMKR避免了传统检索方法中的冗余流程。在三个基准测试中,GeMKR相较于强基线模型在所有评估指标上实现了3.0%到14.6%的显著提升。特别是在处理包含2100万文档的大型知识库时,GeMKR在P@5和R@5指标上分别实现了14.6%和8.9%的改进,证明了其在大规模知识源上的良好泛化能力。

2. 对未来研究方向的讨论

未来的研究可以在以下几个方向进行探索:首先,进一步优化对象感知前缀调整和LLMs的参数效率调整方法,以提高模型的性能和训练效率。其次,探索如何将GeMKR应用于更广泛的多模态任务,例如视觉问答和多模态对话。最后,研究如何将GeMKR与其他类型的知识库(例如结构化的知识图谱)结合,以进一步提升模型的知识检索能力。

声明:本期论文解读非人类撰写,全文由赛博马良「AI论文解读达人」 智能体自主完成,经人工审核后发布。

智能体传送门:赛博马良-AI论文解读达人

神奇口令: 小瑶读者 (前100位有效)

你可能感兴趣的:(人工智能,深度学习,机器学习)