Think-on-Graph:解决大模型在医疗、法律、金融等垂直领域的幻觉
- Think-on-Graph 原理
- ToG 算法步骤:想想再查,查查再想
- 实验结果
论文:https://arxiv.org/abs/2307.07697
代码:https://github.com/IDEA-FinAI/ToG
幻觉是什么:大模型的「幻觉」问题。
多跳推理路径的探索算法,提高深度推理能力:ToG 通过在知识图谱中动态探索多个推理路径,并利用 beam search 算法挑选最有前景的路径,从而增强了LLMs的深度推理能力。
显式、可编辑的推理路径,增强推理的责任感和可追溯性:通过提供明确的推理路径,ToG不仅增加了推理过程的可解释性,而且允许对模型输出的来源进行追踪和校正,从而提高了推理的责任感和可靠性。
插件式框架,提高大模型的灵活性和效率:通过知识图谱而非LLMs更新知识,可以提高知识的更新频率,降低更新成本,同时增强小型LLMs的推理能力,使其能与大型模型(如GPT-4)竞争。
Think-on-Graph 新技术 对比 之前的技术:
(a) LLM-only(只有大模型的情况):
在这个例子中,LLM独立地尝试回答问题:“What is the majority party now in the country where Canberra is located?”。
LLM使用的是链式思考,首先确认堪培拉是澳大利亚的首都,然后基于2021年9月的信息,认为澳大利亚总理是斯科特·莫里森,属于自由党,所以答案应该是自由党。
然而,这个答案是错误的,因为LLM的知识是过时的。
(b) LLM ⊕ KG(例如,通过LLM生成的SPARQL查询):
在这种范式下,LLM首先生成一个SPARQL查询来检索知识图谱(KG)。
在这个例子中,查询是为了找到堪培拉的国家,并检索该国家的主要政党。
由于知识图谱中不存在“majority party”的相关信息,这种方法未能得出正确答案。
© LLM ⊗ KG(例如,Think-on-Graph):
这个范式展示了LLM与知识图谱紧密协作。
首先,LLM通过探索知识图谱中与堪培拉有关的三元组(triples)。
然后,通过“Think”步骤,它找到了最相关的三元组是(澳大利亚,首相,安东尼·阿尔巴尼斯)。
由于LLM知道安东尼·阿尔巴尼斯属于劳工党,并且自2019年以来一直是澳大利亚劳工党(ALP)的领导者,因此能够推断出正确答案是劳工党。
所以,Think-on-Graph 这种LLM与知识图谱的新技术,效果也是最好的。
Think-on-Graph 工作流程:
工作流程分为三个深度搜索阶段(Depth 1、Depth 2、Depth 3),逐步深化搜索,每个阶段都深入探索与前一阶段发现的实体相关的更多信息。
Depth 1:识别问题中的关键实体(堪培拉)和与其直接相关的属性(它是哪个国家的首都)。
Depth 2:以第一阶段确定的国家(澳大利亚)为中心,进一步探索与政府头目(首相)相关的信息。
Depth 3:最后,确定首相(安东尼·阿尔巴尼斯)的政党隶属,从而得出国家的主要政党。
在每个深度的搜索和剪枝过程中,发光的实体代表中心实体,粗体实体代表被选中的中心实体。
图中的边缘的黑暗度代表了由LLM给出的评分,虚线表示由于评分低而被剪枝的关系(精准回答,避免模糊宽泛)。
最终,基于这些推理路径,生成的答案是“Labor Party”(劳工党)。
本质:ToG通过逐步深入的探索和剪枝过程,结合LLM的推理能力和KG的丰富数据,动态构建推理路径以提供精准且可追溯的答案。
ToG方法的主要问题是如何利用LLM进行深度推理以回答基于知识图谱的复杂问题。
ToG是通过 beam search 在知识图谱上执行搜索,以此来解决问题。
子问题1:初始化图搜索。
子问题2:探索。
子问题3:推理。
还有 ToG-R(基于关系的Think-on-Graph 变种):
子问题1:减少LLM调用次数。
子问题2:强调关系文字信息。
ToG 方法的本质在于,通过LLM执行的知识图谱上的beam search,分阶段探索和评估推理路径,以便深度推理出复杂问题的精确答案,而 ToG-R 进一步减少了LLM调用,强调文字信息,提高了效率和鲁棒性。
假设我们要回答的问题是:“谁是最近一次举办奥运会的国家的现任总统?”
初始化图搜索:
探索:
推理:
在ToG-R中,如果在实体探索阶段关系信息不够充分,我们可能会采用随机剪枝策略,选择一个可能的实体,例如随机选择一位政治人物,然后继续下一轮探索。
ToG这个算法通过在各种不同的数据集上的测试显示出它很擅长处理需要多步逻辑推理的复杂问题,这得益于它能够在多个层面上全面理解和应用知识图谱中的信息。
实验中还特别考察了不同大小的语言模型对ToG的影响。
此外,ToG的性能也受到搜索深度和宽度的影响,通过调整这两个参数,ToG的表现有所提升,尽管提升的幅度在深度超过一定阈值后会减弱。
不同知识图谱的选择也对ToG的表现有显著影响。
例如,在构建于Freebase上的数据集中,ToG的表现更好,这显示了匹配度高的知识图谱对提升性能至关重要。
而且,不同的提示设计,如三元组格式相比自然语言句子,对于ToG来说也有更好的效果。
在探索过程中使用不同的剪枝工具也会影响ToG的表现。
最后,ToG的一个独特之处在于它提供了知识的追溯性和可校正性。