Investigating Answerability of LLMs for Long-Form Question Answering

本文是LLM系列的文章,针对《Investigating Answerability of LLMs for Long-Form Question Answering》的翻译。

LLM在长形式问答中的可回答性研究

  • 摘要
  • 1 引言
  • 2 相关工作
  • 3 提出的评估方法
  • 4 结果与分析
  • 5 结论
  • 6 局限性

摘要

随着我们进入LLM的新时代,了解它们的能力、局限性和差异变得越来越重要。为了在这一方向上取得进一步进展,我们努力更深入地了解大规模LLM(例如,ChatGPT)与规模较小但有效的开源LLM及其提炼出的同行之间的差距。为此,我们特别关注长形式问答(LFQA),因为它有几个实用且有影响力的应用程序(例如,故障排除、客户服务等),但对LLM来说仍然研究不足,具有挑战性。我们提出了一种从抽象摘要中生成问题的方法,并表明从长文档的摘要中生成后续问题可以为LLM从长上下文中推理和推断创造一个具有挑战性的环境。我们的实验结果证实:(1)我们提出的从抽象摘要生成问题的方法对LLM构成了一个具有挑战性的设置,并显示了ChatGPT等LLM与开源LLM(Alpaca,Llama)之间的性能差距,但他们的生成能力在摘要生成的问题上显著下降–尤其是对于较长的上下文(>1024个token)。

1 引言

2 相关工作

3 提出的评估方法

4 结果与分析

5 结论

随着像ChatGPT这样的LLM和开源成功的LLM的出现,了解不同LLM的功能和局限性是极其重要的。为了通过参考较长的上下文来测试LLM更深层次的推理能力,我们评估了LLM对ChatGPT在长文档摘要上生成的问题的回答。结果表明,我们提出的问题生成方法对LLM提出了一个具有挑战性的设置,并揭示了大规模LLM和开源LLM之间的性能差距。我们希望我们的分析能推动未来的研究方向,例如在受约束的序列长度设置中利用较长的上下文,以及为较小的LLM开发更好的长格式文本生成。

6 局限性

在这项研究中,我们提出了一种自动评估设置,用于从摘要中生成问题,并使用GPT-4对LLM中生成的答案进行不同度量的评估。实验结果表明,我们提出的评估设置对LLM来说是一个具有挑战性的设置。然而,我们的研究可能有一些局限性。
GPT-4作为评估者虽然GPT-4与长格式文本生成的人类评估显示出高度相关性,但使用GPT-4进行评估的能力本身就是一个活跃的研究领域。因此,我们的结果可能受到GPT-4未被发现的能力的限制。
生成问题的ChatGPT生成由ChatGPT提示的问题的答案可能会导致ChatGPT的乐观结果。然而,其他基线在产生有意义的问题方面存在局限性。我们展示了使用其他LLM生成问题的广泛分析(附录A.2)。
未知的训练数据对于像ChatGPT这样的大规模LLM的训练数据分布知之甚少。使用不同方法和数据分布训练的模型使公平比较的评估更加困难。

你可能感兴趣的:(LLM,人工智能,语言模型)