【机器阅读理解】System Report for CCL23-Eval Task 9: HUST1037 Explore Proper Prompt Strategy for LLM in MRC

Abstract

本文对中国高考阅读理解的对抗鲁棒性评价进行了研究。虽然语文阅读理解任务近年来得到了广泛的关注,但以往的方法对这一具有挑战性的数据集并不有效。我们专注于探索快速工程如何影响模型的阅读理解能力。通过使用ChatGLM、GPT3.5和GPT4进行实验,我们发现提示语和LLM阅读理解能力之间存在相关性,提示语工程提高了每种模型的阅读理解能力。我们团队提交了系统评估结果,在三项指标和总分中均排名第一。

Conclusion

本研究采用基于GPT4的大型语言模型对中国高考阅读理解任务的对抗鲁棒性进行评估。我们修改和测试了各种提示策略,使模型能够从原文进行逻辑推理。与原方法相比,该方法更有效地利用了大模型的语义信息和推理能力来解决阅读理解问题。然而,现行制度仍存在一些局限性。由于GPT4模型API的显示限制,我们无法尝试更多的提示策略。此外,该任务中的原始文本很长,模型输入长度受到限制,导致可伸缩的内容较短。我们的目的是压缩原始的文本信息,使我们能够在未来尝试更多的提示策略。

Appendix

【机器阅读理解】System Report for CCL23-Eval Task 9: HUST1037 Explore Proper Prompt Strategy for LLM in MRC_第1张图片
【机器阅读理解】System Report for CCL23-Eval Task 9: HUST1037 Explore Proper Prompt Strategy for LLM in MRC_第2张图片
【机器阅读理解】System Report for CCL23-Eval Task 9: HUST1037 Explore Proper Prompt Strategy for LLM in MRC_第3张图片

总结

1、探索问题

(1)增强机器阅读理解能力的鲁棒性
(2)设计prompt和合适的参数,增强机器阅读理解能力(一次回答多个问题)

2、方法

增强鲁棒性
采用数据增强的方式,对数据进行了四种对抗攻击策略:关键字干扰、推理逻辑干扰、时空属性干扰、因果关系干扰

增强机器阅读理解能力
(1)采用gpt-3.5,参数设置上使生成内容较为趋近稳定。设置system时候,分别尝试了中文和英文。
(2)模仿人类解决问题方式,在回答多个问题时,使用上回答上一个问题时的额外信息。其实,就是类似于分解子问题求解。
(3)prompt设计应该准确、清晰和简洁。

你可能感兴趣的:(科研论文,prompt,策略模式)