llm大模型在回答一些问题上表现出了惊人的能力,例如数学逻辑推理,代码生成,问题答复等。提词工程是和大预言模型交流的一门艺术。
一般地,提供的指令或任务越精确,模型回答的越好,越符合用户的预期。为此,论文
《Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4》提出了26个原则,这些原则增强了LLM关注输入上下文关键元素的能力,从而生成高质量的响应。
google bert引入transformer的encoder编码,理解自然语言,打开了pretrain-finetuning模式;t5引入一个框架将各类任务集成到一个模型中。后续依赖于transformer decoder自编码预训练模型gpt1、gpt2、gpt3陆续诞生。chatgpt3.5 横空出世,推动了生成式大模型热潮。随后为实现低资源高效率,Meta’s LLaMA被大量工厂应用。chatgpt4等生成式模型提高了chatgpt3.5的数据应用能力,及图像处理能力。
提词工程是一门与llm模型交流的艺术,大模型会根据输入给出一个输出结果。输入的不同,会得到不同的输出结果。
原则概览如表1所示。根据其独特的性质,论文将其分为5个类别,如表2所示:
(1)提示结构和明确性,例如,在提示中整合意图受众,如听众是该领域的专家;
(2)具体性和信息量,例如,在提示中添加以下短语“确保您的答案没有偏见,不依赖于成见”;
(3)用户交互和参与,例如,允许模型通过询问您问题来获取精确的详细信息和需求,直到他有足够的信息来提供所需的输出“从现在开始,我想让你问我问题来......”。
(4)内容和语言风格,例如,与LLM交互时不需要礼貌,因此不需要添加像“请”、“如果你不介意”、“谢谢”、“我想”等词组,直接切入主题;
(5)复杂任务和编码提示,例如,通过交互对话将复杂任务分解成一系列更简单的提示。
在这项研究中,建立了一些制定提示和指令的指导原则,以便从预训练的大型语言模型中获得高质量的响应:
简洁明了:过于冗长或模糊的提示会使模型感到困惑或导致无关的响应。因此,提示应该简明扼要,避免不必要的信息,不会对任务做出贡献,但必须足够具体以指导模型。这是提示工程的基本原则指导。
与上下文的相关性:提示必须提供相关的上下文,帮助模型理解任务的背景和领域。包括关键词、特定领域的术语或情境描述可以将模型的响应锚定在正确的上下文中。我们在提出的原则中强调了这种设计理念。
任务匹配性:提示应该与当前任务紧密匹配,使用语言和结构清楚地向模型指明任务的性质。这可能涉及将提示表述为问题、命令或填空语句,这与任务的预期输入和输出格式相匹配。
示例演示:对于更复杂的任务,在提示中包含示例可以演示所需的响应格式或类型。这通常涉及显示输入-输出对,特别是在“少样本”或“零样本”学习场景中。
避免偏见:提示应该设计得尽可能减少模型由于其训练数据而固有的偏见激活。使用中立的语言,注意潜在的伦理影响,尤其是对敏感主题。
渐进提示:对于需要一系列步骤的任务,可以将提示结构化以通过渐进地引导模型完成过程。将任务分解为一系列相互建立的提示,一步一步地指导模型。此外,提示应该可根据模型的性能和迭代反馈进行调整,即,需要做好根据初始输出和模型行为调整提示的准备。
此外,提示应该可根据模型的性能和响应以及迭代的人类反馈和优先级进行调整。
最后,更高级的提示可以融入类似编程的逻辑来完成复杂任务。例如,在提示中使用条件语句、逻辑运算符甚至伪代码来指导模型的推理过程。
提示的设计是一个不断发展的领域,随着语言模型变得越来越复杂,尤其如此。随着研究人员继续探索通过提示工程可以实现的极限,这些原则可能会得到精炼和扩展。
ATLAS手工制作的基准测试,它包含了每个原则的20个人类选择的问题,有和没有应用原则的提示
实验分为两个部分:提升(Boosting)和正确性(Correctness)。
提升是通过人类评估来评估应用所述原则后不同LLM响应质量的提高。原始未修改的提示作为衡量这种提高的基准。
正确性涉及模型输出或响应的准确性,确保它们准确、相关且无误,也是通过人类评估来衡量。
采用规则1和不采用规则1的20个问题10个结果对比
https://github.com/VILA-Lab/ATLAS/blob/main/data/principles/w_principle_1.json
https://github.com/VILA-Lab/ATLAS/blob/main/data/principles/wo_principle_1.json
图2:在提示中使用第13原则后LLM响应的提升示例
图3:在提示中使用引入的第7原则后LLM响应的正确性改进示例
图4:在提示中采用引入的原则后LLM响应质量的提升。小规模指7B模型,中等规模指13B模型,大规模指70B和GPT-3.5/4模型
图5:在提示中采用引入的原则后LLM响应质量的正确性改进。小规模指7B模型,中等规模指13B模型,大规模指70B和GPT-3.5/4模型
图6:在ATLAS数据集上各种LLM的提升得分
图7:在ATLAS数据集上的正确性改进得分
图10:LLM改进百分比的热图说明
图11:LLM正确率百分比的热图说明
图13:在提示中使用引入的原则后,小规模LLaMA-2-7B模型的正确性改进
图14:在提示中使用引入的原则后,小规模LLaMA-2-7B模型的正确性改进
图15:在提示中使用引入的原则后,中等规模LLaMA-2-13B模型的正确性改进
图16:在提示中使用引入的原则后,中等规模LLaMA-2-13B模型的正确性改进
指令原则大解锁!26条Prompt黄金法则,精准提问,显著提升ChatGPT输出质量!
一文看懂chatGPT3.5和chatGPT4的区别 - 知乎
https://arxiv.org/pdf/2312.16171.pdf
代码地址: https://github.com/VILA-Lab/ATLAS
什么是提示词工程?通俗版理解 - 知乎
【LLM】最大化LLaMA-1/2, GPT-3.5/4 提示效果的方法 - 知乎
指令原则大解锁!26条Prompt黄金法则,精准提问,显著提升ChatGPT输出质量! - 知乎