Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models
文章目录摘要1引言2背景:长思维链推理模型与过度思考现象2.1思维链(CoT)推理2.2长CoT推理模型中的过度思考问题3基于模型的高效推理3.1基于长度奖励设计的强化学习(RL)3.2使用可变长度CoT数据的监督微调(SFT)3.2.1构建可变长度CoT推理数据集3.2.2微调方法4基于推理输出的高效推理4.1将推理步骤压缩为更少的潜在表示4.2推理过程中的动态推理范式4.2.1基于显式标准的动