[ACL2023] Symbolic Chain-of-Thought Distillation: Small Models Can Also “Think” Step-by-Step

Symbolic Chain-of-Thought Distillation: Small Models Can Also “Think” Step-by-Step

文章链接

虽然CoT作为一种prompt形式在提高LLM的表现上有很好的效果,但此前有研究表明CoT并不能在小规模的LM(参数<60B)上达到较好的效果,而作者却通过蒸馏的方式将大模型的CoT知识传授给小模型,从而让OPT-1.3B这样的模型也获得了CoT能力。

[ACL2023] Symbolic Chain-of-Thought Distillation: Small Models Can Also “Think” Step-by-Step_第1张图片
对于一个训练样本 x x x,作者将其作为输入给到LLM,用few-shot-CoT的方式令其输出答案 y y y和rationale z z z,注意作者并不是让LLM输出一个就了事,而是让其输出了多组进行采样,最后一个 x x x可以对应30个 ( y , z ) (y,z) (y,z)的组合。同时这里的 y y y并不一定是对的,作者设了有gold label和无gold label两个baseline。下表展示了蒸馏后的结果,可以看到提升非常明显,full因为提供了golden label因此表现更好。
[ACL2023] Symbolic Chain-of-Thought Distillation: Small Models Can Also “Think” Step-by-Step_第2张图片
作者发现这种一个问题多个rationale的数据蒸馏使得学生模型的效果变得更好,取样数从1到30的过程中有明显提升,如下图所示。
[ACL2023] Symbolic Chain-of-Thought Distillation: Small Models Can Also “Think” Step-by-Step_第3张图片
不过我认为这个实验有不太严谨的地方,作者没有说在缩减单个样本的rationale采样数的时候有没有维持整个蒸馏数据集的大小不变,如果是直接把数据集规模缩减到1/30,那有可能不是一个样本只有一个rationale的问题,而是蒸馏数据集大大缩水的问题。后面作者补充了一个实验,可以看到应该是没有保证总的数据集大小不变的,1x和30x的曲线差了30倍的蒸馏数据量,有gap也很正常,不一定是一个sample+多个rationale的影响。
[ACL2023] Symbolic Chain-of-Thought Distillation: Small Models Can Also “Think” Step-by-Step_第4张图片
之后还有一些别的对蒸馏数据集改动的实验,此处略。

你可能感兴趣的:(自然语言处理,语言模型,自然语言处理)