诸神缄默不语-个人CSDN博文目录
论文全名:Training Verifiers to Solve Math Word Problems
GSM8K数据集原始论文
OpenAI 2021年的工作,关注解决MWP问题(具体场景是小学(grade school)数学题),训练模型关注其错误,重复尝试,直至找到正确解法。
因此本文训练verifier检测解决方案是否正确。
在小模型上,verifier可以使模型提升到与大模型靠近的程度。
数据集越大,verifier效果越好。小数据集上没用。
论文ArXiv链接:https://arxiv.org/abs/2110.14168
官方GitHub项目:openai/grade-school-math
官方博文https://openai.com/research/solving-math-word-problems
verifier这个想法当然很好,除了成本看起来就很高之外……
另外就是看论文中的暗示,这个优秀的模型效果也是靠调参调出来的啊。哎调参嘛本来就是建模的一部分,我一点都没有在酸!
含8.5K条数学题。
7.5K训练集,1K测试集
每个问题需要2-8步推理来求解。
数据集中的解法都是自然语言形式的。
此外还提供了一种“苏格拉底式提问”的数据(虽然在论文中压根没提这茬):
A carnival snack booth made $50 selling popcorn each day. It made three times as much selling cotton candy. For a 5-day activity, the booth has to pay $30 rent and $75 for the cost of the ingredients. How much did the booth earn for 5 days after paying the rent and the cost of ingredients? How much did the booth make selling cotton candy each day? ** The booth made $50 x 3 = $<<50*3=150>>150 selling cotton candy each day. How much did the booth make in a day? ** In a day, the booth made a total of $150 + $50 = $<<150+50=200>>200. How much did the booth make in 5 days? ** In 5 days, they made a total of $200 x 5 = $<<200*5=1000>>1000. How much did the booth have to pay? ** The booth has to pay a total of $30 + $75 = $<<30+75=105>>105. How much did the booth earn after paying the rent and the cost of ingredients? ** Thus, the booth earned $1000 - $105 = $<<1000-105=895>>895.
质量控制是纯人工完成的,我好羡慕啊……
数据集是找人写了1000条(先用few-shot prompted 175B GPT-3 model生成seed问题),然后用Surge AI自动打标扩展,然后找人进行验证。
calculator annotation是由硬编码的逻辑和LLM联合生成的,在训练时就放在一起训练,在测试时直接用calculator(eval()
)重算答案(在检测到=
出现后,调用calculator,计算figure 1中的红色部分左式,得到计算答案,覆盖红色部分),如果出现非法表达式将直接重新抽样
本文认为,LM的一个重要问题就在于容易因小错而产生失误(sensitivity,或者说不鲁棒),这是因为LM生成过程是autoregressive的,所以无法对之前生成的内容进行纠错。
verifier:评估模型生成解法的正确程度(token-level + 联合训练语言模型和是否正确2个目标函数)
(分类一般比生成任务简单)
(存在推理错误,但是结果正确的场景)
在训练时同时训练验证任务和语言模型任务(训练时两种数据一样多,相当于对语言模型数据的100倍上采样)
在测试时,让模型生成100个解决方案,选择verifier排序最高的解决方案,作为输出。
(或许这个verifier也可以被叫做,模型聚合。加强版投票吧感觉。不知道以前机器学习那边做模型聚合有没有用过这种第二阶段的验证器(或者叫排序器?打分器)哈,应该有的吧)
本文主要考虑两种解决方案:微调和验证(具体计算都用的是calculator,训练2个epoch(原因见第3节讲的figure 3))
微调:训练1个低temperature(0)的GPT-3
验证:训练一堆高temperature(0.7)的GPT-3(generator),然后给每个输出进行打分(verifier),选择分值最高的结果(generator和verifier的尺寸一样,语言模型目标一样)
之前的工作中,有类似做法的:
本文选择不同的生成器和验证器,是为了防止生成器过拟合(但是原则上也可以一起train)
Note that we increase the batch size for token-level verifiers by a factor of 4, to better handle the more difficult objective and the noise from dropout.
这是什么我不知道的理论吗?没有给出具体的实验代码,只给了一些参考工具脚本(都没有经过优化,“又不是不能用.jpg”)
LLM的部分跟别的LLM其实差不多,只是GSM8K多了一个调用calculator的部分。
参考官方代码和transformers的新功能。
这个我晚些再补。
GPT-3毕竟没有开源,所以只能拿GPT-2当代餐了。
然后这个代码也我自己写的。应该比较好写,我晚些再补。