❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!
微信公众号|搜一搜:蚝油菜花
大家好,我是蚝油菜花,今天跟大家分享一下 Goedel-Prover 这个由普林斯顿大学、清华大学等机构联合推出的开源自动化数学问题的形式证明生成模型。
Goedel-Prover 是一款专注于自动化数学问题的形式证明生成的开源模型。
Goedel-Prover(哥德尔证明器)是由普林斯顿大学、清华大学等机构联合推出的开源大型语言模型(LLM),专为自动化数学问题的形式证明生成而设计。该模型通过将自然语言数学问题翻译成形式语言(如 Lean 4),解决了形式化数学陈述和证明稀缺的问题。Goedel-Prover 使用专家迭代方法进行训练,基于不断扩展的形式证明数据集,逐步提升其证明能力。
在多个基准测试中,Goedel-Prover 表现出色。例如,在 miniF2F 基准测试中,Goedel-Prover 达到了 57.6% 的成功率,显著优于之前的开源模型。此外,它成功解决了 PutnamBench 中的 7 个问题,并为 Lean Workbook 生成了近 3 万个形式证明,为自动化定理证明领域带来了重大突破。
安装 Lean 4
按照 Lean 4 安装页面 的说明设置 Lean 4。
克隆仓库
git clone --recurse-submodules https://github.com/Goedel-LM/Goedel-Prover.git
cd Goedel-Prover
安装依赖项
pip install -r requirements.txt
构建 mathlib4
cd mathlib4
lake build
测试 Lean 4 和 mathlib4 安装
cd ..
python prover/lean/verifier.py
如果出现任何错误,请重新安装 Lean 4 并重新构建 mathlib4。
要运行推理并重现 miniF2F 上的性能,可以使用以下命令:
sh eval/eval.sh -i datasets/minif2f.jsonl -s test -m Goedel-LM/Goedel-Prover-SFT -o results/minif2f/Godel-Prover-SFT -n 32 -g 2 -c 128
结果将总结在 results/minif2f/Godel-Prover-SFT/compilation_summarize.json
文件中。
指定参数如下:
-i
:要评估的数据集路径-s
:要评估的数据集分割,通常设置为 “test”-m
:模型名称或路径-o
:输出目录-n
:Pass 数量-g
:用于推理的 GPU 数量-c
:用于编译的 CPU 数量❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!
微信公众号|搜一搜:蚝油菜花