强化学习驱动的奥林匹克级形式数学推理新突破:AlphaProof在IMO竞赛中实现银牌水平表现

时间:2025年11月14日
来源:Nature

编辑推荐:

本刊推荐:为解决AI在复杂数学推理中缺乏形式化验证保证的问题,Google DeepMind团队开展了“AlphaProof:基于强化学习的形式数学推理”研究。该系统通过结合Lean定理证明器的严谨性与AlphaZero启发的强化学习框架,在包含数百万自动形式化问题的课程上训练,并引入测试时强化学习(TTRL)方法进行问题特定适应。研究结果显示,AlphaProof在miniF2F、formal-imo和PutnamBench等基准测试中创下新纪录,并在2024年国际数学奥林匹克竞赛(IMO)中解决了3道非几何问题,结合AlphaGeometry 2系统达到银牌水平,标志着AI在复杂数学推理领域的重大突破。

广告
   X   

数学作为科学理解的基石,一直是人工智能发展的重要试金石。长久以来,AI系统在数学推理上面临着双重挑战:既要处理无限的概念空间,又要保证推理过程的绝对正确性。传统基于大语言模型的方法虽然能生成看似合理的数学论证,但缺乏形式化验证机制,其正确性难以保证。而形式化系统如Lean定理证明器虽然能提供严格的验证,但通常需要大量专家工作,自动化程度有限。
在这一背景下,Google DeepMind的研究团队开发了AlphaProof系统,将形式化证明的严谨性与强化学习的探索能力相结合。这项发表于《Nature》的研究展示了一个能够在Lean环境中自主发现数学证明的AI代理,其性能在多个高水平数学竞赛基准测试中达到新高度,特别是在2024年国际数学奥林匹克竞赛中的表现令人瞩目。
关键技术方法概述
研究团队构建了基于Lean定理证明器的强化学习环境,开发了30亿参数的证明网络架构,采用编码器-解码器Transformer模型处理证明状态。通过自动形式化过程将约100万自然语言数学问题转化为8000万形式化Lean问题作为训练课程。核心创新包括测试时强化学习(TTRL)方法,针对特定难题生成相关变体进行针对性训练。系统使用分布式训练架构,总计算量约18万TPU天。
Lean RL环境与证明代理
研究团队将Lean中的交互式证明过程建模为顺序决策问题。每个数学陈述构成独立的问题实例,状态st是Lean证明器的逻辑状态,动作at是Lean策略文本字符串。系统采用AND-OR树结构处理证明分解为多个独立子目标的情况,定义回报Gt为对应最长证明分支的负步数。
证明网络作为AlphaProof的核心,接收当前Lean策略状态作为输入,生成策略建议和值函数估计。该系统集成了渐进采样技术,在关键路径上动态扩展搜索范围,有效管理大型开放策略空间。

训练过程与自动形式化
AlphaProof的训练包含三个阶段:预训练阶段使用约3000亿代码和数学文本标记,使网络掌握逻辑结构和数学语言基础;监督微调使用Mathlib库中的30万状态-策略对,使网络理解Lean语法并模仿专家策略;核心强化学习阶段采用AlphaZero式自对弈学习,但针对数学证明缺乏单一初始状态的特点,通过自动形式化过程构建大规模问题课程。
自动形式化系统基于Gemini大语言模型,通过迭代精化策略生成高质量的形式化陈述。该系统在50个代表性IMO问题上达到60%的通过率,在代数(81.3%)和数论(76.9%)领域表现尤为突出。
推理时扩展机制
AlphaProof在推理时采用两种互补的计算扩展机制。增加树搜索预算允许更彻底地探索证明路径,从2TPU分钟扩展到12TPU小时可使形式IMO和PutnamBench-test基准的解决率提升超过10个百分点。对于即使经过广泛搜索仍无法解决的问题,系统采用测试时强化学习,针对目标问题生成定制化变体课程进行专门训练。

基准测试结果
在形式IMO基准(包含258个历史IMO非几何问题)上,AlphaProof仅用2TPU分钟搜索预算就达到33.2%的解决率,经过12TPU小时搜索提升至43.7%,而经过500TPU天的TTRL训练后达到58.3%的峰值性能。在数论领域表现尤为突出,达到75.7%的解决率,代数为72.6%,组合数学为20.3%。
在PutnamBench-test测试集上,系统同样展现出强大性能,从初始的27.9%提升至TTRL后的56.1%。在miniF2F测试中,AlphaProof几乎达到完美表现,验证分达到100%,测试分达到99.6%。
2024年国际数学奥林匹克竞赛表现
在2024年IMO竞赛中,AlphaProof作为核心推理引擎,成功解决了五道非几何问题中的三道:P1(代数)、P2(数论)和P6(代数)。对于需要先确定答案的问题(P1、P2、P5、P6),系统通过Gemini 1.5 Pro模型生成500个候选答案,然后由AlphaProof在低计算模式下快速反驳错误候选,成功隔离出正确答案进行完整证明尝试。

特别值得注意的是,P6被公认为当年最难的问题,仅有5名人类选手完全解决。AlphaProof通过2-3天的TTRL训练,为每道题发现了形式化证明。结合AlphaGeometry 2解决的几何问题P4,整个AI系统获得28分(总分42分),达到银牌水平,仅比金牌阈值低1分。
研究结论与意义
这项研究证明了通过大规模接地经验学习能够产生具有复杂数学推理策略的智能体。AlphaProof的成功不仅体现在基准测试中的state-of-the-art性能,更重要的是在IMO竞赛中的突破性表现,标志着AI系统首次在这一精英数学竞赛中达到奖牌水平。
该工作的意义在于为复杂数学问题求解提供了可靠的AI工具,展示了形式化系统与强化学习结合的巨大潜力。虽然当前系统在计算资源需求和应用范围上存在限制,但这一基础性研究为未来数学AI协作系统的发展指明了方向。随着算法效率和可访问性的提升,这类技术有望成为整个数学界的协作工具,推动数学研究向新的前沿迈进。
研究同时指出,将能力扩展到研究数学前沿仍需解决理论构建和新概念引入等挑战,而赋予AI数学品味、趣味性或美感理解仍然是迷人的开放研究问题。

生物通微信公众号
微信
新浪微博


生物通 版权所有