强化学习驱动的奥林匹克级形式数学推理新突破：AlphaProof在IMO竞赛中实现银牌水平表现

时间：2025年11月14日

来源：Nature

编辑推荐：

本刊推荐：为解决AI在复杂数学推理中缺乏形式化验证保证的问题，Google DeepMind团队开展了“AlphaProof：基于强化学习的形式数学推理”研究。该系统通过结合Lean定理证明器的严谨性与AlphaZero启发的强化学习框架，在包含数百万自动形式化问题的课程上训练，并引入测试时强化学习(TTRL)方法进行问题特定适应。研究结果显示，AlphaProof在miniF2F、formal-imo和PutnamBench等基准测试中创下新纪录，并在2024年国际数学奥林匹克竞赛(IMO)中解决了3道非几何问题，结合AlphaGeometry 2系统达到银牌水平，标志着AI在复杂数学推理领域的重大突破。

数学作为科学理解的基石，一直是人工智能发展的重要试金石。长久以来，AI系统在数学推理上面临着双重挑战：既要处理无限的概念空间，又要保证推理过程的绝对正确性。传统基于大语言模型的方法虽然能生成看似合理的数学论证，但缺乏形式化验证机制，其正确性难以保证。而形式化系统如Lean定理证明器虽然能提供严格的验证，但通常需要大量专家工作，自动化程度有限。

在这一背景下，Google DeepMind的研究团队开发了AlphaProof系统，将形式化证明的严谨性与强化学习的探索能力相结合。这项发表于《Nature》的研究展示了一个能够在Lean环境中自主发现数学证明的AI代理，其性能在多个高水平数学竞赛基准测试中达到新高度，特别是在2024年国际数学奥林匹克竞赛中的表现令人瞩目。

关键技术方法概述

研究团队构建了基于Lean定理证明器的强化学习环境，开发了30亿参数的证明网络架构，采用编码器-解码器Transformer模型处理证明状态。通过自动形式化过程将约100万自然语言数学问题转化为8000万形式化Lean问题作为训练课程。核心创新包括测试时强化学习(TTRL)方法，针对特定难题生成相关变体进行针对性训练。系统使用分布式训练架构，总计算量约18万TPU天。

Lean RL环境与证明代理

研究团队将Lean中的交互式证明过程建模为顺序决策问题。每个数学陈述构成独立的问题实例，状态s_t是Lean证明器的逻辑状态，动作a_t是Lean策略文本字符串。系统采用AND-OR树结构处理证明分解为多个独立子目标的情况，定义回报G_t为对应最长证明分支的负步数。

证明网络作为AlphaProof的核心，接收当前Lean策略状态作为输入，生成策略建议和值函数估计。该系统集成了渐进采样技术，在关键路径上动态扩展搜索范围，有效管理大型开放策略空间。

训练过程与自动形式化

AlphaProof的训练包含三个阶段：预训练阶段使用约3000亿代码和数学文本标记，使网络掌握逻辑结构和数学语言基础；监督微调使用Mathlib库中的30万状态-策略对，使网络理解Lean语法并模仿专家策略；核心强化学习阶段采用AlphaZero式自对弈学习，但针对数学证明缺乏单一初始状态的特点，通过自动形式化过程构建大规模问题课程。

自动形式化系统基于Gemini大语言模型，通过迭代精化策略生成高质量的形式化陈述。该系统在50个代表性IMO问题上达到60%的通过率，在代数(81.3%)和数论(76.9%)领域表现尤为突出。

推理时扩展机制

AlphaProof在推理时采用两种互补的计算扩展机制。增加树搜索预算允许更彻底地探索证明路径，从2TPU分钟扩展到12TPU小时可使形式IMO和PutnamBench-test基准的解决率提升超过10个百分点。对于即使经过广泛搜索仍无法解决的问题，系统采用测试时强化学习，针对目标问题生成定制化变体课程进行专门训练。

基准测试结果

在形式IMO基准(包含258个历史IMO非几何问题)上，AlphaProof仅用2TPU分钟搜索预算就达到33.2%的解决率，经过12TPU小时搜索提升至43.7%，而经过500TPU天的TTRL训练后达到58.3%的峰值性能。在数论领域表现尤为突出，达到75.7%的解决率，代数为72.6%，组合数学为20.3%。

在PutnamBench-test测试集上，系统同样展现出强大性能，从初始的27.9%提升至TTRL后的56.1%。在miniF2F测试中，AlphaProof几乎达到完美表现，验证分达到100%，测试分达到99.6%。

2024年国际数学奥林匹克竞赛表现

在2024年IMO竞赛中，AlphaProof作为核心推理引擎，成功解决了五道非几何问题中的三道：P1(代数)、P2(数论)和P6(代数)。对于需要先确定答案的问题(P1、P2、P5、P6)，系统通过Gemini 1.5 Pro模型生成500个候选答案，然后由AlphaProof在低计算模式下快速反驳错误候选，成功隔离出正确答案进行完整证明尝试。