深度解析 · 14 分钟阅读 · 2天前

GPT-5 Pro 自证数学定理:AI 的"博士级"时刻到了吗?

# GPT-5 Pro 自证数学定理:AI 的"博士级"时刻到了吗? 2025 年 8 月 20 日,OpenAI 研究员 Sebastien Bubeck 在 X 上发了一条帖子,内容很简单:他给了 GPT-5 Pro 一个凸优化领域的开放问题,模型想了 17 分钟,给出了一个正确的、全新的证明,把已知下界从 1/L 推进到了 1.5/L。 他补充了一句:"我检查了证明,它是正确的。" 这

GPT-5 Pro 自证数学定理:AI 的"博士级"时刻到了吗?

2025 年 8 月 20 日,OpenAI 研究员 Sebastien Bubeck 在 X 上发了一条帖子,内容很简单:他给了 GPT-5 Pro 一个凸优化领域的开放问题,模型想了 17 分钟,给出了一个正确的、全新的证明,把已知下界从 1/L 推进到了 1.5/L。

他补充了一句:"我检查了证明,它是正确的。"

这条帖子至今已有 700 多万次浏览。评论区里,有人欢呼"AGI 来了",有人冷静地说"这只是一个优化常数",还有数学家在逐行核验。

这不是 GPT-5 Pro 第一次做数学题,也不会是最后一次。但它引发的讨论,早已超出了这条定理本身——当 AI 能自主产出可验证的、全新的数学证明,我们该怎么定义它的能力?博士级 AI,真的来了吗?

▎GPT-5 Pro 到底证明了什么

先搞清楚一件事:GPT-5 Pro 证明的不是那种报纸头条会写的"千年难题",它解决的是一类更具体、更技术性的问题——凸优化中梯度下降法的步长下界。

在凸优化里,梯度下降是最基础的算法。你要最小化一个函数,就沿着梯度的反方向迈步。步子迈多大?太小了收敛慢,太大了可能发散。学术界有个经典结论:对于 L-光滑的凸函数,步长不超过 1/L 一定能保证收敛。这个 1/L 就是一个安全下界。

原论文的作者们把这个下界往前推了一点,但在 1/L 到 1.75/L 之间仍然有一个"灰色地带"——能不能用更大的步长依然保证收敛?没人知道。

Bubeck 给 GPT-5 Pro 的 prompt 就是这篇论文的设定。模型花 17 分钟 5 秒,给出了一个构造性证明,把下界从 1/L 推到了 1.5/L。

这不是一个革命性的突破——人类研究者随后把下界推到了 1.75/L。但 GPT-5 Pro 的证明是独立完成的,策略和人类不同,而且经过 Bubeck(他自己就是凸优化领域的知名学者)逐行验证,确认正确。

Bubeck 后来在 FOCS 2025 的演讲中复盘:GPT-5 Pro 的核心技巧是替换了原证明中的一个构造模块,换成了一个在该领域内众所周知但在这个问题上从未被这样用过的变体。这种"跨场景迁移"的能力,恰好是数学研究中最重要的技能之一。

▎这不是孤例:2026 年 AI 数学能力的井喷

GPT-5 Pro 的凸优化证明只是一个开端。进入 2026 年,AI 在数学领域的表现像开了加速器。

2026 年 1 月,GPT-5.2 Pro 独立证明了埃尔德什问题库中的第 281 号问题。这是一个 45 年来无人能解的数论猜想,涉及同余覆盖系统与自然密度的深层关系。菲尔兹奖得主陶哲轩亲自验证了证明,给出了一个相当高的评价:"让我更惊讶的是它避免了错误——比如极限交换或量词顺序的失误,这正是这道题最容易踩的坑。前几代大语言模型几乎肯定会在这些微妙之处栽跟头。"

更有意思的是,陶哲轩在验证过程中发现,这道题其实有一个更简单的解法,利用的是 1936 年和 1966 年的两个经典定理——连提出问题的埃尔德什本人在 1980 年都没意识到答案近在眼前。这个发现来自一位网名叫 KoishiChan 的用户,而不是 AI。它从另一个角度说明了一个残酷的事实:数学领域的知识传播本身就有盲区,人类和 AI 都受影响。

2026 年 5 月 9 日,菲尔兹奖得主 Timothy Gowers 在博客上公布了他用 ChatGPT 5.5 Pro 做数学研究的完整经历。他给了模型一篇梅尔·内桑森的数论论文中的开放问题,模型在没有人类帮助的情况下,用不到两小时完成了博士级的研究。Gowers 的原话是:"我自己的数学贡献是零。我甚至没有在 prompt 上做什么聪明的事。"

最震撼的部分是:模型花了 17 分钟思考,给出了最优构造——一个二次界。核心思想是替换原证明中的一个组件,换成组合数学中众所周知但在这个问题上从未被用过的变体。然后模型又花了 2 分 23 秒,把整个论证写成 LaTeX 预印本。

Gowers 说,这个结果放在博士论文里做一章,完全够格。

2026 年 5 月 20 日,OpenAI 宣布其内部推理模型完全自主否证了埃尔德什在 1946 年提出的"单位距离猜想"——一个困扰学界近 80 年的离散几何核心问题。数学家们长期以来一直假设最优配置近似于正方形网格,AI 找到了一个反例,证明平面上存在无穷点族能以显式的多项式因子超越这个阈值。

从 2025 年 8 月到 2026 年 5 月,不到十个月的时间,AI 在数学研究领域的进展从一个"值得注意的个例"变成了一股无法忽视的浪潮。

▎评估:我们离"博士级 AI"还有多远

每一次 AI 在数学上取得进展,都会有人喊"博士级 AI 来了"。但问题没这么简单。

先说乐观的一面。从能力上看,GPT-5 系列模型已经展现出了几个过去被认为 AI 做不到的事:

第一,独立发现并修复论证漏洞。 在证明过程中,模型不只是复现已知路径,它能够识别出原论证中的薄弱环节,并主动寻找替代方案。Gowers 提到的"替换组件"策略就是一个典型例子——就像人类数学家说"这里我们可以换一个工具"。

第二,产出可验证的新知识。 数学有一个独一无二的优势:证明要么对要么错,没有模糊地带。陶哲轩验证 GPT-5.2 Pro 的证明后确认"没犯任何错误",Gowers 逐行检查后认为"可以作为博士论文的一章"。这东西不能造假。

第三,速度远超人类。 GPT-5.5 Pro 在两小时内从头完成了从理解问题到产出 LaTeX 论文的完整闭环。对大多数人类博士生来说,单是理解问题本身就需要更长时间。

但冷静下来看,差距也很明显。

陶哲轩本人发出了一个关键提醒。他在埃尔德什问题讨论中写道:"评估 AI 工具真实成功率时,最大的统计偏差来自强烈的报告偏差——负面结果几乎不会被披露。如果某人或某 AI 公司把工具用在开放问题上但没有进展,他们没有动力报告这个负面结论。"

目前有一个开源项目在系统记录前沿大语言模型在埃尔德什问题上的表现。数据显示,AI 在这些问题上的真实成功率大约是 1%-2%。考虑到埃尔德什问题库中有超过 600 道未解难题,这个比例确实意味着一批数量可观的贡献。但反过来看,98%-99% 的尝试都以失败告终——只不过你看不到那些失败,因为它们不会上新闻。

此外,目前的成功案例高度集中在组合数学和数论等"工具密集"领域。AI 擅长在这些领域快速遍历大量已知工具,找到意想不到的组合方式。但在需要几何直觉、长期推理链的领域(比如拓扑学、代数几何),进展要慢得多。

还有一个结构性的问题:目前所有成功的案例中,人类研究者都扮演了"把关人"的角色。Bubeck 是凸优化专家,Gowers 和陶哲轩是菲尔兹奖得主——他们能判断证明对不对。如果去掉这个"人类过滤器",AI 现在的输出仍然是良莠不齐的。BrokenArXiv 基准测试的结果就显示,即使是最先进的模型(GPT-5.4),在面对有缺陷的数学问题时,正确指出的成功率也不到 40%。

这意味着 AI 还不具备自我纠错的能力。它产出的东西需要专家去粗取精——这是好事,但也意味着"完全自主的数学研究"还差得远。

▎谁怕了?数学家群体的反应

Gowers 那篇博客文章发表后,Reddit 的 r/math 板块炸了。

争论的焦点不是"AI 对不对",而是"这对数学这个学科意味着什么"。Gowers 自己给出了一个相当悲观的预测:"如果 AI 数学能力以目前的速度继续进步……我们将很快面临一场危机。"

危机来自两个层面。

第一层是博士生。数学博士的核心训练就是攻克开放问题。如果 AI 能在两小时内完成一个博士论文级别的证明,那博士生花三到五年做的工作价值在哪里?学术界怎么评估一个博士的原创性贡献?很多数学家在讨论中提到,未来博士生的考核方式可能需要根本性的变革——或许不再要求"独立证明新定理",而是要求"与 AI 协作并理解其输出"。

第二层是研究本身。Gowers 认为,数学研究从"人类智力游戏"变成"人机协作"是不可避免的方向。问题在于,数学家是否需要学会"使用 AI 工具"?如果需要,教什么、怎么教?陶哲轩在多个场合表达过类似的观点:数学教育必须改变,不变就会出问题。

但也有数学家持不同态度。一些人认为,AI 目前解决的仍然是"已知工具的组合"型问题,还不是真正的"概念创新"。R/math 上有评论说:"AI 擅长组合数学是因为它可以同时访问整个工具库——但这更像是机器在拼拼图,而不是在创造。"这种观点的背后是一个更深层的信念:数学不只是推导和证明,更是概念的创造和理论的构建。目前还没有任何 AI 系统展现出概念层面的创新能力。

不管持哪种观点,一个事实是明确的:数学界已经无法忽视 AI 的存在了。2026 年,多所顶尖大学的数学系开始讨论是否要将 AI 工具纳入研究生课程。哈佛和 MIT 的联合研讨会上,一个专门的分论坛就叫"AI 时代的数学教育"。

▎从凸优化到 AGI:这件事的真正意义

如果我们把视角拉远,GPT-5 Pro 证明一个凸优化定理这件事,意义不只在数学本身。

Bubeck 的背景值得注意。他是凸优化领域的权威——他的专著《Convex Optimization: Algorithms and Complexity》是该领域的经典教材。他从微软跳槽到 OpenAI,从研究小型高效模型(Phi 系列)转向探索 AGI 路径。当他说 GPT-5 Pro"能做新数学"时,他不是在做公关,而是用自己最懂的专业领域做了一次严肃的测试。

他在 2026 年 2 月 FOCS 2025(理论计算机科学顶级会议)上做了一场全体报告,题目是《大语言模型在数学领域的最新进展》。他在报告中回顾了从 GPT-4 几乎无法做高中数学习题,到 GPT-5.5 Pro 能产出博士级数学研究,只用了三年时间。这三年里,数学推理能力的提升曲线几乎是指数级的。

这带来的一个问题是:如果数学研究——被誉为"人类推理的皇冠"——都能被 AI 渗透,那还有什么领域不能?

并不是要贩卖焦虑。但从产品研究者的视角看,这件事揭示了几个重要的趋势:

推理能力的可扩展性。 从 GPT-5 Pro 到 GPT-5.5 Pro,每次模型升级,数学推理能力都有质的飞跃。这暗示着现有的 scaling law 在推理领域仍然有效。OpenAI 在 GPT-5.5 的技术报告中明确指出,数学和代码是其"深度思考"模式的最大受益者。

从"做题"到"研究"的跨越。 2024 年之前,AI 能做的数学还停留在"做习题"的水平——IMO 竞赛题、本科考试题。进入 2025 年底,模型开始攻破真实的开放问题。这是一个质变。习题有标准解法,开放问题没有。

"工具+推理"的协同效应。 GPT-5 Pro 的凸优化证明依赖的是纯推理,没有调用外部工具。但到了 GPT-5.5,模型已经可以主动调用代码执行、符号计算等工具辅助推理。这意味着 AI 的数学能力不仅是"脑子变好了",还学会了"用工具"——和人类数学家做研究的方式越来越像。

▎结尾

写这篇文章的时候,我反复在想 Bubeck 帖子里的一句话。

他说,GPT-5 Pro 产出的证明好到他本来想直接发一篇 arXiv 论文。但后来发现论文原作者已经发了 v2,把阈值改写到了 1.75/L,比他手里的 1.5/L 更好,于是作罢。

这个故事里最有趣的部分不是 AI 证明了一个定理,而是 AI 证明了定理之后,人类仍然跑在它前面。至少在凸优化这个案例里,人机竞赛的赢家还是人。

但 Gowers 的案例说明了一件更令人不安的事:当 AI 在两小时内产出博士级研究,而人类需要数年才能做到同样的事情时,"人跑在 AI 前面"这个状态还能维持多久?

我不知道答案。但我知道——每一个说"AI 不可能做到 X"的人,最终都要准备好迎接"AI 做到了"的那一天。

数学只是个开始。


主要信息来源:

  • Sebastien Bubeck @ X, Aug 20, 2025
  • Timothy Gowers, "A recent experience with ChatGPT 5.5 Pro", May 2026
  • Terence Tao @ Erdős Problems #281, Jan 2026
  • OpenAI, "Introducing GPT-5.5", Apr 2026
  • FOCS 2025 Plenary Talk, "Recent Advances in LLMs for Mathematics", S. Bubeck
  • arXiv: 2602.05192 (First Proof benchmark)
  • BrokenArXiv benchmark, MathArena