谷歌AI攻克6道世界级数学难题 数学界最后防线崩塌。刚刚,人类数学界面临了一次前所未有的冲击。AI不仅能够解题,现在甚至能独立完成PhD级别的纯粹数学研究。谷歌DeepMind的最新AI研究智能体Aletheia,在一场名为「FirstProof」的挑战赛中,解决了10道公认的世界级未解数学难题中的6道。

DeepMind高管Thang Luong在X上激动地表示,这一成就比去年历史性拿下IMO金牌的意义还要重大。这些题目连全球最顶尖的数学家都感到棘手。结果,Aletheia不仅自主算出了答案,甚至连提出其中第7题猜想的数学家Jim Fowler也亲自确认了AI的解题过程是完全正确的。天才数学家陶哲轩也在最新的访谈中表示,AI已经成为了他的“初级合著者”。


Aletheia之所以如此强大,是因为它掌握了一项关键技能:自我过滤。传统的AI大模型常有不懂装懂的问题,但在科研级别的高端局中,这样的行为是不可接受的。DeepMind给Aletheia设计了两个子系统:“生成者”和“验证者”。前者负责大开脑洞,疯狂猜想解题路径;后者则专门负责挑刺。当遇到无法解决的问题时,Aletheia会直接告知“未找到解法”,而不是胡编乱造。

在这次挑战中,Aletheia投入了大量算力,特别是第7题,其计算量是之前解开Erdős-1051问题时的整整16倍。数学界权威Sang Hyun Kim高度评价了AI的解题步骤,认为这是独一无二的稀有案例。

这次挑战赛的结果充满戏剧性。2月6日题目放出后,专业学者、民间高手和各大AI实验室纷纷参与。到2月14日揭晓答案时,没有任何人或团队全部拿下。出题者自己用Gemini 3.0 Deep Think和ChatGPT 5.2 Pro跑了一轮,也只解出了2道。最终,OpenAI最强内部系统在有限人类监督下解出5道。相比之下,Aletheia零人工干预做出6道题的含金量非常高。

数学圈对此反应不一,一部分人直呼逆天,另一部分人则认为还有4道题未解,离替代数学家还远。但一个不可逆转的趋势已经显现:我们需要更难的题库来测试AI,并且动作必须快,因为现有的一切正在以肉眼可见的速度过期。

Epoch AI显然意识到了这一点,他们在FirstProof开赛同期放出了FrontierMath: Open Problems,收录了16道专业数学家死磕过但至今全军覆没的真正未解之谜。上线至今,没有任何AI解出哪怕一道,这个“零分”现状反而证明了题库的价值所在。

FirstProof团队已宣布将在3月14日推出难度更变态的第二轮挑战。陶哲轩在最新访谈中表示,AI现在是他的“初级合著者”,并描述了一种全新的数学研究范式。他认为,传统数学研究像是“个案研究”,而AI正在让数学家第一次有能力做“大样本普查”。AI不仅能处理繁琐的计算,还能系统性地扫描人类根本没精力去碰的问题长尾。

所有信号都在指向同一个事实:AI正在以一种不可逆的姿态嵌入人类数学研究的核心流程。随着3月14日FirstProof第二轮挑战赛的开启,今天这篇文章里的所有数字可能就已经过时了。

贝内特是IBM的量子信息科学家,而布拉萨德是加拿大蒙特利尔大学的密码学家。他们因在建立量子信息科学基础以及变革安全通信与计算方面发挥的关键作用而获奖。ACM 图灵奖被誉为“计算机领域的诺贝尔奖”,奖金100万美元,由谷歌公司赞助。
开放式基金配资开户
多空杠杆提示:本文来自互联网,不代表本网站观点。