AI成为数学家得力助手还要多久

2个月前 来源:新华网 观看:40

从计算机科学到医学再到国家安全,数学是众多关键应用的基石,但数学领域的进步可能需要数年时间才能实现。sGJ即热新闻——关注每天科技社会生活新变化gihot.com

几百年来,数学家使用的工具依然简朴:一张纸、一支笔。他们凭借逻辑与灵感,在符号的迷宫中寻找通往真理的路径。sGJ即热新闻——关注每天科技社会生活新变化gihot.com

为了打破这一局面,美国国防高级研究计划局今年4月启动了“指数性数学”计划,旨在开发一种能极大提升数学研究效率的人工智能(AI)“合著者”系统。sGJ即热新闻——关注每天科技社会生活新变化gihot.com

几十年来,数学家借助计算机进行辅助计算或验证命题,如今的AI或许能更上层楼,挑战那些人类长年未解的难题。不过,从能解高中题的AI,到能协助攻克前沿数学难关的AI,中间仍隔着一道鸿沟。sGJ即热新闻——关注每天科技社会生活新变化gihot.com

解决重大难题仍力不从心sGJ即热新闻——关注每天科技社会生活新变化gihot.com

大型语言模型(LLM)并不擅长数学。它们常常出现“幻觉”,甚至可能被误导相信2+2=5。但新一代大型推理模型,如OpenAI的o3、Anthropic的Claude 4 Thinking等,展现出的进步令数学家眼前一亮。sGJ即热新闻——关注每天科技社会生活新变化gihot.com

今年,这些模型在美国数学邀请赛中的表现接近优秀高中生水平。不同于过去“一锤定音”式的输出,这些模型开始尝试模拟数学家逐步推理的思考过程。sGJ即热新闻——关注每天科技社会生活新变化gihot.com

同时,一些将LLM与某种事实核查系统相结合的新型混合模型也取得了突破。例如,谷歌“深度思维”的AlphaProof系统将语言模型与棋类AI——AlphaZero结合,成为首个取得与国际数学奥林匹克竞赛银牌得主成绩相当的系统。今年5月,谷歌的AlphaEvolve模型更进一步,在多个长期未解的数学与计算难题上找到优于人类现有方案的解法。sGJ即热新闻——关注每天科技社会生活新变化gihot.com

美国《麻省理工科技评论》指出,尽管这些AI成绩亮眼,但专家们普遍认为,它们仍不具备真正的协助科研的能力。竞赛题虽难,却更像是智力游戏,有一定“套路”。真正的数学研究则更开放、更复杂。面对“P vs NP”“黎曼猜想”等重大难题时,AI仍力不从心。sGJ即热新闻——关注每天科技社会生活新变化gihot.com

为了更准确地评估AI的能力,初创公司Epoch AI去年推出了FrontierMath测试,联合60多位数学家设计出全新高难度题目,避开模型已见过的训练数据,结果LLM几乎集体“交白卷”。sGJ即热新闻——关注每天科技社会生活新变化gihot.com

这些测试表明,AI在数学道路上虽已迈步,但离“合著者”角色仍有很长一段路要走。sGJ即热新闻——关注每天科技社会生活新变化gihot.com

需攻克“超长推理链”sGJ即热新闻——关注每天科技社会生活新变化gihot.com

仔细观察数学问题会发现,它们在某些方面类似:解决问题需完成一系列连续步骤,关键在于找到这些步骤。sGJ即热新闻——关注每天科技社会生活新变化gihot.com

美国加州理工学院谢尔盖·古科夫指出,困难的差异往往体现在路径的长度上。高中数学可能只需10到40步,而像黎曼猜想这样的难题,路径可能长达百万步。sGJ即热新闻——关注每天科技社会生活新变化gihot.com

这类“超长路径”极难处理。就像下围棋时寻找一条制胜序列,AI必须在指数级增长的可能路径中找到正确解法。而在数学中,这个复杂度要远超棋类游戏。sGJ即热新闻——关注每天科技社会生活新变化gihot.com

据物理学家组织网今年2月报道,为应对这一挑战,古科夫团队开发了一种方法,将多个步骤打包成“超级步骤”,相当于穿上“巨人靴”跨越大段路程。他们设计了一个系统,其中强化学习模型负责提出超级步骤,另一个模型负责验证其合理性。sGJ即热新闻——关注每天科技社会生活新变化gihot.com

该策略在经典未解难题——安德鲁斯-柯蒂斯猜想上取得了突破。虽然尚未证明或推翻该猜想,但借助AI,科学家推翻了一个40年来被广泛引用的“反例”。这曾被视为证明该猜想错误的关键依据。sGJ即热新闻——关注每天科技社会生活新变化gihot.com

牛津大学数学家马丁·布里森对此表示肯定:“排除错误路径,是科研中非常有价值的一步。”sGJ即热新闻——关注每天科技社会生活新变化gihot.com

古科夫相信,这种“压缩路径”的思路适用于所有需要推理链条的领域。他希望,这种方法不仅能推动AI跳出固有模式,也为数学研究带来新突破。sGJ即热新闻——关注每天科技社会生活新变化gihot.com

真正的创新和突破仍属人类sGJ即热新闻——关注每天科技社会生活新变化gihot.com

跳出思维定式,正是数学家攻克难题的关键。数学常被看作机械推理,而高等数学则更像是一场实验,充满一波三折的试错与灵光乍现的顿悟。sGJ即热新闻——关注每天科技社会生活新变化gihot.com

这正是AlphaEvolve等AI工具的优势所在。它通过LLM不断生成并改进解题代码,配合第二个模型评估每一轮结果,最终提出比人类更优的解法。这种方法不仅能独立探索,也支持人类随时介入,提供灵感和指令。sGJ即热新闻——关注每天科技社会生活新变化gihot.com

澳大利亚悉尼大学数学家乔迪·威廉姆森强调,探索性思维是数学的核心。据英国《新科学家》网站报道,他与Meta合作开发了PatternBoost AI系统,可根据一个数学想法生成相似概念,帮助激发灵感。他说:“这就像是这里有一堆有趣的东西,我不知道是怎么回事,但你能再生成一些类似的东西吗?”sGJ即热新闻——关注每天科技社会生活新变化gihot.com

这种头脑风暴在数学中至关重要,它是新想法产生的源泉。以二十面体为例——古希腊人通过纯粹推理发现了它,其形状并不存在于自然界中,却深刻影响了数学的发展。威廉姆森希望,AI未来也能协助发现类似的“新数学对象”。sGJ即热新闻——关注每天科技社会生活新变化gihot.com

不过,目前AI仍缺乏真正的创造力。让AI赢棋是一回事,让它发明围棋游戏则是另一回事。像AlphaEvolve和PatternBoost这样的工具或许能作为人类直觉的“侦察兵”,帮助人们发现路径、避开死路,但专家普遍认为,真正的创新与突破,仍然属于人类。sGJ即热新闻——关注每天科技社会生活新变化gihot.com

从计算机科学到医学再到国家安全,数学是众多关键应用的基石,但数学领域的进步可能需要数年时间才能实现。sGJ即热新闻——关注每天科技社会生活新变化gihot.com

几百年来,数学家使用的工具依然简朴:一张纸、一支笔。他们凭借逻辑与灵感,在符号的迷宫中寻找通往真理的路径。sGJ即热新闻——关注每天科技社会生活新变化gihot.com

为了打破这一局面,美国国防高级研究计划局今年4月启动了“指数性数学”计划,旨在开发一种能极大提升数学研究效率的人工智能(AI)“合著者”系统。sGJ即热新闻——关注每天科技社会生活新变化gihot.com

几十年来,数学家借助计算机进行辅助计算或验证命题,如今的AI或许能更上层楼,挑战那些人类长年未解的难题。不过,从能解高中题的AI,到能协助攻克前沿数学难关的AI,中间仍隔着一道鸿沟。sGJ即热新闻——关注每天科技社会生活新变化gihot.com

解决重大难题仍力不从心sGJ即热新闻——关注每天科技社会生活新变化gihot.com

大型语言模型(LLM)并不擅长数学。它们常常出现“幻觉”,甚至可能被误导相信2+2=5。但新一代大型推理模型,如OpenAI的o3、Anthropic的Claude 4 Thinking等,展现出的进步令数学家眼前一亮。sGJ即热新闻——关注每天科技社会生活新变化gihot.com

今年,这些模型在美国数学邀请赛中的表现接近优秀高中生水平。不同于过去“一锤定音”式的输出,这些模型开始尝试模拟数学家逐步推理的思考过程。sGJ即热新闻——关注每天科技社会生活新变化gihot.com

同时,一些将LLM与某种事实核查系统相结合的新型混合模型也取得了突破。例如,谷歌“深度思维”的AlphaProof系统将语言模型与棋类AI——AlphaZero结合,成为首个取得与国际数学奥林匹克竞赛银牌得主成绩相当的系统。今年5月,谷歌的AlphaEvolve模型更进一步,在多个长期未解的数学与计算难题上找到优于人类现有方案的解法。sGJ即热新闻——关注每天科技社会生活新变化gihot.com

美国《麻省理工科技评论》指出,尽管这些AI成绩亮眼,但专家们普遍认为,它们仍不具备真正的协助科研的能力。竞赛题虽难,却更像是智力游戏,有一定“套路”。真正的数学研究则更开放、更复杂。面对“P vs NP”“黎曼猜想”等重大难题时,AI仍力不从心。sGJ即热新闻——关注每天科技社会生活新变化gihot.com

为了更准确地评估AI的能力,初创公司Epoch AI去年推出了FrontierMath测试,联合60多位数学家设计出全新高难度题目,避开模型已见过的训练数据,结果LLM几乎集体“交白卷”。sGJ即热新闻——关注每天科技社会生活新变化gihot.com

这些测试表明,AI在数学道路上虽已迈步,但离“合著者”角色仍有很长一段路要走。sGJ即热新闻——关注每天科技社会生活新变化gihot.com

需攻克“超长推理链”sGJ即热新闻——关注每天科技社会生活新变化gihot.com

仔细观察数学问题会发现,它们在某些方面类似:解决问题需完成一系列连续步骤,关键在于找到这些步骤。sGJ即热新闻——关注每天科技社会生活新变化gihot.com

美国加州理工学院谢尔盖·古科夫指出,困难的差异往往体现在路径的长度上。高中数学可能只需10到40步,而像黎曼猜想这样的难题,路径可能长达百万步。sGJ即热新闻——关注每天科技社会生活新变化gihot.com

这类“超长路径”极难处理。就像下围棋时寻找一条制胜序列,AI必须在指数级增长的可能路径中找到正确解法。而在数学中,这个复杂度要远超棋类游戏。sGJ即热新闻——关注每天科技社会生活新变化gihot.com

据物理学家组织网今年2月报道,为应对这一挑战,古科夫团队开发了一种方法,将多个步骤打包成“超级步骤”,相当于穿上“巨人靴”跨越大段路程。他们设计了一个系统,其中强化学习模型负责提出超级步骤,另一个模型负责验证其合理性。sGJ即热新闻——关注每天科技社会生活新变化gihot.com

该策略在经典未解难题——安德鲁斯-柯蒂斯猜想上取得了突破。虽然尚未证明或推翻该猜想,但借助AI,科学家推翻了一个40年来被广泛引用的“反例”。这曾被视为证明该猜想错误的关键依据。sGJ即热新闻——关注每天科技社会生活新变化gihot.com

牛津大学数学家马丁·布里森对此表示肯定:“排除错误路径,是科研中非常有价值的一步。”sGJ即热新闻——关注每天科技社会生活新变化gihot.com

古科夫相信,这种“压缩路径”的思路适用于所有需要推理链条的领域。他希望,这种方法不仅能推动AI跳出固有模式,也为数学研究带来新突破。sGJ即热新闻——关注每天科技社会生活新变化gihot.com

真正的创新和突破仍属人类sGJ即热新闻——关注每天科技社会生活新变化gihot.com

跳出思维定式,正是数学家攻克难题的关键。数学常被看作机械推理,而高等数学则更像是一场实验,充满一波三折的试错与灵光乍现的顿悟。sGJ即热新闻——关注每天科技社会生活新变化gihot.com

这正是AlphaEvolve等AI工具的优势所在。它通过LLM不断生成并改进解题代码,配合第二个模型评估每一轮结果,最终提出比人类更优的解法。这种方法不仅能独立探索,也支持人类随时介入,提供灵感和指令。sGJ即热新闻——关注每天科技社会生活新变化gihot.com

澳大利亚悉尼大学数学家乔迪·威廉姆森强调,探索性思维是数学的核心。据英国《新科学家》网站报道,他与Meta合作开发了PatternBoost AI系统,可根据一个数学想法生成相似概念,帮助激发灵感。他说:“这就像是这里有一堆有趣的东西,我不知道是怎么回事,但你能再生成一些类似的东西吗?”sGJ即热新闻——关注每天科技社会生活新变化gihot.com

这种头脑风暴在数学中至关重要,它是新想法产生的源泉。以二十面体为例——古希腊人通过纯粹推理发现了它,其形状并不存在于自然界中,却深刻影响了数学的发展。威廉姆森希望,AI未来也能协助发现类似的“新数学对象”。sGJ即热新闻——关注每天科技社会生活新变化gihot.com

不过,目前AI仍缺乏真正的创造力。让AI赢棋是一回事,让它发明围棋游戏则是另一回事。像AlphaEvolve和PatternBoost这样的工具或许能作为人类直觉的“侦察兵”,帮助人们发现路径、避开死路,但专家普遍认为,真正的创新与突破,仍然属于人类。sGJ即热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-2-2620-0.htmlAI成为数学家得力助手还要多久

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:我国成功组织实施梦舟载人飞船零高度逃逸飞行试验

下一篇:从开源看“智能向善”——人工智能热的冷思考

为你推荐
近日,两家独角兽的朋友圈“论战”在近期引起了多方关注。争议缘起于一张影石创始人怒喷友商的截图。在微信朋友圈界面中,显示为“刘...
01-21
  IT之家1月12日消息,近年来,英伟达(Nvidia)凭借其在人工智能和图形处理领域的领先地位,迅速崛起为...
01-21
SQL Error: select * from ***_ecms_news2 where id in(,18) limit 2
临近年关,广西贺州钟山县年味渐浓,百姓走上街头,买年货、添新衣。在县城以北的广西(钟山)东融电子信息产业园内,企业依然是一派热火朝天的生产景象。走进广西科奈信精密技术有限公...
01-22
现代快报讯(记者韩秋顾潇庄剑翔)“今年的室内温度更暖和了,而且比往年更稳定了。”近日,现代快报记者一进入扬州仪征市浦西一村居民黄先生家中,就明显能感受到与外边温度的差别。...
01-22
1 月 27 日消息,鸿蒙智行官方今日公布了旗下车型新年 OTA 升级详情,新版本将支持eAES 增强型自动紧急转向、新年主题 ADS App 等功能。附鸿蒙智行新年 OTA 升级详情如...
01-28
1 月 29 日消息,据汽车研究机构 Rho Motion 预测,到 2025 年,全球电动汽车(EV)的销量将突破 2000 万辆,这标志着该行业又将迎来一年的增长。注意到,Rho Motion 几周前曾报...
01-29
《重症外伤中心》近期备受关注,播出后热度持续上升。剧中一个引人关注的情节是消防队为什么不给重症外科派直升机,以下将对此进行解析。在繁忙的城市角落,重症...
02-19
最近打开社交应用,经常能看到关于《痞子无间道》第8集剧情的讨论。这部剧的粉丝们对此非常关注,今天就来聊聊这一集的内容。在第8集中,费仁在大飞的房间里寻找...
02-19
21世纪经济报道记者 李佳英 广州报道 近日,不少人在社交平台上分享称,在食用了一定数量的车厘子后,出现了腹泻、呕吐等症状。这些描述迅速在...
01-21
  科技日报讯 (记者张梦然)爱尔兰戈尔韦大学研究团队开发出一种创新生物打印技术,能够使打印出的组织根据细胞产生的力量而改变形状。这一成果模仿了器官在自然发育过...
01-29
  大众网记者 王一刚 报道  在深化教育改革、全面提升教育质量的背景下,燕山小学教育集团积极响应国家号召,致力于探索并实施具有前瞻性和创新性的教育理念,以培养全面...
01-21
中新网上海1月22日电(记者陈静)记者22日获悉,在中医“瘀血理论”指导下,结...
01-23
  摘要  苹果市场走势主要由“预期”和“预期差”这两个关键词主导。收购初期,受弱现实影响,...
01-21
  2024年年底,成都新易盛通信技术股份有限公司(以下简称“新易盛”)发布公告称,收到公司控股股东...
02-06
在星座学中,双鱼男和天蝎女被认为是非常相配的一对。他们之间的吸引力和默契让人难以忽...
01-22
水瓶座的男人通常具有独立、聪明、理性和创新的特点。他们对于自由和个人空间非常重视...
01-22
休闲布鞋哪个品牌好?  Converse是世界上最早生产帆布鞋的品牌,也是如今最大最有名的帆布鞋品牌,拥有全明星经典帆布鞋等几大系列众多款式。  主要品牌  Converse(匡威) ...
02-07
女明星穿衣出现意外:时尚背后的尴尬瞬间在这个充满光鲜亮丽的娱乐圈,**女明星**的穿衣风格备受瞩目。每一次红毯事件,不仅是对她们时尚品味的考验,更是一个个可能出现尴尬瞬间的...
02-17
2月4日消息,满载着15吨临猗苹果的冷链运输车近日从山西省运城市临猗县北辛乡卓逸村万华果业基地出发前往青岛港,通过海运至澳大利亚。这是临猗县发展跨境电商业务以来,今年首单...
02-07
京东官宣入局外卖市场。今日下午,京东宣布京东外卖正式启动“品质堂食餐饮商家”招募。京东表示,2025年5月1日前入驻的商家,全年免佣金。对于已签约商户佣金政策是否调整,接近京...
02-12
3月2日消息,据北京商报,京东物流旗下生活服务平台“京东服务+”小程序上线了“京东搬家”频道入口,提供“京尊搬”“京享搬”两类搬家服务,服务人员均为京东物流全职自营员工。...
03-03
3月7日消息,飞猪宣布,自今年3月起,每月8日都将举办“全球旅行节”促销,首期2025年3月的“全球旅行节”报名商品总数已破万件。针对每月8日的促销活动,飞猪持续丰富营销渠道,加大流...
03-09
自去年底开始,黄金多头优势逐渐退却,国际现货黄金价格经历几次大跌后一度跌下2700关口,多空进入漫长的震荡周期,多头始终无法找到再度冲高的时机。  北京时间1月21日,国际现货...
01-24
据中国民用航空局最新发布的统计数据,2024年,中国无人机产业迎来了前所未有的发展高潮。全年累计飞行时长达到了2666万小时,与去年相比,实现了15%的显著增长。这一数据不仅反映...
02-09
大年初一,《真三国无双:起源》制作人庄知彦在X上发推,用中文“蛇年大吉,恭喜发财!”向中国玩家拜年,发布新年祝福。 他随后用日语再次向国内玩家恭贺新年,祝中国玩...
02-01
根据国外游戏论坛IconEra管理员爆料,SIE已不再计划将《恶魔之魂》和《GT赛车7》移植到PC平台。 关于《GT赛车7》,爆料称原本有一个PC版正在开发中,但最终被取消...
02-03
北京时间2月1日,国际乒联在官网公布了2025澳门单打世界杯的参赛名额选拔办法。48个名额将分别由洲际杯赛和世界排名决定,其中每个大洲的洲际杯赛会产生4个名额(共20个名额),其余2...
02-02
2月6日,外交部发言人郭嘉昆主持例行记者会。有记者提问,据报道,韩国的一些政府部门已经屏蔽对DeepSeek的访问,之前意大利、澳大利亚、印度、美国、日本等国家也传出禁止或限制使...
02-06
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮