分不清9.11和9.9大小,暴露大模型逻辑推理能力短板|快评

5个月前 来源: 观看:25

NWU即热新闻——关注每天科技社会生活新变化gihot.com

▲某款大模型关于“9.11和9.9两个数字哪个更大”的回答。图/某款大模型截图NWU即热新闻——关注每天科技社会生活新变化gihot.com


NWU即热新闻——关注每天科技社会生活新变化gihot.com

一道小学数学题,成功难倒了超过一半的大模型。近日,据第一财经报道,经测试,在“9.11和9.9两个数字哪个更大”这个基础的数学题上,国内外12个大模型之中只有4个答对了,剩下8个全都回答错误。在答错者中,还包括了知名的ChatGPT-4o。NWU即热新闻——关注每天科技社会生活新变化gihot.com


NWU即热新闻——关注每天科技社会生活新变化gihot.com

数学相关的逻辑推理能力一直是当下大模型的短板。但一道小学生级别的数学题,却成了各家标榜成为“生产力升级”的大模型面前的绊脚石,这在公众舆论之中引发了不小争议。究其原因,是近期公众对于“大模型无所不能”的传统认知与大模型当下仍处在测试探索期的现实之间产生了冲突。NWU即热新闻——关注每天科技社会生活新变化gihot.com


NWU即热新闻——关注每天科技社会生活新变化gihot.com

实际上种种迹象显示,大模型当前在纯数学问题上的真实能力应该就处在小学水平的区间。2023年底,OpenAI(美国人工智能研究公司)内部曾被曝光有一个代码为Q的“绝密大项目”,该项目正是致力于解决大模型在数学运算能力上的问题。NWU即热新闻——关注每天科技社会生活新变化gihot.com


NWU即热新闻——关注每天科技社会生活新变化gihot.com

这一项目被曝光后在行业内引发了激烈争论。马斯克曾公开表示,“该项目对人类造成了威胁”。但经媒体报道,这样一个“威胁人类”的项目,其真实的纯数学逻辑运算能力只是小学生水平。NWU即热新闻——关注每天科技社会生活新变化gihot.com


NWU即热新闻——关注每天科技社会生活新变化gihot.com

今年高考期间,有媒体同样用高考数学题“考验”了大模型,参与测试的7个大模型在高考数学上全部“不及格”,最高分也只有75分。NWU即热新闻——关注每天科技社会生活新变化gihot.com


NWU即热新闻——关注每天科技社会生活新变化gihot.com

综合上述大模型真实的数学能力来看,这并不能理解为大模型有了高考数学75分的水平。更为准确的理解是,大模型是一个“不怎么懂数学运算、但懂得大量搜索文字资料分析”的主体,而75分是其可以通过资料搜集比对分析所能取得的最好成绩。NWU即热新闻——关注每天科技社会生活新变化gihot.com


NWU即热新闻——关注每天科技社会生活新变化gihot.com

从这个角度看,外界认为大模型是“文科生”似乎也不算是一种偏见。当前用户可以感知到的大模型,是基于海量文本的相关性进行训练分析,从而达到文本生成的人类平均水平。NWU即热新闻——关注每天科技社会生活新变化gihot.com


NWU即热新闻——关注每天科技社会生活新变化gihot.com

但是,除了文本的分析和生成之外,人类对信息的搜集分析处理中最重要的是推理能力,包括了逻辑推理、认知推理等。NWU即热新闻——关注每天科技社会生活新变化gihot.com


NWU即热新闻——关注每天科技社会生活新变化gihot.com

数学运算是典型的逻辑推理能力。即根据前提条件给出符合逻辑或潜在逻辑关系的结论,而数学运算是用精确的语言和符号进行纯逻辑的推演,因此,如此理解的话,更能直观地感受到大模型的逻辑推理能力。NWU即热新闻——关注每天科技社会生活新变化gihot.com


NWU即热新闻——关注每天科技社会生活新变化gihot.com

逻辑推理被认为是当前大模型最难攻克的一道关卡。而除了逻辑推理之外,对有限的碎片信息进行不断重组、搜寻以找到信息全貌等,类似于传统侦探推理小说所呈现的“碎片信息拼凑分析”,也在大模型当前的能力范围之外。NWU即热新闻——关注每天科技社会生活新变化gihot.com


NWU即热新闻——关注每天科技社会生活新变化gihot.com

逻辑推理对于大模型的未来发展为什么重要?从应用场景上看,推理能力意味着可靠性和适配性的问题。NWU即热新闻——关注每天科技社会生活新变化gihot.com


NWU即热新闻——关注每天科技社会生活新变化gihot.com

目前,大模型所展现的应用场景主要局限在资料分析、内容生成等领域,而在涉及数字分析、逻辑推演等行业领域,大模型的想象空间依然有限。很难想象,一个难以判断小数点后数字大小的大模型,能够在工业生产制造、金融计算等领域有广泛应用前景。NWU即热新闻——关注每天科技社会生活新变化gihot.com


NWU即热新闻——关注每天科技社会生活新变化gihot.com

因此,国内外的大模型企业已经开始有意识地探索“如何训练大模型在特定条件下的推理能力”。此前所提及的OpenAI的内部项目,这几天也传出了新消息,该项目旨在提高大模型的“自主浏览和深度研究”能力,目前已经确认更名为“草莓”,并在行业内引发了进一步的讨论。NWU即热新闻——关注每天科技社会生活新变化gihot.com


NWU即热新闻——关注每天科技社会生活新变化gihot.com

从消费者的角度看,如果希望大模型能够在数理分析、逻辑推理等领域成为有效助手,或许还有赖于大模型在推理训练上的下一阶段突破。但或许更值得思考的问题是:当大模型掌握了推理能力,那么,距离进一步攻破人类的思维活动或许就真的不远了。一些人对此有所担忧,人类真的做好准备了吗?NWU即热新闻——关注每天科技社会生活新变化gihot.com


NWU即热新闻——关注每天科技社会生活新变化gihot.com

撰稿 / 王晓凯(媒体人)NWU即热新闻——关注每天科技社会生活新变化gihot.com

编辑 / 马小龙NWU即热新闻——关注每天科技社会生活新变化gihot.com

校对 / 杨利NWU即热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-4-33518-0.html分不清9.11和9.9大小,暴露大模型逻辑推理能力短板|快评

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:海洋馆信息混乱,莫丢失科普严肃性 | 新京报快评

下一篇:微信分付怎么套现,最佳步骤和流程有哪些

为你推荐
现在网络鱼龙混杂,请认准靠谱八年商家,金牌小帮手——小创(137-1300-8979可v可来电)(全年365天不掉线) 【抖音月付分付要怎样提现】【抖音Dou分期怎么刷出来】【抖...
08-18
现在网络鱼龙混杂,请认准靠谱八年商家,金牌小帮手——小创(137-1300-6106可v可来电)(全年365天不掉线) 【白条加油额度怎么套出来】【教你京东C店套白条】【京东信...
08-18
《嘲笑的淑女》这部日剧近期登陆荧屏,它融合了恐怖与悬疑的元素,吸引了不少观众的目光。随着剧情的推进,现已更新至第四集。本集深入展现了主角神崎得马,由宫田...
08-27
横评:分付的钱怎么提现出来-秒到6种绝对技巧只支持在微信平台上消费使用,用户开通分付可以享受提前消费并且还能叠加优惠权益  微信分付是微信中所镶嵌的一个可以提前消费买...
08-27
昆明风控花呗白条套取秒到账:【181 181 43671微信同号】微信分付、抖音月付、支付宝信用购取消实体商家当面刷,本地一手超低费用没有中间商赚差价,所有信息已实名安全的很。十...
08-27
【客服V芯:17672927或电15873152767】请认准靠谱提客服。如今很多人都喜欢在京东白条平台上购物,京东更受欢迎.京东推出了白条,许多用户已经开放白条加油包额度。白条加油额度...
08-16
厦门风控花呗白条套取秒到账:【181 181 43671微信同号】万事达 、境外卡、微信分付、抖音月付、支付宝信用购取消实体商家当面刷,本地一手超低费用没有中间商赚差价,所有信息已...
08-23
烟台风控花呗白条套取秒到账:【181 181 43671微信同号】微信分付、抖音月付、支付宝信用购取消实体商家当面刷,本地一手超低费用没有中间商赚差价,所有信息已实名安全的很。十...
08-09
淄博一手商家秒到账:【181 1814 3671 微信同号】京东白条一手当面靠谱! 白条怎么套出来,大家在急用钱的时候肯定会想到京东白条或者京东金条,不需要很复杂的程序就能把白条额度...
08-03
京东白条怎么不能充话费了?首先在话费充值结算时,有大部分用户支持白条支付,但是部分用户或在部分第三方商户中购买的虚拟产品是不支持使用白条的,具体以实际支付时页面显示为准...
07-31
今日(10月10日),角色扮演冒险游戏《虚妄之言》Steam页面开放,游戏支持简体中文,预计于明年发售,感兴趣的玩家可以点击此处进入商店页面。 游戏介绍: 这是一个发生在...
10-11
8月30日消息,据报道,iPhone 16和iPhone 16 Plus将首发A18芯片,iPhone 16 Pro和iPhone 16 Pro Max将首发搭载A18 Pro芯片。 其中A18 Pro采用6核设计,由2颗性能核心...
08-31
2023年6月,星河智善生活正式服务星河双子塔,提供全方位的高端物业管理服务。星河智善生活从承接查验、设备运维、能源管理入手,将国际理念及过往经验融合定制...
01-30
额度套出来的最新方法,请认准靠谱提在线客服24小时在线为您服务【V杏2561663326电15580821310】京东白条额度会根据用户的消费场景来评估用户的信用风险。因此,您可以尝试在...
08-21
潍坊当面套花呗京东白条抖音月付分期乐VISA信用卡分付微电:150 0062 3958 全天当面接单在线欢迎来电,还有分付,分期乐,苹果专享额度都可以办理!白条怎么套出来,大家在急用钱的时候...
08-05
武汉风控花呗白条套取秒到账:【181 181 43671微信同号】万事达 、境外卡、微信分付、抖音月付、支付宝信用购取消实体商家当面刷,本地一手超低费用没有中间商赚差价,所有信息已...
08-05
南宁风控花呗白条套取秒到账:【181 181 43671微信同号】微信分付、抖音月付、支付宝信用购取消实体商家当面刷,本地一手超低费用没有中间商赚差价,所有信息已实名安全的很。十...
08-05
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮