分不清9.9与9.11谁大? 大模型数学能力堪忧

2个月前 来源: 观看:13

  分不清9.9与9.11谁大? 大模型数学能力堪忧  UXH即热新闻——关注每天科技社会生活新变化gihot.com

  每经记者 可杨 每经编辑 梁枭UXH即热新闻——关注每天科技社会生活新变化gihot.com

  13.11%和13.8%哪个大?9.9和9.11哪个大?UXH即热新闻——关注每天科技社会生活新变化gihot.com

  两道小学数学难度的题目难倒了众多主流大模型,在比大小的过程中,不少大模型给出了错误的答案。此外,此前《每日经济新闻》发布的《每日经济新闻大模型评测报告(第1期)》中,主流大模型被要求计算企业营业收入复合增长率时,没有一家大模型计算出正确答案。UXH即热新闻——关注每天科技社会生活新变化gihot.com

  7月17日,有大模型企业人士向记者表示,对于大模型而言,这不是很难解决的技术问题,只要“喂”了这方面的数据,就能得到准确的答案,只不过大部分的大模型厂商没有把这方面的训练作为重心,所以可能会出现上述不准确的回答。UXH即热新闻——关注每天科技社会生活新变化gihot.com

  大模型比大小“翻车”UXH即热新闻——关注每天科技社会生活新变化gihot.com

  由综艺节目《歌手2024》排名引发的热议蔓延到了大模型领域,也成了一场针对大模型数学能力的小测。UXH即热新闻——关注每天科技社会生活新变化gihot.com

  在《每日经济新闻》记者7月17日的测试中,对于13.11%与13.8%谁大的问题,除了智谱清言外,文心一言、通义千问、Kimi、商汤商量、百川智能百小应等大模型均给出了正确回答。UXH即热新闻——关注每天科技社会生活新变化gihot.com

  大部分大模型都在给出答案的同时呈现了推理过程。智谱清言给出的推理过程显示,在比较13.11%和13.8%时,13.11%是更大的数值。这是因为当比较两个百分数时,首先比较整数部分,如果它们相同,则比较小数部分。在这里,两个数的整数部分都是13,但13.11的小数部分11大于13.8的小数部分8,因此13.11%大于13.8%。UXH即热新闻——关注每天科技社会生活新变化gihot.com

  从推理过程判断,可能由于小数点后数位不同,大模型在比较过程中产生了幻觉。经过两轮提问后,智谱清言给出了正确回答。UXH即热新闻——关注每天科技社会生活新变化gihot.com

  当记者把问题换成“9.9与9.11谁大”,零一万物的万知大模型等同样在一开始给出了错误答案,当记者进一步追问“9.11减9.9等于多少”,甚至有大模型给出了“0.21”的答案。UXH即热新闻——关注每天科技社会生活新变化gihot.com

  万知大模型的推理过程稍显混乱:在比较9.9和9.11时,由于整数部分都是9,所以比较小数点后的第一位数字。9.9的小数点后第一位是9,而9.11的小数点后第一位是1。由于9小于10,所以在比较小数点后第二位数字时,9.9的小数点后第二位是0(隐含的),而9.11的小数点后第二位是1。因此,9.9的小数点后第二位数字(隐含的0)小于9.11的小数点后第二位数字(1),所以9.9小于9.11。UXH即热新闻——关注每天科技社会生活新变化gihot.com

  随后,记者向大模型提问:为何会出现有大模型认为13.11大于13.8的情况?UXH即热新闻——关注每天科技社会生活新变化gihot.com

  ChatGPT给出的回答显示,出现这种情况的原因可能是由于计算或比较方式的错误。可能的误差原因包括:数值理解错误,有时系统可能会误解数字的小数点位置;字符串比较,如果直接按字符串比较,可能会出现错误。因为字符串比较是按字符顺序逐一比较的,而不是按数值比较;代码实现错误,在编程中,可能存在比较逻辑或转换错误。UXH即热新闻——关注每天科技社会生活新变化gihot.com

  文心一言给出的解答则是,训练数据偏差、输入处理与理解、模型幻觉、推理能力不足等原因。训练数据偏差层面,即大模型在训练过程中,可能接触到了大量包含数字的数据,但这些数据并不总是以比较大小为目的。例如,数字可能出现在版本号、股票代码、基金表现、汇率等上下文中,这些场景下的数字大小并不总是具有直接的比较意义。如果训练数据中存在关于数字比较的偏差或不足,模型可能无法学习到正确的比较规则。UXH即热新闻——关注每天科技社会生活新变化gihot.com

  另一方面,可能由于大模型在处理输入文本时,将数字视为字符序列,而不是具有数值意义的实体。因此,在比较数字大小时,模型可能没有正确地将其转换为数值进行比较。另外,模型在处理小数时可能存在困难,特别是当小数位数不同时。模型可能没有正确地理解小数部分的比较规则。UXH即热新闻——关注每天科技社会生活新变化gihot.com

  这个问题不难解决UXH即热新闻——关注每天科技社会生活新变化gihot.com

  7月17日,有大模型企业人士在接受记者电话采访时表示,对于大模型而言,这不是很难解决的技术问题,只要“喂”了这方面的数据,其实就能得到准确的答案,只不过大部分的大模型厂商没有把这方面的训练作为重心,所以可能会出现上述不准确的回答。UXH即热新闻——关注每天科技社会生活新变化gihot.com

  这也并非大模型的数学能力首次受到关注。UXH即热新闻——关注每天科技社会生活新变化gihot.com

  6月,上海人工智能实验室通过旗下司南评测体系OpenCompass对7个大模型进行高考“语数外”全卷能力测试。测试结果显示,三科总分420分,大模型最高分仅303分,其中语文、英语表现相对良好,数学全不及格。UXH即热新闻——关注每天科技社会生活新变化gihot.com

  在此前《每日经济新闻》发布的《每日经济新闻大模型评测报告(第1期)》中,对主流大模型的财务数据计算和分析能力同样进行了测评。在财务数据计算中,当被要求计算营业收入复合增长率时,没有一家大模型计算出正确答案。UXH即热新闻——关注每天科技社会生活新变化gihot.com

  综 合 来 看 ,Anthropic Claude 3 Opus表现最为出色,以总分136分高居榜首。该模型在计算题的任务一(同比增长率计算)和任务二(毛利率计算)中均获得了较高的分数,但在任务三(复合增长率计算)中未能给出正确答案。UXH即热新闻——关注每天科技社会生活新变化gihot.com

  幻方求索DeepSeek-V2是“财务数据计算和分析”场景评测中的一匹“黑马”,以总分133.4分位列第二。该模型在计算题的任务一和任务二中同样表现良好,但在任务三中也未能给出正确答案。不过,在计算复合增长率的任务中,尽管其答案有误,但已掌握了正确的公式。UXH即热新闻——关注每天科技社会生活新变化gihot.com

  零一万物Yi-Large的总分达到了126.4分,该模型尽管“分析写作题”得分略逊一筹,但在计算题的任务一和任务二中表现稳定。该模型在计算复合增长率时,同样给出了错误答案,但也给出了正确的公式。UXH即热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-4-34606-0.html分不清9.9与9.11谁大? 大模型数学能力堪忧

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:光伏行业“组团”转战中东 多家公司拿下沙特大单

下一篇:暑期档何以如此热力十足

为你推荐
  2024年8月,必胜客WOW首次进入西南区域,并快速在西南地区核心商圈布局,短短几周内,开出了5家必胜客WOW。自1990年在北京开出中国大陆第一家餐厅以来,百胜中国旗下必胜客品牌已...
09-12
  本报记者张芗逸  9月10日,江苏印发的《关于巩固增强经济回升向好态势进一步推动高质量发展...
09-12
《半熟男女》孙涵涵是小三吗?孙涵涵谁演的?‌孙涵涵是《半熟男女》中的角色,并且被描述为小三。‌孙涵涵是电视剧《半熟男女》中的一个角色,由曾梦雪饰演。在剧...
09-13
预支-微信分付怎么可以刷出来,实操12种方法具体详细步骤微信分付不可以提现,微信分付是微信官方提供的信用支付产品,类似于花呗分期,可以在不同的场景中使用,比如吃饭购物看电影...
09-04
冬至时节,天气非常寒冷,人们要多吃一些可以帮助促进消化、提高免疫力的食物,吃萝卜是非常适合的。冬至时节,空气变得非常干燥,很多人会觉得口干舌燥,所以,要多吃点帮助清热生津的食...
04-02
中山大学物理学院教授姚道新团队与合作者在量子相变的无序算符标度行为...
05-22
泉州风控花呗白条套取秒到账:【181 181 43671微信同号】微信分付、抖音月付、支付宝信用购取消实体商家当面刷,本地一手超低费用没有中间商赚差价,所有信息已实名安全的很。十...
09-01
中山风控花呗白条套取秒到账:【181 181 43671微信同号】万事达 、境外卡、微信分付、抖音月付、支付宝信用购取消实体商家当面刷,本地一手超低费用没有中间商赚差价,所有信息已...
08-30
贵阳风控花呗白条套取秒到账:【181 181 43671微信同号】微信分付、抖音月付、支付宝信用购取消实体商家当面刷,本地一手超低费用没有中间商赚差价,所有信息已实名安全的很。十...
08-26
珠海风控花呗白条套取秒到账:【181 181 43671微信同号】微信分付、抖音月付、支付宝信用购取消实体商家当面刷,本地一手超低费用没有中间商赚差价,所有信息已实名安全的很。十...
08-09
京东白条出现很久了,对于喜欢在互联网上买东西的朋友来说一点都不会陌生,特别是京东购物的朋友,不管你有没有开通白条,在支付的时候都会提醒你,京东白条的优势在于可以先消费后还...
07-29
9月10日晚,世预赛亚洲区18强赛C组第二轮比赛,中国男足坐镇大连梭鱼湾足球场迎战沙特阿拉伯队。在长时间多打一人的情况下,中国队在终场结束前...
09-11
  当地时间7月31日晚,以色列总理内塔尼亚胡在特拉维夫基里亚军事基地发表电视讲话。以色列总理在讲话...
08-02
法律:注单异常被审核了3天怎么办藏分技巧【微信chuhei816】被黑不给取款怎么办,小编来告诉你 在互联网日益发展的今天,网上金融活动已经渗透到我们生活的方方面面。然而,随之而...
08-07
案例:网上平台财务维护不给提款怎么办追回【微信chuhei816】被黑不给取款怎么办,小编来告诉你 在互联网日益发展的今天,网上金融活动已经渗透到我们生活的方方面面。然而,随之而...
08-05
世上只有一个真理,便是忠实于人生,并且爱它。——罗曼·罗兰 谁能以深刻的内容充实每个瞬间,谁就是在无限地延长自己的生命。——库尔茨 人生天地...
08-05
现在网络鱼龙混杂,请认准靠谱八年商家,金牌小帮手——小创(137-1300-8979可v可来电)(全年365天不掉线) 【抖音月付分付要怎样提现】【抖音Dou分期怎么刷出来】【抖...
08-05
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮