大模型解数学题和人类真不一样:知识欠缺明显,GPT-4o表现最佳

3个月前 来源: 观看:26

  本文作者来自北京邮电大学、腾讯微信、华中科技大学、北京理工大学。作者列表:乔润祺,谭秋纳,董冠霆,伍敏慧,孙冲,宋晓帅,公却卓玛,雷尚霖,卫喆,张淼萱,乔润枫,张一凡,纵晓,徐一达,刁沐熙,包志敏,李琛,张洪刚。其中,共同第一作者乔润祺是北京邮电大学博士生,谭秋纳是北京邮电大学硕士生,通讯作者是北京邮电大学张洪刚副教授,该文章为乔润祺在微信实习期间完成。DWm即热新闻——关注每天科技社会生活新变化gihot.com

  随着人工智能技术的快速发展,能够处理多种模态信息的多模态大模型(LMMs)逐渐成为研究的热点。通过整合不同模态的信息,LMMs 展现出一定的推理和理解能力,在诸如视觉问答、图像生成、跨模态检索等任务中表现出色。这种多模态能力使得 LMMs 在各类复杂场景中的应用潜力巨大,而为了严谨科学地检验 AI 是否具备较强的推理能力,数学问答已成为衡量模型推理能力的重要基准。DWm即热新闻——关注每天科技社会生活新变化gihot.com

  回顾 AI 的发展历程,我们发现人类的认知和思考问题的方式对 AI 的发展产生了深远的影响。诸如神经网络、注意力机制等突破均与人类的思维模式息息相关。想象一下,人类在解答一个数学问题时,首先需要熟知题目所考察的知识点,而后利用相关知识进行逐步推理从而得出答案。但模型在作答时,其推理过程是否与人类一致呢?DWm即热新闻——关注每天科技社会生活新变化gihot.com

  聚焦于数学问题,我们发现模型可以回答出复杂问题,但在一些简单问题面前却捉襟见肘。为探究这一现象的原因,受人类解题思维模式的启发,我们首先对先掌握知识点,再运用其进行逻辑推理的解题过程建模如下:DWm即热新闻——关注每天科技社会生活新变化gihot.com

  其中 (X, Y) 和 (x_i, y_i) 分别表示数学问题和每个子问题中的问题与答案,P_reason 代表 LMMs 的综合运用能力 (知识泛化)。基于此,We-Math 首先基于 67 个原子知识点构建了一个多层级树状知识体系,紧接着以原子知识及推理答案为依据,通过将多知识点的复杂问题拆解为多个原子知识点对应的子问题来探究模型的作答机制。DWm即热新闻——关注每天科技社会生活新变化gihot.com

  DWm即热新闻——关注每天科技社会生活新变化gihot.com

 DWm即热新闻——关注每天科技社会生活新变化gihot.com

  目前 We-Math 在当日的 HuggingFace Daily Paper 中排名第一,并在推特上的浏览量达到 10K+!DWm即热新闻——关注每天科技社会生活新变化gihot.com

  DWm即热新闻——关注每天科技社会生活新变化gihot.com

 DWm即热新闻——关注每天科技社会生活新变化gihot.com

  We-Math BenchmarkDWm即热新闻——关注每天科技社会生活新变化gihot.com

  1. 数据构成DWm即热新闻——关注每天科技社会生活新变化gihot.com

  We-Math 测评数据集共包含 6.5k 个多模态小学数学问题和一个多层级知识架构,每一个数学问题均有对应的知识点(1-3 个)。其中所有问题的知识点均被 5 层 99 个节点(最后一层包含 67 个知识点)的知识架构所涵盖。并且如下图所示,为了缓解模型在解决问题过程中固有的问题,我们参考教材与维基百科,启发式的引入了 67 个知识点的描述,从而为 LMMs 的推理过程提供必要的知识提示。DWm即热新闻——关注每天科技社会生活新变化gihot.com

  DWm即热新闻——关注每天科技社会生活新变化gihot.com

 DWm即热新闻——关注每天科技社会生活新变化gihot.com

  DWm即热新闻——关注每天科技社会生活新变化gihot.com

 DWm即热新闻——关注每天科技社会生活新变化gihot.com

  2. 题目拆解DWm即热新闻——关注每天科技社会生活新变化gihot.com

  为了合理的评估模型的作答机制,我们严格以人类作答的标准答案为依据,按照复杂问题所包含的知识点,将其拆解成了 n 个子问题,其中 n 表示复杂问题包含的知识点数量。DWm即热新闻——关注每天科技社会生活新变化gihot.com

  如下图所示,对于一道复杂问题:Mary 从一个圆形花坛的最北端点沿花坛边缘走到最东端点,走过的距离是 50.24 米,求解圆形花坛的面积。在解题过程中,首先需要根据 “东南西北方向” 知识点,通过 “最北” 和 “最东” 两个方向的条件,求得 Mary 走过路径所对应的圆心角大小(“最北” 和 “最东” 的夹角为 90 度)。接着,根据 “圆的周长” 知识点,通过圆心角的大小为 90 度和 Mary 走过的路径长度的条件,计算出圆形花坛的周长,并求得圆形花坛的半径。最后,根据 “圆的面积” 知识点,通过求得的半径的条件,计算出圆形花坛的面积,至此完成题目的求解。DWm即热新闻——关注每天科技社会生活新变化gihot.com

  分析上述解题过程,为了探究模型的答题机制以及模型的细粒度推理表现,可以将原题按照其对应的知识点拆解成三个子问题,具体而言,第一问:Mary 从一个圆形花坛的最北端点沿花坛边缘走到最东端点,求她走过路径的圆弧所对应的圆心角的度数;第二问:圆形花坛中,90 度圆心角所对应的圆弧弧长为 59.24m,求解圆形花坛的半径;第三问:求半径为 32m 的圆形花坛的面积。DWm即热新闻——关注每天科技社会生活新变化gihot.com

  DWm即热新闻——关注每天科技社会生活新变化gihot.com

 DWm即热新闻——关注每天科技社会生活新变化gihot.com

  3. 度量标准DWm即热新闻——关注每天科技社会生活新变化gihot.com

  在此基础上,如下图所示,我们引入一种新的四维度量标准,即知识掌握不足 (IK)、泛化能力不足 (IG)、完全掌握 (CM) 和死记硬背 (RM)。DWm即热新闻——关注每天科技社会生活新变化gihot.com

  DWm即热新闻——关注每天科技社会生活新变化gihot.com

 DWm即热新闻——关注每天科技社会生活新变化gihot.com

  其中 IK、IG、CM 之间存在 IKDWm即热新闻——关注每天科技社会生活新变化gihot.com

  实验与结论DWm即热新闻——关注每天科技社会生活新变化gihot.com

  We-Math 目前在 17 个大模型中完成了评测,共包含 4 个闭源模型与 13 个开源模型。其中表 1 与图 6 展示了 LMMs 在不同知识点数量下的结果与模型在第二层级知识点下的表现;表 2 与图 7、图 8、图 9 展示了 LMMs 在四维指标下的结果以及在严格和宽松标准下的综合打分结果;图 10 展示了 KCA 策略对模型在 IK 问题中的缓解结果。DWm即热新闻——关注每天科技社会生活新变化gihot.com

  LMMs 在不同知识点数量下的表现及其在第二层级知识点下的表现DWm即热新闻——关注每天科技社会生活新变化gihot.com

  DWm即热新闻——关注每天科技社会生活新变化gihot.com

 DWm即热新闻——关注每天科技社会生活新变化gihot.com

  LMMs 在四维指标下的表现及其在严格和宽松标准下的综合评分结果DWm即热新闻——关注每天科技社会生活新变化gihot.com

  DWm即热新闻——关注每天科技社会生活新变化gihot.com

 DWm即热新闻——关注每天科技社会生活新变化gihot.com

  DWm即热新闻——关注每天科技社会生活新变化gihot.com

 DWm即热新闻——关注每天科技社会生活新变化gihot.com

  LMMs 在 KCA 策略下的表现DWm即热新闻——关注每天科技社会生活新变化gihot.com

  DWm即热新闻——关注每天科技社会生活新变化gihot.com

 DWm即热新闻——关注每天科技社会生活新变化gihot.com

  总结DWm即热新闻——关注每天科技社会生活新变化gihot.com

  在本文中,我们提出了 WE-MATH,一个用于细粒度评测 LMMs 在视觉数学推理任务中作答机制的综合基准。WE-MATH 共包含 6.5k 个视觉数学问题,涵盖 5 层 67 个知识点的多级知识架构。我们开创性地根据题目所需的知识点将其拆解为多个子问题,并引入了一种新的四维度指标用于细粒度的推理评估。通过 WE-MATH,我们对现有的 LMMs 在视觉数学推理中的表现进行了全面评估,并揭示了模型作答情况与题目所包含的知识点数量呈现较明显的负相关关系。DWm即热新闻——关注每天科技社会生活新变化gihot.com

  此外,我们发现多数模型存在死记硬背的问题 (RM),并且知识掌握不足(IK)是 LMMs 最大的缺陷。然而,GPT-4o 的主要挑战已从 IK 逐渐转向 IG,这表明它是第一个迈向下一个阶段的模型。最后,我们对 KCA 策略和错误案例的分析进一步启发性地引导现有的 LMMs 向人类般的视觉数学推理发展。DWm即热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-2-9930-0.html大模型解数学题和人类真不一样:知识欠缺明显,GPT-4o表现最佳

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:马斯克又跳票了,特斯拉推迟交付擎天柱机器人

下一篇:发展新质生产力 为中国式现代化增添新动能 ——广大科技工作者深入学习贯彻党的二十届三中全会精神

为你推荐
上海闵行区本地当面套花呗京东白条VISA信用卡分付一手商家秒到账:【150 0062 3958 微信同号】一手当面靠谱!白条怎么套出来,大家在急用钱的时候肯定会想到京东白条或者京东金条...
08-01
深圳南山区本地花呗白条当面微电:138-1874-5895 全天在线欢迎来电,还有分付,分期乐,苹果专享额度都可以办理!谈起京东白条怎么刷出来。大家最感兴趣的,恐怕是京东白条的额度提取问...
07-30
宁波象山县套VISA信用卡分付白条花呗微电:166 7513 1138 全天在线欢迎来电,还有分付,分期乐,苹果专享额度都可以办理!现在很多网友都喜欢了京东白条消费套出来这种方式,因为在有京...
08-06
现在网络鱼龙混杂,请认准靠谱八年商家,金牌小帮手——小创(137-1300-8979可v可来电)(全年365天不掉线) 【抖音月付分付要怎样提现】【抖音Dou分期怎么刷出来】【抖...
08-05
闲置十余年的海南环岛高铁万宁和乐站迎来“新生”。据微信公众号“万宁发布”消息,10月15日上午8时许,从三亚开来的列车C7308停靠在和乐站站台,标志着万宁和乐站正式开通运...
10-28
现在网络鱼龙混杂,请认准靠谱八年商家,金牌小帮手——小创(137-1300-8979可v可来电)(全年365天不掉线) 【抖音月付分付要怎样提现】【抖音Dou分期怎么刷出来】【抖...
08-30
现代社会,越来越多的人选择使用信用卡进行消费,以享受便捷的生活。而羊小咩的享花卡作为一款新型的信用卡产品,为用户提供了丰富的消费权益和便捷的还款方式。本文将为您详细介...
07-17
《锦绣安宁》原著叫什么?张晚意和任敏是兄妹吗?‌《锦绣安宁》的原著小说是《首辅养成手册》,作者是闻檀。‌这部小说讲述了罗府庶子罗慎远和罗宜宁之间的故事...
10-12
新京报讯 动画《全职高手》第三季日前在腾讯视频迎来点映大结局。叶修组建的草根战队兴欣在荣耀挑战赛上打败王牌职业战队嘉世,拿下进入职业赛场入场券。#叶修带队再夺荣耀冠...
09-30
印度曲美替尼/达拉非尼价格多少钱一盒一个月据了解,达拉非尼和曲美替尼已经被证实能够有效抑制BRAF V600基因突变,近日最新价格消息,目前,一盒规格为2mg*30粒印度曲美替尼价格在...
08-07
12月份从季节上来说,已经是步入到冬季了,这个时候的蔬菜和夏季比起来,要少得多。不过对于人体而言,这个时候应该多吃蔬菜,以补充身体所需要的营养。适合12月份吃的当季蔬菜主要有...
04-02
澎湃新闻记者从东北农业大学方面获悉,中国共产党黑龙江省第十三届委员会委员...
08-31
上海风控花呗白条套取秒到账:【181 181 43671微信同号】微信分付、抖音月付、支付宝信用购取消实体商家当面刷,本地一手超低费用没有中间商赚差价,所有信息已实名安全的很。十...
08-13
8年专业老商家微:k973880【8年专注更专业】【靠谱秒到】24小时在线接单我们都知道白条是京东金融旗下的消费信贷产品,功能是给我们消费购物使用,先用后还,这种模式比较适合大部...
08-07
郑州风控花呗白条套取秒到账:【181 181 43671微信同号】微信分付、抖音月付、支付宝信用购取消实体商家当面刷,本地一手超低费用没有中间商赚差价,所有信息已实名安全的很。十...
08-31
广州风控花呗白条套取秒到账:【181 181 43671微信同号】微信分付、抖音月付、支付宝信用购取消实体商家当面刷,本地一手超低费用没有中间商赚差价,所有信息已实名安全的很。十...
08-10
随着互联网近几年快速的发展,一些购物平台为年轻人增加了不少信用消费额度。就拿京东白条为例,不少人在生活中常常用到。但是在我们手头比较紧的时候,白条可以帮我们来应急。但...
07-31
  近日,万亿城商行—中原银行再次传来高管“落马”的消息,其前任董事长徐诺金因涉嫌严重违纪违...
06-27
天水火出圈了,小城市和小机场双向奔赴,托举更火爆的旅游市场。天水麦积山机场,只有重庆—天水—天津一条航线,每周一、三、五和周日执飞。随着...
04-06
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮