推理模型:“慢思考”让决策更周全

8个月前 来源:科技日报 观看:81

2025年,“推理模型”成为人工智能行业的热词。从科大讯飞发布首个使用全国产算力训练的深度推理大模型——讯飞星火X1,到深度求索公司上线DeepSeek-R1推理模型,都将“推理模型”推到聚光灯下。udi即热新闻——关注每天科技社会生活新变化gihot.com

多数大语言模型具备一定推理能力,但推理模型具有更强大的推理、逻辑分析和决策能力。推理模型会运用各种推理技巧,如演绎推理、归纳推理、类比推理等,来模拟人类的思考方式。多位业内人士接受科技日报记者采访时说,在人工智能大模型不断迭代升级的浪潮中,推理模型以创新的技术为行业发展注入新活力,也让人们对人工智能未来发展有了更大想象空间。udi即热新闻——关注每天科技社会生活新变化gihot.com

推理模仿人类“慢思考”udi即热新闻——关注每天科技社会生活新变化gihot.com

在复旦大学计算机科学技术学院教授、上海市数据科学重点实验室主任肖仰华看来,过去,大模型的生成能力主要由语料决定。但专家级的推理能力并非“题海战术”可以实现,而是需要大模型具备强大的思维能力。udi即热新闻——关注每天科技社会生活新变化gihot.com

心理学家认为,人类存在两种思维模式。一种是主要用来对日常生活中的简单问题进行判断、决策的“快思考”;另一种则是用于对一些特定问题进行深入分析、研判的“慢思考”。“快思考”是人类基于大量日常经验、常识等,对简单问题作出的快速反应,往往在人们无意识之间完成,是一种更加接近“本能”的思考方式。与之相对,“慢思考”则需要调动大脑更多资源,遵循特定思维逻辑,对问题进行抽丝剥茧式分析研究,进而作出更加理性周全的决策。udi即热新闻——关注每天科技社会生活新变化gihot.com

作为人工智能的典型应用,大模型如今也有了“快”“慢”之别。udi即热新闻——关注每天科技社会生活新变化gihot.com

传统大语言通用模型的思维方式更像是“快思考”,其主要依靠算力对海量数据进行学习,实现对后续空白内容的快速预测,回答人类提出的各类问题,本质上是基于概率模型对可能的答案进行“猜测”。相比之下,推理大模型更有意识和逻辑,会在回答之前进行一段时间“慢思考”,依据特定思维链条,提供更全面解答。udi即热新闻——关注每天科技社会生活新变化gihot.com

科大讯飞研究院副院长殷兵举例说,讯飞星火X1在解答高考数学题等复杂题目时,会先将题目化繁为简,给出解题思路和步骤,呈现出全面的思考、分析和推理过程,进而给出准确的题目答案。殷兵说,推理模型更接近人类的“慢思考”方式。相较于通用大模型,推理模型在数学、医学、代码等领域,会产生更好的效果和意想不到的应用场景。udi即热新闻——关注每天科技社会生活新变化gihot.com

强化学习实现反思纠错udi即热新闻——关注每天科技社会生活新变化gihot.com

人类可以对复杂问题进行深入思考、理性分析的一大原因在于,大脑能够反思。通过对过去错误结果和正确经验的反馈学习,人类得以不断提升对复杂问题判断的正确率。推理模型中普遍应用的强化学习技术,在一定程度上模仿了人类的反思、纠错能力。udi即热新闻——关注每天科技社会生活新变化gihot.com

强化学习是一种机器学习方法,它允许智能体在与环境的交互中通过试错来学习最优策略。智能体在环境中执行相应行动,并根据行动的结果接收反馈,这些反馈信号则指导智能体调整下一步策略,循环往复,不断接近最优策略。udi即热新闻——关注每天科技社会生活新变化gihot.com

例如,DeepSeek-R1在训练推理模型时采用了一条此前鲜有人使用的完全依赖强化学习的训练路径,即仅根据模型输出答案的优劣等简单信息,对模型进行奖惩。这相当于在不施加任何指引的情况下,让一个刚出生不久的幼儿完全自主探索世界,并根据探索结果给予反馈,从而让幼儿在反复试错和成功中快速成长。udi即热新闻——关注每天科技社会生活新变化gihot.com

殷兵介绍,讯飞星火X1可以进行自我探索和反思验证,并基于答案正确与否的反馈信息进行强化训练。其中,自我评价迭代的评语模型能指出大模型存在的幻觉问题,大模型在得到评语模型的评价后可实现自我完善提升。同时,评语模型也通过强化训练进一步提升自身发现幻觉问题的能力。整个过程无需人员参与标注,而是依靠两个模型相互博弈、共同进化。多路径和反思迭代的强化学习技术使讯飞星火X1中能化繁为简,把复杂问题拆解成多个步骤进行思考推理,并进行自我反思探索。例如,它在解答高考数学题目时,不仅会实时呈现分步骤解题过程,还能对解题过程进行实时验算,反思纠正过程中的遗漏和问题,直至给出正确答案。而整个推理过程中形成的数据也可以被用于后续的强化学习。udi即热新闻——关注每天科技社会生活新变化gihot.com

可靠算力仍是关键因素udi即热新闻——关注每天科技社会生活新变化gihot.com

无论是模型训练还是推理,都需要算力平台作为硬件基础。虽然在特定领域,推理模型能够在实现同等效果的情况下消耗更少算力,但算力平台的可靠性、稳定性仍然是决定推理模型发展的重要因素。udi即热新闻——关注每天科技社会生活新变化gihot.com

此前,科大讯飞已联合华为打造出首个国产算力万卡平台“飞星一号”,并基于此完成了讯飞星火大模型多个版本的迭代训练。但推理模型的训练是一条全新的技术路线。目前,国产算力在单卡、集群、生态等方面距国际领先水平有一定差距,全面基于国产算力平台开展模型训练,面临着不少挑战。udi即热新闻——关注每天科技社会生活新变化gihot.com

“讯飞星火X1的训练推理涉及多个模型的强交互,需要跨任务传输数据及权重,训练任务类型也由在线实时响应变为离线高吞吐。这需要克服国产显卡带宽不足的短板。”殷兵说,在这种复杂的训练模式下,影响效率的因素非常多,后训练所需的算力甚至提升了一个数量级。最终,通过与华为进行联合攻关,团队自研出训练框架并进行效率优化,实现了模型算法在国产算力上的成功适配,端到端效率大幅提升。udi即热新闻——关注每天科技社会生活新变化gihot.com

2025年,“推理模型”成为人工智能行业的热词。从科大讯飞发布首个使用全国产算力训练的深度推理大模型——讯飞星火X1,到深度求索公司上线DeepSeek-R1推理模型,都将“推理模型”推到聚光灯下。udi即热新闻——关注每天科技社会生活新变化gihot.com

多数大语言模型具备一定推理能力,但推理模型具有更强大的推理、逻辑分析和决策能力。推理模型会运用各种推理技巧,如演绎推理、归纳推理、类比推理等,来模拟人类的思考方式。多位业内人士接受科技日报记者采访时说,在人工智能大模型不断迭代升级的浪潮中,推理模型以创新的技术为行业发展注入新活力,也让人们对人工智能未来发展有了更大想象空间。udi即热新闻——关注每天科技社会生活新变化gihot.com

推理模仿人类“慢思考”udi即热新闻——关注每天科技社会生活新变化gihot.com

在复旦大学计算机科学技术学院教授、上海市数据科学重点实验室主任肖仰华看来,过去,大模型的生成能力主要由语料决定。但专家级的推理能力并非“题海战术”可以实现,而是需要大模型具备强大的思维能力。udi即热新闻——关注每天科技社会生活新变化gihot.com

心理学家认为,人类存在两种思维模式。一种是主要用来对日常生活中的简单问题进行判断、决策的“快思考”;另一种则是用于对一些特定问题进行深入分析、研判的“慢思考”。“快思考”是人类基于大量日常经验、常识等,对简单问题作出的快速反应,往往在人们无意识之间完成,是一种更加接近“本能”的思考方式。与之相对,“慢思考”则需要调动大脑更多资源,遵循特定思维逻辑,对问题进行抽丝剥茧式分析研究,进而作出更加理性周全的决策。udi即热新闻——关注每天科技社会生活新变化gihot.com

作为人工智能的典型应用,大模型如今也有了“快”“慢”之别。udi即热新闻——关注每天科技社会生活新变化gihot.com

传统大语言通用模型的思维方式更像是“快思考”,其主要依靠算力对海量数据进行学习,实现对后续空白内容的快速预测,回答人类提出的各类问题,本质上是基于概率模型对可能的答案进行“猜测”。相比之下,推理大模型更有意识和逻辑,会在回答之前进行一段时间“慢思考”,依据特定思维链条,提供更全面解答。udi即热新闻——关注每天科技社会生活新变化gihot.com

科大讯飞研究院副院长殷兵举例说,讯飞星火X1在解答高考数学题等复杂题目时,会先将题目化繁为简,给出解题思路和步骤,呈现出全面的思考、分析和推理过程,进而给出准确的题目答案。殷兵说,推理模型更接近人类的“慢思考”方式。相较于通用大模型,推理模型在数学、医学、代码等领域,会产生更好的效果和意想不到的应用场景。udi即热新闻——关注每天科技社会生活新变化gihot.com

强化学习实现反思纠错udi即热新闻——关注每天科技社会生活新变化gihot.com

人类可以对复杂问题进行深入思考、理性分析的一大原因在于,大脑能够反思。通过对过去错误结果和正确经验的反馈学习,人类得以不断提升对复杂问题判断的正确率。推理模型中普遍应用的强化学习技术,在一定程度上模仿了人类的反思、纠错能力。udi即热新闻——关注每天科技社会生活新变化gihot.com

强化学习是一种机器学习方法,它允许智能体在与环境的交互中通过试错来学习最优策略。智能体在环境中执行相应行动,并根据行动的结果接收反馈,这些反馈信号则指导智能体调整下一步策略,循环往复,不断接近最优策略。udi即热新闻——关注每天科技社会生活新变化gihot.com

例如,DeepSeek-R1在训练推理模型时采用了一条此前鲜有人使用的完全依赖强化学习的训练路径,即仅根据模型输出答案的优劣等简单信息,对模型进行奖惩。这相当于在不施加任何指引的情况下,让一个刚出生不久的幼儿完全自主探索世界,并根据探索结果给予反馈,从而让幼儿在反复试错和成功中快速成长。udi即热新闻——关注每天科技社会生活新变化gihot.com

殷兵介绍,讯飞星火X1可以进行自我探索和反思验证,并基于答案正确与否的反馈信息进行强化训练。其中,自我评价迭代的评语模型能指出大模型存在的幻觉问题,大模型在得到评语模型的评价后可实现自我完善提升。同时,评语模型也通过强化训练进一步提升自身发现幻觉问题的能力。整个过程无需人员参与标注,而是依靠两个模型相互博弈、共同进化。多路径和反思迭代的强化学习技术使讯飞星火X1中能化繁为简,把复杂问题拆解成多个步骤进行思考推理,并进行自我反思探索。例如,它在解答高考数学题目时,不仅会实时呈现分步骤解题过程,还能对解题过程进行实时验算,反思纠正过程中的遗漏和问题,直至给出正确答案。而整个推理过程中形成的数据也可以被用于后续的强化学习。udi即热新闻——关注每天科技社会生活新变化gihot.com

可靠算力仍是关键因素udi即热新闻——关注每天科技社会生活新变化gihot.com

无论是模型训练还是推理,都需要算力平台作为硬件基础。虽然在特定领域,推理模型能够在实现同等效果的情况下消耗更少算力,但算力平台的可靠性、稳定性仍然是决定推理模型发展的重要因素。udi即热新闻——关注每天科技社会生活新变化gihot.com

此前,科大讯飞已联合华为打造出首个国产算力万卡平台“飞星一号”,并基于此完成了讯飞星火大模型多个版本的迭代训练。但推理模型的训练是一条全新的技术路线。目前,国产算力在单卡、集群、生态等方面距国际领先水平有一定差距,全面基于国产算力平台开展模型训练,面临着不少挑战。udi即热新闻——关注每天科技社会生活新变化gihot.com

“讯飞星火X1的训练推理涉及多个模型的强交互,需要跨任务传输数据及权重,训练任务类型也由在线实时响应变为离线高吞吐。这需要克服国产显卡带宽不足的短板。”殷兵说,在这种复杂的训练模式下,影响效率的因素非常多,后训练所需的算力甚至提升了一个数量级。最终,通过与华为进行联合攻关,团队自研出训练框架并进行效率优化,实现了模型算法在国产算力上的成功适配,端到端效率大幅提升。udi即热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-2-562-0.html推理模型:“慢思考”让决策更周全

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:新疆哈密上线 “满血版”DeepSeek-R1云服务

下一篇:新装置解决石油产业抽油杆防锈难题 油田小站捧回国际大奖

为你推荐
黄仁勋在中国台湾的行程聚焦于先进封装 CoWoS。1月16日,英伟达CEO黄仁勋开启中国台湾行程,首站到访矽品精密并出席揭牌仪式。黄仁勋...
01-21
中国科学院紫金山天文台1月16日晚通报,国际小行星中心于当日发布了由该台近地天体望远镜观测发现的一颗新彗星C/2025 A3 (Tsuchinshan)。这也是紫金...
01-21
注意了!2025年辽宁省事业单位集中面向社会公开招聘工作人员公告发布报名时间2025年2月19日9:00至2月25日...
02-18
  春节后,辽宁各地开工复产节奏加速,用工需求量明显增加,辽宁多地工会及人社部门积极开展大型招聘会,保障...
02-18
  美FTC警告:微软与OpenAI的合作引发反垄断担忧  财联社1月18日讯(编辑 夏军雄)美东时间周五(1月17日),美国联邦贸易委员会(FTC)发布报告称,微软与OpenAI的合作引发了担忧,...
01-21
  中新经纬1月17日电 (常涛)中新经纬获悉,17日下午,荣耀发布公告称,赵明因个人原因辞去公司董事、CEO等相关职务。董事会决定由李健接替赵明开展工作。  另据中新经纬了解,...
01-21
  日前,中国汽车流通协会发布的《2024年12月中国汽车保值率报告》(以下简称《报告》)显示,2024...
01-24
2 月 2 日消息,比亚迪腾势销售事业部总经理赵长江今日发布视频分享了腾势 N9 新车“九大爆料”,其中提到了该车的上市时间、发布节奏,以及部分车型的续航能力。整理赵...
02-02
《180天重启计划》第2集的剧情引起了观众们的广泛讨论。顾云苏在大闹饭局后仍然决定去公司上班,但刚到工位就收到了同事的临别礼物,并被要求办理交接手续。面...
02-20
  檀健次和李兰迪搭档主演的电视剧《滤镜》已经定档了,这是一部充满科幻色彩的现代喜剧。《滤镜》电视剧什么时候上映?下面一起了解下这部剧主要讲述了个怎样的故事吧。  ...
02-21
21世纪经济报道记者季媛媛 上海报道 “复星医药私有化复宏汉霖”有了定论。1月22日,复星医药发布公告,控股子公司复星新药拟以现金及/或换...
01-23
这里是《21健讯Daily》,欢迎与21世纪经济报道新健康团队共同关注医药健康行业最新事件!政策动向国家医保局发布2025年度第一批重点事项清单2...
02-17
青少年在学习中华武术。通讯员 丁根厚 摄青少年在学习调试编程机器人。通讯员 丁根厚 摄青少年在体验科学秀项目。通讯员 丁根厚 摄青少年在绘制生肖蛇儿童画。通讯员 丁根...
01-21
  大众网记者 王一刚 报道  为进一步贯彻落实济南高新区教育文体部“三美”教师师德专题培训内容,加强师德师风建设,提升教师队伍素质,济南高新区玺悦幼教集团(玺悦园、...
01-21
  原油期货在上周走高后本周维持震荡,从当前市场逻辑来看,分析人士认为,短期原油价格向上驱动不...
01-24
  近期,受美国关税政策影响,市场情绪波动较大,螺纹钢期价呈冲高回落走势,主力合约自高位累计下跌3...
02-13
巨蟹座的男生通常是非常敏感和细腻的,他们对待暗恋他们的女生会有一些独特的方式。 1....
01-22
狮子座的男生通常都有着强烈的自尊心和领导欲望,他们喜欢被人尊重和崇拜。因此,如果有人...
01-22
追寻时尚:2018年夏季潮流服饰全景探秘炎炎夏日来临,作为时尚引领者的你是否已经准备好迎接这个季节的潮流服饰了呢?2018年的夏季潮流服饰,以其独特的设计、清新的色彩和个性化的...
02-12
独特魅力:韩国牛仔裤模特精彩T台走秀每年的时尚周总是让人期待不已,尤其是那些展现出独特风格的服装秀。我记得第一次观看韩国牛仔裤模特的T台走秀时,那种体验简直酣畅淋漓。牛...
02-17
网约车市场正在悄然发生变化,如同暴风雨来临前的宁静,让人恐惧。1、抖音上线打车服务抖音不仅能刷短视频,现在还能直接打车了。据Tech星球独家消息,抖音在近日上线了打车服务,入...
02-07
2月20日消息,闲鱼数据显示,过去一年中,平台上的循环订单量同比增长近50%,覆盖手机数码、家具家电、服饰、图书等品类。在线上,超1亿人在闲鱼挂出闲置物品,每天都有超400万件闲置物...
02-21
3月8日消息,全国各地渐次入春,马蜂窝大数据显示,近一周,“赏花”热度环比上周大涨183%,苏州、杭州、重庆、广州、成都位居近日热度涨幅最快的赏花目的地前列。马蜂窝也推出“2025...
03-09
3月6日消息,携程集团与山东文旅集团近日宣布达成全方位战略合作,两大旅游集团20强将围绕“平台赋能+产业创新”主线,通过资源整合与模式创新,共同构建覆盖“产品开发、营销推广...
03-09
2024国庆长假第一天,北京奥林匹克公园人头攒动,往来如织的人群中一道道“奇装异服”的身影吸引了游客注目,银发雪衣的雪女,斗笠披风的侠客,长尾兽耳的萌娘,子衿青青的儒生……原来...
01-23
自去年底开始,黄金多头优势逐渐退却,国际现货黄金价格经历几次大跌后一度跌下2700关口,多空进入漫长的震荡周期,多头始终无法找到再度冲高的时机。  北京时间1月21日,国际现货...
02-09
《华纳大乱斗》的游戏总监对上周五宣布的该免费格斗游戏第五季将成为最终季一事,发表了看法。 上周五,开发商Player First Games证实,第五季将于5月30日结束,距离...
02-04
随着AI的快速发展,部分科学家开始借助AI设计芯片,然而AI设计的部分芯片过于复杂,甚至超出人类的理解范畴。 普林斯顿大学Sengupta实验室的科学家团队主导了这项...
02-10
新华社布宜诺斯艾利斯2月5日电(记者张铎)阿根廷政府5日宣布,阿总统米莱已决定该国退出世界卫生组织。阿根廷总统府发言人阿多尔尼当天在新闻发布会上说,阿根廷不允许任何国际组...
02-06
2月8日,@抖音集团李亮 回应封禁张兰、汪小菲账号。简单说一下这个事件的处理过程:2月5日晚,账号“我是夏小健”发布所谓“包机”视频;6日,在逝者家属否认包机后(热点事件常有反转,...
02-08
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮