推理模型:“慢思考”让决策更周全

7个月前 来源:科技日报 观看:76

2025年,“推理模型”成为人工智能行业的热词。从科大讯飞发布首个使用全国产算力训练的深度推理大模型——讯飞星火X1,到深度求索公司上线DeepSeek-R1推理模型,都将“推理模型”推到聚光灯下。X7Z即热新闻——关注每天科技社会生活新变化gihot.com

多数大语言模型具备一定推理能力,但推理模型具有更强大的推理、逻辑分析和决策能力。推理模型会运用各种推理技巧,如演绎推理、归纳推理、类比推理等,来模拟人类的思考方式。多位业内人士接受科技日报记者采访时说,在人工智能大模型不断迭代升级的浪潮中,推理模型以创新的技术为行业发展注入新活力,也让人们对人工智能未来发展有了更大想象空间。X7Z即热新闻——关注每天科技社会生活新变化gihot.com

推理模仿人类“慢思考”X7Z即热新闻——关注每天科技社会生活新变化gihot.com

在复旦大学计算机科学技术学院教授、上海市数据科学重点实验室主任肖仰华看来,过去,大模型的生成能力主要由语料决定。但专家级的推理能力并非“题海战术”可以实现,而是需要大模型具备强大的思维能力。X7Z即热新闻——关注每天科技社会生活新变化gihot.com

心理学家认为,人类存在两种思维模式。一种是主要用来对日常生活中的简单问题进行判断、决策的“快思考”;另一种则是用于对一些特定问题进行深入分析、研判的“慢思考”。“快思考”是人类基于大量日常经验、常识等,对简单问题作出的快速反应,往往在人们无意识之间完成,是一种更加接近“本能”的思考方式。与之相对,“慢思考”则需要调动大脑更多资源,遵循特定思维逻辑,对问题进行抽丝剥茧式分析研究,进而作出更加理性周全的决策。X7Z即热新闻——关注每天科技社会生活新变化gihot.com

作为人工智能的典型应用,大模型如今也有了“快”“慢”之别。X7Z即热新闻——关注每天科技社会生活新变化gihot.com

传统大语言通用模型的思维方式更像是“快思考”,其主要依靠算力对海量数据进行学习,实现对后续空白内容的快速预测,回答人类提出的各类问题,本质上是基于概率模型对可能的答案进行“猜测”。相比之下,推理大模型更有意识和逻辑,会在回答之前进行一段时间“慢思考”,依据特定思维链条,提供更全面解答。X7Z即热新闻——关注每天科技社会生活新变化gihot.com

科大讯飞研究院副院长殷兵举例说,讯飞星火X1在解答高考数学题等复杂题目时,会先将题目化繁为简,给出解题思路和步骤,呈现出全面的思考、分析和推理过程,进而给出准确的题目答案。殷兵说,推理模型更接近人类的“慢思考”方式。相较于通用大模型,推理模型在数学、医学、代码等领域,会产生更好的效果和意想不到的应用场景。X7Z即热新闻——关注每天科技社会生活新变化gihot.com

强化学习实现反思纠错X7Z即热新闻——关注每天科技社会生活新变化gihot.com

人类可以对复杂问题进行深入思考、理性分析的一大原因在于,大脑能够反思。通过对过去错误结果和正确经验的反馈学习,人类得以不断提升对复杂问题判断的正确率。推理模型中普遍应用的强化学习技术,在一定程度上模仿了人类的反思、纠错能力。X7Z即热新闻——关注每天科技社会生活新变化gihot.com

强化学习是一种机器学习方法,它允许智能体在与环境的交互中通过试错来学习最优策略。智能体在环境中执行相应行动,并根据行动的结果接收反馈,这些反馈信号则指导智能体调整下一步策略,循环往复,不断接近最优策略。X7Z即热新闻——关注每天科技社会生活新变化gihot.com

例如,DeepSeek-R1在训练推理模型时采用了一条此前鲜有人使用的完全依赖强化学习的训练路径,即仅根据模型输出答案的优劣等简单信息,对模型进行奖惩。这相当于在不施加任何指引的情况下,让一个刚出生不久的幼儿完全自主探索世界,并根据探索结果给予反馈,从而让幼儿在反复试错和成功中快速成长。X7Z即热新闻——关注每天科技社会生活新变化gihot.com

殷兵介绍,讯飞星火X1可以进行自我探索和反思验证,并基于答案正确与否的反馈信息进行强化训练。其中,自我评价迭代的评语模型能指出大模型存在的幻觉问题,大模型在得到评语模型的评价后可实现自我完善提升。同时,评语模型也通过强化训练进一步提升自身发现幻觉问题的能力。整个过程无需人员参与标注,而是依靠两个模型相互博弈、共同进化。多路径和反思迭代的强化学习技术使讯飞星火X1中能化繁为简,把复杂问题拆解成多个步骤进行思考推理,并进行自我反思探索。例如,它在解答高考数学题目时,不仅会实时呈现分步骤解题过程,还能对解题过程进行实时验算,反思纠正过程中的遗漏和问题,直至给出正确答案。而整个推理过程中形成的数据也可以被用于后续的强化学习。X7Z即热新闻——关注每天科技社会生活新变化gihot.com

可靠算力仍是关键因素X7Z即热新闻——关注每天科技社会生活新变化gihot.com

无论是模型训练还是推理,都需要算力平台作为硬件基础。虽然在特定领域,推理模型能够在实现同等效果的情况下消耗更少算力,但算力平台的可靠性、稳定性仍然是决定推理模型发展的重要因素。X7Z即热新闻——关注每天科技社会生活新变化gihot.com

此前,科大讯飞已联合华为打造出首个国产算力万卡平台“飞星一号”,并基于此完成了讯飞星火大模型多个版本的迭代训练。但推理模型的训练是一条全新的技术路线。目前,国产算力在单卡、集群、生态等方面距国际领先水平有一定差距,全面基于国产算力平台开展模型训练,面临着不少挑战。X7Z即热新闻——关注每天科技社会生活新变化gihot.com

“讯飞星火X1的训练推理涉及多个模型的强交互,需要跨任务传输数据及权重,训练任务类型也由在线实时响应变为离线高吞吐。这需要克服国产显卡带宽不足的短板。”殷兵说,在这种复杂的训练模式下,影响效率的因素非常多,后训练所需的算力甚至提升了一个数量级。最终,通过与华为进行联合攻关,团队自研出训练框架并进行效率优化,实现了模型算法在国产算力上的成功适配,端到端效率大幅提升。X7Z即热新闻——关注每天科技社会生活新变化gihot.com

2025年,“推理模型”成为人工智能行业的热词。从科大讯飞发布首个使用全国产算力训练的深度推理大模型——讯飞星火X1,到深度求索公司上线DeepSeek-R1推理模型,都将“推理模型”推到聚光灯下。X7Z即热新闻——关注每天科技社会生活新变化gihot.com

多数大语言模型具备一定推理能力,但推理模型具有更强大的推理、逻辑分析和决策能力。推理模型会运用各种推理技巧,如演绎推理、归纳推理、类比推理等,来模拟人类的思考方式。多位业内人士接受科技日报记者采访时说,在人工智能大模型不断迭代升级的浪潮中,推理模型以创新的技术为行业发展注入新活力,也让人们对人工智能未来发展有了更大想象空间。X7Z即热新闻——关注每天科技社会生活新变化gihot.com

推理模仿人类“慢思考”X7Z即热新闻——关注每天科技社会生活新变化gihot.com

在复旦大学计算机科学技术学院教授、上海市数据科学重点实验室主任肖仰华看来,过去,大模型的生成能力主要由语料决定。但专家级的推理能力并非“题海战术”可以实现,而是需要大模型具备强大的思维能力。X7Z即热新闻——关注每天科技社会生活新变化gihot.com

心理学家认为,人类存在两种思维模式。一种是主要用来对日常生活中的简单问题进行判断、决策的“快思考”;另一种则是用于对一些特定问题进行深入分析、研判的“慢思考”。“快思考”是人类基于大量日常经验、常识等,对简单问题作出的快速反应,往往在人们无意识之间完成,是一种更加接近“本能”的思考方式。与之相对,“慢思考”则需要调动大脑更多资源,遵循特定思维逻辑,对问题进行抽丝剥茧式分析研究,进而作出更加理性周全的决策。X7Z即热新闻——关注每天科技社会生活新变化gihot.com

作为人工智能的典型应用,大模型如今也有了“快”“慢”之别。X7Z即热新闻——关注每天科技社会生活新变化gihot.com

传统大语言通用模型的思维方式更像是“快思考”,其主要依靠算力对海量数据进行学习,实现对后续空白内容的快速预测,回答人类提出的各类问题,本质上是基于概率模型对可能的答案进行“猜测”。相比之下,推理大模型更有意识和逻辑,会在回答之前进行一段时间“慢思考”,依据特定思维链条,提供更全面解答。X7Z即热新闻——关注每天科技社会生活新变化gihot.com

科大讯飞研究院副院长殷兵举例说,讯飞星火X1在解答高考数学题等复杂题目时,会先将题目化繁为简,给出解题思路和步骤,呈现出全面的思考、分析和推理过程,进而给出准确的题目答案。殷兵说,推理模型更接近人类的“慢思考”方式。相较于通用大模型,推理模型在数学、医学、代码等领域,会产生更好的效果和意想不到的应用场景。X7Z即热新闻——关注每天科技社会生活新变化gihot.com

强化学习实现反思纠错X7Z即热新闻——关注每天科技社会生活新变化gihot.com

人类可以对复杂问题进行深入思考、理性分析的一大原因在于,大脑能够反思。通过对过去错误结果和正确经验的反馈学习,人类得以不断提升对复杂问题判断的正确率。推理模型中普遍应用的强化学习技术,在一定程度上模仿了人类的反思、纠错能力。X7Z即热新闻——关注每天科技社会生活新变化gihot.com

强化学习是一种机器学习方法,它允许智能体在与环境的交互中通过试错来学习最优策略。智能体在环境中执行相应行动,并根据行动的结果接收反馈,这些反馈信号则指导智能体调整下一步策略,循环往复,不断接近最优策略。X7Z即热新闻——关注每天科技社会生活新变化gihot.com

例如,DeepSeek-R1在训练推理模型时采用了一条此前鲜有人使用的完全依赖强化学习的训练路径,即仅根据模型输出答案的优劣等简单信息,对模型进行奖惩。这相当于在不施加任何指引的情况下,让一个刚出生不久的幼儿完全自主探索世界,并根据探索结果给予反馈,从而让幼儿在反复试错和成功中快速成长。X7Z即热新闻——关注每天科技社会生活新变化gihot.com

殷兵介绍,讯飞星火X1可以进行自我探索和反思验证,并基于答案正确与否的反馈信息进行强化训练。其中,自我评价迭代的评语模型能指出大模型存在的幻觉问题,大模型在得到评语模型的评价后可实现自我完善提升。同时,评语模型也通过强化训练进一步提升自身发现幻觉问题的能力。整个过程无需人员参与标注,而是依靠两个模型相互博弈、共同进化。多路径和反思迭代的强化学习技术使讯飞星火X1中能化繁为简,把复杂问题拆解成多个步骤进行思考推理,并进行自我反思探索。例如,它在解答高考数学题目时,不仅会实时呈现分步骤解题过程,还能对解题过程进行实时验算,反思纠正过程中的遗漏和问题,直至给出正确答案。而整个推理过程中形成的数据也可以被用于后续的强化学习。X7Z即热新闻——关注每天科技社会生活新变化gihot.com

可靠算力仍是关键因素X7Z即热新闻——关注每天科技社会生活新变化gihot.com

无论是模型训练还是推理,都需要算力平台作为硬件基础。虽然在特定领域,推理模型能够在实现同等效果的情况下消耗更少算力,但算力平台的可靠性、稳定性仍然是决定推理模型发展的重要因素。X7Z即热新闻——关注每天科技社会生活新变化gihot.com

此前,科大讯飞已联合华为打造出首个国产算力万卡平台“飞星一号”,并基于此完成了讯飞星火大模型多个版本的迭代训练。但推理模型的训练是一条全新的技术路线。目前,国产算力在单卡、集群、生态等方面距国际领先水平有一定差距,全面基于国产算力平台开展模型训练,面临着不少挑战。X7Z即热新闻——关注每天科技社会生活新变化gihot.com

“讯飞星火X1的训练推理涉及多个模型的强交互,需要跨任务传输数据及权重,训练任务类型也由在线实时响应变为离线高吞吐。这需要克服国产显卡带宽不足的短板。”殷兵说,在这种复杂的训练模式下,影响效率的因素非常多,后训练所需的算力甚至提升了一个数量级。最终,通过与华为进行联合攻关,团队自研出训练框架并进行效率优化,实现了模型算法在国产算力上的成功适配,端到端效率大幅提升。X7Z即热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-2-562-0.html推理模型:“慢思考”让决策更周全

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:新疆哈密上线 “满血版”DeepSeek-R1云服务

下一篇:新装置解决石油产业抽油杆防锈难题 油田小站捧回国际大奖

为你推荐
人工智能(AI)初创公司xAI创始人埃隆·马斯克近日表示:“在AI训练中,我们现在基本上耗尽了人类知识的累积总和。”之前研究也表明,人类生成的真实...
01-22
  至1月27日10时40分,经与交警部门协商,沈阳、葫芦岛、铁岭、锦州、大连、抚顺、盘锦、阜新、营口部分...
01-28
  《哪吒之魔童闹海》“高开疯走”,各地“抢吒儿”也抢疯了!  截至2月10日,影片《哪吒之魔童闹...
02-11
  一场公交车小型化潮流,正在席卷全国部分城市。  “宝宝巴士”越来越多  2025年初,不少青岛居民发现,新的公交车“缩水”了。  以前那种“巨无霸”的公交车越来越...
01-21
新华社北京1月21日电(记者张辛欣、张晓洁)工业和信息化部副部长张云明在21日国新办举行的“中国经济高质量发展成效”系列新闻发布会上表示,我国已有570多家工业企业入围全球研...
01-22
  2025年开年,中国汽车工业传捷报。  13日,中国汽车工业协会公布数据显示,2024年我国汽车产销...
01-21
1 月 26 日消息,吉利汽车集团甲醇汽车业务中心总经理陆玉凯透露,吉利今年推出两款醇电混动车型,即吉利全新一代“醇氢电混”轿车和 SUV 车型,相关车型顾名思义,就是能够...
01-27
随着电视剧的热播,“难哄桑延和温以凡为什么分手”也逐渐引起了广大粉丝的关注。该剧播出后,凭借精彩的剧情、精良的制作和精心的演绎,受到了观众的一致好评,拿...
02-20
近日,娱乐圈再次掀起波澜,焦点人物是黄景瑜,他被卷入了一场新的绯闻风暴,迅速吸引了大量粉丝和网友的关注。 事情起因于一张网友在富国岛健身房偶遇的照片。画面中,黄景瑜与一...
02-23
21世纪经济报道记者 唐唯珂 广州报道社会办医的洗牌期仍在继续。2025年1月,新华医疗挂牌转让旗下山东新华昌国医院投资管理有限公司55%股权...
01-25
  美国宾夕法尼亚大学科学家绘制出了迄今最完整、最详细的肾功能遗传图谱,发现1000多个基因有...
02-14
  大家好,我是经开三小二年级一班张皓轩。  今天天气晴朗,我怀着激动的心情,去参加了九紫宝藏陨石博物馆的活动,很开心同学们都热情高涨。  来到博物馆,我见到了期待已久...
01-21
  大众网记者 王一刚 报道  为进一步贯彻落实济南高新区教育文体部“三美”教师师德专题培训内容,加强师德师风建设,提升教师队伍素质,济南高新区玺悦幼教集团(玺悦园、...
01-21
  观点网讯:1月20日,汇贤产业信托宣布偿还贷款及其财务影响。  公告显示,于2025年1月20日,汇贤...
01-21
  摘要  【国际金价上演“狂飙”行情!华尔街交易商正“疯抢”黄金现货运往纽约】节后金价迭...
02-07
摩羯座的男性通常被认为是稳重、踏实、有责任感的代表。他们注重事业和目标,对自己和周...
01-22
射手座的男生通常都有一种独立自主、不拘小节的个性,他们喜欢追求自由和刺激。因此,如果...
01-22
瘦小的男人适合穿什么品牌?一、瘦小的男人适合穿什么品牌?没有特定的品牌适合瘦小的男人,关键是要选择适合自己身材和风格的衣服。因为每个人的身材和个性都不同,选择品牌只是其...
02-17
紧身裤模特T台走秀:时尚界的惊艳瞬间每当我走进时尚秀场,看到模特们在T台上自信地步伐,我的心中总是涌起一种莫名的激动。尤其是当紧身裤作为一个重要的时尚单品登上T台时,那种...
02-17
黄铮:用户的需求就是我们的方向标。1、多多国际全面招募海淘商家拼多多对商家下手了。据亿邦动力获悉,近日,拼多多站内的多多国际正全面招募海淘商家入驻,其中针对生活或来往境...
02-18
拼多多发力商家直播。据亿邦动力,拼多多正在招募在抖音直播的商家入驻多多直播,开启双平台直播。目前,在拼多多双开直播,平台可为商家提供智能中控系统支持,商家不需要招募及配置...
02-20
2月25日消息,平安健康日前推出名医AI助理服务“平安芯医”,全面开放AI辅助专家7*24小时健康咨询服务。该数字人作为真实医生的数字分身,依托数字人技术和医学大数据支撑下的AI...
02-26
2月28日消息,享道出行正式进驻河南洛阳,启动当地网约车业务运营。开城期间,洛阳市民及游客下载、注册享道出行APP即可获得价值百元的出行礼包,还有每日签到、钱包充值等优惠;3月1...
03-01
2025年1月22日,达歌生物(以下简称“达歌”),一家专注于针对不可成药靶点开发分子胶新药的生物技术公司,今日宣布公司于2024年底成功完成了超2000万美元的A+轮融资。本轮融资...
01-23
2024年12月31日,陕西兴燃科技有限公司(简称“兴燃科技”)完成近亿元战略融资,本次融资由陕西盈峰势乘绿色能源产业投资基金领投,西安天泓高端装备基金...
02-07
5070是英伟达新50系更具性价比的主流显卡,根据欧洲零售商Proshop的曝光,NVIDIA的中端显卡GeForce RTX 5070 Ti预计将在2月20日发布。 这也意味着RTX 5070 Ti首次...
01-24
开发商 id Software 于 5 年前推出了《毁灭战士:永恒》,并即将推出《毁灭战士:黑暗纪元》。即便这是公司推出的新《毁灭战士》系列的前传,但显然它将比开发商之前...
01-28
极目新闻通讯员 龚轩 “我的车定速巡航功能失效了,刹车也踩不动,怎么办?”2月1日凌晨5时11分,湖北省公安厅高警总队六支队指挥中心民警石路接到群众报警求助。情况紧急,石路立即...
02-02
2月9日是哈尔滨亚冬会开幕后的第二个比赛日,中国代表团以15金15银14铜继续领跑奖牌榜。在滑雪登山女子短距离、滑雪登山男子短距离、越野滑雪女子5公里(自由技术)、自由式滑雪...
02-10
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮