推理模型:“慢思考”让决策更周全

1年前 来源:科技日报 观看:141

2025年,“推理模型”成为人工智能行业的热词。从科大讯飞发布首个使用全国产算力训练的深度推理大模型——讯飞星火X1,到深度求索公司上线DeepSeek-R1推理模型,都将“推理模型”推到聚光灯下。Ahe即热新闻——关注每天科技社会生活新变化gihot.com

多数大语言模型具备一定推理能力,但推理模型具有更强大的推理、逻辑分析和决策能力。推理模型会运用各种推理技巧,如演绎推理、归纳推理、类比推理等,来模拟人类的思考方式。多位业内人士接受科技日报记者采访时说,在人工智能大模型不断迭代升级的浪潮中,推理模型以创新的技术为行业发展注入新活力,也让人们对人工智能未来发展有了更大想象空间。Ahe即热新闻——关注每天科技社会生活新变化gihot.com

推理模仿人类“慢思考”Ahe即热新闻——关注每天科技社会生活新变化gihot.com

在复旦大学计算机科学技术学院教授、上海市数据科学重点实验室主任肖仰华看来,过去,大模型的生成能力主要由语料决定。但专家级的推理能力并非“题海战术”可以实现,而是需要大模型具备强大的思维能力。Ahe即热新闻——关注每天科技社会生活新变化gihot.com

心理学家认为,人类存在两种思维模式。一种是主要用来对日常生活中的简单问题进行判断、决策的“快思考”;另一种则是用于对一些特定问题进行深入分析、研判的“慢思考”。“快思考”是人类基于大量日常经验、常识等,对简单问题作出的快速反应,往往在人们无意识之间完成,是一种更加接近“本能”的思考方式。与之相对,“慢思考”则需要调动大脑更多资源,遵循特定思维逻辑,对问题进行抽丝剥茧式分析研究,进而作出更加理性周全的决策。Ahe即热新闻——关注每天科技社会生活新变化gihot.com

作为人工智能的典型应用,大模型如今也有了“快”“慢”之别。Ahe即热新闻——关注每天科技社会生活新变化gihot.com

传统大语言通用模型的思维方式更像是“快思考”,其主要依靠算力对海量数据进行学习,实现对后续空白内容的快速预测,回答人类提出的各类问题,本质上是基于概率模型对可能的答案进行“猜测”。相比之下,推理大模型更有意识和逻辑,会在回答之前进行一段时间“慢思考”,依据特定思维链条,提供更全面解答。Ahe即热新闻——关注每天科技社会生活新变化gihot.com

科大讯飞研究院副院长殷兵举例说,讯飞星火X1在解答高考数学题等复杂题目时,会先将题目化繁为简,给出解题思路和步骤,呈现出全面的思考、分析和推理过程,进而给出准确的题目答案。殷兵说,推理模型更接近人类的“慢思考”方式。相较于通用大模型,推理模型在数学、医学、代码等领域,会产生更好的效果和意想不到的应用场景。Ahe即热新闻——关注每天科技社会生活新变化gihot.com

强化学习实现反思纠错Ahe即热新闻——关注每天科技社会生活新变化gihot.com

人类可以对复杂问题进行深入思考、理性分析的一大原因在于,大脑能够反思。通过对过去错误结果和正确经验的反馈学习,人类得以不断提升对复杂问题判断的正确率。推理模型中普遍应用的强化学习技术,在一定程度上模仿了人类的反思、纠错能力。Ahe即热新闻——关注每天科技社会生活新变化gihot.com

强化学习是一种机器学习方法,它允许智能体在与环境的交互中通过试错来学习最优策略。智能体在环境中执行相应行动,并根据行动的结果接收反馈,这些反馈信号则指导智能体调整下一步策略,循环往复,不断接近最优策略。Ahe即热新闻——关注每天科技社会生活新变化gihot.com

例如,DeepSeek-R1在训练推理模型时采用了一条此前鲜有人使用的完全依赖强化学习的训练路径,即仅根据模型输出答案的优劣等简单信息,对模型进行奖惩。这相当于在不施加任何指引的情况下,让一个刚出生不久的幼儿完全自主探索世界,并根据探索结果给予反馈,从而让幼儿在反复试错和成功中快速成长。Ahe即热新闻——关注每天科技社会生活新变化gihot.com

殷兵介绍,讯飞星火X1可以进行自我探索和反思验证,并基于答案正确与否的反馈信息进行强化训练。其中,自我评价迭代的评语模型能指出大模型存在的幻觉问题,大模型在得到评语模型的评价后可实现自我完善提升。同时,评语模型也通过强化训练进一步提升自身发现幻觉问题的能力。整个过程无需人员参与标注,而是依靠两个模型相互博弈、共同进化。多路径和反思迭代的强化学习技术使讯飞星火X1中能化繁为简,把复杂问题拆解成多个步骤进行思考推理,并进行自我反思探索。例如,它在解答高考数学题目时,不仅会实时呈现分步骤解题过程,还能对解题过程进行实时验算,反思纠正过程中的遗漏和问题,直至给出正确答案。而整个推理过程中形成的数据也可以被用于后续的强化学习。Ahe即热新闻——关注每天科技社会生活新变化gihot.com

可靠算力仍是关键因素Ahe即热新闻——关注每天科技社会生活新变化gihot.com

无论是模型训练还是推理,都需要算力平台作为硬件基础。虽然在特定领域,推理模型能够在实现同等效果的情况下消耗更少算力,但算力平台的可靠性、稳定性仍然是决定推理模型发展的重要因素。Ahe即热新闻——关注每天科技社会生活新变化gihot.com

此前,科大讯飞已联合华为打造出首个国产算力万卡平台“飞星一号”,并基于此完成了讯飞星火大模型多个版本的迭代训练。但推理模型的训练是一条全新的技术路线。目前,国产算力在单卡、集群、生态等方面距国际领先水平有一定差距,全面基于国产算力平台开展模型训练,面临着不少挑战。Ahe即热新闻——关注每天科技社会生活新变化gihot.com

“讯飞星火X1的训练推理涉及多个模型的强交互,需要跨任务传输数据及权重,训练任务类型也由在线实时响应变为离线高吞吐。这需要克服国产显卡带宽不足的短板。”殷兵说,在这种复杂的训练模式下,影响效率的因素非常多,后训练所需的算力甚至提升了一个数量级。最终,通过与华为进行联合攻关,团队自研出训练框架并进行效率优化,实现了模型算法在国产算力上的成功适配,端到端效率大幅提升。Ahe即热新闻——关注每天科技社会生活新变化gihot.com

2025年,“推理模型”成为人工智能行业的热词。从科大讯飞发布首个使用全国产算力训练的深度推理大模型——讯飞星火X1,到深度求索公司上线DeepSeek-R1推理模型,都将“推理模型”推到聚光灯下。Ahe即热新闻——关注每天科技社会生活新变化gihot.com

多数大语言模型具备一定推理能力,但推理模型具有更强大的推理、逻辑分析和决策能力。推理模型会运用各种推理技巧,如演绎推理、归纳推理、类比推理等,来模拟人类的思考方式。多位业内人士接受科技日报记者采访时说,在人工智能大模型不断迭代升级的浪潮中,推理模型以创新的技术为行业发展注入新活力,也让人们对人工智能未来发展有了更大想象空间。Ahe即热新闻——关注每天科技社会生活新变化gihot.com

推理模仿人类“慢思考”Ahe即热新闻——关注每天科技社会生活新变化gihot.com

在复旦大学计算机科学技术学院教授、上海市数据科学重点实验室主任肖仰华看来,过去,大模型的生成能力主要由语料决定。但专家级的推理能力并非“题海战术”可以实现,而是需要大模型具备强大的思维能力。Ahe即热新闻——关注每天科技社会生活新变化gihot.com

心理学家认为,人类存在两种思维模式。一种是主要用来对日常生活中的简单问题进行判断、决策的“快思考”;另一种则是用于对一些特定问题进行深入分析、研判的“慢思考”。“快思考”是人类基于大量日常经验、常识等,对简单问题作出的快速反应,往往在人们无意识之间完成,是一种更加接近“本能”的思考方式。与之相对,“慢思考”则需要调动大脑更多资源,遵循特定思维逻辑,对问题进行抽丝剥茧式分析研究,进而作出更加理性周全的决策。Ahe即热新闻——关注每天科技社会生活新变化gihot.com

作为人工智能的典型应用,大模型如今也有了“快”“慢”之别。Ahe即热新闻——关注每天科技社会生活新变化gihot.com

传统大语言通用模型的思维方式更像是“快思考”,其主要依靠算力对海量数据进行学习,实现对后续空白内容的快速预测,回答人类提出的各类问题,本质上是基于概率模型对可能的答案进行“猜测”。相比之下,推理大模型更有意识和逻辑,会在回答之前进行一段时间“慢思考”,依据特定思维链条,提供更全面解答。Ahe即热新闻——关注每天科技社会生活新变化gihot.com

科大讯飞研究院副院长殷兵举例说,讯飞星火X1在解答高考数学题等复杂题目时,会先将题目化繁为简,给出解题思路和步骤,呈现出全面的思考、分析和推理过程,进而给出准确的题目答案。殷兵说,推理模型更接近人类的“慢思考”方式。相较于通用大模型,推理模型在数学、医学、代码等领域,会产生更好的效果和意想不到的应用场景。Ahe即热新闻——关注每天科技社会生活新变化gihot.com

强化学习实现反思纠错Ahe即热新闻——关注每天科技社会生活新变化gihot.com

人类可以对复杂问题进行深入思考、理性分析的一大原因在于,大脑能够反思。通过对过去错误结果和正确经验的反馈学习,人类得以不断提升对复杂问题判断的正确率。推理模型中普遍应用的强化学习技术,在一定程度上模仿了人类的反思、纠错能力。Ahe即热新闻——关注每天科技社会生活新变化gihot.com

强化学习是一种机器学习方法,它允许智能体在与环境的交互中通过试错来学习最优策略。智能体在环境中执行相应行动,并根据行动的结果接收反馈,这些反馈信号则指导智能体调整下一步策略,循环往复,不断接近最优策略。Ahe即热新闻——关注每天科技社会生活新变化gihot.com

例如,DeepSeek-R1在训练推理模型时采用了一条此前鲜有人使用的完全依赖强化学习的训练路径,即仅根据模型输出答案的优劣等简单信息,对模型进行奖惩。这相当于在不施加任何指引的情况下,让一个刚出生不久的幼儿完全自主探索世界,并根据探索结果给予反馈,从而让幼儿在反复试错和成功中快速成长。Ahe即热新闻——关注每天科技社会生活新变化gihot.com

殷兵介绍,讯飞星火X1可以进行自我探索和反思验证,并基于答案正确与否的反馈信息进行强化训练。其中,自我评价迭代的评语模型能指出大模型存在的幻觉问题,大模型在得到评语模型的评价后可实现自我完善提升。同时,评语模型也通过强化训练进一步提升自身发现幻觉问题的能力。整个过程无需人员参与标注,而是依靠两个模型相互博弈、共同进化。多路径和反思迭代的强化学习技术使讯飞星火X1中能化繁为简,把复杂问题拆解成多个步骤进行思考推理,并进行自我反思探索。例如,它在解答高考数学题目时,不仅会实时呈现分步骤解题过程,还能对解题过程进行实时验算,反思纠正过程中的遗漏和问题,直至给出正确答案。而整个推理过程中形成的数据也可以被用于后续的强化学习。Ahe即热新闻——关注每天科技社会生活新变化gihot.com

可靠算力仍是关键因素Ahe即热新闻——关注每天科技社会生活新变化gihot.com

无论是模型训练还是推理,都需要算力平台作为硬件基础。虽然在特定领域,推理模型能够在实现同等效果的情况下消耗更少算力,但算力平台的可靠性、稳定性仍然是决定推理模型发展的重要因素。Ahe即热新闻——关注每天科技社会生活新变化gihot.com

此前,科大讯飞已联合华为打造出首个国产算力万卡平台“飞星一号”,并基于此完成了讯飞星火大模型多个版本的迭代训练。但推理模型的训练是一条全新的技术路线。目前,国产算力在单卡、集群、生态等方面距国际领先水平有一定差距,全面基于国产算力平台开展模型训练,面临着不少挑战。Ahe即热新闻——关注每天科技社会生活新变化gihot.com

“讯飞星火X1的训练推理涉及多个模型的强交互,需要跨任务传输数据及权重,训练任务类型也由在线实时响应变为离线高吞吐。这需要克服国产显卡带宽不足的短板。”殷兵说,在这种复杂的训练模式下,影响效率的因素非常多,后训练所需的算力甚至提升了一个数量级。最终,通过与华为进行联合攻关,团队自研出训练框架并进行效率优化,实现了模型算法在国产算力上的成功适配,端到端效率大幅提升。Ahe即热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-2-562-0.html推理模型:“慢思考”让决策更周全

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:新疆哈密上线 “满血版”DeepSeek-R1云服务

下一篇:新装置解决石油产业抽油杆防锈难题 油田小站捧回国际大奖

为你推荐
  近年来,一些不法分子打着“金融创新”“区块链”的旗号,通过发行所谓“虚拟货币”“虚拟资产...
01-21
比二维码更加安全可控的“三维码”、追赶国际暗网情报前沿的中国技术、具有“断代”竞争力的AR/VR光学方案……第八届中关村国际前沿...
01-21
  今天是春运第12天,交通出行迎来节前客流高峰。交通部门积极应对不利天气对春运带来的影响,全...
01-27
  中新社北京2月17日电(记者高凯)据猫眼专业版数据,截至北京时间2月17日14点45分,中国动画电影...
02-18
  编者按:年关将近,在外打拼一年的你,返乡的心情是否雀跃不已?家中的亲人,想必也是如此。今年回家,你给家人准备了什么礼物?他们会有怎样的期待?海报新闻记者在北京、上海、济...
01-22
  中新经纬1月21日电 国新办21日举行“中国经济高质量发展成效”系列新闻发布会,介绍“大力推进新型工业化 推动经济高质量发展”有关情况。工业和信息化部副部长张云明在...
01-21
1 月 27 日消息,鸿蒙智行官方今日公布了旗下车型新年 OTA 升级详情,新版本将支持eAES 增强型自动紧急转向、新年主题 ADS App 等功能。附鸿蒙智行新年 OTA 升级详情如...
01-28
1 月 31 日消息,据小鹏汽车官方,近日该公司先后在都柏林与赫尔辛基举办发布会,小鹏 G9 在芬兰登场,而小鹏 G6 在芬兰与爱尔兰同时亮相。▲ 图源小鹏汽车公众号在此之前,...
02-01
最近热播的电视剧《春信不至夜莺来》引起了广泛关注。无论是演员的颜值、出色的演技还是富有戏剧性的剧情,都吸引了大量观众的喜爱。该剧的剧情介绍也成为了...
02-19
《余烬之上》近日正式播出,这部备受期待的剧集在宣传阶段就引起了广泛关注。观众们对剧集的热情持续高涨,特别是第27集的剧情成为讨论的热点。当年,戚美华通过...
02-22
  近期,呼吸道传染病进入高发季。中国疾控中心传染病预防控制所所长阚飙表示,目前到医院就诊的、症状类似流感的患者中,流感病毒、鼻病毒、人偏肺病毒和肺炎支原体等病...
01-21
这里是《21健讯Daily》,欢迎与21世纪经济报道新健康团队共同关注医药健康行业最新事件!政策动向国家药监局发布关于26批次不符合规定化妆品...
02-13
  大众网记者 杨涛报道  近日,在第十六届山东省大学生科技节——山东省大学生消防安全技能大赛中,青岛港湾职业技术学院应急管理学院23级建筑消防技术与应急救援技术专...
01-21
大家好!我是童学会小记者王馨涵,6月16日我们去创聚冰雪滑冰,这是我第一次走进真冰场。刚到滑冰场,看着那些大姐姐们在冰上如在平地般自由的运动,感觉很简单,毕竟自己也是滑过旱冰...
01-21
广东省人民政府1月21日印发的《关于高质量发展资本市场助力广东现代化建设的若干措施》(下称《措...
01-23
  摘要  【钢银电商:本周全国城市钢材库存环比增加14.39%建材库存增幅超两成】钢银电商27日...
01-28
星座配对一直是人们关注的话题,其中双子座男和处女座女的组合备受瞩目。他们之间的配对...
01-22
巨蟹座的男生通常是温柔、体贴和敏感的,他们对待感情非常认真。如果你想知道一个巨蟹男...
01-22
男生如何穿搭帅气? 男生夏季穿搭推荐?一、男生如何穿搭帅气?如果是身材比较高挑又比较削瘦的男生可以穿那种韩版的外套,加上卡其色的休闲裤,或者是运动卫衣套装,还有就是穿那种风...
02-12
儿童口号大全?  1、宝贝向前冲,这里属于你。  2、精彩艺术,尽放未来。  3、宝贝可爱,我们相伴。  4、来鹿优优,做全能宝宝。  5、希望,由此开始;未来,由此腾飞。  6、关...
02-12
2月16日消息,苏宁易采云近日先后中标多个重点项目,作为综合实物电商供应商,将充分发挥系统平台及自营供应链优势,助力政企采购更高效更便捷。其中,苏宁易采云中标江苏省政府采购...
02-17
2月20日消息,展辰集团董事、工业漆事业部总经理张君一行近日到访涂多多。国联股份高级副总裁、涂多多CEO刘斋,涂多多高级副总裁、跨境产发部总经理邵春生代表公司热情接待来访...
02-20
2月14日消息,美团宣布,本周将正式在广西部分城市首次上线“超时免罚”试点。在试点区域,美团将全面取消超时扣款,将众包骑手的“超时扣款”改为积分制度,并辅以支持策略,如培训帮...
02-14
2月15日消息,星图金融旗下苏宁支付近日与北京力众华援技术服务有限公司(下称“力众华援”)达成综合支付业务合作。苏宁支付所提供的综合支付方案成效显著,对于力众华援而言,该方...
02-15
第二家站在“镍王”巨人肩膀上的IPO要来了!近日,麦田能源股份有限公司(以下简称“麦田能源”)在浙江证监局办理辅导备案登记,辅导机构国泰君安。而这是...
02-07
自去年底开始,黄金多头优势逐渐退却,国际现货黄金价格经历几次大跌后一度跌下2700关口,多空进入漫长的震荡周期,多头始终无法找到再度冲高的时机。  北京时间1月21日,国际现货...
02-09
《博德之门3》开发商拉瑞安工作室的发行总监 MichaelDouse 最近在社交媒体上表示,希望 Steam 能够为想要支持一些独立游戏开发者,愿意花更多钱的玩家提供更多的...
01-28
在最新一期的 PC Gamer 杂志中,《艾尔登法环:黑夜君临》总监石崎淳也接受了采访,并再次重申新作的肉鸽玩法是为了浓缩游戏的体验,并明确表示这不是为了“跟风”。 ...
02-04
今天是哈尔滨亚冬会短道速滑比赛首日。今天上午9时,短道速滑项目开赛。本届亚冬会短道速滑一共有9个小项,今天主要进行的是多个项目的预赛和半决赛。从9时开始,首先分别是女子...
02-07
2月8日,@抖音集团李亮 回应封禁张兰、汪小菲账号。简单说一下这个事件的处理过程:2月5日晚,账号“我是夏小健”发布所谓“包机”视频;6日,在逝者家属否认包机后(热点事件常有反转,...
02-08
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮