推理模型:“慢思考”让决策更周全

1年前 来源:科技日报 观看:135

2025年,“推理模型”成为人工智能行业的热词。从科大讯飞发布首个使用全国产算力训练的深度推理大模型——讯飞星火X1,到深度求索公司上线DeepSeek-R1推理模型,都将“推理模型”推到聚光灯下。88p即热新闻——关注每天科技社会生活新变化gihot.com

多数大语言模型具备一定推理能力,但推理模型具有更强大的推理、逻辑分析和决策能力。推理模型会运用各种推理技巧,如演绎推理、归纳推理、类比推理等,来模拟人类的思考方式。多位业内人士接受科技日报记者采访时说,在人工智能大模型不断迭代升级的浪潮中,推理模型以创新的技术为行业发展注入新活力,也让人们对人工智能未来发展有了更大想象空间。88p即热新闻——关注每天科技社会生活新变化gihot.com

推理模仿人类“慢思考”88p即热新闻——关注每天科技社会生活新变化gihot.com

在复旦大学计算机科学技术学院教授、上海市数据科学重点实验室主任肖仰华看来,过去,大模型的生成能力主要由语料决定。但专家级的推理能力并非“题海战术”可以实现,而是需要大模型具备强大的思维能力。88p即热新闻——关注每天科技社会生活新变化gihot.com

心理学家认为,人类存在两种思维模式。一种是主要用来对日常生活中的简单问题进行判断、决策的“快思考”;另一种则是用于对一些特定问题进行深入分析、研判的“慢思考”。“快思考”是人类基于大量日常经验、常识等,对简单问题作出的快速反应,往往在人们无意识之间完成,是一种更加接近“本能”的思考方式。与之相对,“慢思考”则需要调动大脑更多资源,遵循特定思维逻辑,对问题进行抽丝剥茧式分析研究,进而作出更加理性周全的决策。88p即热新闻——关注每天科技社会生活新变化gihot.com

作为人工智能的典型应用,大模型如今也有了“快”“慢”之别。88p即热新闻——关注每天科技社会生活新变化gihot.com

传统大语言通用模型的思维方式更像是“快思考”,其主要依靠算力对海量数据进行学习,实现对后续空白内容的快速预测,回答人类提出的各类问题,本质上是基于概率模型对可能的答案进行“猜测”。相比之下,推理大模型更有意识和逻辑,会在回答之前进行一段时间“慢思考”,依据特定思维链条,提供更全面解答。88p即热新闻——关注每天科技社会生活新变化gihot.com

科大讯飞研究院副院长殷兵举例说,讯飞星火X1在解答高考数学题等复杂题目时,会先将题目化繁为简,给出解题思路和步骤,呈现出全面的思考、分析和推理过程,进而给出准确的题目答案。殷兵说,推理模型更接近人类的“慢思考”方式。相较于通用大模型,推理模型在数学、医学、代码等领域,会产生更好的效果和意想不到的应用场景。88p即热新闻——关注每天科技社会生活新变化gihot.com

强化学习实现反思纠错88p即热新闻——关注每天科技社会生活新变化gihot.com

人类可以对复杂问题进行深入思考、理性分析的一大原因在于,大脑能够反思。通过对过去错误结果和正确经验的反馈学习,人类得以不断提升对复杂问题判断的正确率。推理模型中普遍应用的强化学习技术,在一定程度上模仿了人类的反思、纠错能力。88p即热新闻——关注每天科技社会生活新变化gihot.com

强化学习是一种机器学习方法,它允许智能体在与环境的交互中通过试错来学习最优策略。智能体在环境中执行相应行动,并根据行动的结果接收反馈,这些反馈信号则指导智能体调整下一步策略,循环往复,不断接近最优策略。88p即热新闻——关注每天科技社会生活新变化gihot.com

例如,DeepSeek-R1在训练推理模型时采用了一条此前鲜有人使用的完全依赖强化学习的训练路径,即仅根据模型输出答案的优劣等简单信息,对模型进行奖惩。这相当于在不施加任何指引的情况下,让一个刚出生不久的幼儿完全自主探索世界,并根据探索结果给予反馈,从而让幼儿在反复试错和成功中快速成长。88p即热新闻——关注每天科技社会生活新变化gihot.com

殷兵介绍,讯飞星火X1可以进行自我探索和反思验证,并基于答案正确与否的反馈信息进行强化训练。其中,自我评价迭代的评语模型能指出大模型存在的幻觉问题,大模型在得到评语模型的评价后可实现自我完善提升。同时,评语模型也通过强化训练进一步提升自身发现幻觉问题的能力。整个过程无需人员参与标注,而是依靠两个模型相互博弈、共同进化。多路径和反思迭代的强化学习技术使讯飞星火X1中能化繁为简,把复杂问题拆解成多个步骤进行思考推理,并进行自我反思探索。例如,它在解答高考数学题目时,不仅会实时呈现分步骤解题过程,还能对解题过程进行实时验算,反思纠正过程中的遗漏和问题,直至给出正确答案。而整个推理过程中形成的数据也可以被用于后续的强化学习。88p即热新闻——关注每天科技社会生活新变化gihot.com

可靠算力仍是关键因素88p即热新闻——关注每天科技社会生活新变化gihot.com

无论是模型训练还是推理,都需要算力平台作为硬件基础。虽然在特定领域,推理模型能够在实现同等效果的情况下消耗更少算力,但算力平台的可靠性、稳定性仍然是决定推理模型发展的重要因素。88p即热新闻——关注每天科技社会生活新变化gihot.com

此前,科大讯飞已联合华为打造出首个国产算力万卡平台“飞星一号”,并基于此完成了讯飞星火大模型多个版本的迭代训练。但推理模型的训练是一条全新的技术路线。目前,国产算力在单卡、集群、生态等方面距国际领先水平有一定差距,全面基于国产算力平台开展模型训练,面临着不少挑战。88p即热新闻——关注每天科技社会生活新变化gihot.com

“讯飞星火X1的训练推理涉及多个模型的强交互,需要跨任务传输数据及权重,训练任务类型也由在线实时响应变为离线高吞吐。这需要克服国产显卡带宽不足的短板。”殷兵说,在这种复杂的训练模式下,影响效率的因素非常多,后训练所需的算力甚至提升了一个数量级。最终,通过与华为进行联合攻关,团队自研出训练框架并进行效率优化,实现了模型算法在国产算力上的成功适配,端到端效率大幅提升。88p即热新闻——关注每天科技社会生活新变化gihot.com

2025年,“推理模型”成为人工智能行业的热词。从科大讯飞发布首个使用全国产算力训练的深度推理大模型——讯飞星火X1,到深度求索公司上线DeepSeek-R1推理模型,都将“推理模型”推到聚光灯下。88p即热新闻——关注每天科技社会生活新变化gihot.com

多数大语言模型具备一定推理能力,但推理模型具有更强大的推理、逻辑分析和决策能力。推理模型会运用各种推理技巧,如演绎推理、归纳推理、类比推理等,来模拟人类的思考方式。多位业内人士接受科技日报记者采访时说,在人工智能大模型不断迭代升级的浪潮中,推理模型以创新的技术为行业发展注入新活力,也让人们对人工智能未来发展有了更大想象空间。88p即热新闻——关注每天科技社会生活新变化gihot.com

推理模仿人类“慢思考”88p即热新闻——关注每天科技社会生活新变化gihot.com

在复旦大学计算机科学技术学院教授、上海市数据科学重点实验室主任肖仰华看来,过去,大模型的生成能力主要由语料决定。但专家级的推理能力并非“题海战术”可以实现,而是需要大模型具备强大的思维能力。88p即热新闻——关注每天科技社会生活新变化gihot.com

心理学家认为,人类存在两种思维模式。一种是主要用来对日常生活中的简单问题进行判断、决策的“快思考”;另一种则是用于对一些特定问题进行深入分析、研判的“慢思考”。“快思考”是人类基于大量日常经验、常识等,对简单问题作出的快速反应,往往在人们无意识之间完成,是一种更加接近“本能”的思考方式。与之相对,“慢思考”则需要调动大脑更多资源,遵循特定思维逻辑,对问题进行抽丝剥茧式分析研究,进而作出更加理性周全的决策。88p即热新闻——关注每天科技社会生活新变化gihot.com

作为人工智能的典型应用,大模型如今也有了“快”“慢”之别。88p即热新闻——关注每天科技社会生活新变化gihot.com

传统大语言通用模型的思维方式更像是“快思考”,其主要依靠算力对海量数据进行学习,实现对后续空白内容的快速预测,回答人类提出的各类问题,本质上是基于概率模型对可能的答案进行“猜测”。相比之下,推理大模型更有意识和逻辑,会在回答之前进行一段时间“慢思考”,依据特定思维链条,提供更全面解答。88p即热新闻——关注每天科技社会生活新变化gihot.com

科大讯飞研究院副院长殷兵举例说,讯飞星火X1在解答高考数学题等复杂题目时,会先将题目化繁为简,给出解题思路和步骤,呈现出全面的思考、分析和推理过程,进而给出准确的题目答案。殷兵说,推理模型更接近人类的“慢思考”方式。相较于通用大模型,推理模型在数学、医学、代码等领域,会产生更好的效果和意想不到的应用场景。88p即热新闻——关注每天科技社会生活新变化gihot.com

强化学习实现反思纠错88p即热新闻——关注每天科技社会生活新变化gihot.com

人类可以对复杂问题进行深入思考、理性分析的一大原因在于,大脑能够反思。通过对过去错误结果和正确经验的反馈学习,人类得以不断提升对复杂问题判断的正确率。推理模型中普遍应用的强化学习技术,在一定程度上模仿了人类的反思、纠错能力。88p即热新闻——关注每天科技社会生活新变化gihot.com

强化学习是一种机器学习方法,它允许智能体在与环境的交互中通过试错来学习最优策略。智能体在环境中执行相应行动,并根据行动的结果接收反馈,这些反馈信号则指导智能体调整下一步策略,循环往复,不断接近最优策略。88p即热新闻——关注每天科技社会生活新变化gihot.com

例如,DeepSeek-R1在训练推理模型时采用了一条此前鲜有人使用的完全依赖强化学习的训练路径,即仅根据模型输出答案的优劣等简单信息,对模型进行奖惩。这相当于在不施加任何指引的情况下,让一个刚出生不久的幼儿完全自主探索世界,并根据探索结果给予反馈,从而让幼儿在反复试错和成功中快速成长。88p即热新闻——关注每天科技社会生活新变化gihot.com

殷兵介绍,讯飞星火X1可以进行自我探索和反思验证,并基于答案正确与否的反馈信息进行强化训练。其中,自我评价迭代的评语模型能指出大模型存在的幻觉问题,大模型在得到评语模型的评价后可实现自我完善提升。同时,评语模型也通过强化训练进一步提升自身发现幻觉问题的能力。整个过程无需人员参与标注,而是依靠两个模型相互博弈、共同进化。多路径和反思迭代的强化学习技术使讯飞星火X1中能化繁为简,把复杂问题拆解成多个步骤进行思考推理,并进行自我反思探索。例如,它在解答高考数学题目时,不仅会实时呈现分步骤解题过程,还能对解题过程进行实时验算,反思纠正过程中的遗漏和问题,直至给出正确答案。而整个推理过程中形成的数据也可以被用于后续的强化学习。88p即热新闻——关注每天科技社会生活新变化gihot.com

可靠算力仍是关键因素88p即热新闻——关注每天科技社会生活新变化gihot.com

无论是模型训练还是推理,都需要算力平台作为硬件基础。虽然在特定领域,推理模型能够在实现同等效果的情况下消耗更少算力,但算力平台的可靠性、稳定性仍然是决定推理模型发展的重要因素。88p即热新闻——关注每天科技社会生活新变化gihot.com

此前,科大讯飞已联合华为打造出首个国产算力万卡平台“飞星一号”,并基于此完成了讯飞星火大模型多个版本的迭代训练。但推理模型的训练是一条全新的技术路线。目前,国产算力在单卡、集群、生态等方面距国际领先水平有一定差距,全面基于国产算力平台开展模型训练,面临着不少挑战。88p即热新闻——关注每天科技社会生活新变化gihot.com

“讯飞星火X1的训练推理涉及多个模型的强交互,需要跨任务传输数据及权重,训练任务类型也由在线实时响应变为离线高吞吐。这需要克服国产显卡带宽不足的短板。”殷兵说,在这种复杂的训练模式下,影响效率的因素非常多,后训练所需的算力甚至提升了一个数量级。最终,通过与华为进行联合攻关,团队自研出训练框架并进行效率优化,实现了模型算法在国产算力上的成功适配,端到端效率大幅提升。88p即热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-2-562-0.html推理模型:“慢思考”让决策更周全

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:新疆哈密上线 “满血版”DeepSeek-R1云服务

下一篇:新装置解决石油产业抽油杆防锈难题 油田小站捧回国际大奖

为你推荐
最新一期《科学》杂志发表论文称,大约350万年前生活在南非的人类祖先——南方古猿,其实是“吃素的”。其饮食几乎完全由植物构成,鲜少或根...
01-23
美国研究人员开发出一个新的人工智能模型,经过大量数据的训练后,该模型能精确预测各种人体细胞内部的基因表达情况,将为生物和医学研究带来便利。这个...
01-27
  1月14日,2025年除夕火车票正式开售。  2025年春节从1月28日(除夕)开始,至2月4日(正月初七)...
01-21
    彩虹宝石点缀表盘  彩色系简约设计表款  紫色表盘  “火烈鸟蓝”表盘  “中国...
02-13
2024年券商业绩如何?可以从率先一批披露的业绩预报中窥见一二。伴随着首批券商业绩预告出炉,2024年券商业绩表现逐渐浮出水面。记者注意到,除一些头部券商延续了稳健增长的态势...
01-21
  开年以来,多地将稳楼市作为重要工作。  1月14日,郑州市房协发出倡议书,倡议全市房企在“春节...
01-21
  广州日报讯(全媒体记者邓莉)今年将是自主高端新能源车崛起的一年。招银国际在1月发布的最新报...
01-23
1 月 29 日消息,据汽车研究机构 Rho Motion 预测,到 2025 年,全球电动汽车(EV)的销量将突破 2000 万辆,这标志着该行业又将迎来一年的增长。注意到,Rho Motion 几周前曾报...
01-29
《余烬之上》近期热度飙升,成为众多观众热议的话题,在各大手机软件上都能看到相关资讯。第18集的剧情尤其引人关注。逊哥的车被撞翻后,从货车上走下两人,黑衣人...
02-19
《逃命游戏:无限重启》播出后,许多观众对剧情发展和角色命运产生了浓厚兴趣。该剧由夏婧苒和宋旭主演,于每天上午10点更新,属于复仇题材,在汪汪剧场播出。故事讲...
02-21
21世纪经济报道记者季媛媛 上海报道 HPV是一种易感染人体表皮和黏膜鳞状上皮的病毒,已被发现有两百多种型别,根据致癌性的不同分为高危型别...
01-21
编者按:一个人工智能(AI)机器人,在短短8天内独立完成了668项实验,合成了668种化合物,并成功研发出一种全新的化学催化剂。这一壮举令人赞叹。AI...
02-11
  大众网记者 杨涛报道  11月19日,白俄罗斯共和国职业教育研究院校长戈卢博夫斯基•瓦莱里•尼古拉耶维奇副教授, 国际合作中心主任科列伊妮娜•奥尔加•瓦列耶夫娜一...
01-21
    王绶琯(1923—2021)  天文学家,教育家,中国射电天文学开创者,中国现代天体物理学奠基人之...
01-22
  中国网财经1月15日讯 持牌消金进入纵深发展阶段后,在重塑业务模式的过程中,消费金融公司们既...
01-22
  中国网财经2月8日讯 日前,国家金融监督管理总局上海监管局核准高建辉中海信托股份有限公司总...
02-11
天秤座的男生注重外貌和气质,他们喜欢温柔、优雅、有内涵的女人。下面就让我们来看看天...
01-22
天蝎座的男生通常被认为是深情而又神秘的存在。他们对感情非常认真,一旦决定与某人交往...
01-22
日系穿搭特点?一、日系穿搭的特点在穿搭方面日系风简直把休闲做到了极致,要说亚洲潮流文化发祥地,原宿绝对是一大圣地这里除了有常见的时尚大牌,还有亲民的牌子,日系穿搭的主要特...
02-07
穿搭化妆风格? 菲律宾穿搭风格?一、穿搭化妆风格?每个人的气质不同,在穿搭上有很多种风格,所以,妆容方面也是有很多风格的。那么,接下来我们一起来看看妆容有哪些风格吧!感兴趣的朋...
02-07
阿里将与苹果强强联手。在阿联酋迪拜举办的World Governments Summit 2025峰会上,阿里巴巴联合创始人、董事局主席蔡崇信回应阿里与苹果合作传闻,他表示,“苹果在中国需要一个...
02-14
2月18日消息,京东宣布与学而思签订战略合作协议,明确了未来三年内,学而思在京东全渠道销售50亿元、覆盖超100万用户的目标。根据协议,双方将聚焦“人、货、场”的全面协同,通过产...
02-18
1月中旬,经过近两个半小时的飞行,快乐的Haha跟随主人从武汉飞抵海口,开启2025年春节的度假之旅。Haha是一只比熊犬,今年春节期间出门...
02-07
3月5日消息,上海小方制药股份有限公司董事长方之光一行近日赴药易购参观交流,药易购董事长李燕飞陪同参观并出席战略合作洽谈会。双方就BC端融合共生、品牌价值共建、产业生态...
03-09
1月20日晚,河化股份(000953.SZ)发布2024年度业绩预告,预计2024年实现营业收入1.9亿元-2.5亿元;实现净利润7800万元-8600万元,同比扭亏为盈。业绩变动的主要原因是:河化股份将35...
01-21
2024年末,一位科技创业者火了。作者 | 王思琪来源 | 投资家(ID:touzijias)2024年末,一位科技创业者火了。2025年初,这位创业者再度爆火。近日,中国科技行业因一位85后年轻人现身《...
01-24
弥助是《刺客信条:影》双主角之一,他违背了系列的一个重要传统——他不是刺客,也没有刺客通常拥有的能力,比如潜行或暗杀。 近日《刺客信条:影》副总监Simon Lemay...
01-27
《原子之心》DLC3“深海迷情(Enchantment Under the Sea)”现已上线,售价10美元,国区售价40元,自带简体中文和中文配音。截止发稿时,该DLC已收录55篇评价,好评率94%,为...
01-31
当地时间2月6日,美国马萨诸塞州联邦法官乔治·图尔将联邦雇员接受特朗普政府“买断计划”的最后期限推迟至2月10日。法官在裁决中表示,在相关法律问题得到进一步审理之前,该计...
02-07
春节档电影《哪吒之魔童闹海》(以下称《哪吒2》)将在当地时间2月12日起于北美地区开启特别制式点映,2月14日正式上映。目前预售场次火爆,上座率达90%以上,多个热门场次均已售罄,一...
02-10
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮