推理模型:“慢思考”让决策更周全

1年前 来源:科技日报 观看:128

2025年,“推理模型”成为人工智能行业的热词。从科大讯飞发布首个使用全国产算力训练的深度推理大模型——讯飞星火X1,到深度求索公司上线DeepSeek-R1推理模型,都将“推理模型”推到聚光灯下。Oug即热新闻——关注每天科技社会生活新变化gihot.com

多数大语言模型具备一定推理能力,但推理模型具有更强大的推理、逻辑分析和决策能力。推理模型会运用各种推理技巧,如演绎推理、归纳推理、类比推理等,来模拟人类的思考方式。多位业内人士接受科技日报记者采访时说,在人工智能大模型不断迭代升级的浪潮中,推理模型以创新的技术为行业发展注入新活力,也让人们对人工智能未来发展有了更大想象空间。Oug即热新闻——关注每天科技社会生活新变化gihot.com

推理模仿人类“慢思考”Oug即热新闻——关注每天科技社会生活新变化gihot.com

在复旦大学计算机科学技术学院教授、上海市数据科学重点实验室主任肖仰华看来,过去,大模型的生成能力主要由语料决定。但专家级的推理能力并非“题海战术”可以实现,而是需要大模型具备强大的思维能力。Oug即热新闻——关注每天科技社会生活新变化gihot.com

心理学家认为,人类存在两种思维模式。一种是主要用来对日常生活中的简单问题进行判断、决策的“快思考”;另一种则是用于对一些特定问题进行深入分析、研判的“慢思考”。“快思考”是人类基于大量日常经验、常识等,对简单问题作出的快速反应,往往在人们无意识之间完成,是一种更加接近“本能”的思考方式。与之相对,“慢思考”则需要调动大脑更多资源,遵循特定思维逻辑,对问题进行抽丝剥茧式分析研究,进而作出更加理性周全的决策。Oug即热新闻——关注每天科技社会生活新变化gihot.com

作为人工智能的典型应用,大模型如今也有了“快”“慢”之别。Oug即热新闻——关注每天科技社会生活新变化gihot.com

传统大语言通用模型的思维方式更像是“快思考”,其主要依靠算力对海量数据进行学习,实现对后续空白内容的快速预测,回答人类提出的各类问题,本质上是基于概率模型对可能的答案进行“猜测”。相比之下,推理大模型更有意识和逻辑,会在回答之前进行一段时间“慢思考”,依据特定思维链条,提供更全面解答。Oug即热新闻——关注每天科技社会生活新变化gihot.com

科大讯飞研究院副院长殷兵举例说,讯飞星火X1在解答高考数学题等复杂题目时,会先将题目化繁为简,给出解题思路和步骤,呈现出全面的思考、分析和推理过程,进而给出准确的题目答案。殷兵说,推理模型更接近人类的“慢思考”方式。相较于通用大模型,推理模型在数学、医学、代码等领域,会产生更好的效果和意想不到的应用场景。Oug即热新闻——关注每天科技社会生活新变化gihot.com

强化学习实现反思纠错Oug即热新闻——关注每天科技社会生活新变化gihot.com

人类可以对复杂问题进行深入思考、理性分析的一大原因在于,大脑能够反思。通过对过去错误结果和正确经验的反馈学习,人类得以不断提升对复杂问题判断的正确率。推理模型中普遍应用的强化学习技术,在一定程度上模仿了人类的反思、纠错能力。Oug即热新闻——关注每天科技社会生活新变化gihot.com

强化学习是一种机器学习方法,它允许智能体在与环境的交互中通过试错来学习最优策略。智能体在环境中执行相应行动,并根据行动的结果接收反馈,这些反馈信号则指导智能体调整下一步策略,循环往复,不断接近最优策略。Oug即热新闻——关注每天科技社会生活新变化gihot.com

例如,DeepSeek-R1在训练推理模型时采用了一条此前鲜有人使用的完全依赖强化学习的训练路径,即仅根据模型输出答案的优劣等简单信息,对模型进行奖惩。这相当于在不施加任何指引的情况下,让一个刚出生不久的幼儿完全自主探索世界,并根据探索结果给予反馈,从而让幼儿在反复试错和成功中快速成长。Oug即热新闻——关注每天科技社会生活新变化gihot.com

殷兵介绍,讯飞星火X1可以进行自我探索和反思验证,并基于答案正确与否的反馈信息进行强化训练。其中,自我评价迭代的评语模型能指出大模型存在的幻觉问题,大模型在得到评语模型的评价后可实现自我完善提升。同时,评语模型也通过强化训练进一步提升自身发现幻觉问题的能力。整个过程无需人员参与标注,而是依靠两个模型相互博弈、共同进化。多路径和反思迭代的强化学习技术使讯飞星火X1中能化繁为简,把复杂问题拆解成多个步骤进行思考推理,并进行自我反思探索。例如,它在解答高考数学题目时,不仅会实时呈现分步骤解题过程,还能对解题过程进行实时验算,反思纠正过程中的遗漏和问题,直至给出正确答案。而整个推理过程中形成的数据也可以被用于后续的强化学习。Oug即热新闻——关注每天科技社会生活新变化gihot.com

可靠算力仍是关键因素Oug即热新闻——关注每天科技社会生活新变化gihot.com

无论是模型训练还是推理,都需要算力平台作为硬件基础。虽然在特定领域,推理模型能够在实现同等效果的情况下消耗更少算力,但算力平台的可靠性、稳定性仍然是决定推理模型发展的重要因素。Oug即热新闻——关注每天科技社会生活新变化gihot.com

此前,科大讯飞已联合华为打造出首个国产算力万卡平台“飞星一号”,并基于此完成了讯飞星火大模型多个版本的迭代训练。但推理模型的训练是一条全新的技术路线。目前,国产算力在单卡、集群、生态等方面距国际领先水平有一定差距,全面基于国产算力平台开展模型训练,面临着不少挑战。Oug即热新闻——关注每天科技社会生活新变化gihot.com

“讯飞星火X1的训练推理涉及多个模型的强交互,需要跨任务传输数据及权重,训练任务类型也由在线实时响应变为离线高吞吐。这需要克服国产显卡带宽不足的短板。”殷兵说,在这种复杂的训练模式下,影响效率的因素非常多,后训练所需的算力甚至提升了一个数量级。最终,通过与华为进行联合攻关,团队自研出训练框架并进行效率优化,实现了模型算法在国产算力上的成功适配,端到端效率大幅提升。Oug即热新闻——关注每天科技社会生活新变化gihot.com

2025年,“推理模型”成为人工智能行业的热词。从科大讯飞发布首个使用全国产算力训练的深度推理大模型——讯飞星火X1,到深度求索公司上线DeepSeek-R1推理模型,都将“推理模型”推到聚光灯下。Oug即热新闻——关注每天科技社会生活新变化gihot.com

多数大语言模型具备一定推理能力,但推理模型具有更强大的推理、逻辑分析和决策能力。推理模型会运用各种推理技巧,如演绎推理、归纳推理、类比推理等,来模拟人类的思考方式。多位业内人士接受科技日报记者采访时说,在人工智能大模型不断迭代升级的浪潮中,推理模型以创新的技术为行业发展注入新活力,也让人们对人工智能未来发展有了更大想象空间。Oug即热新闻——关注每天科技社会生活新变化gihot.com

推理模仿人类“慢思考”Oug即热新闻——关注每天科技社会生活新变化gihot.com

在复旦大学计算机科学技术学院教授、上海市数据科学重点实验室主任肖仰华看来,过去,大模型的生成能力主要由语料决定。但专家级的推理能力并非“题海战术”可以实现,而是需要大模型具备强大的思维能力。Oug即热新闻——关注每天科技社会生活新变化gihot.com

心理学家认为,人类存在两种思维模式。一种是主要用来对日常生活中的简单问题进行判断、决策的“快思考”;另一种则是用于对一些特定问题进行深入分析、研判的“慢思考”。“快思考”是人类基于大量日常经验、常识等,对简单问题作出的快速反应,往往在人们无意识之间完成,是一种更加接近“本能”的思考方式。与之相对,“慢思考”则需要调动大脑更多资源,遵循特定思维逻辑,对问题进行抽丝剥茧式分析研究,进而作出更加理性周全的决策。Oug即热新闻——关注每天科技社会生活新变化gihot.com

作为人工智能的典型应用,大模型如今也有了“快”“慢”之别。Oug即热新闻——关注每天科技社会生活新变化gihot.com

传统大语言通用模型的思维方式更像是“快思考”,其主要依靠算力对海量数据进行学习,实现对后续空白内容的快速预测,回答人类提出的各类问题,本质上是基于概率模型对可能的答案进行“猜测”。相比之下,推理大模型更有意识和逻辑,会在回答之前进行一段时间“慢思考”,依据特定思维链条,提供更全面解答。Oug即热新闻——关注每天科技社会生活新变化gihot.com

科大讯飞研究院副院长殷兵举例说,讯飞星火X1在解答高考数学题等复杂题目时,会先将题目化繁为简,给出解题思路和步骤,呈现出全面的思考、分析和推理过程,进而给出准确的题目答案。殷兵说,推理模型更接近人类的“慢思考”方式。相较于通用大模型,推理模型在数学、医学、代码等领域,会产生更好的效果和意想不到的应用场景。Oug即热新闻——关注每天科技社会生活新变化gihot.com

强化学习实现反思纠错Oug即热新闻——关注每天科技社会生活新变化gihot.com

人类可以对复杂问题进行深入思考、理性分析的一大原因在于,大脑能够反思。通过对过去错误结果和正确经验的反馈学习,人类得以不断提升对复杂问题判断的正确率。推理模型中普遍应用的强化学习技术,在一定程度上模仿了人类的反思、纠错能力。Oug即热新闻——关注每天科技社会生活新变化gihot.com

强化学习是一种机器学习方法,它允许智能体在与环境的交互中通过试错来学习最优策略。智能体在环境中执行相应行动,并根据行动的结果接收反馈,这些反馈信号则指导智能体调整下一步策略,循环往复,不断接近最优策略。Oug即热新闻——关注每天科技社会生活新变化gihot.com

例如,DeepSeek-R1在训练推理模型时采用了一条此前鲜有人使用的完全依赖强化学习的训练路径,即仅根据模型输出答案的优劣等简单信息,对模型进行奖惩。这相当于在不施加任何指引的情况下,让一个刚出生不久的幼儿完全自主探索世界,并根据探索结果给予反馈,从而让幼儿在反复试错和成功中快速成长。Oug即热新闻——关注每天科技社会生活新变化gihot.com

殷兵介绍,讯飞星火X1可以进行自我探索和反思验证,并基于答案正确与否的反馈信息进行强化训练。其中,自我评价迭代的评语模型能指出大模型存在的幻觉问题,大模型在得到评语模型的评价后可实现自我完善提升。同时,评语模型也通过强化训练进一步提升自身发现幻觉问题的能力。整个过程无需人员参与标注,而是依靠两个模型相互博弈、共同进化。多路径和反思迭代的强化学习技术使讯飞星火X1中能化繁为简,把复杂问题拆解成多个步骤进行思考推理,并进行自我反思探索。例如,它在解答高考数学题目时,不仅会实时呈现分步骤解题过程,还能对解题过程进行实时验算,反思纠正过程中的遗漏和问题,直至给出正确答案。而整个推理过程中形成的数据也可以被用于后续的强化学习。Oug即热新闻——关注每天科技社会生活新变化gihot.com

可靠算力仍是关键因素Oug即热新闻——关注每天科技社会生活新变化gihot.com

无论是模型训练还是推理,都需要算力平台作为硬件基础。虽然在特定领域,推理模型能够在实现同等效果的情况下消耗更少算力,但算力平台的可靠性、稳定性仍然是决定推理模型发展的重要因素。Oug即热新闻——关注每天科技社会生活新变化gihot.com

此前,科大讯飞已联合华为打造出首个国产算力万卡平台“飞星一号”,并基于此完成了讯飞星火大模型多个版本的迭代训练。但推理模型的训练是一条全新的技术路线。目前,国产算力在单卡、集群、生态等方面距国际领先水平有一定差距,全面基于国产算力平台开展模型训练,面临着不少挑战。Oug即热新闻——关注每天科技社会生活新变化gihot.com

“讯飞星火X1的训练推理涉及多个模型的强交互,需要跨任务传输数据及权重,训练任务类型也由在线实时响应变为离线高吞吐。这需要克服国产显卡带宽不足的短板。”殷兵说,在这种复杂的训练模式下,影响效率的因素非常多,后训练所需的算力甚至提升了一个数量级。最终,通过与华为进行联合攻关,团队自研出训练框架并进行效率优化,实现了模型算法在国产算力上的成功适配,端到端效率大幅提升。Oug即热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-2-562-0.html推理模型:“慢思考”让决策更周全

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:新疆哈密上线 “满血版”DeepSeek-R1云服务

下一篇:新装置解决石油产业抽油杆防锈难题 油田小站捧回国际大奖

为你推荐
  科技日报记者 刘霞  据物理学家组织网16日报道,德国基尔大学科学家研制出一款新型人工智能...
01-21
核电站是将核能转化为电能的场所但是你知道吗?核电站现在还能有个副业那就是,产珍珠!又大又白的珍珠就是我国海南昌江核电站培育出来的昌江核电站不仅...
01-22
  攻坚之年,辽宁战绩如何?社会各界十分关注。  1月19日,省政府新闻办召开的2024年全省经济运行情况新...
01-21
  悠扬婉转的昆曲《牡丹亭·游园》、大气磅礴的戏韵国乐《打虎上山》、精彩绝伦的杂技《蹬伞...
01-21
1月20日各地正式实施手机、平板、智能手表(手环)等数码产品购新补贴政策,“国补”范围从家电、汽车向日常消费电子领域扩展。个人消费者购买单件销售价格不超过6000元的手机、...
01-21
在过去的一年,很多人都知道“胖东来”。这个原本扎根在河南许昌、新乡的超市,以细致的服务和严格的品控掳获众多好感,由此被誉为零售...
01-21
  日前,中国汽车流通协会发布的《2024年12月中国汽车保值率报告》(以下简称《报告》)显示,2024...
01-24
1 月 29 日消息,宝马公司推出了 2026 款 iX 中型 SUV,作为中期改款车型,此次改款不仅对车型阵容进行了调整,还对外观、内饰以及动力系统进行了优化升级。宝马 iX 自 202...
01-29
大S逝世后,家族遗产争夺战愈演愈烈,各方势力粉墨登场大S(徐熙媛)的突然离世,不仅让粉丝和公众震惊,更在家族内部引发了一场激烈的遗产争夺战。这位娱乐圈的传奇女星,生前积累了巨额...
02-22
在娱乐圈这个星光灿烂的舞台上,何炅以其非凡的主持能力和温文尔雅的形象,赢得了广泛的认可与尊敬。更令人钦佩的是,他展现出的自律精神和健康的身体状态,成为了公众关注的焦点。...
02-22
21世纪经济报道记者 林昀肖 北京报道近日,人福医药发布《关于控股股东签署重整投资协议的公告》,招商创科将作为重整投资人参与其控股股东当...
01-21
21世纪经济报道记者 李佳英 广州报道2月4日,美国生物科技公司United Therapeutics宣布,其异种肾脏UKidney移植临床研究获美国FDA批准,标志着...
02-07
  宜东镇中心小学男子足球队队员在比赛。学校供图  2024年12月底,宜东镇中心小学的同学们在...
01-21
距离2025年国考笔试仅剩6天各位考生注意11月25日0:00至12月1日15:00要按时打印准考证哦打印流程>>>①报...
01-21
  近年来,随着个人消费贷款需求不断增长,不法贷款中介、电信诈骗不法人员盯上了这块“蛋糕”。...
01-24
  “我行推出了一款春节专享理财产品,业绩比较基准会比同期限、同类型的理财产品高出5到10个基...
02-07
水瓶男和处女女这两个星座在一起,他们之间的相性并不是特别好,但也不是完全没有可能长久...
01-22
双鱼座的男生通常以他们的热情和温柔而闻名。他们善于表达自己的感情,对待朋友和爱人总...
01-22
国内休闲服饰品牌有那些?1 美特斯邦威上海美特斯邦威服饰股份有限公司成立于1995年。公司主要研发、采购和营销自主创立的Meters/bonwe和ME&CITY两大品牌时尚休闲服饰。通过...
02-12
中国服饰品牌历史? 中国男装之都?中国服饰品牌历史?中国服饰文化源远流长、独具特色,古时也一直以“衣冠上国”和“礼仪之邦”著称于世。服饰是文化的一部分,在中华民族上下五千...
02-17
2月3日消息,上海卓钢链电子商务有限公司近日与河南钢铁集团周口钢铁有限公司签署战略合作协议。卓钢链CFO林子云、周口钢铁副总经理邓杭州代表双方签约。图源:卓钢链公众号根...
02-07
2月18日消息,总部位于班加罗尔的B2B电子商务公司Udaan近日从现有投资者Lightspeed Venture Partners和英国M&G Prudential处募集到7500万美元资金。据悉,该公司有望在下一季度...
02-19
图源:图虫创意 不断下行的猪价终于在2024年出现回升,A股生...
02-21
国内心理咨询行业的发展历程并不长,2000年之后才真正进入高速发展阶段。复旦大学心理健康与教育中心心理咨询师陈倩对《消费者报道...
03-04
近日,华力创科学宣布完成数千万元A+轮融资,本轮融资由金属3D打印领域头部上市公司铂力特独家投资。据披露,本轮融资所募集的资金将专注于深挖高性能光学多模态感知技术,结合金属...
01-24
2024年末,一位科技创业者火了。作者 | 王思琪来源 | 投资家(ID:touzijias)2024年末,一位科技创业者火了。2025年初,这位创业者再度爆火。近日,中国科技行业因一位85后年轻人现身《...
01-24
为纪念《消逝的光芒》问世十周年,开发商Techland宣布这款后启示录丧尸题材系列迎来重要里程碑:全平台累计玩家数突破4500万。该数据涵盖初代《消逝的光芒》与续...
01-31
快科技2月5日消息,今天,华为董事长梁华透露了过去1年公司的成绩,还是相当不错的。 华为董事长梁华在广东省高质量发展大会上透露,2024年华为整体经营达到预期,全年...
02-06
当地时间2月2日,美国国家运输安全委员会发表声明称,该机构目前已派遣工作人员抵达费城坠机事故的现场参与调查。截至2日下午,费城坠机事故的受伤人数已增至22人,5名伤者仍在住院...
02-03
2025年春节是“春节——中国人庆祝传统新年的社会实践”列入联合国教科文组织人类非物质文化遗产代表作名录后的首个春节。文化和旅游部组织开展“欢欢喜喜过大年”春节主题...
02-05
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮