昆仑万维开源R1V视觉思维链推理模型,开启多模态思考新时代

1年前 来源:财经网 观看:139

3月18日,昆仑万维正式开源首款工业界多模态思维链推理模型Skywork R1V,即日起开源模型权重和技术报告。wxj即热新闻——关注每天科技社会生活新变化gihot.com

1wxj即热新闻——关注每天科技社会生活新变化gihot.com

开启多模态思考新时代wxj即热新闻——关注每天科技社会生活新变化gihot.com

继OpenAI o1和DeepSeek-R1在全球掀起长思考模型热潮后,大模型进入新技术范式。昆仑万维秉持实现 AGI 的初心,积极贡献开源社区,正式开源Skywork R1V多模态视觉推理模型,成为中国第一个开源「多模态推理模型」的企业。wxj即热新闻——关注每天科技社会生活新变化gihot.com

什么是视觉推理模型?wxj即热新闻——关注每天科技社会生活新变化gihot.com

视觉推理模型是一类能够解决需要思维链(Chain-of-Thought)的视觉任务的模型,通过对视觉信息进行多步逻辑推理与分析,逐步推导出最终结果。这种模型不仅关注图像内容的识别与理解,更强调通过层层递进的推理路径,实现复杂视觉问题的精准求解,例如视觉逻辑推理、视觉数学问题、图像中的科学现象分析、医学影像的诊断推理等,从而有效拓展了视觉大模型的应用边界。wxj即热新闻——关注每天科技社会生活新变化gihot.com

无论是日常繁琐的工作任务、复杂的数据分析、难以解答的学术问题,还是前所未见的陌生场景,都可以交给Skywork R1V进行高效处理。wxj即热新闻——关注每天科技社会生活新变化gihot.com

快速体验下来,R1V的视觉理解和推理能力双双在线。这样的模型能力是如何炼成的呢?wxj即热新闻——关注每天科技社会生活新变化gihot.com

强大推理能力,刷新跨模态任务新高度wxj即热新闻——关注每天科技社会生活新变化gihot.com

在Reasoning推理能力方面,Skywork R1V实现了模型的顶尖逻辑推理与数学分析能力。在权威的MATH500和AIME基准测试中,Skywork R1V分别取得了94.0和72.0的高分,明显领先于行业内众多主流模型。Skywork R1V在纯文本复杂推理任务中展现出卓越性能,使其在逻辑推理和数学问题求解领域展现出人类专家级别的水准。wxj即热新闻——关注每天科技社会生活新变化gihot.com

在Vision视觉理解能力方面,Skywork R1V成功地将其强大的文本推理与思维链推导能力高效迁移到视觉任务中。凭借创新的跨模态迁移技术与推理优化框架,Skywork R1V能够高效解决需要多步视觉推理的问题,在MMMU与MathVista等视觉推理基准中分别取得了69和67.5的优异成绩。这些结果不仅明显超越了多个近似大小的开源竞争模型,更达到与规模更大的闭源模型媲美的水准,充分证实了Skywork R1V在需要视觉思维链推理的跨模态任务中的领先优势。wxj即热新闻——关注每天科技社会生活新变化gihot.com

Skywork R1V通过视觉与文本能力的深度融合和视觉思维链推理能力的突破,推动了多模态推理模型的进一步发展,标志着人工智能领域的又一重大进步。wxj即热新闻——关注每天科技社会生活新变化gihot.com

目前,Skywork R1V已全面开源,期望助力全球范围内更多视觉推理任务的学术研究与产业应用探索。wxj即热新闻——关注每天科技社会生活新变化gihot.com

和开源同规模或更大规模模型的对比,Skywork R1V 38B体现出行业显著优异的推理能力,以及领先的多模态视觉理解能力。如下图,与开源同规模或更大规模模型的对比:wxj即热新闻——关注每天科技社会生活新变化gihot.com

2wxj即热新闻——关注每天科技社会生活新变化gihot.com

与闭源头部模型性能对比,R1V 38B模型性能媲美甚至超越更大开源模型以及主流闭源模型。如下图,与开源大尺寸模型与闭源专有模型的对比:wxj即热新闻——关注每天科技社会生活新变化gihot.com

3wxj即热新闻——关注每天科技社会生活新变化gihot.com

三大核心技术创新,引领视觉推理新突破wxj即热新闻——关注每天科技社会生活新变化gihot.com

Skywork R1V能够达到当前的性能高度,依赖于以下三项关键技术创新:wxj即热新闻——关注每天科技社会生活新变化gihot.com

1、文本推理能力的多模态高效迁移wxj即热新闻——关注每天科技社会生活新变化gihot.com

昆仑万维团队首次提出利用Skywork-VL的视觉投影器,无需重新训练语言模型和视觉编码器,即可实现文本推理能力的高效迁移到视觉任务,同时保留了优秀的原本推理文本能力(AIME 72.0,MATH500 94.0)。wxj即热新闻——关注每天科技社会生活新变化gihot.com

2、多模态混合式训练(IterativeSFT+GRPO)wxj即热新闻——关注每天科技社会生活新变化gihot.com

通过结合迭代监督微调(Iterative SFT)和GRPO强化学习,分阶段对齐视觉-文本表征,实现跨模态任务的高效融合,极大提升跨模态任务的表现。推动模型在MMMU基准达到69分的能力,同时在MathVista达到67.5分,与更大规模的闭源模型基本持平。通过反复迭代地利用高质量数据与高难度数据的组合,实现模型持续的知识巩固与错误纠正,显著提升了多模态推理的精度与泛化性能。wxj即热新闻——关注每天科技社会生活新变化gihot.com

图丨多模态混合式训练(来源:Skywork R1V技术报告)wxj即热新闻——关注每天科技社会生活新变化gihot.com

图丨多模态混合式训练(来源:Skywork R1V技术报告)wxj即热新闻——关注每天科技社会生活新变化gihot.com

3、自适应长度思维链蒸馏wxj即热新闻——关注每天科技社会生活新变化gihot.com

团队提出了一种基于视觉-文本复杂度的自适应推理链长度控制机制,动态优化模型推理过程,避免模型“过度思考”,提升推理效率。结合多阶段自蒸馏策略,进一步提升了数据生成与推理过程的质量,促进了模型在复杂多模态任务中的表现。wxj即热新闻——关注每天科技社会生活新变化gihot.com

图丨自适应长度思维链蒸馏(来源:Skywork R1V技术报告)wxj即热新闻——关注每天科技社会生活新变化gihot.com

图丨自适应长度思维链蒸馏(来源:Skywork R1V技术报告)wxj即热新闻——关注每天科技社会生活新变化gihot.com

Skywork R1V在训练过程中创新性地采用了三阶段方法,使得文本端强大的推理能力得以高效迁移至视觉任务上,具体训练流程如下:wxj即热新闻——关注每天科技社会生活新变化gihot.com

1、STEP1 视觉语言表征的初始对齐wxj即热新闻——关注每天科技社会生活新变化gihot.com

训练时首先使用轻量级的视觉适配器(MLP)连接视觉编码器(ViT)与语言模型,在已有的200万条常规多模态数据上进行训练,使得MLP初步学习如何将图像特征映射至语言空间。这一阶段仅训练MLP适配器,视觉编码器和语言模型参数保持冻结不变,快速、高效地实现视觉与语言表征的初步对齐。wxj即热新闻——关注每天科技社会生活新变化gihot.com

2、STEP2 推理能力迁移wxj即热新闻——关注每天科技社会生活新变化gihot.com

利用第一阶段训练好的MLP适配器,直接将视觉编码器与原始的强推理语言模型(R1-distilled-Qwen-32B)连接,形成Skywork-R1V视觉推理模型。虽然此时语言模型的参数发生了改变,但得益于语言模型架构的高度相似性和MLP的泛化能力,重新组装后的模型已能表现出一定的视觉推理能力,初始性能即达到业内同等规模的先进水平。wxj即热新闻——关注每天科技社会生活新变化gihot.com

3、STEP3 视觉与文本模态精准对齐wxj即热新闻——关注每天科技社会生活新变化gihot.com

最后,采用创新的“混合优化框架”,进一步精准对齐视觉和语言模态的表征。这一阶段分为两大步骤:迭代监督微调(Iterative SFT)和群组相对策略优化(GRPO)强化学习。在整个训练过程中,Skywork-R1V还创新性地引入了“自适应长度思维链蒸馏技术”,动态优化推理链长度,防止模型过度思考,从而提升了推理效率和质量。wxj即热新闻——关注每天科技社会生活新变化gihot.com

通过以上的训练策略,Skywork R1V在视觉推理任务上取得突破性进展,并在多个公开评测基准中达到或超过了现有领先模型的性能。wxj即热新闻——关注每天科技社会生活新变化gihot.com

此外,Skywork团队多模态理解模型也在进行"全面贯通"的进化,将视觉多模态扩展为全模态模型,引入语音理解能力。当前,全模态模型往往受限于特定领域不仅需要独立训练多个专业模型,更面临跨模态协同的算力挑战。wxj即热新闻——关注每天科技社会生活新变化gihot.com

基于R1V模型,Skywork团队设计了一种灵活在R1V中扩展语音理解模态的方式,从而实现一个全模态思考大模型,该在单个模型中同时实现图像、视频、语音的全模态理解能力,并在语音和视觉理解评测中斩获多项SOTA成绩。我们将陆续公布测评成绩、开源全模态思考大模型。wxj即热新闻——关注每天科技社会生活新变化gihot.com

持续开源回馈社区,坚定迈向AGIwxj即热新闻——关注每天科技社会生活新变化gihot.com

2023年10月以来,昆仑万维陆续开源了百亿级大语言模型「天工」Skywork-13B系列、数字智能体全流程研发工具包AgentStudio、4000亿参数MoE超级模型、2千亿稀疏大模型Skywork-MoE、推理模型Skywork-o1-Open等。2025年2月18日,昆仑万维同时将SOTA级别的SkyReels-V1和SkyReels-A1进行开源。wxj即热新闻——关注每天科技社会生活新变化gihot.com

在语言生成模型、AI Agent、推理模型、视频生成模型等相继开源、多点开花之后,我们正式开源Skywork R1V多模态推理模型,在文本-视觉多模态推理方向再下一城,成为中国第一家开源多模态思考模型的企业。wxj即热新闻——关注每天科技社会生活新变化gihot.com

中国企业过去一年在AI领域的开源贡献,让全世界AI从业者和开发者享受到了技术共享带来的普惠发展。DeepSeek的开源为AI行业提供了新的发展范本,多项开源成果显著降低了AI技术的应用门槛、促进全球AI技术的民主化。昆仑万维作为中国AI领军企业,我们将持续开源优秀的模型、数据集等,共建开发者生态、加速技术创新、降低应用门槛、推动技术平权和AI行业发展。wxj即热新闻——关注每天科技社会生活新变化gihot.com

此文内容为企业供稿,仅供参考。wxj即热新闻——关注每天科技社会生活新变化gihot.com


wxj即热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-14-7857-0.html昆仑万维开源R1V视觉思维链推理模型,开启多模态思考新时代

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:甜啦啦获评2025年度特色茶饮十大品牌

下一篇:百利好:国际金价持续大涨后续走势会怎样?

为你推荐
1月24日今天,PS商店公布2024游戏下载排行,《FF7:重生》登顶PS5平台(日区)。《怪物猎人:世界》则成为了PS4平台日本玩家最喜爱的游戏。 ·本次的官方统计包含PS5、P...
01-25
《文明7》将于2月11日发售,近日Firaxis Games公布了游戏新领袖“卑弥呼”。卑弥呼将作为“倭的女王”登场,其特点是擅长科学和外交。官方还发布卑弥呼宣传片,一起...
02-03
近日,山西大同古城某商户因未按要求亮灯,遭多名工作人员撬锁并强制开灯一事,引发广泛关注。2月7日,山西大同平城区古城街道发布致歉信。致歉信称,因古城街道工作方法失当,引起“破...
02-07
干惊天动地事,做隐姓埋名人。中国共产党优秀党员,中国工程院院士,共和国勋章、国家最高科学技术奖获得者,全国道德模范,中国第一代核潜艇工程总设计师,中国船舶集团有限公司第七一...
02-09
  在数据要素的充分流动下,“区块链医疗”正在应用端推出更多场景。  “数据要素要形成卫生...
01-21
新华社合肥1月20日电(记者徐海涛、陈诺)“998、999、1000……”大屏幕上的数字最终定格在1066,原本安静的控制大厅一片欢呼。1月20日,我国...
01-21
昨天4时至今天20时辽宁大部地区出现大雪到暴雪其中丹东地区局部出现大暴雪降雪总量实况  全省275个气...
01-28
  2月5日记者从辽宁省交通运输厅了解到,截至2月4日24时,2025年春节假期全省公路、铁路、民航、水路营运...
02-06
新闻记者 曹磊通讯员 王璐 吕巍在手机上登录各大外卖、团购、电商平台,搜索“江城百臻”,就能立即下单,10分钟至30分钟内就能够拿到最地道的武汉地理农产品。1月21日,新闻记者从...
01-21
  近日,全国多地气温偏高,很多地区没有降水或降水稀少。中央气象台数据显示,19日又是雨雪非常稀少的一天,上午10时,只有6个国家级气象站降水量达到0.1毫米。为什么会出现这...
01-21
1 月 30 日消息,东风启辰现已发布了旗下2025款启辰大 V DD-i 超混动SUV官图,该车主要在外观及动力系统方面进行调整。作为比较,现款在售2023款启辰大 V DD-i车型定价为...
01-31
“若前方无路,我便踏出一条路;若天理不容,我便扭转这乾坤。”电影《哪吒2》开年“王炸”,让人看到了哪吒打破命运,勇敢做自己,最终活出自我的过程。新年刚过,国内车市异常“开卷”,...
02-06
最近热播的《大梁第一女仵作》受到许多观众的喜爱,大家不仅追剧热情高涨,还对情节和人物充满好奇。为了让大家更全面地了解这部电视剧,这里整理了一些相关信息...
02-19
最近几天,多部新剧开播,其中备受期待的《余烬之上》一经播出便获得了巨大成功和广泛关注。该剧在各大社交平台频繁成为话题和热搜。接下来,我们将探讨《余烬之...
02-22
  山东博兴县湖滨镇姜韩社区卫生室服务3000多人,改造后每月就诊人数增加200多人――  “小村卫生室”6个月快速涨粉,靠什么?  数据来源:国家卫生健康委  “今天...
01-21
  大众网记者 孙海燕 济南报道  2024年9月3日,国家卫健委等14部门联合发布《关于推进健康乡村建设的指导意见》,将健康乡村建设作为落实乡村振兴和健康中国两大国家...
01-21
近日,湖南大学材料科学与工程学院官网更新信息显示,高力波已任该学院院长,主持...
01-21
  大众网记者 杨涛报道  近日,2024年山东省“技能兴鲁”职业技能大赛暨第五届山东省汽车服务行业职业技能竞赛在青岛港湾职业技术学院成功举行。“技能兴鲁”职业技能...
01-21
广东省人民政府1月21日印发的《关于高质量发展资本市场助力广东现代化建设的若干措施》(下称《措...
01-23
  摘要  【开年显著回升!PX能否扭转颓势?】PX作为聚酯产业链中关键的原料之一,在整个产业链中...
01-28
射手座的男生通常被认为是热情开朗、喜欢自由的人。他们对待感情也有一套独特的方式,其...
01-22
天秤男是一个非常浪漫和温柔的星座,他们对爱情充满了向往和幻想。当一个天秤男开始动情...
01-22
男商务衬衫搭配什么裤子好看?一、男商务衬衫搭配什么裤子好看?搭配一:牛仔裤牛仔裤应该是男士日常穿搭中的必备裤装,时尚、个性又百搭,搭配一件格子衬衫或者任何休闲风格的衬衫都...
02-07
西装衬衫搭配什么裤子?一、西装衬衫搭配什么裤子?以下是一些常见的衬衫搭配裤子的建议:1. 西裤:西裤是一种传统而正式的选择,适合较为正式的场合,如商务会议、正式晚宴或庄重的场...
02-22
2月10日消息,携程商旅获得茶百道颁发的“2024年度优秀供应商”奖项。图源:公众号“携程商旅资讯号”据了解,作为国民级茶饮品牌,茶百道发源于“天府之国”,以“好茶为底,制造新鲜...
02-11
2月19日消息,闲鱼公布了旗下AI产品最新的数据,目前,其全线AI产品闲鱼AI智能体已覆盖1020万用户。其中,核心产品AI智能发布每天已有超20万人使用,在经过多轮模型优化后,用户采纳率...
02-20
2月10日消息,快手发布《2025新春团购节老铁消费报告》。数据显示,1月26日至2月4日活动期间,快手本地生活GMV同比增长超117%。“返乡过年”带火了新线城市(三线及以下城市)消费,过...
02-11
1.饿了么投入超10亿,在沪发布“春生计划”近来的外卖行业,真是热闹非凡。京东来势汹汹,美团稳扎稳打,饿了么当然也没闲着。近日,饿了么在上海发布“春生计划”,宣布将于今年3月至5...
02-26
2024年末,一位科技创业者火了。作者 | 王思琪来源 | 投资家(ID:touzijias)2024年末,一位科技创业者火了。2025年初,这位创业者再度爆火。近日,中国科技行业因一位85后年轻人现身《...
01-24
12月3日消息,悦点科技宣布公司完成数千万人民币的天使轮融资。此次融资由云启资本独家投资,本轮融资将主要用于悦点科技在企业级GenAI应用平台的进...
02-07
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮