昆仑万维开源R1V视觉思维链推理模型,开启多模态思考新时代

11个月前 来源:财经网 观看:128

3月18日,昆仑万维正式开源首款工业界多模态思维链推理模型Skywork R1V,即日起开源模型权重和技术报告。6hm即热新闻——关注每天科技社会生活新变化gihot.com

16hm即热新闻——关注每天科技社会生活新变化gihot.com

开启多模态思考新时代6hm即热新闻——关注每天科技社会生活新变化gihot.com

继OpenAI o1和DeepSeek-R1在全球掀起长思考模型热潮后,大模型进入新技术范式。昆仑万维秉持实现 AGI 的初心,积极贡献开源社区,正式开源Skywork R1V多模态视觉推理模型,成为中国第一个开源「多模态推理模型」的企业。6hm即热新闻——关注每天科技社会生活新变化gihot.com

什么是视觉推理模型?6hm即热新闻——关注每天科技社会生活新变化gihot.com

视觉推理模型是一类能够解决需要思维链(Chain-of-Thought)的视觉任务的模型,通过对视觉信息进行多步逻辑推理与分析,逐步推导出最终结果。这种模型不仅关注图像内容的识别与理解,更强调通过层层递进的推理路径,实现复杂视觉问题的精准求解,例如视觉逻辑推理、视觉数学问题、图像中的科学现象分析、医学影像的诊断推理等,从而有效拓展了视觉大模型的应用边界。6hm即热新闻——关注每天科技社会生活新变化gihot.com

无论是日常繁琐的工作任务、复杂的数据分析、难以解答的学术问题,还是前所未见的陌生场景,都可以交给Skywork R1V进行高效处理。6hm即热新闻——关注每天科技社会生活新变化gihot.com

快速体验下来,R1V的视觉理解和推理能力双双在线。这样的模型能力是如何炼成的呢?6hm即热新闻——关注每天科技社会生活新变化gihot.com

强大推理能力,刷新跨模态任务新高度6hm即热新闻——关注每天科技社会生活新变化gihot.com

在Reasoning推理能力方面,Skywork R1V实现了模型的顶尖逻辑推理与数学分析能力。在权威的MATH500和AIME基准测试中,Skywork R1V分别取得了94.0和72.0的高分,明显领先于行业内众多主流模型。Skywork R1V在纯文本复杂推理任务中展现出卓越性能,使其在逻辑推理和数学问题求解领域展现出人类专家级别的水准。6hm即热新闻——关注每天科技社会生活新变化gihot.com

在Vision视觉理解能力方面,Skywork R1V成功地将其强大的文本推理与思维链推导能力高效迁移到视觉任务中。凭借创新的跨模态迁移技术与推理优化框架,Skywork R1V能够高效解决需要多步视觉推理的问题,在MMMU与MathVista等视觉推理基准中分别取得了69和67.5的优异成绩。这些结果不仅明显超越了多个近似大小的开源竞争模型,更达到与规模更大的闭源模型媲美的水准,充分证实了Skywork R1V在需要视觉思维链推理的跨模态任务中的领先优势。6hm即热新闻——关注每天科技社会生活新变化gihot.com

Skywork R1V通过视觉与文本能力的深度融合和视觉思维链推理能力的突破,推动了多模态推理模型的进一步发展,标志着人工智能领域的又一重大进步。6hm即热新闻——关注每天科技社会生活新变化gihot.com

目前,Skywork R1V已全面开源,期望助力全球范围内更多视觉推理任务的学术研究与产业应用探索。6hm即热新闻——关注每天科技社会生活新变化gihot.com

和开源同规模或更大规模模型的对比,Skywork R1V 38B体现出行业显著优异的推理能力,以及领先的多模态视觉理解能力。如下图,与开源同规模或更大规模模型的对比:6hm即热新闻——关注每天科技社会生活新变化gihot.com

26hm即热新闻——关注每天科技社会生活新变化gihot.com

与闭源头部模型性能对比,R1V 38B模型性能媲美甚至超越更大开源模型以及主流闭源模型。如下图,与开源大尺寸模型与闭源专有模型的对比:6hm即热新闻——关注每天科技社会生活新变化gihot.com

36hm即热新闻——关注每天科技社会生活新变化gihot.com

三大核心技术创新,引领视觉推理新突破6hm即热新闻——关注每天科技社会生活新变化gihot.com

Skywork R1V能够达到当前的性能高度,依赖于以下三项关键技术创新:6hm即热新闻——关注每天科技社会生活新变化gihot.com

1、文本推理能力的多模态高效迁移6hm即热新闻——关注每天科技社会生活新变化gihot.com

昆仑万维团队首次提出利用Skywork-VL的视觉投影器,无需重新训练语言模型和视觉编码器,即可实现文本推理能力的高效迁移到视觉任务,同时保留了优秀的原本推理文本能力(AIME 72.0,MATH500 94.0)。6hm即热新闻——关注每天科技社会生活新变化gihot.com

2、多模态混合式训练(IterativeSFT+GRPO)6hm即热新闻——关注每天科技社会生活新变化gihot.com

通过结合迭代监督微调(Iterative SFT)和GRPO强化学习,分阶段对齐视觉-文本表征,实现跨模态任务的高效融合,极大提升跨模态任务的表现。推动模型在MMMU基准达到69分的能力,同时在MathVista达到67.5分,与更大规模的闭源模型基本持平。通过反复迭代地利用高质量数据与高难度数据的组合,实现模型持续的知识巩固与错误纠正,显著提升了多模态推理的精度与泛化性能。6hm即热新闻——关注每天科技社会生活新变化gihot.com

图丨多模态混合式训练(来源:Skywork R1V技术报告)6hm即热新闻——关注每天科技社会生活新变化gihot.com

图丨多模态混合式训练(来源:Skywork R1V技术报告)6hm即热新闻——关注每天科技社会生活新变化gihot.com

3、自适应长度思维链蒸馏6hm即热新闻——关注每天科技社会生活新变化gihot.com

团队提出了一种基于视觉-文本复杂度的自适应推理链长度控制机制,动态优化模型推理过程,避免模型“过度思考”,提升推理效率。结合多阶段自蒸馏策略,进一步提升了数据生成与推理过程的质量,促进了模型在复杂多模态任务中的表现。6hm即热新闻——关注每天科技社会生活新变化gihot.com

图丨自适应长度思维链蒸馏(来源:Skywork R1V技术报告)6hm即热新闻——关注每天科技社会生活新变化gihot.com

图丨自适应长度思维链蒸馏(来源:Skywork R1V技术报告)6hm即热新闻——关注每天科技社会生活新变化gihot.com

Skywork R1V在训练过程中创新性地采用了三阶段方法,使得文本端强大的推理能力得以高效迁移至视觉任务上,具体训练流程如下:6hm即热新闻——关注每天科技社会生活新变化gihot.com

1、STEP1 视觉语言表征的初始对齐6hm即热新闻——关注每天科技社会生活新变化gihot.com

训练时首先使用轻量级的视觉适配器(MLP)连接视觉编码器(ViT)与语言模型,在已有的200万条常规多模态数据上进行训练,使得MLP初步学习如何将图像特征映射至语言空间。这一阶段仅训练MLP适配器,视觉编码器和语言模型参数保持冻结不变,快速、高效地实现视觉与语言表征的初步对齐。6hm即热新闻——关注每天科技社会生活新变化gihot.com

2、STEP2 推理能力迁移6hm即热新闻——关注每天科技社会生活新变化gihot.com

利用第一阶段训练好的MLP适配器,直接将视觉编码器与原始的强推理语言模型(R1-distilled-Qwen-32B)连接,形成Skywork-R1V视觉推理模型。虽然此时语言模型的参数发生了改变,但得益于语言模型架构的高度相似性和MLP的泛化能力,重新组装后的模型已能表现出一定的视觉推理能力,初始性能即达到业内同等规模的先进水平。6hm即热新闻——关注每天科技社会生活新变化gihot.com

3、STEP3 视觉与文本模态精准对齐6hm即热新闻——关注每天科技社会生活新变化gihot.com

最后,采用创新的“混合优化框架”,进一步精准对齐视觉和语言模态的表征。这一阶段分为两大步骤:迭代监督微调(Iterative SFT)和群组相对策略优化(GRPO)强化学习。在整个训练过程中,Skywork-R1V还创新性地引入了“自适应长度思维链蒸馏技术”,动态优化推理链长度,防止模型过度思考,从而提升了推理效率和质量。6hm即热新闻——关注每天科技社会生活新变化gihot.com

通过以上的训练策略,Skywork R1V在视觉推理任务上取得突破性进展,并在多个公开评测基准中达到或超过了现有领先模型的性能。6hm即热新闻——关注每天科技社会生活新变化gihot.com

此外,Skywork团队多模态理解模型也在进行"全面贯通"的进化,将视觉多模态扩展为全模态模型,引入语音理解能力。当前,全模态模型往往受限于特定领域不仅需要独立训练多个专业模型,更面临跨模态协同的算力挑战。6hm即热新闻——关注每天科技社会生活新变化gihot.com

基于R1V模型,Skywork团队设计了一种灵活在R1V中扩展语音理解模态的方式,从而实现一个全模态思考大模型,该在单个模型中同时实现图像、视频、语音的全模态理解能力,并在语音和视觉理解评测中斩获多项SOTA成绩。我们将陆续公布测评成绩、开源全模态思考大模型。6hm即热新闻——关注每天科技社会生活新变化gihot.com

持续开源回馈社区,坚定迈向AGI6hm即热新闻——关注每天科技社会生活新变化gihot.com

2023年10月以来,昆仑万维陆续开源了百亿级大语言模型「天工」Skywork-13B系列、数字智能体全流程研发工具包AgentStudio、4000亿参数MoE超级模型、2千亿稀疏大模型Skywork-MoE、推理模型Skywork-o1-Open等。2025年2月18日,昆仑万维同时将SOTA级别的SkyReels-V1和SkyReels-A1进行开源。6hm即热新闻——关注每天科技社会生活新变化gihot.com

在语言生成模型、AI Agent、推理模型、视频生成模型等相继开源、多点开花之后,我们正式开源Skywork R1V多模态推理模型,在文本-视觉多模态推理方向再下一城,成为中国第一家开源多模态思考模型的企业。6hm即热新闻——关注每天科技社会生活新变化gihot.com

中国企业过去一年在AI领域的开源贡献,让全世界AI从业者和开发者享受到了技术共享带来的普惠发展。DeepSeek的开源为AI行业提供了新的发展范本,多项开源成果显著降低了AI技术的应用门槛、促进全球AI技术的民主化。昆仑万维作为中国AI领军企业,我们将持续开源优秀的模型、数据集等,共建开发者生态、加速技术创新、降低应用门槛、推动技术平权和AI行业发展。6hm即热新闻——关注每天科技社会生活新变化gihot.com

此文内容为企业供稿,仅供参考。6hm即热新闻——关注每天科技社会生活新变化gihot.com


6hm即热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-14-7857-0.html昆仑万维开源R1V视觉思维链推理模型,开启多模态思考新时代

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:甜啦啦获评2025年度特色茶饮十大品牌

下一篇:百利好:国际金价持续大涨后续走势会怎样?

为你推荐
《黑神话:悟空》大获成功后,亢金龙、紫蛛儿、小狐狸萍萍等角色也深受玩家喜爱。近日小狐狸萍萍女演员钱思怡在网上分享视频,展示了她泡澡的视频,一起来看看吧! 视频...
01-31
《天国:拯救2》虽然有一些争议,但这并没有阻止游戏深受广大玩家的喜爱。该作首发24小时销量破百万,仅用了一天时间就收回了4100万美元的成本。 更能说明的是,《天...
02-10
过去一年,鹊桥二号绕月搭桥,助力嫦娥六号实现了人类首次月球背面采样返回。随着嫦娥六号任务的圆满完成,嫦娥七号任务也已经被提上日程。按照计划,我国将在2026年发射嫦娥七号月...
02-03
新华社记者谢希瑶商务部最新公布数据显示,2024年中国服务进出口总额7.5万亿元人民币,同比增长14.4%,规模再创历史新高。其中,服务出口、进口同比分别增长18.2%、11.8%。“这是中...
02-03
图源:Pixabay 近日,商汤推出了“日日新”融合大模型,该模型...
01-21
美国加州大学伯克利分校和韩国高丽大学科学家携手,从变色龙身上获得灵感,研制出一种新型电磁材料。这种材料能够模仿变色龙的变色机制,按需在吸收、传...
01-24
  【带你一起看大展】  光明日报记者周洪双李晓东  随着悠扬的里拉琴在四川成都金沙遗址...
01-21
  2月11日,国家统计局辽宁调查总队公布调查数据显示,2025年1月份,辽宁居民消费价格(CPI)同比上涨0.3%,涨幅...
02-13
新闻记者 潘锡珩通讯员陈默 龙慧芳近日,武汉市武昌区黄鹤楼街道读书社区的居民代表,为武钢江南燃气公司送上了一面锦旗,上面写着“踏实为民办实事,情暖人心暖寒冬”,以此表达对江...
01-22
  正月初七返程火车票今日开抢,预计当天为节后客流高峰日  正月初七返程火车票今日开抢!  1月21日,按照铁路车票预售期,旅客可以购买2月4日(正月初七)的火车票。2025年铁...
01-21
  2024年已经尘埃落定,各大汽车制造商竞相揭晓年度销量成绩单,但多数报告倾向于报喜不报忧。在...
01-24
1 月 30 日消息,韩国汽车制造商起亚此前宣称其电动汽车“将于2025年1月”在北美支持使用特斯拉北美超充站充电,不过起亚公司现发布声明,宣布相应适配计划推迟至3月,为购...
01-31
电视剧《香草的每天》自开拍以来就受到了众多粉丝的关注。这次播出更是让许多粉丝激动不已,尤其是对于第20集的剧情介绍,大家都充满了好奇。在第20集中,白井向...
02-20
当前,《远亲近邻,择良而交》在网络上热播,其精心设计的剧情、服装和音乐吸引了大量观众。剧中的人物性格鲜明,命运曲折,成为了观众心中的经典角色。接下来是关于...
02-20
  本报北京1月14日电(记者 白剑峰)国家卫生健康委等6部门日前发布《关于开展儿童友好医院建设的意见》提出,秉持儿童优先理念,从儿童视角出发,为儿童提供有情感、有温度...
01-21
21世纪经济报道记者李佳英 广州报道春节之际,不少老年在保健品消费上“一掷千金”,然而保健品类别纷繁复杂、售卖中不乏陷阱与骗局。例如,北...
01-30
  “如果不是郑皆连院士坚定的科学执言,‘世界第一拱’极有可能与我们擦肩而过。”这是广西大...
01-21
  大众网记者 杨涛报道  9月22日,2024金砖国家职业技能大赛增材制造赛项全国选拔赛暨国内总决赛传来消息,青岛港湾职业技术学院参赛学生冯洋(指导老师曾显波)获得一等奖,...
01-21
  摘要  【黄金价格再攀新高足金首饰价格冲破830元/克】COMEX黄金价格报2762美元/盎司,创近...
01-24
  近日,恒丰银行股份有限公司(简称“恒丰银行”)因8项违法行为被警告并罚款1060.68万元。《经济...
02-13
双鱼座的男生通常是非常敏感和浪漫的,他们对待自己喜欢的人也有着独特的方式。当双鱼男...
01-22
天蝎座的男生通常都很深沉、神秘而又充满魅力。如果你想让一个天蝎男爱上你并对你心疼...
01-22
162女适合什么风格穿搭?一、162女适合什么风格穿搭?白色T恤搭配条纹伞裙,红色蓬纱裙,打造文艺气质女神风格。白色T恤搭配灰色大衣在配个贝雷帽。短款羽绒服搭配破洞直筒裤,整体风...
02-07
绚丽星光:探索那些闪耀的女明星背后的故事在荧幕前,她们是令人倾倒的女明星,宛如璀璨的星星,照亮了无数人的生活。然而,在繁华的背后,这些女性经历了怎样的奋斗与变迁呢?作为一个长...
02-12
2月15日消息,年宵花销售热潮刚过,春节后的鲜花市场又迎来消费高峰。在盒马各大门店,2月热门的玫瑰花以及各种时令鲜花早早陈列到位,桃花、樱花、玉兰等鲜切枝含苞待放。延续了春...
02-15
京东、美团宣布为外卖骑手缴纳五险一金自从“百团大战”胜出以来,美团稳稳守住了外卖行业的“一哥”之位,几乎没有碰到几个“打得过”的对手。然而,外卖行业的战争似乎与美团王...
02-20
3月1日消息,在北京大学国家发展研究院【承泽论坛】第32期,智联招聘集团总裁张月佳指出,在数字技术的加持下,更多职场人有机会成为“超级个体”,而HR是寻找与培养超级个体的关键。...
03-01
高德地图发力内容化,锚定“一张地图承载吃喝玩乐”。据亿邦动力消息,高德地图正在招募评价视频的内测达人,在用户评价中引入短视频内容形式。达人可以报名的时间为2025年3月6日...
03-09
2025年,卖奶茶的拼命IPO。作者 | 萧风来源 | 投资家(ID:touzijias)2025年,卖奶茶的拼命IPO。投资家网获悉,号称“每天一杯喝不腻”的新式茶饮公司古茗已通过港交所聆讯、更新招股...
01-22
近日,珠海市合心财税科技有限公司(简称“财税科技”)迎来了重要的发展里程碑。公司宣布,已完成5000万元人民币的融资,由中经金控投资有限公司(以下简称...
02-07
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮