昆仑万维开源R1V视觉思维链推理模型,开启多模态思考新时代

10个月前 来源:财经网 观看:122

3月18日,昆仑万维正式开源首款工业界多模态思维链推理模型Skywork R1V,即日起开源模型权重和技术报告。lMU即热新闻——关注每天科技社会生活新变化gihot.com

1lMU即热新闻——关注每天科技社会生活新变化gihot.com

开启多模态思考新时代lMU即热新闻——关注每天科技社会生活新变化gihot.com

继OpenAI o1和DeepSeek-R1在全球掀起长思考模型热潮后,大模型进入新技术范式。昆仑万维秉持实现 AGI 的初心,积极贡献开源社区,正式开源Skywork R1V多模态视觉推理模型,成为中国第一个开源「多模态推理模型」的企业。lMU即热新闻——关注每天科技社会生活新变化gihot.com

什么是视觉推理模型?lMU即热新闻——关注每天科技社会生活新变化gihot.com

视觉推理模型是一类能够解决需要思维链(Chain-of-Thought)的视觉任务的模型,通过对视觉信息进行多步逻辑推理与分析,逐步推导出最终结果。这种模型不仅关注图像内容的识别与理解,更强调通过层层递进的推理路径,实现复杂视觉问题的精准求解,例如视觉逻辑推理、视觉数学问题、图像中的科学现象分析、医学影像的诊断推理等,从而有效拓展了视觉大模型的应用边界。lMU即热新闻——关注每天科技社会生活新变化gihot.com

无论是日常繁琐的工作任务、复杂的数据分析、难以解答的学术问题,还是前所未见的陌生场景,都可以交给Skywork R1V进行高效处理。lMU即热新闻——关注每天科技社会生活新变化gihot.com

快速体验下来,R1V的视觉理解和推理能力双双在线。这样的模型能力是如何炼成的呢?lMU即热新闻——关注每天科技社会生活新变化gihot.com

强大推理能力,刷新跨模态任务新高度lMU即热新闻——关注每天科技社会生活新变化gihot.com

在Reasoning推理能力方面,Skywork R1V实现了模型的顶尖逻辑推理与数学分析能力。在权威的MATH500和AIME基准测试中,Skywork R1V分别取得了94.0和72.0的高分,明显领先于行业内众多主流模型。Skywork R1V在纯文本复杂推理任务中展现出卓越性能,使其在逻辑推理和数学问题求解领域展现出人类专家级别的水准。lMU即热新闻——关注每天科技社会生活新变化gihot.com

在Vision视觉理解能力方面,Skywork R1V成功地将其强大的文本推理与思维链推导能力高效迁移到视觉任务中。凭借创新的跨模态迁移技术与推理优化框架,Skywork R1V能够高效解决需要多步视觉推理的问题,在MMMU与MathVista等视觉推理基准中分别取得了69和67.5的优异成绩。这些结果不仅明显超越了多个近似大小的开源竞争模型,更达到与规模更大的闭源模型媲美的水准,充分证实了Skywork R1V在需要视觉思维链推理的跨模态任务中的领先优势。lMU即热新闻——关注每天科技社会生活新变化gihot.com

Skywork R1V通过视觉与文本能力的深度融合和视觉思维链推理能力的突破,推动了多模态推理模型的进一步发展,标志着人工智能领域的又一重大进步。lMU即热新闻——关注每天科技社会生活新变化gihot.com

目前,Skywork R1V已全面开源,期望助力全球范围内更多视觉推理任务的学术研究与产业应用探索。lMU即热新闻——关注每天科技社会生活新变化gihot.com

和开源同规模或更大规模模型的对比,Skywork R1V 38B体现出行业显著优异的推理能力,以及领先的多模态视觉理解能力。如下图,与开源同规模或更大规模模型的对比:lMU即热新闻——关注每天科技社会生活新变化gihot.com

2lMU即热新闻——关注每天科技社会生活新变化gihot.com

与闭源头部模型性能对比,R1V 38B模型性能媲美甚至超越更大开源模型以及主流闭源模型。如下图,与开源大尺寸模型与闭源专有模型的对比:lMU即热新闻——关注每天科技社会生活新变化gihot.com

3lMU即热新闻——关注每天科技社会生活新变化gihot.com

三大核心技术创新,引领视觉推理新突破lMU即热新闻——关注每天科技社会生活新变化gihot.com

Skywork R1V能够达到当前的性能高度,依赖于以下三项关键技术创新:lMU即热新闻——关注每天科技社会生活新变化gihot.com

1、文本推理能力的多模态高效迁移lMU即热新闻——关注每天科技社会生活新变化gihot.com

昆仑万维团队首次提出利用Skywork-VL的视觉投影器,无需重新训练语言模型和视觉编码器,即可实现文本推理能力的高效迁移到视觉任务,同时保留了优秀的原本推理文本能力(AIME 72.0,MATH500 94.0)。lMU即热新闻——关注每天科技社会生活新变化gihot.com

2、多模态混合式训练(IterativeSFT+GRPO)lMU即热新闻——关注每天科技社会生活新变化gihot.com

通过结合迭代监督微调(Iterative SFT)和GRPO强化学习,分阶段对齐视觉-文本表征,实现跨模态任务的高效融合,极大提升跨模态任务的表现。推动模型在MMMU基准达到69分的能力,同时在MathVista达到67.5分,与更大规模的闭源模型基本持平。通过反复迭代地利用高质量数据与高难度数据的组合,实现模型持续的知识巩固与错误纠正,显著提升了多模态推理的精度与泛化性能。lMU即热新闻——关注每天科技社会生活新变化gihot.com

图丨多模态混合式训练(来源:Skywork R1V技术报告)lMU即热新闻——关注每天科技社会生活新变化gihot.com

图丨多模态混合式训练(来源:Skywork R1V技术报告)lMU即热新闻——关注每天科技社会生活新变化gihot.com

3、自适应长度思维链蒸馏lMU即热新闻——关注每天科技社会生活新变化gihot.com

团队提出了一种基于视觉-文本复杂度的自适应推理链长度控制机制,动态优化模型推理过程,避免模型“过度思考”,提升推理效率。结合多阶段自蒸馏策略,进一步提升了数据生成与推理过程的质量,促进了模型在复杂多模态任务中的表现。lMU即热新闻——关注每天科技社会生活新变化gihot.com

图丨自适应长度思维链蒸馏(来源:Skywork R1V技术报告)lMU即热新闻——关注每天科技社会生活新变化gihot.com

图丨自适应长度思维链蒸馏(来源:Skywork R1V技术报告)lMU即热新闻——关注每天科技社会生活新变化gihot.com

Skywork R1V在训练过程中创新性地采用了三阶段方法,使得文本端强大的推理能力得以高效迁移至视觉任务上,具体训练流程如下:lMU即热新闻——关注每天科技社会生活新变化gihot.com

1、STEP1 视觉语言表征的初始对齐lMU即热新闻——关注每天科技社会生活新变化gihot.com

训练时首先使用轻量级的视觉适配器(MLP)连接视觉编码器(ViT)与语言模型,在已有的200万条常规多模态数据上进行训练,使得MLP初步学习如何将图像特征映射至语言空间。这一阶段仅训练MLP适配器,视觉编码器和语言模型参数保持冻结不变,快速、高效地实现视觉与语言表征的初步对齐。lMU即热新闻——关注每天科技社会生活新变化gihot.com

2、STEP2 推理能力迁移lMU即热新闻——关注每天科技社会生活新变化gihot.com

利用第一阶段训练好的MLP适配器,直接将视觉编码器与原始的强推理语言模型(R1-distilled-Qwen-32B)连接,形成Skywork-R1V视觉推理模型。虽然此时语言模型的参数发生了改变,但得益于语言模型架构的高度相似性和MLP的泛化能力,重新组装后的模型已能表现出一定的视觉推理能力,初始性能即达到业内同等规模的先进水平。lMU即热新闻——关注每天科技社会生活新变化gihot.com

3、STEP3 视觉与文本模态精准对齐lMU即热新闻——关注每天科技社会生活新变化gihot.com

最后,采用创新的“混合优化框架”,进一步精准对齐视觉和语言模态的表征。这一阶段分为两大步骤:迭代监督微调(Iterative SFT)和群组相对策略优化(GRPO)强化学习。在整个训练过程中,Skywork-R1V还创新性地引入了“自适应长度思维链蒸馏技术”,动态优化推理链长度,防止模型过度思考,从而提升了推理效率和质量。lMU即热新闻——关注每天科技社会生活新变化gihot.com

通过以上的训练策略,Skywork R1V在视觉推理任务上取得突破性进展,并在多个公开评测基准中达到或超过了现有领先模型的性能。lMU即热新闻——关注每天科技社会生活新变化gihot.com

此外,Skywork团队多模态理解模型也在进行"全面贯通"的进化,将视觉多模态扩展为全模态模型,引入语音理解能力。当前,全模态模型往往受限于特定领域不仅需要独立训练多个专业模型,更面临跨模态协同的算力挑战。lMU即热新闻——关注每天科技社会生活新变化gihot.com

基于R1V模型,Skywork团队设计了一种灵活在R1V中扩展语音理解模态的方式,从而实现一个全模态思考大模型,该在单个模型中同时实现图像、视频、语音的全模态理解能力,并在语音和视觉理解评测中斩获多项SOTA成绩。我们将陆续公布测评成绩、开源全模态思考大模型。lMU即热新闻——关注每天科技社会生活新变化gihot.com

持续开源回馈社区,坚定迈向AGIlMU即热新闻——关注每天科技社会生活新变化gihot.com

2023年10月以来,昆仑万维陆续开源了百亿级大语言模型「天工」Skywork-13B系列、数字智能体全流程研发工具包AgentStudio、4000亿参数MoE超级模型、2千亿稀疏大模型Skywork-MoE、推理模型Skywork-o1-Open等。2025年2月18日,昆仑万维同时将SOTA级别的SkyReels-V1和SkyReels-A1进行开源。lMU即热新闻——关注每天科技社会生活新变化gihot.com

在语言生成模型、AI Agent、推理模型、视频生成模型等相继开源、多点开花之后,我们正式开源Skywork R1V多模态推理模型,在文本-视觉多模态推理方向再下一城,成为中国第一家开源多模态思考模型的企业。lMU即热新闻——关注每天科技社会生活新变化gihot.com

中国企业过去一年在AI领域的开源贡献,让全世界AI从业者和开发者享受到了技术共享带来的普惠发展。DeepSeek的开源为AI行业提供了新的发展范本,多项开源成果显著降低了AI技术的应用门槛、促进全球AI技术的民主化。昆仑万维作为中国AI领军企业,我们将持续开源优秀的模型、数据集等,共建开发者生态、加速技术创新、降低应用门槛、推动技术平权和AI行业发展。lMU即热新闻——关注每天科技社会生活新变化gihot.com

此文内容为企业供稿,仅供参考。lMU即热新闻——关注每天科技社会生活新变化gihot.com


lMU即热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-14-7857-0.html昆仑万维开源R1V视觉思维链推理模型,开启多模态思考新时代

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:甜啦啦获评2025年度特色茶饮十大品牌

下一篇:百利好:国际金价持续大涨后续走势会怎样?

为你推荐
今日(1月27日),恐怖探索ADV《呪いの穢れ唄 鳴海龍也の回奇録》Steam页面开放,2025年4月发售,不支持中文,感兴趣的玩家可以点击此处进入商店页面。 游戏介绍: 失...
01-29
Midnight Society是由颇具争议的主播Dr Disrespect联合创立的游戏工作室。在进行大规模裁员四个月后,该工作室即将关门大吉。与此同时,谷歌宣布解除对Dr Disresp...
02-03
@上海地铁shmetro截图2月8日7时13分,@上海地铁shmetro发布运营信息:目前,浦江线因线路设备故障,三鲁公路至沈杜公路区段停止运营,汇臻路至三鲁公路单一交路运行。目前,故障区段已...
02-08
极目新闻记者 谢茂 邓波2月8日,四川宜宾市筠连县沐爱镇金坪村发生山体滑坡,导致10户民房、1户生产用房被掩埋,目前有1人遇难,28人失联。一方有难,八方支援。受灾区域周边村镇的热...
02-09
AI教父黄仁勋再次现身中国!1月15日,英伟达创始人兼CEO黄仁勋在深圳接受媒体采访时表示,“我是来和我的员工一起庆祝春节的,这就是我的...
01-21
【新春走基层·我在大国工程现场】开栏的话 冬去春来,四季更替,又到了喜迎新春的时刻。浓浓的年味里,有人分秒必争,以奋斗书写新一年的梦想;有人...
01-24
  一家四口假期出游,提前在线上预订酒店,却订到房型根本不存在的“虚假房”,最后不仅订单被取消,...
01-21
  新华社济南2月12日电(记者丛佳鑫)农历正月十四太阳落山后,山东省烟台市黄渤海新区古现街道的渔...
02-14
全国多个省份陆续进入“两会时间”。1月13日,黑龙江省第十四届人民代表大会第三次会议开幕。根据2025年黑龙江省政府工作报告,2025...
01-21
新闻通讯员 木子春运承载着亿万游子对家乡的眷恋与期盼,春节的脚步近了,归心似箭的人们纷纷踏上返乡之路。据交通运输等部门预计,今年春运全社会跨区域人员流动量将达到90亿人...
01-22
1 月 26 日消息,宝马首席开发官 Frank Webber 近日在接受 Motor Authority 采访时表示,iDrive X 的屏幕已经足够大,没有必要继续增大。“如果车内有太大的屏幕,会让你与...
01-27
1 月 31 日消息,据小鹏汽车官方,近日该公司先后在都柏林与赫尔辛基举办发布会,小鹏 G9 在芬兰登场,而小鹏 G6 在芬兰与爱尔兰同时亮相。▲ 图源小鹏汽车公众号在此之前,...
02-01
正在播出的《白色橄榄树》深受观众喜爱,每一集的情节引人入胜,人物角色贴合故事情节的发展,让观众在观看过程中不断产生好奇心。在电视剧第32集中,宋冉和李瓒终...
02-19
《180天重启计划》第2集的剧情引起了观众们的广泛讨论。顾云苏在大闹饭局后仍然决定去公司上班,但刚到工位就收到了同事的临别礼物,并被要求办理交接手续。面...
02-20
  新华社北京1月7日电(记者徐鹏航)针对近期有群众反映用人单位拖欠职工工资和“五险一金”缴费,影响其医保权益保障的情况,国家医保局7日公开发布通知,进一步加强劳动者...
01-21
21世纪经济报道记者 唐唯珂 广州报道社会办医的洗牌期仍在继续。2025年1月,新华医疗挂牌转让旗下山东新华昌国医院投资管理有限公司55%股权...
01-25
大家好!我是童学会小记者王馨涵,6月16日我们去创聚冰雪滑冰,这是我第一次走进真冰场。刚到滑冰场,看着那些大姐姐们在冰上如在平地般自由的运动,感觉很简单,毕竟自己也是滑过旱冰...
01-21
新华社北京1月19日电 近日,中共中央、国务院印发了《教育强国建设规划纲要(2024—2035年)》(以下简称《纲...
01-21
  摘要  【钢银电商:本周全国城市钢材库存环比增加14.39%建材库存增幅超两成】钢银电商27日...
01-28
  近期,保险资金频繁“扫货”上市公司股票。根据Wind统计,今年以来,包括平安人寿举牌邮储银行H股...
02-11
星座一直以来都是人们津津乐道的话题,尤其是在爱情方面。每个星座都有自己独特的性格特...
01-22
每个人都有自己心目中理想的伴侣类型,而对于狮子座的男生他们通常希望找到一位能够与他...
01-22
童装搭配技巧? 童装搭配文案?一、童装搭配技巧?童装怎么样搭配!1,首先是看儿童的肤色选择深浅,2,儿童的胖瘦选择衣服,3,儿童的喜爱选择,4颜色深浅错开搭配,5舒适宽松二、童装搭配文案?1....
02-07
魅力绽放:模特T台走秀背后的故事在时尚界,有一种声音永远不会被忽视,那就是模特T台走秀。这个将创意与自信结合的空间,不仅展示着设计师的想象力,还体现着模特们的努力与魅力。走...
02-12
2月11日消息,永辉超市日前发布了乙巳蛇年首批调改门店名单,共计20家门店,涉及15个城市。其中,包括了武汉、太原、南宁、开封、温州、东莞、绵阳和福清8个新晋调改城市,届时,调改店...
02-11
2月19日消息,抖音商城38好物节日前开启商家报名,活动时间为2月27日20:00:00至3月8日23:59:59。图源:抖音电商学习中心本次38大促无预售,全程为现货开卖,平台核心玩法是官方立减15...
02-20
2月14日消息,情人节到来,饿了么联合战略咨询公司OC&C共同发布的《情人节即时零售礼赠趋势与品类机遇洞察》显示,过去三年情人节当天,重点礼赠品类的外卖单量较12日环比增长超过3...
02-15
ZARA、H&M一度引领国内时尚风潮,被誉为“白领衣柜的时尚宠儿”,但如今光环不再。国内本土服装品牌的崛起,让ZARA、H&M等国际快时尚品...
02-18
国家统计局近日公布的2024年国民经济运行数据显示,2024年全国社会消费品零售总额48.7895万亿元,比上年增长3.5%;全国网上零售额15.5225万亿元,增长7.2%。过去一年,增量政策...
02-09
【#小米汽车登记智能屏界面设计作品著作权#】天眼查App显示,近日,小米汽车科技有限公司登记“智能屏界面设计”作品著作权,作品类别为类似摄制电影方法创作的作品。该公司成立...
02-09
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮