昆仑万维开源R1V视觉思维链推理模型,开启多模态思考新时代

1年前 来源:财经网 观看:152

3月18日,昆仑万维正式开源首款工业界多模态思维链推理模型Skywork R1V,即日起开源模型权重和技术报告。KzQ即热新闻——关注每天科技社会生活新变化gihot.com

1KzQ即热新闻——关注每天科技社会生活新变化gihot.com

开启多模态思考新时代KzQ即热新闻——关注每天科技社会生活新变化gihot.com

继OpenAI o1和DeepSeek-R1在全球掀起长思考模型热潮后,大模型进入新技术范式。昆仑万维秉持实现 AGI 的初心,积极贡献开源社区,正式开源Skywork R1V多模态视觉推理模型,成为中国第一个开源「多模态推理模型」的企业。KzQ即热新闻——关注每天科技社会生活新变化gihot.com

什么是视觉推理模型?KzQ即热新闻——关注每天科技社会生活新变化gihot.com

视觉推理模型是一类能够解决需要思维链(Chain-of-Thought)的视觉任务的模型,通过对视觉信息进行多步逻辑推理与分析,逐步推导出最终结果。这种模型不仅关注图像内容的识别与理解,更强调通过层层递进的推理路径,实现复杂视觉问题的精准求解,例如视觉逻辑推理、视觉数学问题、图像中的科学现象分析、医学影像的诊断推理等,从而有效拓展了视觉大模型的应用边界。KzQ即热新闻——关注每天科技社会生活新变化gihot.com

无论是日常繁琐的工作任务、复杂的数据分析、难以解答的学术问题,还是前所未见的陌生场景,都可以交给Skywork R1V进行高效处理。KzQ即热新闻——关注每天科技社会生活新变化gihot.com

快速体验下来,R1V的视觉理解和推理能力双双在线。这样的模型能力是如何炼成的呢?KzQ即热新闻——关注每天科技社会生活新变化gihot.com

强大推理能力,刷新跨模态任务新高度KzQ即热新闻——关注每天科技社会生活新变化gihot.com

在Reasoning推理能力方面,Skywork R1V实现了模型的顶尖逻辑推理与数学分析能力。在权威的MATH500和AIME基准测试中,Skywork R1V分别取得了94.0和72.0的高分,明显领先于行业内众多主流模型。Skywork R1V在纯文本复杂推理任务中展现出卓越性能,使其在逻辑推理和数学问题求解领域展现出人类专家级别的水准。KzQ即热新闻——关注每天科技社会生活新变化gihot.com

在Vision视觉理解能力方面,Skywork R1V成功地将其强大的文本推理与思维链推导能力高效迁移到视觉任务中。凭借创新的跨模态迁移技术与推理优化框架,Skywork R1V能够高效解决需要多步视觉推理的问题,在MMMU与MathVista等视觉推理基准中分别取得了69和67.5的优异成绩。这些结果不仅明显超越了多个近似大小的开源竞争模型,更达到与规模更大的闭源模型媲美的水准,充分证实了Skywork R1V在需要视觉思维链推理的跨模态任务中的领先优势。KzQ即热新闻——关注每天科技社会生活新变化gihot.com

Skywork R1V通过视觉与文本能力的深度融合和视觉思维链推理能力的突破,推动了多模态推理模型的进一步发展,标志着人工智能领域的又一重大进步。KzQ即热新闻——关注每天科技社会生活新变化gihot.com

目前,Skywork R1V已全面开源,期望助力全球范围内更多视觉推理任务的学术研究与产业应用探索。KzQ即热新闻——关注每天科技社会生活新变化gihot.com

和开源同规模或更大规模模型的对比,Skywork R1V 38B体现出行业显著优异的推理能力,以及领先的多模态视觉理解能力。如下图,与开源同规模或更大规模模型的对比:KzQ即热新闻——关注每天科技社会生活新变化gihot.com

2KzQ即热新闻——关注每天科技社会生活新变化gihot.com

与闭源头部模型性能对比,R1V 38B模型性能媲美甚至超越更大开源模型以及主流闭源模型。如下图,与开源大尺寸模型与闭源专有模型的对比:KzQ即热新闻——关注每天科技社会生活新变化gihot.com

3KzQ即热新闻——关注每天科技社会生活新变化gihot.com

三大核心技术创新,引领视觉推理新突破KzQ即热新闻——关注每天科技社会生活新变化gihot.com

Skywork R1V能够达到当前的性能高度,依赖于以下三项关键技术创新:KzQ即热新闻——关注每天科技社会生活新变化gihot.com

1、文本推理能力的多模态高效迁移KzQ即热新闻——关注每天科技社会生活新变化gihot.com

昆仑万维团队首次提出利用Skywork-VL的视觉投影器,无需重新训练语言模型和视觉编码器,即可实现文本推理能力的高效迁移到视觉任务,同时保留了优秀的原本推理文本能力(AIME 72.0,MATH500 94.0)。KzQ即热新闻——关注每天科技社会生活新变化gihot.com

2、多模态混合式训练(IterativeSFT+GRPO)KzQ即热新闻——关注每天科技社会生活新变化gihot.com

通过结合迭代监督微调(Iterative SFT)和GRPO强化学习,分阶段对齐视觉-文本表征,实现跨模态任务的高效融合,极大提升跨模态任务的表现。推动模型在MMMU基准达到69分的能力,同时在MathVista达到67.5分,与更大规模的闭源模型基本持平。通过反复迭代地利用高质量数据与高难度数据的组合,实现模型持续的知识巩固与错误纠正,显著提升了多模态推理的精度与泛化性能。KzQ即热新闻——关注每天科技社会生活新变化gihot.com

图丨多模态混合式训练(来源:Skywork R1V技术报告)KzQ即热新闻——关注每天科技社会生活新变化gihot.com

图丨多模态混合式训练(来源:Skywork R1V技术报告)KzQ即热新闻——关注每天科技社会生活新变化gihot.com

3、自适应长度思维链蒸馏KzQ即热新闻——关注每天科技社会生活新变化gihot.com

团队提出了一种基于视觉-文本复杂度的自适应推理链长度控制机制,动态优化模型推理过程,避免模型“过度思考”,提升推理效率。结合多阶段自蒸馏策略,进一步提升了数据生成与推理过程的质量,促进了模型在复杂多模态任务中的表现。KzQ即热新闻——关注每天科技社会生活新变化gihot.com

图丨自适应长度思维链蒸馏(来源:Skywork R1V技术报告)KzQ即热新闻——关注每天科技社会生活新变化gihot.com

图丨自适应长度思维链蒸馏(来源:Skywork R1V技术报告)KzQ即热新闻——关注每天科技社会生活新变化gihot.com

Skywork R1V在训练过程中创新性地采用了三阶段方法,使得文本端强大的推理能力得以高效迁移至视觉任务上,具体训练流程如下:KzQ即热新闻——关注每天科技社会生活新变化gihot.com

1、STEP1 视觉语言表征的初始对齐KzQ即热新闻——关注每天科技社会生活新变化gihot.com

训练时首先使用轻量级的视觉适配器(MLP)连接视觉编码器(ViT)与语言模型,在已有的200万条常规多模态数据上进行训练,使得MLP初步学习如何将图像特征映射至语言空间。这一阶段仅训练MLP适配器,视觉编码器和语言模型参数保持冻结不变,快速、高效地实现视觉与语言表征的初步对齐。KzQ即热新闻——关注每天科技社会生活新变化gihot.com

2、STEP2 推理能力迁移KzQ即热新闻——关注每天科技社会生活新变化gihot.com

利用第一阶段训练好的MLP适配器,直接将视觉编码器与原始的强推理语言模型(R1-distilled-Qwen-32B)连接,形成Skywork-R1V视觉推理模型。虽然此时语言模型的参数发生了改变,但得益于语言模型架构的高度相似性和MLP的泛化能力,重新组装后的模型已能表现出一定的视觉推理能力,初始性能即达到业内同等规模的先进水平。KzQ即热新闻——关注每天科技社会生活新变化gihot.com

3、STEP3 视觉与文本模态精准对齐KzQ即热新闻——关注每天科技社会生活新变化gihot.com

最后,采用创新的“混合优化框架”,进一步精准对齐视觉和语言模态的表征。这一阶段分为两大步骤:迭代监督微调(Iterative SFT)和群组相对策略优化(GRPO)强化学习。在整个训练过程中,Skywork-R1V还创新性地引入了“自适应长度思维链蒸馏技术”,动态优化推理链长度,防止模型过度思考,从而提升了推理效率和质量。KzQ即热新闻——关注每天科技社会生活新变化gihot.com

通过以上的训练策略,Skywork R1V在视觉推理任务上取得突破性进展,并在多个公开评测基准中达到或超过了现有领先模型的性能。KzQ即热新闻——关注每天科技社会生活新变化gihot.com

此外,Skywork团队多模态理解模型也在进行"全面贯通"的进化,将视觉多模态扩展为全模态模型,引入语音理解能力。当前,全模态模型往往受限于特定领域不仅需要独立训练多个专业模型,更面临跨模态协同的算力挑战。KzQ即热新闻——关注每天科技社会生活新变化gihot.com

基于R1V模型,Skywork团队设计了一种灵活在R1V中扩展语音理解模态的方式,从而实现一个全模态思考大模型,该在单个模型中同时实现图像、视频、语音的全模态理解能力,并在语音和视觉理解评测中斩获多项SOTA成绩。我们将陆续公布测评成绩、开源全模态思考大模型。KzQ即热新闻——关注每天科技社会生活新变化gihot.com

持续开源回馈社区,坚定迈向AGIKzQ即热新闻——关注每天科技社会生活新变化gihot.com

2023年10月以来,昆仑万维陆续开源了百亿级大语言模型「天工」Skywork-13B系列、数字智能体全流程研发工具包AgentStudio、4000亿参数MoE超级模型、2千亿稀疏大模型Skywork-MoE、推理模型Skywork-o1-Open等。2025年2月18日,昆仑万维同时将SOTA级别的SkyReels-V1和SkyReels-A1进行开源。KzQ即热新闻——关注每天科技社会生活新变化gihot.com

在语言生成模型、AI Agent、推理模型、视频生成模型等相继开源、多点开花之后,我们正式开源Skywork R1V多模态推理模型,在文本-视觉多模态推理方向再下一城,成为中国第一家开源多模态思考模型的企业。KzQ即热新闻——关注每天科技社会生活新变化gihot.com

中国企业过去一年在AI领域的开源贡献,让全世界AI从业者和开发者享受到了技术共享带来的普惠发展。DeepSeek的开源为AI行业提供了新的发展范本,多项开源成果显著降低了AI技术的应用门槛、促进全球AI技术的民主化。昆仑万维作为中国AI领军企业,我们将持续开源优秀的模型、数据集等,共建开发者生态、加速技术创新、降低应用门槛、推动技术平权和AI行业发展。KzQ即热新闻——关注每天科技社会生活新变化gihot.com

此文内容为企业供稿,仅供参考。KzQ即热新闻——关注每天科技社会生活新变化gihot.com


KzQ即热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-14-7857-0.html昆仑万维开源R1V视觉思维链推理模型,开启多模态思考新时代

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:甜啦啦获评2025年度特色茶饮十大品牌

下一篇:百利好:国际金价持续大涨后续走势会怎样?

为你推荐
到目前未知,2025年最大的游戏新闻无疑是上周宣布的任天堂 Switch 2,但除了目前确认的只有一款在预告中出现的《马里奥赛车》新作以外,任天堂还没有宣布这款新硬件...
01-24
1月29日,暴雪宣布下个月将举办一场《守望先锋2》聚焦活动,旨在这款英雄射击游戏被《漫威对决》压制了约两个月后,公布其 “突破性的改动”。该公告还确认,作为活动...
02-03
2月8日,哈尔滨亚冬会自由式滑雪女子U型场地技巧决赛,中国选手李方慧、张可欣包揽金银牌!中国选手李方慧凭借第三轮95.25分的成绩夺得金牌,这是中国代表团在哈尔滨亚冬会夺得的首...
02-08
2025年综合运输春运工作专班数据显示,预计2025年2月9日(春运第27日,农历正月十二),全社会跨区域人员流动量20629万人次,其中,铁路客运量1330万人次,公路人员流动量18983万人次(高速公...
02-09
图源:pixabay1月17日晚间,思科瑞(688053.SH)发布公告称,公司收到四川证监局出具的《行政监管措施决定书》。据上述文件,思科瑞在2022年...
01-21
昆虫即使在弱光条件下也能表现出极其优秀的敏捷性和反应能力。秘密在于它们的复眼能以惊人的速度和灵敏度检测运动。韩国科学技术院研究人员模仿这...
01-21
  中央气象台1月27日18时继续发布暴雪黄色预警:  预计,1月27日20时至1月28日20时,辽宁中东部、吉林南...
01-28
  近日,省人力资源社会保障厅面向全省人社领域出台若干措施,加强人社领域一揽子政策供给,用好吸纳就业补...
02-14
  中新经纬1月21日电 题:智能化引领,AI家电与低空经济“共舞”  作者 朱克力 中国信息协会常务理事、国研新经济研究院创始院长  2024年来,以旧换新政策在家电消费领域掀...
01-21
  中新经纬1月18日电 格力回应“董明珠被停职审查”传闻,称是恶意中伤。  18日,珠海格力电器股份有限公司文化传媒中心微博“格力文传”发布声明称,注意到微博用户“许韬de...
01-21
1 月 22 日消息,据新华社报道,中共中央、国务院近日印发《乡村全面振兴规划(2024—2027 年)》。规划提出,到 2027 年,乡村全面振兴取得实质性进展,农业农村现代化迈上新台...
01-23
2 月 7 日消息,汽车媒体 carscoops 今天(2 月 7 日)发布博文,报道称斯巴鲁(Subaru)扩展旗下 FORESTER 森林人 SUV,计划今年夏季推出全新混合动力版本和 Wilderness 越野版...
02-07
  1、《难哄》电视剧在优酷视频播出,剧集定档2月18日上线优酷的生花剧场全网独播。  2、桑延和温以凡曾是高中同学,缘分安排让他们在工作后重逢,阴差阳错下两人还合租到了...
02-14
最近,《陌上又花开》在短视频软件上引起了广泛关注,无论是颜值、演技还是剧情,都迅速吸引了观众的目光。剧中赵大爷的故事也成为了热议话题。马春秀细心照料下...
02-22
  即将告别春节假期,你有没有不想上班、不想上学、不想起床?从“假期模式”切换到“工作模式”还不太适应?如何调整?指南请收好↓↓↓  01  什么是“节后综合征”? ...
02-07
21世纪经济报道记者武瑛港 实习生张烁 李依浓 北京报道近日多家医疗器械上市公司发布业绩预告,行业的“寒冬”似乎仍在持续。乐普医疗和春...
02-09
据合肥工业大学新闻文化网消息,近日,合肥工业大学数学学院徐正华副教授与米兰...
01-21
  大众网记者 王一刚 报道  1.暖·冬至  冬至,在我国农历的舞台上,它不仅是一个至关重要的节气,更是一场阖家团圆、传承民俗的文化盛宴。  为了在幼儿心底种下传统...
01-21
  2024年12月30日,中国信托业协会发布《2023—2024中国信托业社会责任报告》(以下简称《报告》)...
01-24
  中国证券报记者1月26日获悉,国家金融监督管理总局近日已批复开展第二批保险资金长期股票投资...
02-05
金牛座的男生通常被认为是稳重、务实的代表,他们对感情非常认真,但有时候也会故意气你。...
01-22
摩羯座是黄道带上的第十个星座,出生于12月22日至1月19日期间。摩羯座的人以稳重、务实...
01-22
秋季穿搭,怎么搭配才时尚有范儿?对于女性来说,秋冬季的衣服不用天天换。用一衣多穿的穿搭方式,搭配出时尚的感觉来。可同时一衣多穿还有很多搭配的小技巧,可以让你把一件普通平凡...
02-12
领略T台魅力:模特背后的故事与时尚之舞我记得第一次走进一个时尚秀场,那时的我只是个对时尚充满好奇的观众。随着模特们优雅地走过T台,身上闪烁的华美服装在灯光下折射出迷人的...
02-12
刘强东:无论京东做多大,都将会把最实惠的价格带给用户。1.京东上线竞价购物玩法刘强东认准一件事情,似乎无论发生什么,都会贯彻到底。自从2022年底京东零售内部大会上,刘强东明确...
02-13
2月12日消息,苏宁易采云总裁王振伟近日携团队到访南京洛菲特数码科技有限公司,与洛菲特总经理顾为征就双方合作达成共识,签署战略合作协议。图源:苏宁易采云V公众号作为商业显示...
02-13
2025年家电购新补贴延续,对于家电消费市场而言可谓喜闻乐见。一方面,消费者能够用更优惠的价格添置高品质的新家电;另一方面,厂商能够...
02-07
2月5日消息,药易购日前在温江总部召开了2025工作部署会议。图源:合纵药易购公众号会上,药易购总裁陈顺军号召全体员工在新的一年里携手共进,并就公司的工作方向及目标规划给予了...
02-07
自去年底开始,黄金多头优势逐渐退却,国际现货黄金价格经历几次大跌后一度跌下2700关口,多空进入漫长的震荡周期,多头始终无法找到再度冲高的时机。  北京时间1月21日,国际现货...
01-24
在全球化背景下,跨界合作已成为推动产业升级的重要动力。作为亚洲领先的数字娱乐平台,九游娱乐与意大利足球甲级联赛的传统劲旅佛罗伦萨足球俱乐部正式宣布达成战略合作协议,成...
02-09
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮