昆仑万维开源R1V视觉思维链推理模型,开启多模态思考新时代

9个月前 来源:财经网 观看:110

3月18日,昆仑万维正式开源首款工业界多模态思维链推理模型Skywork R1V,即日起开源模型权重和技术报告。Ye9即热新闻——关注每天科技社会生活新变化gihot.com

1Ye9即热新闻——关注每天科技社会生活新变化gihot.com

开启多模态思考新时代Ye9即热新闻——关注每天科技社会生活新变化gihot.com

继OpenAI o1和DeepSeek-R1在全球掀起长思考模型热潮后,大模型进入新技术范式。昆仑万维秉持实现 AGI 的初心,积极贡献开源社区,正式开源Skywork R1V多模态视觉推理模型,成为中国第一个开源「多模态推理模型」的企业。Ye9即热新闻——关注每天科技社会生活新变化gihot.com

什么是视觉推理模型?Ye9即热新闻——关注每天科技社会生活新变化gihot.com

视觉推理模型是一类能够解决需要思维链(Chain-of-Thought)的视觉任务的模型,通过对视觉信息进行多步逻辑推理与分析,逐步推导出最终结果。这种模型不仅关注图像内容的识别与理解,更强调通过层层递进的推理路径,实现复杂视觉问题的精准求解,例如视觉逻辑推理、视觉数学问题、图像中的科学现象分析、医学影像的诊断推理等,从而有效拓展了视觉大模型的应用边界。Ye9即热新闻——关注每天科技社会生活新变化gihot.com

无论是日常繁琐的工作任务、复杂的数据分析、难以解答的学术问题,还是前所未见的陌生场景,都可以交给Skywork R1V进行高效处理。Ye9即热新闻——关注每天科技社会生活新变化gihot.com

快速体验下来,R1V的视觉理解和推理能力双双在线。这样的模型能力是如何炼成的呢?Ye9即热新闻——关注每天科技社会生活新变化gihot.com

强大推理能力,刷新跨模态任务新高度Ye9即热新闻——关注每天科技社会生活新变化gihot.com

在Reasoning推理能力方面,Skywork R1V实现了模型的顶尖逻辑推理与数学分析能力。在权威的MATH500和AIME基准测试中,Skywork R1V分别取得了94.0和72.0的高分,明显领先于行业内众多主流模型。Skywork R1V在纯文本复杂推理任务中展现出卓越性能,使其在逻辑推理和数学问题求解领域展现出人类专家级别的水准。Ye9即热新闻——关注每天科技社会生活新变化gihot.com

在Vision视觉理解能力方面,Skywork R1V成功地将其强大的文本推理与思维链推导能力高效迁移到视觉任务中。凭借创新的跨模态迁移技术与推理优化框架,Skywork R1V能够高效解决需要多步视觉推理的问题,在MMMU与MathVista等视觉推理基准中分别取得了69和67.5的优异成绩。这些结果不仅明显超越了多个近似大小的开源竞争模型,更达到与规模更大的闭源模型媲美的水准,充分证实了Skywork R1V在需要视觉思维链推理的跨模态任务中的领先优势。Ye9即热新闻——关注每天科技社会生活新变化gihot.com

Skywork R1V通过视觉与文本能力的深度融合和视觉思维链推理能力的突破,推动了多模态推理模型的进一步发展,标志着人工智能领域的又一重大进步。Ye9即热新闻——关注每天科技社会生活新变化gihot.com

目前,Skywork R1V已全面开源,期望助力全球范围内更多视觉推理任务的学术研究与产业应用探索。Ye9即热新闻——关注每天科技社会生活新变化gihot.com

和开源同规模或更大规模模型的对比,Skywork R1V 38B体现出行业显著优异的推理能力,以及领先的多模态视觉理解能力。如下图,与开源同规模或更大规模模型的对比:Ye9即热新闻——关注每天科技社会生活新变化gihot.com

2Ye9即热新闻——关注每天科技社会生活新变化gihot.com

与闭源头部模型性能对比,R1V 38B模型性能媲美甚至超越更大开源模型以及主流闭源模型。如下图,与开源大尺寸模型与闭源专有模型的对比:Ye9即热新闻——关注每天科技社会生活新变化gihot.com

3Ye9即热新闻——关注每天科技社会生活新变化gihot.com

三大核心技术创新,引领视觉推理新突破Ye9即热新闻——关注每天科技社会生活新变化gihot.com

Skywork R1V能够达到当前的性能高度,依赖于以下三项关键技术创新:Ye9即热新闻——关注每天科技社会生活新变化gihot.com

1、文本推理能力的多模态高效迁移Ye9即热新闻——关注每天科技社会生活新变化gihot.com

昆仑万维团队首次提出利用Skywork-VL的视觉投影器,无需重新训练语言模型和视觉编码器,即可实现文本推理能力的高效迁移到视觉任务,同时保留了优秀的原本推理文本能力(AIME 72.0,MATH500 94.0)。Ye9即热新闻——关注每天科技社会生活新变化gihot.com

2、多模态混合式训练(IterativeSFT+GRPO)Ye9即热新闻——关注每天科技社会生活新变化gihot.com

通过结合迭代监督微调(Iterative SFT)和GRPO强化学习,分阶段对齐视觉-文本表征,实现跨模态任务的高效融合,极大提升跨模态任务的表现。推动模型在MMMU基准达到69分的能力,同时在MathVista达到67.5分,与更大规模的闭源模型基本持平。通过反复迭代地利用高质量数据与高难度数据的组合,实现模型持续的知识巩固与错误纠正,显著提升了多模态推理的精度与泛化性能。Ye9即热新闻——关注每天科技社会生活新变化gihot.com

图丨多模态混合式训练(来源:Skywork R1V技术报告)Ye9即热新闻——关注每天科技社会生活新变化gihot.com

图丨多模态混合式训练(来源:Skywork R1V技术报告)Ye9即热新闻——关注每天科技社会生活新变化gihot.com

3、自适应长度思维链蒸馏Ye9即热新闻——关注每天科技社会生活新变化gihot.com

团队提出了一种基于视觉-文本复杂度的自适应推理链长度控制机制,动态优化模型推理过程,避免模型“过度思考”,提升推理效率。结合多阶段自蒸馏策略,进一步提升了数据生成与推理过程的质量,促进了模型在复杂多模态任务中的表现。Ye9即热新闻——关注每天科技社会生活新变化gihot.com

图丨自适应长度思维链蒸馏(来源:Skywork R1V技术报告)Ye9即热新闻——关注每天科技社会生活新变化gihot.com

图丨自适应长度思维链蒸馏(来源:Skywork R1V技术报告)Ye9即热新闻——关注每天科技社会生活新变化gihot.com

Skywork R1V在训练过程中创新性地采用了三阶段方法,使得文本端强大的推理能力得以高效迁移至视觉任务上,具体训练流程如下:Ye9即热新闻——关注每天科技社会生活新变化gihot.com

1、STEP1 视觉语言表征的初始对齐Ye9即热新闻——关注每天科技社会生活新变化gihot.com

训练时首先使用轻量级的视觉适配器(MLP)连接视觉编码器(ViT)与语言模型,在已有的200万条常规多模态数据上进行训练,使得MLP初步学习如何将图像特征映射至语言空间。这一阶段仅训练MLP适配器,视觉编码器和语言模型参数保持冻结不变,快速、高效地实现视觉与语言表征的初步对齐。Ye9即热新闻——关注每天科技社会生活新变化gihot.com

2、STEP2 推理能力迁移Ye9即热新闻——关注每天科技社会生活新变化gihot.com

利用第一阶段训练好的MLP适配器,直接将视觉编码器与原始的强推理语言模型(R1-distilled-Qwen-32B)连接,形成Skywork-R1V视觉推理模型。虽然此时语言模型的参数发生了改变,但得益于语言模型架构的高度相似性和MLP的泛化能力,重新组装后的模型已能表现出一定的视觉推理能力,初始性能即达到业内同等规模的先进水平。Ye9即热新闻——关注每天科技社会生活新变化gihot.com

3、STEP3 视觉与文本模态精准对齐Ye9即热新闻——关注每天科技社会生活新变化gihot.com

最后,采用创新的“混合优化框架”,进一步精准对齐视觉和语言模态的表征。这一阶段分为两大步骤:迭代监督微调(Iterative SFT)和群组相对策略优化(GRPO)强化学习。在整个训练过程中,Skywork-R1V还创新性地引入了“自适应长度思维链蒸馏技术”,动态优化推理链长度,防止模型过度思考,从而提升了推理效率和质量。Ye9即热新闻——关注每天科技社会生活新变化gihot.com

通过以上的训练策略,Skywork R1V在视觉推理任务上取得突破性进展,并在多个公开评测基准中达到或超过了现有领先模型的性能。Ye9即热新闻——关注每天科技社会生活新变化gihot.com

此外,Skywork团队多模态理解模型也在进行"全面贯通"的进化,将视觉多模态扩展为全模态模型,引入语音理解能力。当前,全模态模型往往受限于特定领域不仅需要独立训练多个专业模型,更面临跨模态协同的算力挑战。Ye9即热新闻——关注每天科技社会生活新变化gihot.com

基于R1V模型,Skywork团队设计了一种灵活在R1V中扩展语音理解模态的方式,从而实现一个全模态思考大模型,该在单个模型中同时实现图像、视频、语音的全模态理解能力,并在语音和视觉理解评测中斩获多项SOTA成绩。我们将陆续公布测评成绩、开源全模态思考大模型。Ye9即热新闻——关注每天科技社会生活新变化gihot.com

持续开源回馈社区,坚定迈向AGIYe9即热新闻——关注每天科技社会生活新变化gihot.com

2023年10月以来,昆仑万维陆续开源了百亿级大语言模型「天工」Skywork-13B系列、数字智能体全流程研发工具包AgentStudio、4000亿参数MoE超级模型、2千亿稀疏大模型Skywork-MoE、推理模型Skywork-o1-Open等。2025年2月18日,昆仑万维同时将SOTA级别的SkyReels-V1和SkyReels-A1进行开源。Ye9即热新闻——关注每天科技社会生活新变化gihot.com

在语言生成模型、AI Agent、推理模型、视频生成模型等相继开源、多点开花之后,我们正式开源Skywork R1V多模态推理模型,在文本-视觉多模态推理方向再下一城,成为中国第一家开源多模态思考模型的企业。Ye9即热新闻——关注每天科技社会生活新变化gihot.com

中国企业过去一年在AI领域的开源贡献,让全世界AI从业者和开发者享受到了技术共享带来的普惠发展。DeepSeek的开源为AI行业提供了新的发展范本,多项开源成果显著降低了AI技术的应用门槛、促进全球AI技术的民主化。昆仑万维作为中国AI领军企业,我们将持续开源优秀的模型、数据集等,共建开发者生态、加速技术创新、降低应用门槛、推动技术平权和AI行业发展。Ye9即热新闻——关注每天科技社会生活新变化gihot.com

此文内容为企业供稿,仅供参考。Ye9即热新闻——关注每天科技社会生活新变化gihot.com


Ye9即热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-14-7857-0.html昆仑万维开源R1V视觉思维链推理模型,开启多模态思考新时代

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:甜啦啦获评2025年度特色茶饮十大品牌

下一篇:百利好:国际金价持续大涨后续走势会怎样?

为你推荐
今日(1月21日),roguelike游戏《Ragnar》Steam页面上线,游戏支持简繁体中文,发售日待定,感兴趣的玩家可以点击此处进入商店页面。 游戏介绍: 在这款受北欧神话启发...
01-22
大年初一,《真三国无双:起源》制作人庄知彦在X上发推,用中文“蛇年大吉,恭喜发财!”向中国玩家拜年,发布新年祝福。 他随后用日语再次向国内玩家恭贺新年,祝中国玩...
02-01
极目新闻记者 丁鹏2月3日,有网友发视频称,重庆石柱一彩民刮中一注刮刮乐百万大奖,但被彩票点老板抢回,双方引发争执后报警。4日,极目新闻记者从事发地辖区派出所了解到,没有抢夺彩...
02-04
极目新闻记者 丁鹏2月3日晚,山西大同古城一店铺因未按当地要求打开灯,多名工作人员撬锁进店将灯打开,此事引发热议。2月5日,大同市平城区古城街道办事处回应极目新闻记者,正在核...
02-05
“三国是一个好IP。”在当下中国的游戏市场上,以《西游记》《三国演义》等四大名著为内容IP而衍生开发的游戏,仍然在头部产品中占据...
01-21
1月20日,国家能源局发布的“2024年全国油气勘探开发十大标志性成果”显示,2024年,国内油气产量当量首次超过4亿吨,连续8年保持千万吨级快速增长势头,“...
01-21
  2025年春运于1月14日正式启动。当日,记者从省公安厅交管局举行的新闻发布会上获悉,全省公安交管部门...
01-21
辽宁省气象局发布气象信息11日夜间辽宁中东部地区有中雪到大雪并伴有大风和降温将出现明显道路湿滑或结...
02-09
  海报新闻记者 孙佃潇 北京报道  大学教授、收藏家、作家、阿里巴巴荣誉合伙人……如果细写,王帅的身份可能一张A4纸都写不完。1月18日晚,王帅作为一位分享者,携新书《...
01-21
春节临近,年味渐浓。每到除夕前几天,置办年货成了消费者日常生活中的“头等大事”。年货种类繁多,尤其是食品类年货更是多种多样,其中又以四川特产年货最受全国消费者欢迎。从麻...
01-22
1 月 21 日消息,据 BYDOTA 消息,比亚迪面向 25 款海豹汽车内测车主推送1.1.0 版本 OTA 更新,主要新增城市领航(CNOA)等 16 项功能及 20 项优化。该版本当前处于内测阶段,...
01-21
春运大幕已经拉开,一汽-大众敏锐发现不少客户仍有买不到票,回家难的需求,暖心发起公益回家之旅活动,号召全国经销商,为大家筹备安心“顺风车”,致力于让每一位归心似箭的人,都能无...
01-27
《余烬之上》廖知白被谁杀了?廖知白最后真的死了嘛?在《余烬之上》中,廖知白并非被他人所杀,而是自己策划了死亡。廖知白为了揪出幕后黑手,将自己尸体公之于众,引...
02-21
近日,黄明昊在北京成功举办了一场别开生面的个人演唱会,吸引了众多粉丝与圈内好友的关注。演唱会上,黄明昊展现出了他多变的舞台魅力,不断切换不同风格的造型,为观众带来了精彩绝...
02-23
  到医院看病,迎面而来的可能是智能机器人;检查结果出来,人工智能迅速给出诊断意见……随着AI技术飞速提升,诊...
01-21
21世纪经济报道记者 闫硕 北京报道“国际医疗部的费用真的有点夸张,但体验也真是好。”“国际医疗部的号源相对宽裕,提前1-3天约就可以了。...
02-07
  近日,在第三届全球数字贸易博览会上发布了首批全国农村电商“领跑县”典型案例,曹县是山东省唯一上榜者。文化自信是新时代的突出优势,也是新时代文化的鲜明标识。正是...
01-21
  大众网记者 隋宜笑 报道  12月26日,山东政法学院党委委员、副校长胡晓清,山东政法学院传媒学院党总支书记徐永青,山东政法学院传媒学院副院长常洪卫等一行5人到访山东...
01-21
  新华财经北京1月21日电(郭洲洋、吴郑思)国内商品期货市场1月21日涨跌互现,其中集运欧线主力合...
01-23
经济观察网 邢祺欣/文 6月19日,惠誉评级在北京举行的“2024惠誉看中国”会议上,发布《中国主权评级及宏观经济前景展望》报告。对中国政府近期采取的支持经济的措施,惠誉评级中...
02-13
摩羯座的男生一向以稳重、务实和有责任感而著称。他们通常不会轻易被外界的诱惑所动摇...
01-22
水瓶座男生以其独特的个性和思维方式而闻名。他们聪明、创新、理性,善于思考和分析问题...
01-22
周周潮流服饰:时尚与个性的完美结合每当我走在街上,总会被各式各样的潮流服饰所吸引。也许你会问,什么是潮流呢?它不仅仅是当下流行的款式,更是一种态度,一种表达个人风格的方式。...
02-12
揭开潮流男装的神秘面纱:一次令人惊喜的开箱体验每当季节更替,潮流的风向标便会随之变动。作为一个对时尚充满热情的男士,我始终保持着对潮流服饰的敏感。最近,我收到了一个由新...
02-17
小红书宣布开始招募海外MCN机构,批量引入具备视频创作能力的海外红人。MCN机构将有三个月试跑期,需承诺每个月不少于50人的红人引入量。今年1月中旬,受TikTok在美关停影响,自称...
02-11
2月20日消息,苏宁易购与西门子家电将于2月21日起联合启动“德系精工智能·开年大赏”专属品牌节,通过新品首发、超级工厂直播、门店体验等系列活动,助力消费者解锁智慧生活新方...
02-21
2月16日消息,为进一步挖掘哈尔滨消费潜力,加快商家数字化转型,促进“尔滨”餐饮业快速发展壮大,2024年12月20日以来,饿了么平台联合哈尔滨相关部门共同发起“在尔滨还能饿了么”...
02-17
2月23日消息,在线旅游预订公司Booking公布2024年第四季度和全年业绩。财报显示,2024年第四季度,Booking客房预订夜数增长13%至2.61亿;总预订额同比增长约17%至372亿美元;收入同比...
02-24
全球性金融券商集团英国EBC Group平台始终致力于以领先生态,与全球交易者共塑交易的未来。 自第一届交易大赛起,为赤忱的热爱和卓越的才华提供舞台,在全球内寻找交易好手以赋能...
01-24
在全球化的大背景下,中国品牌凭借自身实力与创新能力,在国际舞台上愈发耀眼。近日,来自拉丁美洲的一则消息引起了行业广泛关注:远大智能工业集团博林特电梯,成功中标哥伦比亚麦德...
02-09
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮