8月7日消息,小红书hi lab(人文智能实验室)开源了其首款多模态大模型dots.vlm1,这一模型基于DeepSeek V3打造,并配备了由小红书自研的12亿参数视觉编码器NaViT,具备多模态理解与推理能力。这一模型可以看懂复杂的图文图表,理解表情包背后的含义,分析两款产品的配料表差异,还能判断博物馆中文物、画作的名称和背景信息。
图源:Hugging Face
hi lab称,在主要的视觉评测集上,dots.vlm1的整体表现已接近当前领先模型,如Gemini 2.5 Pro与Seed-VL1.5 thinking,尤其在MMMU、MathVision、OCR Reasoning等多个基准测试中显示出较强的图文理解与推理能力。在典型的文本推理任务(如AIME、GPQA、LiveCodeBench)上,dots.vlm1的表现大致相当于DeepSeek-R1-0528,在数学和代码能力上已具备一定的通用性,但在GPQA等更多样的推理任务上仍存在差距。
总体来看,dots.vlm1在视觉多模态能力方面已接近SOTA(最佳性能)水平,在文本推理方面达到了主流模型的性能。但hi lab也强调,dots.vlm1在部分细分任务上仍与最优结果存在一定距离,需要在架构设计与训练数据上进一步优化。目前,dots.vlm1已上传至开源托管平台Hugging Face,用户还可以在Hugging Face上的体验链接中免费使用这一模型。
今年6月6日,小红书开源了其首款大语言模型,并在之后开源了用于OCR的专用模型,以及视觉、奖励模型等前沿方向的研究成果。
本文链接:http://www.gihot.com/news-12-34789-0.html小红书开源首款多模态大模型
声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
点击右上角微信好友
朋友圈
点击浏览器下方“”分享微信好友Safari浏览器请点击“
”按钮
点击右上角QQ
点击浏览器下方“”分享QQ好友Safari浏览器请点击“
”按钮