如今AI大时代,世界各大巨头都有自己的特色AI产品计划,日前据英伟达官方消息,英伟达联合 Georgia Tech、UMD 和 HKPU 的研究团队推出了全新的视觉语言模型 ——NVEagle。
据悉,NVEagle 能够理解复杂的现实场景,通过视觉输入进行更好的解读和回应。它的设计核心在于将图像转化为视觉标记,再与文本嵌入相结合,进而提升了对视觉信息的理解。
NVEagle包括了三个版本:Eagle-X5-7B、Eagle-X5-13B 以及 Eagle-X5-13B-Chat。其中,7B 和13B 版本主要用于一般的视觉语言任务,而13B-Chat 版本则专门针对对话式 AI 进行了微调,能够更好地进行基于视觉输入的互动。
NVEagle 的一个亮点在于采用了混合专家(MoE)机制,能够根据不同任务动态选择最合适的视觉编码器,这极大提升了对复杂视觉信息的处理能力。该模型已在 Hugging Face 上发布,方便研究人员和开发者使用。
本文链接:http://www.gihot.com/news-15-2886-0.html英伟达推全新视觉AI语音模型 可以直接看图聊天
声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
点击右上角微信好友
朋友圈
点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮
点击右上角QQ
点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮