这只火眼金睛的的AI“小猴子”,由华科大团队研发

7个月前 来源:中国科学报 观看:157

 wch极热新闻——关注每天科技社会生活新变化gihot.com

近日,华中科技大学软件学院教授白翔领衔的VLRLab团队发布了多模态大模型——“Monkey”。该模型能够实现对世界的“观察”,对图片进行深入的问答交流和精确描述。wch极热新闻——关注每天科技社会生活新变化gihot.com


wch极热新闻——关注每天科技社会生活新变化gihot.com

图为团队将Monkey代码在全球最大的代码托管服务平台GitHub上开源wch极热新闻——关注每天科技社会生活新变化gihot.com

多模态大模型是一类可以同时处理和整合多种感知数据(例如文本、图像、音频等)的AI架构,近年来在众多场景中展现了惊人的能力。据该团队负责人介绍,Monkey模型在18个数据集上的实验中表现出色,特别是在图像描述和视觉问答任务方面,超越了众多现有知名的模型如微软的LLAVA、谷歌的PALM-E、阿里的Mplug-owl等。此外,Monkey在文本密集的问答任务中显示出显著的优势,甚至在某些样本上超越了业界公认的领先者——OpenAI的多模态大模型GPT-4V。wch极热新闻——关注每天科技社会生活新变化gihot.com

Monkey的一个显著特点是其出色的“看图说话”能力。在详细描述任务中,Monkey展现了对图像细节的感知能力,能够察觉到其他多模态大模型所忽略的内容。比如,对下面的图片进行的文本描述中,Monkey正确地将其识别为埃菲尔铁塔的绘画,并提供了构图和配色方案的详细描述。而对左下角的文字,只有Monkey和GPT-4V能将其准确地识别为作者名。wch极热新闻——关注每天科技社会生活新变化gihot.com

  ?wch极热新闻——关注每天科技社会生活新变化gihot.com

这样惊人的描述能力是怎么做到的?目前,几乎所有多模态大模型都需要运用网上爬取的图文对数据集,这些数据集只能进行简单的图文描述,无法大分辨率图片的需求。Monkey巧妙利用现有的工具构建了一种多层级的描述生成方法,即通过五个步骤依次对图片进行整体简述、空间定位、模块化识别、描述赋分选取和最终总结,此举可以充分结合不同工具的特性,打出一套威力十足的“组合拳”,大幅度提升描述的准确性和丰富程度。wch极热新闻——关注每天科技社会生活新变化gihot.com

“一个个工具就好比不同的零件,合理的排列组合才能使其发挥最大作用,”白翔说。wch极热新闻——关注每天科技社会生活新变化gihot.com

白翔表示:“我们团队从2003年开始便从事图像识别研究,去年我们又从海外引进了专攻多模态大模型的青年人才,Monkey的最终方案是大家一起反复讨论,尝试了10余种方案后最终确定的。”wch极热新闻——关注每天科技社会生活新变化gihot.com

Monkey的另一亮点是能够处理分辨率高达1344×896像素的图像,这是目前其他多模态大模型所能处理的最大尺寸的6倍。这意味着Monkey能对更大尺寸的图片进行更准确、丰富、细致的描述甚至推理。wch极热新闻——关注每天科技社会生活新变化gihot.com

据了解,目前业内能处理的图片最大分辨率为448×448像素。而想要进一步提升处理能力,需投入十分高昂的算力成本。如何更低成本扩大输入分辨率?该团队骨干青年教师刘禹良向记者介绍,团队采用了创新性的“裁剪”方法,将原始输入图片分割成多个块,每块尺寸小于448×448像素,并为每个块配备了一个“放大镜”,放到合适的位置可以“看”清更多细节。多个“放大镜”同时工作,分别“放大”不同的图片块,就能提取更多局部特征。wch极热新闻——关注每天科技社会生活新变化gihot.com

“未来,我们希望Monkey更强大,真正成为神通广大的‘孙悟空’!”对这只小猴子,白翔信心满满。wch极热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-8-279-0.html这只火眼金睛的的AI“小猴子”,由华科大团队研发

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:华科大两名教师入选这一奖励计划

下一篇:研究揭示髌骨下脂肪垫致病新机制

为你推荐
日前,教育部印发《关于做好2024届全国普通高校毕业生就业创业工作的通知》,部署各地各高校深入贯彻落实党中央、国务院决策部署,实施“2024届全国普通高校...
12-08
  12月7日,在儿博会现场,孩子们在老师的指导下制作“心中乐园”。  当日,以“城市与儿童”为主题的首届儿童友好博览会在深圳开幕。儿博会是深圳市妇联发起创办的以儿童友...
12-10
大鹏之动,非一羽之轻;骐骥之速,非一足之力。距离2023年结束还有不到一个月时间,来自徐州的恩华药业便早早公布了2023全年净利润预增10%至30%的喜讯。而在恩华药...
12-02
记者12月4日从最高人民检察院获悉,新疆生产建设兵团原党委常委、副司令员,中国新建集团公司原副总经理焦小平涉嫌受贿一案,由国家监察委员会...
12-04
12月10日,2023年京津冀公民科学素质大赛天津赛区决赛在天津举行。来自天津市应急局、市交通运输委、市统计局和河东区、河北区、津南区、武清区的8...
12-12
IT之家 12 月 4 日消息,realme 又请了一位“大师”,在“大师探索版”机型被砍掉之后,realme 官方宣...
12-13
中国人就餐,往往借助两根筷子游离于指间,却能出神入化地完成夹、挑、扒、挑、拨、撮等诸多动作,收放自如。 筷子,中华文化圈最具代表性的餐具,虽然是简简单单两根细长的小棍子...
12-02
随着天气的转凉,越来越多的人开始屯秋冬的衣物了,就连衣橱里的服装也早已开始准备换季了。秋冬的季节,我们需要更加厚实的服装来保暖。 像是羊毛大衣,羽绒服,皮草外套都是更加经...
12-02
  南非全国性限电“卷土重来”  中新社约翰内斯堡11月30日电 (记者 王曦)在南非政府宣布该国供电情况渡过“最艰难时刻”仅一个多月后,南非全国性限电“卷土重来”。当地...
12-01
  中新经纬11月27日电 27日,深圳证监局网站发布《深圳证监局关于对深圳美丽生态股份有限公司、陈飞霖、周成斌、念保敏、林孔凤采取出具警示函措施的决定》(下称《警示函》...
12-01
12 月 4 日消息,据国内车媒“AutoPix 汽车像素”今日报道,小米首款汽车已于上周在亦庄工厂进入生产线验证的第五个阶段(PT5),该工厂需要在本月完成装车 300 辆的目标,相比...
12-04
[本站 新车上市] 日前,我们从捷尼赛思官方获悉,2024款捷尼赛思GV60正式上市,新车包含4款车型,售价区间为28.68-37.33万元,详细售价请看下表。2024款捷尼赛思GV60 指导售价...
12-06
自从2021年首度上演以来,北京京剧院新编京剧《大刀王五》的创作团队始终没有停歇。在一年半的时间里,编剧调整剧本,增加新的内容;导演重新构画,提升舞台展现力;演员深入学习和理...
12-04
作者:濮存昕(中国文学艺术界联合会副主席、中国戏剧家协会主席、上海戏剧学院特聘教授)我是一名演员,我热爱台下的观众,会为了他们不断创作,不断努力。对于演员而言,观众至关重...
12-08
  12月10日,国家卫生健康委召开新闻发布会介绍冬季呼吸道疾病防治有关情况。国家卫生健康委新闻发言人、宣传司副司长米锋说,目前,全国二级以上医疗机构儿童呼吸道疾病...
12-11
21世纪经济报道记者朱萍 林昀肖 实习生李佳英 北京报道@关于医药上市公司预警:安科生物财务总监辞职、信立泰对全资子公司减资并收回SAL007...
12-13
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮