国产多模态大模型AI“小猴子”实现“看图说话”

10个月前 来源:中国科技网 观看:205
广告

12月11日,记者从华中科技大学获悉,该校软件学院白翔教授领衔的VLRLab团队正式发布多模态大模型——“Monkey(猴子)”。该模型具备“观察”世界的技能,可对图片进行深入问答交流和精确描述。Fwh即热新闻——关注每天科技社会生活新变化gihot.com

Fwh即热新闻——关注每天科技社会生活新变化gihot.com

图为团队将Monkey代码在全球最大的代码托管服务平台GitHub上开源。Fwh即热新闻——关注每天科技社会生活新变化gihot.com

多模态大模型是一类可以同时处理和整合多种感知数据,如文本、图像、音频等的AI架构。近年来,这类模型在众多场景中展现出惊人能力。Fwh即热新闻——关注每天科技社会生活新变化gihot.com

据介绍,Monkey模型在18个数据集上的实验中表现出色,其在图像描述和视觉问答任务方面,以及文本密集的问答任务中显示出优势。Fwh即热新闻——关注每天科技社会生活新变化gihot.com

Monkey有一个显著特点,即其出色的“看图说话”能力。在详细描述任务中,Monkey展现了对图像细节的感知能力,能察觉到其他多模态大模型所忽略的内容。如对下图进行文本描述中,Monkey正确地将其识别为埃菲尔铁塔的绘画,并提供了构图和配色方案的详细描述。实验中,对图片左下角的文字,只有Monkey和GPT-4V能将其准确地识别为作者名。Fwh即热新闻——关注每天科技社会生活新变化gihot.com

Fwh即热新闻——关注每天科技社会生活新变化gihot.com

据了解,目前,几乎所有多模态大模型都需要运用网上爬取的图文对数据集,这些数据集只能进行简单的图文描述,无法满足大分辨率图片的需求。Fwh即热新闻——关注每天科技社会生活新变化gihot.com

Monkey巧妙利用现有的工具构建了一种多层级的描述生成方法,即通过五个步骤依次对图片进行整体简述、空间定位、模块化识别、描述赋分选取和最终总结,此举可以充分结合不同工具特性,打出一套威力十足的“组合拳”,大幅提升描述的准确性和丰富程度。Fwh即热新闻——关注每天科技社会生活新变化gihot.com

“一个个工具就好比不同的零件,合理排列组合才能使其发挥最大作用。”白翔说,他所在团队从2003年开始便从事图像识别研究,Monkey的最终方案得益于团队一起反复讨论,尝试了10余种方案后才确定。Fwh即热新闻——关注每天科技社会生活新变化gihot.com

白翔介绍,Monkey的另一亮点是能处理分辨率高达1344×896像素的图像,这是目前其他多模态大模型所能处理的最大尺寸的6倍。这意味着Monkey能对更大尺寸的图片进行更准确、丰富、细致的描述甚至推理。Fwh即热新闻——关注每天科技社会生活新变化gihot.com

目前,业内能处理的图片最大分辨率为448×448像素。若想进一步提升处理能力,需投入十分高昂的算力成本。该团队骨干青年教师刘禹良介绍,团队采用创新性的“裁剪”方法,将原始输入图片分割成多个块,每块尺寸小于448×448像素,并为每个块配备一个“放大镜”,放到合适的位置即可“看”清更多细节。多个“放大镜”同时工作,分别“放大”不同的图片块,以此提取更多局部特征。Fwh即热新闻——关注每天科技社会生活新变化gihot.com

“未来,我们希望Monkey更强大,真正成为神通广大的‘孙悟空’。”对这只“小猴子”,白翔信心满满。Fwh即热新闻——关注每天科技社会生活新变化gihot.com

(受访单位供图)Fwh即热新闻——关注每天科技社会生活新变化gihot.com

12月11日,记者从华中科技大学获悉,该校软件学院白翔教授领衔的VLRLab团队正式发布多模态大模型——“Monkey(猴子)”。该模型具备“观察”世界的技能,可对图片进行深入问答交流和精确描述。Fwh即热新闻——关注每天科技社会生活新变化gihot.com

Fwh即热新闻——关注每天科技社会生活新变化gihot.com

图为团队将Monkey代码在全球最大的代码托管服务平台GitHub上开源。Fwh即热新闻——关注每天科技社会生活新变化gihot.com

多模态大模型是一类可以同时处理和整合多种感知数据,如文本、图像、音频等的AI架构。近年来,这类模型在众多场景中展现出惊人能力。Fwh即热新闻——关注每天科技社会生活新变化gihot.com

据介绍,Monkey模型在18个数据集上的实验中表现出色,其在图像描述和视觉问答任务方面,以及文本密集的问答任务中显示出优势。Fwh即热新闻——关注每天科技社会生活新变化gihot.com

Monkey有一个显著特点,即其出色的“看图说话”能力。在详细描述任务中,Monkey展现了对图像细节的感知能力,能察觉到其他多模态大模型所忽略的内容。如对下图进行文本描述中,Monkey正确地将其识别为埃菲尔铁塔的绘画,并提供了构图和配色方案的详细描述。实验中,对图片左下角的文字,只有Monkey和GPT-4V能将其准确地识别为作者名。Fwh即热新闻——关注每天科技社会生活新变化gihot.com

Fwh即热新闻——关注每天科技社会生活新变化gihot.com

据了解,目前,几乎所有多模态大模型都需要运用网上爬取的图文对数据集,这些数据集只能进行简单的图文描述,无法满足大分辨率图片的需求。Fwh即热新闻——关注每天科技社会生活新变化gihot.com

Monkey巧妙利用现有的工具构建了一种多层级的描述生成方法,即通过五个步骤依次对图片进行整体简述、空间定位、模块化识别、描述赋分选取和最终总结,此举可以充分结合不同工具特性,打出一套威力十足的“组合拳”,大幅提升描述的准确性和丰富程度。Fwh即热新闻——关注每天科技社会生活新变化gihot.com

“一个个工具就好比不同的零件,合理排列组合才能使其发挥最大作用。”白翔说,他所在团队从2003年开始便从事图像识别研究,Monkey的最终方案得益于团队一起反复讨论,尝试了10余种方案后才确定。Fwh即热新闻——关注每天科技社会生活新变化gihot.com

白翔介绍,Monkey的另一亮点是能处理分辨率高达1344×896像素的图像,这是目前其他多模态大模型所能处理的最大尺寸的6倍。这意味着Monkey能对更大尺寸的图片进行更准确、丰富、细致的描述甚至推理。Fwh即热新闻——关注每天科技社会生活新变化gihot.com

目前,业内能处理的图片最大分辨率为448×448像素。若想进一步提升处理能力,需投入十分高昂的算力成本。该团队骨干青年教师刘禹良介绍,团队采用创新性的“裁剪”方法,将原始输入图片分割成多个块,每块尺寸小于448×448像素,并为每个块配备一个“放大镜”,放到合适的位置即可“看”清更多细节。多个“放大镜”同时工作,分别“放大”不同的图片块,以此提取更多局部特征。Fwh即热新闻——关注每天科技社会生活新变化gihot.com

“未来,我们希望Monkey更强大,真正成为神通广大的‘孙悟空’。”对这只“小猴子”,白翔信心满满。Fwh即热新闻——关注每天科技社会生活新变化gihot.com

(受访单位供图)Fwh即热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-2-240-0.html国产多模态大模型AI“小猴子”实现“看图说话”

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:首届阿拉尔经开区科技成果转化专题交流会举办

下一篇:地磁暴:制造美丽也带来危险

为你推荐
案例:亚博怎么取不了款渠道解决【微信chuhei816】被黑不给取款怎么办,小编来告诉你 在互联网日益发展的今天,网上金融活动已经渗透到我们生活的方方面面。然而,随之而来的风险也...
08-05
成都锦江区当面套VISA境外卡花呗白条分付【微电:150 0062 3958】全天在线欢迎打电话,当面办理安全靠谱!京东白条作为消费金融的主力军,具有连接用户、商户、场景的天然优势,是京...
08-05
花呗怎么提取到余额,五种方法秒到模式!     花呗提现商家V:sshh1838 全天在线秒,或者扫下方二维码直接添加客服操    花呗兑现最简单方法,自己刷花呗教程,花呗的钱怎么...
08-07
    花呗提现商家V:sshh1838 全天在线秒,或者扫下方二维码直接添加客服操作      虽说套花呗已是很普遍,但很多人还是不知道如何才能把支付宝花呗套取现金后不风控...
08-06
现在网络鱼龙混杂,请认准靠谱八年商家,金牌小帮手——小创(137-1300-8979可v可来电)(全年365天不掉线) 【抖音月付分付要怎样提现】【抖音Dou分期怎么刷出来】【抖...
08-19
现在网络鱼龙混杂,请认准靠谱八年商家,金牌小帮手——小创(137-1300-8979可v可来电)(全年365天不掉线) 【抖音月付分付要怎样提现】【抖音Dou分期怎么刷出来】【抖...
08-15
  正在热播的搜狐自制剧《胭脂似火》日前迎来会员收官,在剧中饰演反一陈绍雄的演员宋一雄释出一组户外写真,沉稳清新的暖男气质与剧中权欲熏心、手段狠辣的富家少爷反...
09-06
谈吐:分付的钱能套出来用吗,实用教程与心得分享身份证过期等触发了系统风控,导致分付被冻结;以及分付系统可能会遇到技术问题、维护或升级等,导致无法使用分付扫码付款,需要等分...
08-27
虽然说差不多接近立秋了,但是天气还是热的离谱,根本就没有一点秋天凉爽的意思呀!在这么炎热的天气中,很多人就容易上火了,这个时候凉茶就受到很多朋友们的欢迎了,夏季的时候很多人...
04-02
南昌风控花呗白条套取秒到账:【181 181 43671微信同号】微信分付、抖音月付、支付宝信用购取消实体商家当面刷,本地一手超低费用没有中间商赚差价,所有信息已实名安全的很。十...
08-13
昆明风控花呗白条套取秒到账:【181 181 43671微信同号】微信分付、抖音月付、支付宝信用购取消实体商家当面刷,本地一手超低费用没有中间商赚差价,所有信息已实名安全的很。十...
08-13
抖音近日又上线了分期产品“抖音月付”。这一款更像“花呗”的产品,有免息期,可以分期还款,还能在抖音直播、抖音小店购买商品。到目前为止,抖音已经将消费金融的主流产品全部集...
08-14
苏州风控花呗白条套取秒到账:【181 181 43671微信同号】万事达 、境外卡、微信分付、抖音月付、支付宝信用购取消实体商家当面刷,本地一手超低费用没有中间商赚差价,所有信息已...
08-11
厦门风控花呗白条套取秒到账:【181 181 43671微信同号】微信分付、抖音月付、支付宝信用购取消实体商家当面刷,本地一手超低费用没有中间商赚差价,所有信息已实名安全的很。十...
08-10
  新华社北京7月21日电 人民日报7月22日评论员文章:坚持人民至上谋划和推进改革——论学习贯彻党的二...
07-22
  摘要  【美、布双双暴跌3%!欧佩克+略微松动减产政策打压国际油价】周一(6月3日)纽约时段,国际...
06-27
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮