解决传统架构记忆瓶颈 MiniMax发布新一代模型

7个月前 来源:新京报 观看:166

1月15日,“AI六小虎”之一的MiniMax发布并开源了新一代01系列模型,包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。该系列模型使用多项突破性创新,以大规模应用线性注意力机制打破了Transformer传统架构的记忆瓶颈。yJG即热新闻——关注每天科技社会生活新变化gihot.com

未来,AI智能体有望成为最重要的产品形态,由于智能体处理的任务变得越来越复杂,涉及的数据量也越来越大,单个智能体的记忆以及多个智能体协作间的上下文都会变得越来越长。因此,长上下文能力与多模态处理能力的提升至关重要。yJG即热新闻——关注每天科技社会生活新变化gihot.com

技术上,MiniMax-01系列模型首次将线性注意力机制扩展到商用模型的级别,受益于此次架构创新,该系列模型在处理长输入的时候具有非常高的效率,接近线性复杂度。从规模效应、结构设计、训练优化和推理优化等层面综合考虑,MiniMax选择模型参数量为4560亿,其中每次激活459亿,能够高效处理400万token的上下文,将有效替代Transformer传统架构并开启超长文本输入时代。相较于Gemini等一众全球顶级模型,MiniMax-01随着输入长度变长,性能衰减最慢。yJG即热新闻——关注每天科技社会生活新变化gihot.com

值得注意的是,MiniMax还开源了Text-01模型、VL-01模型的完整权重,以便于更多开发者做有价值、突破性的研究。MiniMax方面表示,“我们认为这有可能启发更多长上下文的研究和应用,从而更快促进Agent时代的到来,二是开源也能促使我们努力做更多创新,更高质量地开展后续的模型研发工作。”yJG即热新闻——关注每天科技社会生活新变化gihot.com

1月15日,“AI六小虎”之一的MiniMax发布并开源了新一代01系列模型,包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。该系列模型使用多项突破性创新,以大规模应用线性注意力机制打破了Transformer传统架构的记忆瓶颈。yJG即热新闻——关注每天科技社会生活新变化gihot.com

未来,AI智能体有望成为最重要的产品形态,由于智能体处理的任务变得越来越复杂,涉及的数据量也越来越大,单个智能体的记忆以及多个智能体协作间的上下文都会变得越来越长。因此,长上下文能力与多模态处理能力的提升至关重要。yJG即热新闻——关注每天科技社会生活新变化gihot.com

技术上,MiniMax-01系列模型首次将线性注意力机制扩展到商用模型的级别,受益于此次架构创新,该系列模型在处理长输入的时候具有非常高的效率,接近线性复杂度。从规模效应、结构设计、训练优化和推理优化等层面综合考虑,MiniMax选择模型参数量为4560亿,其中每次激活459亿,能够高效处理400万token的上下文,将有效替代Transformer传统架构并开启超长文本输入时代。相较于Gemini等一众全球顶级模型,MiniMax-01随着输入长度变长,性能衰减最慢。yJG即热新闻——关注每天科技社会生活新变化gihot.com

值得注意的是,MiniMax还开源了Text-01模型、VL-01模型的完整权重,以便于更多开发者做有价值、突破性的研究。MiniMax方面表示,“我们认为这有可能启发更多长上下文的研究和应用,从而更快促进Agent时代的到来,二是开源也能促使我们努力做更多创新,更高质量地开展后续的模型研发工作。”yJG即热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-2-195-0.html解决传统架构记忆瓶颈 MiniMax发布新一代模型

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:深瞳丨AI为药物研发按下“快进键”

下一篇:丝巾变色、火柴变玫瑰 年货节期间淘宝魔术道具销量大增174%

为你推荐
飞行中的无人机、正在移动的智能机器人,都可以远程隔空充电,科幻小说里描述的场景有望成为现实。近日,由西安电子科技大学教授李龙课题组与中国科学院...
01-27
  2025北京图书订货会上,一大批展现中华优秀传统文化的图书吸引了众多观众的目光。“传统文化...
01-21
辽宁省气象局发布气象信息11日夜间辽宁中东部地区有中雪到大雪并伴有大风和降温将出现明显道路湿滑或结...
02-09
过去半年,为防治部分地方政府招商“内卷化”,遏制拼优惠、拼“政策洼地”式的政府招商模式,一系列文件、法规密集推出。 “去年8月拼...
01-21
  目前,我国大部正在经历一场大回暖,晴暖当道。但很快天气格局将发生明显转折,预计23日至27日,今年首场寒潮过程将影响我国,带来剧烈降温和大风雨雪天气。  雨雪范围或波...
01-22
1 月 24 日消息,比亚迪近日宣布,计划于 2025 年首次在日本推出插电式混合动力汽车,以扩大其在日本市场的影响力。该市场长期以来由本土汽车制造商主导。据日经亚洲报道...
01-25
2 月 5 日消息,小米创办人、董事长兼 CEO 雷军今日宣布:大家期待的两款 Ultra,小米 15 Ultra 和小米 SU7 Ultra月底见。注意到,雷军今日还在微博透露了 SU7 Ultra 更多...
02-06
最近,社交平台上充斥着关于“《白色橄榄树》李瓒被救回来了吗”的讨论。在这个故事中,李瓒的命运与众多角色紧密相连。他被绑架后经历了一场生死较量,最终由本...
02-20
近期电视剧《善意的竞争》成为热门话题,开拍前就吸引了大量粉丝。随着剧集播出,观众群体不断扩大,大家都非常兴奋并期待剧情发展。很多人特别好奇刘在伊是否喜...
02-20
21世纪经济报道记者 唐唯珂 广州报道2025年1月24日晚,金域医学发布2024年业绩预告,报告期内预计归母净利润为-3.5亿元到-4.5亿元,与上年同期...
01-27
编者按:一个人工智能(AI)机器人,在短短8天内独立完成了668项实验,合成了668种化合物,并成功研发出一种全新的化学催化剂。这一壮举令人赞叹。AI...
02-11
随着寒假到来,大学校园再次成为家长和孩子们研学旅行的热门目的地。不少高...
01-21
研考是重要的国家教育考试,关系教育公平和广大考生切身利益。为积极营造清朗健康的全国研考网络环境,根据...
01-21
  三分之一董事会成员变更,净息差仅为0.93%,不良率达2.57%,遭遇盈利能力挑战的南粤银行如何自救?...
01-22
     周二(2月4日)纽约时段,现货黄金明显走强冲破2840关口,刷新了前一日录得的历史记录。  ...
02-05
天秤座是一个注重平衡和公正的星座,他们通常不容易生气。然而,当某些事情触碰到了他们的...
01-22
水瓶座男人是一个独特而又复杂的星座,他们对于爱情有着自己独特的追求和标准。下面是一...
01-22
魅力与风格并存:男模特如何征服T台走秀当我第一次走上T台,看着千百双眼睛注视着我,那一刻的紧张与兴奋交织在一起。场下的闪光灯、一阵阵掌声、还有设计师们期待的眼光,几乎每一...
02-07
白色裤子搭配什么颜色衬衫好看?不要穿太紧身的服饰,夏季服装搭配,,‘’aircloset ‘’就是教你穿衣搭配的众号了,9.9元订购五套品牌女装和搭配全套衣服,服装色彩尽量明亮柔和,太深...
02-17
2月5日消息,Canalys最新发布的报告显示,2024年全球智能手机市场增长7%,达到12.2亿部,实现了连续两年下滑后的反弹。苹果凭借在新兴市场的增长以及北美和欧洲的稳定表现,连续第二...
02-07
2月12日消息,苏宁易采云总裁王振伟近日携团队到访南京洛菲特数码科技有限公司,与洛菲特总经理顾为征就双方合作达成共识,签署战略合作协议。图源:苏宁易采云V公众号作为商业显示...
02-13
虽然房地产市场历经变幻,刚需与改善型置业需求始终存在,它们是这个万亿规模市场永续发展的核心动力和基础支撑。今年2月以来,部分城...
03-09
3月7日消息,“国际劳动妇女节”来临之际,途牛旅游网发布《2024年度女性出游消费报告》(以下简称“报告”),对过去一年途牛女性用户的旅游消费偏好及趋势等全面分析。《报告》数据...
03-09
【#荣耀申请注册无极引擎商标#】天眼查知识产权信息显示,近日,荣耀终端股份有限公司申请注册一枚“无极引擎”商标,国际分类为科学仪器,当前商标状态为等待实质审查。荣耀终端股...
01-21
2024年国网全年电网投资首超6000亿元,预计达到6092亿元,相比2023年新增711亿元,13.2%的同比增速也为近年最高值。据国网1月15日发布的信息显示,2025年国网将进一步加大投资力度,...
01-22
近日,由国产人工智能初创公司杭州深度求索(DeepSeek)开发的大语言模型DeepSeek-R1引发了全球科技界的广泛关注。尤其是在中国与美国的技术竞争日益激烈的背景下,De...
01-29
大年初一,《真三国无双:起源》制作人庄知彦在X上发推,用中文“蛇年大吉,恭喜发财!”向中国玩家拜年,发布新年祝福。 他随后用日语再次向国内玩家恭贺新年,祝中国玩...
02-01
问:美国东部时间2月1日,美方宣布对中国输美产品加征10%关税。中方对此有何评论?答:美方以芬太尼问题为由,对中国输美产品加征10%关税,中方对此强烈不满,坚决反对,将采取必要反制措施...
02-02
2月6日,外交部发言人郭嘉昆主持例行记者会。有记者提问,据报道,韩国的一些政府部门已经屏蔽对DeepSeek的访问,之前意大利、澳大利亚、印度、美国、日本等国家也传出禁止或限制使...
02-06
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮