解决传统架构记忆瓶颈 MiniMax发布新一代模型

1年前 来源:新京报 观看:341

1月15日,“AI六小虎”之一的MiniMax发布并开源了新一代01系列模型,包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。该系列模型使用多项突破性创新,以大规模应用线性注意力机制打破了Transformer传统架构的记忆瓶颈。RQq即热新闻——关注每天科技社会生活新变化gihot.com

未来,AI智能体有望成为最重要的产品形态,由于智能体处理的任务变得越来越复杂,涉及的数据量也越来越大,单个智能体的记忆以及多个智能体协作间的上下文都会变得越来越长。因此,长上下文能力与多模态处理能力的提升至关重要。RQq即热新闻——关注每天科技社会生活新变化gihot.com

技术上,MiniMax-01系列模型首次将线性注意力机制扩展到商用模型的级别,受益于此次架构创新,该系列模型在处理长输入的时候具有非常高的效率,接近线性复杂度。从规模效应、结构设计、训练优化和推理优化等层面综合考虑,MiniMax选择模型参数量为4560亿,其中每次激活459亿,能够高效处理400万token的上下文,将有效替代Transformer传统架构并开启超长文本输入时代。相较于Gemini等一众全球顶级模型,MiniMax-01随着输入长度变长,性能衰减最慢。RQq即热新闻——关注每天科技社会生活新变化gihot.com

值得注意的是,MiniMax还开源了Text-01模型、VL-01模型的完整权重,以便于更多开发者做有价值、突破性的研究。MiniMax方面表示,“我们认为这有可能启发更多长上下文的研究和应用,从而更快促进Agent时代的到来,二是开源也能促使我们努力做更多创新,更高质量地开展后续的模型研发工作。”RQq即热新闻——关注每天科技社会生活新变化gihot.com

1月15日,“AI六小虎”之一的MiniMax发布并开源了新一代01系列模型,包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。该系列模型使用多项突破性创新,以大规模应用线性注意力机制打破了Transformer传统架构的记忆瓶颈。RQq即热新闻——关注每天科技社会生活新变化gihot.com

未来,AI智能体有望成为最重要的产品形态,由于智能体处理的任务变得越来越复杂,涉及的数据量也越来越大,单个智能体的记忆以及多个智能体协作间的上下文都会变得越来越长。因此,长上下文能力与多模态处理能力的提升至关重要。RQq即热新闻——关注每天科技社会生活新变化gihot.com

技术上,MiniMax-01系列模型首次将线性注意力机制扩展到商用模型的级别,受益于此次架构创新,该系列模型在处理长输入的时候具有非常高的效率,接近线性复杂度。从规模效应、结构设计、训练优化和推理优化等层面综合考虑,MiniMax选择模型参数量为4560亿,其中每次激活459亿,能够高效处理400万token的上下文,将有效替代Transformer传统架构并开启超长文本输入时代。相较于Gemini等一众全球顶级模型,MiniMax-01随着输入长度变长,性能衰减最慢。RQq即热新闻——关注每天科技社会生活新变化gihot.com

值得注意的是,MiniMax还开源了Text-01模型、VL-01模型的完整权重,以便于更多开发者做有价值、突破性的研究。MiniMax方面表示,“我们认为这有可能启发更多长上下文的研究和应用,从而更快促进Agent时代的到来,二是开源也能促使我们努力做更多创新,更高质量地开展后续的模型研发工作。”RQq即热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-2-195-0.html解决传统架构记忆瓶颈 MiniMax发布新一代模型

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:深瞳丨AI为药物研发按下“快进键”

下一篇:丝巾变色、火柴变玫瑰 年货节期间淘宝魔术道具销量大增174%

为你推荐
被誉为“AI六小虎”之一北京智谱华章科技有限公司(以下简称智谱)被拉入实体清单了。当地时间1月15日,美国商务部工业和安全局(BIS)修订...
01-21
  本报讯 记者黄辉 1月18日,江西省数据资源公证登记平台应用展示会在南昌举行。记者从会上获悉...
01-23
  一些“萌萌的”文创你方唱罢我登场。苏州博物馆的“蟹黄黄”毛绒玩具、甘肃博物馆的麻辣烫...
01-21
图为在中欧班列(沈阳)集结中心,电梯零部件、汽车等货物正在装车。记者 杨靖岫 摄  2月8日,记者从沈阳海关...
02-09
  近4000元买新鞋却收到二手货  跳转平台无显著提醒,申请退货退款遭拒维权难  本报记者 郑朕  近日,市民吴女士向解放日报“民声直通车”平台反映,去年8月,她在网购...
01-21
新闻记者 潘锡珩通讯员 苏杭 徐媛媛1月21日凌晨0时55分,1168名旅客从广州白云站搭乘G4554次“夜行高铁”踏上返回武汉的归程,虽已是深夜,但旅客们回家的热情满满。这是中国铁路...
01-22
[本站 资讯] 本站新闻团队策划了《2025新车大爆料》系列内容,我们将为大家盘点各个车企的最新动向,重点展望2025年新车。目前已经上线10篇内容,覆盖新势力品牌和中国品...
01-21
1 月 24 日消息,截至 2024 年 12 月 30 日,理想超充站上线超过 1600 站,其中高速理想超充站 714 座、理想城市超充站 895 座。然而,这距离年初公布的2000 站的建站目标...
01-25
《难哄》小说穆承允结局如何?穆承允结局是什么‌《难哄》中穆承允的结局是没有与温以凡在一起‌。穆承允对温以凡有一定的好感,但这种好感并未发展成深刻的喜...
02-20
电视剧《陌上又花开》以其高度的观赏价值吸引了众多观众,将人们带入了一个充满想象力和戏剧性的世界。制作团队和演员们的出色表现让这部剧更加光彩夺目。近...
02-21
这里是《21健讯Daily》,欢迎与21世纪经济报道新健康团队共同关注医药健康行业最新事件!政策动向国家药监局药审中心回应个别品种数据重复,系...
01-27
21世纪经济报道记者林昀肖 实习生苏洋 北京报道春节假期已临近结束,而假期复工后往往会感觉容易疲倦、难以集中精神、心神不定、失眠、胃口...
02-04
  大众网记者 杨涛 王学涛 报道  12月24日,鲁藏青少年“手拉手”文体交流活动在济南艺术学校成功举行。活动由山东省教育厅、山东援藏干部中心管理组组织指导,济南市教...
01-21
  大众网记者 王一刚 报道  1.暖·冬至  冬至,在我国农历的舞台上,它不仅是一个至关重要的节气,更是一场阖家团圆、传承民俗的文化盛宴。  为了在幼儿心底种下传统...
01-21
  本报记者 彭妍  2024年,在内地银行设立金融科技子公司“减速”之后,境外银行设立金融科技子...
01-22
  中国网财经2月7日讯 截至上月中旬,已有51家信托公司披露2024年未经审计业绩数据。数据显示,信...
02-08
在星座学中,摩羯男和金牛女是一个非常有趣的组合。两个土象星座的结合,他们之间有着相似...
01-22
白羊座男生通常是直爽、热情和冲动的,当他们喜欢一个人时,往往会表现出以下几个特点: 1....
01-22
日系穿搭特点?一、日系穿搭的特点在穿搭方面日系风简直把休闲做到了极致,要说亚洲潮流文化发祥地,原宿绝对是一大圣地这里除了有常见的时尚大牌,还有亲民的牌子,日系穿搭的主要特...
02-07
秋季时尚新宠:香奈儿双色鞋的魅力与搭配秘籍在这个秋天,香奈儿再次给我们带来了惊喜。双色鞋的设计不仅让人眼前一亮,更是成为了时尚界的一种潮流趋势。作为一名爱好时尚的编辑...
02-12
2月13日消息,商务部新闻发言人何咏前今日介绍“2025全国网上年货节”有关情况。2月5日,2025年全国网上年货节圆满收官。据商务大数据对重点电商平台监测,活动期间,全国日均网上...
02-14
2月13日消息,转转集团发布春节期间(1月5日-2月5日)旗下平台二手潮奢商品的交易数据。春节期间,转转集团旗下的转转APP和红布林APP二手潮奢商品累计交易量同比增长25%;五线城市的...
02-14
2025年家电购新补贴延续,对于家电消费市场而言可谓喜闻乐见。一方面,消费者能够用更优惠的价格添置高品质的新家电;另一方面,厂商能够...
02-07
骑手们终于能老有所养,病有所医,伤有所赔。1.京东为外卖骑手缴纳五险一金,美团回应千万骑手翘首以盼的这一天,终于来了。2月19日,京东黑板报官宣,自2025年3月1日起,京东将逐步为京...
02-20
近日,华力创科学宣布完成数千万元A+轮融资,本轮融资由金属3D打印领域头部上市公司铂力特独家投资。据披露,本轮融资所募集的资金将专注于深挖高性能光学多模态感知技术,结合金属...
01-24
近日,华力创科学宣布完成数千万元A+轮融资,本轮融资由金属3D打印领域头部上市公司铂力特独家投资。据披露,本轮融资所募集的资金将专注于深挖高性能光学多模态感知技术,结合金属...
01-24
由Mega Cat Studios进行开发、Retroware负责发行的喷神James宇宙平台冒险游戏《Angry Video Game Nerd 8-bit》。现已上线Steam平台。 本作以知名游戏评论节...
01-24
近日,由国产人工智能初创公司杭州深度求索(DeepSeek)开发的大语言模型DeepSeek-R1引发了全球科技界的广泛关注。尤其是在中国与美国的技术竞争日益激烈的背景下,De...
01-29
2月4日中午,中国选手谷爱凌的微博账号发文,宣布退出哈尔滨亚冬会的比赛。谷爱凌在微博中说:“我在Aspen Xgames比赛受伤后,为了能参加紧接其后的世界杯比赛,在训练中不幸再次受伤...
02-04
极目新闻记者 陈凌燕WTA官方社交平台截图2月6日,郑钦文抵达多哈。WTA1000多哈站是2025赛季首个1000级别赛事,郑钦文的亮相,引发大量球迷关注。眼尖的球迷更发现,郑钦文团队中添...
02-06
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮