解决传统架构记忆瓶颈 MiniMax发布新一代模型

1年前 来源:新京报 观看:334

1月15日,“AI六小虎”之一的MiniMax发布并开源了新一代01系列模型,包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。该系列模型使用多项突破性创新,以大规模应用线性注意力机制打破了Transformer传统架构的记忆瓶颈。ksZ即热新闻——关注每天科技社会生活新变化gihot.com

未来,AI智能体有望成为最重要的产品形态,由于智能体处理的任务变得越来越复杂,涉及的数据量也越来越大,单个智能体的记忆以及多个智能体协作间的上下文都会变得越来越长。因此,长上下文能力与多模态处理能力的提升至关重要。ksZ即热新闻——关注每天科技社会生活新变化gihot.com

技术上,MiniMax-01系列模型首次将线性注意力机制扩展到商用模型的级别,受益于此次架构创新,该系列模型在处理长输入的时候具有非常高的效率,接近线性复杂度。从规模效应、结构设计、训练优化和推理优化等层面综合考虑,MiniMax选择模型参数量为4560亿,其中每次激活459亿,能够高效处理400万token的上下文,将有效替代Transformer传统架构并开启超长文本输入时代。相较于Gemini等一众全球顶级模型,MiniMax-01随着输入长度变长,性能衰减最慢。ksZ即热新闻——关注每天科技社会生活新变化gihot.com

值得注意的是,MiniMax还开源了Text-01模型、VL-01模型的完整权重,以便于更多开发者做有价值、突破性的研究。MiniMax方面表示,“我们认为这有可能启发更多长上下文的研究和应用,从而更快促进Agent时代的到来,二是开源也能促使我们努力做更多创新,更高质量地开展后续的模型研发工作。”ksZ即热新闻——关注每天科技社会生活新变化gihot.com

1月15日,“AI六小虎”之一的MiniMax发布并开源了新一代01系列模型,包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。该系列模型使用多项突破性创新,以大规模应用线性注意力机制打破了Transformer传统架构的记忆瓶颈。ksZ即热新闻——关注每天科技社会生活新变化gihot.com

未来,AI智能体有望成为最重要的产品形态,由于智能体处理的任务变得越来越复杂,涉及的数据量也越来越大,单个智能体的记忆以及多个智能体协作间的上下文都会变得越来越长。因此,长上下文能力与多模态处理能力的提升至关重要。ksZ即热新闻——关注每天科技社会生活新变化gihot.com

技术上,MiniMax-01系列模型首次将线性注意力机制扩展到商用模型的级别,受益于此次架构创新,该系列模型在处理长输入的时候具有非常高的效率,接近线性复杂度。从规模效应、结构设计、训练优化和推理优化等层面综合考虑,MiniMax选择模型参数量为4560亿,其中每次激活459亿,能够高效处理400万token的上下文,将有效替代Transformer传统架构并开启超长文本输入时代。相较于Gemini等一众全球顶级模型,MiniMax-01随着输入长度变长,性能衰减最慢。ksZ即热新闻——关注每天科技社会生活新变化gihot.com

值得注意的是,MiniMax还开源了Text-01模型、VL-01模型的完整权重,以便于更多开发者做有价值、突破性的研究。MiniMax方面表示,“我们认为这有可能启发更多长上下文的研究和应用,从而更快促进Agent时代的到来,二是开源也能促使我们努力做更多创新,更高质量地开展后续的模型研发工作。”ksZ即热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-2-195-0.html解决传统架构记忆瓶颈 MiniMax发布新一代模型

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:深瞳丨AI为药物研发按下“快进键”

下一篇:丝巾变色、火柴变玫瑰 年货节期间淘宝魔术道具销量大增174%

为你推荐
“三国是一个好IP。”在当下中国的游戏市场上,以《西游记》《三国演义》等四大名著为内容IP而衍生开发的游戏,仍然在头部产品中占据...
01-21
1月15日,记者从中国科学院大连化学物理研究所获悉,该所动力电池与系统研究中心主任陈忠伟团队与双登集团近日对外联合发布了最新一代智能电池管理系...
01-21
    游客在崂山巨峰观雾凇行走的荷尔摄  本报记者肖相波  近期,青岛崂山巨峰的雾凇景观...
02-11
  近日,一列满载一汽商品车散件组装件的集装箱班列由长春兴隆山抵达大连铁路中心站,标志着一汽(大连)通商...
02-14
  海报新闻记者 孙佃潇 北京报道  1月21日,海报新闻记者从交通运输部获悉,春运期间,河北聚焦新能源车出行增多等特点,全面开展充电能力倍增行动,加快充电基础设施建设,切实...
01-22
  与辉同行带货阿胶茶未检出驴成分?生产厂商回应  中新网北京1月18日电(赵方园)与辉同行直播间带货产品再陷质量风波。近日,有消费者向中新健康反馈,在与辉同行直播间购买...
01-21
[本站 资讯] 近日,广汽集团官方表示,审议通过了《关于GH项目的议案》,并投资设立GH项目公司的事项(暂定名)。公告显示,新公司注册资本为15亿元,计划以该项目公司为载体,与华...
01-21
1 月 24 日消息,比亚迪近日宣布,计划于 2025 年首次在日本推出插电式混合动力汽车,以扩大其在日本市场的影响力。该市场长期以来由本土汽车制造商主导。据日经亚洲报道...
01-25
  张硕  近年来,剧集市场出现了一种“历史考据+悬疑叙事+当下表达”的微观历史剧,在真实的历...
01-22
《难哄》小说穆承允结局如何?穆承允结局是什么‌《难哄》中穆承允的结局是没有与温以凡在一起‌。穆承允对温以凡有一定的好感,但这种好感并未发展成深刻的喜...
02-20
21世纪经济报道记者 唐唯珂 广州报道社会办医的洗牌期仍在继续。2025年1月,新华医疗挂牌转让旗下山东新华昌国医院投资管理有限公司55%股权...
01-25
  中新网上海1月29日电(李秋莹 周孙榆)春节是中华民族的传统节日,同时也是眼健康面临重大挑战的时段,在长假期间,一些眼科慢性疾病,像不可逆致盲性慢性眼病青光眼、眼底...
02-02
1月18日,澎湃新闻记者注意到,近日华东师范大学官网“学校领导”页“副校长”...
01-21
  大众网记者 隋宜笑 报道  12月26日,山东政法学院党委委员、副校长胡晓清,山东政法学院传媒学院党总支书记徐永青,山东政法学院传媒学院副院长常洪卫等一行5人到访山东...
01-21
  1月13日,四川日报刊登《中国长城资产管理股份有限公司四川省分公司与四川天府银行股份有限公...
01-22
  2024年12月30日,中国信托业协会发布《2023—2024中国信托业社会责任报告》(以下简称《报告》)...
01-24
天蝎男和射手女是两个星座中性格截然不同的代表,他们之间的配对一直备受关注。那么,究竟...
01-22
狮子座男生通常充满自信、热情和领导力。要想征服他们的心,你需要展现出与他们相匹配的...
01-22
打造成功饰品品牌:你的创业项目计划书指南你是否曾经梦想过创建一个属于自己的饰品品牌?想象一下,自己设计的独特项链、耳环或者手链被人们喜爱和追捧,这种感觉无疑是令人激动的...
02-07
莆田珠宝产业:从传统手工到现代设计的华丽蜕变提到珠宝,许多人可能会想到璀璨夺目的钻石和繁复精致的手工艺品。然而,若我告诉你,在中国的莆田,这座城市正以其卓越的珠宝产业悄然...
02-07
2月16日消息,淘宝香港站近日宣布与一站式家居维修平台Papabo达成合作,将在信和集团旗下尖沙咀中港城开设“PapaHome淘宝家具实体店”,计划于2月22日开业,首阶段营运面积超过2.5...
02-17
2月18日消息,总部位于班加罗尔的B2B电子商务公司Udaan近日从现有投资者Lightspeed Venture Partners和英国M&G Prudential处募集到7500万美元资金。据悉,该公司有望在下一季度...
02-19
2月4日消息,飞猪发布《2025年春节假期出游快报》,报告显示,在“请2休11”“请4休13”等带动下,这个春节假期大家玩得更久、更远,消费也更多。春节假期国内游人均消费同比去年提升...
02-07
2月21日消息,京东APP首页改版,“品质外卖”成为单独的一级入口,入口Logo的标识也发生了变化,从以前的食物变为棕色的外卖包装袋。此前,京东外卖的入口位于秒送栏目下的二级页面。...
02-22
2024年末,一位科技创业者火了。作者 | 王思琪来源 | 投资家(ID:touzijias)2024年末,一位科技创业者火了。2025年初,这位创业者再度爆火。近日,中国科技行业因一位85后年轻人现身《...
01-24
2月5日,有投资者在投资者互动平台向东峰集团提问:公司公告预计亏损5亿元左右,感觉公司今年在洗澡。国资入主后是否会调整并购策略?未来准备如何提升公司经营业绩?东峰集团在投资...
02-09
在美国,PS5主机的销量走势领先于PS4,而Xbox Series主机的销量则落后于Xbox One。 这一信息来自Circana(前身为NPD集团)的执行董事兼电子游戏行业分析师马特·皮斯...
01-27
近日,由国产人工智能初创公司杭州深度求索(DeepSeek)开发的大语言模型DeepSeek-R1引发了全球科技界的广泛关注。尤其是在中国与美国的技术竞争日益激烈的背景下,De...
01-29
极目新闻记者 张静娴贴春联、挂灯笼、包饺子……在热闹的新春氛围里,有一群外国留学生与我们一同欢度春节。近日,接受记者采访时,外国留学生们分享了他们在中国过春节的独特体...
02-05
新华社布宜诺斯艾利斯2月5日电(记者张铎)阿根廷政府5日宣布,阿总统米莱已决定该国退出世界卫生组织。阿根廷总统府发言人阿多尔尼当天在新闻发布会上说,阿根廷不允许任何国际组...
02-06
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮