解决传统架构记忆瓶颈 MiniMax发布新一代模型

10个月前 来源:新京报 观看:210

1月15日,“AI六小虎”之一的MiniMax发布并开源了新一代01系列模型,包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。该系列模型使用多项突破性创新,以大规模应用线性注意力机制打破了Transformer传统架构的记忆瓶颈。jDL即热新闻——关注每天科技社会生活新变化gihot.com

未来,AI智能体有望成为最重要的产品形态,由于智能体处理的任务变得越来越复杂,涉及的数据量也越来越大,单个智能体的记忆以及多个智能体协作间的上下文都会变得越来越长。因此,长上下文能力与多模态处理能力的提升至关重要。jDL即热新闻——关注每天科技社会生活新变化gihot.com

技术上,MiniMax-01系列模型首次将线性注意力机制扩展到商用模型的级别,受益于此次架构创新,该系列模型在处理长输入的时候具有非常高的效率,接近线性复杂度。从规模效应、结构设计、训练优化和推理优化等层面综合考虑,MiniMax选择模型参数量为4560亿,其中每次激活459亿,能够高效处理400万token的上下文,将有效替代Transformer传统架构并开启超长文本输入时代。相较于Gemini等一众全球顶级模型,MiniMax-01随着输入长度变长,性能衰减最慢。jDL即热新闻——关注每天科技社会生活新变化gihot.com

值得注意的是,MiniMax还开源了Text-01模型、VL-01模型的完整权重,以便于更多开发者做有价值、突破性的研究。MiniMax方面表示,“我们认为这有可能启发更多长上下文的研究和应用,从而更快促进Agent时代的到来,二是开源也能促使我们努力做更多创新,更高质量地开展后续的模型研发工作。”jDL即热新闻——关注每天科技社会生活新变化gihot.com

1月15日,“AI六小虎”之一的MiniMax发布并开源了新一代01系列模型,包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。该系列模型使用多项突破性创新,以大规模应用线性注意力机制打破了Transformer传统架构的记忆瓶颈。jDL即热新闻——关注每天科技社会生活新变化gihot.com

未来,AI智能体有望成为最重要的产品形态,由于智能体处理的任务变得越来越复杂,涉及的数据量也越来越大,单个智能体的记忆以及多个智能体协作间的上下文都会变得越来越长。因此,长上下文能力与多模态处理能力的提升至关重要。jDL即热新闻——关注每天科技社会生活新变化gihot.com

技术上,MiniMax-01系列模型首次将线性注意力机制扩展到商用模型的级别,受益于此次架构创新,该系列模型在处理长输入的时候具有非常高的效率,接近线性复杂度。从规模效应、结构设计、训练优化和推理优化等层面综合考虑,MiniMax选择模型参数量为4560亿,其中每次激活459亿,能够高效处理400万token的上下文,将有效替代Transformer传统架构并开启超长文本输入时代。相较于Gemini等一众全球顶级模型,MiniMax-01随着输入长度变长,性能衰减最慢。jDL即热新闻——关注每天科技社会生活新变化gihot.com

值得注意的是,MiniMax还开源了Text-01模型、VL-01模型的完整权重,以便于更多开发者做有价值、突破性的研究。MiniMax方面表示,“我们认为这有可能启发更多长上下文的研究和应用,从而更快促进Agent时代的到来,二是开源也能促使我们努力做更多创新,更高质量地开展后续的模型研发工作。”jDL即热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-2-195-0.html解决传统架构记忆瓶颈 MiniMax发布新一代模型

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:深瞳丨AI为药物研发按下“快进键”

下一篇:丝巾变色、火柴变玫瑰 年货节期间淘宝魔术道具销量大增174%

为你推荐
不久前,国家卫生健康委、国家中医药局、国家疾控局联合发布《卫生健康行业人工智能应用场景参考指引》,列出药物研发等84种具体应用场景,为人工智能(AI...
01-21
记者1月21日从中国科学院空间应用工程与技术中心获悉,利用中国空间站高温材料科学实验柜,我国科研人员完成铟硒半导体晶体生长实验,获得完整晶体样品...
01-22
  【带你一起看大展】  光明日报记者李韵王笑妃  1月21日,记者走进中国国家博物馆北3展厅,...
01-23
  1月27日夜间,纷纷扬扬的大雪已下了一整天,白雪覆红灯让年味愈发浓厚。在沈阳街头,环卫工人们挥舞铁锹...
01-28
  国家医保局今天(20日)表示,近日,上海市“两会”期间,有政协委员、医学专家反映某些集采药品可能存在质量风险等问题,国家医保局高度重视。  为切实接受民主监督,广泛听取...
01-21
  中新经纬1月17日电 据文旅部网站消息,1月17日,文旅部办公厅发布《2025年“游购乡村”消费迎春活动的通知》(以下简称《通知》)。  《通知》显示,“游购乡村”活动时间为1...
01-21
2024传统汽车品牌不断退出转投新势力的消息,接踵而至,不断见诸报道,造成了市场对传统汽车品牌不振的直观感受。事实上,在激烈的车市大浪淘沙阶段,无论是传统品牌和新势力,开店或闭...
01-25
  新加坡交通部陆路交通管理局近日公布的数据显示,2024年注册新车数量43022辆。其中,中国电动汽...
01-27
《难哄》钟思乔是配角吗?钟思乔和温以凡什么关系在《难哄》中,钟思乔是配角,她是女主角温以凡的闺蜜,在故事中起到了丰富情节、推动主角感情发展等作用。《难哄...
02-19
随着电视剧的热播,“难哄温以凡在大伯家遭遇了什么”引起了广大粉丝的关注。该剧凭借精彩的剧情、精良的制作和精湛的演技,一经播出便受到观众的一致好评,并拿...
02-20
  “当前,全国范围内呼吸道传染病流行情况已经下降,流感样病例占比有所下降,肺炎支原体等阳性率持续下降,新冠病毒等其他呼吸道疾病继续处于低流行水平。”在26日举行的...
01-28
  美国科罗拉多大学博尔德分校一项最新研究表明,与较早经历更年期的女性相比,较晚经历更年期的...
02-11
  江苏徐州幼师幼教集团万科城幼儿园以“健康第一”为指导思想,以“趣”运动、“悦”健康为办园理念,不断增强幼儿体质,促进园所发展。  万科城幼儿园优化体育特色活动,增...
01-21
  大众网记者 隋宜笑 报道  12月26日,山东政法学院党委委员、副校长胡晓清,山东政法学院传媒学院党总支书记徐永青,山东政法学院传媒学院副院长常洪卫等一行5人到访山东...
01-21
  近期,保险资金频繁“扫货”上市公司股票。根据Wind统计,今年以来,包括平安人寿举牌邮储银行H股...
02-11
经济观察网 邢祺欣/文 6月19日,惠誉评级在北京举行的“2024惠誉看中国”会议上,发布《中国主权评级及宏观经济前景展望》报告。对中国政府近期采取的支持经济的措施,惠誉评级中...
02-13
金牛座的男生通常被认为是稳重、务实的代表,他们对感情非常认真,但有时候也会故意气你。...
01-22
星座一直以来都是人们津津乐道的话题,尤其是在爱情方面。每个星座都有自己独特的性格特...
01-22
魅力与风格并存:男模特如何征服T台走秀当我第一次走上T台,看着千百双眼睛注视着我,那一刻的紧张与兴奋交织在一起。场下的闪光灯、一阵阵掌声、还有设计师们期待的眼光,几乎每一...
02-07
魅力四射:过膝长靴在T台走秀的绝美瞬间在时尚界,过膝长靴无疑是一个不可忽视的存在。每当我站在T台边,看着模特们用这双靴子赋予整场走秀独特的风格时,心中总会隐隐涌起一阵美妙...
02-12
外卖大战一触即发。1.京东外卖放大招,商家全年0佣金外卖市场的天,恐怕就要变了。2月11日,京东外卖正式启动“品质堂食餐饮商家”招募,进军外卖市场。同时,京东丢下一颗重磅炸弹:20...
02-18
一场刘强东和王兴的巅峰对决。美团将为骑手缴纳社保新的一年,美团要为骑手创造更多的安全感。2月19日下午,美团宣布将为全职及稳定兼职骑手缴纳社保。目前,公司正在搭建骑手社...
02-20
2月10日消息,易生支付近日凭借在万事达卡(Mastercard)国际与国内收单市场的突出贡献,再度荣获由万事达卡颁发的年度“卓越合作伙伴奖”,并获得由万事达卡在华合资公司万事网联首...
02-11
2月23日消息,汽车之家近日对外披露2024年第四季度及全年财务业绩。截图图源:东方财富网财报显示,该公司2024年第四季度总营收17.8亿元人民币;全年总营收70.4亿元人民币;全年归属...
02-24
2024年末,一位科技创业者火了。作者 | 王思琪来源 | 投资家(ID:touzijias)2024年末,一位科技创业者火了。2025年初,这位创业者再度爆火。近日,中国科技行业因一位85后年轻人现身《...
01-24
近日,先进固态电池解决方案提供商恩力动力完成数亿人民币B轮融资,由清大海峡与金石投资共同领投,老股东大兴投资旗下基金跟投。本轮资金将用于固态电...
02-07
1月24日今天,知名动漫IP《新世纪福音战士》官方宣布,EVANGELION:95服饰新品牌正式诞生,今后粉丝可以更加直接的表达对于EVA系列的喜爱。 ·EVANGELION:95的设计...
01-24
《刺客信条:影》未发布的故事及角色细节,通过一家成人卡通网站泄露了出去。 上周末,该游戏当前尚未发布的艺术设定集扫描件被发布在一个成人动漫网站上,随后被发行...
02-05
极目新闻评论员 吴双建 2月6日,有网友在问政平台投诉称,其因工作问题,遭到四川省巴中市人力资源和社会保障局相关工作人员的电话辱骂。2月7日,巴中市人力资源和社会保障局工作人...
02-08
极目新闻记者 康旭阳2月9日消息,阿里云宣布百炼平台全面上线DeepSeek-V3、DeepSeek-R1、DeepSeek-R1-Distill-Qwen-32B等6款全尺寸模型,1元最高可享受200万tokens,即日起,所有用...
02-09
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮