大模型背景下,智能计算发展有哪些新态势?

6个月前 来源:新华网 观看:59

当前,智能算力需求倍增,千卡计算集群成为大模型训练标配,巨量参数、海量数据是人工智能大模型研发的必经之路。以ChatGPT为代表的多模态AI大模型成为人工智能迈向通用智能的里程碑技术,2018年—2024年OpenAI公司先后发布GPT-3.5、GPT-4、Sora等大模型,参数规模突破万亿,模型训练数据量达TB级别,应用场景覆盖文生文、文生图、文生视频等多模态计算任务。参数规模在百亿到千亿区间、训练数据TB级别以上,已成为研发具备涌现能力大模型的必备条件。kJc即热新闻——关注每天科技社会生活新变化gihot.com

2003年—2023年20年间智能算力需求增长百亿倍,远超摩尔定律提升速度。以ChatGPT为代表的人工智能大模型突破性进展激发全球智能计算发展热潮,大模型算力需求远超半导体增长速度,算力需求增长与芯片性能增长之间逐渐不匹配。根据公开数据测算,以AlexNet为代表的传统卷积神经网络模型训练计算量以5~7个月翻倍增长,当前基于Transformer的大模型计算量以4~5个月翻倍增长;然而芯片侧,CPU依旧延续摩尔定律以两年性能翻倍的速度发展,GPU芯片通过架构创新持续强化并行计算能力,实现十年千倍增长速度(int8算力)。现阶段,业界通过算力堆叠以及芯片、软件、互联等协同技术系统性能提升以满足大模型智能算力激增要求,千卡算力芯片构建的集群成为千亿参数大模型训练的标配。kJc即热新闻——关注每天科技社会生活新变化gihot.com

 芯片、软件、互联等技术创新是算力提升关键kJc即热新闻——关注每天科技社会生活新变化gihot.com

多维度架构创新实现芯片性能倍增。与通用计算芯片不同,智能计算芯片微架构创新对其算力提升影响超过工艺制程。英伟达重视GPU微架构创新,2010年以来已累计实现9次架构升级,结合工艺升级实现了十年千倍的性能提升。最新Blackwell GPU架构内置第二代Transformer引擎和专用RAS安全引擎,全面提升计算效率和部署稳定性。第二代Transformer引擎支持微张量缩放和动态范围管理算法,扩展支持新型FP6、FP4精度计算,实现自动调整精度以达到芯片最优算力性能;RAS引擎基于人工智能的预防性维护技术完成芯片运行状态的诊断,最大化延长系统运行时间和降低运营成本。kJc即热新闻——关注每天科技社会生活新变化gihot.com

深度学习框架和软件栈间接口高效适配成为芯片好用的关键。深度学习框架在支撑应用开发的同时,需要完成与底层芯片软件栈的高效适配。开发框架方面,提供分布式调度、访存优化、模型并行、数据并行等开发能力,支持分布式大模型高性能训练与推理已成为框架高效应用的关键。PyTorch采用类Python语法降低使用门槛,动态计算图设计思路便于灵活调试,加快模型的训练和优化过程,是当前算法应用开发的主力产品。软件栈方面,重点强化大模型加速库能力建设,通过向用户提供易用、高效的芯片编程接口,提高开发人员的工作效率,目前已推出针对深度学习计算、优化模型推理和加速科学计算、图形计算的专用加速库,满足多样化智能计算需求。kJc即热新闻——关注每天科技社会生活新变化gihot.com

高速互联是大规模算力集群构建的基础。芯片间、服务器间、集群间的高速互联、无损网络能力建设,是支撑千卡、万卡智能算力集群计算需求的必备条件,英伟达新一代NVLink 5高带宽互联技术支持GPU间、GPU与Grace CPU直连,带宽从H100的900Gb/s提升到1800Gb/s,与NVLink交换机联合使用可最高支持576个GPU高速通信,是H100芯片最大直连数量的2倍,为支持万亿参数大模型训练提供基础。kJc即热新闻——关注每天科技社会生活新变化gihot.com

  巨头蜂拥智能计算赛道kJc即热新闻——关注每天科技社会生活新变化gihot.com

  寡头垄断与多体系并存kJc即热新闻——关注每天科技社会生活新变化gihot.com

计算核心企业加快智能计算产品端到端体系化布局,抢占产业生态主导权。英伟达巩固GPU芯片性能优势的同时,向CPU、服务器架构、云平台等下游渗透,借助B200、H100芯片和DGX SuperPOD计算集群主导地位开辟云服务DGX Cloud,使企业能够立即访问生成式AI应用和训练模型所需的基础设施与软件。AMD强化“CPU+GPU”双芯片战略布局,CPU方面,通过改进分支预测、增加浮点支持指令等持续迭代升级芯片性能,GPU方面,发布基于CDNA 3架构的人工智能芯片MI300A和MI300X以抢占大模型算力市场份额。英特尔围绕高性能计算优势领域,逐步向GPU、ASIC等面向人工智能技术路线的产品体系布局,推出Habana Gaudi 2、Xe GPU等产品。但从全球智能计算芯片市场的规模来看,英伟达主导地位明显,市场占有率超80%,短期内领先的市场格局不会改变。kJc即热新闻——关注每天科技社会生活新变化gihot.com

云平台及AI企业向底层芯片领域渗透,但仅少量自研芯片实际部署应用。谷歌、微软、亚马逊等云厂商依托云计算优势向底层芯片领域渗透。谷歌自研张量处理器芯片TPU历经五代迭代创新,于2023年8月发布新一代定制TPU v5e用于大模型训练和推理,目前已批量应用于自研LLaMA大模型训练推理任务中。微软于2023年11月发布Maia 100和Cobalt 100芯片,Maia 100专为Azure云生成式AI业务设计,提供自然语言处理、计算机视觉、推荐系统等计算服务,已在Bing和Office AI产品上完成测试;Cobalt 100是基于ARM架构的通用计算芯片,当前已为Microsoft Teams等应用提供支持;然而上述两款芯片至今仅支持微软自家云服务,尚未向合作伙伴和客户开放芯片产品供应。微软自研推理芯片Inferentia和训练芯片Trainium,2023年4月更新的Inferentia 2芯片进一步提升计算性能,通过多卡高速互联可完成千亿参数大模型推理任务。但从实际应用来看,国内外云厂商仅在有限的特定算法场景中使用自研芯片,对外提供的稳定、可靠的高性能智能算力服务均基于英伟达加速卡产品实现。kJc即热新闻——关注每天科技社会生活新变化gihot.com

  智能计算生态软硬深度绑定发展kJc即热新闻——关注每天科技社会生活新变化gihot.com

计算企业均构建了与自研芯片相对应的端到端软件栈。目前国内企业均构建了与自研芯片相对应的端到端软件栈(含驱动层、编译器、加速库、工具链等),存在兼容英伟达CUDA生态和自研软件栈等技术路线。一方面,英特尔、AMD等企业在工具链API接口协议等方面与CUDA对应一致,便于把CUDA程序快速迁移到自研GPU硬件平台,降低芯片应用门槛,满足不同应用开发及调试需求。另一方面,谷歌自研TPU芯片应用时,自研软件栈编译器等工具,针对特定算法应用进行优化,实现处理效率和性能的提升。kJc即热新闻——关注每天科技社会生活新变化gihot.com

国内软件生态竖井及碎片化发展,应用跨平台迁移难度大、成本高。“框架+工具链+硬件”紧密耦合的长链条,端到端紧耦合、接口互不兼容,致使上层应用与特定系统锁定,是形成繁多竖井生态的根本性因素。对于应用开发者而言,应用开发人员在使用多芯片异构算力进行AI算法实现过程中,不同厂家开发的框架应用程序接口、编程库和操作系统尚不统一,DSA架构专用芯片编程范式和软件栈互不兼容,需在OpenCL、OpenACC、OpenMP等多种模型范式间切换。开发框架、软件栈竖井式的开发生态增加了应用开发人员的开发成本,应用企业为开发出能够适配多种异构AI芯片算力的算法程序,需建立多支开发团队、维护多个程序版本,成为业界运用异构算力的主要瓶颈。kJc即热新闻——关注每天科技社会生活新变化gihot.com

当前,智能算力需求倍增,千卡计算集群成为大模型训练标配,巨量参数、海量数据是人工智能大模型研发的必经之路。以ChatGPT为代表的多模态AI大模型成为人工智能迈向通用智能的里程碑技术,2018年—2024年OpenAI公司先后发布GPT-3.5、GPT-4、Sora等大模型,参数规模突破万亿,模型训练数据量达TB级别,应用场景覆盖文生文、文生图、文生视频等多模态计算任务。参数规模在百亿到千亿区间、训练数据TB级别以上,已成为研发具备涌现能力大模型的必备条件。kJc即热新闻——关注每天科技社会生活新变化gihot.com

2003年—2023年20年间智能算力需求增长百亿倍,远超摩尔定律提升速度。以ChatGPT为代表的人工智能大模型突破性进展激发全球智能计算发展热潮,大模型算力需求远超半导体增长速度,算力需求增长与芯片性能增长之间逐渐不匹配。根据公开数据测算,以AlexNet为代表的传统卷积神经网络模型训练计算量以5~7个月翻倍增长,当前基于Transformer的大模型计算量以4~5个月翻倍增长;然而芯片侧,CPU依旧延续摩尔定律以两年性能翻倍的速度发展,GPU芯片通过架构创新持续强化并行计算能力,实现十年千倍增长速度(int8算力)。现阶段,业界通过算力堆叠以及芯片、软件、互联等协同技术系统性能提升以满足大模型智能算力激增要求,千卡算力芯片构建的集群成为千亿参数大模型训练的标配。kJc即热新闻——关注每天科技社会生活新变化gihot.com

 芯片、软件、互联等技术创新是算力提升关键kJc即热新闻——关注每天科技社会生活新变化gihot.com

多维度架构创新实现芯片性能倍增。与通用计算芯片不同,智能计算芯片微架构创新对其算力提升影响超过工艺制程。英伟达重视GPU微架构创新,2010年以来已累计实现9次架构升级,结合工艺升级实现了十年千倍的性能提升。最新Blackwell GPU架构内置第二代Transformer引擎和专用RAS安全引擎,全面提升计算效率和部署稳定性。第二代Transformer引擎支持微张量缩放和动态范围管理算法,扩展支持新型FP6、FP4精度计算,实现自动调整精度以达到芯片最优算力性能;RAS引擎基于人工智能的预防性维护技术完成芯片运行状态的诊断,最大化延长系统运行时间和降低运营成本。kJc即热新闻——关注每天科技社会生活新变化gihot.com

深度学习框架和软件栈间接口高效适配成为芯片好用的关键。深度学习框架在支撑应用开发的同时,需要完成与底层芯片软件栈的高效适配。开发框架方面,提供分布式调度、访存优化、模型并行、数据并行等开发能力,支持分布式大模型高性能训练与推理已成为框架高效应用的关键。PyTorch采用类Python语法降低使用门槛,动态计算图设计思路便于灵活调试,加快模型的训练和优化过程,是当前算法应用开发的主力产品。软件栈方面,重点强化大模型加速库能力建设,通过向用户提供易用、高效的芯片编程接口,提高开发人员的工作效率,目前已推出针对深度学习计算、优化模型推理和加速科学计算、图形计算的专用加速库,满足多样化智能计算需求。kJc即热新闻——关注每天科技社会生活新变化gihot.com

高速互联是大规模算力集群构建的基础。芯片间、服务器间、集群间的高速互联、无损网络能力建设,是支撑千卡、万卡智能算力集群计算需求的必备条件,英伟达新一代NVLink 5高带宽互联技术支持GPU间、GPU与Grace CPU直连,带宽从H100的900Gb/s提升到1800Gb/s,与NVLink交换机联合使用可最高支持576个GPU高速通信,是H100芯片最大直连数量的2倍,为支持万亿参数大模型训练提供基础。kJc即热新闻——关注每天科技社会生活新变化gihot.com

  巨头蜂拥智能计算赛道kJc即热新闻——关注每天科技社会生活新变化gihot.com

  寡头垄断与多体系并存kJc即热新闻——关注每天科技社会生活新变化gihot.com

计算核心企业加快智能计算产品端到端体系化布局,抢占产业生态主导权。英伟达巩固GPU芯片性能优势的同时,向CPU、服务器架构、云平台等下游渗透,借助B200、H100芯片和DGX SuperPOD计算集群主导地位开辟云服务DGX Cloud,使企业能够立即访问生成式AI应用和训练模型所需的基础设施与软件。AMD强化“CPU+GPU”双芯片战略布局,CPU方面,通过改进分支预测、增加浮点支持指令等持续迭代升级芯片性能,GPU方面,发布基于CDNA 3架构的人工智能芯片MI300A和MI300X以抢占大模型算力市场份额。英特尔围绕高性能计算优势领域,逐步向GPU、ASIC等面向人工智能技术路线的产品体系布局,推出Habana Gaudi 2、Xe GPU等产品。但从全球智能计算芯片市场的规模来看,英伟达主导地位明显,市场占有率超80%,短期内领先的市场格局不会改变。kJc即热新闻——关注每天科技社会生活新变化gihot.com

云平台及AI企业向底层芯片领域渗透,但仅少量自研芯片实际部署应用。谷歌、微软、亚马逊等云厂商依托云计算优势向底层芯片领域渗透。谷歌自研张量处理器芯片TPU历经五代迭代创新,于2023年8月发布新一代定制TPU v5e用于大模型训练和推理,目前已批量应用于自研LLaMA大模型训练推理任务中。微软于2023年11月发布Maia 100和Cobalt 100芯片,Maia 100专为Azure云生成式AI业务设计,提供自然语言处理、计算机视觉、推荐系统等计算服务,已在Bing和Office AI产品上完成测试;Cobalt 100是基于ARM架构的通用计算芯片,当前已为Microsoft Teams等应用提供支持;然而上述两款芯片至今仅支持微软自家云服务,尚未向合作伙伴和客户开放芯片产品供应。微软自研推理芯片Inferentia和训练芯片Trainium,2023年4月更新的Inferentia 2芯片进一步提升计算性能,通过多卡高速互联可完成千亿参数大模型推理任务。但从实际应用来看,国内外云厂商仅在有限的特定算法场景中使用自研芯片,对外提供的稳定、可靠的高性能智能算力服务均基于英伟达加速卡产品实现。kJc即热新闻——关注每天科技社会生活新变化gihot.com

  智能计算生态软硬深度绑定发展kJc即热新闻——关注每天科技社会生活新变化gihot.com

计算企业均构建了与自研芯片相对应的端到端软件栈。目前国内企业均构建了与自研芯片相对应的端到端软件栈(含驱动层、编译器、加速库、工具链等),存在兼容英伟达CUDA生态和自研软件栈等技术路线。一方面,英特尔、AMD等企业在工具链API接口协议等方面与CUDA对应一致,便于把CUDA程序快速迁移到自研GPU硬件平台,降低芯片应用门槛,满足不同应用开发及调试需求。另一方面,谷歌自研TPU芯片应用时,自研软件栈编译器等工具,针对特定算法应用进行优化,实现处理效率和性能的提升。kJc即热新闻——关注每天科技社会生活新变化gihot.com

国内软件生态竖井及碎片化发展,应用跨平台迁移难度大、成本高。“框架+工具链+硬件”紧密耦合的长链条,端到端紧耦合、接口互不兼容,致使上层应用与特定系统锁定,是形成繁多竖井生态的根本性因素。对于应用开发者而言,应用开发人员在使用多芯片异构算力进行AI算法实现过程中,不同厂家开发的框架应用程序接口、编程库和操作系统尚不统一,DSA架构专用芯片编程范式和软件栈互不兼容,需在OpenCL、OpenACC、OpenMP等多种模型范式间切换。开发框架、软件栈竖井式的开发生态增加了应用开发人员的开发成本,应用企业为开发出能够适配多种异构AI芯片算力的算法程序,需建立多支开发团队、维护多个程序版本,成为业界运用异构算力的主要瓶颈。kJc即热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-2-4612-0.html大模型背景下,智能计算发展有哪些新态势?

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:发射成功!看神舟十八号载人飞船的技术“绝活”

下一篇:科技与自然情景交融

为你推荐
当遇到网上平台不给出款的情况时,首先要保持冷静,明确自己的权益和应对策略。 以下是一些建议,希望能帮助你解决这一问题。网上被黑不给出款各种问题【微信chuhei816】 一、了...
07-23
“过去一年我感受到了前所未有的创业的快乐,时时感受着梦...
02-19
好学近乎知,力行近乎仁,知耻近乎勇。——《中庸》  译:勤奋好学就接近智,做任何事情只要努力就接近仁,懂得了是非善恶就是勇的一种表现。 君子之交淡如水,小人之交甘...
08-07
茂名套VISA信用卡分付白条花呗微电:166 7513 1138 全天在线欢迎来电,还有分付,分期乐,苹果专享额度都可以办理!现在很多网友都喜欢了京东白条消费套出来这种方式,因为在有京东白条...
08-06
现在网络鱼龙混杂,请认准靠谱八年商家,金牌小帮手——小创(137-1300-6106可v可来电)(全年365天不掉线) 【得物佳物分期购可以提现吗】【得物的分期购额度怎么套出来...
09-20
总结:2024羊小咩享花卡套线商家(羊小咩享花卡秒到24小时分享) 羊小咩作为一款热门的消费支付产品,为广大用户提供了便捷的购物额度。然而,由于平台规定,羊小咩的额度并不能直接...
08-26
9月28日,长安马自达MAZDA EZ-6正式开启预售,新车预售价格16—20万元。远超合资同级的智能化配置,同级唯一的超级纯电、无极增程双模式动力选择,独一无二的电感「人马一体」驾乘...
09-29
2024北京车展已经拉开帷幕,作为全国最大的车展之一,这次各个厂商带来的新车着实不少。在经过一轮又一轮的价格战,市场洗牌之后,竞争变得更加白热化。车展将成为新的竞技...
04-26
一键解锁:怎么找分付刷的商家,实操12种方法具体详细步骤在使用过程中,务必保护好账户安全,并注意检查支付金额的准确性。分付消费二维码为我们的生活带来了便利,使支付过程更加...
09-05
专门-花呗钱可以转到微信上吗,商家分享7种秒到账方法选择花呗信用购支付,在购买商品的同时就可以选择分期付款,并轻松完成申请和审批流程。这使得用户可以在家中通过手机即可...
09-03
随着时间的流逝,现在我们已经到了夏季了,我们大家都知道夏季是一年之中最炎热的时候了,因此很多人都会大量的出汗了,想要多喝些水,还有很多人喜欢吃冷饮了,觉得可以清热解渴,其实我...
04-02
立冬已经到来了,在这时候我们可以发现,由于立冬正处于秋冬两季交替的时候了,在这时候我们人体的免疫力都是比较低下的了,大家在立冬的时候就容易患上各种各样的疾病了,那么具体在...
04-02
长春风控花呗白条套取秒到账:【181 181 43671微信同号】万事达 、境外卡、微信分付、抖音月付、支付宝信用购取消实体商家当面刷,本地一手超低费用没有中间商赚差价,所有信息已...
08-27
海口风控花呗白条套取秒到账:【181 181 43671微信同号】微信分付、抖音月付、支付宝信用购取消实体商家当面刷,本地一手超低费用没有中间商赚差价,所有信息已实名安全的很。十...
08-22
哈尔滨风控花呗白条套取秒到账:【181 181 43671微信同号】万事达 、境外卡、微信分付、抖音月付、支付宝信用购取消实体商家当面刷,本地一手超低费用没有中间商赚差价,所有信息...
08-14
现在很多网友都喜欢了京东白条消费套出来这种方式,因为在有京东白条额度下,在急用钱的情况下就可以套出来救急,然后再还款,解决自已实际问题。但是在实际操作过程中一定要找到...
07-31
南方财经全媒体记者梁施婷 广州报道7月19日,南方电网公司公布数据显示,上半年,广东、广西、云南、贵州、海南五省区全社会用电量7888亿千瓦...
07-21
  近日,广东南粤银行发布了2023年业绩报告。  年报数据显示,截至报告期末,该行合并口径下资产...
06-27
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮