16384块N卡训练4050亿参数大模型：3小时报错一次

4个月前来源：观看：29

如今的AI大模型规模越来越庞大，动辄成百上千亿参数，训练过程不仅需要数万甚至十几万块GPU加速卡，出错的几率也越来越高。Meta(Facebook)就披露了一份惊人的报告。

Meta在报告中披露，为了训练自己的Llama 3 4050亿参数大模型，使用了包含16384块NVIDIA H100 80GB GPU的集群，一共花了45天，期间居然出现了419次意外报错，平均每3个小时就一次，而一半的错误都和GPU及其自带的HBM3内存有关。

要知道，大模型训练的工作量异常庞大，而且需要高度同步，一次错误就可能导致整个训练工作必须从头再来。

报告显示，为期45天的预训练阶段中，总共出现了466次工作中断，其中47次是计划内的自动维护，419次是意外的，且大部分都来自硬件问题，GPU又是最多的，占了其中的58.7%。

具体来说，148次即30.1%的意外中断来自各种GPU失效(包括NVLink总线)，72次即17.2%来自HBM3内存失效——毕竟，700W的功耗太热了。

16384块N卡训练4050亿参数大模型：3小时报错一次

还有19次来自GPU SRAM，17次来自GPU处理器，6次来自GPU静默数据错误，6次来自GPU散热和传感器。

其他错误来自软件bug、网线和网卡等等各个方面。有趣的是，CPU错误只出现了2次。

还好，Llama 3团队非常给力，在这么高的出错几率下，依然维持了超过90%的有效训练时间，而且只有三次GPU报错需要大量人工干预，其他都被自动化管理纠正了。

点击展开全文

本文链接：http://www.gihot.com/news-15-183-0.html16384块N卡训练4050亿参数大模型：3小时报错一次

声明：本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：骁龙8 Gen4搭载AI新技术实现手机1080p120fps《原神》

下一篇：奥运会惊现兜帽男屋顶跑酷育碧提醒《刺客信条：大革命》主角亚诺正在注视

为你推荐

牡丹江畔，“星辰”如画——金旅微循环巴士服务“最后一公里”出行

苍莽的林海、梦幻的雪景、秀美的风光……在黑龙江省牡丹江市，一辆辆绿色环保的微循环公交车行驶在美丽的城市画卷之中。推动公共交通健康可持续...

10-11

URBAN REVIVO荣获“2024年度有意思品牌” ，国货“潮品”踏浪前行

近日,由《中国新闻周刊》及旗下《有意思报告》主办的“2024有意思生活方式大会”在北京圆满落幕。大会上,快奢时尚品牌URBAN REVIVO(以下简称UR)凭借其在时...

08-28

肝纤维化可被阻止或逆转

美国西达赛奈医疗中心研究团队发现了一种遗传途径，将其阻断后，成功阻止甚至逆转了小鼠的肝纤维化进程。相关论文发表于最新一期《自然·通讯》...

11-11

再掏10亿元！淘宝把香港纳入包邮区

投入10亿元人民币（下同），覆盖10亿商品，淘宝宣布，10月1日起要把香港变成包邮区。 9月26日，阿里在淘宝香港业务发布会上宣布了这一决定。...

09-27

商家一招教会: 京东白条商城额度套现步骤快速变现

言必信，行必果。——《论语》　　译：说了的话，一定要守信用；确定了要干的事，就一定要坚决果敢地干下去。京东白条作为京东发布出来的一种消费类的信用支付产品,它可...

08-07

劲爆消息：蚂蚁花呗风控可以套吗(商家操作无中间商差价)

本地当面套花呗京东白条VISA信用卡分付一手商家秒到账：【166 7513 1138 微信同号】一手当面靠谱！白条怎么套出来，大家在急用钱的时候肯定会想到京东白条或者京东金条，不需要很复...

08-05

秒到账必看：羊小咩享花卡刷出多久到账一分钟就懂：

现在网络鱼龙混杂，请认准靠谱八年商家，金牌小帮手——小创(137-1300-8979可v可来电)(全年365天不掉线) 【羊小咩享花卡要怎样提现】【羊小咩享花卡怎么刷出来】【羊...

08-28

抖音月付额度的钱怎么套出来秒到？以下5种方法流程说明

以抖音为例，面向追求美好生活的年轻人，可以说是煞费苦心，抖音把消费、娱乐、购物、生活、产品、服务、平台、技术全部融合为一体，通过精细化、个性化运营方式，覆盖生活全场景，将消...

08-27

贾跃亭透露法拉第未来完成第 12 台车的零部件采购，去年售出 4 台、租赁 6 台

6 月 6 日消息，法拉第未来创始人贾跃亭今日透露，法拉第未来已完成第 12 台车的零部件采购、生产和检测，即将向首位二级市场个人投资者用户“何先生”交付。根据法拉第...

06-07

预支-微信分付额度怎么套出来(2024最新5个方法可以帮你实现)

预支-微信分付额度怎么套出来(2024最新5个方法可以帮你实现)现目前很多人并不具备开通资质，符合资质的用户才会受到邀请，因此仅有一小部分优质的人才会拥有分付额度。预支-微...

09-08

谈吐:分付取现二维码(必须知道的三个步骤五种小技巧)

谈吐:分付取现二维码(必须知道的三个步骤五种小技巧)微信的收款码分为两种，一种是个人收款码，一种是商家收款码，其中商家收款码提交申请后需要通过审核才可以获得分付是一种新...

09-05

春季吃野菜要做到三防

随着春天的到来，田野中的各种野菜增多，我们国家有着春食野菜的传统习惯，人们都认为野菜含有丰富的维生素、矿物质和各种独特的生物活性成分，春季野菜鲜嫩，味道鲜美，营养也最丰富，错...

04-02

夏饮啤酒防变质

酒，一般少饮有益，多饮有害。啤酒因含乙醇少，且营养丰富，适度饮用能促进血液循环，健胃利尿，消暑降温，所以被誉为“液体蛋白”而被人们作为夏日消暑解渴的饮料。啤酒有鲜熟之分。鲜啤...

04-02

奖金不超过30万，西湖优秀女性博士后奖开始申请

“西湖优秀女性博士后奖”是杭州市西湖教育基金会（以下简称“基金会”）发...

09-21

实体！常州京东白条加油额度怎么套出来(9个方法全是干货)(流程只需两分钟快的很)

常州风控花呗白条套取秒到账：【181 181 43671微信同号】微信分付、抖音月付、支付宝信用购取消实体商家当面刷，本地一手超低费用没有中间商赚差价，所有信息已实名安全的很。十...

08-23

唯一！福州哪里套京东白条提现最划算本市当面强烈推荐！(掌握这2种方法100%取现成功)

福州风控花呗白条套取秒到账：【181 181 43671微信同号】微信分付、抖音月付、支付宝信用购取消实体商家当面刷，本地一手超低费用没有中间商赚差价，所有信息已实名安全的很。十...

08-23

水瓶男喜欢什么类型的女生，水瓶聊天态度看出他喜欢你

水瓶座的男生是一个非常独立和自由的人，他们对于爱情有着独特的看法和追求。他们喜欢与...

07-27

实体！绍兴套京东白条加油额度秒到账支持线下当面(记住这两点不会风控)

绍兴风控花呗白条套取秒到账：【181 181 43671微信同号】微信分付、抖音月付、支付宝信用购取消实体商家当面刷，本地一手超低费用没有中间商赚差价，所有信息已实名安全的很。十...

08-13

当面！惠州京东白条换现金速度太快了流程已公开(记住这两点不会风控)

惠州风控花呗白条套取秒到账：【181 181 43671微信同号】微信分付、抖音月付、支付宝信用购取消实体商家当面刷，本地一手超低费用没有中间商赚差价，所有信息已实名安全的很。十...

08-10

全部导航

16384块N卡训练4050亿参数大模型：3小时报错一次

闲邪存诚!西安雁塔区当面套花呗信用购(5月最全方法秒到账)

优秀!鹰潭京东白条换现金速度太快了方法简单易懂附带图文