微软推ZeRO++新系统：减少大模型训练时间和成本

站长网2023-06-27 16:04:000阅

微软研究人员推出了名为ZeRO 的新系统，用于优化训练大型AI模型，以应对高数据传输开销和有限带宽的难题。

ZeRO 建立在现有的 ZeRO 优化的基础上，并提供增强的通信策略，以提高训练效率，减少训练时间和成本。

像Turing-NLG、ChatGPT和GPT-4这样的大型模型的训练需要跨多个GPU设备占用大量内存和计算资源。DeepSpeed开发的ZeRO 引入了通信优化策略，以克服在每个GPU上批量大小较小时或在低带宽集群上进行训练时ZeRO的限制。

ZeRO优化系列包括ZeRO-Inference，它使用GPU的集体内存和计算能力，将模型状态分割在多个GPU之间。然而，在训练过程中，ZeRO可能会产生较高的通信开销。ZeRO 通过整合三组通信优化来解决这个问题:量化权重通信（qwZ）、分层权重分割(hpZ)和量化梯度通信(qgZ)。

为了减少参数通信量，ZeRO 对权重进行量化，利用基于块的量化方法来保持训练精度。这种优化的量化过程比基本量化更快更准确。为了在反向传播过程中尽量减少通信开销，ZeRO 通过在每台机器上保持完整的模型副本，以 GPU 内存换取通信。梯度通信方面，ZeRO 引入了一种新的量化梯度通信范式 qgZ，可以减少跨节点的流量和延迟。

这些通信优化大大减少了通信量。与ZeRO相比，ZeRO 实现了减少高达4倍的通信量，提高了训练吞吐量和效率。当在每个GPU上使用小批量大小时，在高带宽集群中，ZeRO 相比ZeRO-3的吞吐量提高了28%至36%。在低带宽集群中，与ZeRO-3相比，ZeRO 实现了平均2倍的加速，使得大模型训练在更多种类的集群上更为可行。

ZeRO 不仅限于训练场景，还可应用于对话模型中使用的人类反馈强化学习（RLHF）训练。通过将ZeRO 与DeepSpeed-Chat集成，RLHF训练可以获得更好的生成和训练吞吐量，生成吞吐量提高了高达2.25倍，训练吞吐量提高了1.26倍，超过了ZeRO。

DeepSpeed已经发布了ZeRO ，以使大型模型的训练在AI社区更加高效和可访问。该系统旨在加快训练速度，减少通信开销，并实现更大的批量大小，从而节省时间和资源。研究人员和实践者可以利用ZeRO 更有效地训练像ChatGPT这样的模型，并在AI领域探索新的可能性。

微软推ZeROx2Bx2B新系统减少大模型训练时间和成本

0000

评论列表

共(0)条

相关推荐

方便了！明天起香港/深圳乘车码互认互通：支付宝就能刷
快科技5月31日消息，今天支付宝官方宣布，明日起深港公交地铁将实现乘车扫码互联互认互通。在深圳市交通运输局的指导下，深圳市深圳通有限公司与支付宝、AlipayHK等公司合作升级深港交通支付互认功能。据介绍，自2023年6月1日起，使用深圳通、AlipayHK（港版支付宝）、支付宝中任意一个APP，即可在深港两地扫码乘坐公交和地铁。
站长网站长资讯2023-05-31 21:02:42
0004
站长资讯
9.9元大战，搞死精品咖啡？
春节期间，县城里的咖啡店挤满了返乡的年轻人。要想喝上一杯9.9的瑞幸，甚至需要排队一个小时，等上50单。春节长假，是线下餐饮不想错过的旺季。但就在春节前，国内精品咖啡代表之一Seesaw，却选择在全国多个城市闭店，武汉的4家门店甚至全部关闭。有媒体统计，Seesaw在近4个月时间里关闭了近40家门店。而在巅峰时期，Seesaw全国门店也没有突破200家。
站长网2024-02-17 10:13:27
0000
站长资讯
周杰伦又救了腾讯音乐一次
“一个周杰伦撑起了半个腾讯音乐”，近十年前对腾讯音乐的调侃，如今依然成立。作为中国乐坛霸主，腾讯音乐（简称TME，1698.HK）过去打下的音乐版权江山，似乎已成其取之不尽的金矿，正在抵消社交娱乐业务的业绩震荡。8月13日港股盘后、美股盘前，腾讯音乐发布了2024年第二季度财报。虽然营业收入持续下滑了四个季度，但净利润却因为海量的音乐版权和给力的用户付费率持续上升。
站长网2024-08-16 09:18:06
0000
站长资讯
投资界传奇大佬芒格去世享年99岁巴菲特发文悼念
伯克希尔-哈撒韦发布声明，宣布投资天才、沃伦·巴菲特的得力助手查理·芒格（CharlieMunger）去世，享年99岁。据悉，芒格在周二上午在加州一家医院平静去世，距离他的100岁生日仅剩一个月。同时，巴菲特发布声明表示，没有芒格的灵感、智慧和参与，伯克希尔不可能达到今天的地位。
站长网2023-11-29 10:56:13
0000
在618“安静”的背后，是本地零售的崛起
今年618可能是有史以来最“安静”的一个电商购物节，安静到可能很多人都没有意识到它发生过。迄今为止，没有一家主流电商平台公布了整体GMV增速——从“传统的”阿里、京东，到近年来新兴的抖音、快手皆是如此，大家最多只公布了几个表现较好的品类增速而已。无论在社交媒体上，还是在我本人周围，618购物节的讨论热度都非常低;我自己甚至就算买东西比较多的了。
站长网站长资讯2023-06-28 15:42:58
0000