微软推ZeRO++新系统:减少大模型训练时间和成本
微软研究人员推出了名为ZeRO 的新系统,用于优化训练大型AI模型,以应对高数据传输开销和有限带宽的难题。
ZeRO 建立在现有的 ZeRO 优化的基础上,并提供增强的通信策略,以提高训练效率,减少训练时间和成本。
像Turing-NLG、ChatGPT和GPT-4这样的大型模型的训练需要跨多个GPU设备占用大量内存和计算资源。DeepSpeed开发的ZeRO 引入了通信优化策略,以克服在每个GPU上批量大小较小时或在低带宽集群上进行训练时ZeRO的限制。
ZeRO优化系列包括ZeRO-Inference,它使用GPU的集体内存和计算能力,将模型状态分割在多个GPU之间。然而,在训练过程中,ZeRO可能会产生较高的通信开销。ZeRO 通过整合三组通信优化来解决这个问题:量化权重通信(qwZ)、分层权重分割(hpZ)和量化梯度通信(qgZ)。
为了减少参数通信量,ZeRO 对权重进行量化,利用基于块的量化方法来保持训练精度。这种优化的量化过程比基本量化更快更准确。为了在反向传播过程中尽量减少通信开销,ZeRO 通过在每台机器上保持完整的模型副本,以 GPU 内存换取通信。梯度通信方面,ZeRO 引入了一种新的量化梯度通信范式 qgZ,可以减少跨节点的流量和延迟。
这些通信优化大大减少了通信量。与ZeRO相比,ZeRO 实现了减少高达4倍的通信量,提高了训练吞吐量和效率。当在每个GPU上使用小批量大小时,在高带宽集群中,ZeRO 相比ZeRO-3的吞吐量提高了28%至36%。在低带宽集群中,与ZeRO-3相比,ZeRO 实现了平均2倍的加速,使得大模型训练在更多种类的集群上更为可行。
ZeRO 不仅限于训练场景,还可应用于对话模型中使用的人类反馈强化学习(RLHF)训练。通过将ZeRO 与DeepSpeed-Chat集成,RLHF训练可以获得更好的生成和训练吞吐量,生成吞吐量提高了高达2.25倍,训练吞吐量提高了1.26倍,超过了ZeRO。
DeepSpeed已经发布了ZeRO ,以使大型模型的训练在AI社区更加高效和可访问。该系统旨在加快训练速度,减少通信开销,并实现更大的批量大小,从而节省时间和资源。研究人员和实践者可以利用ZeRO 更有效地训练像ChatGPT这样的模型,并在AI领域探索新的可能性。
小红书电商“摇人”
在国内电商价格战日趋激烈、战火逐渐向海外蔓延的情况下,小红书发起了新一轮电商冲击,能不能改变行业格局尚难定论。但引人瞩目的是,小红书电商拿出的核心竞争力不是货品价格和补贴,而是“人”。据《晚点LatePost》报道,近期小红书整合了电商业务与直播业务,组建了新的交易部,成为与社区部、商业部平行的一级部门。此前电商业务是归属于社区部之下的二级部门。站长网2023-09-05 13:55:530000给人工智能“大模型”当保姆,都要操哪些心?
(一)ChatGPT和宋丹丹,谁陪你聊天更贵?“有人花钱吃喝,有人花钱点歌,有人花钱美容,有人花钱按摩,今儿我雇个好活,有人花钱,雇我陪人儿唠嗑儿。”2000年,作为一个小屁孩在电视前看春晚时,我决计想不到,有生之年世界上真能出现一个陪人唠嗑的机器人,还能唠得和小品《钟点工》里宋丹丹演的“大妹子”一样好。。。二十三年以后,我等到了ChatGPT。站长网2023-07-20 17:30:390004报告称:高技能工作岗位更容易受到AI影响
经济合作与发展组织(OECD)最近发布了新的就业展望报告,报告显示,高技能职业可能最易受人工智能(AI)影响,当然AI当前对就业的影响尚未完全显现。该报告深入分析全球就业数据和趋势,发现AI可能对高技能职业产生最大的影响。据了解,OECD的最新就业报告关注劳动力需求和广泛的短缺问题,而这些问题由持续的高通胀和财政政策导致。站长网2023-07-14 02:00:240000谷歌推“Circle to Search”AI搜索功能,用手势在Android设备就能随意搜索
##划重点:🔄**新功能介绍:**Google在今天的Samsung发布活动中宣布推出了一种名为“CircletoSearch”的新搜索方式。这一功能允许用户通过手势操作(如画圈、划线、涂鸦或轻击)在手机任何地方进行搜索。站长网2024-01-18 14:34:4100078我们和CG大佬阮佳聊了聊叫板AI绘画的始末:之前高估了AI
上周,国人美术大佬阮佳下场与AI“对线”的事情,引发了不少讨论。这位曾参与过《光环》《魔兽世界》《暗黑破坏神3》等项目的CG艺术家,上周五在微博放出了一张《艾尔登法环》女武神的同人草图,表示要做个测试——看看有没有人能使用AI,在半小时内将草图细致化。但尽管测试时间一延再延,直至今天,也没有一张图片能在精度、构图上媲美阮佳的成品。站长网2023-05-12 20:38:180001