DeepMind提出语言模型训练新方法DiLoCo 通信量减少500倍
要点:
DeepMind的研究团队提出了分布式低通信(DiLoCo)训练语言模型的方法,采用分布式优化算法,使语言模型在连接性较差的设备集群上训练,性能超过完全同步模型,通信开销减少500倍。
DiLoCo借鉴联邦学习文献,采用一种变体的联邦平均(FedAvg)算法,结合动量优化器,通过将内部优化器替换为AdamW和外部优化器替换为Nesterov Momentum,有效应对传统训练方法的挑战。
DiLoCo通过限制共位要求、降低通信频率和设备异构性等三个关键因素,实现了在多台设备可用但连接较差的情况下,分布式训练变压器语言模型的鲁棒性和效果,并在C4数据集上展现出与完全同步优化相媲美的性能。
DeepMind的最新研究在语言模型训练领域取得突破,提出了分布式低通信(DiLoCo)方法。这一方法采用分布式优化算法,使得语言模型可以在连接性较差的设备集群上训练,不仅性能超越完全同步模型,而且通信开销降低了500倍。为了实现这一创新,研究人员借鉴了联邦学习文献,提出了一种基于动量优化器的联邦平均算法的变体,通过替换内部和外部优化器,成功应对传统训练方法的工程和基础设施挑战。
DiLoCo方法的关键优势体现在三个方面:首先,对设备的共位要求较低,减轻了后勤负担;其次,通信频率降低,工作者不需要在每一步都进行通信,大大减少了通信开销;最后,设备异构性的引入增强了灵活性,同一集群内的设备可以不同类型,提高了适应性。
在DiLoCo的训练过程中,通过复制预训练模型,每个工作者独立且并行地在自己的数据片段上训练模型。随后,工作者平均其外部梯度,外部优化器更新全局参数,这一过程重复多次。值得注意的是,每个复制品可以在不同的全局位置使用各种加速器进行训练。
在C4数据集上的实验证明,DiLoCo在8个工作者的情况下展现出与完全同步优化相当的性能,同时通信开销降低了500倍。此外,DiLoCo对每个工作者数据分布的变化表现出卓越的稳健性,并且能够适应训练过程中资源可用性的变化。
综合而言,DiLoCo方法为分布式训练提供了一个强大而有效的解决方案,特别是在多台设备可用但连接性较差的情况下。这一创新性的方法不仅克服了基础设施挑战,还展示出卓越的性能和适应性,标志着语言模型优化领域的重大进展。
Kore.ai获得1.5亿美元用于开发对话式AI平台 英伟达也参投
Kore.ai获得了1.5亿美元的投资,用于开发其对话/生成型人工智能平台技术。这轮融资于周二(1月30日)宣布,由FTVCapital领投,芯片制造商英伟达也参与了投资。这家总部位于佛罗里达州奥兰多的公司表示,它将利用这笔资金扩大其生成型人工智能(AI)平台的使用。新闻稿中写道:“帮助各种规模的公司安全、负责地利用AI推动业务互动,同时实现显著的收入和成本节省。”站长网2024-01-31 15:52:510000网易有道「子曰」教育大模型通过相关备案 将对公众开放
11月4日,网易有道「子曰」教育大模型正式通过相关备案。「子曰」教育大模型及其应用产品即将对公众开放。网易有道表示,「子曰」教育大模型将不断汲取用户反馈快速迭代升级,搭载在更丰富的智能硬件产品及APP中,为全年龄段学习者持续提供高效的学习体验。此外,基于「子曰」教育大模型,近期将再次发布一系列精彩的新产品及新应用。站长网2023-11-04 15:10:250000Android 的前 15 年改变了世界:借助人工智能,谷歌可能再次改变世界
2005年,谷歌以5000万美元收购了加州小型软件公司Android,并做出了一个影响深远的决策——将Android操作系统完全免费开源,任何公司都可以使用和创建设备。这一战略的背后是对苹果iPhone崛起的直观应对,以及对未来技术格局的深远考量。站长网2023-11-06 16:15:060000PS AI修图免费平替来了!Stability AI又放大招,核弹级更新一键扩图
此前,PS的重建图像功能就让人无比振奋,让无数人惊呼今天,StabilityAI又放大招了。它联合Clipdrop推出了UncropClipdrop——一个终极图像比例编辑器。从Uncrop这个名字上,我们就能看出它的用途。它是一个AI生成的「外画」工具,通过创建扩展背景,这个工具可以补充任何现有照片或图像,来更改任何图像的比例。站长网2023-06-12 17:18:140004蔡崇信:马云最感恩的男人,阿里的头号英雄,没有他就没有阿里
“我比马云大九个月,他处女,我摩羯,从星象学上说,我们天生绝配。”说这句话的是一个男人,他的名字叫蔡崇信。马云的成功,离不开两个男人:蔡崇信和孙正义。如果非要说一个,那就是蔡崇信。马云说:“我最感谢的人是蔡崇信。”很显然,对马云和阿里巴巴而言,蔡崇信比孙正义重要。然而,在马云成功之前,这个男人一直站在马云背后,江湖上鲜有关于他的传说与故事。站长网2023-05-24 15:27:230000