研究团队开发开源大模型训练框架 Oobleck 提供快速且有保障的故障修复
要点:
密歇根大学的研究团队开发了一种名为Oobleck的开源大型模型训练框架,利用管道模板的概念,提供了快速而有保障的故障恢复,避免训练吞吐量下降。
Oobleck的设计核心是管道模板,这是针对给定节点数量的训练管道执行的规范,用于实例化管道副本。这些模板在逻辑上等效(可以一起用于训练相同的模型),但在物理上是异构的(使用不同数量的节点),从而在保障容错性的同时提供高吞吐量和快速恢复。
与现有框架相比,Oobleck是第一个利用大型语言模型固有冗余进行容错的框架。通过使用预生成的异构模板,它提供了高吞吐量、最大利用率、有保障的容错性以及在故障恢复时避免检查点或重算方法的开销。
随着对生成式人工智能技术需求的激增,大型语言模型的训练和容错性要求也在不断增加。为应对这一挑战,密歇根大学的研究人员开发了一款名为Oobleck的开源大型模型训练框架。该框架采用管道模板的概念,为大型模型的预训练提供了快速而可靠的故障恢复机制。
项目地址:https://github.com/SymbioticLab/Oobleck
传统框架在大型语言模型预训练时缺乏系统支持,而Oobleck通过引入管道模板的概念创新性地解决了这一问题。这些管道模板在逻辑上等效,但在物理上是异构的,允许在训练时利用固有的冗余来提高容错性。相比于现有方法,Oobleck的优势在于其高吞吐量、最大利用率以及对故障的有保障快速恢复,而无需使用检查点或重算方法。
Oobleck的执行引擎在训练作业开始时,根据最大同时容忍的故障数量实例化至少f 1个异构管道。在故障发生时,框架通过简单地从预计算的管道模板重新实例化管道来进行恢复,避免了在运行时寻找新的最佳配置的繁琐分析。因此,使用预生成的管道模板总能够保证Oobleck从f个或更少的故障中恢复。
这种管道模板的引入不仅是对问题发生后缓慢处理或对所有可能情景进行规划的一种平衡,而且为分布式计算系统中的高效而有效的弹性提供了示范。未来,研究人员计划将管道模板应用于改进各种生成式人工智能应用的弹性,首先从推理服务系统开始。
总的来说,Oobleck的开发标志着利用固有冗余提高容错性的新里程碑,为大型模型的高效训练和故障恢复提供了一种创新性的解决方案。
Meta更新AI模型Code Llama70B 准确性更高
Meta最新更新了其代码生成AI模型,CodeLlama70B,这是“目前最大、最优秀的模型”。CodeLlama工具于2023年8月推出,无论是研究还是商业用途,都是免费的。根据Meta的AI博客上的一篇文章,CodeLlama70B能够处理比以前版本更多的查询,这意味着开发者可以在编程时输入更多的提示,而且它的准确性也更高。站长网2024-01-30 08:42:260000盒马冲击上市:阿里N序列的第一个独立样本
阿里进行16N分拆之后,淘天、阿里云作为「6」部分的核心,他们独立或者上市的步伐时刻被关注。「N」的命运,也在急速变化中。6月26日,媒体爆出阿里将很快寻求港交所对旗下零售平台盒马鲜生分拆的批准,最快未来两周按照上市规则申请分拆上市,预计11月IPO。对此,盒马不予置评。站长网2023-06-29 23:46:290000Stable Diffusion 3发布 文字渲染能力超强,图像生成质量超越Midjourney
要点:StableDiffusion3发布,具有强大的文字渲染、多主题提示和图像质量能力。技术方面结合了扩散型transformer架构和flowmatching技术。公测开放的StableVideo提供文生视频和图生视频功能。站长网2024-02-23 09:28:040001《御魂师之封神令》侵权网易阴阳师手游 后者获赔30万元
网易阴阳师手游宣布,涉及2020年上映电影《御魂师之封神令》侵犯《阴阳师》手游知识产权一案,经过数年不懈维权后,已于近日取得了案件的最终胜诉。法庭判决被告需支付经济赔偿总计30万元,并就给我方和广大游戏玩家带来的负面影响公开道歉。对于此次维权案件所获得的所有赔偿,将全数捐赠给小动物公益项目。站长网2023-07-05 19:09:050000美国法院裁定人工智能生成的艺术不受版权保护 或震动媒体世界
站长之家(ChinaZ.com)8月21日消息:从大型科技公司到好莱坞纠察线上的演员和作家,关于人工智能系统创造的艺术还是媒体的问题一直在争论。近日一位联邦法官或许已经给出了答案。站长网2023-08-21 15:04:490000