19869

MDTv2开源，Sora 核心组件 DiT 训练提速 10 倍

站长网2024-03-13 14:37:151阅

**划重点:**

1. 🌟 Masked Diffusion Transformer V2MDTv2（）在ImageNet benchmark上刷新SoTA，FID score达到1.58。

2. 🚀 颜水成/程明明研究团队通过引入Masked Diffusion Transformer有效提升了DiT的训练速度，并解决了扩散模型在学习语义关系方面的难题。

3. 📄 论文和代码已开源，详细信息可查阅[GitHub地址]（https://github.com/sail-sg/MDT）。

由颜水成和程明明领衔的研究团队在Sora核心技术上进行了重要的升级，推出了Masked Diffusion Transformer V2。该模型在ImageNet benchmark上取得了惊人的成绩，FID score达到1.58，刷新了State-of-the-Art（SoTA）。

作为Sora的核心技术之一，Diffusion Transformer（DiT）在图像生成领域取得了显著的成功，但其训练成本随着模型规模的增大而飙升。研究者发现，扩散模型难以高效地学习图像中物体各部分之间的语义关系，导致训练过程低收敛效率。为了解决这一问题，颜水成和程明明研究团队提出了Masked Diffusion Transformer(MDT)，通过引入mask modeling表征学习策略，显著提升了DiT的训练效率。

MDT采用了针对Diffusion Transformer设计的mask modeling表征学习策略，增强了模型对上下文语义信息的学习能力，并加强了图像中物体之间语义信息的关联学习。通过在扩散训练过程中引入类似于MAE的mask modeling表征学习方案，MDT能够重建不完整输入图像的完整信息，提升图像生成的质量和学习速度。

具体而言，MDT通过VAE encoder将图片映射到latent空间，并在latent空间中进行处理以节省计算成本。在训练过程中，MDT首先mask掉部分加噪声后的图像token，并将剩余的token送入Asymmetric Diffusion Transformer来预测去噪声后的全部图像token。Asymmetric Diffusion Transformer架构包含encoder、side-interpolater和decoder，在训练和推理阶段分别处理未被mask的token和所有token，确保了模型的一致性。

最新版本的MDT，即MDTv2，通过更为高效的宏观网络结构进一步优化了diffusion和mask modeling的学习过程，实现了训练速度的显著提升。在ImageNet256基准下，MDTv2相较于DiT，不仅在训练速度上提升了10倍以上，而且在生成质量上取得了更高的FID分数。MDTv2-S/2在400k步骤训练下，FID指标为39.50，明显领先于DiT-S/2的68.40。

总体而言，MDT的创新设计在扩散模型训练中引入了有效的语义信息学习，提高了图像生成的质量和训练速度。研究者认为，通过视觉表征学习增强对物理世界的语义理解，有望提升生成模型对物理世界的模拟效果。这一工作符合Sora的期望，通过生成模型构建物理世界模拟器的理念，为未来的表征学习和生成学习研究提供了有力的启示。

项目入口:

MDTv2开源Sora核心组件DiT训练提速10 倍

0001

评论列表

共(0)条

相关推荐

上海交通大学携手百度发布白玉兰科学大模型2.0版
上海交通大学携手百度智能云共同发布包括“法律开源（BAI-Law-13B）”和“化学合成2.0(BAI-Chem2.0)”在内的“白玉兰科学大模型2.0版”。
站长网站长资讯2023-12-15 09:03:38
0000
站长资讯
马斯克脑机接口创造奇迹！瘫痪8年小哥用“意念”玩游戏
要点:1、首位接受Neuralink植入的瘫痪患者通过脑机接口仅凭意念控制计算机和玩游戏。2、患者NolanArbaugh能使用大脑操作光标，并玩游戏，展示了脑机接口技术的潜力。3、Neuralink技术有望为残疾人群体带来康复希望，引发了公众和科学界的关注。
站长网2024-03-22 09:35:36
0000
2024京东双11活动时间公布： 10 月 14 日晚 8 点提前开始
昨日，京东宣布了2024年"双11"购物节的活动安排，今年的活动将从10月14日晚8点提前开始。2024年京东"双11"将分为五个阶段，首先是"抢先购"，其次是"开门红"，然后是"专场期"，接着是"高潮期"，最后是"返场期"。
站长网站长资讯2024-10-14 19:32:35
0000
站长资讯
抖音直播：持续加强对未成年保护清退公会29家
据抖音官方消息，暑期将至，抖音直播将持续加强对未成年保护的宣传，倡导用户共同守护未成年人安全，携手营造未成年人健康成长的良好环境。数据显示，2023年6月至今，抖音处置冒用成年人账号直播账号25，235个，处置利用未成人直播营销账号1，393个，处置诱导未成年直播打赏消费账号5，817个，清退公会29家。事前预防，强制引导进入青少年模式
站长网2024-06-26 16:05:01
0002
站长资讯
Oracle 再夺 Java 命？大公司用 Java 要小心了！
距离Oracle改写JavaSE定价模式已经过去了一年多的时间，不过，其关于Java许可的审查也越来越严格。据外媒TheRegister最新报道，Oracle过往只是面向小公司“下手”，对使用Java软件的企业进行合规性检查，确保企业遵守了Java的使用许可和版权规定。这次，有专家爆料，Oracle首次开始向财富200强公司发送Java审计函。
站长网2024-06-12 08:39:47
0000