MDTv2开源,Sora 核心组件 DiT 训练提速 10 倍
**划重点:**
1. 🌟 Masked Diffusion Transformer V2MDTv2()在ImageNet benchmark上刷新SoTA,FID score达到1.58。
2. 🚀 颜水成/程明明研究团队通过引入Masked Diffusion Transformer有效提升了DiT的训练速度,并解决了扩散模型在学习语义关系方面的难题。
3. 📄 论文和代码已开源,详细信息可查阅[GitHub地址](https://github.com/sail-sg/MDT)。
由颜水成和程明明领衔的研究团队在Sora核心技术上进行了重要的升级,推出了Masked Diffusion Transformer V2。该模型在ImageNet benchmark上取得了惊人的成绩,FID score达到1.58,刷新了State-of-the-Art(SoTA)。
作为Sora的核心技术之一,Diffusion Transformer(DiT)在图像生成领域取得了显著的成功,但其训练成本随着模型规模的增大而飙升。研究者发现,扩散模型难以高效地学习图像中物体各部分之间的语义关系,导致训练过程低收敛效率。为了解决这一问题,颜水成和程明明研究团队提出了Masked Diffusion Transformer(MDT),通过引入mask modeling表征学习策略,显著提升了DiT的训练效率。
MDT采用了针对Diffusion Transformer设计的mask modeling表征学习策略,增强了模型对上下文语义信息的学习能力,并加强了图像中物体之间语义信息的关联学习。通过在扩散训练过程中引入类似于MAE的mask modeling表征学习方案,MDT能够重建不完整输入图像的完整信息,提升图像生成的质量和学习速度。
具体而言,MDT通过VAE encoder将图片映射到latent空间,并在latent空间中进行处理以节省计算成本。在训练过程中,MDT首先mask掉部分加噪声后的图像token,并将剩余的token送入Asymmetric Diffusion Transformer来预测去噪声后的全部图像token。Asymmetric Diffusion Transformer架构包含encoder、side-interpolater和decoder,在训练和推理阶段分别处理未被mask的token和所有token,确保了模型的一致性。
最新版本的MDT,即MDTv2,通过更为高效的宏观网络结构进一步优化了diffusion和mask modeling的学习过程,实现了训练速度的显著提升。在ImageNet256基准下,MDTv2相较于DiT,不仅在训练速度上提升了10倍以上,而且在生成质量上取得了更高的FID分数。MDTv2-S/2在400k步骤训练下,FID指标为39.50,明显领先于DiT-S/2的68.40。
总体而言,MDT的创新设计在扩散模型训练中引入了有效的语义信息学习,提高了图像生成的质量和训练速度。研究者认为,通过视觉表征学习增强对物理世界的语义理解,有望提升生成模型对物理世界的模拟效果。这一工作符合Sora的期望,通过生成模型构建物理世界模拟器的理念,为未来的表征学习和生成学习研究提供了有力的启示。
项目入口:
何小鹏建议加速飞行汽车应用落地 推动飞行汽车产业发展
2024年全国两会盛大召开,小鹏汽车董事长兼CEO何小鹏作为全国人大代表,带来了关于无人驾驶、车网融合及飞行汽车应用等前沿科技领域的建议。何小鹏建议,针对充电市场的结构性矛盾,可以探索限定场景的夜间低速无人驾驶。他提出,在具备条件的地方和城市,选取主干道附近的公共充电站,试点开放夜间低速无人驾驶,并允许具备技术条件的车企开展相关试点活动。这一举措旨在激活夜间充电场景,提升充电基础设施的利用率。站长网2024-03-04 17:23:420000宗庆后今日逝世:42岁贷款创办娃哈哈 从无到有成龙头企业
快科技2月25日消息,今天,娃娃哈发布讣告,娃哈哈集团创始人、董事长宗庆后因病医治无效,于2024年2月25日10时30分逝世,享年79岁。宗庆后一生只创建了一家娃哈哈,并将其从无到有发展成龙头企业。公开资料显示,宗庆后于1945年10月12日出生于江苏省宿迁市东大街,共有兄妹五人。1978年,33岁的宗庆后结束了15年的农场磨炼回到杭州,十年里辗转于几家校办企业,依然郁郁不得志。站长网2024-02-25 14:43:3500002024新版Windows 11要来了!16GB内存需求引热议 只是推荐配置
快科技1月21日消息,最近,TrendForce集邦咨询的一份报告指出,微软已经将AIPC的内存基线设置为16GB。有媒体表示,这也意味着,新版Windows11的AI功能需要至少16GB内存才能运行。消息曝光后引发热议。对此,WC报道称,微软尚未就上述内存需求发表官方评论。16GB内存很可能只是微软的推荐配置,而非最低配置要求。0000中国航信与阿里云达成战略合作 推动大模型在航空旅游领域落地
在2023云栖大会上,中国民航信息网络股份有限公司与阿里云签署全面战略合作协议。未来,双方将发挥在各自领域的优势,推动大模型、云计算等技术在航空旅游领域落地,共同加速民航信息数智化建设进程。站长网2023-11-03 14:18:470000新款iPad发布时间公布:最快本月发布 搭载M3芯片
知名科技记者马克·古尔曼(MarkGurman)近日为我们带来了令人振奋的消息。据他透露,苹果正在紧锣密鼓地筹备一场平板电脑的盛宴,计划于3月底至4月间推出全新的iPadPro和iPadAir系列平板电脑。这场盛宴不仅仅局限于平板本身,苹果还同步推出了专为iPad设计的新款妙控键盘和ApplePencil,以提供更加完善的用户体验。站长网2024-03-12 11:50:390000