中山大学等提出ScaleLong扩散模型 scaling操作可以稳定模型训练

站长网2024-03-01 10:59:230阅

要点:

1. UNet的long skip connection上的scaling操作可以稳定模型训练。

2. Scaling系数的设置影响模型性能，可以通过学习或固定的方式实现。

3. 对扩散模型任务在训练过程中特征和参数的可视化有助于理解模型稳定性。

扩散模型中，UNet的long skip connection上的scaling操作被证实能够稳定模型训练。在一些流行的扩散模型中，如Imagen和Score-based generative model中，已经观察到设置scaling系数可以有效加速模型的训练过程。

但是，过去这种操作缺乏具体的分析，只是经验性地认为能够起到加速作用。现有研究发现，合理设置scaling系数可以缓解特征不稳定，进而提高模型对输入扰动的鲁棒性。

项目地址:https://github.com/sail-sg/ScaleLong

这项研究也揭示了scaling系数对梯度量级的控制以及对输入扰动的稳定性的影响。通过对扩散模型任务中特征和参数的可视化，研究人员发现了模型训练过程中的不稳定现象，这一发现促使他们在long skip connection上进行Scaling来进行统一地缓解。

通过引入可学习的模块，如Learnable Scaling （LS） Method，可以自适应地调整scaling系数，进一步稳定模型的训练。

此外，研究人员提出了一种无需额外参数的Constant Scaling （CS） Method，简化了模型实现过程。虽然LS在稳定训练上表现更好，但CS仍然是一种值得尝试的策略。这些方法的实现非常简洁，只需几行代码即可实现。最近的一些后续工作也进一步验证了skip connection上scaling的重要性，为这一领域的发展提供了新的思路和方向。

中山大学等提出ScaleLong扩散模型scaling操作可以稳定模型训练

0000

评论列表

共(0)条

相关推荐

站长资讯
腾讯发布2023年第三季度财报：营收1546亿元同比增长10%
腾讯控股公布2023年第三季度财报称，该季度其营收达到了1546亿元，同比增长10%。净利润下滑9%，为361.8亿元。其中，增值服务收入为757.48亿元，同比增长了4%。国际市场游戏收入增长了14%，达到了133亿元;本土游戏收入增长了5%，达到了327亿元;而社交网络收入则保持稳定，为297亿元。
站长网2023-11-15 19:51:49
0000
站长资讯
华为正式发布问界M9：售价46.98万元起 2月26日规模交付
华为今日下午举行了全场景发布会，问界M9豪华D级SUV正式发布。售价方面，问界M9增程Max版46.98万元，纯电Max版50.98万元，增程Ultra版52.98万元，纯电Ultra版56.98万元，将于2月26日规模交付。
站长网2023-12-26 17:02:19
0001
站长资讯
抖音电商新动作：红人店能否挖掘新红利？
克劳锐独家获悉，抖音电商正在布局红人店业务。在9月27日的抖音电商作者峰会上，抖音电商透露，将整合达人店铺、IP店铺、“老板型IP”等相关达人和商家进行运营扶持，目前已有动作。经历了数年电商发展，如今的红人店反映了抖音电商怎样的野望?作为商家和消费者，红人店意味着什么?抖音电商通过红人店来挖掘红利的愿景能否实现?针对以上问题，克劳锐进行了多方采访，希望可以探究抖音电商红人店的可行性。
站长网2023-10-09 14:01:59
0000
站长资讯
戴尔与Nvidia共同打造AI工厂，扩大与Hugging Face、Meta和微软的合作
划重点:-🚀戴尔技术通过AI工厂战略与Nvidia等伙伴合作，推动企业采用AI的简化、安全化和经济化。-🤝戴尔技术与HuggingFace、Meta和微软等合作伙伴不断扩大合作，推动企业AI能力的增长。-🌐戴尔技术致力于使企业能够轻松评估和实施本地AI技术，以满足企业的特定需求。
站长网2024-05-22 00:48:53
0000
参数小，性能强！开源多模态模型—TinyGPT-V
安徽工程大学、南洋理工大学和理海大学的研究人员开源了多模态大模型——TinyGPT-V。TinyGPT-V以微软开源的Phi-2作为基础大语言模型，同时使用了视觉模型EVA实现多模态能力。尽管TinyGPT-V只有28亿参数，但其性能可以媲美上百亿参数的模型。此外，TinyGPT-V训练只需要24GGPU就能完成，不需要A100、H100那些高端显卡来训练。
站长网站长资讯2024-01-10 09:57:02
0000