中山大学等提出ScaleLong扩散模型 scaling操作可以稳定模型训练
要点:
1. UNet的long skip connection上的scaling操作可以稳定模型训练。
2. Scaling系数的设置影响模型性能,可以通过学习或固定的方式实现。
3. 对扩散模型任务在训练过程中特征和参数的可视化有助于理解模型稳定性。
扩散模型中,UNet的long skip connection上的scaling操作被证实能够稳定模型训练。在一些流行的扩散模型中,如Imagen和Score-based generative model中,已经观察到设置scaling系数可以有效加速模型的训练过程。
但是,过去这种操作缺乏具体的分析,只是经验性地认为能够起到加速作用。现有研究发现,合理设置scaling系数可以缓解特征不稳定,进而提高模型对输入扰动的鲁棒性。
项目地址:https://github.com/sail-sg/ScaleLong
这项研究也揭示了scaling系数对梯度量级的控制以及对输入扰动的稳定性的影响。通过对扩散模型任务中特征和参数的可视化,研究人员发现了模型训练过程中的不稳定现象,这一发现促使他们在long skip connection上进行Scaling来进行统一地缓解。
通过引入可学习的模块,如Learnable Scaling (LS) Method,可以自适应地调整scaling系数,进一步稳定模型的训练。
此外,研究人员提出了一种无需额外参数的Constant Scaling (CS) Method,简化了模型实现过程。虽然LS在稳定训练上表现更好,但CS仍然是一种值得尝试的策略。这些方法的实现非常简洁,只需几行代码即可实现。最近的一些后续工作也进一步验证了skip connection上scaling的重要性,为这一领域的发展提供了新的思路和方向。
智源研究院发布LM-Cocktail模型治理策略 低成本提升模型性能
智源研究院最近发布了LM-Cocktail模型治理策略,旨在为大模型开发者提供一个低成本持续提升模型性能的方式。该策略通过融合多个模型的优势,实现在目标任务上性能的提升,同时保持在通用任务上的强大能力。LM-Cocktail可以帮助开发者将多个模型的优势能力汇总起来,生成一个具备多种特长的“多技能”模型。通过少量样例计算加权权重,可以融合现有模型,无需重新训练。站长网2023-12-11 14:16:430000LinkedIn首席运营官谈2024年:人工智能将使我们的日常生活更轻松
**划重点:**1.🌐**2024AI改变生活:**LinkedIn首席运营官DanShapero认为,2024年将迎来人工智能技术大幅改善我们日常生活的时代。2.🤖**LinkedIn聚焦AI和求职:**Shapero指出,LinkedIn将加大对人工智能和求职的整合,以帮助用户更有效地利用AI进行求职活动,包括联络公司、自我描述和面试准备等方面。0000人工智能偏见暴露:亚洲女性头像变白
近日,一位亚裔女性在使用AI图像生成器时,发现该系统将她的头像改为白人。这位24岁的MIT毕业生RonaWang表示,PlaygroundAI编辑器让她的照片看起来更“专业”,但却将她的肤色改变为白色,从而改变了她的种族。站长网2023-08-02 15:43:090000去哪儿:飞机燃油附加费1 月 5 日起将回落至 40/70 元
站长之家(ChinaZ.com)12月31日消息:去哪儿获悉,从2024年1月5日开始,各航空公司调整机票燃油附加费标准,800公里(含)以下航线和800公里以上航线分别下调10元和20元,较2023年有所降低。图源备注:图片由AI生成,图片授权服务商Midjourney0001人工智能初创公司 Morpheme 致力于以对人才友好的方式将人工智能应用到电影和视频游戏配音
人工智能初创公司Morpheme正在通过「数字孪生」技术革新配音。著名配音演员CissyJones和Morpheme的联合创始人旨在改变媒体中的声音表现。这将吸引投资者的兴趣,但同时也会引发有关AI对创意职业影响的担忧。这些担忧在视频游戏行业中更为突出。站长网2023-10-16 14:13:210000