旷视发布HiDiffusion，SD生成速度更快，图片质量更高

站长网2024-04-26 16:17:100阅

最近，旷视发布的HiDiffusion技术，近日引起业界广泛关注。这一新技术只需一行代码，便能显著提升SD（扩散模型）生成图像的分辨率和生成速度，允许图像生成的分辨率高达4096×4096，同时将图像生成速度提高1.5至6倍。值得一提的是，HiDiffusion不仅支持所有SD模型，也兼容SD模型的下游模型，如Playground。

在详细介绍中，我们了解到，当直接使用已训练好的图像扩散模型尝试生成更高分辨率的图像时，常会遇到图像中对象不合理重复的问题，且图像生成时间会大幅增加。研究发现，这种对象重复问题主要由U-Net模型深层中的特征重复导致，而图像生成时间增长则主要是由于U-Net中一个自机制注意力的动画操作所致。

为了解决这些问题，旷视推出了新的高分辨率生成框架——HiDiffusion。该框架包含一个称为认知分辨率U-Net（RAU-Net）的模块，能够动态调整特征图尺寸，有效避免了图像中的对象重复现象。此外，HiDiffusion还采用了一种优化后的窗口注意力机制，称为修改版本升降窗多头自注意力(MSW-MSA)，显着减少了计算量。

通过将HiDiffusion应用于各种预训练的扩散模型，不仅可以将图像生成的分辨率提高至4096×4096，而且能将图像生成速度提升1.5至6倍。广泛的实验验证表明，这一方法不仅解决了对象重复和高计算负担的问题，而且在生成高分辨率图像的任务上取得了卓越的效果。

项目页:https://top.aibase.com/tool/hidiffusion

代码:https://github.com/megvii-research/HiDiffusion

旷视发布HiDiffusionSD生成速度更快图片质量更高

0000

评论列表

共(0)条

相关推荐

站长资讯
智谱 AI 开源视觉语言模型 CogAgent 支持GUI图形界面问答
智谱AI开源了CogAgent，它是一个视觉语言模型，拥有180亿参数规模。该模型在GUI理解和导航方面表现出色，在多个基准测试上取得了SOTA的通用性能。它还支持高分辨率的视觉输入和对话问答，并且可以针对任意GUI截图进行问答。模型可以通过上传截图来进行任务推理，并返回计划、下一个动作以及具体操作的坐标信息。
站长网2023-12-21 08:50:34
0001
站长资讯
塔罗占卜GPT来了！ Copilot Gallery上线几天访问已达上万次
最近，塔罗占卜GPTCopilotGallery在网上火了，短短几天内在其平台上产生了上万次交互，仅次于乔布斯机器人。它可以为有关工作、爱情和运势的问题提供合理的答案。塔罗牌GPT使用GPT技术和新兴标准将自己标记为合成创作，为越来越关注合成媒体传播的领域提供透明度。地址：https://app.copilothub.ai/copilots
站长网2023-05-10 16:06:27
0001
站长资讯
勃肯鞋又火了，丑服、丑鞋为何成为一种新潮流？
夏天来临，街头巷尾穿着丑鞋的人越来越多，勃肯鞋、洞洞鞋、厚底鞋……它们以舒适实用、复古风潮等特点，席卷了各大社交平台。最近勃肯鞋登上了微博热搜，引发了广泛讨论，有人称赞它无与伦比的舒适感，适合长时间穿着;也有人调侃其“丑得独特”，甚至认为其复古设计别有一番风味。
站长网2024-05-28 20:09:32
0001
英国 AI 领域预计在预算中获得额外1亿英镑资金支持
划重点:-💰财政部计划为英国不断增长的人工智能领域提供财政支持，通过加倍资助艾伦・图灵研究所来实现-🏥额外资金将用于AI在改变医疗保健、保护环境以及加强国防和国家安全方面的研究-🌍英国希望借助科技革命推动经济增长，并使研究人员在医学、航空航天和气候变化等领域取得新的发现
站长网站长资讯2024-03-05 12:45:20
0000
站长资讯
击败OpenAI，权重、数据、代码全开源，能完美复现的嵌入模型Nomic Embed来了
模型参数量只有137M，5天就能训练好。一周前，OpenAI给广大用户发放福利，在下场修复GPT-4变懒的问题后，还顺道上新了5个新模型，其中就包括更小且高效的text-embedding-3-small嵌入模型。
站长网2024-02-04 09:25:08
0000