首页站长资讯新AI框架HyperHuman：用于生成具有潜在结构扩散的超真实人类

新AI框架HyperHuman：用于生成具有潜在结构扩散的超真实人类

站长网2023-11-26 14:17:013阅

划重点🔍

- 以用户定义的条件为基础，如文本和姿势，实现超逼真人体图像生成。

- 引入结构扩散模型（DMs），成为生成AI中的主导架构。

- 跳出困扰先前模型的问题，HyperHuman通过Latent Structural Diffusion Model和Structure-Guided Refiner实现高度逼真、多样化的人体图像生成。

- 建立了大规模人体中心数据集HumanVerse，包含340百万野外人体图像。

近日，一项名为HyperHuman的新型人工智能框架正式亮相，为生成超逼真人体图像开创了崭新纪元。这一框架的重要突破在于结合了结构扩散技术，成功克服了以往模型在生成人体图像中面临的种种挑战。

用户无需专业技能，只需提供文本和姿势等条件，HyperHuman就能从中生成高度逼真的人体图像。这对于图像动画、虚拟试穿等多种应用具有深远意义。以往的方法要么依赖于变分自动编码器（VAEs）以一种重建方式，要么通过生成对抗网络(GANs)提高逼真度。然而，这些方法在训练不稳定和模型容量有限的情况下，往往仅适用于小规模数据集，导致生成的图像缺乏多样性。

HyperHuman框架引入了结构扩散模型（DMs），成为生成AI中的主导架构。尽管先前的文本到图像模型(T2I)在使用结构扩散时仍然面临挑战，HyperHuman通过Latent Structural Diffusion Model和Structure-Guided Refiner的组合，成功解决了人体形态的非刚性变形问题。这两个模块相互协作，使得图像的外观、空间关系和几何在一个统一的网络中协同建模。

HyperHuman的关键在于认识到人体图像在多个层次上都具有结构性质，从粗粒度的身体骨架到细粒度的空间几何。为了实现这一点，研究人员建立了一个名为HumanVerse的大规模人体中心数据集，其中包含340百万张野外人体图像，并进行了详细的注释。基于这个数据集，HyperHuman设计了两个关键模块，分别是Latent Structural Diffusion Model和Structure-Guided Refiner。前者通过增强预训练扩散骨干，同时去噪RGB、深度和法线等方面，确保了纹理和结构的空间对齐。后者则通过空间对齐的结构图为详细、高分辨率的图像生成提供了预测条件。

此外，HyperHuman还采用了强大的调制方案，以减轻两阶段生成流程中错误累积的影响。通过精心设计的噪声计划，低频信息泄漏得以消除，确保了本地区域深度和表面法线值的均匀性。每个分支使用相同的时间步长增强学习，促进了特征融合。这一整套设计保证了模型对于结构性和纹理丰富性的统一处理。

与当前技术的比较结果显示，HyperHuman在生成的图像中展现了卓越的质量。在每行的第一个4×4网格中，展示了由HyperHuman计算的输入骨架、联合去噪法线、深度和粗糙RGB（512×512）。

HyperHuman的出现为生成超逼真人体图像提供了一种全新的方法，突破了以往模型的局限性，为未来的虚拟试穿、图像动画等应用带来了更为广阔的可能性。

项目网址:https://snap-research.github.io/HyperHuman/

论文网址:https://arxiv.org/abs/2310.08579

新AI框架HyperHuman用于生成具有潜在结构扩散的超真实人类

0003

评论列表

共(0)条

相关推荐

站长资讯
Windows11将以AI替代受欢迎的快捷方式
**划重点:**1.🚀Microsoft计划通过在Windows11的开发者预览版中替换快捷方式，提升操作系统的AI功能。2.🗑️在预览版本中，Copilot的快捷方式将取代自2009年以来一直存在的“显示桌面”按钮。3.🤖Microsoft旨在使Copilot在Windows桌面上更高效和显眼，尽管“显示桌面”功能仍可手动启用。
站长网2023-12-06 11:39:24
0001
站长资讯
数字人火了，先养肥卖课的
人类拥有一个自己的“分身”，或许正在走向现实。5月16日，小冰公司宣布启动“GPT克隆人计划”。据介绍，该项目只需采集三分钟数据，即可为明星红人、专家学者或普通人创造源于本人性格、技能、声音、外貌的AI克隆人。
站长网2023-05-18 09:45:03
0000
站长资讯
科大讯飞：8月15日将发布星火语伴2.0、星火教师助手等产品
今日，科大讯飞表示，将在“讯飞星火认知大模型V2.0”发布会上，同时发布星火语伴2.0、星火教师助手以及AI学习机“AI创意画板”和“AI编程”新功能。据了解，讯飞星火认知大模型V2.0升级发布会将在2023年8月15日14:00举办，根据此前透露，8月15日，“讯飞星火认知大模型”将升级代码能力，使得开发者和合作伙伴可以更加高效方便地使用。
站长网2023-08-14 16:23:39
0000
站长资讯
Midjourney当心！Ideogram人工智能系统可生成逼真规范的文字图像
本周，一家总部位于多伦多的人工智能创业公司Ideogram正式对外发布了其新一代人工智能图像生成系统。这家由多位前GoogleBrain研究员创立的公司获得了来自著名风险投资公司a16z和IndexVentures领投的1650万美元种子投资。
站长网2023-08-26 10:25:22
0000
站长资讯
阿里云推出第八代企业级实例g8i AI推理性能提升7倍
阿里云推出了第八代企业级通用计算实例ECSg8i，采用了阿里云自研的「飞天CIPU」架构体系和第五代英特尔至强可扩展处理器。新款实例的整机性能最高提升85%，AI推理性能最高提升7倍，可以支持高达72B参数的大语言模型。此外，ECSg8i实例还提供了端到端的安全防护，为企业构建可信的AI应用提供了强大的隐私增强算力支持。
站长网2024-01-12 11:00:47
0000