新AI框架HyperHuman:用于生成具有潜在结构扩散的超真实人类
划重点🔍
- 以用户定义的条件为基础,如文本和姿势,实现超逼真人体图像生成。
- 引入结构扩散模型(DMs),成为生成AI中的主导架构。
- 跳出困扰先前模型的问题,HyperHuman通过Latent Structural Diffusion Model和Structure-Guided Refiner实现高度逼真、多样化的人体图像生成。
- 建立了大规模人体中心数据集HumanVerse,包含340百万野外人体图像。
近日,一项名为HyperHuman的新型人工智能框架正式亮相,为生成超逼真人体图像开创了崭新纪元。这一框架的重要突破在于结合了结构扩散技术,成功克服了以往模型在生成人体图像中面临的种种挑战。
用户无需专业技能,只需提供文本和姿势等条件,HyperHuman就能从中生成高度逼真的人体图像。这对于图像动画、虚拟试穿等多种应用具有深远意义。以往的方法要么依赖于变分自动编码器(VAEs)以一种重建方式,要么通过生成对抗网络(GANs)提高逼真度。然而,这些方法在训练不稳定和模型容量有限的情况下,往往仅适用于小规模数据集,导致生成的图像缺乏多样性。
HyperHuman框架引入了结构扩散模型(DMs),成为生成AI中的主导架构。尽管先前的文本到图像模型(T2I)在使用结构扩散时仍然面临挑战,HyperHuman通过Latent Structural Diffusion Model和Structure-Guided Refiner的组合,成功解决了人体形态的非刚性变形问题。这两个模块相互协作,使得图像的外观、空间关系和几何在一个统一的网络中协同建模。
HyperHuman的关键在于认识到人体图像在多个层次上都具有结构性质,从粗粒度的身体骨架到细粒度的空间几何。为了实现这一点,研究人员建立了一个名为HumanVerse的大规模人体中心数据集,其中包含340百万张野外人体图像,并进行了详细的注释。基于这个数据集,HyperHuman设计了两个关键模块,分别是Latent Structural Diffusion Model和Structure-Guided Refiner。前者通过增强预训练扩散骨干,同时去噪RGB、深度和法线等方面,确保了纹理和结构的空间对齐。后者则通过空间对齐的结构图为详细、高分辨率的图像生成提供了预测条件。
此外,HyperHuman还采用了强大的调制方案,以减轻两阶段生成流程中错误累积的影响。通过精心设计的噪声计划,低频信息泄漏得以消除,确保了本地区域深度和表面法线值的均匀性。每个分支使用相同的时间步长增强学习,促进了特征融合。这一整套设计保证了模型对于结构性和纹理丰富性的统一处理。
与当前技术的比较结果显示,HyperHuman在生成的图像中展现了卓越的质量。在每行的第一个4×4网格中,展示了由HyperHuman计算的输入骨架、联合去噪法线、深度和粗糙RGB(512×512)。
HyperHuman的出现为生成超逼真人体图像提供了一种全新的方法,突破了以往模型的局限性,为未来的虚拟试穿、图像动画等应用带来了更为广阔的可能性。
项目网址:https://snap-research.github.io/HyperHuman/
论文网址:https://arxiv.org/abs/2310.08579
OpenAI宣布ChatGPT所有用户已可使用自定义指令Custom instructions功能
今日,OpenAI宣布,目前ChatGPT用户已可以在欧盟和英国之外,通过免费计划使用自定义指令(Custominstructions)。7月21日,OpenAI宣布了一项新功能:自定义指令。这个功能允许用户给ChatGPT提供自定义请求或上下文,这些请求或上下文将应用于每次对话。避免了用户每次开启新的聊天时都需要对ChatGPT进行调教。站长网2023-08-10 10:08:320000tldraw发布病毒式应用 使用GPT-V自动生成网页代码
近日,tldraw发布了一款引人注目的病毒式应用程序,为用户提供了一种全新的软件设计体验。这款应用程序允许用户利用类似绘画的界面迅速设计软件,并通过其强大的GPT-V引擎自动生成相应的Web代码。这一创新功能不仅表现出色,生成的代码健壮可靠,而且还支持自然语言指令,为用户提供了更加灵活和便捷的操作方式。站长网2023-11-23 12:10:050001以色列推出AI坦克“Barak”,价值数百万美元 提供360度战场视野
文章概要:1.以色列推出“Barak”坦克,搭载人工智能,提供360度战场视野,被誉为战争新时代的开始。2.“Barak”坦克具备先进的观测和夜视能力,能够实时共享情报,提高作战效能。3.这款坦克代表了以色列军事技术的高水平,虽然价格未公开,但被认为与“Merkava4M”相当。站长网2023-09-25 10:47:130000新“Siri”之战开打,微软、亚马逊、OpenAI已入场
图源备注:图片由AI生成,图片授权服务商Midjourney新一代个人AI助理之战,终于打响了。9月,三家公司发布了重要预告,标志着这个节点的到来。这三家公司分别是亚马逊、微软和OpenAI。亚马逊在21日的秋季硬件发布会上宣布,“老牌”语音助理Alexa终于要升级,融入大语言模型。新Alexa延迟更低,能理解上下文、记忆此前的对话、无需来回唤醒,而且还会越用越个性化。站长网2023-09-30 10:22:020000腾讯大模型,有啥不一样?
整个上半年,互联网大厂们轰轰烈烈地追赶AI大模型浪潮时,腾讯一直对外保持着低调姿态。就在外界以为腾讯在憋大招时,它带着行业大模型的最新动态来了。站长网2023-06-22 01:57:210000