细粒度文字转动画技术MoMask 文本驱动的3D人体运动生成模型
要点:
MoMask是一个文本驱动的3D人体动作生成模型,采用层级量化方案表示动作,包括基础层的运动标记和逐层存储的残差标记。
模型包括Masked Transformer和Residual Transformer,用于在训练阶段通过文本输入预测基础层的随机掩码动作标记,并在生成阶段填充缺失标记,并逐渐预测更高层次的标记。
MoMask在文本到运动生成任务中表现优越,例如在HumanML3D数据集上,其FID为0.045,明显优于T2M-GPT的0.141。此外,MoMask还能无缝应用于相关任务,如文本引导的时间修复。
MoMask是一个创新的3D人体运动生成模型,其核心思想是通过层级量化方案表示人体动作,包括基础层和逐层的残差标记。在模型结构上,引入了Masked Transformer和Residual Transformer,分别用于预测基础层的掩码动作标记和逐渐预测更高层次的标记。这一框架使得MoMask在文本到运动生成任务中表现卓越。
MoMask的应用不仅局限于文本到运动生成,还展示了在文本引导的时间修复任务中的出色表现。通过展示中,模型成功地完成了对动作片段中特定区域的修复,根据文本描述 inpaint 了中间、后缀和前缀区域,呈现出令人满意的合成效果。
项目地址:https://github.com/EricGuo5513/momask-codes
在实验结果分析中,MoMask通过对残差量化层的变化进行研究,展示了其对运动标记的高保真重建能力。生成方面的比较进一步证明了残差标记的重要性,MoMask在不同组合的标记下能够更准确地执行微妙的动作,相较于其他基线模型表现更为出色。
论文通过对比MoMask与其他三种强基线方法,包括扩散模型和自回归模型,证明了MoMask在捕捉语言概念和生成更真实动作方面的优越性。这使得MoMask成为文本驱动的3D人体运动生成领域的先进模型。
MoMask通过引入层级量化和Transformer结构,在文本驱动的3D人体运动生成任务中取得了显著的性能提升,同时在相关任务上也展现了出色的通用性。其在重建、生成和比较方面的实验证明了其在3D人体动作建模领域的卓越性能。
谷歌推出其「规模最大、能力最强」的人工智能模型 Gemini,迎合 AI 商业化的压力
谷歌在当地时间周三宣布推出其认为是迄今为止规模最大、能力最强的人工智能模型Gemini,以回应公司如何盈利化AI的迫切问题。这个大型语言模型Gemini包括三种不同规模的套件:最大、最强大的GeminiUltra;适用于广泛任务的GeminiPro;以及专用于特定任务和移动设备的GeminiNano。0000文心一言有了新工作,百度输入法转型AI创作工具
在经过了漫长的测试期后,第一款国产AI大模型百度文心一言在8月的最后一天已正式与大家见面,相信已经有不少朋友体验到了它的魅力。并且值得一提的是,在宣布面向所有用户开放文心一言的同时,百度还表示还将开放一批经过全新重构的AI原生应用,让广大用户充分体验生成式AI的理解、生成、逻辑、记忆四大核心能力。站长网2023-09-26 17:09:210000AudioSep:可以从音频剪辑中仅分离出特定的声音
AudioSep是一种AI模型,可以使用自然语言查询进行声音分离。这一创新性的模型由Audio-AGI开发,使用户能够通过简单的语言描述来分离各种声音源。站长网2023-10-27 10:48:250000朋友圈能置顶了?背后藏着这些重要变化!
最近,微信朋友圈置顶功能成为话题中心!7月24日,一位博主发帖称微信内测朋友圈置顶功能,至此#微信内测朋友圈可以置顶#相关话题迅速冲上微博热搜第一名。但是目前只有部分人可以使用。你可以把自己某一条朋友圈内容设置为置顶,以后用户进入到你的朋友圈主页,就可以最先看到你的这条内容。站长网2023-08-03 20:51:310000小米汽车官方App上架小米应用商店:就等SU7发布了!
快科技3月26日消息,小米汽车首款车型小米SU7将于3月28日正式上市发布,目前,官方正在为上市做最后的准备。继昨日小米汽车App在苹果AppStore上架后,该App今日正式上线小米应用商店,小米手机用户目前已可下载体验。小米汽车App中有购车、社区、商城以及我的四大板块,其中,购车”页面是对小米SU7进行详细介绍,社区”应该就是未来用户交流的地方。站长网2024-03-26 16:56:160000