DIRFA:只需音频和照片即可创建逼真的说话脸部动画
划重点:
👉 研究人员开发了一个计算机程序,只需音频和一张照片即可创建反映说话者面部表情和头部动作的逼真视频。
👉 这个名为 DIverse yet Realistic Facial Animations(DIRFA)的人工智能程序能够根据音频和照片生成3D 视频,显示人物与所说的音频同步的逼真而一致的面部动画。
👉 DIRFA 可应用于各个领域,包括医疗保健,它能够改进用户体验,使虚拟助手和聊天机器人更加复杂和逼真,同时对于有言语或面部残疾的个人来说,它也能帮助他们通过表情丰富的化身或数字形象来传达他们的思想和情感,增强他们的沟通能力。
新加坡南洋理工大学(NTU Singapore)的一支研究团队开发了一个计算机程序,只需音频和一张照片,即可创建反映说话者面部表情和头部动作的逼真视频。
这个名为 DIverse yet Realistic Facial Animations(DIRFA)的人工智能程序能够根据音频和照片生成3D 视频,显示人物与所说的音频同步的逼真而一致的面部动画。该程序改进了现有方法,解决了姿势变化和情感控制等问题。
为了实现这一目标,研究团队训练 DIRFA 使用了来自一个名为 The VoxCeleb2Dataset 的开源数据库的超过6000人的100多万个音频视频片段,以预测语音中的线索并将其与面部表情和头部动作联系起来。
研究人员表示,DIRFA 可能在各个行业和领域中产生新的应用,包括医疗保健。它可以使虚拟助手和聊天机器人更加复杂和逼真,从而改善用户体验。此外,它还可以作为一种强大的工具,帮助言语或面部受损的人通过表情丰富的化身或数字形象来传达他们的思想和情感,提高他们的沟通能力。
该研究的的研究人员表示:“我们的研究影响可能是深远的,因为它通过结合人工智能和机器学习等技术,彻底改变了多媒体通信的领域。我们的程序在之前的研究基础上进行了改进,只使用音频记录和静态图像,就能生成具有准确的嘴唇动作、生动的面部表情和自然的头部姿势的视频。”
研究人员还介绍称:“语音表现出多种变化。在不同的语境下,个体对相同的词语发音可能会有不同的方式,包括持续时间、幅度、音调等方面的变化。此外,除了语言内容,语音还传达了有关说话者情感状态和性别、年龄、种族甚至个性特征等身份因素的丰富信息。我们的方法在音频表示学习和人工智能机器学习方面进行了开创性的努力。” 研究结果于8月份发表在《Pattern Recognition》科学期刊上。
研究人员表示,通过音频驱动逼真的面部表情呈现是一个复杂的挑战。对于给定的音频信号,可能有许多可能的面部表情是合理的,而在处理随时间变化的一系列音频信号时,这些可能性可能会增加。
由于音频通常与嘴唇动作有很强的联系,但与面部表情和头部位置的联系较弱,研究团队的目标是创建能够展示精确的嘴唇同步、丰富的面部表情和与提供的音频相对应的自然头部动作的说话脸部。
为了解决这个问题,研究团队首先设计了他们的人工智能模型 DIRFA,来捕捉音频信号和面部动画之间复杂的关系。他们使用来自一个公开可用的数据库的超过6000人的100多万个音频和视频片段对模型进行了训练。
研究人员介绍:“具体而言,DIRFA 模型根据输入的音频来建模面部动画(如挑起眉毛或皱鼻子)的可能性。这种建模使得该程序能够将音频输入转换为多样而逼真的面部动画序列,从而指导说话脸部的生成。”
研究人员还补充说:“广泛的实验表明,DIRFA 能够生成具有准确的嘴唇动作、生动的面部表情和自然的头部姿势的说话脸部。然而,我们正在努力改进程序的界面,使得用户能够对某些输出进行控制。例如,DIRFA 目前不允许用户调整某种表情,比如将皱眉改为微笑。”
除了向 DIRFA 的界面添加更多选项和改进外,NTU 的研究人员还将使用更广泛的数据集来微调其面部表情,包括更多种类的面部表情和声音音频片段。
论文地址:
https://www.ntu.edu.sg/docs/default-source/corporate-ntu/hub-news/realistic-talking-faces-created-from-only-an-audio-clip-and-a-person-s-photo-using-ntu-singapore-computer-program.pdf?sfvrsn=41d32b2a_1
雷军:卢伟冰将兼任小米品牌总经理 并主讲小米14 Ultra
站长之家(ChinaZ.com)2月4日消息:小米集团近日宣布了一系列重大人事调整。在这次调整中,雷军宣布,为了把更多精力放在汽车业务上,集团总裁卢伟冰将兼任小米品牌总经理,并且小米手机发布会将由他主讲,首场即为小米14Ultra。与此同时,王腾将接任Redmi品牌总经理一职。站长网2024-02-04 09:20:070001刚刚!公众号能修改图片了!
盼星星盼月亮!终于盼到了公众号这项重大更新——文章支持修改图片了!(想省略操作过程演示的小伙伴,可以直接拉到最后看注意事项)今天,公众号后台弹窗显示“新增图片的修改”。具体来说,点击图片后,可删除或替换图片,最多支持3张图片内的修改。从公众号后台的文章修改入口进入,点击需要修改的图片,就会弹出“替换”和“修改”两个功能选项。站长网2023-08-15 16:57:570000抖音卖服装,9个赚钱思路
各位村民好,我是村长。如果你只是单纯的想做抖音服装账号,但是直到目前又不知道该怎么做的话。这篇文章特别适合你看一看,我原本打算设置付费阅读的。后来还是打算免费分享出来,希望帮助一些人梳理一下思路,如果你觉得受到一点启发可以转发、赞赏。01服装是电商消费半边天关于服装这个市场一直可以做,因为只要是个人就得穿衣服。哪怕是老人,自己不买,总有子女会偶尔帮忙买一件。0000火山引擎给大模型造大底座!MiniMax、智谱AI等已登陆
火山引擎刚刚交出大模型趋势答卷:火山方舟,一个大模型服务平台。它将国内多个明星大模型放在平台上,如MiniMax、智谱AI、复旦MOSS、百川智能、IDEA、澜舟科技、出门问问等。不仅为大模型玩家提供训练、推理、评测、精调等功能与服务,后续还提供运营、应用插件等工具,进一步支撑大模型生态。总之,就是要为大模型,打造一个超强底座。站长网2023-06-29 19:07:330000独立开发变现周刊(第109期):通过公开构建,赚到了5万美元
1、LocalSend:免费开源的跨平台工具AppLocalSend是一个跨平台的应用程序,轻松将文件、文本、媒体发送到附近的设备,可以使用RESTAPI和HTTPS加密实现设备之间的安全通信。与其他依赖外部服务器的消息应用程序不同,LocalSend不需要互联网连接或第三方服务器,使其成为本地通信的快速可靠解决方案。LocalSend开源代码地址[1]站长网2023-10-27 09:02:210000