EMO同款?谷歌推对口型视频工具VLOGGER 还具备视频编辑功能
站长网2024-03-14 15:36:021阅
科技巨头们正在竞相开发能够从单张照片生成会说话的人类视频的技术。继阿里巴巴推出其EMO项目后,Google也推出了类似的项目VLOGGER。这项技术基于文本和驱动音频,能够从单张照片生成会说话的人类视频。
项目地址:https://top.aibase.com/tool/vlogger
论文地址:https://arxiv.org/pdf/2403.08764.pdf
VLOGGER的独特之处在于:
不需要针对每个人进行训练。这意味着无需为每个个体创建专门的模型,大大降低了数据需求。
不依赖于面部检测和修剪。这使得VLOGGER能够在没有清晰的面部轮廓或面部特征的情况下工作。
生成完整的图像(而不仅仅是面部或嘴唇)。这为生成更自然、更真实的视频提供了可能。
考虑了一系列广泛的场景(例如,可见的躯干或多样化的身份特征),这对于正确合成交流的人类至关重要。
然而,尽管VLOGGER在技术上有其独特之处,但根据演示视频来看,其效果似乎不如阿里巴巴的EMO好。这可能是由于EMO在面部表情和动作的合成上更为精细。
除了生成新的视频,VLOGGER还具有编辑现有视频的能力。例如,它可以改变主题的表情,或者调整嘴巴和眼睛的闭合状态,从而改变视频的情绪和信息传递。
在视频翻译方面,VLOGGER也可以取一个特定语言的现有视频,并编辑唇部和面部区域以适应新的音频。例如,可以将一段英语视频的唇部和面部区域编辑,使其看起来像是在说西班牙语。
总的来说,VLOGGER是Google在人工智能领域的又一重要突破,它展示了从单张照片生成会说话的人类视频的可能性,同时也提供了视频编辑和翻译的新工具。然而,与阿里巴巴的EMO相比,VLOGGER在视频生成的效果上还有待提升。
0001
评论列表
共(0)条相关推荐
他们把「最强国产网文」做成了开放世界
今天(1月31日),又有一款《斗罗大陆》IP的新作正式上线——由上海灵刃研发、贪玩游戏与中手游联合发行的《斗罗大陆:史莱克学院》(以下简称《史莱克学院》)。而现在距离《斗罗大陆》小说第一部连载开始的日子(2008年12月14日)已经超过了15年,我们也终于等来了一款基于这个「最强国产网文」改编的开放世界MMORPG——这可能才是《斗罗大陆》的粉丝更希望看到的IP改编游戏的形态。站长网2024-02-01 14:05:360000白宫冷落扎克伯格 将其排除在与科技公司 CEO 举行的 AI 峰会之外
上周拜登政府与各家科技公司的CEO会面讨论AI技术。然而,一名白宫官员告诉CNN记者,Meta并未受邀参加此次会议。官员表示,此次会议聚焦于在「AI创新前沿」的公司。Meta的马克·扎克伯格没有出现在与白宫官员讨论AI发展的会议上。站长网2023-05-08 15:24:570000民意调查显示,70%的特朗普选民认为人工智能威胁人类
一项新的民意调查发现,美国人对人工智能对人类影响的担忧正在增加,绝大多数人表示该技术的快速发展将对未来产生负面影响。根据一项由路透社进行的调查显示,在所受访者中,在2020年总统大选中投票给唐纳德·特朗普的人中有70%认为人工智能威胁到人类,而在投票给乔·拜登的人中只有60%认为同样的方式。该在线民意调查于5月9日至15日期间进行,由4,415名美国成年人组成。站长网2023-05-18 10:46:380002AI模特商拍工具“摹小仙” 支持一键试装
“摹小仙”是一款利用人工智能技术的AI模特商拍工具,能够在线生成AI模特换装图,帮助电商平台降低商品拍摄成本。用户可以通过“摹小仙”在线生成的AI模特进行试衣换装,而无需下载任何软件。此外,“摹小仙”还提供多种功能,包括生成人台图、真人图、假发图、二维码和商品图,以满足不同场景的需求。体验地址:https://www.moxiaoxian.art/站长网2023-11-14 17:11:360000openAI灰度测试GPT4.5 实现六大能力增强
近日,有消息称OpenAI正在灰度测试最新模型GPT4.5turbo,而宝玉、歸藏等博主也纷纷表示自己的版本已经更新到GPT4.5。据GPT4.5turbo问答结果显示,相较于之前的GPT-4-turbo,新模型在多个方面实现了六大能力的增强。首先,GPT-4.5-turbo在保持生成质量的同时,通过优化计算效率实现了更高的响应速度,尤其在处理大型数据集和复杂查询时表现卓越。站长网2023-12-18 11:17:070000