阿里团队推新AI模型I2VGen-XL:单张静止图像就能生成高质量视频
视频合成最近取得了显著的进步,这得益于扩散模型的快速发展。然而,它在语义准确性、清晰度和时空连续性方面仍然存在挑战。它们主要源于文本-视频数据的稀缺性和视频的复杂固有结构,使得模型难以同时确保语义和定性的卓越性。
阿里巴巴、浙江大学和华中科技大学的研究人员提出了一种级联的 I2VGen-XL 方法,该方法通过解耦这两个因素来增强模型性能,并通过利用静态图像作为关键指导形式来确保输入数据的对齐。
项目体验网址:https://top.aibase.com/tool/i2vgen-xl
I2VGen-XL 由两个阶段组成:
i) 基础阶段通过使用两个分层编码器来保证连贯的语义并保留输入图像中的内容。
ii) 细化阶段通过合并额外的简短文本来增强视频的细节,并将分辨率提高到1280x720。
目前文本到视频合成的主要挑战之一是高质量视频文本对的收集。为了丰富 I2VGen-XL 的多样性和鲁棒性,研究人员收集了一个庞大的数据集,其中收集了大约3500万个单镜头文本-视频对和60亿个文本-图像对来优化模型。通过这种方式,I2VGen-XL可以同时提高语义的准确性、细节的连续性和生成视频的清晰度。
所提出的模型利用潜在扩散模型(LDM),这是一种生成模型类,可以学习扩散过程来生成目标概率分布。在视频合成的情况下,LDM逐渐从高斯噪声中恢复潜在目标,保留视觉流形并重建高保真视频。I2VGen-XL采用LDM(简称VLDM)的3D UNet架构,以实现有效且高效的视频合成。
细化阶段对于增强空间细节、细化面部和身体特征以及减少局部细节中的噪声至关重要。研究人员分析了频域细化模型的工作机制,强调了其在保留低频数据和提高高清视频连续性方面的有效性。
在与 Gen-2和 Pika 等顶级方法的实验比较中,I2VGen-XL 展示了更丰富、更多样化的运动,强调了其在视频生成方面的有效性。研究人员还对人脸、3D卡通、动漫、中国画、小动物等多种图像进行了定性分析,展示了该模型的泛化能力。
项目:https://i2vgen-xl.github.io/
论文网址:https://arxiv.org/abs/2311.04145
三星第三季度利润预计下滑 80% 人工智能高带宽内存芯片强劲需求仍是亮点
站长之家(ChinaZ.com)10月10日消息:三星电子预计,由于全球芯片供应过剩问题持续影响,第三季度利润将较去年同期下降80%。这意味着通常是韩国科技巨头的摇钱树业务将出现亏损。作为全球最大的内存芯片、智能手机和电视制造商,三星将于周三公布其第三季度初步财报。站长网2023-10-10 15:42:070001李飞飞团队推手部动捕系统DexCap 泡茶剪纸轻松完成
要点:李飞飞团队开发了成本仅3600美元的便携式手部动捕系统DexCap,能让机器人完成各种花样任务。DexCap系统利用SLAM、电磁场和3D观察实时追踪手部运动,配合新算法DEXIL,实现了精确的手部动作模拟。DexIL框架通过人手动作捕捉数据训练机器人,克服了手部尺寸差异和视觉差距等挑战,使机器人能够学习复杂的操作技能。站长网2024-03-15 18:03:300000特斯拉:2023年第二季度交付超46.6万辆电动车
今日,特斯拉公布2023年Q2生产和交付数据称,2023年第二季度,特斯拉全球生产了近48万辆电动车,交付了超过46.6万辆电动车。其中,ModelS/X,生产19,489辆,交付19,225辆。Model3/Y,生产460,211辆,交付446,915辆。共生产479,700辆,交付466,140辆。特斯拉表示,将于2023年7月19日周三市场收盘后公布2023年第二季度的财务业绩。站长网2023-07-04 00:57:010000Reddit与AI公司达成协议 内容支付“开采”AI培训数据
据知情人士透露,拥有“美版贴吧”之称的社交内容平台Reddit,已与一家未具名的人工智能科技巨头签署内容许可协议。该协议价值6000万美元,允许对方基于Reddit海量用户生成内容开发训练自己的AI模型,每年续签。在ChatGPT风靡全球的背景下,内容平台与AI企业之间的数据共享经济正在兴起。类似Reddit的内容生态,拥有政治、经济、娱乐等上亿帖子,成为AI企业垂涎的高质量训练数据来源。站长网2024-02-18 09:32:060000微软Bing Chat更名为Copilot
在2023年的MicrosoftIgnite活动上,微软推出了一个意外的产品,这是一个能够创建真实人物形象并使其说出话语的工具。这个工具可以创建一个栩栩如生的人物形象,并让这个形象说出一些事物。站长网2023-11-16 11:11:440000