首页站长资讯阿里团队推新AI模型I2VGen-XL：单张静止图像就能生成高质量视频

阿里团队推新AI模型I2VGen-XL：单张静止图像就能生成高质量视频

站长网2023-12-25 17:38:450阅

视频合成最近取得了显著的进步，这得益于扩散模型的快速发展。然而，它在语义准确性、清晰度和时空连续性方面仍然存在挑战。它们主要源于文本-视频数据的稀缺性和视频的复杂固有结构，使得模型难以同时确保语义和定性的卓越性。

阿里巴巴、浙江大学和华中科技大学的研究人员提出了一种级联的 I2VGen-XL 方法，该方法通过解耦这两个因素来增强模型性能，并通过利用静态图像作为关键指导形式来确保输入数据的对齐。

项目体验网址：https://top.aibase.com/tool/i2vgen-xl

I2VGen-XL 由两个阶段组成:

i）基础阶段通过使用两个分层编码器来保证连贯的语义并保留输入图像中的内容。

ii）细化阶段通过合并额外的简短文本来增强视频的细节，并将分辨率提高到1280x720。

目前文本到视频合成的主要挑战之一是高质量视频文本对的收集。为了丰富 I2VGen-XL 的多样性和鲁棒性，研究人员收集了一个庞大的数据集，其中收集了大约3500万个单镜头文本-视频对和60亿个文本-图像对来优化模型。通过这种方式，I2VGen-XL可以同时提高语义的准确性、细节的连续性和生成视频的清晰度。

所提出的模型利用潜在扩散模型（LDM），这是一种生成模型类，可以学习扩散过程来生成目标概率分布。在视频合成的情况下，LDM逐渐从高斯噪声中恢复潜在目标，保留视觉流形并重建高保真视频。I2VGen-XL采用LDM(简称VLDM)的3D UNet架构，以实现有效且高效的视频合成。

细化阶段对于增强空间细节、细化面部和身体特征以及减少局部细节中的噪声至关重要。研究人员分析了频域细化模型的工作机制，强调了其在保留低频数据和提高高清视频连续性方面的有效性。

在与 Gen-2和 Pika 等顶级方法的实验比较中，I2VGen-XL 展示了更丰富、更多样化的运动，强调了其在视频生成方面的有效性。研究人员还对人脸、3D卡通、动漫、中国画、小动物等多种图像进行了定性分析，展示了该模型的泛化能力。

项目:https://i2vgen-xl.github.io/

论文网址:https://arxiv.org/abs/2311.04145

阿里团队推新AI模型I2VGenXL 单张静止图像就能生成高质量视频

0000

评论列表

共(0)条

相关推荐

站长资讯
AI音乐工具 Udio更新可制作长达15分钟音乐
AI音乐工具Udio最近宣布了一系列新功能的更新，这些更新致力于帮助用户创作出更长、更连贯的音乐作品，为音乐制作者提供了更多的创作自由和可能性。Udio的新更新中，上下文窗口得到了扩展，现在在用户扩展一首歌曲的某个部分时，系统会考虑该部分前后最长两分钟的内容。这一改进确保了歌曲在过渡和整体结构上更加流畅和自然，使得音乐作品的连贯性得到了显著提升。
站长网2024-05-06 21:08:25
0000
站长资讯
Voiceflow完成1500万美元融资，打造对话式AI协作平台
本文概要:1.Voiceflow是一家提供对话式人工智能代理协作平台的初创公司，最近宣布获得1500万美元的新融资。2.Voiceflow的协作平台类似于Figma，为团队提供一体化的低代码环境来设计、构建、测试和部署对话式人工智能代理。3.该公司已经与450家企业合作，用户数量超过13万，本轮融资总额达3500万美元，估值达到1.05亿美元。
站长网2023-08-16 10:57:44
0001
站长资讯
我被《长相思》里的AI相柳，硬控了整整两小时
从周一开始，每天晚上我女朋友下班回家，我都能看到她被硬控在客厅，看剧。还给自己看的一把鼻涕一把泪，看的没事就哇哇哭。我说公司咋滴你了，天天PUA你?她说那倒没有，就是这剧太感人了。我一看剧名，《长相思》第二季。她非拉我一块看，我说我不看，这明显就不是我的菜。然后前天，在一个群里，另外一群朋友们跟打了鸡血似的，疯狂给别人安利:“《长相思》必须给我去看!”，‘’相柳太帅了啊啊啊啊啊啊!”。
站长网2024-07-11 18:12:23
0001
站长资讯
MoA：用于图片合成的混合注意力架构可实现风格参考和人物融合
划重点:🔍引入了一种新的架构，名为注意力混合模式（MoA），用于个性化文本到图像扩散模型。🎨MoA通过将生成工作负载分配给两个注意力路径来实现给定主题和背景的分离生成。🖼MoA能够生成高质量、个性化的图像，使得主题和背景的控制更加分离。在最新的研究中，提出了一种名为注意力混合模式（MoA）的新架构，旨在个性化文本到图像扩散模型，可以实现风格参考和人物融合的效果。
站长网2024-04-22 09:59:32
0000
站长资讯
苹果计划以缓慢且仅限预约的方式推出首款 Vision Pro
最近，苹果进入了全新的产品领域，推出了VisionPro混合现实头戴设备。在WWDC2023上，该公司宣布了这款售价为3499美元的新头显。关于这个高价格会阻碍销售的议论甚嚣尘上，而苹果似乎计划相应地销售这款产品。
站长网2023-07-10 16:49:23
0000