阿里图像生成视频模型I2VGen-XL代码发布
站长网2023-12-15 11:11:403阅
阿里在11月份发布了论文,宣布将开源I2VGen-XL图像生成视频模型。如今,他们终于发布了具体的代码和模型。这一模型可以生成没有大幅人物动作的视频演示。
I2VGen-XL模型分为两个阶段。首先是基础阶段,该阶段通过使用两个分层编码器来保证连贯的语义,并保留输入图像的内容。其次是优化阶段,该阶段通过整合额外的简短文本来增强视频的细节,并将分辨率提高到1280x720。
代码地址:https://github.com/damo-vilab/i2vgen-xl
为了优化模型,研究团队收集了约3500万个单镜头文本视频对和60亿个文本图像对。通过这些数据,I2VGen-XL模型可以提高生成视频的语义准确性、细节的连续性和清晰度。
0003
评论列表
共(0)条相关推荐
MagicDance:基于扩散的人体运动传递框架生成逼真舞蹈视频
近年来,计算机视觉领域的关键突破之一是MagicDance框架的问世,这是一种基于扩散的模型,旨在彻底改变人体运动传递。MagicDance框架通过两阶段训练策略,聚焦于人体动作解缠和外观因素,为特定目标身份生成逼真的人类舞蹈视频,成为计算机视觉和人工智能领域的新秀。站长网2024-01-02 11:25:250000巨人网络:计划构建 AI 游戏开发平台 降低开发门槛
巨人网络表示,在2024年春季招聘中首次重点招募AI算法实习生,标志着公司在游戏和人工智能深度融合领域的新动向。招聘对象为2025届海内外高校在校生,涵盖多个技术岗位,旨在培养新一代游戏AI人才加速公司发展。站长网2024-03-19 16:45:500000OpenAI向所有付费API客户开放GPT-4
OpenAI宣布向所有付费API访问的开发者开放GPT-4。GPT-4是在GPT-3之后的一个重大突破,拥有超过1000亿个参数,其数量是GPT-3的10倍。GPT-4可以根据给定的文本或语音输入,生成各种类型和风格的自然语言输出,如文章、对话、摘要、诗歌、歌词等。站长网2023-07-08 17:08:220000剪映推出AI音色克隆功能 录制5秒声音即可完成克隆
剪映推出了AI音色克隆功能,对于AI声音创业公司来说是一个巨大的挑战。这项功能通过录制5秒的声音来克隆用户的声音,效果非常接近原声。对于其他的AI声音公司来说,面对剪映这样的巨头产品,竞争压力非常大。用户只需在“文本朗读”功能中录制5到10秒的声音,就能实现音色克隆。目前,该功能还在小规模测试中,或许很快就会全量上线。站长网2024-01-25 09:21:390001文心一言VS天工大模型,究竟谁才是国内“首个”ChatGPT?
最近,昆仑万维和百度“杠”起来了,原因还是因为最近大火的大语言模型。4月17日,昆仑万维正式推出“天工”大模型,并于当日开启测试邀请。彼时,昆仑万维对外的宣传用语是“中国第一个真正实现智能涌现的国产语言大模型。”有意思的是,百度在发布文心一言的时候,对外输出的宣传用语是“国内首家做出大语言模型产品的科技互联网大厂”。站长网2023-04-26 18:00:540000