南洋理工开源创新性文生视频模型FreeInit
要点:
1、创新性文生视频模型FreeInit通过重新初始化噪声,改进时间的一致性。
2、研究人员发现视频扩散模型的推理初始化噪声中低频信息很难被完全移除。
3、FreeInit通过多次迭代重复采样优化过程,提升低频信息质量,改善生成视频质量。
南洋理工大学S实验室的研究人员开源了一种创新性文生视频模型,名为FreeInit。他们发现视频扩散模型在生成视频时存在时间一致性不足和不自然的动态效果。
开源地址:https://github.com/tianxingwu/freeinit
论文地址:https://arxiv.org/abs/2312.07537v1
为了解决这个问题,他们提出了一种通过重新初始化噪声的方法来改善时间一致性。他们发现视频扩散模型的推理初始化噪声中低频信息很难被完全移除,这可能是导致生成视频效果不佳的原因之一。为了验证FreeInit的有效性,研究人员进行了大量实验,结果显示FreeInit可以显著提高模型的时间一致性指标。
具体来说,FreeInit的采样优化过程包括多个步骤:
推理的第一步,FreeInit先初始化独立高斯噪声,然后通过离散采样策略采样生成初步的视频潜码。
利用扩散模型的去噪功能,从完全随机的噪声中采样出较为清晰的视频潜码。
获取上一步生成视频潜码的带有时间相关性的噪声版本,将生成的视频潜码通过原始的高斯噪声进行正向扩散过程,使其重新含有低频时间相关信息。
将含低频相关性噪声与新的高斯噪声高频部分结合,得到重新初始化的噪声,并为下一轮采样的初始提供输入。
通过多次重复迭代,FreeInit可以进一步累积提升低频信息质量,逐步弥合训练和推理的初始化差距,从而改善生成视频的质量和时间一致性。研究人员表示,FreeInit在多个文到视频生成模型上进行的实验中取得了较好的效果。他们开源了FreeInit的代码和论文,供研究者们参考和使用。
小米高管内部讲话曝光 称小米汽车目标比肩保时捷特斯拉
据新浪科技报道,小米汽车部在日前的一场内部活动上,向员工们透露了他们的雄心壮志。据小米汽车副总裁于立国在内部讲话中表示,小米汽车部的目标是打造一台可以比肩保时捷和特斯拉的DreamCar。小米汽车部成立近三年来,目前已有3700名员工,他们来自五湖四海,但都怀揣着共同的梦想,致力于实现这一目标。站长网2023-12-27 18:08:170000网友用AnimateDiff插件成动画短片 春夏秋冬场景切换自如
日前,社交平台用户“MachineDelusions”分享了一段令人惊叹的视频,通过使用AnimateDiff视频生成器,她在同一画面中切换了四个季节的景象。这段视频由静态图像与运动力学结合的运动建模模块生成,引起了网友们的广泛关注。站长网2023-10-10 15:37:58000013 个字母价值 4 万美元?21 岁大学生用 AI 破译千年古卷!
近来,一位21岁的计算机科学学生,因为一个历史性成就获得了4万美元奖金。提问:什么历史性成就?答:成功破译了2000年前被掩埋、已碳化且无法打开的赫库兰尼姆古卷中的一个单词。提问:卷轴都没打开,他是怎么破译的?答:利用AI技术。站长网2023-10-18 21:17:010000谷歌前CEO称现在的AI尚无意识 重点是人类如何与它互动
近日,包括马斯克、比尔盖茨在内的多位大佬纷纷发表了对人工智能的看法。比尔盖茨认为,聊天机器人ChatGPT非常出色,可用于数学教学以及为资源有限的人提供医疗建议。他认为,虽然ChatGPT主要用于严肃的目的,但也可以用来写诗等有趣的事情。而谷歌前CEO施密特则表示,现在的人工智能尚无生命、意识和情感,它只是进行多维度的预测,人类需要探索如何与它互动。站长网2023-04-12 16:31:050001人人都爱李子柒
最近抖音发布的一条“美好奇妙夜”推广视频中,出现了李子柒的画面,她身着一身白色的中式女装,在田园风光之间展现插花手艺。尽管露面的时间还不到五秒,却在全网引发了“李子柒复出”的热议。这不是李子柒在最近一段时间的第一次现身,2023年9月的农民丰收节,李子柒作为推广大使出现在了宣传片中。那次,她提到“未来会用自己的方式带来更多优质内容”。当时,一度传出过李子柒和快手签约的消息,后来被快手方面否认。站长网2023-10-11 18:13:040000