大佬拆解Sora工作原理 看完你就知道Sora为什么这么牛了
Sora是一款独特的视频生成工具,其工作原理深入浅出,值得我们深入了解。something new/old创始人brett goldstein在X上给大家拆解了Sora工作原理,通俗易懂。
Sora的工作原理结合了扩散模型和Transformer架构。扩散模型从噪声开始,逐渐精细化到所需的视频。而Transformer架构则负责处理连续的视频帧,确保视频中的动作流畅自然。
Sora的独特之处在于其处理视频生成的方法。它不是直接将文本转换为视频帧,而是依赖于所谓的“空间时间补丁”。这种方法不直接将文本转换为视频帧,而是处理空间(发生的事情)和时间(何时发生)的快照。这可以看作是微观视频拼图的每一小块。
时空立方体:
通过这种方式,Sora将视频视为一个包含空间和时间维度的巨大立方体,然后再将其切割成更小的立方体,每个立方体代表空间和时间的片段。
剖析描述并确定了核心要素:
• 物体(盛开的花朵、阳光普照的窗台)
• 行动(随着时间的推移而增长)
• 位置(郊区环境)
• 甚至艺术风格(定格动画美学)
为了能够将这些补丁有意义地组合成一个连贯的视频,Sora利用了其内部的知识图谱。这些知识图谱包含了关于物理世界、对象如何相互作用,甚至包括不同艺术风格的信息。借助这些知识,Sora能够理解例如一朵花如何逐渐开放、如何与阳光互动以及如何保持停动画风格等复杂过程。
在视频生成的下一阶段,扩散模型开始对每个嘈杂、抽象的补丁进行处理,逐渐精细化,直至最终呈现出清晰的图像。而Transformer架构则负责分析时间跨度上补丁之间的关系,确保视频中的动作流畅自然,停动画风格在整个视频序列中保持一致。
尽管Sora能够执行各种与视频相关的任务,并展现出惊人的视频生成能力,但仍有一些挑战需要克服。例如,它在模拟一些基础物理互动的精确性方面还有待提高,有时会产生不自然的效果,如人物的手势看起来不够真实。尽管如此,Sora在视频生成技术方面展示了巨大的潜力,为未来的人工智能应用开辟了新的可能性。
拆解原文地址:https://twitter.com/thatguybg/status/1759935959792312461
猜你想看:
Sora怎么用?sora提示词大全:超100个Sora专属提示词
sora怎么用?sora从哪里下载?sora提示词教程 附30个sora提示词案例
Sora怎么用?附详细Prompts及使用入口地址
第二波“捕获” AI 红利的人
AIGC技术的爆发,一定会像工业革命和信息技术革命那样,最终惠及所有人,这已成为业内共识。但在那之前,一定会有一部分人,率先享受到AI红利。近期,知名投资人朱啸虎的一个访谈,把一家AIGC广告视频公司——FancyTech(时代涌现)拉入大众视线。这家公司的核心产品,是通过AI能力学习跨平台上的海量内容,训练自己的垂直模型,再结合商家的素材为他们生成广告图片和视频。站长网2024-04-02 00:31:490000Anthropic 推出 Claude 3 Haiku:一款最快、最经济的 AI 模型
站长之家(ChinaZ.com)3月14日消息:人工智能技术领域的领先者Anthropic公司最近发布了其最新的Claude3AI模型系列成员,名为Claude3Haiku。这款全新的智能产品被定位为速度最快、成本最实惠的型号,在提供先进的视觉功能和行业标准性能的同时,为企业客户提供了全方位的选择。站长网2024-03-14 09:33:040001vivo手机寿命一般几年
vivo作为国内一线手机品牌,备受消费者喜爱。但是,随着使用时间的增长,许多用户开始担心自己的vivo手机寿命能够持续多长时间。那么,vivo手机一般能使用多长时间呢?vivo手机在普遍情况下,其寿命可以达到2-3年。但是,这个寿命的长短还与很多因素有关,包括使用时间长短、手机品质、手机性能等。下面将分别对这些因素进行介绍。1.使用时间长短站长网2023-05-23 18:46:220000微软研究人员推新AI方法,用合成数据改进高质量文本嵌入
划重点:🔍研究人员提出了一种简单而新颖的方法,只使用合成数据就能获得高质量的文本嵌入🔍这种方法在文本嵌入领域取得了显著的成果,无需使用大量标记数据🔍使用专有的大型语言模型生成合成数据,取得了优异的性能并创造了新的记录站长网2024-01-04 15:31:4300005999元起!vivo发布上下折叠屏手机X Flip:魔幻3寸外屏、妹纸最爱
快科技4月20日消息,今晚vivo在线上举行了新品发布会,其中一款就是XFlip,从发布后的反馈情况看,还是很受妹子们的喜欢。站长网2023-04-20 22:03:580000