You are on page 1of 12

深度解读 Sora 官方技术报告:OpenAI 的下一个王炸?

腾讯研究院2024-02-20 16:01北京
以下文章来源于腾讯科技 ,作者郭晓静、郝博阳
OpenAI 2 月 16 日凌晨发布了文生视频大模型 Sora,在科技圈引起一连串的
震惊和感叹,在 2023 年,我们见证了文生文、文生图的进展速度,视频可
以说是人类被 AI 攻占最慢的一块“处女地”。而在 2024 年开年,OpenAI 就
发布了王炸文生视频大模型 Sora,它能够仅仅根据提示词,生成 60s 的连贯
视频,“碾压”了行业目前大概只有平均“4s”的视频生成长度。
为了方便理解,我们简单总结了这个模型的强大之处:
1. 文本到视频生成能力:Sora 能够根据用户提供的文本描述生成长达 60s 的视频,
这些视频不仅保持了视觉品质,而且完整准确还原了用户的提示语。
2. 复杂场景和角色生成能力:Sora 能够生成包含多个角色、特定运动类型以及主题
精确、背景细节复杂的场景。它能够创造出生动的角色表情和复杂的运镜,使得生
成的视频具有高度的逼真性和叙事效果。
3. 语言理解能力:Sora 拥有深入的语言理解能力,能够准确解释提示并生成能表达
丰富情感的角色。这使得模型能够更好地理解用户的文本指令,并在生成的视频内
容中忠实地反映这些指令。
4. 多镜头生成能力:Sora 可以在单个生成的视频中创建多个镜头,同时保持角色和
视觉风格的一致性。这种能力对于制作电影预告片、动画或其他需要多视角展示的
内容非常有用。
5. 从静态图像生成视频能力:Sora 不仅能够从文本生成视频,还能够从现有的静态
图像开始,准确地动画化图像内容,或者扩展现有视频,填补视频中的缺失帧。
6. 物理世界模拟能力:Sora 展示了人工智能在理解真实世界场景并与之互动的能力,
这是朝着实现通用人工智能(AGI)的重要一步。它能够模拟真实物理世界的运动,
如物体的移动和相互作用。
可以说,Sora 的出现,预示着一个全新的视觉叙事时代的到来,它能够将人
们的想象力转化为生动的动态画面,将文字的魔力转化为视觉的盛宴。在这
个由数据和算法编织的未来,Sora 正以其独特的方式,重新定义着我们与数
字世界的互动。一反常态,OpenAI 在模型公布后的不久,就公布了相关的技
术 Paper,我们第一时间“啃”了这篇技术报告,希望能够帮助大家理解到底
有哪些神奇的技术,让 Sora 能够有如此强大的魔力。

OpenAI 文生视频模型

Sora 官方技术报告

我们探索了利用视频数据对生成模型进行大规模训练。具体来说,我们在不
同持续时间、分辨率和纵横比的视频和图像上联合训练了以文本为输入条件
的扩散模型。我们引入了一种 transformer 架构,该架构对视频的时空序列包
和图像潜在编码进行操作。我们最顶尖的模型 Sora 已经能够生成最长一分
钟的高保真视频,这标志着我们在视频生成领域取得了重大突破。我们的研
究结果表明,通过扩大视频生成模型的规模,我们有望构建出能够模拟物理
世界的通用模拟器,这无疑是一条极具前景的发展道路。
这份技术报告主要聚焦于两大方面:首先,我们详细介绍了一种将各类可视
数据转化为统一表示的方法,从而实现了对生成式模型的大规模训练;其次,
我们对 Sora 的能力及其局限性进行了深入的定性评估。需要注意的是,本报
告并未涉及模型的具体技术细节。
在过去的研究中,许多团队已经尝试使用递归网络、生成对抗网络、自回归
Transformer 和扩散模型等各种方法,对视频数据的生成式建模进行了深入
研究。然而,这些工作通常仅限于较窄类别的视觉数据、较短的视频或固定
大小的视频上。相比之下,Sora 作为一款通用的视觉数据模型,其卓越之处
在于能够生成跨越不同持续时间、纵横比和分辨率的视频和图像,甚至包括
生成长达一分钟的高清视频。
将可视数据转换成数据包 (patchs)
在可视数据的处理上,我们借鉴了大语言模型的成功经验。这些模型通过对
互联网规模的数据进行训练,获得了强大的通用能力。同样,我们考虑如何
将这种优势引入到可视数据的生成式模型中。大语言模型通过 token 将各种
形式的文本代码、数学和自然语言统一起来,而 Sora 则通过视觉包(patchs)
实现了类似的效果。我们发现,对于不同类型的视频和图像,包是一种高度
可扩展且有效的表示方式,对于训练生成模型具有重要意义。

OpenAI 专门设计的解码器模型,它可以将生成的潜在表示重新映射回像素空间

在更高层次上,我们首先将视频压缩到一个低维度的潜在空间:这是通过对
视频进行时间和空间上的压缩实现的。这个潜在空间可以看作是一个 “时空
包”的集合,从而将原始视频转化为这些包。
视频压缩网络
我们专门训练了一个网络,专门负责降低视觉数据的维度。这个网络接收原
始视频作为输入,并输出经过压缩的潜在表示。Sora 模型就是在这个压缩后
的潜在空间中接受训练,并最终生成视频。此外,我们还设计了一个解码器
模型,它可以将生成的潜在表示重新映射回像素空间,从而生成可视的视频
或图像。
时空包
当给定一个压缩后的输入视频时,我们会从中提取出一系列的时空包,这些
包被用作转换 token。这一方案不仅适用于视频,因为视频本质上就是由连
续帧构成的,所以图像也可以看作是单帧的视频。通过这种基于包的表示方
式,Sora 能够跨越不同分辨率、持续时间和纵横比的视频和图像进行训练。
在推理阶段,我们只需在适当大小的网格中安排随机初始化的包,就可以控
制生成视频的大小和分辨率。
用于视频生成的缩放 Transformers
Sora 是一个扩散模型,它接受输入的噪声包 (以及如文本提示等条件性输入信
息) ,然后被训练去预测原始的“干净”包。重要的是,Sora 是一个基于扩散
的转换器模型,这种模型已经在多个领域展现了显著的扩展性,包括语言建
模、计算机视觉以及图像生成等领域。

随着训练量的增加扩散转换器生成的样本质量有了明显提高

在这项工作中,我们发现扩散转换器在视频生成领域同样具有巨大的潜力。
我们展示了不同训练阶段下,使用相同种子和输入的视频样本对比,结果证
明了随着训练量的增加,样本质量有着明显的提高。
丰富的持续时间、分辨率与纵横比
过去,图像和视频生成方法常常需要将视频调整大小、裁剪或修剪至标准尺
寸,如 4 秒、256x256 分辨率的视频。但 Sora 打破了这一常规,它直接在原
始大小的数据上进行训练,从而带来了诸多优势。
采样更灵活
Sora 具备出色的采样能力,无论是宽屏 1920x1080p 视频、垂直 1080x1920
视频,还是介于两者之间的任何视频尺寸,它都能轻松应对。这意味着 Sora
可以为各种设备生成与其原始纵横比完美匹配的内容。更令人惊叹的是,即
使在生成全分辨率内容之前,Sora 也能以较小的尺寸迅速创建内容原型。而
所有这一切,都得益于使用相同的模型。

Sora 可以为各种设备生成与其原始纵横比完美匹配的内容

改进构图与框架
我们的实验结果显示,在视频的原始纵横比上进行训练,能够显著提升构图
和框架的质量。为了验证这一点,我们将 Sora 与一个将所有训练视频裁剪为
方形的模型版本进行了比较。结果发现,在正方形裁剪上训练的模型有时会
生成仅部分显示主题的视频。而 Sora 则能呈现出更加完美的帧,充分展现了
其在视频生成领域的卓越性能。

将所有训练视频裁剪为方形的模型相比(左), Sora 能呈现出更加完美的帧

语言理解深化
为了训练文本转视频生成系统,需要大量带有相应文本字幕的视频。为此,
我们借鉴了 DALL·E3 中的 re-captioning 技术,并应用于视频领域。首先,
我们训练了一个高度描述性的转译员模型,然后使用它为我们训练集中的所
有视频生成文本转译。通过这种方式,我们发现对高度描述性的视频转译进
行训练,可以显著提高文本保真度和视频的整体质量。
与此同时,与 DALL·E3 类似,我们还利用 GPT 技术将简短的用户提示转换
为更长的详细转译,并将其发送到视频模型。这一创新使得 Sora 能够精确地
按照用户提示生成高质量的视频。
图片与视频提示
在上述所有结果和我们的演示中,你可能已经注意到了文本转视频的示例。
但 Sora 的功能远不止于此,它还能接受其他类型的输入提示,如预先存在的
图像或视频。这种多样化的提示方式使 Sora 能够执行广泛的图像和视频编
辑任务,如创建完美的循环视频、将静态图像转化为动画、向前或向后扩展
视频等。
将 DALL·E 图片变成动画
值得一提的是,Sora 还能在提供图像和提示作为输入的情况下生成视频。下
面展示的示例视频就是基于 DALL·E 2 和 DALL·E 3 的图像生成的。这些示
例不仅证明了 Sora 的强大功能,还展示了它在图像和视频编辑领域的无限
潜力。

一只戴着贝雷帽、穿着黑色高领毛衣的柴犬生成视频

一幅逼真的云朵图像生成视频,上面写着 “SORA”在一个华丽的历史大厅里,一股巨大的浪潮达到
顶峰,并开始崩散,两个冲浪者抓住时机,巧妙地在海浪表面飞驰

扩展生成视频
Sora 不仅具备生成视频的能力,更能在时间维度上实现向前或向后的无限扩
展。以下三个视频便是从同一生成视频片段出发,逐步向后扩展的示例。尽
管它们的起始部分各异,但结局却出奇地一致。
这充分展示了 Sora 在时间扩展方面的强大功能,甚至能创造出无缝的无限
循环视频。
视频到视频编辑
随着扩散模型的发展,我们已经开发出多种方法来编辑基于文本提示的图像
和视频。在此,我们将其中一种名为 SDEdit 32 的技术应用于 Sora。这项技
术赋予了 Sora 转换零拍摄输入视频风格和环境的能力,为视频编辑领域带
来了革命性的变革。
视频的无缝连接
更令人惊叹的是,Sora 还能在两个截然不同的输入视频之间实现无缝过渡。
通过逐渐插入技术,我们能够在具有完全不同主题和场景构图的视频之间创
建出流畅自然的过渡效果。
图片生成能力
Sora 的出色能力不止于数据处理和分析,它现在还能生成图像!这一创新功
能的实现得益于一种独特的算法,该算法在一个精确的时间范围内,巧妙地
在空间网格中排列高斯噪声补丁。
值得一提的是,Sora 的图像生成功能不仅限于特定大小的图像。它可以根据
用户需求,生成可变大小的图像,最高可达惊人的 2048 × 2048 分辨率。

一个女人在秋天的特写肖像,每一个细节都被捕 捉得淋漓尽致,浅景深的应用使得主体脱颖而

充满生机的珊瑚礁吸引了五颜六色的鱼类和海洋生物
新的模拟能力
在大规模训练过程中,我们发现视频模型展现出了许多令人兴奋的新能力。
这些功能使得 Sora 能够模拟现实世界中的人物、动物和环境等某些方面。值
得注意的是,这些属性的出现并没有依赖于任何明确的 3D 建模、物体识别
等归纳偏差,而是纯粹通过模型的尺度扩展而自然涌现的。

3D 一致性:在 3D 一致性方面,Sora 能够生成带有动态摄像头运动的视频。

随着摄像头的移动和旋转,人物和场景元素在三维空间中始终保持一致的运

动规律。

较长视频的连贯性和对象持久性: 视频生成领域面对的一个重要挑战就是,

在生成的较长视频中保持时空连贯性和一致性。Sora,虽然不总是,但经常

能够有效地为短期和长期物体间的依赖关系建模。例如,在生成的视频中,

人物、动物和物体即使在被遮挡或离开画面后,仍能被准确地保存和呈现。

同样地,Sora 能够在单个样本中生成同一角色的多个镜头,并在整个视频中

保持其外观的一致性。

与世界互动:Sora 有时还能以简单的方式模拟影响世界状态的行为。例如,

画家可以在画布上留下新的笔触。随着时间的推移,一个人吃汉堡时也能在

上面留下咬痕。
Sora 能以简单的方式模拟影响世界状态的行为

模拟数字世界:Sora 还能够模拟人工过程,比如视频游戏。它可以在高保真

度渲染世界及其动态的同时,用基本策略控制《我的世界》中的玩家。这些

功能都无需额外的训练数据或调整模型参数,只需向 Sora 提示“我的世界”即

可实现。

这些新能力表明,视频模型的持续扩展为开发高性能的物理和数字世界模拟
器提供了一条充满希望的道路。通过模拟生活在这些世界中的物体、动物和
人等实体,我们可以更深入地理解现实世界的运行规律,并开发出更加逼真、
自然的视频生成技术。

局限性与展望
尽管 Sora 在模拟能力方面已经取得了显著的进展,但它目前仍然存在许多
局限性。例如,它不能准确地模拟许多基本相互作用的物理过程,如玻璃破
碎等。此外,在某些交互场景中,比如吃东西时,Sora 并不能总是产生正确
的对象状态变化。我们在发布页面中列举了模型的其他常见故障模式,包括
在长时间样本中发展的不一致性或某些对象不受控的出现等。
然而,我们相信随着技术的不断进步和创新,Sora 所展现出的能力预示着视
频模型持续扩展的巨大潜力。未来,我们期待看到更加先进的视频生成技术,
能够更准确地模拟现实世界中的各种现象和行为,并为我们带来更加逼真、
自然的视觉体验。

圈内人如何看 Sora?
最后再来看看各位技术大牛和内容行业从业者如何评价 Sora?
马斯克评 OpenAI 视频模型:人类认赌服输,但 AI 增强的人类将创造出
最好作品
OpenAI 周四发布了首个视频生成模型 Sora。马斯克的前女友格莱姆斯发布
了一连串帖子,讨论这项新技术对电影以及更广泛的艺术创作的影响。
马斯克在其中一条帖子下回应称:“AI 增强的人类将在未来几年里创造出最
好的作品。”
值得注意的是,马斯克和格莱姆斯在过去大约半年时间里一直在就他们三个
子女的抚养权问题对薄公堂。两人之间在 X 平台上这次罕见的互动引发了人
们对他们目前关系状态的猜测。

稍早,一位 X 用户分享了 Sora 生成的一名女子在东京街头漫步的视频,并


评论称:“OpenAI 今天宣布了 Sora,它使用混合扩散和变压器模型架构生成
长达 1 分钟的视频。他们似乎又领先了其他所有人 1-2 年。”另一位 X 用户
评论称:“gg 皮克斯。”
马斯克回应称:“gg 人类。”(注:gg 是网络游戏用语“good games”的缩写,主要
用于游戏结束后,输赢双方都可以用,但现在多由失败方发出,表示认赌服输、心
服口服的意思。)在马斯克帖子的评论区里,还有用户附和道:“gg 好莱坞”。

Jim Fan 感叹:Sora 是一个数据驱动的物理引擎


英伟达人工智能研究院 Jim Fan 表示“如果你还是把 Sora 当做 DALLE 那样
的生成式玩具,还是好好想想吧,这是一个数据驱动的物理引擎。”Jim Fan
大神的言下之意是,我们不能忽略 Sora 背后,“世界模型”更进一步,AI 已
经可以读懂物理规律。

YouTube 大 V :动画师和 3D 艺术家的工作可能有危险了


YouTube 大 V Paddy Galloway 感慨:“内容创作永远改变了。这不是夸张。
我在 YouTube 世界已经 15 年了,OpenAI 刚刚展示的东西让我说不出话来…”
他认为,Sora 将带来以下这些改变:
 动画师和 3D 艺术家的工作可能有危险了库存素材网站将变得无关紧要
 任何人都可以立即拥有出色的 B-roll (辅助镜头)
 制作精美视频的门槛降至零
 在一个每个人都能制作出美丽视频的世界里,内容背后的“想法”和故事变得
更加重要
 Sora 将真正颠覆教育、视频论文和解说视频的细分市场

AI 创业公司创始人:五年之后,你将能够生成完全沉浸式的世界,并实
时体验它们
Takeoff AI 是专注于 AI Tools 的创业公司,它的创始人认为这一波 OpenAI
新 技 术 的 最 大 受 益 者 可 能 是 虚 拟 现 实 。 “在 两 周 内 , 我 们 连 续 有 了 苹 果 的
Vision Pro 和 OpenAI 的 Sora 文本到视频 AI 模型。五年之后,你将能够生成
完全 沉 浸式 的世 界 , 并实 时 体验 它们 。 Holodeck ( 应 该 是 指 今 年 火 爆 的 掌 机
Steamdeck 的虚拟现实版本) 很快就要来了。”

除了这些技术上的猜测和对产业影响的正面预测外,也有老反对派指出 Sora
的潜在问题不那么容易纠正。
Gary Marcus:Sora 奇怪的物理故障可能不是数据中出现的
纽约大学教授 Gary Marcus 以其对 AI 领域的深刻见解和对现有技术的批判
性思考而闻名,他的观点和研究对 AI 社区产生了重要影响。他表示“Sora 奇
怪的物理故障(例如动物和人在人群中自发出现和消失)令人着迷:这些错误可
能不是数据中出现的。这种小故障在某些方面类似于 LLM“幻觉”,即从有损
压缩中 (大致) 解压缩产生的伪影,而不是来自这个世界的东西。”

而且这种错误在他看来是一种“与现实世界物理学的系统性偏差,可能很难
纠正。”
不过此刻最悲伤的应该是 Google,本来拿来翻盘用的的 Gemini1.5 发布风头
完全被 Sora 压过。作为 AI 界的汪峰,它对此没有评论。

推荐阅读
胡晓萌、陈楚仪:《AI Agent,为什么是 AIGC 最后的杀手锏?》

腾讯研究院:《影响 2024 年的十大科技应用趋势》

You might also like