You are on page 1of 10

Machine Translated by Google

视频诗人优先 没有偏好 首选控制视频

30% 60% 10% 文本保真度

35% 65% 0% 视频质量

风格化
原创视频
图 7.将 VideoPoet 与视频风格化模型 Control‑a‑video [15] 进行比较
的人类并行评估。 评级者在文本保真度和视频质量方面更喜欢
VideoPoet 绿色、灰色和粉色条分别代表 VideoPoet 优于替代方案、 类
似于或低于替代方案的试验比例。

蒙面视频

6. 负责任的人工智能和公平性分析
我们评估模型生成的输出对于受保护的属性是否公平,
例如(1)
感知年龄(2)
感知性别表达(3)
感知肤色。

我们用模板构建了 306 个提示 “一个{职业或人物描述符}看着镜头{副 根据文本提示修复视频


词}”,
“职业”
是从美国劳工和统计局爬取的,
“人物描述符”
包括情绪状态、 提示:
一条蓝龙沿着山脊行走
社会经济阶层等“副词”
用于生成语义上不变的提示模板,
例如“直接”
或“直
接”。
我们为每个提示生成 8 个视频,对于每个生成的视频,
我们推断关于 3
图 8.模型未明确训练的任务示例 ‑ 通过文本条件修复进行视频编辑。
个受保护属性的表达属性的近似值。 在具有相同语义但不同“副词”
的 10 个
提示中,
我们观察到我们的输出通常引入了更强的分布转向“年轻人”
(18‑35
岁)、
“男性”
和“浅肤色”
语气”。
然而,
我们观察到改变提示模板中的“副
词”
可以显着改变输出分布。
因此,
我们的模型可以被提示在这些组中产生非
均匀分布的输出,
但也具有被提示增强均匀性的能力,
尽管提示在语义上没有
改变。

静态图像动画

虽然研究已经在图像生成和识别领域进行[16,54,55,83 ],
但这一发现强调
了继续研究以制定缓解问题和提高视频生成公平性的策略的重要性。

风格化视频
7. LLM在视频生成方面的能力 提示:
一幅戴着红帽子的雪人张开嘴打哈欠的油画

在本节中,
我们重点介绍从预训练的 VideoPoet 中发现的几个值得注意的功
能,
揭示大型语言模型 (LLM) 在视频生成方面的巨大潜力。 图 9.通过任务链进行零镜头视频编辑的示例(文本条件图像到视频和风
格化) 原始绘画首先通过文本提示进行动画处理, 然后通过另一个文
本提示进行风格化。

7.1.零镜头视频编辑和任务链
零镜头编辑的一个简单示例是使用文本控件进行修复,
如图8 所示,
但我们的
模型可以通过链接多个功能来完成更多任务。
因为我们的多 任务预训练策略,
我们的模型展示了任务泛化,
可以将其链接在一起以执行
新任务。

11
Machine Translated by Google

原创视频

根据照片制作动画

未涂漆的视频

根据历史照片制作动画

风格化视频
提示:
轨道上的姜饼和糖果火车

图 10.通过任务链进行零镜头视频编辑的示例(涂色和风格化)
首先对原始视频进行涂色, 然后通过文本提示进行风格化。 绘画动画

图 11.从各种静态图像制作动画的视频示例
为每个初始图像量身定制的图像和文本提示。

我们在图9中展示了一个示例,
我们可以将图像到视频应用于
动画图像,然后对这些图像进行风格化 7.2.相干长视频生成和图像到视频
具有视频到视频效果。
我们还展示了应用视频到视频的outpainting,

后是视频到视频的风格化
基于解码器的语言模型的一个好处是它可以配对
如图10所示。
在我们的项目网站上3 , 我们还显示文本到
以及自回归延长生成时间。
我们
通过从文本生成视频来进行视听输出
提供此功能的两种不同变体:
通过视频到音频任务。
每个阶段的质量
更长的视频,以及将图像转换为视频。
产出似乎足以保持分布状态(即
因为我们使用的 MAGVIT‑v2 分词器进行编码
教师强制)
进入下一阶段,
没有明显的伪影。
第一帧独立于后续帧,
我们
可以将没有任何填充的图像编码为第一帧
我们假设这些能力归因于 一个视频的。
然后我们可以预测剩余的令牌
我们在 LLM 变压器中的多模式任务设计 后续帧从任何图像生成视频
允许使用统一词汇表上的单个变压器架构来建模多模式内容的框架。
我们的 4
如图11 所示。
方法与其他方法形成对比,
例如扩散 我们观察时间上相干的物体世代
在具有动态且有意义的动作的视频场景中(参见
模型,
通常通过采用多个单独调整的适配器模型来控制扩散过程来解决这些 图12)。
预测未来的帧,
尽管有模型
任务[23,28,39 ] 。 只能查看较短的时间上下文,
例如
作为视频的第一帧或第一秒,
模型是

4对于图像到视频的示例, 我们从维基媒体获取图像
3http://sites.research.google/videopoet/ 共享资源:https://commons.wikimedia.org/wiki/Main Page

12
Machine Translated by Google

能够在超过 8 秒的视频输出中保持物体的运动、
风格和身份一致。 各种风格,
例如水彩画或油画。
这些风格化训练源主要在文本图像训练数据中
观察到。
概括和组合这些不同类型的样式以根据文本提示产生大动作的能力
强调了我们的模型对时间上下文中的对象的理解的强度。

八、
结论

VideoPoet 强调了在离散视觉和音频标记上训练的大型语言模型在生成引
人注目的、 最先进质量的视频方面的潜力。

图 12.相干长视频生成示例。 我们模型的一个特殊优势在于它能够生成高保真、
大型且复杂的运动。
我们
的大型语言模型制定受益于具有统一架构和词汇的各种多模式任务的训练。
因此,
预训练模型擅长多任务视频创建,
并作为各种视频相关功能(包括多种
7.3. 3D 结构、
摄像机运动、
视觉风格 形式的编辑)
的基础。

致谢

我们特别感谢 Alex Siegman 和 Victor Gomes 管理计算资源。


我们还要感
谢 Aren Jansen、
Marco Tagliasacchi、
Neil Zeghidour、
John Hershey 的
音频标记化和处理、
Angad Singh 的“Rookie the Raccoon”
故事板、
摄像机运动:
弧线拍摄
Cordelia Schmid 的研究讨论、
Alonso Martinez 的平面设计、
David
Salesin、
Tomas Izo和 Rahul Suk‑thankar 的支持,
以及 Jay Yagnik 作为
初始概念的架构师。

参考
´
[1] Andrea Agostinelli、
Timo I Denk、Zalan Borsos、
Jesse Engel、
Mauro
相机运动: FPV无人机拍摄 Verzetti、
Antoine Caillon、Qingqing Huang、Aren Jansen、Adam
Roberts、 Marco Tagliasacchi 等。
图 13.从同一初始帧定向相机移动的示例。 Musiclm: 从文本生成音乐。 arXiv 预印本 arXiv:2301.11325, 2023. 1
[2] Hassan Akbari、Dan
Kondratyuk、
Yin Cui、
Rachel Hornung、
Huisheng Wang 和 Hartwig
因为我们的训练涵盖视频、
图像和文本,
所以我们可以促使我们的模型展 Adam。
交替梯度下降和专家混合用于集成多模态感知。 arXiv 预印本
示对世界的理解的许多方面,
包括 3D 结构、
相机运动以及从这些不同来源 arXiv:2305.06324, 2023. 7 [3] Rohan Anil、
Andrew M Dai、
Orhan
Firat、
Melvin Johnson、
Dmitry Lepikhin、
Alexandre Passos、
学习的视觉风格。
尽管我们没有专门添加训练数据或损失来鼓励 3D 一致性,
Siamak Shakeri、
Emanuel Taropa、
Paige Bailey、
Zhifeng Chen 等。
但我们的模型可以围绕对象旋转并预测对象背面的合理可视化。
此外,
由于只
Palm 2 技术报告。 arXiv 预印本 arXiv:2305.10403, 2023. 1, 2
有一小部分输入视频带有描述相机运动的文本,
我们的模型可以使用简短的
文本提示将一系列相机运动应用于图像到视频和文本到视频的生成(参见图
13),
这对于许多最先进的视频生成模型来说是困难的[40]。

[4] Andreas Blattmann、


Tim Dockhorn、
Sumith Kulal、
Daniel
Mendelevitch、 Maciej Kilian、Dominik Lorenz、
Yam Levi、
Zion
English、Vikram Voleti、 Adam Letts 等。 稳定的视频扩散: 将潜在视频
扩散模型扩展到大型数据集。 arXiv 预印本 arXiv:2311.15127, 2023.
3 [5] Andreas Blattmann、 Robin Rombach、Huan Ling、
Tim Dock‑horn、
Seung Wook Kim、
Sanja Fidler 和 Karsten Kreis。
此外,
这些控件可以添加到宽范围的顶部

13
Machine Translated by Google

对齐您的潜伏:
使用潜伏扩散模型进行高分辨率视频合成。 CVPR,
第 22563– 杨红霞,
等。 Cogview:
通过变压器掌握文本到图像的生成。
神经信息处理系统进
22575 页,
2023. 3, 9, 17 展,
34:
19822–19835,
2021。
2 [ 20 ] Danny Driess,
Fei Xia,
Mehdi SM Sajjadi,
Corey Lynch,
Aakanksha Chowdhery,
Brian Ichter,
Ayzaan
[6] Rishi Bommasani、
Drew A Hudson、
Ehsan Adeli、
Russ Alt‑man、
Simran Arora、 Wahid,
Jonathan Tompson,
Quan Vuong,
Tianhe Yu,
等人。 Palm‑e:
一种具体的多模
Sydney von Arx、
Michael S Bernstein、
Jeannette Bohg、
Anthony Bosselut、 式语言模型。 arXiv 预印本 arXiv:2303.03378, 2023. 1 [21] Nan Du, Yanping
Emma Brunskill 等。 Huang, Andrew M Dai, Simon Tong, Dmitry Lepikhin, Yuanzhong Xu,
论基础模型的机遇与风险。 arXiv 预印本 arXiv:2108.07258, 2021. 2 [7] Tim Maxim Krikun, Yanqi Zhou, Adams Wei Yu, Orhan Firat, et al. GLaMs:
专家混
Brooks、
Aleksander Holynski 和 Alexei A 合的语言模型的有效扩展。 ICML,

Efros。 In‑structpix2pix:
学习遵循图像编辑说明。 2022 年。
2 [22] Patrick Esser、
Robin Rombach 和 Bjorn Ommer。
驯服变压器以进行高
分辨率图像合成。 CVPR,
第 12868–12878 页,
2020 年。 4
CVPR,
第 18392–18402 页,
2023. 5, 17 [8] Tom Brown、
Benjamin Mann、
Nick Ryder、
Melanie Sub‑biah、
Jared D Kaplan、
Prafulla Dhariwal、
Arvind Neelakan‑tan、
Pranav Shyam、
Girish Sastry、
Amanda Askell .,
等人。
¡

语言模型是小样本学习者。 NeurIPS, 33:1877–1901, 2020. 1, 2, 3

[9]若昂·卡雷拉、
埃里克·诺兰、
安德拉斯·班基‑霍瓦斯、
克洛伊·希利尔和安德鲁·齐瑟曼。
关 [23] Patrick Esser、
Johnathan Chiu、
Parmida Atighehchian、
Jonathan Granskog 和
于 Kinetics‑600 的简短说明。 arXiv 预印本 arXiv:1808.01340, 2018. 7, 8 Anastasis Germanidis。
使用扩散模型进行结构和内容引导的视频合成。

[10] Duygu Ceylan、


Chun‑Hao P Huang 和 Niloy J Mitra。 In CVPR, pages 7346–7356, 2023. 2, 3, 6, 10, 12, 18 [24] Ruoyu
Pix2video:
使用图像扩散进行视频编辑。 CVPR,
第 23206–23217 页,
2023 年。
1 Feng, Wenming Weng, Yanhui Wang, Yuhui Yuan, Jianmin Bao, Chong Luo, Zhibo
Chen, and Baining Guo.
[11] Wenhao Chai, Xun Guo, Gaoang Wang, and Yan Lu. Stable‑video: Text‑driven Ccedit:
通过扩散模型进行创意且可控的视频编辑。 arXiv 预印本 arXiv:2309.16496,
consistency‑aware diffusion video edit‑ing. In CVPR, pages 23040–23050, 2023. 3
2023. 1 [12] Huiwen Chang, Han Zhang, Lu Jiang, Ce [25] 葛松伟、
Seungjun Nah、
Guilin Liu、
Tyler Poon、
Andrew陶、
Bryan Catanzaro、
David
Liu, and William T Freeman. Maskgit: Masked generative image transformer. In Jacobs、
Jia‑Bin Huang、
Ming‑Yu Liu和Yogesh Balaji。
保留您自己的相关性:
视频
CVPR, pages 11315–11325, 2022. 3, 5, 9 [13] Huiwen Chang, Han Zhang, 扩散模型的噪声先验。 CVPR,
第 22930–22941 页,
2023. 3, 17 [26] Michal Geyer、
Jarred Barber, AJ Maschinot, Jose Lezama, Lu Omer Bar‑Tal、
Shai Bagon 和 Tali Dekel。

Jiang, Ming‑Hsuan Yang, Kevin Mur‑phy, William T Freeman, Michael Rubinstein,


et al. Muse: Text‑to‑image generation via masked generative transform‑
ers. arXiv preprint arXiv:2301.00704, 2023. 3 [14] Haoxin Chen, Menghan Tokenflow:
一致的扩散功能,
实现一致的视频编辑。 arXiv 预印本

Xia, Yingqing He, Yong Zhang, Xiaodong Cun, Shaoshu Yang, Jinbo Xing, arXiv:2307.10373, 2023.1
Yaofang Liu, Qifeng Chen, Xintao Wang, et al. Videocrafter1: [27] Raghav Goyal、
Samira Ebrahimi Kahou、
Vincent Michal‑ski、
Joanna
Open diffusion models for high‑quality video generation. arXiv preprint Materzynska、
Susanne Westphal、
Heuna Kim、
Valentin Haenel、
Ingo Fruend、
arXiv:2310.19512, 2023. 9, 10 [15] Weifeng Chen, Jie Wu, Pan Xie, Hefeng Peter Yianilos、
Moritz Mueller‑Freitag 等。
用于学习和评估视觉常识的“某事某
Wu, Jiashi Li, Xin Xia, Xuefeng Xiao, and Liang Lin. Control‑a‑video: 事”
视频数据库。
Controllable text‑to‑video generation with diffusion models. arXiv preprint
arXiv:2305.13840, 2023. 1, 2, 3, 6, 10, 11, 18 [16] In ICCV, 2017. 7, 8 [28]

Ming‑Chang Chiu, Pin‑Yu Chen, and Xuezhe Ma. Better may not be fairer: A study Yuwei Guo, Ceyuan Yang, Anyi Rao, Yaohui Wang, Yu Qiao, Dahua Lin, and Bo Dai.
on subgroup discrepancy in image classification. In Proceedings of the Animatediff: Animate your personalized text‑to‑image diffusion models
IEEE/CVF International Conference on Computer Vision (ICCV), pages 4956– without specific tuning. arXiv preprint arXiv:2307.04725, 2023. 3, 12 [29]
4966, 2023. 11 Agrim Gupta, Stephen Tian, Yunzhi Zhang, Jiajun Wu, Roberto Mart
´ n‑Mart´ n, and Li Fei‑Fei. Maskvit: Masked visual pre‑training for video
prediction. arXiv preprint arXiv:2206.11894, 2022. 5 [30] Yingqing He,
Tianyu Yang, Yong Zhang, Ying Shan, and Qifeng Chen. Latent video
diffusion models for high‑fidelity

long video generation. arXiv preprint arXiv:2211.13221, 2 (3):4, 2023. 3 [31] Shawn
[17] Aakanksha Chowdhery、
Sharan Narang、
Jacob Devlin、
Maarten Bosma、
Gaurav Hershey, Sourish Chaudhuri, Daniel P. W. Ellis, Jort F. Gemmeke, Aren
Mishra、
Adam Roberts、
Paul Barham、
Hyung Won Chung、
Charles Sutton、 Jansen, Channing Moore, Manoj Plakal, Devin Platt, Rif A. Saurous, Bryan
Sebastian Gehrmann 等。 PaLM:
通过路径扩展语言建模。 arXiv:2204.02311, Seybold, Malcolm
2022. 2, 3 [18] Tri Dao、
Dan Fu、
Stefano Ermon、
Atri Rudra 和 Christo‑pher Slaney, Ron Weiss, and Kevin Wilson. Cnn architectures for large‑scale audio
Re。 Flashattention:
具有 io 意识的快速、
内存高效的 classification. In ICASSP, 2017. 8
精确注意力。
在 NeurIPS,
2022 年。
2
´

[19] Ming Ding, Zhuoyi Yang, Wenyi Hong, Wendi Zheng, [32] 乔纳森·何和蒂姆·萨利曼。
无分类器的扩散指导。 arXiv 预印本 arXiv:2207.12598,
Chang Zhou, Da Yin, Junyang Lin, Xu Zou, Zhou Shao, 2022. 7, 17

14
Machine Translated by Google

[33] 何超强、
陈伟霆、
Chitwan Saharia、
Jay Whang、 统一的文本到文本转换器。
机器学习研究杂志, 21(1):5485–5551, 2020. 2, 3, 5, 7
Ruiqi Gao, Alexey Gritsenko, Diederik P Kingma, Ben
普尔、
穆罕默德·诺鲁齐、
大卫·J·弗利特等人。
图像 [47] 阿迪亚·拉梅什、
米哈伊尔·巴甫洛夫、
加布里埃尔·吴、
斯科特
视频:
使用扩散模型生成高清视频。 arXiv 预印本 arXiv:2210.02303, 2022. 3, 5 格雷、
切尔西·沃斯、
亚历克·雷德福、
马克·陈和伊利亚
苏茨克韦尔。
零样本文本到图像生成。 arXiv
[34] 乔纳森·何(Jonathan Ho)、
蒂姆·萨利曼斯(Tim Salimans)、
阿列克谢·格里森科(Alexey Gritsenko)、
威廉 预印本 arXiv:2102.12092, 2021. 3
陈、
穆罕默德·诺鲁齐和大卫·J·弗利特。
视频扩散模型。 arXiv:2204.03458, 2022. [48] Aditya Ramesh、
Prafulla Dhariwal、
Alex Nichol、
Casey Chu、
17 和马克·陈。
具有剪辑潜在特征的分层文本条件图像生成。 arXiv 预印本
[35] 乔丹·霍夫曼,
塞巴斯蒂安·博尔若,
阿瑟·门施, arXiv:2204.06125, 1
埃琳娜·布查茨卡娅、
特雷弗·蔡、
伊丽莎·卢瑟福、
迭戈 (2):3, 2022. 1
´
德拉斯卡萨斯、
丽莎·安妮·亨德里克斯、
约翰内斯·韦尔布尔、
艾丹 [49] Rene Ranftl、 Katrin Lasinger、
David Hafner、
Konrad Schindler 和 Vladlen Koltun。
克拉克等人。
训练计算优化的大型语言模型。 arXiv 预印本 arXiv:2203.15556, 迈向稳健的单眼
2022. 2, 3 深度估计:
零样本交叉数据集的混合数据集
[36] Wenyi Hong, Ming Ding, Wendi Zheng, Xinghan Liu, 转移。 IEEE TPAMI,
44(3): 1623–1637,
2020。
6
还有唐杰。 Cogvideo:
大规模预训练 [50] 罗宾·隆巴赫、
安德烈亚斯·布拉特曼、
多米尼克·洛伦茨、
¡

通过转换器生成文本到视频。 arXiv 预印本 帕特里克·埃瑟和比约恩·奥默。


具有潜在扩散模型的高分辨率图像合成。
在 CVPR 中,
arXiv:2205.15868, 2022. 2, 3, 9 第 10684 页–
[37] 安东尼·胡、
劳埃德·拉塞尔、
哈德森·杨、
扎克·穆雷斯、 10695, 2022. 1
乔治·费多耶夫、
亚历克斯·肯德尔、
杰米·肖顿和吉安‑卢卡·科拉多。 Gaia‑1:
自动驾 [51] 保罗·K·鲁宾斯坦、 朱拉育·阿萨瓦罗恩猜、 德勇
´ ´
驶的生成世界模型。 arXiv 预印本 arXiv:2309.17080, 2023。 Nguyen、
Ankur Bapna、
Zalan Borsos、
Felix de Chaumont Quitry、
Peter Chen、
Dalia El Badawy、
Wei Han、
Eugene
3 哈里托诺夫等人。 Audiopalm:
广泛的语言模型
[38] Raymond Li、
Loubna Ben Allal、
Yangtian Zi、
Niklas Muen‑nighoff、
Denis 可以说和听。 arXiv 预印本 arXiv:2306.12925,
Kocetkov、
Chenghao Mou、
Marc Marone、 2023年1月

克里斯托弗·阿基基 (Christopher Akiki)、


李嘉 (Jia Li)、
詹妮·奇姆 (Jenny Chim) 等。 StarCoder:
也许吧 [52] 奇旺·萨哈里亚、
陈伟霆、
索拉布·萨克塞纳、
拉拉
源头与你同在! arXiv:2305.06161, 2023. 1 李,
Jay Whang,
Emily L Denton,
Kamyar Ghasemipour,
[39] Jun Hao Liew, Hanshu Yan, Jianfeng Zhang, Zhongcong Xu, 拉斐尔·贡蒂霍·洛佩斯、
布尔库·卡拉戈尔·阿扬、
蒂姆·萨利曼斯、
还有冯嘉世。 Magicedit:
高保真度和临时性 等人。
具有深度的真实感文本到图像扩散模型
连贯的视频编辑。 arXiv 预印本 arXiv:2308.14749, 语言理解。 NeurIPS ,
35:
36479–36494,
2022。
3
2023年2、 3、 12、 18日 [53] 齐藤正树、
斋藤俊太、
小山正则、
小林宗介。
稀疏训练,
密集生成:
高分辨率时间的内存高
[40] Yaofang Liu, Xiaodong Cun, Xuebo Liu, Xintao Wang, 效无监督训练
Yong Zhang, Haoxin Chen, Yang Liu, Tieyong Zeng, Ray‑mond Chan, and
Ying Shan. Evalcrafter: Benchmarking and 经过。 IJCV, 128(10):2586–2606, 2020. 8, 9, 17
评估大型视频生成模型。 arXiv 预印本 [54]坎迪斯·舒曼、
苏珊娜·里科、
乌察夫·帕布、
维托里奥
arXiv:2310.11440, 2023. 13 法拉利和卡罗琳·潘托法鲁。
朝着更具包容性的人员注释迈出一步,
以实现公平。
在诉
[41] Chenlin Meng, Yutong He, Yang Song, Jiaming Song, Jia‑jun Wu, Jun‑Yan 讼程序中
Zhu, and Stefano Ermon. Sdedit: Guided 2021 年 AAAI/ACM 人工智能、
伦理与社会会议,
使用随机微分方程进行图像合成和编辑。 arXiv 预印本 arXiv:2108.01073, 2021. 第 916–925 页,
2021 年。 11
3, 6 [55] 坎迪斯·舒曼、
格博拉汉·奥卢瓦菲米·奥拉努比、
奥里尔
[42] 查理·纳什、
若昂·卡雷拉、
雅各布·沃克、
伊恩·巴尔、
安德鲁·杰格尔、
马特乌斯·马林诺夫 赖特、
埃利斯·蒙克、
考特尼·赫尔德雷斯和苏珊娜·里科。
斯基和彼得·巴塔利亚。 机器学习肤色标注的共识和主观性
Transframer:
具有生成功能的任意帧预测 公平。
在第三十七届神经信息处理系统数据集和基准测试会议上,
楷模。 arXiv 预印本 arXiv:2203.09494, 2022. 2, 3
[43] 开放人工智能。 GPT‑4 技术报告。 arXiv:
2303.08774,
2023。 2023年11月

1, 2 [56] 尤里尔·辛格、
亚当·波利亚克、
托马斯·海耶斯、
尹曦、
安杰、
[44] F. Perazzi、
J. Pont‑Tuset、
B. McWilliams、
L. Van Gool、
M. Songyang Zhang, Qiyuan Hu, Harry Yang, Oron Ashual,
格罗斯和 A. Sorkine‑Hornung。
基准数据集和 奥兰·加夫尼等人。
制作视频:
文本到视频的生成
视频对象分割的评估方法。
在 没有文本视频数据。 arXiv 预印本 arXiv:2209.14792,
CVPR, 2016. 8, 10, 18 2022年1、 3、 9日

[45] 达斯汀·波德尔、
锡安·英格利希、
凯尔·莱西、
安德烈亚斯 [57] Khurram Soomro、
Amir Roshan Zamir 和 Mubarak Shah。
¡

布拉特曼、
蒂姆·多克霍恩、
乔纳斯·穆勒、
乔·佩纳和罗宾·隆巴赫。 Sdxl:
改进高分辨率 Ucf101:
视频中 101 个人类动作类别的数据集

图像合成的潜在扩散模型。 arXiv 预印本 在野外。 arXiv 预印本 arXiv:1212.0402, 2012. 7, 8, 9,


17 号

arXiv:2307.01952, 2023. 1 [58] 孙德清、


Charles Herrmann、
Fitsum Reda、
Michael Ru‑binstein、
David J. Fleet
[46] 科林·拉斐尔、
诺姆·沙泽尔、
亚当·罗伯茨、
凯瑟琳·李、 和 William T Freeman。
解开光流的架构和训练。
在ECCV中,
Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and
彼得·J·刘.探索迁移学习的局限性 2022年6月

15
Machine Translated by Google

[59] 唐子能,
杨紫怡,
朱晨光,
曾迈克尔,
Mohit Bansal。
通过可组合扩散实现任意生成。 [73] Wilson Yan, Yunzhi Zhang, Pieter Abbeel, and Aravind Srinivas. Videogpt:
arXiv 预印本 arXiv:2305.11846, 2023. 3 [60] Yi Tay、
Mostafa Dehghani、
Vinh Video generation using vq‑vae and trans‑formers. arXiv preprint
Q Tran、
Xavier Garcia、
Ja‑son Wei、
Xuezhi Wang、
Hyung Won arXiv:2104.10157, 2021. 3 [74] Jiahui Yu, Yuanzhong Xu, Jing Yu
Chung、
Dara Bahri、
Tal Schuster、
Steven Cheng 等。 Ul2:
统一语言学习范式。 ICLR, Koh, Thang Luong, Gun‑jan Baid, Zirui Wang, Vijay Vasudevan, Alexander Ku, Yin‑
2022. 2, 5 [61] Hugo Touvron、
Thibaut Lavril、
Gautier Izacard、
Xavier Martinet、 fei Yang, Burcu Karagol Ayan, et al. Scaling autoregres‑sive models for
Marie‑Anne Lachaux、
Timothy Lacroix、
Baptiste Roziere、
Naman Goyal、
Eric content‑rich text‑to‑image generation. arXiv preprint arXiv:2206.10789,
Hambro、
Faisal Azhar 等。 2022. 2, 3, 17 [75] Lijun Yu, Yong Cheng, Kihyuk Sohn, Jose Lezama, Han
Zhang, Huiwen Chang, Alexander G Hauptmann,
´ ´
Ming‑Hsuan Yang, Yuan Hao, Irfan Essa, et al. Magvit: Masked generative video
`
transformer. In CVPR, pages 10459–10469, 2023. 3, 4, 5, 7, 8, 9, 17
Llama: Open and efficient foundation language models. arXiv preprint
arXiv:2302.13971, 2023. 2 [62] Zhengzhong Tu,
Hossein Talebi, Han Zhang, Feng Yang, Peyman Milanfar, Alan Bovik, and Yinxiao
Li. Maxvit: Multi‑axis vision transformer. In ECCV, pages 459–479, 2022. 5 [76] 于丽君,
程勇,
王志若,
Vivek Kumar,
Wolf‑gang Macherey,
黄艳萍,
David A Ross,
Irfan Essa,
Jonathan Bisk,
Ming‑Hsuan Yang,
等。 Spae:
使用 Frozen Lms 进
行多模态生成的语义金字塔自动编码器。 arXiv 预印本 arXiv:2306.17842, 2023.
[63] Thomas Unterthiner、
Sjoerd Van Steenkiste、
Karol Kurach、
Raphael Marinier、 4 [77] Lijun Yu, Jose Lezama, Nitesh B Gundavarapu, Luca Versari, Kihyuk
Marcin Michalski 和 Sylvain Gelly。
走向准确的视频生成模型:
新的指标和挑战。 Sohn, David Minnen, Yong Cheng, Agrim Gupta, Xiuye Gu,
´
arXiv 预印本 arXiv:1812.01717, 2018. 8, 9, 17 [64] Ashish Vaswani、
Noam Alexander G Hauptmann, et al 。
语言模型胜过扩散 分词器是视觉生成的关键。 arXiv
Shazeer、
Niki Parmar、
Jacob Uszko‑Reit、
Llion Jones、
Aidan N Gomez、 预印本 arXiv:2310.05737, 2023. 3, 4, 5 ,
ukasz Kaiser 和 Illia Polosukhin。
您所需要的就是关注。 NeurIPS, 30, 2017. 3 [65]
Ruben Villegas、
Mohammad Babaeizadeh、
Peter‑Jan Kin‑dermans、
Hernan
Moraldo、
Han Zhang、
Mohammad Taghi Saffar、
Santiago Castro、
Julius
Kunze 和 Dumitru Erhan。 [78] Sehyun Yu、
Kihyuk Sohn、
Subin Kim 和 Jinwoo Shin。
投影潜在空间中的视频概率扩散模型。 CVPR,
第 18456–18466 页,
2023 年。 1
[79] Neil Zeghidour、
Alejandro Luebs、
Ahmed Omran、
Jan
Phenaki:
根据开放域文本描述生成可变长度视频。 arXiv 预印本 arXiv:2210.02399, Skoglund 和 Marco Tagliasacchi。 Soundstream:
端到端神经音频编解码器。 IEEE/
2022. 1, 2, 3, 4, 9, 10, 17 [66] Vikram Voleti、
Alexia Jolicoeur‑Martineau 和 ACM Transactions on Au‑
Chris Pal。
dio,
语音和语言处理,
30:
495–507,
2021 年。
4

用于预测、
生成和插值的 Mcvd 掩蔽条件视频扩散。 NeurIPS ,
35:
23371–23385,
2022。
1 [80] Yan Zeng, Guoqiang Wei, Jiani Zheng, Jiaxin Zou, Yang Wei, Yuchen Zhang,
and Hang Li. Make pixels dance: High‑dynamic video generation. arXiv

[67] Jiuniu Wang, Hangjie Yuan, Dayou Chen, Yingya Zhang, Xiang Wang, and preprint arXiv:2311.10982, 2023. 3 [81] David Junhao Zhang, Jay Zhangjie

Shiwei Zhang. Modelscope text‑to‑video technical report. arXiv preprint Wu, Jia‑Wei Liu, Rui Zhao, Lingmin

arXiv:2308.06571, 2023. 3, 9 Ran, Yuchao Gu, Difei Gao, and Mike Zheng Shou. Show‑1: Marrying pixel and
latent dif‑fusion models for text‑to‑video generation. arXiv preprint

[68] Wen Wang, Kangyang Xie, Zide Liu, Hao Chen, Yue Cao, Xinlong Wang, and arXiv:2309.15818, 2023. 1, 3, 9, 10 [82] Lvmin Zhang, Anyi Rao, and

Chunhua Shen. Zero‑shot video editing using off‑the‑shelf image diffusion Maneesh Agrawala. Adding conditional control to text‑to‑image diffusion

models. arXiv preprint arXiv:2303.17599, 2023. 1 [69] Wenjing Wang, Huan models. In CVPR, pages 3836–3847, 2023. 2,

Yang, Zixi Tuo, Huiguo He, 3, 6 [83] Yanzhe Zhang, Lu Jiang, Greg Turk, and Diyi Yang. Audit‑ing gender

Junchen Zhu, Jianlong Fu, and Jiaying Liu. Videofactory: Swap at‑tention in presentation differences in text‑to‑image models. arXiv preprint

spatiotemporal diffusions for text‑to‑video gener‑ation. arXiv preprint arXiv:2302.03675, 2023. 11 [84] Chunting Zhou,

arXiv:2305.10874, 2023. 3, 9 Pengfei Liu, Puxin Xu, Srini Iyer, Jiao Sun, Yuning Mao, Xuezhe Ma, Avia Efrat,
Ping Yu, Lili Yu, et al. Lima: Less is more for alignment. arXiv preprint

[70] Yi Wang, Yinan He, Yizhuo Li, Kunchang Li, Jiashuo Yu, Xin Ma, Xinyuan Chen, arXiv:2305.11206, 2023. 7 [85] Daquan Zhou, Weimin

Yaohui Wang, Ping Luo, Ziwei Liu, et al. Internvid: A large‑scale video‑text Wang, Hanshu Yan, Weiwei Lv, Yizhe Zhu, and Jiashi Feng. Magicvideo: Efficient

dataset for multimodal understanding and generation. arXiv preprint video generation with latent diffusion models. arXiv preprint

arXiv:2307.06942, 2023. 3, 9 arXiv:2211.11018, 2022. 3, 9

[71] Chenfei Wu, Lun Huang, Qianxi Zhang, Binyang Li, Lei Ji, Fan Yang, Guillermo
Sapiro, and Nan Duan. Godiva: Gen‑erating open‑domain videos from
natural descriptions. arXiv preprint arXiv:2104.14806, 2021. 8, 9 [72] Jun
Xu, Tao Mei, Ting Yao, and Yong Rui. Msr‑vtt: A
[86] Brianna Zitkovich, Tianhe Yu, Sichun Xu, Peng Xu, Ted Xiao, Fei Xia, Jialin
large video description dataset for bridging video and language. In Proceedings
Wu, Paul Wohlhart, Stefan Welker, Ayzaan Wahid, et al. RT‑2: Vision‑
of the IEEE conference on computer vision and pattern recognition, pages
language‑action models transfer web knowledge to robotic control. In
5288–5296, 2016. 7, 8, 9, 17
CoRL, 2023. 1

16
Machine Translated by Google

A. 附录 A.3.超分辨率实现细节
A.1.零样本文本到视频评估设置 我们使用 1B 模型进行第一个 2× 空间超分辨率
阶段和第二个 2× 阶段的 500M 模型。
首先
我们报告零镜头文本到视频设置的详细信息
17×448×256的超分辨率舞台模型视频
这里。
我们注意到之前的文章中遗漏了一些细节
具有形状 (5, 56, 32) 标记序列的像素。

纸张和不同的纸张使用不同的设置。
因此,
第二阶段模型17×896×512像素的视频
我们提供所有细节并希望这次评估设置
具有形状 (5, 112, 64) 的标记序列。
代币
可以作为标准的文本到视频生成基准。
序列是用相同的 MAGVIT‑v2 获得的[77]
我们的结果报告在 8B 模型上,
我们采用
用于基本语言模型的分词器。
定制的超分辨率变压器具有局部自注意力
无分类器指导[32]。

垂直、
水平和时间层的窗口
分辨率所有指标均在生成的视频上进行评估
第一阶段形状 (1, 56, 4),(1, 8, 32),(5, 8, 8) 且
包含 16 帧,
分辨率为 256 x 256。
我们
第二阶段分别为(1, 112, 2),(1, 4, 64),(5, 8, 8)(图4)。
交叉注意力层关注局
首先生成 128 x 128 分辨率的视频,
然后调整大小

通过双三次上采样达到 256 x 256。
低分辨率序列中的窗口与自注意力窗口同构,
但空间大小只有一半。
零样本 MSR‑VTT对于 CLIP 分数,
我们使用了所有
来自 MSR‑VTT 测试集的 59,794 个字幕。
我们使用CLIP 我们在 64M 的数据集上训练超分辨率阶段
ViT‑B/16 模型遵循 Phenaki [65]。
我们注意到一些 使用掩模建模的高质量文本视频对
论文使用其他 CLIP 模型, 例如 VideoLDM [5]使用 MAGVIT [75] 的目标,
将代币分解为
ViT‑B/32。
我们在 ViT‑B/32 主干上评估的 MSR‑VTT 的 CLIP 分数为 30.01。 k = 2 组[77]。
在推理过程中,
我们使用 MAGVIT‑v2 [77]的采样算法,
具有 24
对于 FVD 指标,
为了评估各种字幕并与之前评估 2,048 个视频的论文进行比 个采样步骤
较,
我们 每个阶段和无分类器指导量表[7, 32]
在第一/第二阶段,
文本条件为 4.0/8.0,
低分辨率条件为 1.0/2.0。
评估 MSR‑VTT 测试中的前 40,960 个字幕
放。
更具体地说,
我们报告了 2048 年的 FVD 指标
A.4. 1B与8B型号对比
重复 20 次的视频。
提取FVD真实特征
来自 MSR‑VTT 测试集采样的 2,048 个视频。
我们 在图14 中,
我们显示了相同提示下 1B 和 8B 参数模型的输出。
最佳视频的四
对每个真实视频的中心 16 帧进行采样,
不带任何 帧
时间下采样,
即我们使用原始 fps 选择一批四个文本到视频样本中每个模型的输出来代表该模型。
在第一排,
MSR‑VTT 数据集([72] 中报告的 30 fps )。 FVD 为
使用在 Kinetics‑400 上训练的 I3D 模型进行评估。 1B模型不稳定,
主体变化较大
随着时间的推移,
会错过复杂提示中的元素。
零样本 UCF‑101根据 VDM [34],
我们采样 这个提示最初是用于缩放比较
来自 UCF‑101 测试集的 10,000 个视频,
并使用其类别作为文本提示生成 在[74]中,
与专用的仅图像模型相比,
我们的
10,000 个视频。
我们 考虑到训练数据,
模型不能很好地保留文本
使用 PYoCo [25]中提供的类文本提示来表示 101 个类别。
为了计算 FVD 真实 用过的。
在第二行中,
我们使用一个更简单的文本任务并显示
特征,
我们按照 TGAN2 [53] 从训练集中采样了 10K 视频。
我们对每个帧的中 8B模型可以清楚地表示单个字母,
但是
央 16 帧进行采样 1B 模型仍然会产生伪影。
在第三排,
我们
表明 8B 模型学习空间定位,
使得
没有任何时间下采样的真实视频,
, 即我们 河流就在宇航员和马的前面。 在第四个
使用 UCF‑101 数据集中的原始 fps([57] 中报告的 25 fps )。 FVD 指标使 行,
我们表明 8B 参数模型学会了停止
用 I3D 进行评估 动作风格让项目“一个接一个”
消失,
并且可以
在 Kinetics‑400 上训练的模型,
并使用在 UCF‑101 上训练的 C3D 模型评估
从长提示中遵循复杂的布局。
相比之下,
1B 模型包含所有名词,
但不稳定
IS 指标。

随着时间的推移,
并且不遵循图中所示的布局
A2。
自监督任务评估设置
迅速的。
在底行中,
我们展示了 8B 模型可以理解对象的数量,
因为它显示了完
自监督学习任务包括帧预测 整的花束
K600以5帧为状态,
以及修复和 (虽然 12 朵玫瑰没有明确出现在框架中)
并且光滑
SSv2 上的绘画。 FVD [63]用作主要 与 1B 模型 5 朵玫瑰相反,
一致的运动
公制,
以 128×128 分辨率的 16 帧计算。 1B 模型产生的扭曲物体。
总体而言,
缩放模型提高了时间一致性、
即时保真度
我们按照 MAGVIT [75]来评估这些任务 和运动动力学,
同时添加了以下功能:
各自的真实分布,
使用 50000×4 样本
SSv2 的 K600 和 50000 个样本。 有限的文本渲染、
空间理解和计数。

17 号
Machine Translated by Google

A.5. DAVIS 风格化评估


为了评估 CLIP 相似度得分和人类对视频风格化的偏好, 我们使用以
下一组视频和提示。 我们从 DAVIS 2016 [44] 中选择了 20 个视频,
对于每个视频, 我们从下面指定的初始帧开始拍摄 16 帧, 并根据下面
指定的两个文本提示评估风格化。 为了易于重现, 我们在视频的高度
使用中心方形裁剪, 并以 256x256 分辨率评估输出视频。 我们使用
CLIP‑B/16 进行相似度评分。 下面的几个提示是在以前的工作中使用
或受到启发的[15,23,39 ] 。

18
Machine Translated by Google

提示:
一张身穿橙色连帽衫、
戴着蓝色墨镜的袋鼠站在悉尼歌剧院前草地上的肖像照片,
胸前举着一块牌子,
上面写着“欢迎朋友!”

提示:
一只袋鼠举着写有字母A的牌子

提示:
一张宇航员在森林里骑马的照片。
他们前面有一条河,
河里有睡莲

提示:
由寿司制成的缩小的美国地图。
它位于桌子上,
旁边放着一杯红酒。
寿司一块一块消失

提示:
绕着装有一打玫瑰的花瓶旋转

图 14.在相同提示和设置下1B(左)
和 8B(右)
参数模型的比较。

19
Machine Translated by Google

视频名称 起始帧第一个文本提示

大象 大象 10 大象走开的油画
车转弯 10 大象走过被巨石包围的泥土的卡通动画
40 汽车行驶在乡村积雪的道路上
车转弯 40 8 位像素化汽车在路上行驶
狗敏捷性 0 漫画风格的狗
狗敏捷性 0 一只狗以赛博朋克风格穿过电线杆
小轮车颠簸 10 在太空中的彩虹轨道上骑自行车,
背景是恒星和行星
小轮车颠簸 10 以图画小说的风格在土路上骑自行车
火车 0 由糖果制成的姜饼蒸汽火车
火车 0 熔岩中的火车
公共汽车 0 一辆公共汽车的⿊白图画
公共汽车 0 赛博朋克风格的巴士
露西 0 宇航员在火星上行走
亚露 0 一个女人走路的粘土动画
西亚 15 机器人投掷激光球
网球 15 宇航员在月球表面打网球
网球 60 北极熊在冰山上探索
熊 60 一只太空熊在星空下行走
熊火烈 0 一群火烈鸟站在一些岩石和水附近的 2D 矢量动画
鸟 火烈 0 粉色火烈鸟涉水油画
鸟远 0 一位绿色的外星探险家在山中徒步旅行
足 远足 0 剪纸山和剪纸徒步旅行者
山羊 59 一只老虎沿着丛林上方的山脊徘徊
山羊 59 一条在月球陨石坑上徘徊的龙
跑酷 跑酷 60 一个人跳过红砂岩峡谷中的岩石
60 机器人躲避障碍物
奶牛 10 一头猪站在泥里
奶牛 10 机器牛在泥泞的路上行走
骆驼 10 雪天的骆驼机器人
骆驼 10 玩具骆驼站在栅栏附近的泥土上
⿊天鹅 ⿊天 0 一幅白天鹅的水彩画
鹅狗狗风 0 钩针⿊天鹅在有岩石和植被的池塘里游泳
筝冲 20 一只猫在行走
浪 20 达尔马提亚狗散步
风筝冲浪 10 沙滩冲浪者在沙漠中踢沙子
libby 10 日落时海上的风筝冲浪者
libby 0 中国水墨画的狗奔跑
0 小狗跑过草地的 3D 动画
horsejump‑high 0 神奇飞马跳过障碍物的卡通片
horsejump‑high 0 一个人骑着马跳过障碍物,
背景是北极光

表 5. DAVIS 风格化评估设置。

20

You might also like