Sora工作原理及其意义

OpenAI的新文本转视频模型预示着一种新形式的电影制作。

听着，我们不会做的事情有这些：我们不会惊慌失措，我们不会预言乌托邦或者预测末日，我们要保持冷静头脑……

你真的看到了SORA吗？？？

OpenAI的新文本到视频模型可以生成一个60秒的逼真视频，视频中有一对可爱的金毛寻到在山顶播客。它可以生成一个由灿烂动物园中一只老虎懒洋洋地躺在镶满祖母绿的围栏内和一只布朗系被笼子围住戴着国王王冠的白头猴的视频。它还可以生成一个带着粉红色花纹围裙在乡村厨房里做土豆团子的AI意大利祖母的视频。（她的手看起来有点像《无所不在》中的热狗手指，但即使如此，那也是部电影！）

这太疯狂了。太不可思议了。它甚至让Mr. Beast 在推特上发文问Sam Altman：“请不要让我没家可住。”

我想起契诃夫的一句话，“我像我理解闪电一样理解了它。”他当时可能就在谈论SORA。演示给我的感觉像是身体上被电击一样，震撼到了我。

哎呀，我终于把内心的情绪发泄出来了。这一点很重要，因为写一篇关于OpenAI的令人兴奋的新作品的文章有点像是在斯库拉和卡力普迪斯之间航行：

这种模因格式灵感来源于 Visakan Veerasamy .

我的一个大脑区域里有朝里而立的厄运多头龙，他们告诉我该炸毁这些数据中心，否则电影行业将像梅尔·吉布森的职业生涯一样燃烧殆尽。我的另一个大脑区域里是充满乐观主义的量子漩涡，它已经计划好了我一旦拥有这个模型就会创作出皮克斯风格的电影。世界终将认识到我是乔治·卢卡斯的未发现的继任者，这是我暗暗知道自己一直以来都是的——也不管我是否曾经制作过一部电影。

问题是，我知道我大脑的两个区域都是错的。

我的大脑误把_新奇_当成了它本不具备的东西。我从观看这些演示中得到的感觉与观看一部精彩的电影、YouTube视频或TikTok影片并不相同。为什么呢？我知道，随着时间的推移，这些演示的新奇感将消失，它们将变得正常——甚至是平凡的。我将不再因此而激动。但精心制作的电影将仍然具有吸引力。

对于如此先进的科技进展，保持头脑清醒的最佳方式是将其以长期趋势的角度来思考。尤其是SORA和AI电影制作，是两个重要趋势的延伸：

浩大的数据量和计算量被用于生成令人难以置信的AI突破
技术推动电影制作成本下降

我们来详细谈谈这两个方面。

SORA如何利用海量数据生成令人震撼的视频剪辑

AI的运行依赖于规模：更多的数据和更多的计算意味着更好的结果。SORA之所以令人印象深刻，是因为OpenAI找到了一种比其他人更好地将更多数据和计算投入到文本到视频中的方法。下面是一个根据我从它的白皮书中了解到的信息，简化描述的过程。

想象一下《黑暗骑士》的电影胶片。你知道我在说什么：卷绕在金属盘上的那卷聚酯薄膜，一个穿着红色燕尾服的年轻人将其连接到旧式电影院的放映机上。

你从卷轴上拆下电影胶片并把头100帧电影剪下来。然后，你对每一帧进行以下奇怪的仪式操作：在第一帧上用手工刀切一个葫芦酒豆状的划片。你用镊子小心翼翼地把这个葫芦酒豆状的聚酯胶片剪下来，放在一个安全的地方。然后你移动到下一帧：你从下一帧的相同部位切下同样形状的葫芦酒豆状孔洞。你用镊子取下这个新的葫芦酒豆——跟上一个刚好一样的形状——并小心翼翼地叠放在第一个上面。你一直这样操作，直到处理完所有的100帧。

现在，你手上有一个沿Y轴伸展的多色葫芦酒豆。这是一座由聚酯薄膜制成的塔，可以通过放映机显示《黑暗骑士》片中的一小部分，就好像有人在放映机前用松松的拳头挡住，只让一点点电影透过。

然后，这个塔被压缩并转化为“patch”——一团随时间变化的颜色涂抹。这个“patch”就是SORA的基本单元，就像“token”是GPT-4的基本单元一样。“Token”是单词的一部分，而“patch”是电影的一部分。

GPT-4已经经过训练，能够接受一系列“token”的输入，并输出序列中的下一个“token”。SORA也是通过训练来实现相同的功能：它接收一系列“patch”的输入，并输出序列中的下一个“patch”。

“Patch”的创新以及SORA表现出来的强大功能的原因在于，它们使OpenAI能够使用巨大量的图像和视频数据进行训练。想象一下从所有现存的视频中剪切出的“patch”——无限量的聚酯塔——堆叠在一起并馈入模型。

以前的文本到视频方法需要在训练中使用的图像和视频都具有相同的大小，这就需要对视频进行大量预处理，将其裁剪到合适的尺寸。但是，由于SORA在训练中使用的是“patch”而不是完整的视频帧，它可以处理任何大小的视频或图像，而无需对其进行裁剪。

结果，可以使用更多的数据进行训练，获得更高质量的输出。例如，将视频预处理为新的宽高比通常意味着它们被剪裁的方式会使视频的原始构图遗失。例如，一个在宽屏中心显示人物的视频，在剪裁时可能只能显示部分人物。因为SORA可以接收任何视频作为训练输入，所以其输出不会受到训练输入构图不良的影响。

SORA的另一个重大进展是使用的架构。传统的文本到视频模型如Runway是扩散模型，而文本模型如GPT-4是转换器模型。SORA是扩散转换器的混合体：两者的融合。SORA不是预测序列中的下一个词，而是预测序列中的下一个“patch”。通过使用这种架构，OpenAI可以将更多的数据和计算投入到SORA的训练中，结果是令人惊叹的。

当SORA视频首次发布时，人们对它感到惊讶，因为它可以模拟咖啡杯中咖啡液体的流体动力学。他们误以为OpenAI已经将SORA与游戏引擎（驱动视频游戏并可以模拟物理效果的算法）连接起来以生成此类结果。但事实并非如此。SORA可以自己创建出像那样的图形。

GPT-4似乎通过学习语法规则来预测序列中的下一个单词。

而SORA这样的扩散转换器模型似乎是通过学习物理规律——宇宙的语法，来预测视频的下一个片段。OpenAI将SORA视为“世界模拟器”的第一步，能够通过文本提示来模拟现实的任何一部分。

这太令人震撼了。它将对电影制作产生重要影响。

技术如何塑造电影制作

在这种视频成为常态的世界中，将会有何不同？电影制作的方方面面可能都会有所改变，而这是一件好事。

电影制作在历史上一直非常昂贵。相机、灯光、情绪不稳定的演员——这些都需要大量的费用。这就是为什么电影行业是一个行业，而不是一个艺术家的聚落。

在电影的历史大部分时间里，只有少数人有机会制作电影。它们风险很高！你需要资金来制作电影。只有一些人能够筹集到足够的资金承担制作一部昂贵的失败作品的风险。制作电影就像创办一家公司一样困难。

在过去的二十年里，这种情况开始改变。例如，互联网和iPhone带来了一种重大变革，使得制作和分发电影的设备能够进入比以前更多的人手中。它催生了一种全新的电影制作形式：YouTube视频、TikToks、Reels和Quibbis。（好吧，也许没有Quibbis。）

这个时代的电影制作风格与好莱坞不同，受到可用技术和资源的限制和塑造。例如，人们知道YouTuber喜欢直面摄像头的独白、快速剪辑以及展示日常琐事的视频——这是一种你可以自己在房间里用iPhone制作的视频类型。

AI技术使得在房间里制作各种视频变得更加简单。Runway已经公开提供，它允许你将图像（无论是真实的还是AI生成的）转换成四秒的视频剪辑。你可以让图像的不同元素以不同的方式移动，并控制相机的运动。就像你有能力让图像像《哈利·波特》中的魔法照片那样动起来。

这些工具也催生了一种新的电影制作风格，它受到其独特力量和局限性的影响和塑造。例如，它们可以轻松地用现有的知识产权来创作使用新的背景和风格的AI视频。常见的一种情节是将两个共有的大众文化元素融合在一起，就像一个剪辑将_星际大战_的角色以韦斯·安德森的风格呈现出来。

另一个例子是当今视频模型（如Runway）的架构，它使得在不同剪辑中始终生成相同角色变得棘手。你可以让它们看起来相似——有着家族的相似之处——但控制不够精细，不能让角色看起来完全一样。因此，AI电影往往更像是视觉蒙太奇：几秒钟的片段，快速剪辑和旁白讲述一个故事，而不是一组固定演员在摄像机前对话的剧情。

SORA是这些工具能力的一次飞跃，使得AI电影制作能够以更少的资源做更多的事情。视频剪辑可以长达60秒，这将带来更多种类的编辑风格。SORA能够进行的运动和物理模拟比任何公开发行的模型都要好得多。这将允许比目前可行的更复杂的场景、角色动作和角色与周围世界的互动。

这将对电影制作产生什么影响？

当今的AI电影制作

有时你会觉得宇宙在帮助你，就像打出一手直接在手上抓了一个小对子的河牌一样。恰好在Sora发布的两天前，我在这周的我的播客节目中采访了AI电影制作的前沿人物，所以我对这方面了解一些。那次访谈将在两周后播出，但我想告诉你一些我学到的东西。

Dave Clark是一位传统电影制作人，他开始制作AI生成的视频。他最近制作了一部名为*Borrowing Time*的科幻短片，灵感来自于他父亲在1960年代作为一个黑人的经历。他完全通过Midjourney和Runway生成图像和视频来制作这部电影。他亲自担任电影的旁白，并使用Eleven Labs将自己的配音变成不同角色的声音。

《Borrowing Time》在网络上迅速传播，Dave告诉我，如果没有AI，他无法制作这部电影。用传统好莱坞制片厂的方式没办法为这样的科幻短片筹资。但现在，既然它已经出来了并且很受欢迎，他说他正接到顶级好莱坞制片厂的兴趣，他们希望将其打造成一部完整的电影。

这个轶事深刻地说明了像SORA这样的AI模型将来如何改变电影制作。

电影概念将更容易进行测试

如果你想在SORA的世界中制作一部科幻电影，你只需要一台笔记本电脑和一些OpenAI积分即可。更多的人将能够制作反映他们想象的视频，无需通过传统的门卫获得批准或筹款。而且这不仅仅适用于播客或者独白的YouTuber，任何人都有这个机会。

获得关注的视频制作者将更有可能获得资金来将其制作成电影——很像现在的作家使用推文和通讯来得到出版合同一样。

大制作电影的成本将降低

在SORA这样的AI工具的作用下，传统好莱坞电影的制作成本将在真空中降低。《无所不在》使用Runway进行特效，只用了八个人的团队就能展现出令人惊叹的事迹（比如热狗手！）。作为对比，《怪物史莱克》有大约300人参与制作。

理论上，SORA应该会让制作类似《无所不在》这样的作品更加常见。但是，现有的商业结构和工会协议可能会使得好莱坞很难充分利用这些工具。相反，新的电影制作形式将在其他地方蓬勃发展。

AI电影制作将成为一种独特的形式，好莱坞将变得不那么重要

正如iPhone和互联网导致了视频博客和化妆教程的蓬勃发展一样，AI电影制作将以其自身的风格和形式创造出一种全新的电影类型。我预计我们已经看到的那些视频类型将会大量涌现：使用现有知识产权的融合和剪辑，快速剪辑和旁白独白应该会成为该类型的固定元素，直到技术再次发生变革。（据我们所知，SORA生成的视频中的演员无法表达与特定对话行之间的面部动作）。

这些AI视频不会取代传统的好莱坞电影制作——就像YouTube视频没有取代它们一样——但它们很可能在思维和市场份额上有所分散，特别是在年轻人中间。

创造力的未来

本文前面提到了SORA正在延伸的长期趋势：

每天产生更多数据和利用更多计算能力以生成更令人印象深刻的AI结果
技术降低电影制作的成本，从而改变了制作哪些类型的电影以及由谁制作电影

希望这些趋势能够让你对SORA的能力有一个更广阔的视野。但还有一个重要的趋势我想要结束的时候强调一下。

过去几个月，我一直在写关于我们从知识经济向配置经济过渡的文章：我们正在从一个你所拥有的知识决定你的薪酬的世界过渡到一个你所拥有的智慧配置能力决定你的薪酬的世界。在这个世界里，即使是个体贡献者或者创业者也会成为经理，但我们管理的对象不再是人类，而是模型。

显然，SORA符合这种模式：你越懂得如何将其作为创造令人难以置信的事物的工具来管理，你在新经济中的位置就越好。但最令人兴奋的是，它扩大了能够在世界上制作东西的人群。

就像GPT-4使任何人都有可能通过坚持不懈而发布网络应用一样，SORA使任何人都有可能制作视频。当我说任何人时，包括你。

SORA不能让你轻松地一键制作出一部伟大的视频。讲故事需要比那更多的技巧、品味和投入。但任何人都可以开始，学习这些技能，并有机会成为伟大的人──他们所需要的只是一台笔记本电脑。

如果你是一个有创意的人，现在无疑是生活中最好的时代。

编者按：对SORA的解释故意简化了。构成“patch”的视频像素在使用它们之前被压缩到一个较小的潜在空间中。有关完整细节，请阅读白皮书（本文中也有链接）。

内容由GeekAI网页翻译服务自动翻译完成。原文地址：https://every.to/chain-of-thought/sora-and-the-future-of-filmmaking