sora炸裂登场，OpenAI 正式加入AI 视频生成领域之战

资讯5个月前发布 AIGC学院

180 0 0

人工智能（AI）行业又迎来了疯狂、震撼的一夜。

北京时间2月16日凌晨2点左右，美国OpenAI公司正式发布其首个文本-视频生成模型Sora。

据悉，通过简短或详细的提示词描述，或一张静态图片，Sora就能生成类似电影的逼真场景，涵盖多个角色、不同类型动作和背景细节等，最高能生成1分钟左右的1080P高清视频。

这是继Runway、Pika、谷歌和 Meta 之后，OpenAI 正式加入到这场 AI 视频生成领域“战争”当中，同时也是GPT、DALL·E之后，2024年 OpenAI 发布的旗下最新、最重要的 AI 产品系列。

OpenAI强调，“Sora是能够理解和模拟现实世界的模型的基础，我们相信这一功能将成为实现通用人工智能（AGI）的重要里程碑。”

更早之前，谷歌昨夜23点突然升级了Gemini系列模型，并发布用于早期测试的Gemini 1.5第一个版本——Gemini 1.5 Pro，采用稀疏MOE架构，配备了128000 个 token 上下文窗口，性能和长文本都超过了GPT-4 Turbo。

从Sora到Gemini，所有人都在感叹：行业真的变天了，AI 快要把人类KO了；好莱坞的时代真的要结束了？

OpenAI视频生成模型Sora诞生：效果炸裂、现实不存在了

OpenAI今晨公布的首个视频生成模型Sora，采用一种名为扩散模型的技术（diffusion probabilistic models）。

而且，与 GPT 模型类似，Sora 也使用了Transformer 架构，并完美继承DALL·E 3的画质和遵循指令能力，生成的视频一开始看起来像静态噪音，然后通过多个步骤去除噪音，逐步转换视频。

对于初学者来说，Sora 可以生成各种风格的视频（例如，真实感、动画、黑白），最长可达一分钟 —— 比大多数文本-视频模型要长得多。

这些视频保持了合理的连贯性。相比其他 AI 视频模型，Sora视频生成质量好多了，更让人“舒服”——没有出现“人工智能怪异”类场景。

比如，AI 想象中的“龙年春节”，Sora能形成紧跟舞龙队伍抬头好奇的儿童，也能生成海量人物角色各种行为。

输入 prompt（提示词）：一位 24 岁女性眨眼的极端特写，在魔法时刻站在马拉喀什，70 毫米拍摄的电影，景深，鲜艳的色彩，电影效果。

输入 prompt（提示词）：一朵巨大、高耸的人形云笼罩着大地。云人向大地射出闪电。

输入 prompt（提示词）：几只巨大的毛茸茸的猛犸象踏着白雪皑皑的草地走近，它们长长的毛茸茸的皮毛在风中轻轻飘动，远处覆盖着积雪的树木和雄伟的雪山，午后的阳光下有缕缕云彩，太阳高高地挂在空中距离产生温暖的光芒，低相机视角令人惊叹地捕捉到大型毛茸茸的哺乳动物，具有美丽的摄影和景深效果。

通过这些动图来看，Sora不仅可以在单个视频中创建多个镜头，而且还可以依靠对语言的深入理解准确地解释提示词，保留角色和视觉风格。

当然，Sora也存在一些弱点，OpenAI表示，它可能难以准确模拟复杂场景的物理原理；可能无法理解因果关系；还可能混淆提示的空间细节；可能难以精确描述随着时间推移发生的事件，例如遵循特定的相机轨迹等。

但瑕不掩瑜，Sora不仅能模拟真实世界，而且包括学习了摄影师和导演的表达手法，将 AI 视频惟妙惟肖地展现出来。

因此，Sora已经成为了目前最强的 AI 视频生成类模型。

在社交平台上，已经有一些视觉艺术家、设计师和电影制作人（以及OpenAI员工）获得Sora访问权限。他们开始不断放出新的提示词，OpenAI CEO奥尔特曼开始了“在线接单”模式。

带上提示词@sama，你就有可能收到奥尔特曼“亲自发布”的 AI 视频回复。

截至发稿前，OpenAI公布了更多关于Sora的技术细节。

技术报告显示，OpenAI并不是把Sora单纯当做一个视频模型来看待：将视频生成模型作为“世界模拟器”，不仅可以在不同设备的原生宽高比直接创建内容，而且展示了一些有趣的模拟能力，如3D一致性、长期一致性和对象持久性等。

“我们探索视频数据生成模型的大规模训练。具体来说，我们在可变持续时间、分辨率和宽高比的视频和图像上联合训练文本条件扩散模型。我们利用对视频和图像潜在代码的时空补丁进行操作的Transformer架构。我们最大的模型 Sora 能够生成一分钟的高保真视频。我们的结果表明，扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。”OpenAI表示。

整体来看，Sora生成的视频噪音比较少，原始的训练数据比较“干净”，而且基于ChatGPT、DALL·E 文生图技术能力，Sora视频生成技术更加高超。

消息公布后，网友直呼，工作要丢了，视频素材行业要RIP。

论文链接：https://shrtm.nu/sqr

（来源：钛媒体）

# 资讯