sora炸裂登场,OpenAI 正式加入AI 视频生成领域之战

资讯4个月前发布 AIGC学院
171 0
sora炸裂登场,OpenAI 正式加入AI 视频生成领域之战

人工智能(AI)行业又迎来了疯狂、震撼的一夜。

北京时间2月16日凌晨2点左右,美国OpenAI公司正式发布其首个文本-视频生成模型Sora。

据悉,通过简短或详细的提示词描述,或一张静态图片,Sora就能生成类似电影的逼真场景,涵盖多个角色、不同类型动作和背景细节等,最高能生成1分钟左右的1080P高清视频。

这是继Runway、Pika、谷歌和 Meta 之后,OpenAI 正式加入到这场 AI 视频生成领域“战争”当中,同时也是GPT、DALL·E之后,2024年 OpenAI 发布的旗下最新、最重要的 AI 产品系列。

OpenAI强调,“Sora是能够理解和模拟现实世界的模型的基础,我们相信这一功能将成为实现通用人工智能(AGI)的重要里程碑。”

sora炸裂登场,OpenAI 正式加入AI 视频生成领域之战

更早之前,谷歌昨夜23点突然升级了Gemini系列模型,并发布用于早期测试的Gemini 1.5第一个版本——Gemini 1.5 Pro,采用稀疏MOE架构,配备了128000 个 token 上下文窗口,性能和长文本都超过了GPT-4 Turbo。

从Sora到Gemini,所有人都在感叹:行业真的变天了,AI 快要把人类KO了;好莱坞的时代真的要结束了?

sora炸裂登场,OpenAI 正式加入AI 视频生成领域之战

OpenAI视频生成模型Sora诞生:效果炸裂、现实不存在了

OpenAI今晨公布的首个视频生成模型Sora,采用一种名为扩散模型的技术(diffusion probabilistic models)。

而且,与 GPT 模型类似,Sora 也使用了Transformer 架构,并完美继承DALL·E 3的画质和遵循指令能力,生成的视频一开始看起来像静态噪音,然后通过多个步骤去除噪音,逐步转换视频。

对于初学者来说,Sora 可以生成各种风格的视频(例如,真实感、动画、黑白),最长可达一分钟 —— 比大多数文本-视频模型要长得多。

这些视频保持了合理的连贯性。相比其他 AI 视频模型,Sora视频生成质量好多了,更让人“舒服”——没有出现“人工智能怪异”类场景。

比如,AI 想象中的“龙年春节”,Sora能形成紧跟舞龙队伍抬头好奇的儿童,也能生成海量人物角色各种行为。

sora炸裂登场,OpenAI 正式加入AI 视频生成领域之战

输入 prompt(提示词):一位 24 岁女性眨眼的极端特写,在魔法时刻站在马拉喀什,70 毫米拍摄的电影,景深,鲜艳的色彩,电影效果。

sora炸裂登场,OpenAI 正式加入AI 视频生成领域之战

输入 prompt(提示词):一朵巨大、高耸的人形云笼罩着大地。云人向大地射出闪电。

sora炸裂登场,OpenAI 正式加入AI 视频生成领域之战

输入 prompt(提示词):几只巨大的毛茸茸的猛犸象踏着白雪皑皑的草地走近,它们长长的毛茸茸的皮毛在风中轻轻飘动,远处覆盖着积雪的树木和雄伟的雪山,午后的阳光下有缕缕云彩,太阳高高地挂在空中距离产生温暖的光芒,低相机视角令人惊叹地捕捉到大型毛茸茸的哺乳动物,具有美丽的摄影和景深效果。

sora炸裂登场,OpenAI 正式加入AI 视频生成领域之战

通过这些动图来看,Sora不仅可以在单个视频中创建多个镜头,而且还可以依靠对语言的深入理解准确地解释提示词,保留角色和视觉风格。

当然,Sora也存在一些弱点,OpenAI表示,它可能难以准确模拟复杂场景的物理原理;可能无法理解因果关系;还可能混淆提示的空间细节;可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹等。

但瑕不掩瑜,Sora不仅能模拟真实世界,而且包括学习了摄影师和导演的表达手法,将 AI 视频惟妙惟肖地展现出来。

因此,Sora已经成为了目前最强的 AI 视频生成类模型。

在社交平台上,已经有一些视觉艺术家、设计师和电影制作人(以及OpenAI员工)获得Sora访问权限。他们开始不断放出新的提示词,OpenAI CEO奥尔特曼开始了“在线接单”模式。

带上提示词@sama,你就有可能收到奥尔特曼“亲自发布”的 AI 视频回复。

sora炸裂登场,OpenAI 正式加入AI 视频生成领域之战

截至发稿前,OpenAI公布了更多关于Sora的技术细节。

技术报告显示,OpenAI并不是把Sora单纯当做一个视频模型来看待:将视频生成模型作为“世界模拟器”,不仅可以在不同设备的原生宽高比直接创建内容,而且展示了一些有趣的模拟能力,如3D一致性、长期一致性和对象持久性等。

“我们探索视频数据生成模型的大规模训练。具体来说,我们在可变持续时间、分辨率和宽高比的视频和图像上联合训练文本条件扩散模型。我们利用对视频和图像潜在代码的时空补丁进行操作的Transformer架构。我们最大的模型 Sora 能够生成一分钟的高保真视频。我们的结果表明,扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。”OpenAI表示。

sora炸裂登场,OpenAI 正式加入AI 视频生成领域之战

整体来看,Sora生成的视频噪音比较少,原始的训练数据比较“干净”,而且基于ChatGPT、DALL·E 文生图技术能力,Sora视频生成技术更加高超。

消息公布后,网友直呼,工作要丢了,视频素材行业要RIP。

sora炸裂登场,OpenAI 正式加入AI 视频生成领域之战

论文链接:https://shrtm.nu/sqr

(来源:钛媒体)

© 版权声明

相关文章

暂无评论

暂无评论...