OpenAl推出Sora模型一句话生成1分钟视频效果炸裂_商业

首页 > 要闻 > 商业 > 正文

申请成为签约作者 >

OpenAl推出Sora模型一句话生成1分钟视频效果炸裂

2024年02月18日 12:05

熙熙攘攘的人群中，有人在舞龙，舞龙动作相当丝滑标准还有人举起手机拍摄，场景细节丰富、严谨。很难想象，这并不是真实场景，而是OpenAI的模型Sora以“中国龙年春节"为提示词生成的视频片段。

据OpenAI官网，OpenAI首个视频生成模型Sora发布。Sori建立在过去对DALL·E和GPT模型的研究之上。它使用DALL·E 3的重述提示词技术，为视觉训练数据生成高度描述性的标注，因此能够更忠实地遵循用户的文本指令。

^{图：OpenAI首个视频生成模型Sora以“中国龙年春节"为提示词生成的视频片段显得非常真实}

OpenAI表示，正在教AI理解和模拟运动中的物理世界，目标是训练模型来帮助人们解决需要现实世界交互的问题。根据文本提示生成视频，仅仅是整个计划其中的一步。

除了能够仅根据文本指令生成视频之外，该模型还能够获取现有的静态图像并从中生成视频，准确地让图像内容动起来并关注小细节。该模型还可以获取现有视频并对其进行扩展或填充缺失的帧。

该模型可以深度模拟真实物理世界，标志着人工智能在理解真实世界场景并与之互动的能力方面实现了重大飞跃。

OpenAI声称，Sora模型能够生成包含多个角色、特定类型运动和主体及背景精确细节的复杂场景。该模型不仅能理解用户在提示中所要求的内容，还能理解这些事物在现实世界中的存在方式。该模型对语言有深刻理解，能准确解读提示，并生成表达丰富情感的引人入胜的角色。Sora还能在单个生成的视频中创建多个镜头，使角色和视觉风格保持准确-致。对于任何需要制作视频的艺术家、电影制片人或学生来说，这都带来了无限可能。

Sora还可以在单个视频中创建多个镜头，并依靠对语言的深入理解准确地解释提示词，保留角色和视觉风格。在官方博客中，OpenAI提供了很多 Sora生成的视频示例，非常超现实。

OpenAI表示目前已交由Team Red(网络安全演习中扮演敌人或竞争对手角色的群体)测试 Sora，评估潜在的危害或风险。此外，OpenAI还邀请了一支专业的创意人士测试，用于反馈其在专业环境中的实用性。0penAI计划根据这些反馈意见改进 Sora，确保它能有效满足用户的需求。

Sora是能够理解和模拟现实世界的模型的基础，OpenAI相信这一功能将成为实现AGI的重要里程碑。但Sora当前也存在弱点，OpenAI表示，模型在准确模拟复杂场景的物理特性方面可能会遇到困难，也可能无法理解具体的因果关系实例。例如“五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐”，狼的数量会变化，一些凭空出现或消失。

此外，模型还可能会混淆提示的空间细节，例如左右不分，并且在处理随时间发生的事件的精确描述方面也可能存在困难，比如跟踪特定的摄像机轨迹。

新技术的出现将重塑视频行业。制作一部专业电影需要大量的昂贵设备。这个模型将让普通人在社交媒体上制作出高质量的视频内容成为可能。

声明: 本文由入驻币海编者上传，观点仅代表编者本人，不代表币海财经赞同其观点或证实其描述，请自行判断。