OpenAI 推出了其最新作品 Sora,这是一个能够根据文本描述生成高质量视频的人工智能系统。Sora 代表了人工智能技术和创造潜力的重大飞跃。
Sora是什么?
Sora 是一款文本到视频的 AI 生成器,由一种称为扩散模型的新颖 AI 模型提供支持。用户提供描述视频场景的文本提示,Sora 会以长达 60 秒的全动态视频渲染场景。Sora 展现出的细节水平和连贯性对于迄今为止的人工智能来说是前所未有的。视频具有复杂的摄影工作、多个角色、生动的情感表达和准确的物理原理。
Sora 建立在 OpenAI 之前的工作基础上,包括用于图像生成的 DALL-E、用于生成文本的 GPT-3 和 GPT-4 等模型。即使拍摄对象短暂移出画面,Sora 视频也能保持一致性。人工智能已经了解了现实世界的物理特性,因此受试者不会做出奇怪的、不切实际的行为。与之前的生成模型相比,Sora 还利用变压器架构来实现卓越的可扩展性。
演示展示了 Sora 的创意潜力
OpenAI 通过一系列出色的视频提示展示了 Sora 的功能。当“一位时尚女性走在东京街头”的提示下,一位时装模特自信地昂首阔步地穿过繁华的城市。当行人挤满街道时,霓虹灯从潮湿的人行道上反射出来。另一个提示让人想起巨大的猛犸象在白雪覆盖的山谷中的足迹,这看起来就像是《冰河世纪》电影中的场景。
负责任的发展
但 OpenAI 强调,他们正在对 Sora 采取谨慎的安全预防措施。OpenAI 正在与错误信息、仇恨言论和媒体领域的专家密切合作,为 Sora 制定监督措施。这包括构建 AI 分类器来检测 Sora 生成的镜头并执行 OpenAI 的内容政策。外部研究人员还将有权在公开发布之前对 Sora 的防护措施进行对抗性测试。
研究人员认识到负责任地部署如此强大的视频生成模型所面临的挑战。但他们相信,通过与利益相关者的合作和透明度,像 Sora 这样的人工智能可以让人类的创造力更容易实现,同时降低风险。
索拉的工作原理
Sora 利用一种称为扩散模型的人工智能技术来渲染视频。该系统从随机噪声开始,然后通过数百个处理步骤逐渐将噪声转换为连贯的场景。与之前的生成式人工智能模型相比,扩散模型创建的内容具有卓越的真实感和流畅的运动。
Sora 基于 OpenAI 的 DALL-E 图像生成器,采用 DALL-E 的字幕技术来理解文本提示。这使得 Sora 能够将提示精确地转换为视频帧。Sora 还可以为现有图像制作动画或扩展现有视频剪辑。
该模型将视频表示为补丁的集合,类似于自然语言模型中的标记的小数据单元。这种统一的数据表示方式使研究人员能够使用不同时长、分辨率和宽高比的不同视频数据来训练 Sora。
Sora 使用变压器架构来实现长序列的强大可扩展性。Transformer 并行处理数据而不是顺序处理数据,从而使 Sora 能够保持长视频的一致性。研究人员认为,掌握现实世界的物理模拟使 Sora 成为具有常识推理能力的通用人工智能的垫脚石。
创作者和研究人员抢先体验
在集成到 OpenAI 产品之前,Sora API 访问权限目前已授予特定研究人员和创意专业人士。艺术家、电影制作人和设计师可以申请访问权限,以向 OpenAI 提供直接的产品反馈。专注于人工智能安全的研究人员也在分析 Sora 的功能和局限性。
通过尽早发现问题,OpenAI 旨在主动而非被动地制定监督措施。研究人员认为,吸纳不同的声音对于负责任地塑造 Sora 的发展至关重要。
虽然公开发布日期尚未确定,但 OpenAI 计划首先将 Sora 作为商业应用程序的付费服务推出。稍后将推出免费使用等级,以最大限度地提高可访问性。研究人员希望 Sora 能够激发人工智能增强人类创造力的新浪潮。