OpenAI再现黑科技！发布文字生影片AI“Sora”

OpenAI今天正式发表文字转影片生成式AI「Sora」！就跟DALL-E一样，只要给出文字叙述（或静态图片也可以），Sora可以自动生成1080p动画，各种不同的角色、动作类型和背景细节全方位配件生成！

经过，Sora 可以生成各种风格（包括真实电影，动漫风或黑白）的影片，长度接近一分钟，显然超过目前大多数其他测试的文字转影片模型，而且这些影片都关心在保持合理的连贯性上，好像他们的第一款影片中除了文字之外，街头水洼的倒影、衣服随手行走的展示效果，甚至是主角的脸上的肌理都栩栩如生。

OpenAI 表示，Sora 是基于 DALL·E、GPT 模型的研究成果，一方面使用 DALL·E 3 专着的重述生成技术，能够为视觉资料高度描述性的标题，所以索拉可以更忠实、也更新遵循用户的文字指令，并生成丰富的情感、引人入胜的角色，甚至索拉还可以深入理解现实世界物理中真正提到的人、事、物的指令存在的面貌。

当然OpenAI的Sora展示页面新生儿或少有一点浮夸成分在，但这些展示影片如果没有作假、没有事后调整，跟其他文字生成影片的话AI模型对比确实是创制最高竿的技术，令人印象深刻。

就像目前所有的生成式 AI 一样，OpenAI 表示 Sora 还是有很多问题，可能难以准确模拟复杂场景的物理原理，也可能无法理解因果关系。例如一个人咬了一口饼干，但在之后的影片里饼干上可能没有咬痕；或者无法准确理解指令中的空间关系，可能会出现左右矛盾，或者难以生成希望的镜头移动角度等。

目前 OpenAI 并没有将 Sora 开放，起码普拉子里目前只能定位为「完全预览研究」，只有特定跟官方合作的人可以使用，已经跟一些外部人士组成「红队可以使用 Sora 来评估相关风险，同时也向一些艺术家、设计师和电影制作人提供使用权限，以获得改进模型的意见。

OpenAI表示，还将跟专家合作探索模型的漏洞，并正在建立定位工具，来检测网路上的影片是否由Sora生成；同时还将跟全球政策制定者、教育者、艺术家接触，来探讨如何不会被偷窃。

本文来自INSIDE，经授权后发布，本文观点不代表沙鸥科报立场，转载请联系原作者。