视频生成模型Sora是“阿拉丁神灯”还是“潘多拉魔盒”?

发布时间:2024-10-12 21:41:40 来源: sp20241012

  视频生成模型Sora横空出世,让影视、广告业乃至教育界人士顿生危机感——

  “阿拉丁神灯”?“潘多拉魔盒”?

  “现实不存在了?”用“你方唱罢我登场”来形容春节假期最后两天大洋彼岸的“疯狂”,再贴切不过了。北京时间2月16日,谷歌的Gemini Pro 1.5还没出几个小时的风头,天一亮,全世界的聚光灯就集中在了OpenAI的Sora身上。

  Sora,新型视频生成模型,它可以根据简短的文字提示(prompt),将其转化为长达一分钟的高清视频,镜头感堪比电影。

  未来,各种Sora视频或将现身并“占领”视频社交平台,其对现实的影响与改变,可谓巨大。

  AI视频要“变天”了

  Sora“逆天”在哪儿?它不仅能够根据文字指令创造出既逼真又充满想象力的场景,而且能生成长达1分钟的超长视频,还是一镜到底那种。

  从发布的视频来看,60秒的视频中,视频主体与背景保持了高度的流畅性与稳定性,在一个视频里实现多角度镜头,分镜切换符合逻辑且流畅。此外,Sora对于光影反射、运动方式、镜头移动等细节处理非常到位。

  “这座城市洁净无瑕,到处可见先进的未来式有轨电车、绚丽的喷泉、巨型的全息投影以及四处巡逻的机器人。”……OpenAI首席执行官山姆·奥特曼也亲自“下场”,在社交媒体上根据网友给出的prompt输出视频。

  Sora的视频效果,几乎和人工拍摄不相上下,由此带来的强大冲击让无数人感叹:“现实,不存在了。”OpenAI是怎么做到的?根据官网介绍,“通过一次性为模型提供多帧的预测,我们解决了一个具有挑战性的问题。”数小时后,Sora的技术报告发布,尽管依旧“很OpenAI”——不包括模型和实现细节。技术报告中,“里程碑”是关键词。Sora还能将静态图像转化成视频,以该图像为背景,在视频中添加一些动态的元素,使图像变得更加生动。

  据悉,OpenAI目前没有向公众发布Sora的计划,但将首次开始与第三方安全测试人员共享该模型。

  对相关行业具颠覆性

  纽约大学助理教授谢赛宁直言:“Sora将改写整个视频生成领域。”谢赛宁分析,Sora应该是建立在DiT这个扩散Transformer之上;在视频压缩网络上可能采用VAE架构,区别就是经过原始视频数据训练。他推算Sora可能有大约30亿个参数,并表示:“Sora或许并不需要人们想象中的那么多GPU来训练,如果真是如此,Sora的后期迭代将会非常快。”

  英伟达人工智能研究院首席研究科学家Jim Fan认为,Sora是一个数据驱动的物理引擎,称这是视频生成领域的GPT-3时刻,“回到2020年,GPT-3不是一个很完美的模型,但是它有力证明了上下文学习的重要性,所以不要纠结于GPT-3的缺陷,多想想后面的GPT-4”。

  360创始人周鸿祎也发布微博,提到自己对Sora的看法。在他看来,Sora只是小试牛刀,它展现的不仅仅是一个视频制作能力,而是大模型对真实世界有了理解和模拟之后,会带来新的成果和突破。周鸿祎写道:“这次OpenAI利用它的大语言模型优势,让Sora实现了对现实世界的理解和对世界的模拟两层能力,这样产生的视频才是真实的,才能跳出2D的范围模拟真实的物理世界。”他认为,AI不一定那么快颠覆所有行业,但它能激发更多人的创作力,“今天Sora可能给广告业、电影预告片、短视频行业带来巨大的颠覆,但它不一定那么快击败TikTok,更可能成为TikTok的创作工具”。

  周鸿祎也直言:“一旦人工智能接上摄像头,把所有的电影都看一遍,把YouTube和TikTok上的视频都看一遍,对世界的理解将远远超过文字学习,一幅图胜过千言万语,这就离AGI真的不远了,不是10年、20年的问题,可能一两年很快就可以实现&#