发布时间:2024-12-16 02:00:18 来源: sp20241216
《中国新闻周刊》记者/李静
发于2024.3.18总第1132期《中国新闻周刊》杂志
输入寥寥数语,便能生成连贯稳定的60秒视频。OpenAI新爆款Sora问世之后,在AI领域又投下了一枚重磅“炸弹”,距离2月16日凌晨(美国时间2月15日)的发布过去一段时间了,讨论仍处在白热化程度。
尽管Sora尚未对国际用户开放注册,科技行业内外的从业者却都开始了关注和调研,有人忧虑有人兴奋,其中尤其以影视、游戏、动漫等文化行业遭遇的冲击最为直接。毕竟,过去人们如果想要拍摄一段哪怕简单的视频,先要撰写脚本,然后布置现场,花时间录制,再进行各种后期制作、剪辑,最终才能成型,而如今,这一切似乎都被颠覆了。
在OpenAI公布的60秒视频里,场景、人物,乃至他们的动作和互动,都以惊人的真实性和细腻度呈现出来,即使在一个跳跃剪辑的场景中,Sora也像一个经验丰富的电影导演一样,确保每一帧图像流畅衔接。它似乎已经能够处理物体和角色的连续性,在单个视频的不同镜头间,即使某些角色暂时不出现在画面中,当它们再次出现时,依旧能够稳定保持之前的状态。它还可以为同一个角色创造多个视角,就像现实生活中的人们从不同角度观察同一事物一样。
有人说,照这样下去,Sora很快就可以“喂剧本,吐电影”了,如果每个使用Sora技术的普通人都能轻易做出一部电影,那么导演这个工种还会存在吗?如果连导演都不再是一个需要专业背景的职业,那么灯光、摄像、置景、化妆、后期,甚至演员呢?
Sora“听得懂人话”
2月16日凌晨,杭州智聊思远互联网科技有限公司首席执行官喻林枫正准备睡觉,突然接到朋友发来的Sora相关报道,他的第一反应是“被打脸了”。
喻林枫的公司在生成式AI行业中已经摸爬滚打了一年,今年春节关注年轻人社交痛点的“生成式AI游戏”《决战·拜年之巅》就由他们开发。在喻林枫看来,直到去年年底,在“生成式人工智能AIGC”领域,最成熟的都还是文本类,文生图次之,视频模态一直偏向于学术研究,无论Runway、谷歌还是Pika,虽然都三天两头发布消息,但是那些应用的效果,“简直就不是给人看的”,更不要说什么工业化用途了。所以喻林枫一直在说,文生视频领域的“GPT时刻”不会这么早到来,没想到2024年才过去1个多月,Sora就出现了。
Sora的出现速度,几乎超出所有人的预料。在Sora横空出世之前,Runway一直被视为AI生成视频的默认选择,尤其是自去年11月推出第二代模型以来,Runway还被称为“AI视频界的MidJourney”。第二代模型Gen-2不仅解决了第一代AI生成视频中每帧之间连贯性过低的问题,在从图像生成视频的过程中也能给出很好的结果,Runway能够生成4秒长的视频,用户可以将其最多延长至16秒,是AI生成视频在2023年所能达到的最长时长纪录。Stable Video也提供4秒的视频,Pika则是3秒。
极客电影创始人、科影融合专委会副主任李东东告诉《中国新闻周刊》,科影融合专委会里是一群对科学技术和电影融合路径课题最感兴趣的人,在好几次影视创作者和科学界的交流座谈里,大家讨论人工智能可能发展成什么样,文成视频是大家都能想象到的,但是没人想到这么快。李东东有好几个AI相关的微信群,Sora的视频公布后,每一个群里都在嚷嚷“震惊”。“比我们想象的得快了两年。”李东东说。
看到朋友发来的Sora报道后,正准备睡觉的喻林枫连夜研究了OpenAI公布的样片和技术报告。与Runway、Pika等“前辈”相比,Sora展示的样片不仅时长更长,同时画面也更稳定可控,通俗点说,就是Sora生成的视频是“讲道理”的。OpenAI的技术报告中,详细阐述了其“友好”的应用范畴,例如,当用户对Sora输入自己的想法,同属一个公司的大语言模型ChatGPT-4会帮助用户把简略的想法生成得更加详细,还有OpenAI开发的文生图模型Dall-E3一起加持。“Dall-E出到第三代,它本身理解自然语言的能力已经很强了,再加上ChatGPT-4帮忙组织,未来使用Sora时,人们不需要精心组织提示词,简单说,就是它‘听得懂人话’。”喻林枫对《中国新闻周刊》解释,“可以想象,它的使用门槛会很低。”
李东东觉得,这一点仔细想想很恐怖,因为ChatGPT-4已经成为全球大多数人的应用工具,它集合了全世界的人们对世界的理解,这些数据就是AI的“原油”,在大语言模型ChatGPT-4拥有足够多数据这个得天独厚的优势下,Sora的聪明度很可能不是线性提升,而是带着加速度的指数级提升。
不仅可以直接用文字生成视频,Sora还接受图生视频或是两者结合,例如上传图片和提示语,指定图片为视频第一帧或是结尾的最后一帧;它可以改编视频,例如一辆在沙漠里行驶的赛车,可以通过Sora把背景换成热带雨林。Sora还能实现两个视频之间的平滑过渡,OpenAI官方称之为“连接视频”(Connecting videos),它能够在两个输入视频之间实现渐进插补(gradually interpolate),在主题和场景构成都完全不同的视频之间,生成无缝转换的效果。从公布的几个测试视频看,效果都堪称神奇而梦幻。
电影博主“迷影心生”感慨说:“可以尝试想一下,如果是你,只拿到了相应的原视频,让你发挥想象力,仅仅是要实现从A视频过渡到B视频的方案,应该都是要好好构思一阵子的(都暂且不考虑技术上“实现”的时间和成本)。”
于是,很多人说,影视界要变天了,尤其是科幻、奇幻类作品,毕竟,这类作品考验的就是脑洞、奇观和创建另一个世界的能力。
打不过就加入
郁刚是《流浪地球》第一部的副导演,最近几年,他在筹备自己的科幻电影,一直关注生成式人工智能的发展。2月16日一起床,他就看到自己那几个AI群里已经“炸了锅”。他对60秒的Sora官方视频印象最深的就是一位女性行走在东京街头,不仅主体连贯稳定,还有多镜头,包括从大街景慢慢切入到对脸部表情的特写,皮肤瑕疵清晰可见,潮湿的街道地面反射着霓虹灯的光影效果。
从导演的角度看,他觉得Sora比之前普遍使用的Runway等视频生成类AI在动态表现和稳定性上有了质的飞跃,个别镜头已经快要达到专业影视生产的水准,不仔细分辨,已经无法区分是否实拍。
这让不少内容创作者产生了焦虑。一位名为Paddy Galloway的YouTube博主对Sora评论说:“内容创作行业已经永远地改变了,这绝不是言过其实……任何人都可以无壁垒地制作出难以置信的产品,内容背后的‘想法’和故事将变得更加重要。”今年元旦档大热的影片《年会不能停》导演董润年在社交媒体上说:“传统影视行业基本上要结束了。大家想想转行以后做点什么。”
“Sora的出现当然很令人震惊,但其实最焦虑的时刻已经过去了,大家最感到焦虑时是去年夏秋之交。”李东东告诉《中国新闻周刊》,那时影视行业还没彻底从疫情中恢复,OpenAI发布ChatGPT之后生成式人工智能大踏步地发展,面对未知,人们本能地会感到恐惧。看到了行业内的焦虑和讨论,2023年夏天,科影融合专委会干脆举办了一场户外研讨会,影视行业里不少决策者、创作者都赶来参加,李东东记得研讨会地点刚好背对着一面湖水,大家开玩笑说:“这是要背水一战了。”
那时,业内人都知道最焦虑的人是导演郭帆。2023年10月举办的平遥国际电影展上,导演宁浩说:“郭帆见我一次就说一次AI又进步了”。
郭帆告诉《中国新闻周刊》:“人在不知道该怎么办的时候最焦虑。”去年有近半年,他每天除了睡觉的几个小时,工作之余的全部时间几乎都用来琢磨人工智能。新技术每天都在变得更新,《流浪地球2》的全部宣传工作结束后不久,郭帆就带着团队开启了全球范围的考察和学习。从上海人工智能实验室、商汤、华为、小米到新西兰维塔工作室,再去美国硅谷的苹果、谷歌、Meta、英特尔、Pika……除了高科技公司,还有斯坦福、浙江大学这样的高等学府。
回国后,郭帆根据国内外19家科技公司以及高校的考察结果,梳理出了电影层面的研发方向,着手建立各类战略合作。焦虑肉眼可见地退去了。“现在我至少找到方向,有了策略,知道从哪开始,知道该怎么干了。”郭帆对《中国新闻周刊》说,“当然,‘怎么干’是不是对,最后是不是能成,这个我不知道,但是至少我得先动起来。”
科影融合专委会曾为两部《流浪地球》以及《三体》等影视剧对接科学顾问、引入新技术,在李东东眼里,相识多年的郭帆是极客创作者的典型代表,对科学、科技有浓厚的兴趣和好奇心。“不仅郭帆,现在其实有一批新生代导演,他们生活在科技改变世界的时代里,他们很愿意拥抱新技术。”
如今,这些极客创作者们已经不那么焦虑了,打不过就加入吧,大家把力气全部用在了解、学习并使用新技术这条路上。郁刚也是这类导演之一,他特别理解郭帆曾经的焦虑,“毕竟郭导是奔着打造中国最好的科幻电影IP这个方向去的,所以他压力很大。”作为一个正在谋求实现从零到一突破的科幻电影新导演,郁刚一直对AI的发展比较乐观,例如Sora的出现,他认为这意味着科幻电影的优秀创作者终于不用再被巨额的视效费用限制。
“我们科幻电影最花钱的地方就在视效上。”提起这事郁刚声音都提高了不少,“如果真的是东京街头这么一个镜头,我根本没必要用Sora,我拿个摄像机上东京街头拍就行了。但是如果要拍赛博朋克的城市呢?火星呢?完全拍不到的地方,对于我们来说就是需要大量资金才能堆出来的东西。”但所有新导演都知道,在自己名不见经传之时,能调用的资源多么有限,拉投资多么困难,如果人工智能可以把这样的场景“稳定而准确地生成”,这将是一个太大的利好。郁刚忍不住想象,有一天拍科幻电影,Sora直接生成一个摄影机运动的、带环境的、带群众演员的科幻场景,“中间给我空出来,我再把我的演员放进去,就完事了。”
另一个让导演们心动的Sora视觉效果是极其逼真的“猫猫狗狗们”,因为放眼全球特效界,生物都是最让人头疼的,动物不可控,逼真且有质感的动物毛发更是处于特效制作金字塔的塔尖。2019年《疯狂的外星人》上映时,导演宁浩曾在采访中透露,电影仅特效的花销就达到2亿元,几乎全部花在外星人和猴子的生物特效上,因为这在全世界范围内都是最难做的特效。
“生物特效一直是国内特效界的短板,当然有公司能做,但只有头部的几家,而且价格昂贵。”郁刚告诉《中国新闻周刊》,如果Sora能解决这个问题,那么中小视效公司就都可以接这样的业务,价格马上就能降下来。“如果Sora足够‘听话’,可以要求它在一个绿棚里生成我要的,包括动物如何运动,我们只需要抠下来就行了。或者我们把场景做好,喂给Sora,告诉它在里面给加一群动物,那就太方便了。”
不过,这一切还都只能是想象,OpenAI并未全面开放Sora的使用,仅仅以目前的样片来看,它与人们所谈论的电影生产流程还有相当大的距离,更何况,就像一部电影的预告片一样,出品方总是要把最好最精彩的画面先拿出来的。
“一个模糊输入得到一个模糊结果”
由于太多人想蹭这个顶流,自Sora发布那天起,互联网上就出现了各式各样的“Sora视频”。有些纯属造假,用真实拍摄的视频谎称为Sora生成,因为只要和Sora搭上关系,播放量几乎百万起步。有些纯属闹着玩的“整活”,例如疯狂流传的“威尔·史密斯吃意大利面”视频。
对AI视频感兴趣的人大概都知道,“威尔·史密斯吃面”被戏称为“视频生成界的图灵测试”,因为人物的手、面条以及面条入口后的形变对于AI来说都是极大挑战,Runway、Pika等著名的视频生成AI都在这个主题上贡献了不少鬼畜素材。有人向“在线接单”的OpenAI公司首席执行官奥尔特曼(Sam Altman)发起了这一挑战,但奥尔特曼没有应战。结果没过多久,号称Sora生成的“威尔·史密斯吃面”就开始全网热传,从视频上看,Sora已经完全攻克了难题,每个细节都准确且逼真。结果没多久大家就发现,视频是威尔·史密斯自己录的,他扮演人工智能生成的自己,忽悠了网友……
于是,在真假难辨的视频和人们总是太过理想化的想象里,热热闹闹的Sora几乎成为人人都认定的又一个风口,谁都不想错过。淘宝上,已经开始有人售卖Sora使用教程和内测资格代申请服务,价格在9.9元到199元不等。Sora问世没几天时,一个名为“Sora首部电影共创组委会”的团队已经在横店诞生,不少编剧的微信群都收到一个名叫“Sora首部AI电影共创计划”的飞书云文档,文档发布者称,面向全社会征集剧本,“准备共创世界第一部AI电影这一壮举”。
事实上,虽然Sora制作的视频已经出圈,但其本身还未公开使用,更未向公众开放测试权限,只分享给了一批精选的研究人员和学者使用。普通人想使用Sora,只有两种途径:要么去CEO奥尔特曼的社交媒体上留言,不久前,他开启了在线接单模式,网友提出要求,他来帮助大家完成;要么申请成为OpenAI的红队人员,所谓红队可以理解为模拟黑客,帮助OpenAI对Sora的安全性进行测试,招募条件很严格,必须同时拥有美国信用卡、美国居住地址和美国注册的计算机以及非主机类的IP地址。
科幻导演、编剧张小北随时关注着OpenAI放出的视频,这些视频当然很让人惊艳,但是从电影级别应用的角度看,他认为距离还很远,更不要说“喂剧本,吐电影”了,张小北觉得那完全是外行的想象,大家把电影制作这个每一环节都有复杂且极高专业性技能要求的事情,想得太简单了。
即便是Sora公布的样片,其中也有不少Bug:能180度回头的女性、吹不动的蜡烛火焰、六根手指的人物……即便在最受人们热捧的“东京街头时尚女性”视频里,她的左右腿也有两次诡异地切换了位置。也许Sora可以以高速的发展速度很快解决掉bug,但它很可能也仍然无法在短期内被专业影视创作者在创作流程里使用,在张小北看来,其中最大的问题,是AI无法做到精确。
对此,李东东举了一个形象的例子:“你给Sora一段提示词——一只小熊坐在桌边写作业,它出一段视频,然后,一模一样的提示词你再输入一遍,它出来不同的小熊、不同的书桌。它的规律是一个黑箱,吐什么东西出来你根本不知道也控制不了。”
对于所有内容创作者,这都是AI最致命的缺点。“你只能通过一个模糊输入得到一个模糊结果。”张小北对《中国新闻周刊》说,“归根到底它是算法,精准表达是目前的算法还解决不了的。Sora这种视频,作为民用拿到社交媒体上和大家交流沟通是没问题的,但是要把它放进一个严肃正规的艺术创作里去,那它的误差也太多了。”毕竟,工业化流程不能开盲盒,它要求每个画面风格都要保持一致,每个动作都要流畅衔接,尤其在大荧幕上,一点点漏洞都会被数倍放大。在张小北看来,“很可能在一两年内,视频AI都只会停留在一个类似噱头的阶段。”
李东东还记得Midjourney刚出来的时候,也曾被认为颠覆设计界,后来她发现身边用Midjourney最多的是4A广告公司的创意总监,而Midjourney也不能用来做最后的成品,而是只能用来尝试生成一些创意,作为创意阶段的辅助。
“因为AI没有审美。”设计美学博主、设计师阿文告诉《中国新闻周刊》。他从去年开始在设计中使用AI,也用AI制作视频,在设计师行业里,他们管利用AI生图或生成视频叫做“抽卡”,因为AI到底会给出什么样的东西,太过没谱。其优点主要是,根据设计师给出的风格、主题和要素,AI可以提供创作的灵感和借鉴,帮助他们探索不同思路。
阿文简略讲述了今年年初他和合作伙伴一起利用Runway等应用制作视频的过程,远远不是“一键生成”那样简单:首先找音乐,根据音乐确定视频节奏,估算需要的镜头和剪辑点。然后发散式寻找现成的静帧参考,确定风格。当收集了足够多的参考图,就可以根据景别来组建时间线。第四步,按满意的风格参考图提示词再结合自己的具体需求,利用Midjourney,抽静帧卡。第五步,利用Midjourney生成的静帧图,抽视频的卡,阿文通常不局限在一个平台,除了主流的Runway,Morph Studio、Stable Video他也经常使用。最后再根据找好的音乐进行剪辑,做后期。
阿文一点不担心把如何利用AI的具体流程公布,所有人可以用和他一样的流程做视频,区别在于剪辑、景别组合、配乐、后期等各方面的水平差异。简单说,就是审美和创造力,而这两点,是迄今为止任何AI都不具备的。
如果说艺术家制作一段简短视频的每一个环节都离不开专业的审美和表达,那么时长至少180分钟的电影就更不用说了。张小北举了个简单的例子:“自动对焦技术早就已经很发达了,几乎所有的民用相机,自动对焦都是标配,但是在电影拍摄中,电影摄像机的镜头对焦仍然由人手动完成,这是为什么?因为焦点放在什么位置上,以及变焦的过程、快慢和变焦的方式,都是艺术创作的一部分,都包含了审美,都是创作者的表达。”
图灵奖得主、Meta首席AI科学家杨立昆认为,根据提示词生成大量逼真视频并不表明这样的AI系统理解物理世界。更何况这个物理世界里,人们那些错综复杂、变化莫测的感情,恰恰可能是文艺作品里,最能打动我们的部分。《悬崖上的金鱼姬》里,小小的宗介后退好几步却还是像个伟岸的男人般接住奔向他的波妞;《星际穿越》中,库珀告别了女儿却还是下意识掀开女儿曾经藏身的毯子;《复仇者联盟4》里钢铁侠那一个响指的浪漫……如果没有这些,那一切就只是转场,只是空镜。
人类的审美、创造力和情感,仍然是计算无法解决的事情。
“努力成为幸存者”
包括Sora在内的所有生成式人工智能,在可预见的一段时间里,都还停留在效率工具和辅助创意工具的阶段——这几乎是已经或计划开始使用新技术的极客创作者们集体给出的答案。虽然不至于彻底掀翻影视娱乐行业,但并不意味着它不会产生深远影响。
“一些专业航拍团队可能会失业了。”李东东说,在Sora公布的视频中,远景航拍最为逼真,几乎没有bug,“Sora航拍的转场也是有技术含量的,特别像卖视频素材的平台会花钱收购的那种”。航拍在涉案、犯罪题材影视剧中都是比较难处理的镜头。郁刚为《中国新闻周刊》解释:“这些影视剧的发生地通常要虚构一个城市,因为现实中哪个城市都不愿意成为这种故事的发生地,既然是虚构的,就不能在镜头里让人明显看出是哪里。如果Sora能够生成一个虚构城市的航拍素材,我们就不需要再找航拍无人机飞手了。”
效率的提升是显著的,就拿科幻和玄幻题材作品里要用到的大量道具来说,“以往需要很多艺术家花费大量时间来设计,现在通过AI出图非常快,可以一下子出一百张,导演选中风格合适的,设计师直接在图上略做修改就可以拿着改完的图纸去做三维模型或是投入生产了。”郁刚说,尽管流程没有变,但人工大量减少,效率提高,制作成本自然就降下来了。
沟通成本也大为降低。一部影视剧尤其科幻影视剧从立项开始,总是充满复杂而繁琐的沟通,因为头脑中的想象总是难以用语言表达,李东东觉得有了AI就方便多了,“到底要什么样的效果,现在几乎可以用零成本生成图片。以后有了Sora,去跟投资人见面的时候,连幻灯片都不用做了,直接拿着视频去,有点bug没关系,看的是视觉效果。”10位设计师才能完成的工作,也许不久后就只需要1位。
阿文作为合伙人的公司主营业务是幻灯片演示设计,作为国内最早一拨学习并且熟练运用AI的设计师团队,他感觉目前为止公司原有业务不但没有受影响,反而因为AI对工作的提速,加班变少了,业务线也拓展了。去年4月,他在一条社交媒体的推送中说:“刚AI又一次救我狗命,丝滑地解决了一个本来要熬夜的离谱修改需求。”今年春节,他和朋友海辛一起制作了一段AI动画视频——将双人舞表演转化为陶瓷艺术品,登上了2024年央视春晚,成为歌曲《枕着光的她》中的动画背景。
阿文觉得,无论哪个行业,拥抱新技术的群体不会被取代。张小北也持类似的观点:“电影行业从诞生到现在经历过五六次大的技术变革,每次都有人落伍,但是也有人幸存下来,我们要做的是努力成为幸存者。”工业革命时期,英国工人曾经怒砸珍妮纺织机,但当纺织机催生出了大型工厂,技术的发展又创造出了更多岗位需求和新型职业。
尽管还无法真正探出Sora的虚实,但不妨碍尽早做出“跳上船”的准备。最近,喻林枫已经召开团队会议,商讨、预测Sora诞生后可能创建出哪些能够长远发展的商业生态位,他们已经有了一些想法和计划。
OpenAI的技术报告说,“Sora能够深刻地理解运动中的物理世界,堪称为真正的‘世界模型’”。
“在高科技领域,人们总是倾向于高估短期内的突破,而忽视长期的变化。”张小北说,“AI技术就是如此,几个月或一两年内,我们还不会看到世界的巨变。但从长期角度,世界的巨变已经拉开帷幕。”
巨变的尽头谁也无法预知,也许几经迭代的Sora终会诞生自己的审美、创造力和情感。如果那一天真的到来,或许人类将如《黑客帝国》中那般始终沉睡,也可能像一部科幻小说里描述的,摆脱了一切世俗事务,只专心追求哲学、艺术与精神世界的飞升,又或者,那个未来以今天人类的认知,根本无法想象。既然如此,对于新技术的诞生和行业的变化,大概只需拥抱,又何必焦虑?
《中国新闻周刊》2024年第10期
声明:刊用《中国新闻周刊》稿件务经书面授权 【编辑:苏亦瑜】