文章内容

2024/2/18 2:24:37,作 者: 黄兵

视频生成模型Sora横空出世 60秒一镜到底媲美人工 对现实有怎样的影响?

“现实不存在了?”

用“你方唱罢我登场”来形容春节假期最后两天大洋彼岸的“疯狂”,再贴切不过了。北京时间2月16日,谷歌的Gemini Pro 1.5还没出几个小时的风头,天一亮,全世界的聚光灯就集中在了OpenAI的Sora身上。

Sora,新型视频生成模型,它可以根据简短的文字提示(prompt),将其转化为长达一分钟的高清视频,镜头感堪比电影。

未来,各种Sora视频或将现身并“占领”视频社交平台,其对现实的影响与改变,可谓巨大。

AI视频要“变天”了

Sora“逆天”在哪儿?它不仅能够根据文字指令创造出既逼真又充满想象力的场景,而且生成长达1分钟的超长视频,还是一镜到底那种。

从发布的视频来看,60 秒的视频中,视频主体与背景保持了高度流畅性与稳定性;在一个视频里实现多角度镜头,分镜切换符合逻辑且十分流畅;此外,Sora对于光影反射、运动方式、镜头移动等细节处理非常到位。

“一位戴着尖顶帽,身披绣有白色星星的蓝色长袍的巫师正在施法。他的一只手射出闪电,另一只手中拿着一本旧书。”“这座城市洁净无瑕,到处可见的是先进的未来式有轨电车、绚丽的喷泉、巨型的全息投影以及四处巡逻的机器人。”……OpenAI 首席执行官山姆·奥特曼也亲自“下场”,在社交媒体上根据网友给出的prompt输出视频。

Sora的视频效果,几乎和人工拍摄不相上下,由此带来的强大冲击让无数人感叹,“现实,不存在了”。


OpenAI究竟是怎么做到的?根据官网介绍,“通过一次性为模型提供多帧的预测,我们解决了一个具有挑战性的问题。”数小时后, Sora的技术报告发布,尽管依旧“很 OpenAI”——不包括模型和实现细节。技术报告中,“里程碑”是关键词。

总体而言,Sora是一个在不同时长、分辨率和宽高比的视频及图像上训练而成的扩散模型,同时采用了Transformer架构。展开讲,在视觉数据上,OpenAI把视频和图像分解为较小的数据单元Patches(补片),每个patches相当于GPT中的一个token(词元);在语言理解能力上,采用了DALL·E 3的重标注技术,通过为视觉训练数据生成详细描述的标题,使模型更加准确地遵循用户的文本指令生成视频。另外,Sora还能将现有的静态图像转化成视频,精准赋予图像中内容以生动的动;模型还能扩展现有视频或补全缺失的帧。

据悉,OpenAI目前没有向公众发布Sora的计划,但将首次开始与第三方安全测试人员共享该模型。

对相关行业具颠覆性

纽约大学助理教授谢赛宁直言,“Sora 将改写整个视频生成领域”。谢赛宁分析,Sora应该是建立在DiT这个扩散Transformer之上;在视频压缩网络上可能采用VAE架构,区别就是经过原始视频数据训练。他推算Sora可能有大约30亿个参数,并表示,“Sora或许并不需要人们想象中的那么多GPU来训练,如果真是如此,Sora的后期迭代将会非常快。”

英伟达人工智能研究院首席研究科学家Jim Fan认为,Sora是一个数据驱动的物理引擎,称这是视频生成领域的GPT-3时刻,“回到2020年,GPT-3不是一个很完美的模型,但是它有力证明了上下文学习的重要性,所以不要纠结于GPT-3的缺陷,多想想后面的GPT-4。”

特斯拉CEO埃隆·马斯克在社交媒体回应评论时写道:“gg人类”。“gg”是网络游戏中的常用缩写,通常用于游戏结束后,双方玩家互相致意。然而,此时此刻马斯克的回应“gg人类”则被解读为一种自嘲和自我调侃,表达了对OpenAI技术超越人类的认可。

360创始人周鸿祎也发布微博,提到自己对Sora的看法。在他看来,Sora只是小试牛刀,它展现的不仅仅是一个视频制作能力,而是大模型对真实世界有了理解和模拟之后,会带来新的成果和突破。

周鸿祎写道:“这次OpenAI利用它的大语言模型优势,让Sora实现了对现实世界的理解和对世界的模拟两层能力,这样产生的视频才是真实的,才能跳出2D的范围模拟真实的物理世界。”他认为,AI不一定那么快颠覆所有行业,但它能激发更多人的创作力,“今天Sora可能给广告业、电影预告片、短视频行业带来巨大的颠覆,但它不一定那么快击败TikTok,更可能成为TikTok的创作工具。”

周鸿祎也直言,“一旦人工智能接上摄像头,把所有的电影都看一遍,把YouTube上和 TikTok 的视频都看一遍,对世界的理解将远远超过文字学习,一幅图胜过千言万语,这就离AGI真的不远了,不是10年、20年的问题,可能一两年很快就可以实现。”

人才培养模式需创新

全国政协委员、上海科技馆馆长倪闽景在《Sora只是开始,教育真正的挑战来了》一文中指出,Sora的出现,首先会让影视行业、广告行业的专业人士瑟瑟发抖,但是需要瑟瑟发抖的显然是教育行业。

“无论是ChatGPT还是Sora,都仅仅是开始,以强大算力和算法支持的数字大脑,将在学习能力、学习范围和学习深度上远超人类,人类只有依靠人工智能一起协同学习,才是教育的出路。”倪闽景认为,人类学习将进入超级学习阶段,教育的逻辑将改变:首先,重新定义知识,从知识到知与识;其次,重新定义学习,从工具到本能需要;第三,重新定义创造,从创造东西到创造体验。

倪闽景写道:“Sora在英文中有小鸟在翔空中咏唱的意思,这个浅浅的人工智能咏唱,如果能够让所有教育者听懂,那么我们是否会对各种无谓的内卷释然并放下呢?”

21世纪教育研究院院长熊丙奇认为,比感慨AI淘汰传统职业更重要的是,如何直面这一挑战,应对这一新的时代发展趋势。其中,最为关键的是,必须改革教育、创新人才培养模式。

他一针见血指出,近年来,我国高校新增不少人工智能、大数据管理与应用专业;各地亦在大力推进教学数字化变革。不过,这些教育变革,存在两大值得关注的倾向:知识化倾向、应试化倾向。

熊丙奇表示:“如果不推进破除基础教育存在的功利化、短视化问题,AI+教育等技术变革,也难以带来人才培养模式的创新,更遑论提高人才自主培养质量,造就拔尖创新人才。”

他感慨,过去20多年来,我国教育界一直在求解钱学森世纪之问——“为什么我们的学校总是培养不出杰出人才?”在Sora刷屏、AI又取得突破后,如何求解钱学森世纪之问也更显紧迫。

“对此,要形成基本共识,那就是,只靠技术手段难以推进人才培养模式改革,必须改革教育管理与评价体系。”他表示。

警惕“潘多拉魔盒”

在Sora横空出世前,OpenAI 首席执行官山姆·奥特曼就曾表示,人工智能有望在推理能力和可靠性、多模态、可定制化和个性化三个领域大幅提升,并认为,至少在未来5到10年内,AI大模型技术将处于一个非常陡峭的成长曲线上。

值得关注的是,就在Sora发布的同日,谷歌也发布其大模型矩阵的最新力作——Gemini 1.5,其将稳定处理上下文的上限扩大至100万Tokens(词元),这代表它能一次处理大量的信息——包括1小时的视频、11小时的音频、超过3万行代码或超过70万字的代码库。

新事物,显然无法做到“完美”。OpenAI明确指出,Sora可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系。这一模型还可能混淆提示的空间细节,并且可能难以精确描述随着时间推移发生的事件——而这些缺陷或将使Sora生成一些不合逻辑的东西。

据了解,OpenAI 内部仍在开展模型伦理侧的对抗性测试,比如错误信息、仇恨内容、偏见内容,至于色情暴力等,会在文本输入时就被拒绝。

近两日,也有人工智能业内人士向记者表示,从技术角度来看,Sora是非常重大的飞跃,但“硬币有两面”,它存在潜在的滥用可能,“在AI视频构建的世界中,‘眼见为实’行不通了,眼睛看到的东西或许无法作为判断依据。”

是“阿拉丁神灯”还是“潘多拉魔盒”,显然现在下结论为时过早。该业内人士同时表示,对于新技术的到来,需要社会足够的包容性;同时,在大规模推向社会前,务必“系好安全带”,做好应对风险的准备。

需要注册 OpenAI 账号可以参考这篇文章:ChatGPT 最新注册攻略

分享到:

发表评论

评论列表