淖涝网 > 社会 > 正文

​追不上Sora的同行有难了

2024-02-28 03:16 来源:网络 点击:

追不上Sora的同行有难了

本文来自微信公众号:字母榜(ID:wujicaijing),作者:毕安娣,编辑:王靖,题图:由 Sora 生成

Sora 公布第 10 天,同行已经坐不住了。

2 月 16 日,中国大年初七,OpenAI 公布了全新的生成式人工智能模型 Sora:输入自然语言指令,输出至多 60 秒的视频。

从文本到视频的生成式 AI 模型并不新鲜,但 Sora ——就像 ChatGPT ——一样,因其断崖式的质量提升,登时点燃了互联网。高清的画质,流畅的画面,乍看之下颇为自然的物理轨迹,和一年前近乎鬼畜的 " 威尔 · 史密斯吃意大利面 " 视频看起来像隔了一个世纪,同行去年才发布的 AI 产品与之相比也黯然失色。

10 天很短,但在 AI 领域却足以生变。

至少有两家 AI 界 " 当红炸子鸡 " 站了出来:2 月 22 日,StabilityAI 正式开放 Stable Video 的公测,该产品背后的模型 Stable Video Diffusion 去年 11 月就已经发布。几乎同时,另一家在文生图领域颇有建树的 Midjourney 也透露,可能会在下一次迭代时包含视频功能。

昔日 " 炸子鸡 " 站在阴影中,追不上 Sora 的同行有难了。

在接受了 Sora 演示视频的直接冲击之外,人们立刻开始做纵向和横向的比较。

纵向比较,人们拿出了一年前 " 威尔 · 史密斯吃意大利面 " 的 AI 视频。这位好莱坞明星脸部变形严重、面的形态千变万化,分分钟触发恐怖谷效应,越看越诡异。

来源:由 AI 生成

一年之后,Sora 已经可以做出一个女人在东京街头漫步的视频,不管是画面质量、连续性和稳定性,还是女人的步态与神情,都已经几乎可以以假乱真,让人连连称赞:文本到视频的进步也太大了。

来源:由 Sora 生成

可惜的是,尽管无数网友在 OpenAI CEO 山姆 · 奥特曼(Sam Altman)的社交媒体账号下求 Sora 版本的 " 威尔 · 史密斯吃意大利面 ",并没能得偿所愿。倒是史密斯本人跑出来整了个活儿,真人拍摄," 伪造 " 了一个新版本。你别说,还真差点给人骗过去——真人都能拍视频假装是 AI 生成的了,倒也足见 Sora 视频的高质量。

横向对比,同行就有点尴尬了。OpenAI 把每一个 Sora 演示视频的文本指令都公布了,虽然人们不能直接用 Sora,但是可以拿着指令去市面上已有的产品里试,看看有什么差别。

不试不要紧,一试吓一跳:看到 Sora 视频的时候就觉得厉害,看了同行的表现更对 Sora 的威力有了新的认知。

同样是女人在东京街头漫步的指令,Runway 生成的视频暂停看还都像那么回事,连起来就只能用 " 千变万化 " 形容,女人的形象并不能随着时间的推移保持稳定。要知道 Sora 的演示视频中还有机位的变化,从远景到脸部特写,女人的形态始终如一。Runway 生成的视频更像是很多张图片的动态融合。

由 Runway 生成

StabilityAI ——就是那个开源了文生图 Stable Diffusion 的公司——的 Stable Video 生成的画面清晰度和美观度都很不错,但是女人的脸变形严重,看起来很像一个骷髅头,诡异感拉满。

由 Stable Video 生成

Pika 则有些取巧,其画面相对流畅,但比较模糊,且并非写实风格。

由 Pika 生成

此外,打闹的猛犸象、行驶中的汽车、俯瞰的景观、看蜡烛的小怪物等指令都被网友做了横向对比,Sora 并非和同行打得有来有回,而是碾压了同行。

一朝之间,文生视频当红 " 炸子鸡 " 发现自己站在了 OpenAI 投下的阴影中。

从文本到视频的 AI 工具并不是新鲜事物。在 2023 年,多个文本到视频 AI 工具问世,Runway、PikaLabs(下称 Pika)、StabilityAI 等初创公司在这个赛道都备受瞩目,热钱不断,估值暴涨。

其中 Runway 成立于 2018 年,3 月开放 Gen-2 内测,6 月正式对外发布。此前有 Gen-1 图像到视频 AI 工具。Runway 同时还技术支持了多部电影。其中最大名鼎鼎的是奥斯卡获奖影片《瞬息全宇宙》。

Runway 的 CEO 兼联合创始人克里斯托瓦尔 · 巴仑苏埃拉(Crist ó bal Valenzuela)说:" 我们已经看到了图像生成模型的爆发。我相信,2023 年将会是视频之年。"

在 5 月时,Runway 已经完成了 1.41 亿美元的 D 轮融资,投资方包括谷歌、英伟达等,估值暴涨三倍,达到 15 亿美元,

Pika 去年 4 月刚刚成立,A 轮融资达 5500 万美元,估值登时超过 2 亿美元,11 月就发布了第一个文本到视频产品 Pika1.0。到了 12 月时,其用户已有超过 50 万,每周生成近百万视频内容。

而 StabilityAI 则因其文本到图像工具 Stable Diffusion 名声在外,早在 2022 年获得 1 亿美元融资后,估值就已经超过了 10 亿美元,成为独角兽企业。去年 11 月,Stable Video Diffusion 发布,注意后面还有一个 "Diffusion" 后缀,这是一个基于 Stable Diffusion 的生成式视频基础模型,需要用户自己部署使用,还不算面向大众发布的产品。

三家初创公司,2023 年三个重要生成式视频产品 / 模型,突然就被 Sora 会心一击。

在 OpenAI 兴冲冲向世界展示 Sora 之后,Runway 的 CEO 巴仑苏埃拉在社交平台 X 上发帖:" 游戏开始(Game On)。" 而 StabilityAI 的 CEO 兼创始人莫斯塔克(Emad Mostaque)则将奥特曼称作 " 巫师大人 "。

从演示视频来看,Sora 的确有改变游戏格局的威力,跟不上 Sora 的同行有难了。

参照 ChatGPT 发布之后,虽然 AI 浪潮让投资人热情高涨,AI 初创公司如雨后春笋般冒出来,新晋独角兽一个接着一个。但这是一个冰火两重天的故事,不少 AI 创业公司走上下坡路,或寻求收购,或大幅裁员,甚至就此寿终正寝。据智东西梳理,仅 2023 年 11 月到 2024 年 1 月,全球就有 AI 新闻初创企业 Artifact、AI 医疗公司 Olive 等 4 家 AI 初创企业宣布关停。

The Infoemation 称,至少有 7 家开发生成式视频的 AI 公司,共筹集了至少 5.5 亿美元的资金。有投资人私下对 The Information 表示,之前刚刚错过某热门 AI 视频初创企业的融资,看到 Sora 的视频后 " 感到庆幸 "。

人工智能赛道热度高,但门槛也高,厮杀之中刀光剑影,掉队就可能掉入坟墓。

知名 AI 初创企业 Huggine Face 在一篇博文中,提到了文本到视频的三大挑战:算力挑战,确保跨帧空间与实践的一致性伴随着高计算成本,使得大多数研究人员无法负担这类模型的训练费用;缺乏高质量数据集,用于文本到视频生成的多模态数据集非常稀少,而且经常缺乏注释;指令模糊性,如何以一种让模型更容易学习的方式描述视频不是一件容易的事。

即便是看似站稳了脚跟的 StabilityAI 都麻烦不断。去年 6 月,福布斯发布一则长新闻,超过 30 位 StabilityAI 前员工和投资人细数创始人兼 CEO 莫斯塔克的 9 大罪证,包括:窃取 StableDiffusion 成果融资 10 亿;隐瞒融资困难;夸大公司收入;拖欠员工工资;学历和工作经历造假。

抛开其他不谈,硅谷 " 当红炸子鸡 " 却又融资困难、公司收入被夸大的问题,着实令人意外。知情人士称,StabilityAI 每个月的开销大概是 800 万美元,而莫斯塔克却曾自爆公司 8 月的营收大概在 120 万美元,有机会超过 300 万美元。莫斯塔克很快就删除了该帖,但从这个数字不难闻到烧钱的味道。

11 月,也就是其发布 Stable Video Diffusion 模型的同月、公司完成 1 亿美元融资的一年后,StabilitAI 传出多位高级管理人员辞职、公司财务状况脆弱的消息,并一度传闻考虑出售,这一消息随后被莫斯塔克否认。

入不敷出、人才流失,StabilityAI 的危机暴露了光鲜的热门创企的软肋。

巨头的加入也会让战事更加激烈。在 AI 视频的赛道,巨头早有布局。2022 年 10 月,Meta 和谷歌相继发力。Meta 先发布了 Make-A-Video 模型,仅一周后,谷歌 CEO 桑德尔 · 皮查伊(Sundar Pichai)亲自安利他们在这一领域的两个最新成果,Imagen Video 和 Phenaki,分别强调视频品质和长度。

来源:Meta AI

但不管是 Meta 还是谷歌,目前都尚未向公众开放其文本到视频 AI 工具。谷歌官方认为用于训练 AI 视频模型的数据仍包含有问题的内容,可能会导致 Imagen Video 产生图形暴力或色情剪辑,造成不良影响。巨头的保守操作大家也都熟悉了,在自然语言聊天机器人的赛道,谷歌也是早早就手握模型但未向 C 端推出产品,原因也是安全问题。但 ChatGPT 与微软的联手让巨头走出保守,Sora 未尝不能做同样的事。

已经有巨头有新动作。在 Sora 公布的一周前,字节宣布人事变动,原抖音集团 CEO 张楠宣布辞去集团 CEO 一职,未来把精力聚焦在剪映的发展上。据时代周报援引接近剪映的人士,张楠亲自带队寻求在 AI 辅助创作上突破,并即将推出一个 AI 生成视频的产品。

面对新开的 " 游戏 ",Sora 的同行只能全力向前。

就在 Sora 公布的几天之后,2 月 22 日,StabilityAI 正式开放了 Stable Video 的公测,从模型走向人人可以方便上手的产品。虽然视频长度还是比较短,只有 7 秒,但视频质量比较高。莫斯塔克在社交平台上宣传新产品时显得很谦虚,表示开放的原因是:" 我们想要创造类似 Sora 的大型开放的 Stable Video2,但需要更多的数据和计算。"

此外,在文生图领域有超高口碑的 Midjourney 也跑步入场,创始人大卫 · 霍尔兹(David Holz)在 Office Hours 中透露,下一个版本,也就是 Midjourney V7" 可能包含视频功能 "。

OpenAI 现阶段还在对 Sora 进行评估,距离 Sora 正式对外公开可能还有几个月的时间。好消息是,同行还有时间应变。坏消息是,留给同行的时间不多了。

参考资料:

1. 智东西:《AI 创业冰火两重天:Sora 降世资本狂欢,数家创企倒闭关门》

2. 连线 Insight:《Sora 来了,字节发力:张楠的重任和挑战》

3. 新火种:《被迫卖身、CEO 下台、高管出走,又一家 AI 独角兽出事》

4. 机器之心:《图像生成卷腻了,谷歌全面转向文字→视频生成,两大利器同时挑战分辨率和长度》

5. 财联社:《AI 圈子不太平 知名开源模型开发商 Stability AI 被曝 " 寻求卖身 "》

本文来自微信公众号:字母榜(ID:wujicaijing),作者:毕安娣