字节等待一鸣惊人

2024-02-29 20:06 来源：网络点击：

字节等待一鸣惊人

出品｜虎嗅商业消费组

作者｜黄青春

题图｜视觉中国

一场事先张扬的发布会让 Sora 成为 2024 开年顶流，字节跳动却在悄咪咪推进 AI 产品迭代。

近日，字节正式发布文生图模型 SDXL-Lightning。其官方信息称该模型采用了新的渐进式对抗蒸馏（Progressive Adversarial Distillation）技术，能将计算时间和成本降至此前的十分之一——通常情况下，文生图模型使用扩散式生成（diffusion）模型，单张图像处理时间大约需要 5 秒，还需多次（20～40 次）调用庞大的神经网络；但 SDXL-Lightning 能提速 10 倍在 2~4 步内生成高质量及分辨率的图像。

事实上，早于 2023 年 11 月，字节跳动已发表视频生成研究成果 PixelDance，提出基于文本指导 + 首尾帧图片指导的技术方法，能生成具有高度一致性和丰富动态性的视频；今年 1 月，字节又发布了视频生成模型 MagicVideo-V2，通过集成文本到图像模型、视频运动生成器、参考图像嵌入模块和插值模块，打造了一条视频生成流水线，效果超越 SVD-XT、Pika1.0、Runway 的 Gen-2 等同类模型。

尽管，字节在研发多模态模型方面已处于国内领先状态，但其与 OpenAI 仍有较大差距，好在字节愿意接入 OpenAI 的模型（字节海外有两款 AI 产品，Cici 和 Coze 都接入了 GPT 3.5/GPT 4 模型，两者 DAU 迅速攀升至百万级别），在一定程度上克服了模型能力的短板。

然而，横空出世的 Sora 加速了字节的焦虑：

一方面，Sora 已经能生成 60 秒视频，这将直接改变抖音与 TikTok 的内容供给逻辑——巨量数据显示，以 60 秒视频为临界点，文生视频已经在颠覆短视频行业；

另一方面，Sora 可以用于视频编辑、视频风格混合等多个领域，是一个集视频生成、图片生成、视频编辑等功能于一体的强大模型。

有鉴于此，Sora 这样的 " 新物种 " 从创作门槛、内容质感、创作持续性等方面都会降维打击大部分创作者，或将改变内容生产和编辑方式，从业者可能面临技能需求和工作流程的变化——此前 Runway 在《瞬息全宇宙》里已有所应用，但 4 秒到 15 秒发展了半年，15 秒到 1 分钟三个月，技术的发展速度如此惊人，随着文生视频效果越发精进，抖音及 TikTok 也将面临新技术带来的洗牌，这在一定程度上刺激字节更加积极推进 AI 技术投入。

深层次原因还在于：中国移动互联网业到了用户、流量趋于见顶的成熟期，监管会更侧重产业互联网的推进与建设，这意味着技术走到平台重构生态的关键时期。

尤其，在快速迭代的 AI 浪潮裹挟下，心有猛虎的公司都在寻找向上攀爬的入口——当通用人工智能时代呼啸而来，字节手握应用层及数据层的独特优势，抖音拥有丰富的数据素材和充足的算力资源，必须在快速发展时期进行果断投入（包括技术生态迭代、研发投入等），从而博一张未来的船票。

剪映成字节刺破 AI 的 " 针 "

那些颠覆行业产品的诞生契机就是如此传奇：Sora 创始团队成立不足 1 年，由两名刚毕业的博士生带队，核心成员 15 人，其中甚至有 00 后（成员 Will DePu 于 2003 年出生）；而抖音前身 A.me 于 2016 年秋上线时，创始团队也只有 7 个年轻人。

虎嗅了解到，字节跳动的 AI 战略是各个市场做各自的产品；其中，剪映或将成为中国 AI 应用最先爆发的产品：截至 2021 年，剪映月活用户数已经突破 1 亿，是国内最大的移动视频编辑产品。

具体而言，字节跳动通过拆解明确每个部门的 OKR（例如抖音主要负责拉新，而字节专门负责 AI 产品的 Flow 部门负责开发及产品增长）实现了部门间互不干涉，解决了互联网公司迅速扩张所面临的组织协同问题，是国内逐梦 AI 浪潮互联网公司中战略最清晰的一个。

张楠在 2020 年抖音创作者大会发言

要知道，抖音 CEO 张楠卸任前一年（2023 年）绝大多数精力都倾斜在剪映相关业务上。据张楠自述，刺激她义无反顾投身 AI 的原因之一便是希望帮助创作者对更好表达自己的想法，因为过去 " 几乎无法用一个产品完成所有的创作，要横跨几个产品之间，用复杂的编辑和交互流程，才能完成表达。"

但据字节内部人士透露，张楠亲自带队投身 AI 研究，很大程度上源于字节管理层预判文生图、文生视频将是下一个引领时代的赛点。

于张楠而言，就像她在朋友圈说的那样：" 专注地从‘心’出发，用始终创业的状态，在未来的十年再折腾一些我热爱的事情。字节跳动是最好的平台，既有梦想，又务实的浪漫，我很期待和剪映的小伙伴们一起造梦，与这个 AI 的时代一起成长，共同绘制出脑海中的奇幻世界。"

而且，张楠在内部信中坦言，最近跟团队里的很多人聊天，有很多人还是满腔热血的，有很想做的事，这更让她觉得机不可失、时不再来。" 我知道这会是一条很长的路，而且会有很多激烈的竞争，也会碰到技术不确定性带来的很多挑战和试错。但梦想还是应该有的，如果不极致地试一次，未来该多遗憾。"

于公司而言，字节在模型技术和数据两个方面同时具备优势，可以利用自身的数据资产为模型训练提供足够的数据源，进而在市场中获得更大的竞争力。

此前，《晚点 LatePost》曾在报道中指出，字节广告客户投放总成本里有 10%~20% 为视频制作成本；去年开始，字节已在开发一些相关产品帮广告客户压缩这部分投入。

接近字节人士向虎嗅表示，字节的核心 AI 业务中，剪映占据重要位置，集团希望它成为一个独立的工具产品。" 从战略角度看，字节希望剪映变成一个类似于过去支付宝和淘宝关系的产品，它本身是一个工具，现在得慢慢地独立出来。"

不过，传统视频编辑工具，如剪映的技术路线是基于一些预测性和可复现的底层操作，包括传统图像学和视频编辑算法，以非常精确的方式编辑视频内容——这样的优势在于其操作粒度细且可控性强；缺点在于需要大量的人力投入，例如剪辑一段视频考验制作者能力和人力成本。

顺着这个逻辑所进化的工具，只能通过建立一套标准操作流程（SOP），将一些工具进行组合以形成多套模板，再通过这些模板来进行视频剪辑和生成；然而，这些模板基本上很同质化，导致产生的变化很相似，形成了固定范式，导致这类工具适用场景有限，创新性较低——而 Sora 在图像控制表达能力上结合了 DALL · E 和 GPT-4 的能力，其他厂商缺乏相应的图像和语言模型能力，人才、数据和算力才是技术复现的三大核心壁垒。

一位华人工程师向虎嗅表示，OpenAI 在技术层面领先的原因之一是选择了 Transformer 架构并创新推出 GPT 系列。" 最早的 Transformer 论文是由谷歌的科学家编写，但在当时并未被视为主流架构；然而，OpenAI 首席科学家伊利将 Transformer 架构应用于 GPT-1 模型后，其展现出优于以往模型的能力。"

他进一步指出，相比谷歌这样的科技巨头，在新技术面前往往更重视社会影响及对现有业务的影响——字节何尝不是如此；而 OpenAI 作为一家创业公司，反而可以放开手脚，更注重创新与自我突破。

Sora 只是亮个相，为何把你吓坏了？

"Sora 能够将真实世界映射到虚拟世界，无论内容真实性、视频质量（包括分辨率、码率、像素等）还是输出内容与用户需求的一致性都有显著提升，夸张点说是直接完成了 1 到 100 的跃迁。" 一位 AI 创业者如此评价道。

上述论断并非危言耸听——与其他文生视频模型（Runway、 Pika 等）不同，当摄像机移动和旋转时 Sora 能输出保持人物和场景 3D 空间一致性、基本符合物理世界规律（不能完全保持，也会出错）的视频。

对此，OpenAI 透漏，Sora 的技术架构与传统视频技术路径有所不同：其先将不同视频和图片数据压缩在一个低维空间中，再分解成统一 Patch 作为训练大模型的基本单位，这一改进使得文生视频更加逼真、高质量。

Sora 输出能力有多出色呢？即使在人物、动物或物体被遮挡或离开画面时，仍然可以进行追踪，确保物体持续呈现；而且，相较于其他大模型在文本数据上理解和涌现，Sora 在 GPT（不少人猜测训练的或许是 GPT-4.5）的语义理解支撑下，能理解用户需求以及在预训练学习过程中理解学习的视频内容。

疑似周亚辉在朋友圈透漏 GPT4.5 发布时间

虽说，尚未对外开放测试的 Sora 仍处于世界模型研究应用的初期阶段；可 Sora 一旦上线，用户贡献的素材内容能丰富数据资源增加训练样本。

一位 AI 创业者乐观地表示，" 相对现在某些类 GPT 产品插件，进化的大模型可能支持各种插件应用，解决生成内容中的各种问题，并对视频、游戏等内容产业产生商业层面的变革。"

所以，短期内 Sora 更多会应用于物理世界内容的延展，包括使用物理世界内容拼接创建新的创新内容，例如常规内容短片、电影等；中期，Sora 可作为视频编辑工具，应用在特效添加、背景更改、人物替换方面；后期，Sora 应用范围会涉及虚拟现实、增强现实、游戏开发等，潜在应用方向包括虚拟试衣、虚拟旅游等。