国产 Sora 的秘密，藏在这个清华系大模型团队中

2024-04-29 18:59 来源：网络点击：

国产 Sora 的秘密，藏在这个清华系大模型团队中

2024 年，Sora 一直活在聚光灯下。

马斯克不惜溢美之词，称「人类愿赌服输」；红衣教主周鸿祎眼中，借助 Sora 人类实现 AGI 将缩减至一两年。就连卖付费课程的微商，也拿「Sora」重新组装了自己的镰刀。

这种狂热的蔓延，从美国到中国，从一级到二级甚至再到三级市场，像涟漪一样，播散向全世界。

因为，在理想情况下，长视频生成的底层逻辑，约等于世界模型。十几秒、几十秒的视频中，包含了基础的图像处理、空间关系、物理规律、因果逻辑等等现实规律与知识的映射。小处看，可以掀翻传统电影、游戏制作的桌子，大处看，通往通用人工智能，这是关键一步。

同时，在一众长视频生成算法中，Sora 的技术突破是具备革命性的。相比传统的 Stable Diffusion，Sora 采用的 Diffusion 加 Transformer 架构，既克服了 Stable Diffusion 扩展性的缺失，更是在生成内容的准确性和灵活性上有了质的飞跃。

唯一美中不足是，Sora 并非开源算法。

没了开源，也就没了复现的可能；没了复现可能，那么哪怕经管出身的合伙人睡前读物变成了《Scalable diffusion models with transformers》，投资经理一周跑遍北京、深圳科技产业园掘地三尺，所有人都不得不承认一个现实，尽管视频大模型企业众多，但或许尚未等到国产 Sora 正式发掘，视频大模型的淘汰赛就已经走到尾声。

业内「哇声一片」，一级市场却空前焦虑。中国 AI 企业，只能眼睁睁看着自己距离 Sora 越来越远吗？

01「国产 Sora」来了？

场上 VC 几乎绝望之际，谁也没曾想到，国产 Sora 的秘密，最先揭晓谜底的，竟是成立仅一年多的大模型企业——生数科技。

近日，生数科技联合清华大学宣布推出国内首个基于纯自研 U-ViT 架构的视频大模型「Vidu」，支持一键生成长达 16 秒、分辨率高达 1080p 的高清视频内容。从官宣的短片来看，Vidu 在多镜头生成、时间和空间一致性、模拟真实物理世界以及想象力等方面，几乎与 Sora 齐平。

而相比其他国产「类 Sora」的工作，Vidu 一个最明显的特点就是，画面时间足够长。

一直以来，十秒几乎是「国产 Sora」的一个生死线。要想达到或者超过十秒，则意味着对训练素材的积累，以及如何解决算法记忆消失问题，需要做出深厚的研究。

这是 Vidu 放出的另一段官方视频，从视频中可以看到，白色老式 SUV 在山坡土路行驶中，滚动的轮胎会扬起灰尘，轨迹自然连贯；周围树林，也在阳光的照射下，遵循真实世界中的投射规律，留下光影斑驳。

形成对比的是，保证视频时长的前提下，大部分国产「类 Sora」都很难保持人物和场景的连贯，同时也难以做到真实地遵循物理世界规律，比如吃汉堡会留下咬痕、汽车开过会留下尾气与灰尘的痕迹。

根据行业人士透露，目前市面上之前的一些「类 Sora」模型，做到长时长的路径，其实大多是通过插帧的方式，在视频的每两帧画面中增加一帧或多帧来提升视频的长度。

这种方法就需要对视频进行逐帧处理，通过插入额外的帧来改善视频长度和质量。整体画面就会显得僵硬而又缓慢。

但生数科技的作用原理明显不同。基于单一模型完全端到端生成实现底层算法，直观上，我们可以看到「一镜到底」的丝滑感，视频从头到尾连续生成，没有插帧痕迹。

另外，还有一些工具类的长视频采用了「换汤不换药」的做法。底层集合了许多其他模型工作，比如先基于 Stable Diffusion、Midjourney 生成单张画面，再图生 4s 短视频，再做拼接。也就是说，想要一个十几秒长视频，那就把多个 4s 短视频拼在一起就好，不仅整体的画面流畅度会大打折扣，底层也并没有实现长视频生成能力的突破。

除了生成时长有了质的突破，从官宣视频中我们还可以看到，Vidu 还做到了画面连续流畅，且有细节、逻辑连贯。尽管都是运动画面，但几乎不会出现穿模、鬼影、运动不符合现实规律的问题。

做一个简单对比，以下是某热门视频大模型团队的视频生成效果截图，虽然整体视频长度才四秒，但仅仅一个准备跳跃的动作指令，就足以让画面里的小猫变成 6 只脚，或者三根尾巴的「鬼影」。

对比如此鲜明，让人不禁疑惑：为何 ChatGPT 发布后，市场马上涌现一批「达到 GPT 3.5，逼近 GPT4.0」的大模型产品。同样是追赶，为什么类 Sora 产品却如此困难？

答案是，ChatGPT 发布不久，Meta LLama2 开源，开源平替解决了国产 ChatGPT 技术复现的燃眉之急。而 Sora 没有开源，技术细节未公开，这就导致，实现「国产 Sora」就只剩了自研这一条路可以走。

根据 OpenAI 披露的技术报告，Sora 核心技术架构背后源自一篇名为《Scalable Diffusion Models with Transformers》的论文，论文提出了一个将 Diffusion（扩散模型）和 Transformer 融合的架构—— DiT，后面被 Sora 采用。

巧合的是，比 DiT 早两个多月，清华团队就提出了用 Transformer 替代基于 CNN 的 U-Net 的网络架构 U-ViT。从架构路线上，两者并无二致。甚至过程中，还曾出现一个小插曲，由于发布时间更早，当年计算机视觉顶会 CVPR 2023 收录了清华大学的 U-ViT 论文，却以「缺乏创新」为由拒稿了 Sora 底层使用的 DiT 论文。

生数科技的创始团队正是源于清华大学该论文团队。公司的 CTO 鲍凡就是该篇论文的第一作者，此次发布的 Vidu 模型底层采用的就是 U-ViT 架构。也就是说，生数科技并不属于追逐 Sora 的一员，而是一早就踏在了同一起跑线，甚至是更早。

由此窥见，生数科技成立时间虽短，但来头却不小。

深扒发现，论人才，其团队核心成员来自清华大学人工智能研究院，是国内最早开展深度生成式研究的团队。论技术，团队多项研究成果被 OpenAI、苹果、Stability AI 等应用于 DALL · E 2、Stable Diffusion 等模型中，是现阶段在生成式领域发表论文成果数最多的国内团队。论背景，生数科技已获得蚂蚁集团、启明创投、BV 百度风投、字节系锦秋基金等多家知名机构的认可，完成数亿元融资。

而真做到这一切的，为什么是生数？

02 为什么是生数科技？

最重要的答案或许是，生数科技早早走对了技术路线。

与市面上大部分视频生成算法采用基于 U-Net 卷积架构的传统扩散模型不同，生数科技此次发布的 Vidu 与 Sora 采用的都是融合架构（即上文提到的 U-ViT 与 DiT）。

所谓融合架构，可以理解为 Diffusion（扩散模型）与 Transformer 的融合。

Transformer 架构被熟知应用于大语言模型，该架构的优势在于 scale 特性，参数量越大，效果越好，而 Diffusion 被常用于传统视觉任务（图像和视频生成）中。

融合架构就是在 Diffusion Model（扩散模型）中，用 Transformer 替换常用的 U-Net 卷积网络，将 Transformer 的可扩展性与 Diffusion 模型处理视觉数据的天然优势进行融合，能在视觉任务下展现出卓越的涌现能力。

2022 年 9 月，团队提交了 U-ViT 论文，在全球首次提出将扩散模型与 Transformer 融合的架构思路。两个多月之后推出的 DiT 架构同样采取了这一思路，而后被 Sora 采用。

相比仅在 ImageNet 上做了实验的 DiT，U-ViT 还在小数据集（CIFAR10、CelebA）、ImageNet、图文数据集 MSCOCO 均做了实验。而且，相比传统的 Transformer，U-ViT 提出了一项「长连接」的技术，大大提升了训练收敛速度。

之后，团队继续深入。2023 年 3 月，团队基于 U-ViT 架构在大规模图文数据集 LAION-5B 上训练出近 10 亿参数量模型 UniDiffuser，并将其开源，UniDiffuser 支持图文模态间的任意生成和转换。

UniDiffuser 的实现有一项重要的价值——首次验证了融合架构在大规模训练任务中的可扩展性（Scaling Law），相当于将融合架构在大规模训练任务中的所有环节流程都跑通。

值得一提的是，同为图文模型，UniDiffuser 比最近才切换至 DiT 架构的 Stable Diffusion 3 领先了一年。

不过，虽然都选了融合架构，但在后续产品路径的推进上，基于资源等方面的考虑，Sora 团队选择「每天基本不睡觉高强度工作了一年」all in 长视频，生数科技则选择从 2D 图像开始，再进一步拓展到 3D 和视频。

路线没有对错之分，一个基本常识是，国内创业公司，技术路线可以与 OpenAI 一样，说明目光足够长远；但商业化打法参考 OpenAI 就是自寻死路—— Sora 背后是 OpenAI 的技术实力，以及微软的几乎无限制的算力支持，普通公司没有学习的资本。

也是因此，回顾整个 2023 年，生数科技主要资源都放在了图像和 3D 上。到了今年 1 月份，生数科技才正式上线 4 秒短视频生成，2 月份 Sora 发布之后，公司正式攻坚，很快便在 3 月份就突破了 8 秒的视频生成，4 月份实现 16 秒长度突破，生成质量与时长，全方面取得突破。

仅仅两个月的时间就完成从 4 秒到 16 秒的训练任务，速度令人吃惊。

背后不仅源自技术架构层面的「前瞻」，也在于通过过去图像到 3D 到视频的循序渐进，让团队积累了高效的工程化经验。

视频本质上是图像在时间序列上的扩增，可以看成连续多帧的图像，所以先从图像开始入手，基础建设类的工程化工作，比如数据的收集、清洗、标注以及模型的高效训练等经验，是可以复用的。Sora 就是这么做的：它采用了 DALL · E 3 的重标注技术，通过为视觉训练数据生成详细的描述，使模型能够更加准确地遵循用户的文本指令生成视频。

据悉，「Vidu」也复用了生数科技在图文任务的很多经验，通过在前期的图像等任务中的准备铺垫，生数科技利用视频数据压缩技术降低了输入数据的序列维度，同时采用自研的分布式训练框架，在保证计算精度的同时，通信效率提升 1 倍，显存开销降低 80%，训练速度累计提升 40 倍。

路要一步一步走，饭要一口一口吃。在这个抢夺「国产 Sora」的商业游戏中，技术上找对和认准方向是第一步；而走出「国产」特色，也是生存下去的必要条件，二者缺一不可。

* 头图来源：视频号生数 shengshu

本文为极客公园原创文章，转载请联系极客君微信 geekparkGO