轮到字节追赶快手一次了

2024-07-31 01:45 来源：网络点击：

轮到字节追赶快手一次了

快手可灵以及文生视频赛道的意外火爆，不免让同序列的字节有些尴尬。究其原因，今年 " 激进 " 行军的字节，大模型布局要更为复杂——而上半年，字节更重要的对手或许是阿里与腾讯。随着 AI 战略在内部的优先级强化，奉行 " 大力出奇迹 " 的字节，并不缺少后发制人的机会。‍

作者 | 董温淑

编辑 | 李原

运营 | 刘珊

2024 年 2 月，Sora 的横空出世，让许多大模型公司的春节都没能过好。

" 春晚还在重播，我们就在紧急拉群讨论 "，一家 AI 头部公司员工对「市界」急切地说。看到 Sora 丝滑的体验，连卖课博主都蜂拥而动，赶着上线教程，大赚一把。

谁能最快时间 " 复制 " 出国内版的 Sora，更多人将目光放在了阿里、百度、" 大模型五虎 " 身上。但无人想到，拔得头筹的会是技术表现相对 " 佛系 " 的快手。

6 月 7 日，快手突然上线了文生视频模型 " 可灵 "（Kling），并可支持长达 2 分钟的视频生成。此外，与 Sora 至今仍在 " 期货 " 阶段相比，可灵一经公布便开放了测试，生成效果亦可圈可点。

" 可灵是最近圈内，被讨论最多的对象 "，一位风投行业人士对「市界」说。据官方数据显示：可灵上线一个月有超 50 万人申请，已开放给超 30 万用户使用，生成了超 700 万条短视频。

可灵的意外火爆，不免让字节有些尴尬。今年 5 月，字节也开放了文生视频模型 " 即梦 " 测试，但效果在目前火爆的文生视频赛道中，尚不具明显优势。

突然被曾经 " 忽视 " 的对手甩开身位，字节需要埋头追赶。据钛媒体报道，近期，字节跳动将 AI 大模型设为集团 "P0 最高级别 " 的方向。抖音、剪映等多个团队也在抓紧研发 AI 视频模型应用，预计将在近期公布。

做可灵，快、糙、猛多位开发者对「市界」表示，可灵的上线与亮眼表现，在行业内也算是个意外。

近日，「市界」以一段 " 黑猫 " 为关键词，在可灵、即梦，以及智谱 AI 刚刚上线的 " 清影 " 中分别输入了相同的提示：" 下雨天的城市街道上空无一人，一只可爱的黑猫奔跑而过。它的眼珠是绿色，脖子上带有黄色的项圈和铃铛，全身长着黑亮的长毛。视频用摄像机的视角拍摄，地面的积水反射出黑猫的身影。"

在生成的三段视频里，可灵版虽然未能实现快速奔跑的效果，但视频大致符合客观规律。

与之对比，" 即梦 " 版地面没有积水，黑猫也没有向前走动。" 清影 " 版虽有积水，黑猫行走时，步态古怪，尾巴也出现了丢帧。

▲（视频依次为可灵、即梦、清影生成作品）

据 " 硅星人 " 报道，可灵是快手花了 3 个月的时间打造的；团队规模很小，仅有 20 余人，牵头人是现快手视觉生成与互动中心负责人万鹏飞，其大部分的研究方向为图像 / 视频信号处理、计算摄影和计算机视觉、减少 Loss 函数、视觉生成等。

可灵的前身，来自快手在 2023 年 10 月重启的一个不起眼的项目 " 噗叽 "，这是一款将静态图片通过 AI 生成 2s Gif 表情包的工具软件。今年 3 月初，快手内部开了一个小会，万鹏飞的想法得到了快手高级副总裁盖坤（于越）的肯定，迅速确定了将噗叽作为预调研的产品。

据 " 硅星人 " 了解，" 做可灵的时候，执行层面有个共识，就是快、糙、猛。"

可灵项目开始不到一个月，就获得了快手创始人程一笑的支持，将其视为公司战略级项目。盖坤也常说：公司的卡都给你们用，公司全力支持。

数字人赛道创业者柯燃对「市界」分析道：" 可灵的成功，很大程度上要归功于快手积累的视频数据素材。放眼国内，这方面可以与之一战的也只有抖音。"

可灵风光的同时，字节显得有些落寞。

虽然 " 即梦 "5 月 9 日便官宣上线；6 月 17 日，即梦也作为首席 AI 技术支持方，在 AIGC 短剧集《三星堆：未来启示录》中亮相。但无论是在 C 端的表现，或是相较于快手 7 月 13 日上线的 AIGC 短剧《山海奇镜》，即梦的声量均不甚响亮。

7 月 17 日，市场曾传出消息称，字节将公布类 Sora 的文生视频技术进展。外界也将其解读为，字节要奋起直追，与可灵正面迎战了。

但字节方面随后向「市界」表示，该消息并不准确。7 月 17 日当日，「市界」注意到，活动更类似一场技术分享会。会议主要由豆包大模型视觉基础研究团队负责人冯佳时主持，并由字节研究科学家、机构学者等，做了整场的英语技术分享。

看起来，字节的 " 大招 " 或许还需要等些时日。

字节还没回过神那么，在最近如火如荼的文生视频赛道里，字节为何错过盛宴；最近字节又在忙些什么？

某种程度上，或许因为比起快手押注 " 可灵 "，可以 " 一力降十会 "。字节的大模型布局要更为复杂——而今年上半年，字节更重要的对手放在了腾讯与阿里。

面对大模型，字节的步调已不可谓不 " 激进 "。毕竟 2 个多月前，率先在行业内发起大模型价格战的，正是字节。

5 月 15 日，在字节跳动 "FORCE 原动力大会 " 上，字节推出了基于其自研豆包大模型的 API 服务。同时，火山引擎总裁谭待一步到位，亮出了 " 豆包 " 的最新价格：0.0008 元 / 千 Tokens，宣布这是低于行业 99.3% 的 " 地板价 "。

彼时，字节的 " 发难 " 曾先声夺人。据「市界」从多方了解，头部玩家对字节的出击缺少准备；各方虽感无奈，也只能被动追随。

接下来几天，阿里云、百度文心大模型、腾讯云先后宣布，将旗下大模型推理输入 token 以及 API 大幅降价。在此影响下，如今头部大模型的 C 端调用，已几乎悉数免费，行业也开始朝着下一个生态量级 " 卷 " 去。

据一家法律 AI 应用企业创始人向「市界」透露，API 服务开放后几乎没有时间差，火山引擎的销售人员就开始积极接触客户、推介产品。这也侧面印证了，市场流传的字节已将大模型标记为最高级别战略的猜测。

▲（谭待于 2024"FOECE 大会 "。图源 / 火山引擎）

而最近，字节的 " 当家产品 " 豆包，增长得较为明显。

据 Questmobile 数据显示，截至 2024 年 6 月，在国内 AIGC App 中，豆包、天工、Kimi 智能助手、猫箱增长亮眼——其中豆包流量排名第一。

▲（图源 /QuestMobile）

与快手相比，字节如今更在意的，或许是从基础大模型、到 AI 应用层的全生态竞争。此外，考虑到 2021 年才正式做云的火山引擎，在巨头云厂商里是 " 最年轻 " 的一朵。三年多来，火山云也一直被视为云市场的挑战者角色。字节如何将基础大模型、应用层、云市场协同起来，更是一项综合命题。

近日，据 " 光子星球 " 报道，字节 " 扣子 " 平台的大量使用者，正寻求如何将创建的智能体、bot 接入微信公号或小程序，讨论十分活跃。

去年 12 月，字节在海外推出了 AI 应用开发平台 "coze"。今年 2 月，国内版 " 扣子 " 上线。大量抖音体系商家，也希望从中迅速掘一桶金。

考虑到腾讯在今年 5 月才姗姗来迟，发布了 AI 智能体创作与分发平台 " 腾讯元器 "。彼时，扣子的访问量已达到了 233 万次。而截至目前，腾讯元器尚未打通小程序、公众号、客服订阅号微信系列生态。

毕竟当下，AI 发展仍在早期阶段。字节与腾讯一样，都还需要花费大量时间教育用户。争夺 AI 时代的分发权，先声夺人，或许是字节为了瞄准腾讯要做的更大功课。

后发制人，尚有时间站在行业层面，在当今互联网中，最不缺内容流量、电商流量，以及资金弹药的字节，即便短期在文生视频中 " 落后 " 一步，从长期来看，仍具备后发制人的潜力。

用积极的市场策略追平落后身位、大力出奇迹，同样也是字节的拿手好戏。

最近，瞄准阿里，字节也在做整合大模型的工作。在刚刚过去的 6 月 26 日钉钉生态大会上，总裁叶军宣布除了阿里自家的通义外，还将把其余 6 家的第三方大模型装入钉钉中。其中包含 MiniMax、月之暗面、智谱 AI、猎户星空、零一万物和百川智能，涵盖了国内几乎所有知名的大模型创企，要 " 构建中国最开放的 AI 生态 " 不言自明。

而与钉钉玩法类似，字节旗下扣子平台除了支持自家的 " 豆包 " 外，还接入了通义千问、月之暗面、MiniMax 等各大外部模型。6 月 14 日，扣子还上线了 " 模型广场 " 功能，支持用户选择匿名的两个模型，根据生成内容的表现来为其打分 PK。

此外，字节近期被曝光，对 "AI+ 硬件 " 的探索正在加快，并不惜通过收购延揽人才。

据 "Tech 星球 " 报道，字节旗下的 PICO 从去年下半年开始在研发多个穿戴设备，包括耳机和音响，这些设备也将搭载 AI。字节豆包团队也有基于大模型软硬件结合的探索，大模型软硬件结合已经逐步在学习机、机器狗、机器人等硬件设备上有所应用。

另据 36 氪报道，字节 AI 硬件 "D 线 " 负责人为李浩乾。后者为字节在今年 3 月份收购的 OWS（Open Wearable Stereo，开放式可穿戴立体声耳机）耳机品牌 Oladance 的创始人。另一条 AI 硬件条线 "O 线 " 的负责人也是字节曾收购公司的创始人，其向字节跳动技术副总裁洪定坤汇报。

而在文生视频方向，面对赛道刚刚的火爆，包括字节在内的追赶者们，大家都还有时间。

近日，一位开发者告诉「市界」：" 现在就是用可灵构构图、减负工作流程，还不到完全用它创作的程度，所以也还没有什么依赖性。"

而在另一位开发者、短视频 AIGC 博主的眼中，可灵还有不少优化空间：" 靠可灵文生视频不能保证虚拟人 IP 的一贯性。我一般都是用可灵图生视频的功能，相当于给可灵‘垫’一张图，让他在这个基础上生成不同视角动态视频，再拼接到一起，模拟运镜的效果，实际上还是人操作的比重更大。"

国内某 AI 模拟交友产品的研发成员则讲道：" 现在的大模型应用市场，大家都在摸着石头过河。怎样商业化是一个太遥远、太模糊的问题。但可以肯定的是，越多人用起来、玩起来，越能保证产品的优化迭代。"

（柯燃为化名）