大模型不需要眼前的共识

2024-05-09 16:40 来源：网络点击：

大模型不需要眼前的共识

文 | 窄播，作者 | 李威

确定性的机会指向的往往是需求场景，需要实干家，不断优化体验；而不确定的机会往往依托于技术创新，需要冒险家，探索出一条通向应用的路径。这也是为什么人们不会惊讶于雷军下场造车的决心，却很难完全相信杨植麟在月之暗面创业过程中表现出来的技术理想主义。

在大模型领域，并没有形成像新能源车一样的市场共识。企业在确定性和不确定性之间进行的权衡，是引发行业分歧的主要原因。选择确定性还是拥抱不确定性，决定了企业是优先赚到钱，还是优先做好技术；是坚持做闭源大模型，还是赌开源大模型一定会迎头赶上；是要依靠通用模型催生引爆行业的超级应用，还是要通过小模型先占领细分市场。

当前的环境下，企业和投资人都会从更现实的角度去做考量，活下去、挣到钱，比一个不确定的理想愿景更能说服人。但人们对大模型的期待是给行业带来更彻底地改变。从长远来看，现在很多企业的大模型应用，还是在对原有工具进行小修小补，很难产生引爆技术的应用，也很难抵御未来大模型技术迭代带来的洗牌。

泛滥的「智能体」是最明显的一个例子。国产大模型的落地催生出各种被冠以智能体名号的聊天机器人和「XX 助手」。百度文心一言中充斥着大量伏地魔、繁花 - 爷叔这样的模拟对话机器人；kimi+ 上也出现了公文笔杆子、i 人嘴替等个人助理；字节豆包在抖音上的推广也都依靠批改作业、练习英语口语等简单的功能点来吸引用户。

很难想象这样的聊天机器人能有多强大的生命力。如果我们对于大模型的期待仅停留在追求确定性的阶段——利用其提升智能客服的对话体验，提高资料搜集整理的效率以及扩充某些图像或生成某些代码，那么大模型能够产生的实际价值或将远不及我们现在的预期。

大模型杀手级应用的出现一定是要革掉某个现有体验的命。现在来看，没有共识就是最好的消息，至少说明这个市场上，不是所有人都只满足于眼前的利益，还有人在沿着另一条逻辑路线前行，在不确定中寻找更大的可能，去打一场持久战。

大模型的两种逻辑

中局和终局是大模型领域目前比较有代表性的两种发展逻辑。

中局的逻辑以朱啸虎（金沙江创投主管合伙人）为代表，包括一部分聚焦应用层的创业者在内，致力于利用开源大模型快速构建服务于细分需求的小模型，然后通过数据积累和模型迭代，建立竞争门槛；终局的逻辑以月之暗面为代表，倾向继续投入于大模型能力的提升，等待技术迭代引爆超级应用。

在中局的逻辑里，大模型的理解、决策能力被融合到既有的场景中，让这些场景能够应用大模型的生成能力，提升解决方案的性能，从而产生新的商业化可能性。这种逻辑受到青睐的原因是，有确定性需求，可以迅速见到成效，用户付费意愿更强。

在朱啸虎的介绍中，一家利用开源大模型做 AI 视频面试的企业 2023 年的收入比 2022 年翻了一倍；利用开源大模型做 AIGC 视频广告的公司 2023 年收入做到了 5000 多万元，比 2022 年涨了四五倍。

朱啸虎追求的机会是，利用 LLaMA 这种快速提升的开源大模型，结合垂直场景的数据积累和人工微调，在几个月内提升某一垂直场景的效率，在大模型发展过程中先赚到第一桶金。

朱啸虎对大模型的发展持悲观预期，对应用场景的开发保持乐观，主张从实际出发，把能赚的钱先赚到。

月之暗面的创始人杨植麟的理念则更具技术理想主义色彩，他相信大模型会逐步完成对世界的建模，并在这个过程中自然涌现出杀手级应用。

杨植麟的终局逻辑下，大模型是一种解释世界的工具，就像人会用语言描述世界、理解世界一样，大模型用数学为语言建模，让 AI 也能够理解世界，描述世界。AI 依靠这种学习能力，逐步实现像人一样使用工具，让 AGI 成为帮助人链接和管理细分场景的「助理」。

AI 能够使用工具，也就意味着很多场景的运作方式将会迎来巨大改变。可能企业未来并不需要有一个专门的视频面试工具，也不需要有独立的 AI 客服，而是统合到一个大模型主导的企业级智能体中，依靠智能体打通和掌控企业的不同环节。

在即将被 OpenAI 带火的 AI 搜索中，真正的难点不是搜索结果到底要以网页列表的形式显示，还是以经过 AI 整合的一段话来显示，而是如何利用 AI 的理解能力，把被 APP 分解的信息重新链接成为一个整体。在 Kimi+ 中，可以看到什么值得买、小红书的相关内容可以借助个人助理「什么值得买」和「美好生活指南」来进行唤醒。

但随着杨植麟 2 个月套现 4000 万美元的消息传出，市场对他的这种终局逻辑产生了质疑。月之暗面直接面向 C 端用户的思路，获客成本高且营收前景低。在没有新的变化出现前，月之暗面商业化前景的不明朗被认为是杨植麟信心不足，急于套现的原因。

聊天机器人发扬不了大模型

从目前来看，国内的大模型应用给到尝鲜者的总体感觉还处于大而无当阶段，提出问题之后获得的答案很难让人满意。这一方面受限于大模型自身的技术能力不足，另一方面则受限于用户对大模型应用使用经验的不足。

很多大模型应用推出之初，都仅有一个对话框，用户可以在对话框中提出任何问题并获得答案。而利用精准的 Prompt 充分开发大模型的现有能力，成为大部分用户难以在短时间内逾越的门槛。

目前充斥在文心一言、豆包等大模型应用中的智能体，很多都是为了降低大模型的使用门槛而打包的 Prompt，也就是将一些用户的使用经验沉淀为可以被分享的智能体，让用户可以按照需求找到不同的智能体，获得更具针对性、更有效的回答。

Prompt 门槛的出现本质上还是大模型在语言理解能力上存在欠缺。用户即便利用现成的 Prompt 获得了有效信息，也依然要面对不成熟的体验。Prompt 或者所谓的智能体，可以解决初次沟通的效率问题，但解决不了复杂对话的效果问题，大模型应用往往都不止一轮对话。

这也是为什么智能体面向 B 端的商业化运作依然停留在客服、营销领域，并没有能推进到其他生产生活领域中。因为客服、营销领域在大模型应用之前就已经实现了基础的智能对话体验，大模型的理解能力可以让互动变得更加灵活、自然。

从李彦宏（百度创始人）演讲中提到的案例可以看到，百度在企业智能体方面的实践是提供了一套结合大模型的无代码客服机器人生成工具。企业可以上传私域知识，自动形成对话语料，也可以过滤不在自己经营范围内的内容，还能关联第三方的工具。

被包装为智能体的客服机器人，会服务于百度的搜索生态。当用户在百度 APP 搜索「什么时候去新加坡人最少」时，会在最前面显示新加坡旅游局 AI 分身给到的答案，点击可以进行更多对话。这种智能体本质上和之前的百家号、小程序一样，是百度为售卖搜索营销、云服务等产品的新切入点。

但无论是 to B 的客服机器人，还是 to C 的各种 Prompt，都不具备独特性，很难成为大模型的引爆应用。现在呈现在用户面前的智能体、大模型应用，都还是只停留在优化工具的阶段，只不过是让搜索变得智能了一点。就像王小川（百川智能创始人兼首席执行官）所说，是在聚焦于搜索如何使用大模型，而不是大模型如何学会用好搜索。

理想状态下，智能体应该能够调用工具，完成更为复杂的任务，而不仅仅是聊天。这里需要提到，无论 Rabbit R1 是否只是一个安卓 App 的套壳产品，但其结合大语言模型和所谓大动作模型对 APP 使用体验的创造性升级，似乎更接近于一个智能体理想中的状态——通过不断学习理解人的复杂意图，模仿人的动作执行复杂操作。

我会比较赞同杨植麟所说的，技术是这个时代唯一新变量。无论是在 to B 还是 to C 场景中，在其他变量都没有变的情况下，技术对语言的理解越来越精准，对人类意图、行为的理解越来越精准，其能够处理的任务就会越来越复杂，智能体的能力才会越来越强大。

Kimi 的走红，已经证明大模型应用具备了被引爆的市场基础。Kimi 于 2023 年 10 月上线，2024 年 2 月日活访问量已经在国内排到前三，在 3 月将无损上下文长度从最初的 20 多万字增加到 200 万字后，Kimi 关注度继续走高，连续五次扩容，访问量环比增长 321.58%。

没有共识就是最好的共识

当下还未解决的是，何时会出现一款让大众用户保持高频使用的超级应用。就大模型的应用现状来看，国内和国外都还处于工具优化阶段，只是取决于大模型不同的性能，效果上会有所不同。比如，Adobe 对 AI 的最新应用仍聚焦于 AI 图像编辑功能的创新和改进，文生图功能的推出，以及视频内容的换头、延长和辅助镜头的生成。

面向未来，让大模型学会使用工具，而不依赖人工微调，是技术发展的又一个节点。扎克伯格说，「对于 Llama-3，当我们开始进入更多这些类似于智能体的行为时，我认为其中一些将是更多手工设计的。我们对 Llama-4 的目标将是将更多这样的东西纳入模型。」

最终能力的大幅提升，依然有赖于大模型本身的进步。但是，大模型的每一次进步，都需要耗费一笔相当庞大的资金。根据 THE DECODER 披露，GPT-4 一次训练成本为 6300 万美元。而根据 AI Index 的估算，OpenAI 的 GPT-4 估计使用了价值 7800 万美元的计算资源进行训练，谷歌的 Gemini Ultra 的计算成本则高达 1.91 亿美元。

高昂的训练成本也是国内在大模型方面没有形成共识的原因之一。国内大模型的融资额度要低于国外。月之暗面在 2 月获得了 10 亿美元 A 轮投资，Minimax3 月被传获得 6 亿美元战略投资。相较于亚马逊向 Anthropic 追加的 27.5 亿美元投资，都不算多。而且国内的环境并不利于大模型的进一步融资。

对大模型技术未来发展的差异化预期是另外一个原因。一部分开源大模型的支持者会认为，开源大模型与闭源大模型的发展会受到大模型技术发展坡度的影响，坡度越陡，闭源的优势越大，一旦坡度变缓，开源会很快追赶上来。

等待开源大模型追赶上来的人，都预期大模型技术发展的坡度会在短时间内变缓。这样闭源大模型与开源大模型的差距就会相对缩小。而提前深耕场景，积累了一定数据的企业则能够利用开源大模型构筑不低于闭源大模型企业的场景壁垒。

对于小企业而言，以应用场景为目标训练小技能，然后不断根据技术进步重新「练号」，可以在这个大技术趋势下不断抓到小风口，甚至在大风口到来时，以插件的形式参与其中。对于巨头企业来说，其优势是多场景的融合，是对核心入口的争抢，「重开新号」的代价太高，技术的迭代往往意味着一场淘汰赛的开启。

基于融资能力的不同、对技术应用前景预期的不同、自身体量的不同，企业之间的共识并没有形成。

这是一个好消息，说明大模型领域还远未像新能源车一样进入到市场成熟阶段。虽然不确定性会增加失败的风险，但其中也蕴藏着的机会也更大，足以说服一部分企业冒险前行，追求技术的高峰。

可以理解中局的无奈，却不应放弃对终局的坚持。