淖涝网 > 社会 > 正文

​用智谱AI的类「GPTs」,我做一个Agent只花了30秒

2024-01-19 05:06 来源:网络 点击:

用智谱AI的类「GPTs」,我做一个Agent只花了30秒

文|周鑫雨

编辑|邓咏仪

春节前,智谱 AI 先给开发者过了个小年。

2024 年 1 月 16 日,中国模型层独角兽智谱 AI 举办了首届 AI 技术开放日 Dev Day。自 2023 年 10 月语言大模型 ChatGLM3 发布以来,智谱 AI 在 3 个月的时间里,将基座模型 GLM 的能力提升了 60%。

随着模型能力的提升、AI 应用生态的建立,模型层厂商建立 OS(操作系统)也水到渠成。智谱 AI CEO 张鹏对 36 氪直言,做 OS 不叫野心," 而是模型能力达到一定水平后自然而然要做的事 "。

围绕迭代模型、建立 AI 应用生态、构建 AI OS,智谱 AI 的 Dev Day 的发布有三个重点:

最新大模型基座GLM-4发布,中文环境下各项能力几乎超过 GPT-4,英文环境下各项能力均达到 GPT-4 的 90%;

发布定制化模型生成工具GLMs,实现 0 代码分钟级创建基础 AI 应用。与此同时,GLMs 模型应用商店上线;

推出多模型能力自动调用工具All Tools。All Tools 可以被视作 AI OS 的一个雏形,能根据用户的指令对 GLMs 进行自动选取、调用、执行。

对不少开发者而言,这些更新听上去并不陌生。2023 年 11 月 16 日,OpenAI 就在 Dev Day 推出了定制化模型生成工具 GPTs 和应用商店,也被视作构建 AI OS 的标志。

对智谱 AI 而言,OpenAI 是最强的对手,也是技术能力的试金石。对标 OpenAI,智谱 AI 建立了从通用模型基座到多模态模型的产品线。

智谱 AI 对标 OpenAI 建立的产品线

摸着 OpenAI 过河,张鹏认为,GLM-4 的能力已经接近 GPT-4,够到了建 AI 应用生态、做 AI OS 的门槛。他也预言,下一次模型能力的跃升,将出现在具身智能的突破。

单次处理 300 页小说,模型能力达 GPT-4 九成

在模型能力上,OpenAI 是智谱 AI 一直追赶的对手。

Dev Day 上最新发布的 GLM-4,目前在英文基础能力的表现上,已经能和 GPT-4 掰掰手腕,均达到了对手能力的九成;在中文能力的表现上,除了逻辑推理和中文推理两项能力不及 GPT-4,其他维度已经超越了对方。

而在指令跟随能力这一维度上,GLM-4 还有一定的提升空间。所谓的指令跟随能力,就是模型解读输入 Prompt 和指令的能力,是理解用户意图的重要维度。在英文 Prompt 的理解上,GLM-4 能力相较于 GPT-4 稍弱,为后者的 85%。

图源:智谱 AI

随着模型发展阶段从狂卷参数规模,到应用落地,如今,通过扩展上下文窗口来提升模型的 " 记忆力 ",成为不少厂商发力的方向。

GLM-4 也不例外,它将上下文窗口从 32K 扩展到了 128K,这意味着单次可以处理约 20 万字的文本,相当于 300 页的小说。

当然,能处理的文本越长,模型也越容易 " 失忆 "。据智谱 AI 介绍,GLM-4 目前可以做到对记忆几乎 100% 的精准召回。

在作者上传一整本马伯庸的 9 万字小说《长安的荔枝》后,可以看到,GLM-4 不仅准确得出李善德运送荔枝的天数,总结了他成功保存荔枝的方法,还定位了刺杀李善德的真凶。

作者试用

在定价上,128K 系列模型采取了 " 加量不加价 " 的策略。相较于 32K 的 ChatGLM-Turbo,128K 的 GLM-3-Turbo 定价没有上涨,仍为 0.005 元 / 千 Tokens;128K 的 GLM-4,定价为 0.1 元 / 千 Tokens,约为 GPT-4 价格的 1/2。

在 Dev Day 上,智谱 AI 也披露了在多模态研究上的进展。

据智谱 AI 介绍,最新推出的文生图模型 CogView3,能力已经超过了最强开源模型 Stable Diffusion XL,接近 OpenAI 的 DALLE · 3。这是由于 CogView 采用了自研的非自回归技术 " 中继扩散模型 ",提高了生成图像分辨率,并解决了 Diffusion 模型生成质量不稳定的问题。

CogAgent,是智谱 AI 最近的研究方向,即探究如何从多模态模型走向智能助手。张鹏告诉 36 氪,人类感知世界仍然离不开视觉、听觉,多模态与 Agent 的结合是必然的趋势。

推出 0 代码 Agent 定制工具 GLMs,模型应用商店上线

对标 OpenAI 的 GPTs,智谱 AI 在 Dev Day 上发布了 GLMs。

在这款国产的定制版 Agent 生成器中,用户只需要用自然语言输入 Agent 功能,GLMs 就会自动生成应用名称、配置名称、模型能力调用等配置文件信息。用户还可以上传外部知识库,让 GLMs 进行学习。

比如,当我们想让 GLM 自动生成一个食谱生成器,就可以输入 " 你是一个食谱生成器,用户输入食材,你可以生成三菜一汤。"

点击 " 发布 " 按钮后,名为 " 食途指南 " 的 GLMs,就可以在智谱 AI 的对话机器人 " 智谱清言 " 上使用。

不过,GLMs 的目标用户并非企业和资深开发者。据现场工作人员介绍,这是一款面向普通用户的 Agent 生成器,目前用户只能在 " 智谱清言 " 移动端和网页端上发布 Agent,而不能够发布独立的 App 版本。

为了建立基于 GLM 的 AI 应用生态,在 Dev Day 上,智谱 AI 顺势发布了GLMs 模型应用商店,并计划同期公布开发者分成计划。

目前,在名为 " 智能体中心 " 的应用商店中,已经聚集了上百个基于 GLM 研发的 AI 应用。

比如一款名为 " ‘利好茅台’分析师 " 的应用,主打提炼出对茅台品牌有利的信息。即便询问对茅台不利的问题,它也能圆回来。

智谱 AI 版 GPTs,让大模型把原生 App 用起来

用一台手机或电脑,查到近三年春运数据并绘制折线图,需要几步?

1、打开中国政府网寻找数据;2、汇总到 Excel 表格中;3、调用图表生成工具。

最少要三步。

而模型时代,这个步骤被缩减成了输入一句自然语言指令:

" 这将会是 AI 时代 OS(操作系统)的特质。移动时代的 iOS 和安卓并不理解应用,但大模型 OS 可以理解建立其上的 AI 原生应用。" 张鹏告诉 36 氪。

此前,OpenAI 已经用 GPTs,为 AI 时代的操作系统打了个版:开发者们利用 GPT 基座低门槛快速开发定制模型和应用 GPTs,集成了这些 GPTs 的 GPT,天然成为最懂这些应用的 OS。

在 Dev Day,智谱 AI 对大模型 OS 的运作模式已经进行了初步实践:推出All Tools,让作为 OS 的 GLM-4 根据用户意图,自动选择调用文生图、代码解释器、网页浏览等多种模型能力。

All Tools 可调用的连续图文创作能力,来源于智谱 AI 的文生图模型 CogView2。其优势是可以结合上下文语境,与用户连续交互。

比如,当我们遇上一个最终选了第一版方案的难缠甲方,通过 CogView 就能快速找到第一个方案:

All Tools 可调用的网页浏览能力,特征是由模型自行规划检索任务、自行选择信息源、自行与信息源交互,并对用户显示检索次数。

比如,仅根据 "CES 2024(2024 国际消费电子展)展位面积最大的中国厂商 " 这一信息,网页浏览能力就能检索到 TCL,并通过 2 次检索回答产品发布的相关问题。

除了连续图文创作能力网页浏览能力,All Tools 目前还能调用代码解释器(支持复杂计算,以及文件处理、数据分析、图表绘制等复杂任务)、Function Call(根据⽤户提供的 function 描述,⾃动选择所需 function 并⽣成参数,以及根据 function 的返回值⽣成回复)。根据具体任务,All Tools 还支持多工具自动调用

使用一个懂你、更懂应用的 OS 有多爽?

调用网页浏览和图表绘制能力完成春运数据折线图的生成,是其中一个案例。

36 氪再尝试了让 All Tools 根据同个指令,调用文本创作和图片设计能力 2 种能力。

比如,想为电视剧《繁花》设计宣发语和海报,只需要在一句自然语言指令中同时包含这两个需求,All Tools 就能自动调用 ChatGLM 的语言理解能力,以及 CogView 的图片生成能力。

张鹏告诉 36 氪,在未来,All Tools 也将支持调用 GLMs 模型应用商店中上传的各种模型应用。

以下是与智谱 AI CEO 张鹏的对话(内容略经 36 氪整理):

36 氪:之前 OpenAI 在 Dev Day 上发布了 GPTs 和应用商店,被视作要做 AI 时代的 OS(操作系统)。如今智谱 AI 发了 GLMs 和应用商店,智谱 AI 也有做 OS 的野心吗?

张鹏:我觉得这不叫 " 野心 ",而是模型能力达到一定水平后自然而然要做的事。

36 氪:" 一定水平 " 是什么?

张鹏:可以理解为模型能力超过人类能力的平均线。去年(2023 年)3 月发布的一篇解读 GPT-4 能力的报告,最后的结论是:GPT-4 在大多数任务的平均表现已经超过了人类的平均水平。如果我们追上 GPT-4,就意味着我们也能超越人类的平均水平。

36 氪:AI 时代的 OS 会和移动时代的 OS(比如 iOS 和安卓)有本质的区别吗?

张鹏:当然会。

信息科学或者上一代的 IT 技术解决的是处理数据信息的问题。计算机把所有的数据数字化,用 0 和 1 表示,然后设计一套逻辑去计算。但上一代 IT 技术只是工具,并不知道它在处理的是什么,以及处理的意义是什么。iOS 也好,安卓也好,都不理解自己处理应用的意义。

这一代人工智能想解决的问题就是让机器理解自己行为的意义。所以这一代的 OS,其实不是操作系统,而是思考系统,你只要粗略地告诉它你要干嘛,它就能够帮你去思考,并且完成对应用的操作。

36 氪:未来 AI OS 和安卓、iOS 会是怎样的关系?

张鹏:若是要让 AI OS 替代传统 OS,我觉得需要很长一段时间,也许最后它们也会共存。

你记不记得《流浪地球》中的这样一个情节?当量子计算机 MOSS 接上空间站的总控,它做的第一件事是:改写底层所有的操作系统。

为什么用的是改写,而不是全部覆盖?因为底层很多东西就只需要机械式的行动,不需要思考。安卓和 iOS 已经很强,起码现在很有效,能控制现有的应用。未来 OS 会发生的事,很难预估。

36 氪:那我们来聊现实一些的事。国内外现在很多模型厂商都在做自己的应用商店,智谱 AI 怎么样应对竞争,把更多的应用聚集到自己的生态上?

张鹏:其实我们 2021 年的时候就想做 OS,取名为 "MOS",相比 "MOSS" 就少了个 "S"。当时我们连产品设计图都画出来了,但是这个事儿最后没有做,还是考虑到模型的能力不够。我觉得聚集更多应用的前提,就是提高模型能力。

36 氪:模型能力迭代到 GLM-4 目前的能力,最关键的几个节点是什么?

张鹏:第一件事就是 Scaling(扩大参数规模),提升参数量是提高模型能力的基础。

第二件事,是我们做了很多与人类对齐的工作,让模型遵循人类的价值观。

第三件事是开源。开源的意义并不在于让我们的技术先进了多少,而是因为单纯靠我们的力量很难追上 OpenAI。我们需要通过开源把更多人引入生态,去发挥模型最大的价值。

智谱 AI 设立大模型开源基金,在开源社群投入 1 千张 GPU、1 千万人民币、1 千亿 Token 数

第四件事是多模态。因为语言是人类创造的,所以从语言切入是最容易的,语言模型可以成为第一步。但我们理解、认知世界的方式还需要其它的感官,所以开始加入多模态很重要。

最后一件事是 Agent。多模态能让模型长出五官,但模型仍然活在缸里。Agent 就让模型长出四肢,能够真正实现与现实或者数字环境交互,让模型具备自主规划和行动的能力。

所以现在看到的 GLM-4 其实是我们长期对这几件事探索的成果。

36 氪:模型能力的下一次跃升在哪里?

张鹏:我觉得是具身智能。就像一个哲学命题所讨论的:肉体和灵魂能不能分开?我倾向于认为,智能无法和物理世界割裂,智能的诞生与身体的物理条件有关。

36 氪:Dev Day 上大家提到大模型没法大规模商用,以及 C 端通用应用发展缓慢的一个重要原因是成本太高,比如一个通用 C 端应用一天就可能消耗上亿的 Token。站在模型厂商的角度,这个问题该怎么解决?

张鹏:这个问题无法脱离生态圈去解决。比如对于硬件厂商来说,就需要制造出效率更高的芯片;对我们这些模型厂商来说,需要持续去降低模型的推理成本;对于应用厂商而言,就要想办法让用户更多地去承担成本,提高付费意愿。

成本的问题躲不开,需要全产业链去挤水分。

36 氪:今天智谱 AI 分享了很多客户案例。不过在国内做模型的商业化,有哪些难点?

张鹏:中国市场有自己的特点。比如说 SaaS,在国外活得好好的,在国内就很艰难。MaaS(模型服务)本质上也是 SaaS,但环境的事靠我们自己很难去改变,我们只能思考怎么去破局。

所以我们很早就把商业化方案想得比较清楚。比如和初期做知识工程的基因有关,我们觉得模型商业化做 To B 可能会更容易一点。

但中国 B 端的客户的需求其实非常多样化,非常不统一,如何去满足客户需求又不陷入工程的泥潭里?我觉得是要放大 AI 模型泛华能力强、通用性高的优势。

这里头有很多讲究。首先部署策略的方案要多元,比如我们有三种方案:API、云端私有化、本地私有化,基本上每个有意向的客户都能找到对应的部署方案。其次我们也会慢慢教育用户,说服他们慢慢从最重、最麻烦的定制方式,转向更标准化、平台化的产品购买方式。

从去年来看,我们 MaaS 整体的效果应该说还行。我们有 2000 多家客户,单纯从数量上看,分布得还比较健康,呈现金字塔结构(少量高付费能力、高忠诚度的客户位于塔尖)。

智谱 AI 的部分客户

36 氪:智谱 AI 会出海吗?

张鹏:我们内部也在讨论这个问题。我们从来没有限制过自己制作国内市场,只是我不知道该怎么定义出海这个事,是挣美元就算出海了,还是在国外开个公司就算出海?所以关于出海的定义和形式我们纠结了很久。

其实在学术的全球知名度上,我们也早就 " 出海 " 了,但是这不等同于商业出海,我觉得还是一步步来。目前最重要的两件事是,一,核心技术突破;二,在商业路径上探索出更长远、更具有规划性的 MaaS 落地的路径。

目前商业化的情况初步证明,我们在 MaaS 上是能走通的,但是要怎么引导这个路径往更健康或者更长期的方向?今天有人提到平台化,也有人提到操作系统,现在还没有定论。

  扫码加入「智涌 AI 交流群」

欢迎交流