淖涝网 > 社会 > 正文

​OpenAI劲敌出手!Claude 3正式发布,超越GPT-4,一口气读15万单词

2024-03-06 03:40 来源:网络 点击:

OpenAI劲敌出手!Claude 3正式发布,超越GPT-4,一口气读15万单词

OpenAI 创始人奥特曼都还没来得及和马斯克掰扯完新仇旧恨,没关系,还有其他人会悄悄出手——

北京时间 3 月 4 日晚间,Anthropic,毫无预警地发布了最新一代大模型 Claude 3,距离上一代的 Claude 2 发布,仅相隔 8 个月。

Anthropic 是 OpenAI 的劲敌,其核心团队同样是 OpenAI 的创业原班人马。团队因为与 OpenAI 理念不合而分家,于 2021 年成立了新公司 Anthropic。

仅在 2023 年,Anthropic 就连续获得五轮,共计 73 亿美元的融资。在大模型训练上,Anthropic 可以说是业内第一梯队,同样备受硅谷关注。

这次,毫无疑问,Claude 3 直接对标 OpenAI 当前最强大的模型 GPT-4,多模态能力配齐,并且直接甩出超过 46 页的技术报告,自豪表示:

全面超越 GPT-4!

△来源:Claude 来源:

新一代的 Claude 3 分为三个版本,分别为 Haiku、Sonnet、Opus 三款模型。从模型尺寸来看,可以理解为模型的中杯、大杯、超大杯。

虽然 Anthropic 并没有给出模型的具体参数,不过给出了三款模型所适用的场景:

Haiku:是相应速度最快的模型,也是成本最低的选项,在大多数纯文本任务上的表现仍然相当出色,也同时包含多模态能力(比如视觉)

Sonnet:适用于需要平衡性能和成本的场景,它在纯文本任务上的表现与后面的 Opus 相当,但在成本上更为经济,适合于那些需要性能稍微好点,但预算有限的企业和个人用户

Opus:具有强大的推理、数学和编码能力,接近人类的理解能力,适用于需要高度智能和复杂任务处理的场景,如企业自动化、复杂金融预测、研究和开发等。

从本周开始,Claude 会向 159 个国家开放。其中,Opus 和 Sonnet 模型的 API 均已上线,开发者已经可以直接使用。经济性能兼顾的 Sonnet,就在官网上提供免费体验,Opus 则可供 Claude Pro 订阅者使用。

尽管 OpenAI 凭借 Sora 在文生视频领域打了一场漂亮的翻身仗,但视频赛道所在的发展阶段更早。如今的主战场仍在大语言模型(LLM)上,离产品化也更近。

圈内人也看热闹不嫌事大。近期不少报道显示,马斯克将 OpenAI 告上法庭,让 OpenAI 不得不内部推迟有关 GPT-5 的发布—— GPT-5 被认为能够实现 AGI(通用人工智能)。著名 AI 圈网红、英伟达的首席 AI 科学家 Jim Fan 就表示:

Claude 3 刚刚发布了,坐等几个小时后 OpenAI 精心安排的 GPT-5 发布。

△来源:Twitter(X)

2024 年才刚刚过去两个月,我们就已经见证谷歌 Gemini Pro、OpenAI 的 Sora,再到如今的 Claude 发布……巨头混战再度拉开序幕,大有愈演愈烈之势。

一口气读 15 万单词,还能自己拆解复杂问题

如果是 OpenAI 是大模型领域的 " 六边形战士 ",无论是模型视频、商业化综合水平一骑绝尘,那么 Anthropic 从风格上看更为低调,也更强调专才,但这次的能力提升确实巨大。

有看客甚至表示:

Claude 3 终结了 GPT-4 时代。

这次 Claude 3 的两大更新亮点,一个是长文本,二是多模态能力。

长文本就是 Anthropic 的一个显著优势,体现为在读论文、小说等字数更多的文本时,Anthropic 更擅长理解和回答用户的相关问题。

这次,Claude 3 大大提升了上下文对话窗口,达到 200k ——可以理解为单次和模型对话能够输入的文本。

具体而言,Claude 3 200k 的对话长度,相当于能够单次处理超过 15 万英文单词,而 GPT-4 Turbo 的上下文窗口为 128k,大约是 9.6 万个英文单词。

并且,Claude 3 也第一次允许图像和文档上传。和 ChatGPT 一样,Claude 3 能够 " 认 " 出来图里的是什么东西,直接描述,回答用户的问题。

而更令人印象深刻的还是,Claude 3 在分析一些复杂问题时,已经能够和人一样,先拆解问题,并且交由子模型来进行调度。

在 Anthropic 的演示视频里,就举了一个需要用 python 模拟经济形势走向的例子。当把 " 分析美国十年 GDP 未来趋势 " 的任务交给 Claude 3 之后,Claude 就默默地做了这些事:

先打开一个名为 "webview" 的工具,跳到这个问题相关的资料网址里

因为有多模态能力,所以能够把 " 看到 " 的信息,无论是文字还是图表,都扒拉下来,用来解决问题

然后自己写 python 程序、渲染趋势图,让人类看是否正确

最有趣的就是,网页中如果看到一个数据图表,没有明确数据的,Claude 3 甚至能通过识别图像,来估算每个阶段大概数据是多少,进行还原。

△搜索引擎中的数据图表

△ Claude 3 还原的折线图,估算了每个时间节点的具体 GDP

AI 安全也是 Anthropic 区别于 OpenAI 的一点。在 OpenAI 和 Anthropic 团队分家的时候,其最重要分歧正是包含对 AI 安全的考虑,Anthropic 希望建立一个 " 更可信 " 的模型,而 OpenAI 显然希望用商业化驱动模型更快地前进,路线上更为激进。

对此,Anthropic 采取的措施包括但不限于:制定了一套框架,用于评估和减轻 AI 模型可能带来的潜在灾难性风险,比如继续拧自动化评估和红队测试,以确保 AI 不会发展出可能造成伤害的能力。

2023 年 4 月,Anthropic 甚至开源宪法人工智能(Constitutional AI)引起了圈内轰动,这是一个限制模型行为遵守特定宪法原则的 AI。

以及 2024 年也是美国大选年, Anthropic 也在准备开发和执行关于在政治和选举背景下使用工具的政策,评估模型对选举错误信息、偏见和其他滥用的反应,确保用户能够在选定国家获得准确和最新的投票信息。

不过,Anthropic 也因为太过重视 AI 安全,很多问题的评估上很谨慎,甚至直接不回答,惹来一片用户吐槽。这次,Anthropic 表示,Claude 3 在这个问题上大有改进。

比如,Claude 3 的对无害信息的拒绝回复率,普遍来到了 10% 附近,比 Claude2.1 和 2.0 都有进步。

△来源:Anthropic

据 CNBC,Anthropic 拒绝透露训练 Claude 3 到底花了多少时间和多少钱,但表示 Airtable 和 Asana 等知名 SaaS 公司有帮忙对模型进行了 A/B 测试,让模型的可控性也有所改善。

技术以外,Anthropic 商业化还要再提速

尽管 Anthropic 技术上又一次拿出了看家实力,但大模型领域如今已经走过了一年多时间的技术竞争。如何从模型走向实际的产品落地,创造更大的商业价值,是悬在所有厂商头上的剑。

如今 Anthropic 背后站着谷歌云、亚马逊,已经和 OpenAI(背靠微软)形成鲜明的阵营对比。但从商业化角度,当前 Anthropic 远赶不上 OpenAI,这意味着 Anthropic 在 2024 年会面临更大压力。

和 ChatGPT 一样,Anthropic 也是 To B 和 To C 两条腿走路。在企业侧,Anthropic 已经服务了包括 Slack、Notion 和 Quora 等用户。

而据 The Information 2023 年 12 月报道, Anthropic 预计到 2024 年底将产生超过 8.5 亿美元的年化收入。相比起来,同样截至 2023 年底,OpenAI 由于 ChatGPT 的强劲增长,年化收入从 10 月中旬的 13 亿美元就增至 16 亿美元。

往后,随着 OpenAI 商业化提速,差距还可能越来越大。The Information 援引一些 OpenAI 领导者的观点,到 2024 年底,他们预计 OpenAI 年化收入可以达到 50 亿美元,而其他人则认为可以达到更高的数字。

技术上的军备竞赛远未结束。在 2023 年 12 月,Anthropic 还在进行新一轮高达 7.5 亿美元的融资,估值为 184 亿美元,相比 2023 年初 41 亿美元的估值,涨了 4.5 倍。