淖涝网 > 社会 > 正文

​对话Arm终端产品副总裁:当生成式AI与Arm的DNA相契合,会擦出怎样的火花?

2024-06-04 00:42 来源:网络 点击:

对话Arm终端产品副总裁:当生成式AI与Arm的DNA相契合,会擦出怎样的火花?

智东西 5 月 31 日报道,今天,智能终端产业正与以大模型为代表的生成式 AI 技术进行一场前所未有的深度融合,以 AI 手机和 AI PC 为代表的移动领域,作为与我们每个人生活关系最为密切的赛道,已经涌现出诸多新的 AI 需求和场景。

生成式 AI 带来了新的算力挑战和存储挑战,并加速着背后一系列硬件、软件、算法、生态等方面的技术迭代,从芯片厂商到终端厂商,再到大模型厂商,每一个领域的玩家都被深度卷入。

作为移动领域底层计算解决方案提供者的科技巨头 Arm,近期也亮出了一系列与生成式 AI 产业发展密切相关的新产品、新技术,可以说,作为移动生态巨头的 Arm,正在向 AI 加码布局。

相关配图

就在昨天,Arm 在中国北京举办了一场线下发布会,公布了自家最新的终端计算子系统(CSS),这一系统结合了 Armv9 架构的特性,基于 3nm 工艺节点打造,包括 Arm 最新的 CPU 和 GPU。同时 Arm 还发布了为开发人员量身定制的开发工具 Kleidi 库。

相关截图

新 CPU Cortex-X925 实现了 41% 的 AI 性能提升,并显著提高了 LLM 等设备端生成式 AI 的响应能力,而 Arm Immortalis-G925 则在多个 AI 和 ML 网络上提升了 34% 的性能。

可以说,Arm 的一系列重磅技术和新品都剑指 AI。

值得一提的是,这是 Arm 首次为 Arm CPU 和 GPU 交付物理实现,这可以让构建和部署基于 Arm 架构的解决方案变得更加简单。

此次智东西也有幸与 Arm 终端事业部产品管理副总裁 James McNiven 进行了面对面的深入交流,对 Arm 在生成式 AI 时代的机遇、挑战进行了深入探讨,并挖掘了 Arm 在架构、硬件、软件、生态等方面的核心优势和深入思考。

在生成式 AI 时代,计算的 " 能效 " 成为行业首要关注焦点,而能效正是 Arm 的 "DNA"。Arm 毫无疑问已经成为搅动移动智能终端产业的重要变量。

相关截图

一、生成式 AI 掀起存储、计算需求暴涨,安卓端 CPU 挑大梁

毫无疑问,当下正是移动智能终端行业的关键时刻。生成式 AI 的端侧落地,重新定义了智能手机的 " 智能性 ",而在这一关键时刻中,Arm 是计算的 " 基石 "。从手机、笔记本电脑到可穿戴设备和数字电视等设备,Arm 正在为最大的计算生态系统提供普适应用。

相关截图

生成式 AI 的到来必将会催生更多的计算需求,带来更多新的用例,这对 Arm、芯片厂商、终端厂商来说都是一件好事,但同样这对于 Arm 来说也是一种挑战,他们需要不断迭代架构、硬件、软件等方面的技术,让生成式 AI 可以在 Arm 平台上更好地运行。

McNiven 谈到,针对生成式 AI 的到来,Arm 针对 AI 推理和训练优化了 Arm CPU 和 GPU,并持续在架构中对一些新的指令和数据类型新增支持,此外,为了应对内存流量需求的激增,Arm 也花费了大量时间优化数据流。

在生成式 AI 落地的过程中,异构计算成为了行业的主流,CPU、GPU、NPU 需要相互协同,但实际上,有 70% 的第三方安卓 ML 工作负载都是在 CPU 上运行的,因此 CPU 仍然是 AI 时代计算的核心。

二、CPU、GPU 性能能效提升,死磕 AI 能力,新软件工具剑指 AI 落地

正如 Arm 高级副总裁兼终端事业部总经理 Chris Bergey 称,Arm 平台秉承了 Arm DNA 的能效理念,随着 AI 时代的加速发展,它正为下一波计算需求奠定根基,这也是 Arm 的核心竞争力所在。

Arm 全面计算解决方案(TCS)我们已经不陌生了,而此次推出的 Arm 终端 CSS 带来了新的 CPU 与 GPU,提升了性能、能效、对开发者软件的支持以及 AI 方面的诸多能力,并首次为 Arm CPU 和 GPU 交付物理实现。

据了解,此次发布的 Arm 终端 CSS 是迄今速度最快的 Arm 计算平台,提升了 30% 以上的计算和图形性能,以应对要求苛刻的实际用例中的安卓工作负载,同时其 AI 推理速度提高了 59%,可以更好地处理 AI、ML 和计算视觉工作负载。

McNiven 在发布会上特别强调称,Armv9 重点提升了在矢量加速、ML 等领域的计算能力,并增加了面向 AI 的功能。

据称,新 Arm Cortex-X925 实现了 Cortex-X 系列推出以来最高的同比性能提升,该 CPU 采用 3nm 工艺,主频最高达到 3.8GHz,配合微架构的改进,与 2023 年旗舰智能手机采用的 4nm SoC 相比,其单线程性能提高了 36%。

相关截图

McNiven 谈道,Arm 想通过命名的更改更清楚地呈现其与前代产品的不同—— Cortex-X925 是 Cortex-X 推出以来取得最高 IPC 同比增幅的 CPU。

在 AI 性能方面,Cortex-X925 的 token 首次响应时间提高了 41%,这意味着如大语言模型等设备端生成式 AI 的响应能力有明显提升。

具体来看,Arm 对微架构进行了重点改进,采用了迄今为止最宽的解码和矢量设计,实现了 50% TOPS 数的增长。同时,Arm 通过更强的可配置性和更大的私有 L2 缓存大小,保留进出过 CPU 的指令和数据。

GPU 方面,新 Arm Immortalis-G925 GPU 在各款头部手游应用中实现了 37% 的性能提升,在多个 AI 和 ML 网络上实现了 34% 的性能提升,此外,Arm Mali-G725 和 Mali-G625 GPU 可以覆盖更多移动智能终端产品,比如智能手表和 XR 可穿戴设备。

相关截图

在可扩展性方面,Arm 的合作伙伴可以利用一系列不同的 CPU 和 GPU 选项,针对大屏幕计算、智能手机、数字电视和可穿戴设备设计自己的解决方案。

在工具和软件库方面,Arm 首次发布了 Arm Kleidi,其中包括面向 AI 工作负载的 KleidiAI 和面向计算机视觉应用的 KleidiCV。

相关截图

据了解,KleidiAI 是一套面向 AI 框架开发者的计算内核,让开发者们能够在各种设备上轻松获得 Arm CPU 上的最佳性能,支持 Neon、SVE2 和 SME2 等关键 Arm 架构功能。

KleidiAI 与 PyTorch、Tensorflow、MediaPipe 等热门 AI 框架集成,可以加速 Meta Llama 3、Phi-3 等关键模型的性能,并且还可前后兼容,以确保 Arm 在引入更多技术时依然能适用未来市场的需求。

相关截图

在 Arm 看来,CPU 是唯一可以确保运行未来网络的计算引擎,因此 Kleidi 的解决方案都是为 CPU 构建的。Arm 一直在将 KleidiAI 集成到各种框架中,从可以在任何设备上运行任何网络的通用框架到特定任务的点对点解决方案。

值得一提的是,Kleidi 一词来源于希腊语,意为 " 钥匙 ",即为开发者释放更多性能的钥匙。

三、AI PC 浪潮涌起,WoA 生态加速生长

值得一提的是,此次 Arm 重点提及了他们在 Windows on Arm(WoA)生态系统中所取得的进展,这部分也归功于 AI PC 的快速发展。

McNiven 特别谈到,对于 WoA 生态系统来说,今年是成果丰硕的一年。除了 Microsoft Office、Dropbox、Zoom、Adobe 套件,越来越多的应用正在成为 Arm 原生应用,尤其是百度、哔哩哔哩、Chrome 浏览器、爱奇艺、搜狗、腾讯 QQ 音乐等头部应用。

相关截图

此外还有许多针对创作者的开源工具,例如最近新增的 Audacity、Blender 和 OBS Studio,这些应用整合了大量的开源库和开发者工具。

Arm 与微软合作,通过资助开源和发布面向 Windows 的 Arm 性能库来发展生态系统。据了解,对于大多数用户来说,他们绝大部分时间都在基于 Arm CPU 的 AI PC 上运行 Arm 原生应用。

在 McNiven 看来,新用例的涌现会为市场带来新的活力,无论是在 PC 笔记本电脑、物联网、基础设施还是手机中,Arm 希望任何有计算发生的地方都有 Arm 的技术。

AI 用例的兴起带来无处不在的计算,这对 Arm 和合作伙伴而言都是一个很好的机会,生态系统对 Arm 而言至关重要。

结语:构筑面向未来 AI 的计算平台,Arm 先行一步

可以看到,Arm 正将前沿的 CPU 和 GPU 技术、生产就绪的物理实现和持续的软件优化相结合,Arm 终端 CSS 结合 Kleidi 软件,成为未来 AI 计算的优秀平台。

面向生成式 AI 的未来,移动智能终端产业必然将涌现出更多创新,Arm 将如何通过技术创新保持自身的核心竞争力并不断壮大自身的生态,我们拭目以待。