淖涝网 > 社会 > 正文

AI PC成为马良的“神笔”，让NPC成为“赛博话唠”

2024-05-27 19:14 来源：网络点击：

AI PC成为马良的“神笔”，让NPC成为“赛博话唠”

NPC 对话（图片来源：钛媒体 APP 作者拍摄）

" 我正在寻找马丁 - 莱恩先生，他告诉我正住在这间酒店，我有急事，请你帮我联系他，谢谢！" 我说到。

" 非常理解您焦急的心情，但是处于对酒店客人隐私的保护，我无法提供这位客人的信息给您，很抱歉。" 前台服务员表示。

" 我知道马丁 - 莱恩先生在这里寄存了东西，我是受到他委托来取走的，请你把它交给我吧。" 我说到。

" 好的，那您可以将行李寄存的寄存单给我吗？如果没有寄存单的话，可以让马丁 - 莱恩先生给礼宾部打电话，告知我们将东西给您。"

以上两段对话，听起来很像是摘取自某部小说或者是电影、游戏内容的固定台词，但它们竟然出自人与电脑的语音交流。

AI 让游戏 NPC" 活 " 过来了

更准确地说，上述这些对话是玩家与游戏 NPC 的交流，只不过游戏流程中既没有固定逻辑脚本也没有预设提问、回答选项。玩家唯一要做的就是想尽办法与电脑 " 套话 " 获取信息。

电脑的目标则是确认玩家的身份确实与目标人物相关，在此之前，它们则要尽一切可能保守秘密。换句话说，这场对决其实是人脑与电脑间的 " 智力与信息的攻防游戏 "，而驱动这台电脑的背后技术正是当下被所有行业集中讨论的 " 生成式 AI"。

ACE 技术演示（图片来源：钛媒体 APP 作者拍摄）

早在去年的 COMPUTEX 展会上，英伟达就推出了 ACE（Avatar Cloud Engine）技术，旨在通过生成式 AI 为游戏中的非玩家角色（NPC）带来智能对话和互动功能，如今大家看到的正是最新的 DEMO 演示。

与过去采用固定语句、动作与玩家交互的方式相比，利用 NeMo 语言模型，ACE 可以创建能够进行自然语言对话的 NPC。这些 NPC 不仅能理解玩家的输入，还能根据特定的背景和情境生成合适的回应，比如上文提到的各个角色会进行符合身份的回答，并且在称谓、回答内容上也会更加贴合真实场景。

对于 ACE 技术的出现，最大的意义在于可以帮助游戏内容制作者打破 " 线性 " 叙事的框架，也就是说，所有的游戏内容并不需要按照固定的内容流程完成。玩家可以充分发挥自己的想象，甚至可以颠倒任务的前后顺序，只要围绕最终目标即可，但这仅限于推理类的游戏，因为此类游戏中 NPC 的重要性更高。

那对于其他游戏而言，如果拥有开放式世界设定，也会在 ACE 技术上收益很大，因为每一位 NPC 都拥有了自身的 " 思维 " 而不是传统的固定逻辑，每天重复一样的事情。相比之下，过去的游戏就如同电影《楚门的世界》一样，只有玩家一个人可以尝试去灵活处置，而在 ACE 技术的加持下，玩家想出来的各种骚操作，电脑都有办法应对。

想象很美好，对吧？但就如同每次游戏画质的展示 DEMO 一样，回看 2012 年的虚幻 4 引擎展示，现在很多 3A 大作可能都还无法达到它的水平，ACE 技术的应用也是如此，它的条件还是非常苛刻的，现阶段对线上同时在线的玩家数量、网络带宽等都有着严苛的要求。

据英伟达工作人员介绍，想要获得与 NPC 的实时沟通体验，专线网络是必备选项，同时在线的玩家数量也要控制在个位数，这对于一款商业游戏而言，是完全不可接受的。

那想要扩大玩家接入量，对于游戏开发商而言，就需要更强的云端算力作为支撑，但在整个游戏内容的制作过程中，是否应该为 NPC 配置如此重量的资源以及它能够带给玩家的反馈提升，都是现阶段面临的问题。所以说，ACE 技术确实展现出了一个能够让游戏 NPC" 活 " 过来的办法。

AI PC 成为数字时代的 " 神笔 "

" 神笔马良 " 是很多人都听过的中国童话故事，马良在获得神笔后，能够把自己的画作变成真正的物件。而在 AI 时代，PC 反而成为了 " 神笔 " 的化身。一方面，Stable Diffusion 等工具可以将文字表述变成图像，这样就可以将脑中的构想通过最简单的方式呈现为画作，即便是没有绘画天赋的人也可以做到。

以英伟达目前的消费级旗舰产品 RTX 4090 D 为例，作为市面上最快的 Stable Diffusion 计算出图方案，它可以支持每秒 8 张图的生成速度。使用当前最快的 Stable Diffusion 加速方法 TensorRT，再配合开发者进一步的性能优化，目前 RTX 4090 D GPU 最高能实现每秒超过 100 张图的生成速度。

这是什么概念呢？路边的肖像速写，应该是日常能够接触到的比较快速的绘画出图方式，而画成一幅人像作品的时间，通常在 10 分钟左右。在同样时间内，Stable Diffusion 生成的图片数量（以每秒 8 张计算），已经足够支持组合为每秒 30 帧的视频播放两分半钟，而图片数量则是整整的 4800 张。

利用本地算力实现图生图（图片来源：钛媒体 APP 作者拍摄）

当然，AI PC 的能力不仅仅体现在文生图上，图生图的应用也很有趣，比如通过人像生成控制模型 InstantID，就快速通过搭载 RTX 4090 D 的 RTX AI PC 上由普通摄像头的自拍照生成高质量影棚级别的肖像照，别的场景不说，至少笔者认为对很多以拍证件照作为主要盈利手段的小摄像馆来说，这项功能绝对是 " 抢饭碗 " 的利器。

应该说，更快的生图速度、更广泛的生图应用，其实也没有什么稀奇的，毕竟不是每一张图片都能符合预期。而且玩过 AI 生图的人都知道，生成的图片质量参差不齐，总是需要不断修改、不断尝试才能获得基本满意的效果，而绘画则不同，往往在起笔时就已经有了大概方向，途中也可以进行小范围的调整。

但钛媒体 APP 认为，AI 生图应用出现，最大改变在于把绘画的门槛降低了，同时也进一步解放了人们脑中的万千创意，像 " 科幻元素 " 的作品，大众普遍能够输出的目前只包括文字部分，你可以把天马行空的想法 " 写 " 下来。

文字表述自然有其任凭读者想象优势，但在直观性上也恰恰受到了限制。因此很多科幻小说作品，比如《三体》《沙丘》等等，文字的描写在精妙，也会有很多超出读者想象的画面，而将这些作品影视化改编，其所付出的成本却又高的离谱，那么，通过 AI 绘图，是不是刘慈欣就可以简单描绘一下他心中的《三体》了呢？这是很有可能的。

其实，当前已经有很多设计师、艺术家，设法将生成式 AI 提供的 " 想法落地为现实 " 能力转变为自身的生产力。

设计应用（图片来源：钛媒体 APP 作者拍摄）

像在建筑设计领域，即时 AI 基于扩散模型和蒸馏技术，通过 RTX GPU 的加速，实现了 AI 实时绘画，屏幕前的设计师只需要勾勒出简单的线条，AI 就能帮助根据目标风格绘制出具体的概念图，设计师可以花更多时间集中在想法上，而不是如何把一个有趣的想法，一笔一笔 " 画 " 出来。

所以说，AI PC 的生产力属性，真的在绘画这件事上表现的淋漓尽致。一方面，它确实大大降低了绘画的门槛，无需掌握具体的绘画手法、色彩选择，这些都由 AI 完成，人们只需要专注于 " 想法 "。

另一方面，其在行业中的渗透和落地应用潜力也是更加直接的，ChatGPT 也许什么都能干，但通过它，很难直接创造商业价值，但对于艺术家、设计师来说，提升几十上百倍的出图效率和 " 想法预览 " 确实能够直接转化为生产力。

视频会议、游戏场景，AI PC 无处不在

很有意思的一点是，目前行业内对 AI PC 的定义也有着不小的分歧，如果按照英特尔的说法，2023 年底 AI PC 才出现，2024 年是 AI PC 元年，而对于微软、高通来说，似乎 AI PC 又是 2024 年刚刚推出的新物种。

英伟达对 AI PC 的规划（图片来源：钛媒体 APP 作者拍摄）

但如果要追溯到更早，实际上英伟达于 2018 年就推出了 RTX 技术和首款专为 AI 打造的消费级 GPU 芯片 ( GeForce RTX ) 。在他们看来，AI PC 是搭载专用 AI 加速硬件的计算机，而在 RTX GPU 上，这些专用的 AI 加速器被称为 Tensor Core。

Tensor Core 的出现，实际上就是为了能够加速 AI 性能，并为 PC 用户引入以前在云端才能运行的 AI 新功能。针对开发者或者深度 AI 用户，英伟达也已经上线了 TensorRT 开发者套件，实现加速深度学习推理性能。

TensorRT 能加速热门的生成式 AI 模型，Stable Diffusion 1.5 和 SDXL 等，全新的 UL Procyon AI 图像生成基准测试也已支持 TensorRT 加速。

AI 能力除了可以用在提升游戏开发、生产力上，它还能做很多工作，当你觉得用自拍生成棚拍画面已经足够离谱，那么 1 分钟语音就能克隆声音的 AI 能力，是不是会感觉 AI 会有点 " 恐怖 "？

通过 AI 克隆声音（图片来源：钛媒体 APP 作者拍摄）

基于 RTX GPU 加速的声音克隆可仅用 5 秒录音来克隆声音，实现无需训练的个性化声音生成。基于开源的 GPT-SoVITS 项目，声音克隆快速使用 5 秒声音样本，根据其发音特征由文本生成个性化语音片段，这个过程仅五分钟就能完成，而基于更多样本（1 分钟）的微调训练则能实现更高质量接近 1：1 复刻的声音克隆。

作为消费级 GPU 产品的供应商之一，英伟达看中 AI PC 的其中一个落地场景当然是 " 游戏 "，并为此推出了 DLSS 图形技术，其原理就是利用 AI 提高帧率并改善图像质量。最新的 DLSS 3.5 技术中，可以通过 AI 增强光线追踪表现，备受期待的《黑神话：悟空》和《永劫无间》即将支持 DLSS 3.5 光线重建和全景光线追踪技术。

AI 对游戏图像进行增强（图片来源：钛媒体 APP 作者拍摄）

换句话说，就是让显卡能够以更低的负载，输出更高帧率的画面以及光影质量更加逼真的内容，而这一切并不是通过传统意义上增加图形算力获得的，而是通过 AI 能力获得的。此外还有 RTX Remix 技术，通过使用生成式 AI 工具自动增强材质，以及借助全景光线追踪和 DLSS 快速创建画质更好的 " 重制版 " 游戏。

其他一些方面，AI 的应用也在加速渗透当中，比如很早前就已经上线的 NVIDIA Broadcast 应用，可以为直播提供 AI 增强型语音、视频工具，包括噪音和回音消除、虚拟背景和 AI 绿幕、面部追踪、视频降噪和目光接触，其实很多主播目前都已经开始使用了，本地算力调取不占网络带宽和低延迟是它最大的优势。

如果讨论生成式 AI 所能玩出的花样和上限，英伟达无疑是现阶段最有发言权的厂商，无论是已经看到的各类应用还是各个 AI 公司疯抢的高算力 GPU，都能代表其在 AI 领域硬件方面的领先地位，但想要把 AI PC 普及起来，或者让普通消费者为 AI 功能而添置或升级 GPU，现阶段而言并不现实。

可以预见的是，AI PC 在各行各业的应用会越来越广泛，同时其对娱乐、办公、社交等场景的渗透也会慢慢深入，但与很多此前发布的技术不同，生成式 AI 的加入往往是 " 无感 " 的，比如 Stable Diffusion 绘画出的高质量图片往往能够以假乱真，而 ACE 技术加持下的 NPC 也与真人有几分相似，更不要说 AI 还能帮助实现声音克隆等能力。

对于娱乐场景来说，追求高帧率和更逼真画面的用户可以通过更新 GPU 并选择开启 AI 功能来增强体验，在生产力应用上，GPU 似乎也有望成为 " 隐形战力 "。（本文首发于钛媒体 APP 作者 / 邓剑云编辑 / 钟毅）