淖涝网 > 社会 > 正文

​AI PC成为马良的“神笔”,让NPC成为“赛博话唠”

2024-05-27 19:14 来源:网络 点击:

AI PC成为马良的“神笔”,让NPC成为“赛博话唠”

NPC 对话(图片来源:钛媒体 APP 作者拍摄)

" 我正在寻找马丁 - 莱恩先生,他告诉我正住在这间酒店,我有急事,请你帮我联系他,谢谢!" 我说到。

" 非常理解您焦急的心情,但是处于对酒店客人隐私的保护,我无法提供这位客人的信息给您,很抱歉。" 前台服务员表示。

" 我知道马丁 - 莱恩先生在这里寄存了东西,我是受到他委托来取走的,请你把它交给我吧。" 我说到。

" 好的,那您可以将行李寄存的寄存单给我吗?如果没有寄存单的话,可以让马丁 - 莱恩先生给礼宾部打电话,告知我们将东西给您。"

以上两段对话,听起来很像是摘取自某部小说或者是电影、游戏内容的固定台词,但它们竟然出自人与电脑的语音交流。

AI 让游戏 NPC" 活 " 过来了

更准确地说,上述这些对话是玩家与游戏 NPC 的交流,只不过游戏流程中既没有固定逻辑脚本也没有预设提问、回答选项。玩家唯一要做的就是想尽办法与电脑 " 套话 " 获取信息。

电脑的目标则是确认玩家的身份确实与目标人物相关,在此之前,它们则要尽一切可能保守秘密。换句话说,这场对决其实是人脑与电脑间的 " 智力与信息的攻防游戏 ",而驱动这台电脑的背后技术正是当下被所有行业集中讨论的 " 生成式 AI"。

ACE 技术演示(图片来源:钛媒体 APP 作者拍摄)

早在去年的 COMPUTEX 展会上,英伟达就推出了 ACE(Avatar Cloud Engine)技术,旨在通过生成式 AI 为游戏中的非玩家角色(NPC)带来智能对话和互动功能,如今大家看到的正是最新的 DEMO 演示。

与过去采用固定语句、动作与玩家交互的方式相比,利用 NeMo 语言模型,ACE 可以创建能够进行自然语言对话的 NPC。这些 NPC 不仅能理解玩家的输入,还能根据特定的背景和情境生成合适的回应,比如上文提到的各个角色会进行符合身份的回答,并且在称谓、回答内容上也会更加贴合真实场景。

对于 ACE 技术的出现,最大的意义在于可以帮助游戏内容制作者打破 " 线性 " 叙事的框架,也就是说,所有的游戏内容并不需要按照固定的内容流程完成。玩家可以充分发挥自己的想象,甚至可以颠倒任务的前后顺序,只要围绕最终目标即可,但这仅限于推理类的游戏,因为此类游戏中 NPC 的重要性更高。

那对于其他游戏而言,如果拥有开放式世界设定,也会在 ACE 技术上收益很大,因为每一位 NPC 都拥有了自身的 " 思维 " 而不是传统的固定逻辑,每天重复一样的事情。相比之下,过去的游戏就如同电影《楚门的世界》一样,只有玩家一个人可以尝试去灵活处置,而在 ACE 技术的加持下,玩家想出来的各种骚操作,电脑都有办法应对。

想象很美好,对吧?但就如同每次游戏画质的展示 DEMO 一样,回看 2012 年的虚幻 4 引擎展示,现在很多 3A 大作可能都还无法达到它的水平,ACE 技术的应用也是如此,它的条件还是非常苛刻的,现阶段对线上同时在线的玩家数量、网络带宽等都有着严苛的要求。

据英伟达工作人员介绍,想要获得与 NPC 的实时沟通体验,专线网络是必备选项,同时在线的玩家数量也要控制在个位数,这对于一款商业游戏而言,是完全不可接受的。

那想要扩大玩家接入量,对于游戏开发商而言,就需要更强的云端算力作为支撑,但在整个游戏内容的制作过程中,是否应该为 NPC 配置如此重量的资源以及它能够带给玩家的反馈提升,都是现阶段面临的问题。所以说,ACE 技术确实展现出了一个能够让游戏 NPC" 活 " 过来的办法。

AI PC 成为数字时代的 " 神笔 "

" 神笔马良 " 是很多人都听过的中国童话故事,马良在获得神笔后,能够把自己的画作变成真正的物件。而在 AI 时代,PC 反而成为了 " 神笔 " 的化身。一方面,Stable Diffusion 等工具可以将文字表述变成图像,这样就可以将脑中的构想通过最简单的方式呈现为画作,即便是没有绘画天赋的人也可以做到。

以英伟达目前的消费级旗舰产品 RTX 4090 D 为例,作为市面上最快的 Stable Diffusion 计算出图方案,它可以支持每秒 8 张图的生成速度。使用当前最快的 Stable Diffusion 加速方法 TensorRT,再配合开发者进一步的性能优化,目前 RTX 4090 D GPU 最高能实现每秒超过 100 张图的生成速度。

这是什么概念呢?路边的肖像速写,应该是日常能够接触到的比较快速的绘画出图方式,而画成一幅人像作品的时间,通常在 10 分钟左右。在同样时间内,Stable Diffusion 生成的图片数量(以每秒 8 张计算),已经足够支持组合为每秒 30 帧的视频播放两分半钟,而图片数量则是整整的 4800 张。

利用本地算力实现图生图(图片来源:钛媒体 APP 作者拍摄)

当然,AI PC 的能力不仅仅体现在文生图上,图生图的应用也很有趣,比如通过人像生成控制模型 InstantID,就快速通过搭载 RTX 4090 D 的 RTX AI PC 上由普通摄像头的自拍照生成高质量影棚级别的肖像照,别的场景不说,至少笔者认为对很多以拍证件照作为主要盈利手段的小摄像馆来说,这项功能绝对是 " 抢饭碗 " 的利器。

应该说,更快的生图速度、更广泛的生图应用,其实也没有什么稀奇的,毕竟不是每一张图片都能符合预期。而且玩过 AI 生图的人都知道,生成的图片质量参差不齐,总是需要不断修改、不断尝试才能获得基本满意的效果,而绘画则不同,往往在起笔时就已经有了大概方向,途中也可以进行小范围的调整。

但钛媒体 APP 认为,AI 生图应用出现,最大改变在于把绘画的门槛降低了,同时也进一步解放了人们脑中的万千创意,像 " 科幻元素 " 的作品,大众普遍能够输出的目前只包括文字部分,你可以把天马行空的想法 " 写 " 下来。

文字表述自然有其任凭读者想象优势,但在直观性上也恰恰受到了限制。因此很多科幻小说作品,比如《三体》《沙丘》等等,文字的描写在精妙,也会有很多超出读者想象的画面,而将这些作品影视化改编,其所付出的成本却又高的离谱,那么,通过 AI 绘图,是不是刘慈欣就可以简单描绘一下他心中的《三体》了呢?这是很有可能的。

其实,当前已经有很多设计师、艺术家,设法将生成式 AI 提供的 " 想法落地为现实 " 能力转变为自身的生产力。

设计应用(图片来源:钛媒体 APP 作者拍摄)

像在建筑设计领域,即时 AI 基于扩散模型和蒸馏技术,通过 RTX GPU 的加速,实现了 AI 实时绘画,屏幕前的设计师只需要勾勒出简单的线条,AI 就能帮助根据目标风格绘制出具体的概念图,设计师可以花更多时间集中在想法上,而不是如何把一个有趣的想法,一笔一笔 " 画 " 出来。

所以说,AI PC 的生产力属性,真的在绘画这件事上表现的淋漓尽致。一方面,它确实大大降低了绘画的门槛,无需掌握具体的绘画手法、色彩选择,这些都由 AI 完成,人们只需要专注于 " 想法 "。

另一方面,其在行业中的渗透和落地应用潜力也是更加直接的,ChatGPT 也许什么都能干,但通过它,很难直接创造商业价值,但对于艺术家、设计师来说,提升几十上百倍的出图效率和 " 想法预览 " 确实能够直接转化为生产力。

视频会议、游戏场景,AI PC 无处不在

很有意思的一点是,目前行业内对 AI PC 的定义也有着不小的分歧,如果按照英特尔的说法,2023 年底 AI PC 才出现,2024 年是 AI PC 元年,而对于微软、高通来说,似乎 AI PC 又是 2024 年刚刚推出的新物种。

英伟达对 AI PC 的规划(图片来源:钛媒体 APP 作者拍摄)

但如果要追溯到更早,实际上英伟达于 2018 年就推出了 RTX 技术和首款专为 AI 打造的消费级 GPU 芯片   ( GeForce RTX )  。在他们看来,AI PC 是搭载专用 AI 加速硬件的计算机,而在 RTX GPU 上,这些专用的 AI 加速器被称为 Tensor Core。

Tensor Core 的出现,实际上就是为了能够加速 AI 性能,并为 PC 用户引入以前在云端才能运行的 AI 新功能。针对开发者或者深度 AI 用户,英伟达也已经上线了 TensorRT 开发者套件,实现加速深度学习推理性能。

TensorRT 能加速热门的生成式 AI 模型,Stable Diffusion 1.5 和 SDXL 等,全新的 UL Procyon AI 图像生成基准测试也已支持 TensorRT 加速。

AI 能力除了可以用在提升游戏开发、生产力上,它还能做很多工作,当你觉得用自拍生成棚拍画面已经足够离谱,那么 1 分钟语音就能克隆声音的 AI 能力,是不是会感觉 AI 会有点 " 恐怖 "?

通过 AI 克隆声音(图片来源:钛媒体 APP 作者拍摄)

基于 RTX GPU 加速的声音克隆可仅用 5 秒录音来克隆声音,实现无需训练的个性化声音生成。基于开源的 GPT-SoVITS 项目,声音克隆快速使用 5 秒声音样本,根据其发音特征由文本生成个性化语音片段,这个过程仅五分钟就能完成,而基于更多样本(1 分钟)的微调训练则能实现更高质量接近 1:1 复刻的声音克隆。

作为消费级 GPU 产品的供应商之一,英伟达看中 AI PC 的其中一个落地场景当然是 " 游戏 ",并为此推出了 DLSS   图形技术,其原理就是利用 AI 提高帧率并改善图像质量。最新的 DLSS 3.5 技术中,可以通过 AI 增强光线追踪表现,备受期待的《黑神话:悟空》和《永劫无间》即将支持 DLSS 3.5 光线重建和全景光线追踪技术。

AI 对游戏图像进行增强(图片来源:钛媒体 APP 作者拍摄)

换句话说,就是让显卡能够以更低的负载,输出更高帧率的画面以及光影质量更加逼真的内容,而这一切并不是通过传统意义上增加图形算力获得的,而是通过 AI 能力获得的。此外还有 RTX Remix 技术,通过使用生成式 AI 工具自动增强材质,以及借助全景光线追踪和 DLSS 快速创建画质更好的 " 重制版 " 游戏。

其他一些方面,AI 的应用也在加速渗透当中,比如很早前就已经上线的 NVIDIA Broadcast 应用,可以为直播提供 AI 增强型语音、视频工具,包括噪音和回音消除、虚拟背景和 AI 绿幕、面部追踪、视频降噪和目光接触,其实很多主播目前都已经开始使用了,本地算力调取不占网络带宽和低延迟是它最大的优势。

如果讨论生成式 AI 所能玩出的花样和上限,英伟达无疑是现阶段最有发言权的厂商,无论是已经看到的各类应用还是各个 AI 公司疯抢的高算力 GPU,都能代表其在 AI 领域硬件方面的领先地位,但想要把 AI PC 普及起来,或者让普通消费者为 AI 功能而添置或升级 GPU,现阶段而言并不现实。

可以预见的是,AI PC 在各行各业的应用会越来越广泛,同时其对娱乐、办公、社交等场景的渗透也会慢慢深入,但与很多此前发布的技术不同,生成式 AI 的加入往往是 " 无感 " 的,比如 Stable Diffusion 绘画出的高质量图片往往能够以假乱真,而 ACE 技术加持下的 NPC 也与真人有几分相似,更不要说 AI 还能帮助实现声音克隆等能力。

对于娱乐场景来说,追求高帧率和更逼真画面的用户可以通过更新 GPU 并选择开启 AI 功能来增强体验,在生产力应用上,GPU 似乎也有望成为 " 隐形战力 "。(本文首发于钛媒体 APP 作者 / 邓剑云 编辑 / 钟毅)