淖涝网 > 社会 > 正文

​人形机器人,也迎来ChatGPT时刻?

2024-01-30 17:40 来源:网络 点击:

人形机器人,也迎来ChatGPT时刻?

图片来源 @视觉中国

文|产业象限,作者丨钱江,编辑丨罗辑

2024 年才一开年,一款名叫 Mobile ALOHA 的机器人就因为 " 会炒菜 " 在 X 上出了名,还被各种大 V 轮番转发。

▲ Mobile ALOHA 在做菜 图源:斯坦福大学

可能很多人会有疑问,都 2024 年了,机器人会炒菜早已不是什么新闻,为什么这款机器人会如此备受关注?原因很简单,因为 Mobile ALOHA 的 " 炒菜 " 技术,和之前的炒菜机器人完全不是一回事。

传统炒菜机器人大多是滚筒结构,需要人工进行备菜,机器人按照设定的程序将配菜按顺序倒入滚筒,然后滚筒翻滚,在翻滚的过程中,机器人的调料瓶可以自动挤出调料。

但 Mobile ALOHA 却可以使用人类的案板和刀具、使用人类的灶具和炒锅,它也没有专属的调料瓶,而是如人类一样,用 " 手 " 拿起盐罐和酱油。总之,它如同真人一般,完成了一整套炒菜的流程。

只这一点,Mobile ALOHA 就已经完全颠覆了传统机器人的工作方式。

2021 年 8 月,马斯克首次公布了特斯拉的人形机器人计划。之所以选择人形机器人,是因为这是当前最适合人类生活环境的机器人形态,它不需要为了适配机器人的工作而改造环境,也不必为机器人单独制造额外的工具。

它完全可以像人一样,走人类所走的路、用人类的工具参与劳动。

但人形机器人一直存在一个很大的问题——学人走路很简单,学人做事却很难。

1 月中旬,马斯克曾在 X 上展示了特斯拉的人形机器人 Optimus Gen 2 叠衣服的视频,在视频中,Optimus Gen 2 的动作仍然笨拙,并且这套展示还不是机器人自主执行的操作。

▲马斯克 X 平台截图

作为对比,Mobile ALOHA 表现出来的能力,就更加具有冲击力了。

而 Mobile ALOHA 之所以能有如此亮眼的表现,关键在于斯坦福团队使用了行为克隆(BL)的方法,由人带着机器人针对某个动作重复操作 50 多次,之后机器人就能够自主完成相应的动作。

这种由人类直接参与的训练方式,与去年引爆 ChatGPT 的路径有许多相似之处。

2023 年初,OpenAI 推出的 ChatGPT 引爆全球,推动这一点的关键技术就是 " 人类强化反馈学习 ",它通过将人类反馈作为 " 奖励 " 和 " 惩罚 " 引入 AI 训练,打破了原来大模型训练的瓶颈。

而现在,随着行为克隆(BL)方法在机器人训练上的使用,曾经一直桎梏人形机器人训练的技术也迎来新的突破。似乎,人形机器人正在迎来自己的 "ChatGPT 时刻 "。

  这一次,终于轮到了华人?

在世界科技发展的前沿,华人的身份总是在国内受到额外的关注。

比如大家会关注 OpenAI 的华人工程师,关注马斯克超过三分之一的华人团队,关注时代周刊 " 全球百大 AI 人物 " 榜单中的华人入围数量。

虽然华人在世界科技发展的前沿占据重要的地位,也做出过许多不可磨灭的贡献,但到目前为止,引领世界科技浪潮的华人角色仍然屈指可数。

但这一次不同,如果行为克隆(BL)成为打开人形机器人大门的钥匙,那华人也将站在世界科技变革的中心。

作为一款家政机器人,Mobile ALOHA 由斯坦福大学的华人团队研发,其核心成员包括 Zipeng Fu、Tony Z.Zhao 和他们的导师 Chelsea Finn。其中 Zipeng Fu 是项目共同负责人,他是斯坦福人工智能实验室计算机学博士生,也是谷歌 Deep Mind 学生研究员。Tony Z. Zhao 则是斯坦福大学的计算机科学博士生。

▲ Mobile ALOHA 主创团队

虽然我们前面在讨论人形机器人,并认为 Mobile ALOHA 能够为人形机器人的训练带来变革,但从外观上讲,Mobile ALOHA 和 " 人形 " 几乎毫不相关。

Mobile ALOHA 的构造极其简单,1 个移动底座(AgileX Tracer AGV);两只手臂(ViperX 300),配有 2 个腕部摄像头和 1 个顶部摄像头,然后在底座上搭配有机载电源和计算设备。

它的实物长这样:

▲ Mobile ALOHA 样机

Mobile ALOHA 的操作模式分为两种,一种是真人遥控操作,另一种是全自动操作。

在遥控模式下,操控者可以将自己的腰部和底座连接,通过扭动腰部直接驱动轮子实现移动控制,同时,操作人员可以通过后端的机械臂控制前端的机械臂。而在自动模式下,这一切都由计算机在统一操控。

和特斯拉 Optimus Gen 2 的演示视频并非机器人独立操作的一样,X 平台上广泛流传的 Mobile ALOHA 的演示视频也并非由机器人独立完成,而更多是两种模式混合下的操作结果。

▲ X 平台截图

但即便如此,Mobile ALOHA 的操作,也给机器人训练带来巨大的突破。比如像炒个虾仁、擦拭酒瓶、冲洗盘子等简单的动作,只需要操作员手把手带着机器人重复 50 次,机器人就能够学会并自主操作。

这个过程,就类似小时候,妈妈手把手带着我们握笔和写字一样。但模仿学习的过程对于人类来说,其实并不容易,对机器人来说就更是如此了。

2018 年,波士顿动力一段机器人翻跟头、跨越障碍的视频在网络上走红,成为国内对人形机器人最早的科普。大家当时普遍惊讶于波士顿动力的机器狗,对于特技动作的控制能力,但实际上,对于机器人来说,实现翻跟头、跳跃、鞠躬,要比实现做家务简单多了。

这种现象有一个专有名词—— " 莫拉维克悖论 "。

这个概念是人工智能和机器人学领域的先驱汉斯 · 莫拉维克提出的,它描述了在计算机和机器人系统中一个有趣且非直观的现象:对于人类来说简单的感知和运动任务,对计算机和机器人而言却异常困难;而相反,人类认为复杂的逻辑和抽象思维任务,对计算机来说却相对容易。

Mobile ALOHA 之所以能够如此轻松地完成一些简单动作,关键在于斯坦福团队在机器人模仿学习能力上的突破。

模仿学习有几个 " 难啃 " 的骨头。

比如复杂的感知能力和环境适应能力,模仿学习要求机器人需要高度发达的感知能力,包括视觉、听觉、触觉等多种感官输入的综合处理,以理解和模仿人类行为。

比如精确的动作复制能力,人类的动作细微且流畅,机器人如果要精确复制,不仅需要复杂的机械结构,还需要高度精确动作控制算法。

最后还有机器人的多样性和泛化能力,人类可以将学过的技能在多种不同场景中复用,但对于机器人来说,每一个新的场景都是一次新的学习。

为了应对这些难题,机器学习领域开发了各种不同的模仿学习方法,其中主流的方法有三个,包括行为克隆(BL)、逆强化学习(IRL)和生成对抗模仿学习(GAIL)。对于 Mobile ALOHA,它的目标只是为了完成简单动作,泛化要求低,且希望在短期内看到效果。所以他们选择了行为克隆(BL)的方法。

简单来说,行为克隆是一种将观察映射到行动的方法。比如我们看到有人举着手向你迎面走来,你可能会下意识地击掌,比如在你打电话的时候,别人给你任何东西,你都会下意识地接住。

行为克隆就是利用这个原理,将一部分场景与机器人的行为进行对应。确定了模仿学习的路径后,Mobile ALOHA 其实还有一些问题需要解决。

首先是移动问题。在传统的行为克隆学习方法里,机器人可以学习各种原始技能,比如简单的 " 拾取 " 和 " 放置 ",但是在现实生活中,更多场景需要机器人具备调动全身运动的灵活性,比如煎完虾滑后,需要机器人移步到身后的餐桌,将虾滑倒入碗中,这就要求机器人会举起锅、移步、转身、反手倒入等。

Mobile ALOHA 通过将其安装在轮式底座上,扩展了原始 ALOHA 的功能,即低成本、灵巧的双手操纵木偶装置。

其次是如何在短时间内实现高效率数据搜集的问题。Mobile ALOHA 通过执行监督行为克隆,与现有静态 ALOHA 数据集的联合训练,可以提高移动操作任务的能力。

最后则是复合性误差的问题。前面提到行为克隆模仿学习将 " 状态 " 和 " 行为 " 深度绑定,所以一旦机器人的 " 行为 " 产生误差,就可能改变预期的状态,从而下一个行为产生偏差。

为了解决这一问题,斯坦福团队从神经科学获得灵感,将独立的动作组合成一个单元,简单地说,就是将一系列 " 状态 " 进行打包,以单元为单位执行所有 " 动作 ",这样就大大降低了误差,提升执行效率。

这一套方法叫做 ACT 算法(Action Chunking with Transformers,简称 ACT),它的核心思想是将复杂的决策过程分解成更小、更易管理的 " 行动块 "(action chunks),从而提高决策的效率和质量。

Mobile ALOHA 不仅让大众享受了一场机器人做饭的视觉 " 盛宴 ",更酷的是它让机器人的模仿学习能力又上了一个台阶,它在数据和算法层面的创新,为机器人迎来 "ChatGPT 时刻 " 带来更多可能性。

人形机器人,走到爆发前夜?

2018 年,从波士顿动力依靠机器狗火出圈之后,机器人赛道就开始被更多行业所关注。2022 年 10 月,特斯拉首款人形机器人在 AI Day 上初次亮相,将这个赛道彻底推向高潮。

从此之后,从太平洋的东岸到西岸,各类机器人创业公司层出不穷。

一直以来,机器人赛道都在快速发展,且从来不缺竞争者。

比如特斯拉的人形机器人,2022 年登上 AI Day 的舞台时,它还如一个老人步履蹒跚,需要人扶着;但到了 2023 年,Optimus Gen 2 就已经能够和人类挥手致意,甚至 90 度弯腰屈伸。

1 月底,Magic Lab 人形机器人 " 翻跟斗 " 的视频在网上爆火,这是一家中国的人形机器人公司,因为跳跃、后空翻等场景的优秀表现,被网友称为波士顿动力的挑战者。

▲ Magic Lab 人形机器人

这样的机器人,甚至还会制作咖啡 " 拉花 "。

再往前看,2023 年 8 月,宇树科技发布 H1 人形机器人,它的行走速度超过 1.5m/s,潜在的运动性能可以达到 5m/s 以上。

2023 年 12 月底,国内人形机器人公司优必选在港交所上市,被称为 " 人形机器人第一股 "。按照规划,优必选的人形机器人主要聚焦在工业制造、商用服务和家庭陪伴等三大场景。

而回顾整个 2023 年,机器人的技术进步和产业发展也被市场普遍认为是除了 AI 和商业航天之外,全球范围内最重要的技术发展。

所以尽管如今人形机器人还处在起步阶段,但其中蕴藏的巨大潜力却早已经掩盖不住。

根据 IFR 和中国电子学会数据,参照其他电子产品渗透率超过 20% 后将爆发式增长,2023 — 2030 年,按年均复合增长率 30% 测算,预计到 2030 年,我国人形机器人市场规模有望达约 8700 亿元。

▲图源:中商产业研究院

在这样的背景下,人形机器人及配件相关的投融资活动也相当活跃。

根据中商产业研究院最新统计数据显示," 截至 2023 年 11 月底,中国智能机器人行业投资事件数量达 139 件,投资金额达 844.62 亿元,投资领域包括人形机器人、智能仿生机器人、智能机械手、智能协作机器人等。"

到了 2024 年,虽然时间过去还不到一个月,人形机器人赛道却已经产生了 2 笔大额融资。

先是国内人形机器人研发公司 " 星动纪元 " 宣布获得由联想创投领投,金鼎资本、清控天诚跟投,老股东世纪金源超额追投的超亿元天使轮融资。不久之后,来自挪威的人形机器人初创企业 1X Technologies(简称:1X)也宣布完成了 1 亿美元的 B 轮融资。1X 在 2023 年就曾获得由 OpenAI 创业基金领投的 2350 万美元融资,成为 Open AI 投资的第一家硬件公司。

资本市场对人形机器人青睐有加,因为人形机器人赛道落地不仅会改变生产和生活方式,其众多零部件组建的上下游生态,也会形成一个巨大的配件生态供应链市场。

根据阿里云《中国机器人产业图谱及云上发展研究报告》显示,机器人产业链主要分为上游核心零部件研发与生产、中游本体制造和系统集成, 以及下游各行各业的具体应用等三方面 ,每一个环节都充斥着配件市场的新机遇。

▲图源:行行查研究中心

2023 年 10 月,国家工业和信息化部印发《人形机器人创新发展指导意见》(简称《意见》)。《意见》的第一句话就开宗明义:" 人形机器人集成人工智能、高端制造、新材料等先进技术,有望成为继计算机、智能手机、新能源汽车后的颠覆性产品,将深刻变革人类生产生活方式,重塑全球产业发展格局。"

机器人将带动整个工业制造转型升级、可能成为新的支柱型产业已经成为一个可以预见的未来。

1972 年,早稻田大学加藤实验室发明了世界上第一台人形机器人 WABOT-1,它每走一步需要 45 秒,但它的第一步跨出人类人形机器人历史性的一刻。

52 年后,载着大模型和多样化的技术路线,人形机器人或许也将迎来它的 "ChatGPT 时刻 "。