“AI教母”李飞飞:Sora仍是二维图像,只有三维空间智能才能实现AGI
“AI教母”李飞飞:Sora仍是二维图像,只有三维空间智能才能实现AGI
钛媒体 App 8 月 2 日消息,日前斯坦福大学举办的 Asian American Scholar Forum 论坛的一场闭门会上,有着 "AI 教母 " 之称的斯坦福大学教授李飞飞对钛媒体 App 独家表示,尽管美国 OpenAI 公司的 Sora 模型可以文生视频,但就本质而言,它仍属平面二维模型,没有三维立体理解能力,只有 " 空间智能 " 才是 AGI 未来方向。
李飞飞是在针对钛媒体创始人赵何娟提出的关于 " 空间智能 " 模型和大语言模型关系的问题讨论时,做出上述回应。她进一步解释称,现在的多数模型如 GPT4o 和 Gemini 1.5,都依然还是语言类模型,即输入语言,输出语言,虽然也有多模态模型,但仍局限于语言,即便有视频,也是基于二维的平面图像。但未来要实现 AGI 的关键一环是 " 空间智能 ",需要三维视觉模型。
她以 Sora 展示的 " 日本女性走过霓虹闪烁东京街头 " 的 AI 视频做例子。
" 如果你希望算法换个角度,来展现这个女子走过街头的视频,比如把摄像机放在女子背后,Sora 无法做到。因为这个模型对于三维世界并没有真正的深刻理解。而人类可以在脑海中想象女子背后的情景。" 李飞飞表示," 人类可以理解在复杂的环境下如何活动。我们知道如何抓取,如何控制,如何造工具,如何建造城市。根本而言,空间智能是几何形状,是物体间的关系,是三维空间。空间智能是关于释放在三维空间生成(视觉地图)并推理和规划行动的能力。其应用是广泛的, 比如用于 AR 和 VR,用于机器人,App 的设计也需要空间智能。"
李飞飞向钛媒体 App 强调," 自然进化使动物理解三维世界,在三维空间生活、预判并互动。这种能力已有 5.4 亿年的漫长历史。当三叶虫第一次在水中看到光,它必须在三维世界中‘导航’。如果不能在三维世界中‘导航’,它将很快成为其他动物的大餐。随着进化的推移,动物的空间智能能力加强。我们理解形状,我们理解深度。"
现年 48 岁的李飞飞,是著名计算机科学家、美国国家工程院院士、美国国家医学院院士,并且在美国斯坦福大学以人为本的 AI 研究所担任负责人。她于 2009 年领导研发的 ImageNet 图片数据库和视觉识别大赛,对海量图片进行精准标注和分类,推动了计算机视觉的识别能力的进步,也是促成 AI 突飞猛进发展的关键因素之一。去年,她公布的 VoxPoser 成为具身智能(Embodied AI)发展中关键技术方向。
今年 7 月,李飞飞创办的 AI 公司 World Labs 宣布完成两轮融资,投资方包括 a16z(Andreessen Horowitz)等,公司最新估值已达 10 亿美元(约合 72.6 亿元人民币)。
7 月底这场亚裔美国科学家论坛闭门会上,李飞飞的演讲也让更多人了解到 Word Labs 和她的 " 空间智能 " 发展理念到底是什么,即要让 AI 真正 " 从看到,到做到 "。
如何实现从 " 看到 " 到 " 做到 "
所谓 " 空间智能 ",是指人们或机器在三维空间中的感知、理解和交互能力。
这一概念最早由美国心理学家霍华德 · 加德纳(Howard Gardner)在多元智能理论中提出,让在大脑中形成一个外部空间世界的模式,并能够运用和操作。实际上,空间智能让人有能力以三度空间的方式来思考,使人知觉到外在和内在的影像,也能重现、转变或修饰影像,从而能够在空间中从容地游走,随心所欲地操弄物件的位置,以产生或解读图形的讯息。
从广义上看,空间智能不仅包括对空间方位的感知能力,还包括视觉辨别能力和形象思维能力。而对于机器而言,空间智能则是指其在三维空间中的视觉数据处理能力,能够精准做出预测,并基于这些预测采取行动。这种能力使得机器能够像人类一样在复杂的三维世界中导航、操作和决策,从而超越传统二维视觉的局限。
今年 4 月举行的 TED 演讲上,李飞飞坦言,视觉能力引发了寒武纪大爆发,神经系统的进化带来了智能。" 我们想要的不仅仅是能看会说的 AI,我们想要的是能做的 AI。"
在李飞飞看来,空间智能是 " 解决 AI 技术难题的关键法宝 "。
7 月底这场闭门活动上,李飞飞首先回顾了自 10 年前开始的现代 AI 三大驱动力:算法构成的 " 神经网络 ",即 " 深度学习 ";现代芯片,主要是英伟达 GPU 芯片;以及大数据。
自 2009 年以来,计算机视觉领域进入爆炸式进展。机器可以迅速认出物体,和人类的表现不相上下。但这只是冰山一角。计算机数视觉不仅可以识别静止的物体,跟踪移动的物体,而且可以将物体分成不同部分,甚至可以理解物体之间的关系。因此,基于图片大数据,计算机视觉领域突飞猛进。
李飞飞清晰地记得,大约 10 年前,她的学生 Andrej Karpathy 参与建立图释算法研究。他们给计算机展示一张图片,接着通过神经网络,计算机可以输出自然语言,比如说:" 这是一只猫咪躺在床上。"
" 我记得告诉 Andrej,让我们反转一下。比如给一个句子,让计算机给出一张图片。我们都笑了,觉得可能永远不会实现,或者将在很远的未来实现," 李飞飞回忆说。
过去两年,生成式 AI 技术迅猛发展。特别是几个月前,OpenAI 发布了视频生成算法 Sora。她展示了她的学生们在谷歌研发的类似产品,质量非常好。这个产品在 Sora 发布以前几个月就存在了,而且所用的 GPU(图形处理器)规模比 Sora 少很多。问题是,接下来 AI 将走向何方?
" 多年来,我一直表示,‘看到’即为‘理解世界’。但是我愿意将这个概念推进一步,‘看到’不仅仅是为了理解,而是为了做到。自然界创造了像我们这样有感知能力的动物,但实际上从 4.5 亿年前,就存在这样的动物。因为这是进化的必要条件:看到和做到是一个闭环," 李飞飞表示。
她用她最喜欢的猫咪作为例子。
一只猫咪、一杯牛奶、还有植物在桌子上的照片。当你看到这张照片时,你脑海里其实出现一个三维视频。你看到了形状,你看到了几何。
事实上,你看到了几秒钟前已经发生的事情,和几秒种后可能发生的事情。你看到了这张照片的三维空间。你在计划接下来做点什么。你大脑在运转,计算如何做才能拯救你的地毯,特别是这只猫咪是你自己的,地毯也是你自己的。
" 我把这一切称作空间智能,也就是将三维世界做成模型,就物体、地点、事件等在三维空间和时间内等进行推理。在这个例子里,我谈的是真实世界,但也可以指虚拟的世界。但是空间智能的底线是将 " 看到 " 和 " 做到 " 联系在一起。有一天,AI 将可以做到这一点," 李飞飞表示。
其次,李飞飞展示了基于多张照片重建的三维视频,然后她给出基于一张照片做的三维视频,这些技术都可用于设计中。
李飞飞表示,具身智能 AI 或者人形机器人,可以将把 " 看到 " 与 " 做到 " 形成闭环。
她表示,斯坦福大学的同事们和芯片巨头英伟达正在联合进行名为 BEHAVIOR 的研究,将家庭活动构建一个基准的动态空间,从而评估各种机器人在居家环境中的表现。" 我们正在研究如何将语言模型与大型视觉模型相连接,从而可以指挥机器人制定计划并开始行动," 她说。她给出三个例子,一个是机器人在打开抽屉,另一个是机器人在将手机充电线拔掉,第三个是机器人在做三明治。所有指令均通过人类的自然语言给出。
最后,她给出一个例子,认为未来属于 " 空间智能 " 世界,人类可以坐在那里,带上一顶有传感器的 EEG 帽子,不用张嘴说话,仅靠意念远程告诉机器人:做一顿日式大餐吧。机器人收到意念后,解密意念,即可搞出全套大餐。
" 当我们将‘看到’与‘做到’通过空间智能联系在一起后,我们即可做到。" 她表示。
李飞飞还表示,过去 20 年,她见证了 AI 激动人心的发展。但是,她认为 AI 或者 AGI 的关键一环就是空间智能。通过空间智能,看到世界、感知世界、理解世界并让机器人做事,从而形成良性闭环。
机器人将接管人类吗?
李飞飞在会议上表示,今天人们对于 AI 未来可以做什么太过夸张。她警告,人们不要将野心勃勃的、勇敢的目标与现实混为一谈,人们听到太多这样的论调。
事实上,当前 AI 已经到达拐点,特别是大语言模型。" 但是,它仍然是充满错误的、有限的技术,仍需要人类深度参与其中,需要人类理解它的有限性。现在非常危险的论调是所谓的人类灭绝的风险,即 AI 正在成为人类的机器主宰。我认为,这对社会非常危险,此类言论将带来很多意外后果。AI 的局限性没有被人类充分理解。我们需要深思熟虑的、平衡的、没有偏见的关于 AI 的交流和教育," 李飞飞强调说。
李飞飞认为,AI 应该扎根于人类。人类创造了它,人类正在发展它,人类正在使用它,人类也应该管理它。
李飞飞表示,在斯坦福大学 " 以人为本的 AI " 研究所,他们采取了三个对待 AI 的方式,包括个人、社区和社会三个层面:
在个人层面,必须参与并拥抱 AI。这是一个文明的科技。AI 改变孩子们如何学习,改变了医生如何使用诊断方法,改变了艺术家如何设计,改变了老师如何授课。不管是否为科技人员,均可以发挥自己的作用,用负责任地态度使用 AI。
在社区层面,AI 可向社区赋能,可满足社区的环境保护需求,或者农业需求。有些农业社区使用机器学习技术来检测社区水质。艺术家社区不仅在使用 AI,而且表达了他们的担忧,以及如何解决问题、减轻风险的想法。
在社会层面,政府、研究机构、企业、联邦机构和国际机构均应该认真对待这项科技。存在能源问题,这会影响到地缘政治。仍有开源与非开源的大讨论,这影响到经济和生态。仍有管理的问题,比如 AI 的风险与安全等。必须采取积极的方式,一个多方参与的方式,一个全社会的方式。现在已经没有回头路,李飞飞表示。她 2017 至 2018 年在谷歌领导 AI 项目,在 2020 年至 2022 年担任推特的董事会成员,目前是美国白宫的 AI 顾问。
关于 AI 对于工作的影响,李飞飞分享了她的看法。
李飞飞指出,在斯坦福大学以人为本 AI 研究所内,有个数字经济实验室,由 Erik Brynjolfsson 教授领导。这个非常复杂的问题有很多层面。她特别强调," 工作 " 与 " 任务 " 是两个不同的概念,因为实际中每个人的工作都由多项任务组成。
她以美国护士作例子。据估计,在护士 8 个小时的班次中,任务数以百计。因此,当人们讨论 AI 接管或者取代人类的工作时,必须分清是在取代任务还是在取代工作?
李飞飞认为,AI 改变了一个工作内的多项任务,因此也会逐渐改变工作的性质。在呼叫中心场景中,新手的工作质量被 AI 提高了 30%,但是熟练人员的工作质量并未因 AI 而有所提升。斯坦福大学数字经济实验室的一篇文章呼应了李飞飞的观点,该文章的标题是:"AI 不会取代经理的工作:使用 AI 的经理正在取代不使用 AI 的经理。"
李飞飞强调,科技会带来生产力的进步,但是生产力的进步并不会自动转化为社会的共同繁荣。她指出,历史上曾多次发生这样的事件。
(本文首发于钛媒体 App,作者|Chelsea_Sun,编辑|林志佳)
-
- 这家德国超市,为什么被胖东来视为学习榜样?
-
2024-08-02 19:50:32
-
- AI这就又回到“雕花”时代了?
-
2024-08-02 19:48:15
-
- AI 收入激增881%,AMD 想当另一个英伟达
-
2024-08-02 19:45:59
-
- “AI训练师”培训,盯上小城市
-
2024-08-02 19:43:43
-
- 德国汽车产业摔下神坛
-
2024-08-02 19:41:27
-
- AI手机,AIPC,是伪命题吗?
-
2024-08-02 19:39:11
-
- 垃圾时间or捕鲸时代,谁在为医疗行业制造焦虑?
-
2024-08-02 19:36:55
-
- 做BD工作的一些常识
-
2024-08-02 19:34:39
-
- 淘宝直播到了紧要关头
-
2024-08-02 19:32:23
-
- 长期喝茶会导致缺钙?保鲜膜包裹食物加热会致癌?谣言!
-
2024-08-02 19:30:07
-
- 3元一件的清凉爆款,有人卖了200万件,工厂来不及出货
-
2024-08-01 07:06:51
-
- 中国美妆崛起的背景音乐,是韩妆没落的挽歌
-
2024-08-01 07:04:35
-
- 车企价格战,打疼经销商
-
2024-08-01 07:02:19
-
- 奥运代言,略感意外
-
2024-08-01 07:00:03
-
- 上半年收入16.9亿美元,心动、4399、点点互动领衔,港澳台手游市场报告重磅发
-
2024-08-01 06:57:47
-
- AI走出实验室、打破“不可能三角”,游戏大厂谈大模型落地
-
2024-08-01 06:55:31
-
- 老百姓大药房“暴雷”,药店连锁无人生还?
-
2024-08-01 06:53:15
-
- 火锅集体打价格战,我却不爱吃了
-
2024-08-01 06:50:59
-
- 掉队的闪送,急需上市输血
-
2024-08-01 06:48:42
-
- 视频平台麓战奥运经济,谁能接住这“破天的富贵”?
-
2024-08-01 06:46:26