谷歌推出思考型机器人模型,但专家称其速度过慢,无法投入实际应用

作者
CTOL Editors - Lang Wang
9 分钟阅读

谷歌的机器人革命:大胆新AI模型预示思考型机器,但现实仍远逊于宣传

谷歌Gemini机器人AI在舞台上惊艳亮相,专家警告尚未准备好投入实用

周三,谷歌DeepMind揭开了其神秘面纱,展示了他们所称的朝着“在物理世界中解决通用人工智能(AGI)”迈出的重要一步。该公司展示了两款全新的人工智能模型,它们不仅仅是执行命令,还能像人一样进行推理、规划并执行机器人任务,其表现惊人地像人类。

这些精心制作的演示令人瞩目。机器人折叠衣物、分类垃圾,并朗读出它们的决策过程,仿佛它们正在思考。然而,在聚光灯背后,专家们呼吁保持谨慎。他们认为,尽管这些突破令人兴奋,但通往可靠的、日常智能机器的道路仍然漫长且充满障碍。

Benchmark Performance of Gemini Robotics Models
Benchmark Performance of Gemini Robotics Models

新一代机器人

谷歌此次发布会的主角是Gemini Robotics 1.5及其兄弟型号Gemini Robotics-ER 1.5。与那些更像自动驾驶软件的旧式机器人系统不同,这些模型旨在先思考后行动。它们能够理解周围环境,分解多步骤任务,甚至在发生意想不到的情况时进行适应。

该项目研究员Carolina Parada总结了谷歌的雄心:“我们正在开启一个物理智能体的时代——使机器人能够感知、规划、思考、使用工具并采取行动,以更好地解决复杂的、多步骤的任务。”

运作原理如下。Gemini Robotics-ER 1.5模型充当机器人的“高级大脑”。它利用空间感知、自然语言和在线工具弄清需要做什么。例如,如果被要求分类垃圾,它可以在谷歌上搜索当地的回收规则,然后决定每件物品的归属。标准的Gemini Robotics 1.5随后将这些计划转化为精确的动作,同时维持自身的推理过程。

在谷歌的演示中,一个机器人接到将物品分类到堆肥、回收和垃圾箱的指令。无需额外训练,它研究了当地指南,分析了每件物品,并执行了任务——一路上解说着它的思考过程。

也许最令人印象深刻的是,这些模型可以执行“跨实体学习”。在一种机器人设计上获得的技能可以无缝地转移到完全不同的机器上。在谷歌的ALOHA 2研究机器人上学习的任务,无需额外指导,便能转移到Apptronik的人形机器人Apollo和Franka双臂机器人上。这种泛化能力长期以来一直是机器人学家的“圣杯”。

华丽的演示,但并非全貌

尽管这些令人惊叹的演示,行业资深人士建议采取更清醒的看法。CTOL.digital的工程团队称赞这项技术“在演示中令人印象深刻,但在实际测试中速度慢且处于早期阶段”。

他们表示,“先思考后行动”的能力是真正新颖的,可以减少通常针对不同机器人所需的艰苦微调。但在实际应用中,这些模型在杂乱、不可预测的环境中表现出明显的延迟和不稳定的可靠性。

延迟成为一个大问题。推理过程,或者谷歌称之为“思考预算”,需要大量的计算。这降低了性能——对于那些预期在现实世界中快速工作的机器人来说,这是一个致命缺陷。

CTOL.digital团队指出:“预览版限制包括不断变化的API、计算成本以及对提示质量和视觉输入的高度依赖。”换句话说,这些模型适用于实验,但远未达到在工厂、医院或家庭中使用的准备程度。

基准测试与现实生活

谷歌并非空手而来。该公司夸耀Gemini Robotics-ER 1.5在15个学术基准测试中创下记录,包括空间推理、视频分析和具身问答测试。从理论上看,这个模型表现得像个优等生。

但基准测试很少能捕捉到日常生活的混乱。一个机器人可能在一尘不染的实验室里出色地分类彩色积木,却在面对真实厨房中昏暗的灯光、凌乱的台面或形状奇怪的物体时卡住。理论与实践之间的鸿沟仍然是机器人领域最艰难的障碍之一。

安全成为焦点

随着机器能够更自主地进行推理,安全不再是次要问题——它居于核心地位。谷歌表示已内置了多层保护措施,包括在采取任何行动前进行高级安全检查、与更广泛的AI安全政策保持一致以及用于碰撞避免的低级系统。

该公司还推出了其ASIMOV基准测试的新版本,这是一个旨在测试机器人处理语义安全能力的数​​据集。早期测试表明,Gemini Robotics-ER 1.5相当好地处理了安全规则,部分归功于它在行动前能够思考语境的能力。

尽管如此,CTOL.digital的工程师们仍提出了担忧。他们强调“安全层是必需的”,并警告说,安全与速度之间的权衡将继续困扰该系统目前的形态。

为什么这很重要

谷歌的发布揭示了技术世界对AI未来看法的转变。现在的重点不再仅仅是自动化重复性任务,而是创造能够像人类一样推理和适应的机器。如果成功,回报将是巨大的。更智能的机器人可以彻底改变从制造业和物流到医疗保健和家庭辅助等行业。

对于开发者来说,Gemini Robotics-ER 1.5模型已通过Google AI Studio提供。更先进的Gemini Robotics 1.5目前仅限于部分合作伙伴。这种分阶段发布表明谷歌知道这项技术仍有局限性,尽管它正在大肆宣传。

CTOL.digital最好地捕捉了这种情绪:“对统一规划和‘先思考后行动’的框架确实感到兴奋。但也对这是否代表真正的‘思考’还是高明的营销策略持怀疑态度。”

前路漫漫

谷歌的发布正值科技巨头之间展开军备竞赛之际,以证明他们的大型语言模型不仅仅能生成文本。通过将AI应用于物理任务,谷歌正试图获得优势。

即便如此,独立评估机构预测这项技术“距离家庭普及还有数年之遥”,但在条件可以严格控制的企业试点项目中,它可能会更快地发挥作用。

目前,Gemini Robotics 1.5更像是一个“登月计划”而非成熟产品——瞥见了未来可能,而非当下即用。随着机器人开始以令人惊讶地像人类的方式进行规划、推理和行动,问题不再是它们是否会重塑日常生活,而是何时。

历史告诉我们革命不会一夜之间发生。它们以微小、几乎难以察觉的步骤展开。总有一天,一个机器人可能会悄无声息地分类垃圾或叠衣服,不添麻烦。那时你就会知道,思考型机器的时代真正来临了。

非投资建议

您可能也喜欢

本文是根据我们的用户在 新闻提交规则和指南下提交的。封面照片是计算机生成的艺术作品,仅用于说明目的;不表明实际内容。如果您认为本文侵犯了版权,请毫不犹豫地通过 发送电子邮件给我们来举报。您的警惕和合作对帮助我们维护尊重和合法合规的社区至关重要。

订阅我们的通讯

通过独家预览了解我们的新产品,获取企业业务和技术的最新资讯

我们网站使用Cookie来启用某些功能,为您提供更相关的信息并优化您在我们网站上的体验。更多信息请参阅我们的 隐私政策 和我们的 服务条款 。强制性信息可在 法律声明